Vous êtes sur la page 1sur 219

Statistique pour Economistes et Gestionnaires

Avec exercices et QCM corrigés

Ilham EL HARAOUI
Université Ibn Tofail – Faculté d’Economie et de Gestion
Dépôt légal 2023MO3477
Bibliothèque Nationale du Royaume du Maroc BNRM - Rabat
ISBN 978-9920-42-145-4
Septembre 2023

1ère édition

Cover designed by Aya Amira Irgui


To my students

Trying to make it simple and enjoyable

Ilham EL haraoui
Préface

L’objectif de cet ouvrage est de donner aux étudiants inscrits en licence fondamentale,
Sciences Economiques et Gestion-SEG, une introduction conceptuelle à la statistique descriptive et
à son application. Ainsi, son contenu est conçu de façon à permettre aux étudiants d'acquérir une
bonne base en statistique pour pouvoir comprendre d’autres cours, pour avoir les capacités
d'analyser, de résumer et d'interpréter les données, et pour pouvoir utiliser la statistique dans
d'autres matières, notamment dans les projets de fin d’études et les rapports.

Dans ce sens, les objectifs escomptés de cet ouvrage sont les suivants : assimiler les méthodes
tabulaires et graphiques pour présenter les données, assimiler l’utilité des indicateurs statistiques,
leurs calculs et leurs applications, pouvoir croiser deux variables statistiques et établir un tableau
de contingence, savoir modéliser une relation linéaire entre deux variables quantitatives, assimiler
la régression linéaire simple et interpréter ses résultats, comparer et mesurer l’évolution des
données, notamment dans le temps, en analysant une série chronologique, et enfin calculer les
indices simples et synthétiques.

Le contenu de cet ouvrage est divisé en 7 chapitres, le chapitre 1 est une introduction et des
concepts de base de la statistique descriptive. Le chapitre 2 concerne la présentation des données
sous forme de tableaux et de graphiques. Le chapitre 3 traite les indicateurs statistiques. Le
chapitre 4 concerne la statistique descriptive bivariée. Le chapitre 5 aborde la régression linéaire
simple. Le chapitre 6 présente les étapes d’analyse d’une série chronologique. Le dernier chapitre
concerne les indices simples et synthétiques.
Cet ouvrage1 offre aussi des exercices corrigés à la fin de chaque chapitre, des séries de 3
exercices de 20 questions sous forme de QCM qui couvrent les 7 chapitres et un glossaire, afin que
les étudiants puissent assimiler facilement les connaissances présentées.

Ilham EL HARAOUI
Septembre 2023

1
Cet ouvrage est disponible gratuitement sur la plateforme Classroom avec le code : l4yyrnw, sur la plateforme Moodle de
l’université Ibn Tofail et dans ResearchGate.
SOMMAIRE

Chapitre 1 : Introduction et concepts de base de la statistique descriptive 1

Chapitre 2 : Présentation des données sous forme de tableaux et de graphiques 11

Chapitre 3 : Indicateurs statistiques 32

Chapitre 4 : Statistique descriptive bivariée 81

Chapitre 5 : Régression linéaire simple 98

Chapitre 6 : Séries chronologiques 122

Chapitre 7 : Indices simples et synthétiques 156

Questions à Choix Multiples QCM corrigées 175

Glossaire 199
Introduction & concepts de base 1

Chapitre 1.
Introduction et concepts de base de la statistique descriptive

1. A quoi peut servir la statistique descriptive ?


2. Définition de la statistique et des statistiques
3. Domaines d’application de la statistique
4. Etapes d’une étude statistique
5. Vocabulaire du statisticien
6. Variables qualitatives et variables quantitatives
Introduction & concepts de base 2

Chapitre 1.
Introduction et concepts de base de la statistique descriptive

1. A quoi peut servir la statistique descriptive ?


La statistique peut servir à :
o Analyser et résumer une base de données.
o Prendre des décisions et les justifier en chiffres.
o Décrire les caractéristiques principales d’un ensemble de données.
o Faire une analyse de données, établir des rapports et des résultats pour prendre
des décisions.
o Fabriquer l’information.
o Entamer une étude statistique.

2. Définition de la statistique et des statistiques


Plusieurs définitions de la statistique et des statistiques peuvent être repérées à travers la
littérature. Bien évidemment, il y a une différence entre « la statistique » et « les
statistiques », que nous pouvons résumer comme suit :
§ La statistique est un ensemble de techniques qui a pour objet de décrire,
numériquement et graphiquement des populations ou des échantillons.
§ Les statistiques sont des résumés d’un ensemble de données sous forme de tableaux
ou de graphiques, ou sous forme numérique.
La statistique est en effet un art et une science permettant de collecter, d’analyser, de
présenter et d’interpréter des statistiques.

3. Domaines d’application de la statistique


La statistique est appliquée dans plusieurs domaines, notamment en sciences exactes, en
sciences économiques, en science de gestion, en sciences juridiques, en médecine, etc.
Introduction & concepts de base 3

4. Etapes d’une étude statistique


Une étude statistique naît d’un besoin d’information pour prendre des décisions. Elle peut
comprendre six étapes à suivre pour la mener à terme. Ces six étapes sont décrites
ci-dessous :

4.1 Problématique et objectifs


Pour préparer et réaliser une étude statistique, il faut tout d’abord définir le problème et la
problématique. Par la suite, il est nécessaire de savoir quels types de décisions le
responsable de l’étude a l’intention de prendre. C'est-à-dire qu’il faut :
§ Préciser le problème et la problématique.
§ Les raisons de l’étude.
§ Les objectifs escomptés.
§ La population ou l’échantillon à prendre en considération.
§ Quelles variables statistiques (caractères) peuvent être considérées dans l’étude ?
A la fin de cette première étape, le responsable de l’étude doit disposer de suffisamment
d’informations pour mettre en place une liste des données à collecter pour passer à la
seconde étape.

4.2 Planning de l’étude


Cette étape répond à la question suivante, comment recueillir les données ? Nous pouvons
noter que les données peuvent être collectées en utilisant par exemple :
• L’expérimentation.
• L’observation.
• La réunion de groupe.
• Les données de seconde main.
• L’enquête.
Cette étape doit aussi répondre à deux autres questions, « Dans quelle période peut-on
recueillir les données ? » et « combien d’individus faut-il choisir ? », avant de passer à la
troisième étape.
Introduction & concepts de base 4

4.3 Collecte de données


Il faut noter la période de recueil des données brutes. Ces derniers ne sont en effet que les
données disponibles à la fin de la phase de la collecte des données.

4.4 Analyse des données


La question qui se pose à cette étape est la suivante : comment peut-on traiter les données
pour en extraire de l’information utile à la prise de décision ?
Pour répondre à cette question, il faut :
§ Analyser les données.
§ Présenter les données.
§ Résumer les données.

En d’autres termes, cette étape du traitement des données consiste à analyser, résumer,
comparer, et mesurer les données pour créer de l’information.

4.5 Présentation des résultats


La présentation des résultats peut être sous forme de rapports chiffrés avec des tableaux
et/ou des graphiques.

4.6 Prise de décision


Aucune étude statistique ne produit directement des décisions ou d’actions correctives. Ces
décisions sont souvent d’ordre stratégique ou politique et l’étude statistique reste un outil
d’aide à la décision.

5. Vocabulaire du statisticien
La maîtrise du vocabulaire technique de la statistique est indispensable. Plusieurs concepts
peuvent être introduits2 :

2
Le glossaire introduit tous les concepts.
Introduction & concepts de base 5

o Population : un ensemble d’éléments (au sens mathématique) considéré dans une


étude particulière.
o Individus ou unités statistiques : les éléments de la population.
o Taille de la population (effectif total) : le nombre d’individus ou d’unités statistiques
appartenant à la population.
o Une variable statistique ou un caractère : une caractéristique des éléments à laquelle
on s’intéresse.
o Modalités : les valeurs que peut prendre une variable statistique.
o Effectif : nombre d’individus qui représentent une modalité de la variable statistique.
o Echantillon : un sous-ensemble de la population.
o Un recensement : un processus de collecte de données relatives à la population
entière.
o Une observation : un ensemble de mesures obtenues pour un élément.
o Enquêtes d’échantillonnage : des enquêtes visant à collecter des données relatives à
un échantillon.
o Inférence statistique : un processus d’utilisation des données d’un échantillon pour
estimer ou tester des hypothèses concernant les caractéristiques d’une population.

Nous mettons en exergue les points suivants qui suscitent la confusion chez les étudiants :
o Il ne faut pas confondre entre la population et les unités statistiques. La population
représente l’ensemble des éléments observés, et ces éléments portent le nom d’unités
statistiques.
o La population est un ensemble bien délimité, sa définition doit être parfaitement
claire et précise.
o La population n’est jamais un nombre, c’est un ensemble. Exemples : des pièces
fabriquées par une machine, les véhicules dans un stationnement, les étudiants dans
une faculté…
o Les unités statistiques peuvent être des êtres humains, des objets, des entités
géographiques...Ce sont des éléments de la population.
Introduction & concepts de base 6

o Il ne faut pas confondre entre unités statistiques et modalités. Les deux concepts
sont distincts. De même, il ne faut pas confondre entre une variable statistique (ou
caractère) et une modalité.
La variable statistique est un aspect particulier des unités statistiques (ou individus),
auquel on s’intéresse, une caractéristique qui peut varier d’un individu à l’autre. La
variable porte aussi le nom de caractère. L’ensemble des observations d’une
variable statistique forme l’ensemble des modalités de ce caractère.
o A chaque individu (unité statistique) doit être associée une modalité unique.
C’est-à-dire « au moins une » et « au plus une ».
* Au plus une : il ne doit pas être possible d’associer à un même individu deux
modalités. Les modalités sont incompatibles (parfaitement distinctes les unes des
autres).
* Au moins une : il ne doit pas être possible qu’un individu ne soit associé à aucune
modalité. Tous les aspects de la variable doivent être présents dans la liste des
modalités.

6. Variables qualitatives et variables quantitatives


On distingue deux types de variables statistiques :
§ une variable qualitative, si ses modalités ne sont pas des nombres ou bien elles sont
des nombres qui n'ont pas de sens ;
§ une variable quantitative, si ses modalités sont des nombres qui ont un sens.

Pour une variable qualitative, on distingue deux types :


§ Une variable nominale, s’il n’est pas possible de classer ses modalités suivant un
ordre qui a du sens.
Nous pouvons prendre, par exemple, la situation matrimoniale ou la couleur des
yeux. Ce type de variable peut être codé pour faciliter la saisie des données.
§ Une variable ordinale, s’il est possible de classer ses modalités suivant un ordre qui
a du sens.
Introduction & concepts de base 7

Nous pouvons prendre, par exemple, une évaluation des opinions ou la satisfaction des
consommateurs vis-à-vis d’un produit.
Les modalités ou les valeurs de la variable qualitative peuvent être notées : m1, m2…mk , en
prenant en considération k modalités.

Pour une variable quantitative, on distingue deux types :


§ Une variable discrète, si la valeur de ses modalités relève d’un comptage (si
l’ensemble de ses modalités est dénombrable).
A titre d’exemple, nous pouvons considérer le nombre d’enfants, le nombre de
consommateurs en ligne, ou le nombre de pièces d’un logement.
§ Une variable continue, si la valeur de ses modalités relève d’une mesure (ne relève
pas d’un comptage) et si l’ensemble de ses modalités est non dénombrable.
Ainsi la variable prend n’importe quelle valeur numérique dans un intervalle. Par
exemple, la taille, le poids, le revenu, le chiffre d’affaires (CA) des entreprises…
§ Les modalités ou les valeurs de la variable quantitative peuvent être notées : X1,
X2…Xk , en prenant en considération k modalités.

En résumé, on peut schématiser les types et les sous-types des variables statistiques comme
ci-dessous.

Variable
statistique

Qualitative Quantitative

Nominale Discrète

Ordinale Continue
Introduction & concepts de base 8

7. Exercices corrigés

Exercice 1
On dispose de la production de voitures d’une entreprise X dans un mois destinée pour
l’exportation qui est répartie dans le tableau ci-dessous :

Répartition des voitures par modèle


Modèle Effectif
A 1.500.000
B 1.400.000
C 5.440.000
D 698.000
E 2.331.000
Total 11.369.000

Source3: exemple

Il s’agit de définir :
1. La population étudiée.
2. La taille de la population.
3. Les unités statistiques.
4. La variable statistique.
5. Les modalités.
6. L’effectif de la modalité “C”.

Solution
1. La population étudiée : les voitures produites durant un mois destinées à l’export.
2. La taille de la population : 11.369.000 voitures.
3. L’unité statistique : voiture.
3
Un tableau statistique doit toujours avoir un titre et une source. Un tableau sans source n’a aucun sens. Nous
utilisons dans cet ouvrage comme source : exemple, puisque les exemples présentés ne sont pas issus de données réels.
Introduction & concepts de base 9

4. La variable statistique (caractère) : le modèle (qualitative nominale).


5. Les modalités du caractère : A, B, C, D et E.
6. L’effectif de la modalité “C” : 5.440.000 voitures.

Exercice 2
La faculté d’économie et de gestion veut entamer une étude statistique concernant les
étudiants inscrits en première année. Cette étude concerne les options du BAC des étudiants.

Répartition des étudiants selon l’option du BAC

Option du Bac Nombre d’étudiants


Sciences économiques 1140
Sciences expérimentales 505
Sciences mathématiques 45
Lettres 26
Total 1716

Source : exemple
Il s’agit d’identifier :
§ la population étudiée ;
§ la taille de la population ;
§ les unités statistiques ou les individus ;
§ la variable statistique et les modalités ;
§ l’effectif de la modalité “sciences expérimentales” et l’effectif des deux dernières
modalités.

Solution
§ La population étudiée : les étudiants inscrits en première année à la faculté
d’économie et de gestion.
§ La taille de la population : 1716.
Introduction & concepts de base 10

§ Les unités statistiques ou individus : étudiants.


§ L’unité statistique : étudiant.
§ La variable statistique : cette population est étudiée selon la variable statistique ou le
caractère « option du BAC »
§ Les modalités du caractère : 1. sciences expérimentales, 2. sciences mathématiques,
3. sciences économiques, 4. lettres, avec les effectifs 1140, 505, 45, 26
respectivement.
§ L’effectif de la modalité “sciences expérimentales” = 505 étudiants.
§ L’effectif des deux dernières modalités = 71 (45+26) étudiants.
Présentation des données 11

Chapitre 2.
Présentation des données sous forme de tableaux et de graphiques

1. Effectif, effectif total & fréquence


2. Présentation des données qualitatives
3. Présentation des données quantitatives
4. Exercice corrigé
Présentation des données 12

Chapitre 2.
Présentation des données sous forme de tableaux et de graphiques

Pour présenter et résumer des données (qualitatives ou quantitatives) sous forme de


tableaux ou de graphiques, nous allons en premier lieu définir l’effectif, l’effectif total et la
fréquence.

1. Effectif, effectif total & fréquence


1.1 Effectif & effectif total
Le nombre d’individus qui représente une modalité est l’effectif. On souligne que l’effectif
d’une modalité « i » est noté ni .
Si on dispose de k modalités d’une variable discrète, nominale ou ordinale, les effectifs
sont notés : n1 , n2 ,…., nk

La somme des effectifs est l’effectif total, il est ainsi égal au nombre total d’individus :
k
n1 + n2 +…………….+ nk = ∑ ni = n
i=1

1.2 Fréquence
La fréquence (fi) associée à une modalité « i » telle que i=1, 2, …k, ou à un ensemble de
modalités qui peuvent être aussi regroupées en classes, indique la proportion d’individus
présentant cette modalité, ou cet ensemble de modalités par rapport à l’ensemble des
individus.
ni
La fréquence d’une modalité « i » : fi =
n
k
La somme des fréquences : ∑ fi = 1
i=1
Présentation des données 13

Nous soulignons que la fréquence est un nombre qui est toujours compris entre 0 et 1
(fréquence relative) ou entre 0% et 100% (fréquence en pourcentage).
Nous pouvons aussi souligner que :

La fréquence relative *100 = fréquence en pourcentage

Notons que parfois la fréquence absolue (ou tout simplement fréquence) est utilisée pour
désigner l’effectif, surtout dans des livres anglo-saxons traduits en français.

Rappelons que nous utiliserons l’effectif, l’effectif total et la fréquence pour présenter les
données. Ces données peuvent être présentées sous forme de tableaux ou de graphiques. Il
est ainsi important de savoir les calculer et les interpréter.

Ainsi, nous utiliserons dans le chapitre suivant des exemples afin de comprendre
l’importance des présentations sous forme de tableaux et de graphiques et savoir comment
les interpréter.
Nous ferons aussi la distinction entre la présentation des données qualitatives et la
présentation des données quantitatives.

2. Présentation des données qualitatives

Exemple 1
On considère la répartition de l’effectif des employés d’une entreprise X selon leur niveau
d’éducation.
Il faut calculer la fréquence relative, la fréquence en pourcentage, et présenter les données
sous forme de graphiques. Le tableau initial contient l’effectif seulement qui est inclus dans
la solution 1.
Présentation des données 14

Solution 1
Présentation des données sous forme de tableau

Répartition des employés d’une entreprise X


selon leur niveau d’éducation

Fréquence Fréquence en
Niveau Effectif
relative pourcentage
Doctorat 56 0,0075 0,75 %
Master 109 0,0145 1,45 %
Licence 500 0,0665 6,65 %
Bac 1 450 0,1929 19,29 %
Etudes secondaires ou moins 5 400 0,7186 71,86 %
Total 7 515 1,0000 100,00 %

Source : exemple

Présentation des données sous forme de graphiques


Notons qu’un graphique permet de mieux mettre en évidence certaines informations. Pour
des variables qualitatives, un diagramme à barres ou un digramme à secteurs circulaires
sont les graphiques les plus utilisés. Nous présentons brièvement ces deux graphiques.

§ Un diagramme à barres (à bandes/à tuyaux d’orgue) associe une bande verticale à


chaque modalité et la distance entre chaque bande doit être constante. La largeur de
chacune des bandes est la même et la hauteur est égale à l’effectif ou à la fréquence
de la modalité correspondante.

§ Un diagramme à secteurs circulaire (diagramme circulaire) est un graphique qui


divise un cercle en secteurs angulaires, et dont les angles aux centres sont
proportionnels aux effectifs ou aux fréquences de chaque modalité. L’angle au centre
est égal à fi ×360.
Présentation des données 15

6 000
5 400
5 000

4 000

3 000
Effectif
2 000 1 450
1 000 500
56 109
0
Doctorat Master Licence Bac Etudes
secondaires
ou moins

Répartition des employés d’une entreprise X


selon leur niveau d’éducation
Source : exemple
Exemples de commentaires sur les données du graphique :
§ 1950 employés de l’entreprise X ont un bac ou une licence et 165 ont un doctorat
et un master.
§ Les employés ayant un niveau d’éducation « études secondaires ou moins »
constituent le plus grand effectif parmi l’ensemble des employés.
§ Les employés ayant un niveau d’éducation « Doctorat » constituent le plus petit
effectif parmi l’ensemble des employés.

Fréquence en
80,00% pourcentage 71,86%
70,00%
60,00%
50,00%
40,00%
19,29%
30,00%
20,00% 6,65%
0,75% 1,45%
10,00%
0,00%
Doctorat Master Licence Bac Etudes
secondaires
ou moins

Répartition des employés d’une entreprise X


selon leur niveau d’éducation
Source : exemple
Présentation des données 16

Exemples de commentaires sur les données :


§ 71,86% des employés de l’entreprise X ont un niveau d’études du secondaire ou
moins.
§ 6,65% des employés de l’entreprise X ont une licence.
§ 8.10% des employés de l’entreprise X ont un master ou une licence.

NB. Dans les manuels de la statistique, le titre d’un graphique se situe en général en bas,
contrairement au titre d’un tableau.

56; 0,75% 109; 1,45% 500; 6,65%

1 450; 19,29%

Doctorat
Master
Licence
Bac
Etudes secondaires ou moins

5 400; 71,86%

Répartition des employés d’une entreprise X


selon leur niveau d’éducation

Source : exemple

Exemple 2
On considère la répartition des consommateurs selon leur appréciation d’un produit X. Il
faut calculer l’effectif de la modalité « mauvais » sachant que nous disposons de l’effectif
total et les effectifs des autres modalités.
Il faut aussi calculer la fréquence relative, la fréquence en pourcentage, la fréquence
cumulée et présenter les données sous forme de graphiques.
Présentation des données 17

Le tableau initial contient seulement les effectifs qui sont inclus dans la solution 2
ci-dessous.

Solution 2
Répartition des consommateurs
selon leur appréciation d’un produit X

Appréciation d’un Fréquence Fréquence Fréquence


Effectif
produit X relative en % cumulée en %
Très mauvais 20 0,054 5,41% 5,41%
Mauvais 45 0,122 12,16% 17,57%
Moyen 201 0,543 54,32% 71,89%
Bon 101 0,273 27,30% 99,19%
Très Bon 3 0,008 0,81% 100,00%
Total 370 1,000 100,0% ---
Source : exemple

Nous soulignons, les erreurs commises par certains étudiants et nous mettons en exergue
les points suivants :
o Le total des fréquences relatives est toujours égal à 1.00, il ne peut pas être égal à
0.9999 ; sinon il faut essayer d’arrondir les valeurs des fréquences relatives.
o La même remarque est valable pour la somme des fréquences en pourcentage, elle
ne peut pas être égale à 99,99% ou à 108%, soit il faut arrondir les valeurs en
prenant en considération le nombre de décimales adéquat, soit il faut revoir les
calculs.
o Il faut veiller à ce que le nombre de décimales après la virgule soit le même pour
toutes les valeurs, sinon, il aura une probabilité de commettre des erreurs.
o Le total des fréquences cumulées en pourcentage n’existe pas.
Présentation des données 18

Présentation des données sous forme de graphiques

54,32%
60,00%
50,00%
Fréquence en
40,00% pourcentage
27,30%
30,00%
12,16%
20,00%
5,41%
0,81%
10,00%
0,00%
Très Mauvais Moyen Bon Très Bon
mauvais

Répartition des consommateurs


selon leur appréciation d’un produit X
Source : exemple

0,81%
5,41%

27,30% 12,16%
Très mauvais

Mauvais

Moyen

Bon

Très Bon

54,32%

Répartition des consommateurs


selon leur appréciation d’un produit X
Source : exemple

Notons que nous pouvons avoir d’autres types de diagrammes pour présenter les données,
comme le diagramme à cumul interne, le diagramme figuratif, ou d’autres histogrammes
de comparaison (diagrammes en barres multiples).
Présentation des données 19

Nous présentons ci-dessous quelques graphiques à titre d’exemple. Les données ont été
simplifiées et changées pour les illustrer.

Diagrammes en barres multiples :

151"
160"

140" 120"

120"
89"
100" 83"
64" 66"
80" Hommes&

60" 45" Femmes&


36"
28"
40" 20"

20"

0"
Doctorat" Master" Licence" Bac" Etudes"
secondaires"ou"
moins"

Répartition des employés d’une entreprise X


selon leur niveau d’éducation

Source : exemple
Diagramme à cumul interne :

100%#

80%#

60%#
Femmes%
40%# 70%# Hommes%
59%# 59%#
20%# 36%# 37%#

0%#
Doctorat# Master# Licence# Bac# Etudes#
secondaires#
ou#moins#

Répartition des employés d’une entreprise X


selon leur niveau d’éducation
Source : exemple
Présentation des données 20

Diagrammes en barres multiples :

59
60

50 45

40 33

30 25
23 19
20 12
10
10 3

0
2021 2022 2023

Sciences Economiques Sciences Experimentales Sciences Mathématiques

Répartition des nouveaux étudiants inscrits


par option du baccalauréat en 2021, 2022 et 2023
Source : exemple

Diagrammes en barres multiples :

59
60

50 45

40 33

30 25
23 19
20 12
10
10 3

0
Sciences Economiques Sciences Sciences
Experimentales Mathématiques

2021 2022 2023

Répartition des nouveaux étudiants inscrits


par option du baccalauréat en 2021, 2022 et 2023

Source : exemple
Présentation des données 21

En résumé, nous pouvons présenter des données qualitatives (nominales ou ordinales) sous
forme de tableaux et de graphiques que nous avons résumés dans le schéma ci-dessous :

Base de données

Données qualitatives Données quantitatives

Méthodes tabulaires Méthodes graphiques

1. Effectif 1. Diagramme en barres


2. Effectif total 2. Diagramme circulaire
3. Fréquence relative 3. Diagramme figuratif
4. Fréquence en pourcentage
5. Fréquence cumulée
(cas des variables ordinales).

3. Présentation des données quantitatives


3.1 Variable quantitative continue
Pour une variable quantitative continue, nous pouvons noter que les valeurs des modalités
appartiennent à des intervalles réels. Ainsi, ces valeurs sont regroupées dans des intervalles
de valeurs numériques appelés classes.
Nous soulignons que le regroupement en classes se justifie par l’existence d’un grand
nombre de modalités, ainsi la présentation des données s’en trouve simplifiée.

Comment peut-on alors définir et concevoir ces classes ou ces intervalles ?

Nous mettons en exergue trois étapes pour établir des classes à savoir :
1. Déterminer le nombre de classes
§ Il est recommandé d’utiliser entre 5 et 15 classes.
§ En pratique, le nombre est déterminé par un processus “essai-erreur”.
Présentation des données 22

2. Déterminer la largeur de la classe. La largeur est égale à :

Valeur la plus élevée - Valeur la plus faible


Nombre de classes

Notons qu’une détermination de la même largeur pour toutes les classes réduit énormément
les erreurs d’interprétation.

3. Déterminer les limites de la classe


Les classes sont notées à titre d’exemple : [ ei ; ei+1 [ , sachant que ei est la borne inférieure
et ei+1 est la borne supérieure.
Pour chaque classe il faut aussi définir l’amplitude et le centre :
Amplitude de la classe : ai = ei+1 - ei

ei+1 + ei
Centre de la classe : xi =
2

Nous pouvons schématiser ces concepts comme ci-dessous :

Borne inférieure xi Borne supérieure

ai

Exemple 1
On prend on considération un tableau qui nous donne la répartition des consommateurs
d’un produit Y selon l’âge. Le tableau initial inclut les effectifs seulement qui sont intégrés
dans la solution 1. Il faut calculer l’amplitude de chaque classe, son centre et la fréquence
en pourcentage. Nous pouvons noter que cet exemple concerne un cas avec des amplitudes
égales.

Nous avons repris le même exemple avec des amplitudes inégales (solution 2 ci-dessous),
afin de présenter les données sous forme de graphique et assimiler la méthode et
comprendre les erreurs à éviter.
Présentation des données 23

Avant de présenter les deux solutions, il est important de noter qu’un histogramme peut être
utilisé pour présenter des données quantitatives continues.

Un histogramme est formé d’un ensemble de rectangles, tel que la base de chaque
rectangle est déterminée par les extrémités de la classe correspondante, et dont la
surface doit être proportionnelle à l’effectif (ou à la fréquence) qui représente cette
classe.

Si toutes les classes ont la même amplitude, il suffit pour réaliser l’histogramme de porter
en ordonnée les effectifs ou les fréquences. Si elles n’ont pas la même amplitude, on porte
en abscisse les extrémités de chaque classe, et en ordonnée les effectifs par unité
d’amplitude ni/ai , appelés densités d’effectifs, ou les fréquences par unité d’amplitude fi/ai ,
nommées densités de fréquences (voir l’application dans la solution 2).

Solution 1
Cas d’amplitudes égales.
Répartition des consommateurs
d’un produit Y selon l’âge

Amplitude de Centre de la Fréquence en


Age Effectif
la classe ai classe xi pourcentage fi
[ 15 - 20 [ 130 5 17,5 19,49%
[ 20 - 25 [ 343 5 22,5 51,42%
[ 25 - 30 [ 107 5 27,5 16,04%
[ 30 - 35 [ 33 5 32,5 4,95%
[ 35 - 40 [ 54 5 37,5 8,10%
Total 667 --- ---- 100,00%

Source : exemple

Solution 2
(Le même cas avec des amplitudes inégales)
Présentation des données 24

Répartition des consommateurs


d’un produit Y selon l’âge

Amplitude de Fréquence en
Age Effectif fi /ai
la classe ai pourcentage fi
[ 15 - 20 [ 130 5 19,49% 3,9
[ 20 - 35 [ 343 15 51,42% 3,4
[ 35 - 40 [ 107 5 16,04% 3,2
[ 40 - 50 [ 33 10 4,95% 0,5
[ 50 - 55 [ 54 5 8,10% 1,6
Total 667 --- 100,00% ----

Source : exemple

Afin de présenter les données sous forme d’histogramme, et puisque dans la solution 2, les
amplitudes des classes sont inégales, nous utiliserons les densités de fréquences (fi/ai), tel
que fi représente les fréquences en pourcentage.

Notons qu’une représentation des données dans un graphique, comme dans le graphique
ci-dessous, qui représente la répartition des consommateurs d’un produit Y selon l’âge, sans
prendre en considération que les amplitudes sont inégales est une représentation appropriée.
Mais, elle peut conduire certains étudiants à des erreurs d’interprétation, tel que l’intervalle
[20 -35 [contient une plus grande concentration de consommateurs.

Ce qui n’est pas correct. En prenant en considération les densités des fréquences par
exemple, on peut noter que c’est l’intervalle [15 -20 [. Nous pouvons aussi noter que la
classe modale n’est pas [20 - 35[, comme il peut paraître dans le premier graphique en bleu,
mais [15 - 20 [.
Présentation des données 25

Effectif(

343
700
600
500

400
300 130 107
54
200
33
100

0
5 10 15 20 25 30 35 40 45 50 55 Age(

Répartition des consommateurs


d’un produit Y selon l’âge

Source : exemple

Le graphique qui prend en considération les densités des fréquences est illustré
ci-dessous.

(fi/ai)*100*
3,9!

4,0 3,4!
3,2!
3,5
3,0
2,5

2,0 1,6!
1,5

1,0 0,5!
0,5

0
5 10 15 20 25 30 35 40 45 50 55
Age$

Répartition des consommateurs


d’un produit Y selon l’âge
Source : exemple

Nous pouvons ajouter au dernier graphique, le polygone des fréquences qui peut être
construit en joignant les milieux de chaque sommet des rectangles.
Présentation des données 26

Ceci dit, le polygone des fréquences passera par les centres des classes au sommet de
chaque rectangle.

Nous pouvons aussi dessiner la courbe cumulative ou la courbe des fréquences, en prenant
en considération par exemple le cas d’amplitudes égales.
Cette courbe cumulative est une représentation graphique des fréquences cumulées. Ces
fréquences cumulées sont des fréquences cumulées ascendantes comme il est illustré dans
le graphique ci-dessous :

Fréquences**
cumulées* 100,00%*
100 91,90%*
86,96%*

80
70,91%*

60

40

19,49%*
20

0
Age*
10 15 20 25 30 35 40 45

Répartition des consommateurs d’un produit


Y selon l’âge

Source : exemple

Nous pouvons aussi dessiner une ogive. Cette dernière est un graphique d’une distribution
cumulée qui représente sur l’axe horizontal, les valeurs des observations et sur l’axe
vertical, les valeurs des effectifs cumulés (fréquences absolues cumulées). L’ogive est
construite en indiquant par un point précis la fréquence absolue cumulée de chaque classe,
comme dans le graphique suivant :
Présentation des données 27

Effectifs
800" cumulés
667"
700" 613"
580"
600"

473"
500"

400"

300"

200" 130"

100"
0"
0"
Age" ["15""/"20""[" ["20""/"25""[" ["25""/"30""[" ["30""/"35""[" ["35""/"40""["

Répartition des consommateurs d’un produit Y


selon l’âge
Source : exemple

3.2 Variable quantitative discrète

Exemple 3
Nous analysons la répartition des consommateurs selon le nombre de fois d’achats en ligne.
Il s’agit de calculer la fréquence en pourcentage et la fréquence cumulée, et présenter les
données sous forme de diagramme en bâtons et sous forme de diagramme cumulatif. Le
tableau initial inclut seulement les effectifs.

Solution 3
Répartition des consommateurs selon le nombre
de fois d’achats en ligne

Nombre de fois Effectif Fréquence en Fréquence cumulée en


d’achats en ligne pourcentage pourcentage
0 150 73,17% 73,17%
1 34 16,59% 89,76%
2 16 7,80% 97,56%
3 3 1,46% 99,02%
4 2 0,98% 100,00%
Total 205 100,00% ---

Source : exemple
Présentation des données 28

Pour présenter les données sous forme de graphiques, nous utiliserons un diagramme en
bâtons. Ce dernier est appelé aussi un diagramme différentiel, puisqu’il représente les
différentes modalités de la variable discrète. C’est aussi un diagramme à barres, sauf que
les barres sont plus fines.

Effectif
160 150

140
120
100
80
60
34
40
20 16
0 3
2
0
1
2
3
4

Répartition des consommateurs


Nombre de fois d’achatselon
en le nombre
de fois d’achats en ligne
ligne

Source : exemple

Nous pouvons aussi utiliser un diagramme cumulatif qui est également appelé diagramme
intégral au sens de l’intégration mathématique. Il représente des fréquences cumulées
comme illustrées dans le graphique ci-dessous, en prenant en considération les données de
l’exemple 3.

Fréquences cumulées
99,02% 100,00%
100 97,56%

95

90
89,76%

85

80

75
73,17%
0 1 2 3 4

Nombre de fois d’achat en ligne

Répartition des consommateurs selon le nombre


de fois d’achats en ligne
Source : exemple
Présentation des données 29

Nous mettons en exergue qu’il y a d’autres diagrammes que nous pouvons utiliser, comme
le diagramme de points, ou le diagramme Stem and Leaf. L’exercice à la fin de ce chapitre
concerne ces deux diagrammes.

Nous pouvons ainsi résumer la présentation des données quantitatives (discrètes ou


continues) sous forme de tableaux et de graphiques dans le schéma ci-dessous :

Base de données

Données qualitatives Données quantitatives

Méthodes tabulaires Méthodes graphiques

1. L’effectif 1. Histogramme (variable continue)


2. L’effectif total 2. Diagramme en barres (en
3. La fréquence relative bâtons/en tuyaux d’orgue)
4. La fréquence en pourcentage 3. Le polygone des fréquences
5. La fréquence cumulée 4. Ogive (distribution cumulée)
5. Courbe des fréquences
6. Diagramme intégral (cumulatif)
7. Diagramme à cumul interne
8. Diagramme de points
9. Diagramme Stem & Leaf
Présentation des données 30

4. Exercice corrigé
Considérons les données ci-dessous qui nous informent sur le nombre de jours consacrés
par des étudiants pour la préparation des examens.

12 14 19 18
15 15 18 17
20 27 22 23
22 21 33 28
14 18 16 13

1. Suivez les étapes introduites dans le chapitre pour déterminer les classes/intervalles.
2. Présentez ces données sous forme d’un diagramme Stem and leaf ou « Branche et
feuille ».

Solution
1. Pour déterminer les classes, il faut :
§ Déterminer le nombre de classes : on peut prendre une décision d’avoir 3 classes.
§ Déterminer l’amplitude de la classe :
(Max-Min)/ nombre de classes = (33 - 12)/3 = 7
Décision : « 7 jours » représente l’amplitude des classes.
§ Déterminer les limites des classes :
Le minimum est de 12 qui sera la borne inférieure de la première classe. Le
maximum est le chiffre 33 ans qui sera la borne supérieure de la dernière classe.
§ Définir les intervalles :
Les intervalles : [12 – 19 [ , [19 – 26 [ , [26 - 25 [ , [25 – 33 ]

NB. Cet exercice est juste un exemple illustratif avec 20 observations seulement.
Normalement, l’effectif doit être plus grand, d’où l’objectif de cette méthode.
On pourrait avoir d’autres propositions d’intervalles et ceci dépendra du nombre de classes
choisies dans l’étape 1.
Présentation des données 31

2. Le diagramme Stem and Leaf ou « Branche et feuille » représente les


modalités comme ci-dessous :

Le diagramme Steam and Leaf peut aussi représenter les modalités et les effectifs, si ces
derniers ne dépassent pas 2 ou 3, sinon il ne sera pas présentable.
Indicateurs statistiques 32

Chapitre 3.
Indicateurs statistiques

1. Indicateurs de tendance centrale et de position


2. Indicateurs de dispersion
3. Indicateurs de concentration
4. Exercices corrigés
Indicateurs statistiques 33

Chapitre 3.
Indicateurs statistiques

En statistique, les tableaux présentent l’information recueillie d’une variable et les


graphiques fournissent un portrait pour appréhender plus facilement la globalité de
l’information. Pour caractériser la représentation visuelle par des éléments synthétiques, on
peut utiliser des indicateurs.

Nous appelons « Indicateurs », les nombres qui résument une base de données selon des
règles et des pratiques. On les appelle aussi des « paramètres » ou des « caractéristiques ».

Yule, a souligné un certain nombre de propriétés souhaitées pour les indicateurs statistiques.
Ceux-ci doivent :
§ Etre des résumés maniables ;
§ Etre des résumés faciles à utiliser ;
§ Etre les plus exhaustifs relativement à l’information contenue dans les données ;
§ Rassembler le plus d’information possible.

Selon Yule, un indicateur statistique doit être une valeur :


1. Définie de façon objective ;
2. Dépendante de toutes les observations ;
3. Significative pour être comprise par les non-spécialistes ;
4. Simple à calculer ;
5. Peu sensible aux fluctuations d’échantillonnage ;
6. Qui se calcule selon des opérations mathématiques classiques.
Indicateurs statistiques 34

Nous allons en premier lieu introduire les indicateurs de tendance centrale et de position,
qui nous faciliteront la compréhension des indicateurs de dispersion, pour passer après aux
indicateurs de concentration.

I. Indicateurs de tendance centrale et de position

Les indicateurs de tendance centrale et de position sont des indicateurs qui se situent au
milieu, ou qui indiquent où se positionne une série de données. C’est des indicateurs qui
représentent une valeur numérique, autour de laquelle les observations sont réparties. Ceux
de la tendance centrale mesurent par exemple le centre de la distribution d’une série de
données, nous pouvons citer à titre d’exemple, la moyenne.
Dans ce chapitre, nous introduirons la moyenne, le mode et la médiane, comme indicateurs
de tendance centrale et les quantiles, comme indicateurs de position.

1. La moyenne
Nous introduirons la moyenne arithmétique, la moyenne géométrique, la moyenne
harmonique et la moyenne quadratique.

1.1 Moyenne arithmétique


La moyenne arithmétique est un indicateur de tendance centrale qui concerne uniquement
les variables quantitatives. La moyenne d’une série statistique est définie par la somme des
valeurs de xi divisée par l’effectif total.
Sa formule est la suivante :

1
(1) x= å xi
n i
1
(2) x= å ni xi
n i
x = å f i xi
i
Indicateurs statistiques 35

xi : désigne les valeurs de la variable,


ni : les effectifs correspondants,
fi : les fréquences correspondantes
n : l’effectif total.

Notons que la formule (1) représente la formule pour calculer la moyenne arithmétique
simple et la formule (2) pour calculer la moyenne arithmétique pondérée.

Remarque : si les ni prennent des valeurs égales à 1, l’indicateur est simple et par
conséquent il est non pondéré. Si les ni prennent des valeurs différentes de 1, l’indicateur
est pondéré. Cette remarque est valable pour les autres types de la moyenne.

Nous mettons en exergue que la moyenne arithmétique a des propriétés et des


caractéristiques intéressantes4 que nous explicitons ci-dessous :
1. La moyenne est le centre de la distribution d’une série statistique.
2. La somme des écarts des observations par rapport à la moyenne est toujours nulle.
3. La moyenne est affectée par le changement de valeurs.
4. La moyenne est sensible aux valeurs extrêmes.
5. La moyenne d'un groupe qui est un ensemble d'autres groupes n'est égale à la
moyenne des moyennes que si tous les groupes ont le même effectif.
6. La moyenne de l'échantillon peut être un estimateur de la moyenne de la population.
7. La moyenne peut être un chiffre avec des décimales, même si les xi sont entiers par
nature.
8. La moyenne prend en compte l’ensemble des valeurs (contrairement au mode).

NB. Dans le cas d’une variable continue, xi représente le centre des classes dans la formule
(2) du calcul de la moyenne.

4
Les exercices corrigés permettront d’assimiler le calcul de la moyenne arithmétique et ses propriétés et les autres
indicateurs.
Indicateurs statistiques 36

1.2 Moyenne géométrique


La moyenne géométrique d’une variable statistique avec des valeurs positives est la racine
nième du produit des valeurs observées.
Sa formule peut être écrite de plusieurs façons, en utilisant le logarithme, en utilisant la
notation Pi du produit (π), ou comme ci-dessous :

n
G = n x1n1 ´ ... ´ x p p

La moyenne géométrique est principalement utilisée pour calculer les coefficients


multiplicateurs moyens dont sont déduits les taux de variation. A titre d’exemples, les taux
de variation annuels, les taux de variation semestriels, les taux de variation mensuels…

Notons que la moyenne géométrique est applicable à des mesures de grandeurs dont la
croissance est géométrique ou exponentielle. Elle est toujours inférieure ou égale à la
moyenne arithmétique.

1.3 Moyenne harmonique


La moyenne harmonique d'une série statistique dont les valeurs sont positives est égale à
l'inverse de la moyenne arithmétique des inverses des valeurs. Sa formule est la suivante :

n 1
H= ou bien H =
å i i
n / x åi
f i / xi
i

Elle est principalement utilisée quand l’unité de la variable dont on cherche la moyenne est
un quotient (ex. km/h, Dirham/Dollar, prix/unité...).
Elle peut être ainsi utilisée lorsqu’il est possible d’attribuer un sens réel à l’inverse des
données.

Nous mettons en exergue une comparaison intéressante entre les 3 moyennes :


H≤G≤ x
Indicateurs statistiques 37

1.4 Moyenne quadratique


La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés des
valeurs. Sa formule est la suivante :

1 k 1 k
Q = å ni xi2 ® Q =
2
å ni xi2
n i =1 n i =1

Elle est utilisée par exemple en physique, pour calculer l’énergie moyenne ou l'intensité
moyenne dans un circuit. Elle est aussi utilisée en mathématique pour calculer la superficie
moyenne d’un ensemble de parcelles par exemple.

2. Le mode
Le mode est la valeur de la variable la plus fréquemment observée. En d’autres termes,
c’est la modalité qui a l’effectif le plus élevé (ou la fréquence la plus élevée). Le mode
représente ainsi le xi correspondant au ni (ou fi) maximum.

Le mode peut être aussi défini comme une valeur qui domine les autres et qui lui confère le
statut d’indicateur de tendance centrale. Notons que le mode n’est pas influencé par les
valeurs extrêmes.
Si les données ont exactement deux modes, on note que les données sont bimodales. Si les
données ont plus de deux modes, on souligne que les données sont multimodales ou
plurimodales.

2.1 Cas d’une variable discrète


Le mode est facilement repérable, c'est la valeur xi qui a la fréquence est la plus élevée. Le
mode d’une distribution est la modalité de la variable dont l’effectif est le plus important (le
plus élevé).
Dans un diagramme en bâtons, c’est la valeur de la variable qui correspond au bâton le plus
haut.
Indicateurs statistiques 38

2.2 Cas d’une variable continue


Puisque les données sont groupées en classes, on doit définir en premier lieu la classe
modale. Cette dernière est la classe ayant la plus forte densité de fréquence. Notons que
nous pouvons avoir des classes avec des amplitudes égales ou inégales.

2.2.1 Cas d’amplitudes égales


La classe modale est celle qui correspond à la fréquence la plus élevée, ou l’effectif le plus
élevé. Il est important de noter qu’on retient comme une valeur modale ou le mode, le
centre de la classe modale, dans un cas particulier : si l’effectif de la classe précédente à la
classe modale (ni-1) est égal à l’effectif de la classe suivante à la classe modale (ni+1); sinon
le mode doit être calculé selon la formule suivante :

æ ( ni - ni -1 ) ö
Mo = bMo + çç ÷÷ ´ aMo
è ( ni - ni -1 ) + ( ni - ni + 1 ) ø

bMo : la borne inférieure de la classe modale.


aMo : l’amplitude de la classe modale.
ni : l’effectif de la classe modale.
ni+1 : l’effectif de la classe suivante à la classe modale.
ni-1 : l’effectif de la classe précédente à la classe modale.

2.2.2 Cas d’amplitudes inégales

Si les classes ont des amplitudes inégales, il faut prendre en considération soit la densité
d’effectif (ni/ai) ou la densité de fréquence (fi/ai). La détermination de la classe modale se
ramène après au cas précédent. Le mode est calculé en appliquant la formule ci-dessus en
remplaçant ni par (ni/ai).
Notons que dans un cas particulier, où une classe est caractérisée à la fois par l’amplitude
la plus petite et l’effectif le plus élevé, dans ce cas elle a nécessairement la densité la plus
forte et le calcul des densités n’est pas nécessaire pour en déduire la classe modale.
Indicateurs statistiques 39

Nous pouvons aussi déterminer le mode graphiquement comme illustré dans le schéma
ci-dessous.

Détermination du mode graphiquement

Source : élaboré pour illustration

3. La médiane
La médiane (Me) est un centre de position lorsque les données sont rangées par ordre
croissant. Sa détermination est réalisée de façon différenciée en fonction de la parité (pair
ou impair) de la taille de l’échantillon (n).
§ Si n est impair, soit n = 2 p + 1 , alors (Me = x(p+1))
§ Si n est pair, soit n = 2 p, alors (Me = (x(p) + x (p+1)) / 2)

Notons que la médiane (Me) d’une série statistique est une valeur de la variable telle que 50%
des individus statistiques présentent une modalité inférieure à Me, et 50% présentent une
modalité supérieure ou égale à Me. Ainsi, en prenant en considération F comme une
fonction des fréquences cumulées, la médiane d’une série statistique sera la plus petite
valeur x telle que F(x) ≥ 0,5 ou bien F(x) ≥ 50%.
On peut ainsi déterminer graphiquement la médiane, dans la courbe de fréquence cumulée
(ou même dans la courbe d’effectif cumulé).
Indicateurs statistiques 40

Dans le cas d’une variable continue où les données sont groupées en classes, on doit définir
en premier lieu la classe médiane, qui contient la médiane. La valeur de la médiane est
déduite par la suite par interpolation linéaire selon la formule suivante :

é 50 - Fi -1 ù
Me = bi + êai ´ ú
ë Fi - Fi -1 û

ai : amplitude de la classe médiane.


bi : limite inférieure de la classe médiane.
Fi-1 : fréquence cumulée de la classe précédente à la classe médiane.
Fi : fréquence cumulée de la classe médiane.

Il est important de souligner que :


§ Dans la formule de calcul de la médiane, on se base sur la fréquence cumulée et non
pas sur la fréquence relative.
§ Contrairement au mode, dans le cas d’amplitudes inégales, on ne procède pas à
l’utilisation de la densité d’effectif ou de la densité de fréquence.
§ La médiane ne doit pas être confondue avec la médiale qui se calcule aussi avec des
fréquences cumulées, sauf que celles-ci se basent sur les (xi × ni).
§ La médiane est un indicateur dit robuste, car de nombreuses observations peuvent
varier sans que la médiane ne soit modifiée.

4. Quantiles
Les quantiles (ou les percentiles) sont des indicateurs de position. Si nous considérons une
variable quantitative discrète ou continue, dont les modalités sont classées en ordre
croissant, le quantile d'ordre α (0 ≤ α ≤ 1) noté qα est la valeur de la variable telle que α%
(c’est-à-dire une proportion α) des individus ont une modalité inférieure à qα. En d’autres
termes, (100 - α)% des individus ont une valeur supérieure ou égale à qα.
Nous allons introduire dans les sections suivantes les quantiles les plus utilisés, à savoir, les
quartiles, les déciles et les centiles, avant de spécifier leur méthode de calcul.
Indicateurs statistiques 41

4.1 Quartiles
Les quartiles sont des indicateurs de position qui partagent les observations en 4 groupes
d’effectifs égaux.
Les quartiles sont les 3 valeurs q25, q50, q75. Ceci dit, 25%, 50%, 75% des individus ont une
valeur inférieure à q25, q50, q75 respectivement.
Les quartiles sont aussi notés : Q1, Q2, Q3 (Q pour Quartile). Notons que Q2 représente la
médiane, qui est aussi un indicateur de tendance centrale.

4.2 Déciles
Les déciles sont des indicateurs de position qui partagent les observations en 10 groupes
d’effectifs égaux. Les déciles sont les 9 valeurs q10, q20,…,q90.
Ceci dit, 10%, 20%,...90% des individus ont une valeur inférieure à q10, q20,...q90
respectivement.
Les déciles sont aussi notés : D1, D2….D9 (D pour Décile).

4.3 Centiles
Les centiles sont des indicateurs de position qui partagent les observations en 100 groupes
d’effectifs égaux. Les centiles sont les 99 valeurs q1, q2, q3,...,q99. Ceci dit, 1%, 2%, 3%
….99%, des individus ont une valeur inférieure à q1, q2, q3,...,q99 respectivement.
Les centiles sont aussi notés : C1, C2….C99 (C pour Centile).

La notation « q » a le mérite d’être identique pour tous les quantiles, car même si les
notations C1, Q1, D1, par exemple, ont l’avantage de nous indiquer le type de quantile, leur
inconvénient est de noter de manière différente des quantiles qui représentent la même
chose (exemple : D1 = C10, Q1 = C25, Q2 = D5 = C50).

Lorsqu’on dispose d’une variable quantitative continue, on peut déterminer les quantiles
graphiquement (dans la courbe des fréquences cumulées ou même dans la courbe des
effectifs cumulés), comme pour la médiane, ou selon la formule ci-dessous qui est aussi
Indicateurs statistiques 42

utilisée pour calculer la médiane en remplaçant F(qα ) par 50%.

é F (qa ) - Fi -1 ù
qa = bi + êai ´ ú
ë Fi - Fi -1 û
ai : amplitude de la classe où se trouve le quantile.
bi : limite inférieure de la classe où se trouve le quantile.
Fi-1 : fréquence cumulée de la classe précédente à la classe où se trouve le quantile.
Fi : fréquence cumulée de la classe où se trouve le quantile.
F(qα ) peut-être égale à 25%, 10%, 3%, 71%....selon l’ordre souhaité.

Dans le cas d’une variable discrète ou d’une série statistique, la formule ci-dessus ne peut
pas être appliquée et les quantiles se calculent selon les 3 étapes suivantes :
Etape 1 : Mettre les données en ordre croissant.
Etape 2 : Calculer un indice i,
!
tel que i = "## × n ;

α représente l’ordre du quantile et n l’effectif total.


Etape 3 :
Si l’indice i est un nombre entier, la valeur du quantile correspond à la
moyenne des valeurs des deux observations du rang i et i +1. Elle est ainsi
égale à (Xi + Xi+1 )/2
Si l’indice i n’est pas un nombre entier, il faut l’arrondir (troncature à l’unité).
La valeur du quantile est celle de l’observation du rang (i+1) après la
troncature et elle est égale à (Xi+1).

5. Caractéristiques et formes d’une série statistique


La moyenne, le mode et la médiane comme indicateurs de tendance centrale nous
renseignent sur l’ordre de grandeur d’une série statistique et sur la forme qu’elle prend.
Statistiquement, une distribution peut être symétrique ou asymétrique (oblique).
Indicateurs statistiques 43

5.1 Distribution symétrique


Dans le cas d’une distribution symétrique, la moyenne, le mode et la médiane ont les
mêmes valeurs, et les observations sont également dispersées par rapport à ces valeurs
centrales. Sa forme est représentée comme ci-dessous :

M0 = Mé = x

Distribution symétrique

Source : élaboré pour illustration


5.2 Distribution asymétrique
Si la distribution n’est pas symétrique, elle est asymétrique ou oblique. L’obliquité ou
l’inclinaison se repère du côté de la décroissance la plus forte. La distribution peut être
oblique à gauche (étalée vers la droite) comme dans le graphique ci-dessous. Dans ce cas,
le mode est inférieur strictement à la médiane qui est de même par rapport à la moyenne
arithmétique.

Distribution asymétrique
Source : élaboré pour illustration
Indicateurs statistiques 44

La distribution peut être aussi oblique à droite (étalée vers la gauche) comme dans le
graphique ci-dessous. Le mode est supérieur strictement à la médiane qui est de même par
rapport à la moyenne arithmétique.

Distribution asymétrique

Source : élaboré pour illustration

5.3 Coefficient d’asymétrie.


Au lieu de dessiner la courbe qui représente les fréquences relatives afin d'en déduire si la
distribution est symétrique, oblique à droite ou oblique à gauche, nous pouvons calculer le
coefficient de Yule et Kendall. Ce dernier est égal à :

é Q3 + Q1 - 2Q2 ù
ê ú
ë Q3 - Q1 û
Q1, Q2, Q3 représentent les quartiles.

Le coefficient de Yule et Kendall est compris entre -1 et 1, son interprétation est la


suivante :
§ 0 : la distribution est symétrique.
§ > 0 : la distribution est étalée vers la droite.
§ < 0 : la distribution est étalée vers la gauche.
Indicateurs statistiques 45

Le coefficient de Fisher peut être aussi utilisé pour déduire la forme de la distribution et il a
la même interprétation que celle de Yule et Kendall, afin de savoir si la distribution est
symétrique, ou étalée vers la droite ou vers la gauche.
Ce coefficient est égal à :
3
n n æ xi - x ö
´å ç
ç
÷
÷
(n - 1) ´ (n - 2) i =1 è s ø

« s » représente l’écart-type, un indicateur de dispersion qui sera introduit dans la section


suivante.
Indicateurs statistiques 46

II. Indicateurs de dispersion

En obtenant les quartiles Q1, Q2, Q3 et en y ajoutant le minimum et le maximum des


observations, nous obtenons un résumé en 5 chiffres. Ces 5 chiffres (Q1, Q2, Q3, Min, Max)
seront utiles pour illustrer la Boîte à pattes (Box plots). Elle est aussi appelée Boîte de
Tukey.

1. Boîte à pattes

La boîte à pattes est utile pour visualiser la dispersion des données, pour faire des
comparaisons entre plusieurs échantillons ou populations et pour détecter les valeurs
aberrantes ou extrêmes. Elle est illustrée dans le graphique ci-dessous.

Boîte à pattes (Boîte de Tukey)


Source : élaboré pour illustration.
Comment la construire ?
1. Dessiner la boîte avec deux limites : Q1 et Q3.
2. Dessiner une ligne verticale qui correspond à la valeur de Q2.
3. Fixer les limites :
§ la limite inférieure est égale à (Q1 – (1.5 × (Q3- Q1)))
§ la limite supérieure est égale à (Q3 + (1.5 × (Q3- Q1))).
Indicateurs statistiques 47

Tracer les pattes qui correspondent à deux lignes horizontales. Celle de la droite se
prolonge jusqu’à la plus grande valeur qui se situe directement avant la limite supérieure, et
celle de la gauche se prolonge jusqu’à la plus petite valeur qui se situe directement après la
limite inférieure.

Notons qu’une valeur qui dépasse les limites peut être une valeur aberrante ou une valeur
extrême (illustrée par l’étoile rouge dans le graphique). S’il n’existe aucune valeur qui
dépasse les limites, les pattes se prolongent jusqu’au minimum à gauche et jusqu’au
maximum à droite.

A partir de la boîte à pattes, nous pouvons noter l’écart (Q3 - Q1) et l’écart (Max - Min), le
rapport (Q3- Q1)/ Q2) par exemple, qui représentent des indicateurs de dispersion que nous
allons introduire dans cette section.

Les indicateurs de dispersion caractérisent numériquement la manière dont les observations


s’écartent les unes des autres. Ces indicateurs nous indiquent comment les observations
s’écartent d’une valeur de référence ou d’un indicateur de tendance centrale. Leur utilité se
concrétise surtout lorsqu’on a deux distributions qui peuvent être différentes, tout en ayant
des caractéristiques de tendance centrale proches.

Nous allons introduire dans cette section les indicateurs suivants :


§ L’étendue.
§ L’écart interdécile et l’écart intercentile.
§ L’écart interquartile.
§ L’écart absolu.
§ La variance et l’écart-type.
§ Les paramètres de dispersion relative.
Indicateurs statistiques 48

2. Etendue
L’étendue est la différence entre la plus grande valeur et la plus petite valeur des
observations. Sa formule est la suivante :
Etendue = X (max) - X (min)

L’étendue est très simple à calculer, mais il ne tient compte que des deux observations
extrêmes, susceptibles d’être parfois des données aberrantes.
Pour pallier cet inconvénient, une idée consiste à éliminer de la mesure de dispersion une
certaine proportion d’observations aux extrémités de la distribution (appelées queues de
distribution). Ceci nous amène à définir l’écart interdécile, l’écart intercentile et l’écart
interquartile.

3. Ecart interdécile & Ecart intercentile


L’écart interdécile (D9 - D1) écarte 10% des observations les plus petites et 10% des
observations les plus grandes des deux extrémités de la distribution. C’est un indicateur de
dispersion qui concerne 80% des observations centrales.
Un écart relatif peut être aussi calculé à partir de ces deux déciles en utilisant (D9/D1).

L’écart intercentile (C99-C1) écarte 1% des observations les plus petites à gauche et 1% des
observations les plus grandes à droite. C’est aussi un indicateur de dispersion et il concerne
98% des observations centrales.

4. Ecart Interquartile (EIQ)


L’écart interquartile (EIQ) est un indicateur de dispersion, qui peut être utilisé pour illustrer
la boîte à pattes, et qui n’est pas dépendant des valeurs extrêmes. Sa formule est la
suivante :
EIQ = Q3 -Q1

L’intervalle interquartile est l’intervalle [Q1 - Q3] et il contient 50% des observations.
Indicateurs statistiques 49

Notons qu’on utilise parfois l'écart semi-interquartile qui peut être calculé selon la formule
suivante : (Q3 -Q1)/2.

5. Ecart absolu
L’écart absolu moyen est par définition la moyenne arithmétique des valeurs absolues des
écarts de toutes les observations à la moyenne arithmétique.
Cet indicateur nous donne une vision sur la valeur moyenne qui écarte toutes les
observations par rapport à la moyenne.

Sa formule est la suivante :


1
e= å ni x i - x
n i

L’écart absolu médian est la moyenne arithmétique des valeurs absolues des écarts de
toutes les observations à la médiane.
Sa formule est la suivante :
1
e' = å ni xi - M e
n i

6. Variance & écart-type


La variance est un indicateur qui se base sur la différence entre chaque observation et la
moyenne arithmétique (écart par rapport à la moyenne).
Elle est utile comme une mesure pour comparer le degré de dispersion de plusieurs
populations/échantillons selon la même variable exprimée dans la même unité.

La variance est un indicateur de dispersion qui utilise toutes les observations. Elle est la
moyenne arithmétique des carrés des écarts de toutes les observations à la moyenne
arithmétique.
Indicateurs statistiques 50

La variance est souvent notée s2 (dans le cas d’un échantillon) ou σ² (dans le cas d’une
population), ou tout simplement Var(x) et elle est calculée en utilisant la formule suivante :

å n (x )
k
2
i i -x
S2 = i =1
n
Notons que la variance d’un échantillon s2 peut être un estimateur de la variance de la
population. La formule peut être aussi rectifiée en remplaçant (n) par (n-1). Notons aussi
que les unités associées à la variance sont élevées au carré, ce qui rend difficile son
interprétation. L’interprétation que nous pouvons lui donner est que la population ou
l’échantillon qui a la plus grande variance a la plus grande dispersion. Ceci dit, il n’est pas
utile de chercher d’autres interprétations pour cet indicateur.

Pour obtenir un indicateur de dispersion absolue, l’écart-type est calculé en utilisant la


variance. L'écart-type est noté σ ou s et il correspond à la racine carrée de la variance,
comme dans les deux formules ci-dessous.

s = s²
S = S²
L’écart type est ainsi plus facilement comparable et interprétable que la variance, puisqu’il
est mesuré dans les mêmes unités que les données. Notons qu’il est aussi utilisé pour
calculer le coefficient d’asymétrie de Fisher introduit plus haut.
Nous avons défini l’étendue, l’écart interdécile, l’écart intercentile, l’écart interquartile,
l’écart absolu, la variance et l’écart type, qui représentent des indicateurs de dispersion
absolue. Nous présentons dans la section suivante les indicateurs de dispersion relative.

7. Indicateurs de dispersion relative


La question qui peut se poser maintenant est la suivante : comment peut-on comparer la
dispersion de deux échantillons en prenant en considération la même variable qui a des
unités différentes (Yen et Dirham par exemple) ?
Indicateurs statistiques 51

Pour ce faire, les indicateurs de dispersion relative (sans unité) peuvent être utilisés, comme
le coefficient de variation.

7.1 Coefficient de variation


Le coefficient de variation (CV) mesure l’écart type relatif à la moyenne. C’est un
indicateur utile pour comparer les dispersions de variables ayant des unités différentes. Le
CV est calculé selon la formule suivante :
sx
CV x = ´ 100
x
En d’autres termes, le coefficient de variation permet de comparer les dispersions de
distributions, en prenant en considération la même variable, mais qui n’est pas exprimée
dans la même unité. Nous pouvons souligner que la distribution (population ou échantillon)
qui a le coefficient de variation le plus élevé a la plus grande dispersion autour de la
moyenne.

On peut aussi déduire d’autres indicateurs de dispersion relative en utilisant par exemple,
les quartiles, les déciles, ou l’écart absolu moyen. Ces indicateurs et leur formule de calcul
sont présentés ci-dessous.

7.2 Coefficient interquartile relatif


Le coefficient interquartile relatif peut être défini par la formule suivante :
Q3 - Q1
Q2

7.3 Coefficient interdécile relatif


Le coefficient interdécile relatif peut être défini par la formule suivante :
D9 - D1
D5
7.4 Ecart relatif moyen
L’écart relatif moyen peut être défini par la formule suivante :
Ecart absolu moyen / Moyenne
Indicateurs statistiques 52

Nous pouvons remarquer que ces indicateurs de dispersion relative sont sous forme d’un
ratio, qui représente le rapport entre un indicateur de dispersion et un indicateur de
tendance centrale.

Enfin, nous mettons en exergue que le choix d’un indicateur de dispersion est souvent lié
au choix des indicateurs de tendance centrale et de position. Ceci dit, si la position d’une
distribution a été résumée par des quantiles, la distribution est dans la plupart des cas,
quantifiée par les écarts absolus ou relatifs intequantiles. Si la moyenne arithmétique a été
privilégiée alors l’écart type est souvent l’indicateur de dispersion choisi.
Indicateurs statistiques 53

III. Indicateurs de concentration

En complément des indicateurs de tendance centrale et de position et des indicateurs de


dispersion, il est parfois intéressant de calculer les indicateurs de concentration.
En fait, les indicateurs de concentration sont des indicateurs qui mesurent le degré
d’inégalité dans la répartition de la somme des observations.

Ceci dit, une condition est nécessaire pour pouvoir utiliser et calculer les indicateurs de
concentration, qui requiert que la somme des observations ait un sens et les données bien
évidemment doivent être quantitatives. Ainsi pour une distribution de salaires, le résumé de
la répartition de la masse salariale fait appel à des méthodes distinctes de celles utilisées
pour résumer la répartition des salaires.

En d’autres termes, la concentration concerne l’intensité du groupement des données. Elle


ne s’applique qu’à des variables continues à valeurs positives susceptibles d’addition.
La concentration peut se caractériser soit par un procédé graphique (courbe de Lorenz), soit
par le calcul d’un indice (Indice de Gini). Il est important de noter que la concentration
n’est pas l’inverse de la dispersion.

1. Courbe de Lorenz
Pour obtenir une représentation graphique mettant en évidence la concentration, l’idée est
de travailler avec les fréquences cumulées et les agrégats cumulés (selon la variable
étudiée). En portant en abscisse les fréquences cumulées et en ordonnée les agrégats
cumulés (qui varient de 0% à 100 %), nous obtenons une courbe de concentration, appelée
courbe de Lorenz. Cette courbe relie des points successifs : fréquence cumulée - agrégat
cumulé.

La courbe de Lorenz est toujours en dessous de la bissectrice, comme illustrée dans le


graphique plus bas. Si cette courbe s’en éloigne, l’inégalité s’accroît. En d’autres termes,
plus la courbe est proche de la diagonale, plus la répartition de la variable étudiée tend à
Indicateurs statistiques 54

être égalitaire. Ceci suggère d’utiliser l’aire de concentration, comprise entre la courbe et la
bissectrice comme indicateur d’inégalité.

La courbe de Lorenz illustrée ci-dessous est un exemple qui concerne la part ou la


proportion cumulée d’une population par rapport à celle du revenu. « A » désigne l’air de
concentration.

Courbe de Lorenz
Source : élaboré pour illustration

Nous pouvons souligner qu’en prenant en considération la courbe de Lorenz, on peut


comparer la concentration de deux populations ou plus, selon la même variable en
représentant sur le même graphique leur courbe de Lorenz. On peut aussi comparer la
concentration de deux variables, par rapport à la même population.

2. Indice de Gini
L’indice de Gini (IG) constitue un indicateur, ou une mesure synthétique de la concentration
des données.
Le calcul de cet indice repose sur la position de la courbe de Lorenz, c’est à dire plus la
courbe est proche de la diagonale, plus la répartition tend à être égalitaire.
Indicateurs statistiques 55

L’idée est donc de calculer l’aire de la surface (surface de concentration) située entre la
courbe de Lorenz et la bissectrice « A ».

L’indice de Gini (IG) est égal à deux fois l’aire de concentration. Cet indice est compris
entre 0 et 1 :
§ Plus il est proche de 0, plus la répartition tend à être égalitaire.
§ Plus il est proche de 1, plus la répartition tend à être inégalitaire.

En d’autres termes, l’indice de Gini (IG) est un indicateur de la concentration, plus il est
grand, plus la concentration est importante. Il existe plusieurs formules pour calculer cet
indice, on peut proposer de l’évaluer selon la formule suivante :
n
I G = 1 - å ( xi - xi - 1 )( yi + yi - 1 )
i =1

Les xi désignent les valeurs prises par la variable sur la part cumulée de la population
étudiée, et les yi désignent les valeurs prises par la variable sur la part cumulée de la masse
à répartir.

Une autre formule plus simple :


n
I G = 1 - å f i ( Fi' + Fi'-1 )
i =1

Les fi désignent les fréquences relatives concernant la variable et les F'i désignent les
fréquences relatives cumulées concernant la masse de la variable.
Indicateurs statistiques 56

IV. Exercices corrigés


Exercice 1
Soit une série statistique qui correspond à la taille d’un groupe d’étudiants en cm :
160, 165, 175,180, 182, 164, 176.
Calculez la moyenne

Solution
• L’effectif total : n = 7
• Le total = 160+165+175+180+182+164+176 = 1202
• La moyenne est ainsi égale à :
1202
x= = 171,7 cm
7
Exercice 2
Soit une série statistique qui correspond aux prix des livres de gestion dans une librairie en
Dhs : 120, 150, 250, 210, 150.
Calculez la moyenne

Solution
• L’effectif total : n = 5
• Le total = 120 + 150 + 250 + 210 + 150 = 880
• La moyenne est ainsi égale à :
880
x= = 176
5 Dhs
Remarques :
o On peut vérifier que la somme des écarts à la moyenne est nulle en calculant :
§ (120-176) + (150-176) + (250-176) + (210-176) + (150-176) = 0
o On peut aussi vérifier que la moyenne est affectée par les changements de valeurs.
Nous pouvons remplacer juste la dernière valeur par 2000 Dhs, et noter que la
moyenne changera, elle sera ainsi égale à 552 Dhs.
Indicateurs statistiques 57

Exercice 3
On dispose ci-dessous de la répartition d’un échantillon de familles selon le nombre
d’enfants.
Répartition des familles selon le nombre d’enfants.
Nombre Nombre
d'enfants de familles
0 7
1 15
2 20
3 6
4 8
Source : exemple
Calculez la moyenne de cette variable quantitative discrète.

Solution
Répartition des familles selon le nombre d’enfants.
Nombre Nombre de xi × ni
d'enfants xi familles ni
0 7 0
1 15 15
2 20 40
3 6 18
4 8 32
Total 56 105

Source : exemple
105
x= = 1, 87
56 enfant !

Remarque :
La moyenne peut être un chiffre avec des décimales, même si les xi sont entiers par nature.
Indicateurs statistiques 58

Exercice 4
Supposant que les étudiants de la première année S1 sont répartis dans 3 amphithéâtres,
comme dans le tableau ci-dessous, qui représente la moyenne d’âge des étudiants et les
effectifs.
La moyenne d’âge et les effectifs des étudiants dans 3 amphithéâtres

Amphi Effectif Moyenne d’âge


Amphi A 1000 18,1
Amphi B 500 19,5
Amphi C 1000 18,3

Source : exemple

Quelle est la moyenne d’âge de l’ensemble des étudiants ?

Solution
L’effectif total est de 2 500 étudiants.
On doit calculer la moyenne d’âge par groupe × l’effectif qui correspond à chaque groupe.
= (18,1 × 1000) + (500 × 19,5) + (18,3 × 1000)
= 18100 + 9750+ 18300
= 46 150.
La moyenne = 46150/2500 = 18,46 ans

Remarque
§ Il est important de noter que la moyenne d'un groupe qui est un ensemble d'autres
groupes n'est pas égale à la moyenne des moyennes que si tous les groupes ont le
même effectif. Dans ce sens, la moyenne d’âge de l’ensemble des étudiants n’est pas
égale à la moyenne des trois valeurs 18,1 ; 19,5 et 18,3 (18.63).
Indicateurs statistiques 59

Exercice 5
Le tableau ci-dessous représente le taux de variation du PIB en pourcentage de 2019 à 2023
dans un pays :
Taux de variation du PIB

Année 2019 2020 2021 2022 2023


Taux de 1,0% 1,1% 2,5% 1,7% 2,0%
variation % (0,01) (0,011) (0,025) (0,017) (0,02)

Source : exemple

Quel est le taux de variation moyen du PIB ?

Solution
Il faut calculer dans ce cas la moyenne géométrique :

G = (1,010 ×1,011×1,025×1,017 ×1,020)1/5 = 1, 0166


Le taux de variation du PIB en moyenne chaque année de 2019 à 2023 est de 1,66%.
Notons que la moyenne arithmétique n’est pas applicable dans ce cas.
Bonus ! Pour l’année 2023, en remplaçant 2% par 4%, nous trouverons que ce taux de
variation sera égal à 2.05%.

Exercice 6
De février à août, on dispose de l’indice mensuel de variation du prix d’un produit qui est
représenté dans le tableau ci-dessous :
Indices mensuels de variation du prix

Mois M2 M3 M4 M5 M6 M7 M8

Indice 0,98 1,05 1,09 1,02 0,97 1,01 0,96

Source : exemple

Quel est l’indice moyen d’augmentation du prix sur les 7 mois ?


Indicateurs statistiques 60

Solution
Il faut calculer dans ce cas la moyenne géométrique. Le tableau dans l’énoncé peut être
présenté comme ci-dessous :

Année M2 M3 M4 M5 M6 M7 M8

Indice en % - 2% 5% 9% 2% -3% 1% - 4%

Donc nous aurons :

G = (0,98 ×1,05 ×1,09 ×1,02 × 0,97 ×1,01× 0,96)1/7 = 1, 0105

L’indice moyen d'augmentation du prix est de 1,05%.


Notons aussi que la moyenne arithmétique n’est pas applicable dans ce cas, puisque nous
avons des taux de variation.

Exercice 7
Une entreprise dispose d’un certain nombre de parcelles de terrains sous forme de carré
réparties dans le tableau ci-dessous.

Répartition des parcelles

Nombre de parcelles Côté de chacune


50 5
10 7
15 4
Source : exemple

Les gestionnaires veulent savoir le côté moyen de la parcelle moyenne.


Calculez le côté moyen de la parcelle moyenne.
Indicateurs statistiques 61

Solution

Répartition des parcelles

Nombre de parcelles ni Côté de chacune xi2 Surface = ni × xi2


50 5 1250
10 7 490
15 4 240
75 -- 1980

Source : exemple

o Il faut en premier lieu calculer la surface moyenne des parcelles :

1 k 1980
Q = ∑ n i x 2i =
2
= 26.4
n i=1 75 (m2)

o Donc le côté moyen est :

Q = 26.4 = 5.14 (m)

Exercice 8
Le taux de variation du CA d’une entreprise pendant une année (12 mois) est résumé dans
le tableau suivant :
Taux de variation du CA

Mois M1 M2 M3 M4 M5 M6 M7 du M8 au M12
Taux de 2%
3% 3% 5% 5% 5% -1% -1%
variation % (sur 5 mois)

Source : exemple

Quel est le taux de variation mensuel moyen du CA ?


Indicateurs statistiques 62

Solution
Dans cet exercice, il faut utiliser la moyenne géométrique. Suivant la même méthode qui a
été utilisée dans les exercices précédents, le taux de variation du CA de l'entreprise entre le
mois 12 (M12) et le mois M0 (le mois de décembre de l’année précédente) est égal à :

CAM12 = 1,329 CAM0

G = (1,329) 1/12 = 1,024

Le taux de variation mensuel moyen du CA est ainsi égal à : 2,4%.

Bonus ! En remplaçant 2% pour le mois 8, 9, 10, 11 et 12 par 4%, nous trouverons que ce
taux de variation est égal à 3.23%.
Indicateurs statistiques 63

Exercice 9
Dans une entreprise le prix unitaire et la quantité renseignés dans des factures d’achat d’un
produit sont résumés dans le tableau ci-dessous :
Prix unitaire en Dhs et quantité achetée d’un produit

N° facture 1 2 3 4 Total
Prix unitaire (xi) 5.00 7.00 4.45 5.5 --
Quantité 1000 1250 800 950 4000

Source : exemple

Calculer le prix moyen d’achat du produit ?

Solution
Prix unitaire en Dhs et quantité achetée d’un produit

N° facture 1 2 3 4 Total
Prix unitaire (xi) 5.00 7.00 4.45 5.5 --
Quantité 1000 1250 800 950 4000
Montant de la facture (ni) 5000 8750 3560 5225 22535

Source : exemple

o Il faut dans ce cas calculer la moyenne harmonique :

5000 + 8750 + 3560 + 5225


= 5,6338
5000 8750 3560 5225
+ + +
5 7 4, 45 5, 5

o Le prix moyen d’achat du produit est de 5,6338 Dhs/unité.

Bonus ! En remplaçant dans la facture 3 et 4 les prix unitaires par 6 et 9 respectivement,


nous trouverons que la moyenne sera égale à 6.78 Dhs/unité.
Indicateurs statistiques 64

Exercice 10
Nous disposons de la répartition des consommateurs d’un produit Y selon l’âge comme
ci-dessous :

Répartition des consommateurs d’un produit Y selon l’âge

Age Effectif
[ 15 - 20 [ 130
[ 20 - 25 [ 343
[ 25 - 30 [ 107
[ 30 - 35 [ 33
[ 35 - 40 [ 54
Total 667

Source : exemple

Questions :
1. Calculez le mode.
2. Calculez l’écart absolu moyen et interprétez-le.
3. Calculez Q1, Q2, Q3 et interprétez-les.
4. Calculez l’écart interquartile.
5. Calculez la variance et l’écart-type et interprétez ce dernier.
6. Calculez le coefficient de variation.
7. Dessinez la boîte à pattes sachant que le maximum d’âge est de 38 ans, le minimum
d’âge est de 16 ans et on a une seule observation (32 ans) qui se place juste avant
33,5 ans.

Solution
1. Calcul du mode
• Dans ce cas nous sommes face à une répartition des consommateurs selon une
variable continue avec dans amplitudes égales, ainsi nous ne procèderons pas au
calcul des densités d’effectifs ou des densités des fréquences.
Indicateurs statistiques 65

• La classe modale est [ 20 - 25 [qui correspond au plus grand effectif (ni) qui est égal
à 343.

Répartition des consommateurs d’un produit Y selon l’âge

Age Effectif Amplitude de la


classe ai
[ 15 - 20 [ 130 5
[ 20 - 25 [ 343 5
[ 25 - 30 [ 107 5
[ 30 - 35 [ 33 5
[ 35 - 40 [ 54 5
Total 667 --
Source : exemple

Pour calculer le mode, il faut utiliser la formule ci-dessous :

" (343−130) %
Mo = 20 + $ '× 5
# (343−130) + (343−107) &

Le mode est ainsi égal à 22,37 ans.

2. Calculez l’écart absolu moyen et interprétez-le.

Répartition des consommateurs d’un produit Y selon l’âge

Age Effectif Centre de ni ×xi xi - x ni . xi − x (


ni . xi − x )
2

la classe xi
[ 15 - 20 [ 130 17,5 2275,0 6,54 850,2 5560.31
[ 20 - 25 [ 343 22,5 7717,5 1,54 528,22 813.46
[ 25 - 30 [ 107 27,5 2942,5 3,46 370,22 1280.96
[ 30 - 35 [ 33 32,5 1072,5 8,46 279,18 2361.86
[ 35 - 40 [ 54 37,5 2025,0 13,46 726,84 9783.27
Total 667 -- 16032,5 2754,66 19799.86

Source : exemple

• Il faut tout d’abord calculer la moyenne qui est égale à : 16032.5/667 = 24.04 ans.
Indicateurs statistiques 66

• La moyenne sera ainsi utile pour calculer la valeur absolue de l’écart entre chaque
observation et la moyenne. En appliquant la formule, l’écart absolu moyen est égal à
(2754.66/667) = 4.13 ans
Interprétation : les âges des consommateurs s’écartent en moyenne de 4.13 ans de l'âge
moyen (24.04 ans).

3. Calculez Q1, Q2, Q3

Le premier quartile Q1 ou q25 :

# 25 −19 &
q25 = 20 + %5 × = 20, 57
$ 71−19 (' ans

Interprétation : 25% des consommateurs ont un âge inférieur à 21 ans (en


arrondissant le chiffre), ou bien 75% des consommateurs ont un âge supérieur ou égal à
21 ans.

Le deuxième quartile Q2 ou q50

# 50 −19 &
q50 = 20 + %5 × ( = 22, 98
$ 71−19 ' ans

Interprétation : 50% des consommateurs ont un âge supérieur ou égal à 23 ans.

Le troisième quartile Q3 ou q75

# 75 − 71&
q75 = 25 + %5 × ( = 26, 25
$ 87 − 71' ans

Interprétation : 75% des consommateurs ont un âge inférieur à 26 ans.

4. Ecart interquartile :
Q3-Q1 = 26 - 21 = 5 ans
Indicateurs statistiques 67

5. Variance et écart type


La variance = S2 = Var (x) = (19799,9/667) = 29,7 ans2
L’écart type = S = 5,45 ans
Interprétation : la dispersion autour de la moyenne est de 5,45 ans.

6. Coefficient de variation
CV= (l’écart type/moyenne) 100 = (5,45 ans/24,04 ans) × 100 = 0,2267 × 100
= 22,67%.
Interprétation : la dispersion de cette variable (âge) peut être considérée comme
importante (Elle dépasse le seuil de 20%).

7. Dessinez la boîte à pattes sachant que :


o Le maximum d’âge est de 38.
o Le minimum d’âge est de 16 ans
o Supposant que nous disposons d’une seule observation qui correspond à
« 32 ans » qui se place juste avant 33,5 ans.

Illustration de la boîte à pattes :


Indicateurs statistiques 68

Exercice 11

On dispose de la répartition des prix d’un échantillon de produits dans le tableau


ci-dessous :
Répartition des prix d’un échantillon de produits

Prix ni
[ 50 - 150 [ 10000
[ 150 - 200 [ 22000
[ 200 - 250 [ 47000
[ 250 - 300 [ 29000
[ 300 - 400 [ 54500
[ 400 - 600 [ 36000
[ 600 - 1000 [ 8000
[ 1000 - 2500 [ 500
Total 207000
Source : exemple
1. Interprétez l’effectif de 47000 dans le tableau.
2. Calculez le mode.

Solution
1. 47000 produits ont un prix entre 200 et 250 Dhs.
2. Pour calculer le mode, il faut en premier lieu déterminer la classe modale. Nous
sommes devant un cas avec des amplitudes inégales, dans ce cas nous prendrons en
considération les densités d’effectifs calculées dans la dernière colonne dans le
tableau ci-dessous afin de déterminer la classe modale. Dans la formule de calcul du
mode, nous remplaçons ni par ni /ai.
Répartition des prix d’un échantillon de produits

Prix ni ai xi fi ni /ai
[ 50 - 150 [ 10000 100 100 4,83 100,0
[ 150 - 200 [ 22000 50 175 10,63 440,0
[ 200 - 250 [ 47000 50 225 22,71 940,0
[ 250 - 300 [ 29000 50 275 14,01 580,0
[ 300 - 400 [ 54500 100 350 26,33 545,0
[ 400 - 600 [ 36000 200 500 17,39 180,0
[ 600 - 1000 [ 8000 400 800 3,86 20,0
[ 1000 - 2500 [ 500 1500 1750 0,24 0,3
Total 207000 --- ---- 1,00 --
Indicateurs statistiques 69

La classe modale est [ 200 - 250 [


Le mode :
" (940 − 440) %
Mo = 200 + $ ' × 50 = 229,07 Dhs
# (940 − 440) + (940 − 580) &

Le mode est ainsi égal à 229,07 Dhs.

Exercice 12
Soit une série statistique qui correspond à la taille de 7 étudiants en cm :
160, 165, 175, 180, 182, 164, 176.
Calculez la médiane.

Solution
o On doit en premier lieu mettre les observations en ordre croissant :
160, 164, 165,175, 176, 180, 182.
o Puisque n = 7 un chiffre impair, n = 2 p + 1 donc p = 3.
Ceci dit : Me = X(p+1)
160, 164, 165, 175, 176, 180, 182.
o La médiane (Me = 175 Dhs).

Remarque :
On peut noter que la médiane ne prend pas en compte toutes les données.

Exercice 13

Soit une série statistique qui correspond aux prix des livres de gestion dans une librairie en
Dhs : 120, 150, 250, 210, 170, 290.
Calculez la médiane.
Indicateurs statistiques 70

Solution
o Si n est pair, soit n = 2 p, (Me) = (x(p) + x(p+1) )/2
o La série en ordre croissant : 120, 150, 170, 210, 250, 290.
o La médiane : Me = X(3) + X(4) )/2 = (170+210)/2 =190 Dhs

Remarque :
Notons que la médiane n’est pas sensible aux valeurs extrêmes de la série statistique qu’elle
résume. Supposant au lieu de 290 Dhs nous avons 2000 Dhs, la valeur de la médiane ne
changera pas.

Exercice 14
On dispose de la répartition d’un échantillon de familles selon le nombre d’enfants
présentée dans le tableau ci-dessous :

Répartition des familles selon le nombre d’enfants

Nombre d’enfants Xi ni fi
1 3201 45,80%
2 2498 35,74%
3 919 13,15%
4 241 3,45%
5 130 1,86%
Total 6989 100,00%

Source : exemple
Calculez le mode et la médiane.

o Solution
o Le mode est égal à 1 (n1 est le plus élevé)
o La médiane est égale à 2 (F2(x) > = 50%).
Indicateurs statistiques 71

Exercice 15
On dispose de la répartition du CA de 2000 entreprises présentée dans le tableau
ci-dessous :
Répartition du CA des entreprises

CA en million ni
[ 10 - 20 [ 80
[ 20 - 40 [ 240
[ 40 - 60 [ 320
[ 60 - 70 [ 200
[ 70 - 120 [ 500
[ 120 - 180 [ 280
[ 180 - 300 [ 380
Total 2000
Source : exemple
Questions :
1. Calculez la moyenne.
2. Calculez le mode.
3. Calculez la médiane.
4. Comment est la forme de la distribution de la variable « CA des entreprises » ?
5. Calculez q10, q25, q71, q75, q90 et interprétez-les.
6. Calculez la variance, l’écart-type et le coefficient de variation.

Solution
1. Calculez la moyenne
Répartition du CA des entreprises

CA en million ni xi ni *xi
[ 10 - 20 [ 80 15 1200
[ 20 - 40 [ 240 30 7200
[ 40 - 60 [ 320 50 16000
[ 60 - 70 [ 200 65 13000
[ 70 - 120 [ 500 95 47500
[ 120 - 180 [ 280 150 42000
[ 180 - 300 [ 380 240 91200
Total 2000 --- 218100
Indicateurs statistiques 72

Moyenne = (218100/2000) =109.05 MDhs.

2. Calculez le mode

CA en million ni ai ni /ai
[ 10 - 20 [ 80 10 8,0
[ 20 - 40 [ 240 20 12,0
[ 40 - 60 [ 320 20 16,0
[ 60 - 70 [ 200 10 20,0
[ 70 - 120 [ 500 50 10,0
[ 120 - 180 [ 280 60 4,7
[ 180 - 300 [ 380 120 3,2
Total 2000 --

⎛ (20 −16) ⎞
Mo = 60 + ⎜ ⎟ × 10 = 62.86 Mdhs
⎝ (20 −16)+ (20 −10) ⎠

3. Calculez la médiane

CA en million ni ai fi Fi
[ 10 - 20 [ 80 10 4% 4%
[ 20 - 40 [ 240 20 12% 16%
[ 40 - 60 [ 320 20 16% 32%
[ 60 - 70 [ 200 10 10% 42%
[ 70 - 120 [ 500 50 25% 67%
[ 120 - 180 [ 280 60 14% 81%
[ 180 - 300 [ 380 120 19% 100%
Total 2000 100% --

é 50 - 42 ù
Me = 70 + ê 50 ´ = 86
ë 67 - 42 ú
û MDhs

4. Comment est la forme de la distribution de la variable « CA des entreprises » ?

Nous avons obtenu les résultats suivants :


• Mode = 62.86 Mdhs
• Médiane = 86 Mdhs
• Moyenne= 109.05 Mdhs
Ceci dit : le mode < la médiane < la moyenne
Ainsi la distribution du CA des entreprises est oblique à gauche et étalée vers la droite.
Indicateurs statistiques 73

5. Calculez q10, q25, q71, q75, q90 et interprétez-les.

(*) Q1 ou q25 :
é 25 - 16 ù
q25 = 40 + ê 20 ´ = 51,25
ë 32 - 16 úû Mdhs

25% des entreprises ont une valeur du CA inférieure à 51,25 MDhs, ou bien 75% des
entreprises ont une valeur du CA supérieure ou égale à 51,25 MDhs.

(*) D1 ou q10 :
é 10 - 4 ù
q10 = 20 + ê 20 ´ = 30
ë 16 - 4 ú
û Mdhs

10% des entreprises ont une valeur du CA inférieure à 30 MDhs.

(*) C71 ou q71 :


é 71 - 67 ù
q71 = 120 + ê60 ´ = 137,14
ë 81 - 67 ú
û Mdhs

71% des entreprises ont une valeur du CA inférieure à 137,14 MDhs

(*) Q3 ou q75 :
é 75 - 67 ù
q75 = 120 + ê 60 ´ = 154,28
ë 81 - 67 ú
û Mdhs

75% des entreprises ont une valeur du CA inférieure à 154,28 MDhs.

(*) C90 ou q90 :


# 90 − 81 &
q90 = 180 + %120 × ( = 236, 84
$ 100 − 81' Mdhs

90% des entreprises ont une valeur du CA inférieure à 236,84 M MDhs.

6. Calculez la variance, l’écart-type et le coefficient de variation.

Variance = 5397,85 (Mdhs)2.


Ecart type = 73,47 Mdhs
CV = 0,6737 ou bien CV = 67,37%.
Indicateurs statistiques 74

NB. Il est important de rappeler que le CV est sans unité.

Exercice 16 :
On dispose du salaire initial de 12 agents de sécurité en Dhs comme ci-dessous :
3310 3355 3450 3480 3480 3490 3520 3540 3550 3650
3730 3925

1. Calculez la médiane.
2. Calculez Q1 et Q3.
3. Dessinez la boîte à pattes.
4. Calculez le coefficient interquartile relatif.
5. Calculez le coefficient interdécile relatif.
6. Calculez l’écart absolu moyen et interprétez-le.
7. Calculez l’écart relatif moyen.
8. Calculez la variance
9. Calculez l’écart-type.
10. Calculez le coefficient de variation.

Solution
1. La médiane
Me = Q2 = (3490 +3520)/2 = 3505 Dhs

2. Q1 et Q3
On prend on considération la procédure introduite dans le chapitre :
Q1= (3450 +3480)/2 = 3465 Dhs
Q3= (3550 +3650)/2 = 3600 Dhs
Indicateurs statistiques 75

3. La boîte à pattes

Etendue = Max - Min

4. Le coefficient interquartile relatif

( Q3 - Q1 ) / Q2 = 135 / 3505 = 0.0385

5. Le coefficient interdécile relatif

( D9 - D1 ) / D5 = (3730 - 3355) / 3505 = 0.1069

6. L’écart absolu moyen

Xi 3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925
Moyenne 3540 3540 3540 3540 3540 3540 3540 3540 3540 3540 3540 3540
Ecart -230 -185 -90 -60 -60 -50 -20 0 10 110 190 385
Ecart absolu 230 185 90 60 60 50 20 0 10 110 190 385

L’écart absolu moyen = 1390/12 = 115,83 = 116 Dhs


Interprétation : les salaires des agents de sécurité s’écartent en moyenne de 116 Dhs du
salaire moyen qui est de 3540 Dhs.

7. L’écart relatif moyen :

Ecart absolu moyen 116


= = 0, 032
Moyenne 3540
Indicateurs statistiques 76

Il est important de noter que le coefficient interquartile relatif, le coefficient interdécile


relatif et l’écart relatif moyen sont des indicateurs de dispersion relatifs, ceci dit ces trois
indicateurs n'ont pas d'unité.

8. Calculez la variance

å (x - x )
n
2
i
301850
S2 = i =1
= = 25154,16
n 12 (Dhs)2

9. Calculez l’écart type

S = S ² = 25154,16 = 158,60 (Dhs)

Interprétation : la dispersion autour de la moyenne est de 158,60 Dhs (ou en arrondissant


le chiffre :159 Dhs).

10. Calculez le coefficient de variation

158,60
CV x = = 0,044
3540 ou bien 4,4%

Exercice 17
On dispose de la répartition des salariés d'une entreprise X selon le salaire mensuel. Le
tableau ci-dessous représente les fréquences cumulées des salariés et les fréquences
cumulées de la masse salariale.
Répartition des salariés d'une entreprise X selon le salaire mensuel

Salaire Fréquence cumulée Fréquence cumulée de la masse


des salariés « Fi » totale des salaires « F'i »
[ 3000 - 3500 [ 10% 5%
[ 3500 - 4000 [ 30% 17.5%
[ 4000 - 4500 [ 55% 35%
[ 4500 - 5000 [ 78% 58%
[ 5000 - 10000 [ 100% 100%
Total --- ---
Source : exemple
Indicateurs statistiques 77

1. Interprétez la première ligne (10% et 5%)


2. Interprétez la quatrième ligne (78% et 58%)
3. Calculez la médiane
4. Calculez la médiale et interprétez-la.

Solution
1. 10% des salariés qui reçoivent un salaire inférieur à 3500 Dhs se partagent 5% de la
masse salariale.
2. 78% des salariés qui reçoivent un salaire inférieur à 5000 Dhs se partagent 58% de
la masse salariale.
3. La médiane : 4000 + (500 × (50-30) / (55-30)) = 4400 Dhs.
4. La médiale : 4500 + (500 × (50-35) / (58-35)) = 4826 Dhs.

Interprétation : 4826 Dhs est la plus petite valeur telle que les salariés ayant un
salaire inférieur ou égal à cette valeur se partagent 50% de la masse salariale. Ou
bien 50% de la masse salariale (Budget destiné pour les salaires) est destinée pour
les employés qui ont un salaire supérieur ou égal à 4826 Dhs.

Exercice 18
On dispose de la répartition des exploitations agricoles selon la surface en hectares comme
dans le tableau ci-dessous :
Répartition des exploitations agricoles selon la surface en hectares

Surface en ha Effectif ni
[ 0 - 10 [ 500
[ 10 - 20 [ 1000
[ 20 - 30 [ 500
[ 30 - 40 [ 400
[ 40 - 60 [ 400
[ 60 - 80 [ 200
Total 3000

Source : exemple
Calculez l’indice de Gini et interprétez-le.
Indicateurs statistiques 78

Solution

Source : exemple
Nous rappelons la formule de calcul :
n
I G = 1− ∑ fi (F 'i + F 'i−1 )
i=1
Dans ce cas :
IG = 1 - 0,618 = 0,382

Interprétation :
La répartition de la superficie totale des exploitations agricoles tend à être égalitaire.

Exercice 19
On dispose de la répartition des entreprises selon le nombre de salariés comme dans le
tableau ci-dessous :
Répartition des entreprises selon le nombre de salariés

Nombre de salariés ni
[0-5[ 160
[ 5 - 20 [ 250
[ 20 - 50 [ 50
[ 50 - 100 [ 18
[ 100 - 200 [ 15
[ 200 -500 [ 5
[500 -1000 [ 2
Total 500
Source : exemple
Indicateurs statistiques 79

1. Interprétez 160 et 250 dans les deux premières lignes.


2. Calculez l’indice de Gini et interprétez-le.

Solution
1. 160 entreprises ont moins de 5 salariés et 250 entreprises ont un nombre de
salariés entre 5 et 19 employés.
2. L’indice de Gini et son interprétation.

n
I G = 1 - å f i ( Fi' + Fi'-1 ) = 1 - 0,342 = 0,658
i =1

Interprétation :
Une concentration importante de la distribution des salariés au profit des petites entreprises.
La distribution des salariés tend vers l'inégalité.

Remarque :
o On peut dessiner la courbe de Lorenz (courbe de concentration) en prenant en
considération les points M (Fi, F'i).
o Les Fi sont représentées dans la cinquième colonne et F'i dans la septième colonne
dans le tableau ci-dessus.
Indicateurs statistiques 80

Exercice 20
On dispose de la répartition d’un échantillon d’entreprises selon le CA dans le tableau
ci-dessous :
Répartition des entreprises selon le CA
CA en million ni
[ 10 - 20 [ 80
[ 20 - 40 [ 240
[ 40 - 60 [ 320
[ 60 - 70 [ 200
[ 70 - 120 [ 500
[ 120 - 180 [ 280
[ 180 - 300 [ 380
Total 2000

Source : exemple
1. Calculez l’indice de Gini
2. Interprétez le résultat.

Solution

1. L’indice de Gini = 1 - 0,635 = 0,375


2. Interprétation : La répartition des individus statistiques tend à être égalitaire.
Statistique bivariée 81

Chapitre 4.
Statistique descriptive bivariée

1. Présentation des données


2. Distribution conjointe
3. Distribution marginale et conditionnelle
4. Fréquence conjointe, marginale et conditionnelle
5. Comment commenter un tableau de contingence ?
6. Recherche d’un lien entre deux variables
7. Indépendance de deux variables
8. Indice de spécificité
9. Covariance
10. Corrélation
Statistique bivariée 82

Chapitre 4.
Statistique descriptive bivariée

L’analyse d’une série bivariée consiste à étudier une série d'observations ou une série
statistique selon deux variables, d’où le concept de croisement de variables statistiques.

En effet, le croisement de variables statistiques consiste à relever pour le même individu la


valeur prise par deux variables. Ce croisement a pour objectifs :
• de rechercher l’existence d’un lien de dépendance entre les deux variables5 ;
• d’étudier la corrélation et de dégager des tendances ;
• de modéliser le lien (si ce lien existe).

On peut avoir 3 cas lors d’un croisement de deux variables statistiques :


• Le cas de croisement de deux variables qualitatives.
• Le cas de croisement d’une variable quantitative et d’une variable qualitative.
• Le cas de croisement de deux variables quantitatives. Ce dernier cas fera l’objet de
l’analyse de régression linéaire simple qui sera introduite par la suite.

1. Présentation des données


La présentation d’une série bivariée peut être sous forme d’un tableau de contingence, qui
peut être défini comme :
§ un tableau à double entré ou à deux dimensions ;
§ un tableau avec deux variables X et Y, tel que les m modalités de X sont
désignées par X1, X2,…Xi…Xm et les n modalités de Y sont désignées par Y1,
Y2,…. Yj,…Yn.

5
Il est important de souligner qu’un lien ne signifie pas une relation de cause à effet.
Statistique bivariée 83

§ un tableau avec m lignes et n colonnes comme illustré dans le tableau


ci-dessous, tel que m et n sont les nombres de modalités de la variable X et de
la variable Y respectivement ou le nombre d’intervalles si la variable est
continue6.
Tableau de contingence

Source : élaboré pour illustration

2. Distribution conjointe
La répartition de toutes les observations (n) est appelée la distribution conjointe. On peut
noter que l’effectif nij est le nombre d’individus statistiques qui représente à la fois la
modalité Xi et la modalité Yj.
Les nij, tel que i=1,…,m et j=1,…n, représentent ainsi une distribution observée conjointe
du couple (X,Y), qui peut être notée :
{(xi, yj, nij , i =1,…m, j =1,…,n)} ;
tel que le total des observations est la somme des nij.
Les nij sont nommés les effectifs d’intersection.

3. Distribution marginale et conditionnelle


3.1 Distribution marginale

Dans un tableau de contingence, si on calcule le total des colonnes, on obtient les effectifs :
n.1, n.2,…, n.j,…,n.n qui constituent la distribution marginale de la variable Y.

6
On peut noter m, n ou a, b…peu importe la notation, l’important est de la définir.
Statistique bivariée 84

De même, si on calcule le total des lignes, on obtient : n1. ,n2. ,…,ni. ,…, nm et qui constituent
la distribution marginale de la variable X.
Les deux distributions sont illustrées dans le tableau ci-dessous :

Tableau de contingence avec la distribution


marginale de X et la distribution marginale de Y

Source : élaboré pour illustration

• ni. est le nombre d’observations de la modalité Xi de la variable X quelle que soit la


modalité de la variable Y.
• n.j est le nombre d’observations de la modalité Yj de la variable Y quelle que soit la
modalité de la variable X.
• n.. est le nombre total d’observations quelle que soit les modalités de X et de Y, il est
parfois noté n++.
On note ainsi les formules de calcul de ni. , n.j et n.. qui sont explicitées ci-dessous :
)

%$.& & %'( tel que , = - … /


*&+

%.*& & %'( tel que 0 = - … %


$&+

) ,

& %.( = & %'. = %..


*&+ $&+
Statistique bivariée 85

• La distribution marginale de la variable Y est donc une distribution univariée7. C’est


la distribution de la variable Y seule, dont les modalités sont en marge supérieure et
les effectifs en marges inférieure dans un tableau de contingence.

• La distribution marginale de la variable X est aussi une distribution univariée. C’est


la distribution de la variable X seule, dont les modalités sont en marge gauche et les
effectifs en marge droite dans un tableau de contingence.

Ces deux distributions sont illustrées respectivement dans les deux tableaux ci-dessous :

• Distribution marginale de la variable Y

• Distribution marginale de la variable X

3.2 Distribution conditionnelle

Dans un tableau de contingence, si on fixe Xi et on garde toutes les modalités de la variable


Y, on obtient une distribution conditionnelle, qui est la distribution de la variable Y, tel que
la modalité de la variable X est égale à Xi.

7
On peut ainsi calculer les indicateurs de tendance centrale et de position, et les indicateurs de dispersion introduits
dans le chapitre précédent.
Statistique bivariée 86

De même, si on fixe Yj et on garde toutes les modalités de la variable X, on obtient une


distribution conditionnelle, qui est la distribution de la variable X, tel que la modalité de la
variable Y est égale à Yj.
Nous illustrons ces deux distributions respectivement dans les deux tableaux ci-dessous :

o Distribution de la variable Y, tel que la modalité de la variable X est égale à X -

o Distribution de la variable X, tel que la modalité de la variable Y est égale à Y.

On peut souligner que dans un tableau de contingence, au lieu des effectifs, nous pouvons
avoir des fréquences. Nous définirons ainsi les fréquences marginales, les fréquences
conditionnelles et les fréquences conjointes.
Statistique bivariée 87

4. Fréquence conjointe, marginale et conditionnelle


4.1 Fréquence conjointe

Soit, une distribution conjointe {(xi, yj, nij , i =1,…m, j =1,…,n)}, pour i fixé entre 1 et m et j
fixé entre 1 et n, la fréquence conjointe est égale à : fij = nij / n..

4.2 Fréquence marginale

Pour i fixé entre 1 et m, la fréquence marginale colonne est égale à (fi. = ni. / n..). Si on
calcule pour toutes les colonnes les fréquences nij/n.j tel que j =1,…,n ; on obtient les profils
colonnes des individus statistiques.

Pour j fixé entre 1 et n, la fréquence marginale ligne est égale à (f.j = n.j / n..). Si on calcule
pour toutes les lignes les fréquences nij/ni. tel que i =1…m ; on obtient les profils lignes des
individus statistiques.

Les profils lignes et les profils colonnes nous permettent de visualiser les fréquences
conditionnelles que nous introduirons dans la section suivante.

4.3 Fréquence conditionnelle

Pour k fixé entre 1 et m et l fixé entre 1 et n, la fréquence conditionnelle ligne est égale à :
(fj=l/i=k = nkl / nk.)

Etablir les profils lignes consiste de ce fait à calculer toutes ces fréquences.
Pour k fixé entre 1 et m et l fixé entre 1 et n, la fréquence conditionnelle colonne est égale
à : (fi=k/j=l = nkl / n.l)
Etablir les profils colonnes consiste à calculer toutes ces fréquences.
Statistique bivariée 88

5. Comment commenter un tableau de contingence ?


Après l’introduction d’un tableau de contingence, on peut se poser la question : comment
peut-on commenter ses données ?
On peut utiliser le résumé des marges, le résumé des colonnes et le résumé des lignes et
ceci en prenant en considération les effectifs (ou les fréquences) les plus élevés ou les plus
bas, selon la problématique traitée dans notre étude statistique.

6. Recherche d’un lien entre deux variables


Rappelons que l’objectif de croisement de variable est la recherche d’un lien de
dépendance qui peut exister entre les variables. Ainsi, on peut se poser les questions
suivantes :
• Est-ce que ce lien existe ?
• S’il existe, peut-on évaluer son intensité et sa nature ?
• S’il existe, peut-on le modéliser ?

Pour répondre à la première question, les données statistiques peuvent être présentées sous
forme d’un graphique, et plus précisément sous forme d’un nuage de point, car ce dernier :
o permet de voir si les deux variables ont globalement tendance à covarier, ou non
dans le même sens.
o permet de déterminer si les deux variables sont liées par une relation de dépendance
et d’identifier la forme de la relation quand elle existe.

En fait, un nuage de points est une présentation graphique de la relation entre deux
variables quantitatives, qui peut être traversée par la tendance, qui est une droite qui fournit
une approximation de la relation. Il permet donc d’infirmer ou confirmer « l’intuition » de
dépendance.

Mais comment peut-on définir la dépendance ou l’indépendance de deux variables ?


Statistique bivariée 89

7. Indépendance de deux variables


Nous pouvons mettre en exergue deux définitions qui concernent l’indépendance de deux
variables statistiques.
La première :
Deux variables X et Y sont statistiquement indépendantes si toutes les distributions
conditionnelles en colonnes (respectivement en lignes) sont identiques à la
distribution marginale colonne (respectivement ligne) de l’ensemble. Ceci dit, si pour
tout i et pour tout j on a :
fj=l/i=k = f.j & fi=k/j=l = fi.
La deuxième :
Deux variables X et Y sont statistiquement indépendantes si la distribution des
fréquences conjointes est égale au produit des distributions des fréquences marginales.
Ceci dit, si pour tout i et pour tout j on a :
fij = fi. × f.j équivalant à nij = (ni. × n.j )/n..

Dans le cas contraire, on peut déduire qu’il y a une forte présomption de dépendance entre
les deux variables.En prenant en considération ces deux définitions de l’indépendance,
nous pouvons souligner qu’elles sont applicables pour tous les types de variables,
puisqu’elles ne tiennent pas compte des modalités.

Maintenant, la question qui se pose est la suivante : quel est le moyen de quantifier les
écarts entre la situation théorique d’indépendance et la situation réelle ?
On peut répondre à cette question en introduisant l’indice de spécificité.

8. Indice de spécificité
Un indice de spécificité est égal au rapport entre la fréquence conditionnelle ligne (colonne)
et la fréquence marginale ligne (colonne) correspondante. Il est applicable, peu importe le
type des deux variables.
Statistique bivariée 90

Si cet indice :
• dépasse 100%, nous pouvons noter que par rapport à l’ensemble des unités
statistiques, il y a une surreprésentation d’un pourcentage p, qui représente un
dépassement.
• est moins de 100%, nous pouvons noter que par rapport à l’ensemble des unités
statistiques, il y a une sous-représentation d’un pourcentage p, qui sera déduit suite à
un calcul simple pour aboutir à 100%.

Lors d’un croisement de deux variables, on a souligné trois cas. Si les deux variables sont
quantitatives, on peut calculer bien évidemment des indicateurs comme la moyenne et
l’écart-type.

Ces différents calculs permettent d’aborder autrement la question de l’indépendance. Nous


introduirons ainsi la corrélation. Mais avant d’introduire cette dernière, nous devons en
premier lieu introduire la covariance. Par la suite, nous pouvons calculer la corrélation et en
déduire le coefficient de détermination.

9. Covariance
A quoi sert la covariance ? La covariance sert tout simplement à quantifier la variabilité
conjointe de deux variables quantitatives, à titre d’exemple X et Y.
Dans un nuage de points qui est limité par deux droites qui passent par le centre de gravité
5, 7
qu’on note G(4 5), nous pouvons noter les cas suivants :
§ X et Y ont tendance à covarier dans le même sens, c’est-à-dire, qu’une augmentation
de X a tendance à s’accompagner d’une augmentation de Y par exemple (voir le
nuage de points A dans le schéma suivant).
§ X et Y ont tendance à covarier en sens contraire, c’est-à-dire, une augmentation de X
a tendance à s’accompagner d’une diminution de Y par exemple (voir le nuage de
points B dans le schéma suivant).

De ces deux cas, on peut comprendre l’idée derrière l’utilité de la covariance qui représente
un indicateur qui mesure la variabilité conjointe de deux variables.
Statistique bivariée 91

Pour le nuage de points C dans le schéma ci-dessous, il est de forme circulaire. Il est ainsi
difficile de dire si les deux variables covarient dans le même sens ou dans des sens inverses.
Néanmoins, on ne peut pas conclure de manière définitive l’indépendance entre les deux
variables, il n’est donc pas totalement exclu que les variables soient dépendantes.

Maintenant la question qui se pose : comment calculer la covariance ?


5 et 7
§ Soit X et Y deux variables quantitatives, de moyennes respectives 4 5 pour n
observations, la covariance du couple (X, Y) est définie par :
)
-
89: (4, 7) = &(4$ − 5 5)
4) (7$ − 7
%
$&+

Nous pouvons facilement déduire que la >?@ (x, x) = BCD (x ) et que >?@ (y, y) =
BCD (y).
Nous pouvons introduire une autre formule de calcul de la covariance qui est plus
économique en temps de calcul que la formule précédente.
Cette formule est la moyenne du produit XY moins le produit des moyennes de X et de Y :
"
+
!"# (&, () = -(&! (! ) − &/ (
/ = 0000
&( − /
&(/
,
!#$

Bien évidemment les deux formules doivent aboutir au même résultat.


Statistique bivariée 92

Comment interpréter la covariance ?


La covariance peut être positive ou négative. Elle est positive dans le cas du nuage de
points A par exemple, négative dans le cas du nuage de points B et nulle ou proche de 0
dans le cas du nuage de points C.

Si on prend en considération le nuage de points ci-dessous :

Dans le cas d’une covariance positive, la plupart des points se trouvent dans le cadran I et
III. Comme dans le graphique ci-dessous où l'on peut remarquer une tendance linéaire8.

8
Nous pouvons aussi avoir une covariance positive avec une tendance exponentielle ou puissance par exemple.
Statistique bivariée 93

Si la covariance est négative, la plupart des points se trouvent dans le cadran II et IV,
comme dans le graphique ci-dessous :

Si les points du nuage se répartissent équitablement dans les quatre cadrans comme dans le
graphique ci-dessous, la covariance est nulle ou presque nulle.

En résumé, nous pouvons noter que :


* la covariance est un indicateur global de tendance, ce n’est pas un indicateur
d’indépendance.
* si X et Y varient dans le même sens alors la covariance est positive.
* si X et Y varient en sens contraire alors la covariance est négative.
Statistique bivariée 94

* s’il n’y a pas de tendance croissante ou décroissance alors la covariance est nulle ou
presque nulle.

Il est important de souligner qu’une covariance nulle n’implique pas l’indépendance, mais
l’indépendance implique une covariance nulle.
Ce constat peut être prouvé en prenant en considération les deux nuages de points
ci-dessous où la covariance est nulle. Le nuage de points à droite illustre deux variables qui
peuvent être liées par une relation fonctionnelle, et celui de gauche illustre deux variables
qui sont indépendantes. Il faut ainsi distinguer entre le concept d’indépendance et la
covariance.

Notons que la covariance d’un couple de variables (X,Y) intervient dans la variance de la
somme de ces deux variables et dans la variance de leur différence, puisque nous pouvons
démontrer que :
:CD (4 + 7) = @CD (G) + @CD (H) + I J?@ (G, H)
:CD (4 − 7) = @CD (G) + @CD (H) − I J?@ (G, H)

Ainsi, si les deux variables sont indépendantes, la covariance est nulle, et par conséquent :

:CD (4 + 7) = @CD (G − H) = @CD (G) + @CD (H)


Statistique bivariée 95

Comme pour la variance, la valeur numérique de la covariance dépend des unités, par
contre la corrélation en est indépendante.

Que représente la corrélation ?

10. Corrélation
Soit (X,Y) un couple de variables quantitatives, d’écarts types respectifs s xs y , le

coefficient de corrélation linéaire du couple (X, Y) est défini par :

Cov ( x , y )
r=
s xs y
Le coefficient de corrélation est aussi nommé, la corrélation tout simplement, ou le
coefficient de corrélation de Bravais-Pearson.

Nous pouvons souligner que :


§ Le coefficient de corrélation linéaire (r) est du même signe que la Cov (x,y).
§ r est toujours compris entre -1 et 1 (-1≤ r ≤1).
§ Si r = 1 ou r = -1 les observations du couple (X, Y) sont parfaitement alignées.
§ Le coefficient de corrélation est une mesure de l’intensité du lien linéaire unissant
deux variables X et Y.
§ Le coefficient de corrélation prend 1 lorsque les points du nuage se positionnent tous
parfaitement le long d’une droite ascendante.
§ Le coefficient de corrélation prend -1 lorsque les points du nuage se trouvent tous
sur une droite de pente négative.

En résumé
* La covariance nous permet de savoir si les deux variables varient dans le même sens
ou en sens inverse. Sa valeur n’est pas importante lors de l’interprétation, vu que
c’est le signe qui est important et qu’on peut interpréter.
Statistique bivariée 96

* La corrélation est une mesure de l’intensité du lien linéaire entre deux variables
quantitatives, utilisée pour calculer le coefficient de détermination.
* Le coefficient de détermination nous permet d’en déduire si la qualité du modèle
linéaire estimée est bonne. Ce coefficient sera introduit dans la section suivante.

11. Coefficient de détermination


Le coefficient de détermination est le carré du coefficient de corrélation linéaire du couple
(X,Y). Il peut être calculé selon la formule suivante :
2
æ Cov( x , y ) ö
r =ç
2 ÷
ç s s ÷
è x y ø
Notons que :
o Le coefficient de détermination est compris entre 0 et 1.
o Lorsque ce coefficient est élevé, la qualité du modèle linéaire estimé tend à être
bonne. Néanmoins, ceci dépend des disciplines, en sciences de gestion par
exemple, un coefficient de détermination égal à 0.45 peut être considéré comme
satisfaisant, tandis qu’en sciences exactes il doit être plus élevé pour porter le
même jugement.
o Ce coefficient de détermination r 2 peut être interprété comme suit : le modèle
linéaire qui utilise comme variable indépendante ou explicative Y « explique » p%
de la dispersion de la variable dépendante ou expliquée X. Ce p% est tout
simplement le r 2 x 100%.
Il est important de noter que lorsque nous utilisons « explique », c’est dans un
sens purement géométrique, et ce terme ne nous donne dans aucun cas une
preuve d'une relation de cause à effet.
Une autre formule d’interprétation peut être aussi utilisée : p% de la variation de
la variable Y peut s’expliquer par une relation linéaire entre les deux variables.
Statistique bivariée 97

Nous schématisons ce chapitre dans le schéma ci-dessous :

2%variables%quantitatives%

Variable%X% Lien%?% Variable%Y%

Coefficient%de%%
Covariance%% Corrélation%
détermination%%

Modéliser%la%%%%
relation%%

Source : élaboré pour illustration

Dans ce dernier schéma, nous pouvons noter la modélisation de la relation entre deux
variables qui sera introduite dans le chapitre 5. Dans ce dernier, nous introduirons la
régression et plus précisément la régression linéaire simple, puisque nous allons nous
limiter à une relation linéaire entre deux variables. Notons que la régression linéaire
multiple existe et elle concerne la relation entre une variable dépendante et plusieurs
variables indépendantes.

NB. Les exercices corrigés de ce chapitre sont inclus avec ceux du chapitre 5.
Régression linéaire simple 98

Chapitre 5.
Régression linéaire simple

Méthodes d’ajustement
1. Méthode des Moindres Carrées Ordinaires MCO
2. Méthode des moyennes de Mayer
3. Méthode des points extrêmes
4. Méthode graphique
Exercices corrigés
Régression linéaire simple 99

Chapitre 5.
Régression linéaire simple

Pour comprendre l’enchainement de ce chapitre, le schéma introduit à la fin du chapitre


précédent peut être complété comme ci-dessous :
2%variables%quantitatives%

Variable%X% Lien%?% Variable%Y%

Coefficient%de%%
Covariance%% Corrélation%
détermination%%

Modéliser%la%%%%
relation%%

Estimation:% Méthodes%%%%%%%%%%
Prévisions%
Régression% d’ajustement%%

Source : élaboré pour illustration

Ceci dit, pour modéliser une relation, nous pouvons utiliser la régression et estimer le
modèle de régression par des méthodes d’ajustement, en cherchant la meilleure relation
entre deux variables, c’est-à-dire la courbe qui passe le plus proche du nuage de points.
L’équation estimée de la régression peut être ainsi utilisée pour faire des prévisions. Dans
ce chapitre, nous introduirons les méthodes d’ajustement et nous nous concentrerons sur la
méthode des Moindres Carrées Ordinaires MCO, qui est la plus répandue.

• Méthodes d’ajustement
Nous introduirons quatre méthodes d’ajustement et nous commencerons par la méthode des
MCO.
Régression linéaire simple 100

1. Méthode des MCO

La méthode des MCO est une procédure qui permet d’utiliser les données de l’échantillon
pour estimer l’équation de régression linéaire : K = LM + N.
O = P/ 4 + Q/ issue d’un
L’équation estimée de la régression linéaire est ainsi notée 7
modèle de régression linéaire 7 = P4 + Q + ℇ , tel que ℇ est une variable aléatoire qui
représente l’erreur, le résidu ou la différence entre la valeur observée et la valeur estimée.

Notons que :
!"#(%,')
o « a » est la pente telle que a =
)*+(%)

o « b » est l’ordonnée à l’origine tel que b = (HS − aGS)

Il est important de souligner que les formules de calcul de « a » et « b » minimisent les


O$ d’où
écarts au carré entre les valeurs observées 7$ et les valeurs estimées 7
l’appellation : la méthode des Moindres Carrées Ordinaires L’équation estimée de la
régression linéaire est ainsi utilisée pour faire des prévisions, en replaçant 4 par une valeur
précise et en déduisant y.
Le graphique ci-dessous nous illustre la différence entre une valeur observée y- et une
5.
valeur estimée yU- et 7
250

200

150

100

50

0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28

Source : élaboré pour illustration


Régression linéaire simple 101

La méthode des MCO fournit ainsi une équation estimée de la régression qui minimise la
somme des écarts au carré entre les valeurs observées y- et les valeurs estimées yU- de la
variable dépendante. C’est-à-dire elle minimise : ∑1-&" (y- − yU- )0

Pourquoi les écarts au carré et non pas les écarts tout simplement ?

Parce que l’épaisseur du nuage représente la dispersion des observations, et dans ce cas en
faisant référence à la dispersion, nous mettons en exergue et nous utilisons la variance qui
est un indicateur de dispersion absolue.
Ceci dit, on prend en considération la variance du terme d’erreur (ou du résidu). Ainsi, nous
pouvons noter que la méthode des MCO minimise la variance s e2 , telle que la moyenne des

résidus est nulle ( e = 0 ).

En d’autres termes, la méthode des MCO minimise la variance des résidus qui est égale à
$
s e2 = ∑"!#$ ((! − (
2! )% telle que KU$ est la valeur estimée de yi. Notons que la
"
$
variance de la variable Y, est égale à s y2 = ∑"!#$((! − (
/)% ; nous pouvons démontrer
"
$
que s y2 = s e2 + s exp
2
liquée tel que s expliquée =
2
∑"!#$ (( / )% .
2! − (
"

Ceci dit, plus les points s’ajustent sur la droite, plus la variance résiduelle (nommée aussi la
variance non expliquée) devient faible, et la variance expliquée est importante.

Par conséquent, nous pouvons réintroduire le coefficient de détermination comme


s exp
2
liquée
ceci r 2 = , avec bien évidement les mêmes interprétations.
s y2

Notons que plus ce coefficient est proche de 1, plus la variance expliquée est grande et la
variance résiduelle est faible, donc plus la qualité du modèle estimé est bonne.
Régression linéaire simple 102

De r2 nous pouvons déduire r qui représente la corrélation. Mais la question qui peut être
posée est la suivante : Comment reconnaître le signe de la corrélation ?

La corrélation peut être calculée selon la formule ci-dessous :

r = (signe de a) √coefficient de détermination = (signe de a) √a 0 ,


tel que « a » correspond à la pente de l’équation estimée de la régression.

Il est important de souligner que :


§ La corrélation est utilisée dans le cas d’une relation linéaire, par contre le coefficient
de détermination a un champ plus large et peut être utilisé dans d’autres types de
relation.
§ La méthode des MCO peut être utilisée pour ajuster des nuages de points par des
fonctions non linéaires, en utilisant des changements de variables adéquats.

Ci-dessous un schéma qui nous donne un aperçu sur trois types de régression, avec leur
fonction avant et après avoir pris le logarithme népérien pour transformer les deux
variables X et Y en X* et Y*. Cette transformation a pour objectif d’aboutir à une équation
linéaire pour pouvoir appliquer la méthode des MCO.

Aperçu sur trois autres types de régression


Régression linéaire simple 103

Nous aborderons dans ce qui suit d’autres méthodes d’ajustement dans le cas d’une
régression linéaire simple, à savoir la méthode des moyennes de Mayer, la méthode des
points extrêmes et la méthode graphique.

2. La méthode des moyennes de Mayer

Cette méthode consiste à diviser une série en deux groupes égaux et calculer les points
moyens ou de gravité G1 ( X 1 , Y1 ) et G2 ( X 2 , Y 2 ) des deux nuages de points.

Si l’effectif total est impair, on divise la série en deux groupes, en prenant en considération
qu’un groupe aura un effectif plus grand d’une observation par rapport à l’autre.
Par la suite, on peut estimer l’équation de la droite y = ax + b par la résolution des deux
équations :
Y1 = a X 1 +b & Y 2 = a X 2 +b

sachant que a et b sont inconnues.

3. La méthode des points extrêmes

Cette méthode consiste à tracer une droite qui passe par les points extrêmes de la série. Elle
reste néanmoins une méthode qui n’est pas précise.

4. La méthode graphique

Cette méthode consiste à tracer à main levée une droite qui passe le plus près des points du
nuage. Elle reste aussi une méthode non précise et dépassée.
Régression linéaire simple 104

5. Exercices corrigés

Exercice 1
On dispose de la répartition des consommateurs selon l’âge et la marque du Smartphone
utilisé. Cette répartition est présentée dans le tableau ci-dessous :

Répartition des consommateurs selon l’âge et la marque


du Smartphone utilisé
Var X (Age)
A B C D E F Total
/VarY (Marque)
[ 15 - 20 [ 13 62 39 12 136 6 268
[ 20 - 30 [ 3 34 23 97 195 429 781
[ 30 - 40 [ 50 60 163 332 267 1023 1895
[ 40 - 50 [ 35 8 178 4 129 277 631
Total 101 164 403 445 727 1735 3575

Source : exemple
1. Déterminez la distribution marginale de X.
2. Déterminez la distribution marginale de Y.
3. Déterminez les fréquences conditionnelles lignes.
4. Déterminez les fréquences conditionnelles colonnes.
5. Déterminez les fréquences conjointes.

Solution
1. La distribution marginale de X est présentée dans le tableau ci-dessous :
Répartition des victimes selon l'âge

Variable X Effectif
[ 15 - 20 [ 268
[ 20 - 30 [ 781
[ 30 - 40 [ 1895
[ 40 - 50 [ 631
Total 3575
Régression linéaire simple 105

2. La distribution marginale de Y est présentée dans le tableau ci-dessous :

Répartition des victimes selon la marque du smart phone utilisée

Variable Y Effectif
A 101
B 164
C 403
D 445
E 727
F 1735
Total 3575

3. Les fréquences conditionnelles lignes :

Var X\VarY A B C D E F Total


[ 15 - 20 [ 5% 23% 15% 4% 51% 2% 100%
[ 20 - 30 [ 0% 4% 3% 13% 25% 55% 100%
[ 30 - 40 [ 3% 3% 9% 18% 14% 53% 100%
[ 40 - 50 [ 6% 1% 28% 1% 20% 44% 100%
Total 3% 5% 11% 12% 20% 49% 100%

On peut noter que la somme des fréquences de chaque ligne est égale à 100% y compris
celle du total.

4. Les fréquences conditionnelles colonnes :

Var X\VarY A B C D E F Total


[ 15 - 20 [ 13% 38% 10% 2% 19% 0% 7%
[ 20 - 30 [ 2% 21% 6% 22% 27% 25% 22%
[ 30 - 40 [ 50% 37% 40% 75% 37% 59% 53%
[ 40 - 50 [ 35% 4% 44% 1% 17% 16% 18%
Total 100% 100% 100% 100% 100% 100% 100%

On peut noter aussi que la somme des fréquences de chaque colonne est égale à 100%, y
compris celle du total.
Régression linéaire simple 106

5. Les fréquences conjointes :

Var X\VarY A B C D E F Total


[ 15 - 20 [ 0.4% 1.7% 1.1% 0.3% 3.8% 0.2% 7.5%
[ 20 - 30 [ 0.1% 1.0% 0.6% 2.7% 5.4% 12.0% 21.8%
[ 30 - 40 [ 1.4% 1.7% 4.6% 9.3% 7.5% 28.6% 53.1%
[ 40 - 50 [ 1.0% 0.2% 5.0% 0.1% 3.6% 7.7% 17.6%
Total 2.9% 4.6% 11.3% 12.4% 20.3% 48.5% 100.0%

Exercice 2
On dispose de la répartition d’un échantillon selon l’appréciation pour la vitesse et le genre
dans le tableau ci-dessous :
Répartition de l’appréciation pour la vitesse selon le genre

Var X /VarY Hommes Femmes Total


Faible 150 107 257
Moyen 180 96 276
Fort 320 122 442
Total 650 325 975

Source : exemple
Est-ce que l’appréciation pour la vitesse est liée au genre ?

Solution
En appliquant la définition de l’indépendance entre deux variables, on calcule les
fréquences conditionnelles colonnes :

Var X /VarY Hommes Femmes Total


Faible 23,08% 32,92% 26,36%
Moyen 27,69% 29,54% 28,31%
Fort 49,23% 37,54% 45,33%
Total 100% 100% 100%
Régression linéaire simple 107

Les fréquences conditionnelles colonnes des hommes sont différentes des fréquences
conditionnelles colonnes des femmes et du total.
Ceci dit, il y a une présomption de dépendance entre les deux variables. On suppose ainsi
qu’un lien existe entre les deux variables. On ne peut être sure qu’on utilisant la loi de
Khi-deux.

NB. Si on avait obtenu des fréquences conditionnelles colonnes identiques comme dans le
tableau ci-dessous, on pourrait déduire que les deux variables sont indépendantes.

Var X /VarY Hommes Femmes Total


Faible 23% 23% 23%
Moyen 28% 28% 28%
Fort 49% 49% 49%
Total 100% 100% 100%

Exercice 3
On dispose de la répartition du montant des ventes d’un produit en milliers de Dhs selon le
nombre de spots publicitaires, comme ci-dessous :

Répartition des ventes d’un produit selon le nombre de spots publicitaires

Nombre de spots publicitaires 1 2 3 4 5 7


Montant des ventes 29 48 70 90 109 147
Source : exemple

1. Représentez graphiquement les données.


2. Que peut-on déduire ?
3. Calculez la corrélation.
4. Comment peut-on interpréter le résultat ?
Régression linéaire simple 108

Solution :
1. Représentez graphiquement les données

160
Montant
140
120
100
80
60
40
20
0
0 1 2 3 4 5 6 7 8
Nombre de spots publicitaires

2. Que peut-on déduire ?


Une augmentation des spots publicitaires a tendance à s’accompagner d’une augmentation
du montant des ventes. La variable X représente le nombre de spots publicitaires et la
variable Y représente les ventes.

3. Calculez la corrélation
Pour calculer la corrélation, on utilise sa formule :
Cov ( x , y )
r=
s xs y
Il faut ainsi calculer la covariance et l’écart-type de la variable X et de la variable Y.
On peut utiliser l’une des deux formules pour calculer la covariance :
$
(1) 456 (7, 8) = ∑&'#$(7 ' 8' ) − 70 80 = 0000
7 8 − 70 80
&
$
(2) 456 (7, 8) = ∑&'#$(7 ' − 70) (8' − 80)
&
Régression linéaire simple 109

Pour utiliser les deux formules, les calculs intermédiaires sont dans le tableau suivant :

Nombre de spots
1 2 3 4 5 7
publicitaires xi
Ventes yi 29 48 70 90 109 147
xi × yi 29 96 210 360 545 1029
#)
(!! − ! -2,67 -1,67 -0,67 0,33 1,33 3,33
#)
(%! − % -53,17 -34,17 -12,17 7,83 26,83 64,83
#)×(%! − %
(!! − ! #) 141,96 57,06 8,15 2,58 35,68 215,88
#) 2
(!! − ! 7.13 2.79 0.45 0.11 1.77 11.09
(%! − %#)2 2827.05 1167.59 148.11 61.31 719.85 4202.93

Ainsi :
o xS = 3,67
o yS = 82,17
o SSS
xy = 378,17
o Cov (x,y) = 378,17 – (3,67´82,17) = 76,60

4. Interprétation de la covariance
X et Y ont tendance à covarier dans le même sens.

On peut aussi calculer la covariance selon la formule (2) :


o Cov (x,y) = 461,31/6 = 76,89
NB. la différence entre les deux méthodes est due aux décimales.
En calculant la variance de X et la variance de Y, nous trouvons :

o Var (x) = 3,89 ; ainsi ℴ2 = 1,972


o Var (y) = 1521,14 ainsi ℴ3 = 39,002

Ceci dit, la corrélation entre X et Y est :


r = (76,60/(1,972´39,002)) = (76,60/(76,912)) = 0,996.
On peut ainsi déduire que la relation entre X et Y est très forte.
Régression linéaire simple 110

Exercice 4
On dispose de la répartition des ventes d’un magasin en milliers de Dhs selon le nombre de
spots publicitaires lancé pendant dix semaines dans le tableau ci-dessous :

Répartition des ventes selon le nombre de spots publicitaires

Semaine Nombre de spots Volume des ventes


publicitaires
1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46

Source : exemple
1. Calculez la covariance
2. Calculez la corrélation

Solution
Semaine Nombre de spots Volume des /)
(&! − & /)
((! − ( (1) ´ (2)
publicitaires ventes (1) (2)
1 2 50 -1 -1 1
2 5 57 2 6 12
3 1 41 -2 -10 20
4 3 54 0 3 0
5 4 54 1 3 3
6 1 38 -2 -13 26
7 5 63 2 12 24
8 3 48 0 -3 0
9 4 59 1 8 8
10 2 46 -1 -5 5
Total 30 510 -- -- 99
Régression linéaire simple 111

1. La covariance entre x et y :
o xS = 3 (Moyenne de la variable X)
o yS = 51 (Moyenne de la variable Y)
o Cov (x,y) = (99/10) =9,9

Le signe de la covariance est positif, X et Y ont tendance à covarier dans le même sens.

2. Corrélation :
o Var (x) = 2,00 ; ainsi ℴ2 = 1,41
o Var (y) = 56,6 ainsi ℴ3 =7,52
o Ceci dit, la corrélation entre X et Y est : r = (9,9/ (1,41´7, 52)) = 0,93.

On peut qualifier la relation entre X et Y comme une relation très forte.

Il est important de souligner que nous avons une série statistique bivariée avec n..=10.

Exercice 5
Supposant qu’on dispose de la répartition du rendement de 7 parcelles et de la quantité
d’engrais utilisée dans chacune, présentée dans le tableau ci-dessous :

Répartition du rendement et la quantité d’engrais utilisée


Parcelle Engrais Xi (Kg/ha) Rendement Yi (q/ha)

1 100 45
2 200 52
3 300 53
4 400 70
5 500 68
6 600 69
7 700 81

Source : exemple
Régression linéaire simple 112

Dans cet exercice, l’objectif est de déterminer si les variations du rendement sont
dépendantes de la quantité d’engrais utilisée.
1. Représentez les données par un nuage de points et déduisez le signe de la
covariance.
2. Si un lien existe entre les deux variables, comment peut-on qualifier son intensité ?
3. Modélisez la relation entre X et Y en utilisant la régression linéaire simple avec la
méthode des Moindres Carrés Ordinaires (MCO).

Solution
L’objectif est de déterminer si les variations du rendement sont dépendantes de la quantité
d’engrais utilisée. Ceci dit, le rendement est une variable dépendante ou expliquée et la
quantité d’engrais est une variable indépendante ou explicative.

1. Représentez les données par un nuage de points et déduisez le signe de la


covariance.

On peut calculer dans un premier temps la moyenne de la variable de X et de la variable Y


5, 7
pour avoir un centre de gravité G (4 5)
Régression linéaire simple 113

Parcelle Engrais Xi (Kg/ha) Rendement Yi (q/ha) xi . yi


1 100 45 4500
2 200 52 10400
3 300 53 15900
4 400 70 28000
5 500 68 34000
6 600 69 41400
7 700 81 56700
Moyenne / =400
& / =62.57
& 0000 =27271.43
&(

On peut remarquer que tous les points se trouvent dans les deux cadrans ou le produit
(x- − xS).(y- − yS) est positif, ainsi la covariance est positive, et les deux variables covarient
dans le même sens. Ceci dit, il y a une forte présomption d’un lien positif entre les deux
variables.

2. Si un lien existe entre les deux variables, comment peut-on qualifier son intensité ?
Il faut dans ce cas calculer la corrélation entre les deux variables, pour savoir si la relation
est forte ou faible.

En utilisant la même méthode que l’exercices précédent :


o xS = 400
o yS = 62,57
o SSS
xy = 27271,43
o Cov (x,y) = 2243,43
On confirme ainsi la réponse à la question 1 ; le signe de la covariance est positif et X et Y
ont tendance à covarier dans le même sens.

o Var (x) = 40000 ; ainsi ℴ2 = 200


o Var (y) = 139,67 ainsi ℴ3 = 11,82
Régression linéaire simple 114

Ainsi, la corrélation entre X et Y est : r = (2243,43/ (200´11,82)) = 0,95.


On peut qualifier la relation entre X et Y comme une relation très forte. En d’autres termes,
la variable dépendante « rendement » et la variable indépendante « quantité d'engrais » sont
fortement corrélées et covarient dans le même sens.

3. Modélisez la relation entre X et Y en utilisant la régression linéaire simple avec la


méthode des Moindres Carrés Ordinaires (MCO).
Dans ce cas, nous devons estimer la droite linéaire qui passe le plus près possible par les
points du nuage.

La droite est Y = aX+b, tel que :


! Cov(x, y) $ ! 2243, 43 $
a =# 2 &=# & = 0, 056
" σ x % " 40000 %
&
b = Y − 0, 056X = 62, 57 − (0, 056 × 400) = 40,17

On peut ainsi avoir une équation de régression estimée comme ceci : Y = 0,056 X + 40,17.
On peut cependant utiliser cette équation pour des prévisions en replaçant X par une valeur
et calculer la valeur Y.
Régression linéaire simple 115

Exercice 6
On dispose de la répartition du nombre de pièces et la surface moyenne correspondante
dans 6 logements, résumée dans le tableau ci-dessous :

Répartition du nombre de pièces et la surface moyenne

Nombre de pièces Surface moyenne


1 29
2 48
3 70
4 90
5 109
6 147

Source : exemple

1. Estimez l’équation de régression en utilisant la méthode des MCO.


2. Comment est la qualité du modèle estimé ?
3. Evaluez la surface moyenne d’un logement de 10 pièces

Solution
1. Estimez l’équation de régression en utilisant la méthode des MCO.
On utilise la même méthode que les exercices précédents pour calculer « a » et « b » dans
l’équation Y = aX + b.
Dans ce cas, on suppose que plus le nombre de pièces augmente plus la surface moyenne
augmente. Ceci dit, Y est la surface moyenne, elle représente ainsi la variable dépendante et

X représente la variable indépendante qui est le nombre de pièces.


o xS = 3,50
o yS = 82,17
o Cov (x,y) = 66,08
o Var (x) = 2,92
Régression linéaire simple 116

o Y= aX+b, a = 22,630 et b = 2,965


L’équation de régression estimée : Y = 22,630 X + 2,965

2. Comment est la qualité du modèle estimé ?


Pour répondre à cette question, on doit calculer le coefficient de détermination.
o Var (x) = 2,92 ; ainsi ℴ2 = 1,71
o Var (y) = 1521,14 ainsi ℴ3 = 39,00
o Cov (x,y) = 66,08
o R = 0,9908
o R2 = 0,9816
La qualité du modèle est bonne en prenant en considération la valeur de R2, qui est proche
de 1.

3. Evaluez la surface moyenne d’un logement de 10 pièces.


Puisque la qualité du modèle est bonne, nous pouvons ainsi faire des estimations en
remplaçant X dans l’équation Y = 22,630 X + 2,965.
Pour 10 pièces la surface moyenne est de 229,265 m2.
Régression linéaire simple 117

Exercice 7
On dispose de la répartition de la note moyenne d'un examen et le nombre de jours moyens
de préparation pour cet examen dans le tableau ci-dessous :

Répartition de la note moyenne et le nombre de jours moyens de préparation

Nombre de jours moyen Note moyenne


0 0
1 3
2 8
4 10
6 13
8 15
10 17
15 19

Source : exemple

Estimez la note moyenne dans le cas d’une semaine de préparation.

Solution
Nous estimons l’équation de régression Y = aX+b tel que X est le nombre de jours moyen
de préparation et Y est la note moyenne de statistique. X est ainsi la variable indépendante,
tel que le nombre de jours de préparation pour l’examen explique la note (Y).

o En utilisant la méthode des MCO pour estimer « a » et « b » nous obtenons :


Y = 1,23 X + 3,55.
o Le coefficient de détermination est R2 = 0,8748, ainsi la qualité du modèle est bonne,
nous pouvons procéder aux prévisions.
o Si on remplace X par 7 jours, on peut déduire l’estimation de la note moyenne, qui
sera égale à : 1,23*7+3,55 = 12,16 points.
Régression linéaire simple 118

Exercice 8
On dispose de la répartition d’une population des étudiants et les ventes mensuelles d’une
filiale qui gère des restaurants situés en face des universités, dans le tableau ci-dessous :

Répartition d’une population des étudiants et les ventes mensuelles de dix restaurants

Population des Ventes


Restaurant
étudiants (en milliers) (en milliers de Dhs)
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202

Source : exemple

1. Calculez la corrélation entre les deux variables et donnez son interprétation.


2. Estimez l’équation de régression linéaire entre les deux variables en utilisant la
méthode des MCO.
3. Calculez le coefficient de détermination et interprétez-le
4. Estimez les ventes mensuelles dans le cas de 2000 étudiants, 6000 étudiants, et
22 000 étudiants.
5. En supposant que le gestionnaire de cette filiale de restaurants décide d’ouvrir un
11ème restaurant en face d’une université en cours de construction (sans aucun
étudiant) quelle est l’estimation de ses ventes ?
6. En supposant que le gestionnaire de cette filiale de restaurants décide d’ouvrir un
12ème restaurant en face d’une université avec 7000 étudiants, quelle est l’estimation
de ses ventes ?
Régression linéaire simple 119

Solution
1. Calculez la corrélation entre les deux variables et donnez son interprétation :
Pour calculer la corrélation, on utilise sa formule :
Cov ( x , y )
r=
s xs y
Il faut calculer la covariance et l’écart-type de la variable X et de la variable Y. On peut
utiliser l’une des formules suivantes pour calculer la covariance.
$
(1) 456 (7, 8) = ∑&'#$(7 ' 8' ) − 70 80 = 7
0000
8 − 70 80
&
$
(2) 456 (7, 8) = ∑&'#$(7 ' − 70) (8' − 80)
&

Néanmoins, puisque dans cet exercice, nous devons calculer la variance des deux variables,
il est recommandé d’utiliser la formule (2).

Les calculs intermédiaires sont dans le tableau suivant :


Population des Ventes /)
(&! − & /)
((! − (
Restaurant étudiants (en milliers XixYi (1) ´ (2)
(en milliers) de Dhs) (1) (2)
1 2 58 116 -12 -72 864
2 6 105 630 -8 -25 200
3 8 88 704 -6 -42 252
4 8 118 944 -6 -12 72
5 12 117 1404 -2 -13 26
6 16 137 2192 2 7 14
7 20 157 3140 6 27 162
8 20 169 3380 6 39 234
9 22 149 3278 8 19 152
10 26 202 5252 12 72 864
Total 140 1300 21040 2840

o x0 = 14
o y0 = 130
o Cov (x,y) = 284
Le signe de la covariance est positif, X et Y ont tendance à covarier dans le même sens.
Régression linéaire simple 120

o Var (x) = 56,8 ; ainsi ℴ2 = 7,5366


o Var (y) = 1573 ainsi ℴ3 = 39,6610
o Ceci dit, la corrélation entre X et Y est : r = (284 / (7,5366 ´39,6610)) = 0,9501.
On peut qualifier la relation entre X et Y comme une relation très forte.

2. Estimez l’équation de régression linéaire entre les deux variables en utilisant la méthode
des MCO.
On doit estimer « a » et « b » de l’équation linéaire Y= aX+b, tel que :
Cov(x, y) 284
a= = =5
Var(x) 56,8
&
b = y − ax = 130 − (14 × 5) = 60
On peut ainsi avoir une équation de régression linéaire estimée comme ceci : Y=5 X + 60.

3. Calculez le coefficient de détermination et interprétez-le :


Le coefficient de détermination = R2 = (0,9501)2 = 0,9027.
o Ceci dit, 90,27% de la variation des ventes peut s’expliquer par une relation
linéaire entre la taille de la population des étudiants et les ventes.
o Nous pouvons aussi noter que le modèle linéaire qui utilise comme variable
indépendante la « population d’étudiants » explique 90,27% la dispersion « des
ventes ».
o La qualité du modèle est bonne, car R2 est proche de 1.
Dans des cas réels en sciences économiques et en sciences de gestion le R2 est rarement
proche de 1.
Régression linéaire simple 121

4. Estimez les ventes mensuelles dans le cas de 2000 étudiants, 6000 étudiants, et 22 000
étudiants :
o Pour 2000 étudiants, les ventes estimées sont de 70 000 Dhs, soit une erreur
d’estimation de 12,000 Dhs.
o Pour 6000 étudiants, les ventes estimées sont de 90 000 Dhs..
o Pour 22000 étudiants, les ventes estimées sont de 170 000 Dhs.

5. En supposant que le gestionnaire de cette filiale de restaurants décide d’ouvrir un 11ème


restaurant en face d’une université en cours de construction (sans aucun étudiant)
qu’elle est l’estimation de ses ventes ?
o L’estimation des ventes est de 60 000 Dhs.
o
6. En supposant que le gestionnaire de cette filiale de restaurants décide d’ouvrir un 12ème
restaurant en face d’une université avec 7000 étudiants, quelle est l’estimation de ses
ventes ?
o L’estimation des ventes est de (7 x 5) + 60 = 95 soit 95 000 Dhs.
Séries chronologiques 122

Chapitre 6.
Séries chronologiques

1. Présentation d’une série chronologique


2. Choix du modèle de décomposition : modèle additif ou multiplicatif ?
3. Analyse d’une série chronologique
- Analyse et détermination de la tendance
- Analyse de la composante saisonnière
- Analyse de la composante accidentelle
4. Prévision
5. Exercice corrigé
Séries chronologiques 123

Chapitre 6.
Séries chronologiques

L’un des objectifs de la statistique est de comparer et mesurer l’évolution des données pour
créer de l’information et prendre des décisions. Mesurer l’évolution des données, consiste à
une comparaison qui porte sur la même variable statistique saisie à des dates différentes,
d’où l’analyse des séries chronologiques.

Une série chronologique décrit l’évolution d’un phénomène dans le temps. Elle est aussi
nommée série temporelle ou chronique.
En fait, l’analyse des séries chronologiques est fondée sur l’existence d’un lien de
corrélation entre la variable quantitative étudiée et le temps.
Cette analyse a pour objectif de décrire et prévoir un phénomène qui évolue dans le temps,
d’interpréter son évolution et de faire des prévisions.

En d’autres termes, l’objectif de l’analyse d’une série chronologique est de mettre en


évidence l’évolution passée d’une variable statistique, et sous certaines conditions
d’extrapoler cette évolution afin d’effectuer des prévisions à court terme.

Une série chronologique est une suite d’observations chiffrées d’une variable quantitative
Y, ordonnées dans le temps t. La valeur prise par la variable Y à la date t est notée yt.
Notons qu’en économie et en gestion les dates d’observations sont souvent équidistantes et
ordonnées dans le temps (jours, mois, trimestres, années) et sont représentées, par des
entiers naturels non nuls de 1 à n.

Une série chronologique peut être décomposée en plusieurs mouvements, afin de disposer
d’un outil pertinent pour analyser son évolution.
Séries chronologiques 124

Quatre composantes sont habituellement retenues pour la décrire9 :


• La tendance, notée (ft) (également appelée trend, mouvement de tendance générale
ou composante générale) est une évolution durable, régulière et en général lente du
phénomène étudié. C’est une orientation générale qui exprime une tendance durable
à la croissance ou à la décroissance. La tendance est matérialisée par une courbe qui
est souvent une droite et qui résume le phénomène. Elle ajuste ainsi l’ensemble des
points du nuage et lisse la série.

• Les fluctuations cycliques, notées (Ct) (également appelées fluctuations


conjoncturelles, ou mouvement cyclique), sont des oscillations autour de la tendance,
irrégulières en amplitude et en durée. Le cycle économique « prospérité, dépression,
récession et reprise » est un exemple de fluctuation cyclique.

On peut souligner que ces deux dernières composantes ne sont pas toujours distinguables10.
Les fluctuations cycliques sont souvent intégrées à la tendance et ne sont pas étudiées
indépendamment du trend.

• Le mouvement saisonnier, noté (st), (également appelé mouvement périodique ou


composante saisonnière) est périodique autour de la tendance, ses oscillations sont
donc d’amplitudes similaires et leur périodicité est inférieure ou égale à la période
étudiée. C’est des variations qui résultent de répétitions d’événements plus au moins
réguliers dont les causes peuvent être diverses.

• Les variations accidentelles, notées (ℇt), (également appelées mouvement résiduel


ou composante résiduelle) sont des fluctuations ponctuelles de forte amplitude dues
à des facteurs exceptionnels, imprévisibles, ou à des fluctuations irrégulières de la
série (grèves, intempéries, krachs, etc.). Ces variations sont celles qui ne peuvent
être expliquées ni par la tendance ni par les variations saisonnières.

9
Cette décomposition a été proposée par le statisticien Warren Person en 1919.
10
Pour pouvoir distinguer la tendance des fluctuations cycliques, il faut disposer de la série brute sur une très longue
période. Il est généralement très difficile de dissocier les deux.
Séries chronologiques 125

Notons que ces quatre composantes ne sont pas nécessairement présentes dans tous les cas
et leur existence peut notamment dépendre de l’intervalle de temps entre deux dates
d’observation successives.

Dans le graphique ci-dessous, nous illustrons les trois composantes (ft , St , ℇt).

Le mouvement saisonnier
Tendance

Variations accidentelles
Yt : variable observée

Saison

Temps (t)

Source : élaboré pour illustration.

En prenant en considération ces trois composantes, nous pouvons nous intéresser à leur
mode de composition. Trois types de situations coexistent :

• Modèle additif (yt = ft + st +ℇt)


Dans le cas d’un modèle additif, les fluctuations sont d’amplitude constante autour de la
tendance. Ceci se traduit par un nuage de points limité par deux droites parallèles.
Il s’agit d’un modèle où la tendance, la composante saisonnière et les variations
accidentelles sont additives.

• Modèle multiplicatif (yt = ft ×st × ℇt)


Dans le cas d’un modèle multiplicatif, les fluctuations sont d’amplitudes liées à la valeur de
la tendance. Ceci se traduit par un nuage de points situé entre deux droites concourantes.
Séries chronologiques 126

Ce modèle est aussi appelé modèle multiplicatif complet. Il s’agit d’un modèle où la
tendance, la composante saisonnière et les variations accidentelles forment une
combinaison multiplicative.

• Modèle mixte : yt = (ft ×st ) + ℇt


Il s’agit d’un modèle où l’addition et la multiplication sont utilisées. La composante
saisonnière agit dans ce modèle de façon multiplicative, tandis que les variations
accidentelles sont additives. Ce modèle est aussi appelé modèle multiplicatif.

6. Présentation d’une série chronologique

Avant toute analyse, les données d’une série chronologique doivent être représentées par
une courbe exprimant une continuité de l’évolution de la variable étudiée. Ainsi, dans un
graphique, les points sont reliés par des segments pour traduire la chronologie. Le temps est
en général noté t et prend comme valeurs 1, 2…,n lorsqu’on dispose de n périodes, et les
modalités de la variable étudiée sont notées yt.

D’un tableau de contingence avec n lignes et p colonnes, nous pouvons représenter les
données d’une série chronologique sous plusieurs formes, comme dans le tableau
ci-dessous :

t yt
1 y1
2 y2
3 y3

n yn
Séries chronologiques 127

Exemple 1
Nous disposons dans le tableau ci-dessous de la répartition trimestrielle des ventes d’un
produit durant 3 années.

Répartition des ventes d’un produit en milliers de Dirhams


Année 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre
2021 432 416 408 430
2022 430 424 418 450
2023 442 438 430 460
Source : exemple

Cette série chronologique peut être représentée par plusieurs types de graphiques, comme
illustrés plus bas.
Avant de représenter ces données sous forme de graphique, nous pouvons les représenter
sous forme d’un tableau qui sera composé de n lignes tel que n =12, comme ci-dessous :

Répartition des ventes d’un produit en milliers de Dirhams


t yt
1 432
2 416
3 408
4 430
5 430
6 424
7 418
8 450
9 442
10 438
11 430
12 460
Source : exemple
Séries chronologiques 128

Représentation sous forme de graphique :


Yt
470

460 460
450
450
442
440 430 438
430 432 430 430
424
420 418
416
410
408
400
0 1 2 3 4 5 6 7 8 9 10 11 12 13

Répartition des ventes d’un produit en milliers de Dirhams

Source : exemple
Représentation superposée des données (Chronogramme parallèle) :
470
460 460
450 442 450
438
440 430
430
430 424 430
418
420
410 420 416
400 408

390
380
1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre

2021 2022 2023

Répartition des ventes d’un produit en milliers de Dirhams

Source : exemple

Ce dernier graphique permet de mettre en évidence une éventuelle variation trimestrielle et


le caractère propre de chaque trimestre.
Ces données peuvent être aussi représentées sous forme d’un graphique « Radar » comme
Séries chronologiques 129

illustré ci-dessous.
Représentation des données dans un graphique « Radar » :

1er trimestre

4ème trimestre 2ème trimestre

3ème trimestre

2021 2022 2023

Répartition des ventes d’un produit en milliers de Dirhams

Source : exemple

7. Choix du modèle de décomposition : modèle additif ou multiplicatif ?

On peut noter qu’il existe trois méthodes pour choisir le modèle de décomposition d'une
série chronologique. Parmi celles-ci, deux méthodes sont graphiques et une méthode est
analytique. La méthode analytique est plus fiable, puisque les interprétations qu’on peut
déduire suite aux méthodes graphiques sont parfois imprécises ou approximatives.

7.1 Méthode de la bande

Cette méthode graphique consiste à tracer deux droites, une qui passe le plus près par les
minimums et une qui passe le plus près par les maximums. Nous pouvons ainsi avoir deux
cas :
o Le cas où les deux droites sont à peu près parallèles, ce qui signifie que l’amplitude
des variations saisonnières reste plus au moins constante, et dans ce cas notre
modèle peut être un additif.
Séries chronologiques 130

o Sinon, les deux droites ne sont pas parallèles, et dans ce cas notre modèle peut être
un multiplicatif.

Ci-dessous nous avons respectivement un graphique qui représente un modèle additif, suivi
d’un autre qui représente un modèle multiplicatif.

Modèle additif

200
Les valeurs de la série statistique

La droite qui passe par les maximums

150
Tendance

100

Saison La droite qui passe par les minimums


50

0
1

im e 2

im e 4

im e 2

4
Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

t re
r

r
t

t
es

es

es

es

es

es

es

es

es

es

es

es

es

es

es

es
im

im

im

im

im

im

im

im

im

im

im

im

im
Tr

Tr

Tr

Tr
Source : élaboré pour illustration.

Modèle multiplicatif

MODELE DE TYPE MULTIPLICATIF - METHODE DE LA BANDE


250

200

150

100

50

0
1

im e 3

4
Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

Tr tre

t re
t r
es

es

es

es

es

es

es

es

es

es

es

es

es

es

es

es
im

im

im

im

im

im

im

im

im

im

im

im

im

im

im
Tr

Tr

Source : élaboré pour illustration.


Séries chronologiques 131

7.2 Méthode du profil

Cette méthode consiste à utiliser le graphique des courbes superposées. Le chronogramme


parallèle nous permet de superposer les saisons et ainsi vérifier si elles sont parallèles ou
non. Nous pouvons remarquer deux cas :
o Le cas où les différentes courbes qui caractérisent les saisons sont à peu près
parallèles, dans ce cas notre modèle peut être un additif.
o Le cas où les différentes courbes ne sont pas parallèles, dans ce cas notre modèle
peut être un multiplicatif.
Ci-dessous nous avons un exemple (avec des chiffres différents de l’exemple 1) d’un
graphique qui représente un modèle additif.

470
460 460
450 442 450
438
440 430
430
430 424 430
418
420
410 420 416
400 408
390
380
1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre
2021 2022 2023

Source : exemple
7.3 Méthode de Buys et Ballot

A partir de la série de données brutes, la méthode de Buys et Ballot consiste à calculer la


moyenne et l’écart-type pour chacune des périodes considérées, puis à vérifier le lien ou la
relation entre ces deux indicateurs en utilisant la méthode des MCO.
Nous pouvons ainsi avoir deux cas :
o Lorsque l’écart-type n’est pas en fonction de la moyenne, c’est-à-dire que la
pente de la droite estimée est très proche de zéro (a ≈ o) ou égale à zéro (a = o),
le modèle est additif.
Séries chronologiques 132

o Si l'écart-type est en fonction de la moyenne, c’est-à-dire que la pente de la


droite estimée est différente de zéro (a ≠ 0), le modèle est multiplicatif.

Exemple 2
On considère dans le tableau ci-dessous une répartition du Chiffre d’Affaires (CA)
trimestriel d’une entreprise X en milliers de Dirhams, pendant quatre ans :

Répartition du CA trimestriel en milliers de Dirhams


Année 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre
2020 116 110 108 114
2021 129 122 119 126
2022 140 133 130 137
2023 153 146 143 150
Source : exemple

Afin d’utiliser la méthode de Buys et Ballot, nous devons en premier lieu calculer la
moyenne et l’écart-type qui correspond à chaque période.

Répartition du CA trimestriel en milliers de Dirhams


1er 2ème 3ème 4ème
Année Moyenne Ecart type
trimestre trimestre trimestre trimestre
2020 116 110 108 114 112 3.1623
2021 129 122 119 126 124 3.8079
2022 140 133 130 137 135 3.8079
2023 153 146 143 150 148 3.8079

Source : exemple

En utilisant la méthode des MCO nous obtenons a = 0.0162 qui est proche de 0. Nous
pouvons donc déduire que le modèle est additif.
Séries chronologiques 133

Le graphique ci-dessous représente le lien entre la moyenne et l’écart-type.

4.40
4.20 y = 0.0162 x + 1.5486
4.00 R² = 0.59271

3.80
Ecart type

3.60
3.40
3.20
3.00
100 110 120 130 140 150
Moyenne

Relation entre la moyenne et l’écart type de chaque période


Source : exemple

Ce résultat peut être confirmé par une méthode graphique, telle que la méthode de la bande.
En traçant deux droites, l’une qui passe le plus près par les minimums et l’autre par les
maximums, nous pouvons remarquer qu’elles sont parallèles, comme dans le graphique
ci-dessous :

200

180

160
153 150
146
140 140 143
137
133 130
129 126
122
120 119
116 110 114
108
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Répartition du CA trimestriel en milliers de Dirhams


Source : exemple
Séries chronologiques 134

8. Analyse d’une série chronologique

L’analyse d’une série chronologique consiste à isoler ses trois composantes afin de les
étudier. En d’autres termes, cette analyse se fonde sur la décomposition de l’évolution
d’une variable en plusieurs composantes.
Notons qu’une représentation graphique est parfois nécessaire afin d’avoir une idée sur les
composantes d’une série chronologique, pour l’analyser par la suite.

L’analyse d’une série chronologique porte dans un premier temps, sur la détermination de
la tendance, suivie d’une analyse de la composante saisonnière et par la suite de la
détermination de la composante résiduelle. Avant d’expliciter ces trois étapes, notons deux
concepts intéressants qui sont le « lissage » et le « filtrage ».

• Le lissage d’une série chronologique est une transformation qui limite l’amplitude
des oscillations de toutes ses composantes, y compris celles qui ne sont pas
périodiques. Ceci dit, le lissage permet d’éliminer ou d’amortir les mouvements
cycliques, saisonniers et accidentels.
Notons que la méthode des moyennes mobiles (une méthode qui sera détaillée plus
bas) lisse toujours une série chronologique, quel que soit l’ordre des moyennes.

• Le filtrage d’une série chronologique est une transformation qui a pour but
d’éliminer totalement les fluctuations périodiques sans avoir, à la mesure du
possible, une influence sur les composantes non périodiques de la série.
Comme pour le lissage, la méthode des moyennes mobiles filtre une série
chronologique, si celle-ci présente un mouvement périodique, de périodicité
constante, et si l’ordre des moyennes est égal à cette périodicité.
Séries chronologiques 135

3.1 Analyse et détermination de la tendance

Comme précisé auparavant, l’analyse d’une série chronologique porte en premier lieu sur
la détermination de la tendance. Cette dernière représente un lissage des « irrégularités ».
Trois méthodes peuvent être utilisées : la méthode graphique, la méthode analytique et la
méthode empirique.

o Méthode graphique

La détermination de la tendance peut être faite selon une approche exploratoire, en utilisant
la méthode des points moyens ou la méthode de Mayer présentée auparavant.

o Méthode analytique

Lorsque nous prenons en considération une série chronologique, nous pouvons noter que la
variable explicative est le temps (t) et la variable expliquée est yt.
Nous pouvons ainsi utiliser la méthode des MCO afin d’estimer une droite qui passera le
plus près possible par l’ensemble des observations. Nous estimons donc « a » et « b » dans
une équation sous forme de : yt = at+b, qui permet d’associer à chaque valeur t une valeur
de la tendance, notée yt.
En outre, « a » et « b » peuvent être estimées selon les deux formules ci-dessous :

Cov(T, Y)
a= vw b = yS − at̅
Var(T)

Application

En prenant en considération l’exemple 2, nous pouvons calculer « a » et « b » et estimer la


droite de régression, qui représente le lien linéaire entre la variable étudiée et le temps,
comme présentée dans le graphique suivant.
Séries chronologiques 136

160
y = 2.7353t + 106.5 153
150
150 R² = 0,8343 146
140
140 133
137 143
129
130 122
126 130
120 116
110 119
114
110
108
100
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Répartition du CA trimestriel en milliers de Dirhams


Source : exemple

Si les fluctuations de la série autour de la tendance sont trop importantes, on pourra par la
suite les atténuer en utilisant des moyennes adaptées. Ceci dit, nous pouvons diminuer
l’amplitude des oscillations de toutes les composantes de la série, en calculant des
moyennes successives. Pour ce faire, il existe plusieurs méthodes qui sont présentées dans
la section qui aborde les méthodes empiriques.

Attention !
Notons que a = 2.7353 ; ne peut dans aucun cas être utilisé pour conclure que le modèle est
additif puisque a ≠ 0 ! . « a » représente la pente de la droite estimée du lien entre « yt » et
« t », et non pas entre la moyenne est l’écart-type de chaque période. D’autant plus que
dans cette étape, nous analysons la tendance, ceci dit l’application de la méthode de Buys et
Ballot n’a pas de sens dans ce cas.

o Méthodes empiriques

Les méthodes empiriques utilisent les moyennes arithmétiques pour procéder au lissage
d’une série chronologique. Nous pouvons noter la méthode des moyennes échelonnées, la
méthode des moyennes mobiles non centrées et la méthode des moyennes mobiles centrées.
Séries chronologiques 137

o Méthode des moyennes échelonnées

Afin de lisser les fluctuations, on peut remplacer des données périodiques par leur moyenne.
Ces moyennes ne subissent pas l’influence des variations saisonnières et ont l’avantage de
minimiser les extrêmes.
La méthode des moyennes échelonnées consiste ainsi à remplacer un certain nombre de
données consécutives par leur moyenne.

Si nous reprenant l’exemple 2, nous pouvons calculer la moyenne échelonnée pour chaque
période, qui représente la moyenne arithmétique de quatre trimestres de chaque année. Le
tableau ci-dessous représente les valeurs des moyennes échelonnées des quatre années.

Moyennes échelonnées des quatre années

Année Moyenne échelonnée


2020 112
2021 124
2022 135
2023 148
Source : exemple

Par la suite, nous pouvons tracer une droite qui passe par ces moyennes, sachant que
chacune a été affectée en abscisse au milieu correspondant à chaque année, comme dans le
graphique ci-dessous :

160
148
150
140 135

130 124
120 112
110
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Représentation des moyennes échelonnées


Source : exemple
Séries chronologiques 138

Cette méthode est simple à mettre en œuvre, mais elle a l’inconvénient de trop simplifier et
réduire la réalité. Ceci dit, nous perdons beaucoup d’information.
Pour pallier cet inconvénient, la méthode des moyennes mobiles est utilisée pour analyser
et déterminer la tendance d’une série chronologique.

Cette méthode permet de suivre le phénomène étudié par chevauchement, et on distingue


deux méthodes : la méthode des moyennes mobiles, non centrées et la méthode des
moyennes mobiles, centrées.

o Méthode des moyennes mobiles, non centrées

La méthode des moyennes mobiles, non centrées d’ordre p à la date t (MMp(t) nc),
consiste à remplacer une valeur observée yt par la moyenne arithmétique des p valeurs
antérieures.
1 p
Ceci dit : MMp( t )nc = å yt
p t =1

1 p 1 p +1
On remplace ainsi yp par : å t p+1
p t =1
y et y par : å yt et ainsi de suite.
p t =2
Notons que les moyennes mobiles, non centrées « raccourcissent » la série, car aucune
moyenne mobile n’est affectée aux (p-1) premières dates.

Si nous reprenant l’exemple 2, nous pouvons calculer par exemple :

1 4 116 + 110 + 108 + 114


MM 4(4)nc = å
4 t =1
yt =
4
= 112

1 5 110 + 108 + 114 + 129


MM 4(5)nc = å yt = = 115,25
4 t =2 4

Toutes les moyennes mobiles, non centrées d’ordre 4, correspondantes à t = 4,…,16 sont
Séries chronologiques 139

présentées dans le tableau ci-dessous.

Moyennes mobiles, non centrées d’ordre 4

t yt MM4 (t) nc
1 116 --
2 110 --
3 108 --
4 114 112
5 129 115,25
6 122 118,25
7 119 121
8 126 124
9 140 126,75
10 133 129,5
11 130 132,25
12 137 135
13 153 138,25
14 146 141,5
15 143 144,75
16 150 148

Source : exemple
Le graphique ci-dessous nous permet de visualiser en même temps la série de données et le
lissage réalisé par les moyennes mobiles, non centrées d’ordre 4 Pourquoi 4 ? parce que
dans cet exemple nous avons une répartition par trimestre. L’ordre correspond
normalement au nombre de saisons.
160

150 148
144.75
141.5
140 138.25
135
132.25
130 129.5
126.75 MM4 (t) nc
124
120 121
118.25
115.25
112
110

100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Représentation des moyennes mobiles non centrées d’ordre 4


Source : exemple
Séries chronologiques 140

o Méthode des moyennes mobiles, centrées

La méthode des moyennes mobiles centrées, d’ordre p, consiste à remplacer une valeur
observée yt, par la moyenne arithmétique des p valeurs centrées autour de yt.
Une moyenne mobile centrée, d’ordre p à la date t (MMp(t)) est définie en prenant en
considération l’ordre p :
1 k
§ Si p est impair (p = 2k + 1) alors MMp( t ) = å yt + i
p i=- k

A titre d’exemple, la moyenne mobile, centrée d’ordre 3, représente la moyenne de trois


valeurs centrées autour de la période choisie, y compris la valeur elle-même.
Les moyennes mobiles, centrées d’ordre 3, sont notées MM3(t). En calculant ces moyennes,
nous pouvons remarquer qu’il manque une valeur au début et une valeur à la fin de la série.
Notons que la valeur de « t » affectée à une moyenne mobile, d’ordre 3 est en effet la
médiane des trois valeurs de « t » utilisées.

Puisque l’ordre est impair, affecter une valeur « t » à une moyenne mobile, centrée d’ordre
3 ou 5…ne pose pas de problème. Mais, que se passe-t-il pour les moyennes mobiles
d’ordre pair comme MM4(t) ?

En suivant la même logique, une moyenne mobile d’ordre p = 4 est calculée en utilisant 4
valeurs, par exemple (y1 + y2 + y3 + y4) / 4. Cette dernière doit être donc affectée à une
valeur « t » médiane qui correspondra à 2.5 mais qui n’existe pas dans la série.
La moyenne mobile calculée avec les quatre valeurs suivantes est égale à (y2 + y3 + y4 + y5)
/ 4. Elle doit être de même affectée à la date médiane de 3.5 et qui ne correspond à aucune
valeur « t » dans la série.

Pour pallier ce problème, on prend en considération la moyenne des deux moyennes


(ci-dessus) qui prend en compte les valeurs y1 , y2 , y3 , y4 et y5 , pour pouvoir lui affecter
une valeur t = 3.
Séries chronologiques 141

Ainsi nous obtenons la moyenne mobile centrée d’ordre 4 égale à :

1 y1 + y 2 + y 3 + y 4 y 2 + y 3 + y 4 + y 5 y +y +y +y +y +y +y +y
( + )= 1 2 3 4 2 3 4 5
2 4 4 8
1 1
y1 + y 2 + y 3 + y 4 + y 5
=2 2
4
Ceci dit, pour former la première moyenne mobile, centrée d’ordre 4, on utilise les 5
premières observations dans une moyenne arithmétique pondérée, en affectant aux valeurs
extrêmes (la 1ère valeur et la 5ème valeur) le coefficient ½ et aux 3 valeurs centrales le
coefficient 1. Cette moyenne mobile centrée sera affectée à t = 3.

En général,
1 é k -1 1 1 ù
§ Lorsque p est pair (p = 2k), MMp( t ) = ê å y t + i + y t - k + y t + k ú
p ë i = - k +1 2 2 û
En calculant les MM4, nous pouvons remarquer qu’il manque deux valeurs au début et
deux valeurs à la fin de la série.
En d’autres termes, les moyennes mobiles, centrées « raccourcissent » la série, car aucune
moyenne mobile n’est affectée aux (k) premières dates et (k) dernières dates « t ».

Nous soulignons qu’une série des moyennes mobiles centrées comporte moins
d’observations que la série brute.
Enfin, notons que l’ordre des moyennes mobiles est choisi en prenant en considération la
périodicité des données. A titre d’exemple p=7 pour des données journalières (7j/semaine),
p = 4 pour des données trimestrielles (4 trimestres/année).
Séries chronologiques 142

Application :
Reprenant l’exemple 2,
Répartition du CA trimestriel en milliers de Dirhams
t yt MM3 (t) MM4 (t)
1 116 -- --
2 110 111,33 --
3 108 110,67 113,63
4 114 117,00 116,75
5 129 121,67 119,63
6 122 123,33 122,50
7 119 122,33 125,38
8 126 128,33 128,13
9 140 133,00 130,88
10 133 134,33 133,63
11 130 133,33 136,63
12 137 140,00 139,88
13 153 145,33 143,13
14 146 147,33 146,38
15 143 146,33 --
16 150 -- --
Source : exemple

La représentation graphique ci-dessous montre le lissage réalisé par la courbe des


moyennes mobiles centrées, d’ordre 3 et d’ordre 4.

160

150

140
Données brutes
130
MM3(t)

120 MM4(t)

110

100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Répartition du CA trimestriel en milliers de Dirhams


Source : exemple
Séries chronologiques 143

3.2 Analyse de la composante saisonnière


Série Corrigée des Variations Saisonnières (CVS) & série ajustée

L’estimation de la tendance par la méthode des moyennes mobiles centrées présente deux
inconvénients :
• Elle ne peut pas donner d’estimation pour les premières et les dernières dates
de la série.
• Si la périodicité du mouvement saisonnier est longue, par exemple 12 mois,
l’obligation de choisir une MM12 pour assurer le filtrage du mouvement
saisonnier entraîne un lissage qui risque d’être excessif.

Un moyen pour pallier ces deux inconvénients est de corriger les variations saisonnières en
utilisant la méthode des écarts saisonniers ou la méthode des rapports saisonniers, selon le
modèle de la série. On obtiendra ainsi, une série Corrigée des Variations Saisonnières CVS,
aussi nommée série désaisonnalisée, en éliminant les influences saisonnières.

La question qui peut être posée est la suivante : Quelles étapes peut-on suivre pour corriger
les variations saisonnières et obtenir une série CVS ?
Nous pouvons noter 6 Etapes qui sont explicitées ci-dessous.

Etape 1
La composante saisonnière st (écart saisonnier ou rapport saisonnier) est une fonction
périodique, déterminée par p coefficients saisonniers qui mesurent l’influence saisonnière,
notés S1, S2, S3…. Sp et qui vérifient que Si = Si+p.
o Dans un modèle additif, la composante saisonnière (écart saisonnier) est calculée
selon la formule suivante : st= yt - ft. Elle représente la différence entre l’observation
et la tendance.
Séries chronologiques 144

o Dans un modèle multiplicatif, cette composante saisonnière (rapport saisonnier) est


calculée selon la formule suivante : st = yt / ft. Elle représente ainsi le rapport entre
l’observation et la tendance.

Etape 2
On calcule ensuite pour chaque saison, la moyenne arithmétique des écarts saisonniers, ou
des rapports saisonniers correspondant à cette saison (St) qui représente le coefficient
saisonnier.

o Notons que si on dispose de données sur n périodes, c’est-à-dire np dates « t », le


coefficient saisonnier St correspondant à la saison i (i=1,….,p) sera égal à :
n -1
1
Si =
n ås
k =0
i + kp

Si on dispose par exemple, de données mensuelles sur 3 années, on obtiendra le coefficient


1 2
1
saisonnier de janvier i=1 égal à : S1 =
3 ås
k =0
1+ k 12 = ( s + s13 + s25 )
3 1

Il est important de souligner deux principes fondamentaux qui sont à la base de la


détermination des coefficients saisonniers dans un modèle théorique.
§ La répétition à l’identique : on suppose que toute variation saisonnière se répète
identiquement à chaque période qui représente un ensemble de saisons. Ceci dit, Si
le nombre de saisons d’une série chronologique est p, on déterminera p coefficient
saisonnier.
§ La neutralité de l’influence de la variation saisonnière sur chaque période : on
suppose que la composante saisonnière est parfaitement périodique, qu’à l’intérieur
d’une période le phénomène saisonnier est neutre, et les variations saisonnières se
compensent.
Séries chronologiques 145

Ceci dit :

• Dans le cas d’un modèle additif, pour que l’influence des variations
saisonnières soit neutre sur une période, la valeur moyenne des coefficients
saisonniers St doit être nulle, c’est-à-dire :
p
1
∑ Si = 0
p i=1
• Dans le cas d’un modèle multiplicatif, pour que l’influence des variations
saisonnières soit neutre sur une période, la valeur moyenne des coefficients
saisonniers St doit être égale à 1, c’est-à-dire :
p
1
∑ Si = 1
p i=1

Etape 3
Dans cette étape on s’assure du principe de neutralité de l’influence des variations
saisonnières.
Dans le cas d’un modèle additif, on vérifie que la valeur moyenne des coefficients
saisonniers est nulle, et dans le cas d’un modèle multiplicatif on vérifie que la valeur
moyenne des coefficients saisonniers est égale à 1. Si ce n’est pas le cas, on introduit alors
les coefficients saisonniers corrigés S't selon l’étape 4.

Etape 4
Dans le cas d’un modèle additif, on calcule les coefficients saisonniers corrigés S'i tels que
la somme de ces coefficients est égale à 0, c’est-à-dire :
p

∑S' i =0
i=1

Pour ce faire, il suffit de soustraire à chaque coefficient Si la valeur moyenne des Si qui
p
1
représente : SS = ∑Si ; tel que S'i = S i - zS
p i=1
Séries chronologiques 146

Dans le cas d’un modèle multiplicatif, il faut calculer les coefficients saisonniers corrigés
p p
1
S'i tel que S'i = Si / 5z , on aura alors ∑S'i = p ceci dit, ∑S'i = 1
i=1 p i=1
Par la suite, nous procèderons à la cinquième étape afin de calculer la série corrigée des
variations saisonnières CVS.

Etape 5
Rappelons que la série corrigée des variations saisonnières CVS est une série obtenue à
partir de la série brute en éliminant la composante saisonnière. Elle contient la tendance et
la composante accidentelle.

La série CVS exprime ce qu’aurait été la réalité du phénomène étudié s’il n’y avait pas de
variations saisonnières. En pratique, les économistes utilisent les séries CVS dans de
nombreux domaines, notamment en analyse conjoncturelle, pour éviter les erreurs
d’interprétation des évolutions d’une période à une autre.
On considère ci-dessous, le cas du modèle additif et le cas du modèle multiplicatif pour
déduire la série CVS.

• Cas d’un modèle additif

Dans le cas du modèle additif, nous pouvons noter que Ycvs = Y - S, soit pour toute date
« t », i désigne la saison relative à la date « t » :
p
ycvs(t) = yt - Si dans le cas où ∑S i =0
i=1

p
ycvs(t) = yt - S'i dans le cas où ∑S i ≠0
i=1

• Cas d’un modèle multiplicatif

Dans le cas du modèle multiplicatif, nous pouvons noter que Ycvs = Y/S, soit pour toute date
« t », i désigne la saison relative à la date « t » :
Séries chronologiques 147

p
1
ycvs(t) = yt/Si dans le cas où ∑Si = 1
p i=1
p
1
ycvs(t) = yt//S'i dans le cas où ∑Si ≠1
p i=1
Après le calcul de la série CVS, nous pouvons passer à la dernière étape pour calculer la
série ajustée.

Etape 6
La série ajustée est obtenue à partir de la tendance générale en intégrant la composante
saisonnière. Elle exprime l’évolution qu’aurait connue la variable si le mouvement
saisonnier avait été parfaitement régulier de période en période.
Notons que lorsque la tendance est déterminée par la méthode des MCO, la série ajustée
peut être utilisée pour effectuer des prévisions, car elle ajuste au mieux le nuage de points
en prenant en considération des variations saisonnières.

§ Cas d’un modèle additif

Pour restituer le mieux les variations de la variable étudiée, il faut prendre en compte les
variations saisonnières de celle-ci. On additionne ainsi la composante saisonnière à la
tendance.
Soit Yaj la variable associée à la série ajustée, alors Yaj = T + S. En pratique, pour
déterminer la série ajustée, il faut calculer les yt aj = f t + S'i , i étant la saison associée à la

date t.

§ Cas d’un modèle multiplicatif

Pour restituer le mieux les variations de la variable étudiée, il faut multiplier la composante
saisonnière par la tendance.
Soit Yaj la variable associée à la série ajustée, alors Yaj = G × S. En pratique, pour
Séries chronologiques 148

déterminer la série ajustée, il faut calculer les yt aj = f t ´ S'i , i étant la saison associée à la

date t.

A partir des valeurs ft et St, on peut déduire les valeurs résiduelles. Nous passons ainsi à la
section suivante qui concerne l’analyse de la composante accidentelle.

3.3 Analyse de la composante accidentelle

Pour analyser la composante accidentelle ℇt, nous distinguons entre le cas d’un modèle
additif et le cas d’un modèle multiplicatif.

§ Dans le cas d’un modèle additif


ℇt = yt - (ft +S'i) = yt - yt aj

§ Dans le cas d’un modèle multiplicatif


ℇt = yt / yt aj
Séries chronologiques 149

3.4 Application (section 3.2 & section 3.3)

Reprenant l’exemple 2, (cas d’un modèle additif), nous pouvons choisir d’utiliser la
méthode des MCO pour estimer la tendance, tel que ft = 2,74t + 106,5. Le tableau
ci-dessous nous explicite les calculs pour obtenir la série Corrigée des Variations
Saisonnières (CVS), la série ajustée et la composante accidentelle.

Répartition du CA trimestriel en milliers de Dirhams

t yt ft st St S't ytcvs yt ajusté ℇt


1 116 109,24 6,76 8,82 8,86 107,14 118,10 -2,10
2 110 111,98 -1,98 -0,67 -0,63 110,63 111,35 -1,35
3 108 114,72 -6,72 -6,16 -6,12 114,12 108,60 -0,60
4 114 117,46 -3,46 -2,15 -2,11 116,11 115,35 -1,35
5 129 120,2 8,80 8,82 8,86 120,14 129,06 -0,06
6 122 122,94 -0,94 -0,67 -0,63 122,63 122,31 -0,31
7 119 125,68 -6,68 -6,16 -6,12 125,12 119,56 -0,56
8 126 128,42 -2,42 -2,15 -2,11 128,11 126,31 -0,31
9 140 131,16 8,84 8,82 8,86 131,14 140,02 -0,02
10 133 133,9 -0,90 -0,67 -0,63 133,63 133,27 -0,27
11 130 136,64 -6,64 -6,16 -6,12 136,12 130,52 -0,52
12 137 139,38 -2,38 -2,15 -2,11 139,11 137,27 -0,27
13 153 142,12 10,88 8,82 8,86 144,14 150,98 2,02
14 146 144,86 1,14 -0,67 -0,63 146,63 144,23 1,77
15 143 147,6 -4,60 -6,16 -6,12 149,12 141,48 1,52
16 150 150,34 -0,34 -2,15 -2,11 152,11 148,23 1,77

Source : exemple
Le tableau ci-dessous nous explicite les coefficients saisonniers.

Coefficients saisonniers
2020 2021 2022 2023 Moyenne
T1 6,76 8,80 8,84 10,88 8,82
T2 -1,98 -0,94 -0,90 1,14 -0,67
T3 -6,72 -6,68 -6,64 -4,60 -6,16
T4 -3,46 -2,42 -2,38 -0,34 -2,15
Séries chronologiques 150

9. Prévision

L’un des objectifs principaux de l’analyse d’une série chronologique est de faire des
prévisions. En fait, la prévision consiste à prévoir des valeurs futures à partir des valeurs
observées.
En d’autres termes, la prévision est une continuité du calcul en prenant en considération la
série ajustée.

Notons que la tendance et les coefficients saisonniers sont utilisés pour faire des prévisions.
Ceci dit, l’équation de la tendance peut être utilisée pour prévoir à une date « t » la variable
Yt. Nous soulignons la différence entre les deux cas :

§ Dans le cas d’un modèle additif

O 4 = f t + S 'j
7
§ Dans le cas d’un modèle multiplicatif
O 4 = f t × S 'j
7

Application
En prenant l’exemple 2, pour calculer une prévision pour t = 23, nous pouvons utiliser la
formule :
ft = 2.7353t + 106.5 , ou bien avec un arrondi de la valeur de la pente : ft = 2.74t + 106.5

Puisque le modèle est additif, on utilise :


O4 = ft + S 'j = ( 2.74t + 106.5 ) + S 'j
7
= ( 2.74 × (23) + 106.5) + (-6.16)
= 163.36 milliers de Dirhams.
Notons que la tendance observée antérieurement se poursuit, si les variations saisonnières
continuent de se produire de la même façon et bien évidemment si aucun incident ne
perturbe l’activité de l’entreprise, son CA pourrait être proche de 163.36 milliers de
Dirhams au 3ème trimestre de 2025 (t = 23).
Séries chronologiques 151

10. Exercice corrigé

On dispose de l’évolution du profit d’une petite entreprise en milliers de Dirhams pendant


quatre ans :
Evolution du profit d’une petite entreprise

Année 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre


2020 63 73 80 69
2021 61 66 72 64
2022 56 60 65 57
2023 52 56 59 54

Source : exemple

Analysez cette série chronologique :


1) Quel est le modèle de décomposition de cette série chronologique ? Justifiez votre choix
en utilisant la méthode de Buys et Ballot.
2) Déterminez la tendance en utilisant la méthode des moyennes mobiles centrées d’ordre
p=4.
3) Déterminez la série Corrigée des Variations Saisonnières CVS.
4) Déterminez la série ajustée.
5) Déterminez la composante accidentelle.
6) Est-ce que c’est possible d’avoir une prévision du profit du 1er trimestre de l’année
2027 en utilisant la méthode des moyennes mobiles centrées ?
Séries chronologiques 152

Solution :
1. Quel est le modèle de décomposition de cette série chronologique ? Justifiez votre
choix en utilisant la méthode de Buys et Ballot.
On doit calculer la moyenne (m) et l’écart type (e) de chaque période (année) et estimer la
relation entre l’écart type et la moyenne en utilisant la méthode des MCO. Si la valeur de
« a » est différente de 0 le modèle est multiplicatif, sinon le modèle est additif.

Année 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre Moyenne Ecart type
2020 63 73 80 69 71.25 6.18
2021 61 66 72 64 65.75 4.02
2022 56 60 65 57 59.50 3.50
2023 52 56 59 54 55.25 2.59

En utilisant la méthode des MCO pour estimer la relation entre les deux indicateurs, nous
obtenons :
e = 0,208 m - 9,0207
Ceci dit a=0,208 ¹0 le modèle de décomposition est ainsi un modèle multiplicatif.

2. Déterminez la tendance en utilisant la méthode des moyennes mobiles centrées


d’ordre p=4 ; MM4(t).
t yt MM4(t)
1 63 --
2 73 --
3 80 71,00
4 69 69,88
5 61 68,00
6 66 66,38
7 72 65,13
8 64 63,75
9 56 62,13
10 60 60,38
11 65 59,00
12 57 58,00
13 52 56,75
14 56 55,63
15 59 --
16 54 --
Séries chronologiques 153

On a considéré l’ordre 4, puisque dans cet exercice le nombre de saisons (trimestres) est de
4 trimestres par période (année).

3. Déterminez la série Corrigée des Variations Saisonnières CVS.

o On doit en premier lieu calculer la composante saisonnière en utilisant la formule :


st = yt /ft (voir la 4ème colonne dans le tableau ci-dessous).

o On doit ensuite calculer le coefficient saisonnier (Si) pour chaque saison i (i=1…4),
(voir la 5ème colonne dans le tableau ci-dessous), en utilisant la formule suivante :

1 3 1

4 k=0
Si+4k = (Si + Si+4 + Si+8 + Si+12 )
4
o Pour que l’influence des variations saisonnières soit neutre sur une période (année),
la valeur moyenne des coefficients saisonniers St doit être égale à 1, en procédant au
calcul :
1 4 1

p i=1
Si = (0.905+ 0.998 +1.111+ 0.991) =1
p
o Puisqu’on s’est assuré du principe de neutralité de l’influence des variations
saisonnières, on ne calculera pas les coefficients saisonniers corrigés S'i .

t yt ft st Si ytCVS
1 63 -- -- 0,905 69,62
2 73 -- -- 0,998 73,12
3 80 71,00 1,127 1,111 71,99
4 69 69,88 0,987 0,991 69,60
56 66
61 66,38
68,00 0,994
0,897 0,998
0,905 66,11
67,41
7 72 65,13 1,106 1,111 64,79
8 64 63,75 1,004 0,991 64,56
9 56 62,13 0,901 0,905 61,88
10 60 60,38 0,994 0,998 60,10
11 65 59,00 1,102 1,111 58,49
12 57 58,00 0,983 0,991 57,50
13 52 56,75 0,916 0,905 57,46
14 56 55,63 1,007 0,998 56,10
15 59 -- -- 1,111 53,09
16 54 -- -- 0,991 54,47
Séries chronologiques 154

o On peut ainsi déduire la série CVS (ytCVS) à partir de la série brute en divisant la
série chronologique par la composante saisonnière : (yt/Si).

4. Déterminez la série ajustée.


On peut obtenir la série ajustée (ytaj) à partir de la tendance générale en multipliant
la composante saisonnière par la tendance (ytaj =ft x Si) comme dans le tableau
ci-dessous.

t yt ft st Si ytaj ℇt
1 63 -- -- 0,905 -- --
2 73 -- -- 0,998 -- --
3 80 71,00 1,127 1,111 71x1,111=78,88 1,014
4 69 69,88 0,987 0,991 69,25 0,996
5 61 68,00 0,897 0,905 61,54 0,991
6 66 66,38 0,994 0,998 66,25 0,996
7 72 65,13 1,106 1,111 72,36 0,995
8 64 63,75 1,004 0,991 63,18 1,013
9 56 62,13 0,901 0,905 56,23 0,996
10 60 60,38 0,994 0,998 60,26 0,996
11 65 59,00 1,102 1,111 65,55 0,992
12 57 58,00 0,983 0,991 57,48 0,992
13 52 56,75 0,916 0,905 51,36 1,012
14 56 55,63 1,007 0,998 55,52 1,009
15 59 -- -- 1,111 -- --
16 54 -- -- 0,991 -- --

5. Déterminez la composante accidentelle.


De la série ajustée, on peut déduire la composante accidentelle ou résiduelle en divisant yt
par ytaj tel que ℇt= yt/ytaj (Voir la dernière colonne du tableau ci-dessus).

6. Est-ce que c’est possible d’avoir une prévision du profit du 1er trimestre de
l’année 2027.
Séries chronologiques 155

Puisque la tendance n’a pas été déterminée par une méthode analytique, mais plutôt
empirique (MM4(t)), qui se base sur une estimation ponctuelle de chaque valeur, Il n’est
pas convenable d’évaluer la tendance pour une date future et d’effectuer des prévisions.

Remarque : Si on avait utilisé la méthode des MCO, on pourrait calculer des prévisions,
notamment pour le 1er trimestre de l’année 2027 (t = 29) en utilisant y29 = f29×S1
Indices simples & synthétiques 156

Chapitre 7.
Indices simples et synthétiques

1. Variation et Coefficient multiplicateur


2. Indices simples ou élémentaires
3. Indices synthétiques
- Indices de Laspeyres
- Indices de Paasche
- Indice de Fisher
4. Exercices corrigés
Indices simples & synthétiques 157

Chapitre 7.
Indices simples et synthétiques

Dans plusieurs domaines, il faut savoir décrire et analyser l’évolution temporelle de


différentes grandeurs et de synthétiser leur évolution simultanée11. L’indicateur fondamental
de l’évolution des variables économiques et sociales est l’indice.

On distingue deux types d’indices : les indices simples portant sur une seule grandeur et les
indices synthétiques portant sur des grandeurs complexes de même nature (ex. indice des
prix regroupant un panier de biens). Si les grandeurs sont de natures différentes (ex. indice
boursier de Shanghai), les indices sont ainsi nommés indices composites.

En d’autres termes, un indice synthétique, est un indicateur de tendance centrale d’une


distribution d’indices simples. Les indices synthétiques sont souvent des moyennes
d’indices simples, comme la moyenne arithmétique pour l’indice de Laspeyres, et la
moyenne harmonique pour l’indice de Paasche (deux indices qui seront introduits dans ce
chapitre).

Notons que les indices ont été conçus pour effectuer des comparaisons sur des variables
économiques mesurables. Ils synthétisent en un seul nombre les modifications affectant un
ensemble de variables, nous pouvons citer par exemple l’indice des prix à la
consommation.

En économie par exemple, chaque année, les consommateurs achètent des dizaines de
produits et de services à des prix et à des quantités variables. L’évolution, par exemple, du
prix de chacun de ces produits peut être mesurée par un indice simple de prix.

11
Il faut auparavant savoir comparer les données. On peut noter quatre principaux indicateurs qui sont utiles à cette
comparaison : les parts, les ratios qui sont des rapports jugés significatifs entre deux grandeurs, les écarts absolus et les
écarts relatifs.
Indices simples & synthétiques 158

Par contre, les indices synthétiques présentés dans cette section résument, par un seul
indicateur, une série d'indices de prix ou de quantités. Avant de définir les indices, nous
pouvons souligner qu’un indice évalue une variation. Il n’évalue pas un niveau. Il mesure
ainsi une variation en valeur relative et non pas en valeur absolue12.

La question qui peut être posée : quelle est la différence entre la variation absolue et la
variation relative ?
Nous allons ainsi définir la variation absolue, la variation relative et aussi le coefficient
multiplicateur13.
Notons que la variation absolue, la variation relative et les indices simples ou élémentaires
sont les principaux indicateurs qui permettent de mesurer l’évolution des données.

1. Variation et Coefficient multiplicateur

• Variation absolue

La variation absolue d’une Grandeur G de la date 0 à la date t est la différence entre la


valeur finale et la valeur initiale. Cette variation absolue est ainsi notée :
∆| = |5 − |6
Notons qu’une variation absolue positive implique une augmentation et une variation
négative indique une baisse.

• Variation relative

La variation relative d’une Grandeur G de la date 0 à la date t est le rapport entre la


variation absolue et la valeur initiale de cette grandeur. Cette variation relative14 est notée :

∆| |5 − |6 |5
= = −-
|6 |6 |6

12
En 2023, un indice base 100 de 2022, du prix du pain est de 125 et celui du lait de 115 n’indique pas que le prix du
pain est supérieur à celui du lait, mais que le pain a augmenté de 25% entre 2022 et 2023 et le lait de 15% dans la
même période.
13
La moyenne géométrique est principalement utilisée pour calculer les coefficients multiplicateurs moyens pour
déduire les taux de variation.
14
La variation relative s’exprime souvent en pourcentage.
Indices simples & synthétiques 159

Le terme de variation relative est synonyme au taux de variation et au taux de croissance


qui peut éventuellement être positif ou négatif.

• Coefficient multiplicateur

Quand une grandeur passe de la valeur G0 à la valeur Gt, on peut calculer le coefficient
multiplicateur en utilisant la formule :
|5
}=
|6
Notons qu’un coefficient > 1 traduit une hausse, par contre un coefficient < 1 traduit une
baisse.

Il est aussi important de souligner que puisque les variations relatives ne sont pas additives,
ce fait conduit à la construction d’un indicateur très proche de la variation relative, mais qui
a des propriétés fort intéressantes. Cet indicateur est l’indice simple ou élémentaire qui est
explicité dans la section suivante.

2. Indices simples ou élémentaires

Pour décrire les variations de grandeurs simples, on compare leurs valeurs dans le temps ou
dans l’espace en effectuant le rapport des valeurs de la grandeur considérée à deux dates
différentes (indice chronologique), ou dans des lieux différents (indice spatial).
Nous introduirons dans cette section un indice de base 1 et un indice de base 100.

• Indice de base 1

On appelle indice simple ou élémentaire de la grandeur simple G (variable), à la date t, base


1 à la date 0, le rapport noté :
|5
~4/6 (|) =
|6
Indices simples & synthétiques 160

La date 0 est appelée la date de référence et la date t, la date courante15. Notons que
~6/6 (|) = -.

• Indice de base 100

On appelle indice élémentaire de la grandeur simple G, à la date t, base 100 à la date 0, le


rapport noté :
|5
~4/6 (|) = ( ) × -
|6
Notons que ~6/6 (|) = -.
Il est important de souligner les points suivants :
o Un indice ne possède pas d’unité.
o Un indice supérieur à 100 représente une hausse.
o Un indice inférieur à 100 représente une baisse.
o Les bases 1 ou 100 n’apparaissent pas dans la notation.

Comme précisé auparavant, les indices élémentaires possèdent des propriétés intéressantes
et qui manquent aux pourcentages.
Ces propriétés sont les suivantes :
o Les indices élémentaires sont transférables.
o Les indices élémentaires sont réversibles.
o Les indices élémentaires sont enchaînés.
o Les indices élémentaires se caractérisent par une circularité.

3. Indices synthétiques

L’un des défis majeurs concernant la mesure de l’évolution des données est celui de la
synthèse de l’évolution simultanée de plusieurs grandeurs. Par exemple, chaque année, les
consommateurs achètent des dizaines de produits et de services à des prix et dans des
quantités variables.

15
En économie, on utilise souvent l’année de base ou l’année de référence pour dénommer la date 0.
Indices simples & synthétiques 161

L’évolution, par exemple, du prix de chacun de ces produits peut être mesurée par un indice
simple de prix. Les indices synthétiques présentés dans cette section résument, par un seul
indicateur, une série d’indices de prix ou d’indices de quantités.

Avant d’introduire ces indices synthétiques, notons la définition d’un indice de la valeur.
Un indice de la valeur d’un panier de n produits à la date t, base 100 à la date 0 est égal à :

åP Q
i =1
i
t t
i

~4/6 (B) = n
× -
åP Q
i =1
i
o o
i

Cet indice n’est pas un indice de prix, il mesure à la fois l’évolution des prix et des
quantités consommées. D’où l’idée de calculer un indice de prix, et de fixer la structure de
consommation en fixant les quantités.

Dans cette section, nous allons introduire et définir les indices synthétiques de Laspeyres16
et de Paasche17 , indices de prix et de quantités. Ces indices respectent les principes
suivants :
o En calculant un indice de prix, seuls les prix varient, les quantités restent
constantes. Si les quantités sont celles de l’année de base, nous calculons
l’indice des prix de Laspeyres. Si les quantités sont celles de l’année courante t,
nous calculons l’indice des prix de Paasche.
o En calculant un indice de quantité, seules les quantités varient, les prix restent
fixes Si les prix sont ceux de l’année de base, nous calculons l’indice des
quantités de Laspeyres. Si les prix sont ceux de l’année courante t, nous
calculons l’indice des quantités de Paasche.

16
Laspeyres, économiste et statisticien allemand (1834-1913).
17
Paasche, économiste et statisticien allemand (1851-1925).
Indices simples & synthétiques 162

• Indices de Laspeyres

Nous allons définir les deux indices de Laspeyres, le premier relatif aux prix et le deuxième
relatif aux quantités.

o Indice des prix de Laspeyres

On appelle indice des prix de Laspeyres, année t, base 100 l’année 0, l’indice suivant :
n

åQ
i =1
o
i Pi t
Ä4/6 (Å) = n
× -
åQ
i =1
o
i Pi o

Il est obtenu en fixant les quantités à l’année de base.

L’indice des prix de Laspeyres est la moyenne arithmétique pondérée des indices
élémentaires de prix. Les coefficients de pondération sont relatifs à l’année de base.

o Indice des quantités de Laspeyres

On appelle indice des prix de Laspeyres, année t, base 100 l’année 0, l’indice suivant :
n

åP
i =1
i
o
Qit
Ä4/6 (Ç) = n
× -
åP
i =1
i
o
Q o
i

Il est obtenu en fixant les prix à l’année de base.

L’indice des quantités de Laspeyres est la moyenne arithmétique pondérée des indices
élémentaires de quantités. Les coefficients de pondération sont relatifs à l’année de base.
En tant que moyenne arithmétique, l’indice de Laspeyres (des prix ou des quantités)
présente la propriété d’agrégation. Cette propriété est très utile pour le calcul de l’Indice
des Prix à la Consommation (IPC), l’un des indices synthétiques les plus connus.
Indices simples & synthétiques 163

En effet, l’IPC est un instrument de mesure de l’inflation qui permet d’estimer des prix des
biens et des services consommés par les ménages. Le rôle de l’IPC est triple :
socio-économique, monétaire et financier et bien évidemment économique.

• Indices de Paasche

Nous allons définir les deux indices de Paasche, le premier relatif aux prix et le deuxième
relatif aux quantités.

o Indice des prix de Paasche

On appelle indice des prix de Paasche, année t, base 100 l’année 0, l’indice suivant :
n

åQ P
i =1
t
i i
t

Å4/6 (Å) = n
× -
åQ P
i =1
t
i i
o

Il est obtenu en fixant les quantités à l’année courante.

L’indice des prix de Paasche est la moyenne harmonique pondérée des indices élémentaires
de prix. Les coefficients de pondération sont relatifs à l’année courante.

o Indice des quantités de Paasche

On appelle indice des quantités de Paasche, année t, base 100 l’année 0, l’indice suivant :
n

åP Q
i =1
i
t t
i

Å4/6 (Ç) = n
× -
åP Q
i =1
i
t o
i

Il est obtenu en fixant les prix à l’année courante.


L’indice des quantités de Paasche est la moyenne harmonique pondérée des indices
élémentaires de quantités. Les coefficients de pondération sont relatifs à l’année courante.
Indices simples & synthétiques 164

• Comparaison et utilisation des indices de Laspeyres et de Paasche

L’indice de Laspeyres est le plus couramment utilisé, car il permet de conserver la même
pondération pour toutes les années : celle de l’année de base. Cet avantage du point de vue
des calculs devient vite un inconvénient, car le panier « figé » s’éloigne de plus en plus de
la réalité économique.
Pour l’indice des prix par exemple, l’indice de Laspeyres pondère les différents articles
proportionnellement aux habitudes de consommation du passé, alors que celui de Paasche
prend en compte les habitudes de consommation actuelles.

L’incorporation inévitable dans les indices des prix d’articles dont la quantité produite a
nettement augmenté et dont le prix relatif a de ce fait souvent diminué, introduit des
disparités dans les résultats obtenus pour les indices de Paasche et de Laspeyres.

On peut démontrer que la moyenne harmonique est inférieure ou égale à la moyenne


arithmétique. L’indice de Laspeyres étant une moyenne arithmétique des indices
élémentaires et l’indice de Paasche une moyenne harmonique, normalement, l’indice de
Paasche est inférieur ou égale à l’indice de Laspeyres.
Cependant, il faut prendre en compte que la situation est plus complexe. Les coefficients de
pondération étant différents peuvent influer sur la tendance de l’indice de Laspeyres à
surestimer les variations et sur celle de l’indice de Paasche à les sous-estimer.

• Indice de Fisher

Le choix entre les deux indices présente un certain arbitraire, ainsi le statisticien Fisher18 a
proposé un indice idéal qui est la moyenne géométrique des deux indices.
L’indice synthétique de Fisher est défini comme étant la moyenne géométrique des indices
de Laspeyres et de Paasche.

* Pour les prix : Ft / 0 ( P ) = Lt / o ( P ) ´ Pt / o ( P )

18
Fisher, économiste, statisticien et mathématicien (1867-1947).
Indices simples & synthétiques 165

* Pour les quantités : Ft / 0 (Q ) = Lt / o (Q ) ´ Pt / o (Q )

Il est important de souligner que l’indice de Fisher est toujours compris entre l’indice de
Paasche et l’indice de Laspeyres, car il représente leur moyenne géométrique.

4. Exercices corrigés

Exercice 1
On dispose de la répartition des dépenses pour quatre produits en Dhs pendant 3 ans :

Répartition des dépenses selon les produits en Dhs

Produit/Année 2021 2022 2023


A 400 500 550
B 350 400 450
C 150 250 300
D 240 350 500
Total 1140 1500 1800
Source : exemple

1. Calculez les indices simples pour les années 2022 et 2023 des différents produits en
base 100, année 2021. Interprétez les résultats pour le produit A.
2. Quel est le taux de variation des dépenses totales entre 2021 et 2022 ?
3. Quel est le taux de variation des dépenses totales entre 2021 et 2023 ?
4. Quel est le taux de variation des dépenses totales entre 2022 et 2023 ?
Indices simples & synthétiques 166

Solution

1. Calculez les indices simples pour les années 2022 et 2023 des différents produits en
base 100, année 2021.

Les indices simples des 4 produits sont dans le tableau suivant :

Produit/Année 2021 2022 2023


A 100% 125% 138%
B 100% 114% 129%
C 100% 167% 200%
D 100% 146% 208%
Total 100% 132% 158%

NB. Pour le produit A par exemple, on peut noter qu’on a une augmentation des dépenses
de 25% entre l’année 2021 et 2022 et de 38% entre 2021 et 2023.

2. Quel est le taux de variation des dépenses entre 2021 et 2022 ?


Les dépenses ont augmenté de 32% entre 2021 et 2022.

3. Quel est le taux de variation des dépenses totales entre 2021 et 2023 ?
Les dépenses ont augmenté de 58% entre 2021 et 2023

4. Quel est le taux de variation des dépenses totales entre 2022 et 2023 ?
On peut noter que les dépenses totales ont augmenté de 20% entre 2022 et 2023 soit :
• en calculant 158/132 x 100 = 120% ; ou bien
• en calculant la variation relative ((1800-1500)/1500) x 100 = 20%.
Indices simples & synthétiques 167

Exercice 2
On dispose de la répartition des prix et des quantités consommées pour quatre produits en
Dhs en 2021 et 2022 comme dans le tableau ci-dessous :
Répartition des prix et des quantités

2021 2022
Produit/Année
P2021 Q2021 P2022 Q2022
A 4 100 5 100
B 3,5 100 2,5 160
C 15 10 20 12,5
D 40 6 40 8,75

Source : exemple

Calculez l’indice de la valeur des 4 produits à la date 2022, base 100 à la date 2021

Solution
En prenant en considération la formule de calcul de l’indice de la valeur :
n

åP Q
i =1
i
t t
i

!"/$ (&) = × *$$


n

åP Q
i =1
i
o o
i

tel que n=4, t=2022 et l’année de base 0 est 2021. Nous prenons ainsi les totaux dans le
tableau ci-dessous :

Produit/Année 2021 2022


P2021 Q2021 P2021 x Q2021 P2022 Q2022 P2022 x Q2022
A 4 100 400 5 100 500
B 3,5 100 350 2,5 160 400
C 15 10 150 20 12,5 250
D 40 6 240 40 8,75 350
Total 1140 1500
Indices simples & synthétiques 168

L’indice de la valeur est égal à :


I2022/2021 (V) = (1500/1140) x 100 = 131.6 %

o Cet indice de la valeur d’un panier de 4 produits (A, B, C, D) à la date 2022,


base 100 à la date 2021 est égal à 131.6% (ou bien 132%).
o Cet indice de la valeur mesure à la fois l’évolution des prix et des quantités
consommées, dans ce cas l’évolution est de 31,6%.

Exercice 3
On dispose de la répartition des prix et des quantités consommées pour 3 produits comme
dans le tableau ci-dessous :
Répartition des prix et des quantités consommées
selon les produits en 2022 et 2023

Produit/Année 2022 2023


P2022 Q2022 P2023 Q2023
A 10 5 15 4
B 8 3 9 4
C 10 2 9 2
Source : exemple

1. Calculez les indices des prix à la date 2023, base 100 à la date 2022, pour chacun
des 3 produits et interprétez-les.
2. Calculez les indices des quantités à la date 2023, base 100 à la date 2022, pour
chacun des 3 produits et interprétez-les.
3. Calculez l’indice de la valeur des 3 produits à la date 2023, base 100 à la date 2022
et interprétez-le.
4. Calculez les indices des prix et des quantités de Laspeyres et interprétez-les
5. Calculez les indices des prix et des quantités de Paasche et interprétez-les.
6. Calculez les indices des prix et des quantités de Fisher et interprétez-les.
7. Comparez les indices de Fisher avec les indices de Laspeyres et de Paasche
Indices simples & synthétiques 169

Solution

1. Les indices des prix à la date 2023, base 100 à la date 2022 (I2023/2022 (P)), pour
chacun des 3 produits :
2022 2023
Produit/Année I2023/2022 (P)
P2022 P2023
A 10 15 (15/10).100 = 150 %
B 8 9 (9/8).100 = 112,5 %
C 10 9 (9/10).100 = 90 %

o Pour le produit A, on remarque que le prix a augmenté de 50%.


o Pour le produit B, on remarque que le prix a augmenté de 12,5%.
o Pour le produit C, on remarque que le prix a diminué de 10%.

2. Les indices des quantités à la date 2023, base 100 à la date 2022 (I2023/2022 (Q)), pour
chacun des 3 produits :

2022 2023
Produit/Année I2023/2022 (Q)
Q2022 Q2023
A 5 4 (4/5).100 = 80 %
B 3 4 (4/3).100 = 133,33 %
C 2 2 (2/2).100 = 100 %

o Pour le produit A, on remarque que les quantités consommées ont diminué de 20%.
o Pour le produit B, on remarque que les quantités consommées ont augmenté de
33,33%.
o Pour le produit C, on remarque que les quantités consommées sont restées stables.

3. L’indice de la valeur des 3 produits à la date 2023, base 100 à la date 2022 et son
interprétation :
Indices simples & synthétiques 170

2022 2023
Produit/Année
P2022 Q2022 P2022 x Q2022 P2023 Q2023 P2023 x Q2023
A 10 5 50 15 4 60
B 8 3 24 9 4 36
C 10 2 20 9 2 18
Total 94 114

I2023/2022 (V) = (114/94) x 100 = 121,28 %.


o L’indice de la valeur démontre une augmentation de 21,28%, ceci dit les dépenses
(Prix x quantités) ont augmenté de 21,28%.

4. Calculez les indices des prix et des quantités de Laspeyres et interprétez-les.

L’indice des prix de Laspeyres, tel que n=3 et t=2023 et l’année de base 0 est 2022.
n

åQ
i =1
o
i Pi t
!"/$ (&) = n
× *$$
åQ
i =1
o
i Pio

L2023/2022 (P) = ((5x15) + (3x9) + (2x9)) /((5x10) + (3x8) + (2x10)) x 100


L2023/2022 (P) = (120/94) x 100 = 127,66 %

Interprétation : Les prix selon l’indice de Laspeyres ont augmenté de 27,66% entre l’année
2022 et l’année 2023.

L’indice des quantités de Laspeyres


n

åP Q
i =1
i
o t
i

!"/$ (&) = n
× *$$
åP Q
i =1
i
o o
i

L2023/2022 (Q) = ((4x10) + (4x8) + (2x10)) /((5x10) + (3x8) + (2x10)) x 100


L2023/2022 ( Q) = (92/94) x 100 = 97,87 %
Indices simples & synthétiques 171

Interprétation : Les quantités selon l’indice de Laspeyres ont diminué de 2,13% entre
l’année 2022 et l’année 2023.

5. Calculez les indices des prix et des quantités de Paasche et interprétez-les.

L’indice des prix de Paasche, tel que n=3 et t=2023 et l’année de base 0 est 2022.
n

åQ P
i =1
t
i i
t

!"/$ (!) = × )$$


n

åQ
i =1
t
i Pi o

P2023/2022 (P) = ((4x15) + (4x9) + (2x9)) /((4x10) + (4x8) + (2x10)) x 100


P2023/2022 (P) = (114/92) x 100 = 123,91 %

Interprétation : Les prix selon l’indice de Paasche ont augmenté de 23,91% entre l’année
2022 et l’année 2023.
L’indice des quantités de Paasche
n

åP Q
i =1
i
t t
i

!"/$ (&) = × *$$


n

åP Q
i =1
i
t o
i

P2023/2022 (Q) = ((4x15) + (4x9) + (2x9)) /((5x15) + (3x9) + (2x9)) x 100


P2023/2022 ( Q) = (114/120) x 100 = 95,00 %

Interprétation : Les quantités selon l’indice de Paasche ont diminué de 5% entre l’année
2022 et l’année 2023.

6. Calculez les indices des prix et des quantités de Fisher et interprétez-les.


Les indices des prix et des quantités de Fisher, tel que n=3 et t=2023 et l’année de base 0
est 2022 sont :
Indices simples & synthétiques 172

L’indice des Prix de Fisher :


o F2023/2022 (P) = 127, 66 ×123, 91 = 125,77%
o Interprétation : Les prix selon l’indice de Fisher ont augmenté de 25,77%
entre l’année 2022 et l’année 2023.
L’indice des quantités de Fisher :
o F2023/2022 (Q) = 97,87 × 95, 00 = 96,46%
o Interprétation : Les quantités selon l’indice de Fisher ont diminué de 3,54%
entre l’année 2022 et l’année 2023.

7. Comparez les indices de Fisher avec les indices de Laspeyres et de Paasche.


Soit pour les indices des prix ou des quantités on peut noter que :
Les indices Paasche < Les indices de Fisher < Les indices de Laspeyres
P2023/2022 (P) < F2023/2022 (P) < L2023/2022 (P)
P2023/2022 (Q) < F2023/2022 (Q) < L2023/2022 (Q)

Exercice 4
On dispose de la répartition des prix et des quantités consommées pour les produits A et B,
pour l’année 2020 et 2023 représentée dans le tableau ci-dessous :

Répartition des prix et des quantités consommées


selon le produit A et B en 2020 et 2023

2020 2023
Produit/Année
P2020 Q2020 P2023 Q2023
A 2 12 3 13
B 1,5 7 2 10
Source : exemple

1. Calculez les indices des prix et des quantités de Laspeyres et interprétez-les.


2. Calculez les indices des prix et des quantités de Paasche et interprétez-les.
3. Calculez les indices des prix et des quantités de Fisher et interprétez-les.
4. Comparez les 3 types d’indices.
Indices simples & synthétiques 173

Solution

1. Calculez les indices des prix et des quantités de Laspeyres et interprétez-les.


Indice des prix de Laspeyres :

L2020/2023 (P) = ((3x12) + (2x7)) / ((2x12) + (1,5x7)) x 100


L2020/2023 (P) = (50/34,5) x 100 = 144,9 %.
Interprétation : Les prix selon l’indice de Laspeyres ont augmenté de 44,9% entre l’année
2020 et l’année 2023.

Indice des quantités de Laspeyres :

L2020/2023 (Q) = ((2x13) + (1,5x10)) /((2x12) + (1,5x7)) x 100


L2020/2023 (Q) = ( 41/34,5) x 100 = 118,84 %.
Interprétation : Les quantités selon l’indice de Laspeyres ont augmenté de 18,84% entre
l’année 2020 et l’année 2023.

2. Calculez les indices des prix et des quantités de Paasche et interprétez-les.


Indice des prix de Paasche :

P2020/2023 (P) = ((3x13) + (2x10)) / ((2x13) + (1,5x10)) x 100


P2020/2023 (P) = (59/41) x 100 = 143,9 %.
Interprétation : Les prix selon l’indice de Paasche ont augmenté de 43,9% entre l’année
2020 et 2023.

Indice des quantités de Paasche

P2020/2023 (Q) = ((3x13) + (2x10))/((3x12) + (2x7)) x 100


P2020/2023 (Q) = (59/50) x 100 =118 %.
Interprétation : Les quantités selon l’indice de Paasche ont augmenté de 18% entre l’année
2020 et l’année 2023.
Indices simples & synthétiques 174

3. Calculez les indices des prix et des quantités de Fisher.


L’indice des Prix de Fisher :
o F2020/2023 (P) = 144, 9 ×143, 9 = 144,4%
o Interprétation : Les prix selon l’indice de Fisher ont augmenté de 44,4% entre
l’année 2020 et l’année 2023.
L’indice des quantités de Fisher :
o F2020/2023 (Q) = 118,84 ×118, 00 = 118,42%
o Interprétation : Les quantités selon l’indice de Fisher ont diminué de 18,42%
entre l’année 2020 et l’année 2023.

4. Comparez les indices de Fisher avec les indices de Laspeyres et de Paasche.


P2020/2023 (P) < F2020/2023 (P) < L2020/2023 (P)
P2020/2023 (Q) < F2020/2023 (Q) < L2020/2023 (Q)
QCM corrigées 175

Questions à choix multiples


QCM corrigées
S

Série 1

Exercice 1 :

Nous disposons de la répartition d'un échantillon de produits dans une grande surface au Maroc,
selon leur prix dans le tableau ci-dessous :

Répartition des produits selon le prix


Prix en Dhs Effectif (ni)
[ 100 - 200 [ 50
[ 200 - 300 [ 100
[ 300 - 400 [ 120
[ 400 - 500 [ 94
[ 500 - 700 [ 36

Source: exemple

* Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après la
virgule.

1. Les modalités de la variable étudiée sont :


(A) les 5 intervalles.
(B) les grandes surfaces.
(C) les produits qui forment la population étudiée.
(D) 5 modalités de la variable quantitative continue.
(E) Aucune des solutions proposées n'est correcte.

2. Le mode :
(A) est égal à 256.52 Dhs.
(B) est égal à 300.43 Dhs.
(C) est égal à 343.48 Dhs.
(D) est égal à 348.00 Dhs.
(E) est égal à 350.69 Dhs.

3. En calculant la médiane Me ou Q2 , on peut conclure que :


(A) 50% des produits ont un prix inférieur à 246.81 Dhs.
(B) 50% des produits ont un prix inférieur à 258.33 Dhs.
(C) 50% des produits ont un prix supérieur ou égal à 300.42 Dhs.
(D) 50% des produits ont un prix supérieur ou égal à 341.67 Dhs.
(E) 50% des produits ont un prix supérieur ou égal à 383.33 Dhs.
QCM corrigées 176

4. En prenant en considération le premier quartile Q1 , on peut conclure que :


(A) 25% des produits ont un prix inférieur à 150 Dhs.
(B) 75% des produits ont un prix inférieur à 200.50 Dhs.
(C) 75% des produits ont un prix supérieur ou égal à 250 Dhs.
(D) 75% des produits ont un prix supérieur ou égal à 275 Dhs.
(E) Aucune des solutions proposées n'est correcte.

5. En calculant le coefficient de Yule et Kendall, nous pouvons noter qu'il est égal à :
(A) 0.0 et ainsi la distribution est symétrique.
(B) 2.0 et ainsi la distribution est oblique gauche.
(C) 5.6 et ainsi la distribution est oblique gauche.
(D) 7.5 et ainsi la distribution est étalée vers la droite.
(E) - 2.8 et ainsi la distribution est étalée vers la gauche.

6. En calculant l'écart-type, on peut conclure que la dispersion autour de la moyenne est


de :
(A) 17.53 Dhs et le coefficient de variation est égal à 5.07 %.
(B) 124.33 Dhs et le coefficient de variation est égal à 35.93%.
(C) 124.33 Dhs2 et le coefficient de variation est égal à 35.93%.
(D) 156.83 Dhs et le coefficient de variation est égal à 45.33%.
(E) 156.83 Dhs2 et le coefficient de variation est égal à 45.33%.

7. En supposant que nous multiplions tous les effectifs (ni) par deux (2), nous pouvons
noter que :
(A) les valeurs de la moyenne et de la variance changent.
(B) les valeurs de la moyenne et de la variance ne changent pas.
(C) la valeur de la moyenne change et celle de la variance ne change pas.
(D) la valeur de la moyenne ne change pas et celle de la variance change.
(E) Aucune des solutions proposées n'est correcte.

8. L'indice de Gini :
(A) est égal à 0.04, la répartition des produits tend à être égalitaire.
(B) est égal à 0.20, la répartition des produits tend à être égalitaire.
(C) est égal à 0.80, la répartition des produits tend à être inégalitaire.
(D) est égal à 1.00, la répartition des produits tend à être inégalitaire.
(E) est égal à 0.20, avec une forte concentration de la distribution des prix.

9. En supposant que nous multiplions tous les effectifs (ni) par trois (3), nous pouvons
noter que :
(A) les valeurs de l'indice de Gini et des quartiles changent.
(B) les valeurs de l'indice de Gini et des quartiles ne changent pas.
(C) la valeur de l'indice de Gini ne change pas et celles des quartiles changent.
(D) la valeur de l'indice de Gini change et celles des quartiles ne changent pas.
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 177

10. A l'international, nous disposons d’un autre échantillon de produits dans une grande
surface, tel que sa variance est de 11025 $2, et son coefficient de variation est de 20%,
on peut dans ce cas déduire :
(A) que la moyenne des prix de cet échantillon de produits est de 525 $.
(B) que la moyenne des prix de cet échantillon de produits est de 55125 $.
(C) que la moyenne des prix de cet échantillon de produits est de 551.25 $.
(D) que les produits au Maroc sont plus chers que les produits à l'international.
(E) que l’échantillon des produits à l'international est plus dispersé que l'échantillon des
produits au Maroc.

Exercice 2 :

Nous disposons de la répartition des ventes trimestrielles de l'un de ces produits en milliers de
Dirhams et de son évolution pendant les 4 dernières années, ainsi que la moyenne et l'écart-type de
chaque période dans le tableau ci-dessous :

Répartition des ventes par trimestre

Année 1er trimestre 2ème trimestre 3er trimestre 4ème trimestre Moyenne Ecart type
2013 126 146 160 138 142.50 12.36
2014 122 132 144 128 131.50 8.05
2015 112 120 130 114 119.00 7.00
2016 104 112 118 108 110.50 5.17
Source: exemple

* Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.

11. Le modèle de décomposition de cette série chronologique :


(A) est un modèle mixte.
(B) est un modèle additif.
(C) est un modèle linéaire.
(D) est un modèle multiplicatif.
(E) Aucune des solutions proposées n'est correcte.

12. En calculant la Cov(yt, t) nous pouvons déduire que :


(A) les deux variables (yt) et (t) sont indépendantes.
(B) les deux variables (yt) et (t) covarient dans le même sens.
(C) les deux variables (yt) et (t) covarient dans des sens opposés.
(D) les deux variables (yt) et (t) sont liées par une relation parabolique.
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 178

13. Afin d’analyser cette série chronologique et pour déterminer la tendance, on utilise la
méthode des Moindres Carrés Ordinaires (MCO). On estime « a » et « b » dans
l'équation de régression yt = at + b et on trouve :
(A) a = - 2.39 ; b = 146.20
(B) a = 2.39 ; b = 105.57
(C) a = - 3.41 ; b = 154.88
(D) a = 11.00 ; b = 32.34
(E) a = - 11.00 ; b = 219.42

14. En calculant la corrélation (r) entre yt et t ; et sachant que la Var (yt) = 221.23; on
trouve que :
(A) r = - 0.74 ; ainsi la relation entre yt et t est forte.
(B) r = 0.74 ; ainsi la relation entre yt et t est forte.
(C) r = - 0.23 ; ainsi la relation entre yt et t est forte.
(D) r = 0.23 ; ainsi la relation entre yt et t est très faible.
(E) r = - 0.01 ; ainsi une relation de cause à effet entre yt et t ne peut pas être vérifiée.

15. En calculant le coefficient de détermination, on peut conclure que :


(A) 0.01% de la variation des ventes peut s’expliquer par une relation linéaire avec t.
(B) 5.29% de la variation des ventes peut s’expliquer par une relation linéaire avec t.
(C) 54.76% de la variation des ventes peut s’expliquer par une relation linéaire avec t.
(D) 86.02% de la variation des ventes peut s’expliquer par une relation linéaire avec t.
(E) 5.29% de la variation des ventes peut s’expliquer par une relation non linéaire avec t.

16. En supposant que les coefficients saisonniers corrigés des quatre trimestres sont
respectivement : S'1 = 0.90 ; S'2 = 1.00 ; S'3 = 1.10 ; S'4 = 1.00 ; la prévision des ventes du
quatrième trimestre de l’année 2018 est de :
(A) 74.04
(B) 88.84
(C) 89.84
(D) 136.64
(E) 203.56

17. En supposant que les coefficients saisonniers corrigés des quatre trimestres sont
respectivement : S'1 = 0.90 ; S'2 = 1.00 ; S'3 = 1.10 ; S'4 = 1.00 ; la prévision des ventes du
premier trimestre de l’année 2020 est de :
(A) 56.89
(B) 69.20
(C) 77.79
(D) 129.43
(E) 193.96
QCM corrigées 179

Exercice 3 :

Nous disposons de la répartition des prix et des quantités consommées pour trois catégories de
produits pendant l’année 2016 et 2017, comme illustrée dans le tableau ci-dessous :

Répartition des prix et des quantités consommées


2016 2017
P2016 Q2016 P2017 Q2017
Produit Bio 50 150 47 175
Produit de base 10 270 9 310
Produit de luxe 250 15 300 17

Source: exemple

* Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après la
virgule.

18. L’indice de valeur des trois produits à la date 2017, base 100 à la date 2016 est égal à :
(A) 86.57% , soit une diminution des dépenses de 13.43%.
(B) 87.08% , soit une diminution des dépenses de 12.92%.
(C) 114.84% , soit une augmentation des dépenses de 14.84%.
(D) 115.52% , soit une augmentation des dépenses de 15.52%.
(E) 132.53% , soit une augmentation des dépenses de 32.53%.

19. L’indice des quantités du produit Bio à la date 2017, base 100 à la date 2016 est égal à :
(A) 85.71% , il représente un indice simple.
(B) 109.67% , il représente un indice simple.
(C) 116.67% , il représente un indice simple.
(D) 116.67% , il représente un indice synthétique.
(E) 175.00% , soit une augmentation des quantités consommées de 75 %.

20. L’indice des quantités de Fisher est égal à :


(A) 86.65% ; c’est un indice simple.
(B) 86.65% ; c’est un indice synthétique.
(C) 115.34% ; c’est un indice synthétique.
(D) 133.04% ; c’est un indice synthétique.
(E) 100.15% ; c’est une moyenne géométrique des indices des quantités de Laspeyres et de
Paasche.
QCM corrigées 180

Série 2

Exercice 1 :

Nous disposons de la répartition d'un échantillon de consommateurs marocains selon leur poids
dans le tableau ci-dessous :

Répartition des consommateurs selon le poids


Poids (Kg) Effectif (ni) Fréquence cumulée (Fi)
[ 50 - 55 [ 25 12.50%
[ 55 - 65 [ 50 37.50%
[ 65 - 70 [ 70 72.50%
[ 70 - 75 [ 55 100.00%

Source: exemple

* Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après la
virgule.

1. L'effectif des consommateurs qui ont une modalité = 60 Kg :


(A) est égal 10.
(B) est égal 20.
(C) est égal 25.
(D) ne peut pas être déduit dans ce cas.
(E) Aucune des solutions proposées n'est correcte.

2. Le mode est égal à :


(A) 61.25 kg
(B) 65.75 kg
(C) 67.86 kg.
(D) 68.75 kg.
(E) Aucune des solutions proposées n'est correcte.

3. En calculant la médiane Me ou Q2 , on peut conclure que 50% des consommateurs


ont un poids :
(A) inférieur à 65.36 kg.
(B) inférieur à 66.79 kg.
(C) supérieur à 63.21 kg.
(D) supérieur ou égal à 68.98 kg.
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 181

4. En prenant en considération le premier quartile Q1 on peut conclure que :


(A) 25% des consommateurs ont un poids inférieur à 60.00 kg.
(B) 25% des consommateurs ont un poids inférieur à 57.50 kg.
(C) 25% des consommateurs ont un poids supérieur ou égal à 55.50 kg.
(D) 75% des consommateurs ont un poids supérieur ou égal à 57.50 kg.
(E) Aucune des solutions proposées n'est correcte.

5. Sachant que l'EIQ = 10.45 kg ; le coefficient de Yule et Kendall est égal à :


(A) 2.02 ; la distribution est étalée vers la droite.
(B) 25.25 ; la distribution est étalée vers la droite.
(C) 18.87 ; la distribution est étalée vers la gauche.
(D) - 0.30 ; la distribution est étalée vers la gauche.
(E) - 11.78 ; la distribution est étalée vers la gauche.

6. Sachant que la variance est égale à 4284.69 kg2, on peut noter que la dispersion autour
de la moyenne est égale à :
(A) 65.13 kg.
(B) 65.46 kg.
(C) 65.46 kg2.
(D) 4284.69 kg.
(E) Aucune des solutions proposées n'est correcte.

7. En supposant que nous multiplions tous les effectifs (ni) par deux (2), nous pouvons
noter que :
(A) le coefficient de Yule et Kendall et le coefficient de variation changent.
(B) le coefficient de Yule et Kendall et le coefficient de variation ne changent pas.
(C) le coefficient de Yule et Kendall ne change pas et celle du coefficient de variation.
change.
(D) le coefficient de Yule et Kendall change et celle du coefficient de variation ne change
pas.
(E) Aucune des solutions proposées n'est correcte.

8. L'indice de Gini :
(A) ne doit pas être calculé dans ce cas.
(B) est égal à 0.07, la répartition des poids tend à être égalitaire.
(C) est égal à 0.02, la répartition des poids tend à être inégalitaire.
(D) est égal à 0.98, la répartition des poids tend à être inégalitaire.
(E) Aucune des solutions proposées n'est correcte.

9. A l'international, nous disposons de la répartition d'un autre échantillon de


consommateurs japonais selon le poids, tel que sa variance est égale à 2047 kg2. On
peut dans ce cas noter :
(A) qu'on ne peut pas comparer la dispersion des deux échantillons.
(B) que la répartition de l'échantillon japonais tend à être égalitaire.
(C) que l'échantillon marocain est plus dispersé que l'échantillon japonais.
(D) que l'échantillon japonais est plus dispersé que l'échantillon marocain.
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 182

10. Supposant que nous disposons d'un deuxième échantillon de consommateurs


marocains, tel que son effectif est égal à 100 et la moyenne du poids est égale à 55.00
kg. Nous pouvons conclure que la moyenne du poids de l'ensemble des
consommateurs marocains (dans les 2 échantillons) est égale à :
(A) 60.06 kg.
(B) 65.13 kg.
(C) 67.15 kg.
(D) 61.75 kg.
(E) Aucune des solutions proposées n'est correcte.

Exercice 2 :

Nous disposons de la répartition des ventes trimestrielles d'un produit en milliers de Dirhams et de
son évolution pendant les 3 dernières années, ainsi que la moyenne et l'écart-type de chaque
période dans le tableau ci-dessous :

Répartition des ventes par trimestre

Année 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre Moyenne (m) Ecart type (e)
2019 168 180 192 162 175.50 3.84
2020 210 228 246 210 223.50 4.97
2021 174 270 300 180 231.00 18.36

Source: exemple

* Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.

11. Sachant que b = - 28.02 dans l'équation e = am + b ; le modèle de décomposition de cette


série chronologique :
(A) un modèle additif.
(B) un modèle linéaire.
(C) un modèle multiplicatif.
(D) ne peut pas être déduit dans ce cas.
(E) Aucune des solutions proposées n'est correcte.

12. En calculant la Cov (yt , t) nous pouvons noter qu'elle est égale à :
(A) 76.50 ; la relation entre les deux variables (yt) et (t) est forte.
(B) 7.65 ; les deux variables (yt) et (t) covarient dans le même sens.
(C) 76.50 ; les deux variables (yt) et (t) covarient dans le même sens.
(D) - 76.50 ; les deux variables (yt) et (t) covarient dans des sens opposés.
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 183

13. Sachant que la var (yt) = 1734 et la var (t) = 11.92 nous pouvons noter que le coefficient
de détermination (R2) est égal à :
(A) 0.28
(B) 0.48
(C) 0.53
(D) 0.56
(E) Aucune des solutions proposées n'est correcte.

14. Afin d'analyser cette série chronologique et pour déterminer la tendance, on utilise la
méthode des Moindres Carrés Ordinaires. On estime a et b dans l'équation de
régression yt = at + b et on trouve :
(A) a = 6.42 ; b = 168.27
(B) a = 6.42 ; b = 251.73
(C) a = 0.04 ; b = 209.71
(D) a = - 6.42 ; b = 253.73
(E) a = - 0.64 ; b = 214.16

15. Sachant que les coefficients saisonniers corrigés des trois premiers trimestres T1, T2 et
T3 sont respectivement : S'1 = 0.93 ; S'2 = 1.09 et S'3 = 1.14 ; le coefficient saisonnier
corrigé (S'4) du 4ème trimestre est égal à :
(A) 0.96
(B) 4.00
(C) - 2.16
(D) - 3.16
(E) Aucune des solutions proposées n'est correcte.

16. La moyenne mobile (non-centrée) d'ordre 4 à l'instant t = 4 :


(A) est égale à 162.00
(B) est égale à 175.50
(C) est égale à 183.00
(D) ne peut pas être calculée dans ce cas.
(E) Aucune des solutions proposées n'est correcte.

17. Nous pouvons noter que la prévision des ventes (en milliers de Dirhams) du 4ème
trimestre de l'année 2023 est de :
(A) 104.61
(B) 162.92
(C) 249.20
(D) 296.67
(E) 297.51
QCM corrigées 184

Exercice 3 :

Nous disposons de la répartition des prix et des quantités consommées pour deux catégories de
produits en 2020 et 2021 dans le tableau ci-dessous :

Répartition des prix et des quantités consommées


2020 2021
P2020 Q2020 P2021 Q2021
Produit bio 25 10 35 10
Produit naturel 15 25 5 30

Source: exemple

* Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.

18. L'indice de valeur des deux produits à la date 2021, base 100 à la date 2020 est égal à :
(A) 80.00 % , soit une diminution de 20.00 %
(B) 120.00 % , soit une augmentation de 20.00 %
(C) 114.29 % , soit une augmentation de 14.29 %
(D) 125.00 % , soit une augmentation de 25.00 %
(E) Aucune des solutions proposées n'est correcte

19. L'indice des quantités de Laspeyres est égal à :


(A) 71.43 %
(B) 76.00 %
(C) 105.26 %
(D) 112.00 %
(E) Aucune des solutions proposées n'est correcte.

20. Sachant que l'indice des quantités de Fisher est égal à 108.58 %, nous pouvons déduire
que l'indice des quantités de Paasche est égal à :
(A) 71.43 %
(B) 76.00 %
(C) 105.26 %
(D) 117.89 %
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 185

Série 3

Exercice 1 :

Nous disposons de la répartition d’un échantillon d’employés d’une multinationale au Maroc selon
leur salaire dans le tableau ci-dessous :

Répartition des employés selon le salaire


Salaire en Dhs Effectif (ni) Fréquence (fi) Fréquence de la masse salariale (f'i)
[ 3000 - 4000 [ 70 0.14 0.09
[ 4000 - 5000 [ 80 0.16 0.14
[ 5000 - 6000 [ 250 A calculer 0.52
[ 6000 - 7000 [ 100 0.20 A calculer
Source: exemple

* Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après la
virgule.

1. La variable étudiée est :


(A) le salaire une variable qualitative continue.
(B) le salaire, une variable quantitative continue.
(C) l'entreprise, une variable qualitative ordinale.
(D) l'employé, une variable quantitative continue.
(E) Aucune des solutions proposées n'est correcte.

2. Le mode est égal à :


(A) 4468.75 Dhs.
(B) 5000.53 Dhs.
(C) 5008.50 Dhs.
(D) 5531.25 Dhs.
(E) Aucune des solutions proposées n'est correcte.

3. La moyenne des salaires est égale à :


(A) 4000.00 Dhs.
(B) 5620.00Dhs.
(C) 5260.00 Dhs.
(D) 5545.45 Dhs.
(E) Aucune des solutions proposées n'est correcte.

4. En calculant la médiane Me ou Q2 , on peut noter que :


(A) 50% des employés ont un salaire inférieur à 4600.00 Dhs.
(B) 50% des employés ont un salaire inférieur à 5000.40 Dhs.
(C) 50% des employés ont un salaire supérieur ou égal à 5400.00 Dhs.
(D) 50% des employés ont un salaire supérieur ou égal à 5727.27 Dhs.
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 186

5. Nous pouvons démontrer que la distribution est :


(A) normale.
(B) symétrique.
(C) étalée vers la droite.
(D) étalée vers la gauche.
(E) Aucune des solutions proposées n'est correcte.

6. En prenant en considération le premier décile D1 , on peut noter que :


(A) 10% des employés ont un salaire inférieur à 3000.71 Dhs.
(B) 90% des employés ont un salaire inférieur à 3000.71 Dhs.
(C) 10% des employés ont un salaire supérieur ou égal à 3714.29 Dhs.
(D) 90% des employés ont un salaire supérieur ou égal à 3714.29 Dhs.
(E) Aucune des solutions proposées n'est correcte.

7. Sachant que le coefficient de variation est égal 17.6550% ; on peut noter que la
dispersion autour de la moyenne :
(A) est égale à 928.65 Dhs.
(B) est égale à 8827.5 Dhs
(C) est égale à 92865.0 Dhs
(D) est égale à 8624400 Dhs2
(E) ne peut pas être calculée car on manque de données.

8. A l’international nous disposons de la répartition des employés d’une filiale de cette


multinationale selon leur salaire tel que variance des salaires est de 202500 $2 et la
moyenne est de 1500$ on peut dans ce cas déduire :
(A) que l'échantillon marocain est plus dispersé que l'échantillon étranger.
(B) que l'échantillon étranger est plus dispersé que l'échantillon marocain.
(C) que l'échantillon marocain et l'échantillon étranger ont la même dispersion.
(D) que les unités sont différentes et dans ce cas, on ne peut pas comparer leur dispersion.
(E) Aucune des solutions proposées n'est correcte.

9. L'indice de Gini :
(A) est égal à 0.10 ; la répartition des salaires tend à être égalitaire.
(B) est égal à 0.25 ; la répartition des salaires tend à être égalitaire.
(C) est égal à 0.90 ; la répartition des salaires tend à être égalitaire.
(D) est égal à 0.75 ; la répartition des salaires tend à être inégalitaire.
(E) ne doit pas être calculé dans ce cas, puisque la somme des observations n'a aucun sens.

10. Supposant que nous disposons d'un deuxième échantillon d’employés marocains d’un
effectif égal à n2 tel que la moyenne des salaires est égale à 6500 Dhs. Sachant que la
moyenne des salaires de l'ensemble des employés (dans les 2 échantillons) est égale à
5725 Dhs, nous pouvons noter que n2 :
(A) est égal à 200.
(B) est égal à 300.
(C) est égal à 400.
(D) ne peut être calculé dans ce cas, car on manque de données.
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 187

Exercice 2 :

Nous disposons de la répartition des ventes trimestrielles de l'un de ces produits en milliers de
Dirhams et de son évolution pendant les 4 dernières années, ainsi que la moyenne de chaque
période dans le tableau ci-dessous :

Répartition des ventes par trimestre

Année 1er trimestre 2ème trimestre 3er trimestre 4ème trimestre Moyenne
2019 126 146 160 138 142.50
2020 122 132 144 128 131.50
2021 112 120 130 114 119.00
2022 104 112 118 108 110.50

Source: exemple

* Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.

11. Le modèle de décomposition de cette série chronologique :


(A) est un modèle mixte.
(B) est un modèle additif.
(C) est un modèle linéaire.
(D) est un modèle multiplicatif.
(E) Aucune des solutions proposées n'est correcte.

12. En calculant la Cov(yt, t) nous pouvons déduire qu’elle est égale à :


(A) 50.7 les deux variables (yt) et (t) covarient dans le même sens.
(B) - 30.1 les deux variables (yt) et (t) covarient dans des sens opposés.
(C) - 50.7 les deux variables (yt) et (t) covarient dans des sens opposés.
(D) - 60.6 les deux variables (yt) et (t) covarient dans des sens opposés.
(E) Aucune des solutions proposées n'est correcte.

13. Afin d’analyser cette série chronologique et pour déterminer la tendance, on utilise la
méthode des Moindres Carrés Ordinaires (MCO). On estime « a » et « b » dans
l'équation de régression yt = at + b et on trouve :
(A) a = - 3.41 ; b = 154.9
(B) a = - 2.39 ; b = 154.9
(C) a = - 2.39 ; b = 146.2
(D) a = - 0.74 ; b = 132.2
(E) a = 2.39 ; b = 146.2
QCM corrigées 188

14. En calculant la corrélation (r) entre yt et t on trouve que :


(A) r = - 0.26 ; ainsi la relation entre yt et t est forte.
(B) r = - 0.74 ; ainsi la relation entre yt et t est forte.
(C) r = 0.74 ; ainsi la relation entre yt et t est forte.
(D) r = - 0.23 ; ainsi la relation entre yt et t est très faible.
(E) r = - 0.01 ; ainsi une relation de cause à effet entre yt et t ne peut pas être vérifiée.

15. En supposant que les coefficients saisonniers corrigés des trois premiers trimestres sont
respectivement : S'1 = 0.90 ; S'2 = 1.00 ; S'3 = 1.10 ; la prévision des ventes du quatrième
trimestre en milliers de dirhams pour l’année 2024 est de :
(A) 74.04
(B) 80.84
(C) 88.84
(D) 89.84
(E) 203.56
16. La moyenne mobile (centrée) d'ordre 4 à l'instant t = 3 est égale à :
(A) 113.6
(B) 142.0
(C) 189.3
(D) ne peut pas être calculée dans ce cas.
(E) Aucune des solutions proposées n'est correcte.

17. La moyenne mobile (non centrée) d'ordre 4 à l'instant t = 3 est égale à :


(A) 144.0
(B) 142.5
(C) 432.0
(D) ne peut pas être calculée dans ce cas.
(E) Aucune des solutions proposées n'est correcte.

Exercice 3 :

Nous disposons de la répartition des prix et des quantités consommées pour deux catégories de
produits pendant l’année 2021 et 2022, comme illustrée dans le tableau ci-dessous :

Répartition des prix et des quantités consommées

2021 2022
P2021 Q2021 P2022 Q2022
Produit de base 10 60 A calculer 75
Produit de luxe 125 50 200 30
Source: exemple

* Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.
QCM corrigées 189

18. Sachant que l’indice des prix du produit de base à la date 2022, base 100 à la date 2021
est égal à 170,00 %, son prix en 2022 (P2022) est égal à:
(A) 7.00
(B) 10.00
(C) 17.00
(D) 70.00
(E) Aucune des solutions proposées n’est correcte.

19. L'indice de valeur des deux produits à la date 2022, base 100 à la date 2021 est égal à :
(A) 94.16%
(B) 106.20%
(C) 153.43%
(D) 160.74.%.
(E) Aucune des solutions proposées n’est correcte.

20. Nous pouvons noter que l’indice des quantités de Laspeyres est égal à :
(A) 65.69% ; c’est un indice synthétique.
(B) 66.02% ; c’est un indice simple.
(C) 66.02% ; c’est un indice synthétique.
(D) 160.88% ; c’est un indice synthétique.
(E) Aucune des solutions proposées n’est correcte.
QCM corrigées 190

Série 4

Exercice 1 :

Nous disposons de la répartition des employés d'une entreprise selon leur salaire dans le tableau
ci-dessous :

Répartition des employés selon le salaire

Salaire en Effectif Fréquence Fréquence Centre de


ni x ci F'i + F'i-1*
Dhs (ni) (fi) cumulée (Fi) classe (ci)
[ 3000 - 4000 [ 45 0.1125 11.25% 3500 157500 0.0678
[ 4000 - 5000 [ 80 0.2000 31.25% 4500 360000 0.2906
[ 5000 - 6000 [ 95 0.2375 55.00% 5500 522500 0.6706
[ 6000 - 8000 [ 165 0.4125 96.25% 7000 1155000 1.3929
[ 8000 - 9000 [ 15 0.0375 100.00% 8500 127500 1.9451
Source: exemple
* F'i : Fréquence cumulée de la masse salariale

Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après la
virgule.

1. La variable étudiée est :


(A) le salaire une variable qualitative continue.
(B) le salaire, une variable quantitative continue.
(C) l'employé, une variable quantitative continue.
(D) l'entreprise, une variable quantitative continue.
(E) Aucune des solutions proposées n'est correcte.

2. Le centre de la classe modale :


(A) est égal à 4500.00 Dhs.
(B) est égal à 5500.00 Dhs.
(C) est égal à 6500.00 Dhs.
(D) est égal à 7000.00 Dhs.
(E) ne peut pas être calculé puisque la classe modale n'existe pas.

3. Le mode :
(A) est égal à 5000.55 Dhs.
(B) est égal à 5496.45 Dhs.
(C) est égal à 5545.45 Dhs.
(D) est égal à 6636.36 Dhs.
(E) ne peut pas être calculé puisque la classe modale n'existe pas.
QCM corrigées 191

4. En calculant la médiane Me ou Q2 , on peut conclure que :


(A) 50% des employés ont un salaire supérieur ou égal à 4210.53 Dhs.
(B) 50% des employés ont un salaire inférieur ou égal à 5000.79 Dhs.
(C) 50% des employés ont un salaire supérieur ou égal à 5789.47 Dhs.
(D) 75% des employés ont un salaire inférieur ou égal à 5942.03 Dhs.
(E) 50% des employés ont un salaire supérieur ou égal à 5942.03 Dhs.

5. En comparant le mode, la médiane et la moyenne, nous pouvons noter que la


distribution est :
(A) symétrique.
(B) oblique à droite.
(C) oblique à gauche.
(D) étalée vers la gauche.
(E) Aucune des solutions proposées n'est correcte.

6. En prenant en considération le troisième quartile Q3 qui est égal à 6969.70 Dhs


on peut conclure que :
(A) 25% des employés ont un salaire inférieur à 6969.70 Dhs.
(B) 75% des employés ont un salaire supérieur à 6969.70 Dhs.
(C) 75% des employés ont un salaire inférieur ou égal à 6969.70 Dhs.
(D) 30% des employés ont un salaire supérieur ou égal à 6969.70 Dhs.
(E) Aucune des solutions proposées n'est correcte

7. Sachant que l'écart-type est égal à 1349.75, on peut noter :


(A) que le coefficient de variation est égal à 2.42 %.
(B) que le coefficient de variation est égal à 23.25%.
(C) que le coefficient de variation est égal à 39.22%.
(D) que le coefficient de variation est égal à 68.46%.
(E) qu'on manque de données pour calculer le coefficient de variation.

8. A l'international, nous disposons d'un échantillon d'employés étrangers tel que la


moyenne de leur salaire est de 1000 $ et la variance est de 202500 $2, on peut dans
ce cas déduire :
(A) que l'échantillon marocain est plus dispersé que l'échantillon étranger.
(B) que l'échantillon étranger est plus dispersé que l'échantillon marocain.
(C) que l'échantillon marocain et l'échantillon étranger ont la même dispersion.
(D) que la distribution de l'échantillon étranger est oblique à droite et étalée vers la gauche.
(E) que les unités sont différentes et par conséquent, on ne peut pas comparer leur
dispersion.

9. L'indice de Gini :
(A) est égal à 0.13
(B) est égal à 0.30
(C) est égal à 0.70
(D) est égal à 0.87
(E) ne peut pas être calculé, puisque la somme des observations n'a aucun sens.
QCM corrigées 192

10. Nous pouvons déduire que la répartition des employés :


(A) tend à être égalitaire avec une forte concentration de la distribution des salaires.
(B) tend à être égalitaire avec une faible concentration de la distribution des salaires.
(C) tend à être inégalitaire avec une forte concentration de la distribution des salaires.
(D) tend à être inégalitaire avec une faible concentration de la distribution des salaires.
(E) ne peut être égalitaire ou inégalitaire puisqu'on ne peut pas utiliser les indices de
concentration.

Exercice 2 :

Nous disposons de la répartition des profits trimestriels de cette entreprise en milliers de Dirhams
et de son évolution pendant les 3 dernières années, ainsi que la moyenne et l'écart-type de chaque
période dans le tableau ci-dessous :

Répartition des profits par trimestre

Année 1er trimestre 2ème trimestre 3er trimestre 4ème trimestre Moyenne (m) Ecart type (e)
2018 42 44 50 51 46.75 3.83
2019 71 64 75 77 71.75 4.97
2020 80 84 86 90 85.00 3.61

Source: exemple

o Pour les calculs intermédiaires, il faut prendre en considération quatre décimales après
la virgule.

11. Sachant que (e = 0.0009m + 4.075), le modèle de décomposition de cette série


chronologique :
(A) est un modèle mixte.
(B) est un modèle additif.
(C) est un modèle multiplicatif.
(D) ne peut être déduit puisqu'on manque de données.
(E) Aucune des solutions proposées n'est correcte

12. Sachant que la Cov(yt , t) = 54.92 nous pouvons conclure que :


(A) les deux variables covarient dans le même sens.
(B) les deux variables covarient dans des sens opposés.
(C) les deux variables covarient dans le même sens et la relation est faible.
(D) la valeur de 54.92 n'est pas importante, puisqu'elle est inférieure à la moyenne des
observations.
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 193

13. Afin d'analyser cette série chronologique et pour déterminer la tendance, on utilise
la méthode des Moindres Carrés Ordinaires. On estime « a » et « b » dans
l'équation de régression : yt = at + b et on trouve (a = 4.61) et :
(A) b = 61.53
(B) b = 37.87
(C) b = 97.79
(D) b = 171.24
(E) b = - 35.58

14. En calculant la corrélation (r) entre yt et t ; on trouve 0.97 ainsi :


(A) la relation entre yt et t est faible.
(B) la relation entre yt et t est très forte.
(C) la relation entre yt et t est très faible.
(D) les deux variables sont indépendantes.
(E) Aucune des solutions proposées n'est correcte.

15. En calculant le coefficient de détermination, on peut conclure que :


(A) les deux variables sont indépendantes.
(B) 2.00% de la variation du profit peut s'expliquer par une relation linéaire avec le temps.
(C) 4.00% de la variation du profit peut s'expliquer par une relation linéaire avec le temps.
(D) 94.09% de la variation du profit peut s'expliquer par une relation linéaire avec le
temps.
(E) 98.49% de la variation du profit peut s’expliquer par une relation linéaire avec le
temps.

16. Sachant que les coefficients saisonniers corrigés des trois premiers trimestres T1,
T2 et T3 sont respectivement : S'1 = 3.42 ; S'2 = -1.53 ; S'3 = 0.19 ; le coefficient
saisonnier corrigé (S'4) du 4ème trimestre est égal à
(A) -2.08
(B) 1.00
(C) 1.29
(D) 1.92
(E) Aucune des solutions proposées n'est correcte.

17. Supposant que yt = 4.61 t + 37.87 nous pouvons noter que la prévision des ventes
(en milliers de Dirhams) du 3ème trimestre de l'année 2021 est de :
(A) 51.89
(B) 106.83
(C) 107.02
(D) 107.21
(E) Aucune des solutions proposées n'est correcte.
QCM corrigées 194

Exercice 3 :

Nous disposons de la répartition des prix et des quantités consommées pour deux catégories de
produits pendant l'année 2019 et 2020, comme illustrée dans le tableau suivant :
Répartition des prix et des quantités consommées

2019 2020
P2019 Q2019 P2020 Q2020
Produit de base 10 60 12 75
Produit de luxe 125 50 200 30
Source: exemple

o Pour les calculs intermédiaires, il faut prendre en considération deux décimales après la
virgule.

18. L'indice de valeur des deux produits à la date 2020, base 100 à la date 2019 est égal à :
(A) 95.45% , soit une diminution des dépenses de 4.55%.
(B) 99.28% , soit une diminution des dépenses de 0.72%.
(C) 100.73% , soit une augmentation des dépenses de 0.73%.
(D) 149.90% , soit une augmentation des dépenses de 49.90%.
(E) 157.04% , soit une augmentation des dépenses de 57.04%.

19. L'indice des prix du produit de base à la date 2020, base 100 à la date 2019 est égal à :
(A) 83.33% , il représente un indice simple.
(B) 120.00% , il représente un indice simple.
(C) 150.00% , il représente un indice de valeur.
(D) 120.00% , il représente un indice synthétique.
(E) 83.33% , soit une augmentation des prix de 16.67 %.

20. Sachant que l'indice des prix de Laspeyres est égal à 156.50% et l'indice des prix de
Paasche est égal à 153.33% ; l'indice des prix de Fisher est égal à :
(A) 65.03% ; c'est un indice simple.
(B) 65.03% ; c'est un indice synthétique.
(C) 153.33% ; c'est un indice synthétique.
(D) 154.91% ; c'est un indice synthétique.
(E) 156.50% ; c'est une moyenne harmonique des indices des prix de Laspeyres et de
Paasche.
QCM corrigées 195

Série 1 corrigée

1. E
2. C
3. D
4. C
5. A
6. B
7. B
8. B
9. B
10. A
11. D
12. C
13. A
14. A
15. C
16. B
17. B
18. D
19. C
20. C
QCM corrigées 196

Série 2 corrigée

1. D
2. D
3. B
4. A
5. D
6. B
7. B
8. A
9. C
10. D
11. C
12. C
13. A
14. A
15. E
16. B
17. C
18. A
19. D
20. C
QCM corrigées 197

Série 3 corrigée

1. B
2. D
3. C
4. C
5. D
6. D
7. A
8. B
9. A
10. B
11. D
12. C
13. C
14. B
15. C
16. B
17. D
18. C
19. B
20. A
QCM corrigées 198

Série 4 corrigée

1. B
2. B
3. C
4. C
5. C
6. C
7. B
8. B
9. A
10. B
11. B
12. A
13. B
14. B
15. D
16. A
17. D
18. C
19. B
20. D
Glossaire 199

GLOSSAIRE

La statistique : est un ensemble de techniques qui a pour objet de décrire, numériquement


et graphiquement des populations ou des échantillons.

La statistique descriptive : l’art et la science de collecter, analyser, présenter et interpréter


des données.

Les statistiques : des résumés d’un ensemble de données sous forme de tableaux, de
graphiques, ou sous forme numérique.

Une campagne de mesures : la période de recueil des données brutes. Les données brutes
sont les données disponibles à la fin de la collecte des données.

Traitement des données : consiste à analyser, résumer, comparer, mesurer, croiser et


modéliser les données brutes pour créer de l’information.

Population : un ensemble d’éléments (au sens mathématique) considéré dans une étude
particulière.

Individus ou unités statistiques : les éléments de la population.

Taille de la population/Effectif total : le nombre d’individus ou d’unités statistiques


appartenant à la population.

Une variable statistique ou un caractère : une caractéristique des éléments à laquelle on


s’intéresse.

Modalités : les valeurs que peut prendre une variable statistique.

Effectif : nombre d’individus qui présentent une modalité de la variable statistique.

Echantillon : un sous-ensemble de la population.

Un recensement : un processus de collecte de données relatives à la population entière.

Une observation : un ensemble de mesures obtenues pour un élément.

Enquêtes d’échantillonnage : des enquêtes visant à collecter des données relatives à un


échantillon.
Glossaire 200

Inférence statistique : un processus d’utilisation des données d’un échantillon pour


estimer ou tester des hypothèses concernant les caractéristiques d’une population.

Variable qualitative : si ses modalités ne sont pas des nombres et s'expriment de façon
littérale ou par un codage sur lequel les opérations arithmétiques n'ont pas de sens. On
distingue deux types : une variable nominale, s’il n’est pas possible de classer ses modalités
suivant un ordre qui a du sens et une variable ordinale, s’il est possible de classer ses
modalités suivant un ordre qui a du sens.

Variable quantitative : si ses modalités sont des nombres et ses valeurs sont des nombres
sur lesquels des opérations arithmétiques ont un sens. On distingue deux types : une
variable discrète, si la valeur de ses modalités relève d’un comptage (si l’ensemble de ses
modalités est dénombrable) et une variable continue, si la valeur de ses modalités relève
d’une mesure (ne relève pas d’un comptage) et si l’ensemble de ses modalités est non
dénombrable.

Effectif : Le nombre d’individus représentant la modalité. L’effectif d’une modalité « i »


est noté ni . S’il y a k modalités de la variable discrète, nominale ou ordinale, les effectifs
sont donc notés : n1 , n2 ………………., nk

Effectif total : La somme des effectifs ou le nombre total d’individus :


k
n1 + n2 +…………….+ nk = ∑ ni = n
i=1

Fréquence : La fréquence associée à une modalité (fi), ou à un ensemble de modalités


regroupées en classes, indique la proportion d’individus présentant cette modalité (ou cet
ensemble de modalités) par rapport à l’ensemble des individus.
ni
La fréquence d’une modalité « i » : fi =
n
k
La somme des fréquences : ∑ fi = 1
i=1

Fréquence en pourcentage = fréquence relative *100.

Classes : Pour une variable quantitative continue, toutes les valeurs des modalités peuvent
appartenir à un intervalle réel. Ces valeurs sont regroupées dans des intervalles de valeurs
numériques appelés classes. Les classes sont notées : [ ei ; ei+1 [ sachant que ei est la borne
inférieure et ei+1 est la borne supérieure.

Amplitude de la classe : ai = ei+1 - ei


ei+1 + ei
Centre de la classe : xi =
2
Glossaire 201

Histogramme : il est formé d’un ensemble de rectangles dont la base est déterminée par les
extrémités de la classe et dont la surface doit être proportionnelle à l’effectif (ou à la
fréquence) de la classe.

Diagramme circulaire (ou à secteurs circulaires, ou en camembert) : diagramme


permettant de représenter la distribution d'une variable qualitative : les modalités sont
représentées par des portions de disque proportionnelles à leur effectif, ou à leur fréquence.

Diagramme en barres (ou en tuyaux d'orgue) : Diagramme représentant la distribution


d'une variable qualitative : les modalités sont placées en abscisse, formant des bases de
rectangles égales et équidistantes, et les effectifs (ou fréquences) en ordonnée, suivant une
échelle arithmétique.

Diagramme en bâtons : Diagramme représentant la distribution d'une variable quantitative


discrète : les valeurs sont placées en abscisse, les effectifs (ou fréquences) en ordonnée, au
moyen de segments verticaux.

Indicateurs : les nombres qui résument une base de données selon des règles et des
pratiques. On les appelle aussi des « paramètres » ou des « caractéristiques ».

Les indicateurs de tendance centrale et de position : Des indicateurs qui se situent au


milieu, comme la moyenne, ou qui indiquent où se positionne une série de données. Des
indicateurs qui représentent une valeur numérique, autour de laquelle les observations sont
réparties. Ceux de la tendance centrale mesurent par exemple le centre de la distribution
d’une série de données.

Moyenne arithmétique : un indicateur de tendance centrale qui concerne uniquement les


variables quantitatives. La moyenne d’une série statistique est définie par la somme des
valeurs divisée par l’effectif total.

Moyenne géométrique : la racine nième du produit des valeurs observées. Elle est
principalement utilisée pour calculer les coefficients multiplicateurs moyens dont sont
déduits les taux de variation.

Moyenne harmonique : Elle est égale à l'inverse de la moyenne arithmétique des inverses
des valeurs.

Moyenne quadratique : Elle est égale à la racine carrée de la moyenne arithmétique des
carrés des valeurs.

Le mode : la valeur de la variable la plus fréquemment observée. C’est la valeur pour


laquelle l’effectif est le plus élevé (ou la fréquence est la plus élevée). Le mode peut être
Glossaire 202

aussi défini comme la valeur qui domine les autres et qui lui confère le statut d’indicateur
de tendance centrale.

La médiane : un centre de position lorsque les données sont rangées par ordre croissant. Sa
détermination est réalisée de façon différenciée en fonction de la parité de la taille de
l’échantillon (n) (pair ou impair).

Quantiles (ou les percentiles) : des indicateurs de position. Si nous considérons une
variable quantitative discrète ou continue, dont les modalités sont classées en ordre
croissant, le quantile d'ordre α (0 ≤ α ≤ 1) noté qα est la valeur de la variable telle que α%,
c’est-à-dire une proportion α des individus ait une valeur du caractère ou de la modalité
inférieure ou égale à qα. En d’autres termes (100 - α)% des individus ont une valeur
supérieure ou égale à qα.

Quartiles : des indicateurs de position qui partagent les observations en 4 groupes


d’effectifs égaux. Les quartiles sont les 3 valeurs q25, q50, q75. Ceci dit, 25%, 50%, 75% des
individus ont une valeur de la variable inférieure à q25, q50, q75 respectivement. Les quartiles
sont aussi notés : Q1, Q2, Q3 (Q pour Quartile). Notons que Q2 est la médiane, qui est aussi
un indicateur de tendance centrale.

Déciles : des indicateurs de position qui partagent les observations en 10 groupes d’effectifs
égaux. Les déciles sont les 9 valeurs q10, q20,….. q90. Ceci dit, 10%, 20%,...90% des
individus ont une valeur de la variable inférieure à q10, q20,...q90 respectivement. Les déciles
sont aussi notés : D1, D2….D9 (D pour Décile).

Centiles : des indicateurs de position qui partagent les observations en 100 groupes
d’effectifs égaux. Les centiles sont les 99 valeurs q1, q2, q3….. q99. Ceci dit, 1%, 2%, 3%
….99%, des individus ont une valeur de la variable inférieure à q1, q2, q3….. q99
respectivement. Les centiles sont aussi notés : C1, C2….C99 (C pour Centile).

Boîte à pattes (Box plots, Boîte de Tukey, Boîte à moustaches) : est utile pour visualiser la
dispersion d’une série statistique, pour des comparaisons et pour détecter des valeurs
aberrantes. En obtenant les quartiles Q1, Q2, Q3 et en y ajoutant le minimum et le maximum
des observations, nous obtenons un résumé en 5 chiffres. Ces 5 chiffres (Q1, Q2, Q3, Min,
Max) seront utiles pour illustrer la Boîte-à-pattes.

Etendue : est la différence entre la plus grande valeur et la plus petite des valeurs
observées. Sa formule est la suivante : Etendue = X (max)-X (min).

Ecart interdécile (D9-D1) : un indicateur qui écarte les 10% des observations les plus
petites et les 10% les des observations les plus grandes des deux extrémités de la
distribution. C’est un indicateur de dispersion qui concerne 80% des observations centrales.
Un écart relatif peut aussi être calculé à partir de ces deux déciles, sous la forme de (D9/D1).
Glossaire 203

Ecart inter centile (C99-C1) : un indicateur qui écarte 1% des observations à gauche et à
droite. C’est un indicateur de dispersion et qui concerne les 98% des observations centrales.

Ecart Interquartile (EIQ) : un indicateur de dispersion, qui peut être visualisé dans la
boîte à pattes, et qui n’est pas dépendant des valeurs extrêmes. Sa formule est la suivante :
EIQ = Q3 -Q1.

Intervalle interquartile : l’intervalle [Q1 - Q3], il contient 50% des observations.

Ecart semi-interquartile : (Q3 -Q1)/2.

Ecart absolu moyen : la moyenne arithmétique des valeurs absolues des écarts à la
moyenne arithmétique. Il nous donne une vision sur la valeur moyenne dont les
observations s’écartent de la moyenne.

Ecart absolu médian : la moyenne arithmétique des valeurs absolues des écarts à la
médiane.

Variance : elle est basée sur la différence entre chaque observation et la moyenne
arithmétique (écart par rapport à la moyenne). Elle est souvent utile comme une mesure
pour comparer le degré de dispersion de plusieurs variables.

Ecart type : il correspond à la racine carrée de la variance, il est ainsi plus facilement
comparable et interprétable que la variance, puisqu’il est mesuré dans les mêmes unités que
les données.

Coefficient de variation (CV) : mesure l’écart type relatif à la moyenne. C’est un


indicateur utile pour comparer les dispersions des variables qui ont des écarts et des
moyennes différentes. Il est souvent calculé en pourcentage. Il permet de comparer les
dispersions de distribution qui ne sont pas exprimées dans la même unité.

Concentration : concerne l’intensité du groupement des données. Elle ne s’applique qu’à


des variables continues à valeurs positives et pour des ensembles statistiques dont chaque
élément est affecté d’un caractère susceptible d’addition. La concentration peut se
caractériser, soit par un procédé graphique (courbe de Lorenz) soit par le calcul (Indice de
Gini).

Courbe de Lorenz : Pour obtenir une représentation graphique mettant en évidence la


concentration, cette courbe porte en abscisse les fréquences cumulées et en ordonnée les
agrégats cumulés (qui varient de 0% à 100 %), elle relie les points successifs : fréquence
cumulée ~ agrégat cumulé.
Glossaire 204

Indice de Gini IG : constitue un indicateur, ou une mesure synthétique de la concentration


des données. Son interprétation est liée à la compréhension de sa construction à partir de la
courbe de Lorenz.

Aire de la surface de concentration) : surface située entre la courbe de Lorenz et la


bissectrice.

Analyse d’une série bivariée : consiste à étudier une série d'observations ou une série
statistique selon deux variables.

Croisement de variables statistiques : consiste à relever pour le même individu la valeur


prise par deux variables

Tableau de contingence : un tableau à double entrée ou à deux dimensions et avec deux


variables X et Y, tel que les m modalités de X sont désignées par X1, X2,…Xi…Xm et les n
modalités de Y sont désignées par Y1, Y2,…. Yj,…Yn. C’est un tableau avec m lignes et n
colonnes.

Effectifs d’intersection : effectif noté nij représentant le nombre d’individus qui représente
à la fois la modalité Xi et la modalité Yj.

Distribution observée conjointe du couple (X,Y) : Les nij, tel que i = 1…m et j = 1…n, et
qui peut être notée : {(xi, yj, nij , i=1…m, j=1…n)}.

Distribution marginale : dans un tableau de contingence, si on calcule le total des


colonnes, on obtient les effectifs n.1, n.2,…, n.j…, n.n qui constituent la distribution marginale
d’Y. De même, si on calcule le total des lignes, on obtient n1., n2.,…, ni.,…, nm et qui
constituent la distribution marginale de X.
Distribution conditionnelle : dans un tableau de contingence, si on fixe Xi et on garde
toutes les modalités d’Y, on obtient une distribution conditionnelle, qui est la distribution
de la variable Y, tel que la modalité de la variable X est égale à Xi.
De même, si on fixe Yj et on garde toutes les modalités de X, on obtient une distribution
conditionnelle, qui est la distribution de la variable X, tel que la modalité de la variable Y
est égale à Yj.

Indice de spécificité : un indice de spécificité d’un couple de modalités est égal au rapport
entre la fréquence conditionnelle ligne (colonne) et la fréquence marginale ligne (colonne)
correspondante. Il est applicable, peu importe le type des deux variables.

Covariance : peut servir à quantifier la variabilité conjointe de deux variables quantitatives.


Elle permet de savoir si les deux variables varient dans le même sens ou en sens inverse. Sa
Glossaire 205

valeur n’est pas importante lors de l’interprétation, vu que c’est son signe intéressant et
interprétable.
)
-
89: (4, 7) = &(4$ − 5 5)
4) (7$ − 7
%
$&+

Corrélation : une mesure de l’intensité du lien linéaire entre deux variables quantitatives.
Soit (X, Y) un couple de variables quantitatives, d’écarts types respectifs s xs y , la
corrélation ou le coefficient de corrélation linéaire du couple (X, Y) est défini par :

Cov ( x , y )
r=
s xs y
Coefficient de détermination : un coefficient qui nous permet d’en déduire si la qualité du
modèle est bonne, il le carré du coefficient de corrélation linéaire du couple (X,Y).
2
æ Cov( x , y ) ö
r =ç
2 ÷
ç s s ÷
è x y ø

Méthode des Moindres Carrés Ordinaires (MCO) : une procédure qui permet d’utiliser
les données de l’échantillon pour estimer l’équation de régression linéaire.

Méthode des moyennes de Mayer : elle consiste à diviser une série en deux groupes
égaux et calculer les points moyens ou de gravité des deux nuages de points, pour estimer
l’équation de régression linéaire.

Série chronologique : elle décrit l’évolution d’un phénomène dans le temps. Elle est aussi
nommée série temporelle ou chronique. Son premier caractère est le temps et le deuxième
est quantitatif.

Tendance : également appelée trend, mouvement de tendance générale ou composante


générale est une évolution durable, régulière et en général lente du phénomène étudié. C’est
une orientation générale qui exprime une tendance durable à la croissance ou à la
décroissance. La tendance est matérialisée par une courbe qui est souvent une droite et qui
résume le phénomène. Elle ajuste ainsi l’ensemble des points du nuage et lisse la série.
Fluctuations cycliques : appelées aussi fluctuations conjoncturelles, ou mouvement
cyclique sont les oscillations autour de la tendance, irrégulières en amplitude et en durée.
Mouvement saisonnier : appelé aussi mouvement périodique ou composante saisonnière
est périodique autour de la tendance, ses oscillations sont donc d’amplitudes similaires et la
périodicité inférieure ou égale à la période étudiée. C’est des variations qui résultent de
répétitions d’évènements plus au moins réguliers dont les causes peuvent être diverses.
Glossaire 206

Variations accidentelles : appelées aussi mouvement résiduel ou composante résiduelle,


sont des fluctuations ponctuelles de forte amplitude due à des facteurs exceptionnels ou
imprévisibles.
Indices : On distingue deux types d’indices : les indices simples portant sur une seule
grandeur et les indices synthétiques portant sur des grandeurs complexes de même nature.
Si les grandeurs sont de natures différentes, les indices sont ainsi nommés indices
composites. Les indices ont été conçus pour effectuer des comparaisons sur des variables
économiques mesurables. Ils synthétisent en un seul nombre les modifications affectant un
ensemble de variables.

Un indice synthétique : un indicateur de tendance centrale d’une distribution d’indices


simples. Les indices synthétiques sont souvent des moyennes d’indices simples, moyenne
arithmétique pour l’indice de Laspeyres, moyenne harmonique pour l’indice de Paasche

Variation absolue d’une Grandeur G de la date 0 à la date t : la différence entre la


valeur finale et la valeur initiale.

Variation relative : une variation relative d’une Grandeur G de la date 0 à la date t est le
rapport entre la variation absolue et la valeur initiale de cette grandeur. Le terme de
variation relative est synonyme au taux de variation et au taux de croissance qui peut
éventuellement être positif ou négatif.

Coefficient multiplicateur : quand une grandeur passe de la valeur G0 à la valeur Gt, on


note le coefficient multiplicateur :
|5
}=
|6
Un coefficient > 1 traduit une hausse, par contre un coefficient < 1 traduit une baisse.

Indice de base 1 : Un indice simple ou élémentaire de la grandeur simple G (variable), à la


date t, base 1 à la date 0, est le rapport noté :
|5
~4/6 (|) =
|6
La date 0 est appelée la date de référence et la date t, la date courante.

Indice de base 100 : un indice élémentaire de la grandeur simple G, à la date t, base 100 à
la date 0, est le rapport noté :
|5
~4/6 (|) = ( ) × -
|6
Glossaire 207

Un indice de la valeur : un indice de la valeur d’un panier de n produits à la date t, base


100 à la date 0 est égal à :
n

åP Q
i =1
i
t t
i

~4/6 (B) = n
× -
åP Q
i =1
i
o o
i

Cet indice n’est pas un indice de prix, il mesure à la fois l’évolution des prix et des
quantités consommées

Indice des prix de Laspeyres et de Paasche : dans un indice de prix, seuls les prix varient,
les quantités restent constantes (si les quantités sont celles de l’année de base, nous
calculons ainsi l’indice des prix de Laspeyres et si les quantités sont celles de l’année
courante t, nous calculons l’indice des prix de Paasche).
Indice des quantités de Laspeyres et de Paasche : Dans un indice de quantité, seules les
quantités varient, les prix restent fixes (Si les prix sont ceux de l’année de base, nous
calculons l’indice des quantités de Laspeyres et si les prix sont ceux de l’année courante t,
nous calculons l’indice des quantités de Paasche).
Indice des prix de Laspeyres : On appelle indice des prix de Laspeyres, année t, base 100
l’année 0, l’indice suivant :
n

åQ
i =1
o
i Pi t
Ä4/6 (Å) = n
× -
åQ
i =1
o
i Pio

Il est obtenu en fixant les quantités à l’année de base. L’indice des prix de Laspeyres est la
moyenne arithmétique pondérée des indices élémentaires de prix des biens composant le
panier. Les coefficients de pondération sont relatifs à l’année de base.

Indice des quantités de Laspeyres : On appelle indice des prix de Laspeyres, année t,
base 100 l’année 0, l’indice suivant :
n

åP
i =1
i
o
Qit
Ä4/6 (Ç) = n
× -
åP
i =1
i
o
Q o
i

Il est obtenu en fixant les prix à l’année de base. L’indice des quantités de Laspeyres est la
moyenne arithmétique pondérée des indices élémentaires de quantités des biens composant
Glossaire 208

le panier. Les coefficients de pondération sont relatifs à l’année de base.

Indice des prix Paasche : On appelle indice des prix de Paasche, année t, base 100 l’année
0, l’indice suivant :
n

åQ P
i =1
t
i i
t

Å4/6 (Å) = n
× -
åQ P
i =1
t
i i
o

Il est obtenu en fixant les quantités à l’année courante. L’indice des prix de Paasche est la
moyenne harmonique pondérée des indices élémentaires de prix des biens composant le
panier. Les coefficients de pondération sont relatifs à l’année courante.

Indice des quantités de Paasche : On appelle indice des quantités de Paasche, année t,
base 100 l’année 0, l’indice suivant :
n

åP Q
i =1
i
t t
i

Å4/6 (Ç) = n
× -
åP Q
i =1
i
t o
i

Il est obtenu en fixant les prix à l’année courante. L’indice des quantités de Paasche est la
moyenne harmonique pondérée des indices élémentaires de quantités des biens composant
le panier. Les coefficients de pondération sont relatifs à l’année courante.

Indice de Fisher : il est défini comme étant la moyenne géométrique des indices de
Laspeyres et de Paasche.

- Pour les prix : Ft / 0 ( P ) = Lt / o ( P ) ´ Pt / o ( P )


- Pour les quantités : Ft / 0 (Q ) = Lt / o (Q ) ´ Pt / o (Q )

L’indice de Fisher est toujours compris entre l’indice de Paasche et celui de Laspeyres,
puisqu’il est leur moyenne géométrique.

.
Statistique pour économistes et gestionnaires

Cet ouvrage est disponible gratuitement sur la plateforme Classroom avec le code : l4yyrnw sur
la plateforme Moodle de l’université Ibn Tofail et dans ResearchGate.

Vous aimerez peut-être aussi