Support de Cours: Université Ibn Tofail Faculté D'économie Et de Gestion Filière: SEG (S1) Licence Fondamentale

Université Ibn Tofail
Faculté d'économie et de gestion
Filière : SEG (S1)

Licence fondamentale
Module : Statistique descriptive

Professeur : Ilham EL HARAOUI
Support de cours
Année Universitaire 2021 - 2022

Statistique descriptive 1
L’objectif principal de ce cours de la statistique descriptive est de donner aux étudiants

inscrits en licence fondamentale (S1/SEG) une introduction conceptuelle à la statistique descriptive
et à son application.
Ainsi, son contenu est conçu de façon à permettre aux étudiants d'acquérir une bonne base, pour
pouvoir comprendre les prochains cours de la statistique différentielle, pour avoir les capacités
d'analyser, de résumer et d'interpréter les données, et pour avoir l'habilité d'utiliser la statistique
dans d'autres matières, notamment pour des analyses ou des rapports.
En d'autres termes, les objectifs escomptés de ce cours sont les suivants :

§ Assimiler les méthodes tabulaires et graphiques pour présenter les données,
§ Assimiler l’utilité des indicateurs statistiques, leurs calculs et leurs applications,
§ Pouvoir croiser deux variables statistiques et établir un tableau de contingence.
§ Savoir modéliser une relation linéaire entre deux variables quantitatives.
§ Assimiler la régression linéaire simple, utiliser et interpréter ses résultats.
§ Comparer et mesurer l’évolution des données, notamment dans le temps.
§ Pouvoir analyser une série chronologique et établir des prévisions.
§ Maîtriser les mesures de l’évolution des données et savoir calculer des variations.
§ Savoir utiliser et calculer des indices notamment les indices synthétiques.
Le contenu du cours durant ce semestre est divisé en 7 parties :

1. Introduction et concepts de base de la statistique descriptive.
2. Présentations des données sous forme de tableaux et de graphiques.
3. Indicateurs statistiques.
4. Statistique descriptive bi-variée.
5. Régression linéaire simple.
6. Séries chronologiques.
7. Indices simples et synthétiques.
Le cours est organisé comme suit :

§ Des séances en présentiel et d'autres à distance.
§ Une plateforme e-learning (Moodle) qui inclut la description et le support de cours, des
exercices corrigés, des travaux dirigés avec solutions, des examens corrigés, des livres
Prof. Ilham EL HARAOUI

consultables gratuitement en ligne, un glossaire et d’autres documents et informations.

Tous les étudiants peuvent y accéder avec le login : votre email institutionnel et votre mot
de passe, la clef d’inscription est : STAT@FSJESK.
§ Une plateforme Classroom avec les mêmes documents qui sont déposés sur Moodle.
Notons que ce support n’est pas une restitution du cours magistral, mais son complémentaire. Des
exemples sont introduits dans le cours au fur et à mesure de son avancement. Une bibliographie
sélective francophone et anglophone1 est présentée ci-dessous et peut être considérée comme un
support complémentaire de ce cours.
Bibliographie sélective
§ Aubert Henry 2011, “Manuel de statistique”, Ellipses Edition.
§ Anderson, Sweeney, Williams 2011, “Statistiques pour l’économie et la gestion”,
3ème Edition, de boeck.
§ Bailly Pierre, Carrere Christine 2007, “Statistiques descriptives, Exercices”,
Presse universitaire de Grenoble.
§ Bressoud, Kahané 2010, “Statistique descriptive”, Pearson Education.
§ Dehon, Droesbeke et Vemandele 2008, “Eléments de statistiques ”, Editions de l’Université
de Bruxelles et ellipses.
§ Olivier 2008, “L'essentiel de la statistique descriptive”, Gualino.
§ Goldfarb, Pardoux 2011, “Introduction à la méthode statistique : Economie, gestion”, 6ème
édition, Dunod.
§ Tribout Brigitte 2007, “Statistique pour économistes et gestionnaires”, Pearson Education.
References
§ Anderson, Sweeney, Williams 2009, “Essentials of Statistics for Business and Economics”,
5th Edition, South Western, Cengage learning.
§ Newbold, Carlson, Thorne 2007, “Statistics for Business and Economics”, 6th Edition,
Prentice Hall.
§ Berenson, Levine, Krehbiel 2006, “Basic Business Statistics-Concepts and
th
Applications”, 10 Edition, Prentice Hall.
§ Barrow 2006, “Statistics for Economics, Accounting and Business Studies”, 4th Edition,
Prentice Hall, Harlow.
1
Destinée aux les étudiants étrangers anglophones.

Le contenu de chacune des parties est le suivant :
Partie 1 : Introduction et concepts de base de la statistique descriptive___________________6

1. A quoi peut servir la statistique ?
2. Définition de la statistique et des statistiques
3. Domaines d’application de la statistique
4. Etapes d’une étude statistique
5. Vocabulaire du statisticien
6. Variable qualitative et variable quantitative
Partie 2 : Présentations des données sous forme de tableaux et de graphiques____________13

1. Effectif, effectif total et fréquence
2. Classe/intervalle, amplitude et centre
3. Présentations des données qualitatives (Méthodes tabulaires et méthodes graphiques)
4. Présentations des données quantitatives (Méthodes tabulaires et méthodes graphiques)
Partie 3 : Indicateurs statistiques_________________________________________________29

Indicateurs de tendance centrale et de position_____________________________________ 30
1. La moyenne
• Moyenne arithmétique
• Moyenne géométrique
• Moyenne quadratique
• Moyenne harmonique
2. Le mode
3. La médiane
4. Les quantiles
• Quartiles
• Déciles
• Centiles
Caractéristiques et formes d’une série statistique___________________________________38

Indicateurs de dispersion________________________________________________________41
1. Boîte-à-pattes
2. L’étendue
3. L’écart interdécile et l’écart intercentile
4. L’écart interquartile
5. L’écart absolu
6. La variance et l’écart-type
7. Les indicateurs de dispersion relative
Indicateurs de concentration_____________________________________________________47
1. Courbe de Lorenz
2. Indice de Gini
Partie 4 : Statistique descriptive bi-variée__________________________________________50

1. Présentation des données
2. Distribution conjointe
3. Distribution marginale et conditionnelle
4. Fréquence conjointe, marginale et conditionnelle
5. Comment commenter un tableau de contingence ?
6. Recherche d’un lien entre deux variables
7. Indépendance de deux variables
8. Indice de spécificité
9. Covariance
10. Corrélation
11. Coefficient de détermination
Partie 5 : Régression linéaire simple______________________________________________65

Méthodes d’ajustement
1. La méthode des Moindres Carrés Ordinaires (MCO)
2. La méthode des moyennes de Mayer
3. La méthode des points extrêmes
4. La méthode graphique

Partie 6 : Les séries chronologiques_______________________________________________70

1. Présentation d’une série chronologique
2. Choix du modèle de décomposition : modèle additif ou multiplicatif ?
3. Analyse d’une série chronologique
4. Prévision
Partie 7 : Indices simples et synthétiques___________________________________________96

1. Variation et coefficient multiplicateur
2. Indices simples ou élémentaires
3. Indices synthétiques

Partie 1. Introduction et concepts de base de

la statistique descriptive

1. A quoi peut servir la statistique descriptive ?

∗ Analyser et résumer une base de données.
∗ Prendre des décisions et les justifier en chiffres.
∗ Décrire les caractéristiques principales d’un ensemble de données.
∗ Présenter une analyse de données, des rapports et des résultats aux décideurs.
∗ Fabriquer l’information.
∗ Entamer une étude statistique.
2. Définition de la statistique et des statistiques

Plusieurs définitions de la statistique et des statistiques peuvent être repérées à travers la littérature.
Bien évidemment il y a une différence entre « la statistique » et « les statistiques », que nous
pouvons repérer dans les définitions d’Aubert (2011) et d’Anderson (2011) :
§ La statistique est l’ensemble des techniques ayant pour objet de décrire, numériquement et
graphiquement des populations (Aubert (2011)) ou des échantillons.
§ Les statistiques sont des résumés d’un ensemble de données sous forme de tableaux, de
graphiques, ou sous forme numérique (Anderson (2011)).
La statistique est en effet un art et une science permettant de collecter, d’analyser, de présenter et
d’interpréter des statistiques.
3. Domaines d’application de la statistique

La statistique est appliquée dans plusieurs domaines, notamment en sciences exactes, en sciences
économiques, en science de gestion, en sciences juridiques, en médecine…2
4. Etape d’une étude statistique

Une étude statistique naît d’un besoin d’information pour alimenter un processus de décision3. Elle
comprend six étapes à suivre pour la mener à terme. Ces six étapes sont décrites ci-dessous :
2
Des exemples concrets ont été présentés et expliqués lors du cours.
3
Anderson, Sweeney, Williams 2011. Statistiques pour l’économie et la gestion”, 3ème Edition, de boeck.

4.1 Objet et Champs de l’étude :

Pour préparer et réaliser une étude statistique, il est nécessaire de savoir quels types de décisions le
responsable de l’étude a l’intention de prendre. C'est-à-dire il faut :
§ Préciser les raisons de l’étude.
§ Les objectifs escomptés.
§ Qu’est ce qu’on va étudier ?
§ Quelle population observer ?
§ Quelles variables statistiques (caractères) peuvent être considérées dans l’étude ?
A la fin de cette première étape, le responsable de l’étude doit disposer de suffisamment
d’informations pour mettre en place une liste des données à collecter pour passer à la seconde
étape.
4.2 Plan de l’étude

Cette étape répond à la question, comment recueillir les données ? Nous pouvons noter que les
données peuvent être collectées en utilisant :
• L’expérimentation.
• L’observation.
• La réunion de groupe.
• Les données de seconde main.
• L’enquête.
Cette étape doit aussi répondre à deux autres questions, « quand peut-on recueillir les données ? »
et « combien d’individus faut-il choisir ? », avant de passer à la troisième étape.
4.3 Campagne de mesures

La campagne de mesures est la période de recueil des données brutes. Notons que les données
brutes ne sont en effet que les données disponibles à la fin de phase de la collecte des données.
4.4 Traitement des données brutes

La question qui se pose à cette étape est la suivante : comment peut-on traiter les données pour en
extraire de l’information utile à la prise de décision ?
Pour répondre à cette question, Il faut :

§ Analyser les données.

§ Présenter les données pour donner des informations.
§ Résumer les données pour créer de l’information.
§ Comparer et mesurer l’évolution des données.
§ Croiser et modéliser les données pour en déduire des liens entre des variables.
En d’autres termes, cette étape du traitement des données consiste à analyser, résumer, comparer,
mesurer, croiser et modéliser les données brutes pour créer de l’information.
4.5 Présentation des résultats

La présentation des résultats peut être sous forme de rapports chiffrés avec des tableaux et/ou des
graphiques.
4.6 Prise de décision

Aucune étude statistique ne produit directement des décisions ou d’actions correctives. Ces
décisions sont souvent d’ordre stratégique ou politique et l’étude statistique reste un outil d’aide à
la décision. 4
5. Vocabulaire du statisticien
La maîtrise du vocabulaire technique de la statistique est indispensable pour comprendre la suite
du cours. Plusieurs concepts ont été introduits et définis :
o Population : un ensemble d’éléments (au sens mathématique) considéré dans une étude
particulière.
o Individus ou unités statistiques : les éléments de la population.
o Taille de la population (Effectif total) : le nombre d’individus ou d’unités statistiques
appartenant à la population.
o Une variable statistique ou un caractère : une caractéristique des éléments à laquelle on
s’intéresse.
o Modalités : les valeurs que peut prendre une variable statistique.
o Effectif : nombre d’individus qui représentent une modalité de la variable statistique.
o Echantillon : un sous-ensemble de la population.
4
Des exemples ont été présentés lors du cours pour comprendre les 6 étapes d’une étude statistique. Notons que lors de ce semestre
nous aborderons deux étapes à savoir, la quatrième et la cinquième.

o Un recensement : un processus de collecte de données relatives à la population entière.

o Une observation : un ensemble de mesures obtenues pour un élément.
o Enquêtes d’échantillonnage : des enquêtes visant à collecter des données relatives à un
échantillon.
o Inférence statistique : un processus d’utilisation des données d’un échantillon pour estimer
ou tester des hypothèses concernant les caractéristiques d’une population.
Pour appliquer ce vocabulaire, des exemples ont été présentés durant le cours. L’un d’entre eux
concerne la répartition des étudiants inscrits en S1 à la FSJES et il est présenté ci-dessous.
Exemple 1:
§ La FSJESk veut faire une étude statistique concernant les étudiants inscrits en S1.
§ Cette étude concerne les options du BAC des étudiants.
Répartition des étudiants selon l’option du BAC

Option'du'BAC Nombre'd’étudiants
Sciences'économiques 1140
Sciences'expérimentales 505
Sciences'mathématiques 45
Lettres 26
Total 1716
Source : …..
Il s’agit d’identifier :
∗ la population étudiée ;
∗ la taille de la population ;
∗ les unités statistiques ou les individus ;
∗ la variable statistique et les modalités ;
∗ l’effectif de la modalité “sciences expérimentales” et l’effectif des deux dernières
modalités.
NB : Un tableau statistique doit toujours avoir un titre et une source. Un tableau sans source n’a
aucun sens.

Solution 1 :
§ La population étudiée : étudiants inscrits en S1 à la FSJESk.
§ La taille de la population: 1716.
§ Les unités statistiques ou individus: étudiants.
§ L’unité statistique : étudiant.
§ La variable statistique : cette population est étudiée selon la variable statistique ou le
caractère « option du BAC »
§ Les modalités du caractère : 1. Sciences Expérimentales, 2. Sciences Mathématiques,
3. Sciences Economiques, 4. Lettres. Il faut les énumérer.
§ L’effectif de la modalité “sciences expérimentales” = 505 étudiants.
§ L’effectif des deux dernières modalités = 71 (45+26) étudiants.
Nous mettons en exergue les points suivants qui sont souvent sujets de confusion pour les
étudiants :
o Il ne faut pas confondre entre la population et les unités statistiques. La population
représente l’ensemble des éléments observés, et ces éléments portent le nom d’unités
statistiques.
o La population est un ensemble bien délimité, sa définition doit être parfaitement claire et
précise.
o La population n’est jamais un nombre, c’est un ensemble. Exemples : des pièces fabriquées
par une machine, les véhicules dans un parking, les étudiants dans une faculté…
o Les unités statistiques peuvent être des êtres humains, des objets, des entités
géographiques…c’est des éléments de la population.
o Il ne faut pas confondre entre unités statistiques et modalités, deux concepts distincts. De
même, il ne faut pas confondre entre la variable statistique (ou caractère) et les modalités.
La variable statistique est un aspect particulier des unités statistiques (ou individus), auquel
on s’intéresse, une caractéristique qui peut varier d’un individu à l’autre. La variable porte
aussi le nom de caractère. L’ensemble des observations d’une variable statistique forme
l’ensemble des modalités de ce caractère.
o A chaque individu (unité statistique) doit être associée une modalité unique. C’est-à-dire
« au moins une » et « au plus une ».

∗ Au plus une: il ne doit pas être possible d’associer à un même individu deux modalités. Les
modalités sont incompatibles (parfaitement distinctes les unes des autres).
∗ Au moins une : il ne doit pas être possible qu’un individu ne soit associé à aucune modalité.
Tous les aspects de la variable doivent être présents dans la liste des modalités.
6. Variables qualitatives et variables quantitatives

On distingue deux types de variables statistiques :
∗ une variable qualitative, si ses modalités ne sont pas des nombres ou bien elles sont des
nombres qui n'ont pas de sens ;
∗ une variable quantitative, si ses modalités sont des nombres qui ont un sens.
Pour une variable qualitative, on distingue deux types :

§ Une variable nominale, s’il n’est pas possible de classer ses modalités suivant un ordre qui
a du sens.
Nous pouvons prendre par exemple, la situation matrimoniale ou la couleur des yeux. Ce
type de variable peut être codé pour faciliter la saisie des données.
§ Une variable ordinale, s’il est possible de classer ses modalités suivant un ordre qui a du
sens.
Nous pouvons prendre par exemple, une évaluation des opinions ou la satisfaction des
consommateurs vis-à-vis d’un produit.
Les modalités ou les valeurs de la variable qualitative peuvent être notées : m1, m2…mk , en
prenant en considération k modalités.
Pour une variable quantitative, on distingue deux types :

§ Une variable discrète, si la valeur de ses modalités relève d’un comptage (si l’ensemble de
ses modalités est dénombrable).
A titre d’exemple, nous pouvons considérer le nombre d’enfants, le nombre de fois d’achats
en ligne, ou le nombre de pièces d’un logement.
§ Une variable continue, si la valeur de ses modalités relève d’une mesure (ne relève pas
d’un comptage) et si l’ensemble de ses modalités est non dénombrable.
Ainsi la variable prend n’importe quelle valeur numérique dans un intervalle. Nous

pouvons considérer par exemple, la taille, le poids, le revenu, le chiffre d’affaires (CA) des
entreprises…
§ Les modalités ou les valeurs de la variable quantitative peuvent être notées: X1, X2…Xk , en
prenant en considération k modalités.
En résumé on peut schématiser les types et les sous-types des variables statistiques comme
ci-dessous.
Variable statistique
Variable Qualitative Variable Quantitative
Nominale Discrète
Ordinale Continue

Partie 2 : Présentations des données sous forme

de tableaux et de graphiques

Pour présenter et résumer des données (qualitatives ou quantitatives) sous forme de tableaux ou de
graphiques, nous avons en premier lieu défini l’effectif, l’effectif total et la fréquence.
1. Effectif, effectif total et fréquence.

1.1 Effectif
Le nombre d’individus qui représente une modalité est nommé l’effectif. On souligne que l’effectif
d’une modalité « i » est noté ni . Si on dispose de k modalités d’une variable discrète, nominale ou
ordinale, les effectifs sont notés : n1 , n2 ,…., nk
La somme des effectifs qu’on nomme l’effectif total est ainsi égale au nombre total d’individus :
k
n1 + n2 +…………….+ nk = ∑ ni = n
i=1
1.2 Fréquence
La fréquence (fi) associée à une modalité « i » tel que i=1,2,…k, ou à un ensemble de modalités qui
peuvent être aussi regroupées en classes, indique la proportion d’individus présentant cette
modalité, ou cet ensemble de modalités par rapport à l’ensemble des individus.
ni
La fréquence d’une modalité « i » : fi =
n
k
La somme des fréquences : ∑ fi = 1
i=1
Nous soulignons que la fréquence est un nombre qui est toujours compris entre 0 et 1 (fréquence
relative) ou entre 0% et 100% (fréquence en pourcentage).
Notons que parfois la fréquence absolue (ou tout simplement fréquence) est utilisée pour désigner
l’effectif, surtout dans des livres anglo-saxons traduits en français.
Nous pouvons aussi souligner que :
La fréquence relative *100 = fréquence en pourcentage

Nous utiliserons l’effectif, l’effectif total et la fréquence pour présenter les données. Ces données
peuvent être présentées sous forme de tableaux ou de graphiques. Il est ainsi important de savoir
les concevoir et les interpréter.
Ainsi, nous utiliserons dans la partie suivante des exemples afin de comprendre l’importance des
présentations sous forme de tableaux et de graphiques et savoir comment les interpréter. Nous
ferons aussi la distinction entre les présentations des données qualitatives et les présentations des
données quantitatives.
2. Présentations des données qualitatives

Exemple 1 : On considère la répartition de l’effectif des employés d’une entreprise X selon leur
niveau d’éducation. Il faut ainsi calculer la fréquence relative, la fréquence en pourcentage, et
présenter les données sous forme de graphiques. Le tableau initial contient l’effectif seulement qui
est inclus dans la solution 1 ci-dessous.
Solution 1 :
Présentation des données sous forme de tableaux :
Répartition des employés d’une entreprise X

selon leur niveau d’éducation
Fréquence Fréquence en
Niveau Effectif
relative pourcentage
Doctorat 56 0,0075 0,75 %

Master 109 0,0145 1,45 %
Licence 500 0,0665 6,65 %
Bac 1 450 0,1929 19,29 %
Etudes secondaires ou moins 5 400 0,7186 71,86 %
Total 7 515 1,0000 100,00 %
Source : ……
Présentation des données sous forme de graphiques :
Notons qu’un graphique permet de mieux mettre en évidence certaines informations données dans
le tableau. Pour des variables qualitatives, un diagramme à barres ou un digramme à secteurs
circulaires sont les graphiques les plus utilisés. Nous présentons brièvement ces deux graphiques.

§ Un diagramme à barres (à bandes/à tuyaux d’orgue) associe une bande verticale à chaque
modalité et la distance entre chaque bande doit être constante. La largeur de chacune des
bandes est la même et la hauteur est égale à l’effectif ou à la fréquence de la modalité
correspondante.
§ Un diagramme à secteurs circulaire (diagramme circulaire) est un graphique qui divise un

cercle en secteurs angulaires, et dont les angles aux centres sont proportionnels aux effectifs
ou aux fréquences de chaque modalité. L’angle au centre est égal à fi ×360.
6 000
5 400
5 000
4 000
3 000
Effectif
2 000 1 450
1 000 500
56 109
0
Doctorat Master Licence Bac Etudes
secondaires
ou moins

Source : ……
Exemples de commentaires sur les données du graphique :

§ 1950 employés de l’entreprise X ont un bac ou une licence et 165 ont un doctorat et un
master.
§ Les employés ayant un niveau d’éducation « études secondaires ou moins » constituent
le plus grand effectif parmi l’ensemble des employés.
§ Les employés ayant un niveau d’éducation « Doctorat» constituent le petit effectif parmi
l’ensemble des employés.

Fréquence en
80,00% pourcentage 71,86%
70,00%
60,00%
50,00%
40,00%
19,29%
30,00%
20,00% 6,65%
0,75% 1,45%
10,00%
0,00%
Doctorat Master Licence Bac Etudes
secondaires
ou moins

Source : ……
Exemples de commentaires sur les données :
§ 71,86% des employés de l’entreprise X ont un niveau d’études du secondaire ou moins.
§ 6,65% des employés de l’entreprise X ont une licence.
§ 8.10% des employés de l’entreprise X ont un master ou une licence.
NB. Dans les manuels de la statistique, le titre d’un graphique se situe en général en bas,
contrairement au titre d’un tableau.
56; 0,75% 109; 1,45% 500; 6,65%
1 450; 19,29%
Doctorat
Master
Licence
Bac
Etudes secondaires ou moins
5 400; 71,86%

Source : ……

Exemple 2 :
On considère la répartition des consommateurs selon leur appréciation d’un produit X. Il faut
calculer l’effectif de la modalité « mauvais » sachant que nous disposons de l’effectif total et les
effectifs des autres modalités.
Il faut aussi calculer la fréquence relative, la fréquence en pourcentage, la fréquence cumulée et
présenter les données sous forme de graphiques. Le tableau initial contient seulement les effectifs
qui sont inclus dans la solution 2 ci-dessous.

Solution 2 :
Répartition des consommateurs
selon leur appréciation d’un produit X

Appréciation d’un Fréquence Fréquence Fréquence
Effectif
produit X relative en % cumulée en %
Très mauvais 20 0,054 5,41% 5,41%
Mauvais 45 0,122 12,16% 17,57%
Moyen 201 0,543 54,32% 71,89%
Bon 101 0,273 27,30% 99,19%
Très Bon 3 0,008 0,81% 100,00%
Total 370 1,000 100,0% ---

Source : ……
Nous soulignons, des erreurs communes commises par les étudiants et nous mettons en exergue les
points suivants :
o Le total des fréquences relatives est toujours égal à 1.00, il ne peut pas être égal à 0.9999 ;
sinon il faut essayer d’arrondir les valeurs des fréquences relatives.
o La même remarque est valable pour la somme des fréquences en pourcentage, elle ne peut
pas être égale à 99,99% ou à 108%, soit il faut arrondir les valeurs en prenant en
considération le nombre de décimales adéquat, soit il faut revoir les calculs.
o Il faut veiller à ce que le nombre de décimales après la virgule soit le même pour toutes les
valeurs, sinon y il aura une forte probabilité d’erreurs.
o Le total des fréquences cumulées en pourcentage n’existe pas.


Présentation des données sous forme de graphiques :
54,32%
60,00%
50,00%
Fréquence en
40,00% pourcentage
27,30%
30,00%
12,16%
20,00%
5,41%
0,81%
10,00%
0,00%
Très Mauvais Moyen Bon Très Bon
mauvais

Source : ……
0,81%
5,41%
27,30% 12,16%
Très mauvais
Mauvais
Moyen
Bon
Très Bon
54,32%

Source : ……
Notons que nous pouvons avoir d’autres types de diagrammes pour présenter les données, comme
le diagramme à cumul interne, le diagramme figuratif, ou d’autres histogrammes de comparaison
(diagrammes en barres multiples). Nous présentons ci-dessous quelques graphiques à titre
d’exemple. Les données ont été simplifiées pour les illustrer.

Diagrammes en barres multiples :
151"
160"
140" 120"
120"
89"
100" 83"
64" 66"
80" Hommes&
60" 45" Femmes&

36"
28"
40" 20"
20"
0"
Doctorat" Master" Licence" Bac" Etudes"
secondaires"ou"
moins"

Source : ……
Diagramme à cumul interne :
100%#
80%#
60%#
Femmes%
40%# 70%# Hommes%
59%# 59%#
20%# 36%# 37%#
0%#
Doctorat# Master# Licence# Bac# Etudes#
secondaires#
ou#moins#

Source : ……

59"
60"
50" 45"
40" 33"
Sciences"Economiques"
25"
30" 23" Sciences"Experimentales"
19"
Sciences"Mathéma>ques"
20" 12"
10"
10"
3"
0"
2010" 2011" 2012"
Répartition des nouveaux étudiants inscrits

par option du Baccalauréat en 2010, 2011 et 2012
Source : ……
59"
60"
50"
33"
40"
2010"
30"
23" 2011"
19"
2012"
20" 12"
10" 3"
0"
Sciences"Economiques" Sciences"Experimentales" Sciences"Mathéma=ques"
Répartition des nouveaux étudiants inscrits

par option du Baccalauréat en 2010, 2011 et 2012
Source : ……

En résumé, nous pouvons présenter des données qualitatives (nominales ou ordinales) sous forme
de tableaux et plusieurs types de graphiques que nous avons résumés dans le schéma ci-dessous :
Base de données
Données qualitatives Données quantitatives
Méthodes tabulaires Méthodes graphiques
1. Effectif. 1. Diagramme en barres.

2. Effectif total. 2. Diagramme circulaire.
3. Fréquence relative. 3. Diagramme figuratif.
4. Fréquence en pourcentage.
5. Fréquence cumulée
(cas des variables ordinales).
3. Présentations des données quantitatives

3.1 Variable quantitative continue
Pour une variable quantitative continue, nous pouvons noter que les valeurs des modalités
appartiennent à des intervalles réels. Ainsi, ces valeurs sont regroupées dans des intervalles de
valeurs numériques appelés classes.
Nous soulignons que le regroupement en classes se justifie par l’existence d’un grand nombre de
modalités, ainsi la présentation des données s’en trouve simplifiée.
Comment peut-on alors définir et concevoir ces classes ?
Les trois étapes nécessaires pour établir des classes sont:

1. Déterminer le nombre de classes.
§ Il est recommandé d’utiliser entre 5 et 20 classes.
§ En pratique le nombre est déterminé par un processus “essai-erreur”.

2. Déterminer la largeur de la classe. La largeur est égale à :
Valeur la plus élevée - Valeur la plus faible

Nombre de classes
Notons qu’une détermination de la même largeur pour toutes les classes, réduit énormément les
erreurs d’interprétation.
3. Déterminer les limites de la classe.

Les classes sont notées à titre d’exemple : [ ei ; ei+1 [ , sachant que ei est la borne inférieure et ei+1
est la borne supérieure.
Pour chaque classe il faut aussi définir l’amplitude et le centre :
Amplitude de la classe : ai = ei+1 - ei
ei+1 + ei
Centre de la classe : xi =
2
Nous pouvons schématiser ces concepts comme ci-dessous :
Borne inférieure xi Borne supérieure
ai
Exemple 1 :
On prend on considération un tableau qui nous donne la répartition des consommateurs d’un
produit Y selon l’âge. Le tableau initial inclut les effectifs seulement qui sont intégrés dans la
solution 1 ci-dessous.
Il faut calculer l’amplitude de chaque classe, son centre et la fréquence en pourcentage
correspondante. Nous pouvons noter que cet exemple concerne un cas avec des amplitudes égales.
Nous avons repris le même exemple avec des amplitudes inégales (solution 2 ci-dessous), afin de
présenter les données sous forme de graphique et assimiler la méthode et les erreurs à éviter.
Avant de présenter les deux solutions, il est important de noter qu’un histogramme peut être utilisé
pour présenter des données quantitatives continues.
Un histogramme est formé d’un ensemble de rectangles, tel que la base de chaque rectangle
est déterminée par les extrémités de la classe correspondante, et dont la surface doit être
proportionnelle à l’effectif (ou à la fréquence) qui représente cette classe.

Si toutes les classes ont la même amplitude, il suffit pour réaliser l’histogramme de porter en
ordonnée les effectifs ou les fréquences. Si elles n’ont pas la même amplitude, on porte en abscisse
les extrémités de chaque classe et en ordonnée les effectifs par unité d’amplitude ni/ai , appelés
densités d’effectifs, ou les fréquences par unité d’amplitude fi/ai , nommées densités de fréquences
(voir l’application dans la solution 2).
Solution 1 :
(Un cas avec des amplitudes égales)
d’un produit Y selon l’âge

Amplitude de Centre de la Fréquence en
Age Effectif
la classe ai classe xi pourcentage fi
[ 15 - 20 [ 130 5 17,5 19,49%
[ 20 - 25 [ 343 5 22,5 51,42%
[ 25 - 30 [ 107 5 27,5 16,04%
[ 30 - 35 [ 33 5 32,5 4,95%
[ 35 - 40 [ 54 5 37,5 8,10%
Total 667 --- ---- 100,00%
Source : ……
Solution 2 :
(Le même cas avec des amplitudes inégales)


Amplitude de Fréquence en
Age Effectif fi /ai
la classe ai pourcentage fi
[ 15 - 20 [ 130 5 19,49% 3,9
[ 20 - 35 [ 343 15 51,42% 3,4
[ 35 - 40 [ 107 5 16,04% 3,2
[ 40 - 50 [ 33 10 4,95% 0,5
[ 50 - 55 [ 54 5 8,10% 1,6
Total 667 --- 100,00% ----

Source : ……

Afin de présenter les données sous forme d’histogramme, et puisque dans la solution 2, les
amplitudes des classes sont inégales, nous utiliserons les densités de fréquences (fi/ai), tel que fi
représente les fréquences en pourcentage.
Notons qu’une représentation des données dans un graphique, comme dans le graphique ci-dessous,
qui représente la répartition des consommateurs d’un produit Y selon l’âge, sans prendre en
considération que les amplitudes sont inégales est une représentation non appropriée des données,
puisqu’elle peut nous conduire à des erreurs d’interprétation.
Effectif(
343
700
600
500
400
300 130 107
54
200
33
100
0
5 10 15 20 25 30 35 40 45 50 55 Age(

Source : ……
Le graphique approprié doit prendre en considération les densités d’effectifs ou bien les densités
de fréquences comme ci-dessous.
(fi/ai)*100*
3,9!
↓
4,0 3,4!
3,2!
3,5
3,0
2,5
2,0 1,6!
1,5
1,0 0,5!
0,5
0
5 10 15 20 25 30 35 40 45 50 55
Age$

Source : ……

Nous pouvons ajouter au dernier graphique, le polygone des fréquences qui peut être construit en
joignant les milieux de chaque sommet des rectangles. Ceci dit, le polygone des fréquences passera
par les centres des classes au sommet de chaque rectangle.
Nous pouvons aussi noter que la classe modale n’est pas [20 - 35[, comme il peut nous sembler
dans le premier graphique en bleu, mais [15 - 20[.
Nous pouvons aussi dessiner la courbe cumulative ou la courbe des fréquences, en prenant en
considération le cas d’amplitudes égales. Cette courbe cumulative est une représentation graphique
des fréquences cumulées. Ces fréquences cumulées sont des fréquences cumulées ascendantes
comme dans le graphique ci-dessous :
Fréquences**
cumulées* 100,00%*
100 91,90%*
86,96%*
80
70,91%*
60
40
19,49%*
20
0
Age*
10 15 20 25 30 35 40 45
Répartition des consommateurs d’un produit

Y selon l’âge
Source : ……
Nous pouvons aussi dessiner une ogive. Cette dernière est un graphique d’une distribution cumulée
qui représente sur l’axe horizontal, les valeurs des observations et sur l’axe vertical, les valeurs des
effectifs cumulés (fréquences absolues cumulées).
L’ogive est construite en indiquant par un point précis la fréquence absolue cumulée de chaque
classe, comme ci-dessous :

Effectifs
800" cumulés
667"
700" 613"
580"
600"
473"
500"
400"
300"
200" 130"
100"
0"
0"
Age" ["15""/"20""[" ["20""/"25""[" ["25""/"30""[" ["30""/"35""[" ["35""/"40""["
Répartition des consommateurs d’un produit Y

selon l’âge
Source : ……
3.2 Variable quantitative discrète :
Exemple 3 :
Nous analysons la répartition des consommateurs selon le nombre de fois d’achat en ligne. Il s’agit
de calculer la fréquence en pourcentage et la fréquence cumulée, ainsi que de présenter les données
sous forme de diagramme en bâtons et sous forme de diagramme cumulatif.
Solution 3 :
Répartition des consommateurs selon le nombre
de fois d’achat en ligne
Fréquence
Nombre de fois Fréquence en
Effectif cumulée en
d’achat en ligne pourcentage
pourcentage
0 150 73,17% 73,17%
1 34 16,59% 89,76%
2 16 7,80% 97,56%
3 3 1,46% 99,02%
4 2 0,98% 100,00%
Total 205 100,00% ---
Source : ……

Pour présenter les données sous forme de graphiques, nous utiliserons un diagramme en bâtons.
Ce dernier est appelé aussi un diagramme différentiel, puisqu’il représente les différentes modalités
de la variable discrète. C’est aussi un diagramme à barres, sauf que les barres sont plus fines.
Effectif
160 150
140
120
100
80
60
34
40
20 16
0 3
2
0
1
2
3
4
Nombre de fois d’achat en

ligne

Source : ……
Nous pouvons aussi utiliser un diagramme cumulatif qui est également appelé diagramme intégral
au sens de l’intégration mathématique. Il représente des fréquences cumulées comme illustré dans
le graphique ci-dessous, en prenant en considération les données de l’exemple 3.
Fréquences cumulées
99,02% 100,00%
100 97,56%
95
90
89,76%
85
80
75
73,17%
0 1 2 3 4
Nombre de fois d’achat en ligne

Source : ……

Nous mettons en exergue qu’il y a d’autres diagrammes que nous pouvons utiliser, comme le
diagramme de points, ou le diagramme Stem and Leaf qui est normalement utilisé pour montrer
simultanément l’ordre et la forme de la distribution des données, et qui ont été explicités avec des
exemples durant le cours.
Nous pouvons ainsi résumer la présentation des données quantitatives (discrètes ou continues) sous
forme de tableaux et de graphiques dans le schéma ci-dessous :
Base de données
Données qualitatives Données quantitatives
Méthodes tabulaires Méthodes graphiques
1. L’effectif. 1. Histogramme (variable continue).

2. L’effectif total. 2. Diagramme en barres (en
3. La fréquence relative. bâtons/en tuyaux d’orgue).
4. La fréquence en pourcentage. 3. Le polygone des fréquences.
5. La fréquence cumulée. 4. Ogive (distribution cumulée)
5. Courbe des fréquences.
6. Diagramme intégral (cumulatif).
7. Diagramme à cumul interne.
8. Diagramme de points.
9. Diagramme Stem & Leaf.

Partie 3 : Indicateurs statistiques

En statistique, les tableaux présentent l’information recueillie d’une variable et les graphiques
fournissent un portrait pour appréhender plus facilement la globalité de l’information. Pour
caractériser la représentation visuelle par des éléments synthétiques, on peut utiliser des
indicateurs.
Nous appelons « Indicateurs », les nombres qui résument une base de données selon des règles et
des pratiques. On les appelle aussi des « paramètres » ou des « caractéristiques ».
Yule, a souligné un certain nombre de propriétés souhaitées pour les indicateurs statistiques.
Ceux-ci doivent :
§ Etre des résumés maniables ;
§ Etre des résumés faciles à utiliser ;
§ Etre les plus exhaustifs possible relativement à l’information contenue dans les données ;
§ Rassembler le plus d’information possible.
Selon Yule, un indicateur statistique doit être une valeur :

1. Définie de façon objective ;
2. Dépendante de toutes les observations ;
3. Significative pour être comprise par les non-spécialistes ;
4. Simple à calculer ;
5. Peu sensible aux fluctuations d’échantillonnage ;
6. Qui se calcule selon des opérations mathématiques classiques.
Nous allons en premier lieu introduire les indicateurs de tendance centrale et de position, qui nous
faciliteront la compréhension des indicateurs de dispersion, pour passer après aux indicateurs de
concentration.

I. Indicateurs de tendance centrale et de position
Les indicateurs de tendance centrale et de position sont des indicateurs qui se situent au milieu, ou
qui indiquent où se positionne une série de données. C’est des indicateurs qui représentent une
valeur numérique, autour de laquelle les observations sont réparties. Ceux de la tendance centrale
mesurent par exemple le centre de la distribution d’une série de données, nous pouvons citer à titre
d’exemple, la moyenne.
Dans cette partie nous introduirons la moyenne, le mode et la médiane, comme indicateurs de
tendance centrale et les quantiles, comme indicateurs de position.
1. La moyenne
Nous introduirons la moyenne arithmétique, la moyenne géométrique, la moyenne harmonique et

la moyenne quadratique.
1.1 Moyenne arithmétique
La moyenne arithmétique est un indicateur de tendance centrale qui concerne uniquement les
variables quantitatives. La moyenne d’une série statistique est définie par la somme des valeurs de
xi divisée par l’effectif total. Sa formule est la suivante :
(1)
1
x= ∑ xi
n i
1
(2) x = ∑ ni x i
n i
x = ∑ f i xi
i
xi : désigne les valeurs de la variable, ni : les effectifs correspondants, fi : les fréquences

correspondantes et n : l’effectif total.

Notons que la formule (1) représente la formule pour calculer la moyenne arithmétique simple et la
formule (2) pour calculer la moyenne arithmétique pondérée.
Remarque : si tous les ni prennent des valeurs égales à 1, l’indicateur est simple et par conséquent
il est non-pondéré. Si les ni prennent des valeurs différentes de 1, l’indicateur est pondéré. Cette
remarque est valable pour les autres types de la moyenne.
Nous mettons en exergue que la moyenne arithmétique a des propriétés et des caractéristiques
intéressantes5 que nous explicitons ci-dessous :
1. La moyenne est le centre de la distribution d’une série statistique.
2. La somme des écarts des observations par rapport à la moyenne est toujours nulle.
3. La moyenne est affectée par le changement de valeurs.
4. La moyenne est sensible aux valeurs extrêmes.
5. La moyenne d'un groupe qui est un ensemble d'autres groupes n'est égale à la moyenne des
moyennes que si tous les groupes ont le même effectif.
6. La moyenne de l'échantillon peut être un estimateur de la moyenne de la population.
7. La moyenne peut être un chiffre avec des décimales, même si les xi sont entiers par nature.
8. La moyenne prend en compte l’ensemble des valeurs (contrairement au mode).
Important : dans le cas d’une variable continue, nous remplaçons xi par ci qui représente le
centre des classes dans la formule (2).
1.2 Moyenne géométrique
La moyenne géométrique d'une série statistique (d’une variable statistique) avec des valeurs
positives est la racine nième du produit des valeurs observées. Sa formule peut être écrite de
plusieurs façons, en utilisant le logarithme, en utilisant la notation Pi du produit (π), ou comme
ci-dessous :
n
G = n x1n1 × ... × x p p
5
Durant le cours magistral, nous avons donné plusieurs exemples afin d’assimiler le calcul de la moyenne arithmétique et ses
propriétés. La même démarche a été suivie pour tous les indicateurs étudiés dans cette partie.

La moyenne géométrique est principalement utilisée pour calculer les coefficients multiplicateurs
moyens dont sont déduits les taux de variation. A titre d’exemples, les taux de variation annuels,
les taux de variation semestriels, les taux de variation mensuels…
Notons que la moyenne géométrique est applicable à des mesures de grandeurs dont la croissance
est géométrique ou exponentielle. Elle est toujours inférieure ou égale à la moyenne arithmétique.
1.3 Moyenne harmonique
La moyenne harmonique d'une série statistique dont les valeurs sont positives est égale à l'inverse
de la moyenne arithmétique des inverses des valeurs. Sa formule est la suivante :
n 1
H= ou bien H=
∑ ni / x i
i
∑i
f i / xi
Elle est principalement utilisée quand l’unité de la variable dont on cherche la moyenne est un
quotient (ex. Km/h, dirham/dollar, prix/unité...). Elle peut être ainsi utilisée lorsqu’il est possible
d’attribuer un sens réel à l’inverse des données.
Notons une comparaison intéressante entre les 3 moyennes :
H≤G≤ x
1.4 Moyenne quadratique
La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés des valeurs. Sa
formule est la suivante :
1 k 1 k
Q = ∑ ni xi2 → Q =
2
∑ ni xi2
n i =1 n i =1
Elle est utilisée par exemple en physique, pour calculer l’énergie moyenne ou l'intensité moyenne
dans un circuit. Elle est aussi utilisée en mathématique pour calculer la superficie moyenne d’un
ensemble de parcelles par exemple.

2. Le mode
Le mode est la valeur de la variable la plus fréquemment observée. En d’autres termes, c’est la
valeur de la variable pour laquelle l’effectif est le plus élevé (ou la fréquence est la plus élevée).
Le mode peut être aussi défini comme une valeur qui domine les autres et qui lui confère le statut
d’indicateur de tendance centrale. Le mode représente ainsi le xi correspondant au ni (ou fi)
maximum. Notons que le mode n’est pas influencé par les valeurs extrêmes.
Si les données ont exactement deux modes, on note que les données sont bimodales. Si les données
ont plus de deux modes, on souligne que les données sont multimodales ou plurimodales.
2.1 Cas d’une variable discrète
Le mode est facilement repérable, c'est la valeur xi pour laquelle la fréquence est la plus élevée. Le
mode d’une distribution est la modalité de la variable dont l’effectif est le plus important (le plus
élevé). Dans un diagramme en bâtons, c’est la valeur de la variable qui correspond au bâton le plus
haut.
2.2 Cas d’une variable continue
Puisque les données sont groupées en classes, on doit définir en premier lieu la classe modale.
Cette dernière est la classe ayant la plus forte densité de fréquence. Notons que nous pouvons avoir
des classes avec des amplitudes égales ou inégales.
2.2.1 Cas d’amplitudes égales
La classe modale est celle qui correspond à la fréquence la plus élevée, ou l’effectif le plus élevé.
Il est important de noter qu’on retient comme valeur modale ou le mode, le centre de la classe
modale, dans un cas particulier : si l’effectif de la classe précédente à la classe modale (ni-1) est
égal à l’effectif de la classe suivante à la classe modale (ni+1); sinon le mode doit être calculé selon
la formule suivante :
⎛ ( ni − ni −1 ) ⎞
Mo = bMo + ⎜⎜ ⎟⎟ × aMo
⎝ ( ni − ni −1 ) + ( ni − ni + 1 ) ⎠

bMo : la borne inférieure de la classe modale.

aMo : l’amplitude de la classe modale.
ni : l’effectif de la classe modale.
ni+1 : l’effectif de la classe suivante à la classe modale.
ni-1 : l’effectif de la classe précédente à la classe modale.
2.2.2 Cas d’amplitudes inégales
Si les classes ont des amplitudes inégales, il faut corriger par rapport aux amplitudes, c’est-à-dire il
faut prendre en considération soit la densité d’effectif (ni/ai) ou la densité de fréquence (fi/ai). La
détermination de la classe modale se ramène après au cas précédent. Le mode est calculé en
appliquant la formule ci-dessus en remplaçant ni par (ni/ai).
Notons que dans un cas particulier, où une classe est caractérisée à la fois par l’amplitude la plus
petite et l’effectif le plus élevé, dans ce cas elle a nécessairement la densité la plus forte et le calcul
des densités n’est pas nécessaire pour en déduire la classe modale.
Nous pouvons aussi déterminer le mode graphiquement comme illustré dans le schéma ci-dessous.
100
90
80
70
60
50
40
30
20
10
0 9 0 1 4
0 0 1 9
0 0 2 4
0 0 2 9
0 0 3 5
0 0 o u p lu s
. .
Mode Classe modale
Détermination du mode graphiquement
Source : élaboré pour illustration.

3. La médiane
La médiane (Me) est un centre de position lorsque les données sont rangées par ordre croissant. Sa
détermination est réalisée de façon différenciée en fonction de la parité (pair ou impair) de la taille
de l’échantillon (n).
§ Si n est impair, soit n = 2 p + 1 , alors (Me = x(p+1))

§ Si n est pair, soit n = 2 p, alors (Me = (x(p) + x (p+1)) / 2)
Notons que la médiane (Me) d’une série statistique est une valeur de la variable telle que 50% des
individus statistiques présentent une modalité inférieure à Me, et 50% présentent une modalité
supérieure ou égale à Me. Ainsi, en prenant en considération F comme une fonction des fréquences
cumulées, la médiane d’une série statistique sera la plus petite valeur x telle que F(x) ≥ 0,5 ou bien
F(x) ≥ 50%. On peut ainsi déterminer graphiquement la médiane, dans la courbe de fréquence
cumulée (ou même dans la courbe d’effectif cumulé)
Dans le cas d’une variable continue où les données sont groupées en classes, on doit définir en
premier lieu la classe médiane, qui contient la médiane. La valeur de la médiane est déduite par la
suite par interpolation linéaire selon la formule suivante :
⎡ 50 − Fi −1 ⎤
Me = bi + ⎢ai × ⎥
⎣ Fi − Fi −1 ⎦
ai : amplitude de la classe médiane.
bi : limite inférieure de la classe médiane.
Fi-1 : fréquence cumulée de la classe précédente à la classe médiane.
Fi : fréquence cumulée de la classe médiane.
Il est important de souligner que :

§ dans la formule de calcul de la médiane, on se base sur la fréquence cumulée et non pas sur
la fréquence relative.
§ contrairement au mode, dans le cas d’amplitudes inégales, on ne procède pas à la correction
par amplitudes en utilisant la densité d’effectif ou la densité de fréquence.

§ la médiane ne doit pas être confondu avec la médiale qui se calcule aussi avec des
fréquences cumulées, mais qui sont basées sur les (xi × ni).
§ la médiane est un indicateur dit robuste, car de nombreuses observations peuvent varier
sans que la médiane ne soit modifiée.
4. Quantiles
Les quantiles (ou les percentiles) sont des indicateurs de position. Si nous considérons une variable
quantitative discrète ou continue, dont les modalités sont classées en ordre croissant, le quantile
d'ordre α (0 ≤ α ≤ 1) noté qα est la valeur de la variable telle que α% (c’est-à-dire une proportion α)
des individus ont une modalité inférieure ou égale à qα. En d’autres termes (100 - α)% des
individus ont une valeur supérieure ou égale à qα.
Nous allons introduire ci-dessous les quantiles les plus utilisés, à savoir, les quartiles, les déciles et
les centiles, avant de spécifier leur méthode de calcul.
4.1 Quartiles
Les quartiles sont des indicateurs de position qui partagent les observations en 4 groupes d’effectifs
égaux.
Les quartiles sont les 3 valeurs q25, q50, q75. Ceci dit, 25%, 50%, 75% des individus ont une valeur
de la variable inférieure à q25, q50, q75 respectivement.
Les quartiles sont aussi notés : Q1, Q2, Q3 (Q pour Quartile). Notons que Q2 représente la médiane,
qui est aussi un indicateur de tendance centrale.
4.2 Déciles
Les déciles sont des indicateurs de position qui partagent les observations en 10 groupes d’effectifs
égaux. Les déciles sont les 9 valeurs q10, q20,…,q90.
Ceci dit, 10%, 20%,...90% des individus ont une valeur de la variable inférieure à q10, q20,...q90
respectivement.
Les déciles sont aussi notés : D1, D2….D9 (D pour Décile).

4.3 Centiles
Les centiles sont des indicateurs de position qui partagent les observations en 100 groupes
d’effectifs égaux. Les centiles sont les 99 valeurs q1, q2, q3,...,q99. Ceci dit, 1%, 2%, 3% ….99%,
des individus ont une valeur de la variable inférieure à q1, q2, q3,...,q99 respectivement.
Les centiles sont aussi notés : C1, C2….C99 (C pour Centile).
La notation « q » a le mérite d’être identique pour tous les quantiles, car même si les notations C1,
Q1, D1, par exemple, ont l’avantage de nous indiquer le type de quantile, leur inconvénient est de
noter de manière différente des quantiles qui représentent la même chose (exemple : D1 = C10, Q1 =
C25, Q2= D5= C50).
Lorsqu’on dispose d’une variable qui est quantitative continue on peut déterminer les quantiles
graphiquement (dans la courbe de fréquence cumulée ou même dans la courbe d’effectif cumulé),
comme pour le cas de la médiane, ou selon la formule ci-dessous qui est aussi utilisée pour calculer
la médiane en remplaçant F(qα ) par 50%.
⎡ F (qα ) − Fi −1 ⎤
qα = bi + ⎢ai × ⎥
⎣ Fi − Fi −1 ⎦
ai : amplitude de la classe où se trouve le quantile.

bi : limite inférieure de la classe où se trouve le quantile.
Fi-1 : fréquence cumulée de la classe précédente à la classe où se trouve le quantile.
Fi : fréquence cumulée de la classe où se trouve le quantile.
F(qα ) peut être égale à 25%, 10%, 3%, 71%....selon l’ordre souhaité.
Dans le cas d’une variable discrète ou d’une série statistique, la formule ci-dessus ne peut pas être
appliquée et les quantiles se calculent selon les 3 étapes suivantes :
Etape 1 : Mettre les données en ordre croissant.
Etape 2 : Calculer un indice i,
!
tel que i = ×n;
!""
α représente l’ordre du quantile et n l’effectif total.

Etape 3 :
Si l’indice i est un nombre entier, la valeur du quantile correspond à la moyenne des
valeurs des deux observations du rang i et i +1. Elle est ainsi égale à (Xi + Xi+1 )/2
Si l’indice i n’est pas un nombre entier, il faut l’arrondir (troncature à l’unité). La
valeur du quantile est celle de l’observation du rang (i+1) après la troncature et elle
est égale à (Xi+1).
4. Caractéristiques et formes d’une série statistique
La moyenne, le mode et la médiane comme indicateurs de tendance centrale nous renseignent sur
l’ordre de grandeur d’une série statistique et sur la forme qu’elle prend. Statistiquement, une
distribution peut être symétrique ou asymétrique (oblique).
4.1 Distribution symétrique
Dans le cas d’une distribution symétrique, la moyenne, le mode et la médiane ont les mêmes
valeurs, et les observations sont également dispersées par rapport à ces valeurs centrales. Sa forme
est représentée comme ci-dessous :
M0 = Mé = x
Distribution symétrique

4.2 Distribution asymétrique
Si la distribution n’est pas symétrique, elle est asymétrique ou oblique. L’obliquité ou l’inclinaison
se repère du côté de la décroissance la plus forte. La distribution peut être oblique à gauche (étalée
vers la droite) comme dans le graphique ci-dessous. Dans ce cas, le mode est inférieur strictement à
la médiane qui est de même par rapport à la moyenne arithmétique.
Distribution asymétrique
La distribution peut être aussi oblique à droite (étalée vers la gauche) comme dans le graphique
ci-dessous. Le mode est supérieur strictement à la médiane qui est de même par rapport à la
moyenne arithmétique.
Distribution asymétrique

4.3 Coefficient d’asymétrie.
Au lieu de dessiner la courbe qui représente les fréquences relatives afin d'en déduire si la
distribution est symétrique, oblique à droite ou oblique à gauche, nous pouvons calculer le
coefficient de Yule et Kendall. Ce dernier est égal à :
⎡ Q3 + Q1 − 2Q2 ⎤
⎢ ⎥
⎣ Q3 − Q1 ⎦
Q1, Q2, Q3 représentent les quartiles.
Le coefficient de Yule et Kendall est compris entre -1 et 1, son interprétation est la suivante :
§ 0 : la distribution est symétrique.
§ > 0 : la distribution est étalée vers la droite.
§ < 0 : la distribution est étalée vers la gauche.
Le coefficient de Fisher peut être aussi utilisé pour déduire la forme de la distribution et il a la
même interprétation que celle de Yule et Kendall, afin de savoir si la distribution est symétrique,
ou étalée vers la droite ou vers la gauche. Ce coefficient est égal à :
3
n n ⎛ xi − x ⎞
×∑ ⎜ ⎟
(n - 1) × (n - 2) i =1 ⎜ s ⎟
⎝ ⎠
« s » représente l’écart-type, un indicateur de dispersion qui sera introduit dans la section suivante.

II. Indicateurs de dispersion
En obtenant les quartiles Q1, Q2, Q3 et en y ajoutant le minimum et le maximum des observations,
nous obtenons un résumé en 5 chiffres. Ces 5 chiffres (Q1, Q2, Q3, Min, Max) seront utiles pour
illustrer la Boîte-à-pattes (Box plots). Elle est aussi appelée Boîte de Tukey.
1. Boîte-à-pattes
La boîte-à-pattes est utile pour visualiser la dispersion des données, pour faire des comparaisons
entre plusieurs échantillons ou populations et pour détecter les valeurs aberrantes. Elle est illustrée
dans le graphique ci-dessous.
Limite& Limite&
Inférieure& supérieure&
Boîte-à-pattes (Boîte de Tukey)

Comment la construire ?
1. Dessiner la boîte avec deux limites : Q1 et Q3.

2. Dessiner une ligne verticale qui correspond à la valeur de Q2.
3. Fixer les limites :
§ la limite inférieure est égale à (Q1 – (1.5 × (Q3- Q1)))
§ la limite supérieure est égale à (Q3 + (1.5 × (Q3- Q1))).
4. Tracer les pattes qui correspondent à deux lignes horizontales. Celle de la droite se prolonge
jusqu’à la plus grande valeur qui se situe directement avant la limite supérieure, et celle de la
gauche se prolonge jusqu’à la plus petite valeur qui se situe directement après la limite
inférieure. Notons, qu’une valeur qui dépasse les limites peut être une valeur aberrante
(illustrée par l’étoile rouge dans le graphique) que nous devons vérifier, ou une valeur
extrême. Si il n’existe aucune valeur qui dépasse les limites, les pattes se prolongent jusqu’au
minimum à gauche et jusqu’au maximum à droite.

A partir de la boîte-à-pattes nous pouvons noter l’écart (Q3 - Q1) et l’écart (Max - Min), le rapport
((Q3- Q1)/ Q2) par exemples, qui représentent des indicateurs de dispersion que nous allons
introduire dans cette partie.
Les indicateurs de dispersion caractérisent numériquement la manière dont les observations
s’écartent les unes des autres. C’est des indicateurs qui montrent comment les observations
s’écartent d’une valeur de référence ou d’un indicateur de tendance centrale. Leur utilité se
concrétise surtout lorsqu’on a deux distributions qui peuvent être différentes tout en ayant des
caractéristiques de tendance centrale proches.
Nous allons introduire dans cette partie les indicateurs suivants :

§ L’étendue.
§ L’écart inter-décile et l’écart inter-centile.
§ L’écart interquartile.
§ L’écart absolu.
§ La variance et l’écart-type.
§ Les paramètres de dispersion relative.
2. Etendue
L’étendue est la différence entre la plus grande valeur et la plus petite valeur des observations. Sa
formule est la suivante :
Etendue = X (max) - X (min)
L’étendue est très simple à calculer, mais il ne tient compte que des deux observations extrêmes,
susceptibles d’être parfois des données aberrantes. Pour pallier cet inconvénient, une idée consiste
à éliminer de la mesure de dispersion une certaine proportion d’observations aux extrémités de la
distribution (appelées queues de distribution). Ceci nous amène à définir l’écart inter-décile, l’écart
inter-centile et l’écart interquartile.
3. Ecart inter-décile & Ecart inter-centile
L’écart inter-décile (D9 - D1) écarte 10% des observations les plus petites et 10% des observations
les plus grandes des deux extrémités de la distribution. C’est un indicateur de dispersion qui
concerne 80% des observations centrales.

Un écart relatif peut être aussi calculé à partir de ces deux déciles, sous la forme de (D9/D1).
L’écart inter-centile (C99-C1) écarte 1% des observations les plus petites à gauche et 1% des
observations les plus grandes à droite. C’est aussi un indicateur de dispersion, et il concerne 98%
des observations centrales.
4. Ecart Interquartile (EIQ)
L’écart interquartile (EIQ) est un indicateur de dispersion, qui peut être utilisé pour illustrer la
boîte-à-pattes, et qui n’est pas dépendant des valeurs extrêmes. Sa formule est la suivante :
EIQ = Q3 -Q1
L’intervalle interquartile est l’intervalle [Q1 - Q3] et il contient 50% des observations.
Notons qu’on utilise parfois l'écart semi-interquartile qui peut être calculé selon la formule
suivante :
(Q3 -Q1)/2.
5. Ecart absolu
L’écart absolu moyen est par définition la moyenne arithmétique des valeurs absolues des écarts de
toutes les observations à la moyenne arithmétique.
Cet indicateur nous donne une vision sur la valeur moyenne qui écarte toutes les observations par
rapport à la moyenne.
Sa formule est la suivante :
1
e= ∑n i xi − x
n i
L’écart absolu médian est la moyenne arithmétique des valeurs absolues des écarts de toutes les
observations à la médiane.
Sa formule est la suivante :
1
e' = ∑ ni xi − M e
n i

6. Variance & écart-type
La variance est un indicateur qui se base sur la différence entre chaque observation et la moyenne
arithmétique (écart par rapport à la moyenne). Elle est utile comme une mesure pour comparer le
degré de dispersion de plusieurs populations/échantillons selon la même variable exprimée dans la
même unité.
La variance est un indicateur de dispersion qui utilise toutes les observations. Elle est la moyenne
arithmétique des carrés des écarts de toutes les observations à la moyenne arithmétique.
La variance est souvent notée s2 (dans le cas d’un échantillon) ou σ² (dans le cas d’une population),
ou tout simplement Var(x) et elle est calculée en utilisant la formule suivante :
k
∑ n (x ) 2
i i −x
S2 = i =1
n
2
Notons que la variance d’un échantillon s peut être un estimateur de la variance de la population.
La formule peut être aussi rectifiée en remplaçant (n) par (n-1). Notons aussi que les unités
associées à la variance sont élevées au carré, ce qui rend difficile son interprétation.
L’interprétation que nous pouvons lui donner est que la population ou l’échantillon qui a la plus
grande variance a la plus grande dispersion. Ceci dit, il n’est pas utile de chercher d’autres
interprétations pour cet indicateur.
Pour obtenir un indicateur de dispersion absolue, l’écart-type est calculé en utilisant la variance.
L'écart-type est noté σ ou s et il correspond à la racine carrée de la variance, comme dans les deux
formules ci-dessous.
σ = σ²
S= S²
L’écart type est ainsi plus facilement comparable et interprétable que la variance, puisqu’il est
mesuré dans les mêmes unités que les données. Notons qu’il est aussi utilisé pour calculer le
coefficient d’asymétrie de Fisher introduit plus haut.
Nous avons défini l’étendue, l’écart inter-décile, l’écart inter-centile, l’écart interquartile, l’écart
absolu, la variance et l’écart type, qui représentent des indicateurs de dispersion absolue. Nous
présentons dans la section suivante les indicateurs de dispersion relative.

7. Indicateurs de dispersion relative
La question qui peut se poser maintenant est la suivante : comment peut-on comparer la dispersion
de deux échantillons en prenant en considération la même variable qui a des unités différentes
(Yen et Dirham par exemple) ? Pour ce faire, les indicateurs de dispersion relative peuvent être
utilisés, à titre d’exemple le coefficient de variation.
7.1 Coefficient de variation
Le coefficient de variation (CV) mesure l’écart type relatif à la moyenne. C’est un indicateur utile
pour comparer la dispersion de variables ayant des unités différentes. Le CV est calculé selon la
formule suivante :
σx
CV x = × 100
x
En d’autres termes, le coefficient de variation permet de comparer les dispersions de distributions,
en prenant en considération la même variable, mais qui n’est pas exprimée dans la même unité.
Nous pouvons souligner que la distribution (population ou échantillon) qui a le coefficient de
variation le plus élevé a la plus grande dispersion autour de la moyenne.
On peut aussi déduire d’autres indicateurs de dispersion relative en utilisant par exemple, les
quartiles, les déciles, ou l’écart absolu moyen. Ces indicateurs et leur formule de calcul sont
présentés ci-dessous.
7.2 Coefficient interquartile relatif

Q3 − Q1
Q2
7.3 Coefficient inter-décile relatif
D9 − D1
D5
7.4 Ecart relatif moyen

Ecart absolu moyen
x

Nous pouvons remarquer que ces indicateurs de dispersion relative sont sous forme d’un ratio, qui
représente le rapport entre un indicateur de dispersion et un indicateur de tendance centrale.
Enfin, nous mettons en exergue que le choix d’un indicateur de dispersion est souvent lié au choix
des indicateurs de tendance centrale et de position.
Ceci dit, si la position d’une distribution a été résumée par des quantiles, la distribution est dans la
plupart des cas, quantifiée par les écarts absolus ou relatifs inter-quantiles. Si la moyenne
arithmétique a été privilégiée alors l’écart type est souvent l’indicateur de dispersion choisi.

III. Indicateurs de concentration
En complément des indicateurs de tendance centrale et de position et des indicateurs de

dispersion, il est parfois intéressant de calculer les indicateurs de concentration.
En fait, les indicateurs de concentration sont des indicateurs qui mesurent le degré d’inégalité dans
la répartition de la somme des observations.
Ceci dit, une condition est nécessaire pour pouvoir utiliser et calculer les indicateurs de
concentration, qui requiert que la somme des observations ait un sens et les données bien
évidemment doivent être quantitatives. Ainsi pour une distribution de salaires, le résumé de la
répartition de la masse salariale fait appel à des méthodes distinctes de celles utilisées pour
résumer la répartition des salaires.
En d’autres termes, la concentration concerne l’intensité du groupement des données. Elle ne

s’applique qu’à des variables continues à valeurs positives susceptibles d’addition.
La concentration peut se caractériser soit par un procédé graphique (courbe de Lorenz), soit par le
calcul d’un indice (Indice de Gini). Il est important de noter que la concentration n’est pas
l’inverse de la dispersion.
1. Courbe de Lorenz
Pour obtenir une représentation graphique mettant en évidence la concentration, l’idée est de
travailler avec les fréquences cumulées et les agrégats cumulés (selon la variable étudiée). En
portant en abscisse les fréquences cumulées et en ordonnée les agrégats cumulés (qui varient de 0%
à 100 %), nous obtenons une courbe de concentration, appelée courbe de Lorenz. Cette courbe relie
des points successifs : fréquence cumulée - agrégat cumulé.
La courbe de Lorenz est toujours en dessous de la bissectrice, comme illustrée dans le graphique
plus bas. Si cette courbe s’en éloigne, l’inégalité s’accroît. En d’autres termes, plus la courbe est
proche de la diagonale, plus la répartition de la variable étudiée tend à être égalitaire. Ceci suggère
d’utiliser l’aire de concentration, comprise entre la courbe et la bissectrice comme indicateur
d’inégalité.

La courbe de Lorenz illustrée ci-dessous est un exemple qui concerne la part ou la proportion
cumulée d’une population par rapport à celle du revenu. « A » désigne l’air de concentration6.
Courbe de Lorenz
Nous pouvons souligner qu’en prenant en considération la courbe de Lorenz, on peut comparer la
concentration de deux populations ou plus, selon la même variable en représentant sur le même
graphique leur courbe de Lorenz. On peut aussi comparer la concentration de deux variables, par
rapport à la même population.
2. Indice de Gini
L’indice de Gini (IG) constitue un indicateur, ou une mesure synthétique de la concentration des
données.
Le calcul de cet indice repose sur la position de la courbe de Lorenz, c’est à dire plus la courbe est
proche de la diagonale, plus la répartition tend à être égalitaire.
L’idée est donc de calculer l’aire de la surface (surface de concentration) située entre la courbe de
Lorenz et la bissectrice.
On peut souligner que l’indice de Gini (IG) est égal à deux fois l’aire de concentration. Cet indice
est compris entre 0 et 1 :
6
Durant le cours magistral, nous avons abordé des exemples afin d’assimiler l'illustration de cette courbe et comprendre comment
peut-on interpréter les trois parties distinctes (avec des couleurs différentes) en dessous de la courbe de Lorenz.

§ Plus il est proche de 0, plus la répartition tend à être égalitaire.

§ Plus il est proche de 1, plus la répartition tend à être inégalitaire.
En d’autres termes, l’indice de Gini (IG) est un indicateur de la concentration, plus il est grand, plus
la concentration est importante. Il existe plusieurs formules pour calculer cet indice, on peut
proposer de l’évaluer selon la formule suivante :
n
I G = 1 − ∑ ( xi − xi − 1 )( yi + yi − 1 )
i =1
Les xi désignent les valeurs prises par la variable sur la part cumulée de la population étudiée, et yi
désignent les valeurs prises par la variable sur la part cumulée de la masse à répartir.
Une autre formule plus simple :

n
IG = 1 − ∑ f i ( Fi' + Fi'−1 )
i =1
Les fi désignent les fréquences relatives concernant la variable et les F'i désignent les fréquences
relatives cumulées concernant la masse de la variable.

Partie 4 : Statistique descriptive bi-variée

L’analyse d’une série bi-variée consiste à étudier une série d'observations ou une série statistique
selon deux variables, d’où le concept de croisement de variables statistiques.
En effet, le croisement de variables statistiques consiste à relever pour le même individu la valeur
prise par deux variables. Ce croisement a pour objectifs :
• de rechercher l’existence d’un lien de dépendance entre les deux variables7 ;
• d’étudier la corrélation et de dégager des tendances ;
• de modéliser le lien (si ce lien existe).
On peut avoir 3 cas lors d’un croisement de deux variables statistiques :

• Le cas de croisement de deux variables qualitatives.
• Le cas de croisement d’une variable quantitative et d’une variable qualitative.
• Le cas de croisement de deux variables quantitatives. Ce dernier cas fera l’objet de
l’analyse de régression linéaire simple qui sera introduite par la suite.
1. Présentation des données
La présentation d’une série bi-variée peut être sous forme d’un tableau de contingence, qui peut
être défini comme :
§ un tableau à double entrée ou à deux dimensions ;
§ Un tableau avec deux variables X et Y, tel que les m modalités de X sont désignées
par X1, X2,…Xi…Xm et les n modalités de Y sont désignées par Y1, Y2,…. Yj,…Yn.
§ Un tableau avec m lignes et n colonnes comme illustré dans le tableau ci-dessous,
tel que m et n sont les nombres de modalités de la variable X et de la variable Y
respectivement8.
7
Il est important de souligner qu’un lien ne signifie pas une relation de cause à effet.
8
On peut noter m, n ou a, b…peu importe la notation, l’important est de les définir.

Tableau de contingence
Var X /VarY Y1 Y2 Yj Yn
X1
X2
Xi nij
Xm
2. Distribution conjointe
La répartition de toutes les observations (n) est appelée la distribution conjointe. On peut noter que
l’effectif nij est le nombre d’individus statistiques qui représente à la fois la modalité Xi et la
modalité Yj.
Les nij, tel que i=1,…,m et j=1,…n, représentent ainsi une distribution observée conjointe du
couple (X,Y), qui peut être notée :
{(xi, yj, nij , i=1,…m, j=1,…,n)} ;
tel que le total des observations est la somme des nij.
Les nij sont nommés les effectifs d’intersection.
3. Distribution marginale et conditionnelle
3.1 Distribution marginale
Dans un tableau de contingence, si on calcule le total des colonnes, on obtient les effectifs :
n.1, n.2,…, n.j,…,n.n qui constituent la distribution marginale de la variable Y.
De même, si on calcule le total des lignes, on obtient :
n1. ,n2. ,…,ni. ,…, nm et qui constituent la distribution marginale de la variable X.
Les deux distributions sont illustrées dans le tableau ci-dessous :

Tableau de contingence avec la distribution

marginale de X et la distribution marginale de Y
Var X /VarY Y1 Y2 Yj Yn Total
X1 n11 n1j n1n n1.

X2 n21 n2j n2n n2.
Xi ni1 nij nin ni.
Xm nm1 nmj nmn nm.

Total n.1 n.j n.n n..
Tel que :
• ni. est le nombre d’observations de la modalité Xi de la variable X quelle que soit la
modalité de la variable Y.
• n.j est le nombre d’observations de la modalité Yj de la variable Y quelle que soit la
modalité de la variable X.
• n.. est le nombre total d’observations quelle que soit les modalités de X et de Y, il est
parfois noté n++.
On note ainsi les formules de calcul de ni. , n.j et n.. qui sont explicitées ci-dessous :
𝒏𝒊.! 𝒏𝐢𝐣 tel que 𝒊 = 𝟏 … 𝒎

𝒋!𝟏
𝒏.𝒋! 𝒏𝐢𝐣 tel que 𝒋 = 𝟏 … 𝒏

𝒊!𝟏
𝒏 𝒎
𝒏.𝐣 = 𝒏𝐢. = 𝒏..

𝒋!𝟏 𝒊!𝟏

v La distribution marginale de la variable Y est donc une distribution uni-variée9. C’est la

distribution de la variable Y seule, dont les modalités sont en marge supérieure et les
effectifs en marges inférieure dans un tableau de contingence.
v La distribution marginale de la variable X est aussi une distribution uni-variée. C’est la
distribution de la variable X seule, dont les modalités sont en marge de gauche et les
effectifs en marge de droite dans un tableau de contingence.
Ces deux distributions sont illustrées respectivement dans les deux tableaux ci-dessous :
• Distribution marginale de la variable Y
Var Y Y1 Y2 Yj Yn Total
Effectif n.1 n.j n.n n..
• Distribution marginale de la variable X
Var X Effectif
X1 n1.
X2 n2.
Xi ni.
Xm nm.
Total n..
3.2 Distribution conditionnelle
Dans un tableau de contingence, si on fixe Xi et on garde toutes les modalités de la variable Y, on

obtient une distribution conditionnelle, qui est la distribution de la variable Y, tel que la modalité
de la variable X est égale à Xi.
De même, si on fixe Yj et on garde toutes les modalités de la variable X, on obtient une distribution
conditionnelle, qui est la distribution de la variable X, tel que la modalité de la variable Y est égale
à Yj .
9
On peut ainsi calculer les indicateurs de tendance centrale et de position, et les indicateurs de dispersion introduits dans la partie
précédente.

Nous illustrons ces deux distributions respectivement dans les deux tableaux ci-dessous :
• Distribution de la variable Y, tel que la modalité de la variable X est égale à X!
X1 n11 n1j n1n n1.

X2 n21 n2j n2n n2.
Xi ni1 nij nin ni.
Xm nm1 nmj nmn nm.

• Distribution de la variable X, tel que la modalité de la variable Y est égale à Y!
X1 n11 n1j n1n n1.

X2 n21 n2j n2n n2.
Xi ni1 nij nin ni.
Xm nm1 nmj nmn nm.

On peut souligner que dans un tableau de contingence, au lieu des effectifs nous pouvons avoir des
fréquences. Nous définirons ainsi les fréquences marginales, les fréquences conditionnelles et les
fréquences conjointes.
4. Fréquence conjointe, marginale et conditionnelle
4.1 Fréquence conjointe
Soit, une distribution conjointe {(xi, yj, nij , i=1,…m, j=1,…,n)}, pour i fixé entre 1 et m et j fixé
entre 1 et n, la fréquence conjointe est égale à : fij = nij / n..

4.2 Fréquence marginale
Pour i fixé entre 1 et m, la fréquence marginale colonne est égale à (fi. = ni. / n..). Si on calcule pour
toutes les colonnes les fréquences nij/n.j tel que j=1,…,n ; on obtient les profils colonnes des
individus statistiques.
Pour j fixé entre 1 et n, la fréquence marginale ligne est égale à (f.j = n.j / n..). Si on calcule pour
toutes les lignes les fréquences nij/ni. tel que i=1…m ; on obtient les profils lignes des individus
statistiques.
Les profils lignes et les profils colonnes nous permettent de visualiser les fréquences
conditionnelles que nous introduirons dans la section suivante.
4.3 Fréquence conditionnelle
Pour k fixé entre 1 et m et l fixé entre 1 et n, la fréquence conditionnelle ligne est égale à :
(fj=l/i=k = nkl / nk.)
Etablir les profils lignes consiste de ce fait à calculer toutes ces fréquences.
Pour k fixé entre 1 et m et l fixé entre 1 et n, la fréquence conditionnelle colonne est égale à :
(fi=k/j=l = nkl / n.l)
Etablir les profils colonnes consiste à calculer toutes ces fréquences.
5. Comment commenter un tableau de contingence ?
Après l’introduction d’un tableau de contingence, on peut se poser la question : comment peut-on
commenter ses données ?
On peut utiliser le résumé des marges, le résumé des colonnes et le résumé des lignes et ceci en
prenant en considération les effectifs (ou les fréquences) les plus élevés ou les plus bas, selon la
problématique traitée dans notre étude statistique.
6. Recherche d’un lien entre deux variables
Rappelons que l’objectif de croisement de variable est la recherche d’un lien de dépendance qui
peut exister entre les variables. Ainsi, on peut se poser les questions suivantes :

• Est-ce que ce lien existe ?

• S’il existe, peut-on évaluer son intensité et sa nature ?
• S’il existe, peut-on le modéliser ?
Pour répondre à la première question, les données statistiques peuvent être présentées sous forme
d’un graphique, et plus précisément sous forme d’un nuage de point, car ce dernier :
o permet de voir si les deux variables ont globalement tendance à co-varier, ou non dans le
même sens.
o permet de déterminer si les deux variables sont liées par une relation de dépendance et
d’identifier la forme de la relation quand elle existe.
En fait, un nuage de points est une présentation graphique de la relation entre deux variables
quantitatives, qui peut être traversée par la tendance, qui est une droite qui fournit une
approximation de la relation. Il permet donc d’infirmer ou confirmer « l’intuition » de dépendance.
Mais comment peut-on définir la dépendance ou l’indépendance de deux variables ?
7. Indépendance de deux variables
Nous pouvons mettre en exergue deux définitions qui concernent l’indépendance de deux variables
statistiques.
La première :
Deux variables X et Y sont statistiquement indépendantes si toutes les distributions
conditionnelles en colonnes (respectivement en lignes) sont identiques à la distribution
marginale colonne (respectivement ligne) de l’ensemble. Ceci dit, si pour tout i et pour tout j
on a :
fj=l/i=k = f.j & fi=k/j=l = fi.
La deuxième :
Deux variables X et Y sont statistiquement indépendantes si la distribution des fréquences
conjointes est égale au produit des distributions des fréquences marginales. Ceci dit, si pour
tout i et pour tout j on a :
fij = fi. × f.j équivalant à nij = (ni. × n.j )/n..

Dans le cas contraire, on peut déduire qu’il y a une forte présomption de dépendance entre les
deux variables.
En prenant en considération ces deux définitions de l’indépendance, nous pouvons souligner
qu’elles sont applicables pour tous les types de variables, puisqu’elles ne tiennent pas compte des
modalités.
Maintenant, la question qui se pose est la suivante : quel est le moyen de quantifier les écarts entre
la situation théorique d’indépendance et la situation réelle ?
On peut répondre à cette question en introduisant l’indice de spécificité.
8. Indice de spécificité
Un indice de spécificité est égal au rapport entre la fréquence conditionnelle ligne (colonne) et la
fréquence marginale ligne (colonne) correspondante. Il est applicable, peu importe le type des
deux variables. Si cet indice :
• dépasse 100%, nous pouvons noter que par rapport à l’ensemble des unités statistiques, il y
a une surreprésentation d’un pourcentage p, qui représente un dépassement.
• est moins de 100%, nous pouvons noter que par rapport à l’ensemble des unités statistiques,
il y a une sous-représentation d’un pourcentage p, qui sera déduit suite à un calcul simple
pour aboutir à 100%.
Lors d’un croisement de deux variables, on a souligné trois cas. Si les deux variables sont
quantitatives, on peut calculer bien évidemment des indicateurs comme la moyenne et l’écart-type.
Ces différents calculs permettent d’aborder autrement la question de l’indépendance. Nous

introduirons ainsi la corrélation. Mais avant d’introduire cette dernière, nous devons en premier
lieu introduire la covariance. Par la suite, nous pouvons calculer la corrélation et en déduire le
coefficient de détermination.
9. Covariance
A quoi sert la covariance ? La covariance sert tout simplement à quantifier la variabilité conjointe
de deux variables quantitatives, à titre d’exemple X et Y.

Dans un nuage de points qui est limité par deux droites qui passent par le centre de gravité, qu’on
note G(𝒙, 𝒚), nous pouvons noter les cas suivants :
§ X et Y ont tendance à co-varier dans le même sens, c’est-à-dire, qu’une augmentation de X
a tendance à s’accompagner d’une augmentation de Y par exemple (voir le nuage de points
A ci-dessous).
§ X et Y ont tendance à co-varier en sens contraire, c’est-à-dire, une augmentation de X a
tendance à s’accompagner d’une diminution de Y par exemple (voir le nuage de points B
ci-dessous).
De ces deux cas, on peut comprendre l’idée derrière l’utilité de la covariance qui représente un
indicateur qui mesure la variabilité conjointe de deux variables.
Pour le nuage de points C dans le schéma ci-dessous, il est de forme circulaire. Il est ainsi difficile
de dire si les deux variables co-varient dans le même sens ou dans des sens inverses. Néanmoins,
on ne peut pas conclure de manière définitive l’indépendance entre les deux variables, il n’est donc
pas totalement exclu que les variables soient dépendantes.
Maintenant la question qui se pose : comment calculer la covariance?
§ Soit X et Y deux variables quantitatives, de moyennes respectives 𝒙 et 𝒚 pour n

observations, la covariance du couple (X, Y) est définie par :
𝒏
𝟏
𝑪𝒐𝒗 𝒙, 𝒚 = (𝒙𝒊 − 𝒙) (𝒚𝒊 − 𝒚)
𝒏
𝒊!𝟏

Nous pouvons facilement déduire que la 𝐂𝐨𝐯 x, x = 𝐕𝐚𝐫 (x) et que 𝐂𝐨𝐯 y, y = 𝐕𝐚𝐫 (y).
Nous pouvons introduire une autre formule de calcul de la covariance qui est plus économique en
temps de calcul que la formule précédente.
Cette formule est la moyenne du produit XY moins le produit des moyennes de X et de Y :
𝒏
𝟏
𝑪𝒐𝒗 𝒙, 𝒚 = (𝒙𝒊 𝒚𝒊 ) − 𝒙 𝒚 = 𝒙𝒚 − 𝒙𝒚
𝒏
𝒊!𝟏
Bien évidemment les deux formules doivent aboutir au même résultat.
Comment interpréter la covariance ?
La covariance peut être positive ou négative. Elle est positive dans le cas du nuage de points A par
exemple, négative dans le cas du nuage de points B et nulle ou proche de 0 dans le cas du nuage de
points C.
Si on prend en considération le nuage de points ci-dessous :
Dans le cas d’une covariance positive, la plupart des points se trouvent dans le cadran I et III.
Comme dans le graphique ci-dessous où l'on peut remarquer une tendance linéaire10.
10
Nous pouvons avoir une covariance positive avec une tendance exponentielle ou puissance par exemple.

Si la covariance est négative, la plupart des points se trouvent dans le cadran II et IV, comme dans
le graphique ci-dessous :
Si les points du nuage se répartissent équitablement dans les quatre cadrans comme dans le
graphique ci-dessous, la covariance est nulle ou presque nulle.

En résumé, nous pouvons noter que :

∗ la covariance est un indicateur global de tendance, ce n’est pas un indicateur
d’indépendance.
∗ si X et Y varient dans le même sens alors la covariance est positive.
∗ si X et Y varient en sens contraire alors la covariance est négative.
∗ s’il n’y a pas de tendance croissante ou décroissance alors la covariance est nulle ou
presque nulle.
Il est important de souligner qu’une covariance nulle n’implique pas l’indépendance, MAIS
l’indépendance implique une covariance nulle. Ce constat peut être prouvé en prenant en
considération les deux nuages de points ci-dessous où la covariance est nulle. Celui à droite illustre
deux variables qui peuvent être liées par une relation fonctionnelle, et celui à gauche illustre deux
variables qui sont indépendantes. Il faut ainsi distinguer entre le concept d’indépendance et la
covariance.
Notons que la covariance d’un couple de variables (X,Y) intervient dans la variance de la somme
de ces deux variables et dans la variance de leur différence, puisque nous pouvons démontrer que :
𝒗𝐚𝐫 𝒙 + 𝒚 = 𝐯𝐚𝐫 𝐱 + 𝐯𝐚𝐫 𝐲 + 𝟐 𝐜𝐨𝐯 (𝐱, 𝐲)

𝒗𝐚𝐫 𝒙 − 𝒚 = 𝐯𝐚𝐫 𝐱 + 𝐯𝐚𝐫 𝐲 − 𝟐 𝐜𝐨𝐯 (𝐱, 𝐲)
Ainsi, si les deux variables sont indépendantes, la covariance est nulle, et par conséquent :
𝒗𝐚𝐫 𝒙 + 𝒚 = 𝐯𝐚𝐫 𝐱 − 𝐲 = 𝐯𝐚𝐫 𝐱 + 𝐯𝐚𝐫 𝐲
Comme pour la variance, la valeur numérique de la covariance dépend des unités, par contre la
corrélation en est indépendante.

Que représente la corrélation ?
10. Corrélation
Soit (X,Y) un couple de variables quantitatives, d’écarts types respectifs σ xσ y , le coefficient de
corrélation linéaire du couple (X, Y) est défini par :
Cov ( x , y )
r=
σ xσ y
Le coefficient de corrélation est aussi nommé, la corrélation tout simplement ou le coefficient de
corrélation de Bravais-Pearson.
Nous pouvons souligner que :
§ Le coefficient de corrélation linéaire (r) est du même signe que la Cov (x,y).
§ r est toujours compris entre -1 et 1 (-1≤ r ≤1).
§ Si r = 1 ou r = -1 les observations du couple (X, Y) sont parfaitement alignées.
§ Le coefficient de corrélation est une mesure de l’intensité du lien linéaire et linéaire
seulement unissant deux variables X et Y.
§ Le coefficient de corrélation prend 1 lorsque les points du nuage se positionnent tous
parfaitement le long d’une droite ascendante.
§ Le coefficient de corrélation prend -1 lorsque les points du nuage se trouvent tous sur une
droite de pente négative.
En résumé :
∗ La covariance nous permet de savoir si les deux variables varient dans le même sens ou en
sens inverse. Sa valeur n’est pas importante lors de l’interprétation, vu que c’est le signe
qui est important et qu’on peut interpréter.
∗ La corrélation est une mesure de l’intensité du lien linéaire entre deux variables
quantitatives, utilisée pour calculer le coefficient de détermination.
∗ Le coefficient de détermination nous permet d’en déduire si la qualité du modèle linéaire
estimée est bonne. Ce coefficient sera introduit dans la section suivante.

11. Coefficient de détermination
Le coefficient de détermination est le carré du coefficient de corrélation linéaire du couple (X,Y).

Il peut être calculée selon la formule suivante :
2
⎛ Cov( x , y ) ⎞
r2 = ⎜ ⎟
⎜ σ σ ⎟
⎝ x y ⎠
Notons que :
o Le coefficient de détermination est compris entre 0 et 1.
o Lorsque ce coefficient est élevé, la qualité du modèle linéaire estimé tend à être bonne.
Néanmoins ceci dépend des disciplines, en sciences de gestion par exemple, un coefficient
de détermination égal à 0.45 peut être considéré comme satisfaisant, tandis qu’en sciences
exactes il doit être plus élevé pour porter le même jugement.
o Ce coefficient de détermination r 2 peut être interprété comme suit : le modèle linéaire qui
utilise comme variable indépendante ou explicative Y « explique » p% de la dispersion de la
variable dépendante ou expliquée X. Ce p% est tout simplement le r 2 x 100%.
Il est important de noter que lorsque nous utilisons « explique », c’est dans un sens
purement géométrique, et ce terme ne nous donne dans aucun cas une preuve d'une relation
de cause à effet.
Une autre formule d’interprétation peut être aussi utilisée : p% de la variation de la variable
Y peut s’expliquer par une relation linéaire entre les deux variables.
Nous schématisons cette partie dans le schéma ci-dessous :
2%variables%quantitatives%
Variable%X% Lien%?% Variable%Y%
Coefficient%de%%
Covariance%% Corrélation%
détermination%%
Modéliser%la%%%%
relation%%
Source : élaboré par nous-même.

Dans ce dernier schéma, il nous reste la modélisation de la relation entre les deux variables qui sera
introduite dans la partie 5.
Dans cette partie, nous introduirons la régression et plus précisément la régression linéaire simple,
puisque nous allons nous limiter à une relation linéaire entre deux variables seulement. Notons que
la régression linéaire multiple concerne la relation entre une variable dépendante et plusieurs
variables indépendantes.

Partie 5 : Régression linéaire simple

Pour comprendre l’enchainement de ce cours, le schéma introduit à la fin de la partie précédente

peut être complété comme ci-dessous :
2%variables%quantitatives%
Variable%X% Lien%?% Variable%Y%
Coefficient%de%%
Covariance%% Corrélation%
détermination%%
Modéliser%la%%%%
relation%%
Estimation:% Méthodes%%%%%%%%%%
Prévisions%
Régression% d’ajustement%%
Source : élaboré par nous-même.
Ceci dit, pour modéliser une relation, nous pouvons utiliser la régression et estimer le modèle de
régression par des méthodes d’ajustement, en cherchant la meilleure relation entre deux variables,
c’est-à-dire la courbe qui passe le plus proche du nuage de points.
L’équation estimée de la régression peut être ainsi utilisée pour faire des prévisions. Dans cette
partie, nous introduirons les méthodes d’ajustement et nous nous concentrerons sur la méthode des
Moindres Carrées Ordinaires MCO, qui est la plus répandue.
Méthodes d’ajustement
Nous introduirons quatre méthodes d’ajustement et nous commencerons par la méthode des MCO.
o Méthode des MCO
La méthode des MCO est une procédure qui permet d’utiliser les données de l’échantillon pour
estimer l’équation de régression linéaire : 𝑦 = 𝑎𝑥 + 𝑏.

L’équation estimée de la régression linéaire est ainsi notée 𝒚 = 𝒂𝒐 𝒙 + 𝒃𝒐 issue d’un modèle de
régression linéaire 𝒚 = 𝒂𝒙 + 𝒃 + ℇ, tel que ℇ est une variable aléatoire qui représente l’erreur, le
résidu ou la différence entre la valeur observée et la valeur estimée.
Notons que :
𝐂𝐨𝐯 𝐱,𝐲
o « a » est la pente telle que a =
𝐕𝐚𝐫 𝐱
o « b » est l’ordonnée à l’origine tel que b = 𝐲 − a𝐱
Il est important de souligner que les formules de calcul de « a » et « b » minimisent les écarts au
carré entre les valeurs observées 𝒚𝒊 et les valeurs estimées 𝒚𝒊 . L’équation estimée de la
régression linéaire est ainsi utilisée pour faire des prévisions, en replaçant 𝒙 par une valeur précise
et en déduisant y.
Le graphique ci-dessous nous illustre la différence entre une valeur observée y! et une valeur
estimée y! et 𝒚.
250
200
150
100
50
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28
La méthode des MCO fournit ainsi une équation estimée de la régression qui minimise la somme
des écarts au carré entre les valeurs observées y! et les valeurs estimées y! de la variable
!
dépendante. C’est-à-dire elle minimise : !!! (y! − y! )!
Pourquoi les écarts au carré et non pas les écarts tout simplement ?
Parce que l’épaisseur du nuage représente la dispersion des observations, et dans ce cas en faisant
référence à la dispersion, nous mettons en exergue et nous utilisons la variance qui est un
indicateur de dispersion absolue.

Ceci dit, on prend en considération la variance du terme d’erreur (ou du résidu). Ainsi, nous
pouvons noter que la méthode des MCO minimise la variance σ ε2 , telle que la moyenne des
résidus est nulle ( ε = 0 ).
En d’autres termes, la méthode des MCO minimise la variance des résidus qui est égale à
𝟏 𝒏
σ ε2 = 𝒏 𝒊!𝟏 (𝒚𝒊 − 𝒚𝒊 )𝟐 tel que 𝑦𝒊 est la valeur estimée de yi. Notons que la variance de la
𝟏 𝒏
variable Y, est égale à σ y2 = 𝒏 𝒊!𝟏(𝒚𝒊 − 𝒚)𝟐 ; nous pouvons démontrer que σ y2 = σ ε2 + σ exp
2
liquée
𝟏 𝒏
2
tel que σ expliquée =𝒏 𝒊!𝟏 (𝒚𝒊 − 𝒚)𝟐 .
Ceci dit, plus les points s’ajustent sur la droite, plus la variance résiduelle (nommée aussi la
variance non expliquée) devient faible, et la variance expliquée est importante.
Par conséquent, nous pouvons réintroduire le coefficient de détermination comme

2
σ exp liquée
ceci r 2 = , avec bien évidement les mêmes interprétations.
σ y2
Notons que plus ce coefficient est proche de 1, plus la variance expliquée est grande et la variance
résiduelle est faible, donc plus la qualité du modèle estimé est bonne.
De r2 nous pouvons déduire r qui représente la corrélation. Mais la question qui peut être posée
est la suivante : Comment reconnaître le signe de la corrélation ?
La corrélation peut être calculée selon la formule ci-dessous :
r = (signe de a) coefficient de détermination = (signe de a) 𝑟!,
tel que « a » correspond à la pente de l’équation estimée de la régression.
Il est important de souligner que :

§ La corrélation est utilisée dans le cas d’une relation linéaire, par contre le coefficient de
détermination a un champ plus large et peut être utilisé dans d’autres types de relation.

§ La méthode des MCO peut être utilisée pour ajuster des nuages de points par des fonctions
non-linéaires, en utilisant des changements de variables adéquats.
o Ci-dessous un schéma qui nous donne un aperçu sur trois types de régression, avec
leur fonction avant et après avoir pris le logarithme népérien pour transformer les
deux variables X et Y en X* et Y*. Cette transformation a pour objectif d’aboutir à
une équation linéaire pour pouvoir appliquer la méthode des MCO.
Aperçu sur trois autres types de régression
X*=ln X
• Régression puissance
Y*=ln Y
• Régression exponentielle
• Régression logistique
(seuil à 1)
Nous aborderons dans ce qui suit d’autres méthodes d’ajustement dans le cas d’une régression
linéaire simple, à savoir la méthode des moyennes de Mayer, la méthode des points extrême et la
méthode graphique.
o La méthode des moyennes de Mayer
Cette méthode consiste à diviser une série en deux groupes égaux et calculer les points moyens ou
de gravité G1 ( X 1 , Y1 ) et G2 ( X 2 , Y 2 ) des deux nuages de points.

Si l’effectif total est impair, on divise la série en deux groupes, en prenant en considération qu’un
groupe aura un effectif plus grand d’une observation par rapport à l’autre.
Par la suite, on peut estimer l’équation de la droite y = ax+b par la résolution des deux équations :
Y1 = a X 1 +b & Y 2 = a X 2 +b
sachant que a et b sont inconnus.

o La méthode des points extrêmes
Cette méthode consiste à tracer une droite qui passe par les points extrêmes de la série. Elle reste
néanmoins une méthode subjective et non précise.
o La méthode graphique
Cette méthode consiste à tracer à main levée une droite qui passe le plus près des points du nuage.
Elle reste aussi une méthode subjective et non précise.

Partie 6. Séries chronologiques

L’un des objectifs de la statistique est de comparer et mesurer l’évolution des données pour
informer et prendre des décisions. Mesurer l’évolution des données consiste à une comparaison qui
porte sur la même variable statistique saisie à des dates différentes, d’où l’analyse des séries
chronologiques.
Une série chronologique décrit l’évolution d’un phénomène dans le temps. Elle est aussi nommée
série temporelle ou chronique.
En fait, l’analyse des séries chronologiques est fondée sur l’existence d’un lien de corrélation entre
la variable quantitative étudiée et le temps.
Cette analyse a donc pour objectif de décrire et prévoir un phénomène qui évolue dans le temps,
interpréter son évolution et le prévoir dans le futur.
En d’autres termes, l’objectif de l’analyse d’une série chronologique est de mettre en évidence
l’évolution passée d’une variable statistique, et sous certaines conditions d’extrapoler cette
évolution afin d’effectuer des prévisions à court terme.
Une série chronologique est une suite d’observations chiffrées d’une variable quantitative Y,
ordonnées dans le temps t. La valeur prise par la variable Y à la date t est notée yt.
Notons qu’en économie et en gestion les dates d’observations sont souvent équidistantes et
ordonnées dans le temps (jours, mois, trimestres, années) et sont représentées, par des entiers
naturels non nuls de 1 à n.
Une série chronologique peut être décomposée en plusieurs mouvements, afin de disposer d’un
outil pertinent pour analyser son évolution. Quatre composantes sont habituellement retenues pour
la décrire11 :
• La tendance, notée (ft) (également appelée trend, mouvement de tendance générale ou
composante générale) est une évolution durable, régulière et en général lente du phénomène
11
Cette décomposition a été proposée par le statisticien Warren Person en 1919.

étudié. C’est une orientation générale qui exprime une tendance durable à la croissance ou à
la décroissance. La tendance est matérialisée par une courbe qui est souvent une droite et
qui résume le phénomène. Elle ajuste ainsi l’ensemble des points du nuage et lisse la série.
• Les fluctuations cycliques, notées (Ct) (également appelées fluctuations conjoncturelles, ou

mouvement cyclique), sont des oscillations autour de la tendance, irrégulières en amplitude
et en durée. Le cycle économique « prospérité, dépression, récession et reprise » est un
exemple de fluctuation cyclique.
On peut souligner que ces deux dernières composantes ne sont pas toujours distinguables 12. Les
fluctuations cycliques sont souvent intégrées à la tendance et ne sont pas étudiées indépendamment
du trend.
• Le mouvement saisonnier, noté (st), (également appelé mouvement périodique ou

composante saisonnière) est périodique autour de la tendance, ses oscillations sont donc
d’amplitudes similaires et leur périodicité est inférieure ou égale à la période étudiée. C’est
des variations qui résultent de répétitions d’événements plus au moins réguliers dont les
causes peuvent être diverses.
• Les variations accidentelles, notées (ℇt), (également appelées mouvement résiduel ou

composante résiduelle) sont des fluctuations ponctuelles de forte amplitude dues à des
facteurs exceptionnels, imprévisibles, ou à des fluctuations irrégulières de la série (grèves,
intempéries, krachs, etc.). Ces variations sont celles qui ne peuvent être expliquées ni par la
tendance et ni par les variations saisonnières.
Notons que ces quatre composantes ne sont pas nécessairement présentes dans tous les cas et leur
existence peut notamment dépendre de l’intervalle de temps entre deux dates d’observation
successives.
Dans le graphique ci-dessous, nous illustrons les trois composantes (ft , St , ℇt).
12
Pour pouvoir distinguer la tendance des fluctuations cycliques, il faut disposer de la série brute sur une très longue période. Il est
généralement très difficile de dissocier les deux.

Le mouvement saisonnier
Tendance
Variations accidentelles
Yt : variable observée
Saison
Temps (t)
En prenant en considération ces trois composantes, nous pouvons nous intéresser à leur mode de
composition.
Trois types de situations coexistent :
• Modèle Additif (yt = ft + st +ℇt)

Dans le cas d’un modèle additif, les fluctuations sont d’amplitude constante autour de la tendance.
Ceci se traduit par un nuage de points limité par deux droites parallèles.
Il s’agit d’un modèle où la tendance, la composante saisonnière et les variations accidentelles sont
additives.
• Modèle Multiplicatif (yt = ft ×st × ℇt)

Dans le cas d’un modèle multiplicatif, les fluctuations sont d’amplitudes liées à la valeur de la
tendance. Ceci se traduit par un nuage de points situé entre deux droites concourantes. Ce modèle
est aussi appelé modèle multiplicatif complet.
Il s’agit d’un modèle où la tendance, la composante saisonnière et les variations accidentelles
forment une combinaison multiplicative.
• Modèle Mixte : yt = (ft ×st ) + ℇt

Il s’agit d’un modèle où l’addition et la multiplication sont utilisées. La composante saisonnière
agit dans ce modèle de façon multiplicative, tandis que les variations accidentelles sont additives.
Ce modèle est aussi appelé modèle multiplicatif.

1. Présentation de la série chronologique
Avant toute analyse, les données d’une série chronologique doivent être représentées par une
courbe exprimant une continuité de l’évolution de la variable étudiée.
Ainsi, dans le graphique, les points sont reliés par des segments pour traduire la chronologie. Le
temps est en général noté t et prend comme valeurs 1,2,…,n lorsqu’on dispose de n périodes, et les
modalités de la variable étudiée sont notées yt.
D’un tableau de contingence avec n lignes et p colonnes, nous pouvons représenter les données
d’une série chronologique sous plusieurs formes, comme dans le tableau ci-dessous :
t yt
1 y1
2 y2
3 y3
n yn
Exemple 1
Nous disposons dans le tableau ci-dessous de la répartition trimestrielle des ventes d’un produit
durant 3 années. Cette série chronologique peut être représentée par plusieurs types de graphiques,
comme illustré plus bas.
Répartition des ventes d’un produit en milliers de Dirhams

Année 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre
2011 216 208 204 215
2012 215 212 209 225
2013 221 219 215 230
Source : ….

Avant de représenter ces données sous forme de graphique, nous pouvons les représenter sous
forme d’un tableau qui sera composé de n lignes tel que n =12, comme ci-dessous :

t yt
1 216
2 208
3 204
4 215
5 215
6 212
7 209
8 225
9 221
10 219
11 215
12 230
Source : …
Représentation sous forme de graphique :
Yt
235$
230$ 230$
225$
225$
221$ 219$
220$
215$ 215$
215$ 216$ 215$
212$
210$ 208$ 209$
205$ 204$
200$
195$
190$
1$ 2$ 3$ 4$ 5$ 6$ 7$ 8$ 9$ 10$ 11$ 12$

Source : …

Représentation superposée des données (Chronogramme parallèle) :
235
230 230
225 225
221
219
220 2011
215
216
2012
215 215
215 212
209 2013
210
208 204
205
200
1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre
Source : …
Ce dernier graphique permet de mettre en évidence une éventuelle variation trimestrielle et le

caractère propre de chaque trimestre. Ces données peuvent être aussi représentées sous forme d’un
graphique «Radar » comme illustré ci-dessous.
Représentation des données dans un graphique « Radar » :
1er trimestre
230
225
221
220
215
210
205
200
2011
230 195
219
4ème trimestre 190
2ème trimestre 2012
2013
215
3ème trimestre
Source : …

2. Choix du modèle de décomposition : modèle additif ou multiplicatif ?
On peut noter qu’il existe trois méthodes pour choisir le modèle de décomposition d'une série
chronologique. Parmi celles-ci, deux méthodes sont graphiques et une méthode est analytique. La
méthode analytique est plus fiable, puisque les interprétations qu’on peut déduire suite aux
méthodes graphiques sont parfois imprécises ou approximatives.
2.1 Méthode de la bande
Cette méthode graphique consiste à tracer deux droites, une qui passe le plus près par les
minimums et une qui passe le plus près par les maximums. Nous pouvons ainsi avoir deux cas :
o Le cas où les deux droites sont à peu près parallèles, ce qui signifie que l’amplitude des
variations saisonnières reste plus au moins constante, et dans ce cas notre modèle peut être
un additif.
o Sinon, les deux droites ne sont pas parallèles, et dans ce cas notre modèle peut être un
multiplicatif.
Ci-dessous nous avons respectivement un graphique qui représente un modèle additif, suivi d’un
autre qui représente modèle multiplicatif.
Modèle additif
200
Les valeurs de la série statistique
La droite qui passe par les maximums
150
Tendance
100
Saison La droite qui passe par les minimums

50

Modèle multiplicatif
MODELE DE TYPE MULTIPLICATIF - METHODE DE LA BANDE

250
200
150
100
50
2.2 Méthode du profil
Cette méthode consiste à utiliser le graphique des courbes superposées. Le chronogramme parallèle
nous permet de superposer les saisons et ainsi vérifier si elles sont parallèles ou non. Nous pouvons
remarquer deux cas :
o Le cas où les différentes courbes qui caractérisent les saisons sont à peu près parallèles,
dans ce cas notre modèle peut être un additif.
o Le cas où les différentes courbes ne sont pas parallèles, dans ce cas notre modèle peut être
un multiplicatif.
Ci-dessous nous avons un exemple (avec des chiffres différents de l’exemple 1) d’un graphique qui
représente un modèle additif. Notons que pour chaque année, nous avons relevé 8 observations
équidistantes.
235
230
225
220
215 2011
210 2012
205 2013
200
195
190
T1 T2 T3 T4 T5 T6 T7 T8
Source : …

2.3 Méthode de Buys et Ballot
A partir de la série de données brutes, la méthode de Buys et Ballot consiste à calculer la moyenne
et l’écart-type pour chacune des périodes considérées, puis à vérifier le lien ou la relation entre ces
deux indicateurs en utilisant la méthode des MCO.
Nous pouvons ainsi avoir deux cas :
o Lorsque l’écart-type n’est pas en fonction de la moyenne, c’est-à-dire que la pente de la
droite estimée est très proche de zéro (a ≈ o) ou égale à zéro (a = o), le modèle est
additif.
o Si l'écart-type est en fonction de la moyenne, c’est-à-dire que la pente de la droite
estimée est différente de zéro (a ≠ 0), le modèle est multiplicatif.
Exemple 2
On considère dans le tableau ci-dessous une répartition du Chiffre d’Affaires (CA) trimestriel
d’une entreprise X en milliers de Dirhams, pendant quatre ans :
Répartition du CA trimestriel en milliers de Dirhams

Année 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre
2013 116 110 108 114
2014 129 122 119 126
2015 140 133 130 137
2016 153 146 143 150
Source : …
Afin d’utiliser la méthode de Buys et Ballot, nous devons en premier lieu calculer la moyenne et
l’écart-type qui correspond à chaque période.

1er 2ème 3ème 4ème
Année Moyenne Ecart-type
trimestre trimestre trimestre trimestre
2013 116 110 108 114 112 3,1623
2014 129 122 119 126 124 3,8079
2015 140 133 130 137 135 3,8079
2016 153 146 143 150 148 3,8079
Source : …

En utilisant la méthode des MCO nous obtenons a = 0.0162 qui est proche de 0. Nous pouvons
donc déduire que le modèle est additif.
Le graphique ci-dessous représente le lien entre la moyenne et l’écart-type.
4.40
4.20 y = 0.0162 x + 1.5486
4.00 R² = 0.59271
3.80
Ecart-type
3.60
3.40
3.20
3.00
100 110 120 130 140 150
Moyenne
Relation entre la moyenne et l’écart-type de chaque période

Source : …
Ce résultat peut être confirmé par une méthode graphique, telle que la méthode de la bande. En
traçant deux droites, l’une qui passe le plus près par les minimums et l’autre par les maximums,
nous pouvons remarquer qu’elles sont parallèles, comme dans le graphique ci-dessous :
200
180
160
153 150
146
140 140 143
137
133 130
129 126
122
120 119
116 110 114
108
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Source : …

3. Analyse d’une série chronologique
L’analyse d’une série chronologique consiste à isoler ses trois composantes afin de les étudier. En
d’autres termes, cette analyse se fonde sur la décomposition de l’évolution d’une variable en
plusieurs composantes.
Notons qu’une représentation graphique est parfois nécessaire afin d’avoir une idée sur les
composantes d’une série chronologique, pour l’analyser par la suite.
L’analyse d’une série chronologique porte dans un premier temps, sur la détermination de la
tendance, suivie d’une analyse de la composante saisonnière et par la suite de la détermination de
la composante résiduelle. Avant d’expliciter ces trois étapes, notons deux concepts intéressants qui
sont le « lissage » et le « filtrage ».
• Le lissage d’une série chronologique est une transformation qui limite l’amplitude des
oscillations de toutes ses composantes, y compris celles qui ne sont pas périodiques. Ceci
dit, le lissage permet d’éliminer ou d’amortir les mouvements cycliques, saisonniers et
accidentels. Notons que la méthode des moyennes mobiles (une méthode qui sera détaillée
plus bas) lisse toujours une série chronologique, quelque soit l’ordre des moyennes.
• Le filtrage d’une série chronologique est une transformation qui a pour but d’éliminer
totalement les fluctuations périodiques sans avoir, à la mesure du possible, une influence
sur les composantes non périodiques de la série. Comme pour le lissage, la méthode des
moyennes mobiles filtre une série chronologique, si celle-ci présente un mouvement
périodique, de périodicité constante et si l’ordre des moyennes est égal à cette périodicité.
3.1 Analyse et détermination de la tendance
Comme précisé auparavant, l’analyse d’une série chronologique porte en premier lieu sur la
détermination de la tendance. Cette dernière consiste à un lissage des « irrégularités ». Trois
méthodes peuvent être utilisées : la méthode graphique, la méthode analytique et la méthode
empirique.

• Méthode graphique
La détermination de la tendance peut être faite selon une approche exploratoire, en utilisant la
méthode des points moyens ou la méthode de Mayer présentée auparavant.
• Méthode analytique
Lorsque nous prenons en considération une série chronologique, nous pouvons noter que la
variable explicative est le temps (t) et la variable expliquée est yt.
Nous pouvons ainsi utiliser la méthode des MCO afin d’estimer une droite qui passera le plus près
possible par l’ensemble des observations. Nous estimons donc « a » et « b » dans une
équation sous forme de : yt = at+b, qui permet d’associer à chaque valeur t une valeur de la
tendance, notée yt.
En outre, « a » et « b » peuvent être estimés selon les deux formules ci-dessous :
Cov T, Y
a= 𝐞𝐭 b = y − at
Var T
Application
En prenant en considération l’exemple 2, nous pouvons calculer « a » et « b » et estimer la droite

de régression, qui représente le lien linéaire entre la variable étudiée et le temps, comme représenté
dans le graphique ci-dessous.
160 153
y = 2.7353t + 106.5 150
150 146
R² = 0,8343
140
140 133
137 143
129
130 122
126 130
120 116
110 119
114
110
108
100
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Source : …

Si les fluctuations de la série autour de la tendance sont trop importantes, on pourra par la suite les
atténuer en utilisant des moyennes adaptées. Ceci dit, nous pouvons diminuer l’amplitude des
oscillations de toutes les composantes de la série, en calculant des moyennes successives. Pour ce
faire, il existe plusieurs méthodes qui sont présentées dans la section qui aborde les méthodes
empiriques.
Attention !
Notons que a = 2.7353 ; ce résultat ne peut dans aucun cas être utilisé pour conclure que le modèle
est additif puisque a ≠ 0 ! Il faut éviter la confusion, ici le « a » représente la pente de la droite
estimée du le lien entre « yt » et « t », et non pas entre la moyenne est l’écart-type correspondants
aux périodes. D’autant plus que dans la présente étape, nous analysons la tendance, ceci dit
l’application de la méthode de Buys et Ballot n’a pas de sens.
• Méthodes empiriques
Les méthodes empiriques utilisent les moyennes arithmétiques pour procéder au lissage d’une série
chronologique. Nous pouvons noter la méthode des moyennes échelonnées, la méthode des
moyennes mobiles non centrées et la méthode des moyennes mobiles centrées.
o Méthode des moyennes échelonnées
Afin de lisser les fluctuations, on peut remplacer des données périodiques par leur moyenne. Ces
moyennes ne subissent pas l’influence des variations saisonnières et ont l’avantage de minimiser
les extrêmes.
La méthode des moyennes échelonnées consiste ainsi à remplacer un certain nombre de données
consécutives par leur moyenne.
Si nous reprenant l’exemple 2, nous pouvons calculer la moyenne échelonnée pour chaque période,
qui représente la moyenne arithmétique de quatre trimestres de chaque année. Le tableau
ci-dessous représente les valeurs des moyennes échelonnées des quatre années.

Moyennes échelonnées de quatre années
Année Moyenne échelonnée

2013 112
2014 124
2015 135
2016 148
Source : …
Par la suite, nous pouvons tracer une droite qui passe par ces moyennes, sachant que chacune a été
affectée en abscisse au milieu correspondant à chaque année, comme dans le graphique
ci-dessous :
160
148
150
135
140
130 124
120 112
110
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Représentation des moyennes échelonnées

Source : …
Cette méthode est simple à mettre en œuvre, mais elle a l’inconvénient de trop simplifier et réduire
la réalité. Ceci dit, nous perdons beaucoup d’information.
Pour pallier cet inconvénient, la méthode des moyennes mobiles est utilisée pour analyser et
déterminer la tendance d’une série chronologique.
Cette méthode permet de suivre le phénomène étudié par chevauchement, et on distingue deux
méthodes : la méthode des moyennes mobiles non centrées et la méthode des moyennes mobiles
centrées.
o Méthode des moyennes mobiles non centrées
La méthode des moyennes mobiles non centrées d’ordre p à la date t (MMp(t) nc), consiste à
remplacer une valeur observée yt par la moyenne arithmétique des p valeurs antérieures.

1 p
Ceci dit : MMp( t )nc = ∑ yt
p t =1
1 p 1 p +1
On remplace ainsi yp par : ∑ t y et yp+1 par : ∑ yt et ainsi de suite.
p t =1 p t =2
Notons que les moyennes mobiles non centrées « raccourcissent » la série, car aucune moyenne
mobile n’est affectée aux (p-1) premières dates.
Si nous reprenant l’exemple 2, nous pouvons calculer par exemple :
1 4 116 + 110 + 108 + 114

MM 4(4)nc = ∑ yt = = 112
4 t =1 4
1 5 110 + 108 + 114 + 129

MM 4(5)nc = ∑ yt = = 115,25
4 t =2 4
Toutes les moyennes mobiles non centrées d’ordre 4, correspondantes à t = 4,…,16 sont présentées
dans le tableau ci-dessous.
Moyennes mobiles non centrées d’ordre 4
t yt MM4 (t) nc
1 116 --
2 110 --
3 108 --
4 114 112
5 129 115,25
6 122 118,25
7 119 121
8 126 124
9 140 126,75
10 133 129,5
11 130 132,25
12 137 135
13 153 138,25
14 146 141,5
15 143 144,75
16 150 148
Source : …

Le graphique ci-dessous nous permet de visualiser en même temps la série de données et le lissage
réalisé par les moyennes mobiles non centrées d’ordre 4 (pourquoi 4 ? parce que dans cet exemple
nous avons une répartition par trimestre).
160
150 148
144.75
141.5
140 138.25
135
132.25
130 129.5
126.75 MM4 (t) nc
124
121
120 118.25
115.25
112
110
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Représentation des moyennes mobiles non centrées d’ordre 4

Source : …
o Méthode des moyennes mobiles centrées
La méthode des moyennes mobiles centrées d’ordre p, consiste à remplacer une valeur observée yt,
par la moyenne arithmétique des p valeurs centrées autour de yt.
Une moyenne mobile centrée d’ordre p à la date t (MMp(t)) est définie en prenant en considération
l’ordre p :
1 k
§ Si p est impair, (p = 2k + 1) alors MMp( t ) = ∑ yt + i
p i=− k
A titre d’exemple, la moyenne mobile centrée d’ordre 3, représente la moyenne de trois valeurs
centrées autour de la période choisie, y compris la valeur elle-même.
Les moyennes mobiles centrées d’ordre 3, sont notées MM3. En calculant ces moyennes, nous
pouvons remarquer qu’il manque une valeur au début et une valeur à fin de la série.
Notons que la valeur de « t » affectée à une moyenne mobile d’ordre 3 est en effet la médiane des
trois valeurs de « t » utilisées.

Puisque l’ordre est impair, affecter une valeur « t » à une moyenne mobile centrée d’ordre 3 ou
5…ne pose pas de problème. Mais, que se passe-t-il pour les moyennes mobiles d’ordre pair
comme MM4 ?
En suivant la même logique, une moyenne mobile d’ordre p = 4 est calculée en utilisant 4 valeurs,
par exemple, (y1 + y2 + y3 + y4) / 4. Cette dernière doit être donc affectée à une valeur « t »
médiane qui correspondra à 2.5 mais qui n’existe pas dans la série.
La moyenne mobile calculée avec les quatre valeurs suivantes est égale à (y2 + y3 + y4 + y5) / 4.
Elle doit être de même affectée à la date médiane de 3.5 et qui ne correspond à aucune valeur « t »
dans la série.
Pour pallier ce problème, on prend en considération la moyenne des deux moyennes (ci-dessus) qui
prend en compte les valeurs y1 , y2 , y3 , y4 et y5 , pour pouvoir lui affecter une valeur t=3. Ainsi
nous obtenons la moyenne mobile centrée d’ordre 4 égale à :
1 y1 + y 2 + y 3 + y 4 y 2 + y 3 + y 4 + y 5 y + y 2 + y 3 + y4 + y 2 + y 3 + y4 + y5
( + )= 1
2 4 4 8
1 1
y1 + y 2 + y 3 + y 4 + y 5
= 2 2
4
Ceci dit, pour former la première moyenne mobile centrée d’ordre 4, on utilise les 5 premières
observations dans une moyenne arithmétique pondérée, en affectant aux valeurs extrêmes (la 1ère
valeur et la 5ème valeur) le coefficient ½ et aux 3 valeurs centrales le coefficient 1. Cette moyenne
mobile centrée sera affectée à t = 3.
En général,
1 ⎡ k −1 1 1 ⎤
§ Lorsque p est pair (p = 2k), MMp( t ) = ⎢ ∑ yt + i + yt −k + yt + k ⎥
p ⎣ i = − k +1 2 2 ⎦
En calculant les MM4, nous pouvons remarquer qu’il manque deux valeurs au début et deux
valeurs à fin de la série.
En d’autres termes, les moyennes mobiles centrées « raccourcissent » la série, car aucune
moyenne mobile n’est affectée aux (k) premières dates et (k) dernières dates « t ».

Ainsi, nous mettons en exergue, qu’une série des moyennes mobiles centrées comporte moins
d’observations que la série brute.
Enfin, notons que l’ordre des moyennes mobiles est choisi en prenant en considération la
périodicité des données. A titre d’exemple, p = 7 pour des données journalières (7j/semaine), p = 4
pour des données trimestrielles (4 trimestres/année).
Application :
Reprenant l’exemple 2,
t yt MM3 (t) MM4 (t)

1 116 -- --
2 110 111,33 --
3 108 110,67 113,63
4 114 117,00 116,75
5 129 121,67 119,63
6 122 123,33 122,50
7 119 122,33 125,38
8 126 128,33 128,13
9 140 133,00 130,88
10 133 134,33 133,63
11 130 133,33 136,63
12 137 140,00 139,88
13 153 145,33 143,13
14 146 147,33 146,38
15 143 146,33 --
16 150 -- --
Source : …
La représentation graphique ci-dessous montre le lissage réalisé par la courbe des moyennes
mobiles centrées d’ordre 3 et d’ordre 4.

160
150
140
Données brutes
130
MM3(t)
120 MM4(t)
110
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Source : …
3.2 Analyse de la composante saisonnière

Série Corrigée des Variations Saisonnières (CVS) & série ajustée
L’estimation de la tendance par la méthode des moyennes mobiles centrées présente deux
inconvénients :
• Elle ne peut pas donner d’estimation pour les premières et les dernières dates de la
série.
• Si la périodicité du mouvement saisonnier est longue, par exemple 12 mois,
l’obligation de choisir une MM12 pour assurer le filtrage du mouvement saisonnier
entraîne un lissage qui risque d’être excessif.
Un moyen pour pallier ces deux inconvénients est de corriger les variations saisonnières en
utilisant la méthode des écarts saisonniers ou la méthode des rapports saisonniers, selon le modèle
de la série. On obtiendra ainsi, une série Corrigée des Variations Saisonnières CVS, aussi nommée
série désaisonnalisée, en éliminant les influences saisonnières.
La question qui peut être posée est la suivante : Quelles étapes peut-on suivre pour corriger les
variations saisonnières et obtenir une série CVS ?
Nous pouvons noter 6 Etapes qui sont explicitées ci-dessous.

Etape 1
La composante saisonnière st (écart saisonnier ou rapport saisonnier) est une fonction périodique,
déterminée par p coefficients saisonniers qui mesurent l’influence saisonnière, notés S1, S2, S3….
Sp et qui vérifient que Si = Si+p.
o Dans un modèle additif, la composante saisonnière (écart saisonnier) est calculée selon la
formule suivante : st = yt - ft. Elle représente la différence entre l’observation et la tendance.
o Dans un modèle multiplicatif, cette composante saisonnière (rapport saisonnier) est
calculée selon la formule suivante : st = yt / ft. Elle représente ainsi le rapport entre
l’observation et la tendance.
Etape 2
On calcule ensuite pour chaque saison, la moyenne arithmétique des écarts saisonniers, ou des
rapports saisonniers correspondants à cette saison (St) qui représente le coefficient saisonnier.
o Notons que si on dispose de données sur n périodes, c’est à dire np dates « t », le coefficient
n −1
1
saisonnier St correspondant à la saison i (i=1,….,p) sera égal à : Si = ∑s i + kp
n k =0
Si on dispose par exemple, de données mensuelles sur 3 années, on obtiendra le coefficient

2
1 1
saisonnier de janvier i=1 égal à : S1 = ∑s 1+ k 12 = ( s + s13 + s25 )
3 k =0 3 1
Il est important de souligner deux principes fondamentaux qui sont à la base de la détermination
des coefficients saisonniers dans un modèle théorique.
§ La répétition à l’identique : on suppose que toute variation saisonnière se répète
identiquement à chaque période qui représente un ensemble de saisons. Ceci dit, Si le
nombre de saisons d’une série chronologique est p, on déterminera p coefficient saisonnier.
§ La neutralité de l’influence de la variation saisonnière sur chaque période : on suppose
que la composante saisonnière est parfaitement périodique, qu’à l’intérieur d’une période le
phénomène saisonnier est neutre, et les variations saisonnières se compensent.

Ceci dit :
• Dans le cas d’un modèle additif, pour que l’influence des variations saisonnières soit
neutre sur une période, la valeur moyenne des coefficients saisonniers St doit être
nulle, c’est à dire :
p
1
∑ Si = 0
p i=1
• Dans le cas d’un modèle multiplicatif, pour que l’influence des variations
saisonnières soit neutre sur une période, la valeur moyenne des coefficients
saisonniers St doit être égale à 1, c’est à dire :
p
1
∑ Si = 1
p i=1
Etape 3
Dans cette étape on s’assure du principe de neutralité de l’influence des variations saisonnières.
Dans le cas d’un modèle additif, on vérifie que la valeur moyenne des coefficients saisonniers est
nulle, et dans le cas d’un modèle multiplicatif on vérifie que la valeur moyenne des coefficients
saisonniers est égale à 1. Si ce n’est pas le cas, on introduit alors les coefficients saisonniers
corrigés S't selon l’étape 4.
Etape 4
Dans le cas d’un modèle additif, on calcule les coefficients saisonniers corrigés S'i tels que la
somme de ces coefficients est égale à 0, c’est à dire :
p
∑S' i =0
i=1
Pour ce faire, il suffit de soustraire à chaque coefficient Si la valeur moyenne des Si qui représente :
p
1
S= ∑Si ; tel que S'i = S i - 𝐒
p i=1
Dans le cas d’un modèle multiplicatif, il faut calculer les coefficients saisonniers corrigés S'i tel que
p p
1
S'i = Si / 𝐒 , on aura alors ∑ S'i = p ceci dit, ∑ S'i = 1
i=1 p i=1

Par la suite, nous procèderons à la cinquième étape afin de calculer la série corrigée des variations
saisonnières CVS.
Etape 5
Rappelons que la série corrigée des variations saisonnières CVS est une série obtenue à partir de
la série brute en éliminant la composante saisonnière. Elle contient la tendance et la composante
accidentelle.
La série CVS exprime ce qu’aurait été la réalité du phénomène étudié s’il n’y avait pas de
variations saisonnières. En pratique, les économistes utilisent les séries CVS dans de nombreux
domaines, notamment en analyse conjoncturelle, pour éviter les erreurs d’interprétation des
évolutions d’une période à une autre.
On considère ci-dessous, le cas du modèle additif et le cas du modèle multiplicatif pour déduire la
série CVS.
• Cas d’un modèle additif
Dans le cas du modèle additif, nous pouvons noter que Ycvs = Y - S, soit pour toute date « t », i
désigne la saison relative à la date « t » :
p
ycvs(t) = yt - Si dans le cas où ∑S i =0
i=1
p
ycvs(t) = yt - S'i dans le cas où ∑S i ≠0
i=1
• Cas d’un modèle multiplicatif
Dans le cas du modèle multiplicatif, nous pouvons noter que Ycvs = Y/S, soit pour toute date « t », i
désigne la saison relative à la date « t » :
p
1
ycvs(t) = yt/Si dans le cas où ∑ Si = 1
p i=1
p
1
ycvs(t) = yt//S'i dans le cas où ∑ Si ≠ 1
p i=1

Après le calcul de la série CVS, nous pouvons passer à la dernière étape pour calculer la série
ajustée.
Etape 6
La série ajustée est obtenue à partir de la tendance générale en intégrante la composante

saisonnière. Elle exprime l’évolution qu’aurait connue la variable si le mouvement saisonnier avait
été parfaitement régulier de période en période.
Notons que lorsque la tendance est déterminée par la méthode des MCO, la série ajustée peut être
utilisée pour effectuer des prévisions, car elle ajuste au mieux le nuage de points en prenant en
considération des variations saisonnières.
§ Cas d’un modèle additif
Pour restituer le mieux les variations de la variable étudiée, il faut prendre en compte les variations
saisonnières de celle-ci. On additionne ainsi la composante saisonnière à la tendance.
Soit Yaj la variable associée à la série ajustée, alors Yaj = T + S. En pratique, pour déterminer la
série ajustée, il faut calculer les yt aj = f t + S'i , i étant la saison associée à la date t.
§ Cas d’un modèle multiplicatif
Pour restituer le mieux les variations de la variable étudiée, il faut multiplier la composante
saisonnière par la tendance.
Soit Yaj la variable associée à la série ajustée, alors Yaj = G × S. En pratique, pour déterminer la
aj
série ajustée il faut calculer les yt = f t × S'i , i étant la saison associée à la date t.
A partir des valeurs ft et St, on peut déduire les valeurs résiduelles. Nous passons ainsi à la section
suivante qui concerne l’analyse de la composante accidentelle.
3.3 Analyse de la composante accidentelle
Pour analyser la composante accidentelle ℇt, nous distinguons entre le cas d’un modèle additif et le
cas d’un modèle multiplicatif.

§ Dans le cas d’un modèle additif

aj
ℇt = yt - (ft +S'i) = yt - yt
§ Dans le cas d’un modèle multiplicatif

aj
ℇt = yt / yt
3.4 Application (section 3.2 & section 3.3)
Reprenant l’exemple 2, (cas d’un modèle additif), nous pouvons choisir d’utiliser la méthode des
MCO pour estimer la tendance, tel que ft = 2,74t + 106,5. Le tableau ci-dessous nous explicite les
calculs pour obtenir la série Corrigée des Variations Saisonnières (CVS), la série ajustée et la
composante accidentelle.
t yt ft st St S't ytcvs yt ajusté ℇt

1 116 109,24 6,76 8,82 8,86 107,14 118,10 -2,10
2 110 111,98 -1,98 -0,67 -0,63 110,63 111,35 -1,35
3 108 114,72 -6,72 -6,16 -6,12 114,12 108,60 -0,60
4 114 117,46 -3,46 -2,15 -2,11 116,11 115,35 -1,35
5 129 120,2 8,80 8,82 8,86 120,14 129,06 -0,06
6 122 122,94 -0,94 -0,67 -0,63 122,63 122,31 -0,31
7 119 125,68 -6,68 -6,16 -6,12 125,12 119,56 -0,56
8 126 128,42 -2,42 -2,15 -2,11 128,11 126,31 -0,31
9 140 131,16 8,84 8,82 8,86 131,14 140,02 -0,02
10 133 133,9 -0,90 -0,67 -0,63 133,63 133,27 -0,27
11 130 136,64 -6,64 -6,16 -6,12 136,12 130,52 -0,52
12 137 139,38 -2,38 -2,15 -2,11 139,11 137,27 -0,27
13 153 142,12 10,88 8,82 8,86 144,14 150,98 2,02
14 146 144,86 1,14 -0,67 -0,63 146,63 144,23 1,77
15 143 147,6 -4,60 -6,16 -6,12 149,12 141,48 1,52
16 150 150,34 -0,34 -2,15 -2,11 152,11 148,23 1,77
Source : …

Le tableau ci-dessous nous explicite les coefficients saisonniers.
Coefficients saisonniers
2013 2014 2015 2016 Moyenne
T1 6,76 8,80 8,84 10,88 8,82
T2 -1,98 -0,94 -0,90 1,14 -0,67
T3 -6,72 -6,68 -6,64 -4,60 -6,16
T4 -3,46 -2,42 -2,38 -0,34 -2,15
Source : …
4. Prévision
L’un des objectifs principaux de l’analyse d’une série chronologique est de faire des prévisions. En
fait, la prévision consiste à prévoir des valeurs futures à partir des valeurs observées.
En d’autres termes, la prévision est une continuité du calcul en prenant en considération la série
ajustée.
Notons que la tendance et les coefficients saisonniers sont utilisés pour faire des prévisions. Ceci
dit, l’équation de la tendance peut être utilisée pour prévoir à une date « t » la variable Yt. Nous
soulignons la différence entre les deux cas :
§ Dans le cas d’un modèle additif
𝒚𝒕 = ft + S 'j
§ Dans le cas d’un modèle multiplicatif
𝒚𝒕 = ft × S 'j
Application :
En prenant l’exemple 2, pour calculer une prévision pour t = 23, nous pouvons utiliser la formule :
ft = 2.7353t + 106.5 , ou en arrondissant la valeur de la pente : ft = 2.74t + 106.5
Puisque le modèle est additif, on utilise :

𝒚𝒕 = ft + S 'j = ( 2.74t + 106.5 ) + S 'j
= ( 2.74 × (23) + 106.5) + (-6.12)
= 163.40 milliers de Dirhams.

Notons que la tendance observée antérieurement se poursuit, si les variations saisonnières

continuent de se produire de la même façon et bien évidemment si aucun incident ne perturbe
l’activité de l’entreprise, son CA pourrait être proche de 163.40 milliers de Dirhams au 3ème
trimestre de 2018 (t = 23).

Partie 7. Indices simples et synthétiques

Dans plusieurs domaines, il faut savoir décrire et analyser l’évolution temporelle de différentes
grandeurs et de synthétiser leur évolution simultanée13. L’indicateur fondamental de l’évolution des
variables économiques et sociales est l’indice.
On distingue deux types d’indices : les indices simples portant sur une seule grandeur et les indices
synthétiques portant sur des grandeurs complexes de même nature (ex. indice des prix regroupant
un panier de biens).
Si les grandeurs sont de natures différentes (ex. indice boursier de Shanghai), les indices sont ainsi
nommés indices composites.
En d’autres termes, un indice synthétique, est un indicateur de tendance centrale d’une distribution
d’indices simples. Les indices synthétiques sont souvent des moyennes d’indices simples, comme
la moyenne arithmétique pour l’indice de Laspeyres, et la moyenne harmonique pour l’indice de
Paasche (deux indices qui seront introduits dans cette partie).
Notons que les indices ont été conçus pour effectuer des comparaisons sur des variables
économiques mesurables. Ils synthétisent en un seul nombre les modifications affectant un
ensemble de variables, nous pouvons citer par exemple l’indice des prix à la consommation.
En économie par exemple, chaque année, les consommateurs achètent des dizaines de produits et
de services à des prix et à des quantités variables. L’évolution, par exemple, du prix de chacun de
ces produits peut être mesurée par un indice simple de prix.
Par contre, les indices synthétiques présentés dans cette section résument, par un seul indicateur,
une série d'indices de prix ou de quantité.
Avant de définir les indices, nous pouvons souligner qu’un indice évalue une variation est non pas
un niveau. Il mesure ainsi une variation en valeur relative et non pas en valeur absolue14.
13
Il faut auparavant savoir comparer les données. On peut noter quatre principaux indicateurs qui sont utiles à cette comparaison :
les parts, les ratios qui sont des rapports jugés significatifs entre deux grandeurs, les écarts absolus et les écarts relatifs.
14
En 2013, un indice base 100 en 2012, du prix du pain est de 125 et celui du lait de 115 n’indique pas que le prix du pain est
supérieur à celui du lait, mais que le pain a augmenté de 25% de 2012 à 2013 et le lait de 15% dans la même période.

La question qui peut être posée : quelle est la différence entre la variation absolue et la variation
relative ?
Nous allons ainsi définir la variation absolue, la variation relative et aussi le coefficient
multiplicateur15.
Notons que la variation absolue, la variation relative et les indices simples ou élémentaires sont les
principaux indicateurs qui permettent de mesurer l’évolution des données.
1. Variation et Coefficient multiplicateur
• Variation absolue
La variation absolue d’une Grandeur G de la date 0 à la date t est la différence entre la valeur
finale et la valeur initiale. Cette variation absolue est ainsi notée :
∆𝐆 = 𝐆𝐭 − 𝐆𝟎
Notons qu’une variation absolue positive implique une augmentation et une variation négative une
indique une baisse.
• Variation relative
La variation relative d’une Grandeur G de la date 0 à la date t est le rapport entre la variation
absolue et la valeur initiale de cette grandeur. Cette variation relative16 est notée :
∆𝐆 𝐆𝐭 − 𝐆𝟎 𝐆𝐭
= = −𝟏
𝐆𝟎 𝐆𝟎 𝐆𝟎
Le terme de variation relative est synonyme au taux de variation et au taux de croissance qui peut
éventuellement être positif ou négatif.
• Coefficient multiplicateur
Quand une grandeur passe de la valeur G0 à la valeur Gt, on peut calculer le coefficient
multiplicateur en utilisant la formule :
𝐆𝐭
𝐦=
𝐆𝟎
15
La moyenne géométrique est principalement utilisée pour calculer les coefficients multiplicateurs moyens pour
déduire les taux de variation.
16
La variation relative s’exprime souvent en pourcentage.

Notons qu’un coefficient > 1 traduit une hausse, par contre un coefficient < 1 traduit une baisse.
Il est aussi important de souligner que puisque les variations relatives ne sont pas additives, ce fait
conduit à la construction d’un indicateur très proche de la variation relative, mais qui a des
propriétés fort intéressantes. Cet indicateur est l’indice simple ou élémentaire qui est explicité dans
la section suivante.
2. Indices simples ou élémentaires
Pour décrire les variations de grandeurs simples, on compare leurs valeurs dans le temps ou
dans l’espace en effectuant le rapport des valeurs de la grandeur considérée à deux dates
différentes (indice chronologique), ou dans des lieux différents (indice spatial).
Nous introduirons dans cette section un indice de base 1 et un indice de base 100.
• Indice de base 1
On appelle indice simple ou élémentaire de la grandeur simple G (variable), à la date t, base 1 à la

date 0, le rapport noté :
𝐆𝐭
𝐈𝒕/𝟎 (𝐆) =
𝐆𝟎
La date 0 est appelée la date de référence et la date t, la date courante17. Notons que 𝐈𝟎/𝟎 (𝐆) = 𝟏.
• Indice de base 100
On appelle indice élémentaire de la grandeur simple G, à la date t, base 100 à la date 0, le rapport
noté :
𝐆𝐭
𝐈𝒕/𝟎 (𝐆) = ( ) × 𝟏𝟎𝟎
𝐆𝟎
Notons que 𝐈𝟎/𝟎 𝐆 = 𝟏𝟎𝟎.
Il est important de souligner les points suivants :
o Un indice ne possède pas d’unité.
o Un indice supérieur à 100 représente une hausse.
17
En économie, on utilise souvent l’année de base ou l’année de référence pour dénommer la date 0.

o Un indice inférieur à 100 représente une baisse.

o Les bases 1 ou 100 n’apparaissent pas dans la notation.
Comme précisé auparavant, les indices élémentaires possèdent des propriétés intéressantes et qui
manquent aux pourcentages.
Ces propriétés sont les suivantes :
o Les indices élémentaires sont transférables.
o Les indices élémentaires sont réversibles.
o Les indices élémentaires sont enchaînés.
o Les indices élémentaires se caractérisent par une circularité.
3. Indices synthétiques
L’un des défis majeurs concernant la mesure de l’évolution des données est celui de la synthèse
de l’évolution simultanée de plusieurs grandeurs. Par exemple, chaque année, les consommateurs
achètent des dizaines de produits et de services à des prix et dans des quantités variables.
L’évolution, par exemple, du prix de chacun de ces produits peut être mesurée par un indice simple
de prix. Les indices synthétiques présentés dans cette section résument par un seul indicateur, une
série d’indices de prix ou d’indices de quantités.
Avant d’introduire ces indices synthétiques, notons la définition d’un indice de la valeur. Un indice
de la valeur d’un panier de n produits à la date t, base 100 à la date 0 est égal à :
n
t t
∑P Q
i =1
i i
𝐈𝒕/𝟎 (𝐕) = ×𝟏𝟎𝟎

n
o o
∑P Q
i =1
i i
Cet indice n’est pas un indice de prix, il mesure à la fois l’évolution des prix et des quantités
consommées. D’où l’idée de calculer un indice de prix, et de fixer la structure de consommation en
fixant les quantités.

Dans cette section, nous allons introduire et définir les indices synthétiques de Laspeyres18 et de
Paasche19, indices de prix et de quantités. Ces indices respectent les principes suivants :
o En calculant un indice de prix, seuls les prix varient, les quantités restent constantes.
Si les quantités sont celles de l’année de base, nous calculons l’indice des prix de
Laspeyres. Si les quantités sont celles de l’année courante t, nous calculons l’indice
des prix de Paasche.
o En calculant un indice de quantité, seules les quantités varient, les prix restent fixes Si
les prix sont ceux de l’année de base, nous calculons l’indice des quantités de
Laspeyres. Si les prix sont ceux de l’année courante t, nous calculons l’indice des
quantités de Paasche.
• Indices de Laspeyres
Nous allons définir les deux indices de Laspeyres, le premier relatif aux prix et le deuxième relatif
aux quantités.
o Indice des prix de Laspeyres
On appelle indice des prix de Laspeyres, année t, base 100 l’année 0, l’indice suivant :
n
o
∑Q i Pi t
i =1
𝐋𝒕/𝟎 (𝐏) = ×𝟏𝟎𝟎
n
o o
∑Q
i =1
i Pi
Il est obtenu en fixant les quantités à l’année de base.
L’indice des prix de Laspeyres est la moyenne arithmétique pondérée des indices élémentaires de
prix. Les coefficients de pondération sont relatifs à l’année de base.
o Indice des quantités de Laspeyres
On appelle indice des prix de Laspeyres, année t, base 100 l’année 0, l’indice suivant :
18
Laspeyres, économiste et statisticien allemand (1834-1913).
19
Paasche, économiste et statisticien allemand (1851-1925).

n
o
∑P i Qit
i =1
𝐋𝒕/𝟎 (𝐐) = ×𝟏𝟎𝟎
n
o o
∑P
i =1
i Q i
Il est obtenu en fixant les prix à l’année de base.
L’indice des quantités de Laspeyres est la moyenne arithmétique pondérée des indices élémentaires
de quantités. Les coefficients de pondération sont relatifs à l’année de base.
En tant que moyenne arithmétique, l’indice de Laspeyres (des prix ou des quantités) présente la
propriété d’agrégation. Cette propriété est très utile pour le calcul de l’Indice des Prix à la
Consommation (IPC), l’un des indices synthétiques les plus connus. En effet, l’IPC est un
instrument de mesure de l’inflation qui permet d’estimer des prix des biens et des services
consommés par les ménages. Le rôle de l’IPC est triple : socio-économique, monétaire et financier
et bien évidemment économique.
• Indices de Paasche
Nous allons définir les deux indices de Paasche, le premier relatif aux prix et le deuxième relatif
aux quantités.
o Indice des prix de Paasche
On appelle indice des prix de Paasche, année t, base 100 l’année 0, l’indice suivant :
n
t t
∑Q P
i =1
i i
𝐏𝒕/𝟎 (𝐏) = ×𝟏𝟎𝟎

n
t o
∑Q P
i =1
i i
Il est obtenu en fixant les quantités à l’année courante.
L’indice des prix de Paasche est la moyenne harmonique pondérée des indices élémentaires de prix.
Les coefficients de pondération sont relatifs à l’année courante.

o Indice des quantités de Paasche
On appelle indice des quantités de Paasche, année t, base 100 l’année 0, l’indice suivant :
n
t t
∑P Q
i =1
i i
𝐏𝒕/𝟎 (𝐐) = n
×𝟏𝟎𝟎
t o
∑P Q
i =1
i i
Il est obtenu en fixant les prix à l’année courante.
L’indice des quantités de Paasche est la moyenne harmonique pondérée des indices élémentaires
de quantités. Les coefficients de pondération sont relatifs à l’année courante.
• Comparaison et utilisation des indices de Laspeyres et de Paasche
L’indice de Laspeyres est le plus couramment utilisé, car il permet de conserver la même
pondération pour toutes les années : celle de l’année de base. Cet avantage du point de vue des
calculs devient vite un inconvénient, car le panier « figé » s’éloigne de plus en plus de la réalité
économique. Pour l’indice des prix par exemple, l’indice de Laspeyres pondère les différents
articles proportionnellement aux habitudes de consommation du passé, alors que celui de Paasche
prend en compte les habitudes de consommation actuelles.
L’incorporation inévitable dans les indices des prix d’articles dont la quantité produite a nettement
augmentée et dont le prix relatif a de ce fait souvent diminué, introduit des disparités dans les
résultats obtenus pour les indices de Paasche et de Laspeyres.
On peut démontrer que la moyenne harmonique est inférieure ou égale à la moyenne arithmétique.
L’indice de Laspeyres étant une moyenne arithmétique des indices élémentaires et l’indice de
Paasche une moyenne harmonique, normalement, l’indice de Paasche est inférieur ou égale à
l’indice de Laspeyres.
Cependant, il faut prendre en compte que la situation est plus complexe. Les coefficients de
pondération étant différents peuvent influer sur la tendance de l’indice de Laspeyres à surestimer
les variations et sur celle de l’indice de Paasche à les sous-estimer.

• Indice de Fisher
Le choix entre les deux indices présente un certain arbitraire, ainsi le statisticien Fisher20 a proposé
un indice idéal qui est la moyenne géométrique des deux indices.
L’indice synthétique de Fisher est défini comme étant la moyenne géométrique des indices de
Laspeyres et de Paasche.
∗ Pour les prix : Ft / 0 ( P ) = Lt / o ( P ) × Pt / o ( P )
∗ Pour les quantités : Ft / 0 (Q ) = Lt / o (Q ) × Pt / o (Q )
Il est important de souligner que l’indice de Fisher est toujours compris entre l’indice de Paasche et
et l’indice de Laspeyres, car il représente leur moyenne géométrique.
Rappelons que ce support n’est pas une restitution du cours magistral, mais son complémentaire.
Il est disponible sur la plateforme MOODLE.
http://ead.uit.ac.ma/moodle/
Il est disponible aussi sur la plateforme CLASSROOM
20
Fisher, économiste, statisticien et mathématicien (1867-1947).

Support de Cours: Université Ibn Tofail Faculté D'économie Et de Gestion Filière: SEG (S1) Licence Fondamentale

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Support de Cours: Université Ibn Tofail Faculté D'économie Et de Gestion Filière: SEG (S1) Licence Fondamentale

Transféré par

Droits d'auteur :

Formats disponibles

Université Ibn Tofail

Faculté d'économie et de gestion

Filière : SEG (S1)

Module : Statistique descriptive

Professeur : Ilham EL HARAOUI

Année Universitaire 2021 - 2022

L’objectif principal de ce cours de la statistique descriptive est de donner aux étudiants

En d'autres termes, les objectifs escomptés de ce cours sont les suivants :

Le contenu du cours durant ce semestre est divisé en 7 parties :

Le cours est organisé comme suit :

Prof. Ilham EL HARAOUI

consultables gratuitement en ligne, un glossaire et d’autres documents et informations.

Prof. Ilham EL HARAOUI

Le contenu de chacune des parties est le suivant :

Partie 1 : Introduction et concepts de base de la statistique descriptive___________________6

Partie 2 : Présentations des données sous forme de tableaux et de graphiques____________13

Partie 3 : Indicateurs statistiques_________________________________________________29

Prof. Ilham EL HARAOUI

Partie 4 : Statistique descriptive bi-variée__________________________________________50

Partie 5 : Régression linéaire simple______________________________________________65

Prof. Ilham EL HARAOUI

Partie 6 : Les séries chronologiques_______________________________________________70

Partie 7 : Indices simples et synthétiques___________________________________________96

Partie 1. Introduction et concepts de base de

1. A quoi peut servir la statistique descriptive ?

2. Définition de la statistique et des statistiques

3. Domaines d’application de la statistique

4. Etape d’une étude statistique

Prof. Ilham EL HARAOUI

4.1 Objet et Champs de l’étude :

4.2 Plan de l’étude

4.3 Campagne de mesures

4.4 Traitement des données brutes

Prof. Ilham EL HARAOUI

§ Analyser les données.

4.5 Présentation des résultats

4.6 Prise de décision

Prof. Ilham EL HARAOUI

o Un recensement : un processus de collecte de données relatives à la population entière.

Répartition des étudiants selon l’option du BAC

Prof. Ilham EL HARAOUI

Prof. Ilham EL HARAOUI

6. Variables qualitatives et variables quantitatives

Pour une variable qualitative, on distingue deux types :

Pour une variable quantitative, on distingue deux types :

Prof. Ilham EL HARAOUI

Variable Qualitative Variable Quantitative

Prof. Ilham EL HARAOUI

Partie 2 : Présentations des données sous forme

1. Effectif, effectif total et fréquence.

La fréquence relative *100 = fréquence en pourcentage

Prof. Ilham EL HARAOUI

2. Présentations des données qualitatives

Répartition des employés d’une entreprise X

Doctorat 56 0,0075 0,75 %

Prof. Ilham EL HARAOUI

§ Un diagramme à secteurs circulaire (diagramme circulaire) est un graphique qui divise un

Répartition des employés d’une entreprise X

Exemples de commentaires sur les données du graphique :

Prof. Ilham EL HARAOUI

Répartition des employés d’une entreprise X

56; 0,75% 109; 1,45% 500; 6,65%

Répartition des employés d’une entreprise X