Vous êtes sur la page 1sur 33

Syllabus du cours

Titre du cours : Code : STA 1146


Unité : UE2
Séries chronologiques
Classe : L1/S1 Matière : Volume horaire : 24
Statistiques CT : 24 TD : 4 TP :

Objectifs du cours : Cette UE de cours de statistique vise à renforcer la capacité technique


des étudiants pour l’étude des liaisons entre les variables statistiques l’analyse des données
chronologiques. Bref l’étudiant sera capable de calculer et interpréter les coefficients de
corrélation entre les variables, effectuer une régression linéaire simple, déterminer la
tendance d’une série chronologique et déterminer les variations saisonnières et les
coefficients saisonniers d’une série chronologique. Calculer et interpréter des indices
statistiques fait partie de UE.

PRE-REQUIS : Niveau Baccalauréat


Contenu du cours :
Introduction générale
Chap1 : Étude de la dépendance statistique entre les variables
1- Cas de deux variables quantitatives
2- Cas de deux variables qualitatives
3- Cas d’une variable qualitative et d’une variable quantitative
Chap2 : les séries chronologiques
1- Définition, but et modèles des séries chronologiques
2- 2-détermination du TREND
3- Variations saisonnières
Chap3 : les indices statistiques

BIBLIOGRAPHIE

· Omar, MOQADEM (1991) « cours de statistique descriptive » fascicule n°1 étude


d’une population selon un seul caractère INSEA.
· BERNARD .PY (2007) « statistique descriptive : nouvelle méthode pour bien

comprendre et réussir ». ECONOMICA 5ème Edition

· Bernard .PY (2007) « exercices corrigés de statistique descriptive : problèmes,

exercice et QCM » Economica 3ème Edition


CHAP1 : ÉTUDE DE LA DÉPENDANCE STATISTIQUE
ENTRE LES VARIABLES

Introduction : Ce chapitre s’intéresse à l’analyse multidimensionnelle des données. Il


fournit des techniques ou méthodes qui permettent d’étudier les liaisons entre deux ou plusieurs
variables. Cette analyse dépendra de la nature des variables considérées.
Les liaisons statistiques, appelées aussi corrélations ou encore dépendances statistiques sont de
nature plus générales que les liaisons directes entre une cause et l’effet qu’elle produit. En
considérant le cas de deux variables X et Y, on peut noter deux situations limites entre lesquelles
se trouve la corrélation entre deux caractères :
 La première situation est l’absence totale de relation entre la variable X et la
variable Y, ce qui signifie que la connaissance par exemple de la valeur Xi pour
l’individu n°i ne permet pas d’avoir une idée sur la valeur yi. Cette situation est
appelée indépendance ou indépendance statistique entre les variables X et Y.
 L’autre situation limite est l’existence d’un lien fonctionnel entre les valeurs des
deux variables. Dans ce cas la connaissance de la valeur X i détermine
complètement celle de la seconde variable yi. Plus précisément, dans ce cas, il
existe une fonction φ au sens mathématique donnant la valeur yi en fonction de Xi
soit : (2.1) yi = φ (xi).
Si une telle fonction existe, on dit qu’il y a liaison fonctionnelle donnant Y en fonction de X.
Entre ces deux situations limites, l’indépendance et la liaison fonctionnelle, il y a la situation
intermédiaire appelée la corrélation entre les deux variables X et Y.

Définition de la corrélation :
La corrélation est une liaison entre deux variables qui est intermédiaire entre l’indépendance et la
liaison fonctionnelle. En réalité, la variation d’une variable est généralement due à plusieurs
causes, dont certaines sont plus importantes que d’autres. Chacune de ces causes contribue dans
une certaine mesure à la variation de cette variable. Quand toutes les causes varient en même
temps, une part de la variation de Y est due à certaine cause X ; mais on ne peut pas isoler l’effet
de X qui est mélangé avec celui des autres variables dont dépend Y. On ne peut constater que la
corrélation entre X et Y.
Exemple : quelques cas de dépendances habituelles
 Les dépenses alimentaires d’un ménage dépendent de son revenu ;
 Les recettes d’une entreprise peuvent dépendre des dépenses publicitaires ;
 La production agricole d’un paysan dépend de la quantité d’engrais et de la surface
emblavée ;
 La mention au BAC II dépendrait-elle-de la région où l’élève a suivi les cours ?
Dans la pratique, nous nous limiterons à deux variables. Cette analyse dépendra de la nature des
variables considérées. En effet nous avions noté qu’il existe deux types de variables : les variables
qualitatives et les variables quantitatives. En prenant l’exemple de deux variables X et Y, nous
pouvons avoir les cas suivants :
X
QUALITATIVE QUANTITATIVE
QUALITATIVE Test du Khi-carré ANOVA
Y Coefficient de corrélation de (Karl-
QUANTITATIVE ANOVA Pearson, Spearman)
Régression linéaire
Dans ce chapitre, tous les cas seront exposés.

1.1- Cas des variables quantitatives

Dans ce chapitre, nous supposons que nous disposons de deux variables quantitatives X et Y.
Une première démarche à suivre lorsqu’il s’agit d’étudier la corrélation s’il s’agit de deux
variables quantitatives est de représenter le nuage des points.
Par définition : le nuage des points ou le diagramme de dispersion d’une population étudiée selon
deux caractères X et Y est la représentation graphique des couples (X i, Yi) dans un système d’axes
orthonormé (OX, OY) avec des unités fixées. Cette représentation peut permettre d’avoir une idée
sur :
 La forme de la relation
 Le sens de la relation
 L’intensité de la relation.
Activité 1 : Représenter le nuage de points dans chacun des cas suivants et caractériser la relation.
Tableau a Tableau b
X 28 31 34 38 52 32 21 25 36 40 X 2 4 7 6 5 6 4 7 3 2
Y 37 38 40 45 50 39 31 35 41 44 Y 1 2 2 4 7 7 6 5 4 5
Tableau c Tableau d
X 1 2 4 1 5 6 4 7 3 2 X 1 2 1 2 3 3 4 4 5 5
Y 2 4 6 1 6 4 6 1,5 5 4 Y 1 2 2 4 3 4 6 5 6 7
Graphique du tableau a Graphique du tableau b
60 8

50 6

40 4
Y

30 2

20 0
20 30 40 50 60 0 2 4 6 8
X
X

Graphique du tableau c Graphique du tableau d


8
8
6
6

4
Y

4
Y

2 2

0 0
0 2 4 6 8 0 2 4 6 8
X X
L’analyse du nuage de points peut être suffisante pour tirer les conclusions mais souvent on a
besoin d’apprécier l’intensité de cette relation au moyen de coefficient de corrélation.
Définition : le coefficient de corrélation est une valeur numérique qui permet de donner une
mesure synthétique de l’intensité de la relation entre deux caractères. Il permet aussi de donner le
sens de la relation lorsqu’elle est monotone.
Il existe plusieurs coefficients de corrélation. Dans ce cours, nous aborderons le coefficient de
corrélation linéaire de Karl-Pearson et le coefficient de corrélation des rangs de Spearman.

1.1.1- le coefficient de corrélation linéaire de Karl Pearson


C’est le coefficient de corrélation le plus utilisé pour mesurer la corrélation linéaire entre deux
variables quantitatives. Sa définition est basée sur la notion de covariance.
Définition : la covariance entre deux variables X et Y est notée Cov (X, Y) et définie par

n
1
Cov ( X , Y )= ∑ ( x − X)( yi −Y )
n i=1 i

En développant cette formule, ont abouti à une formule plus pratique et plus facile sous la forme :
n
1
Cov ( X , Y )= ∑ x y −XY
n i=1 i i


Cov(X,Y) = XY - X Y

On peut remarquer queCov ( X , Y ) = Cov ( Y , X )

Définition : le coefficient de corrélation de Pearson est défini par


ou
Cov ( X , Y ) XY − X Y
r (X ,Y ) = σx σ y
r (X ,Y ) = σx σy

Remarque : r (X ,Y ) = r (Y , X ) . On note que -1 ≤r (X ,Y ) ≤1 et r (X , X ) = 1

 Si r est proche de 0 alors on conclut qu’il n’existe pas de corrélation linéaire entre X et Y ;
 Si r est proche de 1 alors on conclut qu’il existe une corrélation linéaire positive entre X et
Y;
 Si r est proche de -1 alors on conclut qu’il existe une corrélation linéaire négative entre X
et Y.

Test de significativité ou de validité : dans la pratique, r est rarement proche de l’une de


ces trois valeurs ; il est donc difficile de proposer une interprétation fiable. C’est pour cela
qu’avant toute interprétation de coefficient linéaire, il faut le soumettre à un test de validité. Ainsi,
il est admis que pour qu’un coefficient de corrélation r soit valide ou significatif au seuil de 5%, il
faudrait que :

¿ r∨√ n ; n étant la taille de l’échantillon.


2
>2,6
1−r

Activité 2 : dans le but de déterminer la relation qui existe entre le revenu des ménages et leur
consommation, une enquête a été réalisée auprès de 10 ménages dans le village de Kasséna. Les
données sont en milliers de francs CFA.

Revenu (R) 30 44 45 65 3 35 39 4 50 60
0 0
Consommation (C) 20 28 30 32 2 25 26 2 32 35
2 5

Calculez la covariance puis le coefficient de corrélation linéaire de Pearson entre les deux
variables.

Solution R2 C2 R = 43,8 ; C = 27,5 ; RC = 1251,1 ; Cov (X, Y) = 46,6

N° R C R2 C2 RC σ R = 11,16 ; σ C = 4,52 ; r(R, C) = 0,92 ;


1 30 20 900 400 600 ¿ r∨√ n
2 44 28 1936 784 1232 2
=19,6
1−r
3 45 30 2025 900 1350
4 65 32 4225 1024 2080
5 30 22 900 484 660
6 35 25 1225 625 875 La valeur trouvée pour la corrélation est assez élevée et le
7 39 26 1521 676 1014 test effectué montre qu’elle est valide ou significative ; ce
8 40 25 1600 625 1000 qui permet de conclure que statistiquement, il existe une
9 50 32 2500 1024 1600 forte relation linéaire positive, entre Ri et Ci
10 60 35 3600 1225 2100
Tota 438 27 20432 7767 12511
l 5
1.1.2 : La régression linéaire simple
Dans le cas de deux variables quantitatives X et Y, l’on peut constater que le nuage de points
semble décrire une droite de plan. Ce constat peut être fait aussi par le biais du coefficient de
corrélation calculé. Le but de la régression linéaire est de déterminer l’équation de cette droite. En
supposant que Y est la variable expliquée, alors l’équation de cette droit s’écrit :
Y i=axi +b +ε i où

 Y i est la valeur de la variable Y (variable à expliquer ou variable endogène) observée sur


l’individu i,
 x i est la valeur du variable explicative (exogène) observée pour l’individu ; on supposera
que la valeur de cette variable est parfaitement contrôlée,
 ε i est le résidu ou le terme d’erreur,
 b est le terme constant du modèle c’est-à-dire la valeur moyenne de Y quand X vaut, 0
 a est la pente de la droite, c’est la variation moyenne de Y suite à l’augmentation d’une
unité de X.

La quantité ^y i=axi +b est la valeur ajustée de la variable Y pour l’individu i ayant x i comme
valeur de la variable explicative observée. L’équation ^y i=axi +b est appelée équation de la droite
de la régression linéaire simple.
Déterminer cette équation revient à déterminer alors les valeurs des paramètres a et b. ce qui se
fait soit par les méthodes graphiques soit par les méthodes analytiques si aucune précision n’est
faite, on utilise toujours méthodes analytiques.

1.1.2.1- La méthode graphique


Plusieurs méthodes graphiques sont utilisées notamment la méthode de Mayer ou de la double
moyenne et la méthode de médiane. Les étudiants sont invités à faire de recherche sur la méthode
médiane-médiane.
Méthode de Mayer
Elle consiste d’abord à diviser la série de données en deux groupes égaux (ou presque égaux si le
nombre d’observations est impair) puis à calculer pour chacun d’eux un point moyen. Enfin, on
trace la droite qui rejoint ces deux points.
Les étapes à suivre pour estimer la droite de régression à l’aide de la méthode de Mayer
 Placer les coordonnées en ordre croissant des abscisses et créer deux groupes égaux (si
possible)
 Pour chacun des deux groupes, trouver la moyenne des abscisses et la moyenne des
ordonnées que l’on notera P1=( x 1 , y 1) et P2=( x 2 , y 2) .
 Déterminer la droite de régression passant par ces deux points. C’est-à-dire calculer

y2 −¿ y

a= ¿ et b= y 1−b x = y 2−b x
1

(3.3)
x2 ¿
−¿ x
1
1 2
Activité 3 : Déterminer la droite d’équation par la méthode de Mayer pour le tableau de l’activité 2
Résolution

Diagramme de dispersion

45
Consommation

35

25

15

25 35 45 55 65 75

Le diagramme de dispersion présente un nuage de point ayant une forme allongée. Ceci implique que la
relation éventuelle entre Revenu et la consommation des ménages est linéaire. De plus cette forme de
nuage nous renseigne que lorsque le revenu d’un ménage augmente, sa consommation aussi augmente.

Cette relation s’écrit ^ =a R +b . Avec C la consommation et R le revenu du ménage.


C i i

Détermination de a et b par la méthode de Mayer


La détermination des coefficients a et b

1- Ordonner les observations suivant la variable explicative ou exogène ou encore indépendante


Dans notre cas, la variable explicative est le revenu. Le tableau ordonné se présente ainsi
Revenu R 30 30 35 39 40 44 45 50 60 65
Consommation 20 22 25 26 25 28 30 32 35 32
(C)
s

2- Déterminer deux points moyens P1 et P2 / : P1 (x 1 , y 1) et P2 ( x2 , y 2 )ou :

30+30+35+39+ 40 20+ 22+ 25+26+25


x 1= =34,8 y 1= =31,4
5 5

On fait de même pour le deuxième groupe x2=52,8 et y 2=31,4

Ainsi P1=( 34,8 ; 23,6 ) et P 2=52,8 ; 31,4 ¿

3- Détermination de la droite
y 2− y 1 31,4−23,6
a= = ^
=0,43 b= y 1−a x 1= y 2−a x2 =8,7 D’où Ci=0,43 Ri +8,7
x 2−x 1 52,8−34,8

1.1.2.2- la méthode analytique : méthode des moindres carrés


ordinaires
Elle donne des valeurs plus précises. Cette méthode s’appuis sur le principe des « Moindre carrés
ordinaire » (MCO). Ce principe impose de minimiser la somme des carrés des erreurs commise en
considérant ^y i comme étant y i . Donc on veut minimiser la somme desε 2i .
2
ε i= y i− ^y i= yi −a x i−b → ε i =¿

n
soit S=∑ ¿ ¿
i=1

Le principe des MCO revient à déterminer a et b de sorte que S soit minimum. Pour cela, on considère que
S est une fonction à deux variables a et b. Pour déterminer son minimum, il faut donc annuler les dérivées
partielles de S par rapport à a et b. On a :

(∑ )
n n n n
∂S
=∑ −2 x i ( y i−a x i−b )=−2 x i y i−a ∑ x −b ∑ x i
2
i
∂ a i=1 i=1 i=1 i=1

(∑ )
n n n
∂S
=∑ −¿ 2 ( y i−a x i−b )=−2 y i−a ∑ x i−nb ¿
∂ b i=1 i=1 i=1

En annulant ces deux quantités, on trouve un système d’équations suivant :

Ou encore :

C’est le système d’équations normales

Il peut se réécrire sous la forme :


XY −X Y b=Y −a X
La résolution de ce système donne : a= 2 ¿¿ et
X −¿
¿

cov ( X , Y ) σ Y
On peut remarquer que : a= = r (X ,Y )
Var (X ) σX

Signification des paramètres a et b.


Le paramètre « a » est la variation moyenne de Y lorsque X augmente d’une unité. C’est la pente de la
droite d’équation déterminée. Ce paramètre a une interprétation très intéressante et parfois c’est son signe
qui est recherché. Le paramètre « b » est la constante du modèle. C’est la valeur de Y lorsque la valeur de
X est nulle. Au plan géométrique c’est l’ordonné du point où la droite d’équation coupe l’axe des
ordonnées.

Activité 4 : Déterminer la droite de régression linéaire du tableau de l’activité 2 puis répondre aux
questions suivantes :

a- représenter la nuage de points et la droite de régression dans un même repère.

b- donner les interprétations des coefficients a et b

c- quel est la consommation moyenne d’un ménage qui a un revenu 62000 FCFA
d- de combien augmentera en moyenne la consommation d’un ménage qui a un revenu additionnel de
12 500FCFA ?

N° R C R2 RC
1 30 20 900 600
2 44 28 1936 1232 La résolution de ce système donne : a = 0,37 et b = =11,3
438a+10b 275 20432a+438
3 45 30 2025 1350
4 65 32 4225 2080
5 30 22 900 660 20432a+438b = 12511
6 35 25 1225 875
7 39 26 1521 1014
8 40 25 1600 1000
9 50 32 2500 1600
10 60 35 3600 2100
TOTAL 438 275 20432 12511

45

35
Consommation

25

15

25 35 45 55 65 75
Revenu
1.1.2- Le coefficient de corrélation des rangs de Spearman
Définition de la notion de « Rang » : soit une variable X. le rang de la ième observation est le rang occupé
par Xi en ordonnant dans l’ordre décroissant toutes les observations. On le note rg(Xi)

Activité 5 : Déterminer le rang de chacune des observations du tableau suivant.

X 7 4 1 4 12 0 8 0 10 3

Définition du coefficient de corrélation de Spearman : le coefficient de corrélation de rang de Spearman


entre deux variables X et Y est noté ρ( X ,Y ) et défini par :

6 ෍ ሾ𝑟𝑔(𝑥𝑖 ) − 𝑟𝑔(𝑦𝑖 )ሿ2 En posant d i=rg ( x i )−rg( y i) , on obtient


𝑖=1

𝜌(𝑋,𝑌) = 1 −
𝑛3 − 𝑛
𝑛
Une formule plus simple sous la forme
6 ෍ 𝑑𝑖2
𝑖=1
𝜌(𝑋,𝑌) = 1 −
𝑛3 − 𝑛

Activité 6 : Déterminer le coefficient de corrélation des rangs de Spearman du tableau qui suit.

Xi 30 31 32 33 34 36 35 39 37 38
yi 50 55 52 56 63 65 69 90 110 150

Solution

N° Xi Yi rg(X) rg(Y) di 2
di
1 30 50 10 10 0 0
2 31 55 9 8 1 1
3 32 52 8 9 -1 1
4 33 56 7 7 0 0
5 34 63 6 6 0 0
6 36 65 4 5 -1 1
7 35 69 5 4 1 1
8 39 90 1 3 -2 4
9 37 110 3 2 1 1
10 38 150 2 1 1 1
TOTAL 345 760 - - - 10

On trouve ρ ( X , Y )=0,94
Remarque : Dans la mise en œuvre de cette formule, il peut se poser des problèmes relatifs aux
observations qui ont le même rang. Il existe plusieurs techniques pour améliorer cette formule. Dans notre
cas, nous adoptons la formule définitive suivante :

6 ෍ 𝑑𝑖2 + 𝑇𝑥 + 𝑇𝑦 1
𝑖=1 Où T X=
12
∑ (t 3x ¿−t x) ¿ et
𝜌(𝑋,𝑌) = 1 −
1 𝑛3 − 𝑛
T Y = ∑ (t y ¿−t y ) ¿
3
12

Avec t x =¿ nombre de répétition du rang de X et t y = nombre de répétition du rang de y

Activité7 : Déterminer le coefficient de corrélation des rangs de Spearman du tableau suivant.

Xi 30 31 32 30 39 36 39 39 37 32
Yi 52 55 52 56 63 65 69 65 110 70

Solution

N° Xi Yi rg(X) rg(Y di 2
di
)
1 30 52 9 9 0 0
2 31 55 8 8 0 0
3 32 52 6 9 -3 9
4 30 56 9 7 2 4
5 39 63 1 6 -5 25
6 36 65 5 4 1 1
7 39 69 1 3 -2 4
8 39 65 1 4 -3 9
9 37 110 4 1 3 9
10 32 70 6 2 4 16
TOTAL - - - - - 77

X tx 3
t x −t x Y ty Ty3-ty
30 2 6 52 2 6
32 2 6 65 2 6
39 3 24 Total - 12
Total - 36

On a : Tx = 3 ; Ty = 1 et ρ ( X , Y )=0,5091

Remarque importante : On démontre que la corrélation de Spearman est la corrélation de Pearson entre
les rangs de deux variables. Faites la démonstration !!!!!!!!!!

1.2 – Cas de deux variables qualitatives


La mesure appropriée pour une corrélation entre deux variables qualitatives est le test de Khi deux.

Rappel : En probabilité, on dira qu’il y a indépendance entre les deux variables X et Y si

∀ ( i, j ) , on a : P ¿) = P(X = x i )P(Y = y j ) ; Ce qui se traduit sous la forme

En développant cette formule, on abouti à la relation : ni .n


f ij = f i . f . j nij = .j

n
ni .n .
n¿ij = j

n
Définition : la quantité est appelé effectif théorique de la cellule ( ij) ; c'est-à-dire l’effectif

Qu’on aurait observé s’il y avait indépendance entre les deux variables. En rappel, notez que nij est
l’effectif empirique ou observé.
On aurait donc indépendance si les effectifs théoriques sont identiques aux effectifs empiriques.
Mais en pratique, il est difficile d’avoir cette égalité car on observe le plus souvent des écarts entre ces
deux valeurs. La question qui se pose alors est de savoir si ces écarts sont statistiquement significatifs.
Pour répondre à cette question, on utilise le test du Khi-deux. Le Khi-deux mesure la distance entre les nij
¿
et lesnij . Les étapes de l’exécution de ce test sont :

1. Établir la répartition des individus selon les deux variables (tableau de contingence ou tableau
croisé)
2. Calculer les effectifs théoriques ;
3. Calcul du Khi-carré ;
4. Calculer le degré de liberté et fixer le niveau du risque (généralement 5%, 1%) ;
5. Lire le Khi-deux sur la table ;
6. Comparer le Khi-deux calculé et le Khi-deux lue sur la table ;
 Si la valeur de Khi-carré calculée est supérieure à celle lue sur la table, on conclue qu’il ya
une relation entre les deux variables ;
 Si non on conclut qu’il n’existe pas de relation entre les deux variables.

Activité 8 : pour mesurer le niveau de connaissance d’un produit à commercialiser dans quatre villages
différents en vue de mettre en place une stratégie de marketing, la statisticienne victoria à collecter les
données suivantes auprès des habitants du village : les données collectées portent sur deux variables :

Village1 Village 2 Village3 Village4 Total


Faible 30 12 10 48 100
Modéré 22 18 36 22 98
Bon 12 70 90 30 202
Total 64 100 136 100 400

1. Quelles sont les proportions par village des personnes ayant un niveau de connaissance faible ?
2. Quelles sont les proportions par villages des personnes ayant un niveau de connaissance bon ?
3. Quelle conclusion pourriez-vous tirer des résultats précédents ?
4. Au seuil de 5% pourriez-vous affirmer que le niveau de connaissance du produit en question
dépend du village où l’on réside ?
Solution

Q , Q2 et Q3 : pour répondre aux questions 1 et 2, vous pourriez construire le tableau suivant ( compléter le
tableau puis faite le commentaire.

Village1 Village 2 Village3 Village4


Proportion des enquêtes ayant un niveau faible ? 12% ? 48%
Proportion des enquêtes ayant un niveau bon 19% ? ? ?

Q4 : La réponse à cette question nous amène à effectuer un test du Khi-deux dont voici la mise en
œuvre des étapes :

Étape 1 Répartition des enquêtes selon le village de résidence et le niveau de connaissance. Cette étape
est déjà faite (s’il s’agit du tableau de contingence ou du tableau à double entrées)

Étape 2 : calcul des effectifs théoriques

Village1 Village 2 Village3 Village4


Faible 100*64/400=16, 100*100/400=25,0 100*136/400=34,0 100*100/400=25,0
0
Modéré 15,7 24,5 33,3 24,5
Bon 32,3 202*100/400=50,5 68,7 50,5
Remarque : vérifier que les sommes en lignes et en colonnes sont les mêmes que dans le tableau initial.

Étape 3 : calcul du Khi-deux

γ =∑ ¿ ¿ ¿
p q 2
khi−carée γ =∑ ∑ ¿ ¿ ¿ ¿
2
Ou plus simplement
i=1 j=1

Où « o »symbolise l’effectif observé et « T », l’effectif théorique correspondant.


2 2
x =¿ ¿; x =97,1
L’étudiant peut aussi construire le tableau suivant pour faciliter le calcul de la valeur du khi-deux.

Village1 Village 2 Village3 Village4 Total

Faible ¿¿ 6,8 16,9 21,2 57,1


Modéré 2,5 1,7 0,2 0,3 4,7

Bon 12,8 7,5 6,6 ¿¿ 35,2

Total 27,6 16,0 23,8 29,7 97,1

Étape 4 : détermination du degré de liberté et fixation du ∝ est appelé le seuil (le risque)

Si m1 désigne le nombre de modalités de la première variable et m2 celui de la deuxième variable alors le


degré de liberté est : ddl =( m 1−1 ) ( m 2−1 ) .

Dans l’exemple, ddl = (4-1)(3-1) = 6.

Le niveau du risque ∝ est le niveau seuil d’erreur que l’on accepte de commettre. 1-∝ est le niveau de
confiance correspondant.

Généralement on fixe à 5% mais tout dépend du niveau de sensibilité de l’exploitation qu’on veut faire
avec les résultats du test. Pour notre exemple, fixons ∝ = 5% (1 - ∝ = 95%).

Étape 5 : lecture de la valeur théorique de khi-deux. Pour lire la valeur théorique sur la table, il faut
connaitre : le degré de liberté et le niveau de confiance qui 1−∝ . Dans notre cas ddl=6 et1−α =0,95. La
valeur de khi-deux théorique lue sur la table (en annexe1) est égale à 12.591.

Etape6 conclusion : étant donné que le khi-carré calculé est supérieur au khi-carré théorique, on peut
conclure que le milieu de résidence a une influence sur le niveau de connaissance du produit en question
(avec cependant 5% de chances de nous tromper).

Remarque : il existe des limites sur le test du khi-deux. Ces limites sont relatives aux effectifs. En effet,
lorsqu’il existe des effectifs observés inférieurs à 10 ou des effectifs théoriques inférieurs à 5 le résultat
n’est plus interprétable. Dans ce cas on utilise souvent la formule suivante appelée correction de Yates
2
p q
(|nij −n¿ij|−0,5 )
x =∑ ∑
2
¿ .
i=1 j=1 nij

Il faut noter aussi que les résultats du test du khi-deux vous permettent uniquement de détecter l’existence
ou l’absence d’une corrélation entre deux variables qualitatives mais ils ne donnent mais ils ne donnent pas
le degré de cette corrélation. Pour préciser l’intensité de cette corrélation, il faut utiliser le coefficient de
contingence © qui est défini par

C=
√ x2
2
x +n

Par convention, on dira que la relation entre X et Y est :

 parfaite si la valeur de C=1


 très forte si C¿0,8
 forte si C se situe entre 0,5 et 0,8.
 d’intensité moyenne si C se situe entre 0,2 et 0,5.
 faible si C se situe entre 0 et 0,2.
 nulle si C =0

Dans notre exemple, on trouve C =0,44.

1.3 Cas d’une variable qualitative et d’une variable


quantitative.
Lorsque nous disposons d’une variable quantitative Y et d’une variable qualitative X, il peut être
intéressant de savoir si la variable quantitative dépend de celle qui est qualitative. Pour se prononcer sur
cette dépendance, on utilise l’analyse de variance (ANOVA ou ANAVAR en français). Il s’agit d’un test de
comparaison de moyennes de plusieurs sou-échantillons. Le principe consiste à vérifier s’il existe une
différence significative entre les moyennes des différents groupes.

Exemple : peut-on affirmer la moyenne d’un étudiant en mathématique dépend du lycée qu’il fréquente, de
son sexe ou encore de sa série au BAC ?

Dans cette initiation, seul l’ANOVA à un facteur sera abordé ; c’est-à dire que nous n’aurons qu’une seule
variable qualitative.

Le principe revient à partitionner l’échantillon en K groupe (sous-échantillons) ; K étant le nombre de


modalités de la variable qualitative. Pour chaque groupe K, on désigne par : nk la taille du groupe ;

nk la taille du groupe ; Y K la moyenne du groupe V k (Y ) la variance du groupe. On peut remarquer que


K
1
Y= ∑n Y
n K =1 k k

Définition :
k
1
1- on appelle variance intra classe, la quantité : V intra (Y )= ∑ n V (Y )
n k=1 k k

C’est la moyenne des variances

2- on appelle variance inter classe la quantité


k
1
V inter ( Y )= ∑ n k ¿ ¿
n k=1

C’est la variance des moyennes.

1
n∑
V ( Y )= ¿¿
NB : on montre que V ( Y )=V inter +V intra . Rappelez-vous que

Pour se prononcer sur la liaison entre X et Y, on utilise la statistique de Fisher

V inter / K −1 n−k V inter


F= =
V intra / n−k k−1 V intra

En se fixant un seuil P (5% par exemple) comme précédemment, on compare F à celle lue sur une table de
Fischer à k-1 et n-k degré de liberté.

Si F est supérieure à la valeur lue alors on conclura que Y dépend de X. Sinon, on dira que Y et X sont
indépendants.

Activité 9 : un étudiant a collecté des données sur le revenu des ménages dans quatre régions de son pays
(N=Nord ; S=Sud ; E=Est. O=Ouest). Voici le tableau qu’il a obtenu. Pourra-t-il affirmer que le revenu
d’un ménage dépend de la région où il y réside ?

Région N E O O O S N S O O E N O O E
Revenu 175 185 380 490 475 130 350 123 450 250 210 250 350 400 214
Région N E E N S E N S S S O E S E N
Revenu 300 250 175 400 134 125 320 150 165 125 500 165 158 230 125

Solution : on a n=30. La variable qualitative est la région avec 4 modalités donc k=4. Le revenu est la
variable quantitative. L’étudiant devra séparer l’échantillon en 4 sous échantillon comme suit :

Nord sud Est Ouest


175 130 185 380
350 123 210 490
250 134 250 475
300 150 175 450
400 165 125 250
320 125 165 350
125 158 230 500
214 400

Il va falloir ensuite remplir soigneusement le tableau ci-après :

Région nk Yk Vk nk Y k nk V k nk ¿
Nord 7 274,3 8145,9 1920,0 57021,4 1751,7
Sud 7 140,7 242,2 985,0 1695,4 97059,4
Est 8 194,3 1391,4 1554,0 11131,5 32990,2
Ouest 8 411,9 6312,1 3295,0 50496,9 188272,9
Total 30 - 7754,0 120345,2 320074,2
Moyenne Y = 7754,0/30 Vintra=120345,2/30 Vinter=320074,2/30
=258,5 = 4011,5 =10669,1

On a
n−k V inter 30−4 10669,1 26 10669,1
F= = = X =23,05
K−1 V intra 4−1 4011,5 3 4011,5
En prenant n1=3 et n2=26 dans la table de Fisher au seuil de 5% on trouve comme valeur lue 2,98 (voir la
table de l’annexe 2). La valeur calculée étant supérieure à 2,98, on conclut donc qu’au seuil de 5% le
revenu d’un ménage dépend de sa région de résidence dans le pays étudié. Vous pouvez enfin affirmer au
vue des valeurs des moyennes de chaque région que les ménages de l’ouest sont les plus riches et ceux du
sud sont les plus pauvres.

CHAP 2 : LES SÉRIES CHRONOLOGIQUES

2.1 Définition
Une série chronologique est une variable statistique dont les observations sont repérées dans le temps. Les
séries chronologiques sont aussi appelées séries temporelles ou tout simplement chroniques.

Exemples

1- l’évolution de l’effectif des étudiants d’une faculté de 2002à 2012 (graphique 4.2)

2. l’évolution du chiffre yd’affaires mensuel d’une entreprise de janvier à décembre de la même année

Tableau a

T f1 2 3 4 5 6 7 8 9 10 11 12
x 2 4 14 18 2 6 22 24 10 12 20 24
Tableau b

T 1 2 3 4 5 6 7 8 9 10 11
x 0,25 0,3 0,4 0,7 1 2 3 5 6 6,8 7
Tableau c

T 1 2 3 4 5 6 7 8 9 10 11 12 13
X 2 4 21 23 2 6 22 24 2 12 22 24 2

8
30 Graphique a Graphique b

6
20
4

10 2

0 5 10 15 0 2 4 6 8 10 12

Graphique c

30
10

Une série chronologique peut être continue ou discrète par rapport au temps. On dira que la série
chronologique X est continue par rapport au temps si on peut affecter à toute date t, une observation Xt.
exemple : la cotation sur le marché boursier. La série chronologique est discrète si ses réalisations sont
observées à des intervalles de temps réguliers ou non. Généralement, les séries chronologiques discrètes
sont des séries annuelles, mensuelles, journalières, hebdomadaires, trimestrielles, semestrielles,….

2.2 But de l’étude des séries temporelles


Le but de l’étude d’une série temporelle est d’isoler et d’analyser les facteurs (composantes) qui régissent
son évolution dans le temps et de faire des prévisions si nécessaire. On distingue en général quatre
composantes dans l’évolution d’une série temporelle :

- La tendance générale ou le trend ;


- La composante saisonnière ;
- La composante cyclique
- La composante résiduelle.

Ces composantes ne sont pas toujours simultanément présentes dans une série composante périodique.
Certaines séries n’ont pas de tendance, d’autres n’ont aucune composante saisonnière d’autres enfin, ne
connaissent aucune variable résiduelle.

2.3 Modèle des séries chronologiques


Dans la suite de ce chapitre, nous étudions les méthodes qui permettent d’identifier et de quantifier la
tendance générale et la composante saisonnière. Mais avant tout, il faudrait connaître le modèle auquel la

Série chronologique étudiée se conforme. En effet, l’observation des séries chronologiques permet de
distinguer deux grands types de modèles :
Modèle multiplicatif : X t=T t St ε t

Modèle additif : X t =T t +S t + ε t

Avec

 T t est la tendance générale ou le trend ;


 St est la composante saisonnière ;
 ε t est la composante résiduelle

Dans le modèle additif, les variations autour du trend demeurent dans une bande de variation à peu près
constante. Dans le modèle multiplicatif, au contraire, les variables autour du trend s’amplifient

Graphique 4.4 : Modèle multiplicatif


Graphique 4.5 : Modèle additif

150 80

60
100
2.4 Détermination du trend.
la connaissance du trend d’une série temporelle permet d’étudier son évolution dans le long terme afin de
faire des prévisions.

Plusieurs méthodes permettent de déterminer le trend d’une série temporelle. Les deux principales les plus
connues sont :

-la régression linéaire (méthode graphique et méthode analytique) ;

- les méthodes mécaniques (méthode des moyennes échelonnées et méthode de la moyenne mobile).

2.4.1- méthode de régression linéaire


Cette méthode consiste à déterminer la droite de régression comme au chapitre 1. A cet effet, on utilise soit
la méthode graphique ou soit la méthode des MCO pour déterminer les paramètres a et de cette droite où la
série temporaire est la variable expliquée et le temps est la variable explicative.

Avant tout, il faudrait faire la représentation graphique puisque c’est le nuage des points qui permet de se
prononcer sur la forme de la tendance ou le trend.

Ainsi l’équation de la droite s’écrit : Tt=at+b

2.4.1.1 Méthode graphique


Les méthodes graphiques pour la détermination des paramètres a et b de la droite de régression sont
multiple. On peut citer : la méthode MAYER ou de la double moyenne et la méthode de médiane-médiane.

Activité1 : voici les données trimestrielles de l’entreprise StatMarketing sur le chiffre d’affaire (CA) en
2015,2016 et 2017.

Année 2015 2016 2017


Trimestre T1 T2 T3 T4 T1 T2 T3 T4 T1 T2 T3 T4
CA 415 550 340 220 360 600 350 310 525 700 450 400

Déterminer le Trend du chiffre d’affaire de cette entreprise par la méthode graphique

Solution

Ici la série temporaire est le chiffre d’affaire qui est la variable expliquée. Le temps est trimestriel ici.
Ainsi T1 de 2015 correspond au t=1 ; t3 de2016 correspond au t=7 et ainsi de suite. D’où le tableau 4.5
suivant :

Mois (t) 1 2 3 4 5 6 7 8 9 10 11 12
Chiffre d’affaire (Xt) 415 550 340 220 360 600 350 310 525 700 450 400

En utilisant la méthode Mayer on a :

1+ 2+ 3+4 +5+6 6+7+8+ 13+17+16+18


x 1= =3,5 et x 2= =13
6 6
415+550+ 340+220+360+600 350+310+525+700+ 450400
Y 1= =414,17 et Y 2= =455,83
6 6
455,83−414,17
Donc a= =6,94 et b= y 1−a x 1= y 2−a x2 =389,86
9,5−3,5

T 1=6,94 t+ 389,86

2.4.1.2 Méthode analytique


Cette méthode revient à déterminer par les MCO l’équation du trend. Cette méthode a été également traitée
par le chapitre1.

Activité1 déterminer le Trend du chiffre d’affaire résumé dans le tableau de l’activité1.

Solution

La détermination des paramètres de la droite de régression par la méthode des MCO se fait en résolvant le
système suivant :
n n
a ∑ t +nb=∑ x t
i=1 i=1

n n n
a ∑ t 2 +b ∑ t=∑ tx t
i=1 i=1 i=1

Pour faciliter les calculs, la conception du tableau suivant est nécessaire.

t
1
X
415
t2
1
tX
415 {65078 a+12 b=5220
a+78 b=35220
2 550 4 1100
3 340 9 1020 On trouve
4 220 16 880
5 360 25 1800 a=9,02 et b=376,36
6 600 36 3600
7 350 49 2450 X=9,021t+376,36
8 310 64 2480
9 525 81 4725 Important :
10 700 100 7000 n
n(n+1)
11 450 121 4950 ∑ t=1+2+3+ … n= 2
t =1
12 400 144 4800
n
n ( n+1 ) (2 n+1)
78 5220 650 35220 ∑ t 2=¿ 12 +22 +32 + …+ n2= 6
¿
t =1

800

700
Remarque : Notez que les deux méthodes n’aboutissent pas forcement aux mêmes résultats. Méthode des
MCO reste la plus utilisée car elle est plus précise.

2.4.2 Détermination du trend par les méthodes mécaniques


2.4.2.1 méthodes des moyennes échelonnées (ME)
Cette méthode consiste à calculer les moyennes arithmétiques des valeurs prises 2 à 2,3 à 3

Activité 3 en utilisant les données du tableau, appliquer la méthode des moyennes échelonnées pour m= 2
puis pour m=3

Mois J F M A M J J A S O N D
Chiffre d’affaire (X) en milliers de CFA 6 8 13 17 16 18 25 30 24 26 32 38
M=2 7 15 17 27,5 25 35

On constate une tendance générale à la hausse du chiffre d’affaire

Remarque : L’inconvénient de cette méthode réside dans le fait qu’elle divise par m la taille de
l’échantillon. Elle n’est donc pas recommandée pour des échantillons de tailles faibles.

2.4.2.2 méthodes de la moyenne mobile (MM)


Définition de moyenne mobile

Une moyenne mobile est un outil intéressant pour éliminer ou amortir les mouvements cycliques,
saisonniers et accidentels. La moyenne mobile d’ordre p est la moyenne arithmétique de p valeurs
consécutives. Soit Xt une série temporaire. La moyenne mobile d’ordre p correspondant à la date t est
donnée par :

 si P es impair
X p−1+ ¿ X
− p −1
+…..+X
p −1

t−
t− +1 t+
2 2

2
MM p = (t) ¿
p

0,5∗X p+ ¿ X
−p −1
+..+0,5∗ X
p

t−
t− +1 t+
2 2

2
 Si P est pair MM p = (t) ¿
p

Activité 4 : calculer les moyennes mobiles d’ordre 2 et 3 correspond à la date t=4

T 1 2 3 4 5 6 7 8 9 10 11 12
Xt 6 8 13 17 16 18 25 30 24 26 32 38
Solution : pour p=2

0,5∗13+ 17+0,5∗16
MM2(4)= =15,75
2
Pour p=3

13+17+16
MM3(4) = =15,34
3
Détermination du trend à l’aide des moyennes mobiles

Le principe de cette méthode est de construire une nouvelle série obtenue en calculant des moyennes
arithmétiques successives de longueur P fixe à partir des données originales. Chacune de ces moyennes
obtenues correspondra au ‘’milieu’’ de la période pour laquelle la moyenne arithmétique vient d’être
calculée. L’évolution (croissante, décroissante ou stationnaire) de la nouvelle série obtenue est appréciée.
L’ordre de la moyenne mobile doit être égal à période de la série chronologique. Ainsi si la série est
mensuelle alors l’ordre de la moyenne mobile est de 12, si la série est trimestrielle alors l’ordre de la
moyenne mobile est de 4,…

Activité 5 : quelle est la période de la série temporaire résumé dans le tableau suivant. Appliquer la
méthode des moyennes mobile pour déterminer le trend.

Mois 1 2 3 4 5 6 7 8 9 10 11 12
Chiffre d’affaire 6 8 13 17 16 18 25 30 24 26 32 38

L’observation du graphique indique que cette série est périodique de période 4 car l’analyse de graphique
montre que les montants des 4 premiers mois se ressemblent à ceux du des quatre mois suivants. De cette
analyse il apparait que l’ordre de la moyenne mobile est de 4. Donc les moyennes mobiles d’ordre 4 sont
bien appropriées pour estimer le trend.

Calcul des moyennes mobiles

T 1 2 3 4 5 6 7 8 9 10 11 12
X 6 8 13 17 16 18 25 30 24 26 32 38
- - 12,3 14,8 17,5 20,6 23,3 25,3 27,1 29,0
On constate également une tendance générale à la hausse du chiffre d’affaire. Ce constat est fait sur les
moyennes mobiles calculées. Pour bien le voir on peut faire la représentation graphique des moyennes
mobiles comme suit :

35
30
25
20
15
.

Remarque : Cette méthode réduit la taille de l’échantillon de m observations (m=p si p est pair m = p-1 si
p est impair)

2.4.3 Autre types de trend


Selon l’allure du nuage de points, on peut voir plusieurs types de trend. Les plus fréquents sont :
2
- La forme parabolique T t=at +bt +c
t
- La forme géométrique ou exponentielle T t=ab
k
- La forme logistique T t= bt
1+ce
Activité 6 Dans les archives du chef du village « Koufoualè » on a retrouvé les effectifs de population de
1985 à 2004 (voir tableau). Représenter graphiquement cette série en prenant abscisse l’année et en
ordonnée le log de l’effectif. En déduire le trend puis commenter.

Effectif de la population du village « koufoualè » de 1985 à 2004

T 1 2 3 4 5 6 7 8 9 10
Effectif (X) 500 515 535 572 635 637 650 715 770 900

2.5 Variations saisonnières


Les variations saisonnières sont les fluctuations périodiques de court terme subies par une série. La période
peut être hebdomadaire, mensuelle, trimestrielle ou semestrielle. Par exemple, pour une entreprise
spécialisée dans la vente des jouets pour enfants, il est tout à fait logique que ses meilleures recettes soient
obtenues au 4è trimestre de l’année. Graphiquement, les variations saisonnières sont marquées par une
courbe en forme sinusoïdale.
L’analyse statistique des variations saisonnières consiste à déterminer les coefficients saisonniers (St). Il
existe une multitude de techniques permettant de déterminer les coefficients mais dans ce cours, seules
deux seront abordées.
- La méthode des rapports ou de différence au trend ;
- La méthode des moyennes mobile

2.5.1 La méthode des rapports au trend


Cette méthode s’appuie sur l’équation du trend. Son application suppose la détermination du modèle auquel
la série chronologique se conforme. Les étapes suivantes décrites sont applicables pour le modèle
multiplicatif. Le cas de modèle additif sera abordé sous forme d’exemple.

Rappelons que la série chronologique Xt est dite multiplicative si X t =T t S t

On suppose que la variation résiduelle n’existe pas ou, ce qui revient au même, est intégrée dans le trend

Étape 1 : Détermination de l’équation du trend


La détermination de l’équation du Trend est étudiée dans le cas linéaire. Il s’agit de déterminer les
paramètres a et b de l’équation : T t=at+b

Étape 2 : Calcul des variations saisonnières non corrigées

Xt
Modèle multiplicatif : St = ; modèle additif : St =X t −T t ;
Tt

 Les X t sont les valeurs observées (série brute)


 Les T t sont les valeurs calculées à partir de l’équation du trend

Étape 3 : Calcul des coefficients saisonniers S j

 On retient 12 valeurs de S j (de S1 à S 12) si la série est mensuelle. On calcule donc la moyenne
arithmétique, mois par mois, des S1 sur l’ensemble des n années.
 On retient 4 valeurs de S j(de S1 à S 4 ) si la série est trimestrielle. On calcule donc la moyenne
arithmétique trimestre par trimestre, des St sur l’ensemble des années.
 La moyenne des coefficients saisonniers doit être égale à 1 dans le cas du modèle multiplicatif et 0
dans le cas de modèle additif. Souvent, les arrondis des calculs conduisent à une somme des
coefficients saisonniers légèrement différente de 1 ou de 0. Dans ce cas on procède à leur
correction.
'
Étape 4 : Calcul des coefficients saisonniers corrigés S j

On calcul d’abord le coefficient correcteur ρ = moyenne des S j sur l’année

' Sj '
mod è≤multiplicatif :S j= ; mod è≤additif :S j =S j− ρ
ρ
Le but de la détermination des coefficients saisonniers est la détermination de la série corrigée des
variations saisonnières (série CVS) ou la série désaisonnalisée. Elle s’obtient à partir de la formule
suivante :

Xt
mod è≤multiplicatif : CVS= ' mod è≤additif : CVS=X t −S j
'
Sj

Activité 7 : déterminer les coefficients saisonniers et la désaisonnalisée (CVS) par la méthode du rapport
au trend en prenant les données de l’activité 1

Solution

L’analyse graphique montre qu’il s’agit d’un modèle additif car les variations autour de la droite de
régression semblent être constantes.
Étape 1 Détermination de l’équation du trend

T t=at+b . Par les MCO on détermine a et b. la résolution donne : T t=9,02t +376,36.

Etape 2 : Calcul des variations saisonnières non corrigées St

A partir de l’équation déterminée, on calcule les valeurs de T t et déduit celles des St

t Xt Tt= 9,02t+376,36 St= X-St


1 415 385 29,6
2 550 394 156
3 340 403 -63
4 220 412 -192
5 360 421 -61
6 600 430 170
7 350 440 -90
8 310 449 -139
9 525 458 67,5
10 700 467 233
11 450 476 -26
12 400 485 -85

Étape 3 : Calcul des coefficients saisonniers S j


Pour y arriver, il faut prédisposer les variations saisonnières calculées plus haut par trimestre. La série étant
trimestrielles, nous disposons donc de quatre saisons.

T1 T2 T3 T4
2015 29,62 155,6 -63,42 -192,44
2016 -61,46 169,52 -89,5 -138,52
2017 67,46 233,44 -25,58 -84,6
Sj 11,87 186,19 -59,50 -138,52

'
Étape 4 : Calcul des coefficients saisonniers corrigés S j

S1 + S2 +… . S 4
ρ= =0,01≈ 0
4
Donc les coefficients saisonniers ne pas à corriger. Et par conséquent les coefficients saisonniers sont

T1 T2 T3 T4
'
X j=S j
11,87 186,19 -59,50 -138,52

Dessaisonalisation ou détermination de la série corrigée des variations saisonnières (série


'
CVS) : CVS= X t−S j

Le tableau suivant résume la série corrigée des variations saisonnières (CVS) ou la série désaisonnalisée
qui est obtenue en retranchant le coefficient saisonnier de chaque valeur initiale.

T 1 2 3 4 5 6 7 8 9 10 11 12
X 415 550 340 220 360 600 350 310 525 700 450 400
CVS 403,1 363,81 399,50 358,5 348,13 413,8 409,50 448,52 513,1 513,81 509,5 538,52
3 2 1 3 0
On peut constater que la série corrigée est plus lisse par rapport à la série initiale.

Activité 8 : La série chronologique suivante représente le chiffre d’affaires trimestriel, en milliers de


francs, d’un magasin de 2009 à2011.

T1 T2 T3 T4
2009 115 152 124 167
2010 117 162 130 187
2011 121 158 137 206

1) Représenter graphiquement la série.


2) Déterminer l’équation de la droite de tendance (méthode des moindres carrés)
3) Calculer les rapports à la tendance.
4) En déduire les coefficients saisonniers.
5) Calculer la série désaisonnalisée.
6) Quel chiffre d’affaires moyen peut-on prévoir respectivement pour le premier et le deuxième trimestre
2012 ?

2.5.2-la méthode des moyennes mobiles


Les étapes de cette méthode se présentent comme suit :

Étape 1 Calcul des moyennes mobile dont l’ordre est la période de la série.

Étape 2 Calcul des variations saisonnières non corrigées St

Xt
mod è≤multiplicatif :S t = ; mod è≤additif : S t =X t −MM p (t)
MM p (t )

 Les X t sont les valeurs observées (série brute)


 Les MM p sont les moyennes mobile calculées.
(t)

Étape 3 : Calcul des coefficients saisonniers S j


 On retient p la valeur de S j (p est l’ordre des moyennes mobile). Ces valeurs sont obtenues en
calculant la moyenne arithmétique, mois par mois, des S j sur l’ensemble des n années.

La moyenne des coefficients saisonniers doit être égale à 1 dans le cas du modèle multiplicatif et dans
le cas de modèle additif. Souvent, les arrondis des calculs conduisent à une somme de coefficients
saisonniers légèrement différents de 1 ou de 0. Dans ce cas on procède à la correction.
'
Étape 4 : Calcul des coefficients saisonniers corrigés S j
'
On calcul d’abord le coefficient correcteur ρ=moyenne des S j sur l anne é .

' Sj '
mod è≤multiplicatif S j = ; mod è≤additif S j = S j −e
ρ
Dans beaucoup de situations, il est préférable de travailler sur des données qui ne sont pas affectées par
un mouvement saisonnier. C’est pour cela que l’on transforme la série chronologique initiale en
données désaisonnalisées ou corrigées des variations saisonnières (série CVS). Elle s’obtient à partir de
la formule suivante :

Xt
mod è≤multiplicatif :CVS= ' ; mod è≤additif =CVS =X t −S'j
S j

Activité 9 : Reprendre l’activité précédente en utilisant la méthode des moyennes mobile .prendre p=2

CHAP3 : LES INDICES STATISTIQUES

Les indices statistiques constituent un outil permettant de décrire l’évolution dans le temps d’une ou
plusieurs variables quantitatives. Généralement, il est calculé deux types d’indices : les indices simples
ou élémentaires et les indices synthétiques. Pour calculer les indices, l’on définit deux périodes ou
dates : la période de base notée « 0 » et la période courante notée « t ».

3.1- Les indices simples ou élémentaires


3.1.1 : Définition
Les indices élémentaires sont calculés pour une seule grandeur statistique.

Soit une grandeur X observée au cours du temps X t étant l’observation de cette grandeur à la date t et
X 0l’observation à la période de base. L’indice élémentaires de X en t base 100 la date 0 est définit par :

X1
I t /0 =
( X) ×100
X0
X1
r= Est appelé coefficient multiplicateur associé à la variation de X entre les dates 0 et t
X0
NB : Un indice n’a pas d’unité.

Interprétation : si l’indice élémentaire est supérieur à 100 alors on dit que la grandeur X s’est appréciée par
rapport à la période de base ; dans le cas contraire, on dit qu’elle se déprécie.

3.1.2 : Relation entre indices simples et taux de variation


X t− X 0 X t I (X )
Le taux de variation de X entre 0 et t est taux= = −1donc taux= t / 0 −1
X0 X0 100

3.1.3 : les propriétés des indices simples


1
P1 : La propriété de réversibilité : I t /0 = I
0 /t

I t /t ,I ,
¿0
P2 : La propriété de circularité ou de transférabilité : I t /0 =
t

100
P3 : La propriété de circularité se généralise et prend le nom de « propriété d’enchaînement » :

I t ¿ I t−1 ¿ I t −2 ¿ … I 2/ 1 I 1/ 0
I t /0 = t−1 t−2 t−3

t−1
100
Activité 1 : Évolution de prix moyen du maïs 2010 à 2019 dans le marché du village « Naki-Est ».

Année 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019
Prix 450 500 475 400 625 750 450 600 600 525

a- Calculer l’indice du prix du maïs en prenant 2010 comme année de base.

b- Calculer l’indice du prix maïs en prenant l’année précédente comme année de base.

Solution

Année 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019
Prix 450 500 475 400 625 750 450 600 600 525
I t /2010 ? 111 ,1 105,6 88,9 ? ? 100,0 ? 133,3 ?
I t ¿t −1 ? 95 ?0 ? 156,3 ? ? 133,3 ? 87,5

3.2- : Notion de coefficient budgétaire


Soit un panier de n biens. Désignons par P jt le prix du bien j et par q jt sa quantité à la date t.

A la date t, la dépense effectuée pour obtenir pour le bien j est J est P jt q jt et la dépense totale pour le
panier est
n

∑ P ¿ q¿
i=1

Définition : Le coefficient budgétaire du bien j à la date t représente la part du bien j dans le dépense totale.
Il est défini par
Activité 2 : Le tableau ci-après présente les prix des produits et les quantités consommées par ménages en
2010 et en 2015.

Produit 2010 2015


Prix (P) Quantité (Q) Prix (P) Quantité (Q)
Riz 1600 8 2500 6
Mil 350 25 300 28
Mais 550 40 600 35
Huile 3500 5 4000 8

Déterminer :

a- Les indices de prix et de quantité en prenant 2010 comme année de base.

b- Les coefficients budgétaires de chaque produit en 2010 et en 2015.

Solution

Produit 2010 2015 I 2015/2010 2010 2015


Riz P (Q) P Q P Q P2010 Q2010 a 2010 P2015 Q2015 α 2015
Mil 1600 8 2500 6 156,3 75,0 12800 0,21 15000 0,20
Mais 350 25 300 28 85,7 112,0 8750 0,14 8400 0,11
huile 550 40 600 35 109,1 87,5 22000 0,36 21000 0,27
3500 5 4000 8 114,3 160,0 17500 0,29 32000 0,42
Total - - - - 61050 1 76400 1

3.3 Les indices synthétiques.


Les indices synthétiques permettent de suivre l’évolution d’un panier de bien. On calcule généralement les
indices synthétiques de prix et les indices synthétiques de quantité ou volume. Les formules utilisées pour
obtenir ces indices sont celles établies par laspeyres, paasche et fischer.

Définition des indices de laspeyres :

 L’indice de prix de laspeyres est la moyenne arithmétique des indices élémentaires des prix
pondérés par les coefficients budgétaires de l’année de base
 Indice de quantité ou de volume de laspeyres est la moyenne arithmétique des indices
élémentaires des quantités pondérés par les coefficients budgétaires de l’année de base.

Définition des indices de paasches


 L’indice de prix de paasche est la moyenne harmonique des indices élémentaires des prix pondérés
par les coefficients budgétaires de l’année courante.
 L’indice de quantité ou de volume de paasche est la moyenne harmonique des indices
élémentaires des quantités pondérés par les coefficients budgétaires de l’année de courante.

Les définitions ci-dessus peuvent se traduire par des formules dans les tableaux suivants :

Prix Quantité
n n
P¿ q¿
Laspeyres L1/ 0 =∑ α i 0
( P) ×100 L1/ 0 =∑ α i 0
(q ) ×100
i=1 Pi 0 i=1 qi0

1
1 P1 /0 =
(q )
n
P1 /0 = 1
( P)
n
1 ∑α q¿
Paasche ∑ α¿ P¿
i=1
× 100
i=1
×100 qi 0
Pi 0

En développant ces formules, on a :

Prix Quantité
Laspeyres
n n

∑ P¿ q i 0 ∑ P i 0 q¿
i=1 i=1
L1/ 0 =( P)
n
×100 L1/ 0 =
(q )
n
×100
∑ Pi 0 q i 0 ∑ P i 0 qi 0
i=1 i=1

Paasche
n
n ∑ P ¿ q¿
∑ P ¿ qi t Lt / 0 =
( q)
i=1
n
× 100
i=1
Lt / 0 = ×100
(P )
n ∑ P ¿ qi 0
∑ Pio q¿ i=1
i=1

Définition des indices de Fischer


Un indice de Fischer est une moyenne géométrique des indices de laspeyres et de paasche :

F t /0 = √ Lt / 0 P1 /0 et F t /0 = √ Lt / 0 Pt /0
(P) ( P) (P) (q) (q) (q)

Remarque : on a toujours Lt / 0 ≤ Ft / 0 ≤ Pt / 0 ou Pt / 0 ≤ Ft /0 ≤ Lt / 0

3.4 : Les indices des valeurs


L’indice de valeur est le produit de l’indice des prix de laspeyres par l’indice des quantités

Paasche n

Lt / 0 Pt /0
(P) (q)
∑ P¿ q ¿
i=1
I t /0 =
(V ) = ×100
100 n

∑ Pi 0 q i 0
i=1

n
Remarque : on a
Lt /0 Pt /0
(q) ( p)
∑ P¿ q ¿ donc l’indice des
i=1
= ×100
100 n

∑ P i0 q i 0
Valeurs est aussi égal à produit de l’indice des prix
i =1 paasche par l’indice des quantités de laspeyres

I t /0 =Lt /0 Pt / 0
(V ) (q ) ( p)

On peut aussi constater que l’indice des valeurs est l’indice élémentaire de dépense totale.

3.5 - Propriété des indices synthétiques


Les indices synthétiques de laspeyres et paasche ne vérifient les propriétés de réversibilité, circularité et
d’enchaînement. L’indice de Fischer vérifie seulement la propriété de réversibilité.

Activité 3

Déterminer par deux méthodes, les indices de laspeyres, Paasche, Fische et l’indice des valeurs du tableau
2 en choisissant 2010 comme année de base.

Solution

Première méthode : utilisation des coefficients budgétaires et des indices simples

Produit I(P) I (q) ∝2010 a 2015 a 2010∗I ¿ a2015 a 2010 I (q)


¿ a 2015
I ( P) I (q)
Riz 156,3 75 0,21 0,2 32,82 0,00128 15,75 0,00267
Mil 85,7 112 0,14 0,11 12,00 0,00128 15,68 0,00098
maÏs 109,1 87,5 0,36 0,27 39,28 0,00247 31,68 0,00309
Huile 114,3 160 0,29 0,42 33,15 0,00367 46,40 0,00263
Total 1 1 117,2 0,00871 109,33 0,00936
L2015/2010 =( P )=117,2 P2015/ 2010=( P ) =1/0,00871 ? ?

Deuxième méthode : Utilisation directe des prix et des quantités

P2010 Q 2010 P2015 Q2015 P2010 Q2010 ¿ P2015 Q2015


¿ P2010 Q2015
¿ P2015 Q 2010
¿
Riz 1600 8 2500 6 12800 15000 9600 20000
Mil 350 25 300 28 8750 8400 980 7500
maÏs 550 40 600 35 22000 21000 19250 24000
Huile 3500 5 4000 8 17500 32000 28000 20000
Total - - - - 61050 76400 66650 71500

A
n

∑ P2015Q 2010
i=1 ¿
On a par exemple : L2015/2010 (P)= n X100=100 71500/61050=117,11
∑ P2010Q 2010
i=1

NB : la différence constatée est due aux arrondis effectués.

3.6- Comment choisir un indice ?


L’indice de paasche donne des résultats plus pertinents par rapport à celui de Laspeyres dans la mesure où
dans son calcul on utilise le coefficient budgétaire de l’année courante. Mais pour les raisons financières,
on préfère l’indice de Laspeyres. En effet, pour calculer l’indice de Laspeyres, en plus des données sur
l’année de bases, on a seulement besoins des prix de l’année courante alors que l’indice de paasche
nécessite la connaissance des prix et des quantités de l’année courante.

Toutefois, il faut veiller à ce que l’année de base ne soit pas trop éloignée (généralement entre 6 et 8 ans)
(Pour Licence Professionnelle : Économie et Gestion)

𝑐𝑜𝑣(𝑋, 𝑌) 𝜎𝑌
𝑎= = 𝑟ሺ𝑋, 𝑌ሻ
𝑉𝑎𝑟(𝑋) 𝜎𝑋

Par

Stéphane K. DJOKPE

Vous aimerez peut-être aussi