Vous êtes sur la page 1sur 148

Statistique descriptive

Statistique bivariée

Enseignant:
Pegdwindé Ousséni Fabrice OUEDRAOGO

Licence 1, Géologie
Institut Teng-Tuuma Géoscience de Ouagadougou (I.T.T.G.O)

2019-2020

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 1 / 148


Sommaire

1 Series statistiques bivariée 4 Théorie des indices

2 Deux variables quantitatives 5 Séries chronologiques

3 Deux variables qualitatives

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 2 / 148


Sommaire

1 Series statistiques bivariée 4 Théorie des indices

2 Deux variables quantitatives 5 Séries chronologiques

3 Deux variables qualitatives

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 3 / 148


Séries statistiques bivariée

Une série statistique bivariée est une suite de n couples des valeurs prise
par deux variables x et y sur chaque individu de n unités d’observation.

(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn )

Chacune des deux variables peut être, soit quantitative, soit qualitative.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 4 / 148


Sommaire

1 Series statistiques bivariée 4 Théorie des indices

2 Deux variables quantitatives 5 Séries chronologiques


Représentation graphique de
deux variables
Analyse des variables
Covariance
Corrélation
Droite de régression
Résidus et valeurs ajustées
Sommes de carrés et
variance
Décomposition de la
variance

3 Deux variables qualitatives


P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 5 / 148
Deux variables quantitatives
Représentation graphiqe de deux variables

Les couples de valeurs numériques sont représentée comme un point dans


un plan.
Exemple : On mesure le poid Y et la taille X de 20 individus

yi xi yi xi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 6 / 148


Deux variables quantitatives
Représentation graphiqe de deux variables

Figure 1 – Nuage de points


P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 7 / 148
Deux variables quantitatives
Analyse des variables

- Analyse séparée
n n
1X 1X
x̄ = xi , sx2 = (xi − x̄)2
n n
i=1 i=1

n n
1X 1X
ȳ = yi , sy2 = (yi − ȳ )2
n n
i=1 i=1

Ces paramètres sont appelés paramètres marginaux : variance marginale,


moyenne marginale, écart-types marginaux, quantiles marginaux, etc, . . .

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 8 / 148


Deux variables quantitatives
Covariance

On définit la covariance
n
1X
sxy = (xi − x̄)(yi − ȳ )
n
i=1

Elle peut encore s’écrire :


n
1X
sxy = xi yi − x̄ ȳ
n
i=1

Remarque : La covariance peut prendre des valeurs positives, négatives et


nulles.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 9 / 148


Deux variables quantitatives
Corrélation

Le coefficient de corrélation est la covariance divisée par les deux


écart-types marginaux :
sxy
rxy = .
sx sy
Le coefficient de détermination est le carré du coefficient de
corrélation :
2
sxy
2
rxy = 2 2.
sx sy

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 10 / 148


Deux variables quantitatives
Corrélation

Remarque :
Le coefficient de corrélation mesure la dépendance linéaire entre deux
variables ;
−1 ≤ rxy ≤ 1 ;
2 ≤ 1;
0 ≤ rxy
Si le coefficient de corrélation est positif, les points sont alignés le
long d’une droite croissante ;
Si le coefficient de corrélation est négatif, les points sont alignés le
long d’une droite décroissante ;
Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas
de dépendance linéaire. On peut cependant avoir une dépendance
non-linéaire avec un coefficient de corrélation nul.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 11 / 148


Deux variables quantitatives
Corrélation

Figure 2 – Exemple de nuages de points et de coefficients de corrélation


P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 12 / 148
Deux variables quantitatives
Droite de régression

La droite de régression est la droite qui ajuste au mieux un nuage de


points au sens des moindres carrés.
Si X est une variable explicative et Y est une variable dépendante, alors
l’équation de la droite de régression est

y = ax + b

où a et b sont des coefficients à déterminer de telle sorte à obtenir une


droite qui ajuste bien le nuage de points.

Le résidu ei est l’erreur que l’on commet en utilisant la droite de


régression pour prédire yi à partir de xi . Les résidus peuvent être positifs
ou négatifs.
Si a et b sont connus, on a

ei = yi − axi − b

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 13 / 148


Deux variables quantitatives
Droite de régression

Theorem
Les coefficients a et b qui minimisent le critère des moindres carrés sont
donnés par :
sxy
a= 2 et b = ȳ − ax̄
sx

Remarque : La droite de régression de y en x n’est pas la même que la


droite de régression de x en y .

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 14 / 148


Deux variables quantitatives
Droite de régression

Figure 3 – Droite de régression


P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 15 / 148
Deux variables quantitatives
Droite de régression

Figure 4 – Résidus ei
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 16 / 148
Deux variables quantitatives
Résidus et valeurs ajustées

Les valeurs ajustées sont obtenues au moyen de la droite de régression.

yi∗ = axi + b

Les valeurs ajustées sont les prédictions des yi réalisées au moyen de la


variable x et de la droite de régression de y en fonction de x.

Remarque : La moyenne des valeurs ajustées est égale à la moyenne des


valeurs observées.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 17 / 148


Deux variables quantitatives
Résidus et valeurs ajustées

Les résidus sont les différences entre les valeurs observées et les valeurs
ajustées de la variable dépendante
ei = yi − yi∗
Les résidus représentent la partie inexpliquée de yi par la droite de
régression.

Remarque :
La moyenne des résidus est nulle :
n
1X
ei = 0
n
i=1
De plus,
n
X
xi ei = 0.
i=1
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 18 / 148
Deux variables quantitatives
Somme des carrés de la variance

Definition
La somme des carrés totale est la quantité
n
X
SCTOT = (yi − ȳ )2
i=1

La variance marginale peut alors être définie par


SCTOT
sy2 =
n

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 19 / 148


Deux variables quantitatives
Somme des carrés de la variance

Definition
On appelle somme des carrés de la régression la quantité
n
X
SCREGR = (yi∗ − ȳ )2
i=1

Definition
La variance de régression est la variance des valeurs ajustées :
n
1X ∗
sy2∗ = (yi − ȳ )2
n
i=1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 20 / 148


Deux variables quantitatives
Somme des carrés de la variance

Definition
On appelle somme des carrés des résidus( ou résiduelle) la quantité
n
X
SCRES = ei2
i=1

Definition
La variance résiduelle est la variance des résidus :
SCRES
se2 =
n

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 21 / 148


Deux variables quantitatives
Somme des carrés de la variance

Theorem
SCTOT = SCREGR + SCRES

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 22 / 148


Deux variables quantitatives
Décomposition de la variance

Theorem
La variance de régression peut également s’écrire

sy2∗ = sy2 r 2 ,

où r 2 est le coefficient de détermination.

Theorem
La variance résiduelle peut également s’écrire

se2 = sy2 (1 − r 2 ),

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 23 / 148


Deux variables quantitatives
Décomposition de la variance

Theorem
La variance marginale est la somme de la variance de régression et de la
variance résiduelle :
sy2 = sy2∗ + se2 .

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 24 / 148


Sommaire

1 Series statistiques bivariée 4 Théorie des indices

2 Deux variables quantitatives 5 Séries chronologiques

3 Deux variables qualitatives


Données observées
Tableau de contingence
Tableau de fréquences
Profils lignes et profils
colonnes
Effectifs théoriques et
khi-carré

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 25 / 148


Deux variables qualitatives
Données observées

On considère deux variables qualitatives x et y . Alors les données


observées sont une suite de couples de variables

(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ),

chacune des deux variables prend comme valeurs des modalités


qualitatives.
Les valeurs distinctes de x et y sont notées respectivement

x1 , . . . , xj , . . . , xJ

et
y1 , . . . , yk , . . . , yK

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 26 / 148


Deux variables qualitatives
Tableau de contingence

Les données observées peuvent être regroupées sous forme d’un tableau
de contingence

y1 · · · yk ··· yK total
x1 n11 · · · n1k ··· n1K n1·
.. .. .. .. ..
. . . . .
xj nj1 ··· njk ··· njK nj·
.. .. .. .. ..
. . . . .
xJ nJ1 · · · nJk ··· nJK nJ·
total n·1 · · · n·k ··· n·K n

Les nj· et n·k sont appelés les effectifs marginaux.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 27 / 148


Deux variables qualitatives
Tableau de contingence

nj· représente le nombre de fois que la modalité xj apparaı̂t,


n·k représente le nombre de fois que la modalité yk apparaı̂t,
njk représente le nombre de fois que les modalités xj et yk
apparaissent ensemble.
On a les relations
J
X
njk = n·k , pour tout k = 1, . . . , K ,
j=1

K
X
njk = nj· , pour tout j = 1, . . . , J,
k=1
et
J
X K
X J X
X K
nj· = n·k = njk = n
j=1 k=1 j=1 k=1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 28 / 148


Deux variables qualitatives
Tableau de contingence

Exemple : On s’intéresse à une éventuelle relation entre le sexe de 200


personnes et la couleur des yeux. Le tableau suivant reprend le tableau de
contingence.

Bleu Vert Marron Total


Homme 10 50 20 80
Femme 20 60 40 120
Total 30 110 60 200
Table 1 – Tableau des effectifs njk

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 29 / 148


Deux variables qualitatives
Tableau des fréquences

Le tableau des fréquences s’obtient en divisant tous les effectifs par la


taille de l’échantillon :
njk
fjk = , j = 1, . . . , J, k = 1, . . . , K
n
nj·
fj. = , j = 1, . . . , J
n
n·k
f·k = , k = 1, . . . , K
n

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 30 / 148


Deux variables qualitatives
Tableau des fréquences

Le tableau de fréquences est

y1 · · · yk ··· yK total
x1 f11 · · · f1k ··· f1K f1·
.. .. .. .. ..
. . . . .
xj fj1 ··· fjk ··· fjK fj·
.. .. .. .. ..
. . . . .
xJ fJ1 · · · fJk ··· fJK fJ·
total f·1 · · · f·k ··· f·K 1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 31 / 148


Deux variables qualitatives
Tableau des fréquences

Exemple : Le tableau suivant reprend le tableau de fréquence du tableau


de contingence précédent

Bleu Vert Marron Total


Homme 0.05 0.25 0.10 0.40
Femme 0.10 0.30 0.20 0.60
Total 0.15 0.55 0.30 1.00
Table 2 – Tableau des fréquences

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 32 / 148


Deux variables qualitatives
Profils lignes et profils colonnes

L’interprétation d’un tableau de contingence se fait toujours en comparant


des fréquences en lignes ou des fréquences en colonnes (appelées aussi
profils lignes et profils colonnes).
Le profils lignes sont définis par

(j) njk fjk


fk = = , j = 1, . . . , J, k = 1, . . . , K
nj· fj·

et les profils colonnes par

(k) njk fjk


fj = = , j = 1, . . . , J, k = 1, . . . , K
n·k f·k

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 33 / 148


Deux variables qualitatives
Profils lignes et profils colonnes

Exemple :

Bleu Vert Marron Total


Homme 0.13 0.63 0.25 1.00
Femme 0.17 0.50 0.33 1.00
Total 0.15 0.55 0.30 1.00
Table 3 – Tableau de profils lignes

Bleu Vert Marron Total


Homme 0.33 0.45 0.33 0.40
Femme 0.67 0.55 0.67 0.60
Total 1.00 1.00 1.00 1.00
Table 4 – Tableau de profils colonnes

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 34 / 148


Deux variables qualitatives
Effectifs théoriques et khi-carré

On cherche souvent une interaction entre des lignes et des colonnes, un


lien entre variables. Pour mettre en évidence ce lien, on construit un
tableau d’effectif théorique qui représente la situation où les variables ne
sont pas liées (indépendance). Ces effectifs théoriques sont construits de la
manière suivante :

∗ nj· n·k
njk =
n
Les effectifs observés njk ont les mêmes marges que les effectifs théoriques
∗.
njk

Les écarts à l’indépendance sont définis par



ejk = njk − njk

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 35 / 148


Deux variables qualitatives
Effectifs théoriques et khi-carré

La dépendance du tableau se mesure au moyen du khi-carré définie par


K X
J ∗ )2 K X
J 2
X (njk − njk X ejk
χ2obs = ∗ = ∗ (1)
njk njk
k=1 j=1 k=1 j=1

Le khi-carré peut être normalisé pour ne plus dépendre du nombre


d’observations. On définit le phi-deux par
χ2obs
φ2 =
n
On montre que
φ2 ≤ min(J − 1, K − 1)
Le V de Cramer est défini par
s s
φ2 χ2obs
V = =
min(J − 1, K − 1) n min(J − 1, K − 1)
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 36 / 148
Deux variables qualitatives
Effectifs théoriques et khi-carré

 0≤V ≤1
 V ne dépend ni de la taille de l’échantillon ni de la taille du
tableau,
 Si V ≡ 0, alors les deux variables sont indépendantes.
 Si V = 1, il existe une relation fonctionnelle entre les
variables, ce qui signifie que chaque ligne et chaque colonne
du tableau de contingence ne contiennent qu’un seul effectif
différent de 0 (il faut que le tableau ait le même nombre de
lignes que de colonnes).

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 37 / 148


Deux variables qualitatives
Effectifs théoriques et khi-carré

Exemple :
Les deux tableaux suivant représentent resp le tableau des effectifs
2 /n∗ .
théoriques, le tableau des écarts à l’indépendance et le rapport ejk jk

Bleu Vert Marron Total


Homme 12 44 24 80
Femme 18 66 36 120
Total 30 110 60 200
Table 5 – Tableau des effectifs théoriques

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 38 / 148


Deux variables qualitatives
Effectifs théoriques et khi-carré

Bleu Vert Marron Total


Homme -2 6 -4 0
Femme 2 -6 4 0
Total 0 0 0 0
Table 6 – Tableau des écarts à l’indépendance ejk

Bleu Vert Marron Total


Homme 0.33 0.82 0.67 1.82
Femme 0.22 0.55 0.44 1.21
Total 0.55 1.3 1.11 3.03

Table 7 – Tableau des ejk2 /njk

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 39 / 148


Deux variables qualitatives
Effectifs théoriques et khi-carré

Le khi-observé vaut χ2obs = 3.03.


Le phi-deux vaut φ2 = 0.01515.
min(J − 1, K − 1) = min(2 − 1, 3 − 1) = 1.
p
V = φ2 = 0.123 : la dépendance entre les variables est très faible.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 40 / 148


Sommaire

1 Series statistiques bivariée 4 Théorie des indices

2 Deux variables quantitatives 5 Séries chronologiques

3 Deux variables qualitatives

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 41 / 148


Théorie des indices - Nombres d’indices
Définition

Un indice est la valeur d’une grandeur par rapport à une valeur de


référence. Prenons l’exemple du tableau 8 contenant le prix (fictif) d’un
bien de consommation de 2000 à 2006. Le temps varie de 0, 1, 2, . . . , 6, et
0 est considéré comme le temps de référence par rapport auquel l’indice
est calculé.
année t prix pt
2000 0 2.00
2001 1 2.30
2002 2 2.40
2003 3 2.80
2004 4 3.00
2005 5 3.50
2006 6 4.00
Table 8 – Tableau du prix d’un bien de consommation de 2000 à 2006

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 42 / 148


Théorie des indices - Nombres d’indices
Définition

L’indice simple est défini par


pt
I (t/t 0 ) = 100 ×
, t, t 0 = 0, 1, . . . , 6.
pt 0
Le tableau 9 suivant contient la matrice des indices de prix du bien. Par
exemple de 2000 à 2006, le prix a doublé, donc I (6/0) = 200.
t=0 1 2 3 4 5 6
t0 =0 100.00 115.00 120.00 140.00 150.00 175.00 200.00
1 86.96 100.00 104.35 121.74 130.43 152.17 173.91
2 83.33 95.83 100.00 116.67 125.00 145.83 166.67
3 71.83 82.14 85.71 100.00 107.14 125.00 142.86
4 66.67 76.67 80.00 93.33 100.00 116.67 133.33
5 57.14 65.71 68.57 80.00 85.71 100.00 114.29
6 50.00 57.50 60.00 70.00 75.00 87.50 100.00
Table 9 – Tableau de l’indice simple du prix

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 43 / 148


Théorie des indices - Nombres d’indices
Propriétés des indices

Considérons un indice quelconque I (t/0). On dit que cet indice possède les
propriétés de
1
réversibilité si I (t/0) = 1002 × ,
I (0/t)
identité si I (t/t) = 100,
circularité (ou transitivité) si I (t/u) × I (u/v ) = 100 × I (t/v )
Il est très facile de montrer que ces trois propriétés sont satisfaites pour un
indice simple.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 44 / 148


Théorie des indices - Nombres d’indices
Indices synthétiques

Quand on veut calculer les indices à partir de plusieurs prix, le problème


devient sensiblement plus compliqué. Un indice synthétique est une
grandeur d’un ensemble de bien par rapport à une année de référence. On
ne peut pas construire un indice synthétique en additionnant simplement
des indices simples. Il faut en effet, tenir compte des quantités achetées.
Pour calculer un indice de prix de n biens de consommation étiquetés de
1, 2, . . . , n, on utilise la notation suivante :
- pti représente le prix du bien de consommation i au temps t,
- qti représente la quantité de bien i consommée au temps t.
On considère par exemple le tableau 10 suivant. Il contient 3 biens de
consommation et on connaı̂t les prix et les quantités achetées.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 45 / 148


Théorie des indices - Nombres d’indices
Indices synthétiques

Temps 0 1 2
Prix (p0i ) Qté (q0i ) Prix (p1i ) Qté (q1i ) Prix (p2i ) Qté (q2i )
Bien 1 100 14 150 10 200 8
Bien 2 60 10 50 12 40 14
Bien 3 160 4 140 5 140 5

Table 10 – Exemple : prix et quantités de troix biens pendant 3 ans

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 46 / 148


Théorie des indices - Nombres d’indices
Indice de Laspeyres

L’indice de Laspeyres est défini par


Pn
q0i pti
L(t/0) = 100 × Pni=1
i=1 q0i p0i

On utilise les quantités q0i du temps de référence pour le calcul.

L’indice de Laspeyres peut être présenté également comme une moyenne


pondérée des indices simples. Soient l’indice simple du bien i :
pti
Ii (t/0) = 100 × ,
p0i
et le poids ω0i correspondant à la recette totale du bien i au temps 0

ω0i = p0i q0i .

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 47 / 148


Théorie des indices - Nombres d’indices
Indice de Laspeyres

Alors
Pn Pn pti Pn
i=1 ω0i Ii (t/0) i=1 p0i q0i × 100 × p0i q0i pti
L(t/0) = Pn = Pn = 100× Pni=1
i=1 ω0i i=1 p0i q0i i=1 p0i q0i

L’indice de Laspeyres ne possède ni la propriété de réversibilité ni de


circularité.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 48 / 148


Théorie des indices - Nombres d’indices
Indice de Laspeyres

Exemple : Si on utilise les données du tableau 10, les indices de Laspeyres


sont les suivants :
Pn
q0i p1i 14 × 150 + 10 × 50 + 4 × 140
L(1/0) = 100 × Pi=1
n = 100 × = 119.697,
p0i q0i 14 × 100 + 10 × 60 + 4 × 160
Pi=1
n
q0i p2i 14 × 200 + 10 × 40 + 4 × 140
L(2/0) = 100 × Pni=1 = 100 × = 142.4242,
i=1 p0i q0i 14 × 100 + 10 × 60 + 4 × 160
Pn
q1i p2i 10 × 200 + 12 × 40 + 5 × 140
L(2/1) = 100 × Pni=1 = 100 × = 113.5714.
i=1 p0i q0i 10 × 150 + 12 × 50 + 5 × 140

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 49 / 148


Théorie des indices - Nombres d’indices
Indice de Paasche

L’indice de Paasche est défini par


Pn
qti pti
P(t/0) = 100 × Pni=1
i=1 qti p0i

Pour le calculer on utilise les quantités qti du temps par rapport auquel on
veut calculer l’indice.

Si on considère l’indice simple du bien i :


pti
Ii (t/0) = 100 × ,
p0i
et le poids ωti correspondant à la recette totale du bien i au temps t

ωti = pti qti .

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 50 / 148


Théorie des indices - Nombres d’indices
Indice de Paasche

Pn Pn Pn
i=1 ωti pti qti i=1 qti pti
P(t/0) = Pn = Pn i=1 p0i = 100 × Pn .
ω /I
i=1 ti i (t/0) p q
i=1 ti ti 100×pti i=1 qti p0i

L’indice de Paasche ne possède ni la propriété de circularité ni la


réversibilité.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 51 / 148


Théorie des indices - Nombres d’indices
Indice de Fisher

L’indice de Laspeyres est en général plus grand que l’indice de Paasche.


Cela s’explique par le fait que l’indice de Laspeyres est une moyenne
arithmétique d’indices élémentaires tandis que l’indice de Paasche est une
moyenne harmonique (on rappelle que la moyenne harmonique est toujours
inférieure ou égale à la moyenne arithmétique). Le résultat est cependant
approximatif car on n’utilise pas les mêmes poids pour calculer l’indice de
Paasche (ωti ) et de Laspeyres (ω0i .)

Fisher propose d’utiliser un compromis entre l’indice de paasche et de


Laspeyres en calculant simplement la moyenne géométrique de ces deux
indices p
F (t/0) = L(t/0) × P(t/0).
L’avantage de l’indice de Fisher est qu’il jouit de la propriété de
réversibilité.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 52 / 148


Théorie des indices - Nombres d’indices
Indice de Fisher

Exemple : Si on utilise toujours les données du tableau précédent, les


indices de Fischer sont les suivants :
p
F (1/0) = L(1/0) × P(1/0) = 115.3242,
p
F (2/0) = L(2/0) × P(2/0) = 129.2052,
p
F (2/1) = L(2/1) × P(2/1) = 111.7715.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 53 / 148


Théorie des indices - Nombres d’indices
Indice de Sidgwick

L’indice de Sidgwick est la moyenne arithmétique des indices de Paasche


et de Laspeyres.
L(t/0) + P(t/0)
S(t/0) = .
2

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 54 / 148


Théorie des indices - Nombres d’indices
Indices chaı̂nes

Le défaut principal des indices de Laspeyres, de Paasche, de Fisher et de


Sidgwick est qu’ils ne possèdent pas la propriété de circularité. Un indice
qui possède cette propriété est appelé indice chaı̂ne.

Pour construire un indice chaı̂ne avec l’indice de Laspeyres, on peut faire


un produit d’indices de Laspeyres annuels.

L(t/t − 1) L(t − 1/t − 2) L(2/1) L(1/0)


CL(t/0) = 100 × × × ··· × × .
100 100 100 100
L’indice suisse des prix à la consommation est un indice chaı̂ne de
Laspeyres.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 55 / 148


Théorie des indices - Nombres d’indices
Indices chaı̂nes

Exemple : En utilisant encore les données du tableau 10, les indices


chaı̂nes de Laspeyres sont les suivants :

CL(1/0) = L(1/0) = 119.6970,


CL(2/1) = L(2/1) = 113.5714,
L(2/1) × L(1/0)
CL(2/0) = = 135.9416.
100

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 56 / 148


Théorie des indices - Mesure de l’inégalité
Introduction

Des indicateurs particuliers ont été développés pour mesurer les inégalités
des revenus ou les inégalités de patrimoine.

On considère qu’une société est parfaitement égalitaire si tous les individus


reçoivent le même revenu. La situation théorique la plus inégalitaire est la
situation où un individu perçoit la totalité des revenus, et les autres
individus n’ont aucun revenu.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 57 / 148


Théorie des indices - Mesure de l’inégalité
Courbe de Lorentz

On note
x1 . . . , xi . . . , xn
les revenus de n individus de la population étudiée. On note étalement

x(1) , . . . , x(i) , . . . , x(n) ,

la statistique d’ordre, c’est-à-dire la série de revenus triés par ordre


croissant.
On note qi la proportion de revenu par rapport au revenu total qu’ont
gagné les i individus ayant les plus bas revenus, ce qui s’écrit
Pi
j=1 x(j)
qi = Pn avec q0 et qn = 1
j=1 x(j)

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 58 / 148


Théorie des indices - Mesure de l’inégalité
Courbe de Lorentz

La courbe de Lorentz est la représentation graphique de la fonction qui à


la proportion des individus les moins riches associe la part y du revenu
total qu’ils perçoivent.
Plus précisément, la courbe de Lorentz relie les points (i/n, qi ) pour
i = 1, . . . , n. En abscisse, on a donc une proportion d’individus classés par
ordre de revenu et en ordonnée la proportion du revenu total reçu par ces
individus.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 59 / 148


Théorie des indices - Mesure de l’inégalité
Courbe de Lorentz

Exemple : On utilise une enquête ménage sur le revenu dans une région
des Philippines appelée Ilocos. Cette enquête de 1997 sur le revenu des
ménages a été produite par l’Office philippin de Statistique. La courbe de
Lorenz est présentée en figure 5

Figure 5 – Courbe de Lorenz


P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 60 / 148
Théorie des indices - Mesure de l’inégalité
Courbe de Lorentz

Remarque : Sur le graphique on indique toujours la diagonale. La courbe


de Lorenz est égale à la diagonale si tous les individus ont le même revenu.
Plus l’écart entre la courbe de Lorenz et la diagonale est importante, plus
les revenus sont distribués de manière inégalitaire.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 61 / 148


Théorie des indices - Mesure de l’inégalité
Indice de Gini

L’indice de Gini G est égal à deux fois la surface comprise entre la courbe
de Lorenz et la diagonale.
1 Pn Pn
n(n−1) i=1 j=1 |xi − xj |
G=
2x̄
En utilisant la statistique d’ordre x(1) , . . . , x(i) , . . . , x(n) , l’indice de Gini
peut encore s’écrire
 Pn
2 i=1 ix(i)

1
G= − (n + 1)
n−1 nx̄

L’indice de Gini est compris entre 0 et 1. S’il est proche de 0, tous les
revenus sont égaux. S’il est proche de 1, les revenus sont très inégaux.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 62 / 148


Théorie des indices - Mesure de l’inégalité
Indice de Hoover

L’indice d’équipartition de Hoover (ou Robbin Hood index) est défini


comme la proportion de revenus qu’il faudrait prendre aux individus
gagnant plus que la moyenne et redistribuer aux individus gagnants moins
que la moyenne pour que tout le monde ait le même revenu.
1 Pn
n i=1 |xi − x̄|
H=
2x̄
Il est compris entre 0 et 1 et vaut 0 si tous les individus ont le même
revenu. Il correspond à la plus grande distance verticale entre la courbe de
Lorenz et la diagonale.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 63 / 148


Théorie des indices - Mesure de l’inégalité
Quintile et Decile share ratio

On définit d’abord :
- S10 le revenu moyen des individus ayant un revenu inférieur au
premier décile x1/10 ,
- S20 le revenu moyen des individus ayant un revenu inférieur au
premier quintile ou deuxième décile x1/5 ,
- S80 le revenu moyen des individus ayant un revenu supérieur au
quatrième quintile ou huitième décile x4/5 ,
- S90 le revenu moyen des individus ayant un revenu supérieur au
neuvième décile x9/10 ,

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 64 / 148


Théorie des indices - Mesure de l’inégalité
Quintile et Decile share ration

Le quintile share ratio est défini par


S80
QSR =
S20
Le décile share ratio est défini par
S90
DSR =
S10
Ces quantités sont toujours plus grandes que 1 et augmentent avec
l’inégalité.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 65 / 148


Théorie des indices - Mesure de l’inégalité
Quintile et Decile share ration

Par exemple si QSR = 5, cela signifie que le revenu moyen de 20% des plus
riches est 5 fois plus grand que le revenu moyen de 20% des plus pauvres.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 66 / 148


Théorie des indices - Mesure de l’inégalité
Indice de Pauvreté

Un indice simple de pauvreté consiste à calculer le pourcentage de la


population gagnant moins que la moitié de la médiane.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 67 / 148


Sommaire

1 Series statistiques bivariée 4 Théorie des indices

2 Deux variables quantitatives 5 Séries chronologiques

3 Deux variables qualitatives

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 68 / 148


Séries chronologiques

Une série chronologique ou chronique est constituée par une suite


ordonnée d’observations d’une grandeur au cours du temps.

Le but de l’étude de ces séries c’est de décrire, expliquer, contrôler et/ou


prévoir des phénomènes évoluant au cours du temps.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 69 / 148


Séries chronologiques - Éléments constitutifs

L’étude d’une série chronologique {xt , t = 1, . . . , T } consiste à dissocier


les différents mouvements qui la composent et à les analyser. Cette
décomposition est une construction de l’esprit puisque les séries
composantes sont des concepts arbitraires et ne peuvent pas être
directement observées.

Les intervalles entre deux observations successives sont supposés de même


longueur. Dans la pratique, cette hypothèse est rarement réalisée. Pour les
séries mensuelles de productions, de ventes, . . ., le nombre de jours
ouvrables de chaque mois varie : le nombre de dimanches dans le mois, les
jours de certaines fêtes mobiles ne sont pas les mêmes chaque année. Pour
que ces variations ne soient pas intégrées dans la composante résiduelle du
modèle, on corrige les données en adoptant une correction proportionnelle
qui consiste pour les données mensuelles, par exemple, à ramener chaque
mois à un même nombre théorique de jours.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 70 / 148


Séries chronologiques - Éléments constitutifs
Tendance à long terme

La tendance à long terme ou trend, notée ft est le f acteur représentant


l’évolution à long terme de la grandeur, et traduit l’aspect général de la
série.
Exemple : croissance de la consommation d’électricité, croissance du trafic
aérien, diminution de la population rurale,. . ..

Pour de longues séries, un mouvment cyclique peut se superposer à la


tendance. La composante cyclique liée à la succession des phase du cycle
économique (prospérité, dépression, reprise), a donné lieu jusqu’au milieu
du XX e à de multiples travaux, mais n’est plus actuellement l’objet d’un
intérêt aussi marqué.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 71 / 148


Séries chronologiques - Éléments constitutifs
Mouvement saisonnier

Le facteur saisonnier, noté st , se répète à intervalles de temps égaux


avec une forme à peu près constante. Il peut être dû au rythme des saisons
ou à des facteurs humains. Sa période est de 12 pour les séries mensuelles,
de 4 pour les séries trimestrielles, . . ..

Si p désigne la période du mouvement saisonnier : st = st+p = st+2p = . . .

Le facteur saisonnier est donc totalement déterminé par p coefficients


saisonniers :
s1 , . . . , sj , . . . , sp

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 72 / 148


Séries chronologiques - Éléments constitutifs
Irrégularités

L’irrégularité aussi appelée mouvement résiduel et notée et , regroupe


tout ce qui n’a pas été pris en compte par la tendance et le facteur
saisonnier. Elle est la résultante de fluctuations irrégulières et imprévisibles
dues à des facteurs perturbateurs non permanents ; ces fluctuations sont
supposées de faible amplitude et de moyenne nulle sur un petit nombre
d’observations consécutives.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 73 / 148


Séries chronologiques - Éléments constitutifs
Perturbations

Les perturbations sont des fluctuations ponctuelles de forte amplitude.


Elles sont dues par exemple, à une grève, à des conditions météorologiques
exceptionnelles pour l’agriculture, à un krach financier . . .Il convient de les
éliminer avant tout traitement de la série. Le méthodes pour le faire sont
simples ; pour faire comme si ces événements n’avaient pas lieu, les
instruments privilégiés sont l’interpolation et la règle de trois.

La représentation de la série chronologique des  Voyageurs RATP  de


1995 à 2002 montre une baisse importante du nombre de voyageurs en
décembre 1995 due à une grève. Avant d’estimer les composantes de cette
chronique, il est nécessaire de corriger la valeur 0.19 milliard de
voyageurs-km de ce mois de décembre en la remplaçant, par exemple par
la moyenne des mois de décembre 1994 et 1996 (resp. 1.06 et 0.95
milliards de voyageurs-km)

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 74 / 148


Figure 6 – Voyageurs RATP (milliards de voyageurs/km)

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 75 / 148


Figure 7 – Indices de valeur des produits alimentaires (base 2000)

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 76 / 148


Séries chronologiques - Éléments constitutifs
Perturbations

On traite généralement des séries à deux composantes : tendance et


mouvement résiduel, ou à trois composantes : tendance, mouvement
saisonnier et mouvement résiduel. Les observations d’une chronique
possédant une composante saisonnière peuvent être disposées dans un
tableau selon les deux dimensions du temps, annuelle et mensuelle (ou
trimestrielle), comme pour les tableaux 6, 7 et ??. Cette présentation est
appelée  table de Buys-Ballot  et est introduite par C. Buys-Ballot en
1847.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 77 / 148


Séries chronologiques - Modèles de composition d’une série
chronologique
La décomposition d’une série chronologique possédant un mouvement
saisonnier peut s’effectuer selon trois types de modèles :
modèle additif : xt = ft + st + et , t = 1, . . . , T
modèle multiplicatif : xt = ft · (1 + st ) · (1 + et ), t = 1, . . . , T
modèle mixte : xt = ft · (1 + st ) + et , t = 1, . . . , T
On choisit un modèle multiplicatif ou mixte si le mouvement saisonnier
présente des amplitudes proportionnelles à la tendance.

Notons qu’une transformation logarithmique du modèle multiplicatif


ramène au modèle additif :

log(xt ) = log(ft · (1 + st ) · (1 + et )) ≈ log(ft ) + log(1 + st ) + et

puisque log(1 + et ) ≈ et .
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 78 / 148
Séries chronologiques - Modèles de composition d’une série
chronologique

Les méthodes de décomposition dont nous nous intéresserons dans cette


partie sont les modèles additif est multiplicatif.

Pour le mouvement saisonnier de période p, on fait l’hypothèse d’une


compensation exacte sur une période entre les variations saisonnières
positives et les variations saisonnières négatives, sinon, le partage entre le
facteur saisonnier et la tendance serait indéterminé :
p
X
sj = 0
j=1

Quand on analyse une série chronologique, le premier problème est le


suivant : la série présente-t-elle des variations saisonnières et si oui, quel
est le schéma de composition le mieux adapté ?

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 79 / 148


Séries chronologiques - Modèles de composition d’une série
chronologique

On commence par représenter la série graphiquement. Si la série présente


des variations saisonnières, les points hauts (maxima) ainsi que les points
bas (minima), sont toujours distants du même nombre de dates, ce
nombre étant la période du mouvement saisonnier. Dans la figure 8, la
série chronologique représentée a une composante de période 12 (série
mensuelle), et celle représentée à la figure 9 a une composante saisonnière
de période 4 (série trimestrielle).

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 80 / 148


Figure 8 – Représentation graphique de la chronique du tableau 6

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 81 / 148


Figure 9 – Représentation graphique de la chronique du tableau 7

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 82 / 148


Séries chronologiques - Modèles de composition d’une série
chronologique

Pour choisir le modèle de composition, on peut relier par une courbe (ou
plutôt par une ligne brisée) les maxima distants d’une période p et faire de
même avec les maxima.
Si ces deux courbes sont à peu près parallèles, alors le facteur
saisonnier a des amplitudes à peu près constantes, c’est-à-dire qu’il
affecte la tendance indépendamment de son niveau, et le schéma
additif est adapté. C’est le cas de la chronique des  Voyageurs
RATP  de 1995 à 2004 (voire fig. 8).

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 83 / 148


Séries chronologiques - Modèles de composition d’une série
chronologique

Sinon, on représenta la chronique sur un papier à ordonnées


logarithmiques. Si les deux courbes reliant les extrema sont à peu près
parallèles, alors le facteur saisonnier a des amplitudes à peu près
proportionnelles à la tendance, c’est-à-dire que les effets des
variations saisonnières sont proportionnels au niveau atteint par la
tendance, et le schéma multiplicatif est adapté. C’est le cas de la
chronique des  Indices de valeur des produits alimentaires  de 1995
à 2004 (voire fig. 9 et 10).

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 84 / 148


Figure 10 – Représentation de la chronique du tableau 7 avec ordonnée
logarithmique

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 85 / 148


Séries chronologiques - Modèles de composition d’une série
chronologique

Le modèle multiplicatif convient dans la plupart des cas puisque d’une


part, l’effet saisonnier est généralement proportionnel à la tendance, et que
d’autre part, dans le cas d’une chronique à tendance faiblement croissante
ou faiblement décroissante, les deux schémas sont quasiment équivalents.
C’est la raison pour laquelle on n’évoque bien souvent que le modèle
multiplicatif.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 86 / 148


Séries chronologiques - Analyse de la tendance
Ajustement de la tendance par une fonction analytique

Les logiciels spécialisés (SPSS,. . .), mais aussi les tableurs (Excel, . . .),
proposent des fonctions analytiques pour ajuster la tendance, l’ajustement
se faisant par la méthode de moindres carrés (méthode qui minimise les
écarts quadratiques entre modèle et observations). On peut citer
quelques-uns de ces modèles :
modèle linéaire : y (t) = a + bt
modèle quadratique : y (t) = a + bt + ct 2
modèle exponentiel : y (t) = exp(a + bt), ce type de modèle convient
à des quantités évoluant à taux constant puisque
y (t + 1) = exp(b) · y (t) = c · y (t)
modèle logarithmique : y (t) = a + b ln(t)
modèle S (courbe  sigmoı̈de ) : y (t) = exp(a + b/t), ce type
d’ajustement convient à la description du cycle de vie de certains
produits.
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 87 / 148
Séries chronologiques - Analyse de la tendance
Ajustement de la tendance par une fonction analytique

Ces méthodes analytiques sont simples, mais reposent sur l’hypothèse


d’une tendance évoluant selon une fonction analytique déterminée,
hypothèse qu’on ne peut pas fréquemment faire, même à la suite d’une
formation de variable.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 88 / 148


Séries chronologiques - Analyse de la tendance
Ajustement de la tendance par une fonction analytique

En l’absence de référence à un modèle précis pour la tendance, on


préférera utiliser une méthode non-paramétrique qui filtre la tendance en
éliminant le facteur saisonnier tout en réduisant les irrégularités. Dans la
suite, on appellera filtre une sorte de  boı̂te noire  régularisant une
chronique X en la transformant en une chronique Y qui est une
approximation de la composante tendancielle de la chronique X :

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 89 / 148


Séries chronologiques - Analyse de la tendance
Ajustement de la tendance par une fonction analytique

Deux principaux filtres linéaires seront étudiés : la moyenne mobile et le


lissage exponentiel simple.
Un filtre linéaire est une application linéaire de l’ensemble des chroniques
dans lui-même transformant la chronique X en une nouvelle chronique Y
de la façon suivante :
X X
yt = αk xt+k avec K ⊂ Z et αk = 1
k∈K k∈K

Le choix du filtre linéaire approprié à certains objectifs se fait par


l’intermédiaire du choix de ses coefficients αk .

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 90 / 148


Séries chronologiques - Analyse de la tendance
Moyenne mobile

On appelle moyennes mobiles centrées de longueur p (p < T ) de la


série {xt , t = 1, . . . , T } les moyennes successives calculées en fonction de
la parité de p selon les formules qui suivent :
Premier cas, p impair, p = 2m + 1 :
+m
1 X
Mp (t) = xt+k
p
k=−m

Il y a (T − p + 1) moyennes mobiles centrées de longueur impaire p.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 91 / 148


Séries chronologiques - Analyse de la tendance
Moyenne mobile

Deuxième cas, p pair, p = 2m :


m−1
!
1 xt−m X xt+m
Mp (t) = + xt+k +
p 2 2
k=−m+1

La moyenne mobile centrée M2m (t) apparaı̂t comme la moyenne


pondérée de valeurs de la série encadrant la date t avec les
1
coefficients de pondération égaux à 2p pour les deux valeurs extrêmes
1
xt−m et xt+m et égaux à p pour les (p − 2) valeurs intermédiaires
xt−m+1 à xt+m−1 .

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 92 / 148


Séries chronologiques - Analyse de la tendance
Moyenne mobile

Elle comporte donc (p + 1) termes :

Valeurs xt−m xt−m+1 ... xt ... xt+m−1 xt+m


1 1 1 1 1
Pondération 2p p ... p ... p 2p

Il y a (T − p) moyennes mobiles centrées de longueur paire p.

Pour simplifier, la longueur p de la moyenne mobile étant fixée, on notera


désormais yt la moyenne mobile centrée de longueur p à la date t.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 93 / 148


Séries chronologiques - Analyse de la tendance
Détermination de la tendance par la méthode des moyennes mobiles

Si une série X est périodique de période p, c’est-à-dire si la série redevient


identique à elle-même tous les p termes, alors toute suite de moyennes
mobiles de longueur p 0 (différente de p) a pour période p.

Démonstration : Cas où p 0 est impaire (p 0 = 2m + 1).


Soit yt la moyenne mobile centrée de longueur p 0 à la date t de la série X .
On montrera que la série Y est de période p :
m m
1 X 1 X
yt+p = xt+p+k = xt+k = yt
2m + 1 2m + 1
k=−m k=−m

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 94 / 148


Séries chronologiques - Analyse de la tendance
Détermination de la tendance par la méthode des moyennes mobiles

Exemple :
La chronique {xt , t = 1, . . . , 12} du tableau 11 est périodique de période
p = 4 ; les suites des moyennes mobiles de longueur 2,3,5 sont aussi de
période 4, et la suite des moyennes mobiles de période 4 est une suite de
termes constants égaux à −1/4, moyenne des termes sur une période.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 95 / 148


Séries chronologiques - Analyse de la tendance
Détermination de la tendance par la méthode des moyennes mobiles

Figure 11 – Calcul de moyennes mobiles

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 96 / 148


Séries chronologiques - Analyse de la tendance
Détermination de la tendance par la méthode des moyennes mobiles

Soit C la courbe joignant les points (t, xt ). Si la concavité de C est tournée


vers le haut, alors yt est supérieur à xt pour tout t ; dans le cas contraire,
yt est inférieur à xt pour tout t. Si C est une droite, yt est égal à xt pour
tout t.

En conclusion, la moyenne mobile centrée transforme une série alignée en


elle-même et plus généralement, une série monotone à faible courbure en
une série peu différente.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 97 / 148


Séries chronologiques - Analyse de la tendance
Détermination de la tendance par la méthode des moyennes mobiles

La moyenne mobile transforme des écarts dus à des irrégularité


indépendantes, de moyenne nulle sur un petit nombre de dates successives
(par hypothèse) et de même variance en écarts de variance plus faible ; on
dit qu’elle a un effet de  rabot , ou aussi qu’elle  lisse  la chronique,
en ce sens que la série Y est moins dispersée que la série initiale X . Mais
les novelles irrégularités qui sont corrélées entre elles, peuvent faire
apparaı̂tre des oscillations parasites qui ne figuraient pas dans la série
initiale (effet de Slutsky-Yule).

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 98 / 148


Séries chronologiques - Analyse de la tendance
Détermination de la tendance par la méthode des moyennes mobiles

 Si la période du mouvement saisonnier est égale à p, alors la moyenne


mobile centrée de longueur p est un filtre linéaire du mouvement
résiduel. De plus, on montre que sa valeur yt à la date t peut être
assimilée à la tendance ft si celle-ci est à faible courbure –à faible
variation dans le cas d’un schéma multiplicatif– sur p dates
consécutives.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 99 / 148


Séries chronologiques - Analyse de la tendance
Inconvénients de la méthode des moyennes mobiles

Un changement de niveau ou de pente de la tendance à une date t


entraı̂ne une mauvaise approximation de cette composante pendant toute
une période précédant et suivant cette date (fig. 12). C’est la raison pour
laquelle on fait l’hypothèse d’une tendance monotone à faible courbure.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 100 / 148


Séries chronologiques - Analyse de la tendance
Inconvénients de la méthode des moyennes mobiles

Figure 12 – Représentation d’une chronique et de ses moyennes mobiles


centrées de longueur 4

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 101 / 148


Séries chronologiques - Analyse de la tendance
Inconvénients de la méthode des moyennes mobiles

Si l’on dispose de T = np observations (n=nombre d’années et p=période


du mouvement saisonnier) et si p est pair, on ne peut calculer que (T − p)
moyennes mobiles de longueur p. On ne disposera pas de valeurs pour la
tendance sur les p/2 dernières dates qui ne pourront pas être prise en
compte pour une prévision.

Malgré ces inconvénients, on admettra que dans la plupart des cas, la


valeur ft de la tendance s’évalue par la moyenne mobile centrée yt de
longueur égale à la période du mouvement saisonnier.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 102 / 148


Séries chronologiques - Correction des variations
saisonnières

Si on étudie une chronique à variations saisonnières, l’évaluation de la


tendance à chaque date t par la moyenne mobile centrée de longueur
adéquate, conduit pour chaque coefficient saisonnier à plusieurs valeurs
qu’il faut résumer.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 103 / 148


Séries chronologiques - Correction des variations
saisonnières
Modèle additif

Modèle : xt = ft + st + et

On approxime la tendance ft par la moyenne mobile centrée yt .

Soient n le nombre d’années et p la période du facteur saisonnier :

T = np observations ⇒ np − p = p(n − 1) moyennes mobiles si p est pair

Les coefficients saisonniers étant périodiques de période p, on dispose pour


chacun des p coefficients saisonniers de (n − 1) valeurs qui sont (n − 1)
différences {xt − yt }. On résume ces (n − 1) valeurs par leur moyenne
arithmétique, ou leur médiane, ou leur moyenne arithmétique après
élimination de la valeur la plus faible et de la valeur la plus élevée.
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 104 / 148
Séries chronologiques - Correction des variations
saisonnières
Modèle additif

Si la somme des coefficients saisonniers n’est pas nulle sur une période, on
corrige les coefficients saisonniers obtenus de façon à avoir une somme
nulle :
p
1X
st → st∗ = st − s̄ avec s̄ = st
p
t=1

On appelle série corrigée des variations saisonnières (série CVS) la


série des différences :
xt∗ = xt − st∗

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 105 / 148


Séries chronologiques - Correction des variations
saisonnières
Modèle additif

Pour toutes les dates pour lesquelles on dispose de la valeur de la moyenne


mobile, et donc d’une évaluation de la tendance, on peut calculer l’écart
entre le modèle et l’observation :

et = xt − yt − st∗ = xt∗ − yt

Si le modèle est adapté, les valeurs absolues des écarts ne doivent pas être
élevées, et leurs somme voisine de zéro.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 106 / 148


Séries chronologiques - Correction des variations
saisonnières
Modèle multiplicatif

Les coefficients saisonniers étant périodiques de période p, on dispose pour


chacun des p coefficients de (n − 1) valeurs qui sont (n − 1) quotients
{xt /yt }. On résume ces (n − 1) valeurs par leur moyenne arithmétique, ou
leur médiane, ou leur moyenne arithmétique après élimination de la valeurs
la plus faible et de la valeur la plus élevée.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 107 / 148


Séries chronologiques - Correction des variations
saisonnières
Modèle multiplicatif

Si la somme des (1 + st ) n’est pas égale à p sur une période, on fait une
correction proportionnelle :
p
1 + st 1X
1 + st → 1 + st∗ = avec s̄ = st
1 + s̄ p
t=1

On établit ensuite la série corrigée des variations saisonnières :


xt
xt∗ =
1 + st∗

Dans le cas du modèle multiplicatif, les coefficients saisonniers s’expriment


en pourcentage de la tendance. Ils ont une interprétation plus concrète que
ceux du modèle additif.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 108 / 148


Séries chronologiques - Correction des variations
saisonnières
Modèle multiplicatif

Le modèle multiplicatif prédit ainsi des valeurs yt (1 + st∗ ) et il est alors


naturel, pour toutes les dates auxquelles on dispose de la valeur de la
moyenne mobile, et donc d’une évaluation de la tendance, de considérer
les résidus et sous la forme :
xt xt∗
et = − 1 = −1
yt (1 + st∗ ) yt

Les écarts entre le modèle et les observations sont égaux à :

xt − yt (1 + st∗ ) = yt (1 + st∗ )et

Si le modèle est adapté, les valeurs absolues des écarts ne doivent pas être
élevées, et leur somme voisine de zéro.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 109 / 148


Séries chronologiques - Correction des variations
saisonnières
Autres approches

On peut cherche à améliorer l’évaluation de la tendance en repassant un


filtre moyenne mobile sur la série CVS. On choisit généralement une
longueur assez faible pour cette nouvelle suite de moyenne mobiles : 5 ou
7 dans le cas d’une série de période 12, et 3 dans le cas d’une série de
période 4. Avec cette nouvelle évaluation de la tendance, on détermine de
nouveaux 4. Avec dette nouvelle évaluation de la tendance, on détermine
de nouveaux coefficients saisonniers et une nouvelle série CVS. Cette
méthode itérative se pourrait évidemment être poursuivie, mais le gain
devient à peu près nul au delà de deux étapes.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 110 / 148


Séries chronologiques - Correction des variations
saisonnières
Autres approches

On peut aussi remplacer la moyenne mobile centrée par la médiane mobile


centrée qui est un filtre non linéaire : au lieu de synthétiser une suite de la
série par une moyenne pondérée, on les résume par leur médiane
(particulièrement aisée à déterminer à ma main avec p = 3). Les médianes
mobiles, développées par Tukey, sont robuste puisqu’étant fondées sur
l’utilisation de statistiques d’ordre, elles éliminent les valeurs
 singulières  . Elles constituent des lisseurs aux propriétés

complémentaires des moyennes mobiles. Certaines méthodes de


désaisonnalisation reposent sur une association de ces deux types de
lisseurs.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 111 / 148


Séries chronologiques - Correction des variations
saisonnières
Autres approches

Disposant des coefficients saisonniers, on peut ajuster la série CVS par une
fonction d’ajustement ou en utilisant une méthode de lissage exponentiel
sur la série CVS. Mais, il ne faut pas oublier que ce mode de prévision ne
peut être envisagé que sur du court terme puisqu’il suppose une évolution
future non perturbée par des changements sur l’environnement.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 112 / 148


Séries chronologiques - Exemple de décomposition d’une
série chronologique

Pour déterminer la tendance et les coefficients saisonniers d’une chronique,


on peut actuellement utiliser un logiciel ou un tableur.

Néanmoins, une bonne compréhension des méthodes demande de les avoir


appliquées. On va monter les étapes successives du traitement de la
chronique des ventes trimestrielle en France d’essence aviation.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 113 / 148


Figure 13 – Ventes en France d’essence aviation (en milliers de tonnes)

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 114 / 148


Figure 14 – Chronique du tableau fig. 13

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 115 / 148


Séries chronologiques - Exemple de décomposition d’une
série chronologique

Une saisonnalité de période 4 (nombre de trimestre dans l’année) apparaı̂t


sur la représentation graphique (14), ce qui explique que la suite des
moyennes mobiles de longueur 4 filtre la tendance.

Pour une décomposition de cette chronique, les modèles successifs additifs


et multiplicatif sont envisagés.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 116 / 148


Séries chronologiques - Exemple de décomposition d’une
série chronologique
Schéma additif

Pour obtenir la série CVS et la série des résidus, les calculs ont été réalisés
à l’aide du tableur Excel selon les étapes indiquées (??). Dans cet exemple,
la synthèse des coefficients saisonniers a été réalisée par la moyenne.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 117 / 148


Figure 15 – Décomposition de la chronique du tableau 13 avec le schéma additif

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 118 / 148


Séries chronologiques - Exemple de décomposition d’une
série chronologique
Schéma additif

Colonne C : moyennes mobiles de longueur 4 évaluant la tendance

C 4 = (B2/2 + SOMME (B3 : B5) + B6/2)/4, puis


recopier vers le bas 


Colonne D : différence entre valeurs observées et tendance

D4 = B4 − C 4, puis  recopier vers le bas 


Colonne E : E 4 = (D4 + D8 + D12)/3
E 5 = (D5 + D9 + D13)/3
E 6 = (D6 + D10 + D14)/3
E 7 = (D7 + D11 + D15)/3
⇒ premières valeurs des 4 coefficients saisonniers qu’on
reporte sur la colonne à l’aide du  collage spécial , option
 coller valeur , puis  recopier vers le vas 

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 119 / 148


Séries chronologiques - Exemple de décomposition d’une
série chronologique
Schéma additif

Colonne F : calcul des coefficients saisonniers  normalisés  :


F 2 = E 2 − s̄, puis  recopier vers le bas 
Colonne G : calcul de la série CVS
G 2 = B2 − F 2, puis  recopier vers le bas 
Colonne H : calcul de la série des écarts
H4 = G 4 − C 4, puis  recopier vers le bas 

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 120 / 148


Séries chronologiques - Exemple de décomposition d’une
série chronologique
Schéma multiplicatif

Comme pour le modèle additif, les calculs ont été réalisés à l’aide du
tableur Excel (voire tableau 16). La synthèse des coefficients saisonniers a
aussi été réalisée par la moyenne. Les différences entre certains résultats
donnés, dans le tableau 16 avec ceux obtenus par calcul direct, sont à
expliquer par le fait que Excel utilise pour les calculs un grand nombre de
décimales.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 121 / 148


Figure 16 – Décomposition de la chronique du tableau 16 selon le schéma
multiplicatif

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 122 / 148


Séries chronologiques - Exemple de décomposition d’une
série chronologique
Schéma multiplicatif

Colonne C : moyennes mobiles de longueur 4 évaluant la tendance

C 4 = (B2/2 + SOMME (B3 : B5) + B6/2)/4, puis


recopier vers le bas 


Colonne D : quotient entre valeurs observées et tendance

D4 = B4/C 4, puis  recopier vers le bas 


Colonne E : E 4 = (D4 + D8 + D12)/3
E 5 = (D5 + D9 + D13)/3
E 6 = (D6 + D10 + D14)/3
E 7 = (D7 + D11 + D15)/3
⇒ premières valeurs des 4 coefficients (1 + st ) qu’on reporte
sur la colonne à l’aide du  collage spécial , option  coller
valeur , puis  recopier vers le vas 
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 123 / 148
Séries chronologiques - Exemple de décomposition d’une
série chronologique
Schéma multiplicatif

Colonne F : calcul des coefficients saisonniers  normalisés  :


F 2 = E 2 − s̄, puis  recopier vers le bas 
Colonne G : calcul de la série CVS
G 2 = B2/F 2, puis  recopier vers le bas 
Colonne H : calcul de la série (1 + et )
H4 = G 4/C 4, puis  recopier vers le bas 
Colonne I : calcul de la série et
I 4 = H4 − 1, puis  recopier vers le bas 
Colonne J : calcul de la série des écarts
J4 = C 4 · F 4 · I 4, puis  recopier vers le bas  Les séries
CVS induites par les deux modèles de composition sont
presque confondues (voire fig. 17)

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 124 / 148


Figure 17 – Séries CVS

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 125 / 148


Séries chronologiques - Exemple de décomposition d’une
série chronologique
Schéma multiplicatif

La représentation des séries des écarts (colonne H du tableau 15 et


colonne J du tableau 16 ) permet de comparer les ajustements entre les
deux modèles et les observations (voire fig.18). On constate que les deux
séries des écarts sont presque confondues.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 126 / 148


Figure 18 – Ecarts entre les modèles et les observations

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 127 / 148


Séries chronologiques - Méthodes de lissage exponentiel

Les méthodes de lissage exponentiel sont des méthodes d’extrapolation qui


donnent un poids prépondérant aux valeurs récentes. Elles se caractérisent,
en outre, par la simplicité des calculs et le petit nombre des données à
garder en mémoire.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 128 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel simple

Elle s’applique à des chroniques sans variations saisonnières et à tendance


localement constante. On suppose la grandeur observée caractérisée par
des variations irrégulières autour de la moyenne :

xt = a + et , t = 1, . . . , T

Les séries économiques présentent souvent un niveau moyen qui évolue à


travers le temps. Pour la chronique représentée à la figure 12, il est clair
que le recours à la moyenne arithmétique des observations conduirait à
sous-évaluer les valeurs futures. Il convient de donner aux observations les
plus récentes un poids prépondérant.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 129 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel simple

La prévision de x̂T (h) faite par la méthode de lissage exponentiel simple à


la date T pour l’horizon h, c’est-à-dire pour la date T + h, est la suivante :
T
X −1
x̂T (h) = α (1 − α)i xT −i , avec 0<α<1
i=0

Le paramètre α et la constante de lissage. Si T est élevé, la somme des


pondérations est peu différente de 1. En effet :
T −1
X 1 − (1 − α)T
α (1 − α)i = α = 1 − (1 − α)T ≈ 1
α
i=0

et la prévision x̂T (h) apparaı̂t comme la moyenne pondérée des valeurs


x1 , . . . , xT . Cette prévision ne dépend pas de l’horizon h et donc on la
notera désormais x̂T .
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 130 / 148
Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel simple

Cette méthode de prévision repose sur l’idée que les observations


influencent d’autant moins la prévision qu’elles sont éloignées de la date
T . En outre, on suppose cette décroissance exponentielle. Plus la
constante de lissage α est proche de 0, plus l’influence des observations
passées remontera loin dans le temps et plus la prévision sera  rigide ,
c’est-à-dire peu sensible aux fluctuations conjoncturelles. Au contraire, plus
la constante de lissage α est voisine de 1, plus la prévision sera  souple ,
c’est-à-dire principalement influencée par les observations récentes.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 131 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel simple / Autres interprétations de la méthode

On voit aisément que :

x̂T = (1 − α)x̂T −1 + αxT (2)

La prévision apparaı̂t comme moyenne pondérée entre la prévision


x̂T −1 faite à la date T − 1 et la dernière observation xT , le poids
donné à cette observation étant d’autant plus fort que α est plus
élevé.
Dans le cas où α est égal à 1 : x̂T = sT , ce qui signifie que la
prévision est égale à la dernière valeur observée, on parle de prévision
 naı̈ve  .

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 132 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel simple / Autres interprétations de la méthode

On peut encore écrire :

x̂T = x̂T −1 + α(xT − x̂T −1 ) (3)

La prévision apparaı̂t alors comme égale à la prévision à la date


précédente corrigée d’un terme proportionnel à la dernière erreur de
prévision.
Dans ces deux formules qui fournissent des méthodes élémentaires de
mise à jour de la prévision, l’information apportée par le passé est
résumée dans x̂T −1 .

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 133 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel simple / Autres interprétations de la méthode

On montre que la valeur de a qui minimise la quantité :


T
X −1
(1 − α)i (xT −i − a)2 (4)
i=0

est la suivante :
PT −1
i=0 (1 − α)i xT −i
â = α ≈ x̂T
1 − (1 − α)T

La prévision s’interprète alors comme la constante qui s’ajuste le


mieux à la série  au voisinage  de T , l’expression  au
voisinage  traduisant le fait que dans la minimisation, l’influence des
observations décroı̂t lorsqu’on s’éloigne de la date T .

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 134 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel simple / Autres interprétations de la méthode

Cette dernière interprétation montre clairement que le lissage exponentiel


simple ne s’applique que si la chronique peut être approchée par une droite
horizontale au voisinage de T , ce qui implique une tendance localement
constante.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 135 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel simple / Propriétés du lissage exponentiel simple

Propriétés
1 La chronique lissée {x̂t , t = 1, . . . , T } a une variance inférieure à
celle de la chronique {xt , t = 1, . . . , T }. Comme tout filtre, le lissage
exponentiel simple réalise un  écrêtage  des irrégularités de la série.
2 Le lissage exponentiel simple est un filtre linéaire.
3 De même que la moyenne mobile, le lissage exponentiel simple
d’adapte avec retard à un changement de niveau de la chronique.
C’est de la valeur de la constante de lissage α que dépendent la
stabilité et le taux de réponse de la série lissée, ces deux
caractéristiques ayant un aspect complémentaire.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 136 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel simple / Mise en œuvre de la méthode

a)Initialisation

La méthode du LES utilisée à l’aide des formules (2) ou (3) nécessite


l’initialisation de l’algorithme. On prend généralement x̂1 = x1 ou x̂1 = x̄
(initialisation par défaut du logiciel SPSS), et il est clair que la valeur
choisie pour x̂1 aura d’autant moins d’influence que T sera grand.

b)Choix de la constante de lissage

Ce choix peut se faire selon des critères subjectifs de  rigidité  ou de


 souplesse  de la prévision. Mais une méthode plus objective consiste à

choisir α minimisant :

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 137 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel simple / Mise en œuvre de la méthode

soit l’Erreur Quadratique Moyenne de prévision :


T −1
1 X
EQM = (xt+1 − x̂t )2
T −1
t=1

soit l’Erreur Absolue Moyenne de prévision :


T −1
1 X
EAM = |xt+1 − x̂t |
T −1
t=1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 138 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel simple / Mise en œuvre de la méthode

Il ne faut pas manquer d’examiner aussi l’Erreur Moyenne de prévision qui


peut indiquer dans certains cas une sous-évaluation ou une surévaluation
systématique de la prévision qui s’observe d’ailleurs à l’examen de
graphiques des séries initiales et lissées :
T −1
1 X
EM = (xt+1 − x̂t )
T −1
t=1

La minimisation de ces critères peut être faite sur toute la série des erreurs
de prévision ou sur un pourcentage donné de ces derniers termes (dans ce
cas, on prend souvent le dernier tiers de la série, tableau fig.16). Certains
logiciels proposent actuellement les méthodes de lissage avec une
constante α déterminée par la minimisation d’un critère. Le logiciel SPSS
calcule la constante optimale en minimisant l’Erreur Quadratique Moyenne
de prévision.
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 139 / 148
Figure 19 – Chronique du tableau fig.16 et série obtenue par LES avec α = 0.4

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 140 / 148


Figure 20 – Présentation des calculs du LES avec les critères calculés sur le
dernier tiers de la série

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 141 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel simple / Mise en œuvre de la méthode

Le tableau fig. 21 donne, selon la constante de lissage α variant par pas de


0.1, les valeurs des critères EM, EQM et EAM pour les LES appliquées à
la série de la figure 19, ces critères ayant été calculés sur le dernier tiers de
la série, c’est-à-dire avec les cinq dernières erreurs de prévision.

Le critère EQM est minimum pour α = 0.4, le critère EAM pour α = 0.5
et la valeur absolue de l’erreur moyenne est minimum pour α = 0.5.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 142 / 148


Figure 21 – Valeurs des critères calculés sur le dernier tiers de la série du
tableau fig.20

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 143 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel double

Le lissage exponentiel double est une généralisation du lissage exponentiel


simple au cas d’une chronique à tendance localement linéaire ; on suppose
que la série peut être ajustée par une droite au voisinage de T :

xt = a1 (T ) + a2 (T )(t − T )

Les coefficients a1 (T ) et a2 (T ) sont choisis de façon à minimiser la


quantité suivante qui est l’analogue de la quantité (4) minimisée pour le
lissage exponentiel simple :
T
X −1
(1 − α)i ( xT −i − ( a1 (T ) + a2 (T ) · (−i) ) )2
i=0

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 144 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel double

On obtient la solution suivante :



â1 (T ) = 2S1 (T ) − S2 (T )
α
â2 (T ) = 1−α (S1 (T ) − S2 (T ))
avec ( PT −1
S1 (T ) = α i=0 (1 − α)i · xT −i
PT −1
S2 (T ) = α i=0 (1 − α)i · S1 (T − i)
Ce qui conduit à la prévision :

x̂T (h) = â1 (T ) + â2 (T ) · h

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 145 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel double

La quantité S1 (T ) résultant du lissage exponentiel simple de la série


{xt , t = 1, . . . , T } et la quantité S2 (T ) du lissage exponentiel simple de
la série {S1 (t), t = 1, . . . , T }, d’où le nom de lissage exponentiel double,
on dispose pour leurs calculs des formules de mise à jour du LES :

S1 (T ) = α · xT + (1 − α)i · S1 T − 1


S2 (T ) = α · S1 (T ) + (1 − α)i · S2 T − 1

L’initialisation de ces formules de mise à jour peut être :



S1 (1) = x1
S2 (2) = S1 (2)

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 146 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel double

En développant les égalités ci-dessus, on obtient les formules de mise à


jour des coefficients â1 (T ) et â2 (T ) :

â1 (T ) = â1 (T − 1) + â2 (T − 1) + (1 − (1 − α)2 ) · (xT − x̂T −1 (1))




= xT − (1 − α)2 · (xT − x̂T −1 (1))




â2 (T ) = â2 (T − 1) + α2 · (xT − x̂T −1 (1))

L’initialisation de ces formules peut être :



â1 (2) = x2
â2 (2) = x2 − x1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 147 / 148


Séries chronologiques - Méthodes de lissage exponentiel
Lissage exponentiel double

Comme le lissage exponentiel simple, le choix de la constante de lissage α


peut se faire par la minimisation d’un critère choisi.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 148 / 148

Vous aimerez peut-être aussi