Académique Documents
Professionnel Documents
Culture Documents
DONNES
Dominique LADIRAY
Institut National de la Statistique et des tudes conomiques
15 boulevard Gabriel Pri, BP 100
92244 Malakoff Cedex
FRANCE
(dominique.ladiray@insee.fr)
1 Introduction
Lanalyse des donnes et lanalyse des sries temporelles ont toutes deux une longue
histoire mais curieusement leurs chemins se sont rarement croiss, au moins jusqu
rcemment. Dans les dix dernires annes, avec la mise disposition dnormes
ensembles de donnes temporelles, on a assist une explosion dintrt pour
lexploration de ces fichiers gigantesques. Des centaines de papiers ont alors prsent et
diffus des mthodes et algorithmes pour indexer, classer, discriminer, segmenter des
sries temporelles. Cest ces nouveaux liens que le prsent travail sintresse en se
concentrant sur le domaine de lanalyse de la conjoncture et la prvision court terme des
grands agrgats conomiques.
Les raisons pour lesquelles lconomtrie des sries temporelles a tard incorporer
dans ses mthodes des outils danalyse des donnes sont sans doute plus subtiles et vont
bien au-del de la simple disponibilit dimportantes bases dindicateurs conomiques.
Dans un article de 1989, Philip Mirowski ([31]) dfend lide quil sest coul une
trentaine dannes avant que les concepts stochastiques de la Physique ne pntrent en
conomie. On pourrait sans doute en dire autant de lconomtrie : le filtre de Kalman et
les modles tat-mesure ont par exemple t dvelopps au dbut des annes 1960
mais nont t adopts par les conomtres quau milieu des annes 80. Les retards avec
les outils de lanalyse des donnes sont encore plus importants : il faut attendre la fin des
annes 80 pour voir apparatre, dans la thorie de la cointgration (Engle et Granger,
1987, [13]), les quations de lanalyse canonique et la fin des annes 1990 pour voir une
application de lanalyse en facteurs communs et spcifiques en analyse conjoncturelle.
Bien entendu ces mthodes doivent tre adaptes la nature particulire des donnes
temporelles et il a fallu mettre au point des algorithmes efficaces de calcul. Mais les
raisons profondes du retard tiennent aux diffrences fondamentales de philosophies entre
lanalyse des donnes et lconomtrie, ou plus exactement entre les analyses
exploratoire et confirmatoire si chres J ohn Tukey ([44]). Lconomtre saccommode
Revue MODULAD, 2006 - 6 - Numro 35
mal de labsence toute apparente - de modles dans les outils de lanalyse des donnes
et une mthode nest adopte que lorsquelle est pare dune panoplie complte :
Representation, estimation and testing pour paraphraser le titre de larticle de Engle et
Granger ([13]) sur la thorie de la cointgration.
Cet article prsente quelques exemples dutilisation de techniques danalyse des
donnes dans le domaine de la prvision conomique de court-terme et les pistes que
semblent suivre les conomtres pour adapter ces outils leurs problmes. La seconde
partie traite de lanalyse factorielle dynamique et des dveloppements naturels qui se font
ou se feront immanquablement autour de la rgression PLS. La troisime partie aborde la
classification sur sries temporelles, technique assez largement utilise dans le domaine
de la fouille de donnes chronologiques mais encore peu prsente en prvision. Les
parties 4 et 5 prsentent deux applications possibles et assez diffrentes de la
classification : en dsaisonnalisation et en recherche de modles de prvision.
2 conomtrie et analyse factorielle
Lun des objectifs essentiels de lanalyse de la conjoncture, outre celui de donner une
valuation de la situation conomique actuelle, est de dtecter aussi vite que possible les
retournements de lactivit. Implicitement, le conjoncturiste se rfre un cycle des
affaires dfinit par Burns et Mitchell en 1946 ([6]) :
Les cycles des affaires sont une sorte de fluctuations visible dans les agrgats
conomiques de pays dont la production sorganise essentiellement autour des
entreprises : un cycle se compose de priodes dexpansion se produisant peu prs en
mme temps dans de nombreuses activits conomiques, suivies par des priodes de
rcession toutes aussi gnrales, des contractions et redmarrages qui se fondent dans la
phase dexpansion du cycle suivant ; la succession de ces changements est rcurrente
mais pas priodique ; la dure des cycles des affaires varie de un dix ou douze ans
1
2
.
Les enqutes de conjoncture menes auprs des entreprises sont un lment essentiel
du diagnostic conjoncturel en France mais aussi dans la plupart des pays europens
(European commission, [14], [16]). Le nombre et la diversit des questions poses
rendent souvent dlicate linterprtation des rsultats obtenus ; il est alors assez naturel de
chercher un rsum synthtique de cette information. Une faon simple de faire est de
calculer une moyenne, simple ou pondre, de plusieurs soldes dopinion relatifs
lactivit conomique. Ainsi, lIFO allemand publie un indicateur des affaires ,
1
Business cycles are a type of fluctuation found in aggregate economic activity of nations that
organise their work mainly in business enterprises: a cycle consists of expansions occurring at about the
same time in many economic activities, followed by similarly general recessions, contractions and revivals
which merge into expansion phase of the next cycle; the sequence of changes is recurrent but not periodic;
in duration business cycles vary from more than one year to ten or twelve years.
2
Cette notion est cependant plus ancienne. Dans un article de 1919, Persons ([36]) dfinit les
principales composantes dune srie temporelle dont : A wavelike or cyclical movement superimposed
upon the secular trend; these curves appear to reach their crests during the periods of industrial prosperity
and their troughs during periods of industrial depression, their rise and fall constituting the business
cycle.
Revue MODULAD, 2006 - 7 - Numro 35
moyenne des opinions sur les productions passe et future des entreprises interroges ; la
DG ECFIN de la Commission Europenne publie un indicateur de confiance dans
lindustrie moyenne pondre des soldes dopinion sur les carnets de commande, les
stocks de produits finis et la production future ; lindice NAPM amricain est la moyenne
des soldes sur les commandes, la production, les dlais de livraisons, lemploi et les
stocks.
2.1 Analyse factorielle dynamique
De telles mthodes prsentent lavantage de la simplicit mais le choix des questions
retenues et celui des poids de pondration demeurent ad hoc. Dans les annes 90
3
,
lanalyse factorielle dynamique est apparue comme un cadre naturel pour rsoudre ce
problme (Altissimo et al, [1] ; Doz et Lenglart, [11], [12] ; Forni et Reichlin, [18] ; Forni
et al, [19], Quah et Sargent, [40] ; Stock et Watson, [42], etc.). Dans ce cas, chaque
variable peut tre dcompose en deux composantes orthogonales entre elles : lune
commune lensemble des sries, lautre spcifique la variable considre. Le facteur
commun fournit alors une estimation de lindice composite recherch.
Le modle de base peut se prsenter simplement. Si :
reprsente le solde dopinion relatif la question i pour la date t; i varie de 1
I et t de 1 T.
t i
y
,
reprsente la valeur du facteur commun j la date t; j varie de 1 J.
t j
F
,
reprsente la valeur de la composante spcifique i la date t;
t i
u
,
Alors le modle scrit :
[ ] [ ]
= =
= = =
+ + + =
) ,..., ( ) ,..., (
Id, ) ,..., ( , 0 ) ( , 0 ) (
... ; 1 , ; 1
2 2
1 1
1
1 1
I It t
Jt t it jt it
it Jt iJ t i it
Diag u u V
F F V u F E u E
u F F y T t I i
Deux mthodes peuvent tre utilises pour estimer ce genre de modles. La premire
se place dans le domaine des frquences. Dans ce cas, la dynamique du modle na pas
besoin dtre spcifie : les mthodes standard danalyse factorielle (encore appeles
analyse en composantes commune et spcifiques) peuvent tre utilises, de faon
dcomposer la matrice de densit spectrale. La deuxime mthode relve plus
directement du domaine temporel : ds lors que la dynamique des diffrentes
composantes a t spcifie, le modle peut tre mis sous une forme espace-tat et estim
par le filtre de Kalman.
Doz et Lenglart ([11], [12]) montrent que les procdures standards danalyse
factorielle statique peuvent tre utilises dans ce contexte (au prix dune perte
defficacit) car elles fournissent des estimateurs convergents, mme dans un cadre
dynamique :
3
La plus ancienne rfrence que je connaisse sur lanalyse factorielle dynamique est un travail de
Gewege (1977, [20]).
Revue MODULAD, 2006 - 8 - Numro 35
Nanmoins, nous appliquons galement aux donnes la technique standard de
lanalyse factorielle. Certes, cette mthode nest pas a priori approprie dans un cadre
danalyse dynamique (elle a t cre au dpart pour tudier des donnes individuelles).
Mais nous montrons quelle fournit de estimateurs convergents des paramtres du
modle, mme dans le cas o il y a prsence dautocorrlation temporelle des variables
et o cette autocorrlation nest pas prise en compte. En dfinitive, les programmes
danalyse factorielle standard peuvent donc tre utiliss. De surcrot, ils offrent des
lments statistiques qui aident choisir le nombre de facteurs communs retenir. Ils
offrent galement des procdures de rotation daxes qui facilitent linterprtation des
rsultats obtenus lorsque plusieurs facteurs communs sont ncessaires pour dcrire les
donnes.
Les rsultats obtenus par lune ou lautre mthode sont toujours trs proches, ce qui
renforce leur crdibilit.
2.2 Les errances de la pratique
Lanalyse factorielle a ds lors t largement utilise pour tenter destimer le fameux
cycle des affaires et prvoir les points de retournement : la littrature regorge dexemples
de construction dindicateurs concidents ou avancs. Peu habitus aux techniques
danalyse des donnes, les conomtres sont alors tombs dans des piges classiques.
Tout dabord, il tait tentant de mettre toutes les variables possibles et imaginables
dans lanalyse, en esprant que lanalyse factorielle ferait automatiquement le travail de
tri. Ainsi, en 2001, la Banque dItalie (Altissimo et al, [1]) publie la mthodologie dun
indicateur concident mensuel du cycle des affaires de la zone Euro (EuroCOIN) dfini
comme le facteur commun dune analyse factorielle sur 951 sries. Sur ces 951 sries,
258 apparaissent avances , 404 concidentes et 289 retardes . Comme la
majorit des variables utilises sont des variables lies la production, le premier facteur
commun est donc naturellement li la production, les variables montaires tant tout
aussi naturellement relgues sur des axes secondaires.
Les vrais problmes surgissent quand ce facteur commun est utilis comme
indicateur avanc et sert donc prvoir une variable conomique lie la production
comme le produit national brut ou lindice de production industriel.
Quatre points mritent dtre mentionns :
1. Les facteurs sont dtermins indpendamment de la variable expliquer. Cela
entrane un paradoxe amusant mais dsagrable : si une des variables en entre de
lanalyse factorielle explique parfaitement la variable dintrt, elle sera mise en
moyenne avec les autres dans le facteur principal et on passera ainsi ct de la
rgression idale !
2. Combien de facteurs doit-on retenir ? Doz et Lenglart ([11], [12]) montrent que les
facteurs spcifiques de lanalyse peuvent apporter une information intressante pour
expliquer le cycle conomique.
3. Les modles sont en gnral difficilement interprtables du point de vue conomique
puisque chaque facteur est une combinaison linaire de lensemble des variables de
lanalyse factorielle.
Revue MODULAD, 2006 - 9 - Numro 35
4. La qualit de lajustement final dpend fortement du choix des variables prises en
compte dans lanalyse factorielle. Comment faire ce choix ?
Lanalyse factorielle, et lanalyse en composantes principales qui en est un cas
particulier, sont nes au dbut du sicle dernier
4
. Lide dutiliser ces composantes
principales dans des modles de rgression est venue assez vite et les problmes ci-dessus
ont t identifis. La rgression PLS (Tenenhaus, [43]), dveloppe par Wold en 1966
([46]), propose une solution aux deux premiers problmes et a fait lobjet ces dernires
annes de nombreuses recherches : rcemment, cette rgression PLS a t adapte au cas
de sries temporelles (Preda et Saporta, [37] [38] [39]). Notons aussi que lapproche
rgression sur matrice de rang rduit a t tudie par Cubbada (2004, [9]).
Les problmes 3 et 4 se posent par exemple dans le cas de lindicateur EuroCOIN.
Nul doute que Altissimo et al. doivent rencontrer quelques soucis pour expliquer
pourquoi cet indicateur monte ou descend. Dautres mthodes statistiques classiques
pourraient tre utilises, mme si elles ne sont pas toujours adaptes au cas temporel. La
classification automatique vient immdiatement lesprit.
3 Classification de sries temporelles
La classification de sries temporelles est un problme qui a beaucoup occup ces
dernires annes les statisticiens travaillant en mdecine, biologie, mtorologie,
sismologie etc., domaines o dnormes bases de donnes temporelles sont disponibles et
doivent tre analyses. Des dizaines de papiers ont t publis et une bonne adresse pour
commencer une recherche bibliographique sur la fouille de donnes temporelles est le site
de Eamon Keogh (http://www.cs.ucr.edu/~eamonn/).
La classification a pour objectif de regrouper des objets dans des classes, dfinies
partir des donnes et non dfinies a priori, de telle sorte que les objets dune mme classe
soient semblables et diffrents des objets des autres classes. Toute mthode de
classification est donc base sur un triplet :
Une mesure de similarit-dissimilarit entre deux objets ;
Une mesure de similarit-dissimilarit entre deux classes ;
Et une stratgie dagrgation des classes entre elles pour construire la partition.
De trs nombreuses mthodes de classification ont t dveloppes au fil des annes
pour les donnes individuelles et sont aujourdhui disponibles dans les principaux
logiciels de statistique : mthodes hirarchiques (ascendante, descendante), mthodes non
hirarchiques (plus proches voisins, K-means etc.) etc.
Des centaines de distances ont t proposes mais la plupart dentre elles ne peuvent
pas tre utilises directement sur des sries temporelles. Ainsi, la distance euclidienne,
comme toutes les mtriques de type Minkowski, donne des rsultats tranges
lorsquelle est applique sur des donnes temporelles brutes. En particulier, cette distance
4
Lanalyse factorielle a t propose par Spearman en 1904 dans le cadre dun facteur, puis
gnralise plusieurs facteurs par Garnett en 1919 (Fine, [17]).
Revue MODULAD, 2006 - 10 - Numro 35
est sensible aux problmes dunit et dchelle, ne permet pas de comparer des sries de
taille diffrentes, ne peut sadapter aux dcalages temporels et est trs affecte par la
prsence de non-linarits comme les valeurs manquantes, les points atypiques, les
effets de calendrier etc.
Ainsi, la distance euclidienne entre les deux sries de la figure 1 peut-elle paratre
artificiellement grande alors que ces deux sries seront dans certains cas considres
comme semblables : la srie noire ( ) et la srie rouge ( ) sont en effet lies par la
relation simple .
t
X
t
Y
6
75 . 0
=
t t
X Y
Figure 1 : des sries semblables ?
Outre ces problmes de niveau , de longueur et de dcalage temporel, la taille des
bases de donnes temporelles pose un rel problme de temps de calcul lorsquil sagit de
classer des centaines de milliers de sries.
3.1 Dfinir de nouvelles distances
De nouvelles mesures de similarit ont t rcemment developpes : Dynamic Time
Warping (DTW, Berndt & Clifford, 1994), Longest Common SubSequence (LCSS, Das
et al., 1997), Edit Distance on Real sequence (EDR, Chen et al., 2003) etc.
Ces distances sont alors calcules peuvent alors tre calcules directement sur les
sries ventuellement transformes pour les rendre plus facilement comparables dans
lespace des temps. Les transformations les plus communes sont par exemples
standardisation, lissage, dsaisonnalisation, stationnarisation, interpolation etc.
Revue MODULAD, 2006 - 11 - Numro 35
Mais les calculs peuvent tre trs longs et il est alors plus efficace dutiliser au
pralable des mthodes de rduction du nombre de dimensions.
3.2 Changer despace de reprsentation
Lide de base est de projeter les sries dans un espace en utilisant une
transformation prservant les distances et de nutiliser pour la classification quun faible
nombre des coefficients de la transformation. Ainsi, on peut calculer le priodogramme
de chaque srie et linterpoler sur un nombre rduit et dfini a priori de frquences.
Ces reprsentations des sries permettent le plus souvent de prendre en compte des
distorsions observes dans lespace des temps (dcalage temporel par exemple) tout en
rduisant fortement les temps de calcul. De nombreuses techniques de projection ou de
dcomposition ont t proposes, dont certaines sont directement applicables des sries
non stationnaires :
Fonctions dautocorrlation (ACF, PACF, IACF) (Maballe, 1911 ; Wang and Wang.,
2000);
Transforme de Fourier discrte, priodogramme (DFT) (Agrawal et al., 1993);
Transformes par ondelettes avec bases de Daubechies ou de Haar (DWT), ou autres
(Huntala et al., 1997);
Polynmes de Chebyshev (Ng and Cai, 2004)
Codage du Cepstrum (Linear Predictive Coding, LPC), (Kalpakis et al., 2001);
Dcomposition en valeurs singulires en utilisant par exemple une analyse en
composantes principales (Korn et al., 1997; Cleveland, 2004);
Smooth Localized Complex Exponential model (SLEX) (Huang et al., 2004);
Diffrentes approximations par fonctions linaires par morceaux
o Piecewise Linear Approximation (Morikane et al., 2001);
o Piecewise Aggregate Approximation (PAA) (Keogh et al., 2000);
o Adaptive Piecewise Constant Approximation (APCA) (Keogh et al., 2001).
Le plus souvent, les algorithmes et distances usuels de classification pourront alors
tre utiliss sur les donnes ainsi transformes. Les paragraphes suivants montrent deux
applications possibles en analyse de la conjoncture et en prvision.
4 Les diffrentes facettes de la saisonnalit
La dsaisonnalisation est un traitement important en analyse des sries temporelles.
Ds 1862, J evons recommandait llimination de ces fluctuations priodiques :
Toute fluctuation priodique, qu'elle soit journalire, hebdomadaire, trimestrielle
ou annuelle, doit tre dtecte et mise en vidence, non seulement pour l'tudier en tant
que telle, mais aussi parce que ces variations priodiques doivent tre values et
Revue MODULAD, 2006 - 12 - Numro 35
limines pour mieux faire ressortir celles qui, irrgulires ou non priodiques, sont
probablement plus importantes et intressantes
5
.
La correction des variations saisonnires est aussi une tape importante dans la
prvision conomique puisque le plus souvent, les modles incorporent des variables dont
le comportement saisonnier peut tre trs diffrent. Ainsi les secteurs des services et
lindustrie ont des saisonnalits diffrentes mais lemploi dans les services peut dpendre,
via lintrim, de lactivit industrielle.
De nos jours, la plus grande partie des corrections des variations saisonnires sont
faites avec lun des logiciels Tramo-Seats ou X-12-Arima. Ces logiciels possdent des
dizaines de paramtres qui permettent lutilisateur dadapter sa dsaisonnalisation aux
caractristiques de la srie tudie. Dans la pratique, ces logiciels sont utiliss pour
ajuster des milliers de sries et les utilisateurs font confiance, pour la trs large majorit
de ces sries, aux valeurs par dfaut des paramtres.
La classification permet de mettre en vidence les grandes familles de saisonnalits
que lon peut trouver dans les sries conomiques.
Figure 2 : le dendogramme rvle des formes de saisonnalits trs diffrentes
5
Every kind of periodic fluctuations, whether daily, weekly, quarterly, or yearly, must be detected
and exhibited not only as a subject of study in itself, but because we must ascertain and eliminate such
periodic variations before we can correctly exhibit those which are irregular or non-periodic and probably
of more interest and importance
Revue MODULAD, 2006 - 13 - Numro 35
A titre dexemple, 1100 sries mensuelles, de plus de 5 ans, on t extraites de la
base de donnes Euro-Indicateurs disponible sur le site dEurostat. Ces sries ont t
dsaisonnalises avec Tramo-Seats et X-12-Arima. Les spectres des 2200 composantes
saisonnires ont t estims par une transforme de Fourier rapide et, comme le nombre
de points du spectre obtenu dpend de la longueur de la srie, ces spectres ont t
interpols laide de fonctions splines et valus sur les mmes 50 frquences. Enfin, les
2200 spectres ont t standardiss pour viter tout effet dchelle. Une classification
ascendante hirarchique, avec stratgie de Ward, a enfin t ralise sur ces spectres.
Larbre de la figure 2 rsume la classification et montre quil existe des formes trs
varies de saisonnalits. Une reprsentation en 12 classes a t choisie. La figure 3
montre la dispersion des spectres des saisonnalits lintrieur de chaque classe : les
classes 1 et 5 semblent par exemple trs homognes.
Figure 3 : Les boxplots montrent la dispersion des saisonnalits dans chaque
classe et donc leur homognit.
Enfin, les figures 4 6 montrent quelques exemples de saisonnalits caractristiques.
La figure 4 montre des saisonnalits trs semblables ;
La figure 5 montre des saisonnalits dcales extraites de sries de taille
variable ;
La figure 6 montre des saisonnalits inverses mais trs similaires.
Revue MODULAD, 2006 - 14 - Numro 35
Figure 4 : Des saisonnalits trs semblables.
Figure 5 : Des saisonnalits de longueurs diffrentes et dcales.
Revue MODULAD, 2006 - 15 - Numro 35
Figure 6 : Des saisonnalits inverses mais de mme forme.
5 Prvision et classification
La division des enqutes de conjoncture de lINSEE ralise chaque anne plus de 60
enqutes auprs des professionnels des diffrents secteurs d'activit de l'conomie
franaise. Les questions poses, essentiellement qualitatives, permettent de connatre
l'opinion des entrepreneurs sur la situation et sur les perspectives de leur entreprise et ce
dans des domaines trs divers: activit, demande, stocks, emploi, trsorerie, concurrence,
investissements ......
Ces renseignements, recueillis le plus souvent un rythme mensuel ou trimestriel,
sont trs utiles l'analyse conjoncturelle puisqu' ils sont disponibles trs rapidement (les
rsultats sont obtenus avant la fin du mois de ralisation de l'enqute) et qu'ils permettent
d'anticiper, avec parfois quelques mois d'avance, le sens de variation des principaux
indicateurs quantitatifs de l'activit conomique qui, eux, ne seront connus que plus tard.
Mettre en concordance les rsultats qualitatifs des enqutes et l'volution quantitative
des indicateurs d'activit relve de procdures d'talonnages, qui visent tablir des
relations conomtriques entre ces grandeurs dans une optique de prvision. Pour tre
utilisables, ces modles conomtriques doivent possder au moins quatre qualits non
indpendantes:
1. ils doivent tre simples, c'est--dire ne faire intervenir qu'un nombre limit de
variables,
Revue MODULAD, 2006 - 16 - Numro 35
2. ils doivent tre interprtables: les relations qu'ils expriment doivent avoir un sens
conomique,
3. ils doivent tre stables dans le temps, et en particulier ne doivent pas tre remis en
cause chaque nouvelle enqute,
4. et enfin, ils doivent avoir un bon pouvoir prdictif.
5.1 A la recherche du modle
La construction de ces modles fait donc intervenir la fois une expertise
conomique (points 1 et 2) et une expertise statistique (points 3 et 4), ce qui pose en
pratique bon nombre de problmes.
Ainsi, pour talonner pour la premire fois une variable, deux stratgies sont a priori
possibles:
Celle de l'conomiste: partir de la liste des variables explicatives, il cherchera btir
une relation conomiquement significative. Ensuite, celle-ci sera soumise aux
exigences statistiques de stabilit et de qualit de la prvision. Il est fort probable que
le praticien ne trouve pas directement le "bon modle"; par ailleurs, il cherchera sans
doute l'amliorer en incorporant des variables retardes ....
Celle du statisticien qui consisterait ici chercher des modles statistiquement
corrects. Malheureusement, la combinatoire du problme est rapidement
dcourageante. Ainsi, l'enqute trimestrielle d'activit dans l'industrie contient une
quarantaine de variables. Si on suppose a priori que des retards sur un an peuvent
intervenir, on obtient alors environ 160 variables explicatives candidates. Il existe
alors environ 670 000 modles trois variables et plus de 26000000 de modles
quatre variables parmi ces variables candidates.
La pratique, qui est le plus souvent un compromis entre ces deux attitudes
orthogonales, conduit toujours de longs ttonnements.
La mthode dveloppe ici, mme si elle met en uvre des mthodes statistiques
"pointues", reste de philosophie exploratoire. Son but est de slectionner, dans l'ensemble
des modles possibles, un certain nombre de modles statistiquement corrects parmi
lesquels l'conomiste fera son choix.
Cette recherche se fait en cinq tapes principales:
Dans un premier temps, les variables explicatives candidates sont regroupes en
un petit nombre de classes homognes, chaque classe comportant des variables
qui "se ressemblent" et qui donc apportent une information de mme nature. Cette
classification se fait indpendamment de la variable expliquer. Cette tape
repose sur l'utilisation de mthodes de classification sur sries temporelles.
La variable expliquer intervient dans un second temps: on cherche dans chaque
classe la variable, ventuellement retarde, la plus lie la variable endogne.
Cette recherche est faite sur la base d'tudes de corrlation (Spearman, Pearson)
ou de tests de causalit (Hsiao).
Dans un troisime temps, on recherche les meilleurs modles incluant un nombre
limit de ces variables slectionnes. Ces modles sont exhibs par des
procdures de rgression de type "stepwise" (les critres R square, Adjusted R
square, Mallows' Cp peuvent tre utiliss).
Revue MODULAD, 2006 - 17 - Numro 35
Ensuite, ces modles sont valus quant leur stabilit, leur pouvoir prdictif etc.
Diffrents indicateurs statistiques sont alors calculs pour juger de leur stabilit
(tests du CUSUM, de CHOW, de Ploberger-Cramer, indices de conditionnement
....) et de leur pouvoir prdictif (R-square, erreur quadratique moyenne en prvision
divers horizons ...)
Enfin, il reste choisir, parmi les modles statistiquement corrects un modle
interprtable au sens conomique.
5.2 Un exemple simple
Lexemple prsent ici date un peu (Ladiray, 1997, [29]) mais illustre bien le
potentiel dune mthode mixte exploratoire-confirmatoire.
Lobjectif tait de prvoir lemploi dans le secteur des services, mesur par les
comptes nationaux trimestriels, en fonction des rsultats des enqutes de conjoncture. La
variable expliquer est le taux de croissance trimestriel de lemploi et les variables
potentiellement explicatives sont les opinions des chefs dentreprises de lindustrie et du
secteur des services, ce qui reprsente 48 variables.
1. Classification ascendante hirarchique sur les variables
Le tableau 1 montre la rpartition des variables en 7 classes. Cette rpartition traduit en
particulier une opposition entre variables relles (production, carnets de
commandes, stocks etc.) et financires (prix, salaires etc.).
Par nature, les variables trs corrles entre elles (carnets de commandes et carnets de
commandes lexportation par exemple) se retrouvent dans les mmes classes.
Tableau 1 : constitution des 7 classes
CLUSTER1 CLUSTER2 CLUSTER3 CLUSTER4 CLUSTER5 CLUSTER6 CLUSTER7
MG CAPA TPXEPA CAXPR DI OS DEMCS CS
OSC CAPR TPXPA CSSK DI REC PGP
OSCD SALPR TPXPRE TXSAL TDEPA
OSCDE REPA VPXPA TDEPRE
OSCE REPR VPXPRE TDPRE
OSD PVPA TPPRE
OSDE PVPR TSK
OSSK TRES VPXEPA
TDL SALPA
TDPA CAXPA
TPDT CAPRO
TPPA DI TRE
TRDT GTE
GTEP
MAPS
TU
2. Le choix de la meilleure variable explicative
Dans chaque classe, on va chercher la meilleure variable explicative dfinie
comme la variable, ventuellement retarde, qui est la plus lie la variable
Revue MODULAD, 2006 - 18 - Numro 35
Revue MODULAD, 2006 - 19 - Numro 35
expliquer. Ce lien peut tre mesur par des coefficients de corrlation (Pearson, Kendall,
Spearman) mais aussi par des mesures de causalit (Granger, Hsiao).
3. La recherche des modles
Le nombre des variables explicatives candidates est maintenant assez faible. Dans cet
exemple, nous avons 7 classes, 4 retards potentiels (une anne) et donc 28 variables
explicatives potentielles soit environ 23000 modles avec 4 variables ou moins. Tous ces
modles peuvent facilement et rapidement tre examins, selon un critre dterminer,
par des procdures de rgression stepwise.
Les R2 ajusts sont prsents dans le tableau 2.
4. Lvaluation statistique des modles et le choix du modle final
La dernire tape de la procdure automatique concerne lvaluation statistique des
modles slectionns, en termes de stabilit du modle et de prcision des prvisions. Les
rsultats de quelques statistiques sont prsents dans le tableau 2.
Les modles slectionns par l'analyse des corrlations de Spearman (tableau 2)
paraissent corrects, surtout en termes de stabilit. Malheureusement, ils restent difficiles
expliquer d'un point de vue conomique.
L'utilisation de tests de causalit de Hsiao pour slectionner les variables explicatives
donne des rsultats plus agrables (tableau 2, seconde partie). En particulier, les modles
2 et 3 paraissent satisfaisants puisqu'ils lient l'volution de l'emploi dans les services au
chiffre d'affaires pass du secteur (CAPA), l'volution des stocks dans l'industrie
(variables CS ou TSK) et des difficults de recrutement (DIOS). L'apparition simultane
de la variable DIOS et de cette mme variable retarde d'un trimestre (DIOS_1) laisse
supposer un effet de niveau, traduit par la variable DIOS elle mme, et un effet de
variation qui sera traduit ventuellement par la variable DIOS diffrencie une fois. C'est
ce qui a t fait dans le modle finalement retenu.
Revue MODULAD, 2007 - 20 - Numro 35
Tableau 2 : Meilleurs modles slectionns pour talonner le glissement trimestriel de lemploi dans les services et quelques
statistiques de qualit.
METHODE=spear man , 7 CLASSES
MODEL _I N_ _ADJ RSQ_ EQMP EQMP2 COND CHOW DW1 DW4 PK95 CUSUM_AV CHOW_AV1
CAPA TPXPR_1 CAXPR TPPRE_2 4 0. 704 0. 40257 0. 19749 34. 3 0 2. 60 2. 45 0 0 1
OSSK_2 CAPA TPXPR_1 TPPRE_2 4 0. 696 0. 47194 0. 26308 58. 9 0 2. 72 2. 19 0 0 0
OSSK_3 CAPA TPXPR_1 TPPRE_2 4 0. 694 0. 46733 0. 24115 41. 3 0 2. 47 2. 19 0 0 1
OSSK_1 CAPA TPXPR_1 TPPRE_2 4 0. 684 0. 50881 0. 26464 35. 6 0 2. 60 2. 40 0 0 0
CAPA TPXPR_1 CAXPR_1 TPPRE_2 4 0. 678 0. 51339 0. 24026 33. 9 0 2. 70 2. 13 0 0 0
OSSK_3 CAPA TPPRE_1 TPPRE_2 4 0. 673 0. 46660 0. 34412 37. 3 0 2. 57 2. 01 0 0 1
CAPA TPXPR_1 TPPRE_2 TPPRE_3 4 0. 670 0. 49292 0. 22221 45. 2 0 2. 44 2. 24 0 0 1
OSSK CAPA TPXPR_1 TPPRE_2 4 0. 670 1. 40081 0. 28951 35. 1 0 2. 62 2. 32 0 0 0
CAPA TPXPR_1 DI REC TPPRE_2 4 0. 670 1. 04426 0. 23867 30. 8 0 2. 63 2. 46 0 0 0
CAPA TPXPRE TPXPR_1 TPPRE_2 4 0. 669 0. 48657 0. 21629 51. 0 0 2. 61 2. 34 0 0 0
CAPA CAXPR_1 TPPRE_1 TPPRE_2 4 0. 669 0. 78870 0. 32813 32. 9 0 2. 78 1. 99 0 0 1
CAPA TPXPR_1 TPPRE_2 3 0. 668 0. 50020 0. 22601 26. 0 0 2. 49 2. 34 0 0 0
METHODE=hsi ao , 7 CLASSES
MODEL _I N_ _ADJ RSQ_ EQMP EQMP2 COND CHOW DW1 DW4 PK95 CUSUM_AV CHOW_AV1
CAXPR_1 DI OS_1 DI OS_2 TSK 4 0. 708 0. 72250 0. 35957 16. 2 0 2. 83 2. 55 0 0 1
CAPA DI OS DI OS_1 TSK 4 0. 690 0. 56341 0. 27076 16. 1 0 2. 58 2. 45 0 0 1
CAPA DI OS DI OS_1 CS 4 0. 686 0. 97175 0. 28013 20. 0 0 2. 53 2. 45 0 0 1
CAPA CAXPR DI OS TSK_2 4 0. 685 0. 46896 0. 21489 13. 7 0 2. 71 2. 38 0 0 1
CAPA CAXPR_1 DI OS_1 TSK 4 0. 682 0. 59830 0. 31036 12. 5 0 3. 04 2. 35 0 0 1
CAPA DI OS TSK_2 CS 4 0. 680 0. 87749 0. 24574 12. 6 0 2. 85 2. 53 0 0 1
OSC CAPA DI OS TSK_2 4 0. 678 0. 85595 0. 26981 54. 7 0 2. 77 2. 29 0 0 1
CAPA DI OS_1 DI OS_2 TSK 4 0. 678 0. 58717 0. 31417 17. 2 0 2. 56 2. 38 0 0 1
CAPA CAXPR_1 TSK 3 0. 678 0. 44048 0. 31955 10. 5 0 3. 04 2. 17 0 0 0
CAPA CAXPR TSK TSK_2 4 0. 675 0. 45376 0. 28092 13. 3 0 2. 96 2. 42 0 0 2
CAPA CAXPR_1 TSK TSK_2 4 0. 675 0. 53511 0. 31738 12. 0 0 3. 18 2. 23 0 0 0
CAPA CAXPR_1 TSK CS 4 0. 674 0. 61446 0. 32426 13. 9 0 3. 18 2. 18 0 0 0
CAPA DI OS DI OS_1 TSK_2 4 0. 673 0. 60983 0. 23017 17. 4 0 2. 64 2. 48 0 0 0
CAPA DI OS DI OS_1 DI OS_2 4 0. 672 0. 62356 0. 28555 23. 2 0 2. 43 2. 24 0 0 0
CAPA CAXPR CAXPR_1 TSK 4 0. 672 0. 58993 0. 32123 14. 2 0 2. 95 2. 13 0 0 1
Pour bien lire les tableaux:
EQMP (respectivement EQMP2) est l'cart quadratique moyen des erreurs de prvision sur toute la priode d'estimation (respectivement sur les deux
dernires annes). Il s'agit bien l d'indicateurs dynamiques qui synthtisent les erreurs que l'on aurait faites l'poque avec le modle test.
COND est l'indice de conditionnement de la matrice des variables explicatives. Plus il est lev, plus les colinarits entre variables sont importantes. Une
rgle empirique indique que la valeur 15 est un seuil important.
DW1 est la valeur du Durbin-Watson l'ordre 1. Pour les modles slectionns (en gris), le DW de 2.5 indique une autocorrlation des rsidus prendre en
compte dans l'estimation des paramtres de la rgression, ce qui a t fait pour le modle propos.
Les autres tests sont des tests de stabilit. Ainsi CHOW indique le nombre de ruptures, au sens de CHOW, dtectes.
6 Conclusion
Lanalyse de donnes temporelles a donc fait des progrs trs significatifs ces
dernires annes, notamment dans les domaines o la mise disposition de trs grandes
bases de donnes a amen les statisticiens faire voluer les mthodes de fouille des
donnes.
Ces mthodes ont cependant du mal pntrer le monde des conomtres et celui des
prvisions conomiques de court terme. Cest dommage dans la mesure o les
conomtres rencontrent, sur des donnes de type temporel, les mmes problmes et
difficults que les statisticiens ont rencontr sur les donnes denqute. La faon dont ces
problmes ont t abords, tudis et pour certains dentre eux rsolus est une mine de
renseignements pour permettre damliorer les mthodes conomtriques actuelles.
En particulier, la classification, la rgression PLS et lanalyse discriminante devrait
bientt faire leur entre dans la panoplie des outils de lconomtre . Et dans les
principaux journaux conomtriques.
Les progrs seront sans aucun doute fulgurants ainsi que le montrent les titres de
quelques articles trouvs, a et l, depuis le dbut de lanne :
Aminghafari, M., Cheze, N., Poggi, J -M. (2006), Multivariate denoising using
wavelets and principal component analysis, Computational Statistics and Data
Analysis, Vol. 50, n 9, pp 2381-2398
Bair E., Hastie, T., Paul, D., Tibshirani, R., (2006), Prediction by Supervised
Principal Components, Journal of the American Statistical Association, Vol. 101, n.
473, pp.119-137
Ombao, Ringo Ho (2006), Time-dependent frequency domain PCA of multichannel
non-stationary signals, Computational Statistics and Data Analysis.
Pena, Poncela (2006), Nonstationary dynamic factor analysis, J ournal of Statistical
Planning and Inference
Raftery, A.E., Dean, N., (2006), Variable selection for Model-based Clustering,
Journal of the American Statistical Association, Vol. 101, n 473, pp.168-178
Revue MODULAD, 2007 - 21 - Numro 35
7 Bibliographie
[1] Agrawal, R., Faloutsosa, C., Swami, A. (1993), Efficient Similarity Search in
Sequence Databases. Lecture Notes in Computer Science 730, Pages 69-84 Springer
Verlag, 1993
[2] Altissimo, F., Bassanetti, A., Cristadoro, R., Forni, M., Lippi, M., Reichlin, L.,
Veronese, G. (2001), A real time coincident indicator of the euro area business
cycle, document de travail 436, Banque dItalie, Rome.
[3] Aminghafari, M., Cheze, N., Poggi, J -M. (2006), Multivariate denoising using
wavelets and principal component analysis, Computational Statistics and Data
Analysis, Vol. 50, n 9, pp 2381-2398
[4] Bair E., Hastie, T., Paul, D., Tibshirani, R., (2006), Prediction by Supervised
Principal Components, Journal of the American Statistical Association, Vol. 101, n.
473, pp.119-137
[5] Berndt, D., Clifford, J . (1994). Using dynamic time warping to find patterns in
time series. AAAI-94 Workshop on Knowledge Discovery in Databases.
[6] Burns, A.F., Mitchell, W.C., (1946), Measuring Business Cycles, National Bureau
of Economic Research, Cambridge, MA.
[7] Chen, L., Ozsu, M. T., Oria, V. (2003). Robust and efficient similarity search for
moving object trajectories. Technical Report. CS-2003-30, School of Computer
Science, University of Waterloo.
[8] Cleveland, W. P., (2004), Stability and Consistency of Seasonally Adjusted
Aggregates and Their Component Patterns, Studies in Nonlinear Dynamics &
Econometrics: Vol. 8: No. 2, Article 15.
[9] Cubbada, G. (2004), A Reduced Rank Regression Approach to Coincident and
Leading Indexes Building, Economics & Statistics Discussion Papers, University of
Molise, Dept. SEGeS
[10] Das, G., Gunopulos, D., Mannila, H. (1997) Finding similar time series. In
Proceedings of the. 1st European Symposium. on Principles of Data Mining and
Knowledge Discovery, pages 88100.
[11] Doz, C., Lenglart, F. (1997), Analyse factorielle et modles composantes
inobservables, INSEE Mthodes n 69-70-71, INSEE, Paris.
[12] Doz, C., Lenglart, F. (1999), Analyse factorielle dynamique : test du nombre de
facteurs, estimation et application lenqute de conjoncture dans lindustrie,
Annales dconomie et de statistique, n54, INSEE, Paris.
[13] Engle, R.F., Granger, C.W.J . (1987). Cointegration and Error: Representation,
Estimation, and Testing, Econometrica, 55, 251-276
[14] European Commission (1997), The J oint Harmonized EU Program of Business
and Consumer Surveys, European Economy, 6, Bruxelles.
[15] European Commission, (2000), Business Climate Indicator for the Euro Area,
presentation paper, Directorate General Economic and financial affairs, Bruxelles.
[16] European Commission (2001), Business and Consumer Surveys: Results,
European Economy Supplement B, 8-9, Bruxelles.
[17] Fine J . (1992), Modles fonctionnels et structurels , dans Modles pour lanalyse des
donnes multidimensionnelles, diteurs Droesbecke, Fichet, Tassi, Economica
Revue MODULAD, 2007 - 22 - Numro 35
[18] Forni, M., Reichlin, L. (1998), Let's get real: a dynamic factor analytical approach
to disaggregated business cycle, Review of Economic Studies.
[19] Forni, M., Hallin, M., Lippi, M., Reichlin, L. (2001), Coincident and Leading
Indicators for the Euro Area, Economic Journal, n 471, Vol. 111, pp. 62-85.
[20] Geweke, J . (1977), .The Dynamic Factor Analysis of Economic Time Series., in
D.J . Aigner and A.S. Golberger (eds.): Latent Variables in Socio-Economic Models,
Amsterdam, North-Holland, Ch. 19.
[21] Huang, H.-Y., Ombao, H., Stoffer, D. S., (2004), Discrimination and
Classification of Nonstationary Time Series Using the SLEX Model, Journal of the
American Statistical Association, Vol 99, 467, pp. 763-774.
[22] Huhtala, Y., Krkkinen, J ., Toivonen, H. (1999). Mining for similarities in
aligned time series using wavelets. Data Mining and Knowledge Discovery: Theory,
Tools, and Technology, SPIE Proceedings Series, Vol. 3695, pp 150-160.
[23] J evons, W.S. (1862), On the Study of Periodic Commercial Fluctuations,
Investigations in currency and finance, London: Macmillan, 1884.
[24] J ohansen, S. (1988), Statistical analysis of cointegrating vectors, Journal of
Economic Dynamics and Control, 12, pp. 231-254
[25] Kalpakis, K., Gada, D., Puttagunta, V. (2001), Distance measures for effective
clustering of ARIMA time-series. In proceedings of the IEEE Int'l Conference on
Data Mining. San J ose, CA, Nov 29-Dec 2. pp 273-280.
[26] Keogh, E. J ., Chakrabarti, K., Pazzani, M. J ., Mehrotra, S. (2000), Dimensionality
Reduction for Fast Similarity Search in Large Time Series Databases. Knowledge
and. Information. Systems, vol. 3, pp 263-286
[27] Keogh, E., Chakrabarti, K., Pazzani, M. & Mehrotra, S. (2001). Locally adaptive
dimensionality reduction for indexing large time series databases. In proceedings of
ACM SIGMOD Conference on Management of Data. pp 151-162.
[28] Korn, F., J agadish, H., Faloutsos, C. (1997). Efficiently supporting ad hoc queries
in large datasets of time sequences. In proceedings of the ACM SIGMOD Int'l
Conference on Management of Data.
[29] Ladiray, D. (1995), Using Business Survey Data for Quantitative Forecasts, 22
nd
CIRET conference, Singapore
[30] Maballe, Colette et Berthe, (1911), Classification of Time Series and
Forecasting: The SiNCiD Method, Zeitschrift fr Wahrscheinlichkeitstheorie und
Verwandte Gebiete, 3, 159-167.
[31] Mirowski, P. (1989), The Probabilistic Counter-Revolution, or how Stochastic
Concepts came to Neoclassical Economic Theory, Oxford Economic Papers
[32] Morinaka, Y., Yoshikawa, M., Amagasa, T., (2001), The L-index: An Indexing
Structure for Efficient Subsequence Matching in Time Sequence Databases, in
Proceedings of The Fifth Pacific-Asia Conference on Knowledge Discovery and Data
Mining (PAKDD2001), pp.51-60.
[33] Ng, R. T., Cai, Y., (2004), Indexing Spatio-Temporal Trajectories with
Chebyshev Polynomials. Proceedings of SIGMOD 2004
[34] Ombao, Ringo Ho (2006), Time-dependent frequency domain PCA of
multichannel non-stationary signals, Computational Statistics and Data Analysis.
[35] Pena, Poncela (2006), Nonstationary dynamic factor analysis, J ournal of
Statistical Planning and Inference
Revue MODULAD, 2007 - 23 - Numro 35
[36] Persons, W.M. (1919), Indices of Business Conditions, Review of Economic
Statistics n1, pp 5-107
[37] Preda, C., Saporta, G. (2002), Rgression PLS sur un processus stochastique,
Revue de Statistique Applique, vol. 50.
[38] Preda, C., Saporta, G. (2005), Clusterwise PLS regression on a stochastic process,
Computational Statistics and Data Analysis, Vol. 49, n 1, pp. 99-108.
[39] Preda, C., Saporta, G. (2005), PLS regression on a stochastic process,
Computational Statistics and Data Analysis, Vol. 48, n 1, pp. 149-158.
[40] Quah D., Sargent, T.J . (1993), A dynamic index model for large cross-sections, in
Business cycles, indicators and forecasting, J .H. Stock and M.W. Watson Ed.,
University of Chicago Press
[41] Raftery, A.E., Dean, N., (2006), Variable selection for Model-based Clustering,
Journal of the American Statistical Association, Vol. 101, n 473, pp.168-178
[42] Stock, J .H., Watson, M.W. (1993), A procedure for predicting recessions with
leading indicators: econometric issues and recent experience, in Business cycles,
indicators and forecasting, J .H. Stock and M.W. Watson Ed., University of Chicago
Press.
[43] Tenenhaus M. (1998), La rgression PLS, thorie et pratique, Technip.
[44] Tukey, J .W. (1980), We need both exploratory and confirmatory statistics, The
American Statistician, Vol. 34, n1, pp. 23-25
[45] Wang, C., Wang, X. S. (2000), Supporting content-based searches on time series
via approximation. In proceedings of the 12th Int'l Conference on Scientific and
Statistical Database Management. Berlin, Germany, pp 69-81.
[46] Wold H. (1966), Estimation of Principal Components and Related Models by
Iterative Least Squares , in Multivariate Analysis, ed. P. R. Krishnaiah, New York:
Academic Press, pp. 391-420.
Revue MODULAD, 2007 - 24 - Numro 35