Emmanuel Flachaire
Mars 2003.
iii
Ces notes de cours sont destines aux tudiants de DEA de l'cole doctorale ETAPE de l'Universit Paris I Panthon-Sorbonne. Elles ont t labores en grande parties partir des rfrences suivantes : 1. Le nouveau manuel de Russell Davidson et James G. MacKinnon, intitul
Econometric
http://russell.cnrs-mrs.fr/EIE.
3. L'article
142
de la revue
conomie et Prvision.
"Proprits en chantillon ni des tests robustes l'htroscdasticit de forme inconnue", que j'ai crit et qui devrait paratre dans un prochain numro de la revue
Annales d'conomie et de Statistique.
iv
1
1 4 6 9
Performances numriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
13 17 20 29 33 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Application II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
49 50 54 60 62 63
Application II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Chapitre 1 Fondements
Le rle de l'conomtrie est de concilier la thorie conomique, les mthodes statistiques et les donnes observes. Initialement utilise pour estimer les modles de la thorie conomique sans remettre en cause leurs fondements, la nature de l'conomtrie a profondment t transforme depuis une trentaine d'annes. L'inadquation des rsultats avec la prdiction conomique et la ncessit de prendre en compte les dernires avances en conomie ont rorient l'conomtrie vers la recherche de la meilleure spcication d'un modle. Le cot de la mauvaise spcication d'un modle est le risque accru de conclusions errones. Outre des techniques d'estimation de modles moins restrictifs, la recherche de la bonne spcication d'un modle a conduit au dveloppement croissant des tests de spcication. L'accent principal, portant au pralable sur l'estimation, s'est dplac vers l'infrence statistique :
(Hendry 1980).
La abilit des statistiques de test employes a alors pris une place prpondrante dans la qualit de l'analyse conomtrique. Lorsqu'on souhaite faire de l'infrence, c'est--dire tester une hypothse, il est ncessaire de calculer une statistique de test et de connatre sa loi de probabilit : ceci permet de calculer un seuil critique ou une
P -value
et d'accepter ou non
l'hypothse pose. Cependant, la distribution de probabilit d'une statistique de test est la plupart du temps inconnue et on utilise des approximations de celle-ci. Une voie de recherche primordiale en conomtrie est la recherche d'une approximation prcise et able de la loi d'une statistique de test. Dans ce cours, les Mthodes de Simulations et les Mthodes du Bootstrap seront tudies, pour rpondre cette problmatique.
1.1 Dnitions
Dans cette section, quelques dnitions et concepts fondamentaux sont introduits. Une hypothse de base de l'conomtre est que le mcanisme qui a gnr les donnes peut tre reprsent mathmatiquement par un mcanisme stochastique, appel
gnrateur de donnes,
processus
1. Fondements
entre la thorie conomique et les donnes. Lors d'une tude empirique, l'conomtre dtermine un
modle de rgression, not M, qui est form de paramtres et lois de probabilits inconnus. Un tel modle est un ensemble de DGP, not , et on dit que le modle est bien
des paramtres et lois de probabilits xs, de telle sorte que l'on puisse gnrer des donnes simules sur ordinateur partir d'un ensemble de donnes observes. L'aspect essentiel du DGP est qu'il n'est pas dni moins que l'on ait susamment d'information : les valeurs des paramtres sont connues ainsi que les lois de probabilits. On peut associer chaque DGP du modle un ensemble de valeurs des
spci s'il contient le vrai processus qui a gnr les donnes (0 ). Un DGP est dni par
paramtres.
ris compltement, ces valeurs de paramtres peuvent parfois sure, sinon il est galement ncessaire de connatre d'autres valeurs de paramtres ou des lois de probabilits. Considrons par exemple le modle de rgression linaire standard
M:
o
y = X + u n
observations,
E(u|X) = 0, X
E(uu |X) = 2 I
(1.1)
est un vecteur de
y conditionnellement aux vecteurs de paramtres et un ensemble de variables explicatives X . I est la matrice identit et u le vecteur des alas qui suivent une distribution de probabilit inconnue, d'esprance nulle et de variance conditionnelle aux explicatives X 2 gale . Les explicatives X sont supposes exognes : les lments de la matrice X sont indpendants du processus stochastique qui gnre les alas u. On peut mme supposer que X est alatoire : le processus stochastique qui gnre X est indpendant du processus stochastique qui gnre u. Ce modle est un ensemble de DGP de la variable dpendante y , de paramtres et . Le vrai processus qui a gnr les donnes est spci par des valeurs
moyenne de xes des paramtres et des lois inconnues du modle,
0 :
Les valeurs de
y = X0 + u, F
2 u F (0, 0 I)
(1.2)
2 0 , 0
d'estimation, on estime ces paramtres, et l'aide de tests, on cherche selectionner un DGP aussi proche que possible de
0 .
ces paramtres et de la loi des alas. Par exemple, on pourrait considrer le DGP suivant,
1 :
y = X + u,
et
u N (0, I) 1,
et
(1.3)
sont gaux
F,
du modle, est la loi Normale. Tout autre choix dnit un nouveau DGP. Une
statistique de test est une fonction des donnes, c'est par construction une variable
et sa loi dpend du
y.
0 .
H0 ,
1.1. Dnitions
H1 .
La statistique de test
valeur relle. Par consquent, aucune valeur n'est a priori compltement incompatible avec l'hypothse nulle. Pour trancher, on dnit au pralable une
rgle de dcision qui conduit rejeter l'hypothse nulle si la valeur de la statistique appartient une rgion de rejet,
H0 .
consistant rejetter l'hypothse nulle alors qu'elle est vraie. Cette
Le choix d'une rgion de rejet conduit dterminer l'avance une probabilit de faire une
que la valeur de
est souvent dnit par la combinaison d'une statistique de test avec une rgle
1.
Les valeurs
les plus frquemment utilises en pratique sont type I de l'ordre de comme tant gal Soit
.05
et
.01
5% ou 1%. De manire complmentaire, le niveau de conance est dnit 1 : on considre alors un niveau de conance de 95% ou 99%.
sous l'hypothse nulle.
Un
test unilatral consiste dnir la rgion de rejet comme l'ensemble des valeurs de suprieures un seuil critique c, o G0 (c) = 1 . La rgion de non-rejet est l'ensemble des valeurs de infrieures ou gales c. Un test bilatral consiste dnir la rgion de
non-rejet comme l'ensemble des valeurs de
G0
c et c si la loi est symtrique, o G0 (c) = 1 /2. La rgion de rejet est l'ensemble des valeurs de plus extrmes que c et c. Plutt que de calculer les seuils critiques, on prfre souvent travailler avec les P values des statistiques. La P -value est la probabilit, si la statistique de test est rellement
comprises entre distribue comme elle devrait l'tre sous l'hypothse nulle, d'observer une ralisation de la statistique de test plus extrme que celle obtenue dans l'chantillon d'origine
: (1.4)
p( ) P0 ( ) = 1 G0 ( )
Si le test est unilatral : on rejette
1 , pour p( ) < . Si le test est bilatral et symtrique : on rejette H0 avec le niveau de conance 1 /2, lorsque p(| |) < . On dnit galement une P -value comme la plus grande valeur de qui ne permet H0
avec le niveau de conance pas de rejeter l'hypothse nulle. Cette approche apporte beaucoup plus d'information : elle permet de connatre instantanment pour quelles valeurs de nulle. Pour qu'un test soit utile en pratique, il doit tre capable de discriminer entre l'hypothse nulle et l'hypothse alternative. Par consquent, l'erreur de type I, ou niveau du test, n'est pas le seul lment considrer. Il faut encore que si l'hypothse nulle n'est pas vraie, le test conduise rejetter l'hypothse teste autant que possible. La probabilit qu'un test rejette l'hypothse nulle est appele la
puissance d'un test. Entre deux tests aussi ables l'un que l'autre, celui qui a la plus grande puissance devrait tre prfr en pratique. L'Erreur de Type II est gal 1 moins la puissance du test, elle mesure le fait de ne pas rejetter une
1. Fondements
hypothse nulle fausse. Il n'est pas dicile de voir que la puissance dpend de l'ampleur de l'inexactitude de l'hypothse teste et de la prcision du modle. Elle sera d'autant plus grande que cette ampleur est importante ou que le modle est prcis. Il s'ensuit que la puissance augmente avec le nombre d'observations .
exact. Dans
ce cas, la probabilit de faire une erreur de type I, appel aussi le niveau du test, peut tre calcule
exactement
pratique et elle peut tre envisage seulement pour quelques cas spciques. Le cas le plus important est celui des tests des restrictions linaires sur les paramtres d'un modle de rgression linaire Normal. Dans un premier temps, nous considrerons un test simple de restriction linaire dans un modle de rgression linaire,
Y = X1 1 + X2 2 + ,
o
N (0, s2 I)
est un vecteur,
X1
k 1 variables explicatives et X2
seule variable explicative. Le thorme de Frisch-Waugh-Lovell nous dit que l'estimateur OLS du paramtre
M1 Y = M1 X2 2 + u,
o
(1.6)
M1 = I X1 (X1 X1 )1 X1 est la matrice qui projette sur l'espace orthogonal l'espace engendr par X2 . En posant y = M1 Y , x = M1 X2 et = 2 , on peut recrire le modle prcdent en un modle de rgression simple du vecteur y sur le vecteur x comme suit, y = x + u, u N (0, 2 I)
(1.7)
Tout test de restriction linaire simple sur le parametre un test de restriction linaire simple sur le paramtre
drerons dans la suite la modle (1.7). En appliquant les formules de l'estimation par OLS dans ce dernier modle, sous l'hypothse que ce modle est correctement spci et que le 2 vrai DGP qui a gnr les donnes est caractris par les paramtres inconnues de et 2 respectivement gaux des valeurs xes 0 et 0 , on a
= (x x)1 x y,
E() = 0
et
2 V () = 0 (x x)1
(1.8)
Puisque les alas du modle sont supposs suivre la loi Normale, sous l'hypothse nulle
1 Avec
l'augmentation du nombre d'observations, les cart-types diminuent : le modle est plus prcis.
H0 : = 0 ,
2 N (0 , 0 (x x)1 )
An de tester l'hypothse que le paramtre soustraire
(1.9) le test
est gal
0 ,
,
(1.10)
=
On a ainsi une statistique de test
0 N (0, 1) 0 (x x)1/2
pour un niveau de conance donn et eectuer un test. Toutefois, la statistique ne peut 2 tre calcule que sous l'hypothse irraliste que 0 est connu. Dans le cas o la variance des 2 alas est inconnu, on remplace 0 par son estimateur des OLS,
2 =
(y x ) (y x ) 2 (n k) nk
(1.11)
On obtient alors une statistique qui suit une loi de Student, cette loi tant par dnition le rapport d'une variable alatoire suivant une loi Normale sur la racine d'une variable alatoire suivant une loi de Chi-Deux,
t=
o
0 T (n k) (x x)1/2 t
de Student.
(1.12)
V () = 2 (x x)1 .
Si maintenant on considre un test conjoint, de plusieurs restrictions linaires, on peut considrer le modle (1.5) avec
un vecteur une seule variable. En suivant le mme raisonnement, on se ramne un modle linaire de la forme suivante,
y = X + u,
o
u N (0, 2 I)
(1.13)
inconnus
. En appliquant les formules de l'estimation par OLS dans ce dernier modle, sous
l'hypothse que ce modle est correctement spci et que le vrai DGP qui a gnr les 2 donnes est caractris par les paramtres inconnues de et respectivement gaux des 2 valeurs xes 0 et 0 , on a
= (X X)1 X y,
E() = 0
et
V () = 2 (X X)1
(1.14)
2 N (0 , 0 (X X)1 )
(1.15)
1. Fondements
An de tester l'hypothse que le vecteur de paramtre une statistique qui prend une valeur relle,
0 , on construit
( 0 ) V ()1 ( 0 ) 2 (r)
Si on remplace
(1.16)
2 0
2,
nk
degrs de
libert, on obtient une statistique qui suit une loi de Fisher, cette loi tant par dnition le rapport de deux variables alatoires suivant des lois de Chi-Deux.
( 0 ) V ()1 ( 0 ) F (r, n k)
Cette statistique est communment appele statistique peut se rcrire en terme de sommes de carr de rsidus.
(1.17)
asymptotique. Dans
la section prcdente, les tests de Student et de Fisher sont exacts car leurs distributions peuvent tre calcules analytiquement. En fait, tout repose sur l'hypothse de Normalit du terme d'erreur qui a t faite. Cette hypothse est trs forte et peut tre rarement pose en pratique. Si on relache cette hypothse, on peut toujours calculer ces statistiques de tests mais leurs distributions ne sont plus les lois de Student ou de Fisher. Les vraies distributions ne peuvent pas tre calcules analytiquement et on utilise alors une approximation de ces lois. La thorie asymptotique permet de calculer les distributions asymptotiques, c'est dire les distribution de probabilit limites lorsque la taille de l'chantillon tend vers l'inni. Ces distributions asymptotiques sont trs souvent utilises en pratique comme approximations des vraies distributions inconnues des statistiques de test. Il existe deux rsultats fondamentaux de la thorie asymptotique qui permettent de d'obtenir la majorit des rsultats qui nous intresse, la Loi de Grands Nombres et le Thoreme Central Limite.
1/n
1 x= n
xt
t=1
(1.18)
o les
xt
sont des variables alatoires indpendantes, chacune ayant une variance nie borne
tend vers
lorsque
tend
Il dcoule de cette loi un grand nombre de rsultats. L'un deux, particulirement intressant, appel aussi Thorme Fondamental de Statistique, concerne la fonction de distribution
EDF, d'un chantillon alatoire. Si on suppose X une variable alatoire qui a pour fonction de rpartition, ou CDF, la loi F (X) et qu'un chantillon de taille n compos
empirique, ou d'lments
xt ,
o chaque
xt
X.
Alors, la
distribution empirique de cet chantillon est reprsent par la distribution discrte qui associe chaque lment
xt
1 F (x) n
o
I(xt x)
t=1
(1.19)
I(.)
sinon. Le
ou EDF, est un estimateur convergent de la fonction de rpartition, ou CDF, de la variable alatoire X. Cela est relativement simple dmontrer. Sachant que
ou
1,
I(.)
s'appliquer cette quantit. L'aspect essentiel de cette loi est qu'un lment alatoire, ou plus exactement une moyenne d'lment alatoire, peut tre trait comme un lment non-alatoire asymptotiquement. Elle va s'avrer essentielle pour tablir la convergence d'un estimateur.
1/ n fois la somme de variables alatoires centres suit approximativement une loi Normale lorsque n est grand.
Si on suppose que les variables alatoires quement distribues, de moyenne
et de
1. Fondements
1 n
t=1
xt
as
N (0, 1)
(1.22)
suit asymptotiquement la loi Normale centre rduite. Cela signie que, lorsque l'inni, la variable alatoire multiplicatif
est essentiel ici, si on l'enlve on aurait obtenu par la LLN une variable
Test Asymptotique
On peut maintenant montrer que les tests
et
asymptotiquement sous des conditions moins fortes sur le modle. Pour un test simple de restriction linaire, on considre le mme modle de rgression que dans la section prcdente, en relachant l'hypothse de Normalit des alas. On suppose que la loi des alas est inconnue et les alas sont indpendants et identiquement distribus, ou IID,
y = x + u,
Sous l'hypothse nulle
u IID (0, 2 I) t
de Student peut s'crire
(1.23)
H0 : = 0 , 0 V () =
la statistique
t=
(1.24)
La loi des grands nombres, ou LLN, peut tre applique l'estimateur de la variance des 2 alas, , car cette dernire s'crit comme une moyenne de variables alatoires, les variables alatoires tant les carrs des rsidus. On montre ainsi que c'est un estimateur convergent 2 de 0 lorsque n tend vers l'inni. Par consquent, le test t de Student est asymptotiquement quivalent
(1.25)
t,
rgresseurs sont exognes. Dans ce cas, le seul lment alatoire dans (1.25) est u. Le num1/2 rateur est donc gal n fois une somme pondres des ut , chaque ut tant d'esprance nulle et de variance nie. Par consquent, on peut appliquer le CLT et montrer que ce numrateur, et donc la statistique centre rduite,
t,
t
statistique
as
N (0, 1) r
restrictions linaires,
(1.26)
fois la
de Fisher est distribue asymptotiquement, sous l'hypothse nulle, selon une loi
as 2 degrs de liberts, rF (r). Par dnition 1/r fois une variable alatoire 2 qui suit une distribution (r) est distribu selon une F (r, ), on en dduit donc que la
de Chi-Deux
statistique
as
F (r, n k)
(1.27)
Les rsultat de la section prcdente sont valide asymptotiquement, lorsque relache l'hypothse de Normalit des alas dans le modle de rgression.
n ,
si on
t de
P -value
partir de la
P -value partir de la loi de Fisher, ou de la loi de Chi-Deux en multipliant la statistique par r. Quelle que soit la distribution utilise, la P -value (1.4) est alors approxime et les tests
bass dessus ne sont plus exacts en chantillon ni : ce sont des loi utilise pour calculer un seuil critique ou une On distingue alors :
P -value
est
niveau rel : c'est la probabilit de rejeter l'hypothse nulle alors qu'elle est vraie, appele aussi la probabilit de rejet et nomme RP , ou Erreur de type I. le niveau nominal : c'est la probabilit de rejeter l'hypothse nulle alors qu'elle est
F0 ,
le niveau rel et le
niveau nominal sont les mme, autrement dit on montre que la probabilit de rejet gale au niveau nominal
RP
est
En eet, on rejette
H0
si la
P -value
p( ) < ,
= 1 P0 ( =
1 F0 (1
)) = 1
1 F0 (F0 (1
))
Dans la pratique, la loi nominale n'est souvent qu'une approximation de la vraie loi. Si par exemple, on prend pour loi nominale la loi asymptotique,
Fas ,
on a : (1.32)
1 RP = 1 F0 (Fas (1 ))
10
1. Fondements
Fas
:
F0 .
(1.33)
parfaitement able, si ERP = 0. sur-rejette l'hypothse nulle, si ERP > 0. sous-rejette l'hypothse nulle, si ERP < 0.
Dans la plupart des cas, mais certainement pas dans tous, la qualit de l'approximation est correcte. Les tests sont alors ables et l'Erreur de Type I est proche de
ERP 0.
Nanmoins, dans certains cas, on peut penser que la loi asymptotique n'est pas une bonne approximation de la vraie loi et donc, les tests peuvent tre peu ables. Cela devrait dpendre de beaucoup de choses, dont la taille de l'chantillon, la distribution des alas, du nombre de rgresseurs et de leurs proprits et de la relation entre les rgresseurs et les alas. Pour tudier le comportement en chantillon ni des statistiques de test, on utilise des mthodes de simulations stochastiques, en mettant prot la grande capacit de calcul des ordinateurs. Les
Mthodes de Monte Carlo sont certainement les techniques de simulations les plus rpandues et, ce sont celles que nous utiliserons pour tudier les performances numriques des dirents tests. Pour qu'une statistique soit performante, on doit avoir dans un premier temps un test able : on entend par l que la distorsion de son niveau est ngligeable,
ERP 0. Pour des tests dont le niveau est correct, la statistique la plus performante
Dans la pratique, on utilise en gnral la loi asymptotique comme approximation de la vraie loi. Mais lorsqu'on travaille en chantillon ni, la loi asymptotique est une bonne image de la vraie loi de la statistique seulement si le nombre de donnes est susamment important, sinon les tests peuvent tre fausss. Une approche alternative se dveloppe de nos jours partir des
qu'elles permettent d'approximer la loi d'une statistique, mme lorsque sa loi asymptotique est impossible dterminer par des dveloppements analytiques. Cela permet de faire des tests qu'il n'tait pas possible de faire avec certaines statistiques, comme par exemple avec le mode d'une distribution. Une autre des caractristiques majeures de ces mthodes est qu'elles permettent d'obtenir une meilleure
de la statistique que
celle donne par la loi asymptotique. La abilit des tests en est accrue, notamment pour des chantillons dont le nombre d'observation n'est pas susamment grand. Ces progrs ont des consquences profondes en sciences car le gain de prcision apport par le bootstrap peut
11
avoir d'importants eets sur les conclusions scientiques, qui s'appuient sur des valuations statistiques des vraies valeurs. Dans ce cours, nous exposerons dans un premier temps les Mthodes de Monte Carlo, puis nous tudierons en dtails les Mthodes du Bootstrap.
12
1. Fondements
ni ou dveloppements asymptotiques. C'est l'tude des proprits des estimateurs des
approximations en chantillon
modles d'quations simultanes et des modles dynamiques linaires univaris qui a permis de dcrire le plus largement l'approche des dveloppements asymptotiques. Cette approche peut, dans certains cas, fournir des claircissements utiles sur le comportement des estimateurs et des statistiques de test. Malheureusement, elle implique souvent des lments mathmatiques soit plus avancs soit plus pnibles que ne le souhaiteraient la plupart des conomtres. Cette mthode ne s'applique parfois qu'aux modles relativement simples, et tend produire des rsultats compliqus et trs diciles interprter, en partie parce qu'ils dpendent souvent de paramtres inconnus. De plus, ces rsultats ne sont eux-mmes que de simples approximations ; mme s'ils sont gnralement meilleurs que les approximations asymptotiques, ils peuvent ne pas tre susamment prcis. De faon idale, on voudrait pouvoir utiliser automatiquement les dveloppements asymptotiques, comme composante
13
14
des applications de logiciels d'conomtrie, an d'obtenir des intervalles de conance et des tests d'hypothses plus prcis que ceux asymptotiques. Malheureusement, cette situation idale est peu frquente. Deux synthses utiles des mthodes bases sur des dveloppements asymptotiques sont Phillips (1983) et Rothenberg(1984). Une synthse quelque peu critique de la littrature est Taylor (1983). La seconde approche, que nous exposons dans ce chapitre, consiste examiner les proprits en chantillon ni des estimateurs et des statistiques de test en utilisant les
expriences
rfrence aux procdures o les quantits d'intrt sont approximes en gnrant de nombreuses ralisations alatoires d'un processus stochastiques quelconque et en calculant une moyenne quelconque de leurs valeurs. Puisque cela est pratiquement impossible faire sans un ordinateur puissant, la littrature sur les
L'approche des dveloppements asymptotiques ncessite une quantit de travail hautement quali trs importante. Par contraste, l'approche Monte Carlo conomise du travail quali en consommant un temps de calcul sur ordinateur important. Dans les applications conomtriques des mthodes Monte Carlo, les grandeurs d'intrt sont gnralement des aspects varis des distributions des estimateurs et des statistiques de test, tels la moyenne et l'erreur quadratique moyenne d'un estimateur, le niveau d'une statistique de test sous l'hypothse nulle, ou la puissance d'une statistique de test sous une hypothse alternative quelconque. Cependant, la plus grande part de la littrature portant sur les mthodes Monte Carlo ne concerne pas spciquement la statistique ou l'conomtrie mais galement les mthodes d'approximation des intgrales multiples ou des systmes non linaires de simulation. Des rfrences classiques telles que Hammersley et Handscomb (1964), Rubinstein (1981), Kalos et Whitlock (1986), Ripley (1987), et Lewis et Orav (1989) contiennent beaucoup d'lments utiles. Bien que les mthodes Monte Carlo soient souvent considres comme une alternative l'approche des dveloppements asymptotiques, les deux approches doivent tre plus justement considres comme complmentaires. Tout comme les expriences Monte Carlo peuvent tre utilises pour valider des approximations asymptotiques, elles peuvent galement tre utilises pour valider des approximations bases sur des dveloppements asymptotiques. De plus, il existe de nombreuses situations o des dveloppements asymptotiques peuvent s'utiliser pour analyser des cas spciques simples, tout en portant son attention sur des problmes qui ncessitent un examen pour des cas plus gnraux l'aide d'expriences Monte Carlo. Cependant, puisque les dveloppements asymptotiques dpassent l'objectif de ce cours, nous ne dtaillerons pas davantage les manires de les utiliser conjointement aux mthodes Monte Carlo. Un article qui utilise typiquement les mthodes Monte Carlo en statistique ou en conomtrie prsente des rsultats partir de plusieurs (peut-tre nombreuses) expriences Monte Carlo relies. Chaque exprience implique plusieurs lments que le chercheur doit spcier. Tout d'abord, il doit y avoir un modle conomtrique, et un ensemble d'estimateurs ou de
2.1. Introduction
15
statistiques de test associ au modle. L'objet des expriences est d'examiner les proprits en chantillon ni de ces estimateurs ou statistiques de test. Ensuite, il doit y avoir un processus gnrateur de donnes (DGP), qui est habituellement, mais pas toujours, un cas particulier du modle. Le DGP doit tre spci compltement. Ceci signie que s'il y a des variables exognes, elles ou leurs distributions doivent tre spcies, comme doivent l'tre les distributions de n'importe quel ala. Considrons le modle de rgression linaire simple
yt = 1 + 2 Xt + ut
Dire que l'on
(2.1)
simule
yt
riable alatoire
d'aprs l'quation (2.1). Pour ce faire, une des premires choses xer est
n.
variables de cette quation, on peut alors gnrer chaque lment valuant l'quation (2.1) Si les rgresseurs
yt ,
pour
t = 1, . . . , n,
en
fois.
Xt
sont supposs exognes, il sut de les prendre tel quel. S'ils sont
dnis au pralable par un autre modle, on pourrait utiliser les donnes simules fournies par cet autre modle. Hormis les rgresseurs, il faut connatre les valeurs de
et
2 ,
qui en
pratique sont des paramtres inconnus. Dans le cadre des simulations, et non d'une tude empirique, on peut utiliser des valeurs de ces paramtres suggres par la thorie conomique ou obtenues partir d'une estimation du modle. Il est clair que les rsultats de la simulation dpendra prcisment du choix de ces paramtres. Finalement, le terme d'erreur
ut
alors comme un lment alatoire. Il faut alors avoir recours un ordinateur pour gnrer des nombres alatoires et utiliser un programme appel
toires.
En ralit, les nombres gnrs par un ordinateur ne sont pas du tout alatoires
proprement parl. En eet, un ordinateur est un outil parfaitement dterministe et les squences gnres peuvent tre reproduites l'identique plusieurs fois. C'est pourquoi on parle parfois de nombres
nombres gnres par un ordinateur ont toutes les proprites des nombres alatoires dont nous avons besoin, c'est pourquoi on parlera quand mme de nombres alatoires plutt que pseudo-alatoires. L'aspect essentiel ici est qu'il faut spcier la distribution de probabilit du terme d'erreur, le gnrateur de nombres alatoires permettant de gnrer des mutuellement indpendants partir de cette loi. La spcication du modle ncssaire la mise en uvre d'une simulation peut tre ainsi spare en deux parties : une premire
tirages
spcication stochastique.
les rgrsseurs et les paramtres de la fonction de rgression. La spcication stochastique, ou encore alatoire, concerne la distribution de probabilit des alas et le fait que les alas soient des tirages indpendants et identiquement distribus (IID) selon cette distribution. Pour simuler la variable dpendante
yt ,
16
n; 1
et
2 ; Xt ,
soient des valeurs observes
1 + 2 Xt ,
pour
t = 1, . . . , n ;
Choisir la distribution de probabilit des alas, si ncessaire spcier sa moyenne et sa variance ; Utiliser un gnrateur de nombres alatoires pour gnrer indpendantes des alas Calculer les
valeurs mutuellement
ut ; yt
en additionant les
L'intrt d'une telle opration est que, si le modle simul est correctement spci et rete les vrai processus qui a gnr les donnes, la simulation eectue reproduit ce qui se passe dans le monde rel de manire dle et prcise, car on utilise un mchanisme qui gnre les donnes de la mme faon que celui qui opre dans le monde rel. Chaque exprience se compose d'un nombre quelconque de terons
rptitions,
N.
DGP, et de calculer des estimateurs ou statistiques de test d'intrt. Typiquement, le nombre de rptitions est trs grand (N = 5000, 10.000 ou plus sont des choix frquents), mais il peut parfois tre plus petit, par exemple 50, si l'estimation prend beaucoup de temps et des rsultats prcis ne sont pas ncessaires. Aprs que dispose de
cet chantillon gnr peut tre soumis l'analyse statistique pour calculer les estimations des quantits d'intrt. Les rsultats de l'exprience Monte Carlo sont ainsi eux-mmes des estimations, et sont par consquent associs une erreur exprimentale. Cependant, nous pouvons minimiser cette erreur de faon acceptable en concevant avec soin l'exprience et en utilisant un nombre susamment grand de rptitions. Dans la suite de ce chapitre, nous discutons des caractristiques importantes des expriences Monte Carlo en conomtrie. La plupart des expriences Monte Carlo ncessitent un grand nombre de variables pseudo-alatoires, c'est--dire de nombres qui semblent tre des tirages d'une distribution de probabilit spcie quelconque. Dans la premire section, nous discutons brivement de la faon de gnrer ces nombres sur ordinateur. Dans la deuxime section, nous aborderons d'autres aspects de conception d'un ensemble d'expriences Monte Carlo. Enn, dans la dernire section, nous exposerons des mthodes qui permettent de prsenter les rsultats obtenus.
17
U (0, 1),
alatoires issues d'autres distributions, voir Press et al. (1986). Mme s'il existe un grand nombre d'algorithmes de RNG permettant de gnrer des nombres alatoires partir de la loi Uniforme, le plus frquemment utilis est le
congruentiel multiplicatif,
i =
o
gnrateur
(2.2)
zi , m
i = 1, 2, . . . ,
est le
ime
z0 en gnral trs grand, appel seed. On le multiplie par une entier positif pour obtenir z1 , le reste de la division par m. Ensuite, z1 est divis par m pour produire un nombre compris entre 1/m et (m 1)/m. Pour gnrer le nombre suivant, on rpte l'opration en remplaant z0 par z1 , etc. . .. Pour un gnrateur donn, dnit pour des valeurs de et m donnes, la squence de nombres alatoires dpend entirement du
point de dpart, ou
zi est un entier positif. La notation [mod m] signie par m et on retient le reste. Ce gnrateur dmarre
et
mauvais ou au contraire trs performants. Si ces paramtres sont mal choisies, la squence de nombres alatoires va se reproduire l'identique aprs seulement un petit nombre d'tapes, et les nombres ainsi gnrs feront aparatre une dpendence inadquate. Si ces paramtres sont bien choisies, la squence se reproduit l'identique un trs grand nombre d'tapes. Considrons par exemple un gnrateur congruentiel multiplicatif avec un mauvais choix de paramtres suivante :
= 2
et
m = 7, 2 7 ;
si le point de dpart
z0 4 7
est x
1,
on obtient la squence
4 7
1 7
2 7
1 7
... 1
et
(2.3)
Pour tout point de dpart prenant une valeur entire comprise entre
6,
on obtient
une squence qui se rpte aprs seulement trois nombres. Tout au mieux, on peut esprer obtenir tous les nombres de la forme contenant tous ces nombres peut Lorsque
et
nombres distincts, aprs quoi on retrouve une valeur identique au point de dpart et la squence se rpte. La valeur de
entier pouvant tre reprsent sur un ordinateur particulier. Par exemple, sur un ordinateur 32 32 bits, m est souvent pris gal 2 1 o lgrement moins, et est choisi trs grand mais
18
lgrement infrieur
de
Loi Normale
Pour gnrer des nombres alatoires issus de la loi Normale, une approche largement utilis est la mthode de Box-Muller. Elle utilise le fait que si indpendants de
et
U (0, 1),
alors et
N (0, 1). Le problme majeur de cette mthode est qu'elle repose sur l'hypothse d'indpendance de 1 et 2 . Pour pallier ce problme, on peut utiliser deux gnrateurs avec des valeurs direntes de m pour 1 et 2 . Cela a pour eet d'augmenter le longueur de la squence du gnrateur puisque les paires 1 et 2 vont apparatre diremments chaque fois que la squence de nombres
sont deux tirages indpendants issus d'une loi Normale centre rduite, uniformes rapparatra. partir du moment o on peut gnrer des nombres alatoires issus d'une loi
N (0, 1),
on peut gnrer des autres alatoires issus d'autres lois lies la loi Normale. Supposons que
v 1 , v2 , . . .
N (0, 1),
on a : (2.4)
ui = + vi
k
N (, 2 ) 2 (k)
ui =
j=1 k1 j=1
2 vj
(2.5)
2 vj / k1 2 vj / k 2
k1 +k2 j=k1 +1
F (k1 , k2 )
(2.6)
Loi de Student
ui = (
k+1 j=2
v1
2 vj )/ k 1/2
T (k)
(2.7)
ui = exp(vi ) ui = vi /vi+1
(0, 1)
Cauchy
(2.8) (2.9)
u = + v,
1 Un
billion correspond
avec
109 .
N (, )
(2.10)
1012
19
est un vecteur de
galement des
k -vecteurs ;
et
vi , i = 1, . . . , k ; u k k.
et
sont
Mthode de Transformation
nombres issus d'une loi Uniforme,
ou Transformation Method
d'une autre distribution. Une technique gnralement utilise est la Mthode de Transformation, base sur le fait que l'ordonne d'une fonction de rpartition prend n'importe quelle valeur comprise entre
et
1. De ce U (0, 1), =
F (u), = F (u)
uF
U (0, 1)
= F (u)
(2.11)
Cela signie que, pour tout , on peut inverser la fonction de rpartition an d'avoir u = F 1 (). An d'avoir une squence de nombres ui distribus selon la loi F , on gnre une 1 squence de nombres i distribus selon la loi U (0, 1), puis on utilise la transformation F () pour chacune de ces ralisations. On peut donner quelques exemples :
La Loi Exponentielle
F (x) = 1 exp(x) pour tout x 0 et > 0, et donc on obtient F 1 () = (log(1 ))/. On peut remplacer 1 par , puisqu'ils suivent la mme distribution, et
Elle s'crit gnrer le nombre alatoire
ui = ( log i )/
(2.12)
La Loi de Weibull
x 0 et > 0, et donc on obtient F 1 () = ((log(1 ))1/ . On peut remplacer 1 par , puisqu'ils suivent la mme distribution, et
Elle s'crit
F (x) = 1 exp(x )
pour tout
ui = ( log i )1/
tition et sur la possibilit de calculer son inverse.
(2.13)
[, ]
en abscisse et
[0, h] en ordonn, o h est au moins aussi grand que f (u). Dans un second temps, on tire un nombres 1
20
de la loi
U (0, h).
Enn, on
2 < f (1 ) 1
et
(2.14)
2 . Cette version
de la mthode de rejet peu s'avrer peu ecace s'il faut un grand nombre de retirages de
(1 , 2 )
ui .
un domaine qui englobe la fonction de densit et qui soit trs proche de cette dernire. Si un tel domaine peut tre reprsent par une fonction de densit de forme connue, l'ecacit de la mthode peut tre largement amliore.
Nombre de rptitions
Dans une exprience Monte Carlo, on gnre un nombre de
cation consiste gnrer un chantillon de donnes partir duquel on calcule une ralisation d'un estimateur ou d'une statistique de test. Aprs
rptitions, on dispose de
tions de l'estimateur ou de la statistique d'intrt. Cet ensemble de ralisations forme alors la distribution empirique de l'estimateur ou de la statistique, partir de laquelle on peut calculer une quantit spcique, comme par exemple un biais, un intervalle de conance, un seuil critique ou une
P -value.
prience Monte Carlo sont des estimateurs, sujet des erreurs exprimentales. La prcision sera d'autant plus grande que la variance de la quantit calcule sera rduite. Par exemple, supposons que la quantit d'intrt soit le calcul de la probabilit de rejeter l'hypothse nulle alors qu'elle est vraie, ou niveau rel d'un test, not nominal de
p,
pour un niveau
0.05.
chaque rplication, qui conduit ou non rejeter l'hypothse nulle. Cela revient considrer
rptitions on obtient
rejets, un
21
estimateur simple de p est donn par R/N . La variance de cet estimateur est donn par N 1 p(1p) et peut tre estim par R(N R)/N 3 . On peut maintenant utiliser cette variance pour contrler le nombre de rptitions. Considrons, par exemple, une prcision telle que la longueur de l'intervalle de conance plus grande que
95%
ne soit pas
0.01.
2 1.96 = 3.92
fois l'cart-type, ou
3.92
Si on suppose que donne
p (1 p) N
1/2
= 0.01
(2.15)
est gal
0.05,
N 7.299.
N = 8.000.
N 1.825.
Dans la pratique, le choix du nombre de rptitions dpend de la puissance de calcul de l'ordinateur dont on dispose et de la statistique tudie. Il est clair que les rsultats seront prcis, d'autant plus que ce nombre est grand. Des valeurs de
de l'ordre de
10.000, 50.000,
100.000,
tique prend beaucoup de temps de calcul, on peut utiliser des techniques de rduction de la variance, appeles
non (1993) pour une prsentation de ces mthodes. Les puissances de calcul actuelles des ordinateurs permettant souvent d'utiliser un trs grand nombre de rptitions, ces mthodes ne seront pas prsents ici.
sensibles
n
certains aspects du DGP, il est important de mener des expriences dans lesquelles ces aspects varient dans toute la gamme des aspects intressants. Ces aspects du DGP qu'il faut faire varier doivent ncessairement tre dirents selon les cas. La taille d'chantillon
sera typiquement l'un d'eux, parce qu'il est presque toujours intressant de voir avec quelle rapidit les proprits en chantillon ni des quantits examines approchent leurs limites asymptotiques (connues). Une exception cela est le cas o le but de l'exprience Monte Carlo est de dtailler les proprits d'un ensemble particulier d'estimateurs ou de statistiques de test pour un ensemble de donnes particulier, de telle sorte que l'exprience est utilise
2 Soit
R=
N i=1
Xi une variable de Bernouilli, gale 1 avec la probabilit p ou 0 avec la probabilit 1p, la variable Xi suit une loi Binomiale de paramtre p et on a E(R) = N p et V (R) = N p(1 p).
22
comme complment d'une partie d'un travail empirique. Par contraste avec cette situation, jusqu' prsent la plupart des expriences Monte Carlo ont t conues pour dtailler les proprits gnrales de certaines procdures statistiques, et il est dicile d'imposer n'importe quelle sorte de gnralit quand tous les rsultats sont relatifs une seule taille d'chantillon. En gnral, les aspects du DGP auxquels les rsultats sont sensibles ont lieu au cas par cas et dpendent de l'exprience mise en uvre. D'un autre cot, il est intressant de noter les
porte des rsultats, ainsi que ce qui aecte, ou n'aecte pas le comportement des estimateurs ou statistiques tudie. Par exemple, beaucoup de statistique de test sont invariantes par rapport la variance du terme d'erreur. Considrons par exemple la cas d'une statistique de student qui teste
=0
y = X + z + u
(2.16)
Le throrme de Frisch-Waugh-Lovell nous permet de calculer une telle statistique de test, en considrant le problme partir du modle
MX y = MX z + MX u
o
(2.17)
MX = I X(X X)1 X
. partir de ce modle, on a
= (z MX z)1 z MX y,
Sous l'hypothse nulle
V () = 2 (z MX z)1 M X y = MX u ,
et
2 =
y M[X,z] y nk
(2.18)
= 0,
on a
t=
o
V ()1/2
(2.19)
sont les ma trices de projection orthogonales sur les sous-espaces complmentaires respectifs S (X) et S (X, z). Il est clair que la statistique t est invariante par rapport la variance du terme d'erreur : si on multiplie
MX
et
M[X,z]
ce cas, le choix de la variance des alas dans une exprience Monte Carlo a peu d'importance et peut tre x n'importe quel niveau. Il n'aura pas d'impact sur les rsultats. Si on suspecte qu'un estimateur ou une statistique est invariante par rapport un paramtre, on peut plus gnralement le vrier avec une exprience simple Monte Carlo. On conduit deux expriences, avec une seule rplication pour chacune, avec des choix de paramtres distincts mais avec le mme ensemble de nombres alatoires. Si les deux expriences fournissent les mme valeurs numriques de l'estimateur ou de la statistique tudie, on peut conclure l'invariance par rapport aux paramtres distincts dans les deux expriences. Breusch (1980) discute d'un certain nombre d'autres rsultats d'invariance pour des mo-
23
dles de rgression linaire ; en prenant en compte de tels rsultats, on peut simplier dans de nombreux cas la conception des expriences Monte Carlo.
Lorsque l'exprience traite des donnes en coupe transversale, il est plus pratique de les gnrer partir des distributions indpendantes des lois uniforme, normale ou lognormale, alors que lorsque l'exprience traite des donnes chronologiques, il est pratique de les gnrer partir de processus varis simples de srie temporelles tels que AR(1), MA(1), et ARMA(1 ; 1), alas normaux. On peut soit gnrer un nouvel ensemble de soit gnrer un seul ensemble de
mais elle peut conduire des rsultats qui dpendent des caractristiques particulires de l'ensemble des
gnr.
Une autre possibilit consiste utiliser de vritables donnes conomiques pour les Si ces donnes sont choisies avec soin, cette approche peut garantir que les
X.
sont en fait
typiquement celles qui apparaissent dans les modles conomtriques. Cependant, cela pose le problme de la variation de la taille d'chantillon. Si l'on utilise soit des donnes authentiques 1 soit un seul ensemble de donnes gnres, la matrice n X X variera avec la taille de
n. Ceci peut rendre la distinction des eets des variations de n des eets des 1 variations de n X X dicile. Une solution ce problme est de slectionner, ou de gnrer, un seul ensemble de X pour un chantillon de taille m et de rpter ensuite ceux-ci autant de fois que ncessaire pour crer les X pour les chantillons de tailles plus grandes. Ceci ncessite que n = cm, o c est un entier. Des choix vidents pour m sont 50 et 100 ; n pourrait ensuite tre un entier quelconque multiple de 50 ou de 100. Naturellement, le problme avec
l'chantillon cette approche est que comme beaucoup de rptitions sont excutes, tous les rsultats dpendront du choix de l'ensemble initial des
X. X
ne sera pas d'une grande impor-
tance. Cependant, il existe des cas pour lesquels elle peut avoir un impact substantiel sur les rsultats. Par exemple, Chesher et Peters (1994) ont montr que si les rgresseurs sont distribus symtriquement par rapport leurs mdianes, ces estimateurs auront des proprits particulires qui ne sont pas valables en gnral. Puisque les rgresseurs utiliss dans les expriences Monte Carlo pourraient bien tre symtriquement distribus, il existe un risque que les rsultats de telles expriences puissent tre srieusement trompeurs. Les exemples prcdents devraient faciliter la comprhension de deux lments. Tout d'abord, la manire dont les
sont gnrs peut compter. En second lieu, une bonne comprhension thorique
d'un problme peut rendre les expriences Monte Carlo plus informatives et empcher des conclusions errones qui peuvent provenir d'aspects apparemment mineurs de la conception
24
exprimentale.
consiste
dans un premier temps tudier la abilit de cette statistique, qui se traduit par l'absence d'une an
distortion du niveau. Ensuite, si on dispose de plusieurs statistiques de tests ables, de tester la mme hypothse nulle, l'tude de la puissance permet de slectionner la
Niveau
Dans le contexte
pratique o le vrai DGP n'est pas connue, on ne connait pas la vraie loi nominale. On utilise souvent la loi asymptotique
c,
pour un niveau
loi de la statistique et on utilise une approximation de celle-ci. La loi utilise comme approximation de la vraie loi est appele la
Fas
nominal
donn,
= 1 Fas (c).
La comparaison de la ralisation de la statistique de test d'origine, avec le seuil critique Dans le contexte d'une statistique
(2.20)
permet de rejetter ou non l'hypothse pose. on connait le vrai DGP et donc la vraie loi de la
simulation
RP ,
F0 .
On peut donc calculer excatement l'Erreur de Type I, appel aussi niveau partir de cette distribution :
RP = 1 F0 (c)
La dirence entre le niveau nominal et le niveau rel est appele la ou encore l'
(2.21)
distorsion du niveau,
(2.22)
ERP = RP
Il est clair que si la loi nominale, donn ici par la loi asymptotique, est gale la vraie loi de la statistique, le niveau nominal et le niveau rel sont gaux et le test est parfaitement able,
ERP = 0.
Si, par contre, la loi nominale n'est pas une bonne image de la vraie loi, la
distorsion du niveau peut tre signicativement dirente de zro, Une exprience Monte Carlo consiste gnrer la base d'un
ERP = 0. ,
sur
vrai
i ,
25
ou
EDF, de la statistique
F (x) =
o
1 N
I(i x)
i=1
(2.23)
I(.) est la fonction indicatrice, gale 1 si son argument est vrai et 0 sinon. Par consquent, F (x) est juste la proportion des N ralisations de la statistique ayant une valeur simule infrieure ou gale x. C'est donc une fonction en escaliers, dont la hauteur de chaque escalier est gal 1/N et la largeur est gal la dirence entre deux ralisations successives
ordonnes par ordre croissant. De plus, la loi des grands nombres, ou LLN, permet de montrer que l'EDF converge vers la vraie loi, lorsque
N .
L'EDF de l'ensemble des valeurs simules de la statistique peut donc tre utilis comme approximation de la vraie loi de la statistique, la prcision de l'approximation dpendant du nombre de rptitions de l'exprience Monte Carlo. On utilise cette distribution empirique comme reprsentation de la vraie loi de la statistique. La probabilit de rejet peut donc tre calcule simplement partir de l'EDF,
RP = 1 F (c)
Ce n'est rien d'autre que la proportion de valeurs simules de la statistique de test grande que le seuil critique
(2.24)
plus
1 RP = N
I(i > c)
i=1
(2.25)
P -values
pratique, si on utilise la loi asymptotique comme loi nominale et si statistique avec les donnes d'origine, la
est la ralisation de la
P -value
P -value
Dans le
cadre d'une simulation, on connat la vraie loi et on peut calculer exactement la probabilit de rejet, ou erreur de Type I, voir la section 1.4 pour plus de dtails,
(2.27)
Il est clair que si la loi nominale est gale la vraie loi, il n'y a pas de distorsion de niveau et le test est parfaitement able (RP Carlo, on obtient
realisations
= et ERP = 0). Dans la cadre d'une exprience Montede la statistique i , pour i = 1, . . . , N partir desquelles
26
on peut calculer
N P -values
simules :
(2.28)
F,
1 F (x) = N
est une approximation de la vraie loi de la de rptitions empirique,
I(pi x)
i=1
(2.29)
RP = P0 (p( ) < ) = F ()
Ce n'est rien d'autre que la proportion de valeurs simules de gale au niveau nominal
(2.30)
P -values, pi ,
plus petite ou
RP =
1 N
I(pi )
i=1
(2.31)
Finalement, on constate que l'tude de la abilit d'une statistique de test partir d'une exprience Monte Carlo est trs simple mettre en uvre. partir du moment o on dispose de
i ,
ou d'une
P -value pi ,
N
la probabilit de
1 RP = N
I(i > c)
i=1
ou
1 RP = N
I(pi )
i=1
(2.32)
Il sut donc de compter la proportion de valeurs simules de la statistique suprieure un seuil critique
c,
P -value
Une mesure de la abilit de la statistique de test est ensuite donne par l'erreur de la
probabilit de rejet :
ERP = RP
(2.33)
Si on obtient une valeur gale zro, le test est parfaitement able, sinon le test peut tre fauss. Si la valeur obtenue est positive (ngative), le test sur-rejette (sous-rejette) l'hypothse nulle alors qu'elle est vraie.
Puissance
L'tude de la abilit d'un test consiste tudier la prsence ou non d'une distorsion du niveau : cela revient vrier que le niveau nominal choisi par l'conomtre correspond bien la vraie probabilit de rejetter l'hypothse nulle alors qu'elle est vraie (Erreur de Type I ou niveau rel). Si par exemple on xe un niveau nominal
27
signie que l'erreur que l'on accepte de faire si l'hypothse teste est vraie est bien de l'ordre de
5%,
si le test n'est pas able cette erreur n'est pas contrle et elle peut tre largement
dirente de
5%.
Pour qu'un test soit utilisable en pratique, la premire condition est qu'il
soit able en chantillon ni. Toutefois, pour qu'un test soit performant en pratique, la condition de abilit n'est pas susante. L'hypothse teste peut tre vraie, mais elle peut tout aussi bien tre fausse. Dans le cas o cette hypothse n'est pas vrie, un test est performant s'il rejette cette hypothse. L'tude de la puissance concerne prcisement le comportement de la statistique de test lorsque l'hypothse nulle n'est pas vrie : c'est la probabilit de rejetter cette hypothse lorsque cette hypothse n'est pas vrie. L'tude de la puissance permet de comparer les performances en chantillons ni de plusieurs statistiques de test. Si on compare plusieurs statistiques de tests ables, qui testent la mme hypothse nulle, la statistique la plus performante est celle dont la puissance est la plus forte. Une exprience Monte Carlo consiste gnrer
sur la
base d'un DGP qui ne ne respecte pas l'hypothse nulle mais qui est spci sous l'hypothse alternative. Soient ralisations des
pi
l'ensemble des
I(pi x)
i=1
(2.34)
est une estimation convergente de la distribution de la Pour un niveau nominal verie est donn par
P -value
1 P ower = N
I(pi )
i=1
(2.35)
0 ,
B() = E( 0 )
Une exprience Monte Carlo consiste gnrer base d'un
vrai
i ,
28
i = 1, . . . , N . L'ensemble de ces ralisations dnissent la fonction de distribution empirique, ou EDF, de l'estimateur : N 1 F (x) = I(i x) (2.37) N i=1
o
I(.)
sinon. On utilise
cette distribution empirique comme approximation de la vraie loi de l'estimateur : on estime son esprance par la moyenne des
valeurs simules
i ,
1 B() = N
(i 0 )
i=1
(2.38)
Si maintenant on compare les biais entre deux estimateurs la vraie valeur est
0 ,
B() B() = E ( 0 ) ( 0 ) = E( )
et peut tre estime simplement par
(2.39)
1 B() B() = N
o
(i i )
i=1
(2.40)
et
i ,
pour
i = 1, . . . , N ,
sont
avec un mme niveau de prcision, une dirence de biais entre deux estimateurs, plutt que le biais d'un unique estimateur. En eet, la variance de la dirence de biais entre deux estimateurs (2.40) est gale :
1 1 2 V () + V () Cov(, ) N N N
Elle est plus petite que la variance d'un unique estimateur, signicativement positif. Les deux estimateurs positive, partir du moment o
(2.41)
B()
ou
B(),
si
Cov(, )
est
et
et
alatoires, c'est dire avec un mme gnrateur de nombres alatoires et un mme point de dpart (seed). Mais, c'est de cette manire que l'exprience Monte Carlo devrait tre mise en uvre.
Lorsqu'on s'intresse l'ecacit d'un estimateur, il ne faut pas forcment se restreindre l'tude d'estimateurs sans biais. En eet, il peut trs bien y avoir des estimateurs lgrement biaiss, de variance beaucoup plus petite que des estimateurs sans biais. Un critre qui tiend compte de ce double eet est l'erreur quadratique moyenne, ou
note
29
2
MSE ()
= V () + B()
(2.42)
L'estimateur dont la MSE est la plus petite est considr comme le plus ecace.
= 0.01, 0.05
et
0.10.
que les rsultats portent seulement sur quelques points de la distribution en chantillon ni de la statistique de test, pour
avec beaucoup de chires n'est pas forcment facile et demande souvent un eort important. De plus, il est important de prsenter des rsultats faciles comparer. Par exemple, si on s'intresse l'erreur quadratique moyenne (MSE) entre plusieurs estimateurs, il vaut mieux prsenter des ratios, relatifs un cas de rfrence, plutt que prsenter les rsultats obtenus pour chaque estimateur pris un un. Une autre faon de prsenter les rsultats est d'estimer une surface de rponse, o les rsultats de chaque exprience sont traits comme une seule observation, et un modle de rgression ajuste les quantits d'intrt la taille d'chantillon et aux autres aspects du DGP qui varient selon l'exprience. De faon idale, les estimations de la surface de rponse rsument les rsultats des expriences et fournissent une manire plus compacte et plus rapidement comprhensible de prsenter les rsultats qu'une suite de tableaux ne le ferait. Le principal problme de cette approche repose sur la bonne spcication de la surface de rponse, qui est une dicult majeure de son application en pratique. Pour une prsentation dtaille de cette approche, voir Hendry (1984) ou Davidson et MacKinnon (1993). L'approche graphique est souvent beaucoup plus simple lire que les tableaux. Pour des expriences portant sur le biais ou l'erreur quadratique moyenne (MSE) d'un estimateur, on peut reprsenter sur un mme graphique les rsultats obtenus de ces quantits pour plusieurs paramtres, par rapport direntes valeurs d'un ou plusieurs paramtres du DGP, comme par exemple la taille de l'chantillon. Il faut dcider ce que l'on met en abscisse et en ordonne, puis les dirents cas reprsents sur le mme graphique, de manire obtenir un graphique facile lire. Plutt que de reprsenter le biais ou la MSE, on pourrait aussi reprsenter la fonction de distribution empirique de ces quantits, ou une estimation (par noyaux) de sa fonction de densit.
30
Pour l'tude du niveau et de la puissance d'un test, Davidson et MacKinnon (1998) ont proposs plusieurs reprsentations graphiques utiles : les tras de des carts de
P -values
et les tras
P -values
L'ensemble de ces graphes sont bass sur la fonction de distribution empirique, ou EDF, des
P -values d'une statistique de test, forme par l'ensemble 1, . . . , N , obtenues partir d'une exprience Monte Carlo, F () =
o
des
P -values
simules
pi , i =
1 N
I(pi )
i=1
(2.43)
I(pi )
sinon. Une
manire simple de reprsenter la fonction de distribution empirique consiste l'valuer pour tous les points de l'chantillon,
= p 1 , p2 , . . . , p N .
Mais, lorsque
(2.44)
points choisis
(0, 1).
(m = 107)
Un autre choix, qui peut donner des rsultats sensiblement meilleurs, est
(m = 215)
F () en ordonnes contre
pi ,
2. le calcul de
F ()
La reprsentation graphique de l'EDF se fait trs simplement en tracant les valeurs de ordonne contre les valeurs prises par est value en tous les points,
m = N.
Il est plus conventionnel de travailler avec l'EDF d'une statistique de test, plutt que d'une
P -value.
P -value
tribution de la statistique sous l'hypothse nulle. De ce fait, il est toujours contenu dans l'intervalle (0,1) et la comparaison entre des statistiques de tests qui n'ont pas la mme distribution sous l'hypothse nulle peut se faire directement.
31
F ()
et
en abscisse, (2.45)
RP = F ()
par rapport
Ce type de graphique consiste reprsenter la probabilit de rejet (erreur de type I ou niveau rel) en fonction du niveau nominal, voir (2.31). Pour une abscisse gale
= 0.05, l'ordonne
donnera la valeur de la probabilit de rejet, habituellement donne dans un tableau. Sur ce graphique, les valeurs des probabilit de rejet sont donnes pour un grand nombre de niveaux nominaux
. P -value
devrait tre la loi Uniforme
Ce type de graphique est trs simple interprter. D'aprs (1.31), si la loi nominale est la vraie loi, la loi de la Autrement dit, si le test 0 est parfaitement able, la courbe obtenue sera proche de la ligne 45 . Si cette courbe est 0 au-dessus de la ligne 45 , le test sur-rejette l'hypothse nulle alors qu'elle est vraie, si elle est au-dessous de cette ligne le test sous-rejette l'hypothse nulle.
U (0, 1).
F ()
et en abscisse
ERP = F ()
par rapport
(2.46)
Ce type de graphique consiste reprsenter l'erreur de la probabilit de rejet, ou distorsion du niveau, en fonction du niveau nominal, voir (2.33). Il permet de visualiser plus prcisement 0 un test qui se comporte bien, proche de l'axe 45 sur un tra de P -value. Toutefois, une partie de l'information qu'il reprsente est l'erreur exprimentale et il peut tre parfois plus dlicat d'interprter un tra des carts de
P -values
P -values.
L'interprtation de ce type de graphique est galement trs simple. Si le trac est audessus de l'axe horizontal, le test sur-rejette pour le niveau nominal
abscisses. Si le trac est au-dessous de l'axe horizontal, le test sous-rejette. Si la courbe concide avec l'axe des abscisses, la distorsion du niveau est nulle et le test est parfaitement able.
Fonction de niveau
On peut galement xer le niveau nominal (
= 0.05
ou
0.01)
et reprsenter graphique-
ment la probabilit de rejet (en ordonne) obtenue pour direntes valeurs d'un paramtre
32
RP = F ( = 0.05)
par rapport
(2.47)
Plusieurs expriences Monte Carlo sont alors ncessaires, correpondants des DGP dirents ayant des valeurs distinctes d'un paramtre
de l'chantillon, ou tout autre paramtre pour lequel les rsultats d'une exprience Monte Carlo sont sensibles.
F ()
contre l'EDF de
P -values
F (), P ower = F ()
par rapport
RP = F ()
(2.48)
Pour faire ce type de graphique, il faut donc eectuer deux expriences qui utilisent le mme ensemble de nombres alatoires. La manire de choisir le DGP qui ne respecte pas l'hypothse nulle n'est pas simple, car dirents choix peuvent donner des rsultats dirents. Il est souvent prfrable d'utiliser deux DGP, l'un qui respecte l'hypothse nulle l'autre pas, aussi proche que possible l'un de l'autre.
Fonction Puissance
Comme pour la fonction de Niveau, on peut xer le niveau rel et reprsenter graphiquement la puissance (en ordonne) obtenue pour direntes valeurs d'un paramtre du DGP (en abscisse).
P ower = F
F () = 0.05
par rapport
(2.49)
Pour pouvoir comparer les puissances de direntes statistiques de test, il est indispensable de comparer les niveaux de puissances niveau rel identique. Faire une telle comparaison niveau nominal identique n'a pas de sens, moins que les tests soient exacts et qu'il n'y ait aucune distorsion de niveau. Plusieurs expriences Monte Carlo sont alors ncessaires, correpondants des DGP dirents ayant des valeurs distinctes d'un paramtre
Typique-
ment, ce paramtre peut tre la valeur du paramtre test, prenant des valeurs de plus en plus loignes de la valeur qu'il prend sous l'hypothse nulle.
2.5. Application I
33
Parmi les graphiques exposs pour prsenter les rsultats d'une exprience Monte Carlo, le type de graphique utiliser dpendra essentiellement des aspects des rsultats que l'on souhaite mettre en vidence.
2.5 Application I
L'une des plus simple utilisation des mthodes de Monte Carlo consiste vrier des rsultats de la thorie asymptotique. Considrons le modle de rgression linaire simple
y = X + u,
u IID (0, 2 I)
(2.50)
Supposer que ce modle est correctement spci signie que le vrai processus qui gnr les donnes observes appartient ce modle, il est caractris par le DGP
y = X0 + u,
o
2 u G (0, 0 )
et
2 0
thorie asymptotique, si les rgresseurs sont exognes ou prdtermins par un processus compltement indpendant de ce modle, et si les alas sont indpendants et identiquement distribus suivant une distribution quelconque
G,
ordinaires des paramtres est le meilleur estimateur sans biais et il est asymptotiquement distribu selon une loi Normale,
as
2 N 0 , 0 (X X)1
(2.52)
G est la loi Normale, ce rsultat est exact. Mais si la loi des alas n'est pas
la loi Normale, ce rsultat est asymptotique et il n'est a priori pas vident de savoir pour quelles tailles d'chantillons la vraie loi de cet estimateur est proche de sa loi limite Normale. Dans cette application, nous vrions la validit de ce rsultat lorsque la distribution des alas n'est pas du tout distribu selon la loi Normale. Nous considrons que distribution des alas est la distribution de Rademacher, qui prend deux valeurs,
G:
u=
+1 1 0
1/2 1/2. 1.
(2.53)
permet, dans un contexte dnit au pralable, d'avoir une bonne reprsentation de la vraie loi de l'estimateur
Par consquent, elle nous indiquera si pour une petite taille d'chantillon
n,
34
Description du Modle
Nous nous limitons au cas le plus simple, celui d'un modle de rgression linaire avec une seule variable explicative. Le vrai DGP est dnit comme suit :
y = x + u,
Cela revient considrer
u G(0, 1)
(2.54)
2 0 = 1 et 0 = 1 dans (2.51) et une matrice des rgresseurs compose d'une seule variable X = x. La distribution asymptotique de l'estimateur OLS des 1 paramtres est la loi Normale d'esprance 1 et de variance (x x) ,
as
N 1, (x x)1 x
processus indpendant : ce sont des tirages indpendants issus d'une loi Lognormale (trs dirente de la loi Normale). Ils sont gnrs tout au dbut de l'exprience et sont identiques pour toutes les
Pour gnrer des nombres alatoires indpendants distribus selon la distribution prend les valeurs
qui
1 et 1 avec la mme probabilit 1/2, on utilise des tirages issues d'une loi Uniforme U (0, 1). Soient un tirage indpendant de U (0, 1), round(x) une fonction dont le rsultat est l'entier le plus proche de x, int(x) la fonction qui retient la partie entire de x, u = 2 round() 1
ou
u = int(2 ) 1 G,
(2.56)
round
et
int.
n = 10, le nombre de rptitions N = 10.000, les vraies valeurs des paramtres 0 = 0 = 1 et on gnre les rgresseurs log(x) N (0, 1). n n
alas
2. On gnre
ut , t = 1, . . . , n,
G. yt , t = 1, . . . , n,
partir du vrai DGP
dnit au pralable :
y t = x t + ut . (yt , xt ), y = x + u
par
5. On rpte
des paramtres
j ,
pour
2, 3 et 4 de manire obtenir N j = 1, . . . , N .
ralisations de l'estimateur
La fonction de distribution empirique, ou EDF, des N ralisations de l'estimateur des N 1 paramtres F (x) = N j=1 I(j x), est une approximation de la vraie loi de l'estimateur
est grand.
2.5. Application I
35
Rsultats exprimentaux
La loi asymptotique sera une bonne image de la vraie loi, dans le cadre dnit dans l'exprience prcdente, si la loi Normale est une bonne approximation de la fonction de distribution empirique :
N 1, (x x)1
(2.57)
Une manire adquate de reprsenter les rsultats consiste donc tracer sur un mme graphique la loi Normale avec l'EDF de l'estimateur des paramtres. Nous avons vu que le graphe de l'EDF consiste simplement tracer le vecteur des valeurs
z1
en ordonne contre
est
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.4
0.6
0.8
1.2
1.4
1.6
pour
n = 10
La gure 2.1 reprsente le trac de la loi asymptotique et de la vraie loi. Il est clair que l'approximation donne par la loi asymptotique est de bonne qualit, alors que dans notre modle la loi des alas trs dirente de la loi Normale et la taille de l'chantillon et trs petite, avec seulement
10
observations.
L'estimateur OLS des paramtres est suppos sans bais, on peut galement vrier ce rsultat partir de notre exprience. Tout d'abord, d'aprs le graphique, il est raisonnable de penser que le biais de l'estimateur est quasiment nul car l'approximation est de trs bonne qualit et elle est centre autour de la valeur
1.
B() = 0
1 = N
j
j=1
(2.58)
36
La variance de cette quantit fournit une information sur la prcision de cet estimateur du biais. Pour obtenir ces quantits, il sut d'estimer par OLS le vecteur des ralisations sur le vecteur constant : l'estimateur des paramtres donne la moyenne des ralisations
et
l'cart-type associ donne l'cart-type de cet estimateur et donc du biais. Dans notre exemple, pour
N = 10.000,
on obtient :
= 1.000551
et
= 0.002117.
= 0.995031 et = 0.006782, qui est moins prcis. Nanmoins, dans les deux cas, un test t de Student qui teste la nullit biais, t = ( 1)/ , conduit un non-rejet (t = 0.26 et t = 0.73) de cette hypothse. On vrie bien que le biais de l'estimateur est nul : l'estimateur est donc bien un estimateur sans biais.
rptitions,
N = 1.000,
on obtient
2.6 Application II
Dans cette application, nous tudions les performances numriques des tests robustes l'htroscdasticit de forme inconnue. Soit le modle de rgression linaire suivant :
yt = Xt + ut
o
E(ut ) = 0,
une ligne
2 E(u2 ) = t t
(2.59)
yt
Xt
1k
exognes,
et
ut
est un ala. Si
les alas sont htroscdastiques, l'infrence sur les paramtres de la rgression linaire doit tre eectue avec prcaution. En eet, dans ce cadre, l'estimateur OLS de la matrice de covariance est en gnral biais est non-convergent. De ce fait, les tests bass dessus ne sont plus valides. Eicker (1963) et White (1980) ont propos un estimateur robuste l'htroscdasticit de forme inconnue, ou HCCME (
qui permet de faire de l'infrence asymptotiquement valide sur les paramtres : (2.60)
o la matrice diagonale
de taille
n n,
a2 u 2 , t t
ut
est le rsidu
OLS. MacKinnon et White (1985) considrent plusieurs formes direntes du HCCME et montrent qu'en chantillon ni les tests bass dessus peuvent tre trs peu ables, mme lorsqu'on dispose d'un nombre important de donnes. Chesher and Jewitt (1987) montrent que ce problme est li la structure des rgresseurs, notamment la prsence d'observations inuentes ou fort eets de levier, voir le chapitre I du livre de Davidson et MacKinnon (1993) pour plus de dtails. Nous appellons la forme simple du HCCME, telle qu'elle a t propose par Eicker (1963) et White (1980),
HC0 ,
2.6. Application II
37
et
HC3
HC0 : at = 1
o
HC1 : at =
est le
HC2 : at =
1 1 ht
HC3 : at =
1 1 ht
ht Xt (X X)1 Xt
X.
(1987) montrent qu'en terme de distorsion du niveau, son tour moins performant que
HC0
HC1 ,
HC2
et
HC3 .
meilleure que l'autre dans tous les cas, mme si un certain nombre d'expriences Monte Carlo.
HC3
Dans cette application, nous allons essayer de retrouver les rsultats de MacKinnon et White (1985) en eectuant une exprience Monte Carlo. Tout d'abord, nous allons spcier un DGP, en faisant un choix des paramtres et distributions inconnus du modle. Puis nous prsenterons les rsultats l'aide des mthodes graphiques.
Description du modle
Dans cette tude, nous nous intressons aux proprits en chantillon ni des statistiques de tests bases sur le HCCME dans le cadre d'un modle de rgression linaire. Un modle de rgression htroscdastique peut se recrire comme suit,
yt = x1t 1 + X2t 2 + t t
t IID(0, 1)
2 t .
(2.61) Le nombre
o les rgresseurs sont exognes et les alas sont indpendants de variance d'observations est compose de
x1
et une matrice
X2
k1
base
1 = 10 . Le thorme de Frisch-Waugh-Lovell montre que l'estimateur OLS des paramtres 1 et les rsidus du modle (2.61) sont les 1 mmes que ceux du modle M2 y = M2 x1 1 + M2 u, o M2 = I X2 (X2 X2 ) X2 et u est un vecteur de rsidu dont un lment type est ut = t t . On peut dduire de ce modle, 1 = (x1 M2 x1 )1 x1 M2 y = 10 + (x1 M2 x1 )1 x1 M2 u
L'estimateur HCCME de (2.62)
V (1 ) = (x1 M2 x1 )1 x1 M2 M2 x1 (x1 M2 x1 )1
o
2 2 2 2 diag (a1 u1 , . . . , an un ) et
l'hypothse nulle
1 =
est le rsidu de l'estimation du modle. On peut tester 10 avec la statistique de test = (1 10 )/V (1 )1/2 , qui suit
ut
N (0, 1).
quelle mesure les rsultats d'une exprience Monte Carlo sont sensibles certains choix de
38
paramtres. Pour ce faire, on tudie les invariances et les fortes sensibilit de la statistique par rapport aux paramtres du modle.
Invariances
Pour pouvoir tudier les invariances de la statistique, il faut exprimer cette dernire en fonction des lments dterministes et stochastiques du modle de rgression. Sous l'hypo1 thse nulle on a : M2 y = M2 u et u = M1 M2 y = M1 M2 u o M1 = I x1 (x1 x1 ) x1 . On peut 2 2 2 2 donc recrire = diag (a1 M1 M2 u1 , . . . , an M1 M2 un ) et la statistique de test comme suit,
x 1 M2 u (x1 M2 M2 x1 )1/2
(2.64)
2 , cette statistique est donc invariante par rapport n'importe quel choix de ce 10 ,
si la statistique est evalue en cette valeur,
paramtre dans la dnition du DGP de l'exprience Monte Carlo. Par ailleurs, on constate que quel que soit le choix de la valeur teste la statistique
l'chelle des variances des alas : si on multiplie par un facteur constant r les variances 1/2 des alas, r apparait au numrateur et au dnominateur de l'expression de et donc se simplie. Avec le mme raisonnement, on montre que la statistique est invariante par rapport l'chelle des rgresseurs. Finalement, les rsultats de l'exprience Monte Carlo seront indpendants des choix de
1 ,
2 ,
Sensibilits
Tout d'abord, les rsultats exprimentaux devraient tre sensibles taille de l'chantillon
n,
n.
Par ailleurs, le
invariances observes conduisent penser que les rsultats seront galement sensibles au choix de la forme de l'htroscdsaticit et au choix des rgresseurs. Le choix de la forme de l'htroscdasticit est largement discutable. Toutefois, il est important de noter que l'htroscdasticit est vraiment gnante seulement si elle est une fonction des rgresseurs du modle. En eet, on peut la dcomposer en deux termes, l'un 2 2 constant l'autre pas : t = s + t . Dans ce cas, l'lment de la ligne i et de la colonne j de 2 2 la matrice X X dans l'expression du HCCME, o = diag(1 , . . . , n ) est gal
s2 Xti Xtj +
t=1 t=1
t Xti Xtj
(2.65)
2.6. Application II
39
= (1 , . . . , n ) tend tre orthogonal aux vecteurs de la matrice X X et donc, le dernier terme de l'expression de droite tend vers 0 lorsque la taille de 2 l'chantillon tend vers l'inni. Dans ce cas, on montre que X X = s X X et nalement,
la matrice de covariance peut tre estimer de manire convergente par son estimateur OLS. Cela montre que si l'htroscdasticit dpend des rgresseurs, les tests doivent tre bass sur le HCCME, sinon l'estimation OLS reste valide, ce n'est que l'ecacit des tests qui se trouve aects. Cela montre que le choix de la forme de l'htroscdasticit dans l'exprience doit tre une fonction des rgresseurs, pour quelle soit vraiment gnante. Mais la fonction en elle mme peut tre dnie de nombreuses manire direntes. Plusieurs exemples ont t utiliss dans la littrature : -
t t t t
= 1 si x1t < 0, t = 2 sinon : fonction en escalier (MacKinnon et White = (x1t + 3)/2 : fonction linaire croissante (Cragg 1983). = |x1t | : fonction symtrique (Horowitz 1997). = ex1t /2 , la loi exponentielle peut elle aussi tre trs perturbatrice.
1985).
Une exprience pralable avec plusieurs choix distincts de la forme de l'htroscdasticit peut permettre de slectionner une fonction particulire. Les rsultats d'une telle exprience montrent que la fonction symtrique parat tre la plus gnante : elle fait apparaitre la plus forte distorsion du niveau. C'est donc la fonction retenue dans la suite de l'tude. Dans de nombreux cas, la manire de choisir les
Xt
Cependant, il existe des cas pour lesquels elle peut avoir un impact substantiel sur les rsultats. Par exemple, MacKinnon et White (1985) ont utilis les expriences Monte Carlo pour examiner la performance en chantillon ni de dirents estimateurs des matrices de covariance robustes l'htroscdasticit. Ils ont utilis de vritables donnes conomiques pour les
50
observations sur
Xt ,
rptant ces
50
ncessaire pour chaque taille d'chantillon. Comme Chesher et Jewitt (1987) l'ont montr plus tard, la performance des estimateurs dpend crucialement des ht , c'est--dire des 1 lments diagonaux de la matrice PX = X(X X) X ; ils sont d'autant plus performants que les
ht
est gnre
1/c
(et ensuite
assurs de trouver une amlioration rapide des rsultats au fur et mesure que la taille de l'chantillon augmentait. Par contraste, Cragg (1983), en ralisant des expriences Monte Carlo sur un problme connexe, a gnr les
Xt
distribution lognormale. Cette distribution possde une longue queue de droite et gnre ainsi de temps autres des valeurs leves pour quelques valeurs relativement grandes de
Xt . 1/n.
ht ,
et il en rsulte que les valeurs les plus grandes de Ainsi, comme l'analyse
ht
de Chesher-Jewitt l'aurait prdit, Cragg a trouv que la performance en chantillon ni n'a t amliore que trs lgrement quand la taille de l'chantillon avait augment. Par consquent, les rsultats de l'exprience ne devraient pas tre tellement sensibles
40
ht .
Dans la suite de l'tude, on gnre les rgresseurs partir d'une loi Lognormale an que la structure des rgresseurs fasse aparatre une ou plusieurs observations fort eet de levier.
Modle
Les discussions prcdentes conduisent considrer le modle de rgression linaire suivant
yt = 0 + 1 x1t + 2 x2t + t t
o les vraies valeurs des paramtres sont
(2.66)
0 = 1 = 2 = 0, t = |x1t | et t est un bruit blanc Normal N (0, 1). On choisit la taille d'chantillon n = 100, le nombre de rptitions est N = 10.000 et les rgresseurs sont gnrs au pralable partir d'une loi Lognormale3 de
manire ce qu'ils contiennent une ou plusieurs observations fort eet de levier, ils restent identiques pour toutes les rptitions de l'experience. L'hypothse teste est de la statistique de test base sur le HCCME,
1 = 0
partir
= x1 M2 y/(x1 M2 M2 x1 )1/2 = diag (a2 u2 , . . . , a2 u2 ), avec at correspondant une n n 1 1 HC2 et HC3 , et ut est le rsidu issu d'une estimation OLS
o des transformations du modle.
(2.67)
HC0 , HC1 ,
Des dveloppements asymptotiques, les expansions d'Edgeworth, montrent que la distorsion de niveau, ou ERP, d'un test uni-latral converge vers zro plus lentement que celle d'un test bi-latral, lorsque la taille de l'chantillon tend vers l'inni, voir Hall (1992). Plutt que d'tudier les performances numriques d'un test bi-latral, nous prfrons donc l'tude d'un test uni-latral : on utilise le carr de la statistique
P -value
L'algorithme utilis est le suivant : 1. On dnit la taille de l'chantillon et les vraies valeurs 2 des paramtres. On gnre les rgresseurs, puis la variance des alas t .
n,
le nombre de rptitions
2. On gnre
n alas t , t = 1, . . . , n, partir de la loi N (0, 1), puis n valeurs de la variable dpendante yt , t = 1, . . . , n, partir du vrai DGP dnit au pralable : yt = t t . (yt , x1t , x2t ), on rgresse y sur la constante, x1 et x2 par OLS, 1/2 et une P -value puis on calcule la statistique de test j = x1 M2 y /(x1 M2 M2 x1 ) 2 asymptotique pj = 1 F (j ) sur la base de la loi F de Fisher. pj ,
pour
4. On rpte
et
de manire obtenir
ralisations de la
P -value
3 Soit
un tirage de la loi
2.6. Application II
41
ralisations de la
P -value
(2.68)
F (x) = N 1
j=1
est une approximation de la vraie loi de cette
I(pj x)
est grand.
Rsultats exprimentaux
Dans un premier temps, nous prsentons les rsultats de l'tude de la distorsion du niveau des direntes versions des tests robustes lhe'troscdasticit de forme inconnue. Dans un deuxime temps, nous prsentons les rsultats de l'tude de la puissance de ces tests.
Niveau
, la probabilit de rejet, appele aussi Erreur de type I ou niveau rel, est donn par RP = F (). Si le test est parfaitement able, on devrait avoir RP = . On peut reprsenter graphiquement RP, par rapport pour dirents choix de : c'est le tra des P -values, donn par la gure 2.2.
Pour un niveau nominal donn
0.8
0.6
0.2
0 0.6 0.8 1
P -values
Dans ce graphique, on reprsente les rsultats d'une mme exprience pour les tests bass sur les direntes versions du HCCME, avec les transformations L'ordonne de ce graphique est la probabilit de rejet
RP
et l'abscisse le niveau
HC3. nominal .
et
42
Il est 0 clair d'aprs ce graphique que dans tous les cas les courbes sont au dessus de la ligne de 45 et donc les tests ne sont pas parfaitement ables. Nous avons galement rajouter les rsultats d'un test bas sur l'estimation
OLS HC0
rsultats obtenus pour les tests bass sur le HCCME sont quelque peu meilleurs. La courbe est peine visible, elle est lgrement au dessus de la courbe
au dessus de la courbe
HC2,
HC3.
HC1,
La comparaison de ces
courbes montrent que, dans le cadre dnit par l'exprience, les performances numriques sont trs direntes suivant la version du HCCME utilis, elles peuvent tre classes comme suit :
HC3
HC2
HC1
HC0
On retrouve ici les rsultats exprimentaux de MacKinnon et White (1985). Pour avoir une ide plus prcise de la abilit de ces tests, on peut faire un tra des carts de
P -value,
ERP = RP
0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 0.1 0.2 0.3 0.4 0.5 HC0 HC1 HC2 HC3
P -values
l'intervalle
[0, 0.5]
[0, 1]
= 0.05
ou
0.01).
Nanmoins, on
ne se limite pas deux valeurs prcises car une reprsentation sur l'intervalle
[0, 0.5]
donne
une indication de la qualit de l'approximation de la vraie loi dans son ensemble. Si on se limite une ou deux valeur de
0)
2.6. Application II
43
proches de
= 0.05,
0.12
5%, en ralit l'erreur que l'on fait si l'hypothse nulle est vraie (RP = ERP + ) est de l'ordre de 17% : le test n'est donc pas able. Par contre, un test bas sur la transformation HC3 du HCCME amliore les rsultats : ERP 0.04 et donc RP 0.09, l'erreur rellement faite est de l'ordre de 9%. La abilit du test bas sur la version HC3 est meilleure, mais elle n'est pas
du HCCME. Cela signie que lorsqu'on pense faire une erreur de encore trs bonne, malgr la taille de l'chantillon relativement importante. Chesher et Jewitt (1987) ont montr que la mauvaise qualit de ces tests est lie la structure des rgresseurs et la prsence ou non d'observations forts eets de levier. Dans notre exprience, nous avons introduit de telles observations en gnrant les rgresseurs partir d'une loi Lognormale. Pour vrier si les rsultats sont meilleurs lorsque l'eet de levier est moins important, nous conduisons plusieurs expriences o les rgresseurs sont gnrs de manire direntes : soit un tirage de la loi N (0, 1), une ralisation des rgresseurs x1 ou x2 est donn par la formule . Il est clair que pour = exp(1), les rgresseurs seront gnrs selon la loi Lognormale et l'eet de levier sera important. Par contre, pour rgresseurs prennent comme unique valeur
HC0
=1
les
Ce dernier cas n'est pas applicable car les trois rgresseurs sont alors des vecteurs constants et le modle ne serait pas identiable. Par contre, des valeurs raisonnables de
suprieures
permettent de contrler l'eet de levier : il sera d'autant plus faible que la valeur de
1 et d'autant plus fort que la valeur de = 1.1, 1.2, . . . , 2.6, exp(1), 2.8, 2.9, . . . , 3.5.
0.2 HC0 HC1 HC2 HC3
0.15
0.1
0.05
= 0.05) = 0.05
La gure 2.4 reprsente une fonction de niveau : pour un niveau nominal donn
44
statistiques de tests. On remarque que l'ERP augmente fortement avec les valeurs de
, c'est
dire lorsque l'eet de levier est de plus en plus fort. Cela conrme les rsultats de Chesher et Jewitt (1987). Les rsultats des expriences sont trs sensibles au choix des rgresseurs et les tests ne sont pas ables en prsence d'observations fort eet de levier. La discussion sur le choix des rgresseurs suggre mme qu'ils sont plus sensibles la structure des rgresseurs qu' la taille de l'chantillon. Pour vrier cette hypothse, on refait la mme exprience pour des rgresseurs homognes, tirs de la loi
N (0, 1)
n = 20.
ERPHC0 = 0.023,
ERPHC2 = 0.014,
ERPHC3 = 0.007
que si on considre un grand nombre de donnes des fort eets de levier : pour
n = 100
= 3.5,
0.06
Cela conrme le fait que la abilit de ces tests robustes l'htroscdasticit sont beaucoup plus sensibles la structure des rgresseurs qu' la taille de l'chantillon.
Puissance
L'tude de la puissance revient considrer la probabilit de rejetter l'hypothse nulle lorsque celle ci n'est pas vrie. Elle consiste donc spcier un nouveau DGP, qui ne respecte pas l'hypothse nulle, mais construit sous l'hypothse alternative. L'exprience Monte Carlo consiste alors utiliser l'algorithme suivant : 1. On dnit la taille de l'chantillon et les vraies valeurs 2 des paramtres. On gnre les rgresseurs, puis la variance des alas t .
n,
le nombre de rptitions
2. On gnre 3. On gnre
n n
alas
t , t = 1, . . . , n,
partir de la loi
N (0, 1).
partir du vrai DGP
yt , t = 1, . . . , n,
dnit au pralable :
yt = t t . On regresse y sur la constante, x1 et x2 par OLS, puis 1/2 2 on calcule la statistique de test j = 1 /[V (1 )] et une P -value pj = 1 F (j ) sur la base de la loi F de Fisher. n valeurs de la variable dpendante yt , t = 1, . . . , n, partir d'un DGP pour lequel 1 = 0 : yt = 1 x1t + t t . On regresse y sur la constante, x1 et x2 par OLS, 1/2 2 puis on calcule la statistique de test j = 1 /[V (1 )] et une P -value pj = 1 F (j ) sur la base de la loi F de Fisher. N
fois les tapes sous l'hypothse nulle, et
4. On gnre
5. On rpte
P -value
(2.69)
F1 (x) = N
1 j=1
I(pj x)
et
F2 (x) = N
1 j=1
I(pj x)
2.6. Application II
45
sont des estimateurs convergents respectivement de la vraie loi de la nulle, et de la loi de la que
P -value
est grand.
peut
tre calcule sans avoir besoin de simuler un nouvel chantillon sous un DGP qui ne respecte pas l'hypothse nulle. En eet, on dmontre que
j = (1 + 1 )/[V (1 )]1/2
Ce rsultat
(2.70)
direntes de
0.
La gure 2.5 montre la fonction puissance en ordonne, pour direntes versions HCCME des tests robustes (HC0
HC1 HC2 et HC3), en fonction de direntes valeurs du paramtre 1 = 3, 2.9, . . . , 0.1, 0, 0, 1, . . . , 2.9, 3 en abscisse, pour un niveau rel donn RP = 0.05
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -3 -2 -1 0 1 2 3 GLS HC0,HC1 HC2 HC3
RP = 0.05
= 3.5. Il est clair que la puissance augmente lorsque la valeur du paramtre 1 s'loigne de 0. Par contre, lorsque 1 = 0, la puissance est quivalente la probabilit de rejet et elle est gale 0.05. Le test le plus puissant rejeterait l'hypothse nulle avec certitude pour toute valeur de 1 dirente de 0, sur ce type de graphique, sa courbe prendrait alors la forme avec le pied du segment vertical en 0.05 et le segment horizontal en
et un fort eet de levier
4y
= x1 1 + y
et donc, on a
1 = (x1 M2 x1 )1 x1 M2 y = 1 + (x1 M2 x1 )1 x1 M2 y = 1 + 1 . De les mmes car les rsidus sont les mme u = Mx1 M2 y = Mx1 M2 y = u .
46
1.0.
D'aprs cette gure, on constate une lgre dirence de puissance entre les direntes
HC0
et
HC1
HC2 ,
HC3 .
Pour comparaison, on trace la puissance obtenue avec une procdure de test base sur une estimation par Moindres Carrs Gnraliss, ou Moindres Carrs Pondrs
GLS.
Cette
mthode peut tre mise en uvre si on a une ide de la forme de l'htroscdasticit. Elle consiste estimer par OLS la variable dpendante et les rgresseurs diviss par la racine de x2 , qui explique l'htroscdasticit. Dans notre cadre, elle fournit la meilleure estimation 1 sans biais qu'il est possible d'obtenir en pratique. Il est clair, d'aprs la gure 2.5, que la puissance du test GLS est trs largement suprieure celles des tests HCCME. La perte de puissance constate par l'utilisation d'un test robuste est considrable. La gure 2.6 reprsente une courbe niveau-puissance pour une valeur de
1 = 1.
La
puissance est reprsente en ordonne et la probabilit de rejet, ou niveau rel, en abscisse. Sur ce type de graphique, le test le plus puissant a la courbe la plus leve. Le choix de
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 GLS HC0,HC1 HC2 HC3
1 = 1
est choisi de telle manire que les courbes sont visible sur le graphique : un choix trop 0 proche de l'hypothse nulle 0 donnerait des courbes proches de la ligne 45 , un choix trop loign donnerait des courbes prenant la forme segment horizontal en
et un
1.
HC0
et
HC2 ,
ces dirences sont mineures compares la puissance d'un test GLS, celui-ci tant tellement plus performant que les test robustes, que sa courbe prend la forme en sur le graphique.
2.6. Application II
47
Finalement, on s'intresse l'cart de puissance constate entre un test ecace bas sur l'estimation GLS, et un test robuste bas sur le HCCME. On se demande si la large perte de puissance observe pour le test robuste est due la prsence d'un fort eet de levier. Pour cela, on refait des expriences en diminuant l'impact de l'eet de levier, en rduisant la valeur de
GLS
et
HC0.
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2 2.5 3 k=1.1 k=1.5 k=2.0 k=2.5 k=3.0 k=3.5
GLS
et
HC0, 1 [0; 3]
Les direntes courbes du graphique correspondent des niveaux dirents d'eet de levier
= 1.1, 1.5, 2, 2.5, 3, 3.5. Pour = 3.5, la courbe correpond la dirence GLS et la courbe HC0 de la gure 2.5, sur le support [0, 3]. On constate que
levier est fort.
puissance entre un test robuste et un test ecace est d'autant plus grande que l'eet de
Conclusion
La porte des rsultats dpend des choix faits dans la conception de l'exprience Monte Carlo. Nanmoins, plusieurs indications utiles peuvent tre dgages de cette tude. Les tests robustes l'htroscdasticit de forme inconnue sont trs utilises dans les tudes empiriques. En gnral, c'est la version
HC0
une statistique de test. L'tude des performances numriques de ces tests, sur la base d'expriences Monte Carlo, fournit les rsultats suivants :
able en chantillon ni, mme si la taille de l'chantillon est grande. Nos rsultats
48
HC3
performances numriques. Toutefois, mme cette dernire version peut faire apparatre une distorsion du niveau non-ngligeable en prsence d'observations forts eets de levier.
Puissance :
HC3
HC0 .
est considrable par rapport un test bas sur une estimation par Moindre Carrs Gnralis.
Ces rsultats mettent en vidence plusieurs inconvnients des tests robustes l'htroscdasticit : ils peuvent s'avrer peu ables en chantillon ni et peu ecaces. Il faut donc tre prudent dans l'utilisation de ces tests en pratique. Nanmoins, nous verrons qu' l'aide des mthodes du bootstrap, il est possible d'amliorer considrablement la abilit de ces tests en chantillon ni.
P -value
et accepter ou non
l'hypothse pose. Malheureusement, la distribution de probabilit d'une statistique de test est la plupart du temps inconnue, moins de faire des hypothses fortes et dicilement vriables sur le modle. La thorie asymptotique joue alors un rle dterminant puisqu'elle permet de relcher ces hypothses : les dveloppements asymptotiques au premier ordre dterminent la distribution de probabilit de la statistique lorsque la taille de l'chantillon est inniment grande, appele loi asymptotique. En pratique, le nombre de donnes est ni et on utilise en gnral la loi asymptotique comme approximation de la vraie loi inconnue. Toutefois, pour que la loi asymptotique soit une bonne image de la vraie loi de la statistique il faut que le nombre de donnes soit susamment important, sinon les tests peuvent tre fausss. Une des caractristiques majeure des mthodes du bootstrap est qu'elles permettent trs souvent d'obtenir une meilleure approximation de la vraie loi de la statistique que celle donne par la loi asymptotique. La abilit des tests en est accrue, notamment pour des chantillons dont le nombre d'observations n'est pas trs grand. Ces progrs ont des consquences profondes en sciences car le gain de prcision apport par le bootstrap peut avoir d'importants eets sur les conclusions scientiques, qui s'appuient sur des valuations statistiques de la vrit. Les applications du bootstrap sont diverses et varies, en conomtrie leur apport principal concerne l'amlioration de l'infrence dans les modles de rgression, comme le souligne le survey de Horowitz (1997). L'article d'Efron (1979) a t un vnement majeur en statistique, il a introduit les mthodes du bootstrap, d'importants travaux ont par la suite vu le jour de sorte qu'aujourd'hui les applications du bootstrap sont nombreuses. Il existe de nombreux surveys sur le sujet
49
50
dans la littrature statistique, ainsi que plusieurs ouvrages dont ceux d'Efron et Tibshirani (1993), Shao et Tu (1995), Barbe et Bertail (1995) ou encore Davison et Hinkley (1997). Ce n'est que plus rcemment que les conomtres se sont intresss ces techniques, on peut se rfrer l'article de Horowitz (1994) qui applique le bootstrap aux tests de la matrice d'information. L'une des particularits du bootstrap est qu'il en existe de nombreuses mises en uvre, qui dpendent troitement du contexte tudi. L'exprience de sa pratique et les nombreux rsultats des simulations sur ses proprits en chantillon ni montrent qu'
gnral
en
le bootstrap donne des rsultats raisonnables et ables, mais qu'une utilisation in-
adquate peut avoir des consquences dramatiques. Quelques exemples o le bootstrap ne fonctionne pas ont galement t signals dans la littrature, c'est par exemple le cas pour les
U -statistiques
de la loi uniforme
U (0, ),
voir par exemple Bickel et Freedman (1981). Dans le contexte des modles de rgression classiques et pour les statistiques usuelles en conomtrie, le bootstrap peut amliorer considrablement la qualit de l'infrence, notamment en petit chantillon. Il faut toutefois rester attentif lors de son utilisation. Dans ce chapitre, nous exposerons une mthodologie gnrale du bootstrap adopter dans le contexte des modles de rgression, an d'amliorer la abilit des statistiques de test. Nous utilisons la rgression linaire pour simplier la prsentation, les rsultats restant valables dans le cadre des rgressions non-linaires, robustes ou non-paramtriques. Nous prsentons tout d'abord son principe dans le contexte des modles de rgression, puis ses conditions d'applications. Nous passons ensuite en revue ses direntes mises en oeuvre en pratique pour divers cadres d'analyse courants en conomtrie : alas
dastiques - sries temporelles - modles sur-identis. Ensuite, nous exposons l'utilisation du bootstrap pour construire des intervalles de conance et comparons cette approche celle des tests d'hypothses. Finalement. Finalement, nous illustrons l'utilisation et les avantages du bootstrap travers quelques applications utiles.
3.2 Principe
Le principe du bootstrap peut tre dnit comme suit,
Dans les modles de rgression, le principe du bootstrap consiste spcier un DGP, nomm DGP bootstrap, en remplaant les paramtres et distributions de probabilits inconnus dans le modle, par des estimations empiriques de ces derniers. La distribution de probabilit de la statistique de test sous ce DGP articiel est appele loi bootstrap. On calcule un test bootstrap ou une P -value bootstrap en utilisant la loi bootstrap pour loi nominale.
L'ide est que si le DGP bootstrap est susamment proche du vrai, les donnes gnres par celui-ci seront similaires celles qui auraient t gnres par le vrai DGP. Une
P -value
3.2. Principe
51
obtenue avec la loi bootstrap devrait alors tre trs proche de celle qui aurait t calcule avec la vraie loi de la statistique, de telle sorte que l'infrence est able. On aimerait calculer la loi bootstrap partir de dveloppements analytiques pour en obtenir une expression exacte. Malheureusement, c'est la plupart du temps impossible. On a alors recours des simulations pour en obtenir une approximation. Plaons-nous dans le cadre d'un modle de rgression, o un DGP est compltement spci pour des valeurs xes de ses paramtres inconnus et pour une loi de probabilit des alas donne. Si on considre par exemple le modle linaire simple,
y = X + u,
o
E(u|X) = 0,
E(uu |X) = 2 I
(3.1)
y est un vecteur de n observations, X une matrice nk de rgresseurs exognes, c'est dire indpendants du terme d'erreur, et u un vecteur alatoire dont les composantes sont les alas d'esprance nulle et de covariance proportionnelle la matrice identit I . Les paramtres 2 2 inconnus du modle sont le k -vecteur et le scalaire . Soient = (, ) et la statistique d'intrt, dont la distribution de probabilit F est inconnue. La loi bootstrap F peut tre
approxime par simulations partir de l'algorithme suivant : 1. On calcule des estimateurs
G de test . y
B1
ralisations de la statistique
La fonction de distribution empirique forme par ces B 1 tions est une approximation de la loi bootstrap : F (x) = B i=1 I(i
{i }i=1...B .
B ralisax).
I(.) est la fonction indicatrice qui prend les valeurs 1 si son argument est vrai et 0 autrement. Suivant l'information que l'on possde sur la loi de probabilit des alas G, on distingue deux
mthodes direntes,
le bootstrap
paramtrique
G(),
on
G appartient une famille paramtrique connue et utilise G = G() o est un estimateur convergent de .
: si : on utilise la fonction de distribution empirique
non-paramtrique
G.
Tel que nous l'avons dni, on distingue dans le bootstrap deux types d'approximations. L'
approximation thorique
loi, elle provient de l'utilisation d'un DGP bootstrap qui est dirent du vrai DGP inconnu. L'essentiel des travaux thoriques sur le bootstrap porte sur la dtermination des taux de convergence de la loi bootstrap vers la vraie loi, lorsque la statistique n'est pas un pivot exact. L'
52
calcule analytiquement. Cette approximation est compltement indpendante de la premire et elle provient du nombre ni de simulations que l'on fait. Utiliser un nombre ni de simulations n'est pas sans consquences : Hall (1986) montre que les intervalles de conance bootstrap tendent tre trop longs et Jckel (1986) montre qu'il y a une perte de puissance des tests. Par ailleurs, Davidson et MacKinnon (2000) montrent que le nombre de simulations
(B + 1) soit un entier, o est le niveau nominal, pour supprimer tout biais ventuel de l'estimation bootstrap d'un seuil critique ou d'une P -value.
bootstrap doit tre choisi tel que Ils prsentent galement une procdure de test prliminaire qui permet de minimiser la perte de puissance. On peut maintenant distinguer clairement l'infrence statistique asymptotique et l'infrence statistique bootstrap. Dans la premire approche, on utilise des dveloppements mathmatiques, tels que les dveloppements de Taylor, pour dterminer analytiquement la loi limite de la statistique lorsque la taille de l'chantillon est inniment grande. l'oppos, dans l'approche par bootstrap, on construit un processus empirique et on fait appel la trs grande capacit de calcul des ordinateurs pour approximer par simulations la loi de la statistique. C'est la raison pour laquelle on considre souvent que le bootstrap est une mthode de calcul intensif sur ordinateur. Des dveloppements thoriques sur les vitesses de convergence (Hall 1992, Davidson et MacKinnon 1999) et des tudes sur les proprits en chantillon ni (Horowitz 1997) montrent qu'en gnral, l'infrence bootstrap est plus performante que l'infrence asymptotique, elle apporte parfois un gain de abilit considrable. L'une des particularits du bootstrap est qu'il en existe de nombreuses mises en uvre, qui dpendent troitement du contexte tudi. L'exprience de sa pratique et les nombreux rsultats des simulations sur ses proprits en chantillon ni montrent qu'en gnral le bootstrap donne des rsultats raisonnables et ables, mais qu'une utilisation inadquate peut avoir des consquences dramatiques. Il faut donc rester prudent quant sa mise en uvre. Il parat alors indispensable qu'une mthodologie rigoureuse s'impose pour exploiter au mieux les potentialits de ces mthodes.
Validit
Pour que le bootstrap soit valide, il faut que la loi bootstrap converge faiblement, en probabilit, vers la vraie loi. Pour comparer deux distributions, la distance de Mallows (1972) est une mtrique qui permet de montrer que la distance entre la loi bootstrap et la vraie loi converge vers zro lorsque le nombre d'observations tend vers l'inni. Cette technique est la plus couramment utilise dans la littrature statistique pour dmontrer la validit asymptotique du bootstrap, voir parmi d'autres Bickel et Freedman (1981) et Freedman (1981). Dans notre optique, nous utilisons principalement le bootstrap dans le but d'obtenir une meilleure approximation de la vraie loi d'une statistique que celle donne par la loi asymptotique. La connaissance de la loi asymptotique permet de dmontrer la validit du bootstrap de manire plus classique : pour une statistique d'intrt asymptotique
Fas ,
3.2. Principe
53
de la statistique bootstrap
est gale
Fas .
Nombres (LLN) et le Thorme Central Limite (CLT) de la mme faon qu'on le fait pour dterminer la loi asymptotique de la statistique
Prcision
Une fois la convergence tablie, il reste savoir si le bootstrap fonctionne correctement dans la pratique. Pour bien comprendre quand et pourquoi le bootstrap fonctionne bien en pratique, il est important de bien dnir les notions fondamentales de pivot et de pivot asymptotique. Une statistique de test est un
pivot
si sa distribution de
probabilit est la mme pour tout DGP du modle pour une taille d'chantillon donne, autrement dit si elle est invariante par rapport aux caractristiques inconnues du modle (les paramtres et la loi des alas dans notre exemple). Une statistique est un
totique par rapport au modle M si sa loi asymptotique est la mme pour tout DGP du
modle. Cette notion est essentielle car en conomtrie, la plupart des statistiques de tests sont des pivots ou des pivots asymptotiques. Considrons par exemple un modle de rgression linaire avec des rgresseurs exognes. Pour une loi connue des alas, une statistique qui ne dpend que des rgresseurs et des rsidus est un pivot. En eet, les rsidus sont issus d'une projection orthogonale des alas sur l'espace engendr par les rgresseurs. Dans ce cas, la loi de la statistique est uniquement fonction des rgresseurs et de la loi des alas. Elle est invariante par rapport tout le reste. Par ailleurs, les statistiques qui suivent (asymptotiquement) les lois de Student, de Fisher, du Chi-deux ou encore la loi Normale centre rduite, sont des pivots (asymptotiques). Il est clair que si la statistique est un pivot exact, la loi bootstrap sera gale la vraie loi et l'approximation thorique sera inexistante. En eet, dans ce cadre, quel que soit le choix des paramtres inconnus du modle, la distribution tant insensible ces choix, le rsultat sera le mme. Lorsque cette loi est approxime par des simulations, Hall (1994), Dufour et Kiviet (1998) prfrent parler de
pivot asymp-
littrature sur ce sujet, Dwass (1957), Barnard (1963) et Birnbaum (1974), prcde largement celle sur le bootstrap, Efron (1979). En pratique, dans la majorit des cas la statistique n'est pas un pivot exact, il faut alors dterminer dans quelle mesure la loi bootstrap est une bonne approximation de la vraie loi de la statistique. Pour cela on tudie les vitesses de convergences et, cette n, les techniques de dveloppement d'Edgeworth (1896, 1905) ou les ingalits de type BerryEsseen (qui sont des versions sophistiques de dveloppements de Taylor) sont utilises. Les rsultats obtenus montrent que trs souvent, la loi bootstrap converge plus vite vers la vraie loi, par rapport la loi asymptotique. Ce rsultat est fondamental et permet de dire qu'en gnral, l'approximation de la vraie loi donne par la loi bootstrap est de meilleure qualit que celle donne par la loi asymptotique. Il conduit favoriser l'utilisation du bootstrap
54
en pratique, lorsqu'on a de bonnes raisons de penser que la loi asymptotique n'est pas une bonne approximation de la vraie loi de la statistique de test. Les dveloppements thoriques montrent que si la statistique est un pivot asymptotique, l'erreur de la probabilit de rejet d'un test bootstrap (distorsion du niveau) converge plus rapidement vers zro que celle d'un test asymptotique. Pour une taille d'chantillon
n, l'erreur 1/2 de la probabilit de rejet d'un test bas sur sa loi asymptotique est, en gnral d'ordre n 1 pour un test uni-latral, et d'ordre n pour un test bi-latral. Beran (1988) montre que 1/2 l'utilisation du bootstrap permet de rduire cet ordre d'un facteur n , si la statistique
est un
pivot asymptotique et si les paramtres et distributions du DGP bootstrap sont des estimateurs convergents des paramtres et distributions inconnus du modle. Dans
certains cas particuliers, cet ordre peut tre rduit d'un facteur
n1
une discussion dtaille sur les amliorations asymptotiques du bootstrap, base sur les dveloppements d'Edgeworth, voir Hall (1992). Davidson et MacKinnon (1999) montrent qu'une amlioration asymptotique supplmen1/2 taire, en gnral d'ordre n , peut tre obtenue si la statistique qui fait l'objet du bootstrap est asymptotiquement indpendante des composantes alatoires du DGP bootstrap. Ils montrent qu'une telle indpendance est satisfaite dans le cadre du bootstrap paramtrique si le DGP bootstrap est construit avec les
c'est--dire le modle qui tient compte de l'hypothse nulle ; et qu'elle peut tre galement obtenue assez facilement dans le cadre du bootstrap non-paramtrique. Ce rsultat justie de manire thorique l'ide de prfrer construire le DGP bootstrap sous l'hypothse nulle, qui remonte Beran (1986b) ou encore Beran et Srivastava (1985). La prise en compte de ces amliorations successives indique que dans de nombreuses circonstances l'amlioration asymptotique des tests bootstrap par rapport aux tests asymp1 totiques sera d'ordre n . Ces rsultats ne sont qu'asymptotique, aussi ils ne permettent pas d'armer qu'en chantillon de petite taille, l'infrence bootstrap sera forcment plus able que celle des tests asymptotiques si la statistique est un pivot asymptotique. Nanmoins, si en chantillon ni le comportement de la statistique est cette statistique est
il ne fait aucun doute que les tests bootstrap seront beaucoup plus ables. Dans la littrature, de nombreux travaux tudient l'aide de simulations le comportement en chantillon ni de direntes statistiques : les rsultats exprimentaux montrent que si la statistique est un pivot asymptotique le bootstrap corrige trs souvent la distorsion du niveau des tests bass sur la loi asymptotique, voir parmi d'autres Horowitz (1997).
55
i.i.d.,
htroscdastiques, non-
indpendants et dans les modles sur-identis. Le modle de rgression linaire est utilis dans un but pdagogique. Les rsultats se gnralisent aux rgressions non-linaires, robustes ou non-paramtriques, voir par exemple Huet et Jolivet (1989) et Huet, Jolivet, et Messan (1990).
Alas
i.i.d.
yt = Xt + Zt + ut
o
ut G(0, 2 ) Xt
est la
yt
est l'observation
de la variable dpendante,
tme
nk
t d'un vecteur de donnes indpendantes. Les paramtres inconnues sont le k -vecteur et le scalaire ; ut reprsente les alas supposs indpendants du modle, dont la distribution de probabilit G est d'esprance nulle et de 2 variance . Considrons par exemple l'hypothse nulle H0 : = 0 et la statistique de
de variables indpendantes, et est l'observation student
Zt
= ( 0 )/S()
o
(3.3)
et
type estim. Cette statistique suit asymptotiquement la loi Normale centre rduite : elle est donc un pivot asymptotique. Si le nombre de donnes n'est pas susamment important et si la loi
peut justier l'utilisation du bootstrap pour amliorer la abilit de l'infrence statistique : la loi bootstrap devrait tre une meilleure approximation de la vraie loi de la statistique que la loi asymptotique
N (0, 1)
ou la loi de Student.
La mise en uvre du bootstrap consiste construire un DGP bootstrap, qui gnre des donnes qui ressemblent le plus possible aux donnes relles. Pour spcier le DGP bootstrap, il faut trouver des estimations convergentes des paramtres inconnus du modle et, dans le contexte du bootstrap non-paramtrique, une estimation convergente de la loi des alas.
des paramtres. Toutefois, pour bncier de l'amlioration asymptotique de Davidson et MacKinnon (1999), il faut que la statistique de test soit asymptotiquement indpendante du processus gnrateur de donnes bootstrap. Cette hypothse est respecte si le DGP bootstrap est construit avec les estimateurs des paramtres du modle qui respecte l'hypothse nulle, appel modle contraint. Cela se justie par le fait que dans de trs nombreux cas, les paramtres estims sous l'hypothse nulle des statistiques qui testent
H0
H0 .
par maximum de vraisemblance, Davidson et MacKinnon (1987) en font une dmonstration dtaille, qui peut tre tendue aux estimations de type NLS, GMM et autres.
56
: si la loi
d'obtenir des estimateurs convergents de ces paramtres, on utilise alors le bootstrap paramtrique. Si la loi
des rsidus centrs, qui est une estimation convergente de la loi des alas, c'est le bootstrap non-paramtrique. Cette loi
nes bootstrap, on eectue des tirages alatoires dans cette fonction. En gnral, on ne peut pas utiliser l'EDF des rsidus non-centrs : pour que le bootstrap soit valide ils doivent tre centrs, de sorte que la loi de rchantillonnage soit d'esprance nulle. Si ce n'est pas le cas, la loi bootstrap tend vers une loi dont le premier moment n'est pas le mme que celui de la loi asymptotique : la distance entre la loi bootstrap et la vraie loi ne converge pas vers zro. Notons que pour un modle de rgression linaire estim par moindres carrs ordinaires avec la constante pris comme rgresseur, les rsidus sont par construction centrs et cette transformation n'est pas ncessaire. D'autre part, une amlioration marginale, portant sur le second moment de la loi de rchantillonnage peut tre obtenue. Elle consiste restandardiser les rsidus, de telle sorte que la variance de la fonction de rchantillonnage soit si possible un estimateur sans biais de la variance des alas du modle. On sait que pour un modle de rgression linaire avec des alas E(u u) = 2 (n k), o
des alas :
en multipliant les rsidus centrs par la racine carre de n/(n k), on obtient les rsidus (1) 2 2 restandardiss ut . Une autre solution consiste utiliser le fait que E(ut ) = (1 ht ), avec ht = Vt (V V )1 Vt et V = [X, Z]. On utilise alors les rsidus restandardiss et centrs :
(2) ut
ut 1 = 1/2 (1 ht ) n
s=1
us (1 hs )1/2 ut
(3.4)
On divise
ut
n'ont
pas la mme variance, il y a une htroscdasticit articielle. Les rsidus restandardiss ont tous la mme variance, et sont recentrs. Pour conserver le gain de prcision de Davidson et MacKinnon (1999) dans le cadre du bootstrap non-paramtrique, la statistique de test doit tre non seulement asymptotiquement indpendante des paramtres du modle, mais galement de la fonction de rechantillonnage la fonction de distribution empirique
G.
on vrie cette proprit. Seules des expriences Monte-Carlo montrent que l'utilisation des rsidus du modle contraint plutt que ceux du modle non-contraint, apporte un gain de prcision trs sensible, voir van Giersbergen et Kiviet (1994), Li et Maddala (1993) et Nankervis et Savin (1994).
Le
bootstrap classique, ou naf, non-paramtrique se base donc sur le processus gnyt = Xt + Zt 0 + ut ut EDF(ut )
(i)
(3.5)
57
un tirage indpendant avec (i) remise dans les rsidus du modle contraint restandardiss et centrs ut , o i = 1, 2. La loi bootstrap est la loi de la statistique de test,
ut
= ( 0 )/S( )
o
(3.6)
et
S( )
par simulation, l'aide de l'algorithme prsent en dbut de chapitre, une approximation de la loi bootstrap.
Alas htroscdastiques
Si les alas du modle sont htroscdastiques et qu'on ne peut pas obtenir des estimations convergentes des variances des alas, la mthode du bootstrap classique n'est plus valable. La forme de l'htroscdasticit pouvant tre fonction des rgresseurs, on ne peut pas retirer les rsidus indpendamment des rgresseurs. Il existe deux mthodes direntes pour contourner cette dicult. Le
tillon bootstrap en retirant de faon indpendante et avec remise directement dans le couple rgressande/rgresseurs, plutt qu' partir des rsidus. Si on considre le modle (3.2), on gnre un chantillon bootstrap en eectuant des tirages du couple
les donnes d'origine formes par la matrice des observations de la variable dpendante et des rgresseurs
(y, X).
les rgresseurs contiennent des retards de la variable dpendante, c'est dire pour la plupart des modles dynamiques. Par ailleurs, la condition d'indpendance des rgresseurs et des alas dans l'chantillon bootstrap n'est plus respecte puisque les rgresseurs sont tirs en mme temps que la variable dpendante, les performances numriques sont aectes, voir Horowitz (1997). Flachaire (1999) propose une nouvelle implmentation du bootstrap par paires avec de meilleures proprits numriques. Son principe consiste construire un DGP bootstrap de telle sorte qu'il respecte l'hypothse nulle :
yt = Xt + Zt 0 + ut
Soient
(3.7)
ut
(Xt , Zt , ut )
partir du DGP prcdent, pour former l'chantillon bootsproblme de la perte d'indpendance des rgresseurs et des
wild bootstrap
autres par Beran (1986a). Par rapport au bootstrap par paires, cette mthode a l'avantage d'tre valide pour les modles dynamiques et de conserver l'hypothse d'indpendance des
58
rgresseurs et des alas dans l'chantillon bootstrap. Si on considre toujours le modle (3.2) 2 2 mais avec des alas htroscdastiques : E(ut |Xt , Zt ) = t , le DGP wild bootstrap est
yt = Xt + Zt 0 + ut t
o
(2)
t G(0, 1) ut
(2)
contraint restandardiss et centrs, dcrits en (3.4). Pour que le bootstrap soit valide, il faut que le rchantillonnage de
d'esprance nulle et de variance l'unit. La loi Normale centre rduite est donc approprie. Mais si on impose galement au troisime moment de la loi
d'tre gal
1,
Liu (1988)
G sont possibles, dont la loi bi-atomique t = ( 5 1)/2 avec la probabilit ( 5+1)/(2 5) et t = ( 5+1)/2 avec la probabilit 1( 5+1)/(2 5).
trique. Plusieurs constructions de Davidson et Flachaire (2001) dmontrent que la loi bi-atomique symtrique
montre qu'un gain de prcision est obtenu dans la cas o la loi des alas du modle est asym-
G:
t =
+1 1
1/2 1/2. G
(3.9)
donne des performances toujours suprieures aux autres choix de rature, les rsultats peuvent tre exacts dans certains cas prcis.
Sries temporelles
Dans le cadre des sries temporelles stationnaires, si les donnes sont dpendantes dans le temps, on ne peut pas les retirer de faon indpendante. Le rchantillonnage doit tenir compte de ce caractre dpendant dans le processus gnrateur de donnes. Le
bootstrap rcursif est utilis si le modle est paramtrique, avec une structure i.i.d.
yt
est gnre par
sous-jacente, tel un modle ARMA. Supposons par exemple qu'une srie le modle ARMA(p,q ) suivant,
(3.10)
A(L, ) yt = B(L, ) ut , o A et B sont des fonctions connues, L l'oprateur de retards, et des vecteurs de paramtres, et ut une variable alatoire indpendante
et identiquement distribue. Un chantillon bootstrap peut tre gnr rcursivement par le DGP suivant,
A(L, ) yt = B(L, ) ut
o
(3.11)
et
et
du modle contraint,
ut
indpendante et avec remise dans une fonction de rchantillonnage qui estime de faon empirique la loi des alas, voir la section (3.3). Pour viter les problmes au bord, l'initialisation la plus pratique et parfois la seule faisable consiste conditionner l'chantillon bootstrap par
59
rapport aux premires donnes observes. Par exemple, pour le modle autorgressif d'ordre un, ou AR(1) :
yt = yt1 + ut ,
on aurait puis
y1 = y0 + u1 ,
y2 = y1 + u2 y0 .
etc . . . ,
(3.12)
sries stationnaires, lorsqu'on n'a aucune information sur la forme de la dpendance des donnes. Le principe consiste regrouper les rsidus centrs dans des blocs de longueur
an de capter du mieux possible la dpendance existante. Le rchantillonnage se fait en tirant de manire indpendante et avec remise ces blocs. Il existe deux manires direntes de construire des blocs. La premire, dveloppe par Carlstein (1986), consiste tirer des blocs disjoints qui sont composs d'observations ne pouvant pas appartenir un autre bloc. La seconde dveloppe par Knsch (1989), le
trap,
bootstrap MBB
ou
consiste tirer des blocs non-disjoints. L'inconvnient principal de ces techniques est
qu'elles gnrent des donnes qui n'ont pas la mme structure de dpendance que les donnes d'origine. La construction de blocs indpendants laisse supposer que les donnes sont indpendantes aprs un certain nombre de retards. Dans certaines circonstances les performances numriques peuvent alors tre mauvaises, celles-ci tant sensibles au choix de l . Ces techniques continuent de faire l'objet d'un grand nombre de travaux dans la littrature. Concernant les modles non-stationnaires, il faut prendre de grandes prcautions car le bootstrap ne fonctionne pas toujours, voir Basawa, Mallik, McCormick, et Taylor (1989). Dans le cadre d'un test de racine unitaire, le DGP bootstrap doit ncessairement imposer la racine unitaire, c'est dire respecter l'hypothse nulle, sinon il n'est pas valide, voir Basawa et al. (1991a, 1991b), Li et Maddala (1996), van Giersbergen (1998) ou encore Bertail (1994) dans la littrature franaise. Plus que pour bncier de l'amlioration asymptotique de Davidson et MacKinnon (1999), cette condition est indispensable pour la validit asymptotique du test bootstrap de racine unitaire. Pour plus de dtails concernant le bootstrap dans les modles dynamiques, on peut se rfrer au survey de Li et Maddala (1996) et la thse de van Giersbergen (1998), qui considrent galement les modles de cointgration.
E(W u) = 0, o W
puisque
est la matrice
nl
des
E(W u ) = W u = K ,
l = k.
60
donc modier l'implmentation du bootstrap de manire ce que le DGP bootstrap respecte cette hypothse. Freedman (1984) est le premier traiter ce problme dans le cadre d'une estimation 2SLS et Freedman et Peters (1984a, 1984b) proposent une illustration de ces techniques. Dans le cadre d'une estimation par variables instrumentales (IV), la solution la plus simple consiste projeter orthogonalement et retenir le complment de cette projection : alas du DGP bootstrap
u sur MW u,
MW u.
De manire gnrale, presque tous les types de modles conomtriques ont une version approprie du bootstrap : les modles de rgression avec des alas htroscdastiques et/ou autocorrls, les modles de rgression sans lien apparent, les modles avec des retards de la variable dpendante, les modles donnes de panel, les modles quations simultanes, les logit, probit, tobit et autres modles variable dpendante limite, les estimateurs robustes, les modles de survie, les estimations semi-paramtriques voire non-paramtriques, les tests de racine unitaire et les modles de cointgration. Pour plus d'informations, les articles de Jeong et Maddala (1993) et Vinod (1993) font le point sur l'ensemble de ces applications.
nous prsentons la construction des intervalles de conance bootstrap, puis nous montrons que la dualit avec les tests d'hypothse n'est plus vrie lorsqu'on utilise le bootstrap.
Le bootstrap
Par construction, un intervalle de conance bi-latral est un intervalle dans lequel la vraie valeur
S()
100(1 2)% de fois. Dans le contexte des estimateur du paramtre d'intrt, un estimateur critique c issue en gnral de la loi de Student, on
c S() ;
Cet intervalle de conance est
+ c S()
(3.13)
exact
( 0 )/S()
suit
alors la loi de Student. Dans tous les autres cas, c'est un intervalle de conance
approxim.
On utilise le bootstrap pour amliorer la qualit de l'approximation. La mthode du bootstrap la plus simple et la plus performante est la
consiste calculer les seuils critiques, non pas partir de la loi de Student, mais partir
61
c1 S() ;
o
+ c S() 100(1 )
et
(3.14)
c1
et
100
intervalle tient compte d'une possible asymtrie de la distribution de probabilit. Une mthode alternative la mthode percentile-t est celle propose par Efron (1987), appele
ou
BCa .
Cependant, sa mise en
oeuvre est plus complexe que la mthode percentile-t sans qu'elle soit pour autant plus performante. Elle peut tre utile lorsqu'il n'est pas possible d'avoir une standardisation adquate de la quantit
Relation duale
La construction des intervalles de conance bootstrap avec la mthode percentile-t est trs proche de l'utilisation du bootstrap dans le cadre des tests d'hypothses. Toutefois, nous allons montrer que la relation duale entre les deux approches n'est en gnral plus vrie lorsqu'on utilise le bootstrap. Considrons le modle de rgression non-linaire :
y = x(, ) + u
o
u G(0, 2 )
(3.15)
x(, ) une fonction de rgression qui dtermine la valeur moyenne de y conditionnellement , et un ensemble de rgresseurs exognes Z ; u est un vecteur n composantes supposes i.i.d., suivant une distribution G inconnue centre et de 2 variance nie .
est la variable dpendante et
H0 : = 0 , on = ( 0 )/S(), o est
et
S()
y = x(, 0 ) + u
o
u EDF(ut ) ut
(2)
(2)
(3.16)
modle contraint, voir (3.4). On approxime par simulations la loi de la statistique bootstrap
= (0 0 )/S(0 )
o
(3.17)
et
S(0 )
62
y = x(, ) + u
o
u EDF(ut )
(2)
(2)
et centrs du modle non-contraint, voir (3.4). On approxime par simulations la loi de la quantit bootstrap
= ( )/S( )
o
(3.19)
et
S( )
n'est pas
asymptotiquement indpendante du DGP bootstrap car ce dernier ne respecte pas l'hypothse nulle, on peut donc s'attendre ne pas bncier du gain de prcision de Davidson et MacKinnon (1999) qui est garantie dans l'approche en terme des tests d'hypothse. Cela n'a pas d'impact dans le cadre d'un modle de rgression linaire statique lorsque la statistique de test ne dpend que des rgresseurs et des rsidus mais, partir du moment o le modle est dynamique et/ou non-linaire, la dualit entre les deux approches n'est plus vrie, les rsultats exprimentaux de van Giersbergen (1998) le conrment.
3.5 Application I
Dans cette section, nous illustrons l'utilisation du bootstrap dans la pratique, travers un exemple numrique. Le modle utilis concerne la demande d'lectricit tel que le considre Berndt(1990, exercice 3, p. 339). Les donnes qu'il utilise dcrivent la consommation rsidentielle d'lectricit de
42
ponibles dans la disquette fournie avec son manuel. Il s'agit donc d'un modle statique avec des donnes individuelles. Le modle de rgression sur lequel on travaille est le suivant,
(3.20)
KW H
IN C
le
CAP
linaire peut tre eectue par la mthode des moindres carrs ordinaires si on suppose que les alas
ut
manire simplie,
Yt = Xt + ut
o
Yt = KW Ht , Xt = (1, IN Ct , 1/M C6t , GAS6t , CAPt ) est une qui regroupe l'ensemble des rgresseurs, et = (0 , 1 , 2 , 3 , 4 ).
plus petite taille, o seules les
n5
31
3.6. Application II
63
Berndt (1990, p. 340) considre que la variance de la consommation domestique d'lec2 tricit pourrait tre une fonction du nombre de consommateurs par villes : /CU STt . Une manire de tester cette hypothse d'htroscdasticit des alas, propose par White (1980), consiste rgresser les rsidus du modle de dpart levs au carr sur la constante et les variables susceptibles d'expliquer l'htroscdasticit, puis tester l'aide d'une statistique de Fisher la nullit des paramtres associs aux explicatives autres que la constante. Dans notre exemple le test se construit en estimant le modle (3.21) par OLS, puis en rgressant 2 les rsidus au carr sur la constante et la variable inuente : ut = 0 + 1 (1/CU STt ) + t ,
t est un bruit blanc. Le student associ 1 teste notre hypothse et on peut calculer une P -value de cette statistique leve au carre et base sur la loi de Fisher. Le calcul de la P -value bootstrap consiste en les tapes qui suivent :
o 1. Estimer par OLS le modle (3.21) de manire obtenir les paramtres estims rsidus
et les
u, puis calculer les rsidus restandardiss et centrs partir de la formule (3.4). Estimer par OLS les rsidus au carr sur la constante et 1/CU ST de manire obtenir une ralisation de la statistique qui teste H0 : 1 = 0.
2. Gnrer un chantillon bootstrap partir du DGP bootstrap
Yt = Xt + ut
ut
est
un tirage alatoire dans les rsidus restandardiss et centrs. partir de cet chantillon calculer une nouvelle ralisation de la statistique
3. Rpter l'tape prcdente un grand nombre de fois de manire obtenir bootstrap est la La pour
statistiques
j , j = 1, . . . , B . Le nombre de fois o j
bootstrap.
, divis par B ,
P -value
P -value obtenue avec la loi de Fisher est Pf = 0.072 et avec la loi bootstrap Pb = 0.036, B = 9999. Pour un seuil de conance 5% les conclusions sont opposes : avec la loi n = 42
on trouve
asymptotique on ne peut pas rejeter l'hypothse nulle alors qu'avec la loi bootstrap on la rejette. Si on refait l'exprience avec toutes les donnes
Pf = 0.0004
et
Pb = 0.0023 et dans les deux cas on rejette l'hypothse nulle. Comme la thorie le suggre, il semble plus ecace d'utiliser la P -value bootstrap qui tend plus rapidement vers les bonnes
conclusions statistiques.
3.6 Application II
Nous avons vu dans l'application II du chapitre prcdent que les tests robustes l'htroscdasticit de forme inconnue n'ont pas de bonnes proprits en chantilon ni. D'une part, une distorsion du niveau signicative apparait en prsence d'observations fort eet de levier. D'autre part, une perte de puissance trs importante est observe par rapport un test ecace, bas sur les Moindres Carrs Gnraliss, qui estime correctement la forme de l'htroscdasticit. Ces rsultats sont bass sur l'tude de tests asymptotique, c'est dire qui utilisent la loi asymptotique comme approximation de la vraie loi inconnue de la
64
statistique. La distorsion du niveau provient du fait que la loi asymptotique n'est pas forcment une bonne image de la loi asymptotique en chantillon ni. Les mthodes du bootstrap permettent d'obtenir une nouvelle approximation de la vraie loi, nomme loi bootstrap, qui est souvent de meilleure qualit que la loi asymptotique. Elles devraient donc permettre d'amliorer la qualit de ces tests robustes en chantillon ni. Dans cette application, nous tudions les performances numriques des tests bootstrap robustes l'htroscdasticit, en comparaison avec les tests asymptotiques. Pour ce faire, nous utilisons une exprience Monte Carlo identique celle de l'application II du chapitre prcdent, dans laquelle on rajoute le calcul des tests bootstrap. On reprend le mme modle,
yt = 0 + 1 x1t + 2 x2t + t t
o
t N (0, 1) H0 : 1 = 0
0 = 1 = 2 = 0
et
t = |x1t |.
= x1 M2 y/(x1 M2 M2 x1 )1/2 = diag (a2 u2 , . . . , a2 u2 ), avec at correspondant une des n n 1 1 HC2 et HC3 et ut est le rsidu de l'estimation OLS du modle
o transformations de rgression.
HC0 , HC1 ,
Test bootstrap
En prsence d'htroscdasticit de forme inconnue dans le modle, les mthodes du bootstrap appropries sont le bootstrap par paires et le wild bootstrap. Des expriences Monte Carlo montrent que le wild bootstrap donne de meilleurs rsultats que le bootstrap par paires (Horowitz 1997, Davidson et Flachaire 2001). Aussi, nous nous limitons dans cette tude aux tests bootstrap bass sur la mthode du wild bootstrap. Si on dispose d'un chantillon de donnes, le calcul d'un test bootstrap se fait en considrant le DGP wild bootstrap suivant,
y t = at u t t
o
(3.24)
avec une
mme probabilit
1/2.
n,
se fait l'aide de l'algorithme suivant : 1. Pour un chantillon d'origine donn, on estime le modle de rgression (3.22), on obtient les rsidus 2. On gnre
u, n
valeurs de la variable dpendante partir du DGP bootstrap 3. partir de l'chantillon bootstrap obtenu sion (3.22), puis on calcule une ralisation 4. On rpte
y t = at u t t .
le modle de rgrestest (3.23).
(y , x1 , x2 ), on estime j de la statistique de B
ralisations bootstrap de la
statistique de test :
j ,
avec
j = 1, . . . , B .
3.6. Application II
65
La fonction de distribution empirique, ou EDF, de ces ralisations est une approximation de la loi bootstrap, d'autant plus prcise que le nombre de rptitions bootstrap
est grand.
On utilise cette distribution comme loi nominale, la place de la loi asymptotique, partir de laquelle on calcule une
P -value
bootstrap :
p = 1 Fboot ( ) = B 1
j=1
Cette
I(j > )
(3.25)
tique suprieure la valeur de la statistique obtenue partir des donnes d'origine. Cet algorithme permet de calculer une
dispose d'un chantillon. Dans un contexte pratique, sur la base d'un chantillon de donnes observes, on pourrait donc calculer avec cet algorithme une telle
P -value.
une P -value
bootstrap pour
un
chantillon
l'tude de la distorsion du niveau, on reprend donc l'algorithme de l'exprience Monte Carlo, dans lequel l'algorithme bootstrap est inclu lorsqu'on dispose d'un chantillon simul : 1. On dnit la taille de l'chantillon et les vraies valeurs 2 des paramtres. On gnre les rgresseurs, puis la variance des alas t .
n,
le nombre de rptitions
2. On gnre dnit au
3. Pour l'chantillon simul (yt , x1t , x2t ), on estime le modle (3.22), puis on calcule une ralisation i de la statistique de test (3.23). On calcule une P -value bootstrap :
(a) On gnre un chantillon bootstrap on calcule une ralisation
j , P -value
pour
k = 1, . . . , B , pi
j > i ,
j = 1, . . . , B ,
divis par
donne la valeur de la
4. On rpte bootstrap
N pi ,
2 et 3 i = 1, . . . , N .
de manire obtenir
ralisations de la
P -value
P -value bootstrap est une approximation de la vraie loi de cette P -value, d'autant plus prcise que N est grand. On peut utiliser cette distribution pour faire un tra des P -values ou des carts de P -values.
La fonction de distribution empirique, ou EDF, des ralisations de la
66
Niveau
Dans cette tude, on refait cette exprience pour dirents choix des rgresseurs, de manire controler l'eet de levier (voir application II, chapitre prcdent), avec
n = 100
N = 10.000
et
B = 999.
reprsenter dans la gure 3.1 une fonction de niveau : pour un niveau nominal donn
= 0.05,
on trace les ERP en ordonne de plusieurs statistiques de tests, contre direntes valeurs du paramtre
en abscisse, pour qui l'eet de levier est d'autant plus grand que sa valeur
est grande. Les courbes reprsentent respectivement les ERP des tests asymptotiques avec
0.2
0.15
0.1
0.05
varie
et
HC3,
celles de la gure 2.4. En plus, on reprsente les ERP des tests bootstrap correspondants
et
BHC3.
Le calcul de la
HC1 , HC1
statistique par un facteur constant, n'aura aucun impact. Par consquent, les tests bootstrap correspondant aux transformations
HC0
et
BHC0.
BHC1
n'est
HC1 HC2 HC3) est signicative lorsque l'eet de levier de levier est important, et une grande
dirence apparat suivant la version du HCCME utilise : la distorsion du niveau la plus faible correspond la version tests bootstrap
Il est clair d'aprs la gure 3.1 que la distorsion du niveau des tests asymptotiques (HC0
Par contre, la distorsion du niveau des proche de l'axe des abscisse, et il n'y a
pas de dirence nette entre les trois versions utilises. Ces rsultats montrent que les tests
3.6. Application II
67
bootstrap sont beaucoup plus ables en chantillon ni, en prsence ou non de forts eets de levier.
Puissance
partir du moment ou on dispose de plusieurs tests ables en chantillon ni, il est intressant d'tudier leur puissance, an d'ventuellement privilgier un test plutt qu'un autre. L'tude de la puissance se fait avec le mme algorithme que pour les tests asymptotiques (voir application II, chapitre prcdent), en calculant une
P -value
prcdement. Dans l'exprience Monte Carlo utilise dans l'tude des tests asymptotiques, on rajoute le calcul des
P -values
base des tests bootstrap plutt qu'asymptotique. La gure 3.2 montre la fonction puissance des tests bootstrap en ordonne (BHC0
en
BHC2 BHC3) en fonction de divers choix du paramtres abscisse, avec un niveau rel donn RP = 0.05 et un trs
RP = 0.05
= 3.5
En plus, on reprsente les rsultats d'un test asymptotique ecace, bas sur une estimation par moindres Carrs Gnraliss, c'est dire, en supposant que la forme de l'htroscdasticit est connue et peut tre estime de faon convergente (GLS). La puissance augmente lorsque la valeur du paramtre lorsque
s'loigne de
0,
1 = 0,
0.05,
la probabilit de rejet.
D'aprs la gure 3.2, la puissance du test bootstrap avec la version est lgrement suprieure celle de la version
HC0
du HCCME
HC2 ,
68
de la version
HC3 .
HC0
est trs
HC3
ou
HC2 .
Toutefois, on
remarque galement que ces dirences sont mineures compares la perte de puissance observe par rapport un test asymptotique GLS. Finalement, il est intressant d'tudier la dirence de puissance obtenue par l'utilisation d'un test bootstrap plutt qu'un test asymptotique. Une premire remarque est que la puissance d'un test bootstrap dpend du nombre de rptitions bootstrap
B.
Le fait d'ef-
fectuer un nombre ni de rptitions bootstrap introduit une erreur exprimentale dans le calcul du test qui devrait conduire une perte de puissance. Toutefois, ce bruit exprimental peut tre rduit en augmentant le nombre de rptitions. Des expriences montrent que pour un nombre de rptitions bootstrap
B = 9.999
(voir Davidson et
MacKinnon 2003, chap.4). Une deuxime remarque est que Davidson et MacKinnon (2002) montrent que la dirence entre la puissance d'un test bootstrap et d'un test asymptotique est faible si la puissance est corrige par le niveau. La gure 3.3 montre la fonction puis-
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -3 -2 -1 0 1 2 3 GLS HC0 BHC0
RP = 0.05
sance du test asymptotique (HC0) et du test bootstrap (BHC0) bass sur la version HCCME. D'aprs ce graphique, lorsque la valeur de
HC0
du
bootstrap rejette d'abord plus vite l'hypothse nulle, alors qu'elle est fausse, par rapport au test asymptotique. Mais lorsque
0,
test asymptotique devient plus puissant que le test bootstrap. Malgr tout, on constate que les puissances des deux tests sont comparables, en comparaison avec la puissance du test asymptotique
GLS.
3.6. Application II
69
ut ,
= diag (a2 u2 , a2 u2 , . . . , a2 u2 ) 1 1 2 2 n n
o
at
est la transformation
ou
HC3 .
meilleure estimation de l'ala sera donne par le rsidu issu de l'estimation du modle sur lequel on impose l'hypothse nulle, appel rsidu contraint
ut .
d'estimer une matrice de covariance robuste l'htroscdasticit (HCCME) partir de (X X)1 (X X)1 , o est une matrice diagonale dont l'lment type est une transformation du rsidu contraint lev au carr :
= diag (a2 u2 , a2 u2 , . . . , a2 u2 ) 1 1 2 2 n n
(3.27)
Davidson et Flachaire (2001) montrent qu'un terme supplmentaire est introduit dans les dveloppements d'Edgeworth d'un test bas sur le HCCME, si on utilise les rsidus non contraints plutt que les rsidus non-contraints. Autrement dit, la distorsion du niveau devrait tre plus faible avec un test bas sur les rsidus contraints plutt que non-contraints. Toutefois, les expriences Monte Carlo ne montrent pas que la dirence entre les deux est vraiment signicative, mme si quelques une montrent que l'utilisation des rsidus contraints plutt non-contraints apporte un gain de prcision trs sensible, voir van Giersbergen et Kiviet (1994), Li et Maddala (1993) et Nankervis et Savin (1994). La gure 3.4 reprsente la mme fonction de niveau que la gure 3.1 sauf que les tests sont bass sur les direntes versions du HCCME avec les rsidus contraints plutt que noncontraints. D'aprs ce graphique, la distorsion du niveau des tests bootstrap est faible : elle augmente lgrement pour les versions celle de la version
HC3 reste toujours quasiment nulle. D'un autre ct, la distorsion des tests
asymptotiques est lgrement plus importante que celle des test bootstrap, elle est surtout largement plus faible que celle des tests asymptotiques bass sur les rsidus non-contraints de la gure 3.1, et il n'y a pas de dirence importante entre les diverses transformations du HCCME. Ces rsultats montrent qu'un test bootstrap, bas sur la version
HC3
du HCCME
et sur les rsidus contraints, est parfaitement able en chantillon ni, mme en prsence de trs fort eet de levier. Lorsqu'on tudie la puissance, l'hypothse nulle n'est pas vrie. Cela a conduit certains auteurs avancer l'argument suivant : l'utilisation de rsidus contraints devrait conduire une perte de puissance par rapport l'utilisation de rsidus non-contraints (van Giersbergen et Kiviet 2002), car les rsidus contraints ne peuvent pas tre considrs comme une meilleure
70
0.15
0.1
0.05
1 1.5 2 2.5 3 3.5
-0.05
varie (
= 0.05)
H0
pas forcment cet argument (MacKinnon 2002). Il est donc intressant d'tudier la puissance des tests bass sur les rsidus contraints et de la comparer celle des tests bass sur les rsidus non-contraints. La gure 3.5 montre la fonction puissance des tests bootstrap bass sur les rsidus contraints, dans une exprience identique celle qui conduit la gure 3.2 o l'eet de levier est trs fort
= 3.5.
HC3
trs lgrement suprieure celle des autres. nouveau, la comparaison avec la puissance d'un test asymptotique ecace
test robuste l'htroscdasticit. Mais le plus intressant est la comparaison de la gure 3.2 (rsidus non-contraints) avec la gure 3.5 (rsidus contraints) : on constate un large gain de puissance pour test bootstrap bas sur le rsidus contraints plutt que non-contraints. La gure 3.6 reprsente la puissance des tests asymptotique bass sur la version HCCME et sur les rsidus non-contraints ou contraints (respectivement et la puissance de tests bootstrap correspondants (BHC3nc,
BHC3c). Si on compare les tests bootstrap et asymptotique, respectivement HC3nc contre BHC3nc puis HC3c contre BHC3c, on
constate que la dirence de puissance n'est pas trs leve. Par contre, si on compare les tests bass sur les rsidus non-contraints et contraints, respectivement
BHC3nc
contre
BHC3c,
contraints. Ce graphique montre qu'un test bas sur les rsidus contraints est largement plus puissant qu'un test bas sur les rsidus non-contraints, nanmoins la puissance reste
3.6. Application II
71
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -3 -2 -1 0 1 2 3 GLS BHC0 BHC2 BHC3
RP = 0.05
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -3 -2 -1 0 1 2 3 GLS HC3nc BHC3nc HC3c BHC3c
RP = 0.05
72
Il faut noter que ces carts signicatifs de puissance et de niveaux sont dues la prsence d'un fort eet de levier : si on refait les mme expriences avec un eet de levier plus faible, les dirences de niveau et de puissance sont beaucoup plus faibles (voir les gures 2.4 et 2.7). Rappellons que si l'eet de levier est trs faible, les tests asymptotiques bass sur les direntes versions du HCCME sont quivalents et ables, leur puissance tant proche de celle d'un test GLS.
Conclusion
Ces rsultats montrent que les mthodes du bootstrap permettent d'avoir des tests robustes l'htroscdasticit de forme inconnue ables, mme dans des cas extrmes ou l'effet de levier est trs important. L'tude de la puissance montre que l'utilisation des rsidus contraints dans l'estimation de la matrice de covariance robuste et dans le DGP bootstrap permet un large gain de puissance compare l'utilisation habituelle des rsidus non contraints. Toutefois, il reste un cart de puissance signicatif entre un test robuste bas sur le HCCME et un test ecace bas sur une estimation GLS. Cela montre qu'il reste toujours un arbitrage avoir en pratique entre robustesse et ecacit : un test bootstrap robuste (HCCME) est able mais peu puissant en chantillon ni, alors qu'un test asymptotique ecace (GLS) est beaucoup plus performant mais il n'est pas robuste une mauvaise spcication de l'htroscdasticit.
Rfrences
Barbe, P. et P. Bertail (1995).
Basawa, I. V., A. K. Mallik, W. P. McCormick, J. H. Reeves, et R. L. Taylor (1991a). Bootstrapping test of signicance and sequential bootstrap estimation for unstable rst
Basawa, I. V., A. K. Mallik, W. P. McCormick, J. H. Reeves, et R. L. Taylor (1991b). Bootstrapping unstable rst order autoregressive processes. 10981101.
Basawa, I. V., A. K. Mallik, W. P. McCormick, et R. L. Taylor (1989). Bootstrapping explosive autoregressive processes.
Annals of Statistics, 14, 12951298. Beran, R. (1986b). Simulating power functions. Annals of Statistics , 14, 151173.
regression analysis by C.F.J. Wu.
Annals of Statistics, 13, 95115. Berndt, E. R. (1990). The Practice of Econometrics : Classic and Contemporary. Addison
Wesley. Bertail, P. (1994). Un test bootstrap dans un modle AR(1).
Beran, R. et Srivastava (1985). Bootstrap tests and condence regions for functions of a
of Statistics, 9, 11961217.
Biometry, pp. 441458. F. Proschan and R. J. Sering (eds). Philadelphia : SIAM. Bose, A. (1988). Edgeworth correction by bootstrap in autoregressions. Annals of Statistics, 16, 17091722.
73
Reliability and
74
Carlstein, E. (1986). The use of subseries methods for estimating the variance of a general statistic from a stationary time series.
Chesher, A. et I. Jewitt (1987). The bias of a heteroskedasticity consistent covariance matrix estimator.
Davidson, R. et E. Flachaire (2001). The wild bootstrap, tamed at last. working paper IER#1000, Queen's University.
Econometrica, 55, 130529. Davidson, R. et J. G. MacKinnon (1993). Estimation and Inference in Econometrics. New
statistics. York : Oxford University Press. Davidson, R. et J. G. MacKinnon (1998). Graphical methods for investigating the size and power of hypothesis tests.
Davidson, R. et J. G. MacKinnon (1987). Implicit altenatives and the local power of test
EconomeEco-
Davidson, R. et J. G. MacKinnon (2002). The power of bootstrap and asymptotic tests. unpublished paper, revised November. Davidson, R. et J. G. MacKinnon (2003). Oxford University Press. Davison, A. C. et D. V. Hinkley (1997). bridge : Cambridge University Press. Dufour, J. M. et J. F. Kiviet (1998). Exact inference methods for rst-order autoregressive distributed lag models.
Proc. Cambridge Philos. Soc., 20, 3665. Efron, B. (1979). Bootstrap methods : another look at the jacknife. Annals of Statistics , 7,
126. Efron, B. (1987). Better bootstrap condence intervals.
RFRENCES
Efron, B. et R. Tibshirani (1993). & Hall. Eicker, B. (1963). Limit theorems for regression with unequal and dependant errors.
75
Economics Letters, 64, 257262. Freedman, D. A. (1981). Bootstrapping regression models. Annals of Statistics , 9, 1218
1228. linear models.
Annals of Statistics, 14, 14531462. Hall, P. (1992). The Bootstrap and Edgeworth Expansion. Springer Series in Statistics. New
interval. York : Springer Verlag. Hall, P. (1994). Methodology and theory for the bootstrap. In
Handbook of Econometrics,
Economica, 47, 387406. Hendry, D. F. (1984). Monte Carlo experimentation in econometrics. In Handbook of Econometrics, Volume II, Chapter 13. Z. Griliches and M. D. Intriligator (eds), Amsterdam,
North Holland. Horowitz, J. L. (1994). Bootstrap-based critical values for the information matrix test.
lume 3, pp. 188222. David M. Kreps and Kenneth F. Wallis (eds), Cambridge, Cambridge University Press. Huet, S. et E. Jolivet (1989). Bootstrap and edgeworth expansion : the non-linear regression as an example. Rapport technique, Dpartement de Biomtrie, INRA. Huet, S., E. Jolivet, et A. Messan (1990). Some simulations results about condence intervals and bootstrap methods in nonlinear regressions.
Jeong, J. et G. S. Maddala (1993). A perspective on application of bootstrap methods in econometrics. In Publishing Co. Jckel, K. H. (1986). Finite sample properties and asymptotic eciency of Monte Carlo tests.
76
Knsch, H. R. (1989). The jacknife and the bootstrap for general stationary observations.
Li, H. et G. S. Maddala (1993, dec). Bootstrapping cointegrating regressions. Paper presented at the Fourth Meeting of the European Conference Series in Quantitative Economics
MacKinnon, J. G. et H. L. White (1985). Some heteroskedasticity consistent covariance matrix estimators with improved nite sample properties.
Nankervis, J. C. et N. E. Savin (1994). The level and power of the bootstrap-t test in the AR(1) model with trend. Manuscript, Department of Economics, University of Surrey
Press, W. H., B. P. Flannery, S. A. Teukolsky, et W. T. Vetterling (1986). Cambridge University Press, Cambridge.
Numerical Recipes.
Shao, J. et D. Tu (1995).
The Jackknife and Bootstrap. New York : Springer-Verlag. van Giersbergen, N. P. A. (1998). Bootstrapping Dynamic Econometric Models. Ph. D. thesis,
University of Amsterdam. Book no. 184 of the Tinbergen Institute Research Series. van Giersbergen, N. P. A. et J. F. Kiviet (1994). How to implement bootstrap hypothesis testing in static and dynamic regression model. Discussion paper TI 94-130, Amster2 dam : Tinbergen Institute. Paper presented at '94 and EC '93.
ESEM
van Giersbergen, N. P. A. et J. F. Kiviet (2002). How to implement bootstrap hypothesis testing in static and dynamic regression model : test statistic versus condence interval approach.
Vinod, H. D. (1993). Bootstrap methods : applications in econometrics. In C. R. Rao G.S. Maddala et H.D. Vinod (Eds.), Amsterdam : North Holland. White, H. (1980). A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroskedasticity.
Wu, C. F. J. (1986). Jackknife bootstrap and other resampling methods in regression analysis.