Vous êtes sur la page 1sur 43

Chapitre 21

Les Expériences Monte Carlo

21.1 Introduction
La plupart des méthodes d’estimation et de test d’hypothèse discutées dans
ce livre ont des propriétés statistiques connues seulement asymptotiquement.
Ceci est vrai pour les modèles non linéaires de tous types, pour les modèles
d’équations simultanées linéaires, et même pour le modèle de régression
linéaire univarié dès que nous relâchons l’hypothèse forte de régresseurs fixes
ou l’hypothèse encore plus forte d’aléas normalement et identiquement dis-
tribués. Ainsi, dans la pratique, la théorie exacte en échantillon fini est
rarement valable pour interpréter des estimations ou des statistiques de test.
Malheureusement, à moins que la taille de l’échantillon ne soit effectivement
très grande, il est très difficile de savoir si la théorie asymptotique est suf-
fisamment précise pour nous permettre d’interpréter nos résultats en toute
confiance.
Il existe fondamentalement deux manières de gérer cette situation. La
première est d’affiner les approximations asymptotiques telles celles dérivées
dans ce livre en additionnant des termes d’ordre inférieur par rapport à la taille
de l’échantillon, n, termes qui sont typiquement O(n−1/2 ) ou O(n−1 ). On
fait référence à ces approximations plus raffinées en tant qu’approximations
en échantillon fini ou développements asymptotiques. C’est l’étude des pro-
priétés des estimateurs des modèles d’équations simultanées et des modèles
dynamiques linéaires univariés qui a permis de décrire le plus largement
l’approche des développements asymptotiques. Cette approche peut, dans
certains cas, fournir des éclaircissements utiles sur le comportement des esti-
mateurs et des statistiques de test. Malheureusement, elle implique souvent
des éléments mathématiques soit plus avancés soit plus pénibles que ne le
souhaiteraient la plupart des économètres. Cette méthode ne s’applique par-
fois qu’aux modèles relativement simples, et tend à produire des résultats
compliqués et très difficiles à interpréter, en partie parce qu’ils dépendent
souvent de paramètres inconnus. De plus, ces résultats ne sont eux-mêmes
que de simples approximations; même s’ils sont généralement meilleurs que
les approximations asymptotiques, ils peuvent ne pas être suffisamment
précis. De façon idéale, on voudrait pouvoir utiliser automatiquement les
développements asymptotiques, comme composante des applications de logi-
ciels d’économétrie, afin d’obtenir des intervalles de confiance et des tests

731
732 Les Expériences Monte Carlo

d’hypothèses plus précis que ceux, asymptotiques, discutés dans ce livre.


Malheureusement, cette situation idéale est peu fréquente, bien qu’un article
récent de Rothenberg (1988) nous ait peut-être redonné un peu d’optimisme.
Deux synthèses utiles des méthodes basées sur des développements asympto-
tiques sont Phillips (1983) et Rothenberg(1984). Une synthèse quelque peu
critique de la littérature est Taylor (1983).
La seconde approche, que nous exposons dans ce chapitre, consiste à
examiner les propriétés en échantillon fini des estimateurs et des statis-
tiques de test en utilisant les expériences Monte Carlo. Le terme “Monte
Carlo” est employé dans de nombreuses disciplines et fait référence aux
procédures où les quantités d’intérêt sont approximées en générant de nom-
breuses réalisations aléatoires d’un processus stochastiques quelconque et en
calculant une moyenne quelconque de leurs valeurs.1 Puisque cela est pra-
tiquement impossible à faire sans un ordinateur puissant, la littérature sur
les méthodes Monte Carlo est assez récente. L’approche des développements
asymptotiques nécessite une quantité de travail hautement qualifié très im-
portante. Par contraste, l’approche Monte Carlo, comme Summers (1965)
l’a souligné, est relativement intensive en capital. Elle économise du travail
qualifié en consommant un temps de calcul sur ordinateur important.
Dans les applications économétriques des méthodes Monte Carlo, les
grandeurs d’intérêt sont généralement des aspects variés des distributions des
estimateurs et des statistiques de test, tels la moyenne et l’erreur quadratique
moyenne d’un estimateur, le niveau d’une statistique de test sous l’hypothèse
nulle, ou la puissance d’une statistique de test sous une hypothèse alternative
quelconque. Hendry (1984) développe une étude provoquante. Cependant, la
plus grande part de la littérature portant sur les méthodes Monte Carlo ne
concerne pas spécifiquement la statistique ou l’économétrie mais également
les méthodes d’approximation des intégrales multiples ou des systèmes non
linéaires de simulation. Néanmoins, des références classiques telles que Ham-
mersley et Handscomb (1964), Rubinstein (1981), Kalos et Whitlock (1986),
Ripley (1987), et Lewis et Orav (1989) contiennent beaucoup d’éléments utiles.
Bien que les méthodes Monte Carlo soient souvent considérées comme
une alternative à l’approche des développements asymptotiques, les deux
approches doivent être plus justement considérées comme complémentaires.
Tout comme les expériences Monte Carlo peuvent être utilisées pour valider
des approximations asymptotiques, elles peuvent également être utilisées pour
valider des approximations basées sur des développements asymptotiques.
De plus, il existe de nombreuses situations où des développements asymp-
totiques peuvent s’utiliser pour analyser des cas spécifiques simples, tout en
portant son attention sur des problèmes qui nécessitent un examen pour des
cas plus généraux à l’aide d’expériences Monte Carlo. Cependant, puisque
1
Le terme a pour initiateurs Metropolis et Ulam (1949). S’il avait été créé un
tout petit peu plus tard, nous aurions pu parler de “méthode Las Vegas” à la
place de “méthode Monte Carlo.”
21.1 Introduction 733

les développements asymptotiques dépassent l’objectif de ce livre, nous ne


détaillerons pas davantage les manières de les utiliser conjointement aux
méthodes Monte Carlo.
Un article qui utilise typiquement les méthodes Monte Carlo en statis-
tique ou en économétrie présente des résultats à partir de plusieurs (peut-être
nombreuses) expériences Monte Carlo reliées. Chaque expérience implique
plusieurs éléments que le chercheur doit spécifier. Tout d’abord, il doit y avoir
un modèle économétrique, et un ensemble d’estimateurs ou de statistiques de
test associé au modèle. L’objet des expériences est d’examiner les propriétés
en échantillon fini de ces estimateurs ou statistiques de test. Ensuite, il doit
y avoir un processus générateur de données (DGP), qui est habituellement,
mais pas toujours, un cas particulier du modèle. Le DGP doit être spécifié
complètement. Ceci signifie que s’il y a des variables exogènes, elles ou leurs
distributions doivent être spécifiées, comme doivent l’être les distributions de
n’importe quel aléa. Chaque expérience se compose d’un nombre quelconque
de répétitions, que nous noterons N. Chaque répétition implique de générer
un seul ensemble de données à partir du DGP, et de calculer des estimateurs
ou statistiques de test d’intérêt. Typiquement, le nombre de répétitions est
très grand (N = 1000, 2000, 5000, et 10,000 sont des choix fréquents), mais il
peut parfois être plus petit, par exemple 50, si l’estimation prend beaucoup de
temps et des résultats précis ne sont pas nécessaires. Après que N répétitions
ont été opérées, on dispose de N observations sur chacun des estimateurs
ou statistiques de test d’intérêt, et cet échantillon généré peut être soumis à
l’analyse statistique pour calculer les estimations des quantités d’intérêt. Les
résultats de l’expérience Monte Carlo sont ainsi eux-mêmes des estimations,
et sont par conséquent associés à une erreur expérimentale. Cependant, nous
pouvons minimiser cette erreur de façon acceptable en concevant avec soin
l’expérience, en utilisant un nombre suffisamment grand de répétitions, et
peut-être en appliquant des techniques de réduction de variance (consulter
les Sections 21.5 et 21.6 qui suivent).
Comme la discussion précédente l’implique, il est rare de ne réaliser
qu’une seule expérience Monte Carlo. En effet, les chercheurs exécutent
généralement un ensemble d’expériences reliées, dans lequel la taille d’échan-
tillon n et d’autres aspects du DGP (tels que les valeurs paramétriques) sont
variés, afin de voir comment de telles variations affectent les estimateurs ou
statistiques de test d’intérêt. S’il n’y a que quelques expériences, les résultats
sont habituellement présentés sous la forme d’un tableau. Cependant, s’il y a
de nombreuses expériences, ce tableau peut comporter un très grand nombre
d’éléments, que les lecteurs peuvent juger difficile à assimiler. Une manière de
traiter un tel problème est d’estimer une surface de réponse, où les résultats de
chaque expérience sont traités comme une seule observation, et un modèle de
régression ajuste les quantités d’intérêt à la taille d’échantillon et aux autres
aspects du DGP qui varient selon l’expérience. De façon idéale, les estimations
de la surface de réponse résument les résultats des expériences et fournissent
734 Les Expériences Monte Carlo

une manière plus compacte et plus rapidement compréhensible de présenter


les résultats qu’une suite de tableaux ne le ferait. L’approche de la surface de
réponse sera discutée dans la Section 21.7.
Dans la suite de ce chapitre, nous discutons des caractéristiques im-
portantes des expériences Monte Carlo en économétrie. La plupart des
expériences Monte Carlo nécessitent un grand nombre de variables pseudo-
aléatoires, c’est-à-dire de nombres qui semblent être des tirages d’une distri-
bution de probabilité spécifiée quelconque. Dans les deux prochaines sections,
nous discutons brièvement de la façon de générer ces nombres sur ordinateur.
Dans la Section 21.4, nous aborderons d’autres aspects de conception d’un
ensemble d’expériences Monte Carlo. Dans les Sections 21.5 et 21.6, nous dis-
cutons des techniques de réduction de variance, qui sont souvent utilisées pour
accroı̂tre la précision des résultats pour un temps de calcul imparti. Dans la
section suivante, nous parlons de l’utilisation des surfaces de réponse. En-
fin, dans la Section 21.8, nous discutons brièvement de la méthode statistique
connue sous le nom de bootstrap, qui est très étroitement reliée aux méthodes
Monte Carlo.

21.2 Génération des Nombres Pseudo-Aléatoires


Chaque expérience Monte Carlo nécessite un grand nombre de variables
“aléatoires”, issues d’une ou plusieurs distributions préspécifiées. Par ex-
emple, considérons une petite expérience traitant d’un modèle de régression
comportant des régresseurs fixes. Supposons qu’il y ait 50 observations
pour 1000 répétitions. Pour une telle expérience, un total de 50,000 vari-
ables “aléatoires” serait nécessaire simplement pour générer les aléas. S’il
y avait trois régresseurs stochastiques, un complément de 150,000 variables
“aléatoires” serait nécessaire pour générer les régresseurs. Comme nous le
verrons dans la prochaine section, si nous pouvons trouver une manière
d’obtenir des nombres “aléatoires” uniformément distribués sur l’intervalle
0-1, noté U (0, 1), il est alors habituellement très facile d’obtenir des variables
“aléatoires” distribuées selon n’importe quelle distribution que nous spécifions.
Le problème fondamental consiste à obtenir les nombres “aléatoires” initiaux.
Bien qu’il soit possible d’acquérir de façon authentique des nombres aléatoires
au moyen d’observations physiques telles que la décomposition des isotopes
radioactifs, il serait extrêmement incommode de connecter son ordinateur à
un générateur de nombres physiques aléatoires, ou de lui faire lire un tableau
immense de nombres aléatoires collectés au préalable, à chaque fois que nous
avions à exécuter une expérience Monte Carlo! Ainsi, il est évident que si
les expériences Monte Carlo doivent être pratiques, il faut que l’ordinateur
puisse générer de manière autonome, rapidement et à moindre coût des nom-
bres “aléatoires”.
Dans le paragraphe précédent, les guillemets autour du mot “aléatoire”
insistaient sur le fait que ce dont nous avons besoin, pour lancer une expérience
21.2 Génération des Nombres Pseudo-Aléatoires 735

Monte Carlo, c’est une manière d’obtenir des nombres qui possèdent les mêmes
propriétés statistiques que des nombres aléatoires, plutôt que des nombres
véritablement aléatoires. En effet, aucun ordinateur n’est capable de générer
des nombres aléatoires authentiques, du moins pas s’il travaille correctement.
Mais les ordinateurs sont capables de générer des suites de nombres pseudo-
aléatoires, qui sont en fait purement déterministes. Les programmes qui
procèdent ainsi sont appelés générateurs de nombres pseudo-aléatoires ou,
plus communément mais de façon moins précise, simplement générateurs de
nombres aléatoires. Les nombres pseudo-aléatoires générés par un générateur
de nombres aléatoires performant sont, pour nos objectifs des expériences
Monte Carlo, indiscernables des suites de nombres aléatoires authentiques,
c’est-à-dire de véritables suites de tirages indépendants issus de la distribu-
tion U (0, 1).
Il existe de nombreuses manières de générer des nombres pseudo-aléa-
toires. Les plus communes sont des variantes du générateur congruentiel,
zt
ηt = , zt = (λzt−1 + α)(mod m), (21.01)
m

où ηt est le i ième nombre aléatoire généré, et zt est un entier positif. Le


générateur (21.01) dépend de trois paramètres: λ est appelé multiplicateur, α
l’incrément, et m le module. La notation (mod m) signifie que nous divisons
ce qui la précède par m et retenons le reste. Ainsi, zt doit être inférieur
à m, et ηt doit toujours être compris entre 0 et 1. Nous pouvons montrer
qu’un générateur congruentiel doit toujours se répéter en fin de compte, dans
au plus m étapes, de sorte que nous sélectionnerons un m aussi grand que
possible. Par conséquent, m prend souvent la valeur du plus grand entier qui
peut être représenté de façon exacte par un ordinateur particulier; il s’agit
fréquemment de 231 − 1. Avec ce choix de m, nous pourrions, en principe,
générer quelque chose comme plus de deux milliards de nombres aléatoires
avant que la suite ne se répète. Cependant, si m, λ, et α sont mal choisis, la
suite peut se répéter plus rapidement et peut présenter d’autres symptômes
de non stochasticité.
Le choix de l’incrément α n’est pas si important; une variante largement
utilisée de (21.01) est la classe des générateurs congruentiels multiplicatifs, où
α est nul. Cependant, le choix du multiplicateur λ est extrêmement important.
Certains choix sont connus pour mener à des générateurs dont le comporte-
ment est relativement bon, tandis que d’autres sont connus pour conduire à
de très mauvais générateurs. Pour plus de détails, consulter Kennedy et Gen-
tle (1980), Knuth (1981), Rubinstein (1981), Press, Flannery, Teukolsky, et
Vetterling (1986), Ripley (1987), L’Ecuyer (1988), et Lewis et Orav (1989).
La plupart du temps, les économètres qui effectuent une expérience
Monte Carlo n’auront pas besoin d’écrire leurs propres générateurs de nombres
aléatoires. S’ils utilisent un générateur efficace et de grande qualité, la seule
chose dont ils doivent se soucier est de savoir comment se procurer la valeur
736 Les Expériences Monte Carlo

d’origine, (seed (graine) en anglais) qui est la valeur initiale z0 nécessaire


pour générer z1 et qui, pour un générateur donné, détermine de façon unique
la suite entière des nombres aléatoires. La valeur d’origine peut être spécifiée
plus ou moins arbitrairement comme une valeur entière élevée inférieure à m,
ou choisie “de façon aléatoire” à l’aide de l’horloge du système. Quel que
soit le cas, elle devrait être enregistrée pour pouvoir répéter une expérience
si nécessaire. La valeur d’origine n’est fournie que lorsque le générateur est
lancé à partir d’un programme particulier. Après la première boucle, z0 est
remplacée par z1 , ensuite par z2 , et ainsi de suite. Donc, à chaque fois, le
programme stocke la valeur zt−1 pour calculer zt .
Malheureusement, dans la réalité et l’utilisation courante, les générateurs
de nombres aléatoires de mauvaise qualité sont nombreux, et il est sûrement
imprudent de se fier à un générateur qui n’a pas subi des tests variés. De tels
tests sont discutés dans la plupart des livres traitant des méthodes Monte
Carlo mentionnés auparavant; consulter aussi Fishman et Moore (1982).
Les tests que l’on souhaiterait exécuter dépendent de l’usage des nombres
aléatoires. Si le modèle étudié est un modèle de série temporelle, par exemple,
on voudrait être sûr qu’ils sont non soumis à une autocorrélation. Notons que
les mauvais générateurs de nombres aléatoires peuvent souvent être améliorés
en “mélangeant” des nombres qu’ils produisent ou en combinant plusieurs
programmes d’une manière quelconque. Par exemple, nous pourrions utiliser
deux programmes différents pour générer deux nombres aléatoires différents,
puis utiliser un troisième programme pour déterminer de façon aléatoire lequel
des deux choisir.

21.3 Générer des Variables Pseudo-Aléatoires


Une fois que l’on dispose d’un programme pouvant générer de longues suites
de nombres pseudo-aléatoires ηt , chacun étant apparemment distribué de
façon indépendante suivant une U (0, 1), les manières de générer des variables
pseudo-aléatoires qui apparaissent être des tirages de n’importe quelle distri-
bution désirée sont nombreuses. Nous examinerons deux techniques générales,
la méthode de transformation et la méthode de rejet, ainsi que des méthodes
spéciales variées qui s’appliquent à certains cas intéressants.
La méthode de transformation est basée sur le fait que l’espace d’arrivé
d’une fonction de répartition (c.d.f.) est l’intervalle 0-1. Ainsi, si u est dis-
tribuée selon la c.d.f. strictement croissante F (u), η = F (u) doit être dis-
tribuée selon U (0, 1). Pour tout η, nous pouvons inverser la c.d.f. et obtenir
u = F −1 (η). Pour obtenir une suite de ut distribuées selon F (u), nous
générons simplement une suite de ηt distribuées selon U (0, 1) et soumettons
chaque terme à la transformation F −1 (ηt ). C’est ce que montre la Figure
21.1. Comme nous le voyons d’après la figure, n’importe quelle valeur de η
sur l’axe vertical, telle que η ∗, est appliquée de façon unique par F −1 (η ∗ ) à
une valeur correspondante u∗ sur l’axe horizontal.
21.3 Générer des Variables Pseudo-Aléatoires 737

η
.............................
1.0 .......................
..
............
.
..
.....
........
0.8 ....
.. ...
...
η∗ .....
...
0.6 .....
...
.
....
..
....
.
0.4 .
...
.
....
...
.....
.
0.2 ....
..
.......
..... ...... u = F
∗ −1 ∗
(η )
......
..
...
...
...
...
. .....
.
.
...
...
...
...
... .
......
.
0.0 ...............................
.
.
..
u
−3 −2 −1 0 1 2 3

Figure 21.1 La méthode de transformation

La méthode de transformation fonctionne bien lorsque F −1 (·) n’est pas


difficile à calculer. C’est le cas avec la distribution exponentielle, dont la
fonction de densité de probabilité (p.d.f.) est

f (u) = θe−θu

(consulter la Section 8.1), et la c.d.f. correspondante est

F (u) = 1 − e−θu .

Si nous posons η égale à F (u) et résolvons, nous trouvons que


1
u = F −1 (η) = − log(1 − η).
θ
Ainsi, dans ce cas, la méthode de transformation peut facilement être utilisée
pour générer des variables pseudo-aléatoires distribuées selon la distribution
exponentielle.
La méthode de transformation peut être employée pour générer des vari-
ables pseudo-aléatoires normales, mais elle nécessite une certaine masse de
calculs parce qu’il n’existe aucune expression formelle proche de la c.d.f. de
la normale centrée réduite Φ(·) ou de son inverse Φ−1 (·). On utilise un algo-
rithme pour calculer numériquement cette dernière. Une technique alternative
largement utilisée est la méthode de Box-Muller de Box et Muller (1958). Elle
utilise le fait que si η1 et η2 sont des variables aléatoires indépendantes issues
de U (0, 1), alors les termes
¡ ¢1/2 ¡ ¢1/2
u1 = −2 log(η1 ) cos(2πη2 ) et u2 = −2 log(η1 ) sin(2πη2 )
738 Les Expériences Monte Carlo

sont des variables aléatoires indépendantes issues de N (0, 1). Consulter Ru-
binstein (1981) ou Press, Flannery, Teukolsky, et Vetterling (1986) pour une
démonstration. Le dernier livre discute également d’une version modifiée
de la méthode de Box-Muller qui devrait être plus rapide à calculer. Le
problème majeur avec la technique de Box-Muller est qu’elle repose forte-
ment sur l’indépendance de η1 et η2 . Si le générateur de nombres aléatoires
qui les produit n’est pas bon, ces variables peuvent manifester une certaine
dépendance, et les variables résultantes u1 et u2 peuvent ne pas être normales
ou indépendantes.
Si l’on est capable d’obtenir des variables pseudo-aléatoires à partir de
N (0, 1), il est immédiat d’obtenir des variables pseudo-aléatoires à partir de
N (µ, σ 2 ) ou à partir de la distribution normale multivariée avec n’importe
quel vecteur d’espérances µ et matrice de covariance Ω. Si u désigne un
vecteur de dimension l dont chaque élément est une variable pseudo-aléatoire
issue de N (0, 1), et si ψ est une matrice de dimension l × l (habituellement
triangulaire) telle que ψ>ψ = Ω, il est facile de voir que le vecteur v de
dimension l défini par
v ≡ µ + ψ>u

suivra la distribution N (µ, Ω). Des variables issues des distributions de


Cauchy, du chi-carré, du t de Student, de Fisher, sont également immédiate-
ment disponibles en exploitant simplement les relations entre ces distributions
et la distribution normale centrée réduite, et entre chacune d’elles (consul-
ter l’Annexe B). Par exemple, pour générer des variables aléatoires issues de
χ2 (5), nous pourrions générer 5 variables aléatoires à partir de N (0, 1), les
mettre au carré, et sommer leurs carrés. Cette méthode fonctionne bien tant
que le nombre de degrés de liberté est faible mais elle ne serait pas recom-
mandée pour générer des variables aléatoires à partir de, disons, F (65, 1743).
L’autre méthode fréquemment utilisée et largement applicable pour gé-
nérer des variables aléatoires est la méthode de rejet. Elle peut s’utiliser
chaque fois que la p.d.f. f (u) est connue. Dans sa version la plus simple, la
méthode de rejet nécessite que l’espace de départ de f (u) soit un intervalle
fini de la droite réelle, disons l’intervalle [α, β]. On commence par obtenir
deux variables aléatoires à partir de U (0, 1), disons η1 et η2 . La première est
transformée en ν1 , une variable aléatoire provenant de U (α, β), tandis que la
seconde est transformée en ν2 , une variable aléatoire provenant de U (0, h),
où h est un nombre au moins aussi grand que le maximum de f (u). Une fois
obtenues ν1 et ν2 , ν2 est comparée à f (ν1 ). Si ν2 excède f (ν1 ), la variable
aléatoire proposée ν1 est rejetée et une autre paire (ν1 , ν2 ) est tirée de la
distribution. Cependant, si ν2 est inférieure ou égale à f (ν1 ), ν1 est acceptée
et u lui est égale. Cette méthode est illustrée dans la Figure 21.2. Ici le point
(ν10 , ν20 ) fournit une valeur u, tandis que le point (ν11 , ν21 ) est rejeté.
Il est facile de voir pourquoi la méthode de rejet fonctionne correctement.
Bien que nous extrayions ν1 initialement à partir de U (α, β), nous l’acceptons
21.4 Conception des Expériences Monte Carlo 739

ν2

h
..................
...... ....
.. ...
..... ...
...
... ...
...
...
... • (ν11 , ν21 )
.
.. • (ν 0 , ν 0 ) ....
... 1 2 ...
...
... ...
...
.. ...
. ...
.... ...
.... ...
....
... ....
.. .....
.. .....
. ......
.. .......
..
. ... ..........
.........................
..
....
...
.. ............................................. ν1
0 .
...
.
α β

Figure 21.2 La méthode de rejet

seulement si ν2 < f (ν1 ), et la probabilité que ceci survienne est proportion-


nelle à f (ν1 ). Cette version de la méthode de rejet est naturellement quelque
peu inefficace, puisque nous devons générer, en moyenne, 2h(β − α) variables
aléatoires pour chaque u que nous obtenons réellement. Si la densité f (u) a
un sommet élevé, h sera grande. Si la densité a de longues queues, β − α sera
grand. Quel que soit le cas, 2h(β −α) sera grand, et la méthode peut se révéler
relativement inefficace. Dans une version plus générale de la méthode de rejet,
la constante h est remplacée par une fonction h(ν1 ), ν1 étant alors ¡issu d’une
¢
densité proportionnelle à h(ν1 ). Alors on peut assimiler ν2 à U 0, h(ν1 ) .
Pourvu que h(ν1 ) > f (ν1 ) partout sur [α, β], qui n’est plus forcément fini,
cette méthode est valable; pourvu qu’il soit facile de générer des variables
aléatoires ν1 avec une probabilité proportionnelle à h(ν1 ), et que l’aire sous
h(·) ne soit pas beaucoup plus grande que l’aire sous f (·), elle fonctionnera
efficacement. Notons que h(·) n’est pas à proprement parler une densité,
puisque h(ν1 ) doit être supérieure à f (ν1 ) pour tout ν1 et par conséquent
doit avoir une intégrale supérieure à l’unité; cependant, il peut être commode
de sélectionner une fonction h(·) proportionnelle à une densité bien connue
quelconque.

21.4 Conception des Expériences Monte Carlo


L’étape la plus délicate pour réaliser un ensemble d’expériences Monte Carlo
consiste habituellement à les concevoir. Les limites des possibilités de calcul,
le temps disponible de expérimentateur, et la quantité d’espace que l’on peut
raisonnablement consacrer à la présentation des résultats expliquent qu’il est
habituellement pratique d’exécuter seulement un petit nombre d’expériences.
740 Les Expériences Monte Carlo

Celles-ci doivent être conçues pour apporter autant d’information que possible
sur les problèmes qui nous intéressent.
La première chose à reconnaı̂tre est que les résultats issus des expériences
Monte Carlo sont nécessairement aléatoires. Au minimum, cela signifie que les
résultats doivent être exposés de telle manière que le lecteur apprécie l’étendue
du hasard expérimental. De plus, il est essentiel d’exécuter suffisamment de
répétitions pour que les résultats soient suffisamment précis pour le propos
étudié. Le nombre de répétitions nécessaire peut parfois être réduit de façon
substantielle en utilisant des techniques de réduction de variance dont nous
discuterons dans les deux prochaines sections. Cependant de telles techniques
ne sont pas toujours immédiatement disponibles. Dans cette section, nous
considérons d’autres aspects variés de la conception des expériences Monte
Carlo.
Nous considérons tout d’abord le problème qui consiste à déterminer
combien de répétitions exécuter. Par exemple, supposons que le chercheur
soit intéressé par le calcul du niveau d’une certaine statistique de test (c’est-
à-dire la probabilité de rejet de l’hypothèse nulle quand elle est vraie), di-
sons, au niveau nominal .05. Notons p cette quantité inconnue. Chaque
répétition générera une statistique de test qui excède ou pas la valeur critique
nominale. Celles-ci peuvent être assimilées à des tirages indépendants de la
loi de Bernoulli. Supposons que N répétitions soient exécutées et R rejets
obtenus. Alors l’estimateur évident de p, qui est aussi l’estimateur ML, est
R/N . La variance de l’estimateur est N −1 p(1 − p), et peut être estimée par
R(N − R)/N 3.
Supposons maintenant que l’on veuille que la longueur d’un intervalle de
confiance à 95% sur l’estimation de p soit approximativement .01. En utilisant
l’approximation normale de la binomiale, qui est ici sûrement valable puisque
N sera grand, nous voyons que l’intervalle de confiance doit s’étendre sur
2 × 1.96 = 3.92 écarts types. Par conséquent, nous avons besoin que
µ ¶1/2
p(1 − p)
3.92 = .01. (21.02)
N

En supposant que p soit .05, le niveau nominal du test étudié, nous pouvons
trouver la valeur de N en résolvant (21.02). Le résultat est N ∼ = 7299. Pour
prendre toutes les sécurités (puisque p peut bien excéder .05, impliquant une
forte variance pour R/N ), le chercheur choisirait probablement N = 8000.
Il s’agit d’un nombre plutôt grand de répétitions et il peut être très coûteux
à calculer. Si l’on désire laisser la longueur de l’intervalle de confiance à
95% de p à .02, on pourrait sélectionner un échantillon réduit au quart, ou
approximativement à 2000 répétitions.
Si l’objet d’une expérience est de comparer deux ou plusieurs estimateurs,
ou deux ou plusieurs statistiques de test, un nombre plus petit de répétitions
est nécessaire pour obtenir un niveau donné de précision par rapport à ce qui
21.4 Conception des Expériences Monte Carlo 741

serait nécessaire pour estimer les propriétés de ces estimateurs ou statistiques,


à niveau de précision identique. Supposons, par exemple, que l’on veuille
comparer deux estimateurs, disons θ̂ et θ̃, d’un paramètre dont la véritable
valeur est θ0 . A chaque répétition, disons la j ième , les réalisations de chacun
des deux estimateurs, disons θ̂j et θ̃j , sont obtenues. Les écarts types des
deux estimateurs sont

B(θ̂) ≡ E(θ̂ − θ0 ) et B(θ̃) ≡ E(θ̃ − θ0 ),

et peuvent être estimés par


N
X N
X
1 1
B̂(θ̂) = − (θ̂j − θ0 ) et B̃(θ̃) = − (θ̃j − θ0 ).
N N
j=1 j=1

La différence entre B(θ̂) et B(θ̃) est

E(θ̂ − θ0 ) − E(θ̃ − θ0 ) = E(θ̂ − θ̃), (21.03)

que l’on peut estimer par


N
X
1
− (θ̂j − θ̃j ). (21.04)
N
j=1

Il est possible et en effet vraisemblable que la variance de (21.04) sera sub-


stantiellement inférieure à la variance de B̂(θ̂) ou de B̃(θ̃), parce que θ̂j et θ̃j
dépendent du même vecteur pseudo-aléatoire uj. La variance de (21.04) est
1 1 2
− V (θ̂) + − V (θ̃) − − Cov(θ̂, θ̃),
N N N

qui sera inférieure à la variance de B̂(θ̂) ou de B̃(θ̃) lorsque Cov(θ̂, θ̃) est po-
sitive et suffisamment grande. Ceci sera très souvent le cas, puisqu’il est très
probable que θ̂j et θ̃j soient fortement positivement corrélés. Ainsi, beaucoup
moins de répétitions sont nécessaires pour estimer (21.03) que pour estimer
B(θ̂) et B(θ̃) à niveau de précision identique. Naturellement, ceci survien-
dra seulement si θ̂j et θ̃j sont obtenues avec le même ensemble de variables
pseudo-aléatoires, mais c’est exactement comme cela que l’expérience Monte
Carlo serait conçue. Nous rencontrerons une idée similaire à celle-ci lorsque
nous discuterons de la méthode des variables antithétiques dans la prochaine
section.
La seconde chose importante à garder à l’esprit quand on conçoit des
expériences Monte Carlo est que les résultats seront souvent très sensibles à
certains aspects de la conception expérimentale mais pratiquement ou totale-
ment insensibles à d’autres aspects. Evidemment, on voudra faire varier les
premiers à travers les expériences tout en fixant les derniers d’une manière
plus ou moins arbitraire. Par exemple, de nombreuses statistiques de test
742 Les Expériences Monte Carlo

reliées aux modèles de régression sont invariantes à la variance des aléas.


Considérons le t de Student pour α = 0 dans la régression

y = Xβ + αz + u. (21.05)

En utilisant le Théorème FWL et en supposant que les données sont générées


par un cas particulier de (21.05) pour lequel α = 0, nous voyons que

z>MX u
t(α̂) = ¡ ¢1/2 ¡ ¢1/2 , (21.06)
u>MX,z u/(n − k) z>MX z

où il y a n observations et un total de k régresseurs et, comme d’habitude, MX


et MX,z désignent les matrices qui projettent orthogonalement sur les sous-
espaces S⊥ (X) et S⊥ (X, z), respectivement. La distribution en échantillon fini
de cette statistique de test quand les ut ne sont pas normaux est généralement
inconnue et pourrait bien être le sujet d’une expérience Monte Carlo. Cepen-
dant, il est clair à partir de l’inspection de (21.06) que cette distribution ne
dépend en aucune manière de la variance des aléas qui composent le vecteur
d’aléas u dans le DGP, puisque si nous multiplions u par une constante po-
sitive quelconque, t(α̂) est inchangé. Ainsi, dans ce cas, nous pourrions tout
aussi bien fixer la variance des aléas à une certaine valeur arbitraire, puisqu’il
n’y aurait rien du tout à apprendre en la faisant varier. Breusch (1980) dis-
cute d’un certain nombre d’autres résultats d’invariance pour des modèles de
régression linéaire; en prenant en compte de tels résultats, on peut simplifier
dans de nombreux cas la conception des expériences Monte Carlo.
Par ailleurs, quand il y a une raison de s’attendre à ce que les résultats
soient sensibles à certains aspects du DGP, il est important de mener des
expériences dans lesquelles ces aspects varient dans toute la gamme des aspects
intéressants. Ces aspects du DGP qu’il faut faire varier doivent nécessairement
être différents selon les cas. La taille d’échantillon n sera typiquement l’un
d’eux, parce qu’il est presque toujours intéressant de voir avec quelle rapidité
les propriétés en échantillon fini des quantités examinées approchent leurs
limites asymptotiques (connues). Une exception à cela est le cas où le but de
l’expérience Monte Carlo est de détailler les propriétés d’un ensemble parti-
culier d’estimateurs ou de statistiques de test pour un ensemble de données
particulier, de telle sorte que l’expérience est utilisée comme complément d’une
partie d’un travail empirique (consulter la Section 21.8). Par contraste avec
cette situation, jusqu’à présent la plupart des expériences Monte Carlo ont été
conçues pour détailler les propriétés générales de certaines procédures statis-
tiques, et il est difficile d’imposer n’importe quelle sorte de généralité quand
tous les résultats sont relatifs à une seule taille d’échantillon.
La grande majorité des modèles qu’estiment les économètres consiste en
des modèles de régression ou des modèles proches des modèles de régression.
Ainsi, sauf dans quelques cas particuliers tels que les modèles chronologiques
purs, des variables conditionnantes (Xt ) sont habituellement présentes. La
21.4 Conception des Expériences Monte Carlo 743

manière dont celles-ci devraient être traitées dans les expériences Monte Carlo
n’est pas vraiment claire. Une approche consiste à générer les Xt d’une cer-
taine manière. Lorsque l’expérience traite des données en coupe transversale,
il est plus pratique de les générer à partir des distributions indépendantes des
lois uniforme, normale ou lognormale, alors que lorsque l’expérience traite des
données chronologiques, il est pratique de les générer à partir de processus
variés simples de série temporelles tels que AR(1), MA(1), et ARMA(1, 1),
à aléas normaux. On peut soit générer un nouvel ensemble de Xt pour
chaque répétition soit générer un seul ensemble de Xt utilisé dans toutes
les répétitions. La dernière méthode est moins coûteuse et se justifie si les
Xt sont supposés fixes dans les échantillons répétés, mais elle peut conduire
à des résultats qui dépendent des caractéristiques particulières de l’ensemble
particulier des Xt généré.
Une autre possibilité consiste à utiliser de véritables données économiques
pour les Xt . Si ces données sont choisies avec soin, cette approche peut
garantir que les Xt sont en fait typiquement celles qui apparaissent dans les
modèles économétriques. Cependant, cela pose le problème de la variation de
la taille d’échantillon. Si l’on utilise soit des données authentiques soit un seul
ensemble de données générées, la matrice n−1X>X variera avec la taille de
l’échantillon n. Ceci peut rendre la distinction des effets des variations de n
des effets des variations de n−1X>X difficile. Une solution à ce problème est
de sélectionner, ou de générer, un seul ensemble de Xt pour un échantillon de
taille m et de répéter ensuite ceux-ci autant de fois que nécessaire pour créer les
Xt pour les échantillons de tailles plus grandes. Ceci nécessite que n = cm,
où c est un entier. Des choix évidents pour m sont 50 et 100; n pourrait
ensuite être un entier quelconque multiple de 50 ou de 100. Naturellement,
le problème avec cette approche est que comme beaucoup de répétitions sont
exécutées, tous les résultats dépendront du choix de l’ensemble initial des Xt .
Dans de nombreux cas, la manière de choisir les Xt ne sera pas d’une
grande importance. Cependant, il existe des cas pour lesquels elle peut avoir
un impact substantiel sur les résultats. Par exemple, MacKinnon et White
(1985) ont utilisé les expériences Monte Carlo pour examiner la performance
en échantillon fini de différents estimateurs des matrices de covariance robustes
à l’hétéroscédasticité (HCCME; consulter la Section 16.3). Ils ont utilisé 50
observations sur de véritables données économiques pour les Xt , répétant
ces 50 observations autant que nécessaire pour chaque taille d’échantillon.
Comme Chesher et Jewitt (1987) l’ont montré plus tard, la performance des
estimateurs dépend crucialement des ht , c’est-à-dire des éléments diagonaux
de la matrice PX ; les performances des tests basés sur toutes la HCCME en
échantillon fini seront d’autant plus faibles que les ht les plus élevés seront
grands. Quand la matrice X est générée comme l’ont fait MacKinnon et
White, avec n = 50c, tous les ht doivent approcher zéro à un taux proportion-
nel à 1/c (et ensuite aussi à 1/n). Ainsi MacKinnon et White étaient assurés
de trouver une amélioration rapide des résultats au fur et à mesure que la
744 Les Expériences Monte Carlo

taille de l’échantillon augmentait. Par contraste, Cragg (1983), en réalisant


des expériences Monte Carlo sur un problème connexe (consulter la Section
17.3), a généré les Xt de façon aléatoire à partir de la distribution lognor-
male. Cette distribution possède une longue queue de droite et génère ainsi
de temps à autres des valeurs élevées pour quelques Xt . Celles-ci produisent
des valeurs relativement grandes de ht , et il en résulte que les valeurs les
plus grandes de ht tendent vers zéro à un taux beaucoup plus faible que 1/n.
Ainsi, comme l’analyse de Chesher-Jewitt l’aurait prédit, Cragg a trouvé que
la performance en échantillon fini n’a été améliorée que très légèrement quand
la taille de l’échantillon avait augmenté.
Plus récemment, Chesher et Peters (1994) ont montré que les distribu-
tions de nombreux estimateurs qui intéressent les économètres dépendent cru-
cialement de la manière dont les régresseurs sont distribués. Si les régresseurs
sont distribués symétriquement par rapport à leurs médianes, ces estima-
teurs auront des propriétés particulières qui ne sont pas valables en général.
Puisque les régresseurs utilisés dans les expériences Monte Carlo pourraient
bien être symétriquement distribués, il existe un risque que les résultats de
telles expériences puissent être sérieusement trompeurs.
Les exemples précédents devraient faciliter la compréhension de deux
éléments. Tout d’abord, la manière dont les Xt sont générés peut compter.
Les chercheurs devraient donc toujours réfléchir avec soin à la façon de générer
leurs Xt . En second lieu, une bonne compréhension théorique d’un problème
peut rendre les expériences Monte Carlo plus informatives et empêcher des
conclusions erronées qui peuvent provenir d’aspects apparemment mineurs de
la conception expérimentale.
Une des phases les plus ardues de n’importe quelle expérience Monte
Carlo consiste à présenter les résultats. Cette phase est souvent beaucoup
plus difficile qu’elle ne paraı̂t. Nous discutons ici brièvement de ces problèmes.
Une méthode parfois très utile, à savoir l’estimation des surfaces de réponse,
ne sera pas traitée ici mais sera largement discutée dans la Section 21.7.
Quand on présente les résultats sous forme de tableau, il est facile de
noyer le lecteur. En particulier si plusieurs estimateurs ou statistiques de
test doivent être comparés, il est important de rendre les comparaisons aussi
lisibles que possible. Par exemple, si l’on est intéressé par l’erreur quadratique
moyenne (MSE) de plusieurs estimateurs en compétition, il pourrait être bien
plus intéressant de présenter les résultats sous forme de ratios relatifs à un
cas de référence, plutôt que de présenter simplement les résultats pour chaque
estimateur séparément. Un estimateur relativement simple et bien connu
pourrait servir de référence, et les résultats de chacun des autres estimateurs
pourraient alors être présentés comme le ratio de la MSE de cet estimateur
par la MSE de l’estimateur de référence. Un tel tableau serait très lisible
parce que des nombres inférieurs à 1 indiqueraient une meilleure performance
que celle de la référence, tandis que des nombres supérieurs à 1 indiqueraient
des performances plus faibles. Pour éviter de présenter un grand nombre
21.5 Réduction de Variance: Variables Antithétiques 745

d’écarts types expérimentaux, ces ratios pourraient être marqués (en utilisant
des symboles tels que ∗, †, ou ∗∗) pour indiquer s’ils diffèrent de l’unité de
manière significative.
Les expérimentateurs présentent souvent simplement des tableaux de
moyennes estimées, de variances, et peut-être de coefficients d’asymétrie et
d’aplatissement pour plusieurs estimateurs ou statistiques de test différents.
Dans le cas des statistiques de test, les probabilités d’aire de queue, c’est-à-
dire les niveaux estimés, sont souvent également présentées. De tels tableaux
ne sont pas toujours très lisibles. Les méthodes graphiques de présentation
peuvent parfois être des alternatives très précieuses, bien qu’elles doivent être
utilisées avec modération en fonction de l’espace disponible. Dans le cas des
statistiques de test en compétition, on pourrait tracer des courbes de niveau-
puissance empiriques (consulter la Section 12.2) de plusieurs statistiques de
test sur les mêmes axes. Ceci montrera clairement si une quelconque statis-
tique de test a substantiellement un pouvoir plus ou moins fort que les autres
pour un niveau donné; Davidson et MacKinnon (1982) fournissent un exem-
ple. Dans le cas d’estimateurs en compétition, on peut simplement dessiner
les fonctions de distribution empiriques de tous les estimateurs sur les mêmes
axes, comme dans les Figures 7.1, 7.2, et 18.1. Les différences qualitatives ma-
jeures entre les estimateurs en compétition devraient alors être très claires.
En outre, étant facile à comprendre, cette approche simplifie le traitement
des estimateurs qui manquent de moments (tels que LIML). Pour ces estima-
teurs, les MSE peuvent bien entendu être extrêmement trompeuses; consulter
Sargan (1982).

21.5 Réduction de Variance: Variables Antithétiques


Comme nous l’avons vu, l’obtention de résultats suffisamment précis à partir
d’une expérience Monte Carlo peut parfois nécessiter le calcul d’un grand
nombre de répétitions. Ceci n’est pas toujours réalisable. Dans certains
cas, le nombre de répétitions nécessaire peut être réduit de manière si-
gnificative en utilisant certaines techniques de réduction de variance des
résultats expérimentaux. Dans la littérature économétrique, les techniques de
réduction de variance principalement étudiées sont l’utilisation des variables
antithétiques et des variables de contrôle. Nous discutons de la première
méthode dans cette section et de la suivante dans la prochaine section.
L’idée des variables antithétiques consiste à calculer deux estimations
différentes de la quantité d’intérêt de telle manière que les deux estimations
soient corrélées négativement. Leur moyenne sera ensuite substantiellement
plus précise que chacune d’elles prises individuellement. Supposons que l’on
veuille estimer une quantité quelconque θ, et que dans une seule expérience
Monte Carlo nous puissions obtenir deux estimateurs sans biais de θ, dis-
ons θ́ et θ̀. Ces deux estimateurs sont les variables antithétiques. Ensuite
746 Les Expériences Monte Carlo

l’estimateur pondéré
1
θ̄ = − (θ́ + θ̀) (21.07)
2
a la variance
1¡ ¢
V (θ̄) = − V (θ́) + V (θ̀) + 2Cov(θ́, θ̀) ,
4

où V (θ́) et V (θ̀) désignent les


¡ variances de
¢ θ́ et θ̀. Si Cov(θ́, θ̀) est négative,
V (θ̄) sera plus petite que 14 V (θ́) + V (θ̀) , qui est la variance que nous au-
rions obtenue avec le même nombre de répétitions pour estimer θ à partir
de deux expériences indépendantes. Ainsi l’intensité de l’avantage que nous
pouvons retirer en utilisant des variables antithétiques dépend de l’intensité
de la corrélation négative entre θ́ et θ̀.
Nous pourrions nous demander pourquoi θ́ et θ̀ doivent avoir la même
pondération dans le calcul de θ̄. Considérons alors l’estimateur pondéré

θ̈ ≡ wθ́ + (1 − w) θ̀.

Si nous annulons la dérivée de la variance de θ̈ par rapport à w, nous avons

V (θ̀) − Cov(θ́, θ̀)


w= ,
V (θ́) + V (θ̀) − 2Cov(θ́, θ̀)

qui est satisfaite en posant w = 21 lorsque V (θ́) = V (θ̀). Dans la plupart


des cas, les variances des deux estimateurs seront égales, de sorte que leur
attribuer un poids égal sera optimal.
Une manière d’implémenter la méthode des variables antithétiques dans
le cas des modèles de régression consiste à utiliser chaque ensemble d’aléas
généré deux fois, avec le signe opposé la seconde fois. Supposons, par exemple,
que nous désirions estimer la moyenne de l’estimation NLS α̂ de l’exposant
dans le modèle de régression non linéaire

yt = βXtα + ut . (21.08)

Pour chaque ensemble d’aléas uj, nous pourrions générer deux réalisations de
y, avec les i ième éléments

ýtj = βXtα + utj et ỳtj = βXtα − utj .

Nous pourrions alors estimer le modèle en utilisant chacun de ces deux en-
sembles de données, générer ainsi deux estimations différentes de α, άj et ὰj .
Aprés N doubles répétitions, nous pourrions alors construire l’estimateur

N
1 X¡ ¢
ᾱ = άj + ὰj ,
2N j=1
21.5 Réduction de Variance: Variables Antithétiques 747

qui est l’analogue de l’estimateur pondéré (21.07). La variance de ᾱ pourrait


alors être estimée par

1 X³1N ´2
−(άj + ὰj ) − ᾱ . (21.09)
N (N − 1) j=1 2

Puisque ᾱ est une simple moyenne de ᾱj ≡ 12 (άj + ὰj ) pour j = 1, . . . , N,


(21.09) est simplement l’estimation ordinaire de la variance d’une moyenne
d’échantillon.
Il est clair que cette méthode fonctionnera extrêmement bien dans le
cas des modèles de régression linéaires à régresseurs fixes. Pour le modèle
y = Xβ + u, la j ième double répétition donnerait
¡ ¢−1 ¡ ¢−1 ¡ ¢
β́ j = X>X X>ý j = X>X X> Xβ0 + uj et
¡ ¢−1 ¡ ¢−1 ¡ ¢
β̀ j = X>X X>ỳ j = X>X X> Xβ0 − uj .

Par conséquent, nous voyons que

1¡ j ¢
β̄ ≡ − β́ + β̀ j
2
³ ¡ > ¢−1 > j ¡ > ¢−1 > j´
1
= − β0 + β0 + X X X u − X X X u = β0 .
2

Ainsi, dans une seule double répétition, nous pourrions obtenir une réponse
sans erreur expérimentale. Ceci survient parce que β́ j et β̀ j sont parfaitement
corrélés négativement.
La corrélation négative parfaite des variables ne se produira pas en
général. Quand elle survient, le problème est habituellement tellement sim-
ple qu’il n’est pas nécessaire d’exécuter des expériences Monte Carlo (bien
que parfois une très petite expérience Monte Carlo, qui consiste juste en
une double répétition utilisant des variables antithétiques, puisse nous révéler
qu’un estimateur est sans biais plus facilement que ne le ferait une analyse
théorique). Cependant, une corrélation négative moins parfaite survient sou-
vent, et elle signifie que dans certains cas l’utilisation de variables antithétiques
peut grandement réduire le nombre de répétitions nécessaires pour estimer les
premiers moments d’un estimateur. Hendry et Trivedi (1972) ont utilisé la
technique pour étudier les estimateurs de certains modèles dynamiques, et
Mikhail (1972, 1975) l’a utilisée pour étudier certains estimateurs d’équations
simultanées.
Considérons à nouveau l’exemple (21.08). Nous avons mené une petite
expérience Monte Carlo basée sur cet exemple, avec un échantillon 50 obser-
vations, et un seul ensemble de Xt généré à partir de la distribution uniforme
sur l’intervalle (5, 15) et les paramètres α0 = 0.5, β0 = 1.0, et σ02 = 1.0 (ici σ02
748 Les Expériences Monte Carlo

Tableau 21.1 Moyennes et Ecarts Types des Estimations Monte Carlo

ά: 0.515960 (0.006709) β́: 1.019957 (0.016002)


ὰ: 0.488785 (0.006627) β̀: 1.088944 (0.016998)
ᾱ: 0.502372 (0.000425) β̄: 1.054451 (0.003404)

est la variance des ut , supposés normaux). Les résultats issus de 500 doubles
répétitions sont rapportés dans le Tableau 21.1.
Dans ce cas, les gains provenant de l’usage des variables antithétiques
sont apparemment très importants. L’écart type de ᾱ est 15.7 fois plus petit
que la moyenne des écarts types de ά et ὰ. Ceci signifie que ᾱ, qui est basé
sur 1000 répétitions, est aussi précis que l’estimation naı̈ve Monte Carlo basée
sur approximativement 246,000 répétitions! Les gains sont moins flagrants
dans le cas de β, mais ils sont encore très conséquents. L’écart type de β̄
est 4.8 fois plus petit que la moyenne des écarts types de β́ et β̀, ce qui
signifie qu’il est aussi précis qu’une estimation naı̈ve basée sur environ 23,500
répétitions. Du fait de la précision de ᾱ et β̄, nous pouvons voir que les NLS
produisent des estimations légèrement biaisées dans ce cas: les t de Student
pour les hypothèses nulles que les moyennes des estimations de α et β sont
les véritables valeurs 0.5 et 1.0 sont, respectivement, 5.58 et 16.00.
Bien que des variables antithétiques du type de celles décrites puissent
réellement réduire le nombre de répétitions Monte Carlo nécessaires pour
préciser les estimations des moyennes des estimateurs, il n’existe aucune aide
possible pour estimer de nombreuses autres caractéristiques de leurs distri-
butions. Par exemple, dans le cas OLS discuté au préalable, la matrice de
covariance estimée des β́ j est
N
X
1 ¡ j ¢¡ ¢
− β́ − β0 β́ j − β0 >,
N
j=1

et la matrice de covariance estimée des β̀ j est


N
X
1 ¡ j ¢¡ ¢
− β̀ − β0 β̀ j − β0 >.
N
j=1

Il est facile de voir que


¡ j ¢¡ ¢ ¡ ¢−1 ¡ ¢−1
β́ − β0 β́ j − β0 > = X>X Xuj (uj )> X>X
¡ ¢−1 ¡ ¢−1
= X>X X(−uj )(−uj )> X>X
¡ ¢¡ ¢
= β̀ j − β0 β̀ j − β0 >.
21.6 Réduction de Variance: Variables de Contrôle 749

Ainsi les matrices de covariance estimées des deux variables antithétiques


seront identiques. Alors, du point de vue de l’estimation de la matrice de
covariance de l’estimateur, la seconde variable antithétique ne fournit aucune
information utile. Dans une situation réaliste, les matrices de covariance des
deux variables antithétiques ne seront jamais corrélées à la perfection, mais
pourront être corrélées positivement. L’estimation antithétique de la matrice
de covariance sera par conséquent moins efficace que l’estimation naı̈ve basée
sur le même nombre de répétitions.

21.6 Réduction de Variance: Variables de Contrôle


La seconde technique largement utilisée pour la réduction de variance con-
siste à employer des variables de contrôle. Une variable de contrôle est une
variable aléatoire dont la distribution (ou du moins certaines propriétés de la
distribution) est connue et corrélée avec l’(es) estimateur(s) ou la(les) statis-
tique(s) de test étudiés. La première propriété qu’une variable de contrôle
doit posséder est une moyenne de population connue. La divergence entre
la moyenne d’échantillon de la variable de contrôle dans l’expérience et sa
moyenne de population connue est ensuite utilisée pour améliorer les estima-
tions de l’expérience Monte Carlo. Ceci fonctionne évidemment mieux si la
variable de contrôle est fortement corrélée aux estimateurs ou aux statistiques
de test de l’expérience concernée.
Typiquement, les variables de contrôle sont des statistiques qui ne pour-
raient jamais être calculées dans la pratique mais qui peuvent l’être dans le
cadre d’une expérience Monte Carlo, parce que le DGP est connu. Par exem-
ple, supposons que l’expérience concerne les estimations de β à partir d’un
modèle de régression non linéaire à aléas normaux,

y = x(β) + u, u ∼ N (0, σ 2 I),

où x(β) ne dépend que de β et des régresseurs fixes ou du moins indépendants


de u. Nous avons vu dans la Section 5.4 que
¡ ¢−1
n1/2 (β̂ − β0 ) = n−1X0>X0 n−1/2 X0>u + o(1).

Ainsi il est naturel de considérer l’utilisation du vecteur


¡ ¢−1
β̈ = X0>X0 X0>u

comme une source de variables de contrôle. Ce vecteur sera bien évidemment


normal avec un vecteur d’espérances nulles et une matrice de covariance
σ02 (X0>X0 )−1. Il serait impossible de calculer β̈ à partir d’un ensemble de
données réelles, mais dans le cadre d’une expérience Monte Carlo, cela est
parfaitement réalisable. Nous connaissons β0 et par conséquent X0 ≡ X(β0 ).
750 Les Expériences Monte Carlo

Ces vecteur et matrice connus, et avec le vecteur d’erreur uj généré à chaque


répétition, nous pouvons facilement calculer β̈ j.
Supposons que θ ≡ θ(β̂) soit une quantité scalaire quelconque dont nous
désirons calculer la moyenne en utilisant les résultats de l’expérience Monte
Carlo. Par exemple, si nous étions intéressés par le biais de β̂2 , θ serait
β̂2 − β20 ; si nous étions intéressés par l’erreur quadratique moyenne de β̂3 , θ
serait (β̂3 − β30 )2 ; si nous étions intéressés par le niveau d’un test, θ serait 1
si le test rejetait l’hypothèse et 0 sinon; et ainsi de suite. A chaque répétition,
nous obtenons tj , une réalisation de θ, égale à θ(β̂ j ). Nous obtenons également
une variable de contrôle τj , qui serait normalement une certaine fonction de
β̈. Les τj doivent avoir une moyenne nulle et une variance finie, qui peut
être inconnue. Si nous sommes intéressés par le biais de β̂2 , par exemple, le
choix naturel pour τ serait β̈2 − β20 . Cependant, dans certains autres cas,
il n’est pas évident de savoir comment choisir τ , et il peut exister plusieurs
choix possibles.
Si la variable de contrôle τ n’était pas disponible, nous estimerions θ par

N
X
1
θ̄ ≡ − tj ,
N
j=1

et cet estimateur naı̈f aurait une variance V (θ̄) = N −1 V (t), qui pourrait être
estimée par
XN
1 ¡ ¢2
V̂ (θ̄) = tj − θ̄ .
N (N − 1) j=1

Quand la variable de contrôle τ est disponible, θ̄ ne sera plus optimale dans


la plupart des cas. Considérons alors l’estimateur de la variable de contrôle
(CV)
θ̈(λ) ≡ θ̄ − λτ̄ , (21.10)
où τ̄ est la moyenne d’échantillon des τj . Cet estimateur implique de soustraire
à θ̄ un certain multiple λ de la moyenne d’échantillon des variables de contrôle;
le choix de λ sera discuté dans le prochain paragraphe. En moyenne, ce qui
est soustrait sera nul, puisque τj a une moyenne de population nulle. Ceci
implique que θ̈(λ) doit avoir la même moyenne de population que θ̄. Mais, dans
n’importe quel échantillon donné, la moyenne des τj sera non nulle. Si, par
exemple, elle est positive, et si τj et tj sont fortement corrélés positivement, il
est très probable que θ̄ excédera également sa moyenne de population. Ainsi,
en soustrayant à θ̄ un multiple de la moyenne des τj , nous aurons de fortes
chances d’obtenir une meilleure estimation de θ.
La variance de l’estimateur CV (21.10) est
¡ ¢
V θ̈(λ) = V (θ̄) + λ2 V (τ̄ ) − 2λCov(θ̄, τ̄ ). (21.11)
21.6 Réduction de Variance: Variables de Contrôle 751

Il est facile de minimiser cette expression par rapport à λ. La valeur optimale


de λ se trouve être
Cov(θ̄, τ̄ )
λ∗ = . (21.12)
V (τ̄ )
En substituant (21.12) dans (21.11), la variance de θ̈(λ∗ ) est
¡ ¢ Cov(θ̄, τ̄ )2
V θ̈(λ∗ ) = V (θ̄) − = (1 − ρ2 )V (θ̄), (21.13)
V (τ̄ )
où
Cov(θ̄, τ̄ )
ρ≡ ¡ ¢1/2
V (τ̄ )V (θ̄)
est la corrélation entre les tj et les τj . A partir de (21.13), il est clair qu’à
chaque fois que cette corrélation n’est pas nulle, il y aura un certain avantage à
utiliser la variable de contrôle. Si la corrélation est forte, l’avantage peut être
très important. Par exemple, si ρ = 0.95, la variance de θ̈(λ∗ ) sera 0.0975 fois
la variance de θ̄. L’utilisation de la variable de contrôle sera alors équivalente
à accroı̂tre le nombre de répétitions par un facteur de 10.26.
Quand la taille d’échantillon n augmente, la corrélation entre la variable
de contrôle et la quantité d’intérêt devrait augmenter, parce que la distribu-
tion en échantillon fini de cette dernière devrait s’approcher de sa distribu-
tion asymptotique quand n augmente. Par conséquent, le gain d’efficacité
provenant de l’utilisation de la variable de contrôle devrait être d’autant
plus important que n est grand. Ceci est commode parce que le coût de
réalisation des expériences Monte Carlo est souvent presque proportionnel à
nN, et l’efficacité croissante de l’estimation quand n augmente permettra de
réduire N dans le même temps.
Même si V (τ̄ ) sera souvent connue, Cov(θ̄, τ̄ ) ne le sera presque jamais.
Ainsi, nous aurons généralement à estimer λ∗ d’une manière quelconque. Une
littérature fournie sur les méthodes Monte Carlo — par exemple, Hammersley
et Handscomb (1964) et Hendry (1984) — ne cherche pas à utiliser λ∗ mais pose
au contraire λ = 1. A partir de (21.12) et de la définition de ρ, nous voyons
que
µ ¶1/2
∗ V (θ̄)
λ =ρ .
V (τ̄ )
Ceci implique que λ = 1 sera un bon choix si ρ est proche de 1 et V (θ̄) proche
de V (τ̄ ), mais ce choix n’est pas le meilleur en général. Dans de nombreux
cas, ρ peut être significativement inférieur à 1 mais encore suffisamment grand
pour rendre intéressante l’utilisation des variables de contrôle, et dans d’autres
cas V (τ̄ ) peut ne pas être proche de V (θ̄) quand on utilise la définition la plus
naturelle de τ . Ainsi, nous préférerions, en général, estimer λ∗. La manière la
plus facile d’y parvenir est d’exécuter la régression
tj = θ + λτj + résidu. (21.14)
752 Les Expériences Monte Carlo

Comme la notation le suggère, cette régression ne fournit pas seulement une


estimation de λ∗ mais également une estimation de θ. Cette dernière est en fait
asymptotiquement équivalente à θ̈(λ∗ ). Ainsi, comme nous allons maintenant
le montrer, la régression (21.14) fournit une manière remarquablement simple
de calculer un estimateur CV asymptotiquement optimal.
L’estimation OLS de λ à partir de (21.14) est
¡ ¢−1 >
λ̂ = τ >Mι τ τ Mι t,

où t, τ , et ι sont des vecteurs d’éléments types tj , τj , et 1, et Mι est la


matrice I − ι(ι>ι)−1 ι> qui calcule les écart types provenant de la moyenne. Il
est facile de voir que λ̂ est juste la covariance d’échantillon de t et τ , divisée
par la variance d’échantillon de τ . C’est donc la contrepartie empirique de λ∗.
Comme les résidus d’une régression linéaire avec un terme constant doivent
avoir une somme nulle, l’estimation OLS de θ peut être écrite comme

θ̂ = θ̄ − λ̂τ̄ .

Ceci montre clairement que l’estimation OLS θ̂ est égale à θ̈(λ̂). Puisque λ̂
converge vers λ∗ sous des hypothèses plutôt faibles, θ̂ sera asymptotiquement
équivalente à θ̈(λ∗ ).
L’exécution de la régression (21.14) ne fournit pas seulement l’estimation
CV θ̂ mais aussi une estimation de la variance de cette estimation, dont nous
avons besoin pour calibrer la précision des résultats et décider si N est suff-
isamment grand. Cette variance estimée est
¡ ¢−1
σ̂ 2 ι>Mτ ι ,

où σ̂ est l’écart type de la régression (21.14). Ici, le second facteur doit tendre
vers N −1, puisque τ (parce qu’il a une moyenne nulle) n’a pas asymptotique-
ment de pouvoir explicatif sur ι. Par conséquent, N −1 σ̂ 2 serait aussi une
estimation valable de la variance de θ̂. Puisque σ 2 est la variance de la partie
des tj qui ne peut être expliquée par les τj , il est clair que la précision de
l’estimation CV θ̂ sera d’autant meilleure que l’ajustement de la régression
(21.14) sera bon.
Une fois énoncé le problème en termes de la régression (21.14), il de-
vient clair que le lien entre θ et les τj n’est pas forcément étroit. N’importe
quelle variable aléatoire qui peut être calculée avec tj peut être utilisée comme
variable de contrôle pourvu qu’elle soit corrélée à tj (soit positivement, soit
négativement) et ait une moyenne nulle, une variance finie, et une covariance
finie avec tj . Puisque c’est le cas, il peut exister plus d’un choix naturel pour τ
dans de nombreuses situations. Heureusement, la formulation du problème en
régression linéaire rend évidente la manière de traiter des variables de contrôle
multiples. La généralisation appropriée de (21.14) est

t = θι + T λ + résidus, (21.15)
21.6 Réduction de Variance: Variables de Contrôle 753

où T est une matrice de dimension N ×c, dont chaque colonne se compose des
observations sur une des c variables de contrôle. Puisque toutes les colonnes
de T ont une moyenne nulle, l’estimation OLS de θ à partir de cette régression
fournira encore une fois l’estimation que nous cherchons.2 Cette estimation
est ¡ ¢−1
θ̂ = ι>MT ι ι>MT t,
où MT = I − T (T >T )−1 T >. Puisque N −1 ι>MT ι tend vers l’unité quand N
tend vers l’infini, il est facile de voir que la variance de θ̂ est encore une fois
N −1 σ 2 , où σ est le véritable écart type de la régression (21.15). Ainsi, notre
objectif dans le choix des variables de contrôle consiste à rendre l’ajustement
de la régression (21.15) aussi bon que possible.
Supposons que nous soyons intéressés par le niveau p d’un test quel-
conque, qui correspond à la probabilité que le test rejettera l’hypothèse nulle
quand elle est vraie. Nous obtenons N observations Tj sur la statistique de
test et N observations sur une variable de contrôle Cj de distribution connue.
Construisons une variable 0-1 tj de telle sorte que tj = 1 si Tj excède une
certaine valeur critique et que tj = 0 sinon. Alors la moyenne des tj est une
estimation naı̈ve de p. Davidson et MacKinnon (1981b) et Rothery (1982)
ont considéré ce problème en détail et proposé une méthode d’utilisation de
la variable de contrôle pour estimer p basée sur la méthode du maximum
de vraisemblance. Il en ressort que leur estimateur est identique à celui de
l’estimateur OLS de θ issu de la régression (21.14), où τj est une variable
égale à 1 − s quand Cj excède la valeur critique pour un test de niveau s, et
−s sinon. Puisque la probabilité que Cj excédera la valeur critique est s, τj
définie de cette manière a manifestement une moyenne de population nulle.
Cette technique nécessite un choix de s. Comme nous désirons maximiser la
corrélation entre les tj et les τj , il semble logique d’assimiler s au nombre de
rejets réellement observés avec Tj . Quoi qu’il en soit, le choix des valeurs
critiques est forcément arbitraire.
Laisser τj prendre seulement deux valeurs ne peut pas être optimal,
puisque nous perdons une certaine information dans les Cj . On pourrait tout
aussi simplement utiliser n’importe quelle fonction de Cj moins sa moyenne
pour τj , fonction de nous savons fortement corrélée à tj . Vue l’étendue des
possibilités, il semblerait naturel d’utiliser plus d’une d’entre elles. Par ex-
emple, si nous savons que Cj est distribuée suivant la N (0, 1), et sommes
intéressés par un test bilatéral, on pourrait utiliser Cj2 − 1 comme variable
de contrôle. Elle sera d’espérence nulle, puisque l’espérance d’une variable
aléatoire du χ2 (1) est 1, et elle devrait être corrélée à tj . On pourrait tout

2
Il est intéressant d’observer que la régression (21.15) est formellement la même
que la régression (16.63), la version de Tauchen (1985) de la régression de test
OPG. Les deux régressions fournissent une manière d’estimer efficacement la
moyenne de la régressande en tenant compte de la corrélation entre elle et les
autres régresseurs, asymptotiquement orthogonaux au terme constant.
754 Les Expériences Monte Carlo

aussi bien l’utiliser avec une ou plusieurs variables de contrôle binaires du type
décrit précédemment. L’expérience suggère que l’utilisation de plusieurs vari-
ables de contrôle produit généralement une estimation plus précise de θ que
lorsqu’il n’y en a qu’une seule. Dans la pratique, il est facile d’expérimenter
des variables de contrôle diverses en examinant celles qui sont significatives
dans la régression (21.15).
L’emploi des régressions (21.14) et (21.15) a été préconisé pendant un
certain temps dans la littérature de recherche opérationnelle; consulter Laven-
berg et Welch (1981) et Ripley (1987). Ces procédures ont été exposées
et développées dans Davidson et MacKinnon (1993), lesquels ont montré
comment les utiliser pour l’estimation des quantiles aussi bien que pour
l’estimation des moments et des aires de queues, ainsi que la façon de constru-
ire les τ approximativement optimaux dans plusieurs cas d’intérêt. En partic-
ulier, pour l’estimation des niveaux et des puissances de test, une manière fut
proposée pour construire des variables de contrôle plus intelligemment, mais
plus difficilement, qu’avec la manière à deux valeurs discutée précédemment.

Pour illustrer l’usage des variables de contrôle, nous considérerons un


exemple simple discuté par Hendry (1984). Il s’agit du modèle AR(1) station-
naire à aléas normaux:
yt = βyt−1 + ut , ut ∼ N (0, σ 2 ), t = 1, . . . , n. (21.16)
Nous supposons que |β| < 1, qui correspond à la condition
¡ de stationnarité,
¢ et
2 2
que y0 = 0. La stationnarité implique que yt ∼ N 0, σ /(1 − β ) . Supposons
que nous soyons intéressés par la moyenne de β̂, l’estimation OLS de β. Il
est facile de voir qu’à la fois la valeur de β̂ et sa distribution de probabilité
sont invariantes à la valeur de σ dans le DGP, disons σ0 , mais que ses pro-
priétés peuvent bien dépendre à la fois de β0 et de la taille d’échantillon n.
Une recherche sérieuse s’attacherait par conséquent à déterminer le type de
dépendance de la moyenne de β̂ à β0 et n; consulter la Section 21.7 qui suit.
Puisque nous sommes ici beaucoup intéressés par l’illustration de l’utilisation
des variables de contrôle, nous ne considérerons que quelques cas particuliers.3
L’estimation OLS β̂, en supposant y0 connue, est
Pn
t=1 yt yt−1
β̂ = P n 2
.
t=1 yt−1

Sous le DGP caractérisé par β0 , ceci devient


Pn Pn
t=1 (β 0 yt−1 + ut )yt−1 t=1 ut yt−1
Pn 2
= β0 + P n 2
. (21.17)
t=1 yt−1 t=1 yt−1

3
Notons que, bien que (21.16) ressemble à un modèle de régression, des variables
antithétiques ne sont pas utiles ici. Si l’on génère deux ensembles de données
avec des vecteurs de perturbations u et −u, les estimations de β obtenues sont
identiques.
21.6 Réduction de Variance: Variables de Contrôle 755

Tableau 21.2 Estimations CV et Naı̈ves de la Moyenne de β̂

β0 n Naı̈ve λ̂ CV Optimale

0.1 25 0.091814 (0.001932) 0.927 0.091461 (0.000548)


0.1 100 0.096499 (0.000978) 0.982 0.097889 (0.000140)
0.1 400 0.099731 (0.000502) 0.995 0.099499 (0.000036)
0.5 25 0.465589 (0.001745) 0.934 0.464972 (0.000666)
0.5 100 0.490394 (0.000876) 0.982 0.490013 (0.000182)
0.5 400 0.497774 (0.000439) 0.991 0.497430 (0.000048)
0.9 25 0.843872 (0.001188) 0.958 0.843656 (0.000841)
0.9 100 0.882824 (0.000497) 0.987 0.882975 (0.000246)
0.9 400 0.895824 (0.000228) 0.992 0.895530 (0.000066)

Bien que le numérateur du second terme du membre de droite de (21.17)


ait une moyenne nulle, il n’est pas indépendant du dénominateur, et donc
E(β̂) 6= β0 . Cependant, la théorie asymptotique nous dit que β̂ est conver-
a
gente et asymptotiquement normale, puisque n1/2 (β̂ − β0 ) ∼ N (0, 1 − β02 ).
Considérons maintenant la variable de contrôle
n
X
−1/2
τ =n ut yt−1 , (21.18)
t=1

qui, à partir de (21.17), est n−1/2 fois le numérateur de la partie stochastique


de β̂. La distribution en échantillon fini de la variable de contrôle τ définie
dans (21.18) n’est pas simple. Cependant, il est facile de voir que τ a une
moyenne nulle. Pourvu que |β| < 1, il est également facile de vérifier que
τ a une variance finie σ04 /(1 − β02 ). Ainsi, il est légitime d’utiliser τ comme
variable de contrôle. A partir de (21.17), il est clair qu’asymptotiquement la
corrélation entre τ et β̂ −β0 sera unitaire. Par conséquent, il est vraisemblable
qu’il y ait une forte corrélation positive en échantillon fini.
Les résultats des 10,000 répétitions pour trois valeurs de β0 et trois
valeurs de n sont présentés dans le Tableau 21.2. Pour chaque β0 et chaque
taille d’échantillon, nous présentons deux estimations de la moyenne de β̂:
l’estimation naı̈ve qui n’utilise pas de variable de contrôle, et l’estimation CV
optimale basée sur l’équation (21.14). Le tableau donne aussi la valeur de λ
implicitement utilisée pour calculer cette dernière quand τ est transformé de
telle sorte qu’il a la même variance, asymptotiquement, que β̂. Les écarts
types estimés apparaissent entre parenthèses. Nous voyons que, comme cela
est bien connu, l’estimateur OLS de β est toujours biaisé vers zéro et que
le biais décline fortement quand n augmente. Nous voyons également que
l’avantage provenant de l’utilisation de la variable de contrôle varie nettement
756 Les Expériences Monte Carlo

0.005
................... ............ ... . .............
.. ....... ..... ..................... ... .
.. .... ........ ..... ....
0.004 .. ... .. ............ Estimations naı̈ves
. ................. .
. ...........
..................
...... .....
.... ....
0.003 .......
... ..
.. ........
...
......
...
0.002 Estimations par variable de contrôle . .. .... ..
................... .................. .................
..
.. ..
. .
.............
. ... ....... ......... .... ...
.
.. .
. ...
...
...
....
...
.. .
...
............................................ ... . ..... ...
...
. . .
.......................... .... ... ... .. ...
0.001 ...
.......... ...
.
β0 = 0.9999 .
.
...
..
...
.
. .
..
..
..
...
..
... . . .

0.000 β0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Figure 21.3 Écarts type estimés des biais estimés, n = 25

d’un cas à l’autre. Pour un β0 donné, le gain proportionnel augmente avec n.


Pour un n donné, il décroı̂t quand β0 approche un. Dans le meilleur des cas
(n = 400, β0 = 0.1) le recours à la variable de contrôle a le même effet que
l’augmentation de N de 10,000 à 1.9 million, tandis que dans le pire des cas
(n = 25, β0 = 0.9) il a l’effet d’une augmentation de N légèrement en dessous
de 20, 000. Il est intéressant de noter que les valeurs de λ̂ sont toujours assez
élevées, devenant très proches de 1 pour n = 400. Evidemment, il serait un
peu plus coûteux de poser λ = 1 dans cet exemple.
L’intensité de l’utilité des variables de contrôle dépendra souvent dans
la pratique des valeurs paramétriques. Ceci est explicitement illustré dans la
Figure 21.3, qui montre les écarts types estimés des estimations des variables
naı̈ve et de contrôle de β, pour 101 valeurs de β0 allant de zéro à 0.9999 avec
des intervalles de 0.01. Nous avons utilisé 0.9999 comme limite supérieure
plutôt que 1.0, parce que les données étaient générées suivant l’hypothèse de
stationnarité. Les résultats pour l’intervalle allant de zéro à −0.9999 seraient
identiques. Chaque estimation est basée sur 2000 répétitions, les irrégularités
évidentes sur la figure traduisent l’erreur expérimentale dans l’estimation des
écarts types. Il est très clair à partir de la figure que, pour la plupart des
valeurs de β0 , les estimations CV sont beaucoup plus efficaces que les estima-
tions naı̈ves. Cependant, quand β0 → 1, les deux ensembles d’estimations,
et en particulier les estimations naı̈ves, deviennent soudainement plus effi-
caces, et il n’existe virtuellement aucun élément permettant de choisir entre
les estimations CV et les estimations naı̈ves pour β0 > 0.98. Ceci explique
pourquoi les variables de contrôle n’ont pas été employées dans les expériences
Monte Carlo destinées à déterminer les distributions des statistiques de test
de racines unitaires et de cointégration (voir les Sections 20.3 et 20.6).
21.6 Réduction de Variance: Variables de Contrôle 757

On pourrait très bien être intéressé par d’autres aspects des estimations
OLS de β en plus de leur moyenne. Une possibilité, par exemple, est leur
erreur quadratique moyenne. Dans ce cas, l’usage de (21.18) comme variable
de contrôle n’est plus naturel, mais il semble plausible d’utiliser
n
X
1 ¡ ¢2 σ04

n
ut yt−1 − , (21.19)
t=1
1 − β02

puisqu’elle mesure la variance du numérateur de la partie stochastique de β̂.


Une autre variable de contrôle possible est
n
X
1 2 σ02

n
yt−1 − , (21.20)
t=1
1 − β02

qui est le dénominateur de la partie stochastique de β̂, moins sa moyenne.


L’expression (21.20) n’a pas été mentionnée plus tôt comme variable de
contrôle possible parce qu’elle s’est révélée complètement inutile dans la
régression de la variable de contrôle pour la moyenne de β, mais il s’avère
qu’elle est utile dans ce cas.
Le Tableau 21.3 rapporte des estimations naı̈ves et deux ensembles d’esti-
mations CV de l’erreur quadratique moyenne de β̂, pour un découpage iden-
tique à celui du Tableau 21.2. L’usage d’une variable de contrôle unique,
(21.19), fournit généralement des estimations plus précises que la non utili-
sation de variable de contrôle; l’usage de deux variables de contrôle, (21.19)
et (21.20), fonctionne toujours mieux que l’usage d’une seule. Cependant,
les gains relatifs à l’estimateur naı̈f sont toujours inférieurs à ceux obtenus
lorsque l’on a estimé la moyenne; comparer avec le Tableau 21.1. Cela illus-
tre le résultat général selon lequel les variables de contrôle tendent à être les
plus utiles pour l’estimation des moyennes et progressivement de moins en
moins utiles pour l’estimation des moments supérieurs; consulter Davidson et
MacKinnon (1993).
Etant donnée la forte variabilité des gains découlant de l’usage des vari-
ables de contrôle, il peut être judicieux dans les cas où les coûts de calcul sont
importants d’adapter le nombre de répétitions N . On pourrait déterminer
au préalable le niveau de précision acceptable pour des quantités diverses à
estimer, puis calculer ces quantités pour une valeur initiale relativement faible
de N (peut-être 500), et utiliser ces résultats initiaux pour estimer le nombre
de répétitions nécessaires pour obtenir des écarts types suffisamment faibles.
Alternativement, on pourrait calculer des écarts types des quantités d’intérêt
après quelques centaines de répétitions, en s’arrêtant quand ils sont suffisam-
ment faibles. Dans la pratique, peu d’expériences Monte Carlo ont été conçues
de cette manière; N est généralement fixé préalablement, et la précision des
estimations est simplement ce qu’il en ressort.
758 Les Expériences Monte Carlo

Tableau 21.3 Estimations CV et Naı̈ves de la MSE de β̂

β0 n Naı̈ve Une Vble de Contrôle Deux Vbles de Contrôle

0.1 25 .03739 (.510 × 10−3 ) .03720 (.317 × 10−3 ) .03728 (.272 × 10−3 )
0.1 100 .00959 (.134 × 10−3 ) .00973 (.468 × 10−4 ) .00970 (.390 × 10−4 )
0.1 400 .00252 (.351 × 10−4 ) .00247 (.650 × 10−5 ) .00246 (.524 × 10−5 )
0.5 25 .03161 (.522 × 10−3 ) .03171 (.454 × 10−3 ) .03139 (.384 × 10−3 )
0.5 100 .00777 (.734 × 10−4 ) .00768 (.696 × 10−4 ) .00767 (.542 × 10−4 )
0.5 400 .00193 (.281 × 10−4 ) .00187 (.976 × 10−5 ) .00188 (.756 × 10−5 )
0.9 25 .01725 (.413 × 10−3 ) .01725 (.413 × 10−3 ) .01731 (.377 × 10−3 )
0.9 100 .00277 (.563 × 10−4 ) .00276 (.548 × 10−4 ) .00274 (.439 × 10−4 )
0.9 400 .00054 (.922 × 10−5 ) .00053 (.748 × 10−5 ) .00053 (.534 × 10−5 )

21.7 Les Surfaces de Réponse


Comme nous l’avons souligné auparavant, l’un des aspects les plus difficiles
dans n’importe quelle expérience Monte Carlo est de présenter les résultats
de façon lisible. Une approche parfois très utile consiste à estimer une
surface de réponse. Il s’agit simplement d’un modèle de régression pour
lequel chaque observation correspond à une expérience, la variable dépendante
est une quantité quelconque estimée dans les expériences, et les variables
indépendantes sont des fonctions de différentes valeurs paramétriques choisies
par l’expérimentateur, et qui caractérisent chaque expérience. Les surfaces de
réponse ont été utilisées par Hendry (1979), Mizon et Hendry (1980), Engle,
Hendry, et Trumble (1985), Ericsson (1991), et MacKinnon (1991), parmi
d’autres; elles sont longuement discutées dans Hendry (1984). Pour les cri-
tiques de cette approche, consulter Maasoumi et Phillips (1982), ainsi que la
réponse de Hendry (1982).
Si l’on peut trouver une surface de réponse qui explique de façon adéquate
les résultats expérimentaux, cette approche qui synthétise les résultats Monte
Carlo mérite d’y prêter attention. Tout d’abord, il peut être beaucoup plus
facile de comprendre le comportement de l’estimateur ou de la statistique de
test d’intérêt à partir des paramètres d’une surface de réponse plutôt qu’à
partir de plusieurs tableaux remplis de chiffres. Ensuite, si la surface de
réponse est correctement spécifiée, elle élimine, ou du moins réduit dans de
grandes proportions, ce que Hendry (1984) appelle le problème de spécificité.
Ce terme signifie que chaque expérience individuelle donne des résultats seule-
ment pour un unique DGP supposé, et n’importe quel ensemble d’expériences
Monte Carlo donne des résultats seulement pour un ensemble fini de DGP
supposés. Pour d’autres valeurs paramétriques ou d’autres valeurs de n, le
lecteur doit interpoler le résultat à partir des résultats des tableaux, ce qui est
21.7 Les Surfaces de Réponse 759

souvent difficile. Par contraste, une surface de réponse correctement spécifiée


fournit des résultats pour des familles entières de DGP plutôt que pour des
valeurs spécifiques choisies par l’expérimentateur. Le revers de la médaille,
naturellement, est que la surface de réponse doit être correctement spécifiée,
et cela n’est pas toujours une tâche facile.
Une des caractéristiques les plus intéressantes des surfaces de réponse, qui
les distingue de la plupart des autres applications des modèles de régression en
économie, est que les données sont générées par l’expérimentateur. Ainsi, si
les données ne sont pas suffisamment informatives, il y a toujours une solution
facile: exécuter davantage d’expériences pour obtenir davantage de données.
Dans la plupart des cas, chaque point (chaque donnée) de la surface de réponse
correspond à une seule expérience Monte Carlo. La variable dépendante est
alors une quantité quelconque estimée par l’expérience, telle la moyenne ou
l’erreur quadratique moyenne des estimations d’un certain paramètre ou le
niveau estimé d’un test. Comme de telles estimations sont normalement ac-
compagnées des estimations de leurs écarts types, des estimations qui de-
vraient être très précises si les expériences comportent un nombre suffisant
de répétitions, le chercheur est dans l’obligation d’utiliser les GLS avec une
matrice de covariance pleinement spécifiée. Si chaque expérience avait utilisé
un ensemble différent de nombres aléatoires, les observations pour la sur-
face de réponse seraient indépendantes, et cette matrice de covariance serait
par conséquent diagonale. Si les mêmes nombres aléatoires étaient utilisés
dans plusieurs expériences, peut-être pour augmenter la précision avec laquel-
le les différences entre les valeurs paramétriques seraient estimées, la matrice
de covariance serait naturellement non diagonale, mais la forme de la non-
diagonalité serait connue, et l’on pourrait estimer la matrice de covariance
assez facilement.
Afin de rendre les remarques précédentes plus concrètes, notons ψ la
quantité d’intérêt. Elle doit être une fonction de la taille de l’échantillon n et
des paramètres qui caractérisent le DGP, que nous pouvons noter sous forme
vectorielle α0 . Nous modéliserons cette fonction par Ψ (n, α0 , γ), où Ψ est
une forme fonctionnelle spécifique qui dépend d’un vecteur paramétrique γ,
qui sera estimé. La surface de réponse que nous essayons d’estimer est alors
caractérisée par Ψ (n, α0 , γ0 ) pour un vecteur approprié γ0 quelconque. Cette
expression nous indique comment ψ varie suite à des changements de n et
de α0 . La i ième expérience génère une estimation ψ̂i et un écart type associé
σ̂(ψ̂i ). L’estimation ψ̂i peut être soit une simple moyenne sur N répétitions
(comme nous l’avons vu dans la Section 21.5, ceci est le cas même si les vari-
ables antithétiques ont été utilisées, sauf qu’il s’agit alors d’une moyenne sur N
doubles répétitions), soit une estimation CV, provenant probablement soit de
la régression (21.14) soit de la régression (21.15). Quoi qu’il en soit, si le nom-
bre de régressions par expérience est raisonnablement grand, nous pouvons
être assurés que ψ̂i est pratiquement normal avec une espérance Ψ (n, α0 , γ0 )
et un écart type σ(ψ̂i ), et ce dernier sera bien estimé par σ̂(ψ̂i ). Ainsi la
760 Les Expériences Monte Carlo

régression de la surface de réponse est


¡ ¢
ψ̂i = Ψ (n, α0 , γ) + vi , vi ∼ N 0, σ̂ 2 (ψ̂i ) , i = 1, . . . , M, (21.21)

où M est le nombre d’expériences et par conséquent le nombre d’observations


pour la surface de réponse. En transformant (21.21) pour éliminer l’hétéro-
scédasticité, nous obtenons

ψ̂i Ψ (n, α0 , γ)
= + εi , εi ∼ N (0, 1), i = 1, . . . , M. (21.22)
σ̂(ψ̂i ) σ̂(ψ̂i )

Les arguments précédents suggèrent que, à condition que le nombre de


répétitions par expérience soit raisonnablement grand, la spécification des
aléas dans (21.22) avec la N (0, 1) devrait être une approximation extrêmement
bonne. Cependant, certains auteurs ont avancé l’idée que le nombre de
répétitions par expérience peut être beaucoup plus faible quand il s’agit
d’estimer une surface de réponse que lorsqu’il s’agit d’exécuter des expériences
Monte Carlo plus conventionnelles. Par exemple, Engle, Hendry, et Trum-
ble (1985) utilisent seulement 21 répétitions par expérience. Il est vrai que
l’on peut souvent estimer les paramètres γ de Ψ (n, α0 , γ) avec une grande
précision même quand N est petit, à condition que M soit suffisamment
grand, parce qu’un grand nombre d’expériences peut compenser des résultats
imprécis provenant de chaque expérience individuelle. Cependant, deux
problèmes peuvent survenir quand N est petit. Tout d’abord, la distribu-
tion de ψ̂i − Ψ (n, α0 , γ) peut différer assez significativement de la distribu-
tion normale, et σ̂(ψ̂i ) peut être une piètre estimation de σ(ψ̂i ). Ceci signifie
que l’inférence basée sur (21.22) peut être problématique. En second lieu, si
ψ̂i n’est pas une estimation précise, il peut être difficile de spécifier la forme
fonctionnelle de Ψ (n, α0 , γ). Comme nous le verrons par la suite, le plus
gros problème en pratique lié à l’utilisation des surfaces de réponse est que
la forme de Ψ (n, α0 , γ) n’est généralement pas connue a priori. La présence
d’estimations précises ψ̂i peut être d’un grand secours dans la spécification de
la forme fonctionnelle de Ψ (n, α0 , γ).
La meilleure manière d’expliquer l’estimation des surfaces de réponse est
de fournir un exemple concret. Le problème que nous étudierons a l’aspect
de celui traité dans la section précédente et a été aussi utilisé comme exemple
par Hendry (1984), à savoir le biais de l’estimation OLS β̂ dans le modèle
autorégressif stationnaire (21.16). Il s’agit naturellement d’un problème qui a
été largement étudié par d’autres méthodes pendant longtemps; consulter, par
exemple, Hurwicz (1950). Il est en réalité trop simple pour être l’objet d’une
expérience Monte Carlo, parce qu’on peut calculer le biais de β̂ analytique-
ment, comme dans Sawa (1978), à condition que les aléas soient normaux,
comme nous le supposons. Cependant, les calculs demandés ne sont en au-
21.7 Les Surfaces de Réponse 761

cune manière triviaux, et il n’existe aucune formule rapidement interprétable


qui relie le biais de β̂ aux valeurs de β0 et n.4
Phillips (1977) essaie de dériver une telle formule à partir de la méthode
des développements asymptotiques. Ici nous essayons de procéder de la sorte
en estimant une surface de réponse, en utilisant des résultats à partir des
expériences Monte Carlo pour obtenir des points (données).
Nous avons tout d’abord généré des données à partir de 390 expériences,
en faisant varier β0 de −0.95 à 0.95 par incrément de 0.05 et, pour chaque
β0 , en essayant n = 16, 25, 36, 49, 64, 81, 100, 150, 200, et 400. Nous
n’avons pas utilisé volontairement des valeurs de |β0 | supérieures à 0.95 parce
qu’il serait sûrement difficile de caractériser le comportement de β̂ par une
surface de réponse unique aussi bien pour le cas stationnaire que le cas de
racine unitaire, et nous avons vu que des phénomènes étranges commencent
à survenir quand |β0 | → 1 (rappelons-nous de la Figure 21.3). Le nombre
de répétitions utilisé dans les expériences était relativement faible: 2000 pour
n = 16 et 25; 1000 pour n = 36 et 49; 500 pour n = 64, 81 et 100; et
250 pour n = 150, 200, et 400. Nous avons utilisé plus de répétitions pour
des valeurs inférieures de n parce que les estimations CV de la moyenne de
β̂ étaient beaucoup moins précises pour un nombre donné de répétitions. La
régressande pour la surface de réponse était l’estimation CV de la moyenne de
β̂, moins β0 , divisée par l’écart type estimé de la moyenne de β̂, le tout obtenu
à partir de la régression (21.14). Notons que les estimations de la moyenne
de β̂ étaient très précises: les écarts types estimés variaient de .000190 (pour
β0 = .05 et n = 400) à .002813 (pour β0 = .90 et n = 16).
Il fut facile de générer des données, mais la spécification de la surface
de réponse fut beaucoup plus délicate. Dans ce cas, nous pouvons écrire
l’équation (21.22) comme

β̂i − β0 Ψ (n, β0 , γ)
= + εi , εi ∼ N (0, 1), i = 1, . . . , 390,
σ̂(β̂i ) σ̂(β̂i )

où Ψ (n, β0 , γ) est la fonction biais que nous essayons d’estimer. La théorie
asymptotique nous enseigne que Ψ (n, β0 , γ) tend vers zéro quand n → ∞.
Ceci signifie qu’il ne devrait y avoir aucun terme constant et que tous les
régresseurs devraient être divisés par une certaine puissance positive de n.
Malgré tout, ceci laisse encore une grande plage de possibilités. Nous avons

4
Notons que des problèmes étroitement liés, tels que les propriétés des t de Stu-
dent pour ce modèle, ne peuvent pas être traités analytiquement. Nankervis et
Savin (1988) utilisent une gamme extrêmement complète d’expériences Monte
Carlo pour étudier les propriétés des t de Student dans une version légèrement
plus compliquée de (21.16) dans laquelle il faut estimer un terme constant. Cet
article est l’un des meilleurs exemples disponibles des méthodes Monte Carlo
en application.
762 Les Expériences Monte Carlo

tout d’abord estimé des fonctions de biais très simples5

Ψ (n, β0 , γ) = − 1.6890 n−1 β0


(0.0108) (21.23)
2
s = 1.8038, DW = 1.0322, R̄ = 0.9844.

Hendry (1984) a estimé une fonction de cette forme en tant que première ap-
proximation mais l’a trouvée très insatisfaisante. Ces résultats sont également
très peu satisfaisants. Bien que le R̄2 soit très élevé, ce qui implique que n−1 β0
explique un très grand pourcentage de la variation totale de β̂ − β0 , l’écart
type estimé de l’équation est bien supérieur à sa valeur théorique de 1, et la
statistique Durbin-Watson est nettement inférieure à 2. Puisque les données
étaient classées par n (toutes les observations pour les n = 16 premières, puis
toutes les observations pour n = 25, et ainsi de suite), la faible valeur de
la statistique DW suggère fortement que la relation entre le biais et la taille
d’échantillon est mal spécifiée.
La prochaine étape évidente était d’additionner à (21.23) les termes as-
sociés à des puissances de β0 divisés par les puissances de n. La littérature sur
les développements asymptotiques, par exemple Phillips (1977), suggère que
l’on devrait utiliser des puissances multiples d’un demi. Ainsi, on pourrait
essayer d’estimer un modèle général de la forme

6 X
X 6
b/2
Ψ (n, β0 , γ) = γab n−a/2 β0 (21.24)
a=1 b=1

et ensuite essayer de le simplifier et annulant de nombreux γab . On voudrait


laisser a et b s’incrémenter jusqu’à 6 parce que Hendry (1984) a semblé met-
tre en évidence le fait que β03 /n3 appartenait à Ψ (n, β0 , γ). Ce modèle doit
forcément mieux s’ajuster que (21.23), mais les estimations seront extrême-
ment imprécises parce qu’il y a 36 régresseurs potentiels de la forme n−a/2 β0b/2 ,
et certains d’entre eux seront fortement colinéaires. Par conséquent nous
avons considéré que la spécification d’une surface de réponse de cette manière
était impossible. Il n’y avait tout simplement aucun moyen pertinent d’obtenir
un modèle plus économe à partir du modèle général (21.24). Si cette approche
est insatisfaisante dans ce cas très simple, où le DGP ne comprend qu’un seul
paramètre, elle sera totalement insatisfaisante en général.
Par conséquent, nous avons choisi une approche radicalement différente,
en utilisant des méthodes graphiques pour voir à quoi Ψ (n, β0 , γ) doit ressem-
bler. Cette approche fut utilisée avec succès. Elle ne fut possible que parce

5
Ces expériences étaient à exécutées pour la première fois en 1988 et nécessitaient
environ 16 heures sur un ordinateur de type 286. Puisqu’ils auraient pris moins
de dix minutes sur un PC 486, il aurait été possible d’utiliser davantage de
répétitions.
21.7 Les Surfaces de Réponse 763

Biais
0.100
.....................
0.075 .... ...................
....
0.050 ... .... n = 16
... ....... .............................
......................
.......... .....
.
. ..... .
0.025 ....... ... ...
...... ..
..................
................ ................. ......................
.
........
....
...
...
...... .... ...................... .....
0.000 n = 49 ........ ..... ............... ....
..... ..............
...... ................................... ....
−0.025 ........ .... .... ....................
... ................
.........
.....
..... ........
−0.050 .... ....
.......
..... ...
−0.075 ............
−0.100 β0
−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00

Figure 21.4 Estimations Monte Carlo du biais

que nos estimations de β̂ − β0 étaient très précises, ce qui garantissait une lis-
ibilité immédiate des graphiques illustrant les variations de β̂ − β0 en fonction
de β0 pour des valeurs diverses de n, et celles de β̂ − β0 en fonction de n pour
des valeurs diverses de β0 . C’est une raison pour ne pas utiliser de petites
valeurs de N dans des expériences Monte Carlo destinées à l’estimation des
surfaces de réponse.
La Figure 21.4 illustre les graphes de β̂ − β0 en fonction de β0 pour
n = 16 et n = 49. Il est évident que la relation est fondamentalement linéaire
et symétrique autour de zéro, sauf que pour n = 16 (et évidemment pour
d’autres valeurs plus petites de n) il y a une inversion assez brutale de la
pente pour de grandes valeurs absolues de β0 . Il est aussi évident à partir de
la figure que la relation entre β̂ − β0 et β0 devient moins prononcée quand n
augmente; la relation pour n = 400 (non présentée pour éviter de saturer la
figure) était presque plate.
Le comportement évident dans la Figure 21.4 de la relation entre β̂ − β0
et β0 pour de grandes valeurs absolues de β0 suggère que l’on pourrait vouloir
ajouter des fonctions de β03 dans Ψ (n, β0 , γ). Cependant, il existe d’autres
fonctions de β0 qui pourraient tout aussi bien traduire la pente évidente dans
la figure, notamment β0 /(1 − β02 ) et β0 /(1 − β02 )1/2. En régressant β̂ − β0 sur
β0 et sur un autre régresseur parmi β03 , β0 /(1 − β02 ), et β0 /(1 − β02 )1/2 pour
des valeurs diverses de n, nous avons conclu que β0 /(1 − β02 )1/2 expliquait le
mieux la relation observée entre β̂ − β0 et β0 .
Des graphes similaires et des régressions préliminaires ont suggéré que
n−1 et n−3/2 expliquaient ensemble pratiquement toute la relation entre β̂−β0
et la taille de l’échantillon, mais qu’au contraire n−1/2 et n−2 ne jouaient
764 Les Expériences Monte Carlo

aucun rôle. Ainsi, nous avons choisi à titre d’essai la spécification


¡ ¢
Ψ (n, β0 , γ) = n−1 γ1 + γ2 β0 + γ3 β0 /(1 − β02 )1/2
¡ ¢ (21.25)
+ n−3/2 γ4 + γ5 β0 + γ6 β0 /(1 − β02 )1/2 .

Celle-ci est excessivement plus simple que (21.24). Quand (21.25) fut estimée,
nous avons trouvé que γ̃1 , γ̃4 , et γ̃5 étaient conjointement non significatifs,
bien que γ̃4 était individuellement significatif à un niveau de 5%. Puisqu’il
est difficile de voir pourquoi β̂ devrait être biaisé quand β0 = 0, et puisque
par contraste avec γ̃4 les trois autres paramètres significatifs étaient fortement
significatifs, nous avons décidé sur la base de ces résultats de contraindre γ1 ,
γ4 , et γ5 dans (21.25) à zéro. Nos estimations du modèle résultant étaient

β0
Ψ (n, β0 , γ) = − 1.9223 n−1 β0 − 0.1066 n−1
(0.0173) (0.0149) (1 − β02 )1/2
β0 (21.26)
+ 1.3509 n−3/2
(0.0608) (1 − β02 )1/2

s = 1.0628, DW = 1.8649, R̄2 = 0.9946.

Ces résultats apparaissent être très bons. Les trois paramètres sont très sig-
nificatifs, l’écart type de la régression est légèrement supérieur à 1, mais pas
de manière significative au niveau 5%, et la statistique DW n’est pas signi-
ficativement inférieure à 2. Les tests d’asymétrie et d’aplatissement n’ont pas
décelé ces phénomènes. De plus, quand d’autres fonctions diverses de β0 et
n, telles que n−1 β0 /(1 − β02 ), n−1 β03 , n−3/2 β0 /(1 − β02 ), n−3/2 β03 , n−2 β0 , et
n−2 β0 /(1 − β02 )1/2 , étaient intégrées à Ψ (n, β0 , γ), elles étaient individuelle-
ment et conjointement non significatives, et les trois régresseurs dans (21.26)
sont restés individuellement significatifs. Pour des tailles d’échantillon dans
la gamme examinée, les valeurs prédites par (21.26) sont très proches des
valeurs exactes tabulées par Sawa (1978), bien que l’équation semble prédire
un résultat quelque peu trop biaisé pour de faibles valeurs de n.
Nous concluons que la surface de réponse (21.26) fournit une bonne ap-
proximation, bien que non parfaite, pour la fonction de biais Ψ (n, β0 , γ) sur
l’intervalle n = 16 à n = ∞ et β0 = −0.95 à β0 = 0.95. Cependant, cela
peut ne pas être le cas pour de très petites valeurs de n et pour des valeurs de
|β0 | supérieures à 0.95. Un ensemble d’expériences beaucoup plus coûteux et
selon toute vraisemblance une surface de réponse considérablement plus com-
pliquée seraient nécessaires si nous décidions de traiter de façon adéquate ces
cas. Cette surface de réponse est illustrée comme une fonction de β0 pour des
valeurs variées de n dans la Figure 21.5. Les tendances du biais à diminuer
fortement quand n augmente, et à augmenter avec |β0 | sauf pour une légère
diminution pour de grandes valeurs de |β0 | sont relativement évidentes sur la
figure.
21.7 Les Surfaces de Réponse 765

Biais
0.06 ... . ..
.... .............
......
......
......
......
...... ............................................. n = 25
0.04 ......
......
.................... ......
.......... .....
......... .....
......... .....
.
........ .............................................................................
0.02 ..................... . . ........... . ...... n = 50
........ ...
......................
...................... ........ ..........
...................... ........ .....
..................... .......... .......
............ ..... ...
.......... n = 400
..................................................................... ......
.................................................................................................................................................... ......
0.00 ...
. ........................................................................................... ........................
...
... .. .. . . .........
............. ..................... .......
.... .
... ..
..... .
.. .
....
.....
..................................................................
..... ...... ......... .........................
.....
.....
.....
...... .......... .....................
....
n = 100 ........ . .......... .
..
. ......................
...... ........ .....................
...... ........ .....................
...... ........
−0.02 ..... . . .. ..........
..... .........
..... ..........
..... ..............
...... ......
......
......
......
−0.04 ......
......
......
......
.......
......... ......
.
−0.06 β0
−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00

Figure 21.5 Estimations de biais par surface de réponse

Dans toutes les estimations rapportées jusqu’ici, nous avons utilisé les
estimations CV de β̂. Il aurait été aussi possible d’utiliser les estimations
naı̈ves de β̂. La surface de réponse estimée quand nous avons procédé de la
sorte était
β0
Ψ (n, β0 , γ) = − 1.9272 n−1 β0 − 0.1306 n−1
(0.0366) (0.0274) (1 − β02 )1/2
β0 (21.27)
+ 1.4983 n−3/2
(0.1141) (1 − β02 )1/2

s = 1.0811, DW = 1.8606, R̄2 = 0.9763.

Ces résultats sont très similaires à ceux utilisés pour les estimations CV mais
sont moins bons à tous les égards. Les écarts types associés aux estimations
paramétriques sont généralement environ deux fois plus grands, et indiquent
qu’en moyenne, l’usage des variables de contrôle revient approximativement
à quadrupler le nombre de répétitions. La valeur légèrement supérieure de
s indique probablement que la surface de réponse s’ajuste légèrement moins
bien pour les petites valeurs de n. L’usage des variables de contrôle améliore
davantage les estimations de β̂ pour des valeurs importantes de n. Ainsi, la
surface de réponse (21.26), qui utilise les estimations CV, pondère les résultats
des expériences avec des valeurs importantes de n plus lourdement que ne le
fait la surface de réponse (21.27) qui utilise des estimations naı̈ves. Ainsi,
766 Les Expériences Monte Carlo

nous nous attendons à ce que (21.27) s’ajuste moins bien que (21.26), comme
c’est le cas, si la surface de réponse est moins performante pour des tailles
d’échantillon plus petites.
Cet exemple concerne l’estimation d’une fonction de biais. L’estimation
des fonctions de MSE, ou des fonctions de niveau ou de puissance pour les
statistiques de test, est conceptuellement similaire, bien que certains détails
soient naturellement différents. Si la variable dépendante est le niveau ou
la puissance d’une statistique de test, que nous pouvons noter p, alors cette
variable dépendante doit varier entre 0 et 1, et la transformation logit
µ ¶
p
Λ(p) = log
1−p

peut être utile. La justification de cette transformation est que Λ(p) peut
varier entre plus et moins l’infini, ce qui facilite la spécification d’une surface
de réponse comme fonction linéaire. Pour l’essentiel, nous estimerions alors
un modèle logit sur des données groupées. (Consulter le Chapitre 15).
Nous croyons que l’exemple précédent est très révélateur. Il illustre
combien peuvent être utiles les surfaces de réponse grâce à leur capacité à
synthétiser une grande quantité de résultats expérimentaux en un ensem-
ble relativement simple d’estimations comme (21.26), que l’on peut alors
représenter graphiquement comme dans la Figure 21.5. Il illustre aussi les
difficultés pratiques de spécification d’une surface de réponse. L’approche de
la surface de réponse ne sera pas opérationnelle si le DGP est caractérisé par
plusieurs paramètres qui affectent les quantités étudiées, parce qu’il sera tout
simplement trop difficile de spécifier la surface de réponse dans un tel cas, du
moins s’il y a une quelconque interaction entre les différents paramètres. Des
méthodes graphiques telles que celles employées peuvent être extrêmement
bénéfiques pour la spécification d’une surface de réponse, mais elles ont leurs
limites, et il semble malheureusement peu probable qu’elles seront efficaces
quand le DGP comporte de nombreux paramètres qui interagissent de façon
compliquée.

21.8 Le Bootstrap et les Méthodes Connexes


Jusqu’à présent, nous avons porté notre attention sur les expériences Monte
Carlo “conventionnelles” dans lesquelles le chercheur spécifie pleinement le
DGP pour chaque expérience. Bien que de telles expériences puissent être
utilisées comme compléments à des parties précises du travail empirique et
sont parfois employées à profit de cette manière, elles sont beaucoup plus
communément employées pour suppléer le travail théorique sur les propriétés
des estimateurs et des statistiques de test. Par contraste, la technique connue
sous le nom du bootstrap est typiquement conçue pour être utilisée dans le
21.8 Le Bootstrap et les Méthodes Connexes 767

contexte du travail empirique. Comme le nom le suggère, l’idée du bootstrap6


est d’utiliser le seul ensemble de données disponible pour créer une sorte
d’expérience Monte Carlo dans laquelle les données elles-mêmes sont utilisées
pour approximer la distribution des aléas ou d’autres quantités aléatoires du
modèle. Le nom est censé exprimer l’idée que les données disponibles devraient
fournit suffisamment d’information sur leur distribution. Cette idée est mise
en œuvre par l’exécution d’une sorte d’expérience Monte Carlo dans laquelle
les aléas ou les autres quantités aléatoires sont habituellement des tirages non
pas d’une distribution supposée, telle que la normale, mais plutôt à partir
de la distribution empirique de leurs contreparties d’échantillon. L’obtention
d’échantillons artificiels de cette manière est un cas particulier de ce que l’on
appelle rééchantillonnage; consulter Efron (1979).
Nous avons rencontré pour la première fois la fonction de distribution em-
pirique, ou EDF, dans la Section 4.5. Si nous notons {yt }nt=1 un échantillon de
taille n, où les yt sont des réalisations des variables aléatoires indépendantes,
alors la EDF est la fonction de répartition
n
X
n 1
F̂ (x) ≡ −
n
I(−∞, x) (yt ),
t=1

où la fonction indicatrice I associée à l’intervalle (−∞, x) est simplement une


fonction qui prend la valeur 1 si son argument appartient à l’intervalle, et 0
sinon. Ainsi, une EDF est une fonction en escalier, la hauteur de chaque
marche étant 1/n, et la largeur étant la différence entre deux valeurs suc-
cessives de yt quand ces dernières sont classées par ordre croissant. Si deux
ou plusieurs observations sont identiques, événement associé à la probabilité
nulle si la densité des yt est continue, il peut y avoir des escaliers qui ont une
hauteur multiple entier de 1/n. La EDF pour un ensemble particulier de 100
observations sur une variable aléatoire y est illustrée dans la Figure 21.6; à
titre de comparaison, une distribution normale avec les mêmes espérance et
variance est aussi reportée.
Supposons que l’on ait calculé des statistiques θ(y) quelconques à partir
d’un ensemble de données yt , t = 1, . . . , n, noté sous forme vectorielle y; dans
la pratique, on pourrait calculer de nombreuses statistiques différentes, mais
pour des raisons de simplicité, nous ne traiterons seulement que l’une d’entre
elles. Si la distribution en échantillon fini de θ(y) est connue, ou si une bonne
approximation asymptotique est disponible, le recours au bootstrap est inutile.
Si, cependant, ce n’est pas le cas, une manière d’approximer la distribution
de θ(y) est d’appliquer le bootstrap à cet ensemble de données. Pour cela,
on doit tirer un certain nombre d’échantillons bootstrap, disons B, chacun de
taille n, à partir de la distribution des données observées. Ce rééchantillonnage

6
Un “bootstrap”en anglais est un tirant de botte. L’expression “to pull oneself
up by one’s bootstraps” signifie “se faire tout seul”.
768 Les Expériences Monte Carlo

F (x)
1.0 .............................................................................................................................................
................................................................................

. .
................................
. ....
0.9 .. .......
................ ← Approximation normale
0.8 .......
..........
.....
0.7 ......
.........
0.6 .....
......
.........
...
0.5 ......
........
.....
.
0.4 ...
.........
0.3 ..
...
...
......
... ...
..
0.2 ...
.... ..
.
.... .
...
0.1 ..... ...
...............
.
.............
....
............................................
........................................................................................................................
0.0 x
−4 −3 −2 −1 0 1 2 3 4 5

Figure 21.6 Fonction de répartition empirique basée sur 100 observations

est réalisé avec remise. Ainsi, chaque échantillon bootstrap contiendra cer-
taines des n observations d’origine plus d’une fois, et d’autres pas du tout,
et ce de manière tout à fait aléatoire. Le tirage d’un échantillon bootstrap
est très facile. Notons yj∗ (i) la j ième observation du i ième échantillon boot-
strap, où i = 1, . . . , B. Pour obtenir yj∗ (i), nous générons tout d’abord un
nombre pseudo-aléatoire à partir de la distribution U (0, 1), l’utilisons pour
générer un entier aléatoire k qui prend les valeurs 1, . . . , n avec équiprobabilité,
et ensuite initialisons yj∗ (i) à yk . En répétant cette opération n fois, nous

obtenons¡ ∗un ¢échantillon bootstrap complet, disons y (i). Nous calculons en-
suite θ y (i) et sauvegardons le résultat. L’opération entière est alors répétée
pour i = 1, . . ¡. , B échantillons
¢ bootstrap, à la fin de laquelle nous obtenons B

statistiques θ y (i) . Ces statistiques sont à leur tour utilisées pour estimer
n’importe quelle caractéristique de la distribution de θ(y) à laquelle on pour-
rait s’intéresser.
Le paragraphe précédent a esquissé l’idée de base du bootstrap, que l’on
doit à Efron (1979). Des références relativement accessibles sont Efron (1982),
Efron et Gong (1983), et Efron et Tibshirani (1986). Des références plus
théoriques sont Bickel et Freedman (1981), Freedman (1981), et Hall (1987).
La littérature est devenue très importante et parfois très technique au cours
des dernières années, et nous n’effectuerons aucune tentative ici pour l’exa-
miner.
Illustrons maintenant l’usage du bootstrap dans un cas simple. Con-
sidérons les données illustrées dans la Figure 21.6. On peut facilement voir
à partir de la figure que ces données sont des tirages d’une distribution com-
portant des queues plus grosses que la normale. Une distribution normale
21.8 Le Bootstrap et les Méthodes Connexes 769

avec les mêmes espérance et variance que les données est illustrée dans la fig-
ure, et il est évident que les valeurs les plus importantes dans chaque queue
de l’échantillon auraient dû survenir avec une probabilité extrêmement faible
avec la distribution normale. Un chercheur pourrait par conséquent s’inquiéter
et se demander si les inférences basées sur des estimations et les intervalles
de confiance issus du cas normal seraient valables dans ce cas. Une manière
de voir si de telles inquiétudes sont fondées est d’appliquer le bootstrap aux
statistiques d’intérêt.
Considérons l’espérance des yt . La moyenne d’échantillon est −0.0701,
avec un écart type de 0.0889. Ainsi, l’intervalle de confiance habituel à
95% basé sur la distribution du t de Student à 99 degrés de liberté est
(−0.2464, 0.1062). Nous avons calculé 10,000 échantillons bootstrap comme
ceux décrits précédemment, et ainsi obtenu 10,000 moyennes estimées, µ∗ (i).
Ce choix de B dépasse celui nécessaire dans la plupart des cas, et garantit une
erreur expérimentale très faible. Il y a plusieurs manières d’obtenir des inter-
valles de confiance bootstrap à partir de la distribution des µ∗ (i); consulter
Efron et Tibshirani (1986) pour une introduction et Tibshirani (1988) pour
des méthodes plus avancées. La première étape consiste à trier les moyennes
bootstrap µ∗ (i) par ordre croissant, µ∗ (1) étant la plus faible et µ∗ (B) la plus
forte. Si la distribution des µ∗ (i) est approximativement symétrique, on peut
alors utiliser ce qui est appelé méthode des centiles. Supposons que nous
voulions un intervalle de confiance à 95%. Alors nous choisissons simplement

1¡ ∗ ¢
− µ (250) + µ∗ (251)
2

comme limite inférieure de notre intervalle de confiance et

1¡ ∗ ¢
− µ (9750) + µ∗ (9751)
2

comme limite supérieure. Ces valeurs sont choisies de sorte qu’exactement


2.5% des répétitions bootstrap produisent des µ∗ (i) inférieures à la limite
inférieure et 2.5% produisent des µ∗ (i) supérieures à la limite supérieure de
l’intervalle de confiance. L’utilisation de la méthode des centiles pour les
données de la Figure 21.6 fournit un intervalle de confiance pour la moyenne
des yt égal à (−0.2387, 0.1053), très similaire à l’intervalle basé sur la distri-
bution du t de Student.
Si la distribution des µ∗ (i) n’est pas symétrique, on peut ne pas vouloir
utiliser la méthode des centiles, parce qu’elle n’est plus optimale pour omettre
le même nombre de µ∗ (i) à partir de chaque queue de leur EDF si nous voulons
que l’intervalle de confiance soit aussi court que possible. Une approche simple
consiste à minimiser la quantité

1¡ ∗ ¢ 1¡ ∗ ¢
− µ (l + .95B) + µ∗ (l + .95B + 1) − − µ (l − 1) + µ∗ (l)
2 2
770 Les Expériences Monte Carlo

par rapport à l’entier positif l < .05B.7 Ainsi, l’objectif consiste à trou-
ver l’intervalle le plus court possible comprenant 95% des µ∗ (i). Quand la
EDF des µ∗ (i) est asymétrique, cette méthode des centiles modifiée tendra à
déplacer l’intervalle de confiance loin de la queue la plus longue de la distribu-
tion, parce qu’en éliminant des observations d’un côté et en les additionnant
de l’autre côté, cela réduira la longueur de l’intervalle de confiance estimé.
Pour les données de la Figure 21.6, la méthode des centiles modifiée fournit
des résultats très similaires à ceux de la méthode des centiles ordinaire et à la
méthode basée sur la théorie normale usuelle: l’intervalle de confiance à 95%
est (−0.2399, 0.1031).
Puis, dans cet exemple, le bootstrap a principalement servi à nous ras-
surer que les méthodes conventionnelles d’inférence concernant la moyenne
des yt sont vraisemblablement très fiables pour cet ensemble de données, en
dépit de l’apparent excès de kurtosis relatif au cas normal. Mais la même
procédure pourrait être employée pour étudier la distribution de n’importe
quelle statistique θ(y) à laquelle nous nous intéresserions, et parmi elles celles
pour lesquelles les méthodes les plus conventionnelles d’inférence sont diffi-
ciles ou impossibles. C’est dans de tels cas que le bootstrap peut être partic-
ulièrement utile.
La méthode du bootstrap qui vient juste d’être décrite peut évidemment
être modifiée de différentes façons. On pourrait, par exemple, lisser quelque
peu la EDF des yt et tirer des échantillons bootstrap à partir de la EDF lissée
à la place de la EDF ordinaire. Si l’on connaissait ou était prêt à supposer la
forme de la distribution des yt , on pourrait utiliser ce qui est souvent appelé
bootstrap paramétrique, dans lequel les données sont utilisées pour estimer la
densité des yt , et les échantillons bootstrap sont alors générés à partir de cette
densité estimée. Le bootstrap paramétrique ressemble ainsi à une expérience
Monte Carlo ordinaire dans laquelle les paramètres du DGP sont estimés à
partir de l’ensemble de données d’intérêt.
Il existe des caractéristiques particulières des méthodes bootstrap ap-
pliquées aux modèles de régression. Supposons que le modèle soit

yt = xt (β) + ut , t = 1, . . . , n, (21.28)

où toutes les variables dont xt (β) dépend sont supposées fixes ou du moins
indépendantes de tous les ut . Si ces derniers sont supposés i.i.d., l’approche
naturelle est d’appliquer le bootstrap aux résidus. Avec cette approche, on
estime tout d’abord le modèle (21.28) par NLS, afin d’obtenir des estima-
tions paramétriques β̂ et des résidus, û1 jusqu’à ûn , et on génère ensuite des
échantillons bootstrap à partir du processus générateur de données

yj (i) = xj (β̂) + u∗j (i), j = 1, . . . , n, (21.29)

7
Ceci suppose que .95B est un entier, ce qui sera le cas si B est un multiple
entier de 100.
21.8 Le Bootstrap et les Méthodes Connexes 771

où les u∗j (i) sont des échantillons aléatoires avec remise à partir de û1 , . . . , ûn .
Si xt (β) dépend des valeurs passées de yt , cette approche reste valable, mais
dans (21.29) y1 (i), . . . , yj−1 (i) doit être utilisé à la place des vrais yt re-
tardés en calculant xj (β̂). Puisque le modèle (21.28) est non linéaire, le
bootstrap peut être assez coûteux, et la technique est par conséquent utilisée
tout d’abord avec les modèles linéaires.
Cette approche comporte deux autres problèmes. Le premier est que,
comme d’habitude, les résidus ût tendent à sous-estimer les aléas ut . Ceci
peut être traité en utilisant les résidus modifiés

n
X
ût 1 ûs
ũt = −−
n
, (21.30)
(1 − ĥt )1/2 s=1 (1 − ĥs )1/2

où
¡ ¢−1
ĥt ≡ X̂t X̂>X̂ X̂t>

et X̂, comme d’habitude, est la matrice des dérivées de xt (β) par rapport aux
éléments de β, évaluée en β̂. La raison pour laquelle nous voudrions diviser
ût par (1 − ĥt )1/2 est évidente. Comme nous l’avions vu pour la première
fois dans la Section 3.2, dans le cas d’un modèle de régression linéaire à aléas
i.i.d.,
E(u2t ) = (1 − ht )σ 2.

Par conséquent, la division ût par (1 − ht )1/2 fournirait des résidus modifiés
ayant précisément la bonne variance. La division par (1 − ĥt )1/2 est l’analogue
naturel de cette procédure pour le cas non linéaire et se justifie par le résultat
théorique (5.57) de la Section 5.6. Dans (21.30), nous soustrayons ensuite la
moyenne des ût /(1 − ĥt )1/2 , qui ne sera pas nulle en général, afin de garantir
une moyenne nulle aux ũt ; consulter Weber (1984).
Le second problème avec cette approche du bootstrap est que les aléas ut
sont supposés indépendamment et identiquement distribués. Quand cette
hypothèse est douteuse, une seconde approche peut être¡ utilisée.¢ Dans
cette seconde approche, nous rééchantillonnons à partir de yt , xt (β̂) plutôt
qu’à
¡ partir¢ de ût ou de ũt . Un élément type de l’échantillon bootstrap est
yk , xk (β̂) , où k est un tirage aléatoire à partir de 1, . . . , n. Dans le cas
linéaire, chaque élément de l’échantillon bootstrap est (yk , Xk ), où Xk est
la k ième ligne de la matrice des observations des variables indépendantes.
Cette seconde approche est clairement irréalisable si xt (β) dépend des valeurs
retardées de yt , puisqu’il est sans pertinence d’utiliser de véritables yt re-
tardés, et nous n’avons aucune manière de générer des yt retardés à partir
du bootstrap. Cependant, elle a l’avantage d’être valable même en présence
d’hétéroscédasticité. En effet, cette forme du bootstrap produit des résultats
souvent très similaires à ceux provenant de l’usage d’un estimateur de la ma-
trice de covariance robuste à l’hétéroscédasticité.
772 Les Expériences Monte Carlo

Aucune de ces approches du bootstrap ne nous permet de traiter des


modèles dont les aléas sont supposés autocorrélés mais dont la forme d’auto-
corrélation est inconnue. Le rééchantillonnage détruit toute sorte de dépen-
dance qu’il peut y avoir dans les données d’origine, de sorte que les résultats
du bootstrap peuvent ne pas être très fiables si une telle corrélation constitue
un problème.
Les applications des méthodes bootstrap pour les économètres compren-
nent Freedman et Peters (1984), Korajczyk (1985), Bernard et Veall (1987), et
Veall (1987). Les deux premiers articles utilisent le bootstrap pour améliorer
les inférences sur des modèles estimés pour lesquels la théorie asymptotique
disponible pourrait se révéler peu fiable. Les deux suivants l’utilisent pour
estimer les intervalles de confiance pour des prévisions, un sujet souvent
extrêmement difficile à réaliser de façon analytique quand la technique de
prévision est compliquée. Fair (1980) s’est aussi intéressé à la précision des
prévisions et, bien que cet article n’utilise pas le terme, il peut être con-
sidéré comme un exemple de bootstrap paramétrique. Raj et Taylor (1989)
examinent les propriétés en échantillon fini des statistiques de test basées sur
le bootstrap, et Veall (1992) montre comment utiliser le bootstrap pour la
sélection de modèle.
Comme les coûts de calcul informatique diminuent, il est vraisemblable
que des utilisateurs toujours plus nombreux se tourneront vers des variantes
du bootstrap pour traiter des modèles où la théorie asymptotique peut être
inadaptée. Ceci soulève la question de la pertinence du bootstrap pour traiter
de tels modèles. Excepté peut-être dans certains cas particuliers, la seule
manière de répondre à cette question serait d’exécuter des expériences Monte
Carlo dont les objets seraient des estimations bootstrap. Malheureusement,
cela sera souvent très coûteux, puisque s’il y a N simulations par expérience et
que B échantillons bootstrap sont nécessaires pour obtenir chaque estimation
bootstrap, une seule expérience comporterait un total de BN estimations. A
moins que chaque estimation ne puisse être réalisée très rapidement, une telle
expérience pourrait consommer un temps de calcul extrêmement important.
Cependant, compte tenu de l’évolution des performances des ordinateurs, nous
pouvons certainement nous attendre à voir des études Monte Carlo sur le boot-
strap dans des situations qui intéressent les économètres, aussi bien qu’une
utilisation plus large du bootstrap dans les travaux appliqués.

21.9 Conclusion
La publication de cet ouvrage correspond avec la commercialisation d’ordina-
teurs encore plus puissants que les grosses unités de calcul construites au
début des années 80 et dont le prix de vente est tellement faible que tous les
bureaux des économètres en seront équipés. Dans ce contexte, les méthodes
Monte Carlo devraient selon toute vraisemblance être beaucoup plus utilisées
que cela n’a été le cas jusqu’à présent. Des lecteurs et des éditeurs refuseront
Termes et Concepts 773

d’accepter des résultats basés sur des méthodes destinées à l’estimation et


à l’inférence qui ont des propriétés statistiques seulement connues asymp-
totiquement, quand ils sauront que de meilleures approximations peuvent
presque toujours être obtenues compte tenu d’un certain coût de calcul. Cer-
taines formes du bootstrap, qui dans sa version paramétrique ressemble fort
aux expériences Monte Carlo les plus conventionnelles sur lesquelles nous nous
sommes principalement concentrés, seront ainsi vraisemblablement utilisées de
façon automatique comme partie intégrante de nombreux articles empiriques.

Termes et Concepts
bootstrap méthode des centiles modifiée
bootstrap paramétrique méthodes Monte Carlo
développements asymptotiques module (pour générateur
(approximations en échantillon fini) congruentiel)
échantillon bootstrap multiplicateur (pour générateur
expérience Monte Carlo congruentiel)
fonction de distribution empirique nombres pseudo-aléatoires
(EDF) rééchantillonnage
générateur congruentiel (des nombres répétitions
pseudo-aléatoires) spécificité (problème de)
générateur congruentiel multiplicatif surface de réponse
générateur de nombres aléatoires techniques de réduction de variance
incrément (pour générateur valeur d’origine (pour générateur de
congruentiel) nombres aléatoires)
méthode Box-Muller variables antithétiques
méthode de rejet variables de contrôle
méthode de transformation variables pseudo-aléatoires
méthode des centiles