Ch21 Les Expériences de Monte Carlo

Chapitre 21
Les Expériences Monte Carlo
21.1 Introduction
La plupart des méthodes d’estimation et de test d’hypothèse discutées dans
ce livre ont des propriétés statistiques connues seulement asymptotiquement.
Ceci est vrai pour les modèles non linéaires de tous types, pour les modèles
d’équations simultanées linéaires, et même pour le modèle de régression
linéaire univarié dès que nous relâchons l’hypothèse forte de régresseurs fixes
ou l’hypothèse encore plus forte d’aléas normalement et identiquement dis-
tribués. Ainsi, dans la pratique, la théorie exacte en échantillon fini est
rarement valable pour interpréter des estimations ou des statistiques de test.
Malheureusement, à moins que la taille de l’échantillon ne soit effectivement
très grande, il est très difficile de savoir si la théorie asymptotique est suf-
fisamment précise pour nous permettre d’interpréter nos résultats en toute
confiance.
Il existe fondamentalement deux manières de gérer cette situation. La
première est d’affiner les approximations asymptotiques telles celles dérivées
dans ce livre en additionnant des termes d’ordre inférieur par rapport à la taille
de l’échantillon, n, termes qui sont typiquement O(n−1/2 ) ou O(n−1 ). On
fait référence à ces approximations plus raffinées en tant qu’approximations
en échantillon fini ou développements asymptotiques. C’est l’étude des pro-
priétés des estimateurs des modèles d’équations simultanées et des modèles
dynamiques linéaires univariés qui a permis de décrire le plus largement
l’approche des développements asymptotiques. Cette approche peut, dans
certains cas, fournir des éclaircissements utiles sur le comportement des esti-
mateurs et des statistiques de test. Malheureusement, elle implique souvent
des éléments mathématiques soit plus avancés soit plus pénibles que ne le
souhaiteraient la plupart des économètres. Cette méthode ne s’applique par-
fois qu’aux modèles relativement simples, et tend à produire des résultats
compliqués et très difficiles à interpréter, en partie parce qu’ils dépendent
souvent de paramètres inconnus. De plus, ces résultats ne sont eux-mêmes
que de simples approximations; même s’ils sont généralement meilleurs que
les approximations asymptotiques, ils peuvent ne pas être suffisamment
précis. De façon idéale, on voudrait pouvoir utiliser automatiquement les
développements asymptotiques, comme composante des applications de logi-
ciels d’économétrie, afin d’obtenir des intervalles de confiance et des tests
731
732 Les Expériences Monte Carlo
d’hypothèses plus précis que ceux, asymptotiques, discutés dans ce livre.

Malheureusement, cette situation idéale est peu fréquente, bien qu’un article
récent de Rothenberg (1988) nous ait peut-être redonné un peu d’optimisme.
Deux synthèses utiles des méthodes basées sur des développements asympto-
tiques sont Phillips (1983) et Rothenberg(1984). Une synthèse quelque peu
critique de la littérature est Taylor (1983).
La seconde approche, que nous exposons dans ce chapitre, consiste à
examiner les propriétés en échantillon fini des estimateurs et des statis-
tiques de test en utilisant les expériences Monte Carlo. Le terme “Monte
Carlo” est employé dans de nombreuses disciplines et fait référence aux
procédures où les quantités d’intérêt sont approximées en générant de nom-
breuses réalisations aléatoires d’un processus stochastiques quelconque et en
calculant une moyenne quelconque de leurs valeurs.1 Puisque cela est pra-
tiquement impossible à faire sans un ordinateur puissant, la littérature sur
les méthodes Monte Carlo est assez récente. L’approche des développements
asymptotiques nécessite une quantité de travail hautement qualifié très im-
portante. Par contraste, l’approche Monte Carlo, comme Summers (1965)
l’a souligné, est relativement intensive en capital. Elle économise du travail
qualifié en consommant un temps de calcul sur ordinateur important.
Dans les applications économétriques des méthodes Monte Carlo, les
grandeurs d’intérêt sont généralement des aspects variés des distributions des
estimateurs et des statistiques de test, tels la moyenne et l’erreur quadratique
moyenne d’un estimateur, le niveau d’une statistique de test sous l’hypothèse
nulle, ou la puissance d’une statistique de test sous une hypothèse alternative
quelconque. Hendry (1984) développe une étude provoquante. Cependant, la
plus grande part de la littérature portant sur les méthodes Monte Carlo ne
concerne pas spécifiquement la statistique ou l’économétrie mais également
les méthodes d’approximation des intégrales multiples ou des systèmes non
linéaires de simulation. Néanmoins, des références classiques telles que Ham-
mersley et Handscomb (1964), Rubinstein (1981), Kalos et Whitlock (1986),
Ripley (1987), et Lewis et Orav (1989) contiennent beaucoup d’éléments utiles.
Bien que les méthodes Monte Carlo soient souvent considérées comme
une alternative à l’approche des développements asymptotiques, les deux
approches doivent être plus justement considérées comme complémentaires.
Tout comme les expériences Monte Carlo peuvent être utilisées pour valider
des approximations asymptotiques, elles peuvent également être utilisées pour
valider des approximations basées sur des développements asymptotiques.
De plus, il existe de nombreuses situations où des développements asymp-
totiques peuvent s’utiliser pour analyser des cas spécifiques simples, tout en
portant son attention sur des problèmes qui nécessitent un examen pour des
cas plus généraux à l’aide d’expériences Monte Carlo. Cependant, puisque
1
Le terme a pour initiateurs Metropolis et Ulam (1949). S’il avait été créé un
tout petit peu plus tard, nous aurions pu parler de “méthode Las Vegas” à la
place de “méthode Monte Carlo.”
21.1 Introduction 733
les développements asymptotiques dépassent l’objectif de ce livre, nous ne

détaillerons pas davantage les manières de les utiliser conjointement aux
méthodes Monte Carlo.
Un article qui utilise typiquement les méthodes Monte Carlo en statis-
tique ou en économétrie présente des résultats à partir de plusieurs (peut-être
nombreuses) expériences Monte Carlo reliées. Chaque expérience implique
plusieurs éléments que le chercheur doit spécifier. Tout d’abord, il doit y avoir
un modèle économétrique, et un ensemble d’estimateurs ou de statistiques de
test associé au modèle. L’objet des expériences est d’examiner les propriétés
en échantillon fini de ces estimateurs ou statistiques de test. Ensuite, il doit
y avoir un processus générateur de données (DGP), qui est habituellement,
mais pas toujours, un cas particulier du modèle. Le DGP doit être spécifié
complètement. Ceci signifie que s’il y a des variables exogènes, elles ou leurs
distributions doivent être spécifiées, comme doivent l’être les distributions de
n’importe quel aléa. Chaque expérience se compose d’un nombre quelconque
de répétitions, que nous noterons N. Chaque répétition implique de générer
un seul ensemble de données à partir du DGP, et de calculer des estimateurs
ou statistiques de test d’intérêt. Typiquement, le nombre de répétitions est
très grand (N = 1000, 2000, 5000, et 10,000 sont des choix fréquents), mais il
peut parfois être plus petit, par exemple 50, si l’estimation prend beaucoup de
temps et des résultats précis ne sont pas nécessaires. Après que N répétitions
ont été opérées, on dispose de N observations sur chacun des estimateurs
ou statistiques de test d’intérêt, et cet échantillon généré peut être soumis à
l’analyse statistique pour calculer les estimations des quantités d’intérêt. Les
résultats de l’expérience Monte Carlo sont ainsi eux-mêmes des estimations,
et sont par conséquent associés à une erreur expérimentale. Cependant, nous
pouvons minimiser cette erreur de façon acceptable en concevant avec soin
l’expérience, en utilisant un nombre suffisamment grand de répétitions, et
peut-être en appliquant des techniques de réduction de variance (consulter
les Sections 21.5 et 21.6 qui suivent).
Comme la discussion précédente l’implique, il est rare de ne réaliser
qu’une seule expérience Monte Carlo. En effet, les chercheurs exécutent
généralement un ensemble d’expériences reliées, dans lequel la taille d’échan-
tillon n et d’autres aspects du DGP (tels que les valeurs paramétriques) sont
variés, afin de voir comment de telles variations affectent les estimateurs ou
statistiques de test d’intérêt. S’il n’y a que quelques expériences, les résultats
sont habituellement présentés sous la forme d’un tableau. Cependant, s’il y a
de nombreuses expériences, ce tableau peut comporter un très grand nombre
d’éléments, que les lecteurs peuvent juger difficile à assimiler. Une manière de
traiter un tel problème est d’estimer une surface de réponse, où les résultats de
chaque expérience sont traités comme une seule observation, et un modèle de
régression ajuste les quantités d’intérêt à la taille d’échantillon et aux autres
aspects du DGP qui varient selon l’expérience. De façon idéale, les estimations
de la surface de réponse résument les résultats des expériences et fournissent
une manière plus compacte et plus rapidement compréhensible de présenter

les résultats qu’une suite de tableaux ne le ferait. L’approche de la surface de
réponse sera discutée dans la Section 21.7.
Dans la suite de ce chapitre, nous discutons des caractéristiques im-
portantes des expériences Monte Carlo en économétrie. La plupart des
expériences Monte Carlo nécessitent un grand nombre de variables pseudo-
aléatoires, c’est-à-dire de nombres qui semblent être des tirages d’une distri-
bution de probabilité spécifiée quelconque. Dans les deux prochaines sections,
nous discutons brièvement de la façon de générer ces nombres sur ordinateur.
Dans la Section 21.4, nous aborderons d’autres aspects de conception d’un
ensemble d’expériences Monte Carlo. Dans les Sections 21.5 et 21.6, nous dis-
cutons des techniques de réduction de variance, qui sont souvent utilisées pour
accroı̂tre la précision des résultats pour un temps de calcul imparti. Dans la
section suivante, nous parlons de l’utilisation des surfaces de réponse. En-
fin, dans la Section 21.8, nous discutons brièvement de la méthode statistique
connue sous le nom de bootstrap, qui est très étroitement reliée aux méthodes
Monte Carlo.
21.2 Génération des Nombres Pseudo-Aléatoires

Chaque expérience Monte Carlo nécessite un grand nombre de variables
“aléatoires”, issues d’une ou plusieurs distributions préspécifiées. Par ex-
emple, considérons une petite expérience traitant d’un modèle de régression
comportant des régresseurs fixes. Supposons qu’il y ait 50 observations
pour 1000 répétitions. Pour une telle expérience, un total de 50,000 vari-
ables “aléatoires” serait nécessaire simplement pour générer les aléas. S’il
y avait trois régresseurs stochastiques, un complément de 150,000 variables
“aléatoires” serait nécessaire pour générer les régresseurs. Comme nous le
verrons dans la prochaine section, si nous pouvons trouver une manière
d’obtenir des nombres “aléatoires” uniformément distribués sur l’intervalle
0-1, noté U (0, 1), il est alors habituellement très facile d’obtenir des variables
“aléatoires” distribuées selon n’importe quelle distribution que nous spécifions.
Le problème fondamental consiste à obtenir les nombres “aléatoires” initiaux.
Bien qu’il soit possible d’acquérir de façon authentique des nombres aléatoires
au moyen d’observations physiques telles que la décomposition des isotopes
radioactifs, il serait extrêmement incommode de connecter son ordinateur à
un générateur de nombres physiques aléatoires, ou de lui faire lire un tableau
immense de nombres aléatoires collectés au préalable, à chaque fois que nous
avions à exécuter une expérience Monte Carlo! Ainsi, il est évident que si
les expériences Monte Carlo doivent être pratiques, il faut que l’ordinateur
puisse générer de manière autonome, rapidement et à moindre coût des nom-
bres “aléatoires”.
Dans le paragraphe précédent, les guillemets autour du mot “aléatoire”
insistaient sur le fait que ce dont nous avons besoin, pour lancer une expérience
21.2 Génération des Nombres Pseudo-Aléatoires 735
Monte Carlo, c’est une manière d’obtenir des nombres qui possèdent les mêmes
propriétés statistiques que des nombres aléatoires, plutôt que des nombres
véritablement aléatoires. En effet, aucun ordinateur n’est capable de générer
des nombres aléatoires authentiques, du moins pas s’il travaille correctement.
Mais les ordinateurs sont capables de générer des suites de nombres pseudo-
aléatoires, qui sont en fait purement déterministes. Les programmes qui
procèdent ainsi sont appelés générateurs de nombres pseudo-aléatoires ou,
plus communément mais de façon moins précise, simplement générateurs de
nombres aléatoires. Les nombres pseudo-aléatoires générés par un générateur
de nombres aléatoires performant sont, pour nos objectifs des expériences
Monte Carlo, indiscernables des suites de nombres aléatoires authentiques,
c’est-à-dire de véritables suites de tirages indépendants issus de la distribu-
tion U (0, 1).
Il existe de nombreuses manières de générer des nombres pseudo-aléa-
toires. Les plus communes sont des variantes du générateur congruentiel,
zt
ηt = , zt = (λzt−1 + α)(mod m), (21.01)
m
où ηt est le i ième nombre aléatoire généré, et zt est un entier positif. Le

générateur (21.01) dépend de trois paramètres: λ est appelé multiplicateur, α
l’incrément, et m le module. La notation (mod m) signifie que nous divisons
ce qui la précède par m et retenons le reste. Ainsi, zt doit être inférieur
à m, et ηt doit toujours être compris entre 0 et 1. Nous pouvons montrer
qu’un générateur congruentiel doit toujours se répéter en fin de compte, dans
au plus m étapes, de sorte que nous sélectionnerons un m aussi grand que
possible. Par conséquent, m prend souvent la valeur du plus grand entier qui
peut être représenté de façon exacte par un ordinateur particulier; il s’agit
fréquemment de 231 − 1. Avec ce choix de m, nous pourrions, en principe,
générer quelque chose comme plus de deux milliards de nombres aléatoires
avant que la suite ne se répète. Cependant, si m, λ, et α sont mal choisis, la
suite peut se répéter plus rapidement et peut présenter d’autres symptômes
de non stochasticité.
Le choix de l’incrément α n’est pas si important; une variante largement
utilisée de (21.01) est la classe des générateurs congruentiels multiplicatifs, où
α est nul. Cependant, le choix du multiplicateur λ est extrêmement important.
Certains choix sont connus pour mener à des générateurs dont le comporte-
ment est relativement bon, tandis que d’autres sont connus pour conduire à
de très mauvais générateurs. Pour plus de détails, consulter Kennedy et Gen-
tle (1980), Knuth (1981), Rubinstein (1981), Press, Flannery, Teukolsky, et
Vetterling (1986), Ripley (1987), L’Ecuyer (1988), et Lewis et Orav (1989).
La plupart du temps, les économètres qui effectuent une expérience
Monte Carlo n’auront pas besoin d’écrire leurs propres générateurs de nombres
aléatoires. S’ils utilisent un générateur efficace et de grande qualité, la seule
chose dont ils doivent se soucier est de savoir comment se procurer la valeur
d’origine, (seed (graine) en anglais) qui est la valeur initiale z0 nécessaire

pour générer z1 et qui, pour un générateur donné, détermine de façon unique
la suite entière des nombres aléatoires. La valeur d’origine peut être spécifiée
plus ou moins arbitrairement comme une valeur entière élevée inférieure à m,
ou choisie “de façon aléatoire” à l’aide de l’horloge du système. Quel que
soit le cas, elle devrait être enregistrée pour pouvoir répéter une expérience
si nécessaire. La valeur d’origine n’est fournie que lorsque le générateur est
lancé à partir d’un programme particulier. Après la première boucle, z0 est
remplacée par z1 , ensuite par z2 , et ainsi de suite. Donc, à chaque fois, le
programme stocke la valeur zt−1 pour calculer zt .
Malheureusement, dans la réalité et l’utilisation courante, les générateurs
de nombres aléatoires de mauvaise qualité sont nombreux, et il est sûrement
imprudent de se fier à un générateur qui n’a pas subi des tests variés. De tels
tests sont discutés dans la plupart des livres traitant des méthodes Monte
Carlo mentionnés auparavant; consulter aussi Fishman et Moore (1982).
Les tests que l’on souhaiterait exécuter dépendent de l’usage des nombres
aléatoires. Si le modèle étudié est un modèle de série temporelle, par exemple,
on voudrait être sûr qu’ils sont non soumis à une autocorrélation. Notons que
les mauvais générateurs de nombres aléatoires peuvent souvent être améliorés
en “mélangeant” des nombres qu’ils produisent ou en combinant plusieurs
programmes d’une manière quelconque. Par exemple, nous pourrions utiliser
deux programmes différents pour générer deux nombres aléatoires différents,
puis utiliser un troisième programme pour déterminer de façon aléatoire lequel
des deux choisir.
21.3 Générer des Variables Pseudo-Aléatoires

Une fois que l’on dispose d’un programme pouvant générer de longues suites
de nombres pseudo-aléatoires ηt , chacun étant apparemment distribué de
façon indépendante suivant une U (0, 1), les manières de générer des variables
pseudo-aléatoires qui apparaissent être des tirages de n’importe quelle distri-
bution désirée sont nombreuses. Nous examinerons deux techniques générales,
la méthode de transformation et la méthode de rejet, ainsi que des méthodes
spéciales variées qui s’appliquent à certains cas intéressants.
La méthode de transformation est basée sur le fait que l’espace d’arrivé
d’une fonction de répartition (c.d.f.) est l’intervalle 0-1. Ainsi, si u est dis-
tribuée selon la c.d.f. strictement croissante F (u), η = F (u) doit être dis-
tribuée selon U (0, 1). Pour tout η, nous pouvons inverser la c.d.f. et obtenir
u = F −1 (η). Pour obtenir une suite de ut distribuées selon F (u), nous
générons simplement une suite de ηt distribuées selon U (0, 1) et soumettons
chaque terme à la transformation F −1 (ηt ). C’est ce que montre la Figure
21.1. Comme nous le voyons d’après la figure, n’importe quelle valeur de η
sur l’axe vertical, telle que η ∗, est appliquée de façon unique par F −1 (η ∗ ) à
une valeur correspondante u∗ sur l’axe horizontal.
21.3 Générer des Variables Pseudo-Aléatoires 737
η
.............................
1.0 .......................
..
............
.
..
.....
........
0.8 ....
.. ...
...
η∗ .....
...
0.6 .....
...
.
....
..
....
.
0.4 .
...
.
....
...
.....
.
0.2 ....
..
.......
..... ...... u = F
∗ −1 ∗
(η )
......
..
...
...
...
...
. .....
.
.
...
...
...
...
... .
......
.
0.0 ...............................
.
.
..
u
−3 −2 −1 0 1 2 3
Figure 21.1 La méthode de transformation
La méthode de transformation fonctionne bien lorsque F −1 (·) n’est pas

difficile à calculer. C’est le cas avec la distribution exponentielle, dont la
fonction de densité de probabilité (p.d.f.) est
f (u) = θe−θu
(consulter la Section 8.1), et la c.d.f. correspondante est
F (u) = 1 − e−θu .
Si nous posons η égale à F (u) et résolvons, nous trouvons que

1
u = F −1 (η) = − log(1 − η).
θ
Ainsi, dans ce cas, la méthode de transformation peut facilement être utilisée
pour générer des variables pseudo-aléatoires distribuées selon la distribution
exponentielle.
La méthode de transformation peut être employée pour générer des vari-
ables pseudo-aléatoires normales, mais elle nécessite une certaine masse de
calculs parce qu’il n’existe aucune expression formelle proche de la c.d.f. de
la normale centrée réduite Φ(·) ou de son inverse Φ−1 (·). On utilise un algo-
rithme pour calculer numériquement cette dernière. Une technique alternative
largement utilisée est la méthode de Box-Muller de Box et Muller (1958). Elle
utilise le fait que si η1 et η2 sont des variables aléatoires indépendantes issues
de U (0, 1), alors les termes
¡ ¢1/2 ¡ ¢1/2
u1 = −2 log(η1 ) cos(2πη2 ) et u2 = −2 log(η1 ) sin(2πη2 )
sont des variables aléatoires indépendantes issues de N (0, 1). Consulter Ru-
binstein (1981) ou Press, Flannery, Teukolsky, et Vetterling (1986) pour une
démonstration. Le dernier livre discute également d’une version modifiée
de la méthode de Box-Muller qui devrait être plus rapide à calculer. Le
problème majeur avec la technique de Box-Muller est qu’elle repose forte-
ment sur l’indépendance de η1 et η2 . Si le générateur de nombres aléatoires
qui les produit n’est pas bon, ces variables peuvent manifester une certaine
dépendance, et les variables résultantes u1 et u2 peuvent ne pas être normales
ou indépendantes.
Si l’on est capable d’obtenir des variables pseudo-aléatoires à partir de
N (0, 1), il est immédiat d’obtenir des variables pseudo-aléatoires à partir de
N (µ, σ 2 ) ou à partir de la distribution normale multivariée avec n’importe
quel vecteur d’espérances µ et matrice de covariance Ω. Si u désigne un
vecteur de dimension l dont chaque élément est une variable pseudo-aléatoire
issue de N (0, 1), et si ψ est une matrice de dimension l × l (habituellement
triangulaire) telle que ψ>ψ = Ω, il est facile de voir que le vecteur v de
dimension l défini par
v ≡ µ + ψ>u
suivra la distribution N (µ, Ω). Des variables issues des distributions de

Cauchy, du chi-carré, du t de Student, de Fisher, sont également immédiate-
ment disponibles en exploitant simplement les relations entre ces distributions
et la distribution normale centrée réduite, et entre chacune d’elles (consul-
ter l’Annexe B). Par exemple, pour générer des variables aléatoires issues de
χ2 (5), nous pourrions générer 5 variables aléatoires à partir de N (0, 1), les
mettre au carré, et sommer leurs carrés. Cette méthode fonctionne bien tant
que le nombre de degrés de liberté est faible mais elle ne serait pas recom-
mandée pour générer des variables aléatoires à partir de, disons, F (65, 1743).
L’autre méthode fréquemment utilisée et largement applicable pour gé-
nérer des variables aléatoires est la méthode de rejet. Elle peut s’utiliser
chaque fois que la p.d.f. f (u) est connue. Dans sa version la plus simple, la
méthode de rejet nécessite que l’espace de départ de f (u) soit un intervalle
fini de la droite réelle, disons l’intervalle [α, β]. On commence par obtenir
deux variables aléatoires à partir de U (0, 1), disons η1 et η2 . La première est
transformée en ν1 , une variable aléatoire provenant de U (α, β), tandis que la
seconde est transformée en ν2 , une variable aléatoire provenant de U (0, h),
où h est un nombre au moins aussi grand que le maximum de f (u). Une fois
obtenues ν1 et ν2 , ν2 est comparée à f (ν1 ). Si ν2 excède f (ν1 ), la variable
aléatoire proposée ν1 est rejetée et une autre paire (ν1 , ν2 ) est tirée de la
distribution. Cependant, si ν2 est inférieure ou égale à f (ν1 ), ν1 est acceptée
et u lui est égale. Cette méthode est illustrée dans la Figure 21.2. Ici le point
(ν10 , ν20 ) fournit une valeur u, tandis que le point (ν11 , ν21 ) est rejeté.
Il est facile de voir pourquoi la méthode de rejet fonctionne correctement.
Bien que nous extrayions ν1 initialement à partir de U (α, β), nous l’acceptons
21.4 Conception des Expériences Monte Carlo 739
ν2
h
..................
...... ....
.. ...
..... ...
...
... ...
...
...
... • (ν11 , ν21 )
.
.. • (ν 0 , ν 0 ) ....
... 1 2 ...
...
... ...
...
.. ...
. ...
.... ...
.... ...
....
... ....
.. .....
.. .....
. ......
.. .......
..
. ... ..........
.........................
..
....
...
.. ............................................. ν1
0 .
...
.
α β
Figure 21.2 La méthode de rejet
seulement si ν2 < f (ν1 ), et la probabilité que ceci survienne est proportion-

nelle à f (ν1 ). Cette version de la méthode de rejet est naturellement quelque
peu inefficace, puisque nous devons générer, en moyenne, 2h(β − α) variables
aléatoires pour chaque u que nous obtenons réellement. Si la densité f (u) a
un sommet élevé, h sera grande. Si la densité a de longues queues, β − α sera
grand. Quel que soit le cas, 2h(β −α) sera grand, et la méthode peut se révéler
relativement inefficace. Dans une version plus générale de la méthode de rejet,
la constante h est remplacée par une fonction h(ν1 ), ν1 étant alors ¡issu d’une
¢
densité proportionnelle à h(ν1 ). Alors on peut assimiler ν2 à U 0, h(ν1 ) .
Pourvu que h(ν1 ) > f (ν1 ) partout sur [α, β], qui n’est plus forcément fini,
cette méthode est valable; pourvu qu’il soit facile de générer des variables
aléatoires ν1 avec une probabilité proportionnelle à h(ν1 ), et que l’aire sous
h(·) ne soit pas beaucoup plus grande que l’aire sous f (·), elle fonctionnera
efficacement. Notons que h(·) n’est pas à proprement parler une densité,
puisque h(ν1 ) doit être supérieure à f (ν1 ) pour tout ν1 et par conséquent
doit avoir une intégrale supérieure à l’unité; cependant, il peut être commode
de sélectionner une fonction h(·) proportionnelle à une densité bien connue
quelconque.
21.4 Conception des Expériences Monte Carlo

L’étape la plus délicate pour réaliser un ensemble d’expériences Monte Carlo
consiste habituellement à les concevoir. Les limites des possibilités de calcul,
le temps disponible de expérimentateur, et la quantité d’espace que l’on peut
raisonnablement consacrer à la présentation des résultats expliquent qu’il est
habituellement pratique d’exécuter seulement un petit nombre d’expériences.
Celles-ci doivent être conçues pour apporter autant d’information que possible
sur les problèmes qui nous intéressent.
La première chose à reconnaı̂tre est que les résultats issus des expériences
Monte Carlo sont nécessairement aléatoires. Au minimum, cela signifie que les
résultats doivent être exposés de telle manière que le lecteur apprécie l’étendue
du hasard expérimental. De plus, il est essentiel d’exécuter suffisamment de
répétitions pour que les résultats soient suffisamment précis pour le propos
étudié. Le nombre de répétitions nécessaire peut parfois être réduit de façon
substantielle en utilisant des techniques de réduction de variance dont nous
discuterons dans les deux prochaines sections. Cependant de telles techniques
ne sont pas toujours immédiatement disponibles. Dans cette section, nous
considérons d’autres aspects variés de la conception des expériences Monte
Carlo.
Nous considérons tout d’abord le problème qui consiste à déterminer
combien de répétitions exécuter. Par exemple, supposons que le chercheur
soit intéressé par le calcul du niveau d’une certaine statistique de test (c’est-
à-dire la probabilité de rejet de l’hypothèse nulle quand elle est vraie), di-
sons, au niveau nominal .05. Notons p cette quantité inconnue. Chaque
répétition générera une statistique de test qui excède ou pas la valeur critique
nominale. Celles-ci peuvent être assimilées à des tirages indépendants de la
loi de Bernoulli. Supposons que N répétitions soient exécutées et R rejets
obtenus. Alors l’estimateur évident de p, qui est aussi l’estimateur ML, est
R/N . La variance de l’estimateur est N −1 p(1 − p), et peut être estimée par
R(N − R)/N 3.
Supposons maintenant que l’on veuille que la longueur d’un intervalle de
confiance à 95% sur l’estimation de p soit approximativement .01. En utilisant
l’approximation normale de la binomiale, qui est ici sûrement valable puisque
N sera grand, nous voyons que l’intervalle de confiance doit s’étendre sur
2 × 1.96 = 3.92 écarts types. Par conséquent, nous avons besoin que
µ ¶1/2
p(1 − p)
3.92 = .01. (21.02)
N
En supposant que p soit .05, le niveau nominal du test étudié, nous pouvons
trouver la valeur de N en résolvant (21.02). Le résultat est N ∼ = 7299. Pour
prendre toutes les sécurités (puisque p peut bien excéder .05, impliquant une
forte variance pour R/N ), le chercheur choisirait probablement N = 8000.
Il s’agit d’un nombre plutôt grand de répétitions et il peut être très coûteux
à calculer. Si l’on désire laisser la longueur de l’intervalle de confiance à
95% de p à .02, on pourrait sélectionner un échantillon réduit au quart, ou
approximativement à 2000 répétitions.
Si l’objet d’une expérience est de comparer deux ou plusieurs estimateurs,
ou deux ou plusieurs statistiques de test, un nombre plus petit de répétitions
est nécessaire pour obtenir un niveau donné de précision par rapport à ce qui
serait nécessaire pour estimer les propriétés de ces estimateurs ou statistiques,

à niveau de précision identique. Supposons, par exemple, que l’on veuille
comparer deux estimateurs, disons θ̂ et θ̃, d’un paramètre dont la véritable
valeur est θ0 . A chaque répétition, disons la j ième , les réalisations de chacun
des deux estimateurs, disons θ̂j et θ̃j , sont obtenues. Les écarts types des
deux estimateurs sont
B(θ̂) ≡ E(θ̂ − θ0 ) et B(θ̃) ≡ E(θ̃ − θ0 ),
et peuvent être estimés par

N
X N
X
1 1
B̂(θ̂) = − (θ̂j − θ0 ) et B̃(θ̃) = − (θ̃j − θ0 ).
N N
j=1 j=1
La différence entre B(θ̂) et B(θ̃) est
E(θ̂ − θ0 ) − E(θ̃ − θ0 ) = E(θ̂ − θ̃), (21.03)
que l’on peut estimer par

N
X
1
− (θ̂j − θ̃j ). (21.04)
N
j=1
Il est possible et en effet vraisemblable que la variance de (21.04) sera sub-

stantiellement inférieure à la variance de B̂(θ̂) ou de B̃(θ̃), parce que θ̂j et θ̃j
dépendent du même vecteur pseudo-aléatoire uj. La variance de (21.04) est
1 1 2
− V (θ̂) + − V (θ̃) − − Cov(θ̂, θ̃),
N N N
qui sera inférieure à la variance de B̂(θ̂) ou de B̃(θ̃) lorsque Cov(θ̂, θ̃) est po-
sitive et suffisamment grande. Ceci sera très souvent le cas, puisqu’il est très
probable que θ̂j et θ̃j soient fortement positivement corrélés. Ainsi, beaucoup
moins de répétitions sont nécessaires pour estimer (21.03) que pour estimer
B(θ̂) et B(θ̃) à niveau de précision identique. Naturellement, ceci survien-
dra seulement si θ̂j et θ̃j sont obtenues avec le même ensemble de variables
pseudo-aléatoires, mais c’est exactement comme cela que l’expérience Monte
Carlo serait conçue. Nous rencontrerons une idée similaire à celle-ci lorsque
nous discuterons de la méthode des variables antithétiques dans la prochaine
section.
La seconde chose importante à garder à l’esprit quand on conçoit des
expériences Monte Carlo est que les résultats seront souvent très sensibles à
certains aspects de la conception expérimentale mais pratiquement ou totale-
ment insensibles à d’autres aspects. Evidemment, on voudra faire varier les
premiers à travers les expériences tout en fixant les derniers d’une manière
plus ou moins arbitraire. Par exemple, de nombreuses statistiques de test
reliées aux modèles de régression sont invariantes à la variance des aléas.

Considérons le t de Student pour α = 0 dans la régression
y = Xβ + αz + u. (21.05)
En utilisant le Théorème FWL et en supposant que les données sont générées

par un cas particulier de (21.05) pour lequel α = 0, nous voyons que
z>MX u
t(α̂) = ¡ ¢1/2 ¡ ¢1/2 , (21.06)
u>MX,z u/(n − k) z>MX z
où il y a n observations et un total de k régresseurs et, comme d’habitude, MX

et MX,z désignent les matrices qui projettent orthogonalement sur les sous-
espaces S⊥ (X) et S⊥ (X, z), respectivement. La distribution en échantillon fini
de cette statistique de test quand les ut ne sont pas normaux est généralement
inconnue et pourrait bien être le sujet d’une expérience Monte Carlo. Cepen-
dant, il est clair à partir de l’inspection de (21.06) que cette distribution ne
dépend en aucune manière de la variance des aléas qui composent le vecteur
d’aléas u dans le DGP, puisque si nous multiplions u par une constante po-
sitive quelconque, t(α̂) est inchangé. Ainsi, dans ce cas, nous pourrions tout
aussi bien fixer la variance des aléas à une certaine valeur arbitraire, puisqu’il
n’y aurait rien du tout à apprendre en la faisant varier. Breusch (1980) dis-
cute d’un certain nombre d’autres résultats d’invariance pour des modèles de
régression linéaire; en prenant en compte de tels résultats, on peut simplifier
dans de nombreux cas la conception des expériences Monte Carlo.
Par ailleurs, quand il y a une raison de s’attendre à ce que les résultats
soient sensibles à certains aspects du DGP, il est important de mener des
expériences dans lesquelles ces aspects varient dans toute la gamme des aspects
intéressants. Ces aspects du DGP qu’il faut faire varier doivent nécessairement
être différents selon les cas. La taille d’échantillon n sera typiquement l’un
d’eux, parce qu’il est presque toujours intéressant de voir avec quelle rapidité
les propriétés en échantillon fini des quantités examinées approchent leurs
limites asymptotiques (connues). Une exception à cela est le cas où le but de
l’expérience Monte Carlo est de détailler les propriétés d’un ensemble parti-
culier d’estimateurs ou de statistiques de test pour un ensemble de données
particulier, de telle sorte que l’expérience est utilisée comme complément d’une
partie d’un travail empirique (consulter la Section 21.8). Par contraste avec
cette situation, jusqu’à présent la plupart des expériences Monte Carlo ont été
conçues pour détailler les propriétés générales de certaines procédures statis-
tiques, et il est difficile d’imposer n’importe quelle sorte de généralité quand
tous les résultats sont relatifs à une seule taille d’échantillon.
La grande majorité des modèles qu’estiment les économètres consiste en
des modèles de régression ou des modèles proches des modèles de régression.
Ainsi, sauf dans quelques cas particuliers tels que les modèles chronologiques
purs, des variables conditionnantes (Xt ) sont habituellement présentes. La
manière dont celles-ci devraient être traitées dans les expériences Monte Carlo
n’est pas vraiment claire. Une approche consiste à générer les Xt d’une cer-
taine manière. Lorsque l’expérience traite des données en coupe transversale,
il est plus pratique de les générer à partir des distributions indépendantes des
lois uniforme, normale ou lognormale, alors que lorsque l’expérience traite des
données chronologiques, il est pratique de les générer à partir de processus
variés simples de série temporelles tels que AR(1), MA(1), et ARMA(1, 1),
à aléas normaux. On peut soit générer un nouvel ensemble de Xt pour
chaque répétition soit générer un seul ensemble de Xt utilisé dans toutes
les répétitions. La dernière méthode est moins coûteuse et se justifie si les
Xt sont supposés fixes dans les échantillons répétés, mais elle peut conduire
à des résultats qui dépendent des caractéristiques particulières de l’ensemble
particulier des Xt généré.
Une autre possibilité consiste à utiliser de véritables données économiques
pour les Xt . Si ces données sont choisies avec soin, cette approche peut
garantir que les Xt sont en fait typiquement celles qui apparaissent dans les
modèles économétriques. Cependant, cela pose le problème de la variation de
la taille d’échantillon. Si l’on utilise soit des données authentiques soit un seul
ensemble de données générées, la matrice n−1X>X variera avec la taille de
l’échantillon n. Ceci peut rendre la distinction des effets des variations de n
des effets des variations de n−1X>X difficile. Une solution à ce problème est
de sélectionner, ou de générer, un seul ensemble de Xt pour un échantillon de
taille m et de répéter ensuite ceux-ci autant de fois que nécessaire pour créer les
Xt pour les échantillons de tailles plus grandes. Ceci nécessite que n = cm,
où c est un entier. Des choix évidents pour m sont 50 et 100; n pourrait
ensuite être un entier quelconque multiple de 50 ou de 100. Naturellement,
le problème avec cette approche est que comme beaucoup de répétitions sont
exécutées, tous les résultats dépendront du choix de l’ensemble initial des Xt .
Dans de nombreux cas, la manière de choisir les Xt ne sera pas d’une
grande importance. Cependant, il existe des cas pour lesquels elle peut avoir
un impact substantiel sur les résultats. Par exemple, MacKinnon et White
(1985) ont utilisé les expériences Monte Carlo pour examiner la performance
en échantillon fini de différents estimateurs des matrices de covariance robustes
à l’hétéroscédasticité (HCCME; consulter la Section 16.3). Ils ont utilisé 50
observations sur de véritables données économiques pour les Xt , répétant
ces 50 observations autant que nécessaire pour chaque taille d’échantillon.
Comme Chesher et Jewitt (1987) l’ont montré plus tard, la performance des
estimateurs dépend crucialement des ht , c’est-à-dire des éléments diagonaux
de la matrice PX ; les performances des tests basés sur toutes la HCCME en
échantillon fini seront d’autant plus faibles que les ht les plus élevés seront
grands. Quand la matrice X est générée comme l’ont fait MacKinnon et
White, avec n = 50c, tous les ht doivent approcher zéro à un taux proportion-
nel à 1/c (et ensuite aussi à 1/n). Ainsi MacKinnon et White étaient assurés
de trouver une amélioration rapide des résultats au fur et à mesure que la
taille de l’échantillon augmentait. Par contraste, Cragg (1983), en réalisant

des expériences Monte Carlo sur un problème connexe (consulter la Section
17.3), a généré les Xt de façon aléatoire à partir de la distribution lognor-
male. Cette distribution possède une longue queue de droite et génère ainsi
de temps à autres des valeurs élevées pour quelques Xt . Celles-ci produisent
des valeurs relativement grandes de ht , et il en résulte que les valeurs les
plus grandes de ht tendent vers zéro à un taux beaucoup plus faible que 1/n.
Ainsi, comme l’analyse de Chesher-Jewitt l’aurait prédit, Cragg a trouvé que
la performance en échantillon fini n’a été améliorée que très légèrement quand
la taille de l’échantillon avait augmenté.
Plus récemment, Chesher et Peters (1994) ont montré que les distribu-
tions de nombreux estimateurs qui intéressent les économètres dépendent cru-
cialement de la manière dont les régresseurs sont distribués. Si les régresseurs
sont distribués symétriquement par rapport à leurs médianes, ces estima-
teurs auront des propriétés particulières qui ne sont pas valables en général.
Puisque les régresseurs utilisés dans les expériences Monte Carlo pourraient
bien être symétriquement distribués, il existe un risque que les résultats de
telles expériences puissent être sérieusement trompeurs.
Les exemples précédents devraient faciliter la compréhension de deux
éléments. Tout d’abord, la manière dont les Xt sont générés peut compter.
Les chercheurs devraient donc toujours réfléchir avec soin à la façon de générer
leurs Xt . En second lieu, une bonne compréhension théorique d’un problème
peut rendre les expériences Monte Carlo plus informatives et empêcher des
conclusions erronées qui peuvent provenir d’aspects apparemment mineurs de
la conception expérimentale.
Une des phases les plus ardues de n’importe quelle expérience Monte
Carlo consiste à présenter les résultats. Cette phase est souvent beaucoup
plus difficile qu’elle ne paraı̂t. Nous discutons ici brièvement de ces problèmes.
Une méthode parfois très utile, à savoir l’estimation des surfaces de réponse,
ne sera pas traitée ici mais sera largement discutée dans la Section 21.7.
Quand on présente les résultats sous forme de tableau, il est facile de
noyer le lecteur. En particulier si plusieurs estimateurs ou statistiques de
test doivent être comparés, il est important de rendre les comparaisons aussi
lisibles que possible. Par exemple, si l’on est intéressé par l’erreur quadratique
moyenne (MSE) de plusieurs estimateurs en compétition, il pourrait être bien
plus intéressant de présenter les résultats sous forme de ratios relatifs à un
cas de référence, plutôt que de présenter simplement les résultats pour chaque
estimateur séparément. Un estimateur relativement simple et bien connu
pourrait servir de référence, et les résultats de chacun des autres estimateurs
pourraient alors être présentés comme le ratio de la MSE de cet estimateur
par la MSE de l’estimateur de référence. Un tel tableau serait très lisible
parce que des nombres inférieurs à 1 indiqueraient une meilleure performance
que celle de la référence, tandis que des nombres supérieurs à 1 indiqueraient
des performances plus faibles. Pour éviter de présenter un grand nombre
21.5 Réduction de Variance: Variables Antithétiques 745
d’écarts types expérimentaux, ces ratios pourraient être marqués (en utilisant
des symboles tels que ∗, †, ou ∗∗) pour indiquer s’ils diffèrent de l’unité de
manière significative.
Les expérimentateurs présentent souvent simplement des tableaux de
moyennes estimées, de variances, et peut-être de coefficients d’asymétrie et
d’aplatissement pour plusieurs estimateurs ou statistiques de test différents.
Dans le cas des statistiques de test, les probabilités d’aire de queue, c’est-à-
dire les niveaux estimés, sont souvent également présentées. De tels tableaux
ne sont pas toujours très lisibles. Les méthodes graphiques de présentation
peuvent parfois être des alternatives très précieuses, bien qu’elles doivent être
utilisées avec modération en fonction de l’espace disponible. Dans le cas des
statistiques de test en compétition, on pourrait tracer des courbes de niveau-
puissance empiriques (consulter la Section 12.2) de plusieurs statistiques de
test sur les mêmes axes. Ceci montrera clairement si une quelconque statis-
tique de test a substantiellement un pouvoir plus ou moins fort que les autres
pour un niveau donné; Davidson et MacKinnon (1982) fournissent un exem-
ple. Dans le cas d’estimateurs en compétition, on peut simplement dessiner
les fonctions de distribution empiriques de tous les estimateurs sur les mêmes
axes, comme dans les Figures 7.1, 7.2, et 18.1. Les différences qualitatives ma-
jeures entre les estimateurs en compétition devraient alors être très claires.
En outre, étant facile à comprendre, cette approche simplifie le traitement
des estimateurs qui manquent de moments (tels que LIML). Pour ces estima-
teurs, les MSE peuvent bien entendu être extrêmement trompeuses; consulter
Sargan (1982).
21.5 Réduction de Variance: Variables Antithétiques

Comme nous l’avons vu, l’obtention de résultats suffisamment précis à partir
d’une expérience Monte Carlo peut parfois nécessiter le calcul d’un grand
nombre de répétitions. Ceci n’est pas toujours réalisable. Dans certains
cas, le nombre de répétitions nécessaire peut être réduit de manière si-
gnificative en utilisant certaines techniques de réduction de variance des
résultats expérimentaux. Dans la littérature économétrique, les techniques de
réduction de variance principalement étudiées sont l’utilisation des variables
antithétiques et des variables de contrôle. Nous discutons de la première
méthode dans cette section et de la suivante dans la prochaine section.
L’idée des variables antithétiques consiste à calculer deux estimations
différentes de la quantité d’intérêt de telle manière que les deux estimations
soient corrélées négativement. Leur moyenne sera ensuite substantiellement
plus précise que chacune d’elles prises individuellement. Supposons que l’on
veuille estimer une quantité quelconque θ, et que dans une seule expérience
Monte Carlo nous puissions obtenir deux estimateurs sans biais de θ, dis-
ons θ́ et θ̀. Ces deux estimateurs sont les variables antithétiques. Ensuite
l’estimateur pondéré
1
θ̄ = − (θ́ + θ̀) (21.07)
2
a la variance
1¡ ¢
V (θ̄) = − V (θ́) + V (θ̀) + 2Cov(θ́, θ̀) ,
4
où V (θ́) et V (θ̀) désignent les

¡ variances de
¢ θ́ et θ̀. Si Cov(θ́, θ̀) est négative,
V (θ̄) sera plus petite que 14 V (θ́) + V (θ̀) , qui est la variance que nous au-
rions obtenue avec le même nombre de répétitions pour estimer θ à partir
de deux expériences indépendantes. Ainsi l’intensité de l’avantage que nous
pouvons retirer en utilisant des variables antithétiques dépend de l’intensité
de la corrélation négative entre θ́ et θ̀.
Nous pourrions nous demander pourquoi θ́ et θ̀ doivent avoir la même
pondération dans le calcul de θ̄. Considérons alors l’estimateur pondéré
θ̈ ≡ wθ́ + (1 − w) θ̀.
Si nous annulons la dérivée de la variance de θ̈ par rapport à w, nous avons
V (θ̀) − Cov(θ́, θ̀)

w= ,
V (θ́) + V (θ̀) − 2Cov(θ́, θ̀)
qui est satisfaite en posant w = 21 lorsque V (θ́) = V (θ̀). Dans la plupart

des cas, les variances des deux estimateurs seront égales, de sorte que leur
attribuer un poids égal sera optimal.
Une manière d’implémenter la méthode des variables antithétiques dans
le cas des modèles de régression consiste à utiliser chaque ensemble d’aléas
généré deux fois, avec le signe opposé la seconde fois. Supposons, par exemple,
que nous désirions estimer la moyenne de l’estimation NLS α̂ de l’exposant
dans le modèle de régression non linéaire
yt = βXtα + ut . (21.08)
Pour chaque ensemble d’aléas uj, nous pourrions générer deux réalisations de
y, avec les i ième éléments
ýtj = βXtα + utj et ỳtj = βXtα − utj .
Nous pourrions alors estimer le modèle en utilisant chacun de ces deux en-
sembles de données, générer ainsi deux estimations différentes de α, άj et ὰj .
Aprés N doubles répétitions, nous pourrions alors construire l’estimateur
N
1 X¡ ¢
ᾱ = άj + ὰj ,
2N j=1
21.5 Réduction de Variance: Variables Antithétiques 747
qui est l’analogue de l’estimateur pondéré (21.07). La variance de ᾱ pourrait

alors être estimée par
1 X³1N ´2
−(άj + ὰj ) − ᾱ . (21.09)
N (N − 1) j=1 2
Puisque ᾱ est une simple moyenne de ᾱj ≡ 12 (άj + ὰj ) pour j = 1, . . . , N,

(21.09) est simplement l’estimation ordinaire de la variance d’une moyenne
d’échantillon.
Il est clair que cette méthode fonctionnera extrêmement bien dans le
cas des modèles de régression linéaires à régresseurs fixes. Pour le modèle
y = Xβ + u, la j ième double répétition donnerait
¡ ¢−1 ¡ ¢−1 ¡ ¢
β́ j = X>X X>ý j = X>X X> Xβ0 + uj et
¡ ¢−1 ¡ ¢−1 ¡ ¢
β̀ j = X>X X>ỳ j = X>X X> Xβ0 − uj .
Par conséquent, nous voyons que
1¡ j ¢
β̄ ≡ − β́ + β̀ j
2
³ ¡ > ¢−1 > j ¡ > ¢−1 > j´
1
= − β0 + β0 + X X X u − X X X u = β0 .
2
Ainsi, dans une seule double répétition, nous pourrions obtenir une réponse
sans erreur expérimentale. Ceci survient parce que β́ j et β̀ j sont parfaitement
corrélés négativement.
La corrélation négative parfaite des variables ne se produira pas en
général. Quand elle survient, le problème est habituellement tellement sim-
ple qu’il n’est pas nécessaire d’exécuter des expériences Monte Carlo (bien
que parfois une très petite expérience Monte Carlo, qui consiste juste en
une double répétition utilisant des variables antithétiques, puisse nous révéler
qu’un estimateur est sans biais plus facilement que ne le ferait une analyse
théorique). Cependant, une corrélation négative moins parfaite survient sou-
vent, et elle signifie que dans certains cas l’utilisation de variables antithétiques
peut grandement réduire le nombre de répétitions nécessaires pour estimer les
premiers moments d’un estimateur. Hendry et Trivedi (1972) ont utilisé la
technique pour étudier les estimateurs de certains modèles dynamiques, et
Mikhail (1972, 1975) l’a utilisée pour étudier certains estimateurs d’équations
simultanées.
Considérons à nouveau l’exemple (21.08). Nous avons mené une petite
expérience Monte Carlo basée sur cet exemple, avec un échantillon 50 obser-
vations, et un seul ensemble de Xt généré à partir de la distribution uniforme
sur l’intervalle (5, 15) et les paramètres α0 = 0.5, β0 = 1.0, et σ02 = 1.0 (ici σ02
Tableau 21.1 Moyennes et Ecarts Types des Estimations Monte Carlo
ά: 0.515960 (0.006709) β́: 1.019957 (0.016002)

ὰ: 0.488785 (0.006627) β̀: 1.088944 (0.016998)
ᾱ: 0.502372 (0.000425) β̄: 1.054451 (0.003404)
est la variance des ut , supposés normaux). Les résultats issus de 500 doubles
répétitions sont rapportés dans le Tableau 21.1.
Dans ce cas, les gains provenant de l’usage des variables antithétiques
sont apparemment très importants. L’écart type de ᾱ est 15.7 fois plus petit
que la moyenne des écarts types de ά et ὰ. Ceci signifie que ᾱ, qui est basé
sur 1000 répétitions, est aussi précis que l’estimation naı̈ve Monte Carlo basée
sur approximativement 246,000 répétitions! Les gains sont moins flagrants
dans le cas de β, mais ils sont encore très conséquents. L’écart type de β̄
est 4.8 fois plus petit que la moyenne des écarts types de β́ et β̀, ce qui
signifie qu’il est aussi précis qu’une estimation naı̈ve basée sur environ 23,500
répétitions. Du fait de la précision de ᾱ et β̄, nous pouvons voir que les NLS
produisent des estimations légèrement biaisées dans ce cas: les t de Student
pour les hypothèses nulles que les moyennes des estimations de α et β sont
les véritables valeurs 0.5 et 1.0 sont, respectivement, 5.58 et 16.00.
Bien que des variables antithétiques du type de celles décrites puissent
réellement réduire le nombre de répétitions Monte Carlo nécessaires pour
préciser les estimations des moyennes des estimateurs, il n’existe aucune aide
possible pour estimer de nombreuses autres caractéristiques de leurs distri-
butions. Par exemple, dans le cas OLS discuté au préalable, la matrice de
covariance estimée des β́ j est
N
X
1 ¡ j ¢¡ ¢
− β́ − β0 β́ j − β0 >,
N
j=1
et la matrice de covariance estimée des β̀ j est

N
X
1 ¡ j ¢¡ ¢
− β̀ − β0 β̀ j − β0 >.
N
j=1
Il est facile de voir que

¡ j ¢¡ ¢ ¡ ¢−1 ¡ ¢−1
β́ − β0 β́ j − β0 > = X>X Xuj (uj )> X>X
¡ ¢−1 ¡ ¢−1
= X>X X(−uj )(−uj )> X>X
¡ ¢¡ ¢
= β̀ j − β0 β̀ j − β0 >.
21.6 Réduction de Variance: Variables de Contrôle 749
Ainsi les matrices de covariance estimées des deux variables antithétiques

seront identiques. Alors, du point de vue de l’estimation de la matrice de
covariance de l’estimateur, la seconde variable antithétique ne fournit aucune
information utile. Dans une situation réaliste, les matrices de covariance des
deux variables antithétiques ne seront jamais corrélées à la perfection, mais
pourront être corrélées positivement. L’estimation antithétique de la matrice
de covariance sera par conséquent moins efficace que l’estimation naı̈ve basée
sur le même nombre de répétitions.
21.6 Réduction de Variance: Variables de Contrôle

La seconde technique largement utilisée pour la réduction de variance con-
siste à employer des variables de contrôle. Une variable de contrôle est une
variable aléatoire dont la distribution (ou du moins certaines propriétés de la
distribution) est connue et corrélée avec l’(es) estimateur(s) ou la(les) statis-
tique(s) de test étudiés. La première propriété qu’une variable de contrôle
doit posséder est une moyenne de population connue. La divergence entre
la moyenne d’échantillon de la variable de contrôle dans l’expérience et sa
moyenne de population connue est ensuite utilisée pour améliorer les estima-
tions de l’expérience Monte Carlo. Ceci fonctionne évidemment mieux si la
variable de contrôle est fortement corrélée aux estimateurs ou aux statistiques
de test de l’expérience concernée.
Typiquement, les variables de contrôle sont des statistiques qui ne pour-
raient jamais être calculées dans la pratique mais qui peuvent l’être dans le
cadre d’une expérience Monte Carlo, parce que le DGP est connu. Par exem-
ple, supposons que l’expérience concerne les estimations de β à partir d’un
modèle de régression non linéaire à aléas normaux,
y = x(β) + u, u ∼ N (0, σ 2 I),
où x(β) ne dépend que de β et des régresseurs fixes ou du moins indépendants

de u. Nous avons vu dans la Section 5.4 que
¡ ¢−1
n1/2 (β̂ − β0 ) = n−1X0>X0 n−1/2 X0>u + o(1).
Ainsi il est naturel de considérer l’utilisation du vecteur

¡ ¢−1
β̈ = X0>X0 X0>u
comme une source de variables de contrôle. Ce vecteur sera bien évidemment

normal avec un vecteur d’espérances nulles et une matrice de covariance
σ02 (X0>X0 )−1. Il serait impossible de calculer β̈ à partir d’un ensemble de
données réelles, mais dans le cadre d’une expérience Monte Carlo, cela est
parfaitement réalisable. Nous connaissons β0 et par conséquent X0 ≡ X(β0 ).
Ces vecteur et matrice connus, et avec le vecteur d’erreur uj généré à chaque

répétition, nous pouvons facilement calculer β̈ j.
Supposons que θ ≡ θ(β̂) soit une quantité scalaire quelconque dont nous
désirons calculer la moyenne en utilisant les résultats de l’expérience Monte
Carlo. Par exemple, si nous étions intéressés par le biais de β̂2 , θ serait
β̂2 − β20 ; si nous étions intéressés par l’erreur quadratique moyenne de β̂3 , θ
serait (β̂3 − β30 )2 ; si nous étions intéressés par le niveau d’un test, θ serait 1
si le test rejetait l’hypothèse et 0 sinon; et ainsi de suite. A chaque répétition,
nous obtenons tj , une réalisation de θ, égale à θ(β̂ j ). Nous obtenons également
une variable de contrôle τj , qui serait normalement une certaine fonction de
β̈. Les τj doivent avoir une moyenne nulle et une variance finie, qui peut
être inconnue. Si nous sommes intéressés par le biais de β̂2 , par exemple, le
choix naturel pour τ serait β̈2 − β20 . Cependant, dans certains autres cas,
il n’est pas évident de savoir comment choisir τ , et il peut exister plusieurs
choix possibles.
Si la variable de contrôle τ n’était pas disponible, nous estimerions θ par
N
X
1
θ̄ ≡ − tj ,
N
j=1
et cet estimateur naı̈f aurait une variance V (θ̄) = N −1 V (t), qui pourrait être
estimée par
XN
1 ¡ ¢2
V̂ (θ̄) = tj − θ̄ .
N (N − 1) j=1
Quand la variable de contrôle τ est disponible, θ̄ ne sera plus optimale dans

la plupart des cas. Considérons alors l’estimateur de la variable de contrôle
(CV)
θ̈(λ) ≡ θ̄ − λτ̄ , (21.10)
où τ̄ est la moyenne d’échantillon des τj . Cet estimateur implique de soustraire
à θ̄ un certain multiple λ de la moyenne d’échantillon des variables de contrôle;
le choix de λ sera discuté dans le prochain paragraphe. En moyenne, ce qui
est soustrait sera nul, puisque τj a une moyenne de population nulle. Ceci
implique que θ̈(λ) doit avoir la même moyenne de population que θ̄. Mais, dans
n’importe quel échantillon donné, la moyenne des τj sera non nulle. Si, par
exemple, elle est positive, et si τj et tj sont fortement corrélés positivement, il
est très probable que θ̄ excédera également sa moyenne de population. Ainsi,
en soustrayant à θ̄ un multiple de la moyenne des τj , nous aurons de fortes
chances d’obtenir une meilleure estimation de θ.
La variance de l’estimateur CV (21.10) est
¡ ¢
V θ̈(λ) = V (θ̄) + λ2 V (τ̄ ) − 2λCov(θ̄, τ̄ ). (21.11)
Il est facile de minimiser cette expression par rapport à λ. La valeur optimale

de λ se trouve être
Cov(θ̄, τ̄ )
λ∗ = . (21.12)
V (τ̄ )
En substituant (21.12) dans (21.11), la variance de θ̈(λ∗ ) est
¡ ¢ Cov(θ̄, τ̄ )2
V θ̈(λ∗ ) = V (θ̄) − = (1 − ρ2 )V (θ̄), (21.13)
V (τ̄ )
où
Cov(θ̄, τ̄ )
ρ≡ ¡ ¢1/2
V (τ̄ )V (θ̄)
est la corrélation entre les tj et les τj . A partir de (21.13), il est clair qu’à
chaque fois que cette corrélation n’est pas nulle, il y aura un certain avantage à
utiliser la variable de contrôle. Si la corrélation est forte, l’avantage peut être
très important. Par exemple, si ρ = 0.95, la variance de θ̈(λ∗ ) sera 0.0975 fois
la variance de θ̄. L’utilisation de la variable de contrôle sera alors équivalente
à accroı̂tre le nombre de répétitions par un facteur de 10.26.
Quand la taille d’échantillon n augmente, la corrélation entre la variable
de contrôle et la quantité d’intérêt devrait augmenter, parce que la distribu-
tion en échantillon fini de cette dernière devrait s’approcher de sa distribu-
tion asymptotique quand n augmente. Par conséquent, le gain d’efficacité
provenant de l’utilisation de la variable de contrôle devrait être d’autant
plus important que n est grand. Ceci est commode parce que le coût de
réalisation des expériences Monte Carlo est souvent presque proportionnel à
nN, et l’efficacité croissante de l’estimation quand n augmente permettra de
réduire N dans le même temps.
Même si V (τ̄ ) sera souvent connue, Cov(θ̄, τ̄ ) ne le sera presque jamais.
Ainsi, nous aurons généralement à estimer λ∗ d’une manière quelconque. Une
littérature fournie sur les méthodes Monte Carlo — par exemple, Hammersley
et Handscomb (1964) et Hendry (1984) — ne cherche pas à utiliser λ∗ mais pose
au contraire λ = 1. A partir de (21.12) et de la définition de ρ, nous voyons
que
µ ¶1/2
∗ V (θ̄)
λ =ρ .
V (τ̄ )
Ceci implique que λ = 1 sera un bon choix si ρ est proche de 1 et V (θ̄) proche
de V (τ̄ ), mais ce choix n’est pas le meilleur en général. Dans de nombreux
cas, ρ peut être significativement inférieur à 1 mais encore suffisamment grand
pour rendre intéressante l’utilisation des variables de contrôle, et dans d’autres
cas V (τ̄ ) peut ne pas être proche de V (θ̄) quand on utilise la définition la plus
naturelle de τ . Ainsi, nous préférerions, en général, estimer λ∗. La manière la
plus facile d’y parvenir est d’exécuter la régression
tj = θ + λτj + résidu. (21.14)
Comme la notation le suggère, cette régression ne fournit pas seulement une

estimation de λ∗ mais également une estimation de θ. Cette dernière est en fait
asymptotiquement équivalente à θ̈(λ∗ ). Ainsi, comme nous allons maintenant
le montrer, la régression (21.14) fournit une manière remarquablement simple
de calculer un estimateur CV asymptotiquement optimal.
L’estimation OLS de λ à partir de (21.14) est
¡ ¢−1 >
λ̂ = τ >Mι τ τ Mι t,
où t, τ , et ι sont des vecteurs d’éléments types tj , τj , et 1, et Mι est la

matrice I − ι(ι>ι)−1 ι> qui calcule les écart types provenant de la moyenne. Il
est facile de voir que λ̂ est juste la covariance d’échantillon de t et τ , divisée
par la variance d’échantillon de τ . C’est donc la contrepartie empirique de λ∗.
Comme les résidus d’une régression linéaire avec un terme constant doivent
avoir une somme nulle, l’estimation OLS de θ peut être écrite comme
θ̂ = θ̄ − λ̂τ̄ .
Ceci montre clairement que l’estimation OLS θ̂ est égale à θ̈(λ̂). Puisque λ̂
converge vers λ∗ sous des hypothèses plutôt faibles, θ̂ sera asymptotiquement
équivalente à θ̈(λ∗ ).
L’exécution de la régression (21.14) ne fournit pas seulement l’estimation
CV θ̂ mais aussi une estimation de la variance de cette estimation, dont nous
avons besoin pour calibrer la précision des résultats et décider si N est suff-
isamment grand. Cette variance estimée est
¡ ¢−1
σ̂ 2 ι>Mτ ι ,
où σ̂ est l’écart type de la régression (21.14). Ici, le second facteur doit tendre
vers N −1, puisque τ (parce qu’il a une moyenne nulle) n’a pas asymptotique-
ment de pouvoir explicatif sur ι. Par conséquent, N −1 σ̂ 2 serait aussi une
estimation valable de la variance de θ̂. Puisque σ 2 est la variance de la partie
des tj qui ne peut être expliquée par les τj , il est clair que la précision de
l’estimation CV θ̂ sera d’autant meilleure que l’ajustement de la régression
(21.14) sera bon.
Une fois énoncé le problème en termes de la régression (21.14), il de-
vient clair que le lien entre θ et les τj n’est pas forcément étroit. N’importe
quelle variable aléatoire qui peut être calculée avec tj peut être utilisée comme
variable de contrôle pourvu qu’elle soit corrélée à tj (soit positivement, soit
négativement) et ait une moyenne nulle, une variance finie, et une covariance
finie avec tj . Puisque c’est le cas, il peut exister plus d’un choix naturel pour τ
dans de nombreuses situations. Heureusement, la formulation du problème en
régression linéaire rend évidente la manière de traiter des variables de contrôle
multiples. La généralisation appropriée de (21.14) est
t = θι + T λ + résidus, (21.15)
où T est une matrice de dimension N ×c, dont chaque colonne se compose des
observations sur une des c variables de contrôle. Puisque toutes les colonnes
de T ont une moyenne nulle, l’estimation OLS de θ à partir de cette régression
fournira encore une fois l’estimation que nous cherchons.2 Cette estimation
est ¡ ¢−1
θ̂ = ι>MT ι ι>MT t,
où MT = I − T (T >T )−1 T >. Puisque N −1 ι>MT ι tend vers l’unité quand N
tend vers l’infini, il est facile de voir que la variance de θ̂ est encore une fois
N −1 σ 2 , où σ est le véritable écart type de la régression (21.15). Ainsi, notre
objectif dans le choix des variables de contrôle consiste à rendre l’ajustement
de la régression (21.15) aussi bon que possible.
Supposons que nous soyons intéressés par le niveau p d’un test quel-
conque, qui correspond à la probabilité que le test rejettera l’hypothèse nulle
quand elle est vraie. Nous obtenons N observations Tj sur la statistique de
test et N observations sur une variable de contrôle Cj de distribution connue.
Construisons une variable 0-1 tj de telle sorte que tj = 1 si Tj excède une
certaine valeur critique et que tj = 0 sinon. Alors la moyenne des tj est une
estimation naı̈ve de p. Davidson et MacKinnon (1981b) et Rothery (1982)
ont considéré ce problème en détail et proposé une méthode d’utilisation de
la variable de contrôle pour estimer p basée sur la méthode du maximum
de vraisemblance. Il en ressort que leur estimateur est identique à celui de
l’estimateur OLS de θ issu de la régression (21.14), où τj est une variable
égale à 1 − s quand Cj excède la valeur critique pour un test de niveau s, et
−s sinon. Puisque la probabilité que Cj excédera la valeur critique est s, τj
définie de cette manière a manifestement une moyenne de population nulle.
Cette technique nécessite un choix de s. Comme nous désirons maximiser la
corrélation entre les tj et les τj , il semble logique d’assimiler s au nombre de
rejets réellement observés avec Tj . Quoi qu’il en soit, le choix des valeurs
critiques est forcément arbitraire.
Laisser τj prendre seulement deux valeurs ne peut pas être optimal,
puisque nous perdons une certaine information dans les Cj . On pourrait tout
aussi simplement utiliser n’importe quelle fonction de Cj moins sa moyenne
pour τj , fonction de nous savons fortement corrélée à tj . Vue l’étendue des
possibilités, il semblerait naturel d’utiliser plus d’une d’entre elles. Par ex-
emple, si nous savons que Cj est distribuée suivant la N (0, 1), et sommes
intéressés par un test bilatéral, on pourrait utiliser Cj2 − 1 comme variable
de contrôle. Elle sera d’espérence nulle, puisque l’espérance d’une variable
aléatoire du χ2 (1) est 1, et elle devrait être corrélée à tj . On pourrait tout
2
Il est intéressant d’observer que la régression (21.15) est formellement la même
que la régression (16.63), la version de Tauchen (1985) de la régression de test
OPG. Les deux régressions fournissent une manière d’estimer efficacement la
moyenne de la régressande en tenant compte de la corrélation entre elle et les
autres régresseurs, asymptotiquement orthogonaux au terme constant.
aussi bien l’utiliser avec une ou plusieurs variables de contrôle binaires du type
décrit précédemment. L’expérience suggère que l’utilisation de plusieurs vari-
ables de contrôle produit généralement une estimation plus précise de θ que
lorsqu’il n’y en a qu’une seule. Dans la pratique, il est facile d’expérimenter
des variables de contrôle diverses en examinant celles qui sont significatives
dans la régression (21.15).
L’emploi des régressions (21.14) et (21.15) a été préconisé pendant un
certain temps dans la littérature de recherche opérationnelle; consulter Laven-
berg et Welch (1981) et Ripley (1987). Ces procédures ont été exposées
et développées dans Davidson et MacKinnon (1993), lesquels ont montré
comment les utiliser pour l’estimation des quantiles aussi bien que pour
l’estimation des moments et des aires de queues, ainsi que la façon de constru-
ire les τ approximativement optimaux dans plusieurs cas d’intérêt. En partic-
ulier, pour l’estimation des niveaux et des puissances de test, une manière fut
proposée pour construire des variables de contrôle plus intelligemment, mais
plus difficilement, qu’avec la manière à deux valeurs discutée précédemment.
Pour illustrer l’usage des variables de contrôle, nous considérerons un

exemple simple discuté par Hendry (1984). Il s’agit du modèle AR(1) station-
naire à aléas normaux:
yt = βyt−1 + ut , ut ∼ N (0, σ 2 ), t = 1, . . . , n. (21.16)
Nous supposons que |β| < 1, qui correspond à la condition
¡ de stationnarité,
¢ et
2 2
que y0 = 0. La stationnarité implique que yt ∼ N 0, σ /(1 − β ) . Supposons
que nous soyons intéressés par la moyenne de β̂, l’estimation OLS de β. Il
est facile de voir qu’à la fois la valeur de β̂ et sa distribution de probabilité
sont invariantes à la valeur de σ dans le DGP, disons σ0 , mais que ses pro-
priétés peuvent bien dépendre à la fois de β0 et de la taille d’échantillon n.
Une recherche sérieuse s’attacherait par conséquent à déterminer le type de
dépendance de la moyenne de β̂ à β0 et n; consulter la Section 21.7 qui suit.
Puisque nous sommes ici beaucoup intéressés par l’illustration de l’utilisation
des variables de contrôle, nous ne considérerons que quelques cas particuliers.3
L’estimation OLS β̂, en supposant y0 connue, est
Pn
t=1 yt yt−1
β̂ = P n 2
.
t=1 yt−1
Sous le DGP caractérisé par β0 , ceci devient

Pn Pn
t=1 (β 0 yt−1 + ut )yt−1 t=1 ut yt−1
Pn 2
= β0 + P n 2
. (21.17)
t=1 yt−1 t=1 yt−1
3
Notons que, bien que (21.16) ressemble à un modèle de régression, des variables
antithétiques ne sont pas utiles ici. Si l’on génère deux ensembles de données
avec des vecteurs de perturbations u et −u, les estimations de β obtenues sont
identiques.
Tableau 21.2 Estimations CV et Naı̈ves de la Moyenne de β̂
β0 n Naı̈ve λ̂ CV Optimale
0.1 25 0.091814 (0.001932) 0.927 0.091461 (0.000548)

0.1 100 0.096499 (0.000978) 0.982 0.097889 (0.000140)
0.1 400 0.099731 (0.000502) 0.995 0.099499 (0.000036)
0.5 25 0.465589 (0.001745) 0.934 0.464972 (0.000666)
0.5 100 0.490394 (0.000876) 0.982 0.490013 (0.000182)
0.5 400 0.497774 (0.000439) 0.991 0.497430 (0.000048)
0.9 25 0.843872 (0.001188) 0.958 0.843656 (0.000841)
0.9 100 0.882824 (0.000497) 0.987 0.882975 (0.000246)
0.9 400 0.895824 (0.000228) 0.992 0.895530 (0.000066)
Bien que le numérateur du second terme du membre de droite de (21.17)

ait une moyenne nulle, il n’est pas indépendant du dénominateur, et donc
E(β̂) 6= β0 . Cependant, la théorie asymptotique nous dit que β̂ est conver-
a
gente et asymptotiquement normale, puisque n1/2 (β̂ − β0 ) ∼ N (0, 1 − β02 ).
Considérons maintenant la variable de contrôle
n
X
−1/2
τ =n ut yt−1 , (21.18)
t=1
qui, à partir de (21.17), est n−1/2 fois le numérateur de la partie stochastique

de β̂. La distribution en échantillon fini de la variable de contrôle τ définie
dans (21.18) n’est pas simple. Cependant, il est facile de voir que τ a une
moyenne nulle. Pourvu que |β| < 1, il est également facile de vérifier que
τ a une variance finie σ04 /(1 − β02 ). Ainsi, il est légitime d’utiliser τ comme
variable de contrôle. A partir de (21.17), il est clair qu’asymptotiquement la
corrélation entre τ et β̂ −β0 sera unitaire. Par conséquent, il est vraisemblable
qu’il y ait une forte corrélation positive en échantillon fini.
Les résultats des 10,000 répétitions pour trois valeurs de β0 et trois
valeurs de n sont présentés dans le Tableau 21.2. Pour chaque β0 et chaque
taille d’échantillon, nous présentons deux estimations de la moyenne de β̂:
l’estimation naı̈ve qui n’utilise pas de variable de contrôle, et l’estimation CV
optimale basée sur l’équation (21.14). Le tableau donne aussi la valeur de λ
implicitement utilisée pour calculer cette dernière quand τ est transformé de
telle sorte qu’il a la même variance, asymptotiquement, que β̂. Les écarts
types estimés apparaissent entre parenthèses. Nous voyons que, comme cela
est bien connu, l’estimateur OLS de β est toujours biaisé vers zéro et que
le biais décline fortement quand n augmente. Nous voyons également que
l’avantage provenant de l’utilisation de la variable de contrôle varie nettement
0.005
................... ............ ... . .............
.. ....... ..... ..................... ... .
.. .... ........ ..... ....
0.004 .. ... .. ............ Estimations naı̈ves
. ................. .
. ...........
..................
...... .....
.... ....
0.003 .......
... ..
.. ........
...
......
...
0.002 Estimations par variable de contrôle . .. .... ..
................... .................. .................
..
.. ..
. .
.............
. ... ....... ......... .... ...
.
.. .
. ...
...
...
....
...
.. .
...
............................................ ... . ..... ...
...
. . .
.......................... .... ... ... .. ...
0.001 ...
.......... ...
.
β0 = 0.9999 .
.
...
..
...
.
. .
..
..
..
...
..
... . . .
0.000 β0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Figure 21.3 Écarts type estimés des biais estimés, n = 25
d’un cas à l’autre. Pour un β0 donné, le gain proportionnel augmente avec n.

Pour un n donné, il décroı̂t quand β0 approche un. Dans le meilleur des cas
(n = 400, β0 = 0.1) le recours à la variable de contrôle a le même effet que
l’augmentation de N de 10,000 à 1.9 million, tandis que dans le pire des cas
(n = 25, β0 = 0.9) il a l’effet d’une augmentation de N légèrement en dessous
de 20, 000. Il est intéressant de noter que les valeurs de λ̂ sont toujours assez
élevées, devenant très proches de 1 pour n = 400. Evidemment, il serait un
peu plus coûteux de poser λ = 1 dans cet exemple.
L’intensité de l’utilité des variables de contrôle dépendra souvent dans
la pratique des valeurs paramétriques. Ceci est explicitement illustré dans la
Figure 21.3, qui montre les écarts types estimés des estimations des variables
naı̈ve et de contrôle de β, pour 101 valeurs de β0 allant de zéro à 0.9999 avec
des intervalles de 0.01. Nous avons utilisé 0.9999 comme limite supérieure
plutôt que 1.0, parce que les données étaient générées suivant l’hypothèse de
stationnarité. Les résultats pour l’intervalle allant de zéro à −0.9999 seraient
identiques. Chaque estimation est basée sur 2000 répétitions, les irrégularités
évidentes sur la figure traduisent l’erreur expérimentale dans l’estimation des
écarts types. Il est très clair à partir de la figure que, pour la plupart des
valeurs de β0 , les estimations CV sont beaucoup plus efficaces que les estima-
tions naı̈ves. Cependant, quand β0 → 1, les deux ensembles d’estimations,
et en particulier les estimations naı̈ves, deviennent soudainement plus effi-
caces, et il n’existe virtuellement aucun élément permettant de choisir entre
les estimations CV et les estimations naı̈ves pour β0 > 0.98. Ceci explique
pourquoi les variables de contrôle n’ont pas été employées dans les expériences
Monte Carlo destinées à déterminer les distributions des statistiques de test
de racines unitaires et de cointégration (voir les Sections 20.3 et 20.6).
On pourrait très bien être intéressé par d’autres aspects des estimations
OLS de β en plus de leur moyenne. Une possibilité, par exemple, est leur
erreur quadratique moyenne. Dans ce cas, l’usage de (21.18) comme variable
de contrôle n’est plus naturel, mais il semble plausible d’utiliser
n
X
1 ¡ ¢2 σ04
−
n
ut yt−1 − , (21.19)
t=1
1 − β02
puisqu’elle mesure la variance du numérateur de la partie stochastique de β̂.

Une autre variable de contrôle possible est
n
X
1 2 σ02
−
n
yt−1 − , (21.20)
t=1
1 − β02
qui est le dénominateur de la partie stochastique de β̂, moins sa moyenne.

L’expression (21.20) n’a pas été mentionnée plus tôt comme variable de
contrôle possible parce qu’elle s’est révélée complètement inutile dans la
régression de la variable de contrôle pour la moyenne de β, mais il s’avère
qu’elle est utile dans ce cas.
Le Tableau 21.3 rapporte des estimations naı̈ves et deux ensembles d’esti-
mations CV de l’erreur quadratique moyenne de β̂, pour un découpage iden-
tique à celui du Tableau 21.2. L’usage d’une variable de contrôle unique,
(21.19), fournit généralement des estimations plus précises que la non utili-
sation de variable de contrôle; l’usage de deux variables de contrôle, (21.19)
et (21.20), fonctionne toujours mieux que l’usage d’une seule. Cependant,
les gains relatifs à l’estimateur naı̈f sont toujours inférieurs à ceux obtenus
lorsque l’on a estimé la moyenne; comparer avec le Tableau 21.1. Cela illus-
tre le résultat général selon lequel les variables de contrôle tendent à être les
plus utiles pour l’estimation des moyennes et progressivement de moins en
moins utiles pour l’estimation des moments supérieurs; consulter Davidson et
MacKinnon (1993).
Etant donnée la forte variabilité des gains découlant de l’usage des vari-
ables de contrôle, il peut être judicieux dans les cas où les coûts de calcul sont
importants d’adapter le nombre de répétitions N . On pourrait déterminer
au préalable le niveau de précision acceptable pour des quantités diverses à
estimer, puis calculer ces quantités pour une valeur initiale relativement faible
de N (peut-être 500), et utiliser ces résultats initiaux pour estimer le nombre
de répétitions nécessaires pour obtenir des écarts types suffisamment faibles.
Alternativement, on pourrait calculer des écarts types des quantités d’intérêt
après quelques centaines de répétitions, en s’arrêtant quand ils sont suffisam-
ment faibles. Dans la pratique, peu d’expériences Monte Carlo ont été conçues
de cette manière; N est généralement fixé préalablement, et la précision des
estimations est simplement ce qu’il en ressort.
Tableau 21.3 Estimations CV et Naı̈ves de la MSE de β̂
β0 n Naı̈ve Une Vble de Contrôle Deux Vbles de Contrôle
0.1 25 .03739 (.510 × 10−3 ) .03720 (.317 × 10−3 ) .03728 (.272 × 10−3 )
0.1 100 .00959 (.134 × 10−3 ) .00973 (.468 × 10−4 ) .00970 (.390 × 10−4 )
0.1 400 .00252 (.351 × 10−4 ) .00247 (.650 × 10−5 ) .00246 (.524 × 10−5 )
0.5 25 .03161 (.522 × 10−3 ) .03171 (.454 × 10−3 ) .03139 (.384 × 10−3 )
0.5 100 .00777 (.734 × 10−4 ) .00768 (.696 × 10−4 ) .00767 (.542 × 10−4 )
0.5 400 .00193 (.281 × 10−4 ) .00187 (.976 × 10−5 ) .00188 (.756 × 10−5 )
0.9 25 .01725 (.413 × 10−3 ) .01725 (.413 × 10−3 ) .01731 (.377 × 10−3 )
0.9 100 .00277 (.563 × 10−4 ) .00276 (.548 × 10−4 ) .00274 (.439 × 10−4 )
0.9 400 .00054 (.922 × 10−5 ) .00053 (.748 × 10−5 ) .00053 (.534 × 10−5 )
21.7 Les Surfaces de Réponse

Comme nous l’avons souligné auparavant, l’un des aspects les plus difficiles
dans n’importe quelle expérience Monte Carlo est de présenter les résultats
de façon lisible. Une approche parfois très utile consiste à estimer une
surface de réponse. Il s’agit simplement d’un modèle de régression pour
lequel chaque observation correspond à une expérience, la variable dépendante
est une quantité quelconque estimée dans les expériences, et les variables
indépendantes sont des fonctions de différentes valeurs paramétriques choisies
par l’expérimentateur, et qui caractérisent chaque expérience. Les surfaces de
réponse ont été utilisées par Hendry (1979), Mizon et Hendry (1980), Engle,
Hendry, et Trumble (1985), Ericsson (1991), et MacKinnon (1991), parmi
d’autres; elles sont longuement discutées dans Hendry (1984). Pour les cri-
tiques de cette approche, consulter Maasoumi et Phillips (1982), ainsi que la
réponse de Hendry (1982).
Si l’on peut trouver une surface de réponse qui explique de façon adéquate
les résultats expérimentaux, cette approche qui synthétise les résultats Monte
Carlo mérite d’y prêter attention. Tout d’abord, il peut être beaucoup plus
facile de comprendre le comportement de l’estimateur ou de la statistique de
test d’intérêt à partir des paramètres d’une surface de réponse plutôt qu’à
partir de plusieurs tableaux remplis de chiffres. Ensuite, si la surface de
réponse est correctement spécifiée, elle élimine, ou du moins réduit dans de
grandes proportions, ce que Hendry (1984) appelle le problème de spécificité.
Ce terme signifie que chaque expérience individuelle donne des résultats seule-
ment pour un unique DGP supposé, et n’importe quel ensemble d’expériences
Monte Carlo donne des résultats seulement pour un ensemble fini de DGP
supposés. Pour d’autres valeurs paramétriques ou d’autres valeurs de n, le
lecteur doit interpoler le résultat à partir des résultats des tableaux, ce qui est
21.7 Les Surfaces de Réponse 759
souvent difficile. Par contraste, une surface de réponse correctement spécifiée

fournit des résultats pour des familles entières de DGP plutôt que pour des
valeurs spécifiques choisies par l’expérimentateur. Le revers de la médaille,
naturellement, est que la surface de réponse doit être correctement spécifiée,
et cela n’est pas toujours une tâche facile.
Une des caractéristiques les plus intéressantes des surfaces de réponse, qui
les distingue de la plupart des autres applications des modèles de régression en
économie, est que les données sont générées par l’expérimentateur. Ainsi, si
les données ne sont pas suffisamment informatives, il y a toujours une solution
facile: exécuter davantage d’expériences pour obtenir davantage de données.
Dans la plupart des cas, chaque point (chaque donnée) de la surface de réponse
correspond à une seule expérience Monte Carlo. La variable dépendante est
alors une quantité quelconque estimée par l’expérience, telle la moyenne ou
l’erreur quadratique moyenne des estimations d’un certain paramètre ou le
niveau estimé d’un test. Comme de telles estimations sont normalement ac-
compagnées des estimations de leurs écarts types, des estimations qui de-
vraient être très précises si les expériences comportent un nombre suffisant
de répétitions, le chercheur est dans l’obligation d’utiliser les GLS avec une
matrice de covariance pleinement spécifiée. Si chaque expérience avait utilisé
un ensemble différent de nombres aléatoires, les observations pour la sur-
face de réponse seraient indépendantes, et cette matrice de covariance serait
par conséquent diagonale. Si les mêmes nombres aléatoires étaient utilisés
dans plusieurs expériences, peut-être pour augmenter la précision avec laquel-
le les différences entre les valeurs paramétriques seraient estimées, la matrice
de covariance serait naturellement non diagonale, mais la forme de la non-
diagonalité serait connue, et l’on pourrait estimer la matrice de covariance
assez facilement.
Afin de rendre les remarques précédentes plus concrètes, notons ψ la
quantité d’intérêt. Elle doit être une fonction de la taille de l’échantillon n et
des paramètres qui caractérisent le DGP, que nous pouvons noter sous forme
vectorielle α0 . Nous modéliserons cette fonction par Ψ (n, α0 , γ), où Ψ est
une forme fonctionnelle spécifique qui dépend d’un vecteur paramétrique γ,
qui sera estimé. La surface de réponse que nous essayons d’estimer est alors
caractérisée par Ψ (n, α0 , γ0 ) pour un vecteur approprié γ0 quelconque. Cette
expression nous indique comment ψ varie suite à des changements de n et
de α0 . La i ième expérience génère une estimation ψ̂i et un écart type associé
σ̂(ψ̂i ). L’estimation ψ̂i peut être soit une simple moyenne sur N répétitions
(comme nous l’avons vu dans la Section 21.5, ceci est le cas même si les vari-
ables antithétiques ont été utilisées, sauf qu’il s’agit alors d’une moyenne sur N
doubles répétitions), soit une estimation CV, provenant probablement soit de
la régression (21.14) soit de la régression (21.15). Quoi qu’il en soit, si le nom-
bre de régressions par expérience est raisonnablement grand, nous pouvons
être assurés que ψ̂i est pratiquement normal avec une espérance Ψ (n, α0 , γ0 )
et un écart type σ(ψ̂i ), et ce dernier sera bien estimé par σ̂(ψ̂i ). Ainsi la
régression de la surface de réponse est

¡ ¢
ψ̂i = Ψ (n, α0 , γ) + vi , vi ∼ N 0, σ̂ 2 (ψ̂i ) , i = 1, . . . , M, (21.21)
où M est le nombre d’expériences et par conséquent le nombre d’observations

pour la surface de réponse. En transformant (21.21) pour éliminer l’hétéro-
scédasticité, nous obtenons
ψ̂i Ψ (n, α0 , γ)
= + εi , εi ∼ N (0, 1), i = 1, . . . , M. (21.22)
σ̂(ψ̂i ) σ̂(ψ̂i )
Les arguments précédents suggèrent que, à condition que le nombre de

répétitions par expérience soit raisonnablement grand, la spécification des
aléas dans (21.22) avec la N (0, 1) devrait être une approximation extrêmement
bonne. Cependant, certains auteurs ont avancé l’idée que le nombre de
répétitions par expérience peut être beaucoup plus faible quand il s’agit
d’estimer une surface de réponse que lorsqu’il s’agit d’exécuter des expériences
Monte Carlo plus conventionnelles. Par exemple, Engle, Hendry, et Trum-
ble (1985) utilisent seulement 21 répétitions par expérience. Il est vrai que
l’on peut souvent estimer les paramètres γ de Ψ (n, α0 , γ) avec une grande
précision même quand N est petit, à condition que M soit suffisamment
grand, parce qu’un grand nombre d’expériences peut compenser des résultats
imprécis provenant de chaque expérience individuelle. Cependant, deux
problèmes peuvent survenir quand N est petit. Tout d’abord, la distribu-
tion de ψ̂i − Ψ (n, α0 , γ) peut différer assez significativement de la distribu-
tion normale, et σ̂(ψ̂i ) peut être une piètre estimation de σ(ψ̂i ). Ceci signifie
que l’inférence basée sur (21.22) peut être problématique. En second lieu, si
ψ̂i n’est pas une estimation précise, il peut être difficile de spécifier la forme
fonctionnelle de Ψ (n, α0 , γ). Comme nous le verrons par la suite, le plus
gros problème en pratique lié à l’utilisation des surfaces de réponse est que
la forme de Ψ (n, α0 , γ) n’est généralement pas connue a priori. La présence
d’estimations précises ψ̂i peut être d’un grand secours dans la spécification de
la forme fonctionnelle de Ψ (n, α0 , γ).
La meilleure manière d’expliquer l’estimation des surfaces de réponse est
de fournir un exemple concret. Le problème que nous étudierons a l’aspect
de celui traité dans la section précédente et a été aussi utilisé comme exemple
par Hendry (1984), à savoir le biais de l’estimation OLS β̂ dans le modèle
autorégressif stationnaire (21.16). Il s’agit naturellement d’un problème qui a
été largement étudié par d’autres méthodes pendant longtemps; consulter, par
exemple, Hurwicz (1950). Il est en réalité trop simple pour être l’objet d’une
expérience Monte Carlo, parce qu’on peut calculer le biais de β̂ analytique-
ment, comme dans Sawa (1978), à condition que les aléas soient normaux,
comme nous le supposons. Cependant, les calculs demandés ne sont en au-
cune manière triviaux, et il n’existe aucune formule rapidement interprétable

qui relie le biais de β̂ aux valeurs de β0 et n.4
Phillips (1977) essaie de dériver une telle formule à partir de la méthode
des développements asymptotiques. Ici nous essayons de procéder de la sorte
en estimant une surface de réponse, en utilisant des résultats à partir des
expériences Monte Carlo pour obtenir des points (données).
Nous avons tout d’abord généré des données à partir de 390 expériences,
en faisant varier β0 de −0.95 à 0.95 par incrément de 0.05 et, pour chaque
β0 , en essayant n = 16, 25, 36, 49, 64, 81, 100, 150, 200, et 400. Nous
n’avons pas utilisé volontairement des valeurs de |β0 | supérieures à 0.95 parce
qu’il serait sûrement difficile de caractériser le comportement de β̂ par une
surface de réponse unique aussi bien pour le cas stationnaire que le cas de
racine unitaire, et nous avons vu que des phénomènes étranges commencent
à survenir quand |β0 | → 1 (rappelons-nous de la Figure 21.3). Le nombre
de répétitions utilisé dans les expériences était relativement faible: 2000 pour
n = 16 et 25; 1000 pour n = 36 et 49; 500 pour n = 64, 81 et 100; et
250 pour n = 150, 200, et 400. Nous avons utilisé plus de répétitions pour
des valeurs inférieures de n parce que les estimations CV de la moyenne de
β̂ étaient beaucoup moins précises pour un nombre donné de répétitions. La
régressande pour la surface de réponse était l’estimation CV de la moyenne de
β̂, moins β0 , divisée par l’écart type estimé de la moyenne de β̂, le tout obtenu
à partir de la régression (21.14). Notons que les estimations de la moyenne
de β̂ étaient très précises: les écarts types estimés variaient de .000190 (pour
β0 = .05 et n = 400) à .002813 (pour β0 = .90 et n = 16).
Il fut facile de générer des données, mais la spécification de la surface
de réponse fut beaucoup plus délicate. Dans ce cas, nous pouvons écrire
l’équation (21.22) comme
β̂i − β0 Ψ (n, β0 , γ)
= + εi , εi ∼ N (0, 1), i = 1, . . . , 390,
σ̂(β̂i ) σ̂(β̂i )
où Ψ (n, β0 , γ) est la fonction biais que nous essayons d’estimer. La théorie
asymptotique nous enseigne que Ψ (n, β0 , γ) tend vers zéro quand n → ∞.
Ceci signifie qu’il ne devrait y avoir aucun terme constant et que tous les
régresseurs devraient être divisés par une certaine puissance positive de n.
Malgré tout, ceci laisse encore une grande plage de possibilités. Nous avons
4
Notons que des problèmes étroitement liés, tels que les propriétés des t de Stu-
dent pour ce modèle, ne peuvent pas être traités analytiquement. Nankervis et
Savin (1988) utilisent une gamme extrêmement complète d’expériences Monte
Carlo pour étudier les propriétés des t de Student dans une version légèrement
plus compliquée de (21.16) dans laquelle il faut estimer un terme constant. Cet
article est l’un des meilleurs exemples disponibles des méthodes Monte Carlo
en application.
tout d’abord estimé des fonctions de biais très simples5
Ψ (n, β0 , γ) = − 1.6890 n−1 β0

(0.0108) (21.23)
2
s = 1.8038, DW = 1.0322, R̄ = 0.9844.
Hendry (1984) a estimé une fonction de cette forme en tant que première ap-
proximation mais l’a trouvée très insatisfaisante. Ces résultats sont également
très peu satisfaisants. Bien que le R̄2 soit très élevé, ce qui implique que n−1 β0
explique un très grand pourcentage de la variation totale de β̂ − β0 , l’écart
type estimé de l’équation est bien supérieur à sa valeur théorique de 1, et la
statistique Durbin-Watson est nettement inférieure à 2. Puisque les données
étaient classées par n (toutes les observations pour les n = 16 premières, puis
toutes les observations pour n = 25, et ainsi de suite), la faible valeur de
la statistique DW suggère fortement que la relation entre le biais et la taille
d’échantillon est mal spécifiée.
La prochaine étape évidente était d’additionner à (21.23) les termes as-
sociés à des puissances de β0 divisés par les puissances de n. La littérature sur
les développements asymptotiques, par exemple Phillips (1977), suggère que
l’on devrait utiliser des puissances multiples d’un demi. Ainsi, on pourrait
essayer d’estimer un modèle général de la forme
6 X
X 6
b/2
Ψ (n, β0 , γ) = γab n−a/2 β0 (21.24)
a=1 b=1
et ensuite essayer de le simplifier et annulant de nombreux γab . On voudrait

laisser a et b s’incrémenter jusqu’à 6 parce que Hendry (1984) a semblé met-
tre en évidence le fait que β03 /n3 appartenait à Ψ (n, β0 , γ). Ce modèle doit
forcément mieux s’ajuster que (21.23), mais les estimations seront extrême-
ment imprécises parce qu’il y a 36 régresseurs potentiels de la forme n−a/2 β0b/2 ,
et certains d’entre eux seront fortement colinéaires. Par conséquent nous
avons considéré que la spécification d’une surface de réponse de cette manière
était impossible. Il n’y avait tout simplement aucun moyen pertinent d’obtenir
un modèle plus économe à partir du modèle général (21.24). Si cette approche
est insatisfaisante dans ce cas très simple, où le DGP ne comprend qu’un seul
paramètre, elle sera totalement insatisfaisante en général.
Par conséquent, nous avons choisi une approche radicalement différente,
en utilisant des méthodes graphiques pour voir à quoi Ψ (n, β0 , γ) doit ressem-
bler. Cette approche fut utilisée avec succès. Elle ne fut possible que parce
5
Ces expériences étaient à exécutées pour la première fois en 1988 et nécessitaient
environ 16 heures sur un ordinateur de type 286. Puisqu’ils auraient pris moins
de dix minutes sur un PC 486, il aurait été possible d’utiliser davantage de
répétitions.
Biais
0.100
.....................
0.075 .... ...................
....
0.050 ... .... n = 16
... ....... .............................
......................
.......... .....
.
. ..... .
0.025 ....... ... ...
...... ..
..................
................ ................. ......................
.
........
....
...
...
...... .... ...................... .....
0.000 n = 49 ........ ..... ............... ....
..... ..............
...... ................................... ....
−0.025 ........ .... .... ....................
... ................
.........
.....
..... ........
−0.050 .... ....
.......
..... ...
−0.075 ............
−0.100 β0
−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00
Figure 21.4 Estimations Monte Carlo du biais
que nos estimations de β̂ − β0 étaient très précises, ce qui garantissait une lis-
ibilité immédiate des graphiques illustrant les variations de β̂ − β0 en fonction
de β0 pour des valeurs diverses de n, et celles de β̂ − β0 en fonction de n pour
des valeurs diverses de β0 . C’est une raison pour ne pas utiliser de petites
valeurs de N dans des expériences Monte Carlo destinées à l’estimation des
surfaces de réponse.
La Figure 21.4 illustre les graphes de β̂ − β0 en fonction de β0 pour
n = 16 et n = 49. Il est évident que la relation est fondamentalement linéaire
et symétrique autour de zéro, sauf que pour n = 16 (et évidemment pour
d’autres valeurs plus petites de n) il y a une inversion assez brutale de la
pente pour de grandes valeurs absolues de β0 . Il est aussi évident à partir de
la figure que la relation entre β̂ − β0 et β0 devient moins prononcée quand n
augmente; la relation pour n = 400 (non présentée pour éviter de saturer la
figure) était presque plate.
Le comportement évident dans la Figure 21.4 de la relation entre β̂ − β0
et β0 pour de grandes valeurs absolues de β0 suggère que l’on pourrait vouloir
ajouter des fonctions de β03 dans Ψ (n, β0 , γ). Cependant, il existe d’autres
fonctions de β0 qui pourraient tout aussi bien traduire la pente évidente dans
la figure, notamment β0 /(1 − β02 ) et β0 /(1 − β02 )1/2. En régressant β̂ − β0 sur
β0 et sur un autre régresseur parmi β03 , β0 /(1 − β02 ), et β0 /(1 − β02 )1/2 pour
des valeurs diverses de n, nous avons conclu que β0 /(1 − β02 )1/2 expliquait le
mieux la relation observée entre β̂ − β0 et β0 .
Des graphes similaires et des régressions préliminaires ont suggéré que
n−1 et n−3/2 expliquaient ensemble pratiquement toute la relation entre β̂−β0
et la taille de l’échantillon, mais qu’au contraire n−1/2 et n−2 ne jouaient
aucun rôle. Ainsi, nous avons choisi à titre d’essai la spécification

¡ ¢
Ψ (n, β0 , γ) = n−1 γ1 + γ2 β0 + γ3 β0 /(1 − β02 )1/2
¡ ¢ (21.25)
+ n−3/2 γ4 + γ5 β0 + γ6 β0 /(1 − β02 )1/2 .
Celle-ci est excessivement plus simple que (21.24). Quand (21.25) fut estimée,
nous avons trouvé que γ̃1 , γ̃4 , et γ̃5 étaient conjointement non significatifs,
bien que γ̃4 était individuellement significatif à un niveau de 5%. Puisqu’il
est difficile de voir pourquoi β̂ devrait être biaisé quand β0 = 0, et puisque
par contraste avec γ̃4 les trois autres paramètres significatifs étaient fortement
significatifs, nous avons décidé sur la base de ces résultats de contraindre γ1 ,
γ4 , et γ5 dans (21.25) à zéro. Nos estimations du modèle résultant étaient
β0
Ψ (n, β0 , γ) = − 1.9223 n−1 β0 − 0.1066 n−1
(0.0173) (0.0149) (1 − β02 )1/2
β0 (21.26)
+ 1.3509 n−3/2
(0.0608) (1 − β02 )1/2
s = 1.0628, DW = 1.8649, R̄2 = 0.9946.
Ces résultats apparaissent être très bons. Les trois paramètres sont très sig-
nificatifs, l’écart type de la régression est légèrement supérieur à 1, mais pas
de manière significative au niveau 5%, et la statistique DW n’est pas signi-
ficativement inférieure à 2. Les tests d’asymétrie et d’aplatissement n’ont pas
décelé ces phénomènes. De plus, quand d’autres fonctions diverses de β0 et
n, telles que n−1 β0 /(1 − β02 ), n−1 β03 , n−3/2 β0 /(1 − β02 ), n−3/2 β03 , n−2 β0 , et
n−2 β0 /(1 − β02 )1/2 , étaient intégrées à Ψ (n, β0 , γ), elles étaient individuelle-
ment et conjointement non significatives, et les trois régresseurs dans (21.26)
sont restés individuellement significatifs. Pour des tailles d’échantillon dans
la gamme examinée, les valeurs prédites par (21.26) sont très proches des
valeurs exactes tabulées par Sawa (1978), bien que l’équation semble prédire
un résultat quelque peu trop biaisé pour de faibles valeurs de n.
Nous concluons que la surface de réponse (21.26) fournit une bonne ap-
proximation, bien que non parfaite, pour la fonction de biais Ψ (n, β0 , γ) sur
l’intervalle n = 16 à n = ∞ et β0 = −0.95 à β0 = 0.95. Cependant, cela
peut ne pas être le cas pour de très petites valeurs de n et pour des valeurs de
|β0 | supérieures à 0.95. Un ensemble d’expériences beaucoup plus coûteux et
selon toute vraisemblance une surface de réponse considérablement plus com-
pliquée seraient nécessaires si nous décidions de traiter de façon adéquate ces
cas. Cette surface de réponse est illustrée comme une fonction de β0 pour des
valeurs variées de n dans la Figure 21.5. Les tendances du biais à diminuer
fortement quand n augmente, et à augmenter avec |β0 | sauf pour une légère
diminution pour de grandes valeurs de |β0 | sont relativement évidentes sur la
figure.
Biais
0.06 ... . ..
.... .............
......
......
......
......
...... ............................................. n = 25
0.04 ......
......
.................... ......
.......... .....
......... .....
......... .....
.
........ .............................................................................
0.02 ..................... . . ........... . ...... n = 50
........ ...
......................
...................... ........ ..........
...................... ........ .....
..................... .......... .......
............ ..... ...
.......... n = 400
..................................................................... ......
.................................................................................................................................................... ......
0.00 ...
. ........................................................................................... ........................
...
... .. .. . . .........
............. ..................... .......
.... .
... ..
..... .
.. .
....
.....
..................................................................
..... ...... ......... .........................
.....
.....
.....
...... .......... .....................
....
n = 100 ........ . .......... .
..
. ......................
...... ........ .....................
...... ........ .....................
...... ........
−0.02 ..... . . .. ..........
..... .........
..... ..........
..... ..............
...... ......
......
......
......
−0.04 ......
......
......
......
.......
......... ......
.
−0.06 β0
−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00
Figure 21.5 Estimations de biais par surface de réponse
Dans toutes les estimations rapportées jusqu’ici, nous avons utilisé les
estimations CV de β̂. Il aurait été aussi possible d’utiliser les estimations
naı̈ves de β̂. La surface de réponse estimée quand nous avons procédé de la
sorte était
β0
Ψ (n, β0 , γ) = − 1.9272 n−1 β0 − 0.1306 n−1
(0.0366) (0.0274) (1 − β02 )1/2
β0 (21.27)
+ 1.4983 n−3/2
(0.1141) (1 − β02 )1/2
s = 1.0811, DW = 1.8606, R̄2 = 0.9763.
Ces résultats sont très similaires à ceux utilisés pour les estimations CV mais
sont moins bons à tous les égards. Les écarts types associés aux estimations
paramétriques sont généralement environ deux fois plus grands, et indiquent
qu’en moyenne, l’usage des variables de contrôle revient approximativement
à quadrupler le nombre de répétitions. La valeur légèrement supérieure de
s indique probablement que la surface de réponse s’ajuste légèrement moins
bien pour les petites valeurs de n. L’usage des variables de contrôle améliore
davantage les estimations de β̂ pour des valeurs importantes de n. Ainsi, la
surface de réponse (21.26), qui utilise les estimations CV, pondère les résultats
des expériences avec des valeurs importantes de n plus lourdement que ne le
fait la surface de réponse (21.27) qui utilise des estimations naı̈ves. Ainsi,
nous nous attendons à ce que (21.27) s’ajuste moins bien que (21.26), comme
c’est le cas, si la surface de réponse est moins performante pour des tailles
d’échantillon plus petites.
Cet exemple concerne l’estimation d’une fonction de biais. L’estimation
des fonctions de MSE, ou des fonctions de niveau ou de puissance pour les
statistiques de test, est conceptuellement similaire, bien que certains détails
soient naturellement différents. Si la variable dépendante est le niveau ou
la puissance d’une statistique de test, que nous pouvons noter p, alors cette
variable dépendante doit varier entre 0 et 1, et la transformation logit
µ ¶
p
Λ(p) = log
1−p
peut être utile. La justification de cette transformation est que Λ(p) peut
varier entre plus et moins l’infini, ce qui facilite la spécification d’une surface
de réponse comme fonction linéaire. Pour l’essentiel, nous estimerions alors
un modèle logit sur des données groupées. (Consulter le Chapitre 15).
Nous croyons que l’exemple précédent est très révélateur. Il illustre
combien peuvent être utiles les surfaces de réponse grâce à leur capacité à
synthétiser une grande quantité de résultats expérimentaux en un ensem-
ble relativement simple d’estimations comme (21.26), que l’on peut alors
représenter graphiquement comme dans la Figure 21.5. Il illustre aussi les
difficultés pratiques de spécification d’une surface de réponse. L’approche de
la surface de réponse ne sera pas opérationnelle si le DGP est caractérisé par
plusieurs paramètres qui affectent les quantités étudiées, parce qu’il sera tout
simplement trop difficile de spécifier la surface de réponse dans un tel cas, du
moins s’il y a une quelconque interaction entre les différents paramètres. Des
méthodes graphiques telles que celles employées peuvent être extrêmement
bénéfiques pour la spécification d’une surface de réponse, mais elles ont leurs
limites, et il semble malheureusement peu probable qu’elles seront efficaces
quand le DGP comporte de nombreux paramètres qui interagissent de façon
compliquée.
21.8 Le Bootstrap et les Méthodes Connexes

Jusqu’à présent, nous avons porté notre attention sur les expériences Monte
Carlo “conventionnelles” dans lesquelles le chercheur spécifie pleinement le
DGP pour chaque expérience. Bien que de telles expériences puissent être
utilisées comme compléments à des parties précises du travail empirique et
sont parfois employées à profit de cette manière, elles sont beaucoup plus
communément employées pour suppléer le travail théorique sur les propriétés
des estimateurs et des statistiques de test. Par contraste, la technique connue
sous le nom du bootstrap est typiquement conçue pour être utilisée dans le
21.8 Le Bootstrap et les Méthodes Connexes 767
contexte du travail empirique. Comme le nom le suggère, l’idée du bootstrap6

est d’utiliser le seul ensemble de données disponible pour créer une sorte
d’expérience Monte Carlo dans laquelle les données elles-mêmes sont utilisées
pour approximer la distribution des aléas ou d’autres quantités aléatoires du
modèle. Le nom est censé exprimer l’idée que les données disponibles devraient
fournit suffisamment d’information sur leur distribution. Cette idée est mise
en œuvre par l’exécution d’une sorte d’expérience Monte Carlo dans laquelle
les aléas ou les autres quantités aléatoires sont habituellement des tirages non
pas d’une distribution supposée, telle que la normale, mais plutôt à partir
de la distribution empirique de leurs contreparties d’échantillon. L’obtention
d’échantillons artificiels de cette manière est un cas particulier de ce que l’on
appelle rééchantillonnage; consulter Efron (1979).
Nous avons rencontré pour la première fois la fonction de distribution em-
pirique, ou EDF, dans la Section 4.5. Si nous notons {yt }nt=1 un échantillon de
taille n, où les yt sont des réalisations des variables aléatoires indépendantes,
alors la EDF est la fonction de répartition
n
X
n 1
F̂ (x) ≡ −
n
I(−∞, x) (yt ),
t=1
où la fonction indicatrice I associée à l’intervalle (−∞, x) est simplement une

fonction qui prend la valeur 1 si son argument appartient à l’intervalle, et 0
sinon. Ainsi, une EDF est une fonction en escalier, la hauteur de chaque
marche étant 1/n, et la largeur étant la différence entre deux valeurs suc-
cessives de yt quand ces dernières sont classées par ordre croissant. Si deux
ou plusieurs observations sont identiques, événement associé à la probabilité
nulle si la densité des yt est continue, il peut y avoir des escaliers qui ont une
hauteur multiple entier de 1/n. La EDF pour un ensemble particulier de 100
observations sur une variable aléatoire y est illustrée dans la Figure 21.6; à
titre de comparaison, une distribution normale avec les mêmes espérance et
variance est aussi reportée.
Supposons que l’on ait calculé des statistiques θ(y) quelconques à partir
d’un ensemble de données yt , t = 1, . . . , n, noté sous forme vectorielle y; dans
la pratique, on pourrait calculer de nombreuses statistiques différentes, mais
pour des raisons de simplicité, nous ne traiterons seulement que l’une d’entre
elles. Si la distribution en échantillon fini de θ(y) est connue, ou si une bonne
approximation asymptotique est disponible, le recours au bootstrap est inutile.
Si, cependant, ce n’est pas le cas, une manière d’approximer la distribution
de θ(y) est d’appliquer le bootstrap à cet ensemble de données. Pour cela,
on doit tirer un certain nombre d’échantillons bootstrap, disons B, chacun de
taille n, à partir de la distribution des données observées. Ce rééchantillonnage
6
Un “bootstrap”en anglais est un tirant de botte. L’expression “to pull oneself
up by one’s bootstraps” signifie “se faire tout seul”.
F (x)
1.0 .............................................................................................................................................
................................................................................
. .
................................
. ....
0.9 .. .......
................ ← Approximation normale
0.8 .......
..........
.....
0.7 ......
.........
0.6 .....
......
.........
...
0.5 ......
........
.....
.
0.4 ...
.........
0.3 ..
...
...
......
... ...
..
0.2 ...
.... ..
.
.... .
...
0.1 ..... ...
...............
.
.............
....
............................................
........................................................................................................................
0.0 x
−4 −3 −2 −1 0 1 2 3 4 5
Figure 21.6 Fonction de répartition empirique basée sur 100 observations
est réalisé avec remise. Ainsi, chaque échantillon bootstrap contiendra cer-
taines des n observations d’origine plus d’une fois, et d’autres pas du tout,
et ce de manière tout à fait aléatoire. Le tirage d’un échantillon bootstrap
est très facile. Notons yj∗ (i) la j ième observation du i ième échantillon boot-
strap, où i = 1, . . . , B. Pour obtenir yj∗ (i), nous générons tout d’abord un
nombre pseudo-aléatoire à partir de la distribution U (0, 1), l’utilisons pour
générer un entier aléatoire k qui prend les valeurs 1, . . . , n avec équiprobabilité,
et ensuite initialisons yj∗ (i) à yk . En répétant cette opération n fois, nous
∗
obtenons¡ ∗un ¢échantillon bootstrap complet, disons y (i). Nous calculons en-
suite θ y (i) et sauvegardons le résultat. L’opération entière est alors répétée
pour i = 1, . . ¡. , B échantillons
¢ bootstrap, à la fin de laquelle nous obtenons B
∗
statistiques θ y (i) . Ces statistiques sont à leur tour utilisées pour estimer
n’importe quelle caractéristique de la distribution de θ(y) à laquelle on pour-
rait s’intéresser.
Le paragraphe précédent a esquissé l’idée de base du bootstrap, que l’on
doit à Efron (1979). Des références relativement accessibles sont Efron (1982),
Efron et Gong (1983), et Efron et Tibshirani (1986). Des références plus
théoriques sont Bickel et Freedman (1981), Freedman (1981), et Hall (1987).
La littérature est devenue très importante et parfois très technique au cours
des dernières années, et nous n’effectuerons aucune tentative ici pour l’exa-
miner.
Illustrons maintenant l’usage du bootstrap dans un cas simple. Con-
sidérons les données illustrées dans la Figure 21.6. On peut facilement voir
à partir de la figure que ces données sont des tirages d’une distribution com-
portant des queues plus grosses que la normale. Une distribution normale
avec les mêmes espérance et variance que les données est illustrée dans la fig-
ure, et il est évident que les valeurs les plus importantes dans chaque queue
de l’échantillon auraient dû survenir avec une probabilité extrêmement faible
avec la distribution normale. Un chercheur pourrait par conséquent s’inquiéter
et se demander si les inférences basées sur des estimations et les intervalles
de confiance issus du cas normal seraient valables dans ce cas. Une manière
de voir si de telles inquiétudes sont fondées est d’appliquer le bootstrap aux
statistiques d’intérêt.
Considérons l’espérance des yt . La moyenne d’échantillon est −0.0701,
avec un écart type de 0.0889. Ainsi, l’intervalle de confiance habituel à
95% basé sur la distribution du t de Student à 99 degrés de liberté est
(−0.2464, 0.1062). Nous avons calculé 10,000 échantillons bootstrap comme
ceux décrits précédemment, et ainsi obtenu 10,000 moyennes estimées, µ∗ (i).
Ce choix de B dépasse celui nécessaire dans la plupart des cas, et garantit une
erreur expérimentale très faible. Il y a plusieurs manières d’obtenir des inter-
valles de confiance bootstrap à partir de la distribution des µ∗ (i); consulter
Efron et Tibshirani (1986) pour une introduction et Tibshirani (1988) pour
des méthodes plus avancées. La première étape consiste à trier les moyennes
bootstrap µ∗ (i) par ordre croissant, µ∗ (1) étant la plus faible et µ∗ (B) la plus
forte. Si la distribution des µ∗ (i) est approximativement symétrique, on peut
alors utiliser ce qui est appelé méthode des centiles. Supposons que nous
voulions un intervalle de confiance à 95%. Alors nous choisissons simplement
1¡ ∗ ¢
− µ (250) + µ∗ (251)
2
comme limite inférieure de notre intervalle de confiance et
1¡ ∗ ¢
− µ (9750) + µ∗ (9751)
2
comme limite supérieure. Ces valeurs sont choisies de sorte qu’exactement

2.5% des répétitions bootstrap produisent des µ∗ (i) inférieures à la limite
inférieure et 2.5% produisent des µ∗ (i) supérieures à la limite supérieure de
l’intervalle de confiance. L’utilisation de la méthode des centiles pour les
données de la Figure 21.6 fournit un intervalle de confiance pour la moyenne
des yt égal à (−0.2387, 0.1053), très similaire à l’intervalle basé sur la distri-
bution du t de Student.
Si la distribution des µ∗ (i) n’est pas symétrique, on peut ne pas vouloir
utiliser la méthode des centiles, parce qu’elle n’est plus optimale pour omettre
le même nombre de µ∗ (i) à partir de chaque queue de leur EDF si nous voulons
que l’intervalle de confiance soit aussi court que possible. Une approche simple
consiste à minimiser la quantité
1¡ ∗ ¢ 1¡ ∗ ¢
− µ (l + .95B) + µ∗ (l + .95B + 1) − − µ (l − 1) + µ∗ (l)
2 2
par rapport à l’entier positif l < .05B.7 Ainsi, l’objectif consiste à trou-
ver l’intervalle le plus court possible comprenant 95% des µ∗ (i). Quand la
EDF des µ∗ (i) est asymétrique, cette méthode des centiles modifiée tendra à
déplacer l’intervalle de confiance loin de la queue la plus longue de la distribu-
tion, parce qu’en éliminant des observations d’un côté et en les additionnant
de l’autre côté, cela réduira la longueur de l’intervalle de confiance estimé.
Pour les données de la Figure 21.6, la méthode des centiles modifiée fournit
des résultats très similaires à ceux de la méthode des centiles ordinaire et à la
méthode basée sur la théorie normale usuelle: l’intervalle de confiance à 95%
est (−0.2399, 0.1031).
Puis, dans cet exemple, le bootstrap a principalement servi à nous ras-
surer que les méthodes conventionnelles d’inférence concernant la moyenne
des yt sont vraisemblablement très fiables pour cet ensemble de données, en
dépit de l’apparent excès de kurtosis relatif au cas normal. Mais la même
procédure pourrait être employée pour étudier la distribution de n’importe
quelle statistique θ(y) à laquelle nous nous intéresserions, et parmi elles celles
pour lesquelles les méthodes les plus conventionnelles d’inférence sont diffi-
ciles ou impossibles. C’est dans de tels cas que le bootstrap peut être partic-
ulièrement utile.
La méthode du bootstrap qui vient juste d’être décrite peut évidemment
être modifiée de différentes façons. On pourrait, par exemple, lisser quelque
peu la EDF des yt et tirer des échantillons bootstrap à partir de la EDF lissée
à la place de la EDF ordinaire. Si l’on connaissait ou était prêt à supposer la
forme de la distribution des yt , on pourrait utiliser ce qui est souvent appelé
bootstrap paramétrique, dans lequel les données sont utilisées pour estimer la
densité des yt , et les échantillons bootstrap sont alors générés à partir de cette
densité estimée. Le bootstrap paramétrique ressemble ainsi à une expérience
Monte Carlo ordinaire dans laquelle les paramètres du DGP sont estimés à
partir de l’ensemble de données d’intérêt.
Il existe des caractéristiques particulières des méthodes bootstrap ap-
pliquées aux modèles de régression. Supposons que le modèle soit
yt = xt (β) + ut , t = 1, . . . , n, (21.28)
où toutes les variables dont xt (β) dépend sont supposées fixes ou du moins
indépendantes de tous les ut . Si ces derniers sont supposés i.i.d., l’approche
naturelle est d’appliquer le bootstrap aux résidus. Avec cette approche, on
estime tout d’abord le modèle (21.28) par NLS, afin d’obtenir des estima-
tions paramétriques β̂ et des résidus, û1 jusqu’à ûn , et on génère ensuite des
échantillons bootstrap à partir du processus générateur de données
yj (i) = xj (β̂) + u∗j (i), j = 1, . . . , n, (21.29)
7
Ceci suppose que .95B est un entier, ce qui sera le cas si B est un multiple
entier de 100.
où les u∗j (i) sont des échantillons aléatoires avec remise à partir de û1 , . . . , ûn .
Si xt (β) dépend des valeurs passées de yt , cette approche reste valable, mais
dans (21.29) y1 (i), . . . , yj−1 (i) doit être utilisé à la place des vrais yt re-
tardés en calculant xj (β̂). Puisque le modèle (21.28) est non linéaire, le
bootstrap peut être assez coûteux, et la technique est par conséquent utilisée
tout d’abord avec les modèles linéaires.
Cette approche comporte deux autres problèmes. Le premier est que,
comme d’habitude, les résidus ût tendent à sous-estimer les aléas ut . Ceci
peut être traité en utilisant les résidus modifiés
n
X
ût 1 ûs
ũt = −−
n
, (21.30)
(1 − ĥt )1/2 s=1 (1 − ĥs )1/2
où
¡ ¢−1
ĥt ≡ X̂t X̂>X̂ X̂t>
et X̂, comme d’habitude, est la matrice des dérivées de xt (β) par rapport aux
éléments de β, évaluée en β̂. La raison pour laquelle nous voudrions diviser
ût par (1 − ĥt )1/2 est évidente. Comme nous l’avions vu pour la première
fois dans la Section 3.2, dans le cas d’un modèle de régression linéaire à aléas
i.i.d.,
E(u2t ) = (1 − ht )σ 2.
Par conséquent, la division ût par (1 − ht )1/2 fournirait des résidus modifiés
ayant précisément la bonne variance. La division par (1 − ĥt )1/2 est l’analogue
naturel de cette procédure pour le cas non linéaire et se justifie par le résultat
théorique (5.57) de la Section 5.6. Dans (21.30), nous soustrayons ensuite la
moyenne des ût /(1 − ĥt )1/2 , qui ne sera pas nulle en général, afin de garantir
une moyenne nulle aux ũt ; consulter Weber (1984).
Le second problème avec cette approche du bootstrap est que les aléas ut
sont supposés indépendamment et identiquement distribués. Quand cette
hypothèse est douteuse, une seconde approche peut être¡ utilisée.¢ Dans
cette seconde approche, nous rééchantillonnons à partir de yt , xt (β̂) plutôt
qu’à
¡ partir¢ de ût ou de ũt . Un élément type de l’échantillon bootstrap est
yk , xk (β̂) , où k est un tirage aléatoire à partir de 1, . . . , n. Dans le cas
linéaire, chaque élément de l’échantillon bootstrap est (yk , Xk ), où Xk est
la k ième ligne de la matrice des observations des variables indépendantes.
Cette seconde approche est clairement irréalisable si xt (β) dépend des valeurs
retardées de yt , puisqu’il est sans pertinence d’utiliser de véritables yt re-
tardés, et nous n’avons aucune manière de générer des yt retardés à partir
du bootstrap. Cependant, elle a l’avantage d’être valable même en présence
d’hétéroscédasticité. En effet, cette forme du bootstrap produit des résultats
souvent très similaires à ceux provenant de l’usage d’un estimateur de la ma-
trice de covariance robuste à l’hétéroscédasticité.
Aucune de ces approches du bootstrap ne nous permet de traiter des

modèles dont les aléas sont supposés autocorrélés mais dont la forme d’auto-
corrélation est inconnue. Le rééchantillonnage détruit toute sorte de dépen-
dance qu’il peut y avoir dans les données d’origine, de sorte que les résultats
du bootstrap peuvent ne pas être très fiables si une telle corrélation constitue
un problème.
Les applications des méthodes bootstrap pour les économètres compren-
nent Freedman et Peters (1984), Korajczyk (1985), Bernard et Veall (1987), et
Veall (1987). Les deux premiers articles utilisent le bootstrap pour améliorer
les inférences sur des modèles estimés pour lesquels la théorie asymptotique
disponible pourrait se révéler peu fiable. Les deux suivants l’utilisent pour
estimer les intervalles de confiance pour des prévisions, un sujet souvent
extrêmement difficile à réaliser de façon analytique quand la technique de
prévision est compliquée. Fair (1980) s’est aussi intéressé à la précision des
prévisions et, bien que cet article n’utilise pas le terme, il peut être con-
sidéré comme un exemple de bootstrap paramétrique. Raj et Taylor (1989)
examinent les propriétés en échantillon fini des statistiques de test basées sur
le bootstrap, et Veall (1992) montre comment utiliser le bootstrap pour la
sélection de modèle.
Comme les coûts de calcul informatique diminuent, il est vraisemblable
que des utilisateurs toujours plus nombreux se tourneront vers des variantes
du bootstrap pour traiter des modèles où la théorie asymptotique peut être
inadaptée. Ceci soulève la question de la pertinence du bootstrap pour traiter
de tels modèles. Excepté peut-être dans certains cas particuliers, la seule
manière de répondre à cette question serait d’exécuter des expériences Monte
Carlo dont les objets seraient des estimations bootstrap. Malheureusement,
cela sera souvent très coûteux, puisque s’il y a N simulations par expérience et
que B échantillons bootstrap sont nécessaires pour obtenir chaque estimation
bootstrap, une seule expérience comporterait un total de BN estimations. A
moins que chaque estimation ne puisse être réalisée très rapidement, une telle
expérience pourrait consommer un temps de calcul extrêmement important.
Cependant, compte tenu de l’évolution des performances des ordinateurs, nous
pouvons certainement nous attendre à voir des études Monte Carlo sur le boot-
strap dans des situations qui intéressent les économètres, aussi bien qu’une
utilisation plus large du bootstrap dans les travaux appliqués.
21.9 Conclusion
La publication de cet ouvrage correspond avec la commercialisation d’ordina-
teurs encore plus puissants que les grosses unités de calcul construites au
début des années 80 et dont le prix de vente est tellement faible que tous les
bureaux des économètres en seront équipés. Dans ce contexte, les méthodes
Monte Carlo devraient selon toute vraisemblance être beaucoup plus utilisées
que cela n’a été le cas jusqu’à présent. Des lecteurs et des éditeurs refuseront
Termes et Concepts 773
d’accepter des résultats basés sur des méthodes destinées à l’estimation et

à l’inférence qui ont des propriétés statistiques seulement connues asymp-
totiquement, quand ils sauront que de meilleures approximations peuvent
presque toujours être obtenues compte tenu d’un certain coût de calcul. Cer-
taines formes du bootstrap, qui dans sa version paramétrique ressemble fort
aux expériences Monte Carlo les plus conventionnelles sur lesquelles nous nous
sommes principalement concentrés, seront ainsi vraisemblablement utilisées de
façon automatique comme partie intégrante de nombreux articles empiriques.
Termes et Concepts
bootstrap méthode des centiles modifiée
bootstrap paramétrique méthodes Monte Carlo
développements asymptotiques module (pour générateur
(approximations en échantillon fini) congruentiel)
échantillon bootstrap multiplicateur (pour générateur
expérience Monte Carlo congruentiel)
fonction de distribution empirique nombres pseudo-aléatoires
(EDF) rééchantillonnage
générateur congruentiel (des nombres répétitions
pseudo-aléatoires) spécificité (problème de)
générateur congruentiel multiplicatif surface de réponse
générateur de nombres aléatoires techniques de réduction de variance
incrément (pour générateur valeur d’origine (pour générateur de
congruentiel) nombres aléatoires)
méthode Box-Muller variables antithétiques
méthode de rejet variables de contrôle
méthode de transformation variables pseudo-aléatoires
méthode des centiles

Ch21 Les Expériences de Monte Carlo

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Ch21 Les Expériences de Monte Carlo

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 21

Les Expériences Monte Carlo

d’hypothèses plus précis que ceux, asymptotiques, discutés dans ce livre.

les développements asymptotiques dépassent l’objectif de ce livre, nous ne

une manière plus compacte et plus rapidement compréhensible de présenter

21.2 Génération des Nombres Pseudo-Aléatoires

où ηt est le i ième nombre aléatoire généré, et zt est un entier positif. Le

d’origine, (seed (graine) en anglais) qui est la valeur initiale z0 nécessaire

21.3 Générer des Variables Pseudo-Aléatoires

Figure 21.1 La méthode de transformation

La méthode de transformation fonctionne bien lorsque F −1 (·) n’est pas

(consulter la Section 8.1), et la c.d.f. correspondante est

Si nous posons η égale à F (u) et résolvons, nous trouvons que

suivra la distribution N (µ, Ω). Des variables issues des distributions de

Figure 21.2 La méthode de rejet

seulement si ν2 < f (ν1 ), et la probabilité que ceci survienne est proportion-

21.4 Conception des Expériences Monte Carlo

serait nécessaire pour estimer les propriétés de ces estimateurs ou statistiques,

B(θ̂) ≡ E(θ̂ − θ0 ) et B(θ̃) ≡ E(θ̃ − θ0 ),

et peuvent être estimés par

La différence entre B(θ̂) et B(θ̃) est

E(θ̂ − θ0 ) − E(θ̃ − θ0 ) = E(θ̂ − θ̃), (21.03)

que l’on peut estimer par

Il est possible et en effet vraisemblable que la variance de (21.04) sera sub-

reliées aux modèles de régression sont invariantes à la variance des aléas.

En utilisant le Théorème FWL et en supposant que les données sont générées

où il y a n observations et un total de k régresseurs et, comme d’habitude, MX

taille de l’échantillon augmentait. Par contraste, Cragg (1983), en réalisant

21.5 Réduction de Variance: Variables Antithétiques

où V (θ́) et V (θ̀) désignent les

Si nous annulons la dérivée de la variance de θ̈ par rapport à w, nous avons

V (θ̀) − Cov(θ́, θ̀)

qui est satisfaite en posant w = 21 lorsque V (θ́) = V (θ̀). Dans la plupart

ýtj = βXtα + utj et ỳtj = βXtα − utj .

qui est l’analogue de l’estimateur pondéré (21.07). La variance de ᾱ pourrait

Puisque ᾱ est une simple moyenne de ᾱj ≡ 12 (άj + ὰj ) pour j = 1, . . . , N,

Par conséquent, nous voyons que

Tableau 21.1 Moyennes et Ecarts Types des Estimations Monte Carlo

ά: 0.515960 (0.006709) β́: 1.019957 (0.016002)

et la matrice de covariance estimée des β̀ j est

Il est facile de voir que

Ainsi les matrices de covariance estimées des deux variables antithétiques

21.6 Réduction de Variance: Variables de Contrôle

y = x(β) + u, u ∼ N (0, σ 2 I),

où x(β) ne dépend que de β et des régresseurs fixes ou du moins indépendants

Ainsi il est naturel de considérer l’utilisation du vecteur

comme une source de variables de contrôle. Ce vecteur sera bien évidemment

Ces vecteur et matrice connus, et avec le vecteur d’erreur uj généré à chaque

Quand la variable de contrôle τ est disponible, θ̄ ne sera plus optimale dans

Il est facile de minimiser cette expression par rapport à λ. La valeur optimale

Comme la notation le suggère, cette régression ne fournit pas seulement une

où t, τ , et ι sont des vecteurs d’éléments types tj , τj , et 1, et Mι est la

Pour illustrer l’usage des variables de contrôle, nous considérerons un

Sous le DGP caractérisé par β0 , ceci devient

Tableau 21.2 Estimations CV et Naı̈ves de la Moyenne de β̂

0.1 25 0.091814 (0.001932) 0.927 0.091461 (0.000548)

Bien que le numérateur du second terme du membre de droite de (21.17)

qui, à partir de (21.17), est n−1/2 fois le numérateur de la partie stochastique

Figure 21.3 Écarts type estimés des biais estimés, n = 25

d’un cas à l’autre. Pour un β0 donné, le gain proportionnel augmente avec n.

puisqu’elle mesure la variance du numérateur de la partie stochastique de β̂.

qui est le dénominateur de la partie stochastique de β̂, moins sa moyenne.

Tableau 21.3 Estimations CV et Naı̈ves de la MSE de β̂

β0 n Naı̈ve Une Vble de Contrôle Deux Vbles de Contrôle