Académique Documents
Professionnel Documents
Culture Documents
11.1 Introduction
Dans la Section 6.4, nous avons montré que la régression de Gauss-Newton
offrait un moyen simple de tester des contraintes sur les paramètres d’une
fonction de régression dès que l’on disposait des estimations convergentes au
taux n1/2 de ces paramètres qui satisfont les contraintes. Dans la plupart
des cas, elles correspondent aux estimations par moindres carrés du modèle
contraint. Dans la Section 10.8, nous avons montré que l’on pouvait exécuter
les tests pour à peu près tous les genres de corrélations en série grâce à des
variantes de la GNR. Au cours de ce chapitre, nous discuterons de nombreux
tests complémentaires basés sur la GNR qui peuvent se révéler d’une grande
utilité dans les études économétriques appliquées. Ces tests sont:
(i) des tests d’égalité de deux (ou plus) ensembles de paramètres;
(ii) des tests d’hypothèses de modèles non emboı̂tés, pour lesquels un modèle
de régression est testé contre un ou plusieurs modèles alternatifs non
emboı̂tés;
(iii) des tests basés sur la comparaison de deux ensembles d’estimations, dont
l’un est généralement convergent sous des conditions moins fortes que
l’autre;
(iv) des tests d’hétéroscédasticité dont la forme est connue.
Dans la dernière section du chapitre, nous aborderons un matériau très
important et qui sera traité en détail dans le Chapitre 16. La régression
de Gauss-Newton n’est valable que sous l’hypothèse d’homoscédasticité des
aléas, une hypothèse qui est quelquefois trop forte. Dans cette dernière
section, nous discuterons d’une régression artificielle qui peut être utilisée
pour calculer des statistiques de test à chaque fois que l’on peut utiliser
la GNR, mais qui a la propriété avantageuse de fournir des statistiques
de test asymptotiquement valables même lorsque les aléas manifestent un
phénomène d’hétéroscédasticité dont la forme est inconnue. Nous présentons
cette régression artificielle parce qu’il s’agit d’un prolongement logique de la
394
11.2 Tests d’Egalité de Deux Vecteurs de Paramètres 395
régression de Gauss-Newton, et parce qu’elle peut être très utile dans la pra-
tique.
1
Lorsqu’il n’y a pas de raison de croire à une modification des paramètres à
une date quelconque, il peut être pertinent d’utiliser une procédure qui ne fait
référence à aucune date. On utilisera par exemple les procédures CUSUM et
CUSUM des carrés, de Brown, Durbin, et Evans (1975).
2
Une fonction déterminant le salaire établit un lien entre les salaires et une série
de variables explicatives telles que l’âge, la formation, et l’expérience. Pour
des exemples d’utilisation de tests en F pour l’égalité de deux ensembles de
coefficients dans ce contexte, consulter Oaxaca (1973, 1974).
396 Tests Basés sur la Régression de Gauss-Newton
fait une généralisation du test pour manipuler n’importe quel nombre de sous-
échantillons, dont certains peuvent avoir un nombre d’observations inférieur
au nombre de régresseurs.
La manière habituelle de poser le problème consiste à partitionner les
données en deux ensembles, c’est-à-dire à partitionner le vecteur y à n com-
posantes de la variable dépendante en deux vecteurs y1 et y2 , respectivement
de dimensions n1 et n2 , et à partitionner la matrice X des observations sur
les régresseurs de dimension n × k en deux matrices X1 et X2 , qui sont re-
spectivement de dimensions n1 × k et n2 × k. Cette partition nécessitera bien
évidemment que les données soient ordonnées. Ainsi l’hypothèse maintenue
peut s’écrire comme
· ¸ · ¸· ¸ · ¸
y1 X1 0 β1 u1
= + , E(uu>) = σ 2 I, (11.01)
y2 0 X2 β2 u2
se présentent. La première limite est que l’on ne peut pas l’appliquer lorsque
min(n1 , n2 ) < k, puisqu’alors au moins l’une des deux régressions portant
sur les sous-échantillons ne peut plus être calculée. L’article initiateur de
Chow (1960) reconnaissait ce problème et proposait un test alternatif pour le
traiter. Notre traitement fondé sur la GNR éclaircira la relation entre le test
ordinaire (11.03) et le test alternatif. La deuxième limite est que (11.03) n’est
compatible qu’avec des modèles de régression linéaire. Il est envisageable de
construire l’analogue non linéaire, ce qui nécessite de réaliser deux estimations
non linéaires supplémentaires (une pour chaque sous-échantillon). Cependant
notre traitement basé sur la GNR offrira un moyen plus simple de manipuler
le cas non linéaire.
La troisième limitation relative à (11.03) est que, comme les tests en F
plus conventionnels, il s’agit d’un test qui est valable sous l’hypothèse assez
forte que E(uu>) = σ 2 I. Cette hypothèse peut s’avérer assez irréaliste lorsque
l’on teste l’égalité de deux ensembles de paramètres, puisque si le vecteur de
paramètres β diffère entre les deux régimes, la variance σ 2 est aussi sûrement
différente. Un certain nombre d’articles a été consacré à cette éventualité,
et les nombreux auteurs sont Toyoda (1974), Jayatissa (1977), Schmidt et
Sickles (1977), Watt (1979), Honda (1982), Phillips et McCabe (1983), Ali
et Silver (1985), Ohtani et Toyoda (1985), Toyoda et Ohtani (1986), Weera-
handi (1987), Buse et Dastoor (1989), et Thursby (1992). Tous ces articles
considèrent le cas où la variance des aléas est σ12 dans le premier régime
et σ22 dans le second. Une approche qui est souvent plus simple et qui se
révèle valable plus souvent consiste à utiliser une statistique de test robuste
à l’hétéroscédasticité de forme inconnue (MacKinnon, 1989). C’est plus tard,
au cours de la Section 11.6, que nous discuterons d’une régression artificielle
qui produit de telles statistiques de test robustes à l’hétéroscédasticité dans
tous les cas où la GNR s’applique. Il sera souvent sage de calculer ces tests
robustes à l’hétéroscédasticité en plus des tests de Chow ordinaires ou des
tests basés sur la GNR, à moins que l’hypothèse d’homoscédasticité soit à
l’évidence une hypothèse raisonnable.
Considérons désormais le test de changement de régime dans un modèle
de régression non linéaire. Par souci de simplicité, nous supposerons que
l’échantillon qui doit être partitionné ne doit l’être qu’en deux groupes
d’observations; le prolongement de l’analyse au cas d’un nombre de groupes
plus important est évident. Nous définissons tout d’abord un vecteur δ ≡
[δ1 · · · δn ]>, en posant δt = 0 si l’observation t appartient au premier groupe,
et δt = 1 si elle appartient au second. Supposons que l’hypothèse nulle soit
H0 : yt = xt (β) + ut , E(uu>) = σ 2 I,
où, comme d’habitude, les fonctions xt (β) sont supposées satisfaire les con-
ditions de régularité exposées dans le Chapitre 5. L’hypothèse alternative
pourrait s’exprimer comme
¡ ¢
H1 : yt = xt β1 (1 − δt ) + β2 δt + ut , E(uu>) = σ 2 I.
398 Tests Basés sur la Régression de Gauss-Newton
où β̂ désigne les estimations NLS de β sur l’échantillon entier. On peut écrire
la GNR (11.04) sous une forme plus compacte comme
où û est composé de l’élément type yt −xt (β̂), et X̂ est composée de l’élément
type Xt (β̂). Le symbole ∗ désigne ici le produit direct de deux matrices.
Puisque δt Xti (β̂) est un élément type de δ ∗X̂, δt ∗ X̂t = X̂t lorsque δt = 1
et δt ∗ X̂t = 0 lorsque δt = 0. Afin d’exécuter le test, il faut simplement
estimer le modèle avec l’échantillon entier, et régresser les résidus de cette
estimation sur la matrice des dérivées X̂ et sur la matrice dont les lignes qui
correspondent aux observations du groupe 1 sont composées de zéros. Il est
inutile d’ordonner les données. Comme d’habitude, on dispose de plusieurs
statistiques de test asymptotiquement valables, la meilleure étant sûrement
la statistique F ordinaire pour l’hypothèse nulle c = 0. Dans le cas le plus
courant où k est plus petit que min(n1 , n2 ), cette statistique de test aura k
degrés de liberté au numérateur et n − 2k degrés de liberté au dénominateur.
Notons que la SSR de la régression (11.05) est égale à la SSR de la GNR
où α est un vecteur de l paramètres qui sont supposés être identiques dans
les deux sous-échantillons, et β est un vecteur à m composantes dont on veut
tester la constance. La GNR est alors
où X̂α est une matrice de dimension n × l, dont l’élément type est la dérivée
partielle ∂xt (α, β)/∂αi , évaluée en (α̂, β̂), les estimations de (11.07); et où
400 Tests Basés sur la Régression de Gauss-Newton
X̂β est une matrice de dimension n×m dont l’élément type est ∂xt (α, β)/∂βj ,
également évalué en (α̂, β̂). A condition que m soit inférieur à min(n1 , n2 ),
la statistique de test aura m et n − l − 2m degrés de liberté. Même dans le
cas où xt (α, β) est linéaire, il n’est pas encore possible de calculer un test
à la manière du test de Chow classique (11.03). Parce que le vecteur de
paramètres α est supposé être constant sur les deux sous-échantillons, on ne
peut pas obtenir la SSR non contrainte grâce à une estimation séparée des
deux sous-échantillons.
La discussion précédente se focalisait sur le contexte de l’estimation par
moindres carrés. Lorsque l’on effectue une estimation par variables instru-
mentales, il y a une légère complication relative au choix des instruments à
utiliser lors de l’estimation du modèle nul et du modèle alternatif. D’après
les résultats de la Section 7.7, l’équivalent IV de (11.05) est
ũ = PW X̃b + PW δ∗X̃c + résidus, (11.08)
où ũ et X̃ sont évalués avec les estimations β̃ des IV (généralisés) sous
l’hypothèse nulle. Comme d’habitude, de nombreuses statistiques de test sont
disponibles.
Bien que l’estimation de la régression (11.08) semble immédiate, un
problème demeure. En faisant usage simplement de la matrice des instru-
ments W qui a permis l’estimation du modèle originel, il est fort possible
que la matrice [PW X̃ PW δ ∗ X̃] ne soit pas de plein rang. Pour estimer le
modèle contraint, W doit avoir au moins k colonnes, alors que pour effectuer
la régression (11.08) elle doit en avoir au moins 2k. Si W possède moins de 2k
colonnes, la statistique de test aura un nombre de degrés de liberté inférieur
à k, et testera en réalité H0 contre une hypothèse alternative moins générale
que H1 . Une solution immédiate consiste à doubler le nombre des instruments
par l’usage de la matrice
· ¸
∗ W1 0
W ≡ (11.09)
0 W2
au lieu de W dans la GNR (11.08). Cela permet aux relations entre les
régresseurs endogènes et les instruments de différer dans les deux sous-
échantillons, ce qui paraı̂t raisonnable. Même s’il faut utiliser un test LM,
c’est-à-dire un test basé sur la somme des carrés expliqués de la régression
(11.08), il faut être prudent et utiliser W ∗ pour l’estimation du modèle con-
traint. Toutefois, ainsi que nous en avons discuté au cours de la Section 7.7,
cela n’est pas nécessaire lorsque l’on utilise un test C(α), c’est-à-dire un test
pseudo-F pour c = 0 dans la régression (11.08).
Il est sans doute utile d’énumérer les étapes qu’il faut franchir si l’on
désire tester H0 contre H1 avec des estimations IV:
(i) Estimer le modèle H0 grâce à une matrice W adéquate composée d’au
moins k instruments, et de préférence de plus que k, comprenant toutes
les variables exogènes et prédéterminées dans les fonctions de régression.
11.3 Tests de Modèles de Régression Non Emboı̂tés 401
ũ = PW ∗ X̃b + résidus
y = (1 − φ)z(γ) + φx̂ + u,
non emboı̂tées sont des tests de spécification, et puisqu’il n’y a presque ja-
mais aucune raison a priori de croire qu’un des modèles a en réalité généré
les données, il est pertinent que les tests non emboı̂tés, tout comme les autres
tests de spécification d’un modèle, nous enseignent qu’aucun des modèles n’est
compatible aux données.
Il est important d’insister sur le fait que l’objet des tests non emboı̂tés
n’est pas de choisir le “meilleur” modèle parmi un ensemble fixé de modèles.
Ceci constitue l’objet d’un pan entièrement différent de la littérature écono-
métrique, qui traite les critères d’une sélection de modèle. Nous n’entamerons
pas de débat sur la littérature assez importante consacrée à la sélection de
modèle à travers cet ouvrage. Deux études utiles sont dues à Amemiya (1980)
et Leamer (1983), et un intéressant article récent a été écrit par Pollak et Wales
(1991).
Il est intéressant d’examiner plus en détail le cas où les deux modèles sont
linéaires, c’est-à-dire x(β) = Xβ et z(γ) = Zγ. Cela nous donnera l’occasion
de comprendre pourquoi les tests en J et en P (qui sont identiques dans ce cas
précis) sont asymptotiquement valables et aussi pourquoi ces tests peuvent ne
pas toujours être performants lorsque les échantillons sont finis. La régression
du test en J pour tester H1 contre H2 est
Les deux termes de (11.20) sont de natures différentes. Le premier terme est
une somme pondérée des éléments du vecteur u, dont chacun est d’espérance
nulle. Ainsi, sous les conditions de régularité adéquates, il est aisé de voir que
³ ¡ ¢´
a
n−1/2 β>X>PZ MX u ∼ N 0, plim n−1 σ12 β>X>PZ MX PZ Xβ .
n→∞
Le premier terme est donc O(n1/2 ). Par contraste, le second terme est O(1),
puisque ¡ ¢ ¡ ¢
plim u>PZ MX u = plim u>PZ u − u>PZ PX u
n→∞ n→∞
³ ´
2 2
= σ1 k2 − σ1 Tr lim PZ PX ,
n→∞
β>X>PZ MX u
¡ ¢1/2 ,
σ1 β>X>PZ MX PZ Xβ
Ainsi γ̃ est l’estimation NLS de γ obtenue lorsque l’on utilise les valeurs
ajustées x̂ au lieu de la variable dépendante y. Dans le cas linéaire, cela
signifie que la régression du test en J (11.16) est remplacée par la régression
Cette régression produit ce que l’on appelle le test en JA parce que Fisher et
McAleer en ont attribué l’initiative à Atkinson (1970). En utilisant un résultat
de Milliken et Graybill (1970), Godfrey (1983) montra que le t de Student de
l’estimation de α à partir de (11.22) obéit réellement à la distribution de
Student avec des échantillons finis sous les conditions habituelles qui font que
le t de Student suit cette distribution (u normalement distribué, indépendance
de y à l’égard de X et de Z). L’intuition de ce résultat est relativement
simple. Le vecteur de valeurs ajustées PX y ne contient que la partie de y
qui appartient à S(X). Il doit donc être indépendant de MX y, qui est ce
que seraient les résidus de (11.22) si α = 0. Par conséquent, il est possible de
traiter PZ PX y (ou n’importe quel autre régresseur qui ne dépend de y qu’à
travers PX y) comme s’il s’agissait d’un régresseur fixe.4 Le test en PA est au
test en P ce que le test en JA est au test en J.
Malheureusement, les tests en JA et en PA sont dans de nombreuses cir-
constances beaucoup moins puissants que les tests en J et en P ordinaires;
consulter Davidson et MacKinnon (1982) et Godfrey et Pesaran (1983). Alors
si, par exemple, le test J rejette l’hypothèse nulle alors que le test en JA ne
le fait pas, il est difficile de savoir si c’est parce que le premier est très enclin
à commettre une erreur de première espèce ou parce que le second est au
contraire très enclin à commettre une erreur de deuxième espèce.
Une seconde approche consiste à estimer l’espérance de u>MX PZ u, à
la soustraire de y>MX PZ y, et à diviser la quantité qui en résulte par une
estimation de la racine carrée de la variance afin d’obtenir une statistique de
test qui obéirait asymptotiquement à une N (0, 1). Cette approche a été pro-
posée par Godfrey et Pesaran (1983) sous une forme quelque peu compliquée;
on trouvera une version plus simple dans le “Reply” de MacKinnon (1983).
Cette seconde approche est beaucoup plus difficile à mettre en œuvre que le
test en JA , puisqu’elle implique des calculs matriciels qui ne peuvent pas être
4
Avec le même argument, le test RESET dont nous avons discuté à la Section 3.5
est exact avec des échantillons finis toutes les fois qu’un test en t ordinaire l’est.
408 Tests Basés sur la Régression de Gauss-Newton
réalisés avec une succession de régressions, et elle ne produit pas un test exact.
De plus elle nécessite l’hypothèse de normalité. Cependant, il semble qu’elle
génère un test dont les propriétés en échantillons finis sont bien meilleures que
celles du test en J sous l’hypothèse nulle, et dont la puissance, du moins dans
certains cas, sera supérieure à celle du test en JA .
Le vecteur γ̃ est intéressant de plein droit. Le test de Cox originel utilisait
le fait que, sous H1 , ¡ ¢ ¡ ¢
plim γ̃ = plim γ̂ .
n→∞ n→∞
Il est possible d’élaborer un test basé directement sur la différence entre γ̂ et γ̃.
Un tel test, proposé pour la première fois par Dastoor (1983) et développé
plus tard par Mizon et Richard (1986), détermine si oui ou non la valeur de
γ prédite par le modèle H1 (c’est-à-dire γ̃) est la même que la valeur obtenue
par l’estimation directe de H2 (c’est-à-dire γ̂). On appelle ces tests les tests
d’enveloppement parce que si H1 explique effectivement la réalisation de H2 ,
on peut dire qu’elle l’enveloppe; voir Mizon (1984). Le principe sur lequel ils
reposent est quelquefois appelé principe d’enveloppement.
Il y a quelques difficultés pratiques avec les modèles de régression non
linéaire, et par conséquent nous ne discuterons pas de ces tests dans cet ou-
vrage. Toutefois, dans le cas linéaire, le test est à la fois simple et attrayant.
Lorsque les deux modèles sont linéaires, les deux estimations de γ sont
¡ ¢−1
γ̂ = Z>Z Z>y et
¡ ¢−1
γ̃ = Z>Z Z>PX y.
Ainsi la différence entre les deux est
¡ > ¢−1 > ¡ ¢−1 ¡ ¢−1
Z Z Z y − Z>Z Z>PX y = Z>Z Z>MX y. (11.23)
5
Si X ou Z est composée de variables dépendantes retardées, alors nous sommes
intéressés par l’espérance asymptotique de n−1/2 Z ∗>MX y plutôt que par
l’espérance asymptotique de Z ∗>MX y.
11.3 Tests de Modèles de Régression Non Emboı̂tés 409
le permet également. Mais cette statistique de test est bien sûr équivalente à
un test en F ordinaire pour γ ∗ = 0 dans la régression linéaire
y = Xβ + Z ∗ γ ∗ + u. (11.24)
Ainsi il apparaı̂t que, dans ce cas, le test d’enveloppement n’est rien de plus
qu’un test en F ordinaire de H1 contre l’hypothèse alternative (11.24). Un tel
test est facile à mettre en œuvre et sera exact sous les conditions habituelles.
Les mérites relatifs des tests à degré de liberté unique comme le test en J
et des tests à degrés de liberté multiples comme le test d’enveloppement ont été
largement développés dans la littérature; consulter Pesaran (1982) et l’article
de synthèse de MacKinnon (1983), tout particulièrement les commentaires
des nombreux intervenants. Le test en J et les tests équivalents seront plus
puissants que les tests à degrés de liberté multiples lorsque les données ont été
réellement générées par H2 mais peuvent être moins puissants lorsqu’elles sont
générées par un tout autre modèle. Nous verrons les raisons de tout cela au
cours du Chapitre 12, lorsque nous discuterons des éléments qui déterminent
la puissance d’un test.
Dans la suite de cette section, nous discuterons de deux cas particuliers.
Le premier concerne les modèles de régression dont les aléas sont autocorrélés.
Même si un modèle de régression est linéaire à l’origine, sa transformation pour
prendre en compte un processus AR(1) ou tout autre processus suivi par les
aléas en fait un modèle non linéaire, ainsi que nous l’avons vu au cours du
Chapitre 10. Supposons donc que les deux modèles concurrents soient
où x̂, X̂, et ẑ sont désormais évalués avec les estimations IV β̂ et γ̂. La
manière la plus facile d’obtenir une statistique de test est simplement de
régresser y − x̂ sur X̂ et ẑ − x̂ par une procédure IV où W est la matrice
des instruments. La statistique pseudo-t de l’estimation de a sera alors une
statistique de test valable asymptotiquement, pourvu que W soit l’ensemble
des instruments avec lesquels on a estimé H1 par IV et que les conditions
habituelles de régularité pour l’estimation par IV non linéaire soient satisfaites
(consulter la Section 7.6).
Cela complète notre discussion sur les tests d’hypothèses non emboı̂tés
pour les modèles de régression. A l’évidence, nous n’avons pas discuté de
tous les aspects de ce problème. Les aspects dont nous n’avons pas parlé
sont traités dans deux articles de MacKinnon, White, et Davidson (1983),
qui adaptent les tests en J et en P aux modèles qui impliquent des transfor-
mations de la variable dépendante, et de Davidson et MacKinnon (1983b),
qui adaptent ces mêmes tests aux modèles de régression non linéaire multi-
variée (voir Chapitre 9). Les études de MacKinnon (1983) et McAleer (1987)
fournissent de nombreuses autres références.
L’idée de base des tests DWH est de construire un test sur un vecteur
de contraste, c’est-à-dire la différence entre deux ensembles d’estimations,
dont l’un sera convergent sous des conditions moins restrictives que l’autre.
Supposons simplement que le modèle qu’il faut tester est
où A est une matrice symétrique de dimension n × n qui est supposée, pour
simplifier, avoir un rang au moins égal à k (autrement, on ne pourrait pas
estimer toutes les composantes de β̌, et nous ne pourrions comparer que la
partie estimée de β̌ au sous-vecteur correspondant de β̂; voir la discussion sur
les tests de spécification des dérivées qui suit). Dans le cas étudié au cours de
la Section 7.9, β̌ est l’estimateur IV
¡ ¢−1
β̃ ≡ X>PW X X>PW y.
¡ ¢
qui est égal à β0 à condition que plim n−1 X>Au = 0. Ainsi, si β̌ et β̂
différent d’une quantité supérieure à ce que l’on peut raisonnablement at-
tribuer à une variation aléatoire, on peut conclure que les données n’ont pas
été générées par le modèle (11.27).
Pour un modèle de régression tel que (11.27), il est aisé de calculer un
test DWH au moyen d’une régression artificielle. Nous avons vu des exem-
ples similaires à la Section 7.9 et nous discuterons d’exemples plus éloignés
plus tard. Cependant, il existe une autre façon de calculer des tests DWH, et
cette autre façon peut être plus pratique dans certains cas. Pour un modèle
quelconque qui n’est pas forcément un modèle de régression, supposons que
θ̂ désigne un estimateur efficace des paramètres du modèle et que θ̌ désigne
412 Tests Basés sur la Régression de Gauss-Newton
un estimateur moins efficace mais convergent sous des conditions moins re-
strictives que celles du modèle. Notons e le vecteur de contraste entre θ̌ et θ̂.
Alors nous avons vu que
a
n1/2 (θ̌ − θ0 ) = n1/2 (θ̂ − θ0 ) + n1/2 e, (11.30)
où n1/2 e est asymptotiquement non corrélé avec n1/2 (θ̂−θ0 ). Ce résultat a été
démontré pour les modèles estimés par maximum de vraisemblance, dans la
Section 8.8; l’équivalent avec un échantillon fini pour les modèles de régression
linéaire a été démontré en tant qu’élément de démonstration du Théorème
de Gauss-Markov à la Section 5.5. Parce que les deux termes du membre de
droite de (11.30) sont asymptotiquement non corrélés, la matrice de covariance
asymptotique du membre de gauche correspond à la somme des deux matrices
de covariance asymptotique de ces deux termes. Par conséquent, on obtient
¡ ¢ ¡ ¢
lim V n1/2 (θ̌ − θ0 ) = lim V n1/2 (θ̂ − θ0 ) + lim V (n1/2 e),
n→∞ n→∞ n→∞
où V̌ (θ̌) et V̂ (θ̂) désignent les estimations des matrices de covariance res-
pectives de θ̌ et θ̂. La statistique de test (11.32) sera asymptotiquement
distribuée suivant une loi du χ2 (r) dont le nombre de degrés de liberté corre-
spond au rang de V ∞ (θ̌) − V ∞ (θ̂). Notons qu’il faudra remplacer l’inverse
dans (11.32) par une inverse généralisée si, comme c’est souvent le cas, le
rang de V ∞ (θ̌) − V ∞ (θ̂) est inférieur au nombre de paramètres de θ; voir
Hausman et Taylor (1982). Il peut survenir des difficultés d’ordre pratique
avec (11.32) si V̌ (θ̌) − V̂ (θ̂) n’est pas semi-définie positive ou si le rang de
V̌ (θ̌) − V̂ (θ̂) diffère de celui de V ∞ (θ̌) − V ∞ (θ̂). C’est pour ces raisons que
nous insistons sur l’approche basée sur les régressions artificielles.
Dans le cas de la régression linéaire (11.27), où les deux estimateurs sont
(11.28) et (11.29), le test DWH est basé sur le vecteur de contraste
¡ ¢−1
β̌ − β̂ = X>AX X>AMX y. (11.33)
y = Xβ + AX ∗ δ + résidus. (11.36)
y>PMXAX ∗ y/k ∗
, (11.37)
y>MX, MXAX ∗ y/(n − k − k ∗ )
y = Xβ + Zγ + u, (11.38)
y = Xβ + MZ Xδ + résidus (11.39)
= X(β + δ) − PZ Xδ + résidus. (11.40)
Il est évident à partir de (11.40) que chaque fois que la matrice Z>X sera de
rang l, la régression (11.39) aura exactement le même pouvoir explicatif que
la régression (11.38), puisque X et PZ X = Z(Z>Z)−1Z>X engendreront
conjointement le même sous-espace que X et Z. Le test en F pour δ = 0
dans (11.39) sera ainsi identique au tes en F pour γ = 0 dans (11.38), ce qui
est le résultat obtenu par Holly dans le cas très particulier de la régression
linéaire. Une condition nécessaire, mais pas suffisante, pour que Z>X soit de
rang l, est que k ≥ l. Pour de plus amples détails sur la relation entre les tests
DWH et les tests d’hypothèses classiques, consulter Holly et Monfort (1986)
et Davidson et MacKinnon (1989).
Il y a une relation intéressante entre la variante d’“exogénéité” du test
DWH et la variante “variables omises”. Dans la première, A = PW et
PW X ∗ est composée de toutes les colonnes de PW X qui n’appartiennent
pas à l’espace engendré par les colonnes de X. Ainsi la régression du test est
y = Xβ + PW X ∗ δ + résidus. (11.41)
De façon similaire
n
X ¡ ¢
− r̈>s = − rt+1 − 2rt + rt−1 st
t=1
n
(11.45)
X ¡ ¢
= 2rt st − rt+1 st − rt−1 st .
t=1
r0 s0 − rn sn − r1 s0 + rn+1 sn .
Cette expression est évidemment O(1), alors que des quantités telles que Ẋ>Ẋ
et Ẍ>X sont O(n). Toute différence entre ṙ>ṡ et −r̈>s doit par conséquent
être asymptotiquement négligeable, ce qui démontre le résultat (11.43).6
Grâce à ce résultat et au fait que y = PX y + MX y = Xβ̂ + MX y, nous
apercevons que
a ¡ ¢−1 ¡ ¢−1
β̌ − β̂ = Ẍ>X Ẍ>y − X>X X>y
¡ ¢−1
= Ẍ>X Ẍ>(Xβ̂ + MX y) − β̂
¡ ¢−1
= Ẍ>X Ẍ>MX y.
De plus, d’après la définition de Ẍ nous voyons que S(X, Ẍ) = S(X, C), où
C est une matrice dont la ligne type est Xt−1 +Xt+1 . Ainsi le test pour δ = 0
dans (11.46) sera numériquement identique au test pour η = 0 dans
y = Xβ + Cη + résidus. (11.47)
6
On peut également démontrer ce résultat à l’aide d’une matrice de différences,
disons D, telle que Ẋ = DX et Ẍ−1 = D 2X. Une telle démonstration serait
plus concise mais sans doute moins facile à saisir.
11.4 Tests Basés sur Deux Estimations Comparées 417
y = Xβ + u (11.48)
y = Xβ + γz + u, (11.49)
où x∗ est l’une des colonnes de X. A moins que z>x∗ ne soit numériquement
nul, auquel cas on ne peut pas calculer le test, un test en t pour δ = 0 sera iden-
tique numériquement à un test en t pour γ = 0 dans (11.49). Ainsi, si γ 6= 0
et si l’échantillon est suffisamment large, le test DWH rejettera l’hypothèse
nulle avec une probabilité égale à l’unité, même dans le cas où β̂ est en réalité
convergent. La raison de ce problème embarrassant en apparence est que nous
avons calculé un test DWH avec un échantillon fini qu’il aurait été impossible
de calculer asymptotiquement, parce que le régresseur z(z>z)−1 z>x∗ serait
alors une colonne de zéros. Malheureusement, on peut souvent calculer ce
test. Dans de telles circonstances, il est clair que les résultats des tests DWH,
avec des échantillons finis, peuvent être mal interprêtés.
où h(·) est une fonction éventuellement non linéaire qui doit produire des
valeurs positives, Zt est un vecteur dont les q composantes sont des obser-
vations sur des variables exogènes ou prédéterminées, α est un scalaire, γ
un vecteur de q paramètres. L’équation (11.51) indique que l’espérance de
l’aléa ut au carré est h(α + Zt γ). Comme nous l’avons vu à la Section 9.2,
la fonction h(·) est appelée fonction scédastique. Si tous les éléments du
vecteur γ sont nuls, h(α + Zt γ) se réduit à h(α), qui est simplement une
constante. On peut imaginer que cette constante est σ 2. Ainsi nous pour-
rions tester l’hypothèse nulle d’homoscédasticité contre l’hypothèse alterna-
tive d’hétéroscédasticité (11.51) en testant la contrainte γ = 0.
11.5 Tests d’Hétéroscédasticité 419
L’équation (11.52) est un modèle de régression. Bien que l’on ne puisse pas
s’attendre à ce que l’aléa et ait un comportement aussi régulier que la plupart
des aléas des modèles de régression, puisque la distribution de u2t sera en
général inclinée à droite, il doit avoir une espérance nulle par définition, et nous
supposerons qu’il a une variance finie et constante. Cette hypothèse serait
probablement excessivement forte si γ était non nul (on pourra la relacher
en faisant usage des techniques discutées dans la prochaine section). Sous
l’hypothèse nulle que γ = 0 cependant, il ne paraı̂t pas déraisonnable de
supposer que la variance de et est constante.
Supposons pour débuter que l’on observe réellement ut . Alors on peut
sûrement estimer (11.52) à la manière habituelle par NLS. Sous l’hypothèse
nulle que γ = 0, l’estimation NLS de α est la valeur α̃ qui vérifie l’équation
n
X
1
h(α̃) = −
n
u2t ≡ σ̃ 2.
t=1
où h0 (α̃) est la dérivée de h(·) par rapport à son unique argument, évaluée
en α = α̃ et γ = 0. Puisque h0 (α̃) est une constante, (11.53) se simplifie et
devient
v − ισ̃ 2 = ιa + Zc + résidus, (11.54)
où v est un vecteur dont les n éléments sont les u2t , ι est un vecteur dont
chaque composante égale 1, et Z est une matrice de dimension n × q dont la
ligne type est Zt . Puisque ni la fonction h(·) ni ses dérivées n’apparaissent
dans (11.54), un test basé sur cette régression artificielle ne dépendra pas
de la forme fonctionnelle de h(·). La raison est que tous les modèles de la
forme (11.52) sont des alternatives localement équivalentes. Nous avons vu
un exemple plus tôt à la Section 10.8; consulter Godfrey (1981) et Godfrey et
Wickens (1982).
Comme d’habitude, la statistique de test de la GNR pour γ = 0 est soit
un test en F pour c = 0 dans (11.54) soit un nR2 de cette régression. Puisque
ι apparaı̂t dans les deux membres de (11.54) , la régression peut être encore
simplifiée pour donner
où Mι est la matrice qui calcule les écarts à la moyenne, et ∗ désigne le produit
direct de deux vecteurs. Il est aisé de voir que le premier terme de la seconde
ligne de (11.59) est O(n1/2 ); c’est simplement la somme de n termes, dont
chacun est d’espérance nulle à cause de la présence de Mι . Le second terme,
par contre, est O(1), ce qui signifie qu’il est asymptotiquement négligeable par
rapport au premier. Ainsi z>Mι v̂ est asymptotiquement équivalent à z>Mι v,
et l’on peut ignorer la distinction entre v et v̂ lorsque l’on calcule des tests
d’hétéroscédasticité.
Une autre façon de considérer le problème est de se rappeler que, comme
nous l’avons vu à la Section 8.10 lorsque nous avons discuté des modèles
de régression non linéaire dans le contexte de l’estimation par maximum de
vraisemblance, la matrice de covariance des estimations des paramètres d’un
tel modèle est bloc-diagonale entre les paramètres de la fonction de régression
(dans ce cas β) et les paramètres de la fonction scédastique (dans ce cas α
et γ). Cette propriété de bloc-diagonalité implique que l’on peut traiter les
premiers paramètres comme connus dans le but de tester les seconds, et vice
versa, même si on les estime en réalité.
Bien que la famille des tests que nous avons esquissée semble être une
application naturelle de la régression de Gauss-Newton, ce n’est pas de cette
façon qu’elle a été développée dans la littérature économétrique. Godfrey
(1978c) et Breusch et Pagan (1979) ont proposé des statistiques de test
qui, bien que fondées sur une légère modification de la régression artificielle
(11.56), n’étaient pas les mêmes que celles que nous suggérons ici. Ces au-
teurs supposèrent explicitement que les aléas ut étaient normalement dis-
tribués. Cela leur permit de dériver leurs tests comme des tests du multipli-
cateur de Lagrange en utilisant la théorie du maximum de vraisemblance, et
ils obtinrent des statistiques de test quelque peu différentes qui restent val-
ables même asymptotiquement, uniquement sous l’hypothèse de normalité.
Koenker (1981) fit remarquer cette faiblesse des tests Godfrey/Breusch-Pagan
et suggéra le test du nR2 basé sur la régression (11.56) comme alternative.
Le test en F pour c = 0 basé sur la même régression est aussi valable asymp-
totiquement, et présente de nombreux attraits avec des échantillons finis.
Malheureusement, les tests en F et nR2 peuvent souvent être moins puis-
sants que les tests LM basés sur l’hypothèse de normalité. Honda (1988) a
récemment montré la façon d’obtenir des versions modifiées de ces derniers
et qui possèdent de meilleures propriétés avec des échantillons finis. Voir la
Section 16.5 et Godfrey (1988, Section 4.5) pour une discussion plus complète
de tous ces tests.
Au lieu de (11.51), on pourrait débuter avec le modèle plus général
Glejser (1969) considéra le cas p = 1 et proposa un test basé sur une régression
artificielle similaire à (11.56) mais où la régressande est égale aux valeurs
absolues des résidus. Dans l’article de Newey et Powell (1987), il est montré
422 Tests Basés sur la Régression de Gauss-Newton
Le second facteur est ici la somme des carrés expliqués de (11.61). L’expression
(11.62) montre clairement que ce que nous testons en réalité, c’est la nullité
asymptotique du vecteur à r composantes,
Puisque (11.62) est une forme quadratique du vecteur (11.63), mais également
une quantité qui donne une estimation convergente de sa matrice de cova-
riance, il est aisé de voir qu’elle aura une distribution asymptotique du χ2 (r)
sous l’hypothèse nulle.
Considérons à présent ce qu’il advient en présence d’hétéroscédasticité.
En particulier, supposons que
E(uu>) = Ω, (11.65)
où Ω est une matrice diagonale dont les éléments diagonaux sont des ωt2 qui
satisfont la condition
2
ωmin 2
< ωt2 < ωmax ∀t,
2 2
où ωmin et ωmax sont des bornes inférieure et supérieure positives finies. Cette
condition élimine la possibilité d’une croissance ou d’une décroissance infinies
de ωt2 lorsque t → ∞. Il est évident que si nous n’avons aucune information
sur les ωt2 , il nous sera impossible d’en donner une estimation convergente,
puisqu’il y aura un ωt2 à estimer pour chaque observation. Néanmoins, il reste
possible d’obtenir des estimations convergentes de quantités telles que
³ ´
1 >
plim −n
W ΩW , (11.66)
n→∞
où W est une matrice composée de n lignes qui satisfait la condition nécessaire
à l’existence de (11.66). Le moyen le plus simple d’obtenir de telles estimations
est de faire usage de l’estimateur
1
−
n
W >ΏW,
où Ώ est une matrice diagonale dont l’élément diagonal t est ú2t . Ce résultat
fondamental est du à Eicker (1963, 1967) et White (1980). Il permet d’obtenir
des matrices de covariance estimées et des statistiques de test qui sont va-
lables malgré une hétéroscédasticité de forme inconnue. Nous démontrerons
ce résultat et discuterons des estimateurs de matrice de covariance robustes
à l’hétéroscédasticité, ou HCCME, au cours du Chapitre 16. Pour l’instant,
424 Tests Basés sur la Régression de Gauss-Newton
où Ú est une matrice diagonale de dimension n × n avec út comme t ième
élément diagonal. Par conséquent, la statistique de test
¡ ¢−1
ú>ḾXŹ Ź>ḾX Ú Ú ḾXŹ Ź>ḾX ú
¡ ¢−1 (11.68)
= ι>Ú ḾXŹ Ź>ḾX Ú Ú ḾXŹ Ź>ḾX Ú >ι,
11.7 Conclusion
Au cours de ce chapitre, comme dans les Chapitres 6 et 10, nous avons vu que
la régression de Gauss-Newton et sa variante robuste à l’hétéroscédasticité
offrent des moyens très simples de tester un grand nombre d’aspects de la
spécification d’un modèle pour les modèles de régression. Cependant, nous
n’avons rien dit sur la manière d’interpréter les résultats de ces tests et d’autres
tests de spécification. C’est le sujet du prochain chapitre.
Termes et Concepts
changement de régime test de Chow
emboı̂tement artificiel test de spécification de la
estimateur de la matrice de covariance différentiation
robuste à l’hétéroscédasticité test en J
(HCCME) test en JA test en P
fonction scédastique test en PA test robuste à
matrices des différences l’hétéroscédasticité
modèles emboı̂tés tests d’hétéroscédasticité
modèles non emboı̂tés tests d’hypothèses non emboı̂tées
produit direct tests DWH
régression de Gauss-Newton robuste à variables instrumentales (IV) (tests de
l’hétéroscédasticité (HRGNR) modèles estimés par)
sélection de modèle vecteur de contraste