Académique Documents
Professionnel Documents
Culture Documents
2.1 Introduction
usit´es sont souvent estim´es `a l’aide de variantes des moindres carr´es. Parmi
au domaine bien connu des mod`eles de r´egression lin´eaire, qu’il est possible
d’estimer directement par OLS, nous consid´erons la famille plus large des
mod`eles de r´egression non lin´eaire qui peuvent ˆetre estim´es par moindres
des mod`eles de r´egression lin´eaire si les r´esultats qui sont v´erifi´es pour de tels
les mod`eles univari´es, c’est-`a-dire les mod`eles dans lesquels n’existe qu’une
seule variable d´ependante. Ceux-ci sont beaucoup plus simples `a traiter que
premiers est essentielle pour une bonne compr´ehension des seconds. Nous
), t = 1, . . . , n. (2.01)
D´esormais, yt repr´esente l’observation t de la variable d´ependante, qui est
45
Ces derni`eres n’ont pas ´et´e mentionn´ees explicitement dans (2.01) mais le t en
indice de xt(β) indique que cette fonction varie d’une observation `a l’autre.
Dans la plupart des cas, cela s’explique parce que xt(β) d´epend d’une ou
plusieurs variables ind´ependantes qui varient. Ainsi, xt(β) devrait ˆetre interpr´et´ee
voir `a la Section 2.4, elle devrait ˆetre interpr´et´ee comme l’esp´erance de yt conditionnelle
ind´ependantes.1
de yt. Un mod`ele qui comportera une telle fonction de r´egression sera appel´e
peu l’analyse. Nous admettrons pour l’instant que xt(β) ne d´epend pas des
des moindres carr´es non lin´eaires. D’apr`es l’acception du terme que nous utilisons
dans cet ouvrage, les r´esultats asymptotiques ne sont vrais qu’`a la limite,
les mod`eles non lin´eaires en g´en´eral, sont des r´esultats asymptotiques, parce
que les r´esultats ´etablis `a l’aide d’´echantillons finis et faciles `a interpr´eter sont
par l’interm´ediaire d’un al´ea additif. Dans le cas pr´ecis de (2.01), cet al´ea est
. En pr´etendant cela,
nous ne voulons pas dire que les variables al´eatoires ut ont n´ecessairement
Les lecteurs devraient ˆetre avertis que la notation que nous avons utilis´ee ici
place de notre xt(β). Nous pr´ef´erons cette notation pour deux raisons. La
premi`ere est qu’elle nous laisse la libert´e d’utiliser la notation f(·) pour d´esigner
des objets autres que les fonctions de r´egression sans cr´eer d’ambigu¨ıt´e. La
par Xti(β) (voir la Section 2.2). La matrice dont l’´el´ement type est Xti(β)
est de fait ´etroitement li´ee `a la matrice habituelle X qui est utilis´ee dans la
variance σ
nous d´erogeons `a l’usage standard. Ainsi que nous le verrons dans la Section
2.6, les propri´et´es de ces al´eas sont cruciales car elles d´eterminent toutes
soit, puisque les estimations NLS (comme les estimations OLS) peuvent ˆetre
calcul´ees sans se pr´eoccuper de la fa¸con dont les donn´ees ont ´et´e g´en´er´ees,
nous traiterons le calcul des estimations NLS avant d’aborder la discussion de
Section 2.2, nous discutons des moindres carr´es non lin´eaires en tant que
proc´edure de calcul qui constitue une extension des moindres carr´es ordinaires.
un mod`ele de r´egression non lin´eaire tel que (2.01) est tr`es semblable, eu
mod`ele de r´egression non lin´eaire doit ˆetre identifi´e si l’on d´esire obtenir des
´economiques) des mod`eles de r´egression non lin´eaire. Dans la Section 2.4 nous
`a la Section 2.5, alors que les al´eas seront examin´es `a la Section 2.6.
Proc´eder `a des inf´erences `a partir de mod`eles estim´es par NLS sera le th`eme
du Chapitre 3.
Le moyen de loin le plus r´epandu d’estimer aussi bien les mod`eles de r´egression
SSR(β) = Xn
t=1
yt − xt(β)
¢2
.
L’´ecriture de cette expression sous forme matricielle est g´en´eralement plus
pratique:
SSR(β) = ¡
y − x(β)
>
y − x(β)
, (2.02)
peut-ˆetre pas aussi facile `a manipuler alg´ebriquement, mais qui est plus concise,
SSR(β) =
°y − x(β)
, (2.03)
(2.03) il est clair que lorsque l’on minimise SSR(β), on minimise en fait la
SSR(β) = y
>y − 2y
>
x(β) + x
>(β)x(β).
conditions du premier ordre qui doivent ˆetre v´erifi´ees pour toute estimation
Xti(β) ≡
∂xt(β)
∂βi
discussion sur les moindres carr´es non lin´eaires. Chaque ´el´ement de cette
..
..
.....
...................................
....
......
........................
....
.....................................................................................................................................................
.....................................................................................................................................................
................................................................................................................................... .
.
.
.
.
.
.
SSR(β)
βˆ β
00 β
∗
Figure 2.1 Une fonction somme des carr´es
doivent ˆetre orthogonaux `a la matrice des d´eriv´ees Xˆ. Il s’agit d’un r´esultat
analogue `a celui obtenu pour les mod`eles de r´egression lin´eaire pour lesquels
entre les cas lin´eaire et non lin´eaire r´eside dans le fait qu’autant le vecteur de
ne pouvons pas esp´erer r´esoudre (2.05) analytiquement pour βˆ, bien que cela
soit r´ealisable dans certains cas particuliers, dont bien sˆur le cas lin´eaire.
Notons que les conditions du premier ordre (2.05) sont n´ecessaires mais
somme des carr´es. Il peut exister plusieurs valeurs de β qui v´erifient (2.05)
des maxima locaux. Cela est illustr´e sur la Figure 2.1 pour le cas o`u il n’y
β
0
, un maximum local en β
∗
.
local ou un point stationnaire, parce qu’il est ais´e de v´erifier que les conditions
comme βˆ. Dans le but de trouver le minimum global, il est donc n´ecessaire
est ais´e de trouver avec certitude un minimum global, d`es lors qu’un graphe
Il est instructif d’´etudier l’analogue des Figures 1.1 et 1.3 pour le cas de
r´egression x(β) est non lin´eaire, mais partout diff´erentiable, elle d´efinit une
vari´et´e `a k dimensions,3
, en le notant X(β
). Il est
essentiel pour que X soit lisse partout, que chaque composante du vecteur §(β)
soit partout d´erivable. Pour n’importe quel point choisi arbitrairement, disons
∗
(X¯ ), qui correspond tout
∗
(X¯ ) est tangent `a X en ce point.
`a deux
∗
(X¯ 1
) et S
∗
(X¯ 2
) en deux
) et X(β¯2
S(X¯ 1
) et S(X¯ 2
∗
(X¯ 1
) et S
∗
(X¯ 2
), S(X¯ 2
), S
∗
(X¯ 1
), et S
∗
(X¯ 2
). C’est
justement la pr´esence de telles distinctions qui rend les mod`eles non lin´eaires
plus difficiles `a traiter que les mod`eles lin´eaires. Notons ´egalement que bien
que la vari´et´e d´efinie par une fonction de r´egression lin´eaire comprenne toujours
l’origine, ce n’est en g´en´eral pas le cas pour une fonction non lin´eaire,
comme on peut le constater sur la figure.
3 Pour des d´efinitions plus formelles d’une vari´et´e, ainsi que pour une discussion
(1965) pour une approche rudimentaire et Lang (1972) pour une approche
plus avanc´ee.
...
.............................................
........
..
X(β¯1
)
X(β¯2
∗
(X¯ 1
∗
(X¯ 2
S(X¯ 2
S(X¯ 1
..
.........................................
......
.....
.....
.
.
Xˆ
y − xˆ
xˆ
∗
(Xˆ )
Figure 2.3 Une r´egressande y projet´ee sur une vari´et´e non lin´eaire
La Figure 2.3 montre la mˆeme vari´et´e X que la Figure 2.2, mais S(X¯ 1
),
S(X¯ 2
), S
∗
(X¯ 1
), et S
∗
(X¯ 2
que puisque S
∗
(Xˆ ) est tangent `a X en βˆ, y − xˆ doit ˆetre orthogonal `a S
∗
(Xˆ )
ainsi qu’`a X au point Xˆ, ce que r´eclament pr´ecis´ement les conditions du premier
pour lequel les conditions du premier ordre sont satisfaites. Il est clair d’apr`es
Par contraste, examinons la Figure 2.4. Sur cette figure, la vari´et´e est
, et X
00 (correspon-
, et β
ordre sont satisfaites. Pour chacun de ces trois points, que l’on exprime sous
forme g´en´erique par la notation X¯, y −x¯ forme un angle droit avec X¯, et donc
aussi avec S
∗
(X¯ ). Quoi qu’il en soit, dans ce cas, Xˆ correspond `a l’´evidence
`a un minimum global, X
00 `a un minimum local, et X
`a un maximum local
Il ne fait aucun doute d’apr`es ces figures que le degr´e de non lin´earit´e de la
fonction de r´egression x(β) est crucial. Lorsque x(β) est quasiment lin´eaire,
les moindres carr´es non lin´eaires sont tr`es similaires aux moindres carr´es ordinaires.
...
...
...
..
...
...
....................................
.....................................
.....................................
...................................
....................................
..............
.
..........
Xˆ
00
..
..
..
..
..
..
...
.....................................................................................................................................................
......................................................................................... . .
β1
β2
βˆ
`a leur sujet (consulter les Chapitres 7 et 18), mais il s’agit un concept qui
si, pour cet ensemble de donn´ees, il est possible de trouver un βˆ unique qui
minimise SSR(β). Si le mod`ele n’est pas identifi´e par les donn´ees utilis´ees,
il existera plus d’un βˆ, et peut-ˆetre un nombre infini d’entre eux. Certains
alors que d’autres peuvent ˆetre identifi´es par quelques ensembles de donn´ees,
Hij (β) ≡
SSR(β)
∂βi∂βj
,
est d´efinie positive en βˆ. La stricte convexit´e implique que SSR(β) soit incurv´ee
dans toutes les directions; aucun plat n’est autoris´e quelle que soit la
direction. Si SSR(β) ´etait plate dans une direction au voisinage de βˆ, il serait
SSR(β) sont nulles en βˆ, de sorte que SSR(β) doit ˆetre ´egale `a SSR(βˆ) en tout
..
..
..
..
..
..
..
..
.....................................................................................................................................................
......................................................................................... . .
β1
β2
. ........................................
...............................................................................
. ..............................................................................
Figure 2.6 Minimum non identifi´e d’une fonction somme des carr´es
NLS, mais au plus un des points parmi le nombre infini de ceux qui minimisent
pour le cas habituel o`u βˆ correspond `a un minimum local unique, alors que
la Figure 2.6 les repr´esente pour le cas o`u le mod`ele n’est pas identifi´e, parce
L’identification locale est n´ecessaire mais non suffisante pour nous fournir
une estimation βˆ unique. Une condition plus g´en´erale est l’identification globale,
∗
) pour tout β
∗
6= βˆ.
Cette d´efinition de l’identification globale reste, `a vrai dire, une simple reformulation
et βˆ2
, avec
SSR(βˆ1
) = SSR(βˆ2
yt = βγ + γ
zt + ut. (2.06)
Il apparaˆıt clairement que si (β, ˆ γˆ) minimise la SSR pour ce mod`ele, (−β, ˆ −γˆ)
en fera autant. Donc le mod`ele est globalement non identifi´e par quelque
ensemble de donn´ees que ce soit, bien que les conditions du premier ordre
et du second ordre soient satisfaites aux deux minima. Cet exemple peut
ˆetre celui des mod`eles de s´eries temporelles avec une composante d’erreur `a
..
...
..
..
....
..
..
...
...
.....................................................................................................................................................
.....................................................................................................................................................
................................................
.
.
.....................................................................................................................................................
.....................................................................
SSR(β)
βˆ β
βˆ2
Figure 2.7 Cas o`u β est localement identifi´e mais non globalement
La Figure 2.7 illustre ce que peut donner la fonction somme des carr´es
pour un mod`ele qui est localement mais non globalement identifi´e dans le sens
et en β
Hessienne est d´efinie positive, soit satisfaite, pour certaines valeurs particuli`eres
xt(β) = β1 + β2z
β3
. (2.07)
xt(β) et par l`a, aucun effet sur SSR(β). En cons´equence, n’importe quelle
identifi´e si βˆ
3 = 0, car alors z
β3
2 ou βˆ
peu communs, ce mod`ele sera en r´ealit´e identifi´e par tous les ensembles de
plus fr´equent de rencontrer en pratique que les mod`eles non identifi´es, c’est-`adire
valeurs de β proches de βˆ. Ces valeurs de β sont celles qui nous pr´eoccupent
de minimiser SSR(β). Bien que SSR(β) ne soit pas r´eellement plate pour
singuli`ere.
arrive que la vraie valeur de β2 ou de β3 soit assez proche de z´ero, mais pas
identifi´e mˆeme pour des valeurs de ces param`etres tr`es diff´erentes de z´ero,
pour des valeurs β proches de βˆ, est g´en´eralement assez bien approxim´ee par
la matrice
2X>(β)X(β).
1z
β3
β2z
β3
log (zt)
¤
de celle-ci multipli´e par une constante et log(zt) ´etant ´egal `a l’´el´ement correspondant
z´ero, z
β3
et β2z
β3
l’´echantillon tend vers l’infini, le mod`ele est toujours identifi´e selon la signifi-
cation que nous avons donn´ee. Il s’agit davantage d’une propri´et´e du mod`ele
et de la fa¸con dont les donn´ees ont ´et´e g´en´er´ees (consulter la Section 2.4 pour
Chapitre 5, il est fort possible d’avoir un mod`ele identifi´e avec des ´echantillons
finis d’`a peu pr`es n’importe quel ensemble de donn´ees et pourtant non identifi´e
ut les erreurs de mesure de yt. Au lieu de cela, elle correspond souvent `a une
variables. Celles-ci peuvent ˆetre les seules variables qui soient renseign´ees,
additionnelle.
d´efinir xt(β) formellement par E(yt | Ωt). Il est possible d’avoir plus d’un
o`u Ω1t et Ω2t repr´esentent les deux ensembles d’informations. Les fonctions
Par exemple, si l’on sp´ecifie une fonction de r´egression dans le but ultime
effectue la pr´evision. Mˆeme lorsque l’on d´esire int´egrer toutes les informations
qu’elle apparaˆıtra dans xt(β), d`es lors que sa valeur ne nous renseigne pas sur
des variances. Nous discuterons des techniques de traitement de tels cas dans
d´efaut aux mod`eles, mˆeme lorsque la fonction de r´egression xt(β) est “correctement”
r´egression d´efinie et bas´ee sur cet ensemble lorsque nous d´esirons proc´eder
Il existe malgr´e tout des cas exceptionnels pour lesquels on peut choisir
n’importe quel ensemble d’informations, car les mod`eles ´etablis sur les diff´erents
exemple, supposons que le vecteur compos´e des yt et de chaque xit (xit allant
multivari´ee. Alors si x
∗
t
yt = β
∗
0+x
∗
tβ
∗ + ut, ut ∼ NID(0, σ2
∗
), (2.08)
∗
)” est un moyen simple de dire que les ut sont
∗
. Ceci est vrai pour tout sous-ensemble compos´e
∗
t
choisir β
∗
0
mˆeme si x
∗
t
est un vecteur nul, puisque (2.08) ne fait que traduire l’id´ee selon
laquelle yt est ´egale `a son esp´erance, plus une variable al´eatoire ut qui est n.i.d.
plus de d´etails sur ces consid´erations et sur d’autres cas particuliers, et pour
Un mod`ele tel que (2.01) devrait ˆetre distingu´e d’un processus g´en´erateur
), t = 1, . . . , n. (2.09)
les valeurs de tous les param`etres que les distributions de toutes les quantit´es
que l’autre fait r´ef´erence `a un vecteur de coefficients bien d´efini β0, qui serait
, qui
nous aurions ´egalement pu pr´eciser un DGP avec des erreurs qui suivent une
une caract´erisation estim´ee du DGP qui a r´eellement g´en´er´e les donn´ees; dans
du DGP apr`es estimation. Ainsi, on peut dire que cette m´ethode produit un
unique DGP estim´e, alors que toute m´ethode adopt´ee pour estimer un mod`ele
caract´erisation estim´ee.
Cet ensemble de DGP, ou l’unique DGP estim´e lorsque ce sera le cas, appartient
statistique peut donc ˆetre consid´er´ee comme une proc´edure avec laquelle on
Cette s´election est bien sˆur une proc´edure al´eatoire, puisqu’un seul DGP
est ensuite possible de disserter sur la probabilit´e, pour un DGP donn´e, que la
r´eellement au mod`ele.
Il nous est impossible de dire quoi que ce soit d’int´eressant `a propos des
g´en´er´e les donn´ees est un cas particulier du mod`ele que nous avons estim´e,
tel que (2.09) l’est de (2.01). Dans le cours que nous d´eveloppons dans cet
car il devient alors facile d’´etablir des r´esultats d´efinitifs. Mais nous aurons
de yt, et ensuite nous aborderons les al´eas qui d´eterminent tous les
que chaque fois que l’on estime un mod`ele comme (2.01), on fait, implicitement
assez fortes. Puisqu’il est impossible de faire usage des techniques standards
pour obtenir des inf´erences valides si ces hypoth`eses sont fausses, il est crucial
de bien les maˆıtriser et bien sˆur, de les tester contre les valeurs calcul´ees `a
La fonction de r´egression g´en´erale xt(β) peut ˆetre pr´ecis´ee par un grand nombre
o`u ιt est l’´el´ement t d’un vecteur dont les n composantes sont ´egales `a l’unit´e.
fonction de r´egression, puisque xt(β) est identique quel que soit t, il s’agit
n´eanmoins d’un bon exemple pour d´ebuter, et que l’on doit garder `a l’esprit.
Toutes les fonctions de r´egression sont tout simplement des versions de (2.10)
plus ´elabor´ees. Et toute fonction de r´egression qui ne s’ajuste pas aux donn´ees
au moins aussi bien que (2.10) devrait ˆetre consid´er´ee comme une bien mauvaise
fonction de r´egression.
lin´eaire simple
(2.11) poss`ede deux param`etres, une ordonn´ee `a l’origine β1 et une pente β2.
Cette fonction est lin´eaire en ses deux variables (ιt et zt, ou tout simplement zt
(β1 et β2). Bien que ce mod`ele soit trop simple, il poss`ede certains avantages.
Parce qu’il est tr`es facile de grapher yt contre zt, on peut utiliser ce graphe
multiple
o`u les zti (zti allant de zt1 `a ztk) sont les variables ind´ependantes, et zt1 peut
xt(β) = Ztβ,
forte, c’est-`a-dire celle que l’effet sur yt d’une modification d’une des variables
t2 + β4zt1zt2,
qui est lin´eaire en ses param`etres mais qui fait appel `a des variables ind´ependantes
d’une mani`ere non lin´eaire. Les mod`eles qui impliquent cette famille de
comme z
t2
´evite de subir les effets qui s’additionnent, comme l’implique (2.12), mais cela
sp´ecification en pratique.
xt(β) = e
β1
β2
t2
β3
t3
. (2.13)
Remarquons que cette fonction peut ˆetre ´evalu´ee uniquement lorsque zt2 et
zt3 sont positifs pour tout t. C’est la premi`ere v´eritable fonction de r´egression
non lin´eaire que nous rencontrons, puisqu’il est clair qu’elle n’est lin´eaire ni
que
yt = e
β1
β2
t2
β3
t3 + ut (2.14)
est tr`es rarement estim´e dans la pratique. La raison en est que l’hypoth`ese
d’al´eas additifs et identiquement distribu´es est autant encombrante que peu
r´ealiste. Elle est peu r´ealiste car les zti sont multiplicatifs, ce qui implique que
leurs effets d´ependent des niveaux que prennent toutes les valeurs des autres
variables, alors que les al´eas sont additifs, ce qui rend leur effet ind´ependant
des niveaux des autres variables explicatives. Elle est encombrante car (2.14)
doit ˆetre estim´ee par moindres carr´es non lin´eaires plutˆot que par moindres
carr´es lin´eaires.
Il est facile de modifier (2.14) de fa¸con `a donner aux al´eas une structure
multiplicative. Le mod`ele le plus ´evident que l’on peut alors formuler est
yt =
β1
β2
t2
β3
t3
(1 + vt) ≡ e
β1
β2
t2
β3
t3 + ut, (2.15)
o`u les perturbations 1 + vt, qui sont des quantit´es sans unit´e de mesure, sont
multiplicatives. Bien que les erreurs sous-jacentes vt soient i.i.d., les erreurs
w ∼= 1 + w
pour des valeurs de w proches de z´ero. Par cons´equent, pour des mod`eles qui
yt = e
β1
β2
t2
β3
t3
vt
. (2.16)
Le r´esultat est
qui est un mod`ele de r´egression lin´eaire. Il est ´evident que ce mod`ele, qui
est lin´eaire dans tous les param`etres et dans les logarithmes de toutes les
variables, sera plus facile `a estimer que le mod`ele non lin´eaire (2.14). Les
arguments que l’on a d´evelopp´es plus tˆot sugg`erent que c’est, en tout cas, plus
plausible. Ainsi, il ne devrait pas ˆetre surprenant d’apprendre que les mod`eles
pratique, alors que les mod`eles multiplicatifs avec des al´eas additifs comme
xt(β) = β1 + β2z
β3
t2 + β4zt3 et (2.18)
xt(β) = β1 + β2z
β3
t2
β4
t3
(2.19)
Comme on devrait s’y attendre, de tels mod`eles ne sont pas estim´es aussi
fr´equemment que les mod`eles lin´eaires ou log-lin´eaires, d’une part parce que
la paresse nous y pousse sans doute, et d’autre part car il n’y a souvent pas
du fait que les mod`eles fond´es sur la fonction de r´egression (2.06), qui est tr`es
L’ultime exemple d’une fonction de r´egression non lin´eaire que nous allons
r´egression
Cette fonction est lin´eaire en ses variables ind´ependantes ιt et zt2, zt3, zt4 et
zt5, mais elle est non lin´eaire en ses param`etres βi (allant de β1 `a β4). Mais il
s’agit en r´ealit´e d’une fonction de r´egression lin´eaire avec une seule contrainte
non lin´eaire sur les coefficients. Pour apercevoir ceci, examinons la fonction
de r´egression lin´eaire non contrainte
γ3
γ5
γ2
γ4
, (2.21)
β1 = γ1, β2 = γ2, β3 = −
γ5
γ4
, et β4 = γ4,
γ3 =
γ2γ5
γ4
, γ2 =
γ3γ4
γ5
, et
γ2
γ3
γ4
γ5
Il s’agit d’un caract`ere typique des contraintes non lin´eaires que de pouvoir
ˆetre formul´ees de plusieurs fa¸cons diff´erentes mais ´equivalentes, et par
fa¸cons.
et Veall (1985, 1987) — et dans les mod`eles avec corr´elation en s´erie (voir
Il existe deux ´el´ements que l’on doit pr´eciser lorsque l’on sp´ecifie un mod`ele
des al´eas ut. Nous avons d´ej`a eu l’occasion de constater `a quel point ces
exemple, que la mani`ere dont sont pr´ecis´es les al´eas aura un effet consid´erable
Dans (2.01), nous avons d´efini les al´eas comme ind´ependants, tous
leur distribution. Mˆeme ces hypoth`eses sont quelquefois trop fortes. Elles excluent
sortes de variation dans le temps ou avec les valeurs de n’importe quelle variable
distribution est la distribution de Cauchy. Une variable al´eatoire qui suit une
distribution de Cauchy ne poss`ede pas seulement une variance non finie, mais
jointe F(z1, z2) est ´egale au produit de leurs deux fonctions de r´epartition
ne s’accorde pas avec le sens habituel que l’on utilise en alg`ebre lin´eaire. Au
contraire, dans cette situation, on pourrait au plus dire que z1 et z2 sont non
corr´el´ees, et poss`edent une covariance nulle. Si z1, ou z2, est d’esp´erance nulle
Lorsque nous disons que les ut sont i.i.d., nous signifions par le premier “i”
h1(ut)h2(us)
les erreurs bruits blancs contiennent des quantit´es ´egales d’al´eas de toutes
Remarquons l’importante distinction qu’il faut ´etablir entre les al´eas et les
que cela ait un sens ou pas. Les r´esidus auront des propri´et´es qui r´esultent de la
fa¸con dont on les a obtenus, sans se pr´eoccuper de la mani`ere dont les donn´ees
ont ´et´e g´en´er´ees. Par exemple, les r´esidus OLS seront toujours orthogonaux
matrice Xˆ. D’un autre cˆot´e, les al´eas ne sont pas observables (mais on peut
les estimer) et l’on doit formuler quelques hypoth`eses qui feront partie de
calculera.
des mod`eles de r´egression est consacr´ee aux tests de transgression des hypoth`eses
il est encore possible de modifier le mod`ele avec des erreurs qui ne sont
pas i.i.d. en un mod`ele o`u les erreurs transform´ees le sont. Il se peut que
d’ind´ependance est quelquefois mise en d´efaut lorsque l’on travaille sur des
l’on travaille avec des donn´ees en coupe transversale: des ut diff´erents peuvent
lorsque ce n’est pas le cas on dit qu’ils sont h´et´erosc´edastiques. Bien sˆur, la
corr´elation des al´eas `a travers les observations n’est en rien une caract´eristique
dans les chapitres qui leur sont consacr´es (tout particuli`erement, les Chapitres
simple d’h´et´erosc´edasticit´e:
ut = wtvt, vt ∼ IID(0, σ2
),
o`u wt est une variable ind´ependante qui est toujours non nulle. Cette
´egale `a σ
vw
Bien ´evidemment, on peut obtenir un mod`ele avec des erreurs i.i.d. en divisant
wt
= β1
wt
+ β2
zt
wt
+ β3 + vt. (2.22)
Notons que les r´egresseurs sont d´esormais 1/wt, zt/wt, et une constante, mais
alors que le coefficient 1/wt est la constante du mod`ele de d´epart. Ainsi il est
tr`es facile d’´eliminer l’h´et´erosc´edasticit´e dans un cas pareil, mais il faut ˆetre
ut ∼ NID(0, σ2
), t = 1, . . . , n,
f(ut) = 1
2π
expµ
−
u
2σ
f(u) = Yn
t=1
f(ut) = µ
2π
¶n/2
expµ
2σ
Xn
t=1
famili`eres, on d´esire souvent faire usage des moindres carr´es pour estimer
lorsque les erreurs sont normalement distribu´ees que lorsque ce n’est pas le
excellentes lorsque les erreurs sont normales, mais lorsque ces erreurs suivent
une autre distribution quelconque connue, leurs propri´et´es ne sont plus aussi
bonnes. La deuxi`eme raison est que lorsque l’on suppose la normalit´e, on peut
obtenir le plus souvent des r´esultats plus solides que lorsque l’on suppose simplement
que les erreurs sont suppos´ees ˆetre i.i.d.. En particulier, pour les
pouvons obtenir des r´esultats exacts avec des ´echantillons finis (consulter le
Chapitre 3); de tels r´esultats ne sont mˆeme pas disponibles pour des mod`eles
lin´eaires quand les erreurs sont simplement suppos´ees ˆetre i.i.d.. La troisi`eme
raison est que lorsque l’on quitte le domaine des mod`eles de r´egression pour
essayer de traiter des mod`eles non lin´eaires plus g´en´eraux, il devient souvent
Aucune de ces raisons pratiques de supposer que les al´eas sont normalement
distribu´es n’offre une quelconque justification pour formuler une telle hypoth`ese.
L’argument usuel est que les al´eas repr´esentent les effets combin´es de
affirment que, tr`es grossi`erement, lorsque l’on ´etablit la moyenne d’un grand
de normalit´e a du sens parce que nous pouvons penser que les al´eas dans les
n’est “grande” par rapport `a toutes les autres. Il est ais´e de penser `a des variables
´economiques qui peuvent ˆetre omises dans les mod`eles de r´egression, et qui
constituent donc une partie des al´eas, mais qui seraient peut-ˆetre relativement
`a ce que les effets de tels ´ev´enements ne soient responsables que d’une petite
dans l’´echantillon ne doivent pas s’y trouver en r´ealit´e. Consid´erons, par exemple,
probable que la distribution des al´eas pour le mod`ele tout entier soit normale.
Mais puisque nous ne savons pas quelles variables ont ´et´e omises et rejet´ees
dans les al´eas, nous n’avons aucune raison d’imaginer que leur nombre est le
normalit´e. Mais que nous ayons suppos´e ou pas la normalit´e ne nous empˆeche
pas de voir si oui ou non les al´eas sont en r´ealit´e approximativement normaux.
Si ils ne sont pas approximativement normaux, alors la sagesse nous conseille
ε ∼ N(µ, σ2
), alors
(ε − µ)
= 0 et (2.23)
(ε − µ)
= 3σ
. (2.24)
est nul. Ce moment est fr´equemment utilis´e pour mesurer l’asym´etrie. Positif,
−4 −3 −2 −1 0 1 2 3 4
0.0
0.1
0.2
0.3
0.4
0.5
...................
.
.
.....
.
.
.
.
...
.........
...................
....
..............
...
..............................
...
.
.
................
..
.
.
.
.
..
..
....
....
..
...
...............................................
...
.
.
.. ........
...
.
.
......
..
..
..
...
....
....
.....
......
.......
.........
..............
.................
Asym´etrie `a droite →
← Asym´etrie `a gauche
d’asym´etrie sont relativement ais´es; ils seront trait´es dans le chapitre 16.
variable al´eatoire normale est ´egale `a trois fois le carr´e de sa variance. Une variable
al´eatoire dont le quatri`eme moment est plus ´elev´e que trois fois le carr´e
qu’une variable al´eatoire qui suit une distribution normale. On dit quelquefois
inf´erieur `a trois fois le carr´e de son second moment, elle poss`ede des queues de
sont m´esokurtiques. Les lecteurs qui ont quelques notions de Grec pourraient
penser que ces d´efinitions sont erron´ees, puisque lepto signifie fin et platy signifie
ainsi nomm´ees non pas parce qu’elles ont des queues de distributions ´epaisses
mais parce qu’elles ont des parties centrales (relativement) minces, et les distributions
0.0
0.1
0.2
0.3
0.4
0.5
...................
.
.
.....
.
.
.
.
...
......................
...................
...............................................................
........
.... ..
........
.
.
........
............................................................
.................................................................................
.................
........
..................................................
........
.......................................................................
← Leptokurtique
← Platykurtique
Figure 2.9 Distributions leptokurtique et platykurtique
(et ne sont pas non plus tr`es fr´equentes), mais les queues de distribution
Si les al´eas suivent une distribution dont les queues de distribution sont plus
carr´es donne un grand poids `a ces erreurs importantes, et peut donc entrainer
Il est assez facile de tester l’exc`es de kurtosis; voir Chapitre 16. Cependant,
d’autres m´ethodes que les moindres carr´es. Il existe une litt´erature importante
“robustes”, qui donnent un poids plus faible aux valeurs d´etach´ees que les
Termes et Concepts 71
2.7 Conclusion
r´egression non lin´eaire, mettant l’accent sur des concepts fondamentaux tels
de base des tests d’hypoth`eses pour de tels mod`eles. La prochaine ´etape devra
utile pour toute une vari´et´e d’usages, dont le calcul des estimations NLS et le
Termes et Concepts
al´eas
algorithme de minimisation
bruit blanc
colin´earit´e
corr´elation en s´erie
distribution normale
donn´ees chronologiques
ensemble d’informations
h´et´erosc´edasticit´e
homosc´edasticit´e
moments centr´es
moyenne conditionnelle
multicolin´earit´e
asym´etrie
r´esultats asymptotiques
variables d´ependantes et
ind´ependantes
variance d’erreur