Vous êtes sur la page 1sur 67

Chapitre 2

Mod`eles de R´egression non Lin´eaire et

les Moindres Carr´es non Lin´eaires

2.1 Introduction

Dans le Chapitre 1, nous avons discut´e en d´etail de la g´eom´etrie des moindres

carr´es ordinaires et de leurs propri´et´es en tant que syst`eme de calcul. Ce

mat´eriau est important car de nombreux mod`eles statistiques commun´ement

usit´es sont souvent estim´es `a l’aide de variantes des moindres carr´es. Parmi

ceux-ci, nous trouvons le type de mod`ele le plus commun´ement rencontr´e

en ´econom´etrie, c’est-`a-dire la classe des mod`eles de r´egression, dont nous

entamons l’´etude d`es `a pr´esent. Au lieu de nous restreindre volontairement

au domaine bien connu des mod`eles de r´egression lin´eaire, qu’il est possible

d’estimer directement par OLS, nous consid´erons la famille plus large des

mod`eles de r´egression non lin´eaire qui peuvent ˆetre estim´es par moindres

carr´es non lin´eaires, ou NLS. Parfois, nous traiterons de mani`ere sp´ecifique

des mod`eles de r´egression lin´eaire si les r´esultats qui sont v´erifi´es pour de tels

mod`eles ne se g´en´eralisent pas au cas non lin´eaire.

Au cours de ce chapitre et des quelques chapitres suivants consacr´es

aux mod`eles de r´egression, nous porterons notre attention principalement sur

les mod`eles univari´es, c’est-`a-dire les mod`eles dans lesquels n’existe qu’une

seule variable d´ependante. Ceux-ci sont beaucoup plus simples `a traiter que

les mod`eles multivari´es dans lesquels on trouve plusieurs variables d´ependantes

jointes. Les mod`eles univari´es sont de loin plus fr´equemment rencontr´es

en pratique que les mod`eles multivari´es, et une bonne compr´ehension des

premiers est essentielle pour une bonne compr´ehension des seconds. Nous

d´emontrerons au Chapitre 9 qu’il est simple de rendre compatibles les r´esultats

des mod`eles univari´es aux mod`eles multivari´es.

Nous commen¸cons par ´ecrire le mod`ele de r´egression lin´eaire univari´ee

sous sa forme g´en´erique:

yt = xt(β) + ut, ut ∼ IID(0, σ2

), t = 1, . . . , n. (2.01)
D´esormais, yt repr´esente l’observation t de la variable d´ependante, qui est

une variable al´eatoire scalaire, et β d´esigne un vecteur `a k composantes de

45

46 Les Moindres Carres non Lin ´ eaires ´

param`etres (g´en´eralement) inconnus. La fonction scalaire xt(β) est une fonction

de r´egression (le plus souvent non lin´eaire) qui d´etermine l’esp´erance de

yt conditionnelle `a β et (g´en´eralement) `a certaines variables ind´ependantes.

Ces derni`eres n’ont pas ´et´e mentionn´ees explicitement dans (2.01) mais le t en

indice de xt(β) indique que cette fonction varie d’une observation `a l’autre.

Dans la plupart des cas, cela s’explique parce que xt(β) d´epend d’une ou

plusieurs variables ind´ependantes qui varient. Ainsi, xt(β) devrait ˆetre interpr´et´ee

comme l’esp´erance de yt conditionnelle aux valeurs de ces variables

ind´ependantes. De mani`ere plus pr´ecise, comme nous aurons l’occasion de le

voir `a la Section 2.4, elle devrait ˆetre interpr´et´ee comme l’esp´erance de yt conditionnelle

`a un ensemble d’informations auxquels appartiennent ces variables

ind´ependantes.1

Dans certains cas, xt(β) pourra aussi d´ependre de variables retard´ees

de yt. Un mod`ele qui comportera une telle fonction de r´egression sera appel´e

mod`ele dynamique, et le traitement de ce genre de mod`eles complique quelque

peu l’analyse. Nous admettrons pour l’instant que xt(β) ne d´epend pas des

valeurs retard´ees de yt, contrairement `a ce qui serait le cas si (2.01) ´etait un

mod`ele dynamique, mais nous abandonnerons cette hypoth`ese au Chapitre 5

lorsque nous pr´esenterons un premier traitement de la th´eorie asymptotique

des moindres carr´es non lin´eaires. D’apr`es l’acception du terme que nous utilisons

dans cet ouvrage, les r´esultats asymptotiques ne sont vrais qu’`a la limite,

lorsque la taille n de l’´echantillon tend vers l’infini. La plupart des r´esultats

analytiques standards concernant les mod`eles de r´egression non lin´eaire, et

les mod`eles non lin´eaires en g´en´eral, sont des r´esultats asymptotiques, parce

que les r´esultats ´etablis `a l’aide d’´echantillons finis et faciles `a interpr´eter sont

souvent extrˆemement difficiles `a obtenir.

Les mod`eles de r´egression se diff´erencient de tous les autres mod`eles


statistiques par le fait que l’al´ea affecte les variables d´ependantes uniquement

par l’interm´ediaire d’un al´ea additif. Dans le cas pr´ecis de (2.01), cet al´ea est

appel´e ut, et la notation “ut ∼ IID(0, σ2

)” est un moyen concis pour dire que

les al´eas ut sont suppos´es ˆetre ind´ependants et identiquement distribu´es, ou

i.i.d., avec une esp´erance nulle et une variance ´egale `a σ

. En pr´etendant cela,

nous ne voulons pas dire que les variables al´eatoires ut ont n´ecessairement

la mˆeme distribution, mais simplement qu’elles sont d’esp´erance z´ero et de

Les lecteurs devraient ˆetre avertis que la notation que nous avons utilis´ee ici

est quelque peu inhabituelle. De nombreux auteurs utilisent ft(β) en lieu et

place de notre xt(β). Nous pr´ef´erons cette notation pour deux raisons. La

premi`ere est qu’elle nous laisse la libert´e d’utiliser la notation f(·) pour d´esigner

des objets autres que les fonctions de r´egression sans cr´eer d’ambigu¨ıt´e. La

seconde est qu’avec notre notation, il devient naturel de d´esigner ∂xt(β)/∂βi

par Xti(β) (voir la Section 2.2). La matrice dont l’´el´ement type est Xti(β)

est de fait ´etroitement li´ee `a la matrice habituelle X qui est utilis´ee dans la

plupart des traitements du mod`ele de r´egression lin´eaire, et nous esp´erons que

cette ressemblance d’´ecriture sera un moyen efficace de se le rappeler.

2.2 La Geom ´ etrie des Moindres Carr ´ es non Lin ´ eaires ´ 47

variance σ

. A ce propos, les lecteurs devraient sans doute ˆetre avertis que

nous d´erogeons `a l’usage standard. Ainsi que nous le verrons dans la Section

2.6, les propri´et´es de ces al´eas sont cruciales car elles d´eterminent toutes

les propri´et´es statistiques du mod`ele, et par l`a, permettent de savoir si un

mod`ele de r´egression peut raisonnablement ˆetre utilis´e ou pas. Quoi qu’il en

soit, puisque les estimations NLS (comme les estimations OLS) peuvent ˆetre

calcul´ees sans se pr´eoccuper de la fa¸con dont les donn´ees ont ´et´e g´en´er´ees,
nous traiterons le calcul des estimations NLS avant d’aborder la discussion de

leurs propri´et´es statistiques.

Le reste du chapitre traite un certain nombre d’aspects des moindres

carr´es non lin´eaires et des mod`eles de r´egression non lin´eaire. Dans la

Section 2.2, nous discutons des moindres carr´es non lin´eaires en tant que

proc´edure de calcul qui constitue une extension des moindres carr´es ordinaires.

Nous d´emontrons que la minimisation de la somme des r´esidus au carr´e pour

un mod`ele de r´egression non lin´eaire tel que (2.01) est tr`es semblable, eu

´egard `a la g´eom´etrie impliqu´ee, `a l’ex´ecution d’une r´egression lin´eaire. Un

mod`ele de r´egression non lin´eaire doit ˆetre identifi´e si l’on d´esire obtenir des

estimations uniques des param`etres. Nous discutons par cons´equent du concept

fondamental d’identification dans la Section 2.3. Dans la seconde moiti´e

du pr´esent chapitre, nous entamerons la discussion des aspects statistiques (et

´economiques) des mod`eles de r´egression non lin´eaire. Dans la Section 2.4 nous

verrons comment les ´equations de r´egression comme (2.01) s’interpr`etent, et

la distinction entre les mod`eles et les processus g´en´erateurs de donn´ees. Puis

des exemples de fonctions de r´egression lin´eaires et non lin´eaires seront examin´es

`a la Section 2.5, alors que les al´eas seront examin´es `a la Section 2.6.

Proc´eder `a des inf´erences `a partir de mod`eles estim´es par NLS sera le th`eme

du Chapitre 3.

2.2 La Geom ´ etrie des Moindres Carr ´ es non Lin ´ eaires ´

Le moyen de loin le plus r´epandu d’estimer aussi bien les mod`eles de r´egression

non lin´eaire que les mod`eles de r´egression lin´eaire, consiste `a minimiser la

somme des r´esidus au carr´e, ou SSR, en tant que fonction de β. En ce qui

concerne le mod`ele (2.01), la fonction somme-des-carr´es est

SSR(β) = Xn

t=1

yt − xt(β)

¢2

.
L’´ecriture de cette expression sous forme matricielle est g´en´eralement plus

pratique:

SSR(β) = ¡

y − x(β)

>

y − x(β)

, (2.02)

o`u y d´esigne un vecteur `a n composantes d’observations yt, et x(β) repr´esente

un vecteur compos´e de n fonctions de r´egression xt(β). Ainsi que nous l’avons

48 Les Moindres Carres non Lin ´ eaires ´

constat´e `a l’occasion du Chapitre 1, une notation alternative, qui n’apparaˆıt

peut-ˆetre pas aussi facile `a manipuler alg´ebriquement, mais qui est plus concise,

met l’accent sur l’aspect g´eom´etrique,

SSR(β) =

°y − x(β)

, (2.03)

o`u ky − x(β)k mesure la longueur du vecteur y − x(β). Selon l’expression

(2.03) il est clair que lorsque l’on minimise SSR(β), on minimise en fait la

distance euclidienne entre y et x(β), dont nous discuterons plus longuement

de l’interpr´etation plus loin.

La fonction somme-des-carr´es (2.02) peut ˆetre r´ecrite comme

SSR(β) = y

>y − 2y

>
x(β) + x

>(β)x(β).

En d´erivant cette expression par rapport `a toutes les composantes du vecteur

β `a k ´el´ements, et en annulant toutes les d´eriv´ees partielles, nous obtenons les

conditions du premier ordre qui doivent ˆetre v´erifi´ees pour toute estimation

NLS du vecteur βˆ qui correspond `a un minimum int´erieur de SSR(β). Ces

conditions du premier ordre, ou ´equations normales, sont

−2X>(βˆ)y + 2X>(βˆ)x(βˆ) = 0, (2.04)

o`u la matrice X(β) de dimension n × k est compos´ee d’´el´ements tels que

Xti(β) ≡

∂xt(β)

∂βi

Le fait que chaque vecteur de (2.04) poss`ede k ´el´ements implique l’existence

de k ´equations normales d´eterminant les k composantes de β.

Nous retrouverons `a plusieurs reprises la matrice X(β) lors de notre

discussion sur les moindres carr´es non lin´eaires. Chaque ´el´ement de cette

matrice correspond `a la d´eriv´ee partielle d’un ´el´ement de x(β) par rapport

`a un ´el´ement de β. Comme la notation que nous avons adopt´ee le sugg`ere,

la matrice X(β) correspond exactement `a la matrice X dans le cas de la

r´egression lin´eaire. Ainsi, lorsque la fonction de r´egression x(β) s’apparente

`a la fonction lin´eaire Xβ, nous voyons imm´ediatement que X(β) = X.

Les conditions du premier ordre (2.04) peuvent l´eg`erement se simplifier en

regroupant les termes, en ´eliminant le facteur −2, et en adoptant les d´efinitions

xˆ ≡ x(βˆ) et Xˆ ≡ X(βˆ).2 Le r´esultat est

Xˆ>(y − xˆ) = 0. (2.05)

Il est souvent pratique d’indiquer de cette fa¸con la d´ependance d’un vecteur

ou d’une matrice par rapport `a un vecteur de param`etres qui a ´et´e estim´e.

Ainsi, si α0 ´etait un ensemble de param`etres exact, et αˆ et α˜ deux ensembles

d’estimations, alors Z0 d´esignerait Z(α0), Zˆ d´esignerait Z(αˆ), et Z˜


d´esignerait Z(α˜).

2.2 La Geom ´ etrie des Moindres Carr ´ es non Lin ´ eaires ´ 49

..

..

.....

...................................

....

......

........................

....

.....................................................................................................................................................
.....................................................................................................................................................
................................................................................................................................... .

.
.

.
.

.
.

SSR(β)

βˆ β

00 β


Figure 2.1 Une fonction somme des carr´es

Ces ´equations normales nous enseignent simplement que les r´esidus y − xˆ

doivent ˆetre orthogonaux `a la matrice des d´eriv´ees Xˆ. Il s’agit d’un r´esultat

analogue `a celui obtenu pour les mod`eles de r´egression lin´eaire pour lesquels

les r´esidus y − Xβˆ doivent ˆetre orthogonaux `a la matrice X. La diff´erence

entre les cas lin´eaire et non lin´eaire r´eside dans le fait qu’autant le vecteur de

valeurs ajust´ees xˆ que la matrice Xˆ d´ependent de βˆ. Ainsi en g´en´eral, nous

ne pouvons pas esp´erer r´esoudre (2.05) analytiquement pour βˆ, bien que cela

soit r´ealisable dans certains cas particuliers, dont bien sˆur le cas lin´eaire.

Notons que les conditions du premier ordre (2.05) sont n´ecessaires mais

non suffisantes pour faire de βˆ un minimum int´erieur et global de la fonction

somme des carr´es. Il peut exister plusieurs valeurs de β qui v´erifient (2.05)

et qui correspondent `a des minima locaux, des points stationnaires et mˆeme

des maxima locaux. Cela est illustr´e sur la Figure 2.1 pour le cas o`u il n’y

a qu’un seul param`etre, faisant de β un scalaire. Sur la figure, le minimum

global se situe en βˆ, mais apparaissent ´egalement un autre minimum local en

β
0

, un maximum local en β

00, et un point stationnaire en β


.

Aucun algorithme de minimisation efficace ne s’arrˆetera sur un maximum

local ou un point stationnaire, parce qu’il est ais´e de v´erifier que les conditions

du second ordre ne seraient pas satisfaites pour de tels points. Mais

un algorithme pourra ne pas d´eceler un minimum global et s’arrˆeter `a un

minimum local. En se basant uniquement sur des informations locales, aucun

algorithme ne distingue un minimum local comme β

d’un minimum global

comme βˆ. Dans le but de trouver le minimum global, il est donc n´ecessaire

de minimiser SSR(β) un certain nombre de fois, en d´ebutant par une vari´et´e

de points de d´epart diff´erents. Dans l’exemple que nous avons illustr´e, un

algorithme efficace serait capable de trouver βˆ seulement s’il d´ebute `a partir

d’un point quelconque situ´e `a gauche de β

00. Dans le cas unidimensionnel, il

50 Les Moindres Carres non Lin ´ eaires ´

est ais´e de trouver avec certitude un minimum global, d`es lors qu’un graphe

similaire `a la Figure 2.1 permet de le rep´erer. Cependant, dans le cas o`u

le nombre de dimensions est plus ´elev´e, les m´ethodes graphiques ne sont en

g´en´eral d’aucune utilit´e, et mˆeme lorsque l’on d´emarre un algorithme avec un

certain nombre de points de d´epart, il n’existe aucune garantie de trouver le

minimum global si l’on obtient plusieurs minima locaux. Des m´ethodes de

calcul des estimations NLS seront discut´ees plus tard, au Chapitre 6.

Il est instructif d’´etudier l’analogue des Figures 1.1 et 1.3 pour le cas de

la r´egression non lin´eaire. Souvenons-nous que y peut ˆetre consid´er´e comme

un point dans l’espace des observations En, et que la fonction de r´egression

lin´eaire Xβ d´efinit alors un sous-espace `a k dimensions de cet espace. Dans


la Figure 1.3, nous avons illustr´e, pour le cas le plus simple o`u n = 2 et k = 1,

la fa¸con dont les moindres carr´es ordinaires projettent y orthogonalement sur

S(X), le sous-espace engendr´e par les colonnes de X. Lorsque la fonction de

r´egression x(β) est non lin´eaire, mais partout diff´erentiable, elle d´efinit une

vari´et´e `a k dimensions,3

ou une surface lisse, qui ne constitue plus un sousespace

lin´eaire en g´en´eral. Chaque point de cette vari´et´e, que nous noterons

X, correspond (par hypoth`ese) `a une valeur diff´erente de β, et donc on pourra

se r´ef´erer `a un point particulier qui correspond `a β

, en le notant X(β

). Il est

essentiel pour que X soit lisse partout, que chaque composante du vecteur §(β)

soit partout d´erivable. Pour n’importe quel point choisi arbitrairement, disons

β¯, la matrice X¯ ≡ X(β¯) d´efinit un espace tangent S


(X¯ ), qui correspond tout

simplement au sous-espace lin´eaire `a k dimensions S(X¯ ), translat´e de fa¸con `a

avoir l’origine en X(β¯). Cela implique que S


(X¯ ) est tangent `a X en ce point.

La Figure 2.2 illustre ces consid´erations dans le cas k = 1. On suppose

que x(β) se situe, au moins localement, dans un sous-espace de R

`a deux

dimensions, ce qui nous permet de le dessiner sur la feuille. La figure repr´esente

la vari´et´e incurv´ee X, les espaces tangents S


(X¯ 1

) et S

(X¯ 2

) en deux

points arbitrairement choisis X(β¯1

) et X(β¯2

), et les sous-espaces lin´eaires correspondants

S(X¯ 1

) et S(X¯ 2

). Ces derniers, comme les fl`eches sur la figure

l’indiquent, sont parall`eles `a S


(X¯ 1

) et S


(X¯ 2

) respectivement, mais ne sont

pas mutuellement parall`eles. Si X ´etait rectiligne, comme cela serait le cas

si la fonction de r´egression ´etait lin´eaire, alors bien ´evidemment il n’y aurait

pas de distinction possible entre X, S(X¯ 1

), S(X¯ 2

), S


(X¯ 1

), et S


(X¯ 2

). C’est

justement la pr´esence de telles distinctions qui rend les mod`eles non lin´eaires

plus difficiles `a traiter que les mod`eles lin´eaires. Notons ´egalement que bien

que la vari´et´e d´efinie par une fonction de r´egression lin´eaire comprenne toujours

l’origine, ce n’est en g´en´eral pas le cas pour une fonction non lin´eaire,
comme on peut le constater sur la figure.

3 Pour des d´efinitions plus formelles d’une vari´et´e, ainsi que pour une discussion

minutieuse des propri´et´es des vari´et´es, consulter entre autres, Spivak

(1965) pour une approche rudimentaire et Lang (1972) pour une approche

plus avanc´ee.

2.2 La Geom ´ etrie des Moindres Carr ´ es non Lin ´ eaires ´ 51

...

.............................................

........

..

X(β¯1

)
X(β¯2


(X¯ 1


(X¯ 2

S(X¯ 2

S(X¯ 1

Figure 2.2 Espaces tangents `a une vari´et´e incurv´ee

..

.........................................

......

.....

.....

.
.

y − xˆ


(Xˆ )

Figure 2.3 Une r´egressande y projet´ee sur une vari´et´e non lin´eaire

La Figure 2.3 montre la mˆeme vari´et´e X que la Figure 2.2, mais S(X¯ 1

),

S(X¯ 2

), S


(X¯ 1

), et S


(X¯ 2

) n’y figurent plus. Apparaissent par contre une

r´egressande y et sa projection orthogonale sur X au point Xˆ ≡ X(βˆ). Notons

que puisque S


(Xˆ ) est tangent `a X en βˆ, y − xˆ doit ˆetre orthogonal `a S


(Xˆ )

ainsi qu’`a X au point Xˆ, ce que r´eclament pr´ecis´ement les conditions du premier

ordre. Comme sur cette figure la fonction de r´egression x(β), et par


cons´equent la vari´et´e X, est l´eg`erement non lin´eaire, n’y a qu’un seul point Xˆ

pour lequel les conditions du premier ordre sont satisfaites. Il est clair d’apr`es

la figure que y ne peut ˆetre projet´ee orthogonalement sur X qu’en Xˆ et en

aucun autre point.

Par contraste, examinons la Figure 2.4. Sur cette figure, la vari´et´e est

hautement non lin´eaire, et nous obtenons trois points Xˆ, X

, et X

00 (correspon-

52 Les Moindres Carres non Lin ´ eaires ´

dant respectivement `a βˆ, β

, et β

00), pour lesquels les conditions du premier

ordre sont satisfaites. Pour chacun de ces trois points, que l’on exprime sous

forme g´en´erique par la notation X¯, y −x¯ forme un angle droit avec X¯, et donc

aussi avec S


(X¯ ). Quoi qu’il en soit, dans ce cas, Xˆ correspond `a l’´evidence

`a un minimum global, X

00 `a un minimum local, et X

`a un maximum local

de SSR(β). Ainsi, nous avons une occasion suppl´ementaire de constater que

lorsqu’un point satisfait les conditions du premier ordre, il ne correspond pas

pour autant `a une estimation NLS.

Il ne fait aucun doute d’apr`es ces figures que le degr´e de non lin´earit´e de la

fonction de r´egression x(β) est crucial. Lorsque x(β) est quasiment lin´eaire,

les moindres carr´es non lin´eaires sont tr`es similaires aux moindres carr´es ordinaires.

Lorsqu’au contraire, x(β) revˆet un caract`ere non lin´eaire tr`es marqu´e,

toutes sortes de ph´enom`enes ´etranges peuvent survenir. La Figure 2.4 fait


simplement allusion `a cette derni`ere remarque, puisqu’il y a plusieurs fa¸cons

diff´erentes pour des valeurs multiples de β de satisfaire les conditions du premier

ordre (2.05) lorsque X correspond `a une vari´et´e hautement non lin´eaire.

...

...

...

..

...

...

....................................

.....................................

.....................................

...................................

....................................

..............

.
..........

00

Figure 2.4 Une vari´et´e hautement non lin´eaire

2.3 Identification dans les Modeles non Lin ` eaires ´

Pour r´eussir pleinement la minimisation de SSR(β), il est n´ecessaire d’avoir

un mod`ele identifi´e. L’identification ´evoque un concept g´eom´etrique simple

qui s’applique `a une vari´et´e tr`es large de mod`eles et de techniques

d’estimation. Malheureusement, le terme identification a ´et´e associ´e dans

l’esprit de plusieurs ´etudiants en ´econom´etrie `a l’alg`ebre fastidieuse du mod`ele

d’´equations lin´eaires simultan´ees. L’identification est en fait un r´esultat pour

de tels mod`eles, et il existe quelques probl`emes particuliers qui apparaissent

2.3 Identification dans les Modeles non Lin ` eaires ´ 53

..

..

..

..

..

..

...
.....................................................................................................................................................
......................................................................................... . .

β1

β2

βˆ

←− Courbes de niveau de SSR(β)

Figure 2.5 Minimum identifi´e d’une fonction somme des carr´es

`a leur sujet (consulter les Chapitres 7 et 18), mais il s’agit un concept qui

s’applique `a tout mod`ele ´econom´etrique. Pour l’essentiel, un mod`ele de moindres

carr´es non lin´eaires est identifi´e par un ensemble d’informations donn´e

si, pour cet ensemble de donn´ees, il est possible de trouver un βˆ unique qui

minimise SSR(β). Si le mod`ele n’est pas identifi´e par les donn´ees utilis´ees,

il existera plus d’un βˆ, et peut-ˆetre un nombre infini d’entre eux. Certains

mod`eles peuvent n’ˆetre identifi´es par aucun ensemble concevable de donn´ees,

alors que d’autres peuvent ˆetre identifi´es par quelques ensembles de donn´ees,

mais pas par tous.

On distingue deux sortes d’identifications, l’identification locale et l’identification

globale. Les estimations βˆ des moindres carr´es seront identifi´ees

localement si pour toute modification l´eg`ere de βˆ, la valeur de SSR(β) s’´el`eve.

On peut ´etablir cette d´efinition de fa¸con formelle comme la n´ecessit´e d’avoir

une fonction SSR(β) strictement convexe en βˆ, de sorte que

SSR(βˆ) < SSR(βˆ + δ)

pour une “petite” variation δ. Souvenons-nous que la convexit´e stricte est

v´erifi´ee si la matrice Hessienne H(β), dont l’´el´ement type est

Hij (β) ≡

SSR(β)

∂βi∂βj
,

est d´efinie positive en βˆ. La stricte convexit´e implique que SSR(β) soit incurv´ee

dans toutes les directions; aucun plat n’est autoris´e quelle que soit la

direction. Si SSR(β) ´etait plate dans une direction au voisinage de βˆ, il serait

possible de s’´eloigner de βˆ dans cette direction sans jamais modifier la valeur

de la somme des r´esidus au carr´e (rappelons-nous que les d´eriv´ees premi`eres de

SSR(β) sont nulles en βˆ, de sorte que SSR(β) doit ˆetre ´egale `a SSR(βˆ) en tout

54 Les Moindres Carres non Lin ´ eaires ´

..

..

..

..

..

..

..

..

.....................................................................................................................................................
......................................................................................... . .

β1

β2

Courbes de niveau de SSR(β)

. ........................................

...............................................................................
. ..............................................................................

Figure 2.6 Minimum non identifi´e d’une fonction somme des carr´es

point de cette r´egion). Par cons´equent βˆ ne serait pas l’unique estimateur

NLS, mais au plus un des points parmi le nombre infini de ceux qui minimisent

tous SSR(β). La Figure 2.5 illustre les courbes de niveau de SSR(β)

pour le cas habituel o`u βˆ correspond `a un minimum local unique, alors que

la Figure 2.6 les repr´esente pour le cas o`u le mod`ele n’est pas identifi´e, parce

que tous les points le long de la ligne AB minimisent SSR(β).

L’identification locale est n´ecessaire mais non suffisante pour nous fournir

une estimation βˆ unique. Une condition plus g´en´erale est l’identification globale,

que l’on ´etablit formellement par

SSR(βˆ) < SSR(β


) pour tout β


6= βˆ.

Cette d´efinition de l’identification globale reste, `a vrai dire, une simple reformulation

de la condition d’obtenir un βˆ unique qui minimise SSR(βˆ). Remarquons

que mˆeme si un mod`ele est identifi´e localement, il est toujours possible

qu’il y ait deux (ou davantage) estimations distinctes, soit βˆ1

et βˆ2

, avec

SSR(βˆ1

) = SSR(βˆ2

). A titre d’exemple, examinons le mod`ele

yt = βγ + γ

zt + ut. (2.06)

Il apparaˆıt clairement que si (β, ˆ γˆ) minimise la SSR pour ce mod`ele, (−β, ˆ −γˆ)

en fera autant. Donc le mod`ele est globalement non identifi´e par quelque

ensemble de donn´ees que ce soit, bien que les conditions du premier ordre
et du second ordre soient satisfaites aux deux minima. Cet exemple peut

paraˆıtre simpliste `a premi`ere vue, mais le mˆeme ph´enom`ene apparaˆıt souvent

dans de nombreux mod`eles utilis´es par les ´economistes. Un exemple se trouve

ˆetre celui des mod`eles de s´eries temporelles avec une composante d’erreur `a

moyenne mobile; consulter le Chapitre 10.

2.3 Identification dans les Modeles non Lin ` eaires ´ 55

..

...

..

..

....

..

..

...

...

.....................................................................................................................................................
.....................................................................................................................................................
................................................

.
.

.....................................................................................................................................................
.....................................................................

SSR(β)

βˆ β

βˆ2

Figure 2.7 Cas o`u β est localement identifi´e mais non globalement

La Figure 2.7 illustre ce que peut donner la fonction somme des carr´es

pour un mod`ele qui est localement mais non globalement identifi´e dans le sens

donn´e pr´ec´edemment. La fonction somme-des-carr´es ne poss`ede qu’un seul

argument, β, et elle est sym´etrique par rapport `a l’origine de β. Le minimum

de SSR est donc atteint en β

et en β

. Chacune des estimations potentielles

est identifi´ee localement, mais le mod`ele n’est pas identifi´e globalement.


Il est aussi envisageable d’avoir un mod`ele globalement identifi´e, sans

pour autant que la condition d’identification locale, impliquant que la matrice

Hessienne est d´efinie positive, soit satisfaite, pour certaines valeurs particuli`eres

de βˆ. Ce genre de lacune d’identification ne pose pas de difficult´e si

la valeur r´ealis´ee βˆ se situe assez loin de ces valeurs particuli`eres, et nous

parvenons `a la calculer, mais il rend difficile l’estimation du mod`ele. A titre

d’exemple, consid´erons la fonction de r´egression

xt(β) = β1 + β2z

β3

. (2.07)

Il est ´evident qu’un mod`ele incorporant cette fonction de r´egression ne sera

pas identifi´e lorsque βˆ

2 = 0, car β3 n’aura alors aucun effet sur la valeur de

xt(β) et par l`a, aucun effet sur SSR(β). En cons´equence, n’importe quelle

valeur de β3 conviendrait pour βˆ

3. De fa¸con similaire, le mod`ele sera non

identifi´e si βˆ

3 = 0, car alors z

β3

et la constante ne pourront ˆetre distingu´ees.

Mais parce que βˆ

2 ou βˆ

3 ne seront nulles que pour des ensembles de donn´ees

peu communs, ce mod`ele sera en r´ealit´e identifi´e par tous les ensembles de

donn´ees, exception faite de ces ensembles inhabituels.

La fonction de r´egression (2.07) sert `a illustrer un ph´enom`ene qu’il est

plus fr´equent de rencontrer en pratique que les mod`eles non identifi´es, c’est-`adire

des mod`eles qui sont insuffisamment identifi´es. Un mod`ele insuffisamment

identifi´e correspond `a un mod`ele pour lequel la matrice Hessienne H(β) n’est


pas v´eritablement singuli`ere, mais qui devient presque singuli`ere pour des

valeurs de β proches de βˆ. Ces valeurs de β sont celles qui nous pr´eoccupent

56 Les Moindres Carres non Lin ´ eaires ´

le plus, puisque l’algorithme de minimisation les rencontrera lorsqu’il essaiera

de minimiser SSR(β). Bien que SSR(β) ne soit pas r´eellement plate pour

un mod`ele insuffisamment identifi´e, elle est quasiment plate, et ceci pourrait

causer quelques probl`emes `a l’algorithme avec lequel on tente de minimiser

SSR(β). Dans le contexte des mod`eles de r´egression lin´eaire, ce ph´enom`ene

correspond `a la colin´earit´e ou multicolin´earit´e (bien que le pr´efixe du second

terme soit redondant), et il se r´ev`ele en rendant la matrice X>X presque

singuli`ere.

La continuit´e de la fonction de r´egression implique qu’un mod`ele qui

incorpore la fonction de r´egression (2.07) sera insuffisamment identifi´e s’il

arrive que la vraie valeur de β2 ou de β3 soit assez proche de z´ero, mais pas

v´eritablement ´egale. En r´ealit´e, il y a de fortes chances pour qu’il soit mal

identifi´e mˆeme pour des valeurs de ces param`etres tr`es diff´erentes de z´ero,

car pour la grande majorit´e des ensembles de donn´ees de zt, la Hessienne

de ce mod`ele sera presque singuli`ere. Ainsi que nous le d´emontrerons au

Chapitre 5, la Hessienne H(β) pour les mod`eles de r´egression non lin´eaire,

pour des valeurs β proches de βˆ, est g´en´eralement assez bien approxim´ee par

la matrice

2X>(β)X(β).

Pour la fonction de r´egression (2.07), la ligne t de la matrice X(β) est

1z

β3

β2z

β3

log (zt)
¤

La troisi`eme colonne de X(β) est ainsi similaire `a la deuxi`eme, chaque ´el´ement

de celle-ci multipli´e par une constante et log(zt) ´etant ´egal `a l’´el´ement correspondant

de la troisi`eme colonne. A moins que l’´etendue des valeurs de

zt ne soit tr`es grande, ou qu’il y ait quelques valeurs de zt tr`es proches de

z´ero, z

β3

et β2z

β3

log (zt) tendront `a ˆetre fortement corr´el´ees, rendant la matrice

X>(β)X(β), et par l`a la Hessienne dans la plupart des cas, presque

singuli`ere. Cet exemple sera examin´e en d´etail dans le Chapitre 6.

Les concepts d’identification locale et globale dont nous venons de discuter

diff`erent quelque peu des concepts correspondants d’identification

asymptotique, que nous verrons au Chapitre 5. Un mod`ele est identifi´e asymptotiquement

aussi bien localement que globalement si, lorsque la taille n de

l’´echantillon tend vers l’infini, le mod`ele est toujours identifi´e selon la signifi-

cation que nous avons donn´ee. Il s’agit davantage d’une propri´et´e du mod`ele

et de la fa¸con dont les donn´ees ont ´et´e g´en´er´ees (consulter la Section 2.4 pour

une discussion sur les processus g´en´erateurs de donn´ees) qu’une propri´et´e

du mod`ele et d’un ensemble de donn´ees. Comme nous le verrons au cours du

Chapitre 5, il est fort possible d’avoir un mod`ele identifi´e avec des ´echantillons

finis d’`a peu pr`es n’importe quel ensemble de donn´ees et pourtant non identifi´e

asymptotiquement; et il est tout aussi envisageable d’avoir un mod`ele

identifi´e asymptotiquement et non identifi´e par les nombreux ensembles de

donn´ees dont on dispose.

2.4 Modeles et Processus G ` en´ erateurs de Donn ´ ees ´ 57

2.4 Modeles et Processus G ` en´ erateurs de Donn ´ ees ´


En ´economie, rares sont les situations o`u une relation telle que (2.01) repr´esente

r´eellement la fa¸con dont la variable d´ependante est g´en´er´ee, telle qu’elle

le serait si xt(β) ´etait une fonction de r´eponse `a un ph´enom`ene physique, et

ut les erreurs de mesure de yt. Au lieu de cela, elle correspond souvent `a une

fa¸con de mod´eliser les variations de yt caus´ees par les valeurs de certaines

variables. Celles-ci peuvent ˆetre les seules variables qui soient renseign´ees,

ou celles qui nous int´eressent pour un usage particulier. Si nous disposions

de davantage d’informations sur les variables explicatives potentielles, nous

pourrions fort bien sp´ecifier des xt(β) diff´erentes en utilisant l’information

additionnelle.

Il est quelquefois souhaitable de rendre explicite le fait que xt(β) repr´esente

l’esp´erance conditionnelle de yt, c’est-`a-dire l’esp´erance de yt d´ependant

des valeurs d’une quantit´e d’autres variables. On appelle souvent l’ensemble

des variables qui conditionne yt l’ensemble d’informations. Si l’on note Ωt

l’ensemble d’informations qui conditionne la valeur attendue de yt, on pourrait

d´efinir xt(β) formellement par E(yt | Ωt). Il est possible d’avoir plus d’un

ensemble d’informations de ce genre, et donc simultan´ement

x1t(β1) ≡ E(yt | Ω1t) et x2t(β2) ≡ E(yt | Ω2t),

o`u Ω1t et Ω2t repr´esentent les deux ensembles d’informations. Les fonctions

x1t(β1) et x2t(β1) peuvent diff´erer fortement, et on pourrait vouloir les estimer

ensemble `a des fins diff´erentes. Il existe plusieurs circonstances pour lesquelles

on ne d´esire pas faire d´ependre yt de toutes les informations disponibles.

Par exemple, si l’on sp´ecifie une fonction de r´egression dans le but ultime

de r´ealiser des pr´evisions, il n’y a pas de raison de faire d´ependre yt des

informations qui ne sont pas disponibles pour la p´eriode pour laquelle on

effectue la pr´evision. Mˆeme lorsque l’on d´esire int´egrer toutes les informations

disponibles, le fait qu’une variable particuli`ere appartienne `a Ωt n’implique pas

qu’elle apparaˆıtra dans xt(β), d`es lors que sa valeur ne nous renseigne pas sur

l’esp´erance conditionnelle de yt, et l’introduire peut amoindrir notre capacit´e

`a estimer l’impact des autres variables sur cette esp´erance conditionnelle.

Pour toute variable d´ependante yt donn´ee et tout ensemble d’informations


Ωt, il est toujours possible d’interpr´eter la diff´erence yt − E(yt | Ωt) comme

l’al´ea associ´e `a l’observation t. Mais pour qu’un mod`ele de r´egression soit

op´erationnel, ces diff´erences doivent g´en´eralement avoir la propri´et´e d’ˆetre

i.i.d.. En fait, il est envisageable, lorsque la taille de l’´echantillon est importante,

de traiter des cas o`u les al´eas sont ind´ependants, identiquement

distribu´es uniquement `a l’´egard des esp´erances, mais pas forc´ement `a l’´egard

des variances. Nous discuterons des techniques de traitement de tels cas dans

les Chapitres 16 et 17, et dans ce dernier nous abandonnerons l’hypoth`ese

d’ind´ependance. Comme nous le d´ecouvrirons au Chapitre 3 cependant,

les techniques conventionnelles pour pratiquer des inf´erences `a partir des

58 Les Moindres Carres non Lin ´ eaires ´

mod`eles de r´egression sont sujettes `a caution lorsque la propri´et´e d’i.i.d. fait

d´efaut aux mod`eles, mˆeme lorsque la fonction de r´egression xt(β) est “correctement”

sp´ecifi´ee. Ainsi, nous perdons toute libert´e dans le choix arbitraire

de l’ensemble d’informations et dans l’estimation d’une fonction de

r´egression d´efinie et bas´ee sur cet ensemble lorsque nous d´esirons proc´eder

`a des inf´erences `a partir des proc´edures conventionnelles.

Il existe malgr´e tout des cas exceptionnels pour lesquels on peut choisir

n’importe quel ensemble d’informations, car les mod`eles ´etablis sur les diff´erents

ensembles d’informations seront toujours mutuellement coh´erents. Par

exemple, supposons que le vecteur compos´e des yt et de chaque xit (xit allant

de x1t `a xmt) est ind´ependant et identiquement distribu´e suivant la loi normale

multivari´ee. Alors si x


t

repr´esente un vecteur compos´e de n’importe quel sousensemble

d’´el´ements allant de x1t `a xmt, on peut encore ´ecrire

yt = β


0+x


∗ + ut, ut ∼ NID(0, σ2


), (2.08)

o`u la notation “ut ∼ NID(0, σ2


)” est un moyen simple de dire que les ut sont

normalement et ind´ependamment distribu´es, ou n.i.d., avec une esp´erance

nulle et une variance ´egale `a σ


. Ceci est vrai pour tout sous-ensemble compos´e

de xit car toute combinaison lin´eaire de variables suivant la loi normale

multivari´ee, est elle-mˆeme normalement distribu´ee. Ainsi l’al´ea ut d´efini de

mani`ere implicite dans (2.08) sera normalement et ind´ependamment distribu´e

et sans consid´eration des xit que l’on introduit dans x


t

, et l’on peut toujours

choisir β


0

convenablement de fa¸con `a rendre son esp´erance nulle. Ceci est vrai

mˆeme si x


t

est un vecteur nul, puisque (2.08) ne fait que traduire l’id´ee selon

laquelle yt est ´egale `a son esp´erance, plus une variable al´eatoire ut qui est n.i.d.

avec une esp´erance nulle, et yt est elle-mˆeme normalement distribu´ee. Pour

plus de d´etails sur ces consid´erations et sur d’autres cas particuliers, et pour

un traitement plus approfondi sur l’interpr´etation des mod`eles de r´egression,


consulter Spanos (1986).

Un mod`ele tel que (2.01) devrait ˆetre distingu´e d’un processus g´en´erateur

de donn´ees, ou DGP, tel que

yt = xt(β0) + ut, ut ∼ NID(0, σ2

), t = 1, . . . , n. (2.09)

Un mod`ele de r´egression tel que (2.01) sp´ecifie que l’esp´erance de yt conditionn´ee

par un ensemble d´efini de variables Zt est une fonction donn´ee de Zt

et des param`etres (g´en´eralement inconnus) β, et que les yt sont mutuellement

ind´ependants et ont la mˆeme variance autour de leur esp´erance conditionnelle.

D’autre part, un DGP est une caract´erisation compl`ete des propri´et´es

statistiques de la variable d´ependante. Si le DGP est connu, alors aussi bien

les valeurs de tous les param`etres que les distributions de toutes les quantit´es

al´eatoires doivent ˆetre pr´ecis´ees.

Ainsi ´emergent deux diff´erences fondamentales entre le mod`ele (2.01) et

le DGP (2.09). Le premier implique un vecteur inconnu de coefficients β, alors

2.4 Modeles et Processus G ` en´ erateurs de Donn ´ ees ´ 59

que l’autre fait r´ef´erence `a un vecteur de coefficients bien d´efini β0, qui serait

connu si l’on connaissait le DGP. Les al´eas ut du mod`ele sont simplement

d´efinis comme ind´ependants et identiquement distribu´es, avec une esp´erance

nulle et une variance inconnue ´egale `a σ

, alors que les al´eas du DGP sont

normalement et ind´ependamment distribu´es avec une variance connue σ

, qui

nous permet de g´en´erer une s´erie de ut si nous le d´esirons. Bien ´evidemment,

nous aurions ´egalement pu pr´eciser un DGP avec des erreurs qui suivent une

distribution autre que la normale; ce qui importe r´eellement, c’est que la

distribution soit sp´ecifi´ee compl`etement. D’autre part, nous pouvons ˆetre


int´eress´es par ce qui se passe avec la famille enti`ere des DGP, et dans de tels

cas une sp´ecification totale n’est pas appropri´ee.

Un mod`ele peut ainsi ˆetre imagin´e comme un ensemble de DGP. Lors

du processus d’estimation du mod`ele, ce que nous essayons d’obtenir, c’est

une caract´erisation estim´ee du DGP qui a r´eellement g´en´er´e les donn´ees; dans

le cas du mod`ele de r´egression non lin´eaire (2.01) la caract´erisation d´esir´ee

consiste en un ensemble de param`etres estim´es, c’est-`a-dire, des estimations

des param`etres inconnus β de la fonction de r´egression, ainsi qu’une estimation

de la variance des erreurs, σ

. Mais puisque dans une r´egression non lin´eaire

seules l’esp´erance et la variance des erreurs sont pr´ecis´ees, la caract´erisation

du DGP obtenue par l’estimation du mod`ele est partielle ou incompl`ete. Plus

tard, dans le Chapitre 8, nous discuterons d’une autre m´ethode d’estimation,

celle du maximum de vraisemblance, qui offre une caract´erisation compl`ete

du DGP apr`es estimation. Ainsi, on peut dire que cette m´ethode produit un

unique DGP estim´e, alors que toute m´ethode adopt´ee pour estimer un mod`ele

de r´egression non lin´eaire produit un ensemble de DGP, qui satisfont tous la

caract´erisation estim´ee.

Cet ensemble de DGP, ou l’unique DGP estim´e lorsque ce sera le cas, appartient

´evidemment `a l’ensemble des DGP d´efini par le mod`ele. L’estimation

statistique peut donc ˆetre consid´er´ee comme une proc´edure avec laquelle on

s´electionne un sous-ensemble de DGP `a partir d’un ensemble donn´e de DGP.

Cette s´election est bien sˆur une proc´edure al´eatoire, puisqu’un seul DGP

appartenant au mod`ele peut g´en´erer des ensembles diff´erents d’observations

al´eatoires qui entraˆınent des caract´erisations al´eatoires estim´ees diff´erentes. Il

est ensuite possible de disserter sur la probabilit´e, pour un DGP donn´e, que la

caract´erisation soit proche, dans un certain sens, du DGP lui-mˆeme. On peut

alors classer ces diff´erentes proc´edures d’estimation selon ces probabilit´es, et

nous pr´ef´ererons g´en´eralement des proc´edures d’estimation efficaces, c’est-`adire

celles pour lesquelles la probabilit´e que le sous-ensemble s´electionn´e soit


proche du DGP est la plus forte, toujours sous l’hypoth`ese que le DGP appartient

r´eellement au mod`ele.

Il nous est impossible de dire quoi que ce soit d’int´eressant `a propos des

propri´et´es statistiques des estimateurs et des statistiques de test sans pr´eciser

`a la fois le mod`ele et le processus qui a g´en´er´e les donn´ees. En pratique bien

sˆur, nous ne connaissons presque jamais le DGP, sauf si nous proc´edons `a

60 Les Moindres Carres non Lin ´ eaires ´

une exp´erience Monte Carlo au cours de laquelle nous avons le privil`ege de

g´en´erer nous-mˆemes les donn´ees (consulter le Chapitre 21). Ainsi, lorsque

nous estimons des mod`eles, et `a moins d’ˆetre extrˆemement chanceux, nous

ne pouvons pas pr´etendre raisonnablement que le processus qui a r´eellement

g´en´er´e les donn´ees est un cas particulier du mod`ele que nous avons estim´e,

tel que (2.09) l’est de (2.01). Dans le cours que nous d´eveloppons dans cet

ouvrage, nous supposerons n´eanmoins fr´equemment que c’est en fait le cas

car il devient alors facile d’´etablir des r´esultats d´efinitifs. Mais nous aurons

´egalement l’occasion de traiter explicitement des situations o`u le DGP n’est

pas un cas particulier du mod`ele que l’on estime.

La structure additive du mod`ele de r´egression non lin´eaire permet de discuter

des deux parties qui composent le mod`ele s´epar´ement. Nous abordons

tout d’abord les fonctions de r´egression, qui d´eterminent l’esp´erance conditionnelle

de yt, et ensuite nous aborderons les al´eas qui d´eterminent tous les

moments conditionnels d’ordre sup´erieur. Il est fondamental de se souvenir

que chaque fois que l’on estime un mod`ele comme (2.01), on fait, implicitement

ou explicitement, des hypoth`eses sur xt(β) et ut, qui sont g´en´eralement

assez fortes. Puisqu’il est impossible de faire usage des techniques standards

pour obtenir des inf´erences valides si ces hypoth`eses sont fausses, il est crucial

de bien les maˆıtriser et bien sˆur, de les tester contre les valeurs calcul´ees `a

partir des donn´ees.

2.5 Fonctions de Regression Lin ´ eaires et Non Lin ´ eaires ´

La fonction de r´egression g´en´erale xt(β) peut ˆetre pr´ecis´ee par un grand nombre

de moyens. Il peut ˆetre tr`es utile de consid´erer un certain nombre de cas


particuliers de fa¸con `a avoir une id´ee de la vari´et´e des fonctions de r´egression

sp´ecifiques qui sont le plus souvent utilis´ees dans la pratique.

La fonction de r´egression la plus simple est

xt(β) = β1ιt = β1, (2.10)

o`u ιt est l’´el´ement t d’un vecteur dont les n composantes sont ´egales `a l’unit´e.

Dans ce cas, le mod`ele (2.01) indique que l’esp´erance conditionnelle de yt est

tout simplement une constante. Bien que ce soit un exemple simpliste de

fonction de r´egression, puisque xt(β) est identique quel que soit t, il s’agit

n´eanmoins d’un bon exemple pour d´ebuter, et que l’on doit garder `a l’esprit.

Toutes les fonctions de r´egression sont tout simplement des versions de (2.10)

plus ´elabor´ees. Et toute fonction de r´egression qui ne s’ajuste pas aux donn´ees

au moins aussi bien que (2.10) devrait ˆetre consid´er´ee comme une bien mauvaise

fonction de r´egression.

La fonction qui est ensuite la plus simple est la fonction de r´egression

lin´eaire simple

xt(β) = β1 + β2zt, (2.11)

2.5 Fonctions de Regression Lin ´ eaires et Non Lin ´ eaires ´ 61

o`u zt est l’unique variable ind´ependante. En r´ealit´e, un mod`ele encore

plus simple consisterait `a ne garder que la variable ind´ependante et `a rejeter

le terme constant. Cependant, dans la majorit´e des probl`emes appliqu´es,

cela n’a pas de sens d’omettre la constante. De nombreuses fonctions

de r´egression lin´eaires sont utilis´ees en tant qu’approximations des fonctions

inconnues d’esp´erance conditionnelle, et de telles approximations seront

rarement pr´ecises si elles sont contraintes de passer par l’origine. L’´equation

(2.11) poss`ede deux param`etres, une ordonn´ee `a l’origine β1 et une pente β2.

Cette fonction est lin´eaire en ses deux variables (ιt et zt, ou tout simplement zt

si l’on d´ecide de ne pas consid´erer ιt comme une variable) et en ses param`etres

(β1 et β2). Bien que ce mod`ele soit trop simple, il poss`ede certains avantages.

Parce qu’il est tr`es facile de grapher yt contre zt, on peut utiliser ce graphe

pour visualiser la fonction de r´egression, la fa¸con dont le mod`ele s’ajuste, et

si la relation lin´eaire d´ecrit correctement les donn´ees. Mais lorsqu’un mod`ele


int`egre plus d’une variable ind´ependante, visualiser les donn´ees de cette fa¸con

devient plus probl´ematique, et donc moins habituel.

Une g´en´eralisation ´evidente de (2.11) est la fonction de r´egression lin´eaire

multiple

xt(β) = β1zt1 + β2zt2 + β3zt3 + · · · + βkztk, (2.12)

o`u les zti (zti allant de zt1 `a ztk) sont les variables ind´ependantes, et zt1 peut

ˆetre un terme constant. Il aurait ´et´e possible de formuler cette fonction de

r´egression de fa¸con plus ramass´ee

xt(β) = Ztβ,

o`u Zt repr´esente un vecteur de dimension 1 × k, et β d´esigne un vecteur de

dimension k × 1. Notons que (2.12) repose sur une hypoth`ese extrˆemement

forte, c’est-`a-dire celle que l’effet sur yt d’une modification d’une des variables

ind´ependantes est ind´ependant des valeurs de toutes les autres variables

ind´ependantes. Lorsque cette hypoth`ese est fausse, les mod`eles de r´egression

lin´eaire multiple peuvent s´erieusement induire une erreur.

Puis vient tout un ´eventail de fonctions de r´egression ressemblant `a

xt(β) = β1zt1 + β2zt2 + β3z

t2 + β4zt1zt2,

qui est lin´eaire en ses param`etres mais qui fait appel `a des variables ind´ependantes

d’une mani`ere non lin´eaire. Les mod`eles qui impliquent cette famille de

fonctions de r´egression peuvent ˆetre manipul´es comme n’importe quel autre

mod`ele de r´egression lin´eaire, tout simplement en d´efinissant de nouveaux

r´egresseurs de fa¸con appropri´ee. Ici, par exemple, on pourrait d´efinir zt3

comme z

t2

et zt4 comme zt1zt2. En faisant usage de ce genre de fonction on

´evite de subir les effets qui s’additionnent, comme l’implique (2.12), mais cela

n´ecessiterait sans doute d’estimer plus de param`etres qu’il ne serait utile en

pratique avec de nombreux ensembles de donn´ees. A cause de cela, et `a moins


62 Les Moindres Carres non Lin ´ eaires ´

qu’il n’existe des raisons th´eoriques de s’attendre `a ce que des puissances

ou des produits de variables ind´ependantes n’apparaissent dans la fonction

de r´egression, la plupart des ´econom`etres essaieront d’ignorer ce genre de

sp´ecification en pratique.

Une fonction de r´egression qui permet `a toutes les variables ind´ependantes

d’interagir sans recourir `a l’estimation de param`etres suppl´ementaires

est la fonction multiplicative

xt(β) = e

β1

β2

t2

β3

t3

. (2.13)

Remarquons que cette fonction peut ˆetre ´evalu´ee uniquement lorsque zt2 et

zt3 sont positifs pour tout t. C’est la premi`ere v´eritable fonction de r´egression

non lin´eaire que nous rencontrons, puisqu’il est clair qu’elle n’est lin´eaire ni

en ses param`etres ni en ses variables. Cependant, un mod`ele non lin´eaire tel

que

yt = e

β1

β2

t2

β3

t3 + ut (2.14)

est tr`es rarement estim´e dans la pratique. La raison en est que l’hypoth`ese
d’al´eas additifs et identiquement distribu´es est autant encombrante que peu

r´ealiste. Elle est peu r´ealiste car les zti sont multiplicatifs, ce qui implique que

leurs effets d´ependent des niveaux que prennent toutes les valeurs des autres

variables, alors que les al´eas sont additifs, ce qui rend leur effet ind´ependant

des niveaux des autres variables explicatives. Elle est encombrante car (2.14)

doit ˆetre estim´ee par moindres carr´es non lin´eaires plutˆot que par moindres

carr´es lin´eaires.

Il est facile de modifier (2.14) de fa¸con `a donner aux al´eas une structure

multiplicative. Le mod`ele le plus ´evident que l’on peut alors formuler est

yt =

β1

β2

t2

β3

t3

(1 + vt) ≡ e

β1

β2

t2

β3

t3 + ut, (2.15)

o`u les perturbations 1 + vt, qui sont des quantit´es sans unit´e de mesure, sont

multiplicatives. Bien que les erreurs sous-jacentes vt soient i.i.d., les erreurs

additives ut sont maintenant proportionnelles `a la fonction de r´egression. Si


le mod`ele s’ajuste relativement bien, les vt devraient ˆetre assez faibles (disons

inf´erieures `a environ 0.05). Maintenant, souvenons-nous que e

w ∼= 1 + w

pour des valeurs de w proches de z´ero. Par cons´equent, pour des mod`eles qui

s’ajustent relativement bien, (2.15) sera tr`es similaire au mod`ele

yt = e

β1

β2

t2

β3

t3

vt

. (2.16)

Supposons d´esormais que l’on passe en logarithme, de chaque cˆot´e de l’´egalit´e.

Le r´esultat est

log(yt) = β1 + β2 log(zt2) + β3 log (zt3) + vt, (2.17)

qui est un mod`ele de r´egression lin´eaire. Il est ´evident que ce mod`ele, qui

est lin´eaire dans tous les param`etres et dans les logarithmes de toutes les

2.5 Fonctions de Regression Lin ´ eaires et Non Lin ´ eaires ´ 63

variables, sera plus facile `a estimer que le mod`ele non lin´eaire (2.14). Les

arguments que l’on a d´evelopp´es plus tˆot sugg`erent que c’est, en tout cas, plus

plausible. Ainsi, il ne devrait pas ˆetre surprenant d’apprendre que les mod`eles

de r´egression log-lin´eaire, comme (2.17), sont tr`es fr´equemment estim´es en

pratique, alors que les mod`eles multiplicatifs avec des al´eas additifs comme

(2.14) ne le sont que tr`es rarement.

Un mod`ele purement multiplicatif comme (2.16) peut ˆetre rendu lin´eaire

en passant en logarithme. Toutefois, un mod`ele qui m´elange les deux structures,

multiplicative et additive, ne peut pas ˆetre transform´e en un mod`ele


lin´eaire. Ainsi, peu importe la mani`ere dont sont pr´ecis´es les al´eas; des

mod`eles qui int`egrent des fonctions de r´egression du type

xt(β) = β1 + β2z

β3

t2 + β4zt3 et (2.18)

xt(β) = β1 + β2z

β3

t2

β4

t3

(2.19)

doivent n´ecessairement ˆetre estim´es `a l’aide des m´ethodes non lin´eaires.

Comme on devrait s’y attendre, de tels mod`eles ne sont pas estim´es aussi

fr´equemment que les mod`eles lin´eaires ou log-lin´eaires, d’une part parce que

la paresse nous y pousse sans doute, et d’autre part car il n’y a souvent pas

de raison, ni th´eorique ni empirique, qui nous permettent de choisir ce type

de sp´ecification plutˆot que les mod`eles conventionnels. En fait, les fonctions

de r´egression comme (2.18) et (2.19) sont d’une difficult´e de traitement notoire,

car il est complexe d’estimer conjointement tous les param`etres avec

n’importe quel degr´e de pr´ecision. Souvenons-nous de la discussion `a propos

du fait que les mod`eles fond´es sur la fonction de r´egression (2.06), qui est tr`es

similaire `a celles-ci, sont le plus souvent insuffisamment identifi´es.

L’ultime exemple d’une fonction de r´egression non lin´eaire que nous allons

aborder est tr`es diff´erent par rapport `a (2.18). Consid´erons la fonction de

r´egression

xt(β) = β1 + β2(zt2 − β3zt3) + β4(zt4 − β3zt5). (2.20)

Cette fonction est lin´eaire en ses variables ind´ependantes ιt et zt2, zt3, zt4 et

zt5, mais elle est non lin´eaire en ses param`etres βi (allant de β1 `a β4). Mais il

s’agit en r´ealit´e d’une fonction de r´egression lin´eaire avec une seule contrainte

non lin´eaire sur les coefficients. Pour apercevoir ceci, examinons la fonction
de r´egression lin´eaire non contrainte

xt(β) = γ1 + γ2zt2 + γ3zt3 + γ4zt4 + γ5zt5.

Si l’on impose la contrainte non lin´eaire

γ3

γ5

γ2

γ4

, (2.21)

et si l’on reparam´etrise ensuite de fa¸con `a ce que

β1 = γ1, β2 = γ2, β3 = −

γ5

γ4

, et β4 = γ4,

64 Les Moindres Carres non Lin ´ eaires ´

on obtient (2.20). Remarquons qu’il y a plusieurs mani`eres ´equivalentes

d’´ecrire la contrainte (2.21), dont

γ3 =

γ2γ5

γ4

, γ2 =

γ3γ4

γ5

, et

γ2

γ3

γ4

γ5

Il s’agit d’un caract`ere typique des contraintes non lin´eaires que de pouvoir
ˆetre formul´ees de plusieurs fa¸cons diff´erentes mais ´equivalentes, et par

cons´equent, la fonction de r´egression peut ˆetre param´etris´ee de diff´erentes

fa¸cons.

On retrouve tr`es fr´equemment des fonctions de r´egression comme (2.20)

en ´econom´etrie. Elles apparaissent, par exemple, dans certains mod`eles avec

anticipations rationnelles — consulter Hoffman et Schmidt (1981) ou Gregory

et Veall (1985, 1987) — et dans les mod`eles avec corr´elation en s´erie (voir

Chapitre 10). De tels mod`eles ne sont pas particuli`erement difficiles `a estimer

en g´en´eral, pourvu que les contraintes soient plus ou moins exactes.

2.6 Termes d’Alea´

Il existe deux ´el´ements que l’on doit pr´eciser lorsque l’on sp´ecifie un mod`ele

de r´egression: la fonction de r´egression xt(β) et au moins quelques propri´et´es

des al´eas ut. Nous avons d´ej`a eu l’occasion de constater `a quel point ces

derni`eres ´etaient importantes. En rajoutant les erreurs `a variance constante `a

la fonction de r´egression `a structure multiplicative (2.13), nous avons obtenu

un mod`ele de r´egression v´eritablement non lin´eaire. Mais lorsque nous avons

appliqu´e des erreurs qui ´etaient proportionnelles `a la fonction de r´egression,

comme dans (2.15), et fait usage de l’approximation e

w ∼= 1 + w, qui est une

approximation satisfaisante pour des petites valeurs de w, nous avons obtenu

un mod`ele de r´egression log-lin´eaire. Il devrait donc ˆetre clair `a partir de cet

exemple, que la mani`ere dont sont pr´ecis´es les al´eas aura un effet consid´erable

sur le mod`ele qui est r´eellement estim´e.

Dans (2.01), nous avons d´efini les al´eas comme ind´ependants, tous

d’esp´erance nulle et de variance ´egale `a σ

, mais nous n’avons pas pr´ecis´e

leur distribution. Mˆeme ces hypoth`eses sont quelquefois trop fortes. Elles excluent

toutes les sortes de d´ependance `a travers les observations, et toutes les

sortes de variation dans le temps ou avec les valeurs de n’importe quelle variable

ind´ependante. Elles excluent ´egalement des distributions o`u les queues


sont tellement ´epaisses que les al´eas n’ont pas une variance finie. Une telle

distribution est la distribution de Cauchy. Une variable al´eatoire qui suit une

distribution de Cauchy ne poss`ede pas seulement une variance non finie, mais

aussi une esp´erance non finie. Consulter le Chapitre 4 et l’Annexe B.

Il existe plusieurs acceptions du terme ind´ependance dans la litt´erature

consacr´ee `a la statistique et `a l’´econom´etrie. Deux variables al´eatoires z1

et z2 sont dites al´eatoirement ind´ependantes si leur fonction de r´epartition

2.6 Termes d’Alea´ 65

jointe F(z1, z2) est ´egale au produit de leurs deux fonctions de r´epartition

marginale respectives F(z1, ∞) et F(∞, z2). On appelle quelquefois cela

l’ind´ependance en probabilit´e, mais nous ferons usage du premier terme, plus

moderne. Certains auteurs ´ecrivent que deux variables al´eatoires z1 et z2 sont

lin´eairement ind´ependantes si E(z1z2) = E(z1)E(z2), une condition moins

forte, qui d´ecoule de l’ind´ependance stochastique, mais qui ne l’entraˆıne pas.

Cette terminologie est assez malvenue car le sens “lin´eairement ind´ependant”

ne s’accorde pas avec le sens habituel que l’on utilise en alg`ebre lin´eaire. Au

contraire, dans cette situation, on pourrait au plus dire que z1 et z2 sont non

corr´el´ees, et poss`edent une covariance nulle. Si z1, ou z2, est d’esp´erance nulle

et est non corr´el´ee avec z2 (respectivement z1), alors E(z1z2) = 0. Il existe

un sens selon lequel z1 et z2 sont orthogonaux dans cette situation, et nous

utiliserons quelquefois cette terminologie.

Lorsque nous disons que les ut sont i.i.d., nous signifions par le premier “i”

que les ut sont al´eatoirement ind´ependants. Cela implique que E(utus) = 0

pour tout t 6= s, mais ´egalement que E

h1(ut)h2(us)

= 0 pour toutes les

fonctions (mesurables) h1(·) et h2(·). Les al´eas qui sont ind´ependants et

qui poss`edent les mˆemes esp´erances et variances sont quelquefois appel´es

bruits blancs. Cette terminologie que l’on emprunte `a la litt´erature scientifique,


se r´ef`ere au fait que, tout comme la lumi`ere blanche est constitu´ee

de quantit´es ´egales de rayonnements de toutes les parties du spectre visible,

les erreurs bruits blancs contiennent des quantit´es ´egales d’al´eas de toutes

fr´equences. De nombreuses d´efinitions diff´erentes des bruits blancs sont en

usage en ´econom´etrie et dans d’autres disciplines, et quelquefois, le terme est

employ´e dans un sens qui n’est pas strictement conforme `a sa signification.

Remarquons l’importante distinction qu’il faut ´etablir entre les al´eas et les

r´esidus. Toute r´egression lin´eaire ou non lin´eaire g´en`ere un vecteur de r´esidus,

que cela ait un sens ou pas. Les r´esidus auront des propri´et´es qui r´esultent de la

fa¸con dont on les a obtenus, sans se pr´eoccuper de la mani`ere dont les donn´ees

ont ´et´e g´en´er´ees. Par exemple, les r´esidus OLS seront toujours orthogonaux

`a tous les r´egresseurs, et les r´esidus NLS seront toujours orthogonaux `a la

matrice Xˆ. D’un autre cˆot´e, les al´eas ne sont pas observables (mais on peut

les estimer) et l’on doit formuler quelques hypoth`eses qui feront partie de

la d´efinition du mod`ele. Il nous arrivera bien sˆur de tester ces hypoth`eses,

et de le faire `a l’aide de statistiques de tests d´ependant des r´esidus que l’on

calculera.

Une grande partie de la litt´erature concernant la sp´ecification et les tests

des mod`eles de r´egression est consacr´ee aux tests de transgression des hypoth`eses

d’erreurs i.i.d.. Lorsque de telles hypoth`eses ne sont pas bien v´erif´ees,

il est encore possible de modifier le mod`ele avec des erreurs qui ne sont

pas i.i.d. en un mod`ele o`u les erreurs transform´ees le sont. Il se peut que

l’hypoth`ese d’ind´ependance, ou que l’hypoth`ese d’esp´erances et de variances

identiques, ou les deux simultan´ement, ne soient pas v´erifi´ees. L’hypoth`ese

d’ind´ependance est quelquefois mise en d´efaut lorsque l’on travaille sur des

66 Les Moindres Carres non Lin ´ eaires ´

donn´ees chronologiques: les al´eas successifs ut peuvent ˆetre corr´el´es entre

eux, faisant apparaˆıtre plus distinctement le ph´enom`ene de corr´elation en

s´erie. L’hypoth`ese de distributions identiques est souvent mise `a mal lorsque

l’on travaille avec des donn´ees en coupe transversale: des ut diff´erents peuvent

sembler provenir de la mˆeme famille de distribution mais ont des variances


diff´erentes, et mettent en perspective le ph´enom`ene d’h´et´erosc´edasticit´e.

Le terme oppos´e h´et´erosc´edasticit´e est incidemment homosc´edasticit´e. Si les

al´eas poss`edent une variance commune, on dit qu’ils sont homosc´edastiques;

lorsque ce n’est pas le cas on dit qu’ils sont h´et´erosc´edastiques. Bien sˆur, la

corr´elation des al´eas `a travers les observations n’est en rien une caract´eristique

exclusive des donn´ees chronologiques, et l’h´et´erosc´edasticit´e n’est en rien

une caract´eristique exclusive des donn´ees en coupe transversale. Ces deux

ph´enom`enes peuvent survenir avec tous les types d’ensembles de donn´ees,

mais malgr´e tout, on associe n´ecessairement la corr´elation en s´erie avec les

donn´ees chronologiques, et l’h´et´erosc´edasticit´e est particuli`erement fr´equente

avec les donn´ees en coupe transversale.

Nous traiterons plus en d´etail la corr´elation en s´erie et l’h´et´erosc´edasticit´e

dans les chapitres qui leur sont consacr´es (tout particuli`erement, les Chapitres

9, 10, 11 et 16). Pour l’instant, et `a titre d’illustration, consid´erons une forme

simple d’h´et´erosc´edasticit´e:

ut = wtvt, vt ∼ IID(0, σ2

),

o`u wt est une variable ind´ependante qui est toujours non nulle. Cette

sp´ecification implique que ut poss`ede une esp´erance nulle et une variance

´egale `a σ

vw

. Supposons d´esormais que la fonction de r´egression sur laquelle

on applique les erreurs ut soit

xt(β) = β1 + β2zt + β3wt.

Bien ´evidemment, on peut obtenir un mod`ele avec des erreurs i.i.d. en divisant

la variable d´ependante et toutes les variables ind´ependantes, la constante

comprise par wt. Ce mod`ele modifi´e est


yt

wt

= β1

wt

+ β2

zt

wt

+ β3 + vt. (2.22)

Notons que les r´egresseurs sont d´esormais 1/wt, zt/wt, et une constante, mais

le coefficient de la constante est maintenant celui de wt dans le mod`ele originel,

alors que le coefficient 1/wt est la constante du mod`ele de d´epart. Ainsi il est

tr`es facile d’´eliminer l’h´et´erosc´edasticit´e dans un cas pareil, mais il faut ˆetre

prudent en interpr´etant les coefficients du mod`ele transform´e.

Au Chapitre 8, nous discuterons d’une hypoth`ese relativement forte que

l’on fait en ´econom´etrie, c’est-`a-dire

ut ∼ NID(0, σ2

), t = 1, . . . , n,

2.6 Termes d’Alea´ 67

qui pr´ecise que les ut sont normalement et ind´ependamment distribu´es avec

une esp´erance nulle et une variance ´egale `a σ

. Ainsi chaque ut est suppos´e

ob´eir `a la distribution normale dont la fonction de densit´e de probabilit´e est

f(ut) = 1

expµ


u

La densit´e jointe du vecteur `a n composantes u (dont l’´element type est ut)

est suppos´ee ˆetre par cons´equent

f(u) = Yn

t=1

f(ut) = µ

¶n/2

expµ

Xn

t=1

Il existe trois raisons principales pour supposer la normalit´e. La premi`ere


d’entre elles est que grˆace `a leur facilit´e de calcul et `a leurs propri´et´es

famili`eres, on d´esire souvent faire usage des moindres carr´es pour estimer

des mod`eles de r´egression, et la justification de cet usage est plus solide

lorsque les erreurs sont normalement distribu´ees que lorsque ce n’est pas le

cas. Comme nous le verrons au cours du Chapitre 8, les moindres carr´es

appliqu´es `a un mod`ele de r´egression disposent de propri´et´es asymptotiques

excellentes lorsque les erreurs sont normales, mais lorsque ces erreurs suivent

une autre distribution quelconque connue, leurs propri´et´es ne sont plus aussi

bonnes. La deuxi`eme raison est que lorsque l’on suppose la normalit´e, on peut

obtenir le plus souvent des r´esultats plus solides que lorsque l’on suppose simplement

que les erreurs sont suppos´ees ˆetre i.i.d.. En particulier, pour les

mod`eles de r´egression lin´eaire avec r´egresseurs fix´es et erreurs normales, nous

pouvons obtenir des r´esultats exacts avec des ´echantillons finis (consulter le

Chapitre 3); de tels r´esultats ne sont mˆeme pas disponibles pour des mod`eles

lin´eaires quand les erreurs sont simplement suppos´ees ˆetre i.i.d.. La troisi`eme

raison est que lorsque l’on quitte le domaine des mod`eles de r´egression pour

essayer de traiter des mod`eles non lin´eaires plus g´en´eraux, il devient souvent

n´ecessaire de faire des hypoth`eses sur la distribution, et la distribution

normale est bien souvent la plus pratique `a utiliser.

Aucune de ces raisons pratiques de supposer que les al´eas sont normalement

distribu´es n’offre une quelconque justification pour formuler une telle hypoth`ese.

L’argument usuel est que les al´eas repr´esentent les effets combin´es de

nombreuses variables que l’on a oubli´ees, et les nombreuses erreurs de mesure.

Les Th´eor`emes de la Limite Centrale (que nous verrons au Chapitre 4) nous

affirment que, tr`es grossi`erement, lorsque l’on ´etablit la moyenne d’un grand

nombre de variables al´eatoires, la moyenne obtenue est approximativement

normalement distribu´ee, en rapport plus ou moins fid`ele avec les distributions

des variables al´eatoires originelles. L’argument habituel est que l’hypoth`ese

de normalit´e a du sens parce que nous pouvons penser que les al´eas dans les

mod`eles de r´egression sont ainsi en moyenne.

68 Les Moindres Carres non Lin ´ eaires ´


Il y a au moins deux probl`emes avec ce genre d’argument. Premi`erement,

comme nous le verrons au Chapitre 4, les th´eor`emes de la limite centrale

n´ecessitent des hypoth`eses relativement fortes. Ils s’appliquent `a des situations

o`u l’on fait la moyenne de plusieurs variables al´eatoires, dont aucune

n’est “grande” par rapport `a toutes les autres. Il est ais´e de penser `a des variables

´economiques qui peuvent ˆetre omises dans les mod`eles de r´egression, et qui

constituent donc une partie des al´eas, mais qui seraient peut-ˆetre relativement

importantes par rapport `a ces al´eas. Dans le cas de mod`eles chronologiques,

des gr`eves, des ´elections ou d’autres ´ev´enements politiques, et des tempˆetes

ou d’autres conditions climatiques extrˆemes sont quelques exemples qui nous

viennent `a l’esprit. Il n’existe sans doute aucune raison a priori de s’attendre

`a ce que les effets de tels ´ev´enements ne soient responsables que d’une petite

partie de l’erreur globale pour toute observation donn´ee. Dans le cas

des mod`eles `a coupe transversale, l’argument de normalit´e est probablement

moins pesant. Lorsque nous disposons d’un ´echantillon important d’individus

ou d’entreprises, nous devons constater que quelques observations comprises

dans l’´echantillon ne doivent pas s’y trouver en r´ealit´e. Consid´erons, par exemple,

l’effet sur un mod`ele en coupe transversale de la demande de viande

d’un petit nombre d’individus v´eg´etariens! In´evitablement, les erreurs associ´ees

`a ces observations particuli`eres seront ´elev´ees, de sorte qu’il est peu

probable que la distribution des al´eas pour le mod`ele tout entier soit normale.

Le second probl`eme avec l’argument du th´eor`eme de la limite centrale est

que beaucoup de th´eor`emes de la limite centrale ne s’appliquent pas lorsque le

nombre de variables al´eatoires dont on fait la moyenne est lui-mˆeme al´eatoire.

Mais puisque nous ne savons pas quelles variables ont ´et´e omises et rejet´ees

dans les al´eas, nous n’avons aucune raison d’imaginer que leur nombre est le

mˆeme d’observation en observation! Alors on ne peut pas toujours invoquer

l´egitimement un th´eor`eme de la limite centrale.

Ces arguments ne doivent pas sugg´erer qu’il est idiot de supposer la

normalit´e. Mais que nous ayons suppos´e ou pas la normalit´e ne nous empˆeche

pas de voir si oui ou non les al´eas sont en r´ealit´e approximativement normaux.
Si ils ne sont pas approximativement normaux, alors la sagesse nous conseille

de remettre en question l’usage des moindres carr´es. Il existe, bien sˆur, un

nombre infini de distributions non normales, et donc un nombre infini de types

de non normalit´e `a examiner. Cependant, la grande majorit´e des tests de non

normalit´e mettent l’accent sur deux propri´et´es de la distribution normale. Si

ε ∼ N(µ, σ2

), alors

(ε − µ)

= 0 et (2.23)

(ε − µ)

= 3σ

. (2.24)

L’expression (2.23) nous renseigne que pour la distribution normale, le troisi`eme

moment centr´e (c’est-`a-dire, le moment centr´e autour de l’esp´erance)

est nul. Ce moment est fr´equemment utilis´e pour mesurer l’asym´etrie. Positif,

il indique que la distribution est biais´ee `a droite; n´egatif, il indique que

2.6 Termes d’Alea´ 69

−4 −3 −2 −1 0 1 2 3 4

0.0

0.1

0.2

0.3
0.4

0.5

...................

.
.

.....

.
.

.
.

...

.........

...................

....

..............

...

..............................

...

.
.

................

..

.
.

.
.

..

..

....

....

..

...

...............................................

...

.
.

.. ........

...

.
.

......

..

..

..

...

....

....

.....

......

.......

.........
..............

.................

Asym´etrie `a droite →

← Asym´etrie `a gauche

Figure 2.8 Distributions asym´etriques

la distribution est biais´ee `a gauche. La Figure 2.8 illustre deux distributions

asym´etriques, et, pour comparer une distribution sym´etrique. Les tests

d’asym´etrie sont relativement ais´es; ils seront trait´es dans le chapitre 16.

L’expression (2.24) nous indique que le quatri`eme moment centr´e d’une

variable al´eatoire normale est ´egale `a trois fois le carr´e de sa variance. Une variable

al´eatoire dont le quatri`eme moment est plus ´elev´e que trois fois le carr´e

de son deuxi`eme moment poss`ede des queues de distribution plus ´epaisses

qu’une variable al´eatoire qui suit une distribution normale. On dit quelquefois

qu’il fait ´etat de l’exc`es de kurtosis ou que la distribution est leptokurtique.

Au contraire, lorsqu’une variable al´eatoire `a un quatri`eme moment

inf´erieur `a trois fois le carr´e de son second moment, elle poss`ede des queues de

distribution plus fines qu’une variable al´eatoire distribu´ee normalement. De

telles variables al´eatoires sont dites platykurtiques. De fa¸con similaire, on dit

souvent des variables al´eatoires qui suivent la distribution normale qu’elles

sont m´esokurtiques. Les lecteurs qui ont quelques notions de Grec pourraient

penser que ces d´efinitions sont erron´ees, puisque lepto signifie fin et platy signifie

´epais. Comme l’expliquent Kendall et Stuart (1977, p. 88), ces termes

´etaient `a l’origine destin´es `a caract´eriser les parties centrales des distributions

et non les queues de distribution; ainsi les distributions leptokurtiques sont

ainsi nomm´ees non pas parce qu’elles ont des queues de distributions ´epaisses

mais parce qu’elles ont des parties centrales (relativement) minces, et les distributions

platykurtiques sont ainsi nomm´ees non pas `a cause de leurs queues

de distribution fines parce qu’elles ont des parties centrales (relativement)

´epaisses. Toutefois, ce sont aux queues de distribution auxquelles se r´ef`erent

les statisticiens contemporains en employant ces termes. La Figure 2.9 illustre

70 Les Moindres Carres non Lin ´ eaires ´


−4 −3 −2 −1 0 1 2 3 4

0.0

0.1

0.2

0.3

0.4

0.5

...................

.
.

.....

.
.

.
.

...

......................

...................

...............................................................

........

.... ..

........

.
.

........

............................................................

.................................................................................

.................

........

..................................................

........

.......................................................................

← Leptokurtique

← Platykurtique
Figure 2.9 Distributions leptokurtique et platykurtique

des distributions leptokurtiques et platykurtiques. A titre de comparaison, la

distribution normale standard a ´egalement ´et´e repr´esent´ee (en pointill´e).

Les queues de distribution fines ne repr´esentent pas vraiment un probl`eme

(et ne sont pas non plus tr`es fr´equentes), mais les queues de distribution

´epaisses peuvent causer de graves difficult´es pour l’estimation et l’inf´erence.

Si les al´eas suivent une distribution dont les queues de distribution sont plus

´epaisses que celles de la distribution normale, alors des erreurs importantes

inhabituelles surviendront relativement souvent. La proc´edure des moindres

carr´es donne un grand poids `a ces erreurs importantes, et peut donc entrainer

des estimations des param`etres inefficaces.

Il est assez facile de tester l’exc`es de kurtosis; voir Chapitre 16. Cependant,

ce qu’il faut faire si l’on trouve un exc`es de kurtosis substantiel, n’est

pas clairement ´etabli. L’h´et´erosc´edasticit´e peut conduire `a l’apparence de

kurtosis, comme le ferait une fonction de r´egression incorrectement sp´ecifi´ee,

de sorte qu’il serait souhaitable d’examiner la sp´ecification du mod`ele. Si

l’on est confiant dans la sp´ecification de la fonction de r´egression et qu’il n’y

a pas d’h´et´erosc´edasticit´e, alors il serait sˆurement plus sage de consid´erer

d’autres m´ethodes que les moindres carr´es. Il existe une litt´erature importante

consacr´ee `a ce que les statisticiens appellent des m´ethodes d’estimations

“robustes”, qui donnent un poids plus faible aux valeurs d´etach´ees que les

moindres carr´es; consulter Krasker, Kuh, et Welsch(1983) pour une revue de

litt´erature. De mani`ere alternative, on pourrait postuler d’autres distributions

que la normale qui poss`ederait des queues de distribution plus ´epaisses,

puis faire usage de la m´ethode du maximum de vraisemblance, dont nous

discuterons en d´etail au cours du Chapitre 8 et des chapitres suivants.

Termes et Concepts 71

2.7 Conclusion

Ce chapitre nous a donn´e une introduction non rigoureuse aux mod`eles de

r´egression non lin´eaire, mettant l’accent sur des concepts fondamentaux tels

que la g´eom´etrie de la r´egression non lin´eaire. Les ouvrages qui offrent un


traitement plus rigoureux sont ceux de Gallant (1987), Bates et Watts (1988),

et Seber et Wild (1989). Le prochain chapitre traite de la fa¸con d’op´erer des

inf´erences `a partir de mod`eles de r´egression non lin´eaire et introduit les id´ees

de base des tests d’hypoth`eses pour de tels mod`eles. La prochaine ´etape devra

offrir un traitement des propri´et´es asymptotiques des moindres carr´es non

lin´eaires, et cela sera l’objet des Chapitres 4 et 5. Puis le Chapitre 6 examinera

une r´egression lin´eaire “artificielle” de Gauss-Newton que l’on associe `a tout

mod`ele de r´egression non lin´eaire. Cette r´egression artificielle s’av`erera tr`es

utile pour toute une vari´et´e d’usages, dont le calcul des estimations NLS et le

calcul des statistiques de test.

Termes et Concepts

al´eas

algorithme de minimisation

bruit blanc

colin´earit´e

corr´elation en s´erie

distribution normale

donn´ees chronologiques

donn´ees en coupe transversale

ensemble d’informations

fonction somme des carr´es

h´et´erosc´edasticit´e

homosc´edasticit´e

identification: globale et locale

ind´ependance: stochastique et lin´eaire

kurtosis: leptokurtique, m´esokurtique,

platykurtique, exc`es de kurtosis

minima: locaux et globaux

mod`ele: ensemble de DGP

mod`eles de r´egression: lin´eaire et non

lin´eaire, multivari´ee et univari´ee


moindres carr´es non lin´eaires

moments centr´es

moyenne conditionnelle

multicolin´earit´e

asym´etrie

processus g´en´erateur de donn´ees

(DGP); relation avec les mod`eles

restrictions non lin´eaires

r´esultats asymptotiques

Th´eor`emes de la Limite Centrale

variables al´eatoires ind´ependantes et

identiquement distribu´ees (i.i.d.)

variables d´ependantes et

ind´ependantes

variance d’erreur

Vous aimerez peut-être aussi