Chapitre 2

Chapitre 2
Modèles de Régression non Linéaire et
les Moindres Carrés non Linéaires
2.1 Introduction
Dans le Chapitre 1, nous avons discuté en détail de la géométrie des moindres
carrés ordinaires et de leurs propriétés en tant que système de calcul. Ce
matériau est important car de nombreux modèles statistiques communément
usités sont souvent estimés à l’aide de variantes des moindres carrés. Parmi
ceux-ci, nous trouvons le type de modèle le plus communément rencontré
en économétrie, c’est-à-dire la classe des modèles de régression, dont nous
entamons l’étude dès à présent. Au lieu de nous restreindre volontairement
au domaine bien connu des modèles de régression linéaire, qu’il est possible
d’estimer directement par OLS, nous considérons la famille plus large des
modèles de régression non linéaire qui peuvent être estimés par moindres
carrés non linéaires, ou NLS. Parfois, nous traiterons de manière spécifique
des modèles de régression linéaire si les résultats qui sont vérifiés pour de tels
modèles ne se généralisent pas au cas non linéaire.
Au cours de ce chapitre et des quelques chapitres suivants consacrés
aux modèles de régression, nous porterons notre attention principalement sur
les modèles univariés, c’est-à-dire les modèles dans lesquels n’existe qu’une
seule variable dépendante. Ceux-ci sont beaucoup plus simples à traiter que
les modèles multivariés dans lesquels on trouve plusieurs variables dépendantes
jointes. Les modèles univariés sont de loin plus fréquemment rencontrés
en pratique que les modèles multivariés, et une bonne compréhension des
premiers est essentielle pour une bonne compréhension des seconds. Nous
démontrerons au Chapitre 9 qu’il est simple de rendre compatibles les résultats
des modèles univariés aux modèles multivariés.
Nous commen¸cons par écrire le modèle de régression linéaire univariée
sous sa forme générique:
yt = xt(β) + ut, ut ∼ IID(0, σ2
), t = 1, . . . , n. (2.01)
Désormais, yt représente l’observation t de la variable dépendante, qui est
une variable aléatoire scalaire, et β désigne un vecteur à k composantes de
45
46 Les Moindres Carres non Lin ´ eaires ´
paramètres (généralement) inconnus. La fonction scalaire xt(β) est une fonction
de régression (le plus souvent non linéaire) qui détermine l’espérance de
yt conditionnelle à β et (généralement) à certaines variables indépendantes.
Ces dernières n’ont pas été mentionnées explicitement dans (2.01) mais le t en
indice de xt(β) indique que cette fonction varie d’une observation à l’autre.
Dans la plupart des cas, cela s’explique parce que xt(β) dépend d’une ou
plusieurs variables indépendantes qui varient. Ainsi, xt(β) devrait être interprétée
comme l’espérance de yt conditionnelle aux valeurs de ces variables
indépendantes. De manière plus précise, comme nous aurons l’occasion de le
voir à la Section 2.4, elle devrait être interprétée comme l’espérance de yt conditionnelle
à un ensemble d’informations auxquels appartiennent ces variables
indépendantes.1
Dans certains cas, xt(β) pourra aussi dépendre de variables retardées
de yt. Un modèle qui comportera une telle fonction de régression sera appelé
modèle dynamique, et le traitement de ce genre de modèles complique quelque
peu l’analyse. Nous admettrons pour l’instant que xt(β) ne dépend pas des
valeurs retardées de yt, contrairement à ce qui serait le cas si (2.01) était un
modèle dynamique, mais nous abandonnerons cette hypothèse au Chapitre 5
lorsque nous présenterons un premier traitement de la théorie asymptotique
des moindres carrés non linéaires. D’après l’acception du terme que nous utilisons
dans cet ouvrage, les résultats asymptotiques ne sont vrais qu’à la limite,
lorsque la taille n de l’échantillon tend vers l’infini. La plupart des résultats
analytiques standards concernant les modèles de régression non linéaire, et
les modèles non linéaires en général, sont des résultats asymptotiques, parce
que les résultats établis à l’aide d’échantillons finis et faciles à interpréter sont
souvent extrêmement difficiles à obtenir.
Les modèles de régression se différencient de tous les autres modèles

statistiques par le fait que l’aléa affecte les variables dépendantes uniquement
par l’intermédiaire d’un aléa additif. Dans le cas précis de (2.01), cet aléa est
appelé ut, et la notation “ut ∼ IID(0, σ2
)” est un moyen concis pour dire que
les aléas ut sont supposés être indépendants et identiquement distribués, ou
i.i.d., avec une espérance nulle et une variance égale à σ
. En prétendant cela,
nous ne voulons pas dire que les variables aléatoires ut ont nécessairement
la même distribution, mais simplement qu’elles sont d’espérance zéro et de
Les lecteurs devraient être avertis que la notation que nous avons utilisée ici
est quelque peu inhabituelle. De nombreux auteurs utilisent ft(β) en lieu et
place de notre xt(β). Nous préférons cette notation pour deux raisons. La
première est qu’elle nous laisse la liberté d’utiliser la notation f(·) pour désigner
des objets autres que les fonctions de régression sans créer d’ambigu¨ıté. La
seconde est qu’avec notre notation, il devient naturel de désigner ∂xt(β)/∂βi
par Xti(β) (voir la Section 2.2). La matrice dont l’élément type est Xti(β)
est de fait étroitement liée à la matrice habituelle X qui est utilisée dans la
plupart des traitements du modèle de régression linéaire, et nous espérons que
cette ressemblance d’écriture sera un moyen efficace de se le rappeler.
2.2 La Geom ´ etrie des Moindres Carr ´ es non Lin ´ eaires ´ 47
variance σ
. A ce propos, les lecteurs devraient sans doute être avertis que
nous dérogeons à l’usage standard. Ainsi que nous le verrons dans la Section
2.6, les propriétés de ces aléas sont cruciales car elles déterminent toutes
les propriétés statistiques du modèle, et par là, permettent de savoir si un
modèle de régression peut raisonnablement être utilisé ou pas. Quoi qu’il en
soit, puisque les estimations NLS (comme les estimations OLS) peuvent être
calculées sans se préoccuper de la fa¸con dont les données ont été générées,
nous traiterons le calcul des estimations NLS avant d’aborder la discussion de
leurs propriétés statistiques.
Le reste du chapitre traite un certain nombre d’aspects des moindres
carrés non linéaires et des modèles de régression non linéaire. Dans la
Section 2.2, nous discutons des moindres carrés non linéaires en tant que
procédure de calcul qui constitue une extension des moindres carrés ordinaires.
Nous démontrons que la minimisation de la somme des résidus au carré pour
un modèle de régression non linéaire tel que (2.01) est très semblable, eu
égard à la géométrie impliquée, à l’exécution d’une régression linéaire. Un
modèle de régression non linéaire doit être identifié si l’on désire obtenir des
estimations uniques des paramètres. Nous discutons par conséquent du concept
fondamental d’identification dans la Section 2.3. Dans la seconde moitié
du présent chapitre, nous entamerons la discussion des aspects statistiques (et
économiques) des modèles de régression non linéaire. Dans la Section 2.4 nous
verrons comment les équations de régression comme (2.01) s’interprètent, et
la distinction entre les modèles et les processus générateurs de données. Puis
des exemples de fonctions de régression linéaires et non linéaires seront examinés
à la Section 2.5, alors que les aléas seront examinés à la Section 2.6.
Procéder à des inférences à partir de modèles estimés par NLS sera le thème
du Chapitre 3.
2.2 La Geom ´ etrie des Moindres Carr ´ es non Lin ´ eaires ´
Le moyen de loin le plus répandu d’estimer aussi bien les modèles de régression
non linéaire que les modèles de régression linéaire, consiste à minimiser la
somme des résidus au carré, ou SSR, en tant que fonction de β. En ce qui
concerne le modèle (2.01), la fonction somme-des-carrés est
SSR(β) = Xn
t=1
yt − xt(β)
¢2
.
L’écriture de cette expression sous forme matricielle est généralement plus
pratique:
SSR(β) = ¡
y − x(β)
>
y − x(β)
, (2.02)
où y désigne un vecteur à n composantes d’observations yt, et x(β) représente
un vecteur composé de n fonctions de régression xt(β). Ainsi que nous l’avons
constaté à l’occasion du Chapitre 1, une notation alternative, qui n’apparaˆıt
peut-être pas aussi facile à manipuler algébriquement, mais qui est plus concise,
met l’accent sur l’aspect géométrique,
SSR(β) =
°y − x(β)
, (2.03)
où ky − x(β)k mesure la longueur du vecteur y − x(β). Selon l’expression
(2.03) il est clair que lorsque l’on minimise SSR(β), on minimise en fait la
distance euclidienne entre y et x(β), dont nous discuterons plus longuement
de l’interprétation plus loin.
La fonction somme-des-carrés (2.02) peut être récrite comme
SSR(β) = y
>y − 2y
>
x(β) + x
>(β)x(β).
En dérivant cette expression par rapport à toutes les composantes du vecteur
β à k éléments, et en annulant toutes les dérivées partielles, nous obtenons les
conditions du premier ordre qui doivent être vérifiées pour toute estimation
NLS du vecteur βˆ qui correspond à un minimum intérieur de SSR(β). Ces
conditions du premier ordre, ou équations normales, sont
−2X>(βˆ)y + 2X>(βˆ)x(βˆ) = 0, (2.04)
où la matrice X(β) de dimension n × k est composée d’éléments tels que
Xti(β) ≡
∂xt(β)
∂βi
Le fait que chaque vecteur de (2.04) possède k éléments implique l’existence
de k équations normales déterminant les k composantes de β.
Nous retrouverons à plusieurs reprises la matrice X(β) lors de notre
discussion sur les moindres carrés non linéaires. Chaque élément de cette
matrice correspond à la dérivée partielle d’un élément de x(β) par rapport
à un élément de β. Comme la notation que nous avons adoptée le suggère,
la matrice X(β) correspond exactement à la matrice X dans le cas de la
régression linéaire. Ainsi, lorsque la fonction de régression x(β) s’apparente
à la fonction linéaire Xβ, nous voyons immédiatement que X(β) = X.
Les conditions du premier ordre (2.04) peuvent légèrement se simplifier en
regroupant les termes, en éliminant le facteur −2, et en adoptant les définitions
xˆ ≡ x(βˆ) et Xˆ ≡ X(βˆ).2 Le résultat est
Xˆ>(y − xˆ) = 0. (2.05)
Il est souvent pratique d’indiquer de cette fa¸con la dépendance d’un vecteur
ou d’une matrice par rapport à un vecteur de paramètres qui a été estimé.
Ainsi, si α0 était un ensemble de paramètres exact, et αˆ et α˜ deux ensembles
d’estimations, alors Z0 désignerait Z(α0), Zˆ désignerait Z(αˆ), et Z˜

désignerait Z(α˜).
..
..
.....
...................................
....
......
........................
....
.....................................................................................................................................................
.....................................................................................................................................................
................................................................................................................................... .
.
.
.
.
.
.
SSR(β)
βˆ β
00 β
∗
Figure 2.1 Une fonction somme des carrés
Ces équations normales nous enseignent simplement que les résidus y − xˆ
doivent être orthogonaux à la matrice des dérivées Xˆ. Il s’agit d’un résultat
analogue à celui obtenu pour les modèles de régression linéaire pour lesquels
les résidus y − Xβˆ doivent être orthogonaux à la matrice X. La différence
entre les cas linéaire et non linéaire réside dans le fait qu’autant le vecteur de
valeurs ajustées xˆ que la matrice Xˆ dépendent de βˆ. Ainsi en général, nous
ne pouvons pas espérer résoudre (2.05) analytiquement pour βˆ, bien que cela
soit réalisable dans certains cas particuliers, dont bien sûr le cas linéaire.
Notons que les conditions du premier ordre (2.05) sont nécessaires mais
non suffisantes pour faire de βˆ un minimum intérieur et global de la fonction
somme des carrés. Il peut exister plusieurs valeurs de β qui vérifient (2.05)
et qui correspondent à des minima locaux, des points stationnaires et même
des maxima locaux. Cela est illustré sur la Figure 2.1 pour le cas où il n’y
a qu’un seul paramètre, faisant de β un scalaire. Sur la figure, le minimum
global se situe en βˆ, mais apparaissent également un autre minimum local en
β
0
, un maximum local en β
00, et un point stationnaire en β
∗
.
Aucun algorithme de minimisation efficace ne s’arrêtera sur un maximum
local ou un point stationnaire, parce qu’il est aisé de vérifier que les conditions
du second ordre ne seraient pas satisfaites pour de tels points. Mais
un algorithme pourra ne pas déceler un minimum global et s’arrêter à un
minimum local. En se basant uniquement sur des informations locales, aucun
algorithme ne distingue un minimum local comme β
d’un minimum global
comme βˆ. Dans le but de trouver le minimum global, il est donc nécessaire
de minimiser SSR(β) un certain nombre de fois, en débutant par une variété
de points de départ différents. Dans l’exemple que nous avons illustré, un
algorithme efficace serait capable de trouver βˆ seulement s’il débute à partir
d’un point quelconque situé à gauche de β
00. Dans le cas unidimensionnel, il
est aisé de trouver avec certitude un minimum global, dès lors qu’un graphe
similaire à la Figure 2.1 permet de le repérer. Cependant, dans le cas où
le nombre de dimensions est plus élevé, les méthodes graphiques ne sont en
général d’aucune utilité, et même lorsque l’on démarre un algorithme avec un
certain nombre de points de départ, il n’existe aucune garantie de trouver le
minimum global si l’on obtient plusieurs minima locaux. Des méthodes de
calcul des estimations NLS seront discutées plus tard, au Chapitre 6.
Il est instructif d’étudier l’analogue des Figures 1.1 et 1.3 pour le cas de
la régression non linéaire. Souvenons-nous que y peut être considéré comme
un point dans l’espace des observations En, et que la fonction de régression
linéaire Xβ définit alors un sous-espace à k dimensions de cet espace. Dans

la Figure 1.3, nous avons illustré, pour le cas le plus simple où n = 2 et k = 1,
la fa¸con dont les moindres carrés ordinaires projettent y orthogonalement sur
S(X), le sous-espace engendré par les colonnes de X. Lorsque la fonction de
régression x(β) est non linéaire, mais partout différentiable, elle définit une
variété à k dimensions,3
ou une surface lisse, qui ne constitue plus un sousespace
linéaire en général. Chaque point de cette variété, que nous noterons
X, correspond (par hypothèse) à une valeur différente de β, et donc on pourra
se référer à un point particulier qui correspond à β
, en le notant X(β
). Il est
essentiel pour que X soit lisse partout, que chaque composante du vecteur §(β)
soit partout dérivable. Pour n’importe quel point choisi arbitrairement, disons
β¯, la matrice X¯ ≡ X(β¯) définit un espace tangent S
∗
(X¯ ), qui correspond tout
simplement au sous-espace linéaire à k dimensions S(X¯ ), translaté de fa¸con à
avoir l’origine en X(β¯). Cela implique que S
∗
(X¯ ) est tangent à X en ce point.
La Figure 2.2 illustre ces considérations dans le cas k = 1. On suppose
que x(β) se situe, au moins localement, dans un sous-espace de R
à deux
dimensions, ce qui nous permet de le dessiner sur la feuille. La figure représente
la variété incurvée X, les espaces tangents S
∗
(X¯ 1
) et S
∗
(X¯ 2
) en deux
points arbitrairement choisis X(β¯1
) et X(β¯2
), et les sous-espaces linéaires correspondants
S(X¯ 1
) et S(X¯ 2
). Ces derniers, comme les flèches sur la figure
l’indiquent, sont parallèles à S
∗
(X¯ 1
) et S
∗
(X¯ 2
) respectivement, mais ne sont
pas mutuellement parallèles. Si X était rectiligne, comme cela serait le cas
si la fonction de régression était linéaire, alors bien évidemment il n’y aurait
pas de distinction possible entre X, S(X¯ 1
), S(X¯ 2
), S
∗
(X¯ 1
), et S
∗
(X¯ 2
). C’est
justement la présence de telles distinctions qui rend les modèles non linéaires
plus difficiles à traiter que les modèles linéaires. Notons également que bien
que la variété définie par une fonction de régression linéaire comprenne toujours
l’origine, ce n’est en général pas le cas pour une fonction non linéaire,
comme on peut le constater sur la figure.
3 Pour des définitions plus formelles d’une variété, ainsi que pour une discussion
minutieuse des propriétés des variétés, consulter entre autres, Spivak
(1965) pour une approche rudimentaire et Lang (1972) pour une approche
plus avancée.
...
.............................................
........
..
X(β¯1
)
X(β¯2
∗
(X¯ 1
∗
(X¯ 2
S(X¯ 2
S(X¯ 1
Figure 2.2 Espaces tangents à une variété incurvée
..
.........................................
......
.....
.....
.
.
Xˆ
y − xˆ
xˆ
∗
(Xˆ )
Figure 2.3 Une régressande y projetée sur une variété non linéaire
La Figure 2.3 montre la même variété X que la Figure 2.2, mais S(X¯ 1
),
S(X¯ 2
), S
∗
(X¯ 1
), et S
∗
(X¯ 2
) n’y figurent plus. Apparaissent par contre une
régressande y et sa projection orthogonale sur X au point Xˆ ≡ X(βˆ). Notons
que puisque S
∗
(Xˆ ) est tangent à X en βˆ, y − xˆ doit être orthogonal à S
∗
(Xˆ )
ainsi qu’à X au point Xˆ, ce que réclament précisément les conditions du premier
ordre. Comme sur cette figure la fonction de régression x(β), et par

conséquent la variété X, est légèrement non linéaire, n’y a qu’un seul point Xˆ
pour lequel les conditions du premier ordre sont satisfaites. Il est clair d’après
la figure que y ne peut être projetée orthogonalement sur X qu’en Xˆ et en
aucun autre point.
Par contraste, examinons la Figure 2.4. Sur cette figure, la variété est
hautement non linéaire, et nous obtenons trois points Xˆ, X
, et X
00 (correspon-
dant respectivement à βˆ, β
, et β
00), pour lesquels les conditions du premier
ordre sont satisfaites. Pour chacun de ces trois points, que l’on exprime sous
forme générique par la notation X¯, y −x¯ forme un angle droit avec X¯, et donc
aussi avec S
∗
(X¯ ). Quoi qu’il en soit, dans ce cas, Xˆ correspond à l’évidence
à un minimum global, X
00 à un minimum local, et X
à un maximum local
de SSR(β). Ainsi, nous avons une occasion supplémentaire de constater que
lorsqu’un point satisfait les conditions du premier ordre, il ne correspond pas
pour autant à une estimation NLS.
Il ne fait aucun doute d’après ces figures que le degré de non linéarité de la
fonction de régression x(β) est crucial. Lorsque x(β) est quasiment linéaire,
les moindres carrés non linéaires sont très similaires aux moindres carrés ordinaires.
Lorsqu’au contraire, x(β) revêt un caractère non linéaire très marqué,
toutes sortes de phénomènes étranges peuvent survenir. La Figure 2.4 fait

simplement allusion à cette dernière remarque, puisqu’il y a plusieurs fa¸cons
différentes pour des valeurs multiples de β de satisfaire les conditions du premier
ordre (2.05) lorsque X correspond à une variété hautement non linéaire.
...
...
...
..
...
...
....................................
.....................................
.....................................
...................................
....................................
..............
.
..........
Xˆ
00
Figure 2.4 Une variété hautement non linéaire
2.3 Identification dans les Modeles non Lin ` eaires ´
Pour réussir pleinement la minimisation de SSR(β), il est nécessaire d’avoir
un modèle identifié. L’identification évoque un concept géométrique simple
qui s’applique à une variété très large de modèles et de techniques
d’estimation. Malheureusement, le terme identification a été associé dans
l’esprit de plusieurs étudiants en économétrie à l’algèbre fastidieuse du modèle
d’équations linéaires simultanées. L’identification est en fait un résultat pour
de tels modèles, et il existe quelques problèmes particuliers qui apparaissent
2.3 Identification dans les Modeles non Lin ` eaires ´ 53
..
..
..
..
..
..
...
.....................................................................................................................................................
......................................................................................... . .
β1
β2
βˆ
←− Courbes de niveau de SSR(β)
Figure 2.5 Minimum identifié d’une fonction somme des carrés
à leur sujet (consulter les Chapitres 7 et 18), mais il s’agit un concept qui
s’applique à tout modèle économétrique. Pour l’essentiel, un modèle de moindres
carrés non linéaires est identifié par un ensemble d’informations donné
si, pour cet ensemble de données, il est possible de trouver un βˆ unique qui
minimise SSR(β). Si le modèle n’est pas identifié par les données utilisées,
il existera plus d’un βˆ, et peut-être un nombre infini d’entre eux. Certains
modèles peuvent n’être identifiés par aucun ensemble concevable de données,
alors que d’autres peuvent être identifiés par quelques ensembles de données,
mais pas par tous.
On distingue deux sortes d’identifications, l’identification locale et l’identification
globale. Les estimations βˆ des moindres carrés seront identifiées
localement si pour toute modification légère de βˆ, la valeur de SSR(β) s’élève.
On peut établir cette définition de fa¸con formelle comme la nécessité d’avoir
une fonction SSR(β) strictement convexe en βˆ, de sorte que
SSR(βˆ) < SSR(βˆ + δ)
pour une “petite” variation δ. Souvenons-nous que la convexité stricte est
vérifiée si la matrice Hessienne H(β), dont l’élément type est
Hij (β) ≡
SSR(β)
∂βi∂βj
,
est définie positive en βˆ. La stricte convexité implique que SSR(β) soit incurvée
dans toutes les directions; aucun plat n’est autorisé quelle que soit la
direction. Si SSR(β) était plate dans une direction au voisinage de βˆ, il serait
possible de s’éloigner de βˆ dans cette direction sans jamais modifier la valeur
de la somme des résidus au carré (rappelons-nous que les dérivées premières de
SSR(β) sont nulles en βˆ, de sorte que SSR(β) doit être égale à SSR(βˆ) en tout
..
..
..
..
..
..
..
..
.....................................................................................................................................................
......................................................................................... . .
β1
β2
Courbes de niveau de SSR(β)
. ........................................
...............................................................................
. ..............................................................................
Figure 2.6 Minimum non identifié d’une fonction somme des carrés
point de cette région). Par conséquent βˆ ne serait pas l’unique estimateur
NLS, mais au plus un des points parmi le nombre infini de ceux qui minimisent
tous SSR(β). La Figure 2.5 illustre les courbes de niveau de SSR(β)
pour le cas habituel où βˆ correspond à un minimum local unique, alors que
la Figure 2.6 les représente pour le cas où le modèle n’est pas identifié, parce
que tous les points le long de la ligne AB minimisent SSR(β).
L’identification locale est nécessaire mais non suffisante pour nous fournir
une estimation βˆ unique. Une condition plus générale est l’identification globale,
que l’on établit formellement par
SSR(βˆ) < SSR(β
∗
) pour tout β
∗
6= βˆ.
Cette définition de l’identification globale reste, à vrai dire, une simple reformulation
de la condition d’obtenir un βˆ unique qui minimise SSR(βˆ). Remarquons
que même si un modèle est identifié localement, il est toujours possible
qu’il y ait deux (ou davantage) estimations distinctes, soit βˆ1
et βˆ2
, avec
SSR(βˆ1
) = SSR(βˆ2
). A titre d’exemple, examinons le modèle
yt = βγ + γ
zt + ut. (2.06)
Il apparaˆıt clairement que si (β, ˆ γˆ) minimise la SSR pour ce modèle, (−β, ˆ −γˆ)
en fera autant. Donc le modèle est globalement non identifié par quelque
ensemble de données que ce soit, bien que les conditions du premier ordre
et du second ordre soient satisfaites aux deux minima. Cet exemple peut
paraˆıtre simpliste à première vue, mais le même phénomène apparaˆıt souvent
dans de nombreux modèles utilisés par les économistes. Un exemple se trouve
être celui des modèles de séries temporelles avec une composante d’erreur à
moyenne mobile; consulter le Chapitre 10.
2.3 Identification dans les Modeles non Lin ` eaires ´ 55
..
...
..
..
....
..
..
...
...
.....................................................................................................................................................
.....................................................................................................................................................
................................................
.
.
.....................................................................................................................................................
.....................................................................
SSR(β)
βˆ β
βˆ2
Figure 2.7 Cas où β est localement identifié mais non globalement
La Figure 2.7 illustre ce que peut donner la fonction somme des carrés
pour un modèle qui est localement mais non globalement identifié dans le sens
donné précédemment. La fonction somme-des-carrés ne possède qu’un seul
argument, β, et elle est symétrique par rapport à l’origine de β. Le minimum
de SSR est donc atteint en β
et en β
. Chacune des estimations potentielles
est identifiée localement, mais le modèle n’est pas identifié globalement.

Il est aussi envisageable d’avoir un modèle globalement identifié, sans
pour autant que la condition d’identification locale, impliquant que la matrice
Hessienne est définie positive, soit satisfaite, pour certaines valeurs particulières
de βˆ. Ce genre de lacune d’identification ne pose pas de difficulté si
la valeur réalisée βˆ se situe assez loin de ces valeurs particulières, et nous
parvenons à la calculer, mais il rend difficile l’estimation du modèle. A titre
d’exemple, considérons la fonction de régression
xt(β) = β1 + β2z
β3
. (2.07)
Il est évident qu’un modèle incorporant cette fonction de régression ne sera
pas identifié lorsque βˆ
2 = 0, car β3 n’aura alors aucun effet sur la valeur de
xt(β) et par là, aucun effet sur SSR(β). En conséquence, n’importe quelle
valeur de β3 conviendrait pour βˆ
3. De fa¸con similaire, le modèle sera non
identifié si βˆ
3 = 0, car alors z
β3
et la constante ne pourront être distinguées.
Mais parce que βˆ
2 ou βˆ
3 ne seront nulles que pour des ensembles de données
peu communs, ce modèle sera en réalité identifié par tous les ensembles de
données, exception faite de ces ensembles inhabituels.
La fonction de régression (2.07) sert à illustrer un phénomène qu’il est
plus fréquent de rencontrer en pratique que les modèles non identifiés, c’est-àdire
des modèles qui sont insuffisamment identifiés. Un modèle insuffisamment
identifié correspond à un modèle pour lequel la matrice Hessienne H(β) n’est

pas véritablement singulière, mais qui devient presque singulière pour des
valeurs de β proches de βˆ. Ces valeurs de β sont celles qui nous préoccupent
le plus, puisque l’algorithme de minimisation les rencontrera lorsqu’il essaiera
de minimiser SSR(β). Bien que SSR(β) ne soit pas réellement plate pour
un modèle insuffisamment identifié, elle est quasiment plate, et ceci pourrait
causer quelques problèmes à l’algorithme avec lequel on tente de minimiser
SSR(β). Dans le contexte des modèles de régression linéaire, ce phénomène
correspond à la colinéarité ou multicolinéarité (bien que le préfixe du second
terme soit redondant), et il se révèle en rendant la matrice X>X presque
singulière.
La continuité de la fonction de régression implique qu’un modèle qui
incorpore la fonction de régression (2.07) sera insuffisamment identifié s’il
arrive que la vraie valeur de β2 ou de β3 soit assez proche de zéro, mais pas
véritablement égale. En réalité, il y a de fortes chances pour qu’il soit mal
identifié même pour des valeurs de ces paramètres très différentes de zéro,
car pour la grande majorité des ensembles de données de zt, la Hessienne
de ce modèle sera presque singulière. Ainsi que nous le démontrerons au
Chapitre 5, la Hessienne H(β) pour les modèles de régression non linéaire,
pour des valeurs β proches de βˆ, est généralement assez bien approximée par
la matrice
2X>(β)X(β).
Pour la fonction de régression (2.07), la ligne t de la matrice X(β) est
1z
β3
β2z
β3
log (zt)
¤
La troisième colonne de X(β) est ainsi similaire à la deuxième, chaque élément
de celle-ci multiplié par une constante et log(zt) étant égal à l’élément correspondant
de la troisième colonne. A moins que l’étendue des valeurs de
zt ne soit très grande, ou qu’il y ait quelques valeurs de zt très proches de
zéro, z
β3
et β2z
β3
log (zt) tendront à être fortement corrélées, rendant la matrice
X>(β)X(β), et par là la Hessienne dans la plupart des cas, presque
singulière. Cet exemple sera examiné en détail dans le Chapitre 6.
Les concepts d’identification locale et globale dont nous venons de discuter
diffèrent quelque peu des concepts correspondants d’identification
asymptotique, que nous verrons au Chapitre 5. Un modèle est identifié asymptotiquement
aussi bien localement que globalement si, lorsque la taille n de
l’échantillon tend vers l’infini, le modèle est toujours identifié selon la signifi-
cation que nous avons donnée. Il s’agit davantage d’une propriété du modèle
et de la fa¸con dont les données ont été générées (consulter la Section 2.4 pour
une discussion sur les processus générateurs de données) qu’une propriété
du modèle et d’un ensemble de données. Comme nous le verrons au cours du
Chapitre 5, il est fort possible d’avoir un modèle identifié avec des échantillons
finis d’à peu près n’importe quel ensemble de données et pourtant non identifié
asymptotiquement; et il est tout aussi envisageable d’avoir un modèle
identifié asymptotiquement et non identifié par les nombreux ensembles de
données dont on dispose.
2.4 Modeles et Processus G ` en´ erateurs de Donn ´ ees ´ 57
2.4 Modeles et Processus G ` en´ erateurs de Donn ´ ees ´

En économie, rares sont les situations où une relation telle que (2.01) représente
réellement la fa¸con dont la variable dépendante est générée, telle qu’elle
le serait si xt(β) était une fonction de réponse à un phénomène physique, et
ut les erreurs de mesure de yt. Au lieu de cela, elle correspond souvent à une
fa¸con de modéliser les variations de yt causées par les valeurs de certaines
variables. Celles-ci peuvent être les seules variables qui soient renseignées,
ou celles qui nous intéressent pour un usage particulier. Si nous disposions
de davantage d’informations sur les variables explicatives potentielles, nous
pourrions fort bien spécifier des xt(β) différentes en utilisant l’information
additionnelle.
Il est quelquefois souhaitable de rendre explicite le fait que xt(β) représente
l’espérance conditionnelle de yt, c’est-à-dire l’espérance de yt dépendant
des valeurs d’une quantité d’autres variables. On appelle souvent l’ensemble
des variables qui conditionne yt l’ensemble d’informations. Si l’on note Ωt
l’ensemble d’informations qui conditionne la valeur attendue de yt, on pourrait
définir xt(β) formellement par E(yt | Ωt). Il est possible d’avoir plus d’un
ensemble d’informations de ce genre, et donc simultanément
x1t(β1) ≡ E(yt | Ω1t) et x2t(β2) ≡ E(yt | Ω2t),
où Ω1t et Ω2t représentent les deux ensembles d’informations. Les fonctions
x1t(β1) et x2t(β1) peuvent différer fortement, et on pourrait vouloir les estimer
ensemble à des fins différentes. Il existe plusieurs circonstances pour lesquelles
on ne désire pas faire dépendre yt de toutes les informations disponibles.
Par exemple, si l’on spécifie une fonction de régression dans le but ultime
de réaliser des prévisions, il n’y a pas de raison de faire dépendre yt des
informations qui ne sont pas disponibles pour la période pour laquelle on
effectue la prévision. Même lorsque l’on désire intégrer toutes les informations
disponibles, le fait qu’une variable particulière appartienne à Ωt n’implique pas
qu’elle apparaˆıtra dans xt(β), dès lors que sa valeur ne nous renseigne pas sur
l’espérance conditionnelle de yt, et l’introduire peut amoindrir notre capacité
à estimer l’impact des autres variables sur cette espérance conditionnelle.
Pour toute variable dépendante yt donnée et tout ensemble d’informations

Ωt, il est toujours possible d’interpréter la différence yt − E(yt | Ωt) comme
l’aléa associé à l’observation t. Mais pour qu’un modèle de régression soit
opérationnel, ces différences doivent généralement avoir la propriété d’être
i.i.d.. En fait, il est envisageable, lorsque la taille de l’échantillon est importante,
de traiter des cas où les aléas sont indépendants, identiquement
distribués uniquement à l’égard des espérances, mais pas forcément à l’égard
des variances. Nous discuterons des techniques de traitement de tels cas dans
les Chapitres 16 et 17, et dans ce dernier nous abandonnerons l’hypothèse
d’indépendance. Comme nous le découvrirons au Chapitre 3 cependant,
les techniques conventionnelles pour pratiquer des inférences à partir des
modèles de régression sont sujettes à caution lorsque la propriété d’i.i.d. fait
défaut aux modèles, même lorsque la fonction de régression xt(β) est “correctement”
spécifiée. Ainsi, nous perdons toute liberté dans le choix arbitraire
de l’ensemble d’informations et dans l’estimation d’une fonction de
régression définie et basée sur cet ensemble lorsque nous désirons procéder
à des inférences à partir des procédures conventionnelles.
Il existe malgré tout des cas exceptionnels pour lesquels on peut choisir
n’importe quel ensemble d’informations, car les modèles établis sur les différents
ensembles d’informations seront toujours mutuellement cohérents. Par
exemple, supposons que le vecteur composé des yt et de chaque xit (xit allant
de x1t à xmt) est indépendant et identiquement distribué suivant la loi normale
multivariée. Alors si x
∗
t
représente un vecteur composé de n’importe quel sousensemble
d’éléments allant de x1t à xmt, on peut encore écrire
yt = β
∗
0+x
∗
tβ
∗ + ut, ut ∼ NID(0, σ2
∗
), (2.08)
où la notation “ut ∼ NID(0, σ2
∗
)” est un moyen simple de dire que les ut sont
normalement et indépendamment distribués, ou n.i.d., avec une espérance
nulle et une variance égale à σ
∗
. Ceci est vrai pour tout sous-ensemble composé
de xit car toute combinaison linéaire de variables suivant la loi normale
multivariée, est elle-même normalement distribuée. Ainsi l’aléa ut défini de
manière implicite dans (2.08) sera normalement et indépendamment distribué
et sans considération des xit que l’on introduit dans x
∗
t
, et l’on peut toujours
choisir β
∗
0
convenablement de fa¸con à rendre son espérance nulle. Ceci est vrai
même si x
∗
t
est un vecteur nul, puisque (2.08) ne fait que traduire l’idée selon
laquelle yt est égale à son espérance, plus une variable aléatoire ut qui est n.i.d.
avec une espérance nulle, et yt est elle-même normalement distribuée. Pour
plus de détails sur ces considérations et sur d’autres cas particuliers, et pour
un traitement plus approfondi sur l’interprétation des modèles de régression,

consulter Spanos (1986).
Un modèle tel que (2.01) devrait être distingué d’un processus générateur
de données, ou DGP, tel que
yt = xt(β0) + ut, ut ∼ NID(0, σ2
), t = 1, . . . , n. (2.09)
Un modèle de régression tel que (2.01) spécifie que l’espérance de yt conditionnée
par un ensemble défini de variables Zt est une fonction donnée de Zt
et des paramètres (généralement inconnus) β, et que les yt sont mutuellement
indépendants et ont la même variance autour de leur espérance conditionnelle.
D’autre part, un DGP est une caractérisation complète des propriétés
statistiques de la variable dépendante. Si le DGP est connu, alors aussi bien
les valeurs de tous les paramètres que les distributions de toutes les quantités
aléatoires doivent être précisées.
Ainsi émergent deux différences fondamentales entre le modèle (2.01) et
le DGP (2.09). Le premier implique un vecteur inconnu de coefficients β, alors
2.4 Modeles et Processus G ` en´ erateurs de Donn ´ ees ´ 59
que l’autre fait référence à un vecteur de coefficients bien défini β0, qui serait
connu si l’on connaissait le DGP. Les aléas ut du modèle sont simplement
définis comme indépendants et identiquement distribués, avec une espérance
nulle et une variance inconnue égale à σ
, alors que les aléas du DGP sont
normalement et indépendamment distribués avec une variance connue σ
, qui
nous permet de générer une série de ut si nous le désirons. Bien évidemment,
nous aurions également pu préciser un DGP avec des erreurs qui suivent une
distribution autre que la normale; ce qui importe réellement, c’est que la
distribution soit spécifiée complètement. D’autre part, nous pouvons être

intéressés par ce qui se passe avec la famille entière des DGP, et dans de tels
cas une spécification totale n’est pas appropriée.
Un modèle peut ainsi être imaginé comme un ensemble de DGP. Lors
du processus d’estimation du modèle, ce que nous essayons d’obtenir, c’est
une caractérisation estimée du DGP qui a réellement généré les données; dans
le cas du modèle de régression non linéaire (2.01) la caractérisation désirée
consiste en un ensemble de paramètres estimés, c’est-à-dire, des estimations
des paramètres inconnus β de la fonction de régression, ainsi qu’une estimation
de la variance des erreurs, σ
. Mais puisque dans une régression non linéaire
seules l’espérance et la variance des erreurs sont précisées, la caractérisation
du DGP obtenue par l’estimation du modèle est partielle ou incomplète. Plus
tard, dans le Chapitre 8, nous discuterons d’une autre méthode d’estimation,
celle du maximum de vraisemblance, qui offre une caractérisation complète
du DGP après estimation. Ainsi, on peut dire que cette méthode produit un
unique DGP estimé, alors que toute méthode adoptée pour estimer un modèle
de régression non linéaire produit un ensemble de DGP, qui satisfont tous la
caractérisation estimée.
Cet ensemble de DGP, ou l’unique DGP estimé lorsque ce sera le cas, appartient
évidemment à l’ensemble des DGP défini par le modèle. L’estimation
statistique peut donc être considérée comme une procédure avec laquelle on
sélectionne un sous-ensemble de DGP à partir d’un ensemble donné de DGP.
Cette sélection est bien sûr une procédure aléatoire, puisqu’un seul DGP
appartenant au modèle peut générer des ensembles différents d’observations
aléatoires qui entraˆınent des caractérisations aléatoires estimées différentes. Il
est ensuite possible de disserter sur la probabilité, pour un DGP donné, que la
caractérisation soit proche, dans un certain sens, du DGP lui-même. On peut
alors classer ces différentes procédures d’estimation selon ces probabilités, et
nous préférerons généralement des procédures d’estimation efficaces, c’est-àdire
celles pour lesquelles la probabilité que le sous-ensemble sélectionné soit

proche du DGP est la plus forte, toujours sous l’hypothèse que le DGP appartient
réellement au modèle.
Il nous est impossible de dire quoi que ce soit d’intéressant à propos des
propriétés statistiques des estimateurs et des statistiques de test sans préciser
à la fois le modèle et le processus qui a généré les données. En pratique bien
sûr, nous ne connaissons presque jamais le DGP, sauf si nous procédons à
une expérience Monte Carlo au cours de laquelle nous avons le privilège de
générer nous-mêmes les données (consulter le Chapitre 21). Ainsi, lorsque
nous estimons des modèles, et à moins d’être extrêmement chanceux, nous
ne pouvons pas prétendre raisonnablement que le processus qui a réellement
généré les données est un cas particulier du modèle que nous avons estimé,
tel que (2.09) l’est de (2.01). Dans le cours que nous développons dans cet
ouvrage, nous supposerons néanmoins fréquemment que c’est en fait le cas
car il devient alors facile d’établir des résultats définitifs. Mais nous aurons
également l’occasion de traiter explicitement des situations où le DGP n’est
pas un cas particulier du modèle que l’on estime.
La structure additive du modèle de régression non linéaire permet de discuter
des deux parties qui composent le modèle séparément. Nous abordons
tout d’abord les fonctions de régression, qui déterminent l’espérance conditionnelle
de yt, et ensuite nous aborderons les aléas qui déterminent tous les
moments conditionnels d’ordre supérieur. Il est fondamental de se souvenir
que chaque fois que l’on estime un modèle comme (2.01), on fait, implicitement
ou explicitement, des hypothèses sur xt(β) et ut, qui sont généralement
assez fortes. Puisqu’il est impossible de faire usage des techniques standards
pour obtenir des inférences valides si ces hypothèses sont fausses, il est crucial
de bien les maˆıtriser et bien sûr, de les tester contre les valeurs calculées à
partir des données.
2.5 Fonctions de Regression Lin ´ eaires et Non Lin ´ eaires ´
La fonction de régression générale xt(β) peut être précisée par un grand nombre
de moyens. Il peut être très utile de considérer un certain nombre de cas

particuliers de fa¸con à avoir une idée de la variété des fonctions de régression
spécifiques qui sont le plus souvent utilisées dans la pratique.
La fonction de régression la plus simple est
xt(β) = β1ιt = β1, (2.10)
où ιt est l’élément t d’un vecteur dont les n composantes sont égales à l’unité.
Dans ce cas, le modèle (2.01) indique que l’espérance conditionnelle de yt est
tout simplement une constante. Bien que ce soit un exemple simpliste de
fonction de régression, puisque xt(β) est identique quel que soit t, il s’agit
néanmoins d’un bon exemple pour débuter, et que l’on doit garder à l’esprit.
Toutes les fonctions de régression sont tout simplement des versions de (2.10)
plus élaborées. Et toute fonction de régression qui ne s’ajuste pas aux données
au moins aussi bien que (2.10) devrait être considérée comme une bien mauvaise
fonction de régression.
La fonction qui est ensuite la plus simple est la fonction de régression
linéaire simple
xt(β) = β1 + β2zt, (2.11)
2.5 Fonctions de Regression Lin ´ eaires et Non Lin ´ eaires ´ 61
où zt est l’unique variable indépendante. En réalité, un modèle encore
plus simple consisterait à ne garder que la variable indépendante et à rejeter
le terme constant. Cependant, dans la majorité des problèmes appliqués,
cela n’a pas de sens d’omettre la constante. De nombreuses fonctions
de régression linéaires sont utilisées en tant qu’approximations des fonctions
inconnues d’espérance conditionnelle, et de telles approximations seront
rarement précises si elles sont contraintes de passer par l’origine. L’équation
(2.11) possède deux paramètres, une ordonnée à l’origine β1 et une pente β2.
Cette fonction est linéaire en ses deux variables (ιt et zt, ou tout simplement zt
si l’on décide de ne pas considérer ιt comme une variable) et en ses paramètres
(β1 et β2). Bien que ce modèle soit trop simple, il possède certains avantages.
Parce qu’il est très facile de grapher yt contre zt, on peut utiliser ce graphe
pour visualiser la fonction de régression, la fa¸con dont le modèle s’ajuste, et
si la relation linéaire décrit correctement les données. Mais lorsqu’un modèle

intègre plus d’une variable indépendante, visualiser les données de cette fa¸con
devient plus problématique, et donc moins habituel.
Une généralisation évidente de (2.11) est la fonction de régression linéaire
multiple
xt(β) = β1zt1 + β2zt2 + β3zt3 + · · · + βkztk, (2.12)
où les zti (zti allant de zt1 à ztk) sont les variables indépendantes, et zt1 peut
être un terme constant. Il aurait été possible de formuler cette fonction de
régression de fa¸con plus ramassée
xt(β) = Ztβ,
où Zt représente un vecteur de dimension 1 × k, et β désigne un vecteur de
dimension k × 1. Notons que (2.12) repose sur une hypothèse extrêmement
forte, c’est-à-dire celle que l’effet sur yt d’une modification d’une des variables
indépendantes est indépendant des valeurs de toutes les autres variables
indépendantes. Lorsque cette hypothèse est fausse, les modèles de régression
linéaire multiple peuvent sérieusement induire une erreur.
Puis vient tout un éventail de fonctions de régression ressemblant à
xt(β) = β1zt1 + β2zt2 + β3z
t2 + β4zt1zt2,
qui est linéaire en ses paramètres mais qui fait appel à des variables indépendantes
d’une manière non linéaire. Les modèles qui impliquent cette famille de
fonctions de régression peuvent être manipulés comme n’importe quel autre
modèle de régression linéaire, tout simplement en définissant de nouveaux
régresseurs de fa¸con appropriée. Ici, par exemple, on pourrait définir zt3
comme z
t2
et zt4 comme zt1zt2. En faisant usage de ce genre de fonction on
évite de subir les effets qui s’additionnent, comme l’implique (2.12), mais cela
nécessiterait sans doute d’estimer plus de paramètres qu’il ne serait utile en
pratique avec de nombreux ensembles de données. A cause de cela, et à moins

qu’il n’existe des raisons théoriques de s’attendre à ce que des puissances
ou des produits de variables indépendantes n’apparaissent dans la fonction
de régression, la plupart des économètres essaieront d’ignorer ce genre de
spécification en pratique.
Une fonction de régression qui permet à toutes les variables indépendantes
d’interagir sans recourir à l’estimation de paramètres supplémentaires
est la fonction multiplicative
xt(β) = e
β1
β2
t2
β3
t3
. (2.13)
Remarquons que cette fonction peut être évaluée uniquement lorsque zt2 et
zt3 sont positifs pour tout t. C’est la première véritable fonction de régression
non linéaire que nous rencontrons, puisqu’il est clair qu’elle n’est linéaire ni
en ses paramètres ni en ses variables. Cependant, un modèle non linéaire tel
que
yt = e
β1
β2
t2
β3
t3 + ut (2.14)
est très rarement estimé dans la pratique. La raison en est que l’hypothèse
d’aléas additifs et identiquement distribués est autant encombrante que peu
réaliste. Elle est peu réaliste car les zti sont multiplicatifs, ce qui implique que
leurs effets dépendent des niveaux que prennent toutes les valeurs des autres
variables, alors que les aléas sont additifs, ce qui rend leur effet indépendant
des niveaux des autres variables explicatives. Elle est encombrante car (2.14)
doit être estimée par moindres carrés non linéaires plutôt que par moindres
carrés linéaires.
Il est facile de modifier (2.14) de fa¸con à donner aux aléas une structure
multiplicative. Le modèle le plus évident que l’on peut alors formuler est
yt =
β1
β2
t2
β3
t3
(1 + vt) ≡ e
β1
β2
t2
β3
t3 + ut, (2.15)
où les perturbations 1 + vt, qui sont des quantités sans unité de mesure, sont
multiplicatives. Bien que les erreurs sous-jacentes vt soient i.i.d., les erreurs
additives ut sont maintenant proportionnelles à la fonction de régression. Si

le modèle s’ajuste relativement bien, les vt devraient être assez faibles (disons
inférieures à environ 0.05). Maintenant, souvenons-nous que e
w ∼= 1 + w
pour des valeurs de w proches de zéro. Par conséquent, pour des modèles qui
s’ajustent relativement bien, (2.15) sera très similaire au modèle
yt = e
β1
β2
t2
β3
t3
vt
. (2.16)
Supposons désormais que l’on passe en logarithme, de chaque côté de l’égalité.
Le résultat est
log(yt) = β1 + β2 log(zt2) + β3 log (zt3) + vt, (2.17)
qui est un modèle de régression linéaire. Il est évident que ce modèle, qui
est linéaire dans tous les paramètres et dans les logarithmes de toutes les
2.5 Fonctions de Regression Lin ´ eaires et Non Lin ´ eaires ´ 63
variables, sera plus facile à estimer que le modèle non linéaire (2.14). Les
arguments que l’on a développés plus tôt suggèrent que c’est, en tout cas, plus
plausible. Ainsi, il ne devrait pas être surprenant d’apprendre que les modèles
de régression log-linéaire, comme (2.17), sont très fréquemment estimés en
pratique, alors que les modèles multiplicatifs avec des aléas additifs comme
(2.14) ne le sont que très rarement.
Un modèle purement multiplicatif comme (2.16) peut être rendu linéaire
en passant en logarithme. Toutefois, un modèle qui mélange les deux structures,
multiplicative et additive, ne peut pas être transformé en un modèle

linéaire. Ainsi, peu importe la manière dont sont précisés les aléas; des
modèles qui intègrent des fonctions de régression du type
xt(β) = β1 + β2z
β3
t2 + β4zt3 et (2.18)
xt(β) = β1 + β2z
β3
t2
β4
t3
(2.19)
doivent nécessairement être estimés à l’aide des méthodes non linéaires.
Comme on devrait s’y attendre, de tels modèles ne sont pas estimés aussi
fréquemment que les modèles linéaires ou log-linéaires, d’une part parce que
la paresse nous y pousse sans doute, et d’autre part car il n’y a souvent pas
de raison, ni théorique ni empirique, qui nous permettent de choisir ce type
de spécification plutôt que les modèles conventionnels. En fait, les fonctions
de régression comme (2.18) et (2.19) sont d’une difficulté de traitement notoire,
car il est complexe d’estimer conjointement tous les paramètres avec
n’importe quel degré de précision. Souvenons-nous de la discussion à propos
du fait que les modèles fondés sur la fonction de régression (2.06), qui est très
similaire à celles-ci, sont le plus souvent insuffisamment identifiés.
L’ultime exemple d’une fonction de régression non linéaire que nous allons
aborder est très différent par rapport à (2.18). Considérons la fonction de
régression
xt(β) = β1 + β2(zt2 − β3zt3) + β4(zt4 − β3zt5). (2.20)
Cette fonction est linéaire en ses variables indépendantes ιt et zt2, zt3, zt4 et
zt5, mais elle est non linéaire en ses paramètres βi (allant de β1 à β4). Mais il
s’agit en réalité d’une fonction de régression linéaire avec une seule contrainte
non linéaire sur les coefficients. Pour apercevoir ceci, examinons la fonction
de régression linéaire non contrainte
xt(β) = γ1 + γ2zt2 + γ3zt3 + γ4zt4 + γ5zt5.
Si l’on impose la contrainte non linéaire
γ3
γ5
γ2
γ4
, (2.21)
et si l’on reparamétrise ensuite de fa¸con à ce que
β1 = γ1, β2 = γ2, β3 = −
γ5
γ4
, et β4 = γ4,
on obtient (2.20). Remarquons qu’il y a plusieurs manières équivalentes
d’écrire la contrainte (2.21), dont
γ3 =
γ2γ5
γ4
, γ2 =
γ3γ4
γ5
, et
γ2
γ3
γ4
γ5
Il s’agit d’un caractère typique des contraintes non linéaires que de pouvoir
être formulées de plusieurs fa¸cons différentes mais équivalentes, et par
conséquent, la fonction de régression peut être paramétrisée de différentes
fa¸cons.
On retrouve très fréquemment des fonctions de régression comme (2.20)
en économétrie. Elles apparaissent, par exemple, dans certains modèles avec
anticipations rationnelles — consulter Hoffman et Schmidt (1981) ou Gregory
et Veall (1985, 1987) — et dans les modèles avec corrélation en série (voir
Chapitre 10). De tels modèles ne sont pas particulièrement difficiles à estimer
en général, pourvu que les contraintes soient plus ou moins exactes.
2.6 Termes d’Alea´
Il existe deux éléments que l’on doit préciser lorsque l’on spécifie un modèle
de régression: la fonction de régression xt(β) et au moins quelques propriétés
des aléas ut. Nous avons déjà eu l’occasion de constater à quel point ces
dernières étaient importantes. En rajoutant les erreurs à variance constante à
la fonction de régression à structure multiplicative (2.13), nous avons obtenu
un modèle de régression véritablement non linéaire. Mais lorsque nous avons
appliqué des erreurs qui étaient proportionnelles à la fonction de régression,
comme dans (2.15), et fait usage de l’approximation e
w ∼= 1 + w, qui est une
approximation satisfaisante pour des petites valeurs de w, nous avons obtenu
un modèle de régression log-linéaire. Il devrait donc être clair à partir de cet
exemple, que la manière dont sont précisés les aléas aura un effet considérable
sur le modèle qui est réellement estimé.
Dans (2.01), nous avons défini les aléas comme indépendants, tous
d’espérance nulle et de variance égale à σ
, mais nous n’avons pas précisé
leur distribution. Même ces hypothèses sont quelquefois trop fortes. Elles excluent
toutes les sortes de dépendance à travers les observations, et toutes les
sortes de variation dans le temps ou avec les valeurs de n’importe quelle variable
indépendante. Elles excluent également des distributions où les queues

sont tellement épaisses que les aléas n’ont pas une variance finie. Une telle
distribution est la distribution de Cauchy. Une variable aléatoire qui suit une
distribution de Cauchy ne possède pas seulement une variance non finie, mais
aussi une espérance non finie. Consulter le Chapitre 4 et l’Annexe B.
Il existe plusieurs acceptions du terme indépendance dans la littérature
consacrée à la statistique et à l’économétrie. Deux variables aléatoires z1
et z2 sont dites aléatoirement indépendantes si leur fonction de répartition
2.6 Termes d’Alea´ 65
jointe F(z1, z2) est égale au produit de leurs deux fonctions de répartition
marginale respectives F(z1, ∞) et F(∞, z2). On appelle quelquefois cela
l’indépendance en probabilité, mais nous ferons usage du premier terme, plus
moderne. Certains auteurs écrivent que deux variables aléatoires z1 et z2 sont
linéairement indépendantes si E(z1z2) = E(z1)E(z2), une condition moins
forte, qui découle de l’indépendance stochastique, mais qui ne l’entraˆıne pas.
Cette terminologie est assez malvenue car le sens “linéairement indépendant”
ne s’accorde pas avec le sens habituel que l’on utilise en algèbre linéaire. Au
contraire, dans cette situation, on pourrait au plus dire que z1 et z2 sont non
corrélées, et possèdent une covariance nulle. Si z1, ou z2, est d’espérance nulle
et est non corrélée avec z2 (respectivement z1), alors E(z1z2) = 0. Il existe
un sens selon lequel z1 et z2 sont orthogonaux dans cette situation, et nous
utiliserons quelquefois cette terminologie.
Lorsque nous disons que les ut sont i.i.d., nous signifions par le premier “i”
que les ut sont aléatoirement indépendants. Cela implique que E(utus) = 0
pour tout t 6= s, mais également que E
h1(ut)h2(us)
= 0 pour toutes les
fonctions (mesurables) h1(·) et h2(·). Les aléas qui sont indépendants et
qui possèdent les mêmes espérances et variances sont quelquefois appelés
bruits blancs. Cette terminologie que l’on emprunte à la littérature scientifique,

se réfère au fait que, tout comme la lumière blanche est constituée
de quantités égales de rayonnements de toutes les parties du spectre visible,
les erreurs bruits blancs contiennent des quantités égales d’aléas de toutes
fréquences. De nombreuses définitions différentes des bruits blancs sont en
usage en économétrie et dans d’autres disciplines, et quelquefois, le terme est
employé dans un sens qui n’est pas strictement conforme à sa signification.
Remarquons l’importante distinction qu’il faut établir entre les aléas et les
résidus. Toute régression linéaire ou non linéaire génère un vecteur de résidus,
que cela ait un sens ou pas. Les résidus auront des propriétés qui résultent de la
fa¸con dont on les a obtenus, sans se préoccuper de la manière dont les données
ont été générées. Par exemple, les résidus OLS seront toujours orthogonaux
à tous les régresseurs, et les résidus NLS seront toujours orthogonaux à la
matrice Xˆ. D’un autre côté, les aléas ne sont pas observables (mais on peut
les estimer) et l’on doit formuler quelques hypothèses qui feront partie de
la définition du modèle. Il nous arrivera bien sûr de tester ces hypothèses,
et de le faire à l’aide de statistiques de tests dépendant des résidus que l’on
calculera.
Une grande partie de la littérature concernant la spécification et les tests
des modèles de régression est consacrée aux tests de transgression des hypothèses
d’erreurs i.i.d.. Lorsque de telles hypothèses ne sont pas bien vérifées,
il est encore possible de modifier le modèle avec des erreurs qui ne sont
pas i.i.d. en un modèle où les erreurs transformées le sont. Il se peut que
l’hypothèse d’indépendance, ou que l’hypothèse d’espérances et de variances
identiques, ou les deux simultanément, ne soient pas vérifiées. L’hypothèse
d’indépendance est quelquefois mise en défaut lorsque l’on travaille sur des
données chronologiques: les aléas successifs ut peuvent être corrélés entre
eux, faisant apparaˆıtre plus distinctement le phénomène de corrélation en
série. L’hypothèse de distributions identiques est souvent mise à mal lorsque
l’on travaille avec des données en coupe transversale: des ut différents peuvent
sembler provenir de la même famille de distribution mais ont des variances

différentes, et mettent en perspective le phénomène d’hétéroscédasticité.
Le terme opposé hétéroscédasticité est incidemment homoscédasticité. Si les
aléas possèdent une variance commune, on dit qu’ils sont homoscédastiques;
lorsque ce n’est pas le cas on dit qu’ils sont hétéroscédastiques. Bien sûr, la
corrélation des aléas à travers les observations n’est en rien une caractéristique
exclusive des données chronologiques, et l’hétéroscédasticité n’est en rien
une caractéristique exclusive des données en coupe transversale. Ces deux
phénomènes peuvent survenir avec tous les types d’ensembles de données,
mais malgré tout, on associe nécessairement la corrélation en série avec les
données chronologiques, et l’hétéroscédasticité est particulièrement fréquente
avec les données en coupe transversale.
Nous traiterons plus en détail la corrélation en série et l’hétéroscédasticité
dans les chapitres qui leur sont consacrés (tout particulièrement, les Chapitres
9, 10, 11 et 16). Pour l’instant, et à titre d’illustration, considérons une forme
simple d’hétéroscédasticité:
ut = wtvt, vt ∼ IID(0, σ2
),
où wt est une variable indépendante qui est toujours non nulle. Cette
spécification implique que ut possède une espérance nulle et une variance
égale à σ
vw
. Supposons désormais que la fonction de régression sur laquelle
on applique les erreurs ut soit
xt(β) = β1 + β2zt + β3wt.
Bien évidemment, on peut obtenir un modèle avec des erreurs i.i.d. en divisant
la variable dépendante et toutes les variables indépendantes, la constante
comprise par wt. Ce modèle modifié est

yt
wt
= β1
wt
+ β2
zt
wt
+ β3 + vt. (2.22)
Notons que les régresseurs sont désormais 1/wt, zt/wt, et une constante, mais
le coefficient de la constante est maintenant celui de wt dans le modèle originel,
alors que le coefficient 1/wt est la constante du modèle de départ. Ainsi il est
très facile d’éliminer l’hétéroscédasticité dans un cas pareil, mais il faut être
prudent en interprétant les coefficients du modèle transformé.
Au Chapitre 8, nous discuterons d’une hypothèse relativement forte que
l’on fait en économétrie, c’est-à-dire
ut ∼ NID(0, σ2
), t = 1, . . . , n,
qui précise que les ut sont normalement et indépendamment distribués avec
une espérance nulle et une variance égale à σ
. Ainsi chaque ut est supposé
obéir à la distribution normale dont la fonction de densité de probabilité est
f(ut) = 1
2π
expµ
−
u
2σ
La densité jointe du vecteur à n composantes u (dont l’élement type est ut)
est supposée être par conséquent
f(u) = Yn
t=1
f(ut) = µ
2π
¶n/2
expµ
2σ
Xn
t=1
Il existe trois raisons principales pour supposer la normalité. La première

d’entre elles est que grâce à leur facilité de calcul et à leurs propriétés
familières, on désire souvent faire usage des moindres carrés pour estimer
des modèles de régression, et la justification de cet usage est plus solide
lorsque les erreurs sont normalement distribuées que lorsque ce n’est pas le
cas. Comme nous le verrons au cours du Chapitre 8, les moindres carrés
appliqués à un modèle de régression disposent de propriétés asymptotiques
excellentes lorsque les erreurs sont normales, mais lorsque ces erreurs suivent
une autre distribution quelconque connue, leurs propriétés ne sont plus aussi
bonnes. La deuxième raison est que lorsque l’on suppose la normalité, on peut
obtenir le plus souvent des résultats plus solides que lorsque l’on suppose simplement
que les erreurs sont supposées être i.i.d.. En particulier, pour les
modèles de régression linéaire avec régresseurs fixés et erreurs normales, nous
pouvons obtenir des résultats exacts avec des échantillons finis (consulter le
Chapitre 3); de tels résultats ne sont même pas disponibles pour des modèles
linéaires quand les erreurs sont simplement supposées être i.i.d.. La troisième
raison est que lorsque l’on quitte le domaine des modèles de régression pour
essayer de traiter des modèles non linéaires plus généraux, il devient souvent
nécessaire de faire des hypothèses sur la distribution, et la distribution
normale est bien souvent la plus pratique à utiliser.
Aucune de ces raisons pratiques de supposer que les aléas sont normalement
distribués n’offre une quelconque justification pour formuler une telle hypothèse.
L’argument usuel est que les aléas représentent les effets combinés de
nombreuses variables que l’on a oubliées, et les nombreuses erreurs de mesure.
Les Théorèmes de la Limite Centrale (que nous verrons au Chapitre 4) nous
affirment que, très grossièrement, lorsque l’on établit la moyenne d’un grand
nombre de variables aléatoires, la moyenne obtenue est approximativement
normalement distribuée, en rapport plus ou moins fidèle avec les distributions
des variables aléatoires originelles. L’argument habituel est que l’hypothèse
de normalité a du sens parce que nous pouvons penser que les aléas dans les
modèles de régression sont ainsi en moyenne.

Il y a au moins deux problèmes avec ce genre d’argument. Premièrement,
comme nous le verrons au Chapitre 4, les théorèmes de la limite centrale
nécessitent des hypothèses relativement fortes. Ils s’appliquent à des situations
où l’on fait la moyenne de plusieurs variables aléatoires, dont aucune
n’est “grande” par rapport à toutes les autres. Il est aisé de penser à des variables
économiques qui peuvent être omises dans les modèles de régression, et qui
constituent donc une partie des aléas, mais qui seraient peut-être relativement
importantes par rapport à ces aléas. Dans le cas de modèles chronologiques,
des grèves, des élections ou d’autres événements politiques, et des tempêtes
ou d’autres conditions climatiques extrêmes sont quelques exemples qui nous
viennent à l’esprit. Il n’existe sans doute aucune raison a priori de s’attendre
à ce que les effets de tels événements ne soient responsables que d’une petite
partie de l’erreur globale pour toute observation donnée. Dans le cas
des modèles à coupe transversale, l’argument de normalité est probablement
moins pesant. Lorsque nous disposons d’un échantillon important d’individus
ou d’entreprises, nous devons constater que quelques observations comprises
dans l’échantillon ne doivent pas s’y trouver en réalité. Considérons, par exemple,
l’effet sur un modèle en coupe transversale de la demande de viande
d’un petit nombre d’individus végétariens! Inévitablement, les erreurs associées
à ces observations particulières seront élevées, de sorte qu’il est peu
probable que la distribution des aléas pour le modèle tout entier soit normale.
Le second problème avec l’argument du théorème de la limite centrale est
que beaucoup de théorèmes de la limite centrale ne s’appliquent pas lorsque le
nombre de variables aléatoires dont on fait la moyenne est lui-même aléatoire.
Mais puisque nous ne savons pas quelles variables ont été omises et rejetées
dans les aléas, nous n’avons aucune raison d’imaginer que leur nombre est le
même d’observation en observation! Alors on ne peut pas toujours invoquer
légitimement un théorème de la limite centrale.
Ces arguments ne doivent pas suggérer qu’il est idiot de supposer la
normalité. Mais que nous ayons supposé ou pas la normalité ne nous empêche
pas de voir si oui ou non les aléas sont en réalité approximativement normaux.
Si ils ne sont pas approximativement normaux, alors la sagesse nous conseille
de remettre en question l’usage des moindres carrés. Il existe, bien sûr, un
nombre infini de distributions non normales, et donc un nombre infini de types
de non normalité à examiner. Cependant, la grande majorité des tests de non
normalité mettent l’accent sur deux propriétés de la distribution normale. Si
ε ∼ N(µ, σ2
), alors
(ε − µ)
= 0 et (2.23)
(ε − µ)
= 3σ
. (2.24)
L’expression (2.23) nous renseigne que pour la distribution normale, le troisième
moment centré (c’est-à-dire, le moment centré autour de l’espérance)
est nul. Ce moment est fréquemment utilisé pour mesurer l’asymétrie. Positif,
il indique que la distribution est biaisée à droite; négatif, il indique que
−4 −3 −2 −1 0 1 2 3 4
0.0
0.1
0.2
0.3
0.4
0.5
...................
.
.
.....
.
.
.
.
...
.........
...................
....
..............
...
..............................
...
.
.
................
..
.
.
.
.
..
..
....
....
..
...
...............................................
...
.
.
.. ........
...
.
.
......
..
..
..
...
....
....
.....
......
.......
.........
..............
.................
Asymétrie à droite →
← Asymétrie à gauche
Figure 2.8 Distributions asymétriques
la distribution est biaisée à gauche. La Figure 2.8 illustre deux distributions
asymétriques, et, pour comparer une distribution symétrique. Les tests
d’asymétrie sont relativement aisés; ils seront traités dans le chapitre 16.
L’expression (2.24) nous indique que le quatrième moment centré d’une
variable aléatoire normale est égale à trois fois le carré de sa variance. Une variable
aléatoire dont le quatrième moment est plus élevé que trois fois le carré
de son deuxième moment possède des queues de distribution plus épaisses
qu’une variable aléatoire qui suit une distribution normale. On dit quelquefois
qu’il fait état de l’excès de kurtosis ou que la distribution est leptokurtique.
Au contraire, lorsqu’une variable aléatoire à un quatrième moment
inférieur à trois fois le carré de son second moment, elle possède des queues de
distribution plus fines qu’une variable aléatoire distribuée normalement. De
telles variables aléatoires sont dites platykurtiques. De fa¸con similaire, on dit
souvent des variables aléatoires qui suivent la distribution normale qu’elles
sont mésokurtiques. Les lecteurs qui ont quelques notions de Grec pourraient
penser que ces définitions sont erronées, puisque lepto signifie fin et platy signifie
épais. Comme l’expliquent Kendall et Stuart (1977, p. 88), ces termes
étaient à l’origine destinés à caractériser les parties centrales des distributions
et non les queues de distribution; ainsi les distributions leptokurtiques sont
ainsi nommées non pas parce qu’elles ont des queues de distributions épaisses
mais parce qu’elles ont des parties centrales (relativement) minces, et les distributions
platykurtiques sont ainsi nommées non pas à cause de leurs queues
de distribution fines parce qu’elles ont des parties centrales (relativement)
épaisses. Toutefois, ce sont aux queues de distribution auxquelles se réfèrent
les statisticiens contemporains en employant ces termes. La Figure 2.9 illustre

−4 −3 −2 −1 0 1 2 3 4
0.0
0.1
0.2
0.3
0.4
0.5
...................
.
.
.....
.
.
.
.
...
......................
...................
...............................................................
........
.... ..
........
.
.
........
............................................................
.................................................................................
.................
........
..................................................
........
.......................................................................
← Leptokurtique
← Platykurtique
Figure 2.9 Distributions leptokurtique et platykurtique
des distributions leptokurtiques et platykurtiques. A titre de comparaison, la
distribution normale standard a également été représentée (en pointillé).
Les queues de distribution fines ne représentent pas vraiment un problème
(et ne sont pas non plus très fréquentes), mais les queues de distribution
épaisses peuvent causer de graves difficultés pour l’estimation et l’inférence.
Si les aléas suivent une distribution dont les queues de distribution sont plus
épaisses que celles de la distribution normale, alors des erreurs importantes
inhabituelles surviendront relativement souvent. La procédure des moindres
carrés donne un grand poids à ces erreurs importantes, et peut donc entrainer
des estimations des paramètres inefficaces.
Il est assez facile de tester l’excès de kurtosis; voir Chapitre 16. Cependant,
ce qu’il faut faire si l’on trouve un excès de kurtosis substantiel, n’est
pas clairement établi. L’hétéroscédasticité peut conduire à l’apparence de
kurtosis, comme le ferait une fonction de régression incorrectement spécifiée,
de sorte qu’il serait souhaitable d’examiner la spécification du modèle. Si
l’on est confiant dans la spécification de la fonction de régression et qu’il n’y
a pas d’hétéroscédasticité, alors il serait sûrement plus sage de considérer
d’autres méthodes que les moindres carrés. Il existe une littérature importante
consacrée à ce que les statisticiens appellent des méthodes d’estimations
“robustes”, qui donnent un poids plus faible aux valeurs détachées que les
moindres carrés; consulter Krasker, Kuh, et Welsch(1983) pour une revue de
littérature. De manière alternative, on pourrait postuler d’autres distributions
que la normale qui possèderait des queues de distribution plus épaisses,
puis faire usage de la méthode du maximum de vraisemblance, dont nous
discuterons en détail au cours du Chapitre 8 et des chapitres suivants.
Termes et Concepts 71
2.7 Conclusion
Ce chapitre nous a donné une introduction non rigoureuse aux modèles de
régression non linéaire, mettant l’accent sur des concepts fondamentaux tels
que la géométrie de la régression non linéaire. Les ouvrages qui offrent un

traitement plus rigoureux sont ceux de Gallant (1987), Bates et Watts (1988),
et Seber et Wild (1989). Le prochain chapitre traite de la fa¸con d’opérer des
inférences à partir de modèles de régression non linéaire et introduit les idées
de base des tests d’hypothèses pour de tels modèles. La prochaine étape devra
offrir un traitement des propriétés asymptotiques des moindres carrés non
linéaires, et cela sera l’objet des Chapitres 4 et 5. Puis le Chapitre 6 examinera
une régression linéaire “artificielle” de Gauss-Newton que l’on associe à tout
modèle de régression non linéaire. Cette régression artificielle s’avèrera très
utile pour toute une variété d’usages, dont le calcul des estimations NLS et le
calcul des statistiques de test.
Termes et Concepts
aléas
algorithme de minimisation
bruit blanc
colinéarité
corrélation en série
distribution normale
données chronologiques
données en coupe transversale
ensemble d’informations
fonction somme des carrés
hétéroscédasticité
homoscédasticité
identification: globale et locale
indépendance: stochastique et linéaire
kurtosis: leptokurtique, mésokurtique,
platykurtique, excès de kurtosis
minima: locaux et globaux
modèle: ensemble de DGP
modèles de régression: linéaire et non
linéaire, multivariée et univariée

moindres carrés non linéaires
moments centrés
moyenne conditionnelle
multicolinéarité
asymétrie
processus générateur de données
(DGP); relation avec les modèles
restrictions non linéaires
résultats asymptotiques
Théorèmes de la Limite Centrale
variables aléatoires indépendantes et
identiquement distribuées (i.i.d.)
variables dépendantes et
indépendantes
variance d’erreur

Chapitre 2

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 2

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 2

Modèles de Régression non Linéaire et

les Moindres Carr´es non Lin´eaires

Dans le Chapitre 1, nous avons discuté en détail de la géométrie des moindres

carrés ordinaires et de leurs propriétés en tant que système de calcul. Ce

matériau est important car de nombreux modèles statistiques communément

ceux-ci, nous trouvons le type de modèle le plus communément rencontré

en économétrie, c’est-à-dire la classe des modèles de régression, dont nous

entamons l’étude dès à présent. Au lieu de nous restreindre volontairement

carrés non linéaires, ou NLS. Parfois, nous traiterons de manière spécifique

modèles ne se généralisent pas au cas non linéaire.

Au cours de ce chapitre et des quelques chapitres suivants consacr´es

aux mod`eles de r´egression, nous porterons notre attention principalement sur

les modèles multivariés dans lesquels on trouve plusieurs variables dépendantes

jointes. Les modèles univariés sont de loin plus fréquemment rencontrés

en pratique que les modèles multivariés, et une bonne compréhension des

d´emontrerons au Chapitre 9 qu’il est simple de rendre compatibles les r´esultats

des modèles univariés aux modèles multivariés.

Nous commen¸cons par écrire le modèle de régression linéaire univariée

sous sa forme g´en´erique:

yt = xt(β) + ut, ut ∼ IID(0, σ2

une variable aléatoire scalaire, et β désigne un vecteur à k composantes de

46 Les Moindres Carres non Lin ´ eaires ´

paramètres (généralement) inconnus. La fonction scalaire xt(β) est une fonction

de régression (le plus souvent non linéaire) qui détermine l’espérance de

yt conditionnelle à β et (généralement) à certaines variables indépendantes.

comme l’esp´erance de yt conditionnelle aux valeurs de ces variables

indépendantes. De manière plus précise, comme nous aurons l’occasion de le

`a un ensemble d’informations auxquels appartiennent ces variables

Dans certains cas, xt(β) pourra aussi d´ependre de variables retard´ees

mod`ele dynamique, et le traitement de ce genre de mod`eles complique quelque

valeurs retardées de yt, contrairement à ce qui serait le cas si (2.01) était un

mod`ele dynamique, mais nous abandonnerons cette hypoth`ese au Chapitre 5

lorsque nous pr´esenterons un premier traitement de la th´eorie asymptotique

lorsque la taille n de l’´echantillon tend vers l’infini. La plupart des r´esultats

analytiques standards concernant les modèles de régression non linéaire, et

souvent extrˆemement difficiles `a obtenir.

Les modèles de régression se différencient de tous les autres modèles

appel´e ut, et la notation “ut ∼ IID(0, σ2

)” est un moyen concis pour dire que

les aléas ut sont supposés être indépendants et identiquement distribués, ou

i.i.d., avec une espérance nulle et une variance égale à σ

la même distribution, mais simplement qu’elles sont d’espérance zéro et de

est quelque peu inhabituelle. De nombreux auteurs utilisent ft(β) en lieu et

seconde est qu’avec notre notation, il devient naturel de d´esigner ∂xt(β)/∂βi

plupart des traitements du modèle de régression linéaire, et nous espérons que

cette ressemblance d’´ecriture sera un moyen efficace de se le rappeler.

2.2 La Geom ´ etrie des Moindres Carr ´ es non Lin ´ eaires ´ 47

. A ce propos, les lecteurs devraient sans doute ˆetre avertis que

les propriétés statistiques du modèle, et par là, permettent de savoir si un

modèle de régression peut raisonnablement être utilisé ou pas. Quoi qu’il en

leurs propri´et´es statistiques.

Le reste du chapitre traite un certain nombre d’aspects des moindres

carrés non linéaires et des modèles de régression non linéaire. Dans la

Nous démontrons que la minimisation de la somme des résidus au carré pour

égard à la géométrie impliquée, à l’exécution d’une régression linéaire. Un

estimations uniques des param`etres. Nous discutons par cons´equent du concept

fondamental d’identification dans la Section 2.3. Dans la seconde moiti´e

du pr´esent chapitre, nous entamerons la discussion des aspects statistiques (et

verrons comment les équations de régression comme (2.01) s’interprètent, et

la distinction entre les modèles et les processus générateurs de données. Puis

des exemples de fonctions de régression linéaires et non linéaires seront examinés

2.2 La Geom ´ etrie des Moindres Carr ´ es non Lin ´ eaires ´

non linéaire que les modèles de régression linéaire, consiste à minimiser la