Académique Documents
Professionnel Documents
Culture Documents
1.1 Introduction
La méthode d’estimation la plus communément utilisée en économétrie, et
à bien des égards la plus importante, est celle des moindres carrés. Il est
utile de distinguer deux variétés de moindres carrés, les moindres carrés or-
dinaires, ou OLS, et les moindres carrés non linéaires, ou NLS. Dans le cas
des OLS, l’équation de la régression qui doit être estimée est linéaire en tous
les paramètres, alors que dans le cas des NLS, elle est non linéaire en au
moins un des paramètres. Les estimations par OLS peuvent être obtenues
par un calcul direct de plusieurs manières (consulter la Section 1.5), alors
que les estimations par NLS réclament l’utilisation de procédures itératives
(consulter le Chapitre 6). Dans ce chapitre, nous traiterons exclusivement
des OLS, puisque la compréhension de la régression linéaire est essentielle à
la compréhension de tout ce qui suit dans le livre.
Il faut faire une distinction importante entre les propriétés numériques
et les propriétés statistiques des estimations obtenues par l’utilisation des
OLS. Les propriétés numériques sont celles qui apparaissent comme une
conséquence de l’utilisation des OLS, sans se soucier de la façon dont les
données ont été générées. Comme ces propriétés sont numériques, elles peu-
vent toujours être vérifiées par un calcul direct. Un exemple bien connu est
que la somme des résidus des OLS est nulle lorsque les régresseurs contiennent
un terme constant. D’autre part, les propriétés statistiques sont celles qui ne
subsistent que sous certaines hypothèses sur la façon dont les données ont été
générées. Celles-ci ne peuvent jamais être vérifiées avec exactitude, bien que
dans certains cas elles puissent être testées. Un exemple est la proposition
bien connue que les estimations par OLS sont non biaisées, dans certaines
circonstances.
La distinction entre des propriétés qui sont exactes numériquement et des
propriétés statistiques est à l’évidence fondamentale. Dans le but d’illustrer
cette distinction le plus clairement possible, nous ne discuterons dans ce
présent chapitre que des premières. Nous n’étudierons les OLS que comme
un système d’estimation, sans introduire formellement un quelconque modèle
statistique (bien que nous aurons l’occasion de discuter de plusieurs modèles
qui sont surtout intéressants dans le contexte des modèles de régression
3
4 La Géométrie des Moindres Carrés
1
La notation S(X) n’est pas une notation classique, et il n’y a pas de notation
classique avec laquelle nous nous sentons à l’aise. Nous croyons que cette
notation a de nombreuses qualités, aussi la recommandons nous et l’utiliserons
dès à présent.
1.2 La Géométrie des Moindres Carrés 5
n
X
hzi , zj i ≡ zit zjt ≡ zi>zj ≡ zj>zi .
t=1
Remarquons que le produit intérieur naturel n’est pas le seul qui soit à notre
disposition; on pourrait par exemple choisir d’attribuer une pondération po-
sitive différente à chaque élément de la somme, comme dans
n
X
wt zit zjt .
t=1
Ainsi que nous le verrons dans le Chapitre 9, exécuter une régression linéaire
par l’intermédiaire de ce produit intérieur reviendrait à utiliser une forme
particulière des moindres carrés généralisés. Pour la suite du livre, et à moins
que l’on spécifie le contraire, c’est au produit intérieur Euclidien auquel nous
ferons référence lorsque nous parlerons de produit intérieur.
Si un point z (qui est bien entendu un vecteur à n composantes) ap-
partient à S(X), il est toujours possible d’écrire z comme une combinaison
linéaire des colonnes de X, de telle sorte que:
k
X
z= γi xi = Xγ,
i=1
x1 = .5x2 + x3 .
X ∗ = XA,
z = X ∗A−1 γ ≡ X ∗ γ ∗ .
Ainsi, n’importe quel point z qui peut s’exprimer comme une combinaison
linéaire des colonnes de X, peut aussi bien être écrit comme une combinaison
linéaire d’une transformation linéaire de ces colonnes. Nous en concluons que
si S(X) est un espace engendré par les colonnes de X, il doit aussi l’être
par les colonnes de X ∗ = XA. Cela signifie que nous pourrions donner à
cet espace une infinité de noms, dans ce cas S(X), S(X ∗ ), ou d’autres encore.
Quelques auteurs (dont Seber, 1980; Fisher, 1981) ont à cette occasion adopté
une notation avec laquelle le sous-espace que nous avons appelé S(X) est
1.2 La Géométrie des Moindres Carrés 7
désigné sans référence explicite à X. Nous avons évité cette notation “sans
coordonnées” parce que cela conduit à obscurcir la relation entre les résultats
et la (les) régression (régressions) dont ils sont issus; et parce que dans la
plupart des cas, il y a un choix évident de la matrice dont l’espace engendré
nous intéresse. Cependant, ainsi que nous aurons l’opportunité de le voir, de
nombreux résultats essentiels de la régression linéaire sont “sans coordonnées”,
dans le sens où ils ne dépendent de X que par l’intermédiaire de S(X).
Le complément orthogonal de S(X) dans E n, que l’on note S⊥ (X), est
l’ensemble de tous les points w appartenant à E n pour lesquels on a w>z = 0,
quel que soit z appartenant à S(X). Ainsi, chaque point de S⊥ (X) est or-
thogonal à tout point de S(X) (deux points sont déclarés orthogonaux si leur
produit intérieur est nul). Puisque la dimension de S(X) est k, la dimension
de S⊥ (X) est n− k. Il est parfois commode de ne pas se référer à la dimension
d’un sous-espace linéaire mais à sa codimension. On dira qu’un sous-espace
linéaire de E n est de codimension j, si la dimension de son complément or-
thogonal est j. Ainsi, dans ce cas, S(X) est de dimension k et de codimension
n − k, et S⊥ (X) est de dimension n − k et de codimension k.
Avant de discuter de la Figure 1.1, qui illustre ces idées générales, il nous
faut faire quelques précisions concernant les conventions géométriques. Le
moyen le plus simple de représenter un vecteur à n composantes, par exemple
z, dans un diagramme, est de le représenter tout simplement comme un point
dans un espace à n dimensions; mais n est évidemment limité à 2 ou 3. Il est
quelquefois plus intuitif de décrire explicitement z comme un vecteur, dans
le sens géométrique du terme. Cela se fait en joignant le point z à l’origine
et en déposant une pointe sur le point. La flèche qui en résulte montre alors
graphiquement deux choses à propos du vecteur qui nous intéresse, c’est-à-dire
sa longueur et sa direction. La longueur Euclidienne d’un vecteur z est
µX
n ¶1/2
¯ ¯
kzk ≡ zt2 = ¯(z>z)1/2 ¯,
t=1
où la notation attire l’attention sur le fait que kzk est la racine carrée positive
de la somme des éléments au carré de z. La direction est le vecteur lui-même
normalisé, afin d’avoir une longueur unitaire, c’est-à-dire z/kzk. L’un des
avantages de cette convention d’écriture est qu’en bougeant l’une des flèches,
en faisant attention à ne modifier ni sa longueur ni sa direction, la nouvelle
flèche obtenue représente le même vecteur, bien que la pointe se situe sur un
point différent. Il sera souvent très commode de recourir à ce procédé, aussi
adopterons nous cette convention dans la plupart de nos diagrammes.
La Figure 1.1 illustre les concepts dont nous venons de discuter plus tôt
pour le cas n = 2 et k = 1. La matrice de régresseurs X possède seulement
une colonne de telle sorte qu’elle se représente par un vecteur sur la figure. Par
conséquent, S(X) est unidimensionnel, et puisque n = 2, S⊥ (X) est également
unidimensionnel. Notons que S(X) et S⊥ (X) seraient identiques si X était
8 La Géométrie des Moindres Carrés
... ⊥
... S (X)
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
... ........
... ...........
...
..
...
...
............. S(X)
... ........
... ...........
... ....
.
...
.
.
..
.
.............
.
....................
...
..
.............................
...
............. X
.. .....................................
.. ... ...
........ ....
....
.
........... ....
.... ..... . ........... O ...
.. ...
...
...
...
...
...
n’importe quel point sur la ligne droite qu’est S(X), excepté l’origine. Cela
illustre le fait que S(X) est invariant à toute transformation non singulière de
X.
Comme nous l’avons vu, n’importe quel point de S(X) peut être décrit
avec un vecteur de la forme Xβ pour un vecteur β donné à k composantes. Si
l’on recherchait le point de S(X) qui soit le plus proche d’un vecteur y donné,
alors le problème qu’il s’agirait de résoudre serait celui d’une minimisation,
par rapport à β, de la distance entre y et Xβ. Minimiser cette distance est
bien sûr équivalent à minimiser le carré de cette distance, de telle manière que
résoudre
min ky − Xβk2 (1.01)
β
2
Nous nous référons à la t ième ligne de X en tant que Xt putôt que xt pour
éviter la confusion entre les colonnes de X, que nous avons déjà notées x1 , x2 ,
et ainsi de suite.
1.2 La Géométrie des Moindres Carrés 9
des résidus au carré, ou SSR. Elle est souvent appelée somme résiduelle des
carrés, un terme qui se rapproche davantage de la terminologie utilisée pour
sa contrepartie, la somme expliquée des carrés. Les sigles seraient alors RSS
et ESS. Il est dommageable que certains auteurs utilisent le premier sigle pour
désigner la somme des carrés de la régression, et le second pour désigner la
somme des carrés des erreurs. Alors si l’on utilise les sigles RSS et ESS, il
n’est pas du tout clair de repérer le concept que l’on désigne. Lorsque nous
ferons appel à SSR et ESS, il ne devra pas y avoir d’ambiguı̈té quant aux
concepts qu’ils désignent.
La géométrie des moindres carrés ordinaires est illustrée dans la Fig-
ure 1.2, qui n’est que la Figure 1.1 avec quelques éléments supplémentaires.
La régressande est désormais représentée par le vecteur y. Le vecteur Xβ̂,
auquel on fait souvent référence en tant que vecteur de valeurs ajustées, est
le point de S(X) le plus proche de y; notons que β̂ est un scalaire dans ce cas
précis. Il est évident que la ligne joignant y à Xβ̂ doit former un angle droit
avec S(X) au point Xβ̂. Cette ligne est tout simplement le vecteur y − Xβ̂,
translaté de telle manière que son origine est le point Xβ̂, et non plus zéro.
L’angle droit formé par y − Xβ̂ et S(X) est la caractéristique clef des moin-
dres carrés. En n’importe quel autre point de S(X), tel que Xβ 0 sur la figure,
y − Xβ 0 ne forme pas d’angle droit avec S(X) et en conséquence, ky − Xβ 0 k
doit nécessairement être supérieur à ky − Xβ̂k.
Le vecteur des dérivées partielles de SSR (1.02) par rapport aux com-
posantes de β est
−2X>(y − Xβ),
qui doit être égal à zéro lorsque l’on est en un minimum. Puisque nous
avons supposé que les colonnes de X sont linéairement indépendantes, la
matrice X>X doit être de plein rang. Lorsque l’on combine cet argument
avec celui consistant à dire que n’importe quelle matrice de la forme X>X
est nécessairement définie non négative, il vient que la somme des résidus au
carré est une fonction strictement convexe en β, de sorte qu’elle possède un
10 La Géométrie des Moindres Carrés
minimum unique. Ainsi β̂ est déterminé de façon unique par les équations
normales
X>(y − Xβ̂) = 0. (1.03)
Ces équations normales indiquent que le vecteur y − Xβ̂ doit être orthogonal
à toutes les colonnes de X, et en conséquence, à n’importe quel vecteur se
trouvant dans l’espace engendré par ces colonnes. Les équations normales
(1.03) sont ainsi une façon de constater algébriquement ce que nous avons
vu géométriquement à partir de la Figure 1.2, c’est-à-dire que y − Xβ̂ doit
former un angle droit avec S(X).
Puisque la matrice X>X est de plein rang, il est toujours possible de
l’inverser pour résoudre les équations normales en β pour β̂. On obtient la
formule standard: ¡ ¢−1
β̂ = X>X X>y. (1.04)
Même si X n’est pas de plein rang, les valeurs ajustées Xβ̂ sont définies
de manière unique, parce que Xβ̂ est tout simplement le point appartenant à
S(X) le plus près de y. Regardons attentivement une fois de plus la Figure 1.2,
et supposons que X soit une matrice de dimension n×2, mais de rang égal à un
seulement. Le point Xβ̂ est toujours défini de manière unique. Cependant, si
β est maintenant un vecteur à 2 composantes, et S(X) est unidimensionnel,
alors le vecteur β̂ n’est plus défini de manière unique. Ainsi la nécessité
d’avoir une matrice X de plein rang et une nécessité purement algébrique
pour obtenir des estimations uniques des élément de β̂.
Si l’on remplaçait le terme de droite de (1.04), β̂, par Xβ̂, on obtiendrait
¡ ¢−1
Xβ̂ = X X>X X>y ≡ PX y. (1.05)
MX + PX = I
PX PX = PX et MX MX = MX .
Ces résultats peuvent être démontrés avec un peu d’algèbre, mais l’aspect
géométrique les rend évidents. Si l’on prend un point que l’on projette sur
S(X), et que l’on projette sur S(X) à nouveau, alors la seconde projection
est sans effet, parce que le point se situe déjà sur S(X). Cela implique que
PX PX z = PX z pour tout vecteur z; de sorte que PX PX = PX . On pourrait
tenir le même type d’argument pour MX .
Une autre propriété importante de PX et de MX est que
PX MX = 0. (1.06)
Donc PX et MX s’annulent l’une l’autre. Une fois encore, cela peut être
démontré algébriquement par l’utilisation de PX et de MX , mais une telle
démonstration n’est pas nécessaire. Il devrait être évident que (1.06) est
vérifiée puisque PX projette sur S(X), et MX projette sur S⊥ (X). Le seul
point qui appartienne à la fois à S(X) et à S⊥ (X) est l’origine, c’est-à-dire
le vecteur nul. Ainsi, si nous tentons de projetter n’importe quel vecteur à
la fois sur S(X) et sur son complément orthogonal, nous obtenons le vecteur
nul.
De fait, MX n’annule pas seulement PX , mais tous les points qui se
trouvent sur S(X), et PX n’annule pas seulement MX , mais tous les points
12 La Géométrie des Moindres Carrés
qui se trouvent sur S⊥ (X). Ces propriétés peuvent à nouveau être démontrées
directement par l’algèbre mais une démonstration géométrique est encore plus
simple. Considérons à nouveau la Figure 1.2. Il est clair qu’en projettant
n’importe quel point de S⊥ (X) orthogonalement à S(X), on aboutit à l’origine
(qui correspond à un vecteur dont les composantes sont des zéros), de la même
façon qu’en projettant un point de S(X) orthogonalement sur S⊥ (X).
Puisque l’espace engendré par les colonnes de X est invariant à une trans-
formation linéaire non singulière des colonnes de X, les matrices de projec-
tion PX et MX doivent l’être également. Cela peut être aperçu avec l’aide
de l’algèbre. Considérons ce qui surviendrait si l’on postmultipliait X par
n’importe quelle matrice non singulière A de dimension k × k. La matrice qui
projette sur l’espace engendré par XA est:
¡ ¢−1
PXA = XA A>X>XA A>X>
¡ ¢−1
= XAA−1 X>X (A>)−1A>X>
¡ ¢−1
= X X>X X> = PX .
être un prix bien peu élevé à payer pour avoir la possibilité de visualiser les
interprétations géométriques d’un très grand nombre de résultats algébriques
en économétrie. Que de telles interprétations soient possibles découle du fait
que les longueurs, les angles, les produits intérieurs et en fait, tout ce qui ne
dépend pas explicitement des observations individuelles d’un ensemble de k
variables linéairement indépendantes, reste inchangé lorsque l’on ignore les
n − k dimensions orthogonales à l’espace engendré par les k variables. Ainsi,
si par exemple deux variables sont orthogonales dans les n dimensions, elles
le sont également dans l’espace à deux dimensions qu’elles engendrent.
Faisons maintenant appel aux interprétations géométriques pour établir
quelques propriétés importantes du modèle de régression linéaire. Nous avons
déjà vu que de (1.05), PX y est le vecteur de valeurs ajustées provenant de la
régression de y sur X. Cela implique que MX y = y − PX y est le vecteur des
résidus provenant de la même régression. La propriété (1.06) nous enseigne
que
(PX y)>(MX y) = 0;
de sorte que les résidus sont orthogonaux aux valeurs ajustées. En fait, les
résidus doivent être orthogonaux à tout vecteur qui se trouve dans S(X), ce
qui inclut les régresseurs, et toute transformation linéaire de ces régresseurs.
En conséquence, lorsque X comprend un terme constant, ou l’équivalent d’un
terme constant, les résidus doivent avoir une somme nulle.
Notons que les valeurs ajustées PX y et les résidus MX y ne dépendent de
X que par l’intermédiaire des matrices de projection PX et MX . Ainsi, ils ne
dépendent que de S(X), et pas seulement de n’importe quelle caractéristique
de X qui n’affecte pas S(X); en particulier, ils sont invariants à toute transfor-
mation linéaire non singulière des colonnes de X. Parmi bien d’autres choses,
cela implique que pour toute régression, on peut multiplier tout ou partie
des régresseurs par n’importe quelle constante non nulle, et que pour toute
régression qui inclut un terme constant, on peut ajouter n’importe quelle con-
stante à tout ou partie des régresseurs, sans affecter en rien les résidus OLS
ou les valeurs ajustées. A titre d’exemple, les deux régressions apparemment
assez dissemblables doivent donner exactement les mêmes valeurs ajustées et
les mêmes résidus:3
y = β1 x1 + β2 x2 + β3 x3 + résidus;
y = α1 (x1 + x2 ) + α2 (2x2 − x3 ) + α3 (3x1 − 2x2 + 5x3 ) + résidus.
3
Lorsque nous écrivons une équation dont le dernier membre est “+ résidus”,
nous entendons par résidus tout ce qui constitue une différence entre la
régressande et la fonction de régression. Ces résidus seront les résidus OLS
seulement si les paramètres de la fonction de régression sont évaluées avec les
estimations OLS. Nous évitons la notation “+ u” dans un tel contexte pour
éviter toute référence aux propriétés statitiques des résidus.
14 La Géométrie des Moindres Carrés
....... . .. ..................................................................................................................................
.
.
........... ..
.............. O .... y
.
...
...
...
................
. ...
........ ...
...
...
...
...
...
...
...
..
Ces deux régressions ont le même pouvoir explicatif (c’est-à-dire les mêmes
vecteurs de valeurs ajustées et de résidus) car les régresseurs engendrent exac-
tement le même sous-espace dans les deux cas. Notons que si l’on décidait
de représenter la deuxième matrice de régresseurs par X ∗ , on verrait que
X ∗ = XA pour la matrice
1 0 3
A = 1 2 −2 .
0 −1 5
Les termes les plus à droite de (1.07) et (1.08) montrent bien que la somme
des résidus au carré et la somme des carrés expliqués sont tout simplement les
longueurs au carré de certains vecteurs, nommément les projections de y sur
les champs des deux projections MX et PX, qui sont respectivement S⊥ (X)
et S(X).
Cela est montré sur la Figure 1.3, qui correspond à la Figure 1.2 re-
dessinée et avec de nouvelles étiquettes. Bien qu’elle soit bi-dimensionnelle,
c’est une figure parfaitement générale. L’espace bi-dimensionnel représenté
1.2 La Géométrie des Moindres Carrés 15
de sorte que la somme des carrés totaux, ou TSS, de la régressande est égale
à la somme des carrés expliqués plus la somme des résidus au carré. Ce
résultat dépend de manière cruciale du fait que MX y est orthogonal à S(X),
puisqu’autrement nous ne pourrions pas obtenir un angle droit dans le trian-
gle, et nous ne pourrions pas appliquer le Théorème de Pythagore.
Le fait que la variation de la régressande puisse être divisée en deux par-
ties, l’une “expliquée” par les régresseurs, et l’autre qui reste sans explication,
suggère une mesure naturelle de la qualité de l’ajustement. Cette mesure,
appelée formellement coefficient de détermination, mais à laquelle on fait
universellement référence en tant que R2, a plusieurs variantes. Sa version la
plus simple (mais pas celle la plus répandue) est le R2 non centré:
Il est clair que le Ru2 ne possède aucune unité et qu’il doit prendre des valeurs
entre zéro et un. De la Figure 1.3, il est facile de voir que Ru2 a une in-
terprétation géométrique simple. Le cosinus de l’angle formé par le vecteur y
et PX y, que nous avons noté φ sur la figure, est
kPX yk
cos φ = .
kyk
4
Le Théorème de Pythagore enseigne que pour un triangle rectangle, le carré de
l’hypothénuse égale la somme des carrés des côtés adjacents.
16 La Géométrie des Moindres Carrés
cet angle, et cela est vrai même si X inclut un terme constant. Si R2 doit être
utilisé en tant que mesure de la qualité d’ajustement, il paraı̂t indésirable qu’il
change lors d’une opération aussi simple que l’addition d’un terme constant
à la régressande. Il est facile de modifier le R2 pour contourner ce problème.
La version modifiée est connue sous le nom de R2 centré, et nous le noterons
Rc2 . On le définit par
2
kMX yk
Rc2 ≡ 1 − 2 , (1.09)
kMι yk
où ¡ ¢−1
Mι ≡ I − ι ι>ι ι> = I − n−1 ιι>
est la matrice qui projette en dehors de l’espace engendré par le vecteur de
constantes ι, qui est un vecteur dont les composantes sont égales à l’unité.
Lorsqu’un vecteur est multiplié par Mι , le résultat est un vecteur de déviations
par rapport à la moyenne. Ainsi, ce que mesure le R2 centré correspond à
la proportion de la somme des carrés totaux de la régressande autour de sa
moyenne qui est expliquée par les régresseurs.
Une expression alternative de Rc2 est:
2
kPX Mι yk
2 , (1.10)
kMι yk
qui est identique à (1.09) si PX ι = ι, ce qui signifie que S(X) doit contenir
le vecteur ι (de sorte que soit une colonne de X doit être une constante, soit
une combinaison linéaire des colonnes de X doit être égale à une constante).
Dans ce cas, l’égalité doit être vérifiée parce que
MX Mι y = MX (I − Pι )y = MX y,
ky − Xβ̃k2 kXβ̃k2
1− 2 6= 2 .
kyk kyk
y = Xβ + résidus (1.11)
et comparer les résultats avec ceux d’une autre régression, où β est soumis
aux r(≤ k) restrictions linéairement indépendantes
Rβ = r, (1.12)
R1 β1 + R2 β2 = r, (1.13)
18 La Géométrie des Moindres Carrés
.
où R ≡ [R1 R2 ] et β ≡ [β1 ... β2 ]5 R1 étant une matrice de dimension r × r
et non singulière, R2 étant de dimension r × (k − r). Résoudre les équations
(1.13) pour β1 entraı̂ne
β1 = R1−1 r − R1−1R2 β2 .
Ainsi la régression originelle (1.11), avec les restrictions que l’on a imposées
peut s’écrire:
Ce qui équivaut à
y ∗ = Z2 β2 + résidus. (1.14)
y ∗ = Z1 γ1 + Z2 γ2 + résidus. (1.15)
.
5
La notation [β1 ... β2 ] signifie que β1 et β2 sont deux vecteurs colonne empilés
de manière à former un autre vecteur colonne, dans ce cas β. Une notation
plus commune serait [β1> β2> ]>, mais elle est à l’évidence assez génante. Nous
introduisons la notation précédente parce que l’on a souvent besoin d’empiler
des vecteurs colonne et nous voyons que cette nouvelle notation est assez inno-
vatrice pour mériter d’être introduite.
1.3 Restrictions et Reparamétrisations 19
y
.
⊥ ...........
S (X) .. .............
. . ..
....... .... .. ..
... ..... ..... .....
.
. . ..
... ... ... ..
.... .
...... .
... .....
.... .. .. .
... .. ...
...
... .....
. .... .....
.
.......... .... .... .. ...
.......... .
. .
. .... .
.
... ....
...
A .......... .... ... ..
..........
.......... .. ... . ..
.
.
.
. ....
.
............ .... .. ....
... ...........
.... .......... ...... .
...
.
...
...
............. .. ..
... ........... .. .. ....
.
... ... .................. .. .
.
....
.
.
.. .
. .
. ...
.... .
....
.... ..... . ..... .
Xβ̂
...... x ...........................................
.... ...... ........... 2 ...........
.
.... .. .... ..........
... ..... ..........
.... ...... ........... Xβ̃ ..........
..........
... .............. ..........
.........
.......................
........................................................................................................................................................................................................................................................
.
S(X) O x1 ........................
.......... B
..........
y − x1 = β2 (x2 − x1 ) + résidus,
y ∗ ≡ y − x1
....... S⊥ (X)
........
........ ....
. .. ..
... ... .. .......
.... .... .... ...
... ..... .... ....
.... .... ... ...
... ...
.... ..... ... ....
... .. ... ....
.... ...
... ... ...
.... ..
..
... ...
.......... .... . .
.. ....
..... . .
. ....
A ....................... ....
..
.... . ....
............. . ........ ... ..
..
.............. ... ............. Z γ̂ . .... .....
z2 ..
... . .
......................... . .. .... ...
...........
........... ... .... S(X)
Z γ̃ ...........
........... ... ..
. .
.
...........
........... .................
..............................................................................................................................................................................................................
......... .
O ........................ z1
..........
..........
..........
..........
.......... B
.....
... ⊥
... S (X)
...... S(X)
...
... ....
........................................
.
.
..
. .. ...
..................................
... . .
. ..
..
... ...
...
...
...
.
..
.................... ........... ...
...
. .... .. ... .....
............
. .. ...
...
...
....
..
..
..
..
..
..
..
....
.
. . .
............... ...
.. ..
... ... . .
.
... ..........................
..
... ...
...
..
..
. .
.
...........
. ...
... φ 2 .
...
..
..
..
..
.. .. . .. ......
.... ..
& ................ . . . ................ ...
.....................................
...
.............
................ ................................ ...... .....................................................
... .. ... y2
... ............................................................. .. .
. .
. . ....
.
........ ..............................................................................................................................................................
..............
..
.. ... ........... .... - y1 y3
...........
. O ... φ1 = φ3
........... ...
...
...
...
...
...
...
..
y = X1 β1 + X2 β2 + résidus, (1.18)
M1 y = M1 X2 β2 + résidus, (1.19)
où M1 est une matrice qui projette orthogonalement sur S⊥ (X1 ). Dans (1.19),
nous avons tout d’abord régressé y et chacune des k2 colonnes de X2 sur X1 ,
puis régressé le vecteur de résidus M1 y sur la matrice M1 X2 de résidus
de dimension n × k2 . Le Théorème FWL nous affirme que les résidus des
régressions (1.18) et (1.19), ainsi que les estimations OLS de β2 provenant
de ces deux régressions, seront numériquement identiques. Géométriquement,
dans la régression (1.18), on projette y directement sur S(X) ≡ S(X1 , X2 ),
alors que dans la régression (1.19) on projette tout d’abord y et toutes les
colonnes de X2 en dehors de S(X1 ), puis on projette les résidus M1 y sur
l’espace engendré par la matrice des résidus, S(M1 X2 ). Alors le Théorème
FWL nous indique que ces procédures apparemment dissemblables entraı̂nent
pourtant les mêmes résultats.
On peut démontrer le Théorème FWL de plusieurs façons différentes. Une
démonstration assez connue est basée sur l’algèbre des matrices partitionnées.
Tout d’abord, observons que les estimations de β2 provenant de (1.19) sont
¡ ¢−1 >
X2>M1 X2 X2 M1 y. (1.20)
Cette expression simple dont nous ferons un usage fréquent, provient directe-
ment de la substitution de X par M1 X2 , et de y par M1 y, dans l’expression
(1.04) pour le vecteur des estimations OLS. La démonstration algébrique ferait
ensuite appel aux résultats sur l’inversion des matrices partitionnées (consul-
ter l’Annexe A) pour montrer que l’estimation β̂2 par OLS de (1.18) est
identique à (1.20), et finirait par montrer que les deux groupes de résidus
sont aussi identiques. Nous laissons cette démonstration pour exercice, et
poursuivons dans un premier temps par une discussion plus détaillée de la
géométrie de la situation.
.
Soit β̂ ≡ [ β̂1 ... β̂2 ] les estimations OLS de (1.18). Alors
MX M1 X2 = 0. (1.23)
1.4 Le Théorème Frisch-Waugh-Lovell 23
M1 y = y − P1 y = M1 PX y + MX y. (1.27)
Considérons désormais la Figure 1.7 dans laquelle ceci est reporté pour
le cas le plus simple pour lequel le théorème s’applique, c’est-à-dire le cas où
k1 = k2 = 1. Sur le schéma (a) de la figure, qui représente un graphe tri-
dimensionnel, le vecteur y est dessiné avec sa projection PX y sur la surface
engendrée par les deux régresseurs X1 et X2 , correspondant au plan horizon-
tal, et avec sa projection complémentaire (verticale) MX y.
Nous avons aussi représenté la projection P1 y de y sur la direction du premier
régresseur X1 et son complément M1 y. Observons que le triangle ABC, formé
24 La Géométrie des Moindres Carrés
A ...... y
......
.........
. .... ..........
..
... ..... .....
.. ... ... ...
.. ... ...
.. ... ....
.. .. ... ...
.. .. ...
.. ... ...
... ... ...
.. . ... .... M1 y
.. ... ...
.. .. .... ...
.. .. MX y ... ...... .
... ... ...
..... ..
.
.
...
...
.. ... ...
. .. .
.. ...
. . .
... B ...
.. . . ...
.. ... ...
. .....................
. ... ... ....
. ...
........................
...................... . ... P X y ...
.
.
.
...... .
.........
. ...
.. . ......... .. . .
....... .....................
X2 ......................
...................... . .. ... ........ .................... ... . . .
...................... . .... .. . ......... ... C
...................... .... ..................................
.
... ...................................
................................................................................................................................................................................................................................
O X1
P1 y
.
........ X2 A ..........
... ..........
...
... .... .........
... .....
... .....
... MX y ..... ..... M1 y
.....
...X2 β̂2 B ... .....
D .................................................................................................................................................................................... ... .....
.... .....
... PX y....... ..... .... .....
.....
... .... ....... ...... .... .....
...
.. ....... ... ... ...
...
.....
.....
... ... ... ...
...
.... ..... ... ..
... ... .... .....
.....
... .... . ...
...
...
.... .....
... .. ... .
... .....
... .... .. ...
...
...
... ... .....
.....
... .... .
... ... ... .....
. .. .. ... ... .... .....
... ..... ... ...
.....
... ..... . ...
... ...
... .... .....
... . .. .. ...
. ... ... .....
... .... ... ...
... ... ... .....
......... ............. X1 β̂1....
..
... . M1 PX y .....
............................................................................................................................................................................ X1 ................................................................................................................................................................
B C
O C E
Notons que ces variables muettes ont été définies de telle manière que leur
somme est nulle sur chaque année. Considérons les régressions
y = Xβ + Dγ + résidus et (1.30)
MD y = MD Xβ + résidus, (1.31)
où m, la mantisse (ou partie décimale), est un nombre avec un signe compris
entre zéro et un en valeur absolue, b est la base du système des nombres à
virgule flottante, et c est l’exposant, qui est positif ou négatif. Ainsi, 663.725
peut s’écrire en base dix
0.663725 × 103 .
Conserver séparément la mantisse 663725 et l’exposant 3 offre un moyen pra-
tique à l’ordinateur de conserver la valeur 663.725. L’avantage de ce système
est que l’on peut conserver aussi facilement les très grands nombres et les très
petits nombres, que les nombres de moindre amplitude; des valeurs telles que
−0.192382 × 10−23 et 0.983443 × 1017 peuvent être manipulées avec autant
d’aisance que des nombres comme 3.42 (= 0.342 × 101 ).
6
Notre introduction sur ce thème est nécessairement superficielle. Pour de plus
amples détails, consulter Knuth (1981) ou Sterbenz (1974).
28 La Géométrie des Moindres Carrés
7
Des ordinateurs différents conservent les nombres à virgule flottante de diffé-
rentes manières. La plupart des ordinateurs modernes utilisent la précision
simple avec 32 bits et la double précision avec 64 bits. Certains bits mémorisent
l’exposant et le signe de la mantisse. Selon la base employée, des bits
utilisés pour mémoriser la mantisse peuvent ne pas contenir toute l’information
nécessaire, et de là, les nombres dans le texte pour les bits significatifs dans
la mantisse. Un petit nombre d’ordinateurs utilise plus que 32 bits pour
représenter les nombres en précision simple: 36, 48, 60, et 64 sont en usage.
Sur ces ordinateurs à la fois l’arithmétique en précision simple et l’arithmétique
à double précision seront plus précises que sur les ordinateurs 32 bit.
1.5 Calculer les Estimations OLS 29
qui donne comme résultat −0.0235. Supposons que l’on veuille tenter d’éval-
uer cette expression à l’aide d’un ordinateur qui travaille en base 10, et qui
garde en mémoire six chiffres pour la mantisse. Si nous l’évaluons dans l’ordre
dans lequel nous l’avons écrite, on obtient
ou encore zéro, puisque, 0.239312 × 107 − 0.102350 × 101 ∼= 0.239312 × 107 , où
“∼
=” correspond à l’égalité arithmétique au sens que lui donne l’ordinateur.
De façon alternative, on pourrait changer l’ordre d’évaluation pour obtenir
L’égalité est vraie algébriquement, mais elle ne l’est plus lorsque l’on en-
tame les calculs arithmétiques en virgule flottante. La première régression,
(1.33), peut être évaluée avec une précision raisonnable, tant que l’amplitude
entre les yt et ȳ n’est pas trèsP importante. L’expression (1.34), toutefois,
2 2
nécessite de soustraire nȳ à yt , et lorsque ȳ est grande par rapport à la
variance des yt , la différence entre les deux grandeurs peut être très impor-
tante. Ainsi dans cette situation, l’expression (1.34) peut produire un calcul
de la variance très approximatif. De telles expressions sont souvent considérées
comme numériquement instables, parce qu’elles sont prédisposées à certaines
erreurs lorsqu’elles sont évaluées à l’aide de l’arithmétique à virgule flottante.
L’ampleur des difficultés numériques que l’on rencontre peut être aperçue
et illustrée par un exemple numérique simple. On génère tout d’abord
1000 nombres pseudo-aléatoires d’après une distribution normale (consulter
le Chapitre 21), et nous les normalisons, de manière à ce que la moyenne
d’échantillonnage soit exactement µ, et la variance d’échantillonnage soit exac-
tement égale à l’unité.8 Puis l’on calcule la variance de l’échantillon pour
quelques valeurs de µ, en utilisant la précision simple et la double précision
pour les expressions (1.33) et (1.34). Les résultats, exprimés comme la valeur
absolue de la différence entre la variance calculée et la véritable variance
égale à l’unité (et présentée avec la notation à virgule flottante puisque ces
différences peuvent avoir des amplitudes très variables) sont collectés dans le
Tableau 1.1.9
Cet exemple illustre deux phénomènes importants. Le premier d’entre
eux, exception faite lorsque µ = 0, de sorte qu’aucun problème numérique
n’apparaissait dans l’une et l’autre des formules, nous confirme ce que notre
discussion suggérait, c’est-à-dire que l’expression (1.33) offre des résultats plus
fins que l’expression (1.34). Le second montre que l’arithmétique à double
précision entraı̂ne des résultats plus précis que l’arithmétique à précision sim-
ple. Il y a un avantage à évaluer l’expression numériquement instable (1.34)
en double précision plutôt que l’expression numériquement stable (1.33) en
8
En réalité, la normalisation n’était pas exacte, mais elle était extrêmement
précise par l’usage de la quadruple précision, qui est environ deux fois plus
fine que la double précision. L’arithmétique en, quadruple précision n’est pas
disponible sur de nombreux ordinateurs (en particulier sur les petits modèles)
et elle est particulièrement plus lente que l’arithmétique à double précision,
mais elle peut fournir des résultats encore plus fins. Nous sommes persuadés
que les séries avec lesquelles nous avons débuté ont vraiment une moyenne µ
et une variance unitaire à au moins 30 chiffres décimaux.
9
Tous les calculs furent programmés en FORTRAN VS et effectués sur un or-
dinateur IBM travaillant sous VM/CMS. Sur d’autres matériels, les résultats
seraient légèrement différents, même si les nombres flottants à simple ou double
précision sont représentés respectivement en 32 ou 64 bits. En particulier, la
plupart des ordinateurs personnels fourniraient des résultats plus précis.
1.5 Calculer les Estimations OLS 31
précision simple. Mais les meilleurs résultats sont obtenus bien évidemment
en évaluant l’expression (1.33) en faisant usage de calculs arithmétiques en
double précision. En adoptant cette approche, la précision est excellente pour
tout l’éventail de valeurs de µ proposé dans le Tableau (elle se détériore pro-
gressivement lorsque µ dépasse 106 de manière significative). Par contraste,
les deux formules mènent à un non-sens lorsqu’elle sont calculées pour µ égal
à 105 , en précision simple, et (1.34) donne un résultat très approximatif même
lorsque l’on utilise la double précision.
Nous espérons que cet exemple mettra en lumière le fait que toute ten-
tative de calcul des estimations pour l’évaluation d’expressions algébriques
standards, sans avoir conscience des conditions relatives à la précision de la
machine et à la stabilité numérique des expressions, est en fait très impru-
dente. Le meilleur moyen qu’il convient d’adopter est de toujours faire usage
de logiciels écrits par des experts qui ont intégré de telles considérations. Si
de tels logiciels ne sont pas disponibles, alors l’utilisateur occasionnel devrait
utiliser la double précision, avec une précision accrue (si possible) pour des
opérations plus délicates. Comme l’exemple l’indique, même des procédures
numériquement stables peuvent fournir des non-sens avec une précision simple
en 32 bits si les données sont insuffisamment conditionnées. 10
Maintenant, retournons au sujet principal de cette section, qui reste le cal-
cul des estimations par moindres carrés ordinaires. De nombreuses références
solides sont disponibles sur ce sujet — consulter, entre autres, Chambers
(1977), Kennedy et Gentle (1980), Maindonald (1984), Farebrother (1988),
et Golub et Van Loan (1989) — et nous nous permettrons donc de ne pas
entrer dans trop de détails.
10
Un exemple classique est celui du calcul d’un produit intérieur. Celui-ci est
généralement réalisé avec une boucle d’itérations, et la valeur du produit
intérieur est mémorisée dans une variable scalaire. Les propriétés numériques
d’une telle procédure peuvent être largement améliorées en conservant cette
variable dans la précision la plus grande possible, même si les calculs ultérieurs
sont réalisés avec une précision moindre.
32 La Géométrie des Moindres Carrés
X = QR et Q>Q = I. (1.35)
qu’il est extrêmement simple d’évaluer. Il est également aussi aisé d’estimer
les valeurs ajustées Qγ̂ et les résidus
Ainsi, si seuls les résidus et/ou les valeurs ajustées nous intéressent, il n’est
pas du tout nécessaire de calculer β̂.
Notons qu’à partir de (1.36), les matrices de projection PX et MX
sont égales respectivement à QQ> et I − QQ>. La simplicité de ces ex-
pressions découle du fait que Q représente une base orthonormale de S(X).
Géométriquement, rien n’aurait été modifié si nous avions utilisé Q au lieu
de X comme matrice de régresseurs dans chacune des figures que nous avons
déssinées, puisque S(Q) = S(X). Si nous devions montrer les colonnes de Q
sur chaque figure, chacune serait un point dans S(X) localisé sur la sphère
unitaire (c’est-à-dire sur la sphère centrée sur l’origine, et de rayon égal à
l’unité) et formerait un angle droit avec les points représentant les autres
colonnes de Q.
Pour rendre possible le calcul de β̂ et de (X>X)−1, qui seront souvent les
principales grandeurs qui nous intéresseront, nous faisons usage du fait que
β̂ = R−1 γ̂ et
¡ > ¢−1 ¡ > > ¢−1 ¡ > ¢−1
X X = R Q QR = R R = R−1 (R−1 )>.
Ainsi, dès que l’on a obtenu R−1, il est très facile de calculer les estimations
moindres carrés β̂, et leur matrice de covariance estimée (consulter Chapitre
2). Puisque R est une matrice triangulaire, son inverse se calcule facilement
et sans coût important pour l’ordinateur: nous n’avons même pas besoin de
vérifier qu’elle n’est pas singulière, puisque R ne sera pas de plein rang que
si X n’est pas de plein rang, ce qui se découvrira et se traitera lors de la
construction de Q et de R.
La partie la plus coûteuse de ces procédures pour l’ordinateur sera le
plus souvent la construction des matrices Q et R à partir de X. Elle
nécessite un nombre d’opérations arithmétiques qui est approximativement
proportionnel à nk 2. La construction des matrices des sommes des carrés et
des produits croisés, qui est le point de départ de la méthode ayant pour
objet la résolution des équations normales, nécessite également un nombre
d’opérations proportionnel à nk 2, bien que le facteur de proportionnalité soit
plus restreint. Ainsi la régression linéaire peut s’avérer très coûteuse lorsque
le nombre de régresseurs et/ou la taille de l’échantillon sont très élevés, quelle
que soit la méthode choisie. Si l’on est amené à estimer plusieurs régressions
sur la base du même ensemble de données, il est intéressant de réduire le
coût en n’effectuant les calculs onéreux qu’une seule fois. Plusieurs progi-
ciels de régression permettent à l’utilisateur de construire préalablement les
matrices des sommes des carrés et des produits croisés pour toutes les vari-
ables de l’ensemble de données, et de calculer ensuite des estimations de di-
verses régressions, en extrayant les lignes et les colonnes pertinentes pour
la résolution des équations normales. Si c’est cette approche qui est en-
visagée, alors il devient particulièrement important d’échelonner les données,
de manière à ce que les divers régresseurs ne soient pas trop divergents en
moyenne et en variance.
1.6 Observations Influentes et l’Effet Levier 35
ût
α̂ = . (1.49)
1 − ht
où le membre de gauche est nul parce que û − û(t) se situe dans S⊥ (X).
En résolvant, pour β̂ (t) par l’intermédiaire de (1.49) on obtient le résultat
fondamental (1.40):
¡ ¢−1
β̂ (t) = β̂ − X>X X>et (1 − ht )−1 ût
µ ¶
1 ¡ > ¢−1 >
= β̂ − X X Xt ût .
1 − ht
Nous avons vu que les quantités ht ne doivent pas dépasser l’unité pas
plus qu’elles ne peuvent être négatives, et qu’en moyenne elles valent k/n.
Nous avons vu également que l’omission de l’observation t avait d’autant plus
d’impact sur β̂ que ht était relativement fort, à moins que ût ne soit proche
de zéro. Ainsi les quantités ht peuvent servir d’indicateur de puissance, ou
d’effet potentiel sur β̂, pour chacune des observations. On dit des observations
pour lesquelles ht est relativement important (par exemple supérieur à 2k/n)
qu’elles ont un poids important ou que ce sont des points à forte pondération.
Si tous les ht étaient égaux à k/n, comme cela serait le cas si le régresseur était
une constante, alors chaque observation aurait le même poids. On désigne
souvent cette situation par le terme de modèle équilibré, et c’est la situation
la plus enviable, mais puisqu’en économétrie la construction de la matrice X
est rarement contrôlable par l’investigateur, c’est une situation peu commune.
Notons que t peut avoir un poids important sans pour autant être influent si
ht est élevé mais ût petit. Un point à forte pondération possède une influence
potentielle, mais la réalisation effective de cette influence dépend de yt .
L’un des moyens de prendre conscience de la pondération est de faire
usage du fait que ht = et>PX et . De cette propriété nous voyons que ht
sera fort si la matrice de régresseurs X a un poids explicatif important de la
variable muette et et ht sera faible dans le cas contraire. Imaginons qu’il nous
faille remplacer y par y +δet , ajoutant δ à yt pour l’observation t uniquement.
Si l’observation t avait un poids faible (ht petit), β̂ ne serait pas beaucoup
modifié et ût devrait varier d’au moins la variation enregistrée par yt , c’est-à-
dire δ. A contrario, si l’observation t avait un poids important (ht élevé) au
moins un élément de β̂ varierait largement et ût varierait de beaucoup moins
que δ. Ainsi plus le poids de l’observation t sera important, plus la valeur de
yt aura un effet sur β̂, et moins elle aura d’impact sur ût .
40 La Géométrie des Moindres Carrés
.....
..
..
..
...
...
.. P X 1,2
.....
..
X e
2 2 .....
.. ... ... ... ....
..
..
.. ..
... ..
...
.. ..
.. ..
...
e ..... ...
.. ..
.. ...
2 ... . .
.. .. ... ..
..
.. .. ...
.. ..
.. .. ...
.. ...
.
.. .. ..
... ..
.. .. ..
..
..
..
.. .. ...
.. ...
.
.. .. ..
... ..
..
.. .. ..
.. ..
.... ...
.. ...
.
.... ...
.. ..
..
.... ..
... ..
...........................................................................
.. ..
..
.......................................................................................................................................................................................................
..
O X e ...
.. 1 1 e 1
..
La Figure 1.8 illustre le cas où k = 1, c’est-à-dire celui où il n’y a qu’un
seul régresseur et où la seconde observation a beaucoup plus d’importance
que la première. Exceptionnellement les deux axes horizontaux et verticaux
représentent effectivement les deux observations, et ainsi ce que nous obser-
vons, c’est la projection du vecteur représentant le régresseur X sur l’espace
engendré par les deux vecteurs e1 et e2 correspondant aux deux premières
observations comme l’indique le fait que les deux vecteurs sont situés sur les
deux axes. La projection de X est le vecteur noté P1,2 X sur la figure. Alors
qu’ici il n’y a qu’un régresseur, la quantité ht devient simplement Xt2 /kXk2,
comme on peut le constater à partir de (1.38). Ainsi le ratio h2 sur h1 , ou le
poids relatif de l’observation 2, est le ratio du carré de la longueur des vecteurs
X1 e1 et X2 e2 sur la figure. Le poids plus avantageux de l’observation 2 signifie
que X2 doit être plus important que X1 , ainsi que nous l’avons représenté. Au
contraire, si X1 et X2 étaient sensiblement égaux, de sorte que P1,2 X forme
approximativement le même angle avec chacun des deux axes, cela traduirait
la quasi égalité de h1 et de h2 .
Nous prenons maintenant un exemple numérique pour mettre en évidence
l’influence que peut avoir une observation erronée isolée. L’exemple montre
également que l’examen des points fortement pondérés peut se révéler très
utile dans la détection des erreurs qui affectent substanciellement les estima-
tions. L’ensemble de données correct, qui comprend les ût et les ht ’s, est
détaillé dans le Tableau 1.2. Les estimations OLS correspondantes sont
Le ht le plus fort est ici 0.536, pour l’observation 3. Cette valeur est plus
que cinq fois supérieure à la valeur la plus faible des ht et elle est plus grande
que 2k/n (= 0.40 dans ce cas). Ainsi l’observation 3 est un point fortement
1.6 Observations Influentes et l’Effet Levier 41
pondéré. Cela n’a rien d’étonnant puisque la valeur de X2t pour l’observation 3
est de loin la plus importante des X2t . Cependant, deux autres observations
ont aussi des valeurs de ht supérieures à 0.20 de sorte que l’observation 3 n’est
pas un point extrêmement pondéré. Comme le montre également la dernière
colonne du tableau, elle n’a pas une influence particulièrement forte.
Maintenant, observons ce qu’il adviendrait si nous introduisions délibéré-
ment une erreur dans X. Supposons que X2t pour l’observation 7 dévienne
subitement 7.68. L’ensemble des données correspondantes, ainsi que les ût et
ht est reporté dans le Tableau 1.3. Les estimations OLS qui y sont rattachées
sont
β̂1 = 3.420, β̂2 = 0.238, R2 = 0.1996.
42 La Géométrie des Moindres Carrés
ce qui rend le calcul extrêmement simple lorsque l’on possède Q. Il est pos-
sible, une fois que l’on a calculé les ht et/ou les ût ht /(1 − ht ), de les tracer
par rapport à t. S’il y a des points fortement pondérés et/ou des observations
d’une influence injustifiée, alors il sera sage de vérifier la précision des données
ou de savoir dans quelles proportions leur omission de l’échantillon affecte les
résultats. De telles procédures informelles pour la détection des observations
influentes, et plus particulièrement celles générées par des erreurs de données,
fonctionnent généralement avec succès. Mais des procédures plus formelles
sont détaillées par Belsley, Kuh, et Welsch (1980) et Krasker, Kuh, et Welsch
(1983), dans les références que nous avons données.
11
Puisque nous ne discutons que des aspects numériques des moindres carrés
dans ce chapitre, nous n’avons pas présenté les écarts types ou les statistiques
t pour cet exemple. Nous observons néanmoins que la différence entre ces deux
ensembles d’estimations basés sur les données exactes et inexactes est impor-
tante relativement aux écarts types que l’on calcule généralement; par exemple
la statistique t pour le β̂2 correct (1.223) est 4.62, alors que la statistique t
pour β̂2 découlant du mauvais ensemble de données (0.238) est seulement égal
à 1.41.
1.7 Lectures Complémentaires et Conclusion 43
Termes et Concepts
base orthogonale pondération
champ de projection problème insuffisamment conditionné
codimension (d’un sous-espace projection
linéaire) propriétés numériques ou propriétés
coefficient de détermination (R2 ) statistiques
complément orthogonal (d’un régressande
sous-espace) régresseur
décomposition orthogonale régression, linéaire et non linéaire
dimension (d’un sous-espace linéaire) reparamétrisation (d’une régression)
équations normales résidus
espace euclidien de dimension n, E n résidus des moindres carrés
ht (éléments diagonaux de la matrice résultats sans coordonnées
“chapeau”) R2 , centré et non centré
indépendance linéaire somme des carrés expliqués, ESS
longueur d’un vecteur somme des carrés totaux, TSS
matrice “chapeau” somme des résidus au carré, SSR
matrice de projection orthogonale sous-espace engendré par les colonnes
matrice idempotente d’une matrice
modèle équilibré Théorème de Pythagore
moindres carrés ordinaires (OLS) Théorème FWL
moindres carrés contraints valeurs ajustées
nombre à virgule flottante vecteur unité ou constante, ι
observations influentes vecteurs orthogonaux