Vous êtes sur la page 1sur 149

sume

du Cours dEconom
trie
Re
e
Yves Tille
1er fevrier 2008

Avertissement

Ce document nest pas un compte rendu exhaustif du cours dEconom


etrie, mais un resume. Il reprend
les principaux developpements, mais il est complete au cours par de nombreux graphiques, commentaires, et
approfondissements. Nous remercions Jer
ome Taillard pour la preparation de plusieurs exercices, Guido Pult
pour nous avoir donne plusieurs exercices et Ines Pasini pour son aide `
a la dactylographie. Les etudiants
sont invites `
a consulter les ouvrages de references suivants cites dans la bibliographie : Judge et al. (1985),
Johnston (1988), Theil (1979), Maddala (1988), Gourieroux and Monfort (1989a), Gourieroux and Monfort
(1989b), Greene (1990), Cohen and Pradel (1993), Bourbonnais (1993), Johnston (1997), Johnson (1999),
Ruud (2000).

Yves Tille

Chapitre 1

ements dalg`
El
ebre lin
eaire
1.1
1.1.1

Espace vectoriel
Vecteur

Un element de Rn est une suite ordonnee de n elements de R. On peut disposer cette suite, appelee
vecteur soit en ligne, soit en colonne.
Exemple 1.1 Le vecteur a = [3

0], est un vecteur ligne et le vecteur



3
b = 2
0

est un vecteur colonne.


La transposition transforme un vecteur ligne en vecteur colonne et reciproquement.
Exemple 1.2 Si a = (3

0), la transposee de a est



3
.
a =
0
0

1.1.2

Multiplication par un scalaire et addition

On peut multiplier un vecteur par un scalaire Soit un scalaire c R et un vecteur colonne a de Rn , alors

a1
ca1

c a = c ... = ... .
an

can

Deux vecteurs lignes (ou deux vecteurs colonnes) peuvent sadditionner sils sont de meme dimension.

a1
b1
a1 + b1
.. .. ..
. + . = . .
an

bn

an + bn

En utilisant la multiplication par un scalaire et laddition, on peut definir une combinaison lineaire de
deux vecteurs a et b :

a1
b1
c1 a1 + c2 b1

..
c1 a + c2 b = c1 ... + c2 ... =
.
.
an

bn

o`
u c1 , c2 R.
2

c1 an + c2 bn

1.1.3

D
efinition dun espace vectoriel

On se ref`ere `a la definition suivante : la definition suivante :


D
efinition 1.1 Soit K un corps commutatif delement unite note 1. On nomme espace vectoriel sur K, un
ensemble E muni dune loi de composition interne (+) conferant `
a E la structure de groupe commutatif ou
abelien, et dune seconde loi dite externe, application de EK dans E notee (), aussi appelee multiplication,
faisant intervenir les elements de K, appeles scalaires. Cette loi externe doit verifier les axiomes suivants,
x, y E, a, b K designant des scalaires :
1. a (x + y) = a x + a y (distributivite)
2. (a + b) x = a x + b x (distributivite)
3. a (b x) = ab x (associativite)
4. 1 x = x
Si on prend K = R, on verifie que Rn dote de la loi interne + et de la loi externe est un espace vectoriel.

1.1.4

Vecteurs lin
eairement ind
ependants

D
efinition 1.2 Les vecteurs u1 , . . . , uj , . . . , uJ sont dit lineairement independants, si
a1 u1 + a2 u2 + + aJ uJ = 0
implique que a1 = a2 = . = aJ = 0.

1.1.5

Sous-espace vectoriel

D
efinition 1.3 Un sous-ensemble non-vide V de Rn est un sous-espace vectoriel, si pour tous u, v V,
1. u + v V,
2. au V pour tout a R.

1.1.6

Syst`
eme g
en
erateur dun sous-espace vectoriel

D
efinition 1.4 Un ensemble de p vecteurs u1 , . . . , up du sous-espace vectoriel V forment un syst`eme generateur
de V si et seulement si
1. u1 , . . . , up sont tous differents de 0,
2. pour tout v V , on peut ecrire v = a1 u1 + + ap up .

1.1.7

Base dun sous-espace vectoriel

D
efinition 1.5 Un ensemble de p vecteurs u1 , . . . , up du sous-espace vectoriel V forment une base de V si
et seulement si
1. ils sont lineairement independants,
2. ils forment un syst`eme generateur de V.
Autrement dit, tout vecteur de V peut secrire comme une combinaison lineaire de u1 , . . . , up .

1.1.8

Base canonique de Rn

La base canonique de Rn est


1
0
0
0 1 0

0 0 1
, , ,
.. .. ..
. . .
0
0
0


0
0


, 0 .
..
.
1

1.1.9

Dimension dun sous-espace vectoriel

D
efinition 1.6 La dimension dun sous-espace vectoriel est le plus petit nombre de vecteurs suffisants pour
lengendrer.
Cette dimension correspond en particulier au nombre de vecteurs constituant une base quelconque de V .

1.2
1.2.1

Espace euclidien
Produit scalaire

On definit la multiplication dun vecteur ligne a par un vecteur colonne b comme le resultat scalaire :

b1
n
.. X
a b = (a1 . . . an ) . =
ai bi .
i=1

bn

Le produit scalaire de deux vecteurs colonnes u et b de meme dimension est note < u, b > et est defini
par :

b1
n
.. X
0
< u, b >= u b = (u1 . . . un ) . =
ui bi .
bn

i=1

D
efinition 1.7 Un espace euclidien est un espace vectoriel muni dun produit scalaire.

1.2.2

Norme

D
efinition 1.8 La norme (ou longueur) dun vecteur colonne u est

||u|| = < u, u >.


vecteur de norme egale `a 1 est dit norme.

1.2.3

Distance entre deux vecteurs

D
efinition 1.9 La distance entre les vecteurs u et v de Rn est definie par
v
u n
uX
d(u, v) = ||u v|| = t (ui vi )2 .
i=1

D
efinition 1.10 La projection dun vecteur u sur un vecteur v est definie par
pv (u) =

1.2.4

< u, v > v
.
||v||2

Vecteurs orthogonaux

D
efinition 1.11 Deux vecteurs non-nuls u et v de Rn sont orthogonaux si
< u, v >= 0.
On note alors uv
Th
eor`
eme 1.1 (de Pythagore) Si u et v sont orthogonaux, alors
||u + v||2 = ||u||2 + ||v||2 .

(1.1)

1.2.5

Orthogonal dun sous-espace vectoriel

D
efinition 1.12 Un vecteur u est orthogonal `
a un sous-espace vectoriel V si et seulement si il est orthogonal
`
a tous les vecteurs de V, on note alors
uV.
D
efinition 1.13 Les sous-espaces V et W sont dits orthogonaux, si tout vecteur de V est orthogonal `
a tout
vecteur de W .
D
efinition 1.14 Lensemble de tous les vecteurs orthogonaux `
a V est appele lorthogonal de V et est note
V .
Propri
et
e 1.1
(V ) = V,
V V = {0}.

1.3
1.3.1

Application lin
eaire et matrices
Application lin
eaire

Une application f (.) de RJ dans RI est dite lineaire si pour tous u, v, de RJ et tout a R
f (u + v) = f (u) + f (v),
f (au) = af (u).

1.3.2

Matrice

Une matrice est un tableau de nombres. Par

a11
..
.

A=
ai1
.
..
aI1

exemple :
...

a1j
..
.

...

...

aij
..
.

...

...

aIj

...

a1J
..
.

aiJ

..
.
aIJ

est une matrice de I lignes et de J colonnes.


En statistique, on manipule souvent des matrices. Par convention, les lignes representent souvent les
unites statistiques, et les colonnes des variables.
Comme les vecteurs, les matrices peuvent etre multipliees par un scalaire. On peut egalement additionner
deux matrices `a condition quelles aient le meme nombre de lignes et de colonnes. Sous cette meme condition,
on peut aussi definir une combinaison lineaire de deux matrices.

1.3.3

Produit dune matrice et dun vecteur

Soient une matrice A de dimension I J et un vecteur colonne u de dimension J le produit Au est


donne par

PJ
a11 . . . a1j . . . a1J
u1
j=1 a1j uj

..
..
..
.. ..

.
.
.
.
.

PJ

uj =
a
.
.
.
a
.
.
.
a
Au =
a
u
.
i1
ij
iJ
ij
j

j=1

.
..
.. ..
.

.
..
.
.
. .

P
J
aI1 . . . aIj . . . aIJ
uJ
j=1 aIj uj
Le produit dun vecteur par une matrice est la representation dune application lineaire dans la base canonique.

1.3.4

Produit matriciel

Soient deux matrices A de dimension I J et B de dimension J K, alors le produit de ces deux matrices
est donne par

a11 . . . a1j . . . a1J


b11 . . . b1k . . . b1K
..
..
.. ..
..
..
.

.
.
.
.

a
.
.
.
a
.
.
.
a
b
.
.
.
b
.
.
.
b
AB =

ij
iJ
jk
jK
i1
j1
.
.

.
.
.
.
..
.. ..
..
..
..
aI1 . . . aIj . . . aIJ
bJ1 . . . bJk . . . bJK

c11 . . . c1k . . . c1K


..
..
..
.
.
.

= ci1 . . . cik . . . ciK

.
..
..
..
.
.
cI1 . . . cIk . . . cIK
= C,
o`
u
cik =

J
X

aij bjk .

j=1

Cest le produit des lignes par les colonnes. La matrice C est de dimension (I K).

1.3.5

Transposition

Transposer une matrice revient `a remplacer les lignes par les colonnes et vice versa. Par exemple, si

1 2
1 4 2
A = 4 3 alors A0 =
.
2 3 5
2 5
Remarque 1.1 Soient A, B, C de dimension respectives (I J), (J K) et (K L), alors la transposee
de ABC vaut

1.3.6

(ABC)0 = C0 B0 A0 .

Matrices carr
ees, sym
etriques et diagonales

D
efinition 1.15 Une matrice est dite carree si elle a le meme nombre de lignes et de colonnes.
Si un vecteur de dimension n est premultiplie par une matrice carree n n, le resultat est donc aussi de
dimension n. Une matrice carree n n est donc une application lineaire de Rn dans Rn .
D
efinition 1.16 Une matrice est dite symetrique si elle est egale `
a sa transposee.
Une matrice symetrique est donc toujours carree.
D
efinition 1.17 Une matrice est dite diagonale, si elle est carree et que tous ses elements extradiagonaux
sont nuls.
Par exemple,

6
D = 0
0

0 0
2 0
0 3

est une matrice diagonale.


6

D
efinition 1.18 Une matrice identite I est une matrice diagonale dont tous les elements de la diagonale
sont egaux `
a 1.
Par exemple,

1 0
I = 0 1
0 0

0
0
1

est une matrice identite de dimension 3 3.

1.3.7

Rang dune matrice

D
efinition 1.19 Le rang dune matrice est le nombre maximum de lignes (ou de colonnes) lineairement
independantes.
Propri
et
e 1.2 Le rang est toujours inferieur ou egal au minimum du nombre de lignes et du nombre de
colonnes de la matrice.
D
efinition 1.20 Si le rang de la matrice est egal au minimum du nombre de lignes et du nombre de colonnes,
la matrice est dite de plein rang (ou de rang maximal).
Propri
et
e 1.3 Le rang dun produit de matrices est inferieur ou egal au rang de chaque matrice.

1.3.8

Trace dune matrice

D
efinition 1.21 La trace dune matrice carree est la somme des elements de sa diagonale.
Propri
et
e 1.4

1. trace(A + B) = trace(A) + trace(B).

2. trace(AB) = trace(BA) mais trace(AB) 6= trace(A)trace(B).

1.3.9

Matrices inversibles

D
efinition 1.22 Une matrice carree A est dite inversible, sil existe une matrice A1 qui verifie AA1 =
1
A A = I.
Propri
et
e 1.5 Si une matrice carree est de plein rang, alors elle est inversible.

1.3.10

Inversion par parties

Soit une matrice F composee de quatre sous-matrices :

A B
F=
.
C D
Les matrices A et D sont carrees et inversibles.
La technique dinversion par partie permet dobtenir linverse de F.
1

A + A1 BQCA1 A1 BQ
1
F =
QCA1
Q
o`
u

1
Q = D CA1 B

Ce resultat peut etre demontre aisement en realisant le produit F1 F.

1.3.11

D
eterminant

D
efinition 1.23 Le determinant dune matrice carree A (J J) est note |A| et est defini par
Si J = 1, |A| = A
Si J > 1,
J
X
|A| =
(1)i+j |Mij |aij ,
i=1

pour tout j fixe, o`


u |Mij | est le mineur de aij . Le mineur est le determinant de la matrice (J 1)(J 1)
obtenue en enlevant la colonne i et la ligne j de la matrice A.
Exemple 1.3 Soit A une matrice (2 2),
A=

a b
c d

en prenant j = 1, on a
|A| = a d c b = ad cb.
On peut aussi calculer le determinant de A en prenant j = 2.
Exemple 1.4 Soit une matrice A de dimension (3 3),

2 7
A = 9 5
4 3
alors son determinant vaut
|A|

5
=
3

7 6
1
2
8
3 8

le calcul se fait en prenant j = 1

6
1
8

9+ 7

6
4
1

= (5 8 1 3) 2 (7 8 3 6) 9 + (7 1 6 5) 4
= 37 2 38 9 23 4
= 360.

Propri
et
e 1.6
1. |A| = |A0 |,
2. |AB| = |A||B|, en particulier |Ak | = |A|k .
3. |cA| = cJ |A|, (o`
u A est de dimension J J),

1.3.12

Quelques propri
et
es

Propri
et
e 1.7 En general, si A, B et C sont des matrices carrees de meme dimension, on a
1. AB 6= BA,
2. A + B = B + A,
3. (AB)C = A(BC),
4. AI = A = IA, o`
u I est une matrice identite,
5. (ABC)0 = C0 B0 A0 ,
6. trace(AB) = trace(BA),
7. trace(A + B) = trace(A) + trace(B),
8. detA = detA0 ,
9. (ABC)1 = C1 B1 A1 .
8

1.3.13

Matrices orthogonales

D
efinition 1.24 Une matrice est dite orthogonale si son inverse est egale `
a sa transposee :
0 = 1 .

1.3.14

Valeurs propres et vecteurs propres

D
efinition 1.25 Soit A une matrice J J. i est une valeur propre de A si i est une solution de lequation
|A I| = 0.
Propri
et
e 1.8
Une matrice carree symetrique de dimension J J poss`ede toujours J valeurs propres.
La trace dune matrice carree est toujours egale `
a la somme des valeurs propres.
Le determinant dune matrice carree symetrique est toujours egal au produit de ses valeurs propres.
D
efinition 1.26 Le vecteur ui 6= 0 est un vecteur propre de A associe `
a la valeur propre i si
Aui = i ui .
Propri
et
e 1.9 Si A est une matrice J J reelle symetrique, il existe J vecteurs propres normes et orthogonaux.
Th
eor`
eme 1.2 (de diagonalisation) Soient A une matrice symetrique (J J), et ui , i , i = 1, . . . , J, ses
valeurs propres et vecteurs propres associes. Soient la matrice orthogonale dont les colonnes sont les J
vecteurs propres de A, et la matrice diagonale ayant sur sa diagonale principale les J valeurs propres.
Alors
0 A = ,
A = 0 .

1.3.15

Formes et applications lin


eaires, formes quadratiques

D
efinition 1.27 Soient A une matrice (I I), B une matrice (J I), a un vecteur colonne de RJ et b
un vecteur colonne de dimension I. On appelle
forme lineaire definie par le vecteur a0 , lapplication de RI dans R
a0 b,
application lineaire de RI dans RJ definie par la matrice B,
Bb,
et forme quadratique definie par la matrice A, lexpression
b0 Ab.
D
efinition 1.28 Une matrice A de dimension (I I) est dite definie positive si
b0 Ab > 0,
pour tout b RI \{0}.
D
efinition 1.29 Une matrice A de dimension (I I) est dite semi-definie positive si
b0 Ab 0,
pour tout b RI .
9

Propri
et
e 1.10 Une condition necessaire et suffisante pour quune matrice soit definie positive (resp. semidefinie positive) est que toutes ses valeurs propres soient strictement positives (resp. positives ou nulles).
Propri
et
e 1.11 Pour toute matrice D, la matrice D0 D est semi-definie positive.
D
emonstration
En posant a = Db la forme quadratique b0 D0 Db peut secrire
X
b0 D0 Db = a0 a =
a2i 0.
i

2
Propri
et
e 1.12 Une matrice definie positive est toujours inversible.

1.3.16

Image et noyau dune matrice

D
efinition 1.30 Le noyau dune matrice A de dimension I J est le sous-espace de RJ defini par

Ker(A) = u RJ |Au = 0 .
La definition implique que tous les vecteurs de Ker(A) sont orthogonaux `a tous les vecteurs lignes contenus
dans la matrice A.
D
efinition 1.31 Limage dune matrice B de dimension I J est le sous-espace de RI defini par

Im(B) = x RI | il existe u RJ tel que Bu = x .


Le sous-espace Im(B) est lensemble des vecteurs qui peuvent secrire comme une combinaison lineaire des
colonnes de B. Limage de la matrice B est souvent appele sous-espace engendre par les colonnes de B. La
dimension de limage de B est egale au rang de B.
Remarque 1.2 Le sous-espace Im(B) est lorthogonal de Ker(B0 ).
Propri
et
e 1.13 Si u Im(B) et v Ker(B0 ), alors u et v sont orthogonaux.
En statistique, on utilise souvent des matrices X (individus-variables) de dimension n p avec n p. Le
sous-espace engendre par les colonnes de X est limage de X.

1.4
1.4.1

Projection et matrice idempotente


Projection

Loperation de projection se deduit du theor`eme suivant :


Th
eor`
eme 1.3 Soit V un sous-espace vectoriel de Rn , alors tout vecteur u Rn se decompose de mani`ere
unique en une somme dun vecteur de V et dun vecteur de V .

1.4.2

Projection orthogonale

D
efinition 1.32 Soit V un sous-espace de Rn , lapplication lineaire qui `
a un vecteur u fait correspondre un
vecteur u tel que u u soit orthogonal `
a V est appele projection orthogonale (u V ).

10

1.4.3

Projection orthogonale dans limage et le noyau dune matrice

Le projecteur orthogonal dans limage dune matrice X de plein rang de dimension n p avec n p est
donne par
PX = X(X0 X)1 X0
Le projecteur orthogonal dans le noyau dune matrice X0 de plein rang de dimension n p avec n p
est donne par
0
1 0
P
X = I PX .
X = I X(X X)
Remarque 1.3 Si X = v est un vecteur, alors le projecteur est
Pv = v(v0 v)1 v0 = v||v||2 v0 =
et la projection de u sur v
pv (u) = Pv u =

vv0
,
||v||2

v
< v, u >
v0 u = v
,
2
||v||
||v||2

ce qui correspond `a la definition donnee en (1.10).

1.4.4

Matrice idempotente

D
efinition 1.33 Une matrice P est dite idempotente si PP = P.
Une matrice de projection est idempotente.
Remarque 1.4 Les matrices PX et P
evidemment idempotentes, en effet
X sont

PX PX =
X(X0 X)1 X0 X(X0 X)1 X0
= X(X0 X)1 X0 X(X0 X)1 X0
|
{z
}
=I
= X(X0 X)1 X0 = PX .
De plus

PX PX = I PX = P
P
X PX = (I PX )(I PX ) = I 2PX + |
X.
{z }
= PX

Le projecteur orthogonal dans le noyau dune matrice X0 de plein rang de dimension n p est donne par
0
1 0
P
X = I PX .
X = I X(X X)

Th
eor`
eme 1.4 Toutes les valeurs propres dune matrice idempotente valent 1 ou 0.
D
emonstration
Un vecteur propre non-nul u dune matrice P doit satisfaire au syst`eme dequation
Pu = u,
o`
u est la valeur propre associee `a u. En multipliant (1.2) par P, on obtient
PP u = Pu,
|{z}
P
et donc,
En premultipliant par u0 on a

u = 2 u.
u0 u = u0 2 u,
11

(1.2)

on obtient donc

= 2 ,

ce qui nest verifie que si vaut 0 ou 1.


2
Comme la trace dune matrice carree est aussi la somme de ses valeurs propres, la trace dune matrice
idempotente est le nombre de valeurs propres non-nulles, ce qui donne la propriete suivante.
Propri
et
e 1.14 La trace dune matrice idempotente est egale `
a son rang.
Remarque 1.5 Le rang et la trace de X(X0 X)1 X0 sont egaux au rang de la matrice (X0 X)1 . Cette
matrice est supposee de plein rang (sinon X0 X ne serait pas inversible). Le rang de (X0 X)1 et donc de
PX = X(X0 X)1 X0 est donc egal au nombre de colonnes de X. Le rang de PX est la dimension du sousespace sur lequel projette PX .

1.4.5

Projecteurs obliques

Il existe des projecteurs non-orthogonaux. On parle alors de projecteurs obliques. Soit Z une matrice
ayant le meme nombre de lignes et de colonnes que X, alors
PO = X(Z0 X)1 Z0
est un projecteur oblique. Il est facile de verifier que la matrice PO est idempotente et quelle projette sur
limage de X.

1.4.6

Th
eor`
eme des trois perpendiculaires

Th
eor`
eme 1.5 Soit V et W deux sous-espaces vectoriels tels que V W , alors
PV PW = PW PV = PV .

1.5
1.5.1

D
eriv
ee par rapport `
a un vecteur
Gradient

Soit une fonction f (.) de Rp dans R :


f (x) = f (x1 , . . . , xj , . . . , xp ).
On suppose en outre que toutes les derivees partielles existes. On appelle gradient de f (.) le vecteur des
derivees partielles :

f
f
f
f
grad f =
=
,...,
,...,
.
x0
x1
xj
xp

1.5.2

Derivation dune forme lin


eaire

Soit a un vecteur de Rp , alors


Pp
Pp
Pp

i=1 ai xi
i=1 ai xi
i=1 ai xi
a0 x
=
,...,
,...,
= (a1 , . . . , aj , . . . , ap ) = a0 .
x0
x1
xj
xp

1.5.3

Derivation dune application lin


eaire

Soit A une matrice de dimension q p, alors


Pp
j=1

a1j xj

..

Pp .

.
a
x
Ax =
ij
j
j=1

.
..

Pp
j=1 aqj xj
12

On a

Donc,

1.5.4


a1j
..
.

Ax
aij
=

.
xj
.
..
aqj



a11
a1p
a1j
a11
.. ..
..
..
. .
.
.



Ax
ai1 ., . . . , aij ., . . . , aip = aj1
=

0
x
. .
.
.
.. ..
..
..
aq1
aqp
aqj
aq1

...

a1i
..
.

...

...

aji
..
.

...

...

aqi

...

a1p
..
.

ajp
= A.
..
.
aqp

D
eriv
ee dune forme quadratique

Soit A une matrice de dimension p p, alors


x0 Ax =

p X
p
X

aij xi xj =

i=1 j=1

Donc,

aii x2i +

p X
p
X

i=1

aij xi xj .

i=1 j=1
j6=i
p

X
X
X
X
x0 Ax
aik xi ,
akj xj +
= 2akk xk +
akj xj +
aik xi =
xk
i=1
j=1
j6=k

et

p
X

i6=k

Pp

a1j xj + i=1 ai1 xi

..

. P

Pp
x0 Ax
p
0

= j=1 akj xj + i=1 aik xi


= Ax + A x.
x

..

. P
Pp
p
i=1 aip xi
j=1 apj xj +
Pp

j=1

Si la matrice A est symetrique, on a

x0 Ax
= 2Ax
x

Exercices
Exercice 1.1
Calculez

(y Xb)0 (y Xb)
,
b
o`
u y Rn , b Rn , et X est une matrice de dimension n p.

Exercice 1.2
1. Construisez des projecteurs orthogonaux P1 ,P2 ,P3 , sur des sous-espaces engendres par les colonnes
des matrices

x1
1 x1

..
..
..
1
.
.
.

x
1
x
X1 = ... , X2 =
,
X
=
i.
i 3
.
.

.
..
1
..
..
xn
1 xn
13

2. Construisez les trois projecteurs qui projettent sur lorthogonal des sous-espaces engendre par les
colonnes de X1 , X2 ,X3 .
3. Verifiez que ces 6 projecteurs sont des matrices idempotentes.
4. Projetez le vecteur

y1
..
.

y=
yi
.
..
yn

au moyen de ces 6 projecteurs.

Exercice 1.3 Soient les matrices

x1
..
.

xi
.
..
.
xn

1
x1

..
..
1
.
.


..

A = . , B = xi , C =
1
.
.
.
1
..
.
1
xn

Decomposez le vecteur z = (z1 , . . . , zn ) en fonction de ses projections sur respectivement


1.
2.
3.
Exercice 1.4 Soient les matrices

1 0
1. 0 1
0 0
4.

0
0 ,
1

1/9 4/9
,
4/9 16/9

Ker(A0 )
Ker(B0 )
Ker(C0 )

et
et
et

Im(A)
Im(B)
Im(C).

1 0 0
2. 0 1 1 ,
0 0 0

1 0 1
5. 0 1 0 ,
0 0 0

1/5 3/5
3.
3/5 9/5

6.

1 1 1
.
1 1
2

Calculez
1. leur rang
2. leur trace.
Quelles sont les matrices idempotentes et orthogonales
?
Avec les matrices idempotentes, projetez le vecteur x1

x2

ou

x1

x2

x3

selon leur dimension.

Exercice 1.5 Soient X et Z, deux matrices de plein rang de dimension np definissant le meme sous-espace
vectoriel.
1. Donnez lapplication lineaire (la matrice) permettant de passer de X `a Z et reciproquement. Cette
matrice est definie en fonction de X etZ.
2. Montrez que les projecteurs orthogonaux sur les sous-espaces engendres par les colonnes de X et Z
sont egaux.

14

Exercice 1.6 Soient les matrices

1 x1

..
..
1
.
.

1
x
A = ... , B =
i.

.
..
1
..
1 xn

Construisez les projecteurs sur


Im(A)

Im(B)

notes respectivement PA et PB .
Si Im(A) Im(B) verifier le theor`eme des 3 perpendiculaires.

15

Chapitre 2

G
eom
etrie des moindres carr
es
2.1

S
erie statistique bivari
ee

On sinteresse `a deux variables x et y. Ces deux variables sont mesurees sur les n unites dobservation.
Pour chaque unite, on obtient donc deux mesures. La serie statistique est alors une suite de n couples des
valeurs prises par les deux variables sur chaque individu :
(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).
Chacune des deux variables peut etre soit quantitative, soit qualitative.

2.1.1

Repr
esentation graphique de deux variables

Dans ce cas, chaque couple est compose de deux valeurs numeriques. Un couple de nombres (entiers ou
reels) peut toujours etre represente comme un point dans un plan
(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).
Exemple 2.1 On mesure le poids Y et la taille X de 20 individus.
Tab. 2.1 Taille et poids de 20 individus
yi
60
61
64
67
68
69
70
70
72
73

2.1.2

xi
155
162
157
170
164
162
169
170
178
173

yi
75
76
78
80
85
90
96
96
98
101

xi
180
175
173
175
179
175
180
185
189
187

Analyse des variables

Les variables x et y peuvent etre analysees separement. On peut calculer tous les param`etres dont les
moyennes et les variances :
n
n
1X
1X
x
=
xi ,
s2x =
(xi x
)2 ,
n i=1
n i=1
16

100
90
80
60

70

poids

155

160

165

170

175

180

185

190

taille

Fig. 2.1 Le nuage de points

y =

1X
yi ,
n i=1

s2y =

1X
(yi y)2 .
n i=1

Ces param`etres sont appeles param`etres marginaux : variances marginales, moyennes marginales, ecarts-types
marginaux, etc.

2.1.3

Covariance

La covariance est definie

sxy =

1X
(xi x
)(yi y).
n i=1

Remarque 2.1
La covariance peut prendre des valeurs positives, negatives ou nulles.
Quand xi = yi , pour tout i = 1, . . . n, la covariance est egale `a la variance.
La covariance peut egalement secrire
n

sxy =

2.1.4

1X
xi yi x
y.
n i=1

Corr
elation

Le coefficient de correlation est la covariance divisee par les deux ecart-types marginaux
rxy =

sxy
.
sx sy

Le coefficient de determination est le carre du coefficient de correlation


2
rxy
=

s2xy
.
s2x s2y

Remarque 2.2
Le coefficient de correlation mesure la dependance lineaire entre deux variables.
17

1 rxy 1
2
0 rxy
1

2.1.5

Droite de r
egression

La droite de regression est la droite qui ajuste au mieux un nuage de points au sens des moindres carres.
On consid`ere que la variable X est explicative et que la variable Y est dependante. Lequation dune
droite est
y = a + bx.
Le coefficient a est appele la constante, et le coefficient b la pente de la droite de regression. Le principe des
moindres carres consiste `a chercher la droite qui minimise
M (a, b) =

n
X

(yi a bxi ) .

i=1

Le minimum sobtient en annulant les derivees partielles par rapport `a a et b.

n
X
M (a, b)

2 (yi a bxi ) = 0

a
i=1
n
X

M (a, b)

=
2 (yi a bxi ) xi = 0.

b
i=1
On obtient un syst`eme de deux equations `a deux inconnues, qui peuvent egalement secrire

yn= a + b
n
n
X
X
X
x
y

a
x

b
x2i = 0.

i
i
i

i=1

i=1

i=1

La premi`ere equation montre que la droite passe par le point (


x, y). De plus, on obtient
a = y b
x.
En remplacant a par sa valeur dans la seconde equation divisee par n, on a
n

1X
1X 2
xi yi (
y b
x)
xb
x
n i=1
n i=1 i
!
n
n
1X
1X 2
2
xi yi x
y b
x x
=
n i=1
n i=1 i
=
=
ce qui donne

sxy bs2x
0,

sxy

b= 2
sx
sxy

.
a = y 2 x
sx

La droite de regression est donc


y = y

sxy
sxy
x
+ 2 x,
s2x
sx

ce qui peut secrire aussi


y y =

sxy
(x x
).
s2x

Remarque 2.3 La droite de regression de y en x nest pas la meme que la droite de regression de x en y.

18

80
60

70

poids

90

100

Fig. 2.2 La droite de regression

155

160

165

170

175

180

185

190

taille

2.1.6

R
esidus et valeurs ajust
ees

Les valeurs ajustees sont obtenues au moyen de la droite de regression :


yi = a + bxi .
Les valeurs ajustees sont les predictions des yi realisees au moyen de la variable x et de la droite de
regression de y en x.
Remarque 2.4 La moyenne des valeurs ajustees est y.
Les residus sont les differences entre les valeurs observees et les valeurs ajustees de la variable dependante :
ei = yi yi .
Les residus representent la partie inexpliquee des yi par la droite de regression.
Remarque 2.5
La moyenne des residus est nulle :

n
X

ei = 0.

i=1

De plus,

n
X

xi ei = 0.

i=1

2.1.7

Variance de r
egression et variance r
esiduelle

La variance de regression est la variance des valeurs ajustees.


n

s2Y =

1X
(y y)2 .
n i=1 i

Th
eor`
eme 2.1 La variance de regression peut egalement secrire
s2Y = s2y r2 ,
o`
u r2 est le coefficient de determination.
19

D
emonstration
n

s2Y

=
=
=

1X
(y y)2
n i=1 i
2
n
1X
sxy
y + 2 (xi x
) y
n i=1
sx
n
s2xy 1 X
(xi x
)2
s4x n i=1

s2xy
s2x
s2xy
= s2y 2 2
sx sy
=

= s2y r2 .
2
La variance residuelle est la variance des residus.
n

s2e =

1X 2
e .
n i=1 i

Th
eor`
eme 2.2 La variance residuelle peut egalement secrire
s2e = s2y (1 r2 ),
o`
u r2 est le coefficient de determination.
D
emonstration
n

s2e

1X 2
e
n i=1 i
n

=
=
=
=
=

1X
(yi yi )2
n i=1
2
n
1X
sxy
yi y 2 (xi x
)
n i=1
sx
n
n
n
s2xy 1 X
1X
sxy 1 X
2
2
(yi y) + 4
(xi x
) 2 2
(xi x
)(yi y)
n i=1
sx n i=1
sx n i=1

s2xy
s2xy
s2y + 2 2 2
s
s
!x
x
2
sxy
s2y 1 2 2 .
sx sy
2

Th
eor`
eme 2.3 La variance marginale est la somme de la variance de regression et de la variance residuelle,
s2y = s2Y + s2e .
La demonstration decoule directement des deux theor`emes precedents.

20

2.2
2.2.1

La r
egression multivari
ee
Repr
esentation matricielle des donn
ees

La matrice

x11
..
.

X=
xi1
.
..
xn1

x1j
..
.

xij
..
.

xnj

x1p
..
.

xip

..
.
xnp

peut representer des donnees statistiques. Plus precisement, on suppose que xij represente la valeur prise
par la variable explicative j sur lunite statistique i. De meme, le vecteur y = (y1 . . . yi . . . yn )0 represente
les valeurs prises par la variable dependante sur les n unites statistiques. Dans la plupart des applications,
on supposera egalement que la premi`ere variable est la constante, cest-`a-dire que xi1 = 1, i = 1, . . . , n.
(Neanmoins, il est interessant dans certains cas particulier dutiliser une regression sans constante.) On
supposera alors que la matrice est de la forme :

1 x12 x1j x1p


..
..
..
..
.
.
.
.

X = 1 xi2 xij xip


.
.
..
..
..
.
.
.
.
.
1 xn2 xnj xnp
Dans ce qui suit, on suppose toujours que la premi`ere variable est une constante. Si ce nest pas le cas, nous
le notifierons expressement.

2.2.2

Principe des moindres carr


es

La regression de y en X au sens des moindres carres consiste `a chercher lajustement qui minimise en b :
Q(b) = ||y Xb||2 = (y Xb)0 (y Xb),
o`
u b = (b1 . . . bp )0 . Pour obtenir le minimum, de Q(b), on annule le vecteur des derivees
Q(b)
= 2X0 (y Xb) = 0,
b
ce qui donne la valeur de b :

X0 Xb = X0 y.

En faisant lhypoth`ese que X0 X est inversible, on peut determiner b :


b = (X0 X)

2.2.3

X0 y.

Valeurs ajust
ees et r
esidus

Le vecteur des valeurs ajustees est le vecteur des predictions de y au moyen de X et de b, cest-`a-dire
y = Xb = X(X0 X)1 X0 y.
|
{z
}
PX

Le vecteur des valeurs ajustees peut etre interprete comme la projection de y sur le sous-espace engendre
par les colonnes de la matrice X.
y = PX y,
o`
u PX est un projecteur (cest-`a-dire une matrice idempotente) sur le sous-espace engendre par les colonnes
de X.
PX = X(X0 X)1 X0 .
21

Le vecteur des residus est la difference entre y et y .


e = y y = y Xb = y X(X0 X)1 X0 y = (I X(X0 X)1 X0 )y.
Le vecteur des valeurs ajustees peut egalement etre interprete comme la projection de y dans le noyau de
X0 (ou lorthogonal du sous-espace engendre par les colonnes de X).
e = P
X y,

(2.1)

o`
u P
a-dire une matrice idempotente) sur le noyau de X0 .
X est un projecteur (cest-`
0
1 0
P
X.
X = I X(X X)

Propri
et
e 2.1

y = y + e,
y est une combinaison lineaire des colonnes de X,
y et e sont orthogonaux,
e est orthogonal avec toutes les colonnes de X, cest-`
a-dire e0 X = 0.

2.2.4

Variance de r
egression et variance r
esiduelle

Soit le vecteur de Rn contenant n fois la moyenne de la variable y :


= (
y
y , . . . , y)0 .
La variance peut etre definie simplement par :
n

s2y =

1
1X
2
)0 (y y
) =
(y y
(yi y) .
n
n i=1

La variance de regression est la moyenne des valeurs ajustees :


n

s2Y =

1
1X
2
)0 (y y
) =
(y y) .
(y y
n
n i=1 i

La variance residuelle est la variance des residus :


n

s2e =

2.2.5

1 0
1
1X
1X 2
2
e e = (y y )0 (y y ) =
(yi yi ) =
e .
n
n
n i=1
n i=1 i

Coefficient de d
etermination

Le coefficient de determination vaut


R2 =

s2e
s2Y
=
1

.
s2y
s2y

Il est important de noter que le R2 ne peut etre calcule que si la regression inclut une constante. Si ce nest
pas le cas, le R2 peut prendre des valeurs negatives. Le racine carree du coefficient de determination est
appelee le coefficient de correlation multiple.

2.3

Matrice de variance-covariance et matrice de corr


elation

Si la premi`ere colonne de la matrice X contient uniquement des 1, alors ont peut calculer les covariances
entre les p1 derni`eres variables. La matrice variance-covariance, de dimension (p1)(p1), des variables
explicatives est
2

s2 s2j s2p
..
..
..
.
.
.

s
=
(2.2)
jp ,
j
j2
.

.
.
..
..
..
sp2 spj s2p
22

o`
u

sjk

1X
=
(xij x
j )(xik x
k )
n i=1
n

1X
x
j =
xij ,
n i=1
et

s2j =

1X
(xij x
j )2 .
n i=1

Si la premi`ere colonne de la matrice X est une constante, alors la matrice variance-covariance est une matrice
de dimension (p 1) (p 1) correspondant aux p 1 derni`eres colonnes de X.
On peut egalement construire la matrice diagonale des ecart-types :

s2 0 0
.. . .
.
..
.
. ..
.

S = 0 sj 0
.
.

.
.
.
..
. . ..
..
0 0 sp
La matrice des correlations :

1
..
.

R=
rj2
.
..
rp2

est obtenue par

2.4

..
.

r2j
..
.

1
..
.

rpj

..
.

r2p
..
.

rjp
,
..
.
1

R = S1 S1 .

Corr
elations partielles

Soit deux variables y et z et le vecteur de leurs valeurs y et z sur les n unites de lechantillon. La matrice
0
1 0
idempotente P
X permet dobtenir
X = I X(X X)
le vecteur des residus de la regression de y en X
ey|X = P
X y,
le vecteur des residus de la regression de z en X
ez|X = P
X z.
Le coefficient de correlation partielle est le coefficient de correlation entre ey|X et ez|X . Si la premi`ere
colonne de la matrice X contient une colonne de constante, alors ce coefficient secrit
e0y|X ez|X
y 0 P
Xz
=q
ryz|x2 ,...,xp = q
.
0
0
0
ey|X ey|X ez|X ez|X
y 0 P
X yz PX z
Le coefficient de correlation partielle mesure la correlation entre les variables y et z auxquelles on a enleve
la partie explicable par les variables de X.

23

2.5

Condition pour que la somme des r


esidus soit nulle

La matrice X peut contenir une variable constante de mani`ere explicite, cest-`a-dire quune des colonnes de
cette matrice contient une variable constante. La constante peut egalement etre definie de mani`ere implicite,
ce qui signifie quil existe une combinaison lineaire des colonnes de X qui permet dobtenir une colonne de
uns. Formellement, on suppose quil existe un vecteur de Rp tel que X = 1n = (1 1 1)0 .
Th
eor`
eme 2.4 Si la matrice X contient une variable constante definie de mani`ere explicite o`
u implicite,
alors la somme des residus est nulle.
D
emonstration
On a
n
X

ei

10n e

i=1

Or, il existe un vecteur de Rp tel que X = 1n . On obtient donc


n
X

ei

0 X0 e

0 X0 I X(X0 X)1 X0 y

i=1

0 X0 0 X0 X(X0 X)1 X0 y

{z

0.

2
Une autre mani`ere daboutir `a ce resultat, consiste `a se rememorer que le vecteur de residus est toujours
orthogonal aux variables explicatives, cest-`a-dire
e0 X = 0.
Or, sil existe un vecteur de Rp tel que X = 1n , alors
e0 X = e0 1n = 00 = 0.
Si la somme des residus est nulle, la moyenne des valeurs ajustees est egale `a la moyenne des valeurs
observees, autrement dit
n
n
1X
1X
yi =
yi = y.
n i=1
n i=1

2.6

D
ecomposition en sommes de carr
es

Th
eor`
eme 2.5 Soit une regression pour laquelle la constante est une variable explicative (eventuellement
definie de mani`ere implicite), alors la somme des carres totale des ecarts `
a la moyenne
)0 (y y
) =
SCtot = (y y

n
X

(yi y)2

i=1

se decompose donc en une somme de deux termes :


la somme des carres expliquee par la regression,
)0 (y y
) =
SCregr = (y y

n
X
i=1

24

(yi y)2 ,

la somme des carres des residus


SCres = e0 e =

n
n
X
X
(yi yi )2 =
e2i .
i=1

(2.3)

i=1

le vecteur de Rn contenant n fois la moyenne y, on a


D
emonstration En notant y
= y y
+ e.
yy
Donc,

)0 (y y
) = (y y
+ e)0 (y y
+ e) = (y y
)0 (y y
) + e0 e + 2e0 (y y
)
(y y
P
n
= y i=1 ei . Or la somme
) sont orthogonaux. En effet e est toujours orthogonal `a y et, e0 y
or e et (y y
) = 0, ce qui donne
des residus est nulle quand la constante est une variable explicative. Donc e0 (y y
finalement
)0 (y y
) = (y y
)0 (y y
) + e0 e.
(y y
2

2.7

R
egression avec les donn
ees centr
ees

Supposons que la premi`ere colonne de la matrice X soit

1 x12 x1j
..
..
..
.
.
.

X=
1 xi2 xij
.
..
..
..
.
.
1 xn2 xnj

composee de constantes :

x1p
..
.

xip
.
..
.
xnp

Dans ce cas, la regression multiple secrit :


yi = b1 + xi2 b2 + xi3 b3 + + xip bp + ei .

(2.4)

On peut aussi travailler avec les donnees centrees. En sommant sur les i et en divisant par n lequation
(2.4), on obtient :
y = b1 + x
2 b2 + x
3 b3 + + x
p bp ,
(2.5)
et donc en soustrayant (2.5) `a (2.4), on a finalement :
yi y = (xi2 x
2 )b2 + (xi3 x
3 )b3 + + (xip x
p )bp + ei .

(2.6)

Definissons maintenant
: le vecteur de Rp1 compose des p 1 derni`eres composantes de b, b
= (b2 , b3 , . . . , bp )0 ,
1. b
e : la matrice n (p 1) composee des p 1 derni`eres colonnes de X,
2. X

x12 x1j x1p


..
..
..
.
.
.

X = xi2 xij xip


,
.

.
.
..
..
..
xn2 xnj xnp
3. 1 = (1, 1, . . . , 1)0 : le vecteur colonne de n uns,
4. la matrice idempotente qui centre les valeurs :

1 1/n 1/n
1/n 1 1/n

110

1/n
= 1/n
Pc = I

n
..
..

.
.
1/n
1/n
25

1/n
1/n
1 1/n
..
.

...
...
...
..
.

1/n

...

1/n
1/n
1/n
..
.

1 1/n

(2.7)

= (y1 y, y2 y, . . . , yn y)0
5. yc = Pc y = y 1
y =yy
e la matrice X
e centree
6. Xc = Pc X

x12 x
2

..

x
2
Xc =
i2

..

.
xn2 x
2

x1j x
j
..
.

xij x
j
..
.

xnj x
j

x1p x
p

..

xip x
p
.

..

.
xnp x
p

La regression multiple peut maintenant secrire :


e + e.
yc = Xc b
e est evidemment defini par
Le vecteur b

e = (X0 Xc )1 X0 yc =
b
c
c
Cette presentation est interessante `a plus dun titre.
covariance donnee en (2.2).
2
s2
..
.

X0 Xc
= c
=
sj2
n
.
..
sp2

X0c Xc
n

X0c yc
.
n

(2.8)

En effet (X0c Xc )/n nest autre que la matrice variance

s2j
..
.

s2j
..
.
spj

s2p
..
.

sjp
,
..
.
s2p

et X0c yc /n est le vecteur des covariances entre les variables explicatives et la variable dependante :

s2y
..
.

X0c yc

=
sjy .
n
.
..
spy
o`
u

sjy =
pour j = 2, . . . , n.
Comme,

1X
(xij x
j )(yi y),
n i=1

e + e,
yc = Xc b

la decomposition en somme de carres vient directement :


e + e)0 (Xc b
e + e) = b
e 0 X0 Xc b
e + e0 e + 2e0 Xc b
e.
yc0 yc = (Xc b
c
| {z }
0

Le dernier terme sannule, car les residus observes sont orthogonaux aux colonnes de X. On peut donc `a
nouveau decomposer la somme des carres totales en une somme de deux termes :
SCtot = SCregr + SCres ,
o`
u
la somme des carres totales
SCtot =

yc0 yc

n
X
i=1

26

(yi y)2 ,

(2.9)

la somme des carres expliquee par la regression,


e 0 X0 Xc b,
e
SCregr = b
c
car

Pp

(2.10)

y1 y

..
..

.
.
Pp

e=

b
(x

Xc b
j = yi y
j=2 j ij

.
..
.

.
.
Pp

yn y
j )
j=2 bj (xnj x
j=2 bj (x1j

x
j )

et que donc
e = (y y
e 0 X0 Xc b
)0 (y y
) =
b
c

n
X

(yi y)2 = SCregr ,

i=1

la somme des carres des residus


0

SCres = e e =

n
X

e2i .

(2.11)

i=1

2.8
2.8.1

Retour au cas bivari


e
M
ethode 1

Le cas particulier le plus frequemment etudie consiste `a utiliser deux variables explicatives (p = 2) : une
constante et une variable xi . Dans ce cas,

1 x1
..
..
.
.

X = 1 xi
.
.
..
.
.
.
1 xn
On a alors

n
X X = Pn
0

i=1

(X0 X)

=
=
=
=
=

xi

Pn
Pn
2
i=1 xi
i=1 xi
P
n
Pn
Pn
2
n
n i=1 x2i ( i=1 xi ) i=1 xi

Pn
Pn
2
1
x
x

i
i
i=1
i=1
n P
Pn
2 o Pn x
n
n
i=1 i
n2 n1 i=1 x2i n1 i=1 xi
Pn

Pn
2
1
i=1 xi
i=1 xi
P
n
n
n2 s2x i=1 xi
2

2
1
nsx + n
x n
x
n
x
n
n2 s2x
2

2
1
sx + x

x
,

x
1
ns2x
1

o`
u
n

1X 2
s2x =
x
n i=1 i
De plus,

Pn
Pni=1 x2i ,
i=1 xi

1X
xi
n i=1

!2
.

Pn

yi
y
i=1
P
Xy=
=n
,
n
sxy + x
y
i=1 xi yi
0

27

ce qui permet de calculer b

sxy
2

2
1 (sx + x
2 )
yx
(sxy + x
y)
1

b = (X0 X) X0 y = 2
= sxy sx .

xy + (sxy + x
y)
sx
s2x
En general, on note
b1 = y x

et

sxy
,
s2x

sxy
.
s2x

b2 =
On a finalement le vecteur des valeurs ajustees

y = (yi ) = Xb,
avec

yi = 1 b1 + xi b2 =

y x

sxy
s2x

+ xi

sxy
sxy
= y + (xi x
) 2 .
2
sx
sx

Le cas bivarie consiste donc `a utiliser deux variables explicatives, la premi`ere est la constante et la seconde
est la variable x.

2.8.2

M
ethode 2

Une autre mani`ere de traiter le meme probl`eme est de dutiliser les donnees centrees. Dans ce cas, on a

y1 y
x1 x

..
..
.
.

xi x
y

yc =
,
X
=
c
i

.
.
.
..
..
yn y
xn x

On obtient

X0c Xc = ns2x ,

X0c yc = nsxy

et

Il reste a deduire b1 de lequation


y = b1 +
ce qui donne
b1 = y

e = (X0 Xc )1 X0 yc = sxy .
b
c
c
s2x
sxy
x
,
s2x

sxy
sxy
x
, et b2 = 2 .
2
sx
sx

Exercices
Exercice 2.1 Au moyen du tableau 2.1, calculez
1. tous les param`etres marginaux,
2. la covariance,
3. la droite de regression de la taille par le poids,
4. les residus et les valeurs ajustees,
5. le coefficient de la regression, la variance residuelle et la variance de regression.

Exercice 2.2 En quoi consiste la regression,


1. quand une seule variable x est utilisee,
28

2. quand seule la constante est utilisee,


3. quand lechantillon est partitionne en p parties notees U1 , . . . , Up et que xij = 1 si lunite i est dans la
partie j et 0 sinon ?
Representez les deux droites de regression, pour les points 1 et 2.

` partir du tableau 2.2, calculez les coefficients de correlation et de regression a et b de la


Exercice 2.3 A
regression de y en x.
Tab. 2.2 Donnees pour les variables x et y
t
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
Somme
Moyenne

yt
xt
7389.99
8000
8169.65
9000
8831.71
9500
8652.84
9500
8788.08
9800
9616.21 11000
10593.45 12000
11186.11 13000
12758.09 15000
13869.62 16000
99855.75 112800
9985.57 11280

Exercice 2.4 Application du principe des moindres carres :


Soit
Q(b) = ky Xbk2 ,
qui peut egalement secrire
Q(b1 , . . . , bp ) =

n
X

yi

i=1

Annulez les derivees partielles

p
X

2
xij bj .

j=1

Q
= 0.
bj

Ecrivez
ensuite ce syst`eme de p equations `a p inconnues sous forme matricielle.

Exercice 2.5 (extrait de Cohen and Pradel, 1993) Parmi les relations suivantes donnant y en fonction de
x et peut etre z, quelles sont celles qui peuvent etre determinees `a laide dun mod`ele lineaire ?
1. y = ax + b
2. y = ax2 + b
3. y = ax2 + bx + c
4. y = ax3 + b
5. y = xa z b
6. y =

1
1 + a expbx

29

c
1 + a expbx
8. y = x2 + ax + b

7. y =

9. y = a log(x) + 5
10. y = abx + cz
a
11. y =
+b
x1
12. y = aln(x) + bz 5 + c

Exercice 2.6 Dans un mod`ele o`


u on cherche un ajustement lineaire de Y sur X et la constante, on dispose
des resultats suivants portant sur 52 observations :
yt = 1.286 0.43xt ,
x
= 1.063

s2y = 0.00137

s2x = 0.00686

Determinez successivement les valeurs du coefficient de correlation lineaire entre X et Y , le coefficient de


determination R2 et les SCtot , SCres et SCregr de la regression.

Exercice 2.7 Soit une matrice

1
..
.

X=
1
.
..
1

x1
..
.

xi
.
..
.
xn

Calculez le coefficient de correlation partiel ryz|x et exprimez-le en fonction des coefficients de correlation
(non-partiels) ryz , rxy et ryx .

Exercice 2.8 A partir des donnees du tableau 2.3, calculez le vecteur des coefficients de la regression des
yi en xi1 et xi2 (avec une constante). Les donnees sont les suivantes : Indication : travailler avec la matrice
Tab. 2.3 Donnees sur le travail, le capital et la production
Entreprise(i) Travail(xi ) Capital(zi ) Production(yi )
1
7389.99
8000
60
2
8169.65
9000
120
3
8831.71
9500
190
4
8652.84
9500
250
5
8788.08
9800
300
6
9616.21
11000
360
7
10593.45
12000
380
8
11186.11
13000
430
9
12758.09
15000
440
dans lexpression
variance-covariance permet de simplifier considerablement les calculs (voir calcul de b
(2.8)).

30

Exercice 2.9 On proc`ede `a lestimation dun mod`ele lineaire avec une constante. Les informations disponibles sont :

250 0
0
0
X X = 0 200 100
0 100 100

500
X0 y = 140
100
y0 y = 200
1. Calculez :
(a) La taille de lechantillon
Pn
Pn
(b)
x2i1
i=1 xi1 ;
Pn
Pni=1 2
(c)
xi2 ; i=1 xi2
Pi=1
n
(d)
i=1 xi1 xi2
2. Calculez la droite de regression des yi en xi1 et xi2 (avec constante).
3. Calculez la matrice variance-covariance des variables explicatives.
4. Calculez la matrice des correlations des variables explicatives.

Exercice 2.10 Retour au cas bivarie.


Calculez les droites de regression de

y en
x en

x
y

1. Si sur un graphique on a x en abscisse et y en ordonnee, quelle est la droite ayant la plus grande pente ?
(Attention la reponse depend de la valeur du coefficient de correlation)
2. Quelle est le point dintersection des deux droites (faites les calculs) ?

31

Chapitre 3

Rappel sur le calcul des probabilit


es,
les variables al
eatoires, et linf
erence
statistique
3.1
3.1.1

Probabilit
es
enement
Ev

Une experience est dite aleatoire si on ne peut pas predire a priori son resultat. On note un resultat
possible de cette experience aleatoire. Lensemble de tous les resultats possibles est note . Par exemple, si
on jette deux pi`eces de monnaie, on peut obtenir les resultats
= {(P, P, ), (F, P ), (P, F ), (F, F )} ,
avec F pour face et P pour pile. Un evenement est une assertion logique sur une experience aleatoire.
Formellement, un evenement est un sous-ensemble de .
Exemple 3.1 Lexperience peut consister `a jeter un de, alors
= {1, 2, 3, 4, 5, 6},
et un evenement, note A, est obtenir un nombre pair. On a alors
A = {2, 4, 6}.

Soient deux evenements A et B, si A B = , alors on dit quils sont mutuellement exclusifs.


Exemple 3.2 Par exemple, si on jette un de, levenement obtenir un nombre pair et levenement obtenir
un nombre impair ne peuvent pas etre obtenus en meme temps. Ils sont mutuellement exclusifs. Dautre
part, si lon jette un de, les evenements A : obtenir un nombre pair nest pas mutuellement exclusif avec
levenement B : obtenir un nombre inferieur ou egal `a 3. En effet, lintersection de A et B est non-vide et
consiste en levenement obtenir 2.
On appelle complementaire dun evenement
A = \A.
On va associer `a lensemble A de toutes les parties (ou sous-ensembles) de .
Exemple 3.3 Si on jette un pi`ece de monnaie alors = {P, F }, et
A = {, {F }, {P }, {F, P }} .

32

D
efinition 3.1 Les evenements A1 , . . . , An forment un syst`eme complet devenements, si ils constituent une
partition de , cest-`
a-dire si
S
tous les couples Ai , Aj sont mutuellement exclusifs quand i 6= j,
n
i=1 Ai = .

3.1.2

Axiomatique des Probabilit


es

D
efinition 3.2 Une probabilite P (.) est une application de A dans [0, 1], telle que :
Pr() = 1,
Pour tout ensemble denombrable devenements A1 , .., An tels que Ai Aj = , pour tout i 6= j,
n
!
n
[
X
Pr
Ai =
Pr(Ai ).
i=1

i=1

A partir des axiomes, on peut deduire les proprietes suivantes :


Pr() = 0,
Pr(A) = 1 Pr(A),
Pr(A) Pr(B) si A B,
Pr(A
B) = Pr(A)
S
Pn + Pr(B) Pr(A B),
n
Pr ( i=1 Ai ) i=1 Pr(Ai ),
Si A1 , . . . , An forment un syst`eme complet devenements, alors
n
X

Pr(B Ai ) = Pr(B).

i=1

3.1.3

Probabilit
es conditionnelles et ind
ependance

D
efinition 3.3 Soient deux evenements A et B, si Pr(B) > 0, alors
Pr(A|B) =

Pr(A B)
.
Pr(B)

D
efinition 3.4 Deux evenements A et B sont dits independants si
Pr(A|B) = Pr(A).
On peut montrer facilement que si A et B sont independants, alors
Pr(A B) = Pr(A)Pr(B).

3.1.4

Th
eor`
eme des probabilit
es totales et th
eor`
eme de Bayes

Th
eor`
eme 3.1 (des probabilites totales) Soit A1 , . . . , An un syst`eme complet devenements, alors
Pr(B) =

n
X

Pr(Ai )Pr(B|Ai ).

i=1

En effet,

n
X

Pr(Ai )Pr(B|Ai ) =

i=1

n
X

Pr(B Ai ).

i=1

Comme les evenements Ai B sont mutuellement exclusifs,


n
X
i=1

Pr(B Ai ) = Pr

n
[

(B Ai ) = Pr(B).

i=1

Th
eor`
eme 3.2 (de Bay`es) Soit A1 , . . . , An un syst`eme complet devenements, alors
Pr(Ai )Pr(B|Ai )
Pr(Ai |B) = Pn
.
j=1 Pr(Aj )Pr(B|Aj )
33

En effet, par le theor`eme des probabilites totales,


Pr(Ai )Pr(B|Ai )
Pr(B Ai )
Pn
=
= Pr(Ai |B).
Pr(B)
j=1 Pr(Aj )Pr(B|Aj )

3.2
3.2.1

Variables al
eatoires
D
efinition

La notion de variable aleatoire formalise lassociation dune valeur au resultat dune experience aleatoire.
D
efinition 3.5 Une variable aleatoire X est une application de lensemble fondamental dans R.
Exemple 3.4 On consid`ere une experience aleatoire consistant `a lancer deux pi`eces de monnaie. Lensemble
des resultats possibles est
= {(F, F ), (F, P ), (P, F ), (P, P )}.
Chacun des elements de a une probabilite 1/4. Une variable aleatoire va associer une valeur `a chacun des
elements de . Considerons la variable aleatoire representant le nombre de Faces obtenus :

0 avec une probabilite 1/4


1 avec une probabilite 1/2
X=

2 avec une probabilite 1/4.

3.2.2

Variables al
eatoires discr`
etes

D
efinition, esp
erance et variance
Une variable aleatoire discr`ete prend uniquement des valeurs enti`eres (de Z).
Une distribution de probabilite pX (x) est une fonction qui associe `a chaque valeur enti`ere une probabilite.
pX (x) = Pr(X = x), x Z.
La fonction de repartition est definie par
FX (x) = Pr(X x) =

pX (z).

zx

Lesperance mathematique dune variable aleatoire discr`ete est donne par


X
= E(X) =
xpX (x),
xZ

et sa variance

X
2
2 = var(X) = E {X E(X)} =
pX (x)(x )2 .
xZ

Variable indicatrice ou bernoullienne


La variable indicatrice X de param`etre p [0, 1] a la distribution de probabilite suivante :

1 avec une probabilite p


X=
0 avec une probabilite 1 p.
Lesperance vaut
= E(X) = 0 (1 p) + 1 p = p,
et la variance vaut
2 = var(X) = E(X p)2 = (1 p)(0 p)2 + p(1 p)2 = p(1 p).
Exemple 3.5 On tire au hasard une boule dans une urne contenant 18 boules rouges et 12 boules blanches. Si
X vaut 1 si la boule est rouge et 0 sinon, alors X a une loi bernoullienne de param`etre p = 18/(18+12) = 0.6.

34

Variable binomiale
Une variable X suit une loi binomiale de param`etre 0 < p < 1 et dexposant n, si
n
Pr(X = x) =
px (1 p)nx , x = 0, 1, . . . , n 1, n,
x
o`
u

n
x

n!
.
x!(n x)!

La somme de ces probabilites vaut 1, en effet


n
X

Pr(X = x) =

x=0

n
X
n
x=0

px (1 p)nx = {p + (1 p)} = 1.

Lesperance et la variance sont donnees par


E(X) = np,

var(X) = np(1 p).

Exemple 3.6 On tire au hasard avec remise et de mani`ere independante 5 boules dans une urne contenant
18 boules rouges et 12 boules blanches. Si X est le nombre de boules rouges obtenues, alors X a une loi
binomiale de param`etre p = 18/(18 + 12) = 0.6, et dexposant n = 5. Donc,

5
Pr(X = x) =
0.6x 0.45x , x = 0, 1, . . . , 4, 5,
x
ce qui donne
Pr(X = 0) =
Pr(X = 1)

Pr(X = 2)

Pr(X = 3)

Pr(X = 4)

Pr(X = 5)

5!
0.60 0.450
0!(5 0)!
5!
0.61 0.451
1!(5 1)!
5!
0.62 0.452
2!(5 2)!
5!
0.63 0.453
3!(5 3)!
5!
0.64 0.454
4!(5 4)!
5!
0.65 0.455
5!(5 5)!

= 1 0.45 = 0.01024
= 5 0.61 0.44 = 0.0768
= 10 0.62 0.43 = 0.2304
= 10 0.63 0.42 = 0.3456
= 5 0.64 0.41 = 0.2592
= 1 0.65 = 0.07776

Variable de Poisson
La variable X suit une loi de Poisson, de param`etre R+ si
Pr(X = x) =

e x
, x = 0, 1, 2, 3, . . . .
x!

Lesperance et la variance dune loi de Poisson sont egales au param`etre


E(X) = ,

var(X) = .

35

3.2.3

Variable al
eatoire continue

D
efinition, esp
erance et variance
Une variable aleatoire continue prend des valeurs dans R ou dans un intervalle de R.
La probabilite quune variable aleatoire continue soit inferieure `a une valeur particuli`ere est donnee par
sa fonction de repartition.
Pr(X x) = F (x).
La fonction de repartition dune variable aleatoire continue est toujours :
derivable,
positive : F (x) 0, pour tout x,
croissante,
limx F (x) = 1,
limx F (x) = 0.
On a
Pr(a X b) = F (b) F (a).
La fonction de densite dune variable aleatoire continue est la derivee de la fonction de repartition en un
point
dF (x)
f (x) =
.
dx
Une fonction de densite est toujours :
positive : f (x) 0,R pour tout x,

daire egale `a un : f (x)dx = 1.


On a evidemment la relation :
Z
b

F (b) =

f (x)dx.

La probabilite que la variable aleatoire soit inferieure `a une valeur quelconque vaut :
Z a
Pr(X a) =
f (x)dx = F (a)

La probabilite que la variable aleatoire prenne une valeur comprise entre a et b vaut
Z b
Pr(a X b) =
f (x)dx = F (b) F (a).
a

Si la variable aleatoire est continue, la probabilite quelle prenne exactement une valeur quelconque est nulle :
Pr(X = a) = 0.
Lesperance dune variable aleatoire continue est definie par :
Z
E(X) =
xf (x)dx,

et la variance

var(X) =

(x )2 f (x)dx.

Variable uniforme
Une variable est dite uniforme dans un intervalle [a,b], (avec a < b) si sa repartition est :

si x < a
0
(x a)/(b a) si a x b
F (x) =

1
si x > b.
Sa densite est alors

0
1/(b a)
f (x) =

0
36

si x < a
si a x b
si x > b.

On peut montrer que


= E(X) =

b+a
2

et

(b a)2
.
12
Les logiciels gen`erent en general des variables aleatoires uniformes dans [0,1].
2 = var(X) =

Variable normale
Une variable aleatoire X est dite normale si sa densite vaut

2
1
1 x
.
f,2 (x) = exp
2

(3.1)

De mani`ere synthetique, pour noter que X a une distribution normale de moyenne et de variance 2 on
ecrit :
X N (, 2 ).
On peut montrer que
E(X) = ,
et

var(X) = 2 .

La fonction de repartition vaut


Z
F,2 (x) =

3.2.4

2
1
1 u
exp
du.
2

Distribution bivari
ee

Deux variables aleatoires peuvent avoir une distribution jointe.


Cas continu
Soit deux variables aleatoires X et Y continues, leur distribution de densite f (x, y) est une fonction
continue, positive, et telle que
Z Z
f (x, y)dxdy = 1.

La fonction de repartition jointe est definie par


Z

F (x, y) = Pr(X x et Y y) =

f (u, v)dvdu.

On appelle densites marginales les fonctions


Z
Z
fX (x) =
f (x, y)dy, et fY (y) =

f (x, y)dx.

Avec les distributions marginales, on peut definir les moyennes marginales, et les variances marginales :
Z
Z
X =
xfX (x)dx, et Y =
yfY (y)dy,

Z
2
X
=

Z
(x X )2 fX (x)dx, et Y2 =

(y Y )2 fY (y)dy.

On appelle densites conditionnelles, les fonctions


f (x|y) =

f (x, y)
f (x, y)
et f (y|x) =
.
fY (y)
fX (x)
37

Avec les distributions conditionnelles, on peut definir les moyennes conditionnelles, et les variances conditionnelles :
Z
Z
X (y) =
xf (x|y)dx, et Y (x) =
yf (y|x)dy,
Z
2
X
(y) =

Z
2

{x X (y)} f (x|y)dx, et Y2 (x) =

{y Y (x)} f (y|x)dy.

Enfin, la covariance entre X et Y est definie par


Z Z
xy = cov(X, Y ) =
(x X )(y Y )f (x, y)dxdy.

3.2.5

Ind
ependance de deux variables al
eatoires

Deux variables aleatoires X et Y sont dites independantes, si


Pr(X x et Y y) = Pr(X x)Pr(Y y), pour tout x, y R.
Si X et Y sont discr`etes, cela implique que
Pr(X = x et Y = y) = Pr(X = x)Pr(Y = y), pour tout x, y Z.
Si X et Y sont continues, en notant fX (.) et fY (.) les fonctions de densite marginales respectives de
X et Y , et en notant fXY (x, y) la densite jointe des deux variables, alors X et Y sont independants si
fXY (x, y) = fX (x)fY (y), x, y R.

3.2.6

Propri
et
es des esp
erances et des variances

De mani`ere generale, pour des variables aleatoires X et Y , et avec a et b constants :


E(a + bX) = a + bE(X)
E(aY + bX) = aE(Y ) + bE(X)
var(a + bX) = b2 var(X).
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ).
De plus, si X et Y sont independantes :
E(XY ) = E(X)E(Y )
cov(X, Y ) = 0,
var(X + Y ) = var(X) + var(Y ).
Enfin, il est possible de calculer lesperance et la variance dune somme de variables aleatoires independantes,
et identiquement distribuees.
Th
eor`
eme 3.3 Soit X1 , . . . , Xn une suite de variables aleatoires, independantes et identiquement distribuees
et dont la moyenne et la variance 2 existent et sont finies, alors si
n

X
= 1
X
Xi ,
n i=1
on a
= , et var(X)
=
E(X)

2
.
n

D
emonstration

=E
E X
et


= var
var X

1X
Xi
n i=1
n

1X
Xi
n i=1

!
=

1X
1X
E (Xi ) =
= .
n i=1
n i=1

n
n
1 X
1 X 2
2
.
var
(X
)
=
=
i
2
2
n i=1
n i=1
n

2
38

3.2.7

Autres variables al
eatoires

Variable khi-carr
ee
Soit une suite de variables aleatoires independantes, normales, centrees reduites, X1 , . . . , Xp , (cest-`a-dire
de moyenne nulle et de variance egale `a 1), alors la variable aleatoire
2p =

p
X

Xi2 ,

i=1

est appelee variable aleatoire khi-carre `a p degres de liberte.


Il est possible de montrer que
E(2p ) = p,
et que

var(2p ) = 2p.

Variable de Student
Soit une variable aleatoire X normale centree reduite, et une variable aleatoire khi-carre 2p `a p degres
de liberte, independante de X, alors la variable aleatoire
X

tp = q

2p /p

est appelee variable aleatoire de Student `a p degres de liberte.


Variable de Fisher
Soient deux variables aleatoires khi-carres independantes 2p , 2q , respectivement `a p et q degres de liberte,
alors la variable aleatoire
2p /p
Fp,q = 2
q /q
est appelee variable aleatoire de Fisher `a p et q degres de liberte.
Remarque 3.1 Il est facile de montrer que le carre dune variable de Student `a q degres de liberte est une
variable de Fisher `a 1 et q degres de liberte.

3.2.8

Variable normale multivari


ee

Le vecteur de variables aleatoires X = (X1 , . . . , Xp )0 a une distribution normale multivariee de moyenne

= (1 , . . . , p )0 et de matrice variance-covariance (on suppose par simplicite que est de plein rang),
si sa fonction de densite est donnee par
fX (x) =

1
(2)p/2 ||1/2

1
exp (x )0 1 (x ) ,
2

pour tout x Rp .
Remarque 3.2 Si p = 1, on retrouve lexpression (3.1).

39

(3.2)

Un cas particulier est important : supposons que la matrice variance-covariance peut secrire =
diag(12 , . . . , p2 ), ce qui signifie que toutes les composantes du vecteur X sont non-correlees. Dans ce cas,

1
1
0 1
fX (x) =
exp (x ) (x )
2
(2)p/2 ||1/2

1
1
0 1
Qp
exp (x ) (x )
=
2
(2)p/2 ( j=1 j2 )1/2

p
2
X
1
(x

)
j
j

Qp
=
exp
2
2
(2)p/2 ( j=1 j )
j
j=1
#
"
p
Y
1
(xj j )2
Qp
=
exp
2j2
(2)p/2 ( j=1 j ) j=1
#
"
p
Y
1
(xj j )2
=
exp
2j2
(2)1/2 j
j=1
=

p
Y

fXj (xj ),

j=1

o`
u

1
(xj j )2
fXj (xj ) =
exp
,
2 2
(2j2 )1/2

est la densite de la variable Xj . On constate que sil y a absence de correlation entre les variables normales,
alors la densite du vecteur normal peut secrire comme un produit de densites. Dans le cas multinormal (et
seulement dans ce cas), labsence de correlation implique donc lindependance des variables aleatoires.
De mani`ere generale, si X est un vecteur de variables aleatoires de moyenne et de matrice variancecovariance , et si A est une matrice q p de constantes, alors
E (AX) = AE (X) = A,
et

var (AX) = Avar (X) A0 = AA0 .


Dans le cas normal, on a en plus la propriete suivante :

Propri
et
e 3.1 Toute combinaison lineaire dun vecteur de variables aleatoires normales est normal (Cependant sa matrice variance-covariance nest pas necessairement de plein rang).
Donc, si X est un vecteur multinormal de moyenne et de matrice variance-covariance et si A est
une matrice q p de constantes, alors on ecrit
X N (, ) ,
et on a

AX N (A, AA0 ) .

Comme une projection est une combinaison lineaire, on a aussi que :


Propri
et
e 3.2 Toute projection dun vecteur des variables aleatoires normales est normale.

3.3
3.3.1

Inf
erence statistique
Mod
elisation

La modelisation est une approche qui consiste `a approcher la realite par un mod`ele plus simple. Le
mod`ele ne pourra jamais representer compl`etement la realite dans toute sa complexite. Le mod`ele est une
simplification. La maxime des modelisateurs dit que tous les mod`eles sont faux, mais certains sont utiles.
Comme le mod`ele ne peut tout decrire, il restera toujours une partie inexpliquee qui sera supposee aleatoire.
Le calcul des probabilites est alors introduit pour prendre en compte la partie inexpliquee par le mod`ele.
Dans la demarche de la modelisation, la randomization est donc introduite `a titre dhypoth`ese.
40

3.3.2

Intervalle de confiance

Pour ne pas donner s`echement la valeur dun estimateur b dun param`etre , on pref`ere produire un
intervalle [L , L+ ] dans lequel pourrait se trouver le param`etre inconnu avec une certaine probabilite que
b
lon note 1 ( est une probabilite petite). On relativise ainsi linformation donnee par lestimateur .
Pour pouvoir construire un intervalle de confiance, il faut connatre la distribution de probabilite de b (ou
au moins une approximation de cette distribution de probabilite).

3.3.3

Tests dhypoth`
eses

Tests dhypoth`
eses simples
Le test dhypoth`eses consiste `a enoncer deux hypoth`eses sur un param`etre , dont une seule est vraie.
Par exemple, on peut tester
lhypoth`ese nulle H0 que = 0 ,
lhypoth`ese alternative H1 que = 1 .
Lobjectif est de prendre une decision sur H0 qui consistera `a rejeter H0 (RH0 ) ou `a ne pas rejeter H0
(RH0 ). La decision est prise sur base des donnees observees, et peut donc conduire `a deux types derreurs :
Rejeter H0 alors que H0 est vraie, cette erreur est appelee erreur de premi`ere esp`ece.
Ne pas rejeter H0 alors que H0 est fausse, cette erreur est appelee erreur de deuxi`eme esp`ece.
Tab. 3.1 Erreur de premi`ere et seconde esp`ece
H0 est vraie
H0 est fausse
RH0 Erreur de 1`ere esp`ece Decision correcte
RH0 Decision correcte
Erreur de 2`eme esp`ece

La probabilite de commettre une erreur de premi`ere esp`ece est notee , et la probabilite de commettre
une erreur de deuxi`eme esp`ece est notee . Dans la theorie des tests dhypoth`eses, on fixe petit.
La decision prise sur base des donnees observees ne peut pas etre exacte, on calcule donc les probabilites
de commettre les erreurs.

RH0
RH0

Tab. 3.2 Probabilite de commettre les erreurs


H0 est vraie
H0 est fausse
Pr(RH0 |H0 vraie) =
Pr(RH0 |H0 fausse) = 1
Pr(RH0 |H0 vraie) = 1 Pr(RH0 |H0 fausse) =

La quantite
Pr(RH0 |H0 fausse) = Pr(RH0 |H1 vraie) = 1 ,
est appelee la puissance du test. Pour construire un test dhypoth`eses, on fixe petit (par ex : 0,05), et on
cherche la r`egle de decision la plus puissante, cest-`a-dire, celle qui maximise 1 .
Tests dhypoth`
eses composites
En pratique, on ne teste pas des hypoth`eses simples, mais des hypoth`eses composites. En effet, les
questions que lon se pose sur le param`etre sont du type Le param`etre est-il strictement plus grand
quune certaine valeur 0 ? Ce type dhypoth`ese composite am`ene `a la construction de test du type :

H0 : = 0
H0 : 0
H0 : 0
1)
2)
3)
H1 : 6= 0
H1 : < 0
H1 : > 0
Remarque 3.3 Legalite doit toujours etre dans lhypoth`ese nulle, donc si la question est : est-il strictement plus grand que 0 ? on posera lhypoth`ese alternative H1 : > 0 et donc H0 : 0 .

41

Il existe des techniques statistiques qui permettent de construire des tests puissants. Le test aboutit `a
la construction dune statistique de test notee T et dun intervalle dacceptation que lon note IA et qui
est construit pour un particulier. Souvent la statistique de test est lestimateur b de . La decision qui se
prend en general en fonction dun estimateur de T est du type :
On rejette H0 si T
/ IA
On ne rejette pas H0 si T IA

Exercices
Exercice 3.1 Soient X, un vecteur de Rp , de variables aleatoires de moyenne et de matrice variancecovariance et A est une matrice qp de constantes. Montrez que E (AX) = A et que var (AX) = AA0 .
Exercice 3.2 Dans une ville, on evalue `a 20% les individus qui approuvent la politique economique du
president, les 80% restant sy opposent.
1. Quelle est la probabilite que parmi 8 personnes choisies au hasard, 3 exactement approuvent la politique
economique ?
2. Quelle est la probabilite que parmi 8 personnes choisies au hasard, un nombre inferieur ou egal `a 3
personnes approuvent la politique economique ?
3. Un meeting organise par les opposants a reuni 10% des opposants et 1% des individus favorables.
Determinez les probabilites quun participant au meeting, choisi au hasard, soit un opposant.
4. Donnez les expressions de lesperance et de la variance de la loi de probabilite utilisee.
5. Calculez les valeurs de lesperance et de la variance.

42

Chapitre 4

Le mod`
ele lin
eaire g
en
eral
4.1
4.1.1

Le mod`
ele
D
efinition du mod`
ele lin
eaire g
en
eral

En econometrie, on ne consid`ere pas simplement que les variables sont observees sur des unites statistiques. On postule lexistence dun mod`ele qui regit les relations entre les variables. La relation la plus simple
est une relation lineaire, entre les variables explicatives et la variable dependante.
Le mod`ele lineaire general secrit
p
X
yi =
xij j + i ,
j=1

o`
u
xij represente la valeur prise par la ji`eme variable sur lindividu i, les xij sont supposes non-aleatoires,
j est la ji`eme composante du coefficient de regression,
les i sont des variables aleatoires telles que
E(i ) = 0 pour tout i,
E(i k ) = 0 pour tout i 6= k,
E(2i ) = 2 pour tout i.

4.1.2

Hypoth`
eses du mod`
ele lin
eaire g
en
eral

Avec le mod`ele lineaire, on enonce un ensemble dhypoth`eses quil est utile dexpliciter :
La relation entre les variables explicatives et la variable dependante y est lineaire.
Il ny a ni derreurs de mesure, ni derreurs dechantillonnage sur les variables explicatives, autrement
dit les xij ne sont pas aleatoires.
Les termes derreur i sont desperances nulles.
Les termes derreur i sont non-correles.
Tous les i ont la meme variance (homoscedasticite).

4.1.3

Donn
ees observ
ees, et formulation matricielle

En pratique, on observe n realisations du mod`ele. On peut donc ecrire le mod`ele sous forme matricielle.
y = X + .
o`
u
X est une matrice de constantes (non-aleatoire) de plein rang de dimension n p des xij .
est un vecteur (inconnu) de Rp .
est un vecteur (inconnu) de dimension n de variables aleatoires i .
Seuls y et X sont observes.
Les hypoth`eses du mod`ele lineaire general peuvent etre reformulees :
La matrice X est nest pas aleatoire,

43

La matrice X est supposee de plein rang (Dans le cas contraire, on dit quil y a multicolinearite, cest`a-dire quau moins une des colonnes de la matrice peut sexprimer comme une combinaison lineaire
des autres colonnes),
E() = 0,
var(i ) = 2 (homoscedasticite).
cov(i , j ) = 0 (toutes les correlations sont nulles).
Remarque 4.1 La somme des termes derreur

4.1.4

Pn

i=1 i ,

nest pas necessairement nulle.

Autre pr
esentation du mod`
ele lin
eaire g
en
eral

Une presentation plus synthetique du mod`ele lineaire general est la suivante : soit y un vecteur aleatoire
de Rn tel que
E(y) = X o`
u X est une matrice n p et Rp ,
2
var(y) = I o`
u I est une matrice identite n n et 2 est un scalaire.
Cette formulation est equivalente `a la precedente.

4.2

Estimation du mod`
ele

4.2.1

Estimation par les moindres carr


es (ordinaires)

Lobjectif est destimer et 2 . La methode des moindres carres consiste `a minimiser en , lexpression

0 = (y X)0 (y X).
b de , qui se note
La solution (voir section 2.2.2) fournit lestimateur des moindres carres (ordinaires)
b = (X0 X)1 X0 y.

b est une variable aleatoire, car il depend de y qui est une variable aleatoire.
Lestimateur
D
efinition 4.1 Un estimateur est dit sans biais si son esperance mathematique est egale au param`etre `
a
estimer, quelle que soit la valeur de ce param`etre.
b = (X0 X)1 X0 y est sans biais.
Th
eor`
eme 4.1 Lestimateur
D
emonstration
Comme
b = (X0 X)1 X0 y = (X0 X)1 X0 (X + ) = (X0 X)1 X0 X + (X0 X)1 X0 = + (X0 X)1 X0 .

On a
b)
E(

E + (X0 X)1 X0

+ (X0 X)1 X0 E ()
= .

2
b ) = 2 (X0 X)1 .
Th
eor`
eme 4.2 var(

D
emonstration
Comme

b = + (X0 X)1 X0 ,

44

on a
b)
var(

var (X0 X)1 X0

= (X0 X)1 X0 var {} X(X0 X)1


= (X0 X)1 X0 I2 X(X0 X)1
= 2 (X0 X)1 X0 X(X0 X)1
|
{z
}
=

I
2
0
1
(X X) .

2
b = (X0 X)1 X0 y est le meilleur (au sens de la plus petite
Th
eor`
eme 4.3 (de Gauss-Markov) Lestimateur
variance) estimateur lineaire en y sans biais de .
D
emonstration

Soit = Cy, un estimateur lineaire. En posant B = C (X0 X)1 X0 , on a = (B + (X0 X)1 X0 )y.
Comme

E( ) = E (B + (X0 X)1 X0 )(X + ) = (B + (X0 X)1 X0 )X = BX + ,

pour que soit sans biais, il faut que

BX + = ,

cest-`a-dire que

BX = 0,

pour tout Rp . Donc,


BX = 0.

(4.1)

Calculons maintenant la variance de :

var( )

= (B + (X0 X)1 X0 )var(y)(B + (X0 X)1 X0 )0


= (B + (X0 X)1 X0 )I2 (B + (X0 X)1 X0 )0

BB0 + BX(X0 X)1 + (X0 X)1 X0 B0 +(X0 X)1 2 .


=

|
{z
} |
{z
}
0

Par (4.1), on a finalement

var( ) = BB0 + (X0 X)1 2 .

(4.2)

La matrice BB est semi-definie positive. Tous les elements de sa diagonale sont positifs. Donc, le meilleur
estimateur est obtenu quand B = 0.
2
b . Le vecteur des termes derreur
Comme X est connu, il suffira destimer 2 pour estimer la variance de
peut etre estime par :
b = y X(X0 X)1 X0 y = P y.
b = y X
e=
X
Notre objectif est de calculer E(e0 e). Pour obtenir le resultat, on utilisera le theor`eme general suivant.
Lemme 4.1 Soit un vecteur u compose de n variables aleatoires desperances nulles, et tel que var(u) = u2 I,
et A une matrice symetrique non-aleatoire, alors
E(u0 Au) = u2 trace(A)
D
emonstration
E(u0 Au) =

n
X

n X
n
X
aii E(u2i ) +
aij E(ui uj ) .
| {z }
| {z }
i=1
i=1 j=1
j6=i
0
u2

45

Or E(ui uj ) = 0, quand j 6= i. Donc,


n
X

E(u0 Au) =

aii E(u2i ) =

i=1

n
X

aii u2 = u2 trace(A).

i=1

2
Grace au lemme 4.1, on peut calculer lesperance de e0 e.
b , alors
Th
eor`
eme 4.4 Soit e = y X
E(e0 e) = (n p)2
D
emonstration
Nous avons vu en section 2.1 que e peut egalement secrire
e = (I PX ) y,

(4.3)

o`
u PX est un projecteur (cest-`a-dire une matrice idempotente) sur le sous-espace engendre par les colonnes
de X :
PX = X(X0 X)1 X0 .
Donc,

e = (I PX ) y = (I PX ) (X + ) = X PX X + PX .

Or PX X = X, ce qui donne
On obtient

e = PX = (I PX ).
e0 e = 0 (I PX )0 (I PX ),

et comme (I PX ) est symetrique et idempotente, on a


e0 e = 0 (I PX ) = 0 I 0 PX .
Par le lemme 4.1, on obtient

E(e0 e) = 2 trace(I) 2 trace(PX ).

Or trace(I) = n et trace(PX ) = p, car la trace dune matrice idempotente est egale `a son rang. Donc
E(e0 e) = n2 p2 = (n p)2 .
2
Le theor`eme 4.4 nous permet de construire un estimateur sans biais pour 2 qui est :

b2 =

e0 e
.
np

La quantite n p est appelee nombre de degres de liberte, et est le rang de (I PX ).


Tab. 4.1 Tableau recapitulatif
Param`etre

Estimateur
b
= (X0 X)1 X0 y
b )0 (y X
b)
(y X

b2 =
np

46

Variance
0

(X X)

Variance estimee
(X0 X)

b2

4.2.2

Estimateurs du maximum de vraisemblance

Une autre approche consiste `a faire une hypoth`ese sur la distribution de probabilite de . On suppose
que les i sont des variables aleatoires independantes ayant des distributions normales de moyennes nulles
et de variance 2 .
On peut donc ecrire que le vecteur a une distribution multinormale :

N 0, I2 ,
et, comme y = X + ,

y N X, I2 ,

et donc

y X N 0, I2 .

De (3.2), on a
fy (u)

=
=

1
1
0 1
exp 2 (u X) I (u X)
2
(2)n/2 |I2 |1/2

1
1
0
exp 2 (u X) (u X) , pour tout u Rn .
2
(22 )n/2

On se trouve dans un probl`eme parametrique classique. Comme y et X sont observes, on va estimer les
param`etres et 2 .
La methode du maximum de vraisemblance consiste `a estimer le param`etre par lestimateur qui maximise
la densite pour les donnees observees. La fonction de vraisemblance secrit :
L(, 2 ) = fy (y) =

1
n/2
(22 )

exp

(y X)0 (y X)
.
22

Il est souvent plus facile (et cest le cas ici) de chercher `a maximiser le logarithme de la fonction de vraisemblance (le resultat sera le meme) plutot que la fonction elle-meme. Le logarithme de la vraisemblance
vaut :
n
(y X)0 (y X)
n
`(, 2 ) = log L(, 2 ) = log(2) log(2 )
.
2
2
22
On obtient le maximum en annulant les derivees partielles par rapport aux param`etres. On obtient
X0 y X0 X
`(, 2 )
= 0,
=
2

et

`(, 2 )
n
1
= 2 + 4 (y X)0 (y X) = 0.
2
2
2

La solution du maximum de vraisemblance pour est donc la meme que la solution des moindres carres, et
vaut :
b = (X0 X)1 X0 y.

Lestimateur du maximum de vraisemblance de 2 est donne par


2

bM
V =

0
1
b )0 (y X
b) = e e.
(y X
n
n

2
Lestimateur
bM
e.
V est biais

4.2.3

Propri
et
es des estimateurs du maximum de vraisemblance

Rappelons quelques proprietes des estimateurs :


b = pour toute valeur de .
Un estimateur b dun param`etre est sans biais, si E()
Un estimateur est efficace ou de variance minimum si sa variance est plus petite ou egale que celles de
tous les estimateurs du param`etre.
47

Un estimateur b est convergent, sil converge en probabilite vers le param`etre `a estimer, cest-`a-dire
lim Pr(|b | > ) = 0,

o`
u est une quantite arbitrairement petite.
Une statistique est exhaustive si elle epuise toute linformation relative au param`etre.
La methode du maximum de vraisemblance fournit des estimateurs ayant les proprietes suivantes :
Sil existe une statistique exhaustive, alors lestimateur du maximum de vraisemblance en depend.
b est lestimateur du maximum de
Si b est un estimateur du maximum de vraisemblance de alors f ()
vraisemblance de f ().
Si lestimateur du maximum de vraisemblance admet une solution unique, alors cet estimateur est
convergent et asymptotiquement efficace du param`etre. De plus, cet estimateur converge en loi vers
une normale.
Cependant, lestimateur du maximum de vraisemblance nest pas necessairement sans biais. Lestimateur du
maximum de vraisemblance de 2 est en effet biaise.

4.2.4

Distribution de probabilit
e des estimateurs

Dans le mod`ele lineaire general avec des termes derreur normaux, on a


b = (X0 X)1 X0 y = (X0 X)1 X0 (X + ) = + (X0 X)1 X0 ,

b est une combinaison lineaire de variables aleatoires normales i.i.d. Or une combinaison lineaire de
Donc,
variables normales independantes est aussi une variable normale. Donc
b N (, (X0 X)1 2 ).

(4.4)

Lemme 4.2 Soient u un vecteur aleatoire de distribution normale de Rn , de moyennes nulles et de variance
I, et une matrice orthogonale de dimension n n, alors
u N (0, I), et 0 u N (0, I)
D
emonstration
On a u N (0, I0 ), et 0 u N (0, 0 I) Or, 0 = 1 , donc I0 = I.
Linference sur param`etres est basee sur le resultat general suivant.

Th
eor`
eme 4.5 Soit un vecteur aleatoire u de distribution normale, de moyennes nulles et de variance I.
Si P est symetrique, idempotente et de rang p, alors u0 Pu est une variable 2p `
a p degres de liberte.
D
emonstration
La matrice P admet une decomposition en valeurs propres et vecteurs propres. En vertu du theor`eme 1.2,
si represente la matrice diagonale ayant les valeurs propres i de P sur sa diagonale, et est une matrice
orthogonale contenant les n vecteurs propres de P, alors on peut ecrire :
P = 0 .
La forme quadratique peut secrire

u0 Pu = u0 0 u = v0 v,

o`
u v = 0 u. En vertu du lemme 4.2, v N (0, I). En vertu du theor`eme 1.4, comme P est idempotente et
de rang p, P a p valeurs propres egales `a 1 et n p valeurs propres egales `a 0. La forme quadratique
0

v v =

n
X

vi2 i

i=1

n
X

vi2

i=1|i =1

peut donc secrire comme une somme de p carres de variables aleatoires normales centrees reduites independantes,
ce qui definit une 2p .
2
Corrolaire 4.1 Dans le mod`ele lineaire general avec des termes derreur normaux,
b )0
(

X0 X b
( ) 2p .
2
48

En effet,
b = (X0 X)1 X0 y

1
= (X0 X) X0 X +
1
= + (X0 X) X0
1
= (X0 X) X0 ,

donc
b )0
(

0
X0 X b
0

1 X X
1
1
0
0
0
0
X (X0 X) X0 .
(

)
=

X
(X
X)
(X
X)
X

=
2
2

Comme la matrice X (X0 X) X0 est symetrique idempotente et de rang p et que 0 / est un vecteur
multinormal non-correle, le corollaire sobtient directement par le theor`eme 4.5.
2
Corrolaire 4.2 Dans le mod`ele lineaire general avec des termes derreur normaux,
e0 e
2np .
2
En effet,

b = y X (X0 X)1 X0 y = P
e = y X
X
1

0
o`
u P
X = I X (X X)

X0 . Or P
X est une matrice idempotente de rang n p. On obtient

0 0 0
e0 e
=
P P
=
P
2np .
2
X X
X
b et
Lindependance de
b2 se montre grace au resultat suivant :
Th
eor`
eme 4.6 Soient les matrices B (p n) et A (n n) et un vecteur aleatoire u N (, u2 I), alors les
p formes lineaires Bu sont independantes de la forme quadratique u0 Au si BA = 0.
Corrolaire 4.3 Dans le mod`ele lineaire avec des termes derreur normaux,
b est independant de e0 e
1.
b est independant de
2.
b2 =

e0 e
np

0
En effet, e0 e = 0 P
u P
X o`
X = I X (X X)
qui implique directement le corollaire.

b = (X0 X)1 X0 or (X0 X)1 X0 P = 0, ce


X0 et
X

Th
eor`
eme 4.7 Soient deux matrices symetriques C (n n) et A (n n) et un vecteur aleatoire u
N (, u2 I), alors les deux formes quadratiques u0 Cu et u0 Au sont independantes si CA = 0.

4.2.5

Synth`
ese des r
esultats

En resume, si y = X + est un mod`ele lineaire general avec des termes derreur normaux :
b et

b2 sont convergents, exhaustifs, efficaces et sans biais,
b et

b2 sont independants,
b = N (, (X0 X)1 2 )

(n p)b
2
e0 e
2

= 2 np ,
2

0
0X X b
b
( ) 2 ( ) 2p .

49

Exercices
Exercice 4.1 Soit une suite de variables aleatoires (v.a.) independantes et identiquement distribuees (i.i.d.)
de loi N (, 2 )
1. On consid`ere que 2 est connue.
Estimez par la methode du maximum de vraisemblance.
2. On consid`ere que est connue.
Estimez 2 par la methode du maximum de vraisemblance.
3. On consid`ere que 2 et sont inconnues.
Estimez et 2 par la methode du maximum de vraisemblance.

Exercice 4.2 On se place dans le cadre du mod`ele lineaire general (MLG) avec la normalite des erreurs.

1. Ecrivez
la fonction de vraisemblance quand

1
..
.

X=
1
.
..
1

x1
..
.

xi

..
.
xn

1
.
2

2. Ecrivez
la de mani`ere scalaire (et non sous la forme matricielle).
3. Annulez les derivees partielles par rapport `a 1 , 2 et 2 .

Exercice 4.3 Soit une suite de v.a. X1 , . . . , Xn i.i.d. dont la densite dun Xi est donne par
1
si 0 xi ,

fxi (xi ) =
0 sinon.

(4.5)

1. Dessinez la fonction de densite et la fonction de repartition de Xi .


2. Quelle est la densite jointe du vecteur X = (X1 , . . . , Xi , . . . , Xn ) ?
3. Donnez la fonction de vraisemblance.
4. Estimez par maximum de vraisemblance.
5. Donnez les fonctions de densite et de repartition de lestimateur du maximum de vraisemblance.
6. Calculez lesperance de lestimateur du maximum de vraisemblance.
7. Si lestimateur est biaise, faites une correction de non biais.
8. Soit deux estimateurs de lesperance des Xi : la moyenne des Xi sur lechantillon et lestimateur du
maximum de vraisemblance de debiaise et divise par deux. Quel est le plus efficace ?

50

Chapitre 5

Inf
erence dans le mod`
ele lin
eaire
5.1

Intervalle de confiance sur un coefficient de r


egression

Dans le chapitre precedent nous avons vu que


1
bj N (j , [(X0 X) ]jj 2 ),
1

o`
u [(X0 X) ]jj est la composante correspondant `a la j`eme ligne et `a la j`eme colonne de la matrice (X0 X)
On obtient donc que
bj j
q
N (0, 1).
1
[(X0 X) ]jj 2
On a egalement que

e0 e
(n p)b
2
=
2np .
2
2

De plus bj est independant de


b2 .
La quantite

,s

bj j
[(X0 X)

]jj 2

(n p)b
2
/(n p)
2

peut donc etre vue comme un rapport dune normale centree reduite sur la racine carree dune khi-carree
divisee par son nombre de degres de liberte, ce qui definit une variable de Student `a n p degres de liberte.
En simplifiant, on obtient que
b j
q j
tnp ,
1

b [(X0 X) ]jj
o`
u tnp est une variable aleatoire de Student `a n p degres de liberte, ce qui implique que

bj j

Pr t1/2,np q
t1/2,np = 1 ,
1
0

b [(X X) ]jj
o`
u t1/2,np est le quantile dordre 1 dune variable aleatoire de Student `a n p degres de liberte.
Apr`es quelques calculs, on a

q
q
1
1
b [(X0 X) ]jj = 1 ,
Pr bj t1/2,np
b [(X0 X) ]jj j bj + t1/2,np
ce qui definit lintervalle de confiance de niveau , donne par :

q
q
1
1
b [(X0 X) ]jj .
IC(1 ) = bj t1/2,np
b [(X0 X) ]jj ; bj + t1/2,np

51

5.2
5.2.1

Test dun seul coefficient de r


egression
Construction du test

Le probl`eme consiste `a tester la valeur dun coefficient de regression particulier

H0 : j = j0
H1 : j 6= j0 .
Sous H0 , bj N (j0 , 2 (bj )) o`
u

h
i
1
2 (bj ) = (X0 X) 2

jj

b ) = (X0 X)
est simplement la composante correspondante `a la ji`eme ligne et la ji`eme colonne de var(
2 b
On peut donc estimer simplement (j ) par
h
i
1 2

b2 (bj ) = (X0 X)
b
.

2 .

jj

Rappelons que
b2 et bj sont independants, et que
(n p)b
2
2np .
2
Donc

h
i
1 2
(n p) (X0 X)
b
b
(n p)b
(j )
(n p)b
2
jj
h
i
=
2np .
=
1
2
2 (bj )
(X0 X) 2
2

jj

De plus,

bj j0
N (0, 1)
(bj )

Sous H0 , la statistique
bj j0

bj )
(

t= q

(np)b
2
2 (np)

(bj j0 )/(bj )
bj j0
p
=
.

b2 /2

b(bj )

a donc, sous H0 , une distribution de Student `a n p degres de liberte. On rejette H0 si


|t| > t1/2,np .
o`
u t1/2,np represente le quantile dordre /2 dune variable aleatoire de Student `a n p degres de liberte.

5.2.2

Mod`
ele lin
eaire avec uniquement une constante

Le test dhypoth`ese sur la moyenne peut etre vu comme un cas particulier dun test sur le coefficient de
regression.
Soit y1 , . . . , yi , . . . , yn une suite de n variables aleatoires independantes, telles que yi N (, 2 ), ce qui
peut secrire sous la forme dun mod`ele lineaire
yi = + i , i = 1, . . . , n,
avec i N (0, 2 ), et les i independants. Sous forme matricielle, on ecrit
y = 1 + ,
o`
u 1 est un vecteur colonne de Rn compose de uns, et N (0, I 2 ). On obtient alors
1

b = (10 1)

10 y =

52

1X
yi = y,
n i=1

Les valeurs ajustees valent yi = y et les residus estimes ei = yi y. Lestimateur de 2 vaut


n

b2 =

e0 e
1 X
=
(yi y)2 ,
n1
n 1 i=1

var(b
) = (10 1)

2 =

2
,
n

var(b
c ) = (10 1)

b2 =

b2
.
n

Par le corollaire 4.3,


b et
b2 sont independants. De plus on a, par lexpression (4.4) :

2
1
.

b N , (10 1) 2 = N ,
n
Donc,

b
N (0, 1) .
/ n

d=
En outre, on peut ecrire

(n 1)b
2

= Pc ,
2


o`
u Pc la matrice idempotente de rang n 1 qui centre les valeurs :

1 1/n 1/n
1/n
1/n 1 1/n 1/n

110

1/n 1 1/n
Pc = I
= 1/n

n
..
..
..

.
.
.
K=

1/n

1/n

1/n

...
...
...
..
.
...

1/n
1/n
1/n
..
.

1 1/n

(5.1)

Les variables aleatoires d et K sont independantes. De plus, par le theor`eme 4.5, K 2n1 . Donc
d

K/(n 1)

=q

/ n
(n1)b
2
/(n
2

=
1)

n(b
)
tn1 .

Ce resultat fondamental permet de mener une inference sur la moyenne.

5.3
5.3.1

Tests de Wald sur les coefficients de r


egression
Test g
en
eral dune contrainte lin
eaire

Lobjectif est de tester une hypoth`ese lineaire assez generale sur les coefficients de regression du type :

contre lhypoth`ese alternative

H0 : R = r,

(5.2)

H1 : R 6= r,

(5.3)

o`
u R est une matrice q p, q p, et r un vecteur colonne de dimension q. En outre on suppose que R est
de rang q.
Exemple 5.1
Le test H0 : j = c sobtient en prenant R = (0 0 |{z}
1 0 0) et r = c.
j i`
eme

Le test H0 : j = 0 pour tout j sobtient en prenant R = Ip (matrice identite de dimension p) et r


est un vecteur de 0 de dimension p.

53

Sous lhypoth`ese H0 ,
b r
R

X0 y r

X0 (X + ) r

= R (X0 X)
= R (X0 X)

= R + R (X0 X)
1

= R (X0 X)
De plus,

X0 r

X0 .

b r) = var(R
b ) = Rvar(
b )R0 = 2 R (X0 X)1 R0 .
var(R

Examinons maintenant la forme quadratique :


b r)0 var(R
b )1 (R
b r) = 1 0 W,
(R
2
o`
u
1

W = X (X0 X)

(5.4)

n
o1
1
1
R0 R (X0 X) R0
R (X0 X) X0 .

On verifie facilement que W est une matrice idempotente, symetrique de rang q. Par le theor`eme 4.5, on
obtient donc que
1 0
W 2q ,
2
et donc

n
o
b r)0 R (X0 X)1 R0 1 (R
b r) 2 .
b r)0 var(R
b )1 (R
b r) = 1 (R
(R
q
2

(5.5)

Si la forme quadratique (5.4) est grande, on soupconne H0 detre faux. Cependant, on ne peut realiser
directement un test 2 car lexpression (5.5) depend de 2 qui est inconnu. On sait par ailleurs que
1 0
e e 2np .
2
De plus, comme

e0 e = 0 (I PX ),

et que (I PX )W = 0, par le theor`eme (4.7), on a lindependance de e0 e/2 et de 0 W.


On peut construire une statistique de test
n
o
b r)0 R (X0 X)1 R0 1 (R
b r) 1
(R
q
Fc =
.
1
0
ee
np

(5.6)

Sous H0 , le numerateur et le denominateur de Fc sont independants, et ont, `a une constante pr`es, une
distribution 2 . La statistique de test Fc a donc une distribution de Fisher `a q et n p degres de liberte.
Donc, en notant lerreur de premi`ere esp`ece, on rejette lhypoth`ese 5.2, si
Fc > F1,q,np ,
o`
u F1,q,np est le quantile dordre 1 dune variable aleatoire de Fisher `a q et n p degres de liberte.

5.3.2

Test global des coefficients de r


egression

Un cas particulier du probl`eme precedent consiste `a tester la nullite de tous les coefficients de regression
(excepte la constante). On suppose que la premi`ere colonne de la matrice X est composee de uns, cest-`a-dire

54

que xi1 = 1 pour tout i = 1, . . . , n. La matrice R est de

0 1 0 0
0 0 1 0

0 0 0 1

R = 0 0 0 0
.. .. .. ..

. . . .
0 0 0 0
0 0 0 0
Alors

e = ( . . . )0 ,
R =
2
p

et

r = 0 Rp1 .

Le test devient alors :

H0 :
H1 :

j = 0, pour tout j = 2, . . . , p,
au moins un des j 6= 0,

ce qui peut aussi secrire

ou encore

R = 0,
R 6= 0.

H0 :
H1 :

e = 0,

e 6= 0.

H0 :
H1 :
Th
eor`
eme 5.1

dimension (p 1) p et vaut :

0 0 0
0 0 0

0 0 0

1 0 0

..
.. ..
.
. .

0 1 0
0 0 1

n
o1
1
e 0 Pc X
e = n,
R (X0 X) R0
=X

(5.7)

o`
u Pc est loperateur qui centre les donnees dej`
a presente dans lexpression (2.7)
Pc = I

110
,
n

e est la matrice de dimension n(p1) composee des p1 derni`eres


est la matrice variance-covariance et X
colonnes de X.
D
emonstration
On peut ecrire
P
Pi xi2
2
P i xi2
i xi2 xi3
..
P .
i xi2 xip

Pn

Pi xi2
n u0

0
XX=
= i xi3
u Z
..
.
P
i xip
o`
u
u=
et

P
i

xi2

P 2
P i xi2
i xi2 xi3

Z=
..

P .
i xi2 xip

P
i

xi3

P
P i xi3
i xi2 xi3
P
2
i xi3
..
P .
i xi3 xip
...

P
i xi2 xi3
P
2
i xi3
..
P .
i xi3 xip

...
...
..
.
...

...
...
...
..
.
...

P i xip

Pi xi2 xip

x
x
i i3 ip ,

..

P. 2
i xip

0
xip ,

Pi xi2 xip

i xi3 xip
.
..

.
P 2
i xip

Par la methode dinversion par partie, on a

(X0 X)1 =

n u0
u Z

1
=

55

1 0
n2 u Qu

n1 Qu

!
n1 u0 Q
Q

o`
u

Q=

1
Z uu0
n

1
.

De plus,
(R(X0 X)1 R0 )1 = Q1 = Z

1 0
uu = n,
n

o`
u est la matrice variance-covariance definie en (2.2).
Lexpression (5.5) est alors la somme des carres de la regression (voir expression (2.10)) :

0
b
b
b r)0 var(R
b )1 (R
b r) =
eX
e = SC
e 0 Pc X
e
(R
regr .

En considerant lexpression (2.3), la statistique de test (5.6) devient :


Fc =
ce qui peut egalement secrire
Fc =

SCregr /(p 1)
,
SCres /(n p)

(5.8)

(SCtot SCres )/(p 1)


.
SCres /(n p)

Ce test est generalement resume au moyen du tableau danalyse de la variance (voir tableau 5.1).

Source
de variation

Tab. 5.1 Tableau danalyse de la variance


Sommes
Degres
Carres
Fc
des carres de liberte moyens

Regression

SCregr

p1

Residuelle

SCres

np

Totale

SCtot

n1

SCregr
p1
SCres
CMres =
np
SCtot
CMtot =
n1

CMregr =

Fc = CMregr /CMres

La r`egle de decision consiste `a rejeter H0 si Fc > F1,p1,np o`


u F1,p1,np est le quantile dordre
1 dune variable aleatoire de Fischer `a p 1 et n p degres de liberte.

5.3.3

Test de Fisher sur un coefficient de r


egression

Il est egalement possible de realiser un test de Fisher pour un coefficient de regression au moyen du test
de Fisher :

H0 : j = j0
H1 : j 6= j0 .
Pour ce faire, on prend
q = 1,
R = (0 . . . |{z}
1 . . . 0),
unite j
r = j0 .
On obtient
b r = b ,
R
j
j0
h
1

R (X0 X)

R0 = (X0 X)

Lexpression (5.6) devient

i
jj

.
(bj j0 )2
i
.
Fc = h
1
(X0 X)

b2
jj

56

Sous H0 , Fc suit une distribution de Fisher `a 1 et n p degres de liberte. On rejette donc H0 si


Fc > F1,1,np ,
o`
u F1,1,np est le quantile dordre 1 dune variable aleatoire de Fisher `a 1 et n p degres de liberte. Ce
test nest autre que le test de Student developpe en section 5.2.1. En effet le carre dune variable de Student
`a n p degres de liberte est une variable de Fisher `a 1 et n p degres de liberte (voir section 3.2.7).

5.4
5.4.1

Analyse de la variance `
a un facteur
Le probl`
eme

Lanalyse de la variance `a un facteur est un cas particulier du mod`ele lineaire general. On suppose que les
observations sont reparties dans H groupes. Les H groupes correspondent souvent `a un traitement specifique
ou `a une caracteristique des unites dobservation. Lobjectif est de tester dhypoth`ese nulle que les moyennes
de tous les groupes sont egales. Si on note yih la valeur prise par lobservation i du groupe h, et nh Le nombre
dobservations du groupe h, avec
H
X
nh = n.
h=1

Le mod`ele secrit :
yih = h + ih ,

(5.9)

pour tout h = 1, . . . , H, et i = 1, . . . , nh , o`
u les h sont H constantes et les i sont des termes derreur
independants, identiquement distribues ayant une distribution normale de moyenne nulle et de variance 2 .
Le mod`ele (5.9) est un cas particulier du mod`ele lineaire general. Nous allons examiner deux methodes
permettant de tester lhypoth`ese degalite des moyennes des groupes, ce qui secrit

H0 1 = 2 = = H
(5.10)
H1 au moins un des h est different des autres.

5.4.2

M
ethode 1

La premi`ere methode consiste `a ecrire le mod`ele (5.9) sous la forme dun mod`ele lineaire general o`
u:
y est le vecteur des n observations de yih
= (1 . . . h . . . H )0 est le param`etre du mod`ele,
est le vecteur des termes derreur,
X est la matrice (n H) des variables explicatives qui est definie par :

1 si lobservation i est dans le groupe h


xih =
0 sinon

57

ce qui donne, quand les unites sont rangees selon leurs

1 0
1 0

. .
.. ..

1 0

1 0

0 1

0 1

. .
.. ..

0 1

X = 0 1
. .
. .
. .
. .
. .
. .
. .
. .
. .

0 0

0 0

..
.

0 0
0 0

groupes,

0
0

..
.

..
.

0
.
..

.
..

.
..

..
.

1
1

(5.11)

On peut d`es lors ecrire le mod`ele (5.9) sous la forme matricielle habituelle
y = X + .
La matrice X0 X est une matrice diagonale qui

n1
0

..
.
0
XX=
0

.
..
0
et son inverse vaut

(X0 X)1

On a egalement le produit

vaut

0
n2
..
.

..
.

0
0
..
.

0
0
..
.

0
..
.

nh
..
.

0
..
.

..
.

1
n1

..
.

0
..
.

1
nh

..
.

..
.
0
..
.
0

n1
X

..
.
0

yi1

i=1

X0 y = ... .
n

h
X

yiH
i=1

58

nH
0
..
.
0
..
.
1
nH

Enfin, lestimateur de est donne par

y1
..
.

1
0
0
b

= (X X) X y =
yh ,
.
..
yH
o`
u yh est la moyenne du groupe h et lestimateur de h :

bh = yh =
pour h = 1, , H. On a alors directement
les valeurs ajustees

nh
1 X
yih ,
nh i=1

yih
= yh ,

et les residus estimes


eih = yih yh .
Pour realiser le test donne en (5.10), on va utiliser la methode de Wald developpee dans la section (5.3). Le
test (5.10) est un cas particulier du test (5.2) en prenant la matrice de contraintes R de dimension (H 1)H
suivante :

n2
nH1
nH
n1

n
n
n
n
n
n2
nH1
nH
1

n
n
n
n
R =
..
..
.
.
.
..
..
..
.

.
n
n2
nH1
nH
1

n
n
n
n
n
n2
nH1 nH
1

n
n
n
n
1 0 0 0

0 1 0 0 n1 n2 nH1 nH


n
n
n ,
= . . .
.. .. n
.
.
.

.
.
.
.
. .
..
. . . .
..
..
..

.
.

0 0 1 0
n1 n2
nH1 nH

n
n
n
n
et r est un vecteur de zeros de dimension H 1. On obtient apr`es quelques calculs :

H
1X
1
nh h

h=1

1
..

..

H
.
X

R = h
nh h = h
,
n

.
h=1
..

..

.
H1

1X

nh h
H1
n
h=1

et, de la meme mani`ere,

y1 y

..

b = y y
,
R
h

..

.
yH1 y
59

o`
u
=

H
1X
nh h ,
n
h=1

et y est la moyenne des observations :


y =

H nh
H
1 XX
1X
nh yh .
yih =
n
n
i=1
h=1

h=1

Tester R = r equivaut, dans ce cas, `a tester lhypoth`ese nulle de (5.10). Pour calculer la statistique du test
donne en (5.6), on doit calculer R(X0 X)1 R0 . Apr`es quelques calculs, on obtient :
n

1
1

1
n1

1
1

n2
R(X0 X)1 R0 = .
,
..
..
..

n .
.
.

.
.

n
1
1
1
nH1
qui est une matrice de dimension (H 1) (H 1). On peut verifier par une simple multiplication que
linverse de cette matrice vaut

n1 0
0
..
..
..
..
.
.
.
.

nn0
+
0

0
{R(X0 X)1 R0 }1 =
h

nH ,
.

.
.
.
..
..
..
..
0 0 nH1
ou n0 = (n1 n2 nH1 ). Enfin, apr`es quelques calculs, on obtient
b r)0 {R(X0 X)1 R0 }1 (R
b r) =
(R

H
X

nh (
yh y)2 ,

h=1

qui nest autre que la somme de carres de la regression. Cette somme de carres est souvent appelee pour ce
cas particulier : somme des carres inter-groupes (SCIN T ER ).
Au denominateur de lexpression (5.6), on a
e0 e =

nh
H X
X

(yih yh )2 ,

h=1 i=1

cest la somme des carres des residus qui est appelee pour ce cas particulier : somme des carres intra-groupes
(SCIN T RA ).
Si lon consid`ere la somme des carres totale,
SCT OT =

nh
H X
X

(yih y)2 ,

h=1 i=1

on a la decomposition classique des sommes de carres


SCT OT = SCIN T RA + SCIN T ER .
On peut enfin construire la statistique de test de lexpression (5.6). Comme q = H 1, on a
Fc =

SCIN T ER /(H 1)
.
SCIN T RA /(n H)

(5.12)

On construit le tableau 5.2 danalyse de la variance.


La r`egle de decision consiste `a rejeter H0 si Fc > F1,H1,nH o`
u F1,H1,nH est le quantile dordre
1 dune variable aleatoire de Fischer `a H 1 et n H degres de liberte.
60

Tab. 5.2 Tableau danalyse de la variance `a un facteur

5.4.3

Source de
variation

Sommes de
carres

Degres de
liberte

Carres
moyens

INTER

SCIN T ER

H 1

CMIN T ER =

SCIN T ER
H1

INTRA

SCIN T RA

nH

CMIN T RA =

SCIN T RA
nH

TOTALE

SCT OT

n1

CMT OT =

Fc

Fc =

CMIN T ER
CMIN T RA

SCT OT
n1

M
ethode 2

Une autre mani`ere decrire le mod`ele (5.9) sous la forme dun mod`ele lineaire consiste `a poser
h = h , h = 1, , H,
o`
u
=

H
1X
nh h .
n
h=1

Le mod`ele secrit alors


yih = + h + ih ,

(5.13)

avec la contrainte que


H
X

nh h = 0.

(5.14)

h=1

Le mod`ele (5.13) a maintenant H + 1 param`etres, et une contrainte sur les param`etres du mod`ele. Afin de
pouvoir ecrire ce mod`ele sous la forme dun mod`ele lineaire, on int`egre la contrainte dans le mod`ele, sachant
que
H1
1 X
H =
nh h ,
(5.15)
nH
h=1

ce qui donne

yih = + h + ih
H1
1 X
y
=

nh h + iH

iH
nH

si 1 h H 1
sinon.

(5.16)

h=1

Pour tester legalite des moyennes, on peut realiser le test

H0 : h = 0, pour tout h = 1, , H 1
H1 : au moins un des h est different de 0.
On remarque quun test sur les H 1 premiers coefficients h suffit, en vertu de lexpression (5.15). Le
mod`ele (5.13) secrit comme un mod`ele lineaire general
y = X + ,
o`
u

0 = ( 1 2 H1 ),

61

et la matrice X est de dimension n H et est donnee par

1
1
0
1
1
0

..
..
..
.
.
.

1
1
0

1
1
0

1
0
1

1
0
1

.
.
..
..
..
.

1
0
1

1
0
1

.
..
..
.
.
.
.
.
..
..
.
X=
.
.
.
.
..
..
.
.
.
.

1
0
0

1
0
0

..
..
..
.
.
.

1
0
0

1
0
0

1 n1 /nH n2 /nH

1 n1 /nH n2 /nH

..
.

1 n1 /nH n2 /nH
1 n1 /nH n2 /nH

0
0
..
.

..

..

..
.
.

..

..

nH1 /nH

nH1 /nH

..

nH1 /nH
nH1 /nH

(5.17)

La premi`ere colonne de la matrice est donc une constante. Comme lobjectif est de tester la nullite des
coefficients de regression `a lexception de la constante, on se retrouve dans le cas de la section (5.3.2).
Estimons les param`etres du mod`ele. On a

n
0

0
0
XX=

.
..

0
Son inverse est

(X0 X)1

Le vecteur X0 y vaut

0
0
n1 n2
n1
n1 (1 + nH )
nH
n1 n2
n2 (1 + nnH2 )
nH
..
..
.
.
n1 nH1
n2 nH1
nH
nH

1/n

0
=

.
..

1
1

n1
n
1

n
..
.
1

0
n1 nH1

nH

n2 nH1

.
nH

..

.
nH1
nH1 (1 +
)
nH

..

0
1

n
1
1

n2
n
..
.
1

n
y
n1 (
y1 yH )
..
.

..

X0 y =
.

nH1 (
yH1 yH )

62

.
n

..

1
1

nH1
n

On peut donc calculer lestimateur de .

y
y1 y
..
.

yH1 y

b = (X0 X)1 X0 y =

Lestimateur de est donc y et les estimateurs h sont

bh = yh y, h = 1, , H 1.
b , ce qui donne, si h H 1
Les valeurs ajustees valent X

=
b+
bh = yh ,
yih

et si h = H,

yiH
=
b

H1
X
h=1

Les residus valent

b h nh
= yH .
nH

eih = yih yih


= yih yh , h = 1, H,

On a donc la somme de carres des residus qui vaut `a nouveau la somme des carres intra-groupes
SCIN T RA =

n
X

e2i =

i=1

nh
H X
X
(yih yh )2 ,
h=1 i=1

et la somme des carres de la regression qui vaut `a nouveau la somme des carres inter-groupes
SCIN T ER =

nh
H X
X

y)2 =
(yih

h=1 i=1

H
X

nh (
yh y)2 .

h=1

La statistique de test sobtient directement `a partir de lexpression (5.8) et vaut


Fc =

SCIN T ER /(H 1)
SCIN T RA /(n H)

et est exactement la meme que (5.12). En posant le mod`ele differemment, on estime dautres param`etres,
mais les residus, les valeurs ajustees, et le test sont identiques.

5.5
5.5.1

Pr
evision ponctuelle dune valeur
Cas g
en
eral

Une fois le coefficient de regression estime, il est possible de predire une valeur pour y en fonction dun
ensemble de nouvelles variables explicatives
xj = (xj1 xjp ).
La prediction vient simplement et vaut :
b.
ybj = (xj1 xjp )
Le predicteur peut egalement secrire
ybj

b
xj

=
=

xj (X0 X)1 X0 y
xj (X0 X)1 X0 (X + )

xj + xj (X0 X)1 X0 .

63

Comme la vraie valeur vaut


lerreur de prevision est

yj = xj + j ,
ybj yj = xj (X0 X)1 X0 j .

Lesperance de lerreur de prediction est nulle, en effet

E (b
yj yj ) = E xj (X0 X)1 X0 j = xj (X0 X)1 X0 E() E(j ) = 0.
Comme la valeur predite se ref`ere `a une nouvelle observation,
E(j ) = 0,
et donc
var (b
yj yj )

var xj (X0 X)1 X0 + var {j }

= xj (X0 X)1 X0 2 X(X0 X)1 x0j + 2

= 2 xj (X0 X)1 x0j + 1 .


On constate que la variance se decompose en deux parties. La premi`ere partie est due `a linstabilite des
b , et la seconde partie est due `a lerreur inconnue .
coefficients de regression, cest-`a-dire la dispersion de
j
On estime la variance simplement par

var
c (b
yj yj ) =
b2 xj (X0 X)1 x0j + 1 ,
o`
u
b2 = e0 e/(n p). Enfin, il est possible de construire un intervalle de confiance pour la prevision :

q
q
c (b
yj yj ); yj + t1/2,np var
c (b
yj yj ) .
IC(1 ) = yj t1/2,np var

5.5.2

Cas bivari
e

Dans le cas o`
u une seule variable explicative x et une constante sont utilisees, on a

P
n
P i x2i ,
X0 X = P
i xi
i xi
0

(X X)

1
= 2
nsx

2
s2x + x

x
.
1

De plus, on a xj = (1, xj ). La variance de lerreur de prevision devient alors

var (
yj yj ) = 2 xj (X0 X)1 x0j + 1

1 2
2
2
2
=
(sx + x
)1x
xj xj x
+ xj + 1
ns2x

(xj x
)2
2
n+1+
.
=
n
s2x
Plus xj est eloigne de la moyenne x
, plus la variance augmente. Faire une prevision pour des valeurs extremes
de la variable x est donc plus hasardeux.
On estime la variance simplement par

(xj x
)2

b2
n+1+
,
var
c (b
yj yj ) =
n
s2x
o`
u
b2 = e0 e/(n p).

64

5.6
5.6.1

Exemple danalyse de la variance `


a un facteur
Les donn
ees

Un ensemble de magazines a ete classe selon trois groupes selon quils sadressent `a un public dun niveau
dinstruction eleve (groupe 1) moyen (groupe 2) ou bas (groupe 3). Dix-huit publicites ont ete selectionnees
au hasard dans chaque type de magazines. On sinteresse au nombre de mots dans ces publicites. On cherche
`a savoir si le nombre de mots depend du type de public vise. Les donnees sont presentees dans le tableau
5.3.

Groupe 1
205
203
229
208
146
230
215
153
205

5.6.2

Tab. 5.3 Nombre de mots selon les groupes


Groupe 2 Groupe 3 Groupe 1 Groupe 2
191
162
80
94
219
31
208
206
205
85
89
197
57
111
49
68
105
88
93
44
109
60
46
203
82
97
34
139
88
169
39
72
39
78
88
67

Groupe 3
68
32
50
208
81
83
195
111
208

Les r
esultats

Le traitement statistique nous donne les resultats presentes dans les tableaux 5.4 et 5.5.
Tab. 5.4 Moyennes
Groupe Moyennes
1
140.00
2
121.39
3
106.50
Total
122.63

Inter Groupes
Intra Groupes
Total

selon les groupes

N Ecart-type
18
74.0374
18
64.2698
18
57.6299
54
65.8770

Tab. 5.5 Tableau danalyse de la variance


sommes de carres degres de liberte carres moyens
10141.815
2
5070.907
219866.778
51
4311.113
230008.593
53

F
1.176

Sign.
0.317

Le test nest pas significatif. En effet F = 1.176 et la valeur du quantile dordre 0.95 dune Fisher `a 2
et 51 degres de liberte vaut 3.2. Donc on ne peut pas rejeter lhypoth`ese degalite des moyennes, malgre
dimportants ecarts des moyennes des groupes pour les valeurs observees.

Exercices
Exercice 5.1 En reprenant les calculs de lexercice 2.6, et en supposant que lon se trouve dans le cadre du
MLG avec normalite des erreurs, estimez 2 et faites les tests suivants avec = 0.05 et 0.01 :

H0 : 0 = 0
H1 : 0 6= 0
65

H0 :
H1 :

1 = 0
1 6= 0

H0 :
H1 :

0 = 1
0 6= 1.

Exercice 5.2 Construisez un test pour tester les hypoth`eses suivantes :


1. H0 : j = 0 (uniquement pour un coefficient),
2. H0 : j = 0, pour tout j = 2, . . . , p, (cest-`a-dire pour tous les coefficients sauf la constante),
3. H0 : i = j pour deux coefficients i et j donnes,
4. H0 : c0 = (test sur une combinaison lineaire des coefficients).
Proposez au moins deux solutions pour R pour chaque test.

Exercice 5.3 On consid`ere le mod`ele :


yt = 1 + 2 x2t + 3 x3t + t , t = 1, . . . , 10.
Les donnees de lechantillon sont resumees de la facon suivante :
n
X

yt2 = 177,

i=1
n
X

n
X

yt = 10,

i=1

x22t

= 5,

i=1

n
X

n
X

yt x2t = 20,

i=1

x23t

= 20,

i=1

n
X

n
X

yt x3t = 40,

i=1

x2t =

i=1

n
X

x3t =

i=1

n
X

x2t x3t = 0.

i=1

1. Construisez le tableau danalyse de la variance,


2. Calculer le R2
3. Testez, au seuil de signification = 0.05, les hypoth`eses suivantes :

H0 : 2 = 3 = 0
H0 : 3 = 3
,
H1 : 2 6= 0 ou 3 6= 0
H1 : 3 6= 3

H0 : 3 1, 5
H0 : 2 + 3 = 8
,
H1 : 3 > 1, 5
H1 : 2 + 3 6= 8

Exercice 5.4 En utilisant la technique dinversion matricielle par parties, montrez legalite donnees en
(5.7) :
o1
n
1
e 0 Pc X
e
=X
R (X0 X) R0
Indication : Soit une matrice

A
F=
C

On a
F

B
.
D

1
A + A1 BQCA1
=
QCA1

o`
u
Q=

D CA1 B

A1 BQ
Q
1

Exercice 5.5 Reprenez les resultats de lexercice 2.6 et 2.1, calculez et dessinez des intervalles de confiance
pour la prevision de la variable expliquee (en choisissant quelques valeurs pour x).
66

Tab. 5.6 Consommation de cr`eme glacee


consommation y
386
374
393
425
406
344
327
288
269
256
286
298
329
318
381
381
470
443
386
342
319
307
284
326
309
359
376
416
437
548

revenu x1
78
79
81
80
76
78
82
79
76
79
82
85
86
83
84
82
80
78
84
86
85
87
94
92
95
96
94
96
91
90

temperature x2
41
56
63
68
69
65
61
47
32
24
28
26
32
40
55
63
72
72
67
60
44
40
32
27
28
33
41
52
64
71

Exercice 5.6 La consommation de cr`eme glacee dindividus a ete mesuree pendant 30 periodes. Lobjectif
est de determiner si la consommation depend du revenu et de la temperature. Les donnees sont dans le
tableau 1. On sait en outre que
n
X

yi = 10783,

i=1
n
X

yi2 = 4001293,

i=1
n
X

xi1 yi = 912813,

i=1

et que

n
X

xi1 = 2538,

i=1
n
X

n
X

n
X

x2i1 = 215846,

i=1
n
X

xi2 = 1473,

i=1

x2i2 = 80145,

i=1
n
X

xi2 yi = 553747,

i=1

xi1 xi2 = 123650,

i=1

1
215846 123650
3.987998
=
123650 80145
6.152797

1
6.152797
.

10.740450
100000

Considerons le mod`ele de regression


yi = 1 xi1 + 2 xi2 + i ,
o`
u les i sont des termes derreur normaux independants et equidistribues. Attention ! Ce mod`ele na pas de
constante.
67

1. Estimez 1 et 2 par la methode des moindres carres ordinaires.


2. Sachant que la somme des carres des residus estimes vaut 38912.310, estimez la variance des residus.
3. Donnez la valeur ajustee et le residu pour la premi`ere observation du tableau 1.
b = (b , b )0 .
4. Estimez la matrice variance-covariance du vecteur
1
2
5. La somme des residus estimes de ce mod`ele est-elle nulle (reponse sans calcul) ? Justifiez en deux lignes
(et toujours sans calcul).
6. Testez (au niveau de 95%) la nullite du coefficient de regression de la variable temperature.

Exercice 5.7 En considerant le meme mod`ele que dans lexercice 5.6, on veut tester lhypoth`ese que 21 =
2 .
1. Donnez une matrice de contrainte R et le vecteur r `a utiliser pour construire ce test. (La notation est
celle utilisee au cours).
2. Donnez lexpression theorique et simplifiee de la statistique de test.
3. Faites le test. Peut-on admettre au niveau de 95% lhypoth`ese que 21 = 2 ?

Exercice 5.8 Calculez lestimateur de la variance des coefficients de regression dans le cas dun mod`ele `a

une constante et une variable explicative. Ecrivez


ces variances de mani`ere scalaire.

Exercice 5.9 Les matrices definies en (5.11) et (5.17) definissent le meme sous-espace lineaire. Donnez
les applications lineaires (les matrices) permettant de passer de la matrice (5.11) `a la matrice (5.17) et
reciproquement. Ensuite, faites le produit des deux matrices obtenues.

Exercice 5.10 Question preliminaire : soit Pc = I 11


ees, I la matrice
n , le projecteur qui centre les donn
identite, et PX le projecteur sur le sous-space engendre par les colonnes de la matrice X. La premi`ere colonne
de X est constituee de 1. Montrez que
Pc (I PX ) = (I PX ).
(Inutile de se lancer dans des calculs compliques, un argument simple se referant `a des resultats donnes au
cours suffit).
Calculez ensuite les esperances des trois sommes des carres pour le tableau danalyse de la variance correspondant au test :

H0 : j = 0, pour tout j = 2, . . . , p,
H1 : au moins un des j 6= 0,
o`
u 1 est le coefficient de regression se rapportant `a la constante,
1. dans le cas general o`
u H0 nest pas suppose vrai,
2. dans le cas o`
u H0 est vrai.
Sous H0 , que valent les esperances des trois carres moyens ?
Indications :
1. les calculs sont plus simples en utilisant le projecteur qui centre les donnees,
2. lesperance dune variable aleatoire khi-carre est egale `a son nombre de degres de liberte.

Exercice 5.11 Pour etudier le comportement maternel de rats de laboratoire, nous eloignons le bebe rat
de sa m`ere dune distance fixee et enregistrons le temps necessaire `a la m`ere (en secondes) pour ramener son
bebe au nid. Nous realisons cette experience avec des bebes rats de 5, 20 et 35 jours. Les donnees figurent
ci-dessous pour six bebes par groupe. On donne le tableau danalyse de la variance suivant :
68

Tab. 5.7 Temps selon les groupes


5 jours
20 jours
35 jours

Inter-groupes
Intra-groupe
Total

15
30
40

10
15
35

25
20
50

15
25
43

20
23
45

18
20
40

Tab. 5.8 Tableau danalyse de la variance


Sommes des carres degres de liberte Carres moyens
2100.000
2
1050.000
392.500
15
26.167
2492.500
17

F
40.127

Sig.
0.000

1. Peut-on dire au niveau de probabilite 0.05 que le temps necessaire pour ramener le bebe depend de
lage ? Justifiez votre reponse.
2. Donnez le quantile dordre 0.95 de la variable de Fisher correspondant `a lanalyse de la variance ?
` partir du tableau danalyse de la variance donnez la variance (marginale) de la variable secondes.
3. A

Exercice 5.12 Une autre partie de letude dEysenck (1974) mentionnee precedemment comparait les sujets
plus jeunes et plus ages quand `a leur aptitude `a se rappeler le materiel alors quon les avait prevenus quils
devaient memoriser les donnees de mani`ere `a sen souvenir ulterieurement (cette tache exigeait vraisemblablement un niveau eleve de traitement.) Les donnees figurent dans le tableau 5.9 (la variable dependante
etant le nombre delements rappeles).
Tab. 5.9 Nombre delements rappeles selon lage
Sujets plus jeunes :
Sujets plus ages :

21
10

19
19

17
14

15
5

22
10

16
11

22
14

22
15

18
11

21
11

1. Effectuez une analyse de variance afin de comparer les moyennes de ces deux groupes.

Exercice 5.13 Une autre approche des donnees dEysenck (1974) consiste `a comparer quatre groupes de
sujets. Lun des groupes se composait de jeunes sujets `a qui lon presentait les mots dans une condition qui
suscitait un niveau peu eleve de traitement. Un deuxi`eme groupe se composait des sujets jeunes `a qui lon
donnait des taches requerant un niveau de traitement plus eleve. Les deux autres groupes comprenaient des
sujets plus ages `a qui lon donnait des taches requerant un niveau de traitement soit peu eleve, soit eleve.
Les donnees sont les suivantes :
1. Effectuez une analyse de variance `a un crit`ere de classification sur ces donnees.
2. Effectuez `a present une analyse de variance `a un crit`ere de classification en opposant les traitements 1
et 3 combines (n = 2) aux traitements 2 et 4 combines. A quelle question repondez-vous ?

Exercice 5.14 Cet exercice est une etude hypothetique similaire `a une experience importante realisee par
Siegel (1975) sur la tolerance `a la morphine. La morphine est un medicament souvent utilise pour attenuer
la douleur. Cependant, des administrations repetees de morphine provoquent un phenom`ene de tolerance :
la morphine a de moins en moins deffet (la reduction de la douleur est de moins en moins forte) au fil du
69

Tab. 5.10 Nombre delements


Jeunes/Peu eleve 8
6
4
Jeunes/Eleve
21 19 17
Ages/Peu eleve
9
8
6
Ages/Eleve
10 19 14

rappeles selon lage


6
7
6
5
15 22 16 22
8
10 4
6
5
10 11 14

et le
7
22
5
15

niveau
9
7
18 21
7
7
11 11

temps. Pour mettre en evidence la tolerance `a la morphine, on a souvent recours `a une experience qui consiste
`a placer un rat sur une surface trop chaude. Lorsque la chaleur devient insupportable, le rat va se mettre `a
se lecher les pattes ; le temps de latence qui prec`ede le moment o`
u le rat commence `a se lecher les pattes est
utilise comme mesure de sa sensibilite `a la douleur. Un rat qui vient de recevoir une injection de morphine
montre en general un temps de latence plus long, ce qui montre que sa sensibilite `a la douleur est reduite.
Le developpement de la tolerance `a la morphine est indique par le fait que les latences se raccourcissent
progressivement (signe dune sensibilite accrue) sous leffet des injections repetees de morphine.
Prenons une experience impliquant cinq groupes de rats. Chaque groupe participe `a quatre essais, mais
les donnees danalyse sont uniquement prelevees lors du dernier essai critique (test). On designe les groupes
en indiquant le traitement applique lors des trois premiers essais puis du quatri`eme. Nous avons les cinq
groupes suivant :
1. Le premier groupe (M-M) a recu des injections de morphine lors des trois premiers essais dans lenvironnement de test, puis de nouveau lors du quatri`eme essai, dans le meme environnement ;
2. Le deuxi`eme groupe (M-S) a recu une injection de morphine (dans lenvironnement de test) lors des
trois premiers essais puis une solution saline lors du quatri`eme ;
3. Les animaux du troisi`eme groupe (Mc-M) ont recu une injection de morphine lors des trois premiers
essais, effectues dans leur cage habituelle, puis la meme injection lors du quatri`eme essai, mais dans
lenvironnement de test standard, quils ne connaissaient pas ;
4. Le quatri`eme groupe (S-M) a recu une injection de solution saline durant les trois premiers essais (dans
lenvironnement de test) et de morphine lors du quatri`eme ;
5. Enfin, le cinqui`eme groupe (S-S) a recu une injection de solution saline lors des quatre essais.
Les temps de latence (en secondes) selon les groupes sont presentes dans le tableau 5.11. Peut-on affirmer
Tab. 5.11 Temps de latence selon les groupes
M-S M-M
3
2
5
12
1
13
8
6
1
10
1
7
4
11
9
19

S-S S-M
14
29
6
20
12
36
4
21
19
25
3
18
9
26
21
17

Mc-M
24
26
40
32
20
33
27
30

que :
1. Les cinq groupes ont une perception de la douleur identique malgre les differents traitements (`a 99%) ;
Un tableau de lanalyse de la variance a dej`a ete partiellement calcule :
2. Le groupe M-M et S-S ont une sensibilite differente `a la douleur (`a 99%).
Un tableau de lanalyse de la variance a dej`a ete partiellement calcule.
Pour repondre aux questions a. et b. (`a traiter separement) :
Posez les hypoth`eses ;
Completez les tableaux de lanalyse de la variance ;
70

Tab. 5.12 Tableau incomplet danalyse de la variance

Inter Groupes
Intra Groupes
Total

sommes de carres degres


3497, 6
?
?

de liberte carres moyens F


?
?
?
?
32
?

Tab. 5.13 Tableau incomplet danalyse de la variance

Inter Groupes
Intra Groupes
Total

sommes de carres degres


4
?
504

de liberte carres moyens F


?
?
?
?
?
?

Testez les hypoth`eses.

Exercice 5.15 Les donnees suivantes representent les tailles et poids reels pour des etudiants americains
de sexe masculin. Les mesures sont exprimees en pouces et en livres.
1. Estimez les coefficients du mod`ele
yi = 1 + 2 xi + i , i = 1, . . . , n,
o`
u les i sont des termes derreur normaux, non correles de moyenne nulle et homoscedastiques.
2. Donnez un estimateur sans biais de la variance des residus.
3. Que vaut la valeur ajustee pour un individu mesurant 70 pouces ?
4. Peut-on affirmer au niveau de probabilite de 0.95 pour-cents, que la pente de la droite de regression
vaut 5 (test bilateral) ?
On a dej`a realise les calculs suivants :
n

x
= 70.7544,

y = 158.26,

1X 2
x = 5012.7368,
n i=1 i

1X 2
y = 25388.4386,
n i=1 i

1X
xi yi = 11226.33596.
n i=1

Exercice 5.16 Une autre etude sur le meme sujet nous donne la droite de regression suivante :
Poids = 155 + 4.5 taille + residus.

(5.18)

On se demande si il nest pas possible dinvalider cette hypoth`ese au moyen des donnees precedentes.
1. Construisez un test permettant de tester lhypoth`ese

H0 : 1 = 155 et 2 = 4.5
H1 : au moins un des deux coefficients est different de ces valeurs
le coefficient 1 est la constante et 2 est le coefficient de regression se rapportant `a la variable
taille. Construisez dabord le test de mani`ere theorique en simplifiant au maximum lexpression, et
en lecrivant de mani`ere scalaire (et non plus matricielle).
2. Testez lhypoth`ese au moyen des donnees de lexercice precedent ( = 0.05).
3. Les donnees permettent-elles dinfirmer le mod`ele (5.18) ?

71

Tab. 5.14 Tailles (en pouces) et poids (en livres) des etudiants
Taille x
70
67
72
75
68
69
71.5
71
72
69
67
68
66
72
73.5
73
69
73
72
74
72
71
74
72
70
67
71
72
69

Poids y
150
140
180
190
145
150
164
140
142
136
123
155
140
145
160
190
155
165
150
190
195
138
160
155
153
145
170
175
175

Taille x
73
74
66
71
70
70
75
74
71
69
70
72
67
69
73
73
71
68
69.5
73
75
66
69
66
73
68
74
73.5

Poids y
170
180
135
170
157
130
185
190
155
170
155
215
150
145
155
155
150
155
150
180
160
135
160
130
155
150
148
155

Exercice 5.17 Soit le mod`ele `a 5 param`etres suivant (dit danalyse de la variance `a deux facteurs) :
yijk = + j + k + ijk ,
o
u j = 1, 2, k = 1, 2, 1 + 2 = 0, 1 + 2 = 0, et les ijk sont homoscedastiques et non-correles. Lobjectif
est destimer ces 5 param`etres avec un programme de regression multivariee classique.

Ecrivez
le mod`ele sous forme matricielle.
Quel est le rang de la matrice X des variables explicatives ?
Reecrivez le mod`ele et la matrice X de mani`ere a obtenir une matrice de plein rang. Quels sont les
liens entre les nouveaux et les anciens param`etres ?
Comment peut-on proceder pour estimer les param`etres avec un programme de regression multivarie ?

72

Chapitre 6

Multicolin
earit
e et choix des variables
6.1

La multicolin
earit
e

Parfois, dans le mod`ele lineaire general,


y = X + ,
la matrice X nest pas de plein rang. La matrice X0 X nest alors pas inversible. Cependant il est encore
possible de realiser une regression, au sens o`
u lon peut toujours definir le sous-espace engendre par les
colonnes de X et projeter le vecteur y sur ce sous-espace. Pour realiser cette projection on utilisera linverse
generalisee dune matrice.
D
efinition 6.1 La matrice A est une inverse generalisee (ou pseudo-inverse) de la matrice A si et seulement si
AA A = A.
Linverse generalisee nest pas unique, il existe donc une multitude de solutions, mais il nexiste quune seule
inverse generalisee dite de Moore-Penrose A+ qui verifie
AA+ A = A,
A+ AA+ = A+ ,

0
AA+ = AA+ ,

0
A+ A = A+ A .
Exemple 6.1 Soit
A=
On a

1
2

1
A =
25

1
2

2
,
4

1
5

1
2

2
.
4

et
A+ A =

Exemple 6.2 Soit

2
.
4

1
B = 1
1

73

0
2
2

3
3 .
3

On a

2
1
10
B =
20
6

2
1
B+ B = 0
2
0
+

et

0 0
5 5 ,
0 0

0 0
1 1 ,
1 1

2 0
1
BB+ = 0 1
2
0 1

0
1 .
1

Exemple 6.3 On peut calculer linverse generalise de Moore-Penrose dune matrice non-carree. Soit X une
matrice n p de plein rang, alors
X+ = (X0 X)1 X0 .
On peut verifier quon a bien les proprietes de linverse de Moore-Penrose.
Il est possible de montrer que le projecteur

PX = X (X0 X) X0 ,
ne depend pas de la pseudo-inverse utilisee.
Il est donc possible de faire une regression meme avec une matrice X qui nest pas de plein rang, car le
projecteur PX est unique, et il est donc possible de calculer la valeur ajustee
y = PX y,
et le residu.

e = y y = (I PX ) y.

Cependant, si la matrice nest pas de plein rang, il existe une indetermination sur les coefficients de
regression. En effet
b = (X0 X) X0 y,

nest pas unique. On pourrait choisir le coefficient donne par linverse de Moore-Penrose, il nest alors pas
b car la variance de certains coefficients de regression nexiste pas.
possible de realiser une inference sur
Si la matrice X nest pas de plein rang, il est toujours possible de realiser une regression, cest-`a-dire de
construire un projecteur sur le sous-espace engendre par les colonnes de la matrice X. Cependant, il y aura
une indetermination sur les coefficients de regression et la non-existence de certaines variances. Pour ces
raisons, on pref`ere aborder le probl`eme en supprimant la ou les variables redondantes, ce qui nous ram`enera
`a un probl`eme standard.

6.2
6.2.1

D
etection de la multicolin
earit
e
Le probl`
eme

La multicolinearite se definit donc comme le fait que la matrice nest pas de plein rang. Le logiciel signale
alors le probl`eme, car il ne peut pas proceder `a lestimation des param`etres. En pratique, on est plutot
confronte `a des cas un peu limite, quand la matrice est presque de rang maximum, ce qui se traduira par
un determinant tr`es petit ou par une valeur propre tr`es petite.
Dans des cas simples, on constate parfois que deux variables explicatives ont un coefficient de correlation
tr`es proche de 1 ou -1, mais la multicolinearite est parfois difficile `a detecter, car la relation entre les variables
explicatives peut etre complexe.
Pour detecter la multicolinearite, nous utiliserons les indicateurs suivants :

74

R2 , le coefficient de determination pour le mod`ele de regression de la variable y par les variables


x1 , . . . , xj , . . . , xp .
2
Rj
le coefficient de determination pour le mod`ele de regression de la variable y par les variables

x1 , . . . , xj1 , xj+1 , . . . , xp .
Rj2 , le coefficient de determination pour le mod`ele de regression de la variable xj par les variables
x1 , . . . , xj1 , xj+1 , . . . , xp .
D le determinant de la matrice de correlation des variables x1 , . . . , xj , . . . , xp .
Si la variable xj est une combinaison lineaire des autres variables explicatives, alors :
2
Rj
sera proche de R2 ,
2
Rj sera proche de 1.

6.2.2

M
ethode de Klein

2
La methode de Klein consiste `a examiner les carres des coefficients de correlation par paires rjk
entre les
2
variables explicatives xj et xk , avec j 6= k. Si lun de ces coefficients est plus grand que R , alors on peut
soupconner la multicolinearite.

6.2.3

Test de Farrar et Glauber

Le test de Farrar et Glauber teste que le determinant D de la matrice de correlation est egal `a 1. Le
coefficient ne peut etre egal `a 1 que si les variables explicatives sont orthogonales, le test est donc
H0 :
H1 :

Les variables explicatives sont des variables aleatoires non-correlees


Les variables explicatives sont des variables aleatoires correlees.

Le test est base sur le fait que sous H0 et avec une hypoth`ese de normalite, la statistique

1
2obs = n 1 (2p + 5) log D
6
a une distribution khi-carre `a p(p 1)/2 degres de liberte.

6.2.4

Facteur dinflation

Le facteur dinflation est la quantite


FI =

1
.
1 Rj2

Si cette quantite est tr`es grande pour une variable, alors on peut soupconner la multicolinearite, et que cette
multicolinearite soit due `a la variable xj . Si il y a multicolinearite, au mois deux variables sont impliquees.

6.2.5

Coefficient de Theil

Le coefficient de Theil est


m = R2

p
X

2
(R2 Rj
).

j=1

Le coefficient de Theil est egal `a 0 si toutes les paires de variables ont des coefficients de correlation nulles,
il na alors pas de multicollinearite. Si ce nest pas le cas, le coefficient de Theil peut etre positif ou negatif.

6.2.6

R
esolution du probl`
eme

Si une variable explicative est manifestement une combinaison lineaire des autres variables, alors, on peut
supprimer cette variable du mod`ele. Une autre optique consiste `a utiliser une technique iterative pour la
construction du mod`ele.
75

6.3

M
ethodes de choix de variables

Afin de tenter de controler le probl`eme de la multicolinearite, plusieurs methodes iteratives de construction


de mod`eles ont ete proposees.

6.3.1

M
ethode Backward

La technique consiste `a introduire toutes les variables dans le mod`ele, `a condition bien s
ur que lon puisse
calculer sans indetermination les coefficients de regression. Tant que certains t de Student des coefficients de
regression sont en dessous du seuil critique, `a chaque etape, on elimine une variable. On elimine la variable
ayant le t de Student le plus proche de 0.

6.3.2

M
ethode Forward

La methode Forward consiste `a ajouter une variable dans le mod`ele `a chaque etape. A la premi`ere
etape, on introduit dans le mod`ele la variable xj la plus correlee avec y. Ensuite, `a chaque etape, on calcule
pour toutes les variables qui ne sont pas dans le mod`ele, les carres des coefficients de correlation partielle
relativement aux variables qui sont dej`a dans le mod`ele, afin de mesurer comment chacune des variables peut
ameliorer le mod`ele. On introduit dans le mod`ele la variable dont le carre du coefficient de correlation
partielle est le plus eleve. Enfin, on arrete la procedure, des que lon obtient un t de Student non-significatif.

6.3.3

M
ethode Stepwise

La methode Stepwise alterne une etape o`


u lon ajoute une variable dans le mod`ele avec une etape o`
u
lon enl`eve eventuellement une variable du mod`ele. La r`egle dintroduction dune variable est la meme que
dans la methode Forward. Ensuite on fait un test de Student sur chacun des coefficients, et eventuellement,
on enl`eve une variable du mod`ele.

6.3.4

Mise en garde

Il faut cependant etre prudent en utilisant des methodes iteratives pour la construction de mod`eles.
En effet, ces techniques sont basees sur la repetition de tests dhypoth`eses. Ces tests sont susceptibles de
conduire `a des decisions fausses, et donc la multiplication de tests augmente les probabilites de prendre des
decisions fausses. Plus le nombre de variables susceptibles dentrer dans le mod`ele est eleve, plus on risque
dintroduire `a tort des variables non-pertinentes.

76

Chapitre 7

M
ethode des moindres carr
es
g
en
eralis
es
7.1

Les hypoth`
eses du mod`
ele lin
eaire g
en
eral

Defini sous forme matricielle, le mod`ele lineaire secrit.


y = X + .
o`
u
X est une matrice de constantes (non-aleatoire) de plein rang de dimension n p des xij .
est un vecteur (inconnu) de Rp .
est un vecteur (inconnu) de dimension n de variables aleatoires i .
E() = 0,
var(i ) = 2 (homoscedasticite).
cov(i , j ) = 0 (toutes les correlations sont nulles).
Seuls y et X sont observes.
Une presentation plus synthetique du mod`ele lineaire general est la suivante : soit y un vecteur aleatoire
de Rn tel que
E(y) = X o`
u X est une matrice n p et Rp ,
2
var(y) = I o`
u I est une matrice identite n n et 2 est un scalaire.
La condition var(y) = I2 inclut en fait deux hypoth`eses :
1. absence de correlation entre les termes derreur (les elements extradiagonaux de la matrice var(y) sont
nuls).
2. absence dheteroscedasticite (tous les elements diagonaux de la matrice var(y) sont egaux).
Dans beaucoup dapplications ces deux hypoth`eses ne sont pas realistes. Dans des series temporelles, les
termes derreur sont souvent correles. De meme, si lon analyse des unites statistiques regies par un effet
de taille, alors les variances, et donc les termes derreur, sont aussi regis pas un effet de taille, il y a donc
heteroscedasticite. Dans un premier temps, nous allons lever ces deux hypoth`eses et proposer une methode
destimation : la methode des moindres carres generalises. Ensuite, nous appliquerons cette methode aux
probl`emes dheteroscedasticite et de correlation des termes derreur.

7.2

La m
ethode des moindres carr
es g
en
eralis
es

Soit le mod`ele general :


o`
u X est une matrice de constantes,

y = X + .

(7.1)

E() = 0, var() = 2 ,

et est une matrice n n, symetrique, definie positive, de plein rang. La matrice = [ij ] nest pas
necessairement diagonale. Les hypoth`eses dhomoscedasticite et de non-correlation des termes derreur sont
donc levees.
77

Une premi`ere approche pour estimer consiste `a utiliser la methode des moindres carres generalises. On
minimise le crit`ere :

QG () = y X 1 y X .
En annulant la derivee par rapport `a , on obtient lestimateur par les moindres carres generalises (MCG) :

QG ()
= 2X0 1 y X = 0,

0 1
et finalement, en supposant que X X est inversible :
0 1 1 0 1
b

X
X y.
M CG = X
Lestimateur des moindres carres generalises est sans biais. En effet,

1 0 1

0 1
b
X E X + = .
E
X
M CG = X
Notons que lestimateur des moindres carres ordinaires (MCO) est egalement sans biais meme pour le
mod`ele (7.1)

1
0
b
E
X0 E X + = .
M CO = (X X)
Le fait davoir des termes derreur correles et de lheteroscedasticite ne fait pas perdre la propriete dabsence
b
de biais de
es ordinaires nest plus lestimateur optimal
M CO . Cependant, lestimateur des moindres carr
pour le mod`ele (7.1).
Th
eor`
eme 7.1 (generalise de Gauss-Markov) Sous le mod`ele (7.1), lestimateur des moindres carres generalises
b

= (X0 1 X)1 X0 1 y est le meilleur (au sens de la plus petite variance) estimateur lineaire en y
M CG

sans biais de .

La demonstration est une generalisation du theor`eme de Gauss-Markov developpee sous les hypoth`eses
dabsence dautocorrelation et dheteroscedasticite.
b
La variance de
M CG se calcule assez facilement
0 1
b
var(
X)1 X0 1 var(y)1 X(X0 1 X)1
M CG ) = (X
= (X0 1 X)1 X0 1 2 1 X(X0 1 X)1
= (X0 1 X)1 2 .

et peut etre estimee sans biais par


b
var(
c
M CG ) =
o`
u

b2 =

7.3

(X0 1 X)1
b2 .

1
0 1
b
b
(y X
(y X
M CG )
M CG ).
np

Estimateur des moindres carr


es g
en
eralis
es et projection oblique

Lestimateur des moindres carres generalises permet de definir des valeurs ajustees
0 1
b
y = X
X)1 X0 1 y = PXG y.
M CG = X(X

o`
u PXG est une matrice idempotente representant un projecteur oblique sur le sous-espace engendre par les
colonnes de la matrice X (limage de X ou Im(X)) :
PXG = X(X0 1 X)1 X0 1 .
On peut egalement calculer les residus estimes. En effet,

b = e = y y = (I PXG ) y = P
XG y = PXG

o`
u

P
XG = I PXG .

La matrice P
egalement idempotente, et est aussi un projecteur oblique sur lorthogonal du sous-espace
XG est
engendre par les colonnes de la matrice X.
78

7.4

Retour au moindres carr


es ordinaires

Supposons que nous identifiions une matrice M de dimension n n et de plein rang tel que le vecteur
u = [ui ] = M,
soit non-correles et homoscedatistique, autrement dit, E[ui ] = 0, cov[ui , uj ] = 0, i 6= j, et var[ui ] = u2 .
Remarquons que
var[u] = Iu2 = var [M] = Mvar [] M0 = M2 M0 .
En premultipliant cette derni`ere equation par M0 et en la postmultipliant par M, on a
M0 Mu2 = M0 M2 M0 M.
Comme M est de plein rang, M0 M est inversible. En inversant les deux membres de cette egalite, il vient
(M0 M)1
(M0 M)1 1 (M0 M)1
=
,
u2
2
ce qui permet dobtenir, en premultipliant et en postmultipliant par M0 M :
M0 M
1
=
.
u2
2
Alors, en premultipliant le mod`ele general (7.1) par M, on obtient
My = MX + M = MX + u.
= MX, on peut reecrire le mod`ele
= My et X
En posant y
+ u.
=X
y
On retrouve alors un mod`ele classique avec des termes derreur dautocorrelation nulle et homoscedastique.
= MX et le vecteur des variables expliquees est y
= My.
La matrice des variables explicatives est X
Lestimateur des moindres carres ordinaires est alors

1
b = X
0X
1 X
0y
= (X0 M0 MX) X0 M0 My.

Comme M0 M = 1 u2 /2 , on retrouve lestimateur par les moindres carres generalises :

b = X0 1 X

7.5

X0 1 y.

M
ethode du maximum de vraisemblance

Supposons que le mod`ele general ait des termes derreur multinormaux, autrement dit
y = X + .
o`
u X est une matrice non-aleatoire et

(7.2)

N (0, 2 ).

Si est de plein rang, la fonction de densite de vaut


f (u)

(22 )

n/2

||1/2

u0 1 u
exp
22

La fonction de vraisemblance secrit :


L(, 2 ) =

1
n/2

(22 )

||1/2

exp

79

(y X)0 1 (y X)
.
22

Le logarithme de la fonction de vraisemblance vaut :


`(, 2 ) =

log L(, 2 )
n
n
1
(y X)0 1 (y X)
= log(2) log(2 ) log ||
.
2
2
2
22

En annulant les derivees partielles par rapport aux param`etres, on obtient


X0 1 y X0 1 X
`(, 2 )
=
= 0,
2

et

n
1
`(, 2 )
= 2 + 4 (y X)0 1 (y X) = 0.
2
2
2

La solution du maximum de vraisemblance pour est `a nouveau la meme que la solution des moindres
carres generalises, et vaut :
b = (X0 1 X)1 X0 1 y.

Lestimateur du maximum de vraisemblance de 2 est donne par


2

bM
V =

1
b )0 1 (y X
b ).
(y X
n

2
Lestimateur
bM
e, mais il est possible de construire un estimateur sans biais
V est biais

b2 =

7.6

1
b )0 1 (y X
b ).
(y X
np

Int
er
et des moindres carr
es g
en
eralis
es

Le probl`eme de ce resultat est que la matrice nest pas toujours connue. Il faudra alors estimer .
Cependant est constitue de n termes diagonaux et de n(n 1)/2 termes extra-diagonaux. Il est donc
impossible de considerer la matrice comme un ensemble de param`etres `a estimer. En effet, on aurait
n(n + 1)/2 param`etres, pour seulement n valeurs observees. On ne peut donc pas se passer de la formulation
dhypoth`eses afin destimer .
On peut d`es `a present formuler deux hypoth`eses qui ne sont pas suffisantes pour pouvoir estimer , mais
qui reduisent considerablement le nombre de param`etres `a estimer.
La matrice est diagonale. Autrement dit, il y a seulement de lheteroscedasticite et pas dautocorrelation, cest-`a-dire que les elements de la diagonale ne sont pas tous egaux.
Tous les elements diagonaux de sont egaux. Autrement dit, il y a homoscedasticite, et de lautocorrelation. Il reste alors n(n 1)/2 param`etres `a estimer.
Ces hypoth`eses sont realistes car lautocorrelation et lheteroscedasticite ne ne presentent pas souvent conjointement. Lautocorrelation est specifique des mod`eles de series temporelles, et lheteroscedasticite est typique
des mod`eles en coupe (pour un instant particulier).

7.7
7.7.1

D
etection de lh
et
erosc
edasticit
e
Le probl`
eme

Lheteroscedasticite apparat quand on traite des unites pour lesquelles il peut exister un effet de taille.
Par exemple, si les unites statistiques sont des entreprises, les variances liees aux grandes entreprises seront
beaucoup plus elevees que les variances des petites entreprises pour toutes les variables liees `a cet effet de
taille : nombre de travailleurs, investissement, chiffre daffaires.
On suppose alors que le mod`ele secrit
y = X + ,

80

avec E() = 0, et var() = , o`


u
2
1
0

..
.
=
0

.
..
0

0
2
2
..
.

..
.

0
0
..
.

0
0
..
.

0
..
.

2
i
..
.

0
..
.

..
.

2
n

Exemple 7.1 Pour les 454 communes belges de moins de 20 000 habitants en 2004, on dispose de deux
variables : le nombre habitants dans la communes en 2004, et le revenu total imposable de tous les habitants
de la commune en millions deuros. La Figure 7.1 montre le nuage de points pour le croisement de ces deux
variables. La relation entre les deux variables est bien lineaire, mais la dispersion augmente avec la taille de
la commune. Cest un cas typique dheteroscedasticite.

200
150
100
0

50

Revenu taxable total

250

300

Fig. 7.1 Nombre dhabitants et revenus total pour les 454 communes belges de moins de 20 000 habitants
en 2004

2000

4000

6000

8000

10000

Nombre dhabitants

7.7.2

Graphique des r
esidus

Il est toujours interessant de representer le nuage de points des residus en fonction des differentes variables
explicatives.
Exemple 7.2 Le Tableau 7.1 reprend la population en milliers dhabitants et les revenus totaux du cantons
en millions de francs.
Le nuage de points de ces deux variables est presente dans la Figure 7.2. La Figure 7.2 ne montre pas
clairement lheteroscedasticite. Cependant, si lon estime un mod`ele de regression simple par la methode des
moindres carres ordinaires, on obtient
Revenu = 1353.66 + 51.81 Population + Residus.
Dans la Figure 7.3, on a calcule les residus de cette regression, et lon a ordonne les cantons selon leur taille
(en terme de population). Le graphique des residus de la Figure 7.3 met bien en evidence lheteroscedasticite.

81

Tab. 7.1 Population des cantons suisses en milliers dhabitants en 2001 et revenus des cantons
Canton
Appenzell Rh.-Int
Obwald
Uri
Glaris
Nidwald
Appenzell Rh.-Ext
Jura
Schaffhouse
Zoug
Schwytz
Neuch
atel
Grisons
B
ale-Ville
Thurgovie
Fribourg
Soleure
B
ale-Campagne
Valais
Tessin
Lucerne
Gen`eve
Saint-Gall
Argovie
Vaud
Berne
Zurich

Population
en milliers dhabitants
15
33
35
38
39
53
69
73
101
131
166
186
187
228
239
246
261
278
312
351
414
453
551
626
947
1229

Revenu du canton
en millions de fr.
588
1151
1468
1796
1989
2273
2263
3593
7191
6235
6645
7782
11978
9639
9055
10425
13415
9692
11181
14319
20763
19356
26655
30272
38796
72504

50000
30000
0

10000

Revenu taxable total

70000

Fig. 7.2 Nombre dhabitants et revenus total pour les cantons suisses

200

400

600

800

1000

1200

Nombre dhabitants

Exemple 7.3 Avec les donnees relatives aux communes belges de moins de 20000 habitants, les residus
sont presentes dans la Figure 7.4.
Lheteroscedasticite apparat en general sur les graphiques de residus. Cependant, il est evidemment plus

82

10000
5000
0
5000

Rsidus de la rgression du revenu par la population

Fig. 7.3 Residus de la regression en fonction des cantons classes par ordre croissant de population

10

15

20

25

Cantons par ordre de taille (population) croissante

50
0
50

Rsidus de la rgression u_i

Fig. 7.4 Residus de la regression des revenus par la population en fonction des communes belges classes
par ordre croissant de population

100

200

300

400

Communes tries par nombre dhabitants

rigoureux de recourir `a un test dhypoth`eses.

7.7.3

Test de White

Le test de White sert `a determiner si les carres des residus sont lies aux variables explicatives. On estime
dabord les coefficients de la regression de la variable y par les variables explicatives x au moyen de la methode
des moindres carres ordinaires. Ensuite, on effectue une seconde regression o`
u la variable dependante est le
carre du residu ei de la premi`ere regression et les variables explicatives sont les variables explicatives de la
premi`ere regression auxquelles on ajoute les carres de ces variables et leurs produits.
Par exemple si le mod`ele pour lequel on soupconne de lheteroscedasticite est
yi = 0 + 1 xi1 + 2 xi2 + 3 xi3 + i .
On estime par les MCO les coefficients 0 , 1 , 2 et 3 , ce qui permet destimer les residus ei = i . On
considere ensuite la regression
e2i = 0 + 1 xi1 + 2 xi2 + 3 xi3 + 4 x2i1 + 5 x2i2 + 6 x2i3 + 7 xi1 xi2 + 8 xi1 xi3 + 9 xi2 xi3 + ui .
Si on note Re2 le coefficient de determination estime pour ce nouveau mod`ele, il est possible de montrer que
sous lhypoth`ese nulle (H0 ) dhomoscedasticite,
nRe2 2q1 ,
83

o`
u q est le nombre de variables utilisees dans ce nouveau mod`ele. On rejette H0 si nRe2 > 2q1,1 . Un
inconvenient de ce type de test est que le nombre de variables peut devenir tr`es important au regard de la
taille de lechantillon.
Exemple 7.4 Avec les donnees sur les cantons suisses presentees dans la Tableau 7.1, on a dabord estime
un simple mod`ele lineaire donne par :
Revenu = 1353.66 + 51.81 Population + Residus.
On a ensuite estime le mod`ele
Residus2 = 1 + 2 Population + 3 Population2 + Nouveaux Residus,
et on a obtenu
Residus2 = 4959954.70 + 39391.24 Population + 101.21 Population2 + Nouveaux Residus.
Les coefficients sont presentes dans le Tableau 7.2 o`
u lon constate que les coefficient 2 et 3 sont significativement differents de 0. De plus R2 = 0.8963.
Tab. 7.2 Coefficients du mod`ele sur le carre des residus
Coefficients
constante
Population
Population2

Estimate Std.
4959954.70
-39391.24
101.21

Error
3077865.80
16919.21
14.79

statistique t
1.611
-2.328
6.842

Pr(> |t|)
0.1207
0.0291
5.61e-07

On peut donc tester lhomoscedasticite. Comme R2 = 0.8963, nR2 = 260.8963 = 23.30. De plus le quantile dordre 95% dune variable aleatoire chi-carre `a q 1 = 3 1 = 2 degres de liberte vaut 22;0.95 = 5.991,
on rejette donc lhypoth`ese dhomoscedasticite.

7.7.4

Test de Goldfeld-Quant

Le test de Goldfeld-Quant sapplique quand on soupconne que lheteroscedasticite est liee `a une variable
particuli`ere. Souvent cette variable est liee `a un effet de taille. On soupconne donc une relation positive entre
une variable particuli`ere et lheteroscedasticite. On commence par trier les donnees selon cette variable.
Ensuite on calcule deux regressions separees sur les k premi`eres et les k derni`eres observations. Il faut
evidemment que 2k n, et que k > p o`
u p est le nombre de param`etres du mod`ele. On omet donc les
c = n2k observations centrales. On calcule ensuite SCres1 , SCres2 SCregr1 , SCregr2 qui sont respectivement
les sommes des carres residuelles et de la regression pour les k premi`eres et les k derni`eres unites. La statistique
de test est
SCres2 /(k p)
,
SCres1 /(k p)
et suit, sous lhypoth`ese nulle (H0 ) dhomoscedasticite, une loi de Fisher `a (k p) et (k p) degres de liberte.
Exemple 7.5 On utilise les donnees sur les cantons suisses presentees dans le Tableau 7.1. Les donnees
ont ete scindees en trois groupes : les 9 plus petit cantons, les 8 cantons intermediaires et les 9 plus grands
cantons.
Sur les 9 plus petits cantons le mod`ele de regression estime est donne par :
Revenu = 1009.73 + 68.86 Population + Residus.
Les residus valent
564.85232,

111.60586,

67.67657,

189.10020,

313.24141,

La somme des carres des residus vaut


SCres1 = 4522777.
84

366.78162,

1478.52222,

423.95737.

Sur les 9 plus grands cantons le mod`ele de regression estime est donne par :
Revenu = 6887.5 + 59.2 Population + Residus.
Les residus valent
122.2070,

401.5554,

427.6876,

3142.1572,

573.5997,

923.9085,

100.9914,

10377.8541,

La somme des carres des residus vaut


SCres2 = 163162186.
On peut d`es lors calculer la statistique de test
P26
Residus2i
SCres2 /(k p)
163162186
Fobs =
= Pi=18
=
= 36.07566.
9
2
SCres1 /(k p)
4522777
esidusi
i=1 R
Comme k = 9, p = 2 et k p = 7, sous H0 , Fobs suit une loi de Fisher `a k p = 7 et k p = 7 degres de
liberte. Comme F7,7,0.95 = 3.787, Fobs > F7,7,0.95 = 3.787, on rejette lhypoth`ese dhomoscedasticite.

7.8
7.8.1

Estimation avec h
et
erosc
edasticit
e
Si la variance est connue

M
ethode 1
Dans certains cas, la variance peut etre connue, par exemple, si les unites statistiques sont des entreprises,
la variance peut etre liee `a un effet de taille notee z, et la taille de lentreprise (par ex. le nombre de travailleurs
peut etre une variable connue). Dans ce cas, on est face au mod`ele :
y = X + ,
avec E() = 0, et var() = , o`
u
2
0
1 0
2
0 2

..
..
..
.
.
.
.
.
.

=
2
0
0

.
..
..
..
.
.
0
0
0

..
.

0
0
..
.

z1

..

= 2 .
0
0

.
..

..
.
2
n
0

0
z2
..
.

..
.

0
0
..
.

0
..
.

zi
..
.

..
.

0
0

..
.
= 2 Z,
0

..
.
zn

o`
u
Z = diag(z1 , . . . , zn ).
Les valeurs zi sont supposees strictement positives.
Lestimateur des moindres carres generalises peut etre construit sans quil soit necessaire de se poser des
questions sur la valeur de 2 , en effet

1 0 1

1 0 2 1
0 1 1 0 1
b
X Z y.
(7.3)
X ( Z) y = X0 Z1 X
X y = X0 ( 2 Z)1 X

X
M CG = X
M
ethode 2
Il est egalement possible de traiter ce probl`eme, avec les moindres carres ordinaires, en effet, en notant

0
1/ z1

0
1/ z2
0

..
..
.
..
..
..

.
.
.
.
,

M=

0
z

0
0

1/
i

.
.
.
.
.
..
..
..
..
..

0
0

0
1/ zn
85

6636.0574.

on a

M0 M = Z1 = 1 2 ,

et donc le mod`ele
avec E(M) = 0, et

My = MX + M,
var(M) = MM = MZ 2 M = 2 I.

En pratique, on va simplement transformer les variables

y1
yi
yn
= My =
y

,
z1
zi
zn

i
n
1

,
u = M =
z1
zi
zn

= MX o`
= (
et X
uX
xij ) et x
ij = xij / zi . Le mod`ele secrit alors simplement
+ u,
=X
y
et comme var(u) = I 2 , on peut utiliser la methode des moindres carres ordinaire pour estimer .
= MX comme variables explicatives,
= My comme vecteur de variables dependantes et X
Donc, avec y
on a `a nouveau lhomoscedasticite. Dans ce cas, on peut utiliser lestimateur par les moindres carres ordinaires
qui est

1
1
b = X
0X
1 X
0y
= (X0 M0 MX) X0 M0 My = (X0 ZX) X0 Zy

et qui nest autre que (7.3).

7.8.2

Exemple de variance connue

Dans les donnees relatives aux communes belges de moins de 20000 habitants, la dispersion semble
directement liee `a la variable explicative (nombre dhabitants). La variance est donc proportionnelle au carre
de la variable explicative. Nous pouvons considerer plusieurs mod`eles.
Mod`
ele avec constante et h
et
erosc
edasticit
e
Dans ce premier mod`ele, on utilise une regression avec une constante et des termes derreur heteroscedastique.
yi = 1 + 2 xi + i , o`
u var(i ) = 2 x2i .

(7.4)

Pour se ramener `a un mod`ele homoscedastique, on peut simplement diviser chacun des mod`eles par xi , ce
qui donne :
yi
1
i
=
+ 2 + , o`
u var(i ) = 2 x2i .
xi
xi
xi
En posant yi = yi /xi , ui = i /xi et zi = 1/xi , on obtient

i
var (i )
2 x2
var(ui ) = var
=
= 2 i = 2 .
2
xi
xi
xi
Les nouveaux termes derreur sont maintenant homoscedastiques. Le nouveau mod`ele peut alors secrire
yi = 1 zi + 2 + ui , o`
u var(ui ) = 2 .
Le mod`ele se ram`ene `a un mod`ele avec constante dont la variable dependante est yi = yi /xi et la variable
independante est zi = 1/xi . Les resultats sont donnees, dans le Tableau 7.3, qui montre que la coefficient
1 nest pas significativement different de 0. On imaginera donc un mod`ele plus simple en supprimant le
coefficient 2 .

86

Tab. 7.3 Estimation de param`etre de la regression avec constante de y/x par 1/x
Coefficients
constante (2 )
1/x (1 )

Estimations
1.143e-02
-1.099e-01

Std. Error
8.756e-05
1.521e-01

statistique t
130.556
-0.722

Pr(> |t|)
< 2e 16
0.47

Mod`
ele sans constante et h
et
erosc
edasticit
e
Au vu du resultat obtenu dans le Tableau 7.3, on peut supprimer du mod`ele (7.4) la constante. On obtient
ainsi un mod`ele sans constante et avec heteroscedasticite.
yi = xi + i , o`
u var(i ) = 2 x2i .
Pour se ramener `a un mod`ele homoscedastique, on peut simplement diviser chacun des mod`eles par xi , ce
qui donne :
yi
i
= + , o`
u var(i ) = 2 x2i .
xi
xi
En posant yi = yi /xi et ui = i /xi , on obtient
yi = + ui , o`
u var(ui ) = 2 .
Le mod`ele reduit est donc extremement simple puisquon obtient une regression de yi = yi /xi par une
constante comme variable explicative et que les termes derreur sont maintenant homoscedastiques.
En estimant le param`etre par la methode des moindres carres ordinaires, on obtient
n

1X
1 X yi
b =
yi =
,
n i=1
n i=1 xi
ce qui donne
yi = 0.01141 + u
i ,
et en multipliant par xi , on revient au mod`ele de depart pour obtenir finalement :
yi = 0.01141 xi + i .
La Figure 7.5 montre, en outre, que lheteroscedasticite nest presque plus presente dans les residus estimes u
i .

0.004
0.000
0.004

Rsidus de la rgression u_i

Fig. 7.5 Residus u


i de la regression sans constante du revenu par la population en fonction des communes
classees par ordre croissant de population

100

200

300

Communes tries par nombre dhabitants

87

400

Passage par le logarithme des variables


Quand on est en presence dheteroscedasticite, il est parfois interessant dutiliser le logarithme des variables. En utilisant les donnees des communes belges presentees dans la Figure 7.1, le nuage de points
obtenu en croisant les logarithmes des variables population et revenu est presente dans la Figure 7.6.
On y constate que lessentiel de lheteroscedasticite a disparu.

10
9
8
7
6
5

Logarithme du revenu taxable

Fig. 7.6 Nuage de points : logarithme du revenu par le logarithme du nombre dhabitants

Logarithme du nombre dhabitants

On pourrait donc concevoir le mod`ele suivant


log(yi ) = 1 + 2 log(xi ) + i , o`
u var(i ) = 2 .

(7.5)

Notons que ce mod`ele peut egalement secrire

log
ou encore, en prenant lexponentielle,

yi
xi 2

yi
xi 2

!
= 1 + i ,

!
= exp 1 exp i .

(7.6)

On peut estimer directement le mod`ele (7.5) par la methode des moindres carres ordinaires. Le Tableau 7.4
montre que les deux coefficients sont significativement differents de zero.
Tab. 7.4 Estimation de param`etre du mod`ele logarithmique
Coefficients
Constante
log(x)

Estimations
-5.21913
1.08139

Std. Error
0.09921
0.01097

statistique t
-52.61
98.56

Pr(> |t|)
< 2e 16
< 2e 16

On obtient donc le mod`ele estime


log(yi ) = 5.21913 + 1.08139 log(xi ) + i ,
ou en ecrivant sous la forme du mod`ele (7.6), on obtient

yi
= exp 5.21913 exp i = 0.005412036 exp i .
x1.08139
i
La Figure 7.7 montre que les residus de la regression logarithmique sont homoscedastiques.

88

0.0 0.2 0.4


0.4

Rsidus modle logarithmique

Fig. 7.7 Residus de la regression du mod`ele logarithmique classes par ordre croissant de population

100

200

300

400

Communes tries par nombre dhabitants

7.8.3

Si la variance est inconnue

Dans la plupart des cas, on ne dispose pas dune variable


egalement exclu destimer cette variance, car la matrice
2
0
1 0
2
0 2

..
..
..
.
..
.
.
.
=
2
0
0

.
.
.
..
..
..
0
0
0

auxiliaire proportionnelle `a la variance. Il est

0
0
..
.

..
.

0
..
.

2
n

depend de n param`etres. Le nombre de param`etres `a estimer serait donc de n + p et donc superieur au


nombre dobservations, ce qui est impossible.
Cependant, quand aucune hypoth`ese ne peut etre faite sur la forme de lheteroscedasticite, White propose
destimer la matrice par
2

e1 0 0 0
2
0 e2 0 0

..
.. . .
..
..
.
. .
.
.
b =

(7.7)
0 0 e2i 0 ,

..
.. . .
..
..
.
.
.
.
0 0 0 e2n
o`
u les ei sont les residus estimes au moyen de la methode des moindres carres ordinaires. Notons que les
e2i sont des estimateurs biaises de i2 , mais on peut montrer que ce sont des estimateurs convergents. On
obtient alors lestimateur de White
1

0 b 1
b
b 1 y.

X
(7.8)

=
X
X0
M CG
Exemple 7.6 Reprenons les donnees sur les cantons suisses. Nous pouvons estimer par les MCO le mod`ele
sans constante :
Revenu = Population + ,
on obtient lestimation MCO :
Revenu = 49.450 Population + b.
Le Tableau 7.5 donne les residus estimes et les carres des residus. La Figure 7.8 montre le lien entre les carres
des residus et la variable population. Ensuite, on utilise la methode des moindres carres generalises, en
b definie en (7.7). On obtient alors lestimation de White :
utilisant la matrice
Revenu = 49.1982 Population + b.
89

Notons que si lon consid`ere que lheteroscedasticite est donnee par var(k ) = x2k 2 , alors lestimation par
les moindres carres generalises (MCG) donne
Revenu = 45.343 Population + b.

Tab. 7.5 Population des cantons suisses en milliers dhabitants, revenus des cantons, residus de la regression
et carres des residus
Canton
AppenzellRh.-Int
Obwald
Uri
Glaris
Nidwald
AppenzellRh.-Ext
Jura
Schaffhouse
Zoug
Schwytz
Neuch
atel
Grisons
B
ale-Ville
Thurgovie
Fribourg
Soleure
Basel-Campagne
Valais
Tessin
Lucerne
Gen`eve
Saint-Gall
Argovie
Vaud
Berne
Zurich

Population
15
33
35
38
39
53
69
73
101
131
166
186
187
228
239
246
261
278
312
351
414
453
551
626
947
1229

Revenu
588
1151
1468
1796
1989
2273
2263
3593
7191
6235
6645
7782
11978
9639
9055
10425
13415
9692
11181
14319
20763
19356
26655
30272
38796
72504

residus
-153.75
-480.84
-262.74
-83.09
60.46
-347.83
-1149.03
-16.83
2196.58
-242.91
-1563.65
-1415.65
2730.90
-1635.53
-2763.48
-1739.63
508.63
-4055.02
-4247.31
-3037.85
290.82
-3044.72
-591.79
-683.52
-8032.88
11730.31

residus2
23637.73
231207.56
69032.25
6903.79
3655.57
120988.97
1320270.10
283.21
4824960.09
59006.32
2445007.73
2004054.36
7457836.77
2674971.92
7636827.02
3026308.85
258699.79
16443184.69
18039641.13
9228524.18
84576.03
9270314.64
350216.39
467198.46
64527103.90
137600055.86

1.2 e+08
6.0 e+07
0.0 e+00

Carrs des rsidus par les MCO

Fig. 7.8 Donnees suisses, carres des residus par nombre dhabitants

200

400

600
Nombre dhabitants

90

800

1000

1200

7.9
7.10

Lautocorr
elation des r
esidus
Un exemple dautocorr
elation

Le Tableau 7.6 contient les temperatures journali`eres du mois de janvier 2006 de la station de mesure
dAdelboden de Meteossuisse. Ces donnees sont egalement presentees dans la Figure 7.9. qui montre directement un phenom`ene bien connu. La temperature ne change en general pas de mani`ere brusque dun jour
`a lautre. La temperature dun jour particulier ressemble donc souvent `a la temperature du jour precedent.
Tab. 7.6 Temperatures journali`ere du mois de janvier 2006
1
0.6
11
0.2
21
0.9

2
1.5
12
1.1
22
-3.7

3
-4.2
13
-1.3
23
-5.4

4
0.9
14
-3
24
-8.5

5
2.7
15
-0.2
25
-11.1

6
2.5
16
1.5
26
-12

7
3.4
17
1
27
-13.3

8
7.8
18
1.3
28
-12.1

9
4.8
19
-4.6
29
-13.2

10
3.9
20
1.6
30
-11.6

31
-6.9

Si Tt represente la temperature au jour t et Tt1 la temperature au jour precedent, la Figure 7.10 presente
le nuage de points obtenu en croisant la temperature et la temperature du jour precedent.

0
5
10

Temprature

Fig. 7.9 Temperatures journali`ere du mois de janvier 2006

10

15

20

25

30

Jour

5
0
5
10

temperature du jour suivant

Fig. 7.10 Temperatures journali`ere vs temperatures du jour suivant

10

temperature dun jour

91

On observe, en examinant la Figure 7.10, que les points semblent aligner le long dune droite croissante.
Pour predire la temperature `a un jour particulier, on pourrait dans un premier mod`ele simple utiliser la
temperature du jours precedent. En utilisant un simple mod`ele lineaire, on obtient
Tt = 1 + 2 Tt1 + t .

(7.9)

Lestimation des param`etres par les moindres carres ordinaires donne


Tt = 0.49659 + 0.87665 Tt1 + t ,
et le R2 est egal `a 0.7564.
Cependant un simple test de Student nous montre que le coefficient 1 nest pas significativement different
de zero. Il est donc plus judicieux destimer un mod`ele sans constante
Tt = Tt1 + t .

(7.10)

Lestimation du param`etre par les moindres carres ordinaires donne


P31
Tt Tt1
b
= Pt=2
= 0.9055,
31
2
t=2 Tt1
ce qui donne
Tt = 0.9055 Tt1 + bt .
Les mod`eles (7.9) et (7.10) o`
u lon tente dexpliquer une variable par ses valeurs passees sappellent des
mod`eles autoregressif. Ces mod`eles se justifient dans le traitement des series temporelles, car generalement
les valeurs des variables ne changent pas radicalement dun temps `a lautre. Dans les series temporelles, on
utilisera souvent des mod`eles autoregressifs sur les termes derreur dune regression pour prendre en compte
cette ressemblance.

7.10.1

La mod
elisation

Quand les donnees sont issues dobservations temporelles, on peut soupconner les termes derreur du
mod`ele lineaire detre autocorreles. Le mod`ele est alors
y = X + ,
avec E () = 0, var () = 2 , et

1
1
2
..
.

n3

n2
n1

1
1
1
..
.

2
1
1
..
.

..
.

n3
n4
n5
..
.

n2
n3
n4
..
.

n4
n3
n2

n5
n4
n3

1
1
2

1
1
1

n1
n2

n3

.. .
.

1
1

Les coefficients 1 < j < 1 sont appeles coefficients dautocorrelation. Cependant ce mod`ele est trop
complexe pour etre estime directement, car il faudrait estimer n 1 coefficients dautocorrelation, ce qui est
impossible avec seulement n param`etres. On aura donc recours `a des mod`eles plus simple comme les mod`eles
autoregressifs dordre 1.

7.10.2

D
efinition du processus autor
egressif dordre un

Le processus autoregressif dordre un est un cas simple de serie statistique dont les termes derreur sont
autocorreles. Considerons la serie temporelle des i definie pour toute valeur i de Z, et regie par le mod`ele
suivant :
i = i1 + ui , i Z.
o`
u
les ui sont de moyennes nulles, homoscedastiques, de variance u2 et non-correles, pour tout i Z,
|| < 1,
cov (ij , ui ) = 0, si j est positif.
92

7.10.3

Exemples de processus autor


egressifs

Il est interessant de generer des processus autoregressifs. Dans la Figure 7.11 une suite de variables
aleatoires normales independantes de moyennes nulles et de variances egales `a 1 ont ete generees. Ce processus
est appele un bruit blanc gaussien.

Fig. 7.11 Bruit blanc : Suite de variables normales centrees reduites

50

100

150

200

250

300

Dans la Figure 7.12, on a genere un processus autoregressif avec = 0.9. La valeur du processus au temps
t est tr`es similaire `a la valeur temps precedent. Dans la Figure 7.13, on a genere un processus autoregressif
avec = 0.5. La valeur du processus au temps t est similaire `a la valeur temps precedent, mais cette similarite
est moins forte quavec = 0.9.

2 2

Fig. 7.12 Processus autoregressif avec = 0.9

50

100

150

200

250

300

Fig. 7.13 Processus autoregressif avec = 0.5

50

100

150

200

250

300

Il est egalement possible de generer des processus autoregressif avec une valeur negative pour . Dans la
Figure 7.14, on a genere un processus autoregressif avec = 0.5. La valeur du processus na en general
pas le meme signe au temps t et au temps t 1. Ensuite, dans la Figure 7.15, on a genere un processus
autoregressif avec = 0.9. La valeur du processus nest presque jamais le meme signe au temps t et au
temps t 1.
Enfin, on a genere, dans la Figure 7.16 un processus avec = 1. Ce processus est appele une promenade
aleatoire. Finalement, dans la Figure 7.17, on a genere un processus avec = 1.01, qui nest plus du
tout stationnaire. A partir des deux derni`eres figures, on peut comprendre intuitivement limportance de la

93

Fig. 7.14 Processus autoregressif avec = 0.5

50

100

150

200

250

300

Fig. 7.15 Processus autoregressif avec = 0.9

50

100

150

200

250

300

condition || < 1, qui sert, en quelque sorte, `a ramener le processus aux alentours de zero, ce qui garantit la
stationnarite.

10

20

Fig. 7.16 Promenade aleatoire : Processus autoregressif avec = 1

50

100

150

200

250

300

80

40

Fig. 7.17 Processus non stationnaire = 1.01

50

100

150

94

200

250

300

7.10.4

Esp
erance et variance du processus autor
egressif dordre 1

Le caract`ere recursif de la definition de i permet de realiser le developpement suivant :


i

=
=
=
=
=
..
.

i1 + ui
(i2 + ui1 ) + ui
2 i2 + ui1 + ui
2 (i3 + ui2 ) + ui1 + ui
3 i3 + 2 ui2 + ui1 + ui

j ij +

j1
X

k uik , avec j > 0

k=0

..
.

k uik .

k=0

On peut alors calculer lesperance

E(i ) =

E ij +

j1
X

!
k

uik

, avec j > 0

k=0

E (ij ) +

j1
X

k E (uik )

k=0
j

E (ij ) +

j E (ij ) .

j1
X

k 0

k=0

Si || < 1, alors en faisant tendre j vers linfini, on obtient


E(i ) = lim j E (ij ) = 0.
j

On peut egalement calculer la variance :

= var(i ) =

var ij +

j1
X

!
k

uik

, avec j > 0

k=0

= 2j var (ij ) +

j1
X

2k var (uik )

k=0

= 2j var (ij ) + u2

j1
X

2k

k=0

1 2j
.
= 2j var (ij ) + u2
1 2
Si || < 1, alors en faisant tendre j vers linfini, on obtient

1 2j
u2
var(i ) = lim 2j var (ij ) + u2
=
.
j
1 2
1 2

95

(7.11)

Ensuite, on peut calculer lautocovariance en repartant de lexpression (7.11) :

cov (i , ij )

cov ij +

j1
X

!
k

uik , ij

k=0
j1

X
cov j ij , ij +
cov k uik , ij

k=0
j1
X

j var (ij ) +

k cov (uik , ij )
|
{z
}
k=0

j 2
j u2
, pour tout j > 0.
1 2

=
Enfin, on calcule lautocorrelation :

1
2
j 1
2 u
cov(i , ij )
= j .
=q
1
1
2
2
var(i )var(ij )
u 12 u 12

corr(i , ij ) = p

La serie temporelle i est donc homoscedastique. En effet, sa variance ne depend pas de i. De plus, lautocorrelation entre i et j ne depend que la difference entre i et j.

7.10.5

Processus sur un intervalle de temps fini

En pratique, la serie temporelle ne peut etre observee que sur un intervalle de temps limite (de linstant
1 `a linstant n). Sur cet intervalle, la serie est regie par le meme mod`ele :
i = i1 + ui , pour i = 2, . . . , n.
Il est cependant necessaire de faire des hypoth`eses supplementaires sur le demarrage de la serie (sur 1 ).
Les hypoth`eses deviennent :
les ui sont de moyennes nulles, homoscedastiques, de variance u2 et non-correles,
|| < 1,
E (1 ) = 0,
1
2
var (1 ) = 1
2 u ,
E (1 ui ) = 0, pour i = 2, . . . , n.
On constate `a nouveau que E(i ) = 0, et que
i

=
=
=

i1 + ui
(i2 + ui1 ) + ui
2 i2 + ui1 + ui

=
=
..
.

2 (i3 + ui2 ) + ui1 + ui


3 i3 + 2 ui2 + ui1 + ui

j ij +

j1
X

k uik , j < i

k=0

i1

1 +

i2
X
k=0

96

k uik ,

ce qui permet de calculer la variance

var(i )

var

i1

1 +

i2
X

!
k

uik

k=0
i2

=
=
=
=

X
u2
+
2k u2
2
1
k=0
(
)
i2
X
1
2(i1)
+
2k u2
1 2
k=0

1
1 2(i1)
2(i1)

+
u2
1 2
1 2
u2
,
1 2

2(i1)

et les covariances se calculent de la meme mani`ere


cov (i , ij )

u2 j
, pour tout j > 0.
1 2

On peut donc construire la matrice variance-covariance du vecteur = (1 . . . i . . . n )0 :


var() = u2 ,
o`
u

2
..
.

1 2 n3

n2
n1

..
.
n4

n3
n2

1
..
.

..
.

n3
n4
n5
..
.

n2
n3
n4
..
.

n5

n4
n3

n1
n2

n3

.. .
.

(7.12)

Cette matrice est inversible et lon peut verifier par une simple multiplication que son inverse est :

0
0
0
1 + 2

0
0
0

2
0

1 +
0
0
0

..
..
..
..
.. .
..
1 = ...

.
.
.
.
.
.

2
0

0
0

1
+

0
0
0

1 + 2
0
0
0

1
Le processus autoregressif dordre un ne depend que dun seul param`etre . Ce param`etre peut etre
estime par la methode des moindres carres qui consiste `a minimiser la quantite :
Q() =

n
X

(i i1 ) .

i=2

On obtient :

Pn
i i1
.
b = Pi=2
n
2
i=2 i1

Exemple 7.7 Avec les series de temperatures donnees dans le Tableau 7.6, on obtient
Pn
i i1
= 0.9055.
b = Pi=2
n
2
i=2 i1

97

7.10.6

Le test de Durbin-Watson

Considerons un mod`ele du type


o`
u var(i ) =
b
ordinaires

2 ,

et cov(i , j ) =

y = X + ,

ij 2 .

On peut estimer au moyen de lestimateur des moindres carres

M CO , ce qui ne procure pas un estimateur optimal, mais cet estimateur est sans biais. On peu
d`es lors calculer les residus estimes
b.
e = y X

Le test de Durbin-Watson consiste `a tester lhypoth`ese nulle


H0 : 1 = 0,
contre lhypoth`ese alternative
H1 : 1 6= 0.
Ce test utilise la statistique de test de Durbin-Watson
Pn
Pn
(ei ei1 )2
i=2 ei ei1
i=2
Pn 2
22 P
2(1 b)
DW =
n
2
i=1 ei
i=1 ei
o`
u ei est le residu estime au moyen dune regression par les moindres carres ordinaires.
On constate que :
quand est proche de 0, la statistique de Durbin-Watson est proche de 2,
quand est proche de 1, la statistique de Durbin-Watson est proche de 0,
quand est proche de -1, la statistique de Durbin-Watson est proche de 4.
La r`egle de decision pour un test de niveau consiste `a rejeter H0 si
DW
/ [A , 4 A ],
o`
u A est la valeur critique. Durbin et Watson ont cependant montre que A depend de la matrice X. Pour
chaque matrice X, les valeurs critiques sont differentes. Durbin et Watson ont calcule des tables statistiques
qui encadrent les valeurs A pour toutes valeurs de X, ces bornes sont notees dL et dU .
En pratique, la r`egle de decision est donc
on rejette H0 si DW < dL ou si DW > 4 dL ,
on ne rejette pas H0 si DW [dU , 4 dU ],
on ne peut pas conclure au sujet de H0 si DW [dL , dU ] ou si DW [4 dU , 4 dL ].
Cette r`egle de decision est illustree dans la Figure 7.18
Fig. 7.18 R`egle de decision pour le test de Durbin-Watson

RH0

Ni RH0
ni RH0

dL

dU

RH0

Ni RH0
ni RH0

4 dU

RH0

4 dL

Exemple 7.8 Le tableau 7.7 contient la consommation de boeuf et le prix du boeuf aux Etats-Unis de 1925
`a 1941. On a fait la regression de la consommation par le prix et on a obtenu
Consommation = 85.239 0.466 Prix + ei .
Les residus estimes ont egalement ete ajoutes dans le tableau. Les Figures 7.19 et 7.19 presentent respectivement les graphiques des residus estimees soit en fonction des annees soit en fonction du residu de lannee
precedente. Lautocorrelation apparat clairement. On obtient :

98

Tab. 7.7 Consommation et prix du boeuf aux Etats-Unis


Annee
Annee
1925
1926
1927
1928
1929
1930
1931
1932
1933
1934
1935
1936
1937
1938
1939
1940
1941

Prix du
boeuf
59.7
59.7
63
71
71
74.2
72.1
79
73.1
70.2
82.2
68.4
73
70.2
67.8
63.4
56

Consommation
de boeuf
58.6
59.4
53.7
48.1
49
48.2
47.9
46
50.8
55.2
52.2
57.3
54.4
53.6
53.9
54.2
60

Residus
Consommation par prix
1.15471
1.95471
-2.20896
-4.08451
-3.18451
-2.49473
-3.7724
-2.46006
-0.40684
2.64305
5.22972
3.90505
3.1466
1.04305
0.22571
-1.52274
0.83215

2
0
4

rsidus

Fig. 7.19 Residus selon les annees

25

30

35

40

anne

4
2
0
4

rsidus de lanne suivante

Fig. 7.20 Residus dune annee vs residus de lannee suivante

2
rsidus

Pn
ei ei1
b = Pi=2
= 0.7547252.
n
2
i=2 ei1
La statistique de Durbin-Watson vaut
DW 2(1 b) = 0.4905496.
99

En pratique la r`egle de decision est


on rejette H0 si DW < dL ou si DW > 4 dL ,
on ne rejette pas H0 si DW [dU , 4 dU ],
on ne peut pas conclure au sujet de H0 si DW [dL , dU ] ou si DW [4 dU , 4 dL ].
Avec une seule variable explicative dans le mod`ele et n = 17, on obtient dans la table dL = 1.13 et du = 1.38.
Donc on rejette H0 car DW = 0.4905496 < dL = 1.13.

7.11

Estimation avec des termes derreur autocorr


el
es

7.11.1

Le mod`
ele et estimation par les MCG

M
ethode 1
On suppose que le mod`ele lineaire secrit
y = X + ,
et le vecteur des i est un processus autoregressif dordre 1.
Si etait connu, on pourrait donc directement estimer par les moindres carres generalises :
0 1 1 0 1
b

X
X y,
M CG = X

(7.13)

o`
u est la matrice variance-covariance donnee en (7.12).
M
ethode 2
Pour se ramener `a la methode des moindres
que 1 = M0 M, o`
u
p
1 2

..
M=
.

0
0
De plus,

carres ordinaires, on peut verifier par simple multiplication


0 0
1 0
1
..
.. . .
.
.
.
0 0
0 0
0 0

0
0
0
..
.
1

1 2 1
1 + 2
..
.

M =
i1 + i .

.
.

0
0

..
.
.

0 0
1 0
1
0
0
0
..
.

(7.14)

n1 + n
En remplacant, dans (7.14) les i par i1 + ui , on obtient
p

1 2 1

u2

..

.
M =

ui

.
..

un
On a donc E(M) = 0, et var(M) = Iu2 . Le mod`ele
My = MX + |{z}
M ,
u

100

(7.15)

est donc un mod`ele lineaire general avec des termes derreur homoscedastiques et non-correles. Lestimateur
lineaire optimal est alors lestimateur des moindres carres ordinaires qui secrit :
1
0
0
b

X0 M0 My,
M CO = (X M MX)

(7.16)

et qui est le meme que lestimateur par les moindres carres generalises.

7.11.2

Cas o`
u est inconnu

En pratique, est toujours inconnu. Cochrane et Orcutt sugg`erent dutiliser une procedure iterative. On
commence dabord par effectuer une regression classique par les MCO. En obtient ainsi des residus e, ce qui
permet dobtenir une premi`ere estimation approximative de
Pn
ei ei1
b = Pi=2
.
n
2
i=2 ei1
Ensuite, on rep`ete les deux operations suivantes.
1. Connaissant une approximation de , on peut estimer le coefficient de regression au moyen de lexpression (7.13) ou (7.16). On obtient ainsi une estimation de qui permet dobtenir une nouvelle
estimation les residus.
` partir de ces nouveaux residus, on recalcule une estimation de .
2. A
En repetant ces deux operations plusieurs fois, on aboutit `a une solution, qui nest pas necessairement
optimale.
Il est egalement possible dobtenir une solution du maximum de vraisemblance, en supposant que les ui
ont une distribution normale. Cette methode, plus complexe, permet destimer en meme temps et .

Exercices
Exercice 7.1 Soit le mod`ele `a trois variables explicatives :
yt = a0 + a1 x1t + a2 x2t + a3 x3t + t
Nous disposons des observations annuelles de 1971 `a 1990 :
Annee
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990

yt
87.4
97.6
96.7
98.2
99.8
100.5
103.2
107.8
96.6
88.9
75.1
76.9
84.6
90.6
103.1
105.1
96.4
104.4
110.7
127.1

xt1
98.6
101.2
102.4
100.9
102.3
101.5
101.6
101.6
99.8
100.3
97.6
97.2
97.3
96.0
99.2
100.3
100.3
104.1
105.3
107.6

xt2
99.1
99.1
98.9
110.8
108.2
105.6
109.8
108.7
100.6
81.0
68.6
70.9
81.4
102.3
105.0
110.5
92.5
89.3
93.0
106.6

xt3
108.5
110.1
110.4
104.3
107.2
105.8
107.8
103.4
102.7
104.1
99.2
99.7
102.0
94.3
97.7
101.1
102.3
104.4
108.5
111.3

Le but de cet exercice est de deceler une eventuelle autocorrelation dordre 1 des erreurs.
Pour ce faire :
101

1. estimez les coefficients du mod`ele par moindres carres ordinaires,


2. calculez la statistique de Durbin-Watson, effectuez le test et commentez le resultat.

Exercice 7.2 Reprenez les donnees et le mod`ele de lexercice precedent et essayez de corriger les effets lies
`a lautocorrelation des erreurs. Pour cela, il y a plusieurs techniques possibles.
En voici deux :
1. estimez le `a partir de la statistique de Durbin-Watson et avec cet estimateur, transformez les donnees
pour obtenir un mod`ele qui satisfasse aux hypoth`eses des moindres carres ordinaires,
2. estimez le mod`ele en specifiant au logiciel quil y a de lautocorrelation dordre 1.
Commentez les resultats obtenus.
Remarque : Eviews estimera le par maximum de vraisemblance et lutilisera pour estimer le mod`ele par
moindres carres generalises.

Exercice 7.3 Le but de cet exercice est de gagner de lexperience dans les methodes pour tester la presence
dauto-correlation de 1er ordre dans les mod`eles contenant des variables endog`enes retardees comme regresseurs.
Vous utiliserez les statistiques m et h de Durbin et vous ferez des regressions utilisant les MCO et la technique de Hildreth-Lu. Les donnees necessaires sont sur le site de lUniversite de Neuchatel division ecopo.
Le nom du fichier est Kopcke1. Ce sont des donnees trimestrielles allant de 1952 : 1 `a 1986 : 4. Pour cet
exercice, vous aurez uniquement besoin des series IE (investissement en equipement), IS (Investissement en
construction) et Y (PIB).
1. En utilisant les MCO, estimez, pour les deux types dinvestissements, lequation suivante :
It = Yt (1 )Yt1 + (1 )It1 + t
` partir de ces resultats, donnez les estimations implicites de le coefficient capital/output, le
A
taux de depreciation du capital et le coefficient dajustement. Est-ce que le taux de depreciation
correspond bien au 0.15 pour les equipements et 0.05 pour la construction obtenue par Kopcke ? En
utilisant la statistique de Durbin-Watson donnee par Eviews, testez avec = 0.05 lhypoth`ese nulle de
labsence dauto-correlation. Puisque DW est approximativement egale `a 2(1 ), calculez lestimation
implicite de . Pourquoi est-ce que cette estimation peut etre biaise vers zero ?
2. James Durbin (1970) developpa deux statistiques pour ce contexte qui sont strictement valide asymptotiquement mais qui sont aussi frequemment utilisees en petits echantillons. Il y a la statistique suivante,
le h de Durbin :
s
h = b

T
1 T (var3 )

o`
u b est lestimation de faite au premier point, T est la taille de lechantillon (ici 124) et var3 est
lestimation faite au premier point de la variance du coefficient lie `a la variable dependante retardee. h
est asymptotiquement normalement distribuee (centree reduite). Calculez le h, et en utilisant la table
de la normale centree reduite, testez avec = 0.05 lhypoth`ese nulle h = 0 (et donc = 0). Dans
certains cas, si T (var3 ) > 1, la racine est negative. Dans ce cas, cette statistique est inutilisable. On
utilisera donc plutot la statistique m de Durbin. Plus precisement, du premier point, recuperez les
124 residus. Ensuite, estimez par MCO lequation suivante (avec les meme variables explicatives que
ci-dessus et avec en plus les residus retardes dune periode) :
et = c + 1 Yt + 2 Yt1 + 3 It1 + et1 + t
sur la periode dobservation 1952 : 2-1986 : 4. Donnez lestimation de dans ce cas ( ) et testez la
nullite de avec = 0.05.
102

3. Maintenant, estimez lequation du premier point en specifiant de lauto-correlation de premier ordre.


Dune part, en utilisant la technique integree dans le logiciel Eviews et dautre part, en utilisant la
technique de Hildreth-Lu. Cette technique consiste `a balayer tout le spectre possible de avec dans
un premier temps un pas de 0.05. Sur la base des resultats initiaux, affinez votre balayage avec un pas
de 0.01. Le crit`ere pour la selection du dans ce cas est la minimisation de la somme des carres des
residus (SSR) des equations transformees qui sont estimees par MCO (voir exercice 5.2).
4. Comparez tous vos resultats et faites un commentaire.
Exercice 7.4 Estimez de mani`ere optimale bb0 et bb1 du mod`ele
yt = b0 t + b1 t2 + t
o`
u : Les t sont heteroscedastiques avec t N (0, 2 t2 )
Tab. 7.8 Donnees selon le temps et le carre du temps
yt
7
8
10
12
15

t
1
2
3
4
5

t2
1
4
9
16
25

(Indication : Trouvez lastuce !)


Exercice 7.5 Exercice sur lheteroscedasticite `a faire avec Eviews.
On suppose que lanalyse theorique permet de conclure au bien-fonde dune estimation de la relation suivante
entre les depenses publiques pour lenseignement et le revenu :
Depensest = a + b Revenut
La relation inverse (effet des depenses denseignement sur le revenu) et les autres facteurs influencant la
depense sont ainsi ignores. On utilise les donnees du tableau ci-apr`es se referant aux cantons suisses et pour
lannee 1991 (millions de CHF).
1. Transferez les donnees ci-dessous sur un fichier Excel et, `a partir de cet emplacement, transferez-les
sur Eviews.
2. Estimer par MCO ladite relation et commenter le resultat obtenu.
3. Verifier si le calcul ci-dessus est affecte par le phenom`ene dheteroscedasticite et cela `a laide :
i) du graphique des residus en rapport avec la variable explicative ;
ii) du test de White ;
Commenter les resultats obtenus.
4. Dans le but, le cas echeant, deviter lheteroscedasticite et aussi afin dameliorer linteret economique
des resultats, effectuez lestimation en logarithmes de la fonction ci-dessus. Donnez intuitivement la
raison de prendre les logarithmes afin deviter lheteroscedasticite. Commentez les resultats en utilisant
le test de White egalement.
5. Reprenez les donnees originales et estimer le mod`ele `a laide des moindres carres ponderes. Pour cela
dans la bote Equation Specif ication, allez dans Options et selectionnez Heteroscedasticity en haut
`a gauche.
Commentez le resultat en utilisant le test de White.
Indication : Eviews effectue automatiquement le test de White. Pour cela, il faut changer de vue lorsque
le resultat de la regression est affiche sur lecran. Il suffit de clicker sur
V iew/ResidualT est/W hite Heteroscedasticity(crossterms).

103

Tab. 7.9 Depenses denseignement et revenus selon les cantons


Cantons
Enseignement Revenu
Zurich
2252
65574
Bern
1937
36886
Luzern
399
11719
Uri
44
1196
Schwyz
101
4194
Obwalden
21
984
Nidwalden
22
1400
Glarus
44
1749
Zug
116
6037
Fribourg
438
7859
Solothurn
256
8857
Bale-ville
541
11655
Bale-campagne
349
10005
Schaffouse
77
2703
Appenzell A.
41
1869
Appenzell I.
12
456
St-Gallen
406
15857
Grison
178
7058
Aarau
740
20318
Thurgovie
190
7125
Tessin
444
9922
Vaud
1319
24103
Valais
434
8068
Neuchatel
280
5834
Gen`eve
1464
22034
Jura
117
2128

Exercice 7.6 Exercice sur la saisonnalite par variables muettes.


Une entreprise cherche `a apprehender une relation entre ses ventes et ses depenses publicitaires. Le directeur
marketing dispose des donnees sur les ventes et les depenses publicitaires entre 1988 et 1992 se trouvant
ci-dessous.
1. Vous etes son conseiller et vous lui recommandez de faire la regression classique :
VENTESt = a + b PUBt + t
Commentez les resultats obtenus.
2. Tracer le graphique comprenant la series des ventes et celle de la publicite du Tableau 7.10. Que
pouvez-vous en conclure ?
3. Specifier et estimer le mod`ele adequat.
4. Tracer les ventes realisees et les ventes estimees par les regressions respectives (un graphe pour chaque
regression).
5. Expliquez la fonction @seas(n) de Eviews et mettez-la en oeuvre ici.
Indication : Eviews calcule automatiquement tous ces graphes. Pour afficher des series, il faut selectionner les
series voulues, allez dans V iew/Show. Puis, lorsque le groupe contenant les series apparat, retournez dans
V iew/Graph/line. Pour afficher graphiquement les resultats de la regression, cest plus simple. Lorsque le
resultat de la regression apparat, allez dans V iew/Actual, F itted.../Actual, F itted, ...Graph.

104

Tab. 7.10 Ventes


Annees
1988
Ventes
Pub.
1989
Ventes
Pub.
1990
Ventes
Pub.
1991
Ventes
Pub.
1992
Ventes
Pub.

et depenses
T1
T2
164 198
34
36
168 201
45
67
197 209
75
78
223 245
78
81
298 309
89
82

publicitaires
T3
T4
85 179
32
29
98 197
76
75
100 216
72
75
119 260
84
83
124 267
81
83

Exercice 7.7 Exercice sur les series temporelles.


Soient les processus :
1. Xt = Xt1 + ut o`
u || < 1, t Z
Cest un processus autoregressif dordre 1 symbolise par le terme AR(1).
2. Yt = ut1 + ut o`
u || < 1, t Z
Cest un processus `a moyenne mobile dordre 1 symbolise par le terme MA(1).
Partie theorique :
Calculez dune part :
1. var(Xt )
2. cov(Xt , Xtj )
3. corr(Xt , Xtj )
et dautre part :
1. var(Yt )
2. cov(Yt , Ytj )
3. corr(Yt , Ytj )
pour j = 1, . . . , .
Partie pratique :
Generez sur Eviews des ut N (0, 1) et avec, generez une realisation de Xt et de Yt . Ensuite, estimez (visualisez) la fonction dautocorrelation grace au correlogramme.
Utilisez les valeurs suivantes pour et :

= 0.8
= 0.3

= 0.8 = 0.3
= 0.8
= 0.3

= 0.8 = 0.3
Comparez avec les calculs qui ont ete faits dans la partie theorique.

Exercice 7.8 On consid`ere la relation suivante entre lepargne du menage Ei et son revenu Ri :
Ei = Ri + i ,

avec i = 1, . . . , n.

o`
u i est un terme derreur verifiant
E(i ) = 0, pour tout i,
E(i j ) = 0, pour tout i 6= j,
105

On consid`ere
Mod`ele
Mod`ele
Mod`ele

en outre 3 mod`eles de variances sur les termes derreur i :


1 : E(2i ) = 2 , pour tout i,
2 : E(2i ) = 2 Ri , pour tout i,
3 : E(2i ) = 2 Ri2 , pour tout i.

1. Donnez une signification du mod`ele et interpreter le param`etre .


2. Donnez les meilleurs estimateurs de sous ces trois mod`eles. Commentez les resultats obtenus.
3. Que vaut la variance lestimateur des MCG et des MCO sous le mod`ele 3 (E(2i ) = 2 Ri2 ) ? Comparez
sa variance avec celle de lestimateur par les MCG. Le resultat est-il conforme au theor`eme de GaussMarkov ?

Exercice 7.9 On consid`ere le mod`ele lineaire sans constante suivant :


yi = xi + i ,

avec i = 1, . . . n

et i N (0, 2 ).

(7.17)

Les residus sont non-correles.


1. Recherche du meilleur estimateur de :
n
X
(a) On pose =
ci yi un estimateur lineaire de ; les ci sont des constantes. Sous quelles condii=1

tions est-il sans biais ?


(b) Donner lexpression de la variance de .

(c) Le probl`eme est donc de determiner les ci tels que la variance de soit minimale. Ecrire
le
programme doptimisation sous contrainte et determiner lexpression de .
2. Estimation de lequation 7.17 par MCO : determiner b lestimateur de par moindre carres ordinaires.
3. Estimation par la methode du maximum de vraisemblance :

(a) Ecrire
la fonction de vraisemblance de lechantillon (y1 , . . . , yn ).
(b) Estimer et 2 par la methode du maximum de vraisemblance.
2
4. Montrer que M
e et calculer son biais.
V est biais

Exercice 7.10 (dapr`es J. Krishnakumar) Une entreprise poss`ede n points de vente. Elle enregistre pour
le mois de mars 2001 les ventes de chaque magasin. Soit y1i les ventes du magasin i au mois de mars. On
postule
y1i = a + 1i , i = 1, . . . , n.
En avril, lentreprise fait une grosse campagne de publicite `a la television. A la fin avril, elle enregistre, dans
le meme ordre, les ventes des n magasins notees y2i . On postule
y2i = a + b + 2i , i = 1, . . . , n.
Le param`etre a represente la vente moyenne avant la campagne et b mesure leffet de la campagne sur la
vente moyenne. Les hypoth`eses sont
E(1i )

E(2i ) = 0, pour tout i = 1, . . . , n,

E(21i )

= E(22i ) = 2 , pour tout i = 1, . . . , n,


E(1i 2i ) = 2 , pour tout i = 1, . . . , n,
E(si tj )

0, pour tout i 6= j = 1, . . . , n,

1. Ecrire
ce mod`ele sous la forme

y = Z + ,

o`
u = ( )0 . Precisez la notation utilisee.
106

s, t = 1, 2.

2. Donnez les estimateurs de et par les moindres carres ordinaires et par les mindres carres generalises.
3. Comparez les deux methodes destimation.
4. En deduire les estimateurs de a et b.
5. Donner la matrice variance-covariance des estimateurs obtenus.
6. Proposez des estimateurs pour 2 et .
7. Construisez un test pour tester lhypoth`ese nulle b = 0. Traitez les cas connu et inconnu separement,
en supposant les termes derreur normaux.

107

Chapitre 8

Variables instrumentales et
equations
simultan
ees
8.1

Erreurs sur la variable explicative

Considerons le mod`ele lineaire general

y = X + ,

En economie, il nest pas toujours possible de faire lhypoth`ese que la


avec E() = 0, et var() =
matrice X est constante. Dans certains cas, on doit admettre que la matrice X est aleatoire et est correlee
avec le vecteur des residus .
Lestimateur des moindre carres est alors biaise. En effet,

n
o
n
o
n
o
b = E (X0 X)1 X0 y = E (X0 X)1 X0 X + = + E (X0 X)1 X0 .
E
|
{z
}
I2 .

6=0

Si on suppose que

et que

1 0
P
X X XX ,
n

(8.1)

1 0 P
X X ,
n

(8.2)

alors
b =
plim

=
=
=
=

n
o
1
(X0 X) X0 y
n
n

o
1
plim (X0 X) X0 X +
n
n
o
+ plim (X0 X)1 X0
n
)
(
1
1 0
1 0
XX
X
+ plim
n
n
n
plim

+ 1
XX X .

Lestimateur nest donc pas convergent.

8.2

Variables instrumentales

Pour obtenir un estimateur convergent, on utilise q (avec q p) autres variables dont la matrice des
valeurs prises est notee Z et est de dimension n q. Ces variables sont appelees variables instrumentales. Si

108

en outre on suppose que la matrice Z nest pas aleatoire, les variables instrumentales sont non-correlees au
vecteur de residus , et donc
1 0
P
(Z ) 0.
(8.3)
n
En premultipliant les deux membres du mod`ele lineaire par Z0 , on obtient
Z0 y = Z0 X + Z0 .

(8.4)

Comme Z nest pas aleatoire, on a


var(Z0 ) = Z0 var()Z = Z0 2 Z.
Lequation (8.4) peut etre vue comme un nouveau mod`ele lineaire generalise. On pourrait estimer en
utilisant la methode des moindres carres generalises, ce qui donne
0
1 0
b

=
X Z(Z0 2 Z)1 Z0 X
X Z(Z0 2 Z)1 Z0 y
VI
0

1
=
X Z(Z0 Z)1 Z0 X
X0 Z(Z0 Z)1 Z0 y
=

(X0 PZ X)

X0 PZ y.

o`
u PZ est une matrice idempotente, qui projette sur le sous-espace engendre par les colonnes de Z :
PZ = Z(Z0 Z)1 Z0 .
Cet estimateur peut egalement secrire :
0
1 0
b

=
X Z(Z0 Z)1 Z0 X
X Z(Z0 Z)1 Z0 y
VI
0
1 0

=
X Z(Z0 Z)1 Z0 X
X Z(Z0 Z)1 Z0 X +

1 0
= + X0 Z(Z0 Z)1 Z0 X
X Z(Z0 Z)1 Z0 ,
)1
(

1
1 0
1 0
1 0
1 0
1 0
1 0
XZ
ZZ
ZX
XZ
ZZ
Z .
= +
n
n
n
n
n
n
Sous lhypoth`ese (8.3) et en supposant que
1 0
P
X Z XZ ,
n
et
on a

VI

1 0
P
Z Z ZZ ,
n

1
P
0
+ XZ 1
XZ 1
ZZ XZ
ZZ 0 = .

(8.5)

Lestimateur par les variables instrumentales est donc convergent.

8.3

Doubles moindres carr


es

La methode des variables instrumentales peut aussi etre presentee comme une double application de la
` la premi`ere etape, on projette les variables explicatives sur le sous-espace
methode des moindres carres. A
engendre par les variables instrumentales :
b = PZ X,
X
o`
u PZ = Z(Z0 Z)1 Z0 .
b comme variable explicative pour faire la regression sur y, ce qui donne le coefficient
Ensuite, on utilise X
de regression
n
o1
b
b 0X
b
b 0y

=
X
X
VI
=

{X0 PZ X}
109

X0 PZ y.

8.4

Cas o`
u q=p

Un cas particulier est interessant quand q = p et que la matrice Z est de plein rang. La matrice Z0 X est
alors inversible.
0
1 0 0 0 1 0
b

=
X Z(Z0 Z)1 Z0 X
X Z (Z Z) Z y
VI
= (Z0 X)1 Z0 Z(X0 Z)1 X0 Z(Z0 Z)1 Z0 y
= (Z0 X)1 Z0 y.
b
Lestimateur de
V I est alors beaucoup plus simple.

8.5
8.5.1

Application `
a l
economie
Un exemple : le mod`
ele keynesien

Considerons le mod`ele keynesien elementaire dans lequel interviennent trois variables :


la consommation C,
le revenu national Y,
linvestissement I.
Le mod`ele est regit par deux equations.
La premi`ere equation est une equation de consommation, regie par une relation lineaire stochastique :
Ci = a + bYi + ui ,
o`
u les ui sont des variables aleatoires non-correlees homoscedastiques de variance u2 . Le param`etre
b est la propension marginale `a consommer. Dans la theorie keynesienne, 0 < b < 1, dans la theorie
monetariste b = 1.
La seconde equation non-stochastique, cest une identite comptable
Yi = Ci + Ii .
Il ny a pas de residu, car elle exprime une relation comptable.
Le mod`ele econometrique dans sa forme structurelle est donc :

Ci = a + bYi + ui
Y i = Ci + Ii .

(8.6)

(8.7)

Une variable est dite exog`ene si elle est non-correlee aux residus. Une variable est endog`ene si elle est
correlee aux residus. Il ne faut pas confondre variables exog`enes et variables explicatives. La variable Yi est
explicative pour lequation (8.6), mais nous allons voir quelle ne peut pas etre exog`ene. La variable Ii est
supposee exog`ene.
Il est possible de resoudre ce syst`eme dequation. Apr`es quelques calculs, on obtient la forme dite reduite
du mod`ele, cest-`a-dire que les variables endog`enes sont exprimees seulement en fonction des variables
exog`enes :

a
b
ui

+
Ii +
Ci =
1b 1b
1b
1
ui
a

Yi =
+
Ii +
.
1b 1b
1b
La seconde equation nous montre que Yi est endog`ene, car cette variable est forcement correlee avec les
residus ui . Il est possible de calculer la covariance :

a
b
ui
1
cov(Yi , ui ) = cov
+
Ii +
, ui =
2 .
1b 1b
1b
1b u
Avec la premi`ere equation du mod`ele structurel donne en (8.7), on se trouve donc dans le probl`eme
embarrassant o`
u la variable explicative Yi (qui est endog`ene) est correlee aux residus.
110

8.5.2

Estimation par la m
ethode des moindres carr
es indirects

Il est possible estimer les param`etres de la forme reduite par la methode des moindres. En effet, en posant
1 =

a
,
1b

2 =

b
,
1b

3 =

a
,
1b

4 =

1
,
1b

on obtient

ui
Ci = 1 + 2 Ii +
1b
Yi = 3 + 4 Ii + ui .
1b
Pour ces deux equations, la variable explicative est exog`ene. On peut donc estimer les param`etres de la forme
reduite par les moindres carres ordinaires :
Pn
(Ci C)(Ii I)

b2 = i=1
,
Pn
2
i=1 (Ii I)

b1 = C
b2 I,
Pn
(Yi Y )(Ii I)

b4 = i=1
,
Pn
2
i=1 (Ii I)

b3 = Y
b4 I,
o`
u

C=

1X
1X
Ci , I =
Ii ,
n i=1
n i=1

Y =

1X
Yi .
n i=1

Remarquons au passage que, comme Yi = Ci + Ii ,


Pn
i=1 (Yi Y )(Ii I)

b4 =
Pn
2
i=1 (Ii I)
Pn
i=1 (Ci C + Ii I)(Ii I)
=
Pn
2
i=1 (Ii I)
Pn
Pn
i=1 (Ci C)(Ii I)
i=1 (Ii I)(Ii I)
=
+
Pn
Pn
2
2
i=1 (Ii I)
i=1 (Ii I)
=
b2 + 1.
De plus
b4 I = C + I (b
2 + 1)I = C
b2 I =
b1 .

b3 = Y
Maintenant que lon dispose destimateurs sans biais de 1 , 2 , 3 et 4 , et que lon sait en outre que
b=
on pourrait estimer b, par

2
,
4

Pn
(Ii I)(Ci C)
b2
bb =
= Pi=1
.
n

b4
i=1 (Ii I)(Yi Y )

(8.8)

Cet estimateur est biaise, car le ratio deux estimateurs sans biais ne fournit pas un estimateur sans biais.
Ensuite, on peut estimer a par

b3

b1
ou
,

b4

b4
ce qui donne le meme estimateur, car
b1 =
b3 .

111

8.5.3

Estimation par la m
ethode des variables instrumentales

Nous allons montrer que lestimateur (8.8) nest autre que lestimateur par les variables instrumentales
o`
u Ii est la variable instrumentale. Ainsi, lestimateur est biaise, mais comme on la vu ci-dessus il est
convergent. Pour utiliser les variables instrumentales, on consid`ere dabord le mod`ele de regression de la
variable explicative par la variable instrumentale, quon note
Yi = c + dIi + i ,
o`
u les i sont non-correles et identiquement distribues. On estime les param`etres c et d par les moindres
carres ordinaires, ce qui donne
Pn
(Yi Y )(Ii I)
b
d = i=1
,
Pn
2
i=1 (Ii I)
et

b
b
c = Y dI.

On peut alors construire les valeurs ajustees de Y en I, qui valent


i.
Yi = c + dI
Ensuite, on estime le coefficient de regression b de la premi`ere equation de la forme structurelle du mod`ele,
mais on utilise comme variable explicative Yi `a la place de Yi
Ci = a + bYi + ui .
On obtient lestimateur par les variables instrumentales :
Pn
(Y Y )(Ci C)
bV I = i=1
.
Pn i

2
i=1 (Yi Y )
On peut simplifier cette expression. En effet, comme
i (
= d(I
i I),
Yi Y = c + dI
c + dI)
on obtient
bV I

Pn

=
=
=
=

i I)(Ci C)
d(I
Pn 2
2
i=1 d (Ii I)
Pn
1 i=1 (Ii I)(Ci C)
Pn
2
d
i=1 (Ii I)
Pn
Pn
2
i=1 (Ii I)
i=1 (Ii I)(Ci C)
Pn
Pn
2
(Y

Y
)(I

I)
i
i=1 i
i=1 (Ii I)
Pn
(Ii I)(Ci C)
,
Pi=1
n
i=1 (Yi Y )(Ii I)
i=1

ce qui est le meme estimateur que par la methode des moindres carres indirects (8.8).

Exemples d
equations simultan
ees
Exemple 8.1 Soit le mod`ele dequilibre o`
u q o = est la quantite offerte, q d = la quantite demandee, p = le
prix du bien, et z = le climat
Equation doffre :

Equation de demande :

qto = a + bpt + czt + ut

qtd = a0 + b0 pt + vt
112

Hypoth`ese dequilibre :

qto = qtd = qt

La forme structurelle est donc la suivante :

qt = a + bpt + czt + ut
qt = a0 + b0 pt + vt

o`
u pt et qt sont endog`enes et zt exog`ene.
Comme

a + bpt + czt + ut = a0 + b0 pt + vt ,

on obtient
pt =

a a0
czt
ut vt
+ 0
+ 0
.
b0 b
b b
b b

(8.9)

De plus,
b0 qt bqt = b0 (a + bpt + czt + ut ) b(a0 + b0 pt + vt ) = ab0 a0 b + b0 czt + b0 ut bvt ,
ce qui donne
qt =

b0 czt
b0 ut bvt
ab0 a0 b
+
+
.
b0 b
b0 b
b0 b

(8.10)

Les equation (8.9) et (8.10) permettent decrire la forme reduite :

qt = 1 + 2 zt + t
pt = 3 + 4 zt + t ,
avec
1 =

ab0 + a0 b
b0 b

cb0
b

3 =

a a0
b0 b

b0 ut bvt
b0 b

t =

ut vt
b0 b

2 =

t =

b0

4 =

c
b0 b

Il est possible destimer 1 , 2 , 3 et 4 (param`etres reduits) par les moindres carres ordinaires, mais il y a
un probl`eme didentification pour remonter aux param`etres structurels (a, b, c, a0 , b0 ). En effet, le nombre de
param`etres structurels (5) est plus grand que le nombre de param`etres reduits (4). Toutefois, les param`etres
a0 et b0 sont identifiables, en effet :
cb0
2
bb0
= c = b0
4
bb0
ab0 + a0 b
1 b 3 = 0
b0
b b

a a0
b b0

= a0

alors que les param`etres a, b, c ne sont pas identifiables.

Exemple 8.2 Mod`ele dequilibre avec une variable supplementaire


Avec : q o = quantite offerte
x = revenu des menages
Equation doffre :

; q d = quantite demandee

; p = prix du bien

qto = a + bpt + czt + ut


113

; z = climat

et ;

Equation de demande :

qtd = a0 + b0 pt + dxt + vt

Hypoth`ese dequilibre :

qto = qtd = qt

Forme structurelle :

qt = a + bpt + czt + ut
qt = a0 + b0 pt + dxt + vt

Avec pt et qt comme variables endog`enes et zt et xt comme variable exog`ene.


Forme reduite :

pt = 1 + 2 zt + 3 xt + t
qt = 4 + 5 zt + 6 xt + t

Avec
1 =
3 =

d
b0 b

4 =

a a0
b0 b

2 =

ab0 a0 b
b0 b

c
b0 b

5 =

b0 c
b0 b

6 =

bd
b0 b

Nous avons donc 6 param`etres dans la forme reduite et 6 param`etres dans la forme structurelle. Cest une
situation favorable `a lidentification, mais cela ne la garanti pas. Dans notre cas, il ny a pas de probl`eme
didentification :
5
= b0
2
6
=b
3
2 (b0 b) = c

3 (b0 b) = d

4 b0 1 = a0

4 b1 = a

Le mod`ele est donc identifiable `a la suite de lajout dun param`etre exog`ene dans la forme structurelle
qui se traduit par deux param`etres en plus dans la forme reduite.

Exemple 8.3
Equation doffre :

qto = a + bpt + ut
114

Equation de demande :

qtd = a0 + b0 pt + c0 xt + d0 zt + vt

Hypoth`ese dequilibre :

qto = qtd = qt

Forme structurelle :

qt = a + bpt + ut
qt = a0 + b0 pt + c0 xt + d0 zt + vt

Avec pt et qt comme variables endog`enes et zt et xt comme variable exog`ene.


On a directement

a + bpt + ut = a0 + b0 pt + c0 xt + d0 zt + vt ,

et donc

(b0 b)pt = a a0 c0 xt d0 zt + ut vt .

et donc
pt =
Dautre part, on a

a a0
c0 xt
d0 zt
ut vt

+ 0
.
0
0
0
b b
b b b b
b b

(8.11)

qt
a + bpt + ut
a0 + b0 pt + c0 xt + d0 zt + vt
qt
0 =

,
b
b
b
b0

ce qui donne
(b0 b)qt = b0 (a + bpt + ut ) b(a0 + b0 pt + c0 xt + d0 zt + vt ) = ab0 a0 b bc0 xt bd0 zt + b0 ut bvt . (8.12)
Les equations (8.11) et (8.11) permettent decrire la forme reduite :

c0 xt
d0 zt
ut vt
a a0

pt = 0
0
0
+ 0
b b
b b b b
b b
0
0
0
0
0

qt = ab a b bc xt bd zt + b ut bvt
b0 b
b0 b b0 b
b0 b
On redefinit les param`etres :

Avec

pt = 1 + 2 xt + 3 zt + t
qt = 4 + 5 xt + 6 zt + t

a a0
c0
d0

=
2
3
b0 b
b0 b
b0 b
0
0
0
bc
bd0
ab a b
5 = 0
6 = 0
4 = 0
b b
b b
b b
1 =

Nous avons donc 6 param`etres dans la forme reduite et 6 param`etres dans la forme structurelle. Cette
situation est favorable `a lidentification, mais cela ne la garantit pas. En effet, dans notre cas :
6
5
=b
=b
3
2
On dit dans ce cas que le param`etre b est suridentifie, cest-`a-dire quil est defini par deux estimateurs
distincts. De ce fait, le param`etre a est aussi sur-identifie (car il depend du param`etre b) :
4 b1 = a
Lequation doffre est donc sur-identifiee et lequation de demande non-identifiable.

115

8.6
8.6.1

M
ethodes destimation
Moindres carr
es indirects (MCI)

1. On ecrit la forme reduite du mod`ele, cest-`a-dire quon reformule le mod`ele pour que seules les variables
exog`enes soient explicatives ;
2. On estime les param`etres de la forme reduite par les moindres carres ordinaires (MCO) ;
3. On estime les param`etres de la forme structurelle en utilisant les relations algebriques entre les param`etres de la forme reduite et de la forme structurelle.
Une condition necessaire (mais pas suffisante) pour que les param`etres de la forme structurelle soient identifiables est quil y ait au moins autant de param`etres dans la forme reduite que dans la forme structurelle.

8.6.2

Doubles moindres carr


es (2MC)

On estime directement les param`etres de la forme structurelle en utilisant toutes les variables exog`enes
comme variables instrumentales.
Proprietes :
Si le mod`ele est juste identifie, la methode des 2MC donne le meme resultat que la methode des MCI
Si le mod`ele est sous-identifie, la methode des 2MC ne donne pas de resultats.
Condition dordre : Une condition necessaire pour quune equation dun mod`ele `a equations simultanees soit
identifiable est que le nombre de variables explicatives de lequation soit inferieur ou egal au nombre de
variables exog`enes de lensemble du mod`ele.
La methode des 2MC a lavantage, par rapport `a la methode des MCI, de ne donner quun seul estimateur en cas de sur-identification.
Exemple 8.4

Ct = + Yt + ut
Y t = Ct + It

Avec deux variables exog`enes (It et la constante ) et 2 variables explicatives dans la premi`ere equation (la
deuxi`eme etant une identite), le mod`ele est juste identifiable.

Exemple 8.5

qt = a + bpt + czt + ut
qt = a0 + b0 pt + ut

Avec 2 variables exog`enes (zt et les constantes a, a0 ), la premi`ere equation (avec 3 variables explicatives)
nest pas identifiable, mais la deuxi`eme equation (avec 2 variables explicatives) est identifiable.

Exemple 8.6

qt = a + bpt + czt + ut
qt = a0 + b0 pt + c0 xt + vt

Avec 3 variables exog`enes (zt , xt et les constantes a, a0 ) et 3 variables explicatives dans chaque equation, le
mod`ele est juste identifiable.

Exemple 8.7

qt = a + bpt + ut
qt = a0 + b0 pt + c0 xt + d0 zt + vt
116

Avec 3 variables exog`enes (zt , xt et les constantes a, a0 ), la premi`ere equation (avec 2 variables explicatives)
est sur-identifiee et la deuxi`eme equation (avec 4 variables explicatives) est sous-identifiee.

Exemple 8.8 Soit la forme structurelle

Ct = a + bYt + ut
It = c + dYt1 + vt

Y t = Ct + It .
Avec Ct , It , Yt comme variables endog`enes et Yt1 et la constante comme variables exog`enes.
On a
It = Yt Ct .
Avec la deuxi`eme equation, on obtient
Yt = Ct + c + dYt + vt ,
ce qui donne

Ct = a + bYt + ut
Ct = Yt c dYt1 + vt .

En soustrayant ces deux equations, on a


0 = a + c + (b 1)Yt + dYt1 + ut vt ,
ce qui donne

a+c
d
ut vt
+
Yt1 +
.
1b 1b
1b
En soustrayant `a la premi`ere equation, la seconde multipliee par b, on a
Yt =

Ct bCt = a + bc + 0 + bdYt + ut bvt ,


soit
Ct =

a + bc
bd
ut bvt
+
Yt1 +
.
1b
1b
1b

On obtient ainsi la forme reduite :

It = c + dYt1 + t
bd
Ct = a+bc
1b + 1b Yt1 + t

d
Yt = a+c
1b + 1b Yt1 + t .
Avec deux variables exog`enes dans le mod`ele et 2 variables explicatives par equation, le mod`ele est juste
identifiable.

Exemple 8.9 Mod`ele macro-economique de Klein (extrait de Bourbonnais, 1993)


Forme structurelle :

Ct = a0 + a1 Pt + a2 Pt1 + a3 (Wt + Wt0 ) + 1t

It = b0 + b1 Pt + b2 Pt1 + b3 Kt1 + 2t

Wt = c0 + c1 Xt + c2 Xt1 + c3 t + 3t
Xt = Ct + It + Gt

Pt = Xt Wt T axt

Kt = It + Kt1

Avec : Ct = consommation ; Pt = profit ; Wt et Wt0 = salaires dans lindustrie et ladministration ; It =


117

investissements ; Kt = stock ; Xt = production industrielle ; Gt = depenses publiques


impots.

et

T axt =

Les trois premi`eres equations comportent chacune 4 variables explicatives et les trois derni`eres equations

sont des identites comptables. Etant


donne quil y a 8 variables exog`enes :
Pt1 , Xt1 , Kt1 , t, Gt , T axt , Wt0
et les constantes, cela implique une sur-identification du mod`ele ; il faut donc utiliser la methode des 2MC
dans ce cas.

Exercices
Exercice 8.1 Soit la forme structurelle dun mod`ele dequations simultanees,

yt = a + bxt + ut
yt = c + vt
o`
u xt et yt sont endog`enes, t = 1, . . . , n les ut et les vt sont des residus homoscedastiques tels que E(ut ) = 0,
var(ut ) = u2 , E(ut , uj ) = 0, t 6= j, E(vt ) = 0, var(vt ) = v2 , E(vt , vj ) = 0, t 6= j, E(ut , vt ) = 0, pour tout t.

1. Ecrivez
la forme reduite du mod`ele.
2. Quelle est la covariance entre xt et ut , (en fonction de u2 et de v2 ) ?
3. Quelle est la correlation entre xt et ut ?
4. Donner les estimateurs des param`etres de la forme reduite du mod`ele.
5. Les param`etres de la forme structurelle du mod`ele sont-ils identifiables, tous ou seulement certains
dentre eux ? Donnez lexpression des estimateurs par les moindres carres indirects pour les param`etres
identifiables.
6. Si le param`etres a etait connu, quel serait lestimateur par les moindres carres indirects de b ?

118

Chapitre 9

Mod`
eles `
a choix discret
9.1
9.1.1

Mod`
eles probit, logit et `
a probabilit
e lin
eaire
Le mod`
ele

Souvent, la variable dependante yi mesure une qualite ou une caracteristique. Dans ce cas, yi sera codee
de la mani`ere suivante :

1 si lunite i poss`ede la caracteristique


yi =
0 sinon
On dispose de p variables explicatives x1 , , xj , , xp , et on note xij la valeur prise par la j`eme variable
explicative sur lunite i de la population. De plus, on note
xi = (xi1 , , xij , , xip )0 ,
le vecteur colonne des p valeurs prises par les variables explicatives sur lunite statistique i. Les xij sont
supposes constants (non-aleatoires). Considerons egalement une fonction F (.) de R dans [0, 1], croissante, et
derivable, telle que lim F (z) = 0, et lim F (z) = 1. Le mod`ele `a choix discret secrit
z

yi =

1
0

avec une probabilite F (x0i )


avec une probabilite 1 F (x0i ).

avec yi independant de yj pour tout i 6= j. Le mod`ele `a choix discret peut egalement secrire :
yi = F (x0i ) + i ,
o`
u

- est un vecteur de p coefficients de regression,

- i est une variable aleatoire telle que E(i ) = 0, et E(i j ) = 0.


Comme yi vaut 1 ou 0, on peut determiner la distribution de probabilite exacte de i

F (x0i )
avec une probabilite 1 F (x0i )
i =
0
1 F (xi ) avec une probabilite F (x0i ).
Les residus ne sont donc pas homoscedastiques, car ils dependent des xi . Leur variance vaut
var(i ) = [1 F (x0i )][F (x0i )]2 + F (x0i )[1 F (x0i )]2
= [1 F (x0i )]F (x0i ).
Le mod`ele peut egalement secrire :
yk
E(yi )
var(yi )
cov(yi , yj )

{0, 1},
= F (x0i ),
= [1 F (x0i )]F (x0i )
= 0, i 6= j.
119

(9.1)

9.1.2

Choix de la fonction F (.)

Le choix de la fonction F (.) determine le mod`ele. Les trois mod`eles les plus utilises sont les mod`eles logit,
probit et en probabilite lineaire.
Le mod`
ele logit
Le mod`ele logit consiste `a utiliser une fonction logistique,
F (z) =

1
ez
=
.
z
1+e
1 + ez

Le mod`
ele probit
Le mod`ele probit consiste `a utiliser la fonction de repartition dune variable normale centre reduite,
Z z
2
1
eu /2 du.
F (z) =
2

Le mod`
ele de probabilit
e lin
eaire
Le mod`ele de probabilite lineaire consiste `a utiliser une fonction lineaire tronquee,

si z < 0, 5
0
z + 0, 5 si 0, 5 z 0, 5
F (z) =

1
si 0, 5 < z.

9.1.3

Remarques sur la fonction F (.)

La fonction F (.) est supposee croissante, derivable, telle que F (0) = 0, 5, limz = 0, et lim F (z) =
1. Theoriquement, nimporte quelle fonction de repartition dune variable aleatoire continue pourrait etre
utilisee pour construire un mod`ele `a choix discret chacune des fonctions F (.) poss`ede evidemment une
fonction de densite associee :
dF (z)
f (z) = F 0 (z) =
.
dz
Mod`
ele logit
La densite est
f (z) =
=
=

ez
e2z

z
1+e
(1 + ez )2

ez
ez
1

1 + ez
1 + ez
F (z) [1 F (z)] .

Mod`
ele probit
La fonction f (.) est simplement la fonction de densite dune variable aleatoire normale centree reduite.
2
1
f (z) = ez /2 .
2

Mod`
ele en probabilit
e lin
eaire
La fonction F (.) est

0
1
f (z) =

si z < 0, 5
si 0, 5 z < 0, 5
si 0, 5 z.

120

9.1.4

Estimation par les moindres carr


es

Lestimation par les moindres carres (ordinaires) consiste `a minimiser en


Q() =

n
X
2

yi F (x0i ) .
i=1

Si on note
f (z) = F 0 (z) =
alors on a

dF (z)
,
dz

F (x0i )
= f (x0i )xi .

Pour trouver le minimum en de Q(), on annule le vecteur des derivees partielles de Q() en :
n
X

Q()
=2
yi F (x0i ) f (x0i )xi = 0,

i=1

ce qui donne

n
X

yi f (x0i )xi =

i=1

n
X

F (x0i )f (x0i )xi .

(9.2)

i=1

Lexpression (9.2) est un syst`eme non lineaire de p equations `a p inconnues. Ce syst`eme ne peut etre resolu
quau moyen dun algorithme (methode de Newton).

9.1.5

M
ethode du maximum de vraisemblance

Une autre methode destimation est la methode du maximum de vraisemblance. Comme

Y
Y

1 F (x0i ) ,
F (x0i )
Pr(y1 yn ) =

i|yi =0

i|yi =1

1yi o

,
F (x0i )yi 1 F (x0i )

n n
Y

i=1

la fonction de vraisemblance est


L(; y1 , yn ) =

n n
Y

1yi o
F (x0i )yi 1 F (x0i )
.
i=1

Le logarithme de la fonction de vraisemblance est donc


`(; y1 , , yn )
= log L(; y1 , , yn )
n
X

=
yi log F (x0i ) + (1 yi ) log[1 F (x0i )] .
i=1

Pour determiner lestimateur du maximum de vraisemblance, on annule la derivee de `(; y1 , yn ), ce qui


donne
`(; y1 , , yn )

n
X
yi
1 yi
0
0
=
f (xi )xi
f (xi )xi
F (x0i )
1 F (x0i )
i=1
=

n
X
f (x0 )xi [yi F (x0 )]
i

i=1

F (x0i )[1 F (x0i )]

0.

(9.3)

On obtient `a nouveau un syst`eme de p equation `a p inconnus. Cependant ce syst`eme nest pas le meme que
celui obtenu par la methode des moindres carres. Les deux methodes donnent donc des estimateurs distincts.
121

Mod`
ele logit
Dans le cas du mod`ele logit on a
f (z) =
et donc legalite (9.3) devient

n
X

dF (z)
= F (z) [1 F (z)] ,
dz
xi yi =

i=1

9.1.6

n
X

xi F (x0i ).

i=1

Interpr
etation selon une variable latente

Souvent les mod`eles `a choix discret sont presentes au moyen dune variable aleatoire latente (nonobservable) qui regit les yi :

1 si zi > 0
yi =
0 si zi 0.
La variable latente peut etre regie par un mod`ele lineaire general :
zi = x0i + ui ,
avec cov(u) = Iu2 , et u = (u1 un )0 . De plus les residus ui sont supposes avoir une fonction de repartition
Fu (.). On peut alors ecrire :
Pr(yi = 1)

=
=
=
=

Pr(x0i + ui > 0)
Pr(ui > x0i )
1 Pr(ui x0i )
1 Fu (x0i ).

Si la densite est symetrique et de moyenne nulle, alors Fu (z) = 1 Fu (z) et


Pr(yi = 1) = Fu (x0i ),
et donc

Pr(yi = 0) = 1 Fu (x0i ).

On retrouve donc exactement la formulation donnee en (9.1). En introduisant une variable latente, la fonction
Fu (.) peut alors sinterpreter directement comme la fonction de repartition des residus.

9.1.7

Evaluation
de la qualit
e du mod`
ele

b un estimateur de , qui peut etre defini pour chacune des trois mod`eles, soit par la
Considerons
methode du maximum de vraisemblance, soit par la methode des moindres carres. Il est possible destimer
la probabilite F (x0i ) par
b ).
yi = F (x0i
De plus, on peut realiser une prediction de yi en utilisant

1 si yi 0, 5
yi =
0 si yi < 0, 5,
ce qui peut egalement secrire

(
yi =

1
0

b 0
si x0i
b < 0,
si x0i

Les deux indices principaux permettant devaluer la qualite du mod`ele sont :


Le coefficient de determination calcule entre les yi et les yi .
La proportion dunites bien classees, definie par

!
n
X
1
P =
n
|yi yi |
n
i=1
122

9.2
9.2.1

Analyse discriminante
Le mod`
ele

Supposons que les donnees soient partitionnees en deux groupes notes G1 et G2 selon les valeurs de la
variable dependante y qui prend uniquement les valeurs 0 et 1 :
lunite i G1 si yi = 1,
lunite i G2 si yi = 0.
Les variables explicatives xi sont supposees aleatoires, continues, et independantes et sont regies par une
fonction de densite qui depend du groupe
xi a une densite f1 (x) si i G1
xi a une densite f2 (x) si i G2 .
En outre, on suppose quune proportion p1 dunite appartient `a G1 et une proportion p2 appartient `a G2 .

9.2.2

La r`
egle bay
esienne

Pour une unite particuli`ere, le theor`eme de Bayes permet de deduire la probabilite dappartenance `a un
groupe :
p1 f1 (xi )
Pr(unite i G1 |xi ) =
,
(9.4)
p1 f1 (xi ) + p2 f2 (xi )
p2 f2 (xi )
.
p1 f1 (xi ) + p2 f2 (xi )
La r`egle de decision consiste `a classer lunite i dans G1 si
Pr(unite i G2 |xi ) =

(9.5)

Pr(unite i G1 |xi ) Pr(unite i G2 |xi ),


et `a classer lunite i dans G2 dans le cas contraire. Comme les denominateurs de (9.4) et (9.5) sont egaux,
on classe lunite i dans G1 si
p1 f1 (xi ) p2 f2 (xi ),
ou si

9.2.3

f1 (xi )
p2
.
f2 (xi )
p1

Le mod`
ele multinormal

Un cas relativement simple sobtient quand f1 (x) et f2 (x) ont une distribution multinormale de meme
motrice variance-covariance , mais dont les moyennes dependant du groupe, autrement dit

1
1
0 1
fj (x) =
exp (x j ) (x j )
2
(2)p/2 ||1/2
avec j = 1, 2. Dans ce cas,
f1 (x)
f2 (x)

=
=
=

exp 12 (x 1 )0 1 (x 1 )

exp 12 (x 2 )0 1 (x 2 )

1
exp
(x 2 )0 1 (x 2 ) (x 1 )0 1 (x 1 )
2

1 0 1
1 0 1
0 1
exp x (1 2 ) + 2 2 1 1
2
2

La r`egle bayesienne devient : on classe lunite i dans G1 si

1 0 1
f1 (xi )
1 0 1
0 1
= exp xi (1 2 ) + 2 2 1 1
f2 (xi )
2
2
p2

,
p1
123

ce qui secrit aussi


S(xi ) 0,
o`
u

1
1
p2
S(x) = x0i 1 (1 2 ) + 02 1 2 01 1 1 log .
2
2
p1

La fonction S(x) est appelee fonction de score ou statistique dAnderson. La fonction S(x) est estimee
simplement en prenant
b1 = x
b2 = x
1,
2

et
b =

1
n2

"

1 )(xi x
1) +
(xi x

iG1

o`
u
1 =
x

#
2 )(xi x
2)
(xi x

iG2

1 X
1 X
2 =
xi et x
xi .
n1
n2
iG1

iG2

Exercices
Exercice 9.1 Soit une variable dependante binaire yi prenant les valeurs 0 et 1. Supposons que lon dispose
de deux variables explicatives definies de la mani`ere suivante :
xi1
xi2

= 1 pour tout i = 1, , n

1 si i presente une caracteristique


=
0 sinon.

Si on note
nx 2
ny
nx 2 y

=
=
=

n
X
i=1
n
X
i=1
n
X

xi2 ,
yi ,
xi2 yi ,

i=1

estimer le coefficient de regression pour toutes les methodes proposees.

124

Chapitre 10

Exercices r
ecapitulatifs
Exercice 10.1 Exercice concernant chapitre 1.
1. Donnez le rang de la matrice suivante :

2
A = 4
6
2. Effectuez le produit Ax, o`
u:

1
2
3

3
1
8


1
x = 3
5

3. Donnez en quelques phrases une interpretation geometrique de lestimation donnees par moindres
carrees ordinaires.
Exercice 10.2 Exercice concernant le chapitre 2.
1. Montrez, dans le cas bivarie, que :

n
X

ei = 0

i=1

2. Expliquez en une phrase le principe des moindres carres et donner lestimation de b (en fonction de la
matrice X et du vecteur y) qui en decoule.
Exercice 10.3 Exercice concernant le chapitre 3.
1. Donnez la definition mathematique de lesperance dune variable aleatoire discr`ete et de meme pour
une variable aleatoire continue et donnez une interpretation de lesperance en une phrase.
2. Montrez que le carre dune variable de Student `a q degres de liberte est une variable de Fisher `a 1 et
q degres de liberte.
Exercice 10.4 Exercice concernant le chapitre 4.
1. Citez les hypoth`eses du mod`ele lineaire general sous forme mathematique avec explications en francais.
2. Citez lhypoth`ese faite concernant les erreurs dans lestimation par maximum de vraisemblance et
expliquez en quelques phrases la technique de lestimation par maximum de vraisemblance.
3. Donnez la definition dun estimateur sans biais et donnez un exemple (avec calculs !).

Exercice 10.5 Soit le mod`ele :


yt = a + bt + t avec t = 1, . . . , n

125

1. Donnez les estimations par MCO de a et b en les simplifiant autant que possible.
2. Calculer la variance de b (o`
u = (a, b)) `a nouveau en la simplifiant autant que possible.

Exercice 10.6 Definissez la notion de variable exog`ene (au sens statistique). La notion de variable exog`ene
est-elle la meme que celle de variable explicative ? (reponse sans calcul et en 3 lignes maximum)

Exercice 10.7 En utilisant les variables instrumentales, on utilise la matrice

1 0
X X0 Z(Z0 Z)1 Z0 X
X Z(Z0 Z)1 Z0
1. Montrez que cette matrice est idempotente (et est donc un projecteur). (reponse en 3 lignes)
2. Sur quel sous-espace cette matrice projette-t-elle ? (reponse en 1 ligne).

Exercice 10.8 La regression peut secrire comme une projection sur un sous-espace. Quelle est la signification geometrique du nombre de degres de liberte n p par lequel on divise la somme des carres des residus
estimes ? (reponse sans calcul et 2 lignes maximum).

Exercice 10.9 Exercice base sur le chapitre 2 du livre de Ernst E. Berndt, The practice of Econometricsclassic and contemporary.
Le CAPM est `a la base de la theorie moderne du portefeuille. Cest un mod`ele devaluation pour les actifs
financiers qui fut developpe dans les annees 60. Ce mod`ele met en relation la rentabilite dun titre financier avec la rentabilite du marche et cela dune mani`ere tr`es simple. Lidee de base est la suivante. Les
investisseurs sont remuneres pour le risque quils prennent. Lorsquils investissent dans un titre, ils prennent
dune part un risque specifique (risque lie `a lentreprise ou `a son secteur dactivite) et dautre part un risque
systematique ou risque de marche (risque lie aux conditions macro-economique du pays par exemple). En diversifiant son portefeuille, linvestisseur pourra eliminer une bonne partie du risque specifique ; par contre, le
risque systematique ne pourra etre elimine puisque toutes les entreprises y sont confrontees. Par consequent,
linvestisseur ne sera remunere que pour le risque systematique quil prendra. Cette exposition au risque de
marche sappelle ; elle correspond `a la covariance entre le rendement du titre (ou du portefeuille) et le
rendement du marche divise par la variance du marche. Ainsi selon ce mod`ele tr`es simple la prime dun actif
i (defini comme le rentabilite du titre i moins le taux sans risque) est donnee par lexposition au risque du
marche ( multiplie par la prime de risque du marche (defini comme la rentabilite du marche moins le taux
sans risque). Sous sa forme mathematique, on a :
Ri Rf = [Rm Rf ]
Le but sera de tester ce mod`ele. Pour se faire nous allons prendre la specification suivante :
Ri Rf = + [Rm Rf ]+ i
o`
u
Rm est la rentabilite mensuelle du marche
Rf est le taux sans risque
i N (0, 2 )
Fait tr`es interessant : lestimation du param`etre par MCO est donne par cd
ov(Ri , Rm ) var(R
c m)
Ainsi lestimation du par MCO rejoint la definition du donnee ci-dessus. Il est donc tout `a fait
approprie destimer le par MCO.
1. Avant de commencer, reflechissez aux tests dhypoth`eses que vous pourriez mettre en oeuvre. Quelle
devrait etre la valeur de selon le mod`ele theorique ? Que pouvez-vous dire concernant le dune
entreprise plutot risquee ? De celui dune entreprise plutot stable (nommee souvent blue chip) ? Et
dun portefeuille essayant de repliquer le marche ?
126

2. Comme toujours, la 1`ere etape sur Eviews consiste `a creer un espace de travail. Les donnees sont
mensuelles (Monthly) et la periode dobservation va du mois de janvier 1976 (notation :1976 : 1) au
mois de decembre 1987 (notation :1987 : 12).
3. Maintenant, importez les series de rentabilite CONED (Consolidated Edison), DEC (Digital Equipment
Company), MARKET (marche), RKFREE (taux sans risque). Attention, les observations de ces series
vont de 1978 :01 `a 1987 :12. Par defaut Eviews choisit la periode dobservation (sample) egale `a la
periode specifiee lors de la creation de lespace de travail (workfilerange). Ainsi, il faudra adapter la
periode dobservation `a celle de nos series. Pour cela, il suffit de selectionner la case Sample dans la
barre des menus et de specifier la periode voulue. Une fois cela fait, procedez comme `a lexercice 1 pour
importer les donnees. Cette fois-ci les series `a importer sont du type ASCII (fichier texte). La fenetre
ASCIITextImport qui apparatra en suivant la meme demarche qu`a lexercice 1 est leg`erement
differente de la fenetre ExcelSpreadsheetImport que vous avez rencontre `a lexercice 1. Dans la
1`ere case, il faut specifier le nom de chaque serie sil nest pas dej`a dans le fichier ou le nombre de series
`a importer si les series sont dej`a nommees dans le fichier. Pour vous aider, il y a une case en bas de la
fenetre pour visualiser le fichier. Attention aux delimiteurs. Pour le reste des options sur cette fenetre,
je vous laisse faire la traduction, cest straightforward !
4. Nous avons les series pour les rentabilites, mais rappelez-vous, nous voulons faire des regressions sur
les primes. Il faut donc creer de nouvelles series en prenant les differences entre les rentabilites des
titres ou du marche et le rendement sans risque. Pour se faire, allez dans Quick/Generateseries et
entrez une equation du type :
P MARKET = MARKET RKFREE.
Faites-le pour toutes les series importees. Une fois cela fait, profitez-en pour visualiser les primes sous
une autre vue.
5. Il est temps de faire des regressions. Prenez comme variable expliquee la prime de CONED (entreprise
produisant de lelectricite) et ensuite prenez la prime de DEC (entreprise evoluant dans le secteur
informatique). Que constatez-vous par rapport aux et estimes ? Sont-ils comme vous les imaginiez ?

Etant
donne que le R2 de la regression indique la proportion de la variation de la variable expliquee
(risque total) qui est expliquee par la variation de la variable explicative (risque systematique), le R2
dans le CAPM nous donne la part du risque de marche (systematique) dans le risque total du titre.
Que constatez-vous ? Donnez la part du risque specifique et systematique par rapport au risque total.
6. Pour les deux regressions, testez = 0 contre 6= 0, = 0 6= 0, = 1 contre 6= 1 et le test joint :
= 0, = 1contre 6= 0, 6= 1. Pour cela selectionnez
View/Coefficienttests/Wald CoefficientRestrictions
et specifiez la contrainte lineaire que vous voulez tester. Attention, les coefficients de la regression sont
stockes dans Eviews dans le vecteur c. Pour acceder au premier coefficient estime (tr`es souvent la
constante), il faut taper c(1), pour le deuxi`eme coefficient estime c(2), etc . . .
7. Le CAPM suppose que tous les investisseurs acc`edent simultanement `a linformation et lutilisent
rationnellement dans leur decision dinvestissement. Nous allons tester cette hypoth`ese en faisant de
lanalyse devenement. Le but est de savoir si un evenement generant de linformation se repercute
significativement au niveau du marche. Pour cela vous avez le fichier EVENTS qui contient plusieurs
series. Attention, la periode dobservation nest pas la meme quavant. Vous savez ce quil faut faire
dans ce cas maintenant ! La serie GPU contient les rentabilites observees de la General Public Utilities.
Cette entreprise est proprietaire de la Three Mile Island plant. Le but est danalyser leffet de lincident
nucleaire qui se produisit dans cette station nucleaire le 28 mars 1979.
8. Faites la regression comme precedemment. Trouvez le graphe des residus et regardez le residu en avril
1979. Que constatez-vous ? Pourrait-on ameliorer notre mod`ele pour prendre en compte cet evenement ?
9. Oui, on peut. Pour ce faire nous allons ajouter `a notre mod`ele une variable muette qui agira comme un
detecteur devenement. Cette variable prendra la valeur un pour le mois davril 1979 et zero partout
ailleurs. Pour creer cette serie simplement, allez dans Quick/GenerateSeries Et vous entrez TMIDUM=0 (TMIDUM sera le nom de votre variable muette). Puis vous changez le periode dobservation
pour navoir que la periode 1979 :4 (pour cela, il suffit daller dans Sample et de specifier la periode
voulue) et vous refaites la meme procedure que ci-dessus, mais cette fois-ci en specifiant TMIDUM=1.
127

Maintenant remettez la periode dobservation que vous aviez avant (1976 :1 `a 1985 :12). Et votre variable muette est l`a ! Souvent, les variables muettes sont des variables saisonni`eres. Dans ce cas, Eviews
a dej`a des fonctions preprogrammes. Veuillez vous referer `a la fonction @seas(n) pour plus de details.
10. Maintenant, il ne reste plus qu`a faire la regression en noubliant pas dajouter la variable muette comme
variable explicative pour prendre en compte lincident nucleaire. Regardez le graphe des residus. Que
constatez-vous ? Regardez loutput de la regression. Est-ce que la variable muette est statistiquement
significative ? Que peut-on conclure sur limportance de cet evenement et sur lefficience du marche
dans ce cas ?

Exercice 10.10 Exercice dintroduction au logiciel Eviews 3.0.


Lentreprise Nambe Mills basee `a Santa Fe au Nouveau Mexique fabrique de la vaisselle et dautres produits
menagers. Pour mieux matriser ses co
uts et optimiser sa production, elle desire connatre precisement le
rapport entre le temps quil faut pour polir un de leur produit et le diam`etre de ce dernier.
1. Pour se faire, vous disposez de 59 donnees en coupe dans le fichier don polish.xls. En premier lieu, il
faut creer un espace de travail (workfile) qui prend en compte des donnees en coupe allant de 1 `a 59.
Pour cela, allez dans File/New/workfile. La fenetre WorkfileRange apparat ; il suffit de choisir
Undated or Irregular et de specifier dans les deux cases en-dessous la premi`ere observation (1) et la
derni`ere (59).
2. Importez les 3 series qui se trouvent dans le fichier Excel don polish.xls. Pour se faire, allez dans
Procs/Import/ReadText Lotus Excel ; le fichier se trouve sur un des disques partages de lUniversite (Etu commun sur Noir). Puisque les series sont dej`a nommees, il suffira de specifier le nombre
de series dans la premi`ere case de la fenetre ExcelSpreadsheetImport (il y en a trois qui nous
interessent). Attention les donnees qui nous interessent commencent dans la case B2.
3. Vous avez fait le plus dur. Il est maintenant temps denregistrer tout ca sur votre disquette. Cliquez
sur la case Save. Et enregistrez votre workfile (.wf1) sur Disquette3 14 (A :) en choisissant un nom
approprie.
4. Avant de manipuler vos series, il est utile de verifier si limportation des donnees sest faite correctement. Pour cela, vous allez creer un groupe (Group) en selectionnant les trois series importees. Plus
precisement vous selectionnez une des trois series puis vous maintenez presse CTRL et cliquez sur
les deux autres. Vous avez mis en evidence les trois series ; maintenant double cliquez (avec le bouton
de gauche) sur une des trois et vous voyez loption pour ouvrir un groupe ; faites-le en cliquant sur
OpenGroup. Sauvez ce groupe en le nommant. Allez sur Name et choisissez un nom approprie.
Attention, ayez toujours en tete quEviews ne permet pas de choisir des noms de plus de 16 caract`eres
(ou 8 dependant de lobjet). So keep it short ! Et evitez les accents.
5. Vous avez verifie et les donnees sont en ordre. Maintenant vous pouvez commencer le travail deconometrie
`a proprement parler. La premi`ere etape consiste toujours `a prendre connaissance des donnees, cest`a-dire `a se familiariser avec les donnees en les visualisant par exemple. Cette etape est tr`es importante
car elle nous permet de deceler tr`es rapidement des tendances, de la non-stationnarite, des retournements ou tout simplement des donnees aberrantes dans nos series. Pour une vue simultanee des trois
series selectionnez View/MultipleGraphs/Line. Il apparatra les trois petits graphiques `a lecran.
Vous avez s
urement remarque que le tableau contenant les donnees des trois series a disparu. Ceci est
normale. En effet, Eviews travaille avec des objets (Series, Group, Equation, Matrix, etc.) et ces
objets peuvent etre visualises de differentes mani`eres. Pour voir le choix qui vous est propose allez
dans View. Comme vous le constatez, le choix est impressionnant. Si vous voulez `a nouveau visualiser le groupe sous langle des donnees (c.-`a-d. de visualiser toutes les observations de chaque serie) il
vous faut selectionner SpreadSheet. Cest un bon moment pour selectionner differents points de vue
de lobjet et ainsi decouvrir une partie de toutes les potentialites que rec`elent ce logiciel. Par exemple,
en selectionnant Correlations vous allez voir apparatre la matrice de correlations entre les variables.
Cette matrice peut vous permettre devaluer assez rapidement les risques de multi-collinearite entre
les differentes variables explicatives.
6. Maintenant que vous vous etes familiarises avec les donnees, il est temps de faire des regressions. Vous
allez estimer un mod`ele de regression pour estimer le temps de polissage dun objet (time) en fonction
de son diam`etre (diam) et en ajoutant une variable muette (dumc ass)qui prend en compte le fait
128

que les casseroles (plus complexe) prennent plus de temps `a polir que la vaisselle. Avant de faire la
regression, demandez-vous si il est utile ou non de mettre une constante dans le mod`ele. Pour confirmer
vos soupcons ( !), faites la regression avec et sans la constante.
7. Pour estimer le mod`ele, selectionnez Quick du menu principal et choisissez EstimateEquation . . .
Cela ouvrira la fenetre Equationspecification. Tapez dans la premi`ere case, en premier lieu, le nom
de la variable expliquee, ensuite si vous voulez une constante, tapez C pour linclure dans le mod`ele
(le logiciel reconnatra ce C comme la constante `a inclure ; nappelez donc jamais une de vos series C ,
cela risquerait de poser probl`eme !) et ensuite tapez le nom de chaque variable explicative du mod`ele.
Il est important de laisser un espace entre chaque variable. En econometrie, il arrive frequemment de
devoir prendre des differences premi`eres, secondes, etc. Le logiciel a pris ce fait en compte et permet
de simplifier la tache de lutilisateur ; pour des differences premi`eres du logarithme dune serie nommee
ABC, il suffit de taper dlog(ABC) ; pour les differences premi`eres dune serie ABC, il suffit de taper
d(ABC). Et si lon veut une fonction de la variable comme le logarithme du ABC, il suffit de taper
log(ABC). Par defaut la methode destimation est celle des moindres carrees (LS LeastSquares).
Cest ce que vous voulez. Reste `a specifier sur quel echantillon la regression se fera. Par defaut Eviews
specifie la taille de lechantillon que vous avez donnee lors de la creation du workfile au point 1.
Lechantillon est toujours le meme, il ne reste plus qu`a presser OK et la regression seffectuera. Ce
netait pas si dur !
8. Les resultats de la regression sont apparus `a lecran. Vous remarquerez que la qualite de la regression
est bonne. Pour des donnees en coupe, un R2 de 40% peut dej`a etre considere comme bon. Ces
resultats sont interessants, mais ils ne sont valables que si les hypoth`eses du mod`ele lineaire generale
sont satisfaites. Or, il est bien connu que lorsque lon a des donnees en coupe, un effet taille peut
apparatre et lhypoth`ese dhomoscedasticite nest plus satisfaite dans ce cas. Une premi`ere approche
pour observer cela est de changer de vue. Et oui, lestimation LS est un objet Equation et comme tout
objet sur Eviews il y a plusieurs vues possible pour etudier lobjet. Je vous conseille de selectionner
View/Actual, Fitted, Residual/Graph. Ce graphe vous donne les valeurs estimees et observees par
le mod`ele de la variable expliquee et en-dessous les residus. Regardez les residus. Vous observez des
piques parfois tr`es grand qui peuvent signaler une presence dheteroscedasticite. Mais pour en etre
s
ur, creez un groupe comprenant la serie diam et la serie resid (qui contient par defaut les residus
de la derni`ere regression effectuee par le logiciel). Maintenant le but est de produire un graphe qui
met en rapport les residus avec le diam`etre des produits. Pour cela, il faut `a nouveau changer de vue,
selectionnez View/Graph/Scatter/SimpleScatter. Lheteroscedasticite est maintenant flagrante.
Pour conserver `a part ce graphe, selectionnez loption Freeze. Cette option g`ele limage `a lecran et
lint`egre dans un nouvel objet quil faudra nommer. Les resultats de la regression precedente sont donc
inutilisable, il faut corriger cet effet.
9. Avant de corriger leffet, il faut sassurer quon est bien en presence dheteroscedasticite. Pour cela, il
existe un test statistique, cest le test de White. Ce test peut se faire sur Eviews. Reprenez la fenetre
contenant votre regression et changez de vue (View/ResidualTest/White/Heteroskedasticity).
Le test indique clairement que lhypoth`ese nulle dhomoscedasticite est rejetee.
10. Dans le but deviter lheteroscedasticite et egalement afin de faciliter linterpretation economique, on
effectuera la meme regression, mais cette fois-ci en prenant le logarithme des seriestime et diam.
Donnez intuitivement la raison de prendre les logarithmes. Commenter vos resultats, discutez du comportement des erreurs dans ce cas-ci et faites le test de White. Felicitations, vous venez de terminer
votre premier exercice sur Eviews !

129

Chapitre 11

Tables statistiques
Tab. 11.1 Table des quantiles dune variable normale centree reduite

Ordre du quantile (p)


0.500
0.550
0.600
0.650
0.700
0.750
0.800
0.850
0.900
0.950
0.970
0.971
0.972
0.973
0.974

zp

Quantile (zp )
0.0000
0.1257
0.2533
0.3853
0.5244
0.6745
0.8416
1.0364
1.2816
1.6449
1.8808
1.8957
1.9110
1.9268
1.9431

Ordre du quantile (p)


0.975
0.976
0.977
0.978
0.979
0.990
0.991
0.992
0.993
0.994
0.995
0.996
0.997
0.998
0.999

130

Quantile (zp )
1.9600
1.9774
1.9954
2.0141
2.0335
2.3263
2.3656
2.4089
2.4573
2.5121
2.5758
2.6521
2.7478
2.8782
3.0902

Tab. 11.2 Fonction de repartition de la loi normale centree reduite


(Probabilite de trouver une valeur inferieur `
a u)

p = F (u)

u
0.0
0.1
0.2
0.3
0.4

0.0
.5000
.5398
.5793
.6179
.6554

.01
.5040
.5438
.5832
.6217
.6591

.02
.5080
.5478
.5871
.6255
.6628

.03
.5120
.5517
.5910
.6293
.6664

.04
.5160
.5557
.5948
.6331
.6700

.05
.5199
.5596
.5987
.6368
.6736

.06
.5239
.5636
.6026
.6406
.6772

.07
.5279
.5675
.6064
.6443
.6808

.08
.5319
.5714
.6103
.6480
.6844

.09
.5359
.5753
.6141
.6517
.6879

0.5
0.6
0.7
0.8
0.9

.6915
.7257
.7580
.7881
.8159

.6950
.7291
.7611
.7910
.8186

.6985
.7324
.7642
.7939
.8212

.7019
.7357
.7673
.7967
.8238

.7054
.7389
.7704
.7995
.8264

.7088
.7422
.7734
.8023
.8289

.7123
.7454
.7764
.8051
.8315

.7157
.7486
.7794
.8078
.8340

.7190
.7517
.7823
.8106
.8365

.7224
.7549
.7852
.8133
.8389

1.0
1.1
1.2
1.3
1.4

.8413
.8643
.8849
.9032
.9192

.8438
.8665
.8869
.9049
.9207

.8461
.8686
.8888
.9066
.9222

.8485
.8708
.8907
.9082
.9236

.8508
.8729
.8925
.9099
.9251

.8531
.8749
.8944
.9115
.9265

.8554
.8770
.8962
.9131
.9279

.8577
.8790
.8980
.9147
.9292

.8599
.8810
.8997
.9162
.9306

.8621
.8830
.9015
.9177
.9319

1.5
1.6
1.7
1.8
1.9

.9332
.9452
.9554
.9641
.9713

.9345
.9463
.9564
.9649
.9719

.9357
.9474
.9573
.9656
.9726

.9370
.9484
.9582
.9664
.9732

.9382
.9495
.9591
.9671
.9738

.9394
.9505
.9599
.9678
.9744

.9406
.9515
.9608
.9686
.9750

.9418
.9525
.9616
.9693
.9756

.9429
.9535
.9625
.9699
.9761

.9441
.9545
.9633
.9706
.9767

2.0
2.1
2.2
2.3
2.4

.9772
.9821
.9861
.9893
.9918

.9778
.9826
.9864
.9896
.9920

.9783
.9830
.9868
.9898
.9922

.9788
.9834
.9871
.9901
.9925

.9793
.9838
.9875
.9904
.9927

.9798
.9842
.9878
.9906
.9929

.9803
.9846
.9881
.9909
.9931

.9808
.9850
.9884
.9911
.9932

.9812
.9854
.9887
.9913
.9934

.9817
.9857
.9890
.9916
.9936

2.5
2.6
2.7
2.8
2.9

.9938
.9953
.9965
.9974
.9981

.9940
.9955
.9966
.9975
.9982

.9941
.9956
.9967
.9976
.9982

.9943
.9957
.9968
.9977
.9983

.9945
.9959
.9969
.9977
.9984

.9946
.9960
.9970
.9978
.9984

.9948
.9961
.9971
.9979
.9985

.9949
.9962
.9972
.9979
.9985

.9951
.9963
.9973
.9980
.9986

.9952
.9964
.9974
.9981
.9986

3.0
3.1
3.2
3.3
3.4

.9987
.9990
.9993
.9995
.9997

.9987
.9991
.9993
.9995
.9997

.9987
.9991
.9994
.9995
.9997

.9988
.9991
.9994
.9996
.9997

.9988
.9992
.9994
.9996
.9997

.9989
.9992
.9994
.9996
.9997

.9989
.9992
.9994
.9996
.9997

.9989
.9992
.9995
.9996
.9997

.9990
.9993
.9995
.9996
.9997

.9990
.9993
.9995
.9997
.9998

131

132

0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9

1.6449
1.2816
1.0364
0.8416
0.6745
0.5244
0.3853
0.2533
0.1257

0.01
2.5758
1.5982
1.2536
1.0152
0.8239
0.6588
0.5101
0.3719
0.2404
0.1130

0.02
2.3263
1.5548
1.2265
0.9945
0.8064
0.6433
0.4958
0.3585
0.2275
0.1004

0.03
2.1701
1.5141
1.2004
0.9741
0.7892
0.6280
0.4817
0.3451
0.2147
0.0878

/2

0.04
2.0537
1.4758
1.1750
0.9542
0.7722
0.6128
0.4677
0.3319
0.2019
0.0753

/2

0.05
1.9600
1.4395
1.1503
0.9346
0.7554
0.5978
0.4538
0.3186
0.1891
0.0627

+u

0.06
1.8808
1.4051
1.1264
0.9154
0.7388
0.5828
0.4399
0.3055
0.1764
0.0502

0.07
1.8119
1.3722
1.1031
0.8965
0.7225
0.5681
0.4261
0.2924
0.1637
0.0376

0.08
1.7507
1.3408
1.0803
0.8779
0.7063
0.5534
0.4125
0.2793
0.1510
0.0251

Tab. 11.3 Quantiles de la loi normale centree reduite


(u : valeur ayant la probabilite detre depasse en valeur absolue)

0.09
1.6954
1.3106
1.0581
0.8596
0.6903
0.5388
0.3989
0.2663
0.1383
0.0125

Tab. 11.4 Table des quantiles dune variable 2 `a n degres de liberte


ordre du quantile
0.05
0.95
0.003932
3.841
0.103
5.991
0.352
7.815
0.711
9.488
1.145
11.07
1.635
12.59
2.167
14.07
2.733
15.51
3.325
16.92

n=1
2
3
4
5
6
7
8
9

0.01
0.000157
0.02010
0.115
0.297
0.554
0.872
1.239
1.646
2.088

0.025
0.000982
0.05064
0.216
0.484
0.831
1.237
1.690
2.180
2.700

0.975
5.024
7.378
9.348
11.14
12.83
14.45
16.01
17.53
19.02

0.99
6.635
9.210
11.34
13.28
15.09
16.81
18.48
20.09
21.67

10
11
12
13
14
15
16
17
18
19

2.558
3.053
3.571
4.107
4.660
5.229
5.812
6.408
7.015
7.633

3.247
3.816
4.404
5.009
5.629
6.262
6.908
7.564
8.231
8.907

3.940
4.575
5.226
5.892
6.571
7.261
7.962
8.672
9.390
10.12

18.31
19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
30.14

20.48
21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
32.85

23.21
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19

20
21
22
23
24
25
26
27
28
29

8.260
8.897
9.542
10.20
10.86
11.52
12.20
12.88
13.56
14.26

9.591
10.28
10.98
11.69
12.40
13.12
13.84
14.57
15.31
16.05

10.85
11.59
12.34
13.09
13.85
14.61
15.38
16.15
16.93
17.71

31.41
32.67
33.92
35.17
36.42
37.65
38.89
40.11
41.34
42.56

34.17
35.48
36.78
38.08
39.36
40.65
41.92
43.19
44.46
45.72

37.57
38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59

30
31
32
33
34
35
36
37
38
39

14.95
15.66
16.36
17.07
17.79
18.51
19.23
19.96
20.69
21.43

16.79
17.54
18.29
19.05
19.81
20.57
21.34
22.11
22.88
23.65

18.49
19.28
20.07
20.87
21.66
22.47
23.27
24.07
24.88
25.70

43.77
44.99
46.19
47.40
48.60
49.80
51.00
52.19
53.38
54.57

46.98
48.23
49.48
50.73
51.97
53.20
54.44
55.67
56.90
58.12

50.89
52.19
53.49
54.78
56.06
57.34
58.62
59.89
61.16
62.43

40
42
44
46
48

22.16
23.65
25.15
26.66
28.18

24.43
26.00
27.57
29.16
30.75

26.51
28.14
29.79
31.44
33.10

55.76
58.12
60.48
62.83
65.17

59.34
61.78
64.20
66.62
69.02

63.69
66.21
68.71
71.20
73.68

50
60
70
80
90
100
110
120

29.71
37.48
45.44
53.54
61.75
70.06
78.46
86.92

32.36
40.48
48.76
57.15
65.65
74.22
82.87
91.57

34.76
43.19
51.74
60.39
69.13
77.93
86.79
95.70

67.50
79.08
90.53
101.88
113.15
124.34
135.48
146.57

71.42
83.30
95.02
106.63
118.14
129.56
140.92
152.21

76.15
88.38
100.43
112.33
124.12
135.81
147.41
158.95

133

Tab. 11.5 Table des quantiles dune variable de Student `a n degres de liberte

n=1
2
3
4
5
6
7
8
9

0.95
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833

ordre du
0.975
12.71
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262

quantile
0.99
31.82
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821

0.995
63.66
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250

10
11
12
13
14
15
16
17
18
19

1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729

2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093

2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539

3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861

20
21
22
23
24
25
26
27
28
29

1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699

2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045

2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462

2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756

30
31
32
33
34
35
36
37
38
39

1.697
1.696
1.694
1.692
1.691
1.690
1.688
1.687
1.686
1.685

2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
2.023

2.457
2.453
2.449
2.445
2.441
2.438
2.434
2.431
2.429
2.426

2.750
2.744
2.738
2.733
2.728
2.724
2.719
2.715
2.712
2.708

40
50
60
70
80
90
100
120

1.684
1.676
1.671
1.667
1.664
1.662
1.660
1.658
1.645

2.021
2.009
2.000
1.994
1.990
1.987
1.984
1.980
1.960

2.423
2.403
2.390
2.381
2.374
2.368
2.364
2.358
2.327

2.704
2.678
2.660
2.648
2.639
2.632
2.626
2.617
2.576

134

Tab. 11.6 Table des quantiles dordre 0.95 dune variable de Fisher `a n1 et n2 degres de liberte
n2 =1
2
3
4
5
6
7
8
9

n1 =1
161.4
18.51
10.13
7.709
6.608
5.987
5.591
5.318
5.117

2
199.5
19.00
9.552
6.944
5.786
5.143
4.737
4.459
4.256

3
215.7
19.16
9.277
6.591
5.409
4.757
4.347
4.066
3.863

4
224.6
19.25
9.117
6.388
5.192
4.534
4.120
3.838
3.633

5
230.2
19.30
9.013
6.256
5.050
4.387
3.972
3.687
3.482

6
234.0
19.33
8.941
6.163
4.950
4.284
3.866
3.581
3.374

7
236.8
19.35
8.887
6.094
4.876
4.207
3.787
3.500
3.293

8
238.9
19.37
8.845
6.041
4.818
4.147
3.726
3.438
3.230

9
240.5
19.38
8.812
5.999
4.772
4.099
3.677
3.388
3.179

10
241.9
19.40
8.786
5.964
4.735
4.060
3.637
3.347
3.137

12
243.9
19.41
8.745
5.912
4.678
4.000
3.575
3.284
3.073

14
245.4
19.42
8.715
5.873
4.636
3.956
3.529
3.237
3.025

16
246.5
19.43
8.692
5.844
4.604
3.922
3.494
3.202
2.989

20
248.0
19.45
8.660
5.803
4.558
3.874
3.445
3.150
2.936

30
250.1
19.46
8.617
5.746
4.496
3.808
3.376
3.079
2.864

254.3
19.50
8.526
5.628
4.365
3.669
3.230
2.928
2.707

10
11
12
13
14
15
16
17
18
19

4.965
4.844
4.747
4.667
4.600
4.543
4.494
4.451
4.414
4.381

4.103
3.982
3.885
3.806
3.739
3.682
3.634
3.592
3.555
3.522

3.708
3.587
3.490
3.411
3.344
3.287
3.239
3.197
3.160
3.127

3.478
3.357
3.259
3.179
3.112
3.056
3.007
2.965
2.928
2.895

3.326
3.204
3.106
3.025
2.958
2.901
2.852
2.810
2.773
2.740

3.217
3.095
2.996
2.915
2.848
2.790
2.741
2.699
2.661
2.628

3.135
3.012
2.913
2.832
2.764
2.707
2.657
2.614
2.577
2.544

3.072
2.948
2.849
2.767
2.699
2.641
2.591
2.548
2.510
2.477

3.020
2.896
2.796
2.714
2.646
2.588
2.538
2.494
2.456
2.423

2.978
2.854
2.753
2.671
2.602
2.544
2.494
2.450
2.412
2.378

2.913
2.788
2.687
2.604
2.534
2.475
2.425
2.381
2.342
2.308

2.865
2.739
2.637
2.554
2.484
2.424
2.373
2.329
2.290
2.256

2.828
2.701
2.599
2.515
2.445
2.385
2.333
2.289
2.250
2.215

2.774
2.646
2.544
2.459
2.388
2.328
2.276
2.230
2.191
2.155

2.700
2.570
2.466
2.380
2.308
2.247
2.194
2.148
2.107
2.071

2.538
2.404
2.296
2.206
2.131
2.066
2.010
1.960
1.917
1.878

20
21
22
23
24
25
26
27
28
29

4.351
4.325
4.301
4.279
4.260
4.242
4.225
4.210
4.196
4.183

3.493
3.467
3.443
3.422
3.403
3.385
3.369
3.354
3.340
3.328

3.098
3.072
3.049
3.028
3.009
2.991
2.975
2.960
2.947
2.934

2.866
2.840
2.817
2.796
2.776
2.759
2.743
2.728
2.714
2.701

2.711
2.685
2.661
2.640
2.621
2.603
2.587
2.572
2.558
2.545

2.599
2.573
2.549
2.528
2.508
2.490
2.474
2.459
2.445
2.432

2.514
2.488
2.464
2.442
2.423
2.405
2.388
2.373
2.359
2.346

2.447
2.420
2.397
2.375
2.355
2.337
2.321
2.305
2.291
2.278

2.393
2.366
2.342
2.320
2.300
2.282
2.265
2.250
2.236
2.223

2.348
2.321
2.297
2.275
2.255
2.236
2.220
2.204
2.190
2.177

2.278
2.250
2.226
2.204
2.183
2.165
2.148
2.132
2.118
2.104

2.225
2.197
2.173
2.150
2.130
2.111
2.094
2.078
2.064
2.050

2.184
2.156
2.131
2.109
2.088
2.069
2.052
2.036
2.021
2.007

2.124
2.096
2.071
2.048
2.027
2.007
1.990
1.974
1.959
1.945

2.039
2.010
1.984
1.961
1.939
1.919
1.901
1.884
1.869
1.854

1.843
1.812
1.783
1.757
1.733
1.711
1.691
1.672
1.654
1.638

30
32
34
36
38

4.171
4.149
4.130
4.113
4.098

3.316
3.295
3.276
3.259
3.245

2.922
2.901
2.883
2.866
2.852

2.690
2.668
2.650
2.634
2.619

2.534
2.512
2.494
2.477
2.463

2.421
2.399
2.380
2.364
2.349

2.334
2.313
2.294
2.277
2.262

2.266
2.244
2.225
2.209
2.194

2.211
2.189
2.170
2.153
2.138

2.165
2.142
2.123
2.106
2.091

2.092
2.070
2.050
2.033
2.017

2.037
2.015
1.995
1.977
1.962

1.995
1.972
1.952
1.934
1.918

1.932
1.908
1.888
1.870
1.853

1.841
1.817
1.795
1.776
1.760

1.622
1.594
1.569
1.547
1.527

40
50
60
120

4.085
4.034
4.001
3.920
3.841

3.232
3.183
3.150
3.072
2.996

2.839
2.790
2.758
2.680
2.605

2.606
2.557
2.525
2.447
2.372

2.449
2.400
2.368
2.290
2.214

2.336
2.286
2.254
2.175
2.099

2.249
2.199
2.167
2.087
2.010

2.180
2.130
2.097
2.016
1.938

2.124
2.073
2.040
1.959
1.880

2.077
2.026
1.993
1.910
1.831

2.003
1.952
1.917
1.834
1.752

1.948
1.895
1.860
1.775
1.692

1.904
1.850
1.815
1.728
1.644

1.839
1.784
1.748
1.659
1.571

1.744
1.687
1.649
1.554
1.459

1.509
1.438
1.389
1.254
1.000

135

Tab. 11.7 Table des quantiles dordre 0.99 dune variable de Fisher `a n1 et n2 degres de liberte
n2 =1
2
3
4
5
6
7
8
9

n1 =1
4052
98.50
34.12
21.20
16.26
13.75
12.25
11.26
10.56

2
5000
99.00
30.82
18.00
13.27
10.93
9.547
8.649
8.022

3
5403
99.17
29.46
16.69
12.06
9.780
8.451
7.591
6.992

4
5625
99.25
28.71
15.98
11.39
9.148
7.847
7.006
6.422

5
5764
99.30
28.24
15.52
10.97
8.746
7.460
6.632
6.057

6
5859
99.33
27.91
15.21
10.67
8.466
7.191
6.371
5.802

7
5928
99.36
27.67
14.98
10.46
8.260
6.993
6.178
5.613

8
5981
99.37
27.49
14.80
10.29
8.102
6.840
6.029
5.467

9
6022
99.39
27.35
14.66
10.16
7.976
6.719
5.911
5.351

10
6056
99.40
27.23
14.55
10.05
7.874
6.620
5.814
5.257

12
6106
99.42
27.05
14.37
9.888
7.718
6.469
5.667
5.111

14
6143
99.43
26.92
14.25
9.770
7.605
6.359
5.559
5.005

16
6170
99.44
26.83
14.15
9.680
7.519
6.275
5.477
4.924

20
6209
99.45
26.69
14.02
9.553
7.396
6.155
5.359
4.808

30
6261
99.47
26.51
13.84
9.379
7.229
5.992
5.198
4.649

6366
99.50
26.13
13.46
9.020
6.880
5.650
4.859
4.311

10
11
12
13
14
15
16
17
18
19

10.04
9.646
9.330
9.074
8.862
8.683
8.531
8.400
8.285
8.185

7.559
7.206
6.927
6.701
6.515
6.359
6.226
6.112
6.013
5.926

6.552
6.217
5.953
5.739
5.564
5.417
5.292
5.185
5.092
5.010

5.994
5.668
5.412
5.205
5.035
4.893
4.773
4.669
4.579
4.500

5.636
5.316
5.064
4.862
4.695
4.556
4.437
4.336
4.248
4.171

5.386
5.069
4.821
4.620
4.456
4.318
4.202
4.102
4.015
3.939

5.200
4.886
4.640
4.441
4.278
4.142
4.026
3.927
3.841
3.765

5.057
4.744
4.499
4.302
4.140
4.004
3.890
3.791
3.705
3.631

4.942
4.632
4.388
4.191
4.030
3.895
3.780
3.682
3.597
3.523

4.849
4.539
4.296
4.100
3.939
3.805
3.691
3.593
3.508
3.434

4.706
4.397
4.155
3.960
3.800
3.666
3.553
3.455
3.371
3.297

4.601
4.293
4.052
3.857
3.698
3.564
3.451
3.353
3.269
3.195

4.520
4.213
3.972
3.778
3.619
3.485
3.372
3.275
3.190
3.116

4.405
4.099
3.858
3.665
3.505
3.372
3.259
3.162
3.077
3.003

4.247
3.941
3.701
3.507
3.348
3.214
3.101
3.003
2.919
2.844

3.909
3.602
3.361
3.165
3.004
2.868
2.753
2.653
2.566
2.489

20
21
22
23
24
25
26
27
28
29

8.096
8.017
7.945
7.881
7.823
7.770
7.721
7.677
7.636
7.598

5.849
5.780
5.719
5.664
5.614
5.568
5.526
5.488
5.453
5.420

4.938
4.874
4.817
4.765
4.718
4.675
4.637
4.601
4.568
4.538

4.431
4.369
4.313
4.264
4.218
4.177
4.140
4.106
4.074
4.045

4.103
4.042
3.988
3.939
3.895
3.855
3.818
3.785
3.754
3.725

3.871
3.812
3.758
3.710
3.667
3.627
3.591
3.558
3.528
3.499

3.699
3.640
3.587
3.539
3.496
3.457
3.421
3.388
3.358
3.330

3.564
3.506
3.453
3.406
3.363
3.324
3.288
3.256
3.226
3.198

3.457
3.398
3.346
3.299
3.256
3.217
3.182
3.149
3.120
3.092

3.368
3.310
3.258
3.211
3.168
3.129
3.094
3.062
3.032
3.005

3.231
3.173
3.121
3.074
3.032
2.993
2.958
2.926
2.896
2.868

3.130
3.072
3.019
2.973
2.930
2.892
2.857
2.824
2.795
2.767

3.051
2.993
2.941
2.894
2.852
2.813
2.778
2.746
2.716
2.689

2.938
2.880
2.827
2.781
2.738
2.699
2.664
2.632
2.602
2.574

2.778
2.720
2.667
2.620
2.577
2.538
2.503
2.470
2.440
2.412

2.421
2.360
2.305
2.256
2.211
2.169
2.131
2.097
2.064
2.034

30
32
34
36
38

7.562
7.499
7.444
7.396
7.353

5.390
5.336
5.289
5.248
5.211

4.510
4.459
4.416
4.377
4.343

4.018
3.969
3.927
3.890
3.858

3.699
3.652
3.611
3.574
3.542

3.473
3.427
3.386
3.351
3.319

3.304
3.258
3.218
3.183
3.152

3.173
3.127
3.087
3.052
3.021

3.067
3.021
2.981
2.946
2.915

2.979
2.934
2.894
2.859
2.828

2.843
2.798
2.758
2.723
2.692

2.742
2.696
2.657
2.622
2.591

2.663
2.618
2.578
2.543
2.512

2.549
2.503
2.463
2.428
2.397

2.386
2.340
2.299
2.263
2.232

2.006
1.956
1.911
1.872
1.837

40
50
60
120

7.314
7.171
7.077
6.851
6.635

5.179
5.057
4.977
4.787
4.605

4.313
4.199
4.126
3.949
3.782

3.828
3.720
3.649
3.480
3.319

3.514
3.408
3.339
3.174
3.017

3.291
3.186
3.119
2.956
2.802

3.124
3.020
2.953
2.792
2.639

2.993
2.890
2.823
2.663
2.511

2.888
2.785
2.718
2.559
2.407

2.801
2.698
2.632
2.472
2.321

2.665
2.562
2.496
2.336
2.185

2.563
2.461
2.394
2.234
2.082

2.484
2.382
2.315
2.154
2.000

2.369
2.265
2.198
2.035
1.878

2.203
2.098
2.028
1.860
1.696

1.805
1.683
1.601
1.381
1.000

136

Tab. 11.8 Valeur critique du test de Durbin-Watson au seuil de 5%


n
15
16
17
18
19

k=1
dL
dU
1.08 1.36
1.10 1.37
1.13 1.38
1.16 1.39
1.18 1.40

k=2
dL
dU
0.95 1.54
0.98 1.54
1.02 1.54
1.05 1.53
1.08 1.53

k=3
dL
dU
0.82 1.75
0.86 1.73
0.90 1.71
0.93 1.69
0.97 1.68

k=4
dL
dU
0.69 1.97
0.74 1.93
0.78 1.90
0.82 1.87
0.86 1.85

k=5
dL
dU
0.56 2.21
0.62 2.15
0.67 2.10
0.71 2.06
0.75 2.02

20
21
22
23
24
25
26
27
28
29

1.20
1.22
1.24
1.26
1.27
1.29
1.30
1.32
1.33
1.34

1.41
1.42
1.43
1.44
1.45
1.45
1.46
1.47
1.48
1.48

1.10
1.13
1.15
1.17
1.19
1.21
1.22
1.24
1.26
1.27

1.54
1.54
1.54
1.54
1.55
1.55
1.55
1.56
1.56
1.56

1.00
1.03
1.05
1.08
1.10
1.12
1.14
1.16
1.18
1.20

1.68
1.67
1.66
1.66
1.66
1.66
1.65
1.65
1.65
1.65

0.90
0.93
0.96
0.99
1.01
1.04
1.06
1.08
1.10
1.12

1.83
1.81
1.80
1.79
1.78
1.77
1.76
1.76
1.75
1.74

0.79
0.83
0.86
0.90
0.93
0.95
0.98
1.01
1.03
1.05

1.99
1.96
1.94
1.92
1.90
1.89
1.88
1.86
1.85
1.84

30
31
32
33
34
35
36
37
38
39

1.35
1.36
1.37
1.38
1.39
1.40
1.41
1.42
1.43
1.43

1.49
1.50
1.50
1.51
1.51
1.52
1.52
1.53
1.54
1.54

1.28
1.30
1.31
1.32
1.33
1.34
1.35
1.36
1.37
1.38

1.57
1.57
1.57
1.58
1.58
1.58
1.59
1.59
1.59
1.60

1.21
1.23
1.24
1.26
1.27
1.28
1.29
1.31
1.32
1.33

1.65
1.65
1.65
1.65
1.65
1.65
1.65
1.66
1.66
1.66

1.14
1.16
1.18
1.19
1.21
1.22
1.24
1.25
1.26
1.27

1.74
1.74
1.73
1.73
1.73
1.73
1.73
1.72
1.72
1.72

1.07
1.09
1.11
1.13
1.15
1.16
1.18
1.19
1.21
1.22

1.83
1.83
1.82
1.81
1.81
1.80
1.80
1.80
1.79
1.79

40
45
50
55
60
65
70
75
80
85
90
95
100

1.44
1.48
1.50
1.53
1.55
1.57
1.58
1.60
1.61
1.62
1.63
1.64
1.65

1.54
1.57
1.59
1.60
1.62
1.63
1.64
1.65
1.66
1.67
1.68
1.69
1.69

1.39
1.43
1.46
1.49
1.51
1.54
1.55
1.57
1.59
1.60
1.61
1.62
1.63

1.60
1.62
1.63
1.64
1.65
1.66
1.67
1.68
1.69
1.70
1.70
1.71
1.72

1.34
1.38
1.42
1.45
1.48
1.50
1.52
1.54
1.56
1.57
1.59
1.60
1.61

1.66
1.67
1.67
1.68
1.69
1.70
1.70
1.71
1.72
1.72
1.73
1.73
1.74

1.29
1.34
1.38
1.41
1.44
1.47
1.49
1.51
1.53
1.55
1.57
1.58
1.59

1.72
1.72
1.72
1.72
1.73
1.73
1.74
1.74
1.74
1.75
1.75
1.75
1.76

1.23
1.29
1.34
1.38
1.41
1.44
1.46
1.49
1.51
1.52
1.54
1.56
1.57

1.79
1.78
1.77
1.77
1.77
1.77
1.77
1.77
1.77
1.77
1.78
1.78
1.78

k est le nombre de variables explicatives (constante exclue).


n est la taille de lechantillon.

137

Tab. 11.9 Quantiles du coefficient de correlation de Pearson dune variable aleatoire normale bivariee sous
lhypoth`ese que = 0
n
4
5
6
7
8
9

0.05
0.900
0.805
0.729
0.669
0.621
0.582

ordre du
0.025
0.950
0.878
0.811
0.754
0.707
0.666

10
11
12
13
14
15
16
17
18
19

0.549
0.521
0.497
0.476
0.458
0.441
0.426
0.412
0.400
0.389

0.632
0.602
0.576
0.553
0.532
0.514
0.497
0.482
0.468
0.456

0.765
0.735
0.708
0.684
0.661
0.641
0.623
0.606
0.590
0.575

0.872
0.847
0.823
0.801
0.780
0.760
0.742
0.725
0.708
0.693

20
21
22
23
24
25
26
27
28
29

0.378
0.369
0.360
0.352
0.344
0.337
0.330
0.323
0.317
0.311

0.444
0.433
0.423
0.413
0.404
0.396
0.388
0.381
0.374
0.367

0.561
0.549
0.537
0.526
0.515
0.505
0.496
0.487
0.479
0.471

0.679
0.665
0.652
0.640
0.629
0.618
0.607
0.597
0.588
0.579

30
35
40
45
50
60
70
80
90

0.306
0.283
0.264
0.248
0.235
0.214
0.198
0.185
0.174

0.361
0.334
0.312
0.294
0.279
0.254
0.235
0.220
0.207

0.463
0.430
0.403
0.380
0.361
0.330
0.306
0.286
0.270

0.570
0.532
0.501
0.474
0.451
0.414
0.385
0.361
0.341

100
200
300
400
500
1000

0.165
0.117
0.095
0.082
0.074
0.052

0.197
0.139
0.113
0.098
0.088
0.062

0.256
0.182
0.149
0.129
0.115
0.081

0.324
0.231
0.189
0.164
0.147
0.104

n est la taille de lechantillon.

138

quantile
0.005 0.0005
0.990 0.999
0.959 0.991
0.917 0.974
0.875 0.951
0.834 0.925
0.798 0.898

Bibliographie
Bourbonnais, R. (1993). Econometrie. Dunod, Paris.
Cohen, M. and Pradel, J. (1993). Econometrie. Litec, Paris.
Gourieroux, C. and Monfort, A. (1989a). Statistics and Econometric Models, volume 1. Press Syndicate of
the University of Cambridge, Cambridge.
Gourieroux, C. and Monfort, A. (1989b). Statistics and Econometric Models, volume 2. Press Syndicate of
the University of Cambridge, Cambridge.
Greene, W. (1990). Econometric Analysis. Macmillan Publishing Company, New York.
Johnson, J. et DiNardo, J. (1999). Methodes Econometriques. Economica, Paris, 4 edition.
Johnston, J. (1988). Econometrics Methods. McGraw-Hill, Singapore, 4 edition.
Johnston, J. et DiNardo, J. (1997). Methodes econometriques. Economica, Paris, 4`eme edition.
Judge, G., Griffiths, W., Carter Hill, R., L
utkepohl, H., and Lee, T. (1985). The Theory and Practice of
Econometrics. Wiley, USA, 2 edition.
Maddala, G. (1988). Introduction to Econometrics. Macmillan Publishing company, New York.
Ruud, P. (2000). An Introduction to classical Econometric Theory. Oxford University Press, New York,
Oxford.
Theil, H. (1979). Principles of Econometrics. Wiley Hamilton publication, Canada.

139

Liste des tableaux


2.1
2.2
2.3

Taille et poids de 20 individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


Donnees pour les variables x et y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Donnees sur le travail, le capital et la production . . . . . . . . . . . . . . . . . . . . . . . . .

16
29
30

3.1
3.2

Erreur de premi`ere et seconde esp`ece . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


Probabilite de commettre les erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41
41

4.1

Tableau recapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
5.10
5.11
5.12
5.13
5.14

Tableau danalyse de la variance . . . . . . . . . . .


Tableau danalyse de la variance `a un facteur . . . .
Nombre de mots selon les groupes . . . . . . . . . .
Moyennes selon les groupes . . . . . . . . . . . . . .
Tableau danalyse de la variance . . . . . . . . . . .
Consommation de cr`eme glacee . . . . . . . . . . . .
Temps selon les groupes . . . . . . . . . . . . . . . .
Tableau danalyse de la variance . . . . . . . . . . .
Nombre delements rappeles selon lage . . . . . . .
Nombre delements rappeles selon lage et le niveau .
Temps de latence selon les groupes . . . . . . . . . .
Tableau incomplet danalyse de la variance . . . . .
Tableau incomplet danalyse de la variance . . . . .
Tailles (en pouces) et poids (en livres) des etudiants

56
61
65
65
65
67
69
69
69
70
70
71
71
72

7.1
7.2
7.3
7.4
7.5

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

Population des cantons suisses en milliers dhabitants en 2001 et revenus des cantons .
Coefficients du mod`ele sur le carre des residus . . . . . . . . . . . . . . . . . . . . . . .
Estimation de param`etre de la regression avec constante de y/x par 1/x . . . . . . . .
Estimation de param`etre du mod`ele logarithmique . . . . . . . . . . . . . . . . . . . .
Population des cantons suisses en milliers dhabitants, revenus des cantons, residus
regression et carres des residus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.6 Temperatures journali`ere du mois de janvier 2006 . . . . . . . . . . . . . . . . . . . . .
7.7 Consommation et prix du boeuf aux Etats-Unis . . . . . . . . . . . . . . . . . . . . . .
7.8 Donnees selon le temps et le carre du temps . . . . . . . . . . . . . . . . . . . . . . . .
7.9 Depenses denseignement et revenus selon les cantons . . . . . . . . . . . . . . . . . . .
7.10 Ventes et depenses publicitaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.1
11.2
11.3
11.4
11.5
11.6
11.7
11.8
11.9

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

. .
. .
. .
. .
de
. .
. .
. .
. .
. .
. .

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

. . 82
. . 84
. . 87
. . 88
la
. . 90
. . 91
. . 99
. . 103
. . 104
. . 105

Table des quantiles dune variable normale centree reduite . . . . . . . . . . . . . . . . . . . .


Fonction de repartition de la loi normale centree reduite . . . . . . . . . . . . . . . . . . . . .
Quantiles de la loi normale centree reduite . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Table des quantiles dune variable 2 `a n degres de liberte . . . . . . . . . . . . . . . . . . . .
Table des quantiles dune variable de Student `a n degres de liberte . . . . . . . . . . . . . . .
Table des quantiles dordre 0.95 dune variable de Fisher `a n1 et n2 degres de liberte . . . . .
Table des quantiles dordre 0.99 dune variable de Fisher `a n1 et n2 degres de liberte . . . . .
Valeur critique du test de Durbin-Watson au seuil de 5% . . . . . . . . . . . . . . . . . . . .
Quantiles du coefficient de correlation de Pearson dune variable aleatoire normale bivariee
sous lhypoth`ese que = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

140

130
131
132
133
134
135
136
137
138

Table des figures


2.1
2.2

Le nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La droite de regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.1

Nombre dhabitants et revenus total pour les 454 communes belges de moins de 20 000 habitants en 2004 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Nombre dhabitants et revenus total pour les cantons suisses . . . . . . . . . . . . . . . . . . .
Residus de la regression en fonction des cantons classes par ordre croissant de population . .
Residus de la regression des revenus par la population en fonction des communes belges classes
par ordre croissant de population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Residus u
i de la regression sans constante du revenu par la population en fonction des communes classees par ordre croissant de population . . . . . . . . . . . . . . . . . . . . . . . . .
Nuage de points : logarithme du revenu par le logarithme du nombre dhabitants . . . . . . .
Residus de la regression du mod`ele logarithmique classes par ordre croissant de population . .
Donnees suisses, carres des residus par nombre dhabitants . . . . . . . . . . . . . . . . . . . .
Temperatures journali`ere du mois de janvier 2006 . . . . . . . . . . . . . . . . . . . . . . . . .
Temperatures journali`ere vs temperatures du jour suivant . . . . . . . . . . . . . . . . . . . .
Bruit blanc : Suite de variables normales centrees reduites . . . . . . . . . . . . . . . . . . . .
Processus autoregressif avec = 0.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Processus autoregressif avec = 0.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Processus autoregressif avec = 0.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Processus autoregressif avec = 0.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Promenade aleatoire : Processus autoregressif avec = 1 . . . . . . . . . . . . . . . . . . . . .
Processus non stationnaire = 1.01 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
R`egle de decision pour le test de Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . .
Residus selon les annees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Residus dune annee vs residus de lannee suivante . . . . . . . . . . . . . . . . . . . . . . . .

7.2
7.3
7.4
7.5
7.6
7.7
7.8
7.9
7.10
7.11
7.12
7.13
7.14
7.15
7.16
7.17
7.18
7.19
7.20

141

17
19
81
82
83
83
87
88
89
90
91
91
93
93
93
94
94
94
94
98
99
99

Table des mati`


eres
ements dalg`
1 El
ebre lin
eaire
1.1 Espace vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Vecteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2 Multiplication par un scalaire et addition . . . . . . . . . . . .
1.1.3 Definition dun espace vectoriel . . . . . . . . . . . . . . . . . .
1.1.4 Vecteurs lineairement independants . . . . . . . . . . . . . . . .
1.1.5 Sous-espace vectoriel . . . . . . . . . . . . . . . . . . . . . . . .
1.1.6 Syst`eme generateur dun sous-espace vectoriel . . . . . . . . . .
1.1.7 Base dun sous-espace vectoriel . . . . . . . . . . . . . . . . . .
1.1.8 Base canonique de Rn . . . . . . . . . . . . . . . . . . . . . . .
1.1.9 Dimension dun sous-espace vectoriel . . . . . . . . . . . . . . .
1.2 Espace euclidien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Produit scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Norme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Distance entre deux vecteurs . . . . . . . . . . . . . . . . . . .
1.2.4 Vecteurs orthogonaux . . . . . . . . . . . . . . . . . . . . . . .
1.2.5 Orthogonal dun sous-espace vectoriel . . . . . . . . . . . . . .
1.3 Application lineaire et matrices . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Application lineaire . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Matrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.3 Produit dune matrice et dun vecteur . . . . . . . . . . . . . .
1.3.4 Produit matriciel . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.5 Transposition . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.6 Matrices carrees, symetriques et diagonales . . . . . . . . . . .
1.3.7 Rang dune matrice . . . . . . . . . . . . . . . . . . . . . . . .
1.3.8 Trace dune matrice . . . . . . . . . . . . . . . . . . . . . . . .
1.3.9 Matrices inversibles . . . . . . . . . . . . . . . . . . . . . . . .
1.3.10 Inversion par parties . . . . . . . . . . . . . . . . . . . . . . . .
1.3.11 Determinant . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.12 Quelques proprietes . . . . . . . . . . . . . . . . . . . . . . . .
1.3.13 Matrices orthogonales . . . . . . . . . . . . . . . . . . . . . . .
1.3.14 Valeurs propres et vecteurs propres . . . . . . . . . . . . . . . .
1.3.15 Formes et applications lineaires, formes quadratiques . . . . . .
1.3.16 Image et noyau dune matrice . . . . . . . . . . . . . . . . . . .
1.4 Projection et matrice idempotente . . . . . . . . . . . . . . . . . . . .
1.4.1 Projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.2 Projection orthogonale . . . . . . . . . . . . . . . . . . . . . . .
1.4.3 Projection orthogonale dans limage et le noyau dune matrice
1.4.4 Matrice idempotente . . . . . . . . . . . . . . . . . . . . . . . .
1.4.5 Projecteurs obliques . . . . . . . . . . . . . . . . . . . . . . . .
1.4.6 Theor`eme des trois perpendiculaires . . . . . . . . . . . . . . .
1.5 Derivee par rapport `a un vecteur . . . . . . . . . . . . . . . . . . . . .
1.5.1 Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.2 Derivation dune forme lineaire . . . . . . . . . . . . . . . . . .
1.5.3 Derivation dune application lineaire . . . . . . . . . . . . . . .
142

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

2
2
2
2
3
3
3
3
3
3
4
4
4
4
4
4
5
5
5
5
5
6
6
6
7
7
7
7
8
8
9
9
9
10
10
10
10
11
11
12
12
12
12
12
12

1.5.4

Derivee dune forme quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 G
eom
etrie des moindres carr
es
2.1 Serie statistique bivariee . . . . . . . . . . . . . . . . . .
2.1.1 Representation graphique de deux variables . . .
2.1.2 Analyse des variables . . . . . . . . . . . . . . . .
2.1.3 Covariance . . . . . . . . . . . . . . . . . . . . .
2.1.4 Correlation . . . . . . . . . . . . . . . . . . . . .
2.1.5 Droite de regression . . . . . . . . . . . . . . . .
2.1.6 Residus et valeurs ajustees . . . . . . . . . . . .
2.1.7 Variance de regression et variance residuelle . . .
2.2 La regression multivariee . . . . . . . . . . . . . . . . . .
2.2.1 Representation matricielle des donnees . . . . . .
2.2.2 Principe des moindres carres . . . . . . . . . . .
2.2.3 Valeurs ajustees et residus . . . . . . . . . . . . .
2.2.4 Variance de regression et variance residuelle . . .
2.2.5 Coefficient de determination . . . . . . . . . . . .
2.3 Matrice de variance-covariance et matrice de correlation
2.4 Correlations partielles . . . . . . . . . . . . . . . . . . .
2.5 Condition pour que la somme des residus soit nulle . . .
2.6 Decomposition en sommes de carres . . . . . . . . . . .
2.7 Regression avec les donnees centrees . . . . . . . . . . .
2.8 Retour au cas bivarie . . . . . . . . . . . . . . . . . . . .
2.8.1 Methode 1 . . . . . . . . . . . . . . . . . . . . .
2.8.2 Methode 2 . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

13
16
16
16
16
17
17
18
19
19
21
21
21
21
22
22
22
23
24
24
25
27
27
28

3 Rappel sur le calcul des probabilit


es, les variables al
eatoires, et linf
erence statistique 32
3.1 Probabilites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
enement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1.1 Ev
3.1.2 Axiomatique des Probabilites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.3 Probabilites conditionnelles et independance . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.4 Theor`eme des probabilites totales et theor`eme de Bayes . . . . . . . . . . . . . . . . . 33
3.2 Variables aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.2 Variables aleatoires discr`etes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.3 Variable aleatoire continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.4 Distribution bivariee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.5 Independance de deux variables aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.6 Proprietes des esperances et des variances . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.7 Autres variables aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2.8 Variable normale multivariee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 Inference statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.1 Modelisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.2 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.3 Tests dhypoth`eses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4 Le mod`
ele lin
eaire g
en
eral
4.1 Le mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Definition du mod`ele lineaire general . . . . . . . . . . . .
4.1.2 Hypoth`eses du mod`ele lineaire general . . . . . . . . . . .
4.1.3 Donnees observees, et formulation matricielle . . . . . . .
4.1.4 Autre presentation du mod`ele lineaire general . . . . . . .
4.2 Estimation du mod`ele . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Estimation par les moindres carres (ordinaires) . . . . . .
4.2.2 Estimateurs du maximum de vraisemblance . . . . . . . .
4.2.3 Proprietes des estimateurs du maximum de vraisemblance
4.2.4 Distribution de probabilite des estimateurs . . . . . . . .

143

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

43
43
43
43
43
44
44
44
47
47
48

4.2.5

Synth`ese des resultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

5 Inf
erence dans le mod`
ele lin
eaire
5.1 Intervalle de confiance sur un coefficient de regression
5.2 Test dun seul coefficient de regression . . . . . . . . .
5.2.1 Construction du test . . . . . . . . . . . . . . .
5.2.2 Mod`ele lineaire avec uniquement une constante
5.3 Tests de Wald sur les coefficients de regression . . . .
5.3.1 Test general dune contrainte lineaire . . . . . .
5.3.2 Test global des coefficients de regression . . . .
5.3.3 Test de Fisher sur un coefficient de regression .
5.4 Analyse de la variance `a un facteur . . . . . . . . . . .
5.4.1 Le probl`eme . . . . . . . . . . . . . . . . . . . .
5.4.2 Methode 1 . . . . . . . . . . . . . . . . . . . .
5.4.3 Methode 2 . . . . . . . . . . . . . . . . . . . .
5.5 Prevision ponctuelle dune valeur . . . . . . . . . . . .
5.5.1 Cas general . . . . . . . . . . . . . . . . . . . .
5.5.2 Cas bivarie . . . . . . . . . . . . . . . . . . . .
5.6 Exemple danalyse de la variance `a un facteur . . . . .
5.6.1 Les donnees . . . . . . . . . . . . . . . . . . . .
5.6.2 Les resultats . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

51
51
52
52
52
53
53
54
56
57
57
57
61
63
63
64
65
65
65

6 Multicolin
earit
e et choix des variables
6.1 La multicolinearite . . . . . . . . . . .
6.2 Detection de la multicolinearite . . . .
6.2.1 Le probl`eme . . . . . . . . . . .
6.2.2 Methode de Klein . . . . . . .
6.2.3 Test de Farrar et Glauber . . .
6.2.4 Facteur dinflation . . . . . . .
6.2.5 Coefficient de Theil . . . . . .
6.2.6 Resolution du probl`eme . . . .
6.3 Methodes de choix de variables . . . .
6.3.1 Methode Backward . . . . . . .
6.3.2 Methode Forward . . . . . . . .
6.3.3 Methode Stepwise . . . . . . .
6.3.4 Mise en garde . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

73
73
74
74
75
75
75
75
75
76
76
76
76
76

7 M
ethode des moindres carr
es g
en
eralis
es
7.1 Les hypoth`eses du mod`ele lineaire general . . . . . . . . . . . . .
7.2 La methode des moindres carres generalises . . . . . . . . . . . .
7.3 Estimateur des moindres carres generalises et projection oblique
7.4 Retour au moindres carres ordinaires . . . . . . . . . . . . . . . .
7.5 Methode du maximum de vraisemblance . . . . . . . . . . . . . .
7.6 Interet des moindres carres generalises . . . . . . . . . . . . . . .
7.7 Detection de lheteroscedasticite . . . . . . . . . . . . . . . . . .
7.7.1 Le probl`eme . . . . . . . . . . . . . . . . . . . . . . . . . .
7.7.2 Graphique des residus . . . . . . . . . . . . . . . . . . . .
7.7.3 Test de White . . . . . . . . . . . . . . . . . . . . . . . .
7.7.4 Test de Goldfeld-Quant . . . . . . . . . . . . . . . . . . .
7.8 Estimation avec heteroscedasticite . . . . . . . . . . . . . . . . .
7.8.1 Si la variance est connue . . . . . . . . . . . . . . . . . . .
7.8.2 Exemple de variance connue . . . . . . . . . . . . . . . . .
7.8.3 Si la variance est inconnue . . . . . . . . . . . . . . . . . .
7.9 Lautocorrelation des residus . . . . . . . . . . . . . . . . . . . .
7.10 Un exemple dautocorrelation . . . . . . . . . . . . . . . . . . . .
7.10.1 La modelisation . . . . . . . . . . . . . . . . . . . . . . . .
7.10.2 Definition du processus autoregressif dordre un . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

77
77
77
78
79
79
80
80
80
81
83
84
85
85
86
89
91
91
92
92

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

144

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

7.10.3 Exemples de processus autoregressifs . . . . . . . . . . .


7.10.4 Esperance et variance du processus autoregressif dordre
7.10.5 Processus sur un intervalle de temps fini . . . . . . . . .
7.10.6 Le test de Durbin-Watson . . . . . . . . . . . . . . . . .
7.11 Estimation avec des termes derreur autocorreles . . . . . . . .
7.11.1 Le mod`ele et estimation par les MCG . . . . . . . . . .
7.11.2 Cas o`
u est inconnu . . . . . . . . . . . . . . . . . . . .

.
1
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

. 93
. 95
. 96
. 98
. 100
. 100
. 101

8 Variables instrumentales et
equations simultan
ees
8.1 Erreurs sur la variable explicative . . . . . . . . . . . . . . . . .
8.2 Variables instrumentales . . . . . . . . . . . . . . . . . . . . . .
8.3 Doubles moindres carres . . . . . . . . . . . . . . . . . . . . . .
8.4 Cas o`
uq=p . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.5 Application `a leconomie . . . . . . . . . . . . . . . . . . . . . .
8.5.1 Un exemple : le mod`ele keynesien . . . . . . . . . . . . .
8.5.2 Estimation par la methode des moindres carres indirects
8.5.3 Estimation par la methode des variables instrumentales
8.6 Methodes destimation . . . . . . . . . . . . . . . . . . . . . . .
8.6.1 Moindres carres indirects (MCI) . . . . . . . . . . . . .
8.6.2 Doubles moindres carres (2MC) . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

108
108
108
109
110
110
110
111
112
116
116
116

9 Mod`
eles `
a choix discret
9.1 Mod`eles probit, logit et `a probabilite lineaire .
9.1.1 Le mod`ele . . . . . . . . . . . . . . . . .
9.1.2 Choix de la fonction F (.) . . . . . . . .
9.1.3 Remarques sur la fonction F (.) . . . . .
9.1.4 Estimation par les moindres carres . . .
9.1.5 Methode du maximum de vraisemblance
9.1.6 Interpretation selon une variable latente

9.1.7 Evaluation
de la qualite du mod`ele . . .
9.2 Analyse discriminante . . . . . . . . . . . . . .
9.2.1 Le mod`ele . . . . . . . . . . . . . . . . .
9.2.2 La r`egle bayesienne . . . . . . . . . . . .
9.2.3 Le mod`ele multinormal . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

119
119
119
120
120
121
121
122
122
123
123
123
123

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

10 Exercices r
ecapitulatifs

125

11 Tables statistiques

130

145

Index
analyse
de la variance `a un facteur, 57
des variables, 16
discriminante, 123
application lineaire, 5, 9
autocorrelation des residus, 91
autocovariance, 96
base
canonique, 3
dun sous-espace vectoriel, 3
bruit blanc gaussien, 93
coefficient
dautocorrelation, 92
de correlation
multiple, 22
partielle, 23
de determination, 19
regression multivariee, 22
de Theil, 75
combinaison lineaire
de deux matrices, 5
de deux vecteurs, 2
complementaire dun evenement, 32
correlations partielles, 23
correlation, 17
coefficient, 17
coefficient de determination, 17
covariance, 17
derivation dune application
lineaire, 12
derivation dune forme
lineaire, 12
quadratique, 13
determinant, 8
dimension dun sous-espace vectoriel, 4
distance entre deux vecteurs, 4
distribution
bivariee, 37
conditionnelle, 38
de probabilite, 34
de probabilite des estimateurs, 48
marginale, 37
normale multivariee, 39
droite de regression, 18
ecart-type marginal, 17

equations simultanees, 108


erreur
de deuxi`eme esp`ece, 41
de premi`ere esp`ece, 41
esperance
dune variable
binomiale, 35
de Poisson, 35
indicatrice, 34
dune variable aleatoire continue, 36
espace
euclidien, 4
norme, 4
vectoriel, 2
estimateur
convergent, 48
des moindres carres generalises, 78
du maximum de vraisemblance, 47
efficace, 47
par les variables instrumentales, 109
projecteur oblique, 78
sans biais, 47
estimation
avec des termes derreur, 100
par les moindres carres (ordinaires), 44
evenements, 32
independants, 33
mutuellement exclusifs, 32
experience aleatoire, 32
facteur dinflation, 75
fonction
de densite
conditionnelle, 37
dune variable aleatoire continue, 36
marginale, 37
de repartition
dune variable aleatoire continue, 36
jointe, 37
de score, 124
de vraisemblance, 47
forme
lineaire, 9
quadratique, 9
gradient, 12
heteroscedasticite

146

detection, 80
estimation avec, 85
homoscedasticite, 43
image dune matrice, 10
independance, 38
inference statistique, 32, 40
intervalle de confiance, 41
methode
Backward, 76
de Klein, 75
des moindres carres generalises, 77
du maximum de vraisemblance, 79
Forward, 76
Stepwise, 76
matric
rang, 7
matrice, 5
carree, 6
definie positive, 9
determinant, 8
de plein rang, 44
de projection, 11
de variance-covariance, 22
des correlations, 23
des variables explicatives, 57
diagonale, 6
idempotente, 10, 11, 78
trace, 12
identite, 7
image, 10
inverse generalisee, 73
de Moore-Penrose, 73
inversible, 7
irreversible, 7
noyau, 10
orthogonale, 9
produit dune matrice et dun vecteur, 6
proprietes, 8
pseudo-inverse, 73
semi-definie positive, 9
sous-espace, 10
symetrique, 6
trace, 7
transposition, 6
valeurs propres, 9
vecteurs propres, 9
modelisation, 40, 92
mod`ele
`a choix discret, 119
de probabilite lineaire, 120
forme reduite, 110
lineaire general, 43
definition, 43
hypoth`eses, 43
logit, 120

multinormal, 123
probit, 120
moindres carres, 16
doubles, 109, 116
generalises, 77
estimateur, 78
interet, 80
methode, 77
indirects, 116
ordinaires
estimateur, 78
principe, 18, 21
moyenne, 16
conditionnelle, 38
marginale, 17, 37
multicolinearite, 44, 73
multiplication par un scalaire, 2
norme, 4
noyau dune matrice, 10
orthogonal dun sous-espace vectoriel, 5
param`etres marginaux, 17
prevision ponctuelle dune valeur, 63
principe des moindres carres, 18
regression multivariee, 21
probabilite, 33
processus autoregressif dordre un, 92
produit
dune matrice et dun vecteur, 5
matriciel, 6
scalaire, 4
projecteur oblique, 12
projection, 4, 10
orthogonale, 10
dans limage, 11
dans le noyau, 11
puissance dun test, 41
regression, 18
donnees centrees, 25
droite de regression, 18
multivariee, 21
variance de regression, 19
residus, 19
graphique, 81
r`egle bayesienne, 123
rang dune matrice, 7
representation
graphique de deux variables, 16
matricielle des donnees, 21
serie statistique bivariee, 16
scalaire, 2
somme des carres
des residus, 25
expliquee par la regression, 24
147

inter-groupes, 60, 63
intra-groupes, 60, 63
totale des ecarts `a la moyenne, 24
sous-espace vectoriel, 3
base, 3
base canonique de R, 3
dimension, 4
orthogonal, 5
syst`eme generateur, 3
statistique
dAnderson, 124
exhaustive, 48
syst`eme
complet devenements, 33
generateur dun sous-espace vectoriel, 3
terme derreur, 4345, 48, 49, 57, 67, 71, 7779, 86,
87, 92, 100, 101, 106, 107
test
dhypoth`eses
composites, 41
simples, 41
dun seul coefficient de regression, 51, 52
de Durbin-Watson, 98
de Farrar et Glauber, 75
de Fisher sur un coefficient de regression, 56
de Goldfeld-Quant, 84
de Wald sur les coefficients de regression, 53
de White, 83
global sur les coefficients de regression, 54
theor`eme
de Bay`es, 33
de diagonalisation, 9
de Gauss-Markov, 45
generalise, 78
de Pythagore, 4
des probabilites totales, 33
des trois perpendiculaires, 12
trace dune matrice, 7
idempotente, 12
transposition, 2

indicatrice, 34
instrumentale, 108
khi-carree, 39
latente, 122
methodes de choix, 76
normale, 37
multivariee, 39
uniforme, 36
variance, 16
conditionnelle, 38
dune variable
binomiale, 35
de Poisson, 35
indicatrice, 34
dune variable aleatoire continue, 36
de regression, 19
regression multivariee, 22
marginale, 17, 20, 37
residuelle, 20
regression multivariee, 22
vecteur
colonne, 2
des residus, 22
des valeurs ajustees, 21
ligne, 2
projection, 4
vecteurs, 2
lineairement independants, 3
orthogonaux, 4
propres, 9

valeurs
ajustees, 19
propres, 9
dune matrice idempotente, 11
variable, 32
aleatoire, 34
discr`ete, 34
independante, 38
bernoullienne, 34
binomiale, 35
de Fisher, 39
de Poisson, 35
de Student, 39
endog`ene, 110
exog`ene, 110
148