Vous êtes sur la page 1sur 12

CHAPITRE 2

MODELES DE REGRESSION MULTIPLES

2.1

Prsentation

Un modle de rgressions multiple est un modle linaire avec une variable expliquer et plusieurs
variables explicatives. Cest une gnralisation des modles simples. Cette gnralisation permet
de se rapprocher plus des ralits conomiques complexes. Pour faciliter linduction statistique,
ces modles et leurs hypothses sont mis sous forme matricielle.

2.1.1

Ecriture Matricielle du Modle

yi = 1 + 2 xi2 + 3 xi2 + ... k xik + ei i = 1, 2...n

y1 = 1 + 2 x12 + 3 x13 + . . . k x1k + e1

y = 1 + 2 x22 + 3 x23 + . . . k x2k + e2

2
y3 = 1 + 2 x32 + 3 x33 + . . . k x3k + e3

..

yn = + xn2 + xn3 + . . . xnk + en


1
2
3
k

y1
1 x12 x13 x1k

y2
1 x22 x23 x2k

..

y3
= 1 x32 x33 . x3k

.
. .

.
.
.

.
. .

..
..
..

.
.
.

yn
1 xn2 xn3 . . . xnk
(n,1)

(n,k)

15

..

(k,1)

e1

e2

e3

..

en

(n,1)

Y = X +

CHAPITRE 2. MODELES DE REGRESSION MULTIPLES

16

o Y =

X=

catives

1
1
1
..
.
1
..
.
1

y1

y2

y3
=vecteur de dimension (n, 1) des observations de la variable expliquer
..

yn

x12 x13 ... x1j ... x1k

x22 x23 ... x2j ... x2k

x32 x33 ... x3j ... x3k

..
..
..
..
.
.
.
.
=matrice de dimension (n, k) des variables expli

xi2 xi3 ... xij ... xik

..
..
..
..
.
.
.
.

xn2 xn3 ... xnj ... xnk

3
=vecteur des paramtres de dimension (k, 1)
..

e1

e2

=
e3 vecteur des erreurs de dimension (n, 1)
.
.
.

n
k =nombre des paramtres estimer et n =nombre dobservations.

2.1.2

Hypothses du Modle

On considre les mme hypothses des modles simples quon met sous forme matricielle et on
ajout lhypothse que les variables explicatives ne sont pas corrles.
Hypothse-1 (H1) hypothse de linarit : Le vecteur des observations de la variable expliqu
est une fonction linaire des de la matrice des variables explicative : Y = X +

2.2. ESTIMATION : MTHODE MCO

17

E(e1 )

E(e2 )

Hypothse-2 (H2) Le terme derreur est un bruit blanc E() =


=0
..

E(en )

2 0 0 ... 0 ... 0

0 2 0 ... 0 ... 0

2
0 0 ... 0 ... 0

.
..
.. . .
..
..
2

.
Hypothses(H3) & (H4) : var() = I n = .
. .
.
.
.

0 0 0 ... 2 ... 0

..
..
.. . .
..
..
. .
.
.
.
.

2
0 0 0
0 ...

avec I n est la matrice identit dordre n

Hypothse-5 (H5) Les variables explicative X2 , X3 ...Xk sont non alatoires

Hypothse-6 (H6) :le vecteur des erreurs est un vecteur normale :


N (0, 2 I n )
Hypothse-7 (H7) : Les variables explicatives X2 , X3 ...Xk sont linairement indpendantes.
Cet absence de colinarit implique essentiellement que la matrice XX est de plein rang et donc
inversible. Si cet hypothse nest pas vrie on parle de multicolinarit ??

2.2

Estimation : Mthode MCO

2.2.1

Vecteur des Paramtres Estims


n

Le principe de la mthode MCO consiste toujours Min


i=1

e2i , la rsolution du problme sur la

base de lcriture matricielle du modle donne :

= (X X)

X Y

(2.1)

Proprits Mathmatiques
X = 0

X j = 0 , j = 1, 2...k o X j est la jime colonne de la matrice X et qui correspond aux


observations de la jme variable explicative.

Le premier vecteur de X est X 1 = (1, 1, 1...) = o est le vecteur unitaire

CHAPITRE 2. MODELES DE REGRESSION MULTIPLES

18
Y =Y

X X (k,k)

X Y (k,1)

xi2

xi3

...

xij

...

xik

xi2

x2i2

xi2 xi3

...

xi2 xij

...

xi2 xik

xi3
..
.

xi2 xi3
..
.

x2i3
..
.

...
..
.

xij xi3
..
.

...

xi3 xik
..
.

xij
..
.

xi2 xij
..
.

xij xi3
..
.

...

x2ij
..
.

...
..
.

xij xik
..
.

xik

xi2 xik

xi3 xik

xij xik

...

x2ik

yi

xi2 yi

xi3 yi

..

xij yi

..

xik yi

1 = Y
c

c 1

= (X X ) X Y


3
c(k1,1) = .
..


y1 Y


y2 Y

Y n,1 = y3 Y
=


..


yn Y

et

y1c
y2c
y3c
..
.
ync

jX j
j=2

avec

2.2. ESTIMATION : MTHODE MCO

Xc(n,k1)

19

x12 X 2 x13 X 3 ... x1j X j ... x1k X k

x22 X 2 x23 X 3

x32 X 2 x33 X 3

..
..
==
.
.

xi2 X 2 xi3 X 3

..
..

.
.

xn2 X 2 xn3 X 3

xc xc13 ... xc1j


12
c
x22 xc23 ... xc2j

c
c
c
x
32 x33 ... x3j
.
..
..
.
=
.
.
.

c
xi2 xci3 ... xcij

..
..
..
.
.
.

xcn2 xcn3 ... xcnj

... x2j X j ... x2k X k


... x3j X j ... x3k X k
..
..
.
.
... xij X j
..
.

... xik X k
..
.

... xnj X j ... xnk X k

c
... x1k

c
... x2k

... xc3k

..
.

c
... xik

..
.

c
... xnk

avec Y et X j , j = 2,3...k sont les moyennes des variables

(X X )(k1,k1)

X c Y c(k1,1)

2.2.2

xc2
i2

xci2 xci3

xi2 xi3
..
.

xc2
i3

..
.

xci2 xcij
..
.

xcij xci3
..
.

xci2 xcik

xci3 xcik

...

xci2 xcij

...

xci2 xcik

...
...

xcij xci3

...

xci3 xcik

...

xc2
ij
..
.

...
...

xcij xcik
..
.

xcij xcik

...

xc2
ik

..
.

..
.

xci2 yic

..

xcij yic

..

c c
xik yi
xci3 yic

Proprits des Estimateurs MCO

Le thorme de Gauss-Markov qui tablis les proprits des estimateurs MCO pour un modle
simple (section ??) est aussi valable pour les modles multiples. Cest dire que lestimation des

CHAPITRE 2. MODELES DE REGRESSION MULTIPLES

20

modles multiples par la mthode MCO donne des estimateurs linaires, sans biais convergents et
relativement ecaces (BLUE).
Linarit : Le vecteur estim est fonction linaire de Y : = AY ou la matrice est A =
(X X)

Non Biais : E() =

= CY
Ecacit : On considre un autre estimateur linaire sans biais de :
:
E() =

On dmontre que var() var() est une matrice semi-dnie positive alors est plus ecace
que
On note que
var( ) = 2 (X X)
c

var( ) = 2 (X c X c )

2.3

(2.2)
(2.3)

Validation Statistique

2.3.1

Test de Signicativit Individuelle et Intervalle de Conance

Comme pour les modles simples, on a les rsultats suivants :


N( j , 2 ) pour j = 1, 2...k

e2i

2
j j

2 (n k)

T (n k)

H0 : = 0
j
j
Pour le test
la rgle de dcision : on rejette H0 si
> t1/2
H : =0
j
1
j
Lintervalle de conance est IC1 ( j ) = j t1/2 j

2.3.2

Analyse de la Variance

La variation totale de Y est mesure par la somme des carrs des carts sa moyenne :
n

SCT =

yi Y
i=1

. La variation explique par X correspond la variation de Y , cest la

2.3. VALIDATION STATISTIQUE

21
n

somme des carrs des carts des valeurs estimes la moyenne estime :

SCE =

(yi Y )2

i=1

. La

variance explique par lalea correspond la variance du vecteur des rsidus :


n

SCT =

yi Y
i=1
n

SCE =
i=1

= Y c Y c = Y Y nY

2
c

(yi Y )2 = Y c Y c = Y Y nY = X c X c

i=1
n

SCR =

e2i =

SCT = SCE + SCR

2.3.3

Test de Signicativit Globale

Le test de signicativit globale consiste tester la validit du modle dans son ensemble. Il
sagit de tester sil existe au moins une variable signicative. Ceci revient tester :

H0 : = = ... = 0
H0 : c = 0
2
3
k

H : c = 0
H : j {2...k} tq = 0
1
1
j

Ce test est un cas particulier des tests de systmes de contraints Linaires sur les paramtres.

Ainsi on prsent dabord ces tests de contraints pour dduire ensuite la rgle de dcision pour le
test de signicativit globale.

Test dun Systme de Contraints Linaires sur les Paramtres


On considre le modle yi = 1 + 2 xi2 + 3 xi2 + ... k xik + ei i = 1, 2...n, et soit R une matrice
q lignes et k colonnes et r est un vecteur q lments, on cherche tester le systme q contraints
suivant :
H0 : R = r
Sous lhypothse de normalit des erreurs, lestimateur MCO du vecteur est un vecteur normale :

N (, 2 (X X) )

(2.4)

Il dcoule que sous lhypothse H0 : R = r


W = R r

R 2 (X X)

R r

2 (q)

(2.5)

CHAPITRE 2. MODELES DE REGRESSION MULTIPLES

22

la variance 2 tant inconnue, on ne peut pas utiliser la fonction de lquation??, mais, sachant
e2i
SCR
W/q
que
=
2 (n k) alors on dduit
F (q, n k) do
2
2
SCR

/(n k)
2
R r

R (X X)1 R

F =

R r /q
F (q, n k)

SCR/(n k)

(2.6)

Lorsque on considre le modle centr :Y c = X c c + , pour tester H0 : R c = r la rgle de


dcision au risque , consiste rejeter H0 si F > f1 (q, n k)
Test de Signicativit Globale
Lhypothse de base pour le test de signicativit globale est : H0 : c = 0 H0 : R c = r, o
R = Ik1 , r = 0 et q = k 1. Alors on peut utiliser la statistique par lquation?? en remplaant
ces lments :
c
R r
F =

R (X c X c )1 R

R r /q

(X c X c ) /(k 1)
SCE/(k 1)
=
=
SCR/(n k)
SCR/(n k)
SCR/(n k)
Ainsi, pour tester la signicativit globale dun modle de rgression on rejette H0 (le modle
SCE/(k 1)
est globalement signicatif), si Fcal =
> f1 (k 1, n k) .
SCR/(n k)

Pouvoir Explicative des modles multiples


Dnition-1 : Le pouvoir explicative dun modle multiple est la part de la variance de Y
SCE
expliquer par le modle, il est mesure par le coecient de dtermination R2 =
SCT
(n 1) (1 R2 )
2
Dnition-2 :Le coecient de dtermination ajust R = 1
tient compte du
(n k)
nombre de variables. En eet, le principal dfaut du R2 est de crotre avec le nombre de variables
explicatives. Or, on sait quun excs de variables produit des modles peu robustes. Le coecient de
dtermination ajust tient compte du nombre de variables. Cest pourquoi on sintresse davantage
cet indicateur quau R2 notamment pour comparer deux modles qui nont pas le mme nombre
de variables explicatives.
Remarques :
1. Fcal =
2

R2 (n k)
1 R2 (k 1)

2. R ajust est toujours infrieur au R2

2.4. PRVISION

2.4

23

Prvision

La valeur de Y la priode t > T est donne par :ytp = 1 + 2 xpt 2 + 3 xpt 3 + ... k xpt k +
ept =Xtp + ept ou Xtp = [1, xpt 2 , xpt 3 ...xpt k ] . La valeur prvisionnelle de Y et lerreur de prvision
sont respectivement :
ytp = Xtp

(2.7)

ept = ytp ytp

(2.8)

Si le modle est estim par la mthode MCO, les prvisions seront sans biais : E(ept ) = 0
E(ept ) = E(ytp ytp ) = E Xtp ept = 0
La prvision par intervalle de conance utilise, comme pour les modles simples le fait que :
ytp ytp
T (n 2) alors
2ep
t

IC1 (ytp ) = ytp t1/2 2ep

(2.9)

o 2ep = var(ept ) = var Xtp ept = var Xtp


t

+ var (ept )

= Xtp var (Xtp ) + var (ept ) = 2 Xtp (X X)1 (Xtp ) + 1 .

CHAPITRE 2. MODELES DE REGRESSION MULTIPLES

24

Srie 2: Modles de Rgression Multiples

EXERCICE 1
Sur la base de 25 observations on a les rsultats suivants
yt Y

= 20

xt2 X 2

xt2 X 2

yt Y = 30

xt2 X 2

xt3 X 3 = 35

= 50

xt3 X 3

yt Y

xt3 X 3 = 45

Y =3

X2 = 6

= 65

X3 = 3

1. Estimer par le MCO les paramtres du modle yt = 1 + 2xt2 + + 3 xt3 + t , t. = 1, 2...25


2. Calculer R2 et R2
3. Tester la signicativit individuelles des variables
4. Tester la signicativit globale du modle des variables
5. Tester si les eets de deux variables somment lunit.
6. Dterminer la part de X3 dans lexplication de la variation de Y
Exercice 2
On considre le modle linaire : yt = 1 +xt2 ++ 3 xt3 + t , t. = 1980, 1981, ......2009. Sachant :
V (Y ) = 270, Cov(Y, X2 ) = 20, Cov(Y, X3 ) = 75, V (X2 ) = 8, V (X3 ) = 25, Cov(X2 , X3 ) = 10
Y = 600, X 2 = 5, X 3 = 25
1. Mettre le modle sous forme matricielle en spciant les dimensions des matrices
2. Estimer ce modle par la mthode des MCO
3. Dterminer la variance estime des rsidus : 2
4. Donner lexpression de la matrice estime des variances-covariances de = ( 1 , 2 , 3 )
c

5. Dterminer la matrice estime des variances-covariances de = ( 2 , 3 ) et var( 1 )


6. Dterminer un intervalle de conance au niveau 95% pour 2 . Ce coecient est-il signicatif
au risque de 5%.

2.4. PRVISION

25

Exercice 3
On considre le modle M : yi = 1 + 2 xi2 + + 3 xi3 + i i = 1, 2....100, o Y =salaire nominal ;
X2 = exprience professionnelle X3 = niveau
dinstruction.
Les donnes relatives aux variables

64 4
;
explicatives sont rsumes par X c X c =
4 1
Lquation estime du modle M est M : yi = 258, 5 + 25, 4xi2 + 185, 9xi3
(13,01)

(1,30)

i = 1, 2...100

(10,41)

Les valeurs entre parenthses sont les carts-types estims des paramtres
1. Donner une interprtation conomique de la valeur estime de 1 .
2. Estimer la variance des rsidus.
3. Calculer le coecient de dtermination du modle.
4. Quelle est la valeur anticipe du salaire dun employer qui a 10 ans dexprience professionnelle et dont le niveau dinstruction est gale 3 (niveau suprieur)

Exercice 3
Partie I
On se propose didentier les facteurs dterminants dans lvolution de la consommation dessence. On utilise des donnes annuelles allant de 1980 2006 relatives aux variables suivantes :
Y : La consommation dessence en terme rel ;
X2 : Lindice du prix de lessence ;
X3 : Lindice des prix des nouvelles voitures ;
X4 : Lindice des prix des biens durables :X4
X5 : Revenue relle disponible ;

Les donnes relatives ses variables son rsumes par (X c X c )1

846

339

, X c Y c =
, Y c Y c = 50000
193

1560

0, 708 2, 555 10, 233

30, 482 84, 730

= 102

259, 490

CHAPITRE 2. MODELES DE REGRESSION MULTIPLES

26

1. Estimer et tester au risque de 5% la signicativit des coecients des variables explicatives


2. Juger conomiquement ces coecients
3. Tester lhypothse quune augmentation des prix des biens durables est quivalente une
baise de revenue disponible

= 4 2

3
4. Tester au risque de 10% le systme des contraints suivant : H0 :
7 3 + 4 = 1

2 + 3 = 4
Partie II

On se propose de savoir si les prix du transport public ont un eet sur la consommation
dessence ; on ajoute lindice des prix du transport public (X6 ) comme variable explicative
au modle prcdent. Le rsultat destimation est
c
5. (a) Tester la signicativit globale du modle
(b) Calculer le coecient de dtermination de la deuxime rgression
(c) Dresser le tableau danalyse de la variance
6. Calculer la part de X5 dans lexplication du modle
7. Est-ce que lajout de la variable X5 amliore la qualit dajustement du modle
8. Tester si cette amlioration est signicative