Vous êtes sur la page 1sur 7

La multicolinearite

La multicolinearite parfaite versus imparfaite

Anne Plunket

1.1

La multicolinearite parfaite
X1i = 0 + 1X2i
Yi = 0 + 1X1i + 2X2i + i
X1i = 3X2i ou X1i = 6 + X2i ou X1i = 2 + 4X2i

www.adislab.net

(1)
(2)
(3)

X1

Un exemple :
int = irt + inft = irt +
int le taux dinteret nominal en t

(4)

irt le taux dinteret reel en t

X2
Figure 1:

La multicolinearite parfaite

inft le taux dinflation en t


le taux constant dinflation
La question est alors quelle est la consequence de la multicolinearite parfaite sur lestimation e conometrique. La methode
des MCO est incapable de donner une estimation des coefficients
de la regression, et le programme informatique donnera un message derreur.
(5)
k = indetermine ET (k ) =

1.2

La multicolinearite imparfaite

X1i = 0 + 1X2i + ui

Les consequences de la multicolinearite : Estimation des coefficients et significativite

1. Les estimations sont non biaisees

X1

2. Les variances et e cart-types des estimations vont augmenter.


On peut montrer que lecart-type dun coefficient de la regression
secrit



 2


ei /(n k 1)

ET (1) = s1 = 

2 )
1)2(1 r12
(X1i X

En cas de multicolinearite, la correlation entre X1 et X2 qui


2
) sera petit et
secrit r12 sera tr`es forte. Dans ce cas, (1 r12
par consequent ET (1) sera e levee. Ainsi, la multicolinearite
conduit a` accrotre lecart type et la variance des coefficients

X2

Figure 2:

La multicolinearite imparfaite

par rapport a` une situation sans multicolinearite.


En fait, ce resultat provient de la definition du coefficient
k = (X X)1X y

(6)

deux variables. Et donc on peut ree crire la variance :


s2k =

(7)

Si on note Rk2 , le R2 de la regression de xk sur toutes les autres


variables; et Skk , est la variation de la ki`eme variable autour de
2
, la correlation entre les
sa moyenne; si k = 2 alors Rk2 = r12

dont la matrice de variance covariance des coefficients k


secrit
(8)
2(X X)1

1
or le k i`eme e lement de la diagonal de (X X) secrit
1
(9)
(1 Rk2 )Skk

2
2
=
2 ) (x x
2 )s
(1 r12
k )2 (1 r12
ik
kk


(10)

plus la correlation Rk2 est forte et plus sa variance sera e levee.


Dans le cas extreme xk est une combinaison lineaire, autrement
dit Rk2 = 1, s2
plus Rk2 est grand et plus e levee est la variance de du fait
de la multicolinearite
plus Skk (variation de xk ) est grande et plus petite sera la
variance de k
meilleur est lajustement, + petit est 2 est plus faible est la
variance

3. La valeur du t du Student calculee sera plus faible.


(k H0 )
tc =
sk

Sans multicollinearite
sev`ere

sk plus e leve, le resultat est un t calcule plus faible, do`u tc <


t/2 do`u risque daccepter H0 a` tort.

Avec une forte


multicollinearite

10

Figure 3:

On suppose que lon a des donnees sur un petit nombre detudiants

Exemples de multicolinearite

Supposons que lon veuille estimer la fonction de consommation


detudiants. Apr`es une e tude preliminaire, on determine la fonction suivante :
(12)

COi : la consommation annuelle du i`eme e tudiant sur des depenses


autres que les frais de scolarite, le logement et alimentation
LAi : actifs liquides (epargnes, etc.) du i`eme e tudiant
i : un terme derreur

12

11

avec

Y di : le revenu disponible annuel de letudiant

4. Lestimation devient sensible aux changements de specification.


5. La significativite globale de lequation et lestimation des coefficients des variables non multicolineaires seront largement non
affectees.
un signe de risque de multicolinearite serait des t calcules faibles
2 e leve.
donc peu significatifs et un R

La multicolinearite imparfaite

COi = f (Y di, LAi) + i = 0 + 1Y di + 2LAi + i

(11)

Etudiant
1
2
3
4
5
6
7

COi
2000
2300
2800
3800
3500
5000
4500

Y di
2500
3000
3500
4000
4500
5000
5500

LAi
25000
31000
33000
39000
48000
54000
55000

La methode des moindres carres ordinaires sur cet e chantillon


donne les resultats destimation suivants :
i = 376, 83 + 0, 5113 Y di + 0, 0427 LAi
CO
(1,0307)

t = 0, 496
2 = 0, 835
R

Prenons un autre exemple. Supposons que lon cherche a` e tudier


la consommation dessence dans differentes regions. Lequation
testee est la suivante :
ESCONi = f (KM AU T Oi, T AXi, DECi) + i

(0,0942)

t = 0, 453
ryd,LA = 0, 986

avec
ESCONi : Consommation dessence dans la i`eme region

14

13

Si lon omet une variable on obtient :


i = 471, 43 + 0, 9714 Y di
CO

KM AU T Oi : Km de routes et autoroutes dans la i`eme region


T AXi : le taux de taxe sur lessence dans la i`eme region

(0,157)

DECi : le nombre de declaration de vehicules a` la prefecture


dans la i`eme region.

t = 6, 187
2 = 0, 861
R

Lestimation donne les resultats suivants :


ESCON i = 389, 6 + 60, 8 KM AU T Oi


2 = 0, 919
R

(t=5,92)

36, 5 T AXi 0, 061 DECi


(t=2,77)

4.1

(t=1,43)

53, 6 T AXi + 0, 186 DECi


(t=3,18)

(t=15,88)

Coefficients de correlation simple e leves. Le test de Klein

2
il y a une presomption de multicolinearite.
Si R2 < rxi,xj

4.2

Le facteur dinflation de la variance e leve VIF

16

15

2 = 0, 861
R

Test de detection dune multicolinearite

Que se passe-t-il si on omet une des variables collineaires?



ESCON
i = 551, 7

(13)

Y = 0 + 1X1 + 2X2 + . . . + k Xk + 
Il faut donc calculer k differents VIF, pour chaque Xi. Pour chaque
variable, il faut suivre les trois e tapes suivantes :
Faire une regression des MCO de Xi en fonction des autres
variables explicatives de lequation.

Une r`egle habituelle propose que si V IF (i) > 5, on peut dire que
la multicolinearite est sev`ere.
Certains logiciels deconometrie remplace le VIF par sa reciproque
(1 Ri2 ) appelee tolerance ou TOL.

Par exemple pour X1,


X1 = 1 + 2X2 + 3X3 + . . . + k Xk + v

(14)

v est un terme derreur.


Calculer le VIF pour 1
1
(1 Ri2 )

(15)
18

17

V IF (1) =

o`u Ri2 est le coefficient de determination de la regression auxiliaire de letape 1.


Analyser le degre de multicolinearite par levaluation de la taille
du V IF (i).

2 = 0, 861
R
Si lon omet Y d on obtient :
i = 199, 44 + 0, 08876 LAi
CO

Remedier a` la multicolinearite

1. Ne rien faire
2. Omettre une variable redondante Dans le cas de la consommation des e tudiants on avait :
i = 376, 83 + 0, 5113 Y di + 0, 0427 LAi
CO
(0,0942)

t = 0, 453

Si lon omet LA on obtient :


i = 471, 43 + 0, 9714 Y di
CO
(0,157)

t = 6, 187

20

19

(1,0307)

t = 0, 496
2 = 0, 835
R

(0,01443)

t = 6, 153
2 = 0, 860
R
3. Transformer les variables multicolineaires
(a) Former une combinaison des variables multicolineaires.
(16)
Yi = 0 + 3X3i + i = 0 + 3(X1i + X2i) + i
(b) Transformer lequation en utilisant un decalage dans le temps
dune periode; par exemple, Xt = Xt Xt1.
4. Accrotre la taille de lechantillon

Fiche de TD 1 : la multicolinearite

. use http://www.ats.ucla.edu/stat/stata/webbooks/reg/elemapi2, clear


. describe

Il sagit dun fichier qui donne les performances academique des


e coles (api00).
On cherche a` expliquer ces performances par un certain nombre de
variables telles que :
22

21

le nombre moyen denfants par classe en maternelle (acs k3),


le niveau deducation des parents (avg ed),
le pourcentage des parents ayant le niveau lycee (grad sch),
le pourcentage des parents ayant un diplome universitaire (col grad),
le pourcentage de parents qui ont e te a` luniversite (some col).

hsg
some_col
col_grad
grad_sch
avg_ed
full
emer
enroll
mealcat

byte
byte
byte
byte
float
byte
byte
int
byte

%4.0f
%4.0f
%4.0f
%4.0f
%9.0g
%8.2f
%4.0f
%9.0g
%18.0g

collcat

float

%9.0g

mealcat

parent hsg
parent some college
parent college grad
parent grad school
avg parent ed
pct full credential
pct emer credential
number of students
Percentage free meals in 3
categories

. pwcorr

api00 acs_k3 avg_ed grad_sch col_grad some_col, star(.05)

|
api00
acs_k3
avg_ed grad_sch col_grad some_col
-------------+-----------------------------------------------------api00 |
1.0000
acs_k3 |
0.1710* 1.0000
avg_ed |
0.7930* 0.0794
1.0000
grad_sch |
0.6332* 0.0983* 0.7973* 1.0000
col_grad |
0.5273* -0.0174
0.8089* 0.4439* 1.0000
some_col |
0.2615* 0.0915
0.3031* 0.0718
0.1555* 1.0000
24

23

-----------------------------------------------------------------------------

Contains data from http://www.ats.ucla.edu/stat/stata/webbooks/reg/elemapi2.dta


obs:
400
vars:
22
9 Feb 2002 01:28
size:
15,200 (98.5% of memory free)
------------------------------------------------------------------------------storage display
value
variable name
type
format
label
variable label
------------------------------------------------------------------------------snum
int
%9.0g
school number
dnum
int
%7.0g
dname
district number
api00
int
%6.0g
api 2000
api99
int
%6.0g
api 1999
growth
int
%6.0g
growth 1999 to 2000
meals
byte
%4.0f
pct free meals
ell
byte
%4.0f
english language learners
yr_rnd
byte
%4.0f
yr_rnd
year round school
mobility
byte
%4.0f
pct 1st year in school
acs_k3
byte
%4.0f
avg class size k-3
acs_46
byte
%4.0f
avg class size 4-6
not_hsg
byte
%4.0f
parent not hsg

. regress

api00 acs_k3 avg_ed grad_sch col_grad some_col

Source |
SS
df
MS
-------------+-----------------------------Model | 5056268.54
5 1011253.71
Residual | 2623191.21
373 7032.68421
-------------+-----------------------------Total | 7679459.75
378 20316.0311

Number of obs
F( 5,
373)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

379
143.79
0.0000
0.6584
0.6538
83.861

. vif
Variable |
VIF
1/VIF
-------------+----------------------

_cons |
283.7446
70.32475
4.03
0.000
145.4848
422.0044
------------------------------------------------------------------------------

27

Variable |
VIF
1/VIF
-------------+---------------------col_grad |
1.28
0.782726
grad_sch |
1.26
0.792131
some_col |
1.03
0.966696
acs_k3 |
1.02
0.976666
-------------+---------------------Mean VIF |
1.15

. regress

26

25

-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 |
11.45725
3.275411
3.50
0.001
5.016669
17.89784
avg_ed |
227.2638
37.2196
6.11
0.000
154.0773
300.4504
grad_sch | -2.090898
1.352292
-1.55
0.123
-4.749969
.5681735
col_grad | -2.967831
1.017812
-2.92
0.004
-4.969199
-.9664626
some_col | -.7604543
.8109676
-0.94
0.349
-2.355096
.8341872
_cons | -82.60913
81.84638
-1.01
0.313
-243.5473
78.32904
------------------------------------------------------------------------------

. vif

avg_ed |
43.57
0.022951
grad_sch |
14.86
0.067274
col_grad |
14.78
0.067664
some_col |
4.07
0.245993
acs_k3 |
1.03
0.971867
-------------+---------------------Mean VIF |
15.66
api00 acs_k3 grad_sch col_grad some_col

Source |
SS
df
MS
-------------+-----------------------------Model | 4180144.34
4 1045036.09
Residual | 3834062.79
393 9755.88497
-------------+-----------------------------Total | 8014207.14
397 20186.9197

Number of obs
F( 4,
393)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

398
107.12
0.0000
0.5216
0.5167
98.772

-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 |
11.7126
3.664872
3.20
0.002
4.507392
18.91781
grad_sch |
5.634762
.4581979
12.30
0.000
4.733936
6.535588
col_grad |
2.479916
.3395548
7.30
0.000
1.812345
3.147487
some_col |
2.158271
.4438822
4.86
0.000
1.28559
3.030952