Vous êtes sur la page 1sur 16

Universit Lyon 2

Laboratoire ERIC
1
Ricco RAKOTOMALALA
Rgression Linaire Multiple
PLAN
1. Problme de la slection de variables
2. Colinarit et ses consquences
3. Dtection de la colinarit
Universit Lyon 2
Laboratoire ERIC
2
3. Dtection de la colinarit
4. Rpondre la colinarit : la slection de variables
Le problme de la slection de variables
Quelles variables conserver dans la rgression ?
La rgression est dexcellente qualit
Universit Lyon 2
Laboratoire ERIC
3
Rgression CONSO sans les donnes atypiques
A 5%, seul poids semble significatif, les
autres ne semblent pas pertinentes. Deux
raisons possibles cela :
(1) La variable na aucun lien avec la variable
prdire
(2) La variable est lie avec Y, mais elle est
gne (redondante) avec une (ou plusieurs) des
autres variables exognes, qui elle mme peut
ne pas paratre significative colinarit
Consquences de la colinarit
Pourquoi la colinarit (la corrlation entre exognes) est un problme ?
Colinarit parfaite
1
) ' ( ) 1 ( ) ' (

+ < X X p X X rang
nexiste pas. Calcul des coefficients de la
rgression impossible.
Colinarit forte )]' ( [
) ' det(
1
) ' ( 0 ) ' det(
1
A com
X X
X X X X =

contient de trs grandes valeurs
( )
1

'


= X X
a

Les valeurs de la matrice de variance


covariance des coefficients
sont exagres, notamment lestimation de la
variance des paramtres
Universit Lyon 2
Laboratoire ERIC
4
Quelles consquences ?
Variances des estimateurs exagres
Les t de Student sont sous-estims, les variables ne paraissent pas significatives (cf. cylindre, puissance)
Les valeurs/signes des coefficients sont contradictoires, ne concordent pas avec les connaissances du
domaine (puissance est relie ngativement avec la consommation ????)
Les rsultats sont trs instables, ladjonction ou la suppression de quelques observations modifient fortement
les valeurs et les signes des coefficients
Lecture des rsultats trs prilleuse
Dtection de la colinarit
Rgle de Klein et autres rgles trs simples
1re rgle trs simple : Il existe au moins 2
variables Xj1 et Xj2 telles que
8 . 0
2 1
,
>
j j
r
Cette rgle ne tient pas compte des rsultats
(caractristiques) de la rgression.
2me rgle (dite de Klein) : Il
existe au moins 2 variables Xj1 et
Xj2 telles que
2 2
,
2 1
R r
j j

R est le coefficient de dtermination de la rgression ( = 0.9295 dans notre exemple)
Rgression CONSO
Il ny a que des problmes dans ce fichier, en
particulier (poids, prix) et (puissance, cylindre)
Universit Lyon 2
Laboratoire ERIC
5
En ralit, la situation est problmatique ds que les valeurs sont comparables
3me rgle (Cohrence des
signes) : Le signe de la corrlation
brute endogne /exogne devrait
tre le mme que le signe du
coefficient de la rgression.
) sgn( ) sgn(
, j X Y
a r
j
=
Rgression CONSO
(1) Toutes les variables sont fortement lies avec
lendogne (les tests de la significativit de la
rgression ne disaient pas a du tout)
(2) Manifestement, il y a un contre-sens sur
puissance
Dtection de la colinarit
Facteur dinflation de la variance et tolrance
Plus loin que ltude des corrlations des exognes deux
deux analyser la multicolinarit
Coefficient de dtermination de la rgression de la
variable Xj avec les (p-1) autres variables
2
j
R
VIF (Facteur dinflation de la variance)
2
1
1
j
j
R
v

= Problme ds que R#1 v


j
#+oo
Pourquoi VIF ?
j j
v
n
a V =

) (
v
j
#+oo V(a
j
)#+oo (et t de Student #0)
Valeurs critiques du VIF v
j
4, dautres sources proposent 5 ou mme 10; le plus important
Universit Lyon 2
Laboratoire ERIC
6
j
est didentifier des groupes de variables VIF levs.
Calcul pratique : Effectuer p rgression peut tre lourd (p lev et beaucoup dobservations), on peut lire le VIF sur la
diagonale principale de la matrice inverse de la matrice des corrlations.
-1
=
Que des problmes !!!
Rgression RIDGE
Universit Lyon 2
Laboratoire ERIC
7
Rgression RIDGE
Rgression sur facteurs de lACP
Rgression PLS
Etc.
Slection de variables jecter les variables non-pertinentes et
comprendre/dtecter les variables redondantes : linterprtation des rsultats ne peut
quen bnficier
Slection de variables
Slection par optimisation
Principe : Trouver la combinaison de q (q p) variables qui maximise un critre de
qualit de la rgression
) 1 (
1
1
) 1 (
1 1
2 2
R
n q n
SCR
CMR
R

=

= =
Trop permissif c.--d.
Pourquoi pas le R
Le R indique la variance explique par le modle, il semble tout indiqu.
Mais le R augmente mcaniquement avec le nombre de variables phnomne de sur-
apprentissage [(p+1) = n R = 1, mme si variables totalement farfelues]
Pnaliser laptitude coller aux donnes (SCR faible) par la complexit (q lev)
Le R nest valable que si lon compare des modles de mme complexit
Universit Lyon 2
Laboratoire ERIC
8
Le R corrig
) 1 (
1
1
1
) 1 (
) 1 (
1 1
2 2
R
q n
n
n
SCT
q n
CMT
CMR
R


= = Favorise les modles avec
beaucoup de variables
Critres AIC et BIC
(Akaike et Schwartz)
) 1 ( ) ln( ln
) 1 ( 2 ln
+ + =
+ + =
q n
n
SCR
n BIC
q
n
SCR
n AIC
) 1 ( 2 ln ) 2 ln( + +
(

\
|
+ = q
n
SCR
e n AIC
Vraie formule de AIC
Objectif : Minimiser AIC ou BIC
Le critre BIC est le plus restrictif (favorise les solutions avec peu de variables)
Slection de variables
Optimiser lAIC
Recherche exhaustive : Tester toutes les combinaisons de q (q p) variables qui minimise AIC
Problme : Il y a (2
p
-1) rgressions valuer cest prohibitif !!!
Recherche pas--pas : Forward ( puis adjonctions successives) ou Backward (Toutes puis liminations
successives) jusqu la solution optimale
Backward Rgression CONSO
tape Modle courant (avec constante) AIC AIC si suppression dune variable
1 Conso = f(prix+cylindre+puissance+poids+cte) -18.69
Puissance : -20.62
Prix : -20.01
Cylindre : -17.46
Universit Lyon 2
Laboratoire ERIC
9
Le critre AIC ne tient pas compte explicitement de la redondance (colinarit) entre les variables. Il le fait implicitement en
mettant en balance lamlioration de lajustement (SCR) avec laugmentation de la complexit (q) : est-ce quune variable
supplmentaire dans le modle emmne de linformation complmentaire pertinente
Poids : -12.16
2 Conso = f(prix+cylindre+poids+cte) -20.62
Prix : -21.99
Cylindre : -17.6
Poids : -13.34
3
Conso = f(cylindre+poids)
(FORWARD fournit le mme rsultat)
-21.99
Cylindre : -13.30
Poids : -0.28
Slection de variables
Utiliser le F partiel de Fisher
Principe : Sappuyer sur les proprits infrentielles de la rgression
Ajouter une variable si le t de Student (ou t = F-partiel) dans la rgression passe le seuil
critique 5% (1%, etc.)
Supprimer une variable si le t de Student est en de du seuil critique
tape Modle courant (avec constante) R F-partiel = t (p-value) si ajout de
1 Conso = f(cte) -
Poids : 207.63 (0.0000)
Prix : 199.19 (0.0000)
Cylindre : 118.60 (0.0000)
Puissance : 93.53 (0.0000)
2 Conso = f(cte + poids) 0.8925
Cylindre : 11.6 (0.0023)
Puissance : 7.42 (0.0118)
Prix : 6.32 (0.0190)
3 Conso = f(cte + poids + cylindre) 0.9277
Prix : 0.53 (0.4721)
Puissance : 0.01 (0.9288)
Forward
( 5%)
Universit Lyon 2
Laboratoire ERIC
10
Backward
( 5%)
tape Modle courant (avec constante) R F-partiel = t (p-value) dans la rg.
1 Conso = f(prix+cylindre+puissance+poids+cte) 0.9295
Puissance : 0.0620 (0.8057)
Prix : 0.5666 (0.4596)
Cylindre : 2.7978 (0.1086)
Poids : 8.2287 (0.0089)
2 Conso = f(prix+cylindre+poids+cte) 0.9293
Prix : 0.5344 (0.4721)
Cylindre : 4.6779 (0.0412)
Poids :9.4345 (0.0054)
3 Conso = f(cylindre+poids+cte) 0.9277
Cylindre : 11.6631 (0.0023)
Poids : 33.7761 (0.0000)
STEPWISE
Mixer Forward et Backward. Bas toujours sur le F-Partiel.
Vrifier que ladjonction dune variable ne provoque pas la suppression dune variable dj introduite
Ainsi de suite jusqu convergence (plus dajout ni de retrait possible)
Slection de variables
Slection STAGEWISE
Principe : Mthode FORWARD. Choisir la variable qui explique le mieux
la fraction de Y non-explique par les variables dj introduites. On parle
de corrlation semi-partielle.
Algorithme :
(0) Commencer par une slection vide
(1) e = Y
(2) Choisir la variable Xa la plus corrle avec e. Si significative au sens du t ( 5%, ou 1%), introduire; sinon STOP.
(3) Calculer la part de Y non explique par les variables dj slectionnes le rsidu : e = Y (a0+a1.X
a
+)
(4) Retour en (2)
Attention aux degrs de libert pour le calcul du t lors du test de significativit
[ ] ) 1 (
) 1 (
1
2
+
+

= q n
q n
r
r
t
q
Test t :
Universit Lyon 2
Laboratoire ERIC
11
de la corrlation ltape q (q-1 variables dj choisies) ) 1 ( + q n
Donnes CONSO
X r
Poids 0.9447
Prix 0.9426
Cylindre 0.9088
Puissance 0.8883
tape 1
41 . 14
) 2 27 ( ) 9447 . 0 1 (
9447 . 0
2
=

= t
e = conso (1.0353 + 0.0068 x poids)
X r
Cylindre 0.2908
Puissance 0.2544
Prix 0.1471
Poids 0.0000
tape 2
) 24 ( 06 . 2 4891 . 1
) 3 27 ( ) 2908 . 0 1 (
2908 . 0
975 . 0
2
t t = < =

=
Seule la variable
Poids est
slectionne.
Slection de variables
Corrlation partielle
Principe : Mesure le lien entre 2 variables (Y,X), aprs avoir retranch
leffet dune tierce variable Z (sur Y et X). On parle de corrlation
partielle.
) 1 )( 1 (
.
2 2
.
XZ YZ
XZ YZ YX
Z YX
r r
r r r
r

=
Dfinition de la corrlation
partielle YX.Z
Typologie des corrlations partielles
Test de significativit
( ) 3
3
1
2

= n
n
r
r
t
Universit Lyon 2
Laboratoire ERIC
12
http://www2.chass.ncsu.edu/garson/pA765/partialr.htm
Donnes CONSO
16 . 0
) 9559 . 0 1 )( 9088 . 0 1 (
9559 . 0 9088 . 0 8883 . 0
2 2
.
=


=
cylindree puissance conso
r
( ) 3 27 06 . 2 7940 . 0
3 27
16 . 0 1
16 . 0
975 . 0
2
= < =

= t t
avec
Si on contrle leffet de la cylindre ( cylindre gale), la
puissance ne pse pas sur la consommation.
Slection de variables
Corrlation partielle dordre > 1
Principe : Mesure le lien entre 2 variables (Y,X), aprs avoir retranch
leffet de plusieurs variables Z1, Z2, , Zq.
Approche n1 : Dvelopper une
dfinition rcursive de la corrlation
partielle
) 1 )( 1 (
.
2
.
2
.
. . .
.
1 2 1 2
1 2 1 2 1
2 1
Z XZ Z YZ
Z XZ Z YZ Z YX
Z Z YX
r r
r r r
r

=
Complique manipuler ds que q
augmente
Approche n2 : Exploiter les
rsidus de la rgression

+ + + =
+ + + =
)

(
) (
1 1 0 2
1 1 0 1
q q
q q
z b z b b x e
z a z a a y e
L
L
2 1 1
. e e Z Z YX
r r
q
=
L
Corrlation partielle = corrlation brute entre
les rsidus
[ ] ) 2 (
1
2
+
+

= q n
r
r
t
avec
Universit Lyon 2
Laboratoire ERIC
13
) 2 ( + q n
Donnes CONSO
?
, . ,
=
poids cylindree puissance conso
r
)
`

+ + =
+ + + =
) . 0444 . 0 . 0117 . 0 834 . 15 (
) . 0013 . 0 . 0045 . 0 3923 . 1 (
2
1
cylindree poids puissance e
cylindree poids conso e
Calculer les 2 rsidus des rgressions
Former :
0188 . 0
2 1
=
e e
r et
( ) 4 27 07 . 2 0903 . 0
) 2 2 ( 27
0188 . 0 1
0188 . 0
975 . 0
2
= < =
+

= t t
Rcapitulatif des corrlations brutes et
partielles
Variables r
Conso,Puis 0.89
Conso,Puis/Cylind 0.16
Conso,Puis/Cylind,Poids 0.02
A cylindre et poids gal, la consommation nest
absolument pas lie la puissance.
Slection de variables
Base sur la corrlation partielle
Principe : Mthode FORWARD. Dtecter la variable maximisant la corrlation partielle
avec Y (au regard des variables dj slectionnes). La slectionner si la corrlation est
significative. Etc.
Processus de slection CONSO
Modle
courant
(avec
R F-partiel = t (p-value) si ajout de
quivalence avec la mthode base sur le t de
Student (F-Partiel)
Universit Lyon 2
Laboratoire ERIC
14
Aprs avoir enlev leffet de Poids sur
lensemble des variables (dont lendogne)
(avec
constante)
Conso =
f(cte)
-
Poids : 207.63 (0.0000)
Prix : 199.19 (0.0000)
Cylindre : 118.60 (0.0000)
Puissance : 93.53 (0.0000)
Conso =
f(cte +
poids)
0.8925
Cylindre : 11.6 (0.0023)
Puissance : 7.42 (0.0118)
Prix : 6.32 (0.0190)
Conso =
f(cte +
poids +
cylindre)
0.9277
Prix : 0.53 (0.4721)
Puissance : 0.01 (0.9288)
La technique base sur le t repose (en ralit) sur la
notion de corrlation partielle.
Conclusion
Il faut la dtecter. Il faut la traiter.
La colinarit peut fausser compltement linterprtation des coefficients
de la rgression.
Universit Lyon 2
Laboratoire ERIC
15
Parmi les traitements possibles : la slection de variables.
Dautant plus intressante quelle aide linterprtation des rsultats en mettant en
avant les variables les plus intressantes.
Attention, ce ne sont que des procdures automatiques. Elles
peuvent proposer des solutions diffrentes. Ils faut les voir
comme des scnarios que lon soumet (fait valider par)
lexpertise du domaine.
Bibliographie
En ligne
R. Rakotomalala, Pratique de la Rgression Linaire Multiple !iagnostic et
slection de "aria#les $. %upport de cours.
&ttp'((eric.uni")l*on+.,r(-ricco(cours(cours(La.regression.dans.la.pratique.pd,
R. Rakotomalala. Portail.
&ttp'((eric.uni")l*on+.,r(-ricco(cours(cours.econometrie.&tml
/ikipdia.
&ttp'((,r.0ikipedia.org(0iki(Rgression.linaire.multiple
Universit Lyon 2
Laboratoire ERIC
16
Ou"rages
M. Tenen&aus, %tatistique Mt&odes pour dcrire, e1pliquer et pr"oir $, !unod, +223.
R. 4our#onnais, Economtrie Manuel et e1ercices corrigs $, !unod, 5667.
8. !odge, 9. Rousson, Anal*se de rgression applique $, !unod, +22:.