Vous êtes sur la page 1sur 12

Universit Lyon 2

Laboratoire ERIC
1
Ricco RAKOTOMALALA
Rgression Linaire Multiple
Universit Lyon 2
Laboratoire ERIC
2
PLAN
1. Introduction lanalyse de variance
2. Codage disjonctif 0/1 : rgression sans constante
3. Codage 0/1 cornered effect
4. Codage 0/1 centered effect
Remarque : si lendogne est qualitative, on est dans un toute
autre domaine (rgression logistique et, plus gnralement, dans
le classement, la discrimination ou lapprentissage supervis)
Universit Lyon 2
Laboratoire ERIC
3
Quest ce que lANOVA, quel lien avec la rgression ?
Universit Lyon 2
Laboratoire ERIC
4
ANOVA 1 facteur
Introduction et calculs
Exemple introductif : comparer les
loyers selon la zone dhabitation
Gnralisation de la comparaison
de moyenne k populations
Question : le loyer est-il le mme
dans les diffrentes zones ?


= = = =


j
k
j H
H
, :
:
1
2 1 0
L
Dtection graphique : botes
moustaches conditionnelles
tude statistique : Analyse de variance (ANOVA)
Dcalage des points mdians
Dcalage des dispersions
quation
danalyse de
variance
( ) ( ) ( )

= = = = =
+ =
+ =
k
j
n
i
j j i
k
j
j j
k
j
n
i
j i
j j
y y y y n y y
SCR SCE SCT
1 1
2
,
1
2
1 1
2
,
Tableau
danalyse de
variance
Statistique du
test et rgion
critique
CMR = SCR/(n-k) SCR n-k Rsiduels (intra)
- SCT n-1 Totaux
CME = SCE/(k-1) SCE k-1 Expliqus (inter)
CM SC Ddl Variation
) , 1 ( k n k F
CMR
CME
F =
) , 1 ( : . .
1
k n k F F C R >

Universit Lyon 2
Laboratoire ERIC
5
ANOVA 1 facteur (suite)
Relation avec la rgression linaire multiple
( ) ( ) ( )

= = = = =
+ =
+ =
k
j
n
i
j j i
k
j
j j
k
j
n
i
j i
j j
y y y y n y y
SCR SCE SCT
1 1
2
,
1
2
1 1
2
,
Dans notre exemple, il y a une diffrence
significative entre les loyers moyens. On
peut affiner lanalyse en essayant de dtecter celle
qui scarte le plus des autres, etc. (cf. cours
ANOVA, analyse des contrastes, comparaisons
multiples, etc.)
Quel lien avec la rgression ?
Les valeurs de lendogne peut se
modliser en plusieurs composantes
j i j j i
y
, ,
+ + =
O, est une composante derreur sur
laquelle on peut faire des hypothses
) , 0 (
,
N
j i

Cest ni plus ni moins quune rgression
H0 de lANOVA devient H0 du test de significativit
globale de la rgression


= = = =
0 , :
0 :
1
2 1 0
j
k
j H
H

L
Dans la pratique, tout dpend du type de codage de
la variable exogne dans la rgression. Pour :
(1) Interprter correctement les coefficients calculs
(2) Mettre en place les tests voulus (globalement pour
une ANOVA, une modalit contre les autres, etc.)
Universit Lyon 2
Laboratoire ERIC
6
Codage 0/1 et Rgression sans constante
Universit Lyon 2
Laboratoire ERIC
7
Codage disjonctif complet
Pour la rgression une seule exogne qualitative
Principe du codage 0/1

=
=
sinon , 0
, 1
,
j X
Z
i
j i
criture de la rgression
+ + + =
ville c campagne banlieue
z a z a z a loyer . . .
3 2 1
Pourquoi ne faut-il pas mettre la constante dans cette rgression ?
Rsultats ANOVA
Rsultats Rgression Linaire
Les coefficients se lisent comme des moyennes conditionnelles
SCE et SCR cohrents
Le test global de significativit F = (12.48/2)/(2.54/12) = 29.4446
(Attention, les logiciels ne tiennent pas compte de la mme manire des DDL dans la rgression sans constante)
Trs bonne solution, on retrouve nos rsultats
MAIS, elle est inoprante pour une rgression avec plusieurs exognes qualitatives
Universit Lyon 2
Laboratoire ERIC
8
Comment coder une exogne qualitative sans interfrer avec les autres ?
Comment lire les coefficients estims ?
Universit Lyon 2
Laboratoire ERIC
9
Codage cornered effect
Principe
Omettre une des modalits (la dernire
par ex.) de X puisquelle peut tre dduite
des autres (cest la modalit de rfrence)
+ + + =
campagne banlieue
z a z a a loyer . .
2 1 0
Rgression linaire multiple
En omettant la modalit de rfrence
0
1 , 2 , 1 ,
= = = = =
k i i i i
Z Z Z k X L
Gnralisable aux cas de plusieurs exognes, dont certaines qualitatives recodes de la mme manire
Rsultats et interprtation des coefficients
Quel faut-il y lire ?
Constante = Moyenne de la modalit de rfrence
Coefficient = cart de la moyenne de la modalit
tudie avec la moyenne de la modalit de rfrence
Test de significativit dun coefficient = Test
dcart significatif avec la modalit de rfrence
Test global = Test si les diffrences de toutes les
autres avec la rfrence est ngligeable (Remarque :
le F global est calcul correctement maintenant)
Universit Lyon 2
Laboratoire ERIC
10
Codage centered effect
Principe
Omettre toujours une des modalits de X (la k-
me par ex.), le codage des variables indicatrices
tient compte explicitement de cette modalit

=
= +
=
0
k X si , 1
j X si , 1
i
i
, j i
Z
Rgression linaire multiple
En omettant la modalit de rfrence
+ + + =
campagne banlieue
z a z a a loyer . .
2 1 0
Gnralisable aux cas de plusieurs exognes, dont certaines qualitatives recodes de la mme manire
Rsultats et interprtation des coefficients
Quel faut-il y lire ?
Constante = Valeur centrale / Rfrence : Moyenne
non pondre des moyennes conditionnelles (Rq. : ce
nest pas la moyenne globale sauf si effectif quilibrs)
Coefficient = cart de la moyenne conditionnelle
de la variable avec cette valeur centrale
Test de significativit dun coefficient = Test
dcart significatif avec la valeur centrale
Test global = Test si les diffrences de toutes les
autres avec la valeur centrale est ngligeable
(Remarque : le F global est calcul correctement
maintenant)
Universit Lyon 2
Laboratoire ERIC
11
Conclusion
On ne peut pas utiliser directement les variables qualitatives, il
faut les recoder.
On peut utiliser la rgression sur variables qualitatives pour
raliser une ANOVA (comparaisons de moyennes en gnral)
Le type de codage adopt conditionne la lecture des rsultats et
linterprtation des coefficients.
Attention aux pertes dinformations et
lintroduction dune information fictive
codage {1, 2, 3} pour les variables nominales
codage des variables ordinales
Universit Lyon 2
Laboratoire ERIC
12
Bibliographie
Ouvrages
M. Tenenhaus, Statistique Mthodes pour dcrire, expliquer et prvoir , Dunod, 2006.
R. Bourbonnais, Economtrie Manuel et exercices corrigs , Dunod, 1998.
Y. Dodge, V. Rousson, Analyse de rgression applique , Dunod, 2004.
En ligne
R. Rakotomalala, Pratique de la Rgression Linaire Multiple Diagnostic et
slection de variables . Support de cours.
http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf
R. Rakotomalala. Portail.
http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html
Wikipdia.
http://fr.wikipedia.org/wiki/Rgression_linaire_multiple