Académique Documents
Professionnel Documents
Culture Documents
Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple
Chapitre 4.3
Régression linéaire multiple 1 / 50
Statistique
1e année bachelor, 2009-10
Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple
Chapitre 4.3
Régression linéaire multiple 2 / 50
Statistique
1e année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 4 / 50
Statistique
1e année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 5 / 50
Statistique
1e année bachelor, 2009-10
L’équation estimée
Chapitre 4.3
Régression linéaire multiple 6 / 50
Statistique
1e année bachelor, 2009-10
Processus
d’estimation
Chapitre 4.3
Régression linéaire multiple 7 / 50
Statistique
1e année bachelor, 2009-10
Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple
Chapitre 4.3
Régression linéaire multiple 9 / 50
Statistique
1e année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 11 / 50
Statistique
1e année bachelor, 2009-10
Test du F de Fisher
SCReg
• Statistique de test : F = K ∼ F (K , n −K −1)
SCRes
n − K −1
Chapitre 4.3
Régression linéaire multiple 13 / 50
Statistique
1e année bachelor, 2009-10
Multicolinéarité (1)
• Il est possible qu’aucun des coefficients estimés bk soit
individuellement statistiquement significatif (selon le test du t de
Student), mais que le modèle soit quand même globalement
statistiquement significatif (selon le test du F de Fisher).
• L’explication de ce phénomène apparemment paradoxal est la
multicolinéarité : le fait que les variables indépendantes xk, tout en
étant indépendantes de y, peuvent parfaitement être corrélées
entre elles.
• Plus les variables indépendantes sont corrélées, plus il devient
difficile de déterminer l’effet propre d’une variable indépendante
particulière sur la variable dépendante. Autrement dit, quand la
multicolinéarité est forte, les erreurs type des coefficients sbk sont
grands, et le risque peut être fort que les coefficients estimés
prennent le signe opposé à celui du vrai paramètre.
Chapitre 4.3
Régression linéaire multiple 14 / 50
Statistique
1e année bachelor, 2009-10
Multicolinéarité (2)
• En pratique il peut être utile d’inspecter la matrice de corrélation
entre les variables indépendante. Comme valeur pratique (très)
approximative, on utilise parfois un seuil de ρˆ x x = 0.7 pour
k l
Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple
Chapitre 4.3
Régression linéaire multiple 16 / 50
Statistique
1e année bachelor, 2009-10
R-carré (1)
• La définition du R-carré (aussi : « coefficient de détermination
multiple ») est identique à celle pour la régression linéaire simple :
n
2
2
∑ ( yˆ i − y ) SCReg SCReg
i =1
R = n
= =
2 SCReg + SCRes SCTot
∑ ( yi − y )
i =1
S
C
R
e
s
n n
2
∑ ( y i − yˆ i ) ∑ i
u 2
= 1− i =1
n
= 1− n
i =1
= 1−
2 2 SCTot
∑ ( yi − y ) ∑ ( yi − y )
i =1 i =1
Chapitre 4.3
Régression linéaire multiple 17 / 50
Statistique
1e année bachelor, 2009-10
R-carré (2)
• Le R-carré exprime le pourcentage de la somme des carrés totaux
« expliqué » (dans le sens d’une explication géométrique et non
causale !) par l’équation estimée de la régression.
• Le R-carré ne peut pas être décomposé en « contributions
explicatives » de chacune des K variables explicatives.
→ Exception : cas de zéro colinéarité entre les variables
explicatives (qui sont donc « orthogonales »)
→ Exemple : vecteurs de variables binaires par pays et par
année dans un modèle des différences de taux de chômage
⇒ décomposition du R-carré en une composante
« conjoncturelle » (contribution au R-carré des différences
temporelles) et une composante « structurelle » (contribution
au R-carré des différences inter-pays)
Chapitre 4.3
Régression linéaire multiple 18 / 50
Statistique
1e année bachelor, 2009-10
( n − K − 1) n −1
2
R = 1− = 1 − (1 − R )
2
, R2 ≤ 1
SCTot ( n − 1) n − K −1
Chapitre 4.3
Régression linéaire multiple 20 / 50
Statistique
1e année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 22 / 50
Statistique
1e année bachelor, 2009-10
Statistiques de la régression
Coefficient de détermination multiple 0.766580532
Coefficient de détermination R^2 0.587645712
Coefficient de détermination R^2 0.496011426
Erreur-type 2353.302134
Observations 12
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 2 71030184.72 35515092.36 6.4129458 0.018565956
Résidus 9 49842278.42 5538030.936
Total 11 120872463.1
Chapitre 4.3
Régression linéaire multiple 23 / 50
Statistique
1e année bachelor, 2009-10
Variables indépendantes :
• Dans les tableaux publiés de résultats de 269.9*
âge
la régression, il est utile de présenter les (89.3)
23.4
coefficients ainsi que leurs erreurs types et expérience
(103.2)
des symboles indiquant le niveau de Constante
40034.4*
(3500.3)
signification statistique du test bilatéral de R-carré 0.59
H0 : β k = 0 . R-carré ajusté 0.50
Erreur type de la régression 2353.3
• Une telle présentation des résultats facilite Observations 12
Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple
Chapitre 4.3
Régression linéaire multiple 27 / 50
Statistique
1e année bachelor, 2009-10
Bases
• Par « spécification », on entend la formulation du modèle
empirique, càd de l’équation de la régression.
• La spécification linéaire est suffisamment flexible pour permettre
l’estimation d’une large gamme de modèles théoriques, dont
certains sont non linéaires à la base (mais « intrinsèquement
linéaires »). Nous présenterons quelques spécifications
particulières très utiles :
o spécification polynomiale
o variables indépendantes binaires
o spécification logarithmique
o interactions
• Il existe des modèles théoriques non linéaires qui ne peuvent être
transformés en une spécification linéaire et nécessitent donc
l’utilisation d’un estimateur non linéaire (pas traité dans ce cours).
−1
→ Exemple : y = β0 + β1 ( x + β3 )
Chapitre 4.3
Régression linéaire multiple 28 / 50
Statistique
1e année bachelor, 2009-10
Spécification polynomiale
• La spécification de base de la régression linéaire multiple peut être
considérée comme un cas particulier d’une classe de fonctions
plus large, les fonctions polynomiales :
y = β0 + β1x + β 2 x 2 + β3 x 3 + ... + βK x K + ε
→ K : le « degré » du polynôme
→ K = 2 : polynôme du deuxième degré (ou « parabole »)
Chapitre 4.3
Régression linéaire multiple 29 / 50
Statistique
1e année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 30 / 50
Statistique
1e année bachelor, 2009-10
ANALYSE DE VARIANCE
Valeur critique de
Degré de liberté Somme des carrés Moyenne des carrés F
F
Régression 3 110535907.7 36845302.56 28.5165036 0.000127026
Résidus 8 10336555.45 1292069.432
Total 11 120872463.1
revenu
48000
∂yˆ
= b1 + 2b2 x1max = 0 44000
∂x1
∴ x1max = −b1 2 b2 40000
25 30 35 40 45 50 55
ANALYSE DE VARIANCE
Valeur critique de
Degré de liberté Somme des carrés Moyenne des carrés F
F
Régression 4 114453940.8 28613485.21 31.2056868 0.000148858
Résidus 7 6418522.304 916931.7578
Total 11 120872463.1
52000
femmes
hommes
revenu
48000
b3 = 2054.2 44000
40000
25 30 35 40 45 50 55
âge
Chapitre 4.3
Régression linéaire multiple 36 / 50
Statistique
1e année bachelor, 2009-10
!
Chapitre 4.3
Régression linéaire multiple 37 / 50
Statistique
1e année bachelor, 2009-10
k =1
microéconomie pour représenter l’origine des courbes d’offre
(fonction de production) et de demande (fonction d’utilité).
→ version stochastique (K = 2) : y = ax1β x2β eε , où ε satisfait
1 2
Chapitre 4.3
Régression linéaire multiple 40 / 50
Statistique
1e année bachelor, 2009-10
→ version stochastique (K = 2) : y = e β + β x + β x
0 1 1 2 2 +ε
, où ε satisfait
les cinq hypothèses du modèle des MCO
Chapitre 4.3
Régression linéaire multiple 41 / 50
Statistique
1e année bachelor, 2009-10
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 0.035773766 0.035773766 21.422889 0.000938341
Résidus 10 0.016698853 0.001669885
Total 11 0.052472619
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 0.029990593 0.029990593 13.3398092 0.004444832
Résidus 10 0.022482026 0.002248203
Total 11 0.052472619
55000
45000
revenu
yˆ = 39885 + 279.7 x
35000
yˆ = exp ( 9.92 + 0.25 * ln ( x ) )
yˆ = exp(10.61 + 0.006 x )
25000
15000
0 10 20 30 40 50 60
âge
Chapitre 4.3
Régression linéaire multiple 45 / 50
Statistique
1e année bachelor, 2009-10
Interactions (1)
Chapitre 4.3
Régression linéaire multiple 46 / 50
Statistique
1e année bachelor, 2009-10
Interactions (2)
• β1 (β2) représente l’effet de x1 (x2) sur ŷ quand x2 (x1) est égal à
zéro. Puisque une valeur de zéro n’est souvent pas très réaliste ou
informative (p.ex. dans une estimation des déterminants
salariaux), on estime souvent une spécification transformée :
y = β0 + βɶ1x1 + βɶ2 x2 + β3 ( x1 − x1 )( x2 − x2 ) + ε .
βɶ1 ( βɶ2 ) est alors l’effet de x1 (x2) sur ŷ quand x2 (x1) prend sa
valeur moyenne.
• Si x1 est une variable continue et x2 une variable binaire, alors β2
représente le déplacement de l’intercept, et β3 représente le
changement de la pente de ŷ par rapport à x1, quand x2 passe de
0 à 1.
Chapitre 4.3
Régression linéaire multiple 47 / 50
Statistique
1e année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 48 / 50
Statistique
1e année bachelor, 2009-10
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 3 115366070.9 38455356.96 5.012505176 0.009414488
Résidus 20 153437674.8 7671883.742
Total 23 268803745.7
∂revenu
⇒ commune = 1 = 279.7 − 34.7 = 245
∂âge
(différence non significative du point de vue statistique)
Chapitre 4.3
Régression linéaire multiple 49 / 50
Statistique
1e année bachelor, 2009-10
54000
52000
revenu
50000
44000
42000
25 30 35 40 45 50 55 60
âge
Chapitre 4.3
Régression linéaire multiple 50 / 50