Vous êtes sur la page 1sur 50

Statistique

1e année bachelor, 2009-10

Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple

4.3.1 Equation et Estimation


4.3.2 Inférence
4.3.3 Coefficients de détermination
4.3.4 Spécifications

Chapitre 4.3
Régression linéaire multiple 1 / 50
Statistique
1e année bachelor, 2009-10

Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple

4.3.1 Equation et Estimation


4.3.2 Inférence
4.3.3 Coefficients de détermination
4.3.4 Spécifications

Chapitre 4.3
Régression linéaire multiple 2 / 50
Statistique
1e année bachelor, 2009-10

L’équation de la régression (1)


• Un modèle de régression multiple contient 1 < K < n − 1 variables
indépendantes, x1, x2 ,..., xK . (On utilisera k comme indice pour une
variable particulière.)
→ Les paramètres sont estimables quand K = n − 1, mais
l’ajustement est alors parfait et l’inférence est impossible. En
pratique, on doit veiller à ce que n >> K .
• L’équation de la régression linéaire multiple (ou le « modèle de
régression ») s’écrit donc de la façon suivante :
y = β0 + β1x1 + β 2 x2 + ... + βK xK + ε , où E(ε) = 0,
→ E ( y ) = β0 + β1x1 + β 2 x2 + ... + βK xK ,
→ E ( y x1, x2 ,..., xK ) = β0 + β1x1 + β 2 x2 + ... + βK xK ,
où β0 , β1, β 2 ,..., βK sont les paramètres du modèle, et le terme
d’erreur ε est une variable aléatoire.
Chapitre 4.3
Régression linéaire multiple 3 / 50
Statistique
1e année bachelor, 2009-10

L’équation de la régression (2)

• Tout comme dans le cas de la régression linéaire simple, β0


représente le point, où x1 = x2 = ... = xK = 0 (« constante »).

• La valeur d’un paramètre βk > 0 donne le nombre d’unités


supplémentaires de y associées à une augmentation par une unité
de xk lorsque toutes les autres variables indépendantes sont
constantes (variation « ceteris paribus »).

• E ( y x1, x2 ,...xK ) est la moyenne de y pour un vecteur de valeurs


des variables indépendantes { x1, x2 ,..., xK } donné.

Chapitre 4.3
Régression linéaire multiple 4 / 50
Statistique
1e année bachelor, 2009-10

L’équation de la régression (3)


• Si K > 2, on ne peut plus représenter le modèle de régression de
façon graphique.
• Avec K = 2, une représentation graphique est possible, puisqu’il
n’y a que trois dimensions : x1, x2 et y. L’équivalent à la droite de
régression en régression linéaire simple est alors appelé
« surface de réponse » :

Chapitre 4.3
Régression linéaire multiple 5 / 50
Statistique
1e année bachelor, 2009-10

L’équation estimée

• Les statistiques d’échantillon b0 , b1, b2 ,..., bK servent


d’estimations de β0 , β1, β 2 ,..., βK .

• Ainsi, l’équation estimée de la régression est donnée par :


yˆ = b0 + b1x1 + b2 x2 + ... + bK xK ,

où ŷ est l’estimation ponctuelle de E ( y x1, x2 ,...xK ) .

Chapitre 4.3
Régression linéaire multiple 6 / 50
Statistique
1e année bachelor, 2009-10

Processus
d’estimation

Chapitre 4.3
Régression linéaire multiple 7 / 50
Statistique
1e année bachelor, 2009-10

Estimation par les moindres carrés


• Tout comme pour la régression linéaire simple, la méthode la plus
répandue pour calculer b0 , b1, b2 ,..., bK est l’estimateur des moindres
carrés.
• Formellement, la méthode est alors la suivante :
n
2
{b0 , b1, b2 ,..., bK } = arg min ∑ ( y i − yˆ i )
b0 ,b1,b2 ,...bK i =1
n
2
= arg min ∑ ( y i − b0 − b1x1i − b2 x2i − ... − bK xKi )
b0 ,b1,b2 ,...bK i =1

L’estimateur des moindres carrés pour une régression multiple suit


la même logique que celle de la régression linéaire simple, mais sa
formulation est plus compliquée, nécessitant l’utilisation de l’algèbre
matricielle. De plus, l’estimation est trop compliquée pour être faite
« à la main » avec un effort raisonnable et est donc toujours
effectuée avec l’aide d’un ordinateur.
Chapitre 4.3
Régression linéaire multiple 8 / 50
Statistique
1e année bachelor, 2009-10

Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple

4.3.1 Equation et Estimation


4.3.2 Inférence
4.3.3 Coefficients de détermination
4.3.4 Spécifications

Chapitre 4.3
Régression linéaire multiple 9 / 50
Statistique
1e année bachelor, 2009-10

Hypothèses de l’estimateur MCO


• Tout comme pour la régression linéaire simple, la légitimité des
tests d’hypothèse repose sur les cinq hypothèses faites à propos
du terme d’erreur du modèle de régression, ε .
• En fait, on peut démontrer que, sous condition que ces hypothèses
soient satisfaites, l’estimateur des MCO est le meilleur des
estimateurs concevables, dans le sens suivant (théorème de
Gauss-Markov):
o Les coefficients estimés b0 , b1, b2 ,..., bK sont des estimations non-
biaisées des paramètres β0 , β1, β 2 ,..., βK .
o L’estimateur MCO implique les variances des coefficients
estimés sb2 , sb2 , sb2 ,..., sb2 les plus petites de tous les estimateurs
0 1 2 k

linéaires et non-biaisés concevables.


Chapitre 4.3
Régression linéaire multiple 10 / 50
Statistique
1e année bachelor, 2009-10

Test du t de Student (1)


• Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi
du t de Student pour tester des hypothèses sur des paramètres
individuels βk.
bk − β k
• Statistique de test : t k = ∼ t n −K −1
sbk
o Le calcul de l’erreur type des coefficients estimés sbk est trop
compliqué pour être effectué « à la main », mais sa logique est
la même que dans le cas de la régression linéaire simple.
o Notamment, sbk tend à diminuer avec n.

• L’intervalle de confiance autour d’un paramètre estimé individuel


est alors donné par : b ± t n−K −1 * s
k α bk

Chapitre 4.3
Régression linéaire multiple 11 / 50
Statistique
1e année bachelor, 2009-10

Test du t de Student (2)


• Dans la plupart des applications, l’hypothèse la plus importante
concerne la signification statistique de xk comme facteur
« explicatif » des variations de y.
→ H0 : βk = 0 ; H1 : βk ≠ 0
bk
→ statistique de test : t k = ∼ t n −K −1
sbk
• Ces statistiques de test sont fournies par tous les logiciels
statistiques pour chacun de coefficients estimés b0 , b1, b2 ,..., bK .
Puisque t0.05

= 1.96 , une façon de tester la significativité statistique
à 5% d’un coefficient estimé d’une régression multiple basée sur
un grand échantillon est de vérifier si t k > 1.96 . Pour tester la
significativité à 1%, on vérifie si t k > 2.58 .
Chapitre 4.3
Régression linéaire multiple 12 / 50
Statistique
1e année bachelor, 2009-10

Test du F de Fisher

• Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi


du F de Fisher pour déterminer s’il existe une relation significative
entre y et l’ensemble des variables indépendantes ; on parle du
test de signification globale.
→ H0 : β1 = β 2 = ... = β k = 0
H1 : au moins un des paramètres n’est pas égal à zéro

SCReg
• Statistique de test : F = K ∼ F (K , n −K −1)
SCRes
n − K −1

Chapitre 4.3
Régression linéaire multiple 13 / 50
Statistique
1e année bachelor, 2009-10

Multicolinéarité (1)
• Il est possible qu’aucun des coefficients estimés bk soit
individuellement statistiquement significatif (selon le test du t de
Student), mais que le modèle soit quand même globalement
statistiquement significatif (selon le test du F de Fisher).
• L’explication de ce phénomène apparemment paradoxal est la
multicolinéarité : le fait que les variables indépendantes xk, tout en
étant indépendantes de y, peuvent parfaitement être corrélées
entre elles.
• Plus les variables indépendantes sont corrélées, plus il devient
difficile de déterminer l’effet propre d’une variable indépendante
particulière sur la variable dépendante. Autrement dit, quand la
multicolinéarité est forte, les erreurs type des coefficients sbk sont
grands, et le risque peut être fort que les coefficients estimés
prennent le signe opposé à celui du vrai paramètre.
Chapitre 4.3
Régression linéaire multiple 14 / 50
Statistique
1e année bachelor, 2009-10

Multicolinéarité (2)
• En pratique il peut être utile d’inspecter la matrice de corrélation
entre les variables indépendante. Comme valeur pratique (très)
approximative, on utilise parfois un seuil de ρˆ x x = 0.7 pour
k l

déterminer s’il y a un problème potentiel de multicolinéarité entre


deux variables.
• La multicolinéarité peut prendre la forme d’une relation linéaire
entre plusieurs variables indépendantes, càd elle peut être
présente même si les corrélations entre paires de variables
individuelles sont toutes relativement faibles. Des tests plus
avancés existent pour vérifier la présence de ce phénomène.
• Le meilleur moyen pour pallier au problème de multicolinéarité est
d’augmenter la taille de l’échantillon n.
• S’il y a colinéarité parfaite entre deux ou plusieurs variables
indépendantes, leurs paramètres ne peuvent pas être estimés.
Chapitre 4.3
Régression linéaire multiple 15 / 50
Statistique
1e année bachelor, 2009-10

Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple

4.3.1 Equation et Estimation


4.3.2 Inférence
4.3.3 Coefficients de détermination
4.3.4 Spécifications

Chapitre 4.3
Régression linéaire multiple 16 / 50
Statistique
1e année bachelor, 2009-10

R-carré (1)
• La définition du R-carré (aussi : « coefficient de détermination
multiple ») est identique à celle pour la régression linéaire simple :
n
2

2
∑ ( yˆ i − y ) SCReg SCReg
i =1
R = n
= =
2 SCReg + SCRes SCTot
∑ ( yi − y )
i =1

S
C
R
e
s
n n
2
∑ ( y i − yˆ i ) ∑ i
u 2

= 1− i =1
n
= 1− n
i =1
= 1−
2 2 SCTot
∑ ( yi − y ) ∑ ( yi − y )
i =1 i =1

Chapitre 4.3
Régression linéaire multiple 17 / 50
Statistique
1e année bachelor, 2009-10

R-carré (2)
• Le R-carré exprime le pourcentage de la somme des carrés totaux
« expliqué » (dans le sens d’une explication géométrique et non
causale !) par l’équation estimée de la régression.
• Le R-carré ne peut pas être décomposé en « contributions
explicatives » de chacune des K variables explicatives.
→ Exception : cas de zéro colinéarité entre les variables
explicatives (qui sont donc « orthogonales »)
→ Exemple : vecteurs de variables binaires par pays et par
année dans un modèle des différences de taux de chômage
⇒ décomposition du R-carré en une composante
« conjoncturelle » (contribution au R-carré des différences
temporelles) et une composante « structurelle » (contribution
au R-carré des différences inter-pays)
Chapitre 4.3
Régression linéaire multiple 18 / 50
Statistique
1e année bachelor, 2009-10

R-carré et test du F de Fisher


• Il existe une relation mathématique entre le R-carré et la
statistique de test de signification globale (du F de Fisher) :
SCReg
2
K ( n − K − 1) R
F= =
SCRes K (1 − R 2 )
n − K −1
• Étant donné n et K, un R-carré élevé implique une statistique F
élevée.
• De plus, la statistique F varie en fonction de n et de K. Pour un R-
carré donné, plus n − K est grand, plus la statistique F est élevée.
Intuitivement, cela représente le fait que plus il y a d’observations
par rapport au nombre de variables indépendantes, plus il semble
invraisemblable qu’une certaine qualité d’ajustement du modèle
(càd un certain R-carré) se soit produit aléatoirement.
Chapitre 4.3
Régression linéaire multiple 19 / 50
Statistique
1e année bachelor, 2009-10

R-carré ajusté (1)


• Puisque la méthode des MCO minimise la somme des carrés des
résidus (SCRes), le R-carré augmente si on ajoute des variables
indépendantes (ce qui ne change pas SCTot) même si ces
variables ne sont pas statistiquement significatives.
• La valeur du R-carré dépend donc de K, ce qui complique la
comparaison de la qualité d’ajustement de différents modèles
de régression si le nombre de variables indépendantes n’est pas
identique.
• Pour cette raison, il est courant de calculer le « R-carré ajusté » :
S
C
R
e
s

( n − K − 1) n −1
2
R = 1− = 1 − (1 − R )
2
, R2 ≤ 1
SCTot ( n − 1) n − K −1

Chapitre 4.3
Régression linéaire multiple 20 / 50
Statistique
1e année bachelor, 2009-10

R-carré ajusté (2)


S
C
R
e
s
• ( n − K − 1) est la variance estimée des résidus, su2 ; et
SCTot ( n − 1) est la variance estimée de y. On peut donc aussi
écrire le R-carré ajusté de la façon suivante : R 2 = 1 − ( su2 sy2 ) .
• Si l’ajout d’une variable indépendante diminue SCRes
proportionnellement moins qu’il n’augmente K, alors su2 augmente,
et le R-carré ajusté diminue. Le R-carré ajusté peut donc diminuer
ou augmenter quand on ajoute des variables indépendantes. Il est
même possible que le R-carré ajusté prenne des valeurs négatives
(si K est grand et le R-carré est petit).
• On peut démontrer que l’ajout d’une variable indépendante
augmente le R-carré ajusté si la statistique du t de Student de
cette variable est supérieure à 1. Pour augmenter le R-carré
ajusté, une variable indépendante supplémentaire n’a donc pas
besoin d’être statistiquement significative, même au seuil de 10%.
Chapitre 4.3
Régression linéaire multiple 21 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (1)


• Le syndic cherche à savoir si ind. revenu âge expérience
l’effet de l’âge sur le revenu 1 52125.0 48.1 5.5
des habitants de sa commune 2 50955.9 38.7 2.5
3 53382.9 48.6 18.9
reste statistiquement
4 51286.9 37.5 13.5
significatif si on contrôle aussi 5 55243.6 54.7 25.5
pour la durée d’expérience 6 53384.7 40.7 7.3
des travailleurs dans leur 7 53488.2 50.1 2.3
fonction actuelle. Il recense 8 54134.1 45.9 18.8
9 52706.4 55.9 19.0
donc la variable 10 42144.3 25.1 5.5
« expérience » pour les 12 11 52665.2 36.9 5.0
individus de son échantillon 12 51656.7 34.5 15.5
aléatoire simple. Moyenne 51931.2 43.1 11.6
Ecart type 3314.9 9.1 7.8

Chapitre 4.3
Régression linéaire multiple 22 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (2)


Excel : Outils - Utilitaire d’analyse - Régression
linéaire – cocher Intitulé présent
R 2 R2 R2 su SCRes
RAPPORT DÉTAILLÉ

Statistiques de la régression
Coefficient de détermination multiple 0.766580532
Coefficient de détermination R^2 0.587645712
Coefficient de détermination R^2 0.496011426
Erreur-type 2353.302134
Observations 12

ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 2 71030184.72 35515092.36 6.4129458 0.018565956
Résidus 9 49842278.42 5538030.936
Total 11 120872463.1

Limite inférieure Limite supérieure


Coefficients Erreur-type Statistique t Probabilité pour seuil de pour seuil de
confiance = 95% confiance = 95%
Constante 40034.4147 3500.343207 11.43728267 1.158E-06 32116.08826 47952.74114
âge 269.9022708 89.3203627 3.021732813 0.0144387 67.84557296 471.9589687
expérience 23.47323377 103.1785424 0.227501118 0.8251181 -209.9328446 256.8793121

Chapitre 4.3
Régression linéaire multiple 23 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (3)


• Le syndic conclut que, étant donné l’âge, les années d’expérience
dans la fonction ne constituent pas un déterminant
statistiquement significatif du salaire. Le modèle prédit donc
que deux travailleurs qui ont le même âge mais des durées
d’expérience différentes auront le même salaire en moyenne.
• On note que par rapport à l’estimation de la régression linéaire
simple (avec l’âge comme unique variable indépendante), le R-
carré a augmenté (de 0.585 à 0.588). Par contre, puisque la valeur
de la statistique t de la variable « expérience » est inférieure à 1, le
R-carré ajusté a diminué (de 0.544 à 0.496).
• Malgré l’augmentation du R-carré, la valeur de la statistique F a
diminué (de 14.1 à 6.4) et celle de l’erreur type de la régression a
augmenté (de 2239 à 2353). L’augmentation de K (de 1 à 2) a
donc plus que compensé la diminution de SCRes (de 50.1 mn à
49.8 mn).
Chapitre 4.3
Régression linéaire multiple 24 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (4)


• Corrélation entre les variables « âge » et « expérience » :
ρ̂12 = 0.77 ⇒ La multicolinéarité pourrait jouer un rôle (càd les
variations dans le valeurs de la variable
« expérience » ne sont pas suffisamment
indépendantes de l’âge, ainsi qu’avec seulement 12
observations on arrive pas à identifier statis-
tiquement un effet spécifique dû à « expérience ».
→ Excel : =COEFFICIENT.CORRELATION(âge;expérience)
• Prédiction du salaire pour une personne de 55 ans avec 15 ans
d’expérience :
( yˆ x1 = 55, x2 = 15 ) = E ( yˆ x1 = 55, x2 = 15 )
= 40034 + 269.9 * 55 + 23.5 * 15 = 55231
→ La construction d’un intervalle de confiance autour de cette
prévision n’est pas possible avec Excel.
Chapitre 4.3
Régression linéaire multiple 25 / 50
Statistique
1e année bachelor, 2009-10

Les déterminants salariaux à Statville

Exemple Statville (5) variable dépendante: salaires;


estimateur: MCO

Variables indépendantes :
• Dans les tableaux publiés de résultats de 269.9*
âge
la régression, il est utile de présenter les (89.3)
23.4
coefficients ainsi que leurs erreurs types et expérience
(103.2)
des symboles indiquant le niveau de Constante
40034.4*
(3500.3)
signification statistique du test bilatéral de R-carré 0.59
H0 : β k = 0 . R-carré ajusté 0.50
Erreur type de la régression 2353.3
• Une telle présentation des résultats facilite Observations 12

des tests d’hypothèse alternatifs, H0 : β k = z . Remarques : erreurs types entre paren-


thèses ; * : significatif à 5%

o Le syndic pourrait s’intéresser si la véritable hausse salariale


moyenne par année d’âge est égale à 500 francs (α = 5%) :
b1 − 500 269.9 − 500
t x1=500 = = = −2.58 ; tαn −K −1 = t0.05
9
= 2.26
sb1 89.3
o Intervalle de confiance de 95% approximatif pour n ≥ 60 : b ± 2 sb1
Chapitre 4.3
Régression linéaire multiple 26 / 50
Statistique
1e année bachelor, 2009-10

Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple

4.3.1 Equation et Estimation


4.3.2 Inférence
4.3.3 Coefficients de détermination
4.3.4 Spécifications

Chapitre 4.3
Régression linéaire multiple 27 / 50
Statistique
1e année bachelor, 2009-10

Bases
• Par « spécification », on entend la formulation du modèle
empirique, càd de l’équation de la régression.
• La spécification linéaire est suffisamment flexible pour permettre
l’estimation d’une large gamme de modèles théoriques, dont
certains sont non linéaires à la base (mais « intrinsèquement
linéaires »). Nous présenterons quelques spécifications
particulières très utiles :
o spécification polynomiale
o variables indépendantes binaires
o spécification logarithmique
o interactions
• Il existe des modèles théoriques non linéaires qui ne peuvent être
transformés en une spécification linéaire et nécessitent donc
l’utilisation d’un estimateur non linéaire (pas traité dans ce cours).
−1
→ Exemple : y = β0 + β1 ( x + β3 )
Chapitre 4.3
Régression linéaire multiple 28 / 50
Statistique
1e année bachelor, 2009-10

Spécification polynomiale
• La spécification de base de la régression linéaire multiple peut être
considérée comme un cas particulier d’une classe de fonctions
plus large, les fonctions polynomiales :
y = β0 + β1x + β 2 x 2 + β3 x 3 + ... + βK x K + ε
→ K : le « degré » du polynôme
→ K = 2 : polynôme du deuxième degré (ou « parabole »)

• Si ε satisfait les hypothèses du modèle des MCO, cette


spécification peut être estimée avec la méthode des moindres
carrés :
yˆ = E ( y x ) = b0 + b1x + b2 x 2 + b3 x 3 + ... + bK x K

Chapitre 4.3
Régression linéaire multiple 29 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (1)

• Le syndic se rend compte que sa spécification initiale n’est pas


satisfaisante. En particulier, l’hypothèse d’une relation linéaire
entre l’âge et le revenu des habitants n’est pas plausible.

• Il décide donc d’estimer un modèle polynomial du deuxième degré


pour la variable indépendante « âge » :
y = β0 + β1x1 + β 2 x12 + β3 x2 + ε ,
où x1 = âge, et x2 = expérience

Chapitre 4.3
Régression linéaire multiple 30 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (2)


Statistiques de la régression
Coefficient de détermination multiple 0.956286456
Coefficient de détermination R^2 0.914483786
Coefficient de détermination R^2 0.882415205
Erreur-type 1136.692321
Observations 12

ANALYSE DE VARIANCE
Valeur critique de
Degré de liberté Somme des carrés Moyenne des carrés F
F
Régression 3 110535907.7 36845302.56 28.5165036 0.000127026
Résidus 8 10336555.45 1292069.432
Total 11 120872463.1

Limite inférieure Limite supérieure


Coefficients Erreur-type Statistique t Probabilité pour seuil de pour seuil de
confiance = 95% confiance = 95%
Constante 3932.56245 6744.300766 0.583094169 0.57589379 -11619.82299 19484.94789
âge 2077.513837 329.7370239 6.300517339 0.00023266 1317.138897 2837.888777
âge^2 -22.07705908 3.992584707 -5.529515516 0.00055414 -31.28397592 -12.87014225
expérience 97.9923741 51.6272887 1.89807322 0.09424716 -21.06036705 217.0451152

• b1 et b2 sont statistiquement significatifs


• « expérience » devient statistiquement significative (à 10%)
⇒ spécification parabolique semble justifiée
Chapitre 4.3
Régression linéaire multiple 31 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (3)


• Prédictions impliquées par les coefficients estimés pour une
personne avec dix ans d’expérience :
2
ˆ
( 2
y x = 10 ) = 3932.6 + 2077.5 * x1 − 22.1* x1 + 98 * 10
56000

• Prédiction de l’âge 52000

auquel le revenu est


maximal, x1max :

revenu
48000

∂yˆ
= b1 + 2b2 x1max = 0 44000
∂x1
∴ x1max = −b1 2 b2 40000
25 30 35 40 45 50 55

max −2077.5 âge


∴ x1 = = 47
2 * ( −22.1)
Chapitre 4.3
Régression linéaire multiple 32 / 50
Statistique
1e année bachelor, 2009-10

Variables indépendantes binaires


• Une variable indépendante binaire (aussi : variable « muette »,
« indicatrice », ou « dummy ») ne prend que deux valeurs : 0 ou 1.
• Les variables binaires sont utilisées pour distinguer deux niveaux
mutuellement exclusifs des valeurs d’une variable quantitative ou
qualitative. Quelques exemples :
o dimension temporelle : bonne/mauvaise conjoncture ; été/non-
été ; avant/après campagne publicitaire…
o dimension spatiale : nord/sud ; ville/campagne ;
Suisse/étranger…
o variables qualitatives : homme/femme ; employé/non-employé…
o variables quantitatives groupées : ménages à plus/moins de
50000 de revenu ; firmes avec plus/moins de 10 employés…
• Le niveau pour laquelle la variable binaire est définie comme égale
à zéro, est appelée le « niveau de référence ».
Chapitre 4.3
Régression linéaire multiple 33 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (4)


• Le syndic cherche à savoir si, au-delà de l’âge et de l’expérience
(càd « en contrôlant pour » x1, x12 et x2), le sexe des travailleurs
influence leur salaire moyen. Il définit alors la variable muette x3
suivante :
o individu i est une femme ⇔ x3 = 1
o individu i est un homme ⇔ x3 = 0 (niveau de référence)
ind. revenu âge expérience femme
1 52125.0 48.1 5.5 1
2 50955.9 38.7 2.5 0
3 53382.9 48.6 18.9 1
4 51286.9 37.5 13.5 0
5 55243.6 54.7 25.5 1
6 53384.7 40.7 7.3 0
7 53488.2 50.1 2.3 0
8 54134.1 45.9 18.8 1
9 52706.4 55.9 19 1
10 42144.3 25.1 5.5 0
11 52665.2 36.9 5 0
12 51656.7 34.5 15.5 0
Moyenne 51931.2 43.1 11.6 0.42
Ecart type 3314.9 9.1 7.8 0.51
Chapitre 4.3
Régression linéaire multiple 34 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (5)


Statistiques de la régression
Coefficient de détermination multiple 0.973087042
Coefficient de détermination R^2 0.946898391
Coefficient de détermination R^2 0.916554614
Erreur-type 957.5655371
Observations 12

ANALYSE DE VARIANCE
Valeur critique de
Degré de liberté Somme des carrés Moyenne des carrés F
F
Régression 4 114453940.8 28613485.21 31.2056868 0.000148858
Résidus 7 6418522.304 916931.7578
Total 11 120872463.1

Limite inférieure Limite supérieure


Coefficients Erreur-type Statistique t Probabilité pour seuil de pour seuil de
confiance = 95% confiance = 95%
Constante 3468.379446 5685.929397 0.609993407 0.56113791 -9976.707094 16913.46599
âge 2038.603283 278.4121524 7.322249642 0.00015968 1380.263156 2696.943411
âge^2 -20.82811623 3.417246482 -6.094999684 0.00049351 -28.90862013 -12.74761233
expérience 148.3984189 49.86108402 2.976237317 0.02062455 30.49569049 266.3011474
femme -2054.157981 993.7297586 -2.067119318 0.07754583 -4403.955467 295.6395053

• En moyenne, une femme gagne 2054.2 francs de moins qu’un


homme du même âge et avec le même nombre d’années
d’expérience.
• Cet effet est statistiquement significatif au seuil de 10% mais non
au seuil de 5%.
Chapitre 4.3
Régression linéaire multiple 35 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (6)


• Prédictions impliquées par les coefficients estimés
o pour une femme avec dix ans d’expérience :
2
( 2
yˆ x = 10, x 3 = 1) = 3468 + 2038.6 * x1 − 20.8 * x1 + 148 * 10 − 2054.2
o pour un homme avec dix ans d’expérience :
( yˆ x2 = 10, x3 = 0 ) = 3468 + 2038.6 * x1 − 20.8 * x12 + 148 * 10
56000

52000

femmes
hommes

revenu
48000

b3 = 2054.2 44000

40000
25 30 35 40 45 50 55
âge

Chapitre 4.3
Régression linéaire multiple 36 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (7)


• Plutôt qu’estimer les paramètres du modèle de régression (des
corrélations conditionnelles), le syndic pourrait s’intéresser aux
corrélations « pures » ρˆ kl entre toutes les paires de variables
indépendantes kl (les corrélations inconditionnelles).
→ examiner la matrice de corrélation

• Excel : Outils - Utilitaire d’analyse – Analyse de


corrélation – Intitulés en première ligne
revenu âge âge^2 expérience femme
revenu 1
âge 0.765032264 1
âge^2 0.69672771 0.993137906 1
expérience 0.411455189 0.482058499 0.50549735 1
femme 0.422675732 0.738416719 0.75563342 0.667095592 1

!
Chapitre 4.3
Régression linéaire multiple 37 / 50
Statistique
1e année bachelor, 2009-10

Variables binaires pour niveaux multiples


• Des variables indépendantes binaires peuvent aussi servir pour
représenter des variables qualitatives ou des variables
quantitatives groupées avec C > 2 niveaux. Dans ce cas on crée
C − 1 variables binaires, une pour chaque niveau sauf un, appelé
« catégorie de référence ».
• Exemple Statville : Trois tranches d’âge
o 0 − 30 : x1 = 0 ; x2 = 0
o 31 − 55 : x1 = 1 ; x2 = 0 E ( y ) = β 0 + β1x1 + β 2 x2
o 56 − 65 : x1 = 0 ; x2 = 1
⇒ β0 est le salaire moyen des jeunes (0 − 30)
⇒ β1 est la différence entre le salaire moyen du groupe des 31 à
55 par rapport à celui des jeunes.
⇒ β2 est la différence entre le salaire moyen du groupe des 56 à
65 par rapport à celui des jeunes.
Chapitre 4.3
Régression linéaire multiple 38 / 50
Statistique
1e année bachelor, 2009-10

Spécifications logarithmiques (1)


• Un modèle non linéaire mais « intrinsèquement linéaire » est
K
l’équation Cobb-Douglas, y = a∏ xkβ , souvent utilisée en
k

k =1
microéconomie pour représenter l’origine des courbes d’offre
(fonction de production) et de demande (fonction d’utilité).
→ version stochastique (K = 2) : y = ax1β x2β eε , où ε satisfait
1 2

les cinq hypothèses du modèle des MCO


• Ce modèle devient linéaire quand on le transforme en logarithmes
naturels : ln y = β0 + β1 ln x1 + β 2 ln x2 + ε , où β0 = lna.
o Puisque pour estimer ce modèle on transforme la variable
dépendante ainsi que les variables indépendantes, on parle de
la « double transformation logarithmique » ou de la
« spécification log-log ».
Chapitre 4.3
Régression linéaire multiple 39 / 50
Statistique
1e année bachelor, 2009-10

Spécifications logarithmiques (2)


• Un grand atout de la spécification log-log est que les coefficients
estimés peuvent être interprétés comme des élasticités. On parle
donc aussi du « modèle à élasticité constante ».) ∂ ( ln y ) 1
= ⇒
∂y
= ∂ ( ln y )
∂y y y
∂y
 ∂y   xk  y ∂ ln y
o élasticité de y par rapport à xk :     = = = βk
 ∂xk   y  ∂xk ∂ ln xk
xk
o Tout comme les coefficients standardisés, les coefficients d’un
modèle log-log peuvent être comparés à travers les variables
indépendantes k, puisque par définition les élasticités sont toutes
exprimées dans les mêmes unités (càd en termes de déviations
en pourcentage de y et de xk).

Chapitre 4.3
Régression linéaire multiple 40 / 50
Statistique
1e année bachelor, 2009-10

Spécifications logarithmiques (3)

• Un autre modèle « intrinsèquement linéaire » est donné par


y = e β + β x + β x +...+ β x .
0 1 1 2 2 k k

→ version stochastique (K = 2) : y = e β + β x + β x
0 1 1 2 2 +ε
, où ε satisfait
les cinq hypothèses du modèle des MCO

• Ce modèle devient linéaire quand on le transforme en logarithmes


naturels : ln y = β0 + β1x1 + β 2 x2 + ε .
o Puisque pour estimer ce modèle on ne transforme que la
variable dépendante, on parle de la « spécification semi-
logarithmique ».

Chapitre 4.3
Régression linéaire multiple 41 / 50
Statistique
1e année bachelor, 2009-10

Spécifications logarithmiques (4)


• Les paramètres d’une telle spécification sont des semi-elasticités :
il représentent la variation en pourcentage de la variable
dépendante par rapport à une variation d’une unité de la variable
indépendante en question. Puisque ces semi-elasticités dépendent
des unités de mesure des variables indépendantes, elle ne sont
pas directement comparables à travers les différentes variables
indépendantes.
• La spécification semi-logarithmique est utilisée en macroéconomie
afin de modéliser des taux de croissance stables :
o Soit y = e β + β x +ε , où y est un agrégat économique (PIB, niveau
0 1

des prix,…), et x est la variable « temps » (en mois, trimestres,


années,…).
d ln y
o Alors β1 = est le taux de croissance moyen de y.
dx
Chapitre 4.3
Régression linéaire multiple 42 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (8)


• Spécification log-log (régression simple) :
ln(revenu) = β0 + β1*ln(âge) + ε
Statistiques de la régression
Coefficient de détermination multiple 0.825687981
Coefficient de détermination R^2 0.681760643
Coefficient de détermination R^2 0.649936707
Erreur-type 0.04086423
Observations 12

ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 0.035773766 0.035773766 21.422889 0.000938341
Résidus 10 0.016698853 0.001669885
Total 11 0.052472619

Limite inférieure pour seuil Limite supérieure pour


Coefficients Erreur-type Statistique t Probabilité
de confiance = 95% seuil de confiance = 95%
Constante 9.92017321 0.202446229 49.00152131 3.025E-13 9.469094904 10.37125152
ln(âge) 0.25009325 0.054033481 4.628486685 0.00093834 0.129699151 0.370487348

→ par pourcent d’âge supplémentaire, le revenu moyen augmente


de 0.25 pourcent
→ R-carré (0.68) plus élevé que dans la régression avec y et x non
transformées (0.59, voir ch. 4.2.4) ⇒ spécification log-log (non-
linéaire) mieux ajustée aux données
Chapitre 4.3
Régression linéaire multiple 43 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (9)


• Spécification semi-logarithmique (régression simple) :
ln(revenu) = β0 + β1*âge + ε
Statistiques de la régression
Coefficient de détermination multiple 0.756007595
Coefficient de détermination R^2 0.571547483
Coefficient de détermination R^2 0.528702231
Erreur-type 0.047415214
Observations 12

ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 0.029990593 0.029990593 13.3398092 0.004444832
Résidus 10 0.022482026 0.002248203
Total 11 0.052472619

Limite inférieure pour seuil Limite supérieure pour


Coefficients Erreur-type Statistique t Probabilité
de confiance = 95% seuil de confiance = 95%
Constante 10.60757468 0.069273957 153.1249996 3.4657E-18 10.45322269 10.76192668
âge 0.005758884 0.001576753 3.652370354 0.00444483 0.002245661 0.009272108

→ par année d’âge supplémentaire, le revenu moyen augmente de 0.57


pourcent
→ R-carré (0.57) moins élevé que dans la régression avec y et x non
transformés (0.59, voir. ch. 4.2.4) ⇒ spécification semi-logarithmique
moins bien ajustée aux données
Chapitre 4.3
Régression linéaire multiple 44 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statville (10)

55000

45000
revenu

yˆ = 39885 + 279.7 x
35000
yˆ = exp ( 9.92 + 0.25 * ln ( x ) )
yˆ = exp(10.61 + 0.006 x )
25000

15000
0 10 20 30 40 50 60
âge
Chapitre 4.3
Régression linéaire multiple 45 / 50
Statistique
1e année bachelor, 2009-10

Interactions (1)

• L’équation de régression linéaire multiple implique des effets isolés


∂y
de chaque variable indépendante : = β k ∀k
∂xk

• En ajoutant des produits de variables indépendantes (« termes


d’interaction »), on peut modéliser des interdépendances entre
les effets des variables indépendantes :
y = β0 + β1x1 + β 2 x2 + β3 x1x2 + ε
∂y ∂y
⇒ = β1 + β3 x2 , = β 2 + β3 x1
∂x1 ∂x2

Chapitre 4.3
Régression linéaire multiple 46 / 50
Statistique
1e année bachelor, 2009-10

Interactions (2)
• β1 (β2) représente l’effet de x1 (x2) sur ŷ quand x2 (x1) est égal à
zéro. Puisque une valeur de zéro n’est souvent pas très réaliste ou
informative (p.ex. dans une estimation des déterminants
salariaux), on estime souvent une spécification transformée :
y = β0 + βɶ1x1 + βɶ2 x2 + β3 ( x1 − x1 )( x2 − x2 ) + ε .
βɶ1 ( βɶ2 ) est alors l’effet de x1 (x2) sur ŷ quand x2 (x1) prend sa
valeur moyenne.
• Si x1 est une variable continue et x2 une variable binaire, alors β2
représente le déplacement de l’intercept, et β3 représente le
changement de la pente de ŷ par rapport à x1, quand x2 passe de
0 à 1.

Chapitre 4.3
Régression linéaire multiple 47 / 50
Statistique
1e année bachelor, 2009-10

ind. commune revenu âge âge*commune


Exemple Statland (1) 1
2
0
0
52125.0 48.11629
50955.9 38.7
0
0
3 0 53382.9 48.6 0
4 0 51286.9 37.5 0
5 0 55243.6 54.7 0
• Les syndics de Statville et 6 0 53384.7 40.7 0
7 0 53488.2 50.1 0
Statdorf cherchent à savoir si les 8 0 54134.1 45.9 0
9 0 52706.4 55.9 0
salaires moyens croissent à un 10 0 42144.3 25.1 0

rythme différent avec l’âge dans 11


12
0
0
52665.2
51656.7
36.9
34.5
0
0

leurs deux communes. moyenne


écart type
0
0
51931.2
3314.9
43.1
9.1
0
0
• Ils collectionnent des données 13
14
1
1
52115.3
44234.5
42.4
36.5
42.4
36.5
pour des échantillons aléatoires 15
16
1
1
55381.3
56091.4
42.7
41.1
42.7
41.1
simples dans les deux communes 17
18
1
1
52160.0
46920.1
33.9
35.9
33.9
35.9
(n = 12). 19
20
1
1
49522.2
53446.7
34.7
44.1
34.7
44.1
21 1 50557.1 28.5 28.5
22 1 51202.0 48.7 48.7
23 1 51905.6 49.8 49.8
24 1 46352.9 25.4 25.4
moyenne 1 49977.9 38.6 38.6
écart type 0 3576.0 7.5 7.5

Chapitre 4.3
Régression linéaire multiple 48 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statland (2)


• revenu = β0 + β1*commune + β2*âge + β3*âge*commune + ε,
où commune = 0 ⇔ Statville ; commune = 1 ⇔ Statdorf
Statistiques de la régression
Coefficient de détermination multiple 0.655120807
Coefficient de détermination R^2 0.429183271
Coefficient de détermination R^2 0.343560762
Erreur-type 2769.816554
Observations 24

ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 3 115366070.9 38455356.96 5.012505176 0.009414488
Résidus 20 153437674.8 7671883.742
Total 23 268803745.7

Limite inférieure pour seuil Limite supérieure pour


Coefficients Erreur-type Statistique t Probabilité
de confiance = 95% seuil de confiance = 95%
Constante 39885.01609 4046.721199 9.856131452 4.03454E-09 31443.70361 48326.32857
commune 1476.081811 5953.907628 0.247918158 0.80672532 -10943.55183 13895.71546
âge 279.6979321 92.10788803 3.036633865 0.006515058 87.56424498 471.8316191
âge*commune -34.74704321 144.3440856 -0.240723706 0.812219723 -335.8435288 266.3494424

 ∂revenu 
⇒ commune = 1 = 279.7 − 34.7 = 245
 ∂âge 
(différence non significative du point de vue statistique)
Chapitre 4.3
Régression linéaire multiple 49 / 50
Statistique
1e année bachelor, 2009-10

Exemple Statland (3)


56000

54000

52000
revenu

50000

revenu estimé: Statville


48000 revenu estimé: Statdorf
revenu observé: Statville
46000 revenu observé: Statdorf

44000

42000
25 30 35 40 45 50 55 60
âge
Chapitre 4.3
Régression linéaire multiple 50 / 50

Vous aimerez peut-être aussi