Vous êtes sur la page 1sur 50

Statistique

1e anne bachelor, 2009-10

Chapitre 4 : RGRESSION
4.3

Rgression linaire multiple

4.3.1
4.3.2
4.3.3
4.3.4

Equation et Estimation
Infrence
Coefficients de dtermination
Spcifications

Chapitre 4.3
Rgression linaire multiple

1 / 50

Statistique
1e anne bachelor, 2009-10

Chapitre 4 : RGRESSION
4.3

Rgression linaire multiple

4.3.1
4.3.2
4.3.3
4.3.4

Equation et Estimation
Infrence
Coefficients de dtermination
Spcifications

Chapitre 4.3
Rgression linaire multiple

2 / 50

Statistique
1e anne bachelor, 2009-10

Lquation de la rgression (1)


Un modle de rgression multiple contient 1 < K < n 1 variables
indpendantes, x1, x2 ,..., xK . (On utilisera k comme indice pour une
variable particulire.)
Les paramtres sont estimables quand K = n 1, mais
lajustement est alors parfait et linfrence est impossible. En
pratique, on doit veiller ce que n >> K .
Lquation de la rgression linaire multiple (ou le modle de
rgression ) scrit donc de la faon suivante :
y = 0 + 1x1 + 2 x2 + ... + K xK + , o E() = 0,

E ( y ) = 0 + 1x1 + 2 x2 + ... + K xK ,
E ( y x1, x2 ,..., xK ) = 0 + 1x1 + 2 x2 + ... + K xK ,
o 0 , 1, 2 ,..., K sont les paramtres du modle, et le terme
derreur est une variable alatoire.
Chapitre 4.3
Rgression linaire multiple

3 / 50

Statistique
1e anne bachelor, 2009-10

Lquation de la rgression (2)


Tout comme dans le cas de la rgression linaire simple, 0
reprsente le point, o x1 = x2 = ... = xK = 0 ( constante ).
La valeur dun paramtre k > 0 donne le nombre dunits
supplmentaires de y associes une augmentation par une unit
de xk lorsque toutes les autres variables indpendantes sont
constantes (variation ceteris paribus ).
E ( y x1, x2 ,...xK ) est la moyenne de y pour un vecteur de valeurs
des variables indpendantes { x1, x2 ,..., xK } donn.

Chapitre 4.3
Rgression linaire multiple

4 / 50

Statistique
1e anne bachelor, 2009-10

Lquation de la rgression (3)


Si K > 2, on ne peut plus reprsenter le modle de rgression de
faon graphique.
Avec K = 2, une reprsentation graphique est possible, puisquil
ny a que trois dimensions : x1, x2 et y. Lquivalent la droite de
rgression en rgression linaire simple est alors appel
surface de rponse :

Chapitre 4.3
Rgression linaire multiple

5 / 50

Statistique
1e anne bachelor, 2009-10

Lquation estime
Les statistiques dchantillon b0 , b1, b2 ,..., bK servent
destimations de 0 , 1, 2 ,..., K .
Ainsi, lquation estime de la rgression est donne par :
y = b0 + b1x1 + b2 x2 + ... + bK xK ,

o y est lestimation ponctuelle de E ( y x1, x2 ,...xK ) .

Chapitre 4.3
Rgression linaire multiple

6 / 50

Statistique
1e anne bachelor, 2009-10

Processus
destimation

Chapitre 4.3
Rgression linaire multiple

7 / 50

Statistique
1e anne bachelor, 2009-10

Estimation par les moindres carrs


Tout comme pour la rgression linaire simple, la mthode la plus
rpandue pour calculer b0 , b1, b2 ,..., bK est lestimateur des moindres
carrs.
Formellement, la mthode est alors la suivante :
n

{b0 , b1, b2 ,..., bK } = arg min ( y i y i )


b0 ,b1,b2 ,...bK i =1
n

= arg min ( y i b0 b1x1i b2 x2i ... bK xKi )

b0 ,b1,b2 ,...bK i =1

Lestimateur des moindres carrs pour une rgression multiple suit


la mme logique que celle de la rgression linaire simple, mais sa
formulation est plus complique, ncessitant lutilisation de lalgbre
matricielle. De plus, lestimation est trop complique pour tre faite
la main avec un effort raisonnable et est donc toujours
effectue avec laide dun ordinateur.
Chapitre 4.3
Rgression linaire multiple

8 / 50

Statistique
1e anne bachelor, 2009-10

Chapitre 4 : RGRESSION
4.3

Rgression linaire multiple

4.3.1
4.3.2
4.3.3
4.3.4

Equation et Estimation
Infrence
Coefficients de dtermination
Spcifications

Chapitre 4.3
Rgression linaire multiple

9 / 50

Statistique
1e anne bachelor, 2009-10

Hypothses de lestimateur MCO


Tout comme pour la rgression linaire simple, la lgitimit des
tests dhypothse repose sur les cinq hypothses faites propos
du terme derreur du modle de rgression, .
En fait, on peut dmontrer que, sous condition que ces hypothses
soient satisfaites, lestimateur des MCO est le meilleur des
estimateurs concevables, dans le sens suivant (thorme de
Gauss-Markov):

o Les coefficients estims b0 , b1, b2 ,..., bK sont des estimations nonbiaises des paramtres 0 , 1, 2 ,..., K .
o Lestimateur MCO implique les variances des coefficients
estims sb2 , sb2 , sb2 ,..., sb2 les plus petites de tous les estimateurs
linaires et non-biaiss concevables.
0

Chapitre 4.3
Rgression linaire multiple

10 / 50

Statistique
1e anne bachelor, 2009-10

Test du t de Student (1)


Si les hypothses sur sont satisfaites, on peut se servir de la loi
du t de Student pour tester des hypothses sur des paramtres
individuels k.
bk k
Statistique de test : t k =
t n K 1
sbk

o Le calcul de lerreur type des coefficients estims sbk est trop


compliqu pour tre effectu la main , mais sa logique est
la mme que dans le cas de la rgression linaire simple.
o Notamment, sbk tend diminuer avec n.
Lintervalle de confiance autour dun paramtre estim individuel
est alors donn par : b t nK 1 * s
k

Chapitre 4.3
Rgression linaire multiple

bk

11 / 50

Statistique
1e anne bachelor, 2009-10

Test du t de Student (2)


Dans la plupart des applications, lhypothse la plus importante
concerne la signification statistique de xk comme facteur
explicatif des variations de y.
H0 : k = 0 ; H1 : k 0
bk
statistique de test : t k =
t n K 1
sbk
Ces statistiques de test sont fournies par tous les logiciels
statistiques pour chacun de coefficients estims b0 , b1, b2 ,..., bK .

Puisque t0.05
= 1.96 , une faon de tester la significativit statistique
5% dun coefficient estim dune rgression multiple base sur
un grand chantillon est de vrifier si t k > 1.96 . Pour tester la
significativit 1%, on vrifie si t k > 2.58 .
Chapitre 4.3
Rgression linaire multiple

12 / 50

Statistique
1e anne bachelor, 2009-10

Test du F de Fisher
Si les hypothses sur sont satisfaites, on peut se servir de la loi
du F de Fisher pour dterminer sil existe une relation significative
entre y et lensemble des variables indpendantes ; on parle du
test de signification globale.
H0 : 1 = 2 = ... = k = 0
H1 : au moins un des paramtres nest pas gal zro
SCReg
K
Statistique de test : F =
F (K , n K 1)
SCRes
n K 1
Chapitre 4.3
Rgression linaire multiple

13 / 50

Statistique
1e anne bachelor, 2009-10

Multicolinarit (1)
Il est possible quaucun des coefficients estims bk soit
individuellement statistiquement significatif (selon le test du t de
Student), mais que le modle soit quand mme globalement
statistiquement significatif (selon le test du F de Fisher).
Lexplication de ce phnomne apparemment paradoxal est la
multicolinarit : le fait que les variables indpendantes xk, tout en
tant indpendantes de y, peuvent parfaitement tre corrles
entre elles.
Plus les variables indpendantes sont corrles, plus il devient
difficile de dterminer leffet propre dune variable indpendante
particulire sur la variable dpendante. Autrement dit, quand la
multicolinarit est forte, les erreurs type des coefficients sbk sont
grands, et le risque peut tre fort que les coefficients estims
prennent le signe oppos celui du vrai paramtre.
Chapitre 4.3
Rgression linaire multiple

14 / 50

Statistique
1e anne bachelor, 2009-10

Multicolinarit (2)
En pratique il peut tre utile dinspecter la matrice de corrlation
entre les variables indpendante. Comme valeur pratique (trs)
approximative, on utilise parfois un seuil de x x = 0.7 pour
k

dterminer sil y a un problme potentiel de multicolinarit entre


deux variables.
La multicolinarit peut prendre la forme dune relation linaire
entre plusieurs variables indpendantes, cd elle peut tre
prsente mme si les corrlations entre paires de variables
individuelles sont toutes relativement faibles. Des tests plus
avancs existent pour vrifier la prsence de ce phnomne.
Le meilleur moyen pour pallier au problme de multicolinarit est
daugmenter la taille de lchantillon n.
Sil y a colinarit parfaite entre deux ou plusieurs variables
indpendantes, leurs paramtres ne peuvent pas tre estims.
Chapitre 4.3
Rgression linaire multiple

15 / 50

Statistique
1e anne bachelor, 2009-10

Chapitre 4 : RGRESSION
4.3

Rgression linaire multiple

4.3.1
4.3.2
4.3.3
4.3.4

Equation et Estimation
Infrence
Coefficients de dtermination
Spcifications

Chapitre 4.3
Rgression linaire multiple

16 / 50

Statistique
1e anne bachelor, 2009-10

R-carr (1)
La dfinition du R-carr (aussi : coefficient de dtermination
multiple ) est identique celle pour la rgression linaire simple :
n

R =
2

( y i y )

( yi y )

i =1
n

SCReg
SCReg
=
=
SCReg + SCRes SCTot

i =1

= 1

( y i y i )
i =1
n

( yi y )
i =1

Chapitre 4.3
Rgression linaire multiple

2
u
i

s
e
R
C
S

= 1

i =1

( yi y )

= 1

SCTot

i =1

17 / 50

Statistique
1e anne bachelor, 2009-10

R-carr (2)
Le R-carr exprime le pourcentage de la somme des carrs totaux
expliqu (dans le sens dune explication gomtrique et non
causale !) par lquation estime de la rgression.
Le R-carr ne peut pas tre dcompos en contributions
explicatives de chacune des K variables explicatives.
Exception : cas de zro colinarit entre les variables
explicatives (qui sont donc orthogonales )
Exemple : vecteurs de variables binaires par pays et par
anne dans un modle des diffrences de taux de chmage
dcomposition du R-carr en une composante
conjoncturelle (contribution au R-carr des diffrences
temporelles) et une composante structurelle (contribution
au R-carr des diffrences inter-pays)
Chapitre 4.3
Rgression linaire multiple

18 / 50

Statistique
1e anne bachelor, 2009-10

R-carr et test du F de Fisher


Il existe une relation mathmatique entre le R-carr et la
statistique de test de signification globale (du F de Fisher) :
SCReg
2
n

1
R
(
)
K
F=
=
SCRes
K (1 R 2 )
n K 1
tant donn n et K, un R-carr lev implique une statistique F
leve.
De plus, la statistique F varie en fonction de n et de K. Pour un Rcarr donn, plus n K est grand, plus la statistique F est leve.
Intuitivement, cela reprsente le fait que plus il y a dobservations
par rapport au nombre de variables indpendantes, plus il semble
invraisemblable quune certaine qualit dajustement du modle
(cd un certain R-carr) se soit produit alatoirement.
Chapitre 4.3
Rgression linaire multiple

19 / 50

Statistique
1e anne bachelor, 2009-10

R-carr ajust (1)

s
e
R
C
S

Puisque la mthode des MCO minimise la somme des carrs des


rsidus (SCRes), le R-carr augmente si on ajoute des variables
indpendantes (ce qui ne change pas SCTot) mme si ces
variables ne sont pas statistiquement significatives.
La valeur du R-carr dpend donc de K, ce qui complique la
comparaison de la qualit dajustement de diffrents modles
de rgression si le nombre de variables indpendantes nest pas
identique.
Pour cette raison, il est courant de calculer le R-carr ajust :
n K 1)
(
n 1
2
2
R = 1
= 1 (1 R )
, R2 1
SCTot ( n 1)
n K 1
Chapitre 4.3
Rgression linaire multiple

20 / 50

Statistique
1e anne bachelor, 2009-10

s
e
R
C
S

R-carr ajust (2)


SCTot

( n K 1) est la variance estime des rsidus, su2 ; et


( n 1) est la variance estime de y. On peut donc aussi

crire le R-carr ajust de la faon suivante : R 2 = 1 ( su2 sy2 ) .

Si lajout dune variable indpendante diminue SCRes


proportionnellement moins quil naugmente K, alors su2 augmente,
et le R-carr ajust diminue. Le R-carr ajust peut donc diminuer
ou augmenter quand on ajoute des variables indpendantes. Il est
mme possible que le R-carr ajust prenne des valeurs ngatives
(si K est grand et le R-carr est petit).
On peut dmontrer que lajout dune variable indpendante
augmente le R-carr ajust si la statistique du t de Student de
cette variable est suprieure 1. Pour augmenter le R-carr
ajust, une variable indpendante supplmentaire na donc pas
besoin dtre statistiquement significative, mme au seuil de 10%.
Chapitre 4.3
Rgression linaire multiple

21 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (1)


Le syndic cherche savoir si
leffet de lge sur le revenu
des habitants de sa commune
reste statistiquement
significatif si on contrle aussi
pour la dure dexprience
des travailleurs dans leur
fonction actuelle. Il recense
donc la variable
exprience pour les 12
individus de son chantillon
alatoire simple.

Chapitre 4.3
Rgression linaire multiple

ind.
1
2
3
4
5
6
7
8
9
10
11
12
Moyenne
Ecart type

revenu
52125.0
50955.9
53382.9
51286.9
55243.6
53384.7
53488.2
54134.1
52706.4
42144.3
52665.2
51656.7
51931.2
3314.9

ge
48.1
38.7
48.6
37.5
54.7
40.7
50.1
45.9
55.9
25.1
36.9
34.5
43.1
9.1

exprience
5.5
2.5
18.9
13.5
25.5
7.3
2.3
18.8
19.0
5.5
5.0
15.5
11.6
7.8

22 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (2)


Excel : Outils - Utilitaire danalyse - Rgression
linaire cocher Intitul prsent
R

R2

R2

su

SCRes

RAPPORT DTAILL
Statistiques de la rgression
Coefficient de dtermination multiple
Coefficient de dtermination R^2
Coefficient de dtermination R^2
Erreur-type
Observations

0.766580532
0.587645712
0.496011426
2353.302134
12

ANALYSE DE VARIANCE
Rgression
Rsidus
Total

Degr de libert Somme des carrs Moyenne des carrs


F
Valeur critique de F
2
71030184.72
35515092.36 6.4129458
0.018565956
9
49842278.42
5538030.936
11
120872463.1

Coefficients
Constante
ge
exprience

Chapitre 4.3
Rgression linaire multiple

40034.4147
269.9022708
23.47323377

Erreur-type
3500.343207
89.3203627
103.1785424

Statistique t

Limite infrieure
Probabilit
pour seuil de
confiance = 95%

11.43728267 1.158E-06
3.021732813 0.0144387
0.227501118 0.8251181

32116.08826
67.84557296
-209.9328446

Limite suprieure
pour seuil de
confiance = 95%
47952.74114
471.9589687
256.8793121

23 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (3)


Le syndic conclut que, tant donn lge, les annes dexprience
dans la fonction ne constituent pas un dterminant
statistiquement significatif du salaire. Le modle prdit donc
que deux travailleurs qui ont le mme ge mais des dures
dexprience diffrentes auront le mme salaire en moyenne.
On note que par rapport lestimation de la rgression linaire
simple (avec lge comme unique variable indpendante), le Rcarr a augment (de 0.585 0.588). Par contre, puisque la valeur
de la statistique t de la variable exprience est infrieure 1, le
R-carr ajust a diminu (de 0.544 0.496).
Malgr laugmentation du R-carr, la valeur de la statistique F a
diminu (de 14.1 6.4) et celle de lerreur type de la rgression a
augment (de 2239 2353). Laugmentation de K (de 1 2) a
donc plus que compens la diminution de SCRes (de 50.1 mn
49.8 mn).
Chapitre 4.3
Rgression linaire multiple

24 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (4)


Corrlation entre les variables ge et exprience :
12 = 0.77 La multicolinarit pourrait jouer un rle (cd les
variations dans le valeurs de la variable
exprience ne sont pas suffisamment
indpendantes de lge, ainsi quavec seulement 12
observations on arrive pas identifier statistiquement un effet spcifique d exprience .
Excel : =COEFFICIENT.CORRELATION(ge;exprience)
Prdiction du salaire pour une personne de 55 ans avec 15 ans
dexprience :
( y x1 = 55, x2 = 15 ) = E ( y x1 = 55, x2 = 15 )
= 40034 + 269.9 * 55 + 23.5 * 15 = 55231
La construction dun intervalle de confiance autour de cette
prvision nest pas possible avec Excel.
Chapitre 4.3
Rgression linaire multiple

25 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (5)


Dans les tableaux publis de rsultats de
la rgression, il est utile de prsenter les
coefficients ainsi que leurs erreurs types et
des symboles indiquant le niveau de
signification statistique du test bilatral de
H0 : k = 0 .
Une telle prsentation des rsultats facilite
des tests dhypothse alternatifs, H0 : k = z .

Les dterminants salariaux Statville


variable dpendante: salaires;
estimateur: MCO
Variables indpendantes :
ge

269.9*
(89.3)

exprience

23.4
(103.2)

Constante

40034.4*
(3500.3)

R-carr
R-carr ajust
Erreur type de la rgression
Observations

0.59
0.50
2353.3
12

Remarques : erreurs types entre parenthses ; * : significatif 5%

o Le syndic pourrait sintresser si la vritable hausse salariale


moyenne par anne dge est gale 500 francs ( = 5%) :
b1 500 269.9 500
9
t x1=500 =
=
= 2.58 ; tn K 1 = t0.05
= 2.26
sb1
89.3

o Intervalle de confiance de 95% approximatif pour n 60 : b 2 sb1


Chapitre 4.3
Rgression linaire multiple

26 / 50

Statistique
1e anne bachelor, 2009-10

Chapitre 4 : RGRESSION
4.3

Rgression linaire multiple

4.3.1
4.3.2
4.3.3
4.3.4

Equation et Estimation
Infrence
Coefficients de dtermination
Spcifications

Chapitre 4.3
Rgression linaire multiple

27 / 50

Statistique
1e anne bachelor, 2009-10

Bases
Par spcification , on entend la formulation du modle
empirique, cd de lquation de la rgression.
La spcification linaire est suffisamment flexible pour permettre
lestimation dune large gamme de modles thoriques, dont
certains sont non linaires la base (mais intrinsquement
linaires ). Nous prsenterons quelques spcifications
particulires trs utiles :
o spcification polynomiale
o variables indpendantes binaires
o spcification logarithmique
o interactions
Il existe des modles thoriques non linaires qui ne peuvent tre
transforms en une spcification linaire et ncessitent donc
lutilisation dun estimateur non linaire (pas trait dans ce cours).
1
Exemple : y = 0 + 1 ( x + 3 )
Chapitre 4.3
Rgression linaire multiple

28 / 50

Statistique
1e anne bachelor, 2009-10

Spcification polynomiale
La spcification de base de la rgression linaire multiple peut tre
considre comme un cas particulier dune classe de fonctions
plus large, les fonctions polynomiales :
y = 0 + 1x + 2 x 2 + 3 x 3 + ... + K x K +

K : le degr du polynme
K = 2 : polynme du deuxime degr (ou parabole )
Si satisfait les hypothses du modle des MCO, cette
spcification peut tre estime avec la mthode des moindres
carrs :
y = E ( y x ) = b0 + b1x + b2 x 2 + b3 x 3 + ... + bK x K
Chapitre 4.3
Rgression linaire multiple

29 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (1)


Le syndic se rend compte que sa spcification initiale nest pas
satisfaisante. En particulier, lhypothse dune relation linaire
entre lge et le revenu des habitants nest pas plausible.
Il dcide donc destimer un modle polynomial du deuxime degr
pour la variable indpendante ge :
y = 0 + 1x1 + 2 x12 + 3 x2 + ,
o x1 = ge, et x2 = exprience

Chapitre 4.3
Rgression linaire multiple

30 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (2)


Statistiques de la rgression
Coefficient de dtermination multiple
Coefficient de dtermination R^2
Coefficient de dtermination R^2
Erreur-type
Observations

0.956286456
0.914483786
0.882415205
1136.692321
12

ANALYSE DE VARIANCE
Degr de libert
Rgression
Rsidus
Total

3
8
11

Coefficients
Constante
ge
ge^2
exprience

3932.56245
2077.513837
-22.07705908
97.9923741

Somme des carrs


110535907.7
10336555.45
120872463.1

Erreur-type
6744.300766
329.7370239
3.992584707
51.6272887

Moyenne des carrs


36845302.56
1292069.432

Statistique t
0.583094169
6.300517339
-5.529515516
1.89807322

Valeur critique de
F
28.5165036
0.000127026
F

Probabilit
0.57589379
0.00023266
0.00055414
0.09424716

Limite infrieure Limite suprieure


pour seuil de
pour seuil de
confiance = 95% confiance = 95%
-11619.82299
19484.94789
1317.138897
2837.888777
-31.28397592
-12.87014225
-21.06036705
217.0451152

b1 et b2 sont statistiquement significatifs


exprience devient statistiquement significative ( 10%)
spcification parabolique semble justifie
Chapitre 4.3
Rgression linaire multiple

31 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (3)


Prdictions impliques par les coefficients estims pour une
personne avec dix ans dexprience :
2

y
x
=
10
=
3932.6
+
2077.5
*
x

22.1*
x
( 2
)
1
1 + 98 * 10
56000

Chapitre 4.3
Rgression linaire multiple

52000

revenu

Prdiction de lge
auquel le revenu est
maximal, x1max :
y
= b1 + 2b2 x1max = 0
x1
x1max = b1 2 b2
2077.5
max
x1 =
= 47
2 * ( 22.1)

48000

44000

40000
25

30

35

40

45

50

55

ge

32 / 50

Statistique
1e anne bachelor, 2009-10

Variables indpendantes binaires


Une variable indpendante binaire (aussi : variable muette ,
indicatrice , ou dummy ) ne prend que deux valeurs : 0 ou 1.
Les variables binaires sont utilises pour distinguer deux niveaux
mutuellement exclusifs des valeurs dune variable quantitative ou
qualitative. Quelques exemples :
o dimension temporelle : bonne/mauvaise conjoncture ; t/nont ; avant/aprs campagne publicitaire
o dimension spatiale : nord/sud ; ville/campagne ;
Suisse/tranger
o variables qualitatives : homme/femme ; employ/non-employ
o variables quantitatives groupes : mnages plus/moins de
50000 de revenu ; firmes avec plus/moins de 10 employs
Le niveau pour laquelle la variable binaire est dfinie comme gale
zro, est appele le niveau de rfrence .
Chapitre 4.3
Rgression linaire multiple

33 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (4)


Le syndic cherche savoir si, au-del de lge et de lexprience
(cd en contrlant pour x1, x12 et x2), le sexe des travailleurs
influence leur salaire moyen. Il dfinit alors la variable muette x3
suivante :
o individu i est une femme x3 = 1
o individu i est un homme x3 = 0 (niveau de rfrence)
ind.
1
2
3
4
5
6
7
8
9
10
11
12
Moyenne
Ecart type

revenu
52125.0
50955.9
53382.9
51286.9
55243.6
53384.7
53488.2
54134.1
52706.4
42144.3
52665.2
51656.7
51931.2
3314.9

Chapitre 4.3
Rgression linaire multiple

ge
48.1
38.7
48.6
37.5
54.7
40.7
50.1
45.9
55.9
25.1
36.9
34.5
43.1
9.1

exprience
5.5
2.5
18.9
13.5
25.5
7.3
2.3
18.8
19
5.5
5
15.5
11.6
7.8

femme
1
0
1
0
1
0
0
1
1
0
0
0
0.42
0.51
34 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (5)


Statistiques de la rgression
Coefficient de dtermination multiple
Coefficient de dtermination R^2
Coefficient de dtermination R^2
Erreur-type
Observations

0.973087042
0.946898391
0.916554614
957.5655371
12

ANALYSE DE VARIANCE
Degr de libert
Rgression
Rsidus
Total

4
7
11

Coefficients
Constante
ge
ge^2
exprience
femme

3468.379446
2038.603283
-20.82811623
148.3984189
-2054.157981

Somme des carrs


114453940.8
6418522.304
120872463.1

Erreur-type
5685.929397
278.4121524
3.417246482
49.86108402
993.7297586

Moyenne des carrs


28613485.21
916931.7578

Statistique t
0.609993407
7.322249642
-6.094999684
2.976237317
-2.067119318

Valeur critique de
F
31.2056868
0.000148858
F

Probabilit
0.56113791
0.00015968
0.00049351
0.02062455
0.07754583

Limite infrieure Limite suprieure


pour seuil de
pour seuil de
confiance = 95% confiance = 95%
-9976.707094
16913.46599
1380.263156
2696.943411
-28.90862013
-12.74761233
30.49569049
266.3011474
-4403.955467
295.6395053

En moyenne, une femme gagne 2054.2 francs de moins quun


homme du mme ge et avec le mme nombre dannes
dexprience.
Cet effet est statistiquement significatif au seuil de 10% mais non
au seuil de 5%.
Chapitre 4.3
Rgression linaire multiple

35 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (6)


Prdictions impliques par les coefficients estims
o pour une femme avec dix ans dexprience :
2

y
x
=
10,
x
=
1
=
3468
+
2038.6
*
x

20.8
*
x
( 2
)
3
1
1 + 148 * 10 2054.2
o pour un homme avec dix ans dexprience :
( y x2 = 10, x3 = 0 ) = 3468 + 2038.6 * x1 20.8 * x12 + 148 * 10
56000

revenu

52000

b3 = 2054.2

femmes
hommes
48000

44000

40000
25

Chapitre 4.3
Rgression linaire multiple

30

35

40
ge

45

50

55

36 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (7)


Plutt questimer les paramtres du modle de rgression (des
corrlations conditionnelles), le syndic pourrait sintresser aux
corrlations pures kl entre toutes les paires de variables
indpendantes kl (les corrlations inconditionnelles).
examiner la matrice de corrlation
Excel : Outils - Utilitaire danalyse Analyse de
corrlation Intituls en premire ligne
revenu
revenu
ge
ge^2
exprience
femme

1
0.765032264
0.69672771
0.411455189
0.422675732

ge
1
0.993137906
0.482058499
0.738416719

ge^2

1
0.50549735
0.75563342

exprience

1
0.667095592

femme

!
Chapitre 4.3
Rgression linaire multiple

37 / 50

Statistique
1e anne bachelor, 2009-10

Variables binaires pour niveaux multiples


Des variables indpendantes binaires peuvent aussi servir pour
reprsenter des variables qualitatives ou des variables
quantitatives groupes avec C > 2 niveaux. Dans ce cas on cre
C 1 variables binaires, une pour chaque niveau sauf un, appel
catgorie de rfrence .
Exemple Statville : Trois tranches dge
o 0 30 : x1 = 0 ; x2 = 0
o 31 55 : x1 = 1 ; x2 = 0
E ( y ) = 0 + 1x1 + 2 x2
o 56 65 : x1 = 0 ; x2 = 1

0 est le salaire moyen des jeunes (0 30)


1 est la diffrence entre le salaire moyen du groupe des 31
55 par rapport celui des jeunes.
2 est la diffrence entre le salaire moyen du groupe des 56
65 par rapport celui des jeunes.
Chapitre 4.3
Rgression linaire multiple

38 / 50

Statistique
1e anne bachelor, 2009-10

Spcifications logarithmiques (1)


Un modle non linaire mais intrinsquement linaire est
K

lquation Cobb-Douglas, y = a xk , souvent utilise en


k

k =1

microconomie pour reprsenter lorigine des courbes doffre


(fonction de production) et de demande (fonction dutilit).
version stochastique (K = 2) : y = ax1 x2 e , o satisfait
les cinq hypothses du modle des MCO
1

Ce modle devient linaire quand on le transforme en logarithmes


naturels : ln y = 0 + 1 ln x1 + 2 ln x2 + , o 0 = lna.

o Puisque pour estimer ce modle on transforme la variable


dpendante ainsi que les variables indpendantes, on parle de
la double transformation logarithmique ou de la
spcification log-log .
Chapitre 4.3
Rgression linaire multiple

39 / 50

Statistique
1e anne bachelor, 2009-10

Spcifications logarithmiques (2)


Un grand atout de la spcification log-log est que les coefficients
estims peuvent tre interprts comme des lasticits. On parle
( ln y ) 1
y
donc aussi du modle lasticit constante .)
=

= ( ln y )
y
y
y
y
y xk
ln y
y
o lasticit de y par rapport xk :
=
=
= k

ln xk
xk y xk
xk

o Tout comme les coefficients standardiss, les coefficients dun


modle log-log peuvent tre compars travers les variables
indpendantes k, puisque par dfinition les lasticits sont toutes
exprimes dans les mmes units (cd en termes de dviations
en pourcentage de y et de xk).
Chapitre 4.3
Rgression linaire multiple

40 / 50

Statistique
1e anne bachelor, 2009-10

Spcifications logarithmiques (3)


Un autre modle intrinsquement linaire est donn par
y = e + x + x +...+ x .
0

1 1

2 2

version stochastique (K = 2) : y = e + x + x
les cinq hypothses du modle des MCO
0

1 1

2 2

, o satisfait

Ce modle devient linaire quand on le transforme en logarithmes


naturels : ln y = 0 + 1x1 + 2 x2 + .

o Puisque pour estimer ce modle on ne transforme que la


variable dpendante, on parle de la spcification semilogarithmique .

Chapitre 4.3
Rgression linaire multiple

41 / 50

Statistique
1e anne bachelor, 2009-10

Spcifications logarithmiques (4)


Les paramtres dune telle spcification sont des semi-elasticits :
il reprsentent la variation en pourcentage de la variable
dpendante par rapport une variation dune unit de la variable
indpendante en question. Puisque ces semi-elasticits dpendent
des units de mesure des variables indpendantes, elle ne sont
pas directement comparables travers les diffrentes variables
indpendantes.
La spcification semi-logarithmique est utilise en macroconomie
afin de modliser des taux de croissance stables :
o Soit y = e + x + , o y est un agrgat conomique (PIB, niveau
des prix,), et x est la variable temps (en mois, trimestres,
annes,).
d ln y
o Alors 1 =
est le taux de croissance moyen de y.
dx
0

Chapitre 4.3
Rgression linaire multiple

42 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (8)


Spcification log-log (rgression simple) :
ln(revenu) = 0 + 1*ln(ge) +
Statistiques de la rgression
Coefficient de dtermination multiple
0.825687981
Coefficient de dtermination R^2
0.681760643
Coefficient de dtermination R^2
0.649936707
Erreur-type
0.04086423
Observations
12
ANALYSE DE VARIANCE
Rgression
Rsidus
Total

Degr de libert Somme des carrs Moyenne des carrs


1
0.035773766
0.035773766
10
0.016698853
0.001669885
11
0.052472619
Coefficients

Constante
ln(ge)

9.92017321
0.25009325

Erreur-type
0.202446229
0.054033481

F
21.422889

Valeur critique de F
0.000938341

Limite infrieure pour seuil


Limite suprieure pour
de confiance = 95%
seuil de confiance = 95%
49.00152131 3.025E-13
9.469094904
10.37125152
4.628486685 0.00093834
0.129699151
0.370487348

Statistique t

Probabilit

par pourcent dge supplmentaire, le revenu moyen augmente


de 0.25 pourcent
R-carr (0.68) plus lev que dans la rgression avec y et x non
transformes (0.59, voir ch. 4.2.4) spcification log-log (nonlinaire) mieux ajuste aux donnes
Chapitre 4.3
Rgression linaire multiple

43 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (9)


Spcification semi-logarithmique (rgression simple) :
ln(revenu) = 0 + 1*ge +
Statistiques de la rgression
Coefficient de dtermination multiple
0.756007595
Coefficient de dtermination R^2
0.571547483
Coefficient de dtermination R^2
0.528702231
Erreur-type
0.047415214
Observations
12
ANALYSE DE VARIANCE
Rgression
Rsidus
Total

Degr de libert Somme des carrs Moyenne des carrs


F
1
0.029990593
0.029990593 13.3398092
10
0.022482026
0.002248203
11
0.052472619
Coefficients

Constante
ge

10.60757468
0.005758884

Erreur-type
0.069273957
0.001576753

Valeur critique de F
0.004444832

Limite infrieure pour seuil


Limite suprieure pour
de confiance = 95%
seuil de confiance = 95%
153.1249996 3.4657E-18
10.45322269
10.76192668
3.652370354 0.00444483
0.002245661
0.009272108

Statistique t

Probabilit

par anne dge supplmentaire, le revenu moyen augmente de 0.57


pourcent
R-carr (0.57) moins lev que dans la rgression avec y et x non
transforms (0.59, voir. ch. 4.2.4) spcification semi-logarithmique
moins bien ajuste aux donnes
Chapitre 4.3
Rgression linaire multiple

44 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statville (10)


55000

revenu

45000

y = 39885 + 279.7 x

35000

y = exp ( 9.92 + 0.25 * ln ( x ) )

y = exp(10.61 + 0.006 x )

25000

15000

0
Chapitre 4.3
Rgression linaire multiple

10

20

30

ge

40

50

60
45 / 50

Statistique
1e anne bachelor, 2009-10

Interactions (1)
Lquation de rgression linaire multiple implique des effets isols
y
de chaque variable indpendante :
= k k
xk
En ajoutant des produits de variables indpendantes ( termes
dinteraction ), on peut modliser des interdpendances entre
les effets des variables indpendantes :
y = 0 + 1x1 + 2 x2 + 3 x1x2 +
y
y

= 1 + 3 x2 ,
= 2 + 3 x1
x1
x2

Chapitre 4.3
Rgression linaire multiple

46 / 50

Statistique
1e anne bachelor, 2009-10

Interactions (2)
1 (2) reprsente leffet de x1 (x2) sur y quand x2 (x1) est gal
zro. Puisque une valeur de zro nest souvent pas trs raliste ou
informative (p.ex. dans une estimation des dterminants
salariaux), on estime souvent une spcification transforme :
y = 0 + 1x1 + 2 x2 + 3 ( x1 x1 )( x2 x2 ) + .

1 ( 2 ) est alors leffet de x1 (x2) sur y quand x2 (x1) prend sa


valeur moyenne.
Si x1 est une variable continue et x2 une variable binaire, alors 2
reprsente le dplacement de lintercept, et 3 reprsente le
changement de la pente de y par rapport x1, quand x2 passe de
0 1.
Chapitre 4.3
Rgression linaire multiple

47 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statland (1)


Les syndics de Statville et
Statdorf cherchent savoir si les
salaires moyens croissent un
rythme diffrent avec lge dans
leurs deux communes.
Ils collectionnent des donnes
pour des chantillons alatoires
simples dans les deux communes
(n = 12).

Chapitre 4.3
Rgression linaire multiple

ind.
commune revenu
ge
ge*commune
1
0
52125.0 48.11629
0
2
0
50955.9
38.7
0
3
0
53382.9
48.6
0
4
0
51286.9
37.5
0
5
0
55243.6
54.7
0
6
0
53384.7
40.7
0
7
0
53488.2
50.1
0
8
0
54134.1
45.9
0
9
0
52706.4
55.9
0
10
0
42144.3
25.1
0
11
0
52665.2
36.9
0
12
0
51656.7
34.5
0
moyenne
0
51931.2
43.1
0
cart type
0
3314.9
9.1
0
13
1
52115.3
42.4
42.4
14
1
44234.5
36.5
36.5
15
1
55381.3
42.7
42.7
16
1
56091.4
41.1
41.1
17
1
52160.0
33.9
33.9
18
1
46920.1
35.9
35.9
19
1
49522.2
34.7
34.7
20
1
53446.7
44.1
44.1
21
1
50557.1
28.5
28.5
22
1
51202.0
48.7
48.7
23
1
51905.6
49.8
49.8
24
1
46352.9
25.4
25.4
moyenne
1
49977.9
38.6
38.6
cart type
0
3576.0
7.5
7.5

48 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statland (2)


revenu = 0 + 1*commune + 2*ge + 3*ge*commune + ,
o commune = 0 Statville ; commune = 1 Statdorf
Statistiques de la rgression
Coefficient de dtermination multiple
0.655120807
Coefficient de dtermination R^2
0.429183271
Coefficient de dtermination R^2
0.343560762
Erreur-type
2769.816554
Observations
24
ANALYSE DE VARIANCE
Rgression
Rsidus
Total

Degr de libert Somme des carrs Moyenne des carrs


F
3
115366070.9
38455356.96 5.012505176
20
153437674.8
7671883.742
23
268803745.7
Coefficients

Constante
commune
ge
ge*commune

39885.01609
1476.081811
279.6979321
-34.74704321

Erreur-type
4046.721199
5953.907628
92.10788803
144.3440856

Statistique t

Probabilit

9.856131452 4.03454E-09
0.247918158 0.80672532
3.036633865 0.006515058
-0.240723706 0.812219723

Valeur critique de F
0.009414488

Limite infrieure pour seuil


Limite suprieure pour
de confiance = 95%
seuil de confiance = 95%
31443.70361
48326.32857
-10943.55183
13895.71546
87.56424498
471.8316191
-335.8435288
266.3494424

revenu

commune = 1 = 279.7 34.7 = 245

ge

(diffrence non significative du point de vue statistique)


Chapitre 4.3
Rgression linaire multiple

49 / 50

Statistique
1e anne bachelor, 2009-10

Exemple Statland (3)


56000

54000

revenu

52000

50000

revenu estim: Statville


revenu estim: Statdorf

48000

revenu observ: Statville


revenu observ: Statdorf

46000

44000

42000

25

30

35

40

45

50

55

60

ge
Chapitre 4.3
Rgression linaire multiple

50 / 50