2eme Séance

Statistique
1e année bachelor, 2009-10
Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple
4.3.1 Equation et Estimation

4.3.2 Inférence
4.3.3 Coefficients de détermination
4.3.4 Spécifications
Chapitre 4.3
Régression linéaire multiple 1 / 50
Statistique

4.3.2 Inférence
Chapitre 4.3
Statistique
L’équation de la régression (1)

• Un modèle de régression multiple contient 1 < K < n − 1 variables
indépendantes, x1, x2 ,..., xK . (On utilisera k comme indice pour une
variable particulière.)
→ Les paramètres sont estimables quand K = n − 1, mais
l’ajustement est alors parfait et l’inférence est impossible. En
pratique, on doit veiller à ce que n >> K .
• L’équation de la régression linéaire multiple (ou le « modèle de
régression ») s’écrit donc de la façon suivante :
y = β0 + β1x1 + β 2 x2 + ... + βK xK + ε , où E(ε) = 0,
→ E ( y ) = β0 + β1x1 + β 2 x2 + ... + βK xK ,
→ E ( y x1, x2 ,..., xK ) = β0 + β1x1 + β 2 x2 + ... + βK xK ,
où β0 , β1, β 2 ,..., βK sont les paramètres du modèle, et le terme
d’erreur ε est une variable aléatoire.
Chapitre 4.3
Statistique
• Tout comme dans le cas de la régression linéaire simple, β0

représente le point, où x1 = x2 = ... = xK = 0 (« constante »).
• La valeur d’un paramètre βk > 0 donne le nombre d’unités

supplémentaires de y associées à une augmentation par une unité
de xk lorsque toutes les autres variables indépendantes sont
constantes (variation « ceteris paribus »).
• E ( y x1, x2 ,...xK ) est la moyenne de y pour un vecteur de valeurs

des variables indépendantes { x1, x2 ,..., xK } donné.
Chapitre 4.3
Statistique

• Si K > 2, on ne peut plus représenter le modèle de régression de
façon graphique.
• Avec K = 2, une représentation graphique est possible, puisqu’il
n’y a que trois dimensions : x1, x2 et y. L’équivalent à la droite de
régression en régression linéaire simple est alors appelé
« surface de réponse » :
Chapitre 4.3
Statistique
L’équation estimée
• Les statistiques d’échantillon b0 , b1, b2 ,..., bK servent

d’estimations de β0 , β1, β 2 ,..., βK .
• Ainsi, l’équation estimée de la régression est donnée par :

yˆ = b0 + b1x1 + b2 x2 + ... + bK xK ,
où ŷ est l’estimation ponctuelle de E ( y x1, x2 ,...xK ) .
Chapitre 4.3
Statistique
Processus
d’estimation
Chapitre 4.3
Statistique
Estimation par les moindres carrés

• Tout comme pour la régression linéaire simple, la méthode la plus
répandue pour calculer b0 , b1, b2 ,..., bK est l’estimateur des moindres
carrés.
• Formellement, la méthode est alors la suivante :
n
2
{b0 , b1, b2 ,..., bK } = arg min ∑ ( y i − yˆ i )
b0 ,b1,b2 ,...bK i =1
n
2
= arg min ∑ ( y i − b0 − b1x1i − b2 x2i − ... − bK xKi )
b0 ,b1,b2 ,...bK i =1
L’estimateur des moindres carrés pour une régression multiple suit

la même logique que celle de la régression linéaire simple, mais sa
formulation est plus compliquée, nécessitant l’utilisation de l’algèbre
matricielle. De plus, l’estimation est trop compliquée pour être faite
« à la main » avec un effort raisonnable et est donc toujours
effectuée avec l’aide d’un ordinateur.
Chapitre 4.3
Statistique

4.3.2 Inférence
Chapitre 4.3
Statistique
Hypothèses de l’estimateur MCO

• Tout comme pour la régression linéaire simple, la légitimité des
tests d’hypothèse repose sur les cinq hypothèses faites à propos
du terme d’erreur du modèle de régression, ε .
• En fait, on peut démontrer que, sous condition que ces hypothèses
soient satisfaites, l’estimateur des MCO est le meilleur des
estimateurs concevables, dans le sens suivant (théorème de
Gauss-Markov):
o Les coefficients estimés b0 , b1, b2 ,..., bK sont des estimations non-
biaisées des paramètres β0 , β1, β 2 ,..., βK .
o L’estimateur MCO implique les variances des coefficients
estimés sb2 , sb2 , sb2 ,..., sb2 les plus petites de tous les estimateurs
0 1 2 k
linéaires et non-biaisés concevables.

Chapitre 4.3
Statistique
Test du t de Student (1)

• Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi
du t de Student pour tester des hypothèses sur des paramètres
individuels βk.
bk − β k
• Statistique de test : t k = ∼ t n −K −1
sbk
o Le calcul de l’erreur type des coefficients estimés sbk est trop
compliqué pour être effectué « à la main », mais sa logique est
la même que dans le cas de la régression linéaire simple.
o Notamment, sbk tend à diminuer avec n.
• L’intervalle de confiance autour d’un paramètre estimé individuel

est alors donné par : b ± t n−K −1 * s
k α bk
Chapitre 4.3
Statistique
Test du t de Student (2)

• Dans la plupart des applications, l’hypothèse la plus importante
concerne la signification statistique de xk comme facteur
« explicatif » des variations de y.
→ H0 : βk = 0 ; H1 : βk ≠ 0
bk
→ statistique de test : t k = ∼ t n −K −1
sbk
• Ces statistiques de test sont fournies par tous les logiciels
statistiques pour chacun de coefficients estimés b0 , b1, b2 ,..., bK .
Puisque t0.05
∞
= 1.96 , une façon de tester la significativité statistique
à 5% d’un coefficient estimé d’une régression multiple basée sur
un grand échantillon est de vérifier si t k > 1.96 . Pour tester la
significativité à 1%, on vérifie si t k > 2.58 .
Chapitre 4.3
Statistique
Test du F de Fisher
• Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi

du F de Fisher pour déterminer s’il existe une relation significative
entre y et l’ensemble des variables indépendantes ; on parle du
test de signification globale.
→ H0 : β1 = β 2 = ... = β k = 0
H1 : au moins un des paramètres n’est pas égal à zéro
SCReg
• Statistique de test : F = K ∼ F (K , n −K −1)
SCRes
n − K −1
Chapitre 4.3
Statistique
Multicolinéarité (1)
• Il est possible qu’aucun des coefficients estimés bk soit
individuellement statistiquement significatif (selon le test du t de
Student), mais que le modèle soit quand même globalement
statistiquement significatif (selon le test du F de Fisher).
• L’explication de ce phénomène apparemment paradoxal est la
multicolinéarité : le fait que les variables indépendantes xk, tout en
étant indépendantes de y, peuvent parfaitement être corrélées
entre elles.
• Plus les variables indépendantes sont corrélées, plus il devient
difficile de déterminer l’effet propre d’une variable indépendante
particulière sur la variable dépendante. Autrement dit, quand la
multicolinéarité est forte, les erreurs type des coefficients sbk sont
grands, et le risque peut être fort que les coefficients estimés
prennent le signe opposé à celui du vrai paramètre.
Chapitre 4.3
Statistique
Multicolinéarité (2)
• En pratique il peut être utile d’inspecter la matrice de corrélation
entre les variables indépendante. Comme valeur pratique (très)
approximative, on utilise parfois un seuil de ρˆ x x = 0.7 pour
k l
déterminer s’il y a un problème potentiel de multicolinéarité entre

deux variables.
• La multicolinéarité peut prendre la forme d’une relation linéaire
entre plusieurs variables indépendantes, càd elle peut être
présente même si les corrélations entre paires de variables
individuelles sont toutes relativement faibles. Des tests plus
avancés existent pour vérifier la présence de ce phénomène.
• Le meilleur moyen pour pallier au problème de multicolinéarité est
d’augmenter la taille de l’échantillon n.
• S’il y a colinéarité parfaite entre deux ou plusieurs variables
indépendantes, leurs paramètres ne peuvent pas être estimés.
Chapitre 4.3
Statistique

4.3.2 Inférence
Chapitre 4.3
Statistique
R-carré (1)
• La définition du R-carré (aussi : « coefficient de détermination
multiple ») est identique à celle pour la régression linéaire simple :
n
2
2
∑ ( yˆ i − y ) SCReg SCReg
i =1
R = n
= =
2 SCReg + SCRes SCTot
∑ ( yi − y )
i =1
S
C
R
e
s
n n
2
∑ ( y i − yˆ i ) ∑ i
u 2
= 1− i =1
n
= 1− n
i =1
= 1−
2 2 SCTot
∑ ( yi − y ) ∑ ( yi − y )
i =1 i =1
Chapitre 4.3
Statistique
R-carré (2)
• Le R-carré exprime le pourcentage de la somme des carrés totaux
« expliqué » (dans le sens d’une explication géométrique et non
causale !) par l’équation estimée de la régression.
• Le R-carré ne peut pas être décomposé en « contributions
explicatives » de chacune des K variables explicatives.
→ Exception : cas de zéro colinéarité entre les variables
explicatives (qui sont donc « orthogonales »)
→ Exemple : vecteurs de variables binaires par pays et par
année dans un modèle des différences de taux de chômage
⇒ décomposition du R-carré en une composante
« conjoncturelle » (contribution au R-carré des différences
temporelles) et une composante « structurelle » (contribution
au R-carré des différences inter-pays)
Chapitre 4.3
Statistique
R-carré et test du F de Fisher

• Il existe une relation mathématique entre le R-carré et la
statistique de test de signification globale (du F de Fisher) :
SCReg
2
K ( n − K − 1) R
F= =
SCRes K (1 − R 2 )
n − K −1
• Étant donné n et K, un R-carré élevé implique une statistique F
élevée.
• De plus, la statistique F varie en fonction de n et de K. Pour un R-
carré donné, plus n − K est grand, plus la statistique F est élevée.
Intuitivement, cela représente le fait que plus il y a d’observations
par rapport au nombre de variables indépendantes, plus il semble
invraisemblable qu’une certaine qualité d’ajustement du modèle
(càd un certain R-carré) se soit produit aléatoirement.
Chapitre 4.3
Statistique
R-carré ajusté (1)

• Puisque la méthode des MCO minimise la somme des carrés des
résidus (SCRes), le R-carré augmente si on ajoute des variables
indépendantes (ce qui ne change pas SCTot) même si ces
variables ne sont pas statistiquement significatives.
• La valeur du R-carré dépend donc de K, ce qui complique la
comparaison de la qualité d’ajustement de différents modèles
de régression si le nombre de variables indépendantes n’est pas
identique.
• Pour cette raison, il est courant de calculer le « R-carré ajusté » :
S
C
R
e
s
( n − K − 1) n −1
2
R = 1− = 1 − (1 − R )
2
, R2 ≤ 1
SCTot ( n − 1) n − K −1
Chapitre 4.3
Statistique
R-carré ajusté (2)

S
C
R
e
s
• ( n − K − 1) est la variance estimée des résidus, su2 ; et
SCTot ( n − 1) est la variance estimée de y. On peut donc aussi
écrire le R-carré ajusté de la façon suivante : R 2 = 1 − ( su2 sy2 ) .
• Si l’ajout d’une variable indépendante diminue SCRes
proportionnellement moins qu’il n’augmente K, alors su2 augmente,
et le R-carré ajusté diminue. Le R-carré ajusté peut donc diminuer
ou augmenter quand on ajoute des variables indépendantes. Il est
même possible que le R-carré ajusté prenne des valeurs négatives
(si K est grand et le R-carré est petit).
• On peut démontrer que l’ajout d’une variable indépendante
augmente le R-carré ajusté si la statistique du t de Student de
cette variable est supérieure à 1. Pour augmenter le R-carré
ajusté, une variable indépendante supplémentaire n’a donc pas
besoin d’être statistiquement significative, même au seuil de 10%.
Chapitre 4.3
Statistique
Exemple Statville (1)

• Le syndic cherche à savoir si ind. revenu âge expérience
l’effet de l’âge sur le revenu 1 52125.0 48.1 5.5
des habitants de sa commune 2 50955.9 38.7 2.5
3 53382.9 48.6 18.9
reste statistiquement
4 51286.9 37.5 13.5
significatif si on contrôle aussi 5 55243.6 54.7 25.5
pour la durée d’expérience 6 53384.7 40.7 7.3
des travailleurs dans leur 7 53488.2 50.1 2.3
fonction actuelle. Il recense 8 54134.1 45.9 18.8
9 52706.4 55.9 19.0
donc la variable 10 42144.3 25.1 5.5
« expérience » pour les 12 11 52665.2 36.9 5.0
individus de son échantillon 12 51656.7 34.5 15.5
aléatoire simple. Moyenne 51931.2 43.1 11.6
Ecart type 3314.9 9.1 7.8
Chapitre 4.3
Statistique

Excel : Outils - Utilitaire d’analyse - Régression
linéaire – cocher Intitulé présent
R 2 R2 R2 su SCRes
RAPPORT DÉTAILLÉ
Statistiques de la régression
Coefficient de détermination multiple 0.766580532
Coefficient de détermination R^2 0.587645712
Erreur-type 2353.302134
Observations 12
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 2 71030184.72 35515092.36 6.4129458 0.018565956
Résidus 9 49842278.42 5538030.936
Total 11 120872463.1
Limite inférieure Limite supérieure

Coefficients Erreur-type Statistique t Probabilité pour seuil de pour seuil de
confiance = 95% confiance = 95%
Constante 40034.4147 3500.343207 11.43728267 1.158E-06 32116.08826 47952.74114
âge 269.9022708 89.3203627 3.021732813 0.0144387 67.84557296 471.9589687
expérience 23.47323377 103.1785424 0.227501118 0.8251181 -209.9328446 256.8793121
Chapitre 4.3
Statistique

• Le syndic conclut que, étant donné l’âge, les années d’expérience
dans la fonction ne constituent pas un déterminant
statistiquement significatif du salaire. Le modèle prédit donc
que deux travailleurs qui ont le même âge mais des durées
d’expérience différentes auront le même salaire en moyenne.
• On note que par rapport à l’estimation de la régression linéaire
simple (avec l’âge comme unique variable indépendante), le R-
carré a augmenté (de 0.585 à 0.588). Par contre, puisque la valeur
de la statistique t de la variable « expérience » est inférieure à 1, le
R-carré ajusté a diminué (de 0.544 à 0.496).
• Malgré l’augmentation du R-carré, la valeur de la statistique F a
diminué (de 14.1 à 6.4) et celle de l’erreur type de la régression a
augmenté (de 2239 à 2353). L’augmentation de K (de 1 à 2) a
donc plus que compensé la diminution de SCRes (de 50.1 mn à
49.8 mn).
Chapitre 4.3
Statistique

• Corrélation entre les variables « âge » et « expérience » :
ρ̂12 = 0.77 ⇒ La multicolinéarité pourrait jouer un rôle (càd les
variations dans le valeurs de la variable
« expérience » ne sont pas suffisamment
indépendantes de l’âge, ainsi qu’avec seulement 12
observations on arrive pas à identifier statis-
tiquement un effet spécifique dû à « expérience ».
→ Excel : =COEFFICIENT.CORRELATION(âge;expérience)
• Prédiction du salaire pour une personne de 55 ans avec 15 ans
d’expérience :
( yˆ x1 = 55, x2 = 15 ) = E ( yˆ x1 = 55, x2 = 15 )
= 40034 + 269.9 * 55 + 23.5 * 15 = 55231
→ La construction d’un intervalle de confiance autour de cette
prévision n’est pas possible avec Excel.
Chapitre 4.3
Statistique
Les déterminants salariaux à Statville
Exemple Statville (5) variable dépendante: salaires;

estimateur: MCO
Variables indépendantes :
• Dans les tableaux publiés de résultats de 269.9*
âge
la régression, il est utile de présenter les (89.3)
23.4
coefficients ainsi que leurs erreurs types et expérience
(103.2)
des symboles indiquant le niveau de Constante
40034.4*
(3500.3)
signification statistique du test bilatéral de R-carré 0.59
H0 : β k = 0 . R-carré ajusté 0.50
Erreur type de la régression 2353.3
• Une telle présentation des résultats facilite Observations 12
des tests d’hypothèse alternatifs, H0 : β k = z . Remarques : erreurs types entre paren-

thèses ; * : significatif à 5%
o Le syndic pourrait s’intéresser si la véritable hausse salariale

moyenne par année d’âge est égale à 500 francs (α = 5%) :
b1 − 500 269.9 − 500
t x1=500 = = = −2.58 ; tαn −K −1 = t0.05
9
= 2.26
sb1 89.3
o Intervalle de confiance de 95% approximatif pour n ≥ 60 : b ± 2 sb1
Chapitre 4.3
Statistique

4.3.2 Inférence
Chapitre 4.3
Statistique
Bases
• Par « spécification », on entend la formulation du modèle
empirique, càd de l’équation de la régression.
• La spécification linéaire est suffisamment flexible pour permettre
l’estimation d’une large gamme de modèles théoriques, dont
certains sont non linéaires à la base (mais « intrinsèquement
linéaires »). Nous présenterons quelques spécifications
particulières très utiles :
o spécification polynomiale
o variables indépendantes binaires
o spécification logarithmique
o interactions
• Il existe des modèles théoriques non linéaires qui ne peuvent être
transformés en une spécification linéaire et nécessitent donc
l’utilisation d’un estimateur non linéaire (pas traité dans ce cours).
−1
→ Exemple : y = β0 + β1 ( x + β3 )
Chapitre 4.3
Statistique
Spécification polynomiale
• La spécification de base de la régression linéaire multiple peut être
considérée comme un cas particulier d’une classe de fonctions
plus large, les fonctions polynomiales :
y = β0 + β1x + β 2 x 2 + β3 x 3 + ... + βK x K + ε
→ K : le « degré » du polynôme
→ K = 2 : polynôme du deuxième degré (ou « parabole »)
• Si ε satisfait les hypothèses du modèle des MCO, cette

spécification peut être estimée avec la méthode des moindres
carrés :
yˆ = E ( y x ) = b0 + b1x + b2 x 2 + b3 x 3 + ... + bK x K
Chapitre 4.3
Statistique
• Le syndic se rend compte que sa spécification initiale n’est pas

satisfaisante. En particulier, l’hypothèse d’une relation linéaire
entre l’âge et le revenu des habitants n’est pas plausible.
• Il décide donc d’estimer un modèle polynomial du deuxième degré

pour la variable indépendante « âge » :
y = β0 + β1x1 + β 2 x12 + β3 x2 + ε ,
où x1 = âge, et x2 = expérience
Chapitre 4.3
Statistique

Observations 12
ANALYSE DE VARIANCE
Valeur critique de
Degré de liberté Somme des carrés Moyenne des carrés F
F
Régression 3 110535907.7 36845302.56 28.5165036 0.000127026
Résidus 8 10336555.45 1292069.432
Total 11 120872463.1

Constante 3932.56245 6744.300766 0.583094169 0.57589379 -11619.82299 19484.94789
âge 2077.513837 329.7370239 6.300517339 0.00023266 1317.138897 2837.888777
âge^2 -22.07705908 3.992584707 -5.529515516 0.00055414 -31.28397592 -12.87014225
expérience 97.9923741 51.6272887 1.89807322 0.09424716 -21.06036705 217.0451152
• b1 et b2 sont statistiquement significatifs

• « expérience » devient statistiquement significative (à 10%)
⇒ spécification parabolique semble justifiée
Chapitre 4.3
Statistique

• Prédictions impliquées par les coefficients estimés pour une
personne avec dix ans d’expérience :
2
ˆ
( 2
y x = 10 ) = 3932.6 + 2077.5 * x1 − 22.1* x1 + 98 * 10
56000
• Prédiction de l’âge 52000
auquel le revenu est

maximal, x1max :
revenu
48000
∂yˆ
= b1 + 2b2 x1max = 0 44000
∂x1
∴ x1max = −b1 2 b2 40000
25 30 35 40 45 50 55
max −2077.5 âge

∴ x1 = = 47
2 * ( −22.1)
Chapitre 4.3
Statistique
Variables indépendantes binaires

• Une variable indépendante binaire (aussi : variable « muette »,
« indicatrice », ou « dummy ») ne prend que deux valeurs : 0 ou 1.
• Les variables binaires sont utilisées pour distinguer deux niveaux
mutuellement exclusifs des valeurs d’une variable quantitative ou
qualitative. Quelques exemples :
o dimension temporelle : bonne/mauvaise conjoncture ; été/non-
été ; avant/après campagne publicitaire…
o dimension spatiale : nord/sud ; ville/campagne ;
Suisse/étranger…
o variables qualitatives : homme/femme ; employé/non-employé…
o variables quantitatives groupées : ménages à plus/moins de
50000 de revenu ; firmes avec plus/moins de 10 employés…
• Le niveau pour laquelle la variable binaire est définie comme égale
à zéro, est appelée le « niveau de référence ».
Chapitre 4.3
Statistique

• Le syndic cherche à savoir si, au-delà de l’âge et de l’expérience
(càd « en contrôlant pour » x1, x12 et x2), le sexe des travailleurs
influence leur salaire moyen. Il définit alors la variable muette x3
suivante :
o individu i est une femme ⇔ x3 = 1
o individu i est un homme ⇔ x3 = 0 (niveau de référence)
ind. revenu âge expérience femme
1 52125.0 48.1 5.5 1
2 50955.9 38.7 2.5 0
3 53382.9 48.6 18.9 1
4 51286.9 37.5 13.5 0
5 55243.6 54.7 25.5 1
6 53384.7 40.7 7.3 0
7 53488.2 50.1 2.3 0
8 54134.1 45.9 18.8 1
9 52706.4 55.9 19 1
10 42144.3 25.1 5.5 0
11 52665.2 36.9 5 0
12 51656.7 34.5 15.5 0
Moyenne 51931.2 43.1 11.6 0.42
Ecart type 3314.9 9.1 7.8 0.51
Chapitre 4.3
Statistique

Observations 12
ANALYSE DE VARIANCE
Valeur critique de
Degré de liberté Somme des carrés Moyenne des carrés F
F
Régression 4 114453940.8 28613485.21 31.2056868 0.000148858
Résidus 7 6418522.304 916931.7578
Total 11 120872463.1

Constante 3468.379446 5685.929397 0.609993407 0.56113791 -9976.707094 16913.46599
âge 2038.603283 278.4121524 7.322249642 0.00015968 1380.263156 2696.943411
âge^2 -20.82811623 3.417246482 -6.094999684 0.00049351 -28.90862013 -12.74761233
expérience 148.3984189 49.86108402 2.976237317 0.02062455 30.49569049 266.3011474
femme -2054.157981 993.7297586 -2.067119318 0.07754583 -4403.955467 295.6395053
• En moyenne, une femme gagne 2054.2 francs de moins qu’un

homme du même âge et avec le même nombre d’années
d’expérience.
• Cet effet est statistiquement significatif au seuil de 10% mais non
au seuil de 5%.
Chapitre 4.3
Statistique

• Prédictions impliquées par les coefficients estimés
o pour une femme avec dix ans d’expérience :
2
( 2
yˆ x = 10, x 3 = 1) = 3468 + 2038.6 * x1 − 20.8 * x1 + 148 * 10 − 2054.2
o pour un homme avec dix ans d’expérience :
( yˆ x2 = 10, x3 = 0 ) = 3468 + 2038.6 * x1 − 20.8 * x12 + 148 * 10
56000
52000
femmes
hommes
revenu
48000
b3 = 2054.2 44000
40000
25 30 35 40 45 50 55
âge
Chapitre 4.3
Statistique

• Plutôt qu’estimer les paramètres du modèle de régression (des
corrélations conditionnelles), le syndic pourrait s’intéresser aux
corrélations « pures » ρˆ kl entre toutes les paires de variables
indépendantes kl (les corrélations inconditionnelles).
→ examiner la matrice de corrélation
• Excel : Outils - Utilitaire d’analyse – Analyse de

corrélation – Intitulés en première ligne
revenu âge âge^2 expérience femme
revenu 1
âge 0.765032264 1
âge^2 0.69672771 0.993137906 1
expérience 0.411455189 0.482058499 0.50549735 1
femme 0.422675732 0.738416719 0.75563342 0.667095592 1
!
Chapitre 4.3
Statistique
Variables binaires pour niveaux multiples

• Des variables indépendantes binaires peuvent aussi servir pour
représenter des variables qualitatives ou des variables
quantitatives groupées avec C > 2 niveaux. Dans ce cas on crée
C − 1 variables binaires, une pour chaque niveau sauf un, appelé
« catégorie de référence ».
• Exemple Statville : Trois tranches d’âge
o 0 − 30 : x1 = 0 ; x2 = 0
o 31 − 55 : x1 = 1 ; x2 = 0 E ( y ) = β 0 + β1x1 + β 2 x2
o 56 − 65 : x1 = 0 ; x2 = 1
⇒ β0 est le salaire moyen des jeunes (0 − 30)
⇒ β1 est la différence entre le salaire moyen du groupe des 31 à
55 par rapport à celui des jeunes.
⇒ β2 est la différence entre le salaire moyen du groupe des 56 à
65 par rapport à celui des jeunes.
Chapitre 4.3
Statistique
Spécifications logarithmiques (1)

• Un modèle non linéaire mais « intrinsèquement linéaire » est
K
l’équation Cobb-Douglas, y = a∏ xkβ , souvent utilisée en
k
k =1
microéconomie pour représenter l’origine des courbes d’offre
(fonction de production) et de demande (fonction d’utilité).
→ version stochastique (K = 2) : y = ax1β x2β eε , où ε satisfait
1 2
les cinq hypothèses du modèle des MCO

• Ce modèle devient linéaire quand on le transforme en logarithmes
naturels : ln y = β0 + β1 ln x1 + β 2 ln x2 + ε , où β0 = lna.
o Puisque pour estimer ce modèle on transforme la variable
dépendante ainsi que les variables indépendantes, on parle de
la « double transformation logarithmique » ou de la
« spécification log-log ».
Chapitre 4.3
Statistique

• Un grand atout de la spécification log-log est que les coefficients
estimés peuvent être interprétés comme des élasticités. On parle
donc aussi du « modèle à élasticité constante ».) ∂ ( ln y ) 1
= ⇒
∂y
= ∂ ( ln y )
∂y y y
∂y
 ∂y   xk  y ∂ ln y
o élasticité de y par rapport à xk :     = = = βk
 ∂xk   y  ∂xk ∂ ln xk
xk
o Tout comme les coefficients standardisés, les coefficients d’un
modèle log-log peuvent être comparés à travers les variables
indépendantes k, puisque par définition les élasticités sont toutes
exprimées dans les mêmes unités (càd en termes de déviations
en pourcentage de y et de xk).
Chapitre 4.3
Statistique
• Un autre modèle « intrinsèquement linéaire » est donné par

y = e β + β x + β x +...+ β x .
0 1 1 2 2 k k
→ version stochastique (K = 2) : y = e β + β x + β x
0 1 1 2 2 +ε
, où ε satisfait
les cinq hypothèses du modèle des MCO
• Ce modèle devient linéaire quand on le transforme en logarithmes

naturels : ln y = β0 + β1x1 + β 2 x2 + ε .
o Puisque pour estimer ce modèle on ne transforme que la
variable dépendante, on parle de la « spécification semi-
logarithmique ».
Chapitre 4.3
Statistique

• Les paramètres d’une telle spécification sont des semi-elasticités :
il représentent la variation en pourcentage de la variable
dépendante par rapport à une variation d’une unité de la variable
indépendante en question. Puisque ces semi-elasticités dépendent
des unités de mesure des variables indépendantes, elle ne sont
pas directement comparables à travers les différentes variables
indépendantes.
• La spécification semi-logarithmique est utilisée en macroéconomie
afin de modéliser des taux de croissance stables :
o Soit y = e β + β x +ε , où y est un agrégat économique (PIB, niveau
0 1
des prix,…), et x est la variable « temps » (en mois, trimestres,

années,…).
d ln y
o Alors β1 = est le taux de croissance moyen de y.
dx
Chapitre 4.3
Statistique

• Spécification log-log (régression simple) :
ln(revenu) = β0 + β1*ln(âge) + ε
Observations 12
ANALYSE DE VARIANCE
Régression 1 0.035773766 0.035773766 21.422889 0.000938341
Résidus 10 0.016698853 0.001669885
Total 11 0.052472619
Limite inférieure pour seuil Limite supérieure pour

Coefficients Erreur-type Statistique t Probabilité
de confiance = 95% seuil de confiance = 95%
Constante 9.92017321 0.202446229 49.00152131 3.025E-13 9.469094904 10.37125152
ln(âge) 0.25009325 0.054033481 4.628486685 0.00093834 0.129699151 0.370487348
→ par pourcent d’âge supplémentaire, le revenu moyen augmente

de 0.25 pourcent
→ R-carré (0.68) plus élevé que dans la régression avec y et x non
transformées (0.59, voir ch. 4.2.4) ⇒ spécification log-log (non-
linéaire) mieux ajustée aux données
Chapitre 4.3
Statistique

• Spécification semi-logarithmique (régression simple) :
ln(revenu) = β0 + β1*âge + ε
Observations 12
ANALYSE DE VARIANCE
Régression 1 0.029990593 0.029990593 13.3398092 0.004444832
Résidus 10 0.022482026 0.002248203
Total 11 0.052472619

Constante 10.60757468 0.069273957 153.1249996 3.4657E-18 10.45322269 10.76192668
âge 0.005758884 0.001576753 3.652370354 0.00444483 0.002245661 0.009272108
→ par année d’âge supplémentaire, le revenu moyen augmente de 0.57

pourcent
→ R-carré (0.57) moins élevé que dans la régression avec y et x non
transformés (0.59, voir. ch. 4.2.4) ⇒ spécification semi-logarithmique
moins bien ajustée aux données
Chapitre 4.3
Statistique
55000
45000
revenu
yˆ = 39885 + 279.7 x
35000
yˆ = exp ( 9.92 + 0.25 * ln ( x ) )
yˆ = exp(10.61 + 0.006 x )
25000
15000
0 10 20 30 40 50 60
âge
Chapitre 4.3
Statistique
Interactions (1)
• L’équation de régression linéaire multiple implique des effets isolés

∂y
de chaque variable indépendante : = β k ∀k
∂xk
• En ajoutant des produits de variables indépendantes (« termes

d’interaction »), on peut modéliser des interdépendances entre
les effets des variables indépendantes :
y = β0 + β1x1 + β 2 x2 + β3 x1x2 + ε
∂y ∂y
⇒ = β1 + β3 x2 , = β 2 + β3 x1
∂x1 ∂x2
Chapitre 4.3
Statistique
Interactions (2)
• β1 (β2) représente l’effet de x1 (x2) sur ŷ quand x2 (x1) est égal à
zéro. Puisque une valeur de zéro n’est souvent pas très réaliste ou
informative (p.ex. dans une estimation des déterminants
salariaux), on estime souvent une spécification transformée :
y = β0 + βɶ1x1 + βɶ2 x2 + β3 ( x1 − x1 )( x2 − x2 ) + ε .
βɶ1 ( βɶ2 ) est alors l’effet de x1 (x2) sur ŷ quand x2 (x1) prend sa
valeur moyenne.
• Si x1 est une variable continue et x2 une variable binaire, alors β2
représente le déplacement de l’intercept, et β3 représente le
changement de la pente de ŷ par rapport à x1, quand x2 passe de
0 à 1.
Chapitre 4.3
Statistique
ind. commune revenu âge âge*commune

Exemple Statland (1) 1
2
0
0
52125.0 48.11629
50955.9 38.7
0
0
3 0 53382.9 48.6 0
4 0 51286.9 37.5 0
5 0 55243.6 54.7 0
• Les syndics de Statville et 6 0 53384.7 40.7 0
7 0 53488.2 50.1 0
Statdorf cherchent à savoir si les 8 0 54134.1 45.9 0
9 0 52706.4 55.9 0
salaires moyens croissent à un 10 0 42144.3 25.1 0
rythme différent avec l’âge dans 11

12
0
0
52665.2
51656.7
36.9
34.5
0
0
leurs deux communes. moyenne

écart type
0
0
51931.2
3314.9
43.1
9.1
0
0
• Ils collectionnent des données 13
14
1
1
52115.3
44234.5
42.4
36.5
42.4
36.5
pour des échantillons aléatoires 15
16
1
1
55381.3
56091.4
42.7
41.1
42.7
41.1
simples dans les deux communes 17
18
1
1
52160.0
46920.1
33.9
35.9
33.9
35.9
(n = 12). 19
20
1
1
49522.2
53446.7
34.7
44.1
34.7
44.1
21 1 50557.1 28.5 28.5
22 1 51202.0 48.7 48.7
23 1 51905.6 49.8 49.8
24 1 46352.9 25.4 25.4
moyenne 1 49977.9 38.6 38.6
écart type 0 3576.0 7.5 7.5
Chapitre 4.3
Statistique
Exemple Statland (2)

• revenu = β0 + β1*commune + β2*âge + β3*âge*commune + ε,
où commune = 0 ⇔ Statville ; commune = 1 ⇔ Statdorf
Observations 24
ANALYSE DE VARIANCE
Régression 3 115366070.9 38455356.96 5.012505176 0.009414488
Résidus 20 153437674.8 7671883.742
Total 23 268803745.7

Constante 39885.01609 4046.721199 9.856131452 4.03454E-09 31443.70361 48326.32857
commune 1476.081811 5953.907628 0.247918158 0.80672532 -10943.55183 13895.71546
âge 279.6979321 92.10788803 3.036633865 0.006515058 87.56424498 471.8316191
âge*commune -34.74704321 144.3440856 -0.240723706 0.812219723 -335.8435288 266.3494424
 ∂revenu 
⇒ commune = 1 = 279.7 − 34.7 = 245
 ∂âge 
(différence non significative du point de vue statistique)
Chapitre 4.3
Statistique
Exemple Statland (3)

56000
54000
52000
revenu
50000
revenu estimé: Statville

48000 revenu estimé: Statdorf
revenu observé: Statville
46000 revenu observé: Statdorf
44000
42000
25 30 35 40 45 50 55 60
âge
Chapitre 4.3

2eme Séance

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2eme Séance

Transféré par

Droits d'auteur :

Formats disponibles

Statistique

1e année bachelor, 2009-10

4.3.1 Equation et Estimation

4.3.1 Equation et Estimation

L’équation de la régression (1)

L’équation de la régression (2)

• Tout comme dans le cas de la régression linéaire simple, β0

• La valeur d’un paramètre βk > 0 donne le nombre d’unités

• E ( y x1, x2 ,...xK ) est la moyenne de y pour un vecteur de valeurs

L’équation de la régression (3)

• Les statistiques d’échantillon b0 , b1, b2 ,..., bK servent

• Ainsi, l’équation estimée de la régression est donnée par :

où ŷ est l’estimation ponctuelle de E ( y x1, x2 ,...xK ) .

Estimation par les moindres carrés

L’estimateur des moindres carrés pour une régression multiple suit

4.3.1 Equation et Estimation

Hypothèses de l’estimateur MCO

linéaires et non-biaisés concevables.

Test du t de Student (1)

• L’intervalle de confiance autour d’un paramètre estimé individuel

Test du t de Student (2)

• Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi

déterminer s’il y a un problème potentiel de multicolinéarité entre

4.3.1 Equation et Estimation

R-carré et test du F de Fisher

R-carré ajusté (1)

R-carré ajusté (2)

Exemple Statville (1)

Exemple Statville (2)

Limite inférieure Limite supérieure

Exemple Statville (3)

Exemple Statville (4)

Les déterminants salariaux à Statville

Exemple Statville (5) variable dépendante: salaires;

des tests d’hypothèse alternatifs, H0 : β k = z . Remarques : erreurs types entre paren-

o Le syndic pourrait s’intéresser si la véritable hausse salariale

4.3.1 Equation et Estimation

• Si ε satisfait les hypothèses du modèle des MCO, cette

Exemple Statville (1)

• Le syndic se rend compte que sa spécification initiale n’est pas

• Il décide donc d’estimer un modèle polynomial du deuxième degré

Exemple Statville (2)

Limite inférieure Limite supérieure

• b1 et b2 sont statistiquement significatifs

Exemple Statville (3)

• Prédiction de l’âge 52000

auquel le revenu est

max −2077.5 âge

Variables indépendantes binaires

Exemple Statville (4)

Exemple Statville (5)

Limite inférieure Limite supérieure

• En moyenne, une femme gagne 2054.2 francs de moins qu’un

Exemple Statville (6)

Exemple Statville (7)

• Excel : Outils - Utilitaire d’analyse – Analyse de

Variables binaires pour niveaux multiples

Spécifications logarithmiques (1)

les cinq hypothèses du modèle des MCO

Spécifications logarithmiques (2)

Spécifications logarithmiques (3)

• Un autre modèle « intrinsèquement linéaire » est donné par

• Ce modèle devient linéaire quand on le transforme en logarithmes