Académique Documents
Professionnel Documents
Culture Documents
Economtrie
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 2
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Avant-propos
Lorsqu'on m'a demand si je voulais assurer le cours d'conomtrie en Licence L3-IDS (http://dis.
univ-lyon2.fr/), j'ai ressenti une grande joie mais aussi une certaine inquitude.
D'une part une grande joie car c'est travers l'conomtrie que je suis venu au traitement statistique
des donnes. Lorsque j'ai vu un nuage de point avec une forme plus ou moins arme, et que j'ai
compris qu'on pouvait en dduire une liaison fonctionnelle reprsente par une courbe passant au milieu
de ces points, je me suis dit qu'il y avait l quelque chose de magique. Je trouvais formidable l'ide
que des donnes reclent une vrit que l'on est capable de reconstituer ou bien, inversement, que l'on
s'imagine une certaine forme de vrit que l'on peut conrmer ou inrmer travers des donnes observes,
totalement objectives. Par la suite, de l en aiguille, j'ai dcouvert une trs vaste littrature autour de
ces principes. Les appellations sont direntes selon les cultures : on parle d'analyse de donnes, de data
mining, etc. Mais qu'importe nalement, pour ma part je sais trs bien ce que je fais. Et ce qui tait
initialement une sorte de loisir (ah,
procdures
statistiques... 1 )
D'autre part, je ressentais quand mme un certaine inquitude car c'tait la premire fois que je passais de l'autre ct de la barrire dans ce domaine. A priori, je connais bien la rgression. Je l'ai beaucoup
tudie jusqu'en DEA (l'quivalent d'un Master 2 Recherche de nos jours). Trouver mes repres ne devait
pas poser de problmes particuliers. Mais comme la grande majorit des tudiants (j'imagine), j'avais
surtout tudi dans l'optique de restituer, pour prparer les examens quoi (un peu pour la programmer aussi, d'o le logiciel REGRESS qui a prs de 20 ans aujourd'hui, et qui est toujours en ligne
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Avant-propos
Je me suis rendu compte que la rgression linaire est toujours aussi passionnante. Plus mme, les
annes post DEA passes tudier les techniques de Data Mining, en particulier l'apprentissage supervis,
m'ont apport un recul que je n'avais pas (quelques annes en plus, il faut bien que a serve quelque
chose aussi). Tout de suite, j'ai pu raccrocher ce que je lisais ce que je savais par ailleurs. Quand mme, ils
avaient vraiment dcouvert beaucoup de choses ces conomtres. Par exemple, pouvoir calculer une erreur
de prdiction en leave-one-out sans avoir construire explicitement le modle sur les (n 1) observations
grce au concept de
levier est tout bonnement fabuleux. En retour, j'ai mieux compris certains aspects
de l'apprentissage supervis en tudiant les techniques conomtriques. Bref c'est tout bonus. Ce travail
m'a d'ailleurs permis par la suite de monter mon cours de rgression logistique, et de rdiger le support
associ [14].
Reste une question. A quoi peut bien servir un polycopi supplmentaire sur la rgression linaire
simple et multiple. En eet, ils sont lgions sur internet (tapez "conomtrie" dans Google pour voir).
S'il s'agit de reproduire ce qui est dj (trs bien) crit par ailleurs, on ne voit pas vraiment o est
l'intrt.
La premire raison est mon cours de licence. Au l des annes, le nombre d'heures dont je dispose
pour le faire a t rduit comme une peau de chagrin. Ce qui ne manque pas de me chagriner d'ailleurs
(ok, ok, elle est facile celle-l). Comme je ne souhaite absolument pas diminuer le nombre des sances TD
sur machine, je suis oblig de rogner sur les CM. De fait, il ne m'est plus possible de dtailler certaines
dmonstrations au tableau comme je pouvais le faire nagure. De mme, en utilisant de plus en plus des
slides pour le cours, je fais des ellipses de nombreux endroits. Je me suis dit que la seule manire de
donner des repres identiques tous les tudiants est de leur pargner la prise de notes en fournissant le
cours rdig. En cela, mon cours d'conomtrie se rapproche de plus en plus de mon cours de Data Mining
o je parle de beaucoup de choses en trs peu de temps en me focalisation sur les aspects oprationnels
(en cours tout du moins), mais en donnant accs aux tudiants une abondante documentation gratuite.
La seconde raison est que cela me permet tout simplement de prsenter les choses ma manire,
en donnant la part belle aux exemples traits sur tableur 2 . Ce qui est une de mes principales marques
de fabrique. Parfois, je ferais le parallle avec les rsultats fournis par les logiciels de statistique, en
privilgiant toujours les outils libres (Tanagra, Regress et R principalement) 3 . Ainsi, le lecteur pourra
refaire tous les calculs dcrits dans ce document. A cet eet, les chiers de donnes qui ont servi sa
prparation sont galement accessibles en ligne. Ils sont numrs en annexes.
Bien videmment, selon l'expression consacre, ce support n'engage que son auteur. Toutes suggestions
ou commentaires qui peuvent en amliorer le contenu sont bienvenus.
2. Excel, mais sous Open Oce les traitements sont identiques.
3. Parfois je m'autoriserai des digressions sur des outils un peu moins gratuits, mais ayant pignon sur rue
(SAS, SPAD, SPSS et STATISTICA pour ne pas les nommer). Parce que certains d'entre vous les rencontreront
en entreprise. Je ne suis pas sectaire non plus.
Page: 4
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
1.1.2 Hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
12
13
15
2.1 Biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
17
17
18
19
19
20
Infrence statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
21
21
23
24
Page: 5
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
3.2.1 Distribution de a
et b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
25
26
27
27
29
29
30
32
34
34
34
.............................................
37
37
38
38
39
39
39
43
47
47
47
48
48
49
50
51
........................................................
55
55
56
7.2.1 Problmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
7.2.2 Formules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
58
Page: 6
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
61
62
62
63
65
65
67
68
68
69
69
70
71
74
74
79
85
85
87
9.3 Hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
88
88
88
89
91
92
9.5.1 Biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
93
94
95
95
95
9.6.3 Dtails des calculs pour les donnes "Consommation des vhicules" . . . . . . . . . . . . .
95
97
Page: 7
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
10 Tests de signicativit
............................................................
99
99
99
99
111
125
Page: 8
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
129
139
145
lm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
15.3.2 L'objet summary de lm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
15.3.1 La procdure
167
169
Littrature
Page: 9
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 10
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Partie I
Page: 1
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 2
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
1
Modle de rgression linaire simple
exogne (indpendante).
yi = a xi + b + i
(1.1)
a et b sont les paramtres (les coecients) du modle. Dans le cas spcique de la rgression simple,
a est la
Le terme alatoire
, que l'on appelle l'erreur du modle, tient un rle trs important dans la
rgression. Il permet de rsumer toute l'information qui n'est pas prise en compte dans la relation linaire
que l'on cherche tablir entre Y et X c.--d. les problmes de spcications, l'approximation par la
linarit, rsumer le rle des variables explicatives absentes, etc. Comme nous le verrons plus bas, les
proprits des estimateurs reposent en grande partie sur les hypothses que nous formulerons propos
de . En pratique, aprs avoir estim les paramtres de la rgression, les premires vrications portent
sur l'erreur calcule sur les donnes (on parle de "rsidus") lors de la modlisation [13] (Chapitre 1).
Exemple - Rendement de mas et quantit d'engrais. Dans cet exemple tir de l'ouvrage de Bourbonnais
(page 12), nous disposons de n = 10 observations (Figure 1.1) 1 . On cherche expliquer Y le rendement
en mas (en quintal) de parcelles de terrain, partir de X la quantit d'engrais (en kg) que l'on y a
pandu. L'objectif est de modliser le lien travers une relation linaire. Bien videmment, si l'on ne
1. regression_simple_rendements_agricoles.xlsx - "data"
Page: 3
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
met pas d'engrais du tout, il sera quand mme possible d'obtenir du mas, c'est le sens de la constante
b de la rgression. Sa valeur devrait tre positive. Ensuite, plus on mettra de l'engrais, meilleur sera le
rendement. On suppute que cette relation est linaire, d'o l'expression a x, on imagine l'avance que
Fig. 1.1.
Le graphique nuage de points associant X et Y semble conrmer cette premire analyse (Figure 1.2) 2 .
Dans le cas contraire o les coecients estims contredisent les valeurs attendues (b ou/et a sont ngatifs),
cela voudrait dire que nous avons une perception fausse du problme, ou bien que les donnes utilises
ne sont pas reprsentatives du phnomne que l'on cherche mettre en exergue, ou bien... On entre alors
dans une dmarche itrative qui peut durer un moment avant d'obtenir le modle dnitif 3 . C'est le
processus de modlisation.
Fig. 1.2.
2. regression_simple_rendements_agricoles.xlsx - "data"
3. Voir l'excellent site du NIST http://www.itl.nist.gov/div898/handbook/pmd/pmd.htm au sujet du
processus de modlisation : les terminologies utilises, les principales tapes, la lecture des rsultats. Avec des
tudes de cas compltes.
Page: 4
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
1.1.2 Hypothses
Ces hypothses psent sur les proprits des estimateurs (biais, convergence) et l'infrence statistique
(distribution des coecients estims).
H1
Hypothses sur Y et X . X et Y sont des grandeurs numriques mesures sans erreur. X est une
donne exogne dans le modle. Elle est suppose non alatoire. Y est alatoire par l'intermdiaire
de c.--d. la seule erreur que l'on a sur Y provient des insusances de X expliquer ses valeurs
dans le modle.
H2 Hypothses sur le terme alatoire . Les i sont i.i.d (indpendants et identiquement distribus).
H2.a E(i ) = 0, en moyenne les erreurs s'annulent c.--d. le modle est bien spci.
H2.b V (i ) = 2 , la variance de l'erreur est constante et ne dpend pas de l'observation. C'est
l'hypothse d'homoscdasticit.
H2.c En particulier, l'erreur est indpendante de la variable exogne c.--d. COV (xi , i ) = 0
H2.d Indpendance des erreurs. Les erreurs relatives 2 observations sont indpendantes c.--d.
COV (i , j ) = 0. On parle de "non auto-corrlation des erreurs".
Remarque : Cette hypothse est toujours respecte pour les coupes transversales. En eet l'chantillon est cens construit de manire alatoire et les observations i.i.d. Nous pouvons donc intervertir alatoirement les lignes sans porter atteinte l'intgrit des donnes. En revanche, la question
se pose pour les donnes temporelles. Il y a une contrainte qui s'impose nous (contrainte temporelle - les donnes sont ordonnes) dans le recueil des donnes.
H2.e
statistique.
Si graphiquement, la solution semble intuitive. Il nous faut un critre numrique qui rponde cette
spcication pour raliser les calculs sur un chantillon de donnes.
Le critre des
moindres carrs
entre les vraies valeurs de Y et les valeurs prdites avec le modle de prdiction (Figure 1.3). L'estimateur
des moindres carres ordinaires (MCO) des paramtres a et b doit donc rpondre la minimisation de
Page: 5
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Fig. 1.3.
S=
2i
i=1
n
=
[yi (axi + b)]2
i=1
n
=
[yi axi b]2
i=1
S = 0
a
S = 0
b
x y a x2 b x = 0
i i
i i
i i i
y a
xb=0
(1.2)
Que l'on retrouve galement sous la forme suivante dans la littrature (Tenenhaus, page 70).
x = 0
i i i
i = 0
(1.3)
En appelant a
et b les solutions de ces quations normales, nous obtenons les
moindres carrs :
estimateurs des
n
(y y)(xi x
)
n i
a
= i=1
2
(x
)
i=1 i
b = y a
x
(1.4)
(1.5)
job: econometrie_regression
macro: svmono.cls
S
b
date/time: 11-Feb-2013/22:06
S
=0
b
2(1)(yi axi b) = 0
i
2[
yi a
xi n b] = 0
b = y a
x
Occupons-nous maintenant de
S
a
S
=
2(xi )(yi axi b) = 0
a
i
En introduisant le rsultat relatif b ci-dessus, nous obtenons :
n
(y y)(xi x
)
n i
a = i=1
2
(x
)
i=1 i
Fig. 1.4.
= 30.4.
Nous calculons les moyennes des variables, y = 26.1 et x
Nous formons alors les valeurs de (yi y), (xi x
), (yi y) (xi x
) et (xi x
)2 .
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
)
i=1 i
b = y a
x
= 26.1 0.7141 30.4 = 4.3928
La droite de rgression peut tre reprsente dans le graphique nuage de points. Nous avons utilis
l'outil "Courbe de tendance" d'Excel (Figure 1.5) 5 .
Fig. 1.5.
Nous constatons que la droite passe peu ou prou au milieu du nuage de points. Mais nous ne saurions
pas dire dans quelle mesure notre modlisation est susamment intressante. La simple valuation visuelle
ne sut pas. La seule manire d'obtenir une rponse rigoureuse est de produire un critre quantitatif que
l'on saura interprter. Nous nous pencherons sur cette question dans la section consacre l'valuation
du modle (section 1.3).
)
i=1 i
\(Y, X)
COV
2
Y
= ryx
De fait, nous le verrons dans la partie infrentielle, tester la signicativit de la pente revient tester
la signicativit de la corrlation entre Y et X .
5. regression_simple_rendements_agricoles.xlsx - "reg.simple.1"
Page: 8
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Erreur et rsidu.
yi = y(xi )
=a
xi + b
On peut en dduire l'erreur observe, appele "rsidu" de la rgression
i = yi yi
(1.6)
La distinction "erreur vs. rsidu" est importante car, comme nous le verrons par la suite, les expressions
de leurs variances ne sont pas les mmes.
Toujours concernant le rsidu, notons une information importante :
(1.7)
i = 0
i =
[yi (
axi + b)]
= n
y n
ax
nb
= n
y n
ax
n (
ya
x
)
=0
passe forcment
par le centre de gravit du nuage de points. Pour le vrier simplement, ralisons la projection pour le
point x
:
y(
x) = a
x
+ b
=a
x
+ (
ya
x
)
= y
Dans notre exemple des "Rendements agricoles", nous constatons eectivement que la droite passe le
point G(x, y) de coordonnes (
x = 30.4, y = 26.1) (Figure 1.6).
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
10
Fig. 1.6.
SCR =
2i
=
(yi yi )2
i
Lorsque la prdiction est parfaite, tout naturellement SCR = 0. Mais dans d'autre cas, qu'est-ce
qu'une bonne rgression ? A partir de quelle valeur de SCR peut-on dire que la rgression est mauvaise ?
Pour rpondre cette question, il faut pouvoir comparer la SCR avec une valeur de rfrence. Pour
cela, nous allons dcomposer la variance de Y .
On appelle
(yi y)2
i
(yi yi + yi + y)2
i
(
yi y)2 +
(yi yi )2 + 2
(
yi y)(yi yi )
=
i
(
yi y)(yi yi ) = 0
i
1
y
=
(
axi + b)
n i
1
= [
a
xi + n b]
n
i
=a
y + b
= y
et
Page: 10
S
=
2(xi )(yi axi b) = 0
a
i
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
11
(
yi y)2 +
(yi yi )2
(yi y)2 =
i
(1.9)
SCR est la somme des carrs totaux. Elle indique la variabilit totale de Y
c.--d. l'information
SCE est la somme des carrs expliqus. Elle indique la variabilit explique par le modle c.--d.
la variation de Y explique par X .
SCR
est somme des carrs rsiduels. Elle indique la variabilit non-explique (rsiduelle) par le
modle c.--d. l'cart entre les valeurs observes de Y et celles prdites par le modle.
Deux situations extrmes peuvent survenir :
Dans le meilleur des cas, SCR = 0 et donc SCT = SCE : les variations de Y sont compltement
expliques par celles de X . On a un modle parfait, la droite de rgression passe exactement par
tous les points du nuage(yi = yi ).
Dans le pire des cas, SCE = 0 : X n'apporte aucune information sur Y . Ainsi, yi = y, la meilleure
prdiction de Y est sa propre moyenne.
A partir de ces informations, nous pouvons produire une premire version du
tableau d'analyse de
variance (Tableau 1.1). La version complte nous permettra de mener le test de signicativit globale
de la rgression comme nous le verrons plus loin (section 3.1).
Source de variation Somme des carrs
Explique
SCE = i (
yi y)2
Rsiduelle
SCR = i (yi yi )2
Totale
SCT = i (yi y)2
Tableau 1.1.
coecient de dtermination R2 .
R2 =
SCE
SCR
=1
SCT
SCT
(1.10)
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
12
Plus il sera proche de la valeur 1, meilleur sera le modle, la connaissance des valeurs de X permet
de deviner avec prcision celle de Y .
Lorsque R2 est proche de 0, cela veut dire que X n'apporte pas d'informations utiles (intressantes)
sur Y , la connaissance des valeurs de X ne nous dit rien sur celles de Y .
Remarque 1 (Une autre lecture du coecient de dtermination.). Il existe une lecture moins usuelle, mais
non moins intressante, du coecient de dtermination.
On dnit le modle par dfaut comme la rgression qui n'utilise pas X pour prdire les valeurs de Y
c.--d. le modle compos uniquement de la constante.
(1.11)
yi = b + i
On montre trs facilement dans ce cas que l'estimateur des MCO de la constante est
b = y
(1.12)
Ds lors, on peut considrer que R2 confronte la prdiction du modle s'appuyant sur X (yi = a
xi +b)
avec le pire modle possible, celui qui n'utilise pas l'information procure par X c.--d. base uniquement
sur Y (yi = y).
Par construction, dans la rgression avec constante, on sait que SCR SCT , le coecient de dtermination nous indique donc dans quelle mesure X permet d'amliorer nos connaissances sur Y .
Cette lecture nous permet de mieux comprendre les pseudo-R2 calculs dans des domaines connexes
telles que la rgression logistique [14] (Section 1.6) o l'on confronte la vraisemblance du modle complet
(ou le taux d'erreur), incluant toutes les exognes, avec celle du modle rduit la constante.
R=
R2
(1.13)
Dans le cas de la rgression simple (et uniquement dans ce cas), on montre aisment qu'il est gal au
coecient de corrlation ryx entre Y et X. Son signe est dni par la pente a
de la rgression.
ryx = signe(
a) R
(1.14)
Page: 12
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
13
x2
y2
a
2
(xi x
)2
= i
)2
i (yi y
[(
axi + b) (
ax
+ b)]2
= i
2
)
i (yi y
2
(
yi y)
= i
(y
)2
i iy
SCE
=
SCT
= R2
2
ryx
=a
2
Fig. 1.7.
18.674.
Sur la colonne suivante, nous en dduisons le rsidu i (ex. 1 = y1 y1 = 16 18.674 = 2.674).
Pour obtenir la SCT, nous ralisons la somme des (yi yi ) passes au carr : SCT = (16 26.1)2 +
= 102.010 + = 314.900
yi y)2 c.-a-d. SCE = (18.674 26.1)2 + = 55.148 + = 251.061
Pour la SCE, nous sommons (
Nous pouvons obtenir la SCR par dirence, en faisant SCR = SCT SCE = 314.900 251.061 =
63.839.
6. regression_simple_rendements_agricoles.xlsx - "reg.simple.decomp.variance"
Page: 13
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
14
Nous pouvons aussi la former explicitement en sommant les (yi yi )2 , soit SCR = (16 18.674)2 +
= 7.149 + = 63.839. Les deux rsultats concident, il ne peut pas en tre autrement (dans la
rgression avec constante tout du moins).
Le coecient de dtermination est obtenu avec sa forme usuelle (quation 1.10) :
R2 =
SCE
251.061
=
= 0.797273
SCT
314.900
R=
0.797273 = 0.892901
a
= 0.71405 tant positif, on vriera aisment dans notre exemple que ce dernier est identique au
coecient de corrlation de Pearson entre Y et X :
R = ryx = 0.892901
Page: 14
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
2
Proprits des estimateurs
Ce chapitre est assez thorique. Sa lecture n'est pas ncessaire pour la comprhension de la mise en
pratique de la rgression linaire. J'invite donc les lecteurs surtout intresss par les aspects oprationnels
se reporter au chapitre suivant (chapitre 3).
Ce chapitre est essentiel en revanche pour la comprhension des proprits des estimateurs des MCO. Il
permet notamment de circonscrire les hypothses qui conditionnent leur ecacit. Sa lecture est conseille
pour ceux qui s'intressent ces aspects thoriques.
Pour les tudiants de la licence L3-IDS, vous devez lire ce chapitre !
Deux proprits importantes sont mises en avant dans l'valuation d'un estimateur. (1) Est-ce qu'il
est sans biais c.--d. est-ce qu'en moyenne nous obtenons la vraie valeur du paramtre ? (2) Est-ce qu'il
est convergent c.--d. mesure que la taille de l'chantillon augmente, l'estimation devient de plus en
plus prcise ?
2.1 Biais
= .
On dit que est un estimateur sans biais de si E[]
Comment procder cette vrication pour a
et b ?
Voyons ce qu'il en est pour a
. Il y a deux tapes principalement dans la dmonstration : dans un
premier temps, il faut exprimer a
en fonction de a ; dans un deuxime temps, en passant l'esprance
mathmatique, il faut souhaiter que tout ce qui ne dpend pas de a devienne nul, au besoin en s'appuyant
sur quelques hypothses pour le coup bien commodes nonces en prambule de notre prsentation
(section 1.1).
Nous reprenons ici la dmarche que l'on retrouve dans la plupart des rfrences cites en bibliographie
(Bourbonnais, page 24 pour la rgression simple ; Giraud et Chaix, page 25, qui a servi de base pour les
calculs ci-dessous ; Labrousse, page 24 pour la rgression multiple ; Dodge et Rousson, page 25).
Page: 15
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
16
1
1
1
1
yi = a(
xi ) + (nb) +
i
n i
n i
n
n i
y = a
x + b
Formons la dirence
y = ax + b +
i
i
i
y = a
x + b +
yi y = a(xi x
) + (i )
Rappelons que
a
=
Ainsi
x
)(yi y)
)2
i (xi x
i (x
i
x
)[a(xi x
) + (i )]
)2
i (xi x
)(i )
)2 + i (xi x
a i (xi x
=
2
(x
)
i
i
)(i )
ix
i (x
= a+
)2
i (xi x
a
=
i (xi
i (xi
x
) = 0, nous obtenons ainsi
(xi x
)i
a
= a + i
)2
i (xi x
(2.1)
Il nous reste dmontrer que la partie aprs l'addition est nulle en passant l'esprance mathmatique.
Nous devrons introduire les hypothses adquates pour ce faire.
]
[
(xi x
)i
E(
a) = E(a) + E i
)2
i (xi x
[
]
(xi x
)
= a+E
i
)2
j (xj x
i
Pour simplier les critures, posons
(xi x
)
i =
)2
j (xj x
Nous avons :
[
E(
a) = a + E
]
i i
E(
a) = a +
i E(i )
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
17
E(
a) = a
Conclusion. L'estimateur des moindres carrs ordinaires (EMCO) est sans biais, si et seulement si
les deux hypothses suivantes sont respectes :
1. (H1) L'exogne X n'est pas stochastique (X est non alatoire) ;
2. (H2.a) E(i ) = 0, l'esprance de l'erreur est nulle.
Concernant la constante
De manire analogue, en partant de b = b + (
a a)
x, on montre sous les mmes hypothses que
E(b) = b
0
V ()
(2.2)
Nous devons donc d'abord produire une expression de la variance de l'estimateur, et montrer qu'il
tend vers 0 quand l'eectif n tend vers .
V (
a) = E[(
a a)2 ]
Or, dans la section prcdente, nous avons montr que l'estimateur pouvait s'crire
a
=a+
i i
Exploitons cela
(
)2
V (
a) = E
i i
=E
=
i2 2i
+2
]
i i i i
i<i
i2 E(2i ) + 2
i i E (i i )
i<i
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
18
V (
a) = 2
i2
xi x
(x
x
)2
j
j
i =
la somme de ces termes au carr devient
i2
]2
xi x
=
)2
j (xj x
i
1
(xi x
)2
= (
)2
2
i
)
j (xj x
1
(x
)2
j x
j
2
)2
i (xi x
V (
a) =
(2.3)
V (
a) 0
(2.4)
Conclusion. Rcapitulons tout a. Nous avons introduit plusieurs hypothses pour montrer la convergence de l'estimateur de la pente :
1. (H2.b) E(2i ) = V (i ) = 2 . C'est l'hypothse d'homoscdasticit.
2. (H2.d) COV (i i ) = E(i i ) = 0. C'est l'hypothse de non-autocorrlation des erreurs.
Page: 18
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
19
[
]
1
x
2
V (b) = 2
+
n
)2
i (xi x
(2.5)
Fig. 2.1.
Page: 19
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
20
Les estimateurs des MCO sont BLUE (best linear unbiased estimator). On dit qu'ils sont
ecaces (pour les dmonstrations montrant qu'il est impossible d'obtenir des variances plus faibles, voir
Johnston, page 27 et pages 40-41 ; Labrousse, page 26).
Page: 20
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
3
Infrence statistique
Y pouvait tre explique par X . En revanche, il ne rpond pas la question : est-ce que la rgression est
globalement signicative ? En d'autres termes, est-ce que les X (il n'y en a qu'un seul pour l'instant dans
la rgression simple) emmnent signicativement de l'information sur Y , reprsentative d'une relation
linaire relle dans la population, et qui va au-del des simples uctuations d'chantillonnage ?
Un autre point de vue est de considrer le test d'valuation globale comme un test de signicativit du
R : dans quelle mesure s'carte-t-il rellement de la valeur 0 ? On a des rticences le prsenter ainsi dans
2
la littrature francophone car le R2 n'est pas un paramtre de la population estime sur l'chantillon ; on
Multiple Regression,
http://faculty.chass.ncsu.edu/garson/PA765/regress.htm#significance "...The F test is used
to test the signicance of R, which is the same as testing the signicance of R2, which is the same as
testing the signicance of the regression model as a whole... ; ou encore D. Mc Lane, HyperStat Online
Contents, http://davidmlane.com/hyperstat/B142546.html ...The following formula (le test F) is
used to test whether an R2 calculated in a sample is signicantly dierent from zero...) 1 .
a moins de scrupules dans la littrature anglo-saxonne (cf. par exemple D. Garson,
Quoiqu'il en soit, l'hypothse nulle correspond bien l'absence de liaison linaire entre l'endogne et
les exognes.
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
22
3 Infrence statistique
Source de variation Somme des carrs
Degrs de libert Carrs moyens
Explique
SCE = i (
yi y)2
1
CM E = SCE
1
2
SCR
Rsiduelle
SCR = i (yi yi )
n2
CM R = n2
2
Totale
SCT = i (yi y)
n1
Tableau 3.1.
degrs de libert,
plus accessible est de les comprendre comme le nombre de termes impliqus dans les sommes (le nombre
d'observations) moins le nombre de paramtres estims dans cette somme (Dodge et Rousson, page 41).
Ainsi :
Nous avons besoin de l'estimation de la moyenne y pour calculer la somme SCT.
Nous avons besoin des coecients estims a
et b pour obtenir la projection yi et former la SCR.
Concernant la SCE, le plus simple est de l'obtenir par dduction c.--d. (n 1) (n 2) = 1.
Pour tester la signicativit globale de la rgression, nous nous basons sur
F =
CM E
=
CM R
la statistique F,
SCE
1
SCR
n2
(3.1)
F =
R2
1
(1R2 )
n2
(3.2)
2 (1)
1
2 (n2)
n2
F (1, n 2)
(3.3)
Sous H0, F est donc distribu selon une loi de Fisher (1, n 2) degrs de libert.
La rgion critique du test, correspondant au rejet de H0, au risque est dnie pour les valeurs
anormalement leves de F c.--d.
Page: 22
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
23
(3.4)
Dcision partir de la p-value. Dans la plupart des logiciels de statistique, on fournit directement la probabilit critique (p-value) , elle correspond la probabilit que la loi de Fisher dpasse la
statistique calcule F.
Ainsi, la rgle de dcision au risque devient :
R.C. : <
(3.5)
Fig. 3.1.
CM R =
SCR
n2
63.839
102
SCE
1
251.061
1
= 7.980
2. regression_simple_rendements_agricoles.xlsx - "reg.simple.test.global"
Page: 23
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
24
3 Infrence statistique
CM E
CM R
251.061
7.980
= 31.462
Que nous comparons au quantile d'ordre (1 ) de la loi F(1, n 2). Pour = 5%, elle est
gale 3 F0.95 (1, 8) = 5.318. Nous concluons que le modle est globalement signicatif au risque
5%. La relation linaire entre Y et X est reprsentatif d'un phnomne existant rellement dans la
population.
En passant par la probabilit critique, nous avons 4 0.00050, infrieure = 5%. La conclusion
est la mme. Il ne peut pas y avoir de contradictions entre ces deux visions de toute manire.
3.2.1 Distribution de a et b
Dans un premier temps, concentrons-nous sur la pente de la rgresion. Rappelons que a
est gal
n
(y y)(xi x
)
n i
a
= i=1
2
)
i=1 (xi x
X est non stochastique, Y l'est par l'intermdiaire du terme d'erreur . Nous introduisons l'hypothse
selon laquelle :
i N (0, )
De fait, yi = axi + b + i suit aussi une loi normale, et a
tant une combinaison linaire des yi , il vient
a
a
N (0, 1)
a
(3.6)
2
)2
i (xi x
a2 =
(3.7)
Ce rsultat est trs intressant mais n'est pas utilisable en l'tat, tout simplement parce que nous ne
disposons pas de l'estimation de la variance de l'erreur 2 . Pour obtenir une estimation calculable sur un
chantillon de donnes de l'cart-type
a du coecient a
, nous devons produire une estimation de l'cart
type de l'erreur
. La variance estime s'crirait alors
2
)2
i (xi x
a2 =
(3.8)
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
25
La suite logique de notre expos consiste donc proposer une estimation sans biais de la variance de
l'erreur 2 .
Le cas de la constante. La situation est identique pour ce qui est de l'estimation de la constante b.
Nous avons :
b b
N (0, 1)
b
b2 = 2
x
2
1
+
)2
n
i (xi x
(3.9)
De nouveau, si nous souhaitons obtenir son estimation c.--d. mettre un chapeau sur le de b comme
j'ai coutume de le dire en cours, il faut mettre un chapeau sur le de . C'est ce que nous faisons dans
la section suivante.
i = yi yi
= axi + b + i (
axi + b)
= i (
a a)xi (b b)
Remarque 2 (Esprance des rsidus). On note au passage que l'esprance du rsidu est nulle (E[i ] = 0)
si les estimateurs sont sans biais.
On montre que (Giraud et Chaix, page 31) :
]
[
2
E
i = (n 2)2
(3.10)
SCR
2 = i i =
n2
n2
(3.11)
Quelques commentaires :
Au numrateur, nous avons la somme des carrs des rsidus. Nous l'obtenons facilement comme
nous avons pu le constater dans notre exemple des "Rendements agricoles".
Au dnominateur, nous avons les degrs de libert de la rgression. La valeur
dans (n 2)
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
26
3 Infrence statistique
(3.12)
En passant au carr, nous avons un 2 (1). Il ne nous reste plus qu' former la somme des termes :
( i )2
i
2i
i
2
2 (n 2)
(3.13)
2
2 (n 2)
2
n2
(3.14)
Nous pouvons maintenant revenir sur la distribution des coecients calculs lorsque toutes ses composantes sont estimes partir des donnes.
a2
2
= 2
2
a
a2
2
2 (n 2)
=
a2
2
n2
(3.15)
De fait, la distribution rellement exploitable pour l'infrence statistique est la loi de Student (n 2)
degrs de libert.
a
a
T (n 2)
(3.16)
Comment ?
N'oublions pas que la loi de Student est dnie par un rapport entre une loi normale et la racine
carre d'un loi du 2 normalise par ses degrs de libert. Ainsi,
Page: 26
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
27
N (0, 1)
2
(n2)
n2
a
a
T (n 2)
b b
T (n 2)
(3.17)
Nous disposons maintenant de tous les lments pour analyser les paramtres estims de la rgression.
H : a = 0
0
H1 : a = 0
ta =
(3.18)
Elle suit une loi de Student (n 2) degrs de libert. La rgion critique (de rejet de H0) au risque
s'crit :
R.C. : |ta | > t1 2
(3.19)
2i
i
= 7.149 + = 63.839
5. regression_simple_rendements_agricoles.xlsx - "reg.simple.test.pente"
Page: 27
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
28
3 Infrence statistique
Fig. 3.2.
2 =
SCR
63.839
=
= 7.980
n2
8
L'cart-type estim de l'erreur correspond la racine carre, il est bien de le prciser car de nombreux
logiciels (la fonction DROITEREG d'Excel par exemple) l'achent plutt que la variance.
7.980 = 2.825
Pour obtenir l'estimation de l'cart-type de la pente, nous avons besoin de la somme des carts la
2
)2
i (xi x
a =
7.980
492.4
= 0.01621
= 0.12730
Nous formons la statistique de test
ta =
0.71405
a
=
= 5.60909
a
12730
Au risque = 5%, le seuil critique pour la loi de Student (n 2) degrs de libert pour un test bilatral 6 est t1 2 = 2.30600. Puisque |5.60909| > 2.30600, nous concluons que la pente est signicativement
non nulle au risque 5%.
6. LOI.STUDENT.INVERSE(0.05 ;8) sous Excel. Attention, la fonction renvoie directement le quantile pour
un test bilatral !
Page: 28
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
29
Si nous tions passs par le calcul de la p-value, nous aurions obtenu 7 = 0.00050. Puisque < ,
nous rejetons de mme l'hypothse nulle.
H : a = 0.5
0
H1 : a > 0.5
Il s'agit d'un test de conformit un standard unilatral. La rgion critique au risque du test s'crit
R.C. :
a
0.5
> t1
a
0.5
0.71405 0.5
=
= 1.68145
a
0.12730
A comparer avec t0.95 (8) = 1.85955 pour un test 5% 8 . Nous sommes dans la rgion d'acceptation
c.--d. nous ne pouvons pas rejeter l'hypothse nulle. La valeur du paramtre a n'est pas signicativement
suprieur la rfrence 0.5 au risque 5%.
a
t1 2
a
(3.20)
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
30
3 Infrence statistique
[
]
a
t1 2
a ; a
+ t1 2
a
[0.71405 2.30600 0.12730 ; 0.71405 + 2.30600 0.12730]
[0.42049 ; 1.00761]
Le rsultat est cohrent avec le test de signicativit de la pente, l'intervalle de conance ne contient
pas la valeur 0.
Y /X = a X + b
(3.21)
C'est pour cette raison que dans la plupart des ouvrages, on prsente les rsultats dcrits dans cette
section comme le calcul de l'intervalle de conance de la prdiction de la moyenne de Y conditionnellement
X (Dodge et Rousson, page 34 ; Johnston et DiNardo, page 36 ; Tenenhaus, page 92). Mais il s'agit bien
de l'intervalle de conance de ce que l'on a modlis avec la droite, ne pas confondre avec l'intervalle
de conance d'une prdiction lorsque l'on fourni la valeur xi pour un nouvel individu i n'appartenant
pas l'chantillon.
J'avoue que pendant longtemps, cette distinction ne me paraissait pas trs claire. Je ne voyais pas
trs bien quelle tait la dirence entre l'intervalle de conance de la prdiction l'esprance de Y sachant
X et la prdiction ponctuelle de Y . Dans les deux cas, nous avions la mme valeur ponctuelle calcule
a
xi + b. Le passage de l'un l'autre dans Jonhston et DiNardo livre que j'avais beaucoup lu quand
j'tais tudiant pages 35 et 36, formules (1.67) et (1.68), est particulirement prilleux.
Bref, la terminologie "intervalle de conance de la droite de rgression" (Bressoux, page 76) me sied
mieux.
Pour un individu donn, nous obtenons l'estimation de sa moyenne conditionnelle :
Y /xi = a
xi + b
Page: 30
job: econometrie_regression
macro: svmono.cls
(3.22)
date/time: 11-Feb-2013/22:06
)
i
2Y /x =
2
+
i
n
)2
j (xj x
31
(3.23)
Enn, la moyenne conditionnelle estime suit une loi de Student (n 2) degrs de liberts.
Tous ces lments nous permettent de construire l'intervalle de conance au niveau (1) de la droite
de rgression (Bressoux, page 76 ; quation 2.17) :
a
xi + b t1 2
Levier. L'expression
hi =
(xi x
)2
1
+
n
)2
j (xj x
(3.24)
1
(xi x
)2
+
n
)2
j (xj x
(3.25)
est appele levier de l'observation i dans la littrature. Il tient une place trs importante dans la
rgression, notamment dans la dtection des points atypiques (voir [13], chapitre 2).
Fig. 3.3.
Reprenons notre exemple des "Rendements agricoles". Nous formons la feuille Excel permettant de
calculer les bornes basses et hautes de la droite de rgression au niveau de conance 95% (Figure 3.3) 9 :
Une grande partie des informations ont dj t calcules dans les prcdents exemples, nous savons
que n = 10, a
= 0.71405, b = 4.39277,
= 2.8249, x
= 30.4, la somme
(xj x
)2 = 492.4.
j
Pour un niveau de conance 95%, la loi de Student nous fournit le quantile t0.975 (8) = 2.30600
9. regression_simple_rendements_agricoles.xlsx - "reg.simple.intv.conance"
Page: 31
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
32
3 Infrence statistique
Nous sommes pars pour construire les intervalles de conance. Pour le 1-er individu, nous avons :
1
(20 30.4)2
b.b.(Y /X=x1 ) = 18.674 2.30600 2.8249
+
= 14.99
10
492.4
1
(20 30.4)2
b.h.(Y /X=x1 ) = 18.674 + 2.30600 2.8249
+
= 22.36
10
492.4
Dans la rgression simple, la reprsentation graphique est trs intuitive (Figure 3.4). Il y a 95% de
chances que la droite soit comprise entre les deux courbes bleues. Attention, la droite ne peut tre place
n'importe o dans la zone dlimite,
Fig. 3.4.
B2 :C11.
DROITEREG sur la plage F3 :G7. Elle fournit les coecients estims sur la premire ligne, nous rservons
autant de colonnes qu'il y a de coecients (2 dans notre cas, la pente et la constante de la rgression) ; et,
si nous souhaitons consulter les statistiques intermdiaires relatifs la rgression, nous devons rserver
10. regression_simple_rendements_agricoles.xlsx - "droitereg"
Page: 32
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
33
4 lignes supplmentaires (5 lignes en tout). Attention, il s'agit d'une fonction matricielle, elle complte
directement plusieurs cellules, nous devons donc valider en appuyant simultanment sur les touches CTRL
+ MAJ + ENTREE.
Fig. 3.5.
Dcrivons les valeurs fournies par la fonction DROITEREG en les numrant (de gauche droite, du
haut vers le bas) (Figure 3.5) :
Ligne 1
Ligne 2
Nous avons les estimations des carts-type des coecients estims, soit
a = 0.12730 et
b = 3.97177.
Ligne 3
Ligne 4
Ligne 5
A partir de ces informations, nous pouvons tablir tous les rsultats mis en avant dans ce support
(jusqu' ce stade, prcisons le bien). Nous avons ainsi construit (Figure 3.5, partie basse) : le tableau pour
l'valuation globale de la rgression, avec le calcul de la probabilit critique ; les tests de signicativit
Page: 33
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
34
3 Infrence statistique
individuelle des coecients ; et leurs intervalles de conance 95%. Toutes les valeurs sont identiques
celles que nous avions tablies dans les chapitres prcdents.
SCE/1
SCR/(n 2)
(
yi y)2
= i 2
(
axi + b y)2
= i
[
axi + (
ya
x
) y]2
= i
2
2
)2
a
a
2
i (xi x
=
=
2
2
x)2
i (xi
(
)
2
a
2
a
= 2 =
F =
= t2a
Ainsi, tester la signicativit de la pente dans la rgression simple avec constante revient tester la
signicativit globale. Les statistiques de test sont cohrentes. Il en est de mme en ce qui concerne les
distributions car il y a une quivalence entre la loi de Student et la loi de Fisher.
2
(T (n 2)) F(1, n 2)
(3.26)
Vrication sur les donnes "Rendements agricoles". Nous le constatons aprs coup sur notre
exemple. Nous avons ta = 5.60909 (section 3.3.1). En passant au carr, nous obtenons la valeur de
statistique de test F = 31.462 = (5.60909)2 (section 3.1).
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
35
F =
=
=
=
=
SCE/1
SCR/(n 2)
(n 2) SCE
SCR
(n 2) SCE
SCT SCE
(n 2) R2
1 R2
2
ta
Or, concernant la rgression linaire simple (avec constante), le carr du coecient de corrlation
2
entre Y et X est gal au coecient de dtermination de la rgression c.--d. ryx
= R2 (section 1.3.3).
t2a =
2
ryx
2
1ryx
n2
Qui correspond au carr de la statistique t utilise pour tester la signicativit du coecient de corrlation linaire (cf. Rakotomalala, [12], section 2.4, page 16). Les distributions de t et ta sont identiques,
savoir un Student (n 2) degrs de libert.
corrlation entre Y et X prcdemment (Figure 1.7), nous avions ryx = 0.892901. Formons la statistique
pour le test de signicativit du coecient de corrlation :
t=
r
1r 2
n2
0.892901
=
10.8929012
8
= 5.60909 = ta
Page: 35
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 36
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
4
Prdiction et intervalle de prdiction
Outre l'analyse structurelle et l'interprtation des coecients, la rgression est beaucoup utilise pour
la prdiction (ou prvision, on utilise plutt ce terme quand on manipule des donnes longitudinales).
Pour un nouvel individu donn, partir de la valeur de l'exogne X , nous voulons connatre la valeur
que prendrait l'endogne Y .
yi = y(xi )
=a
xi + b
On vrie facilement que
i = yi yi
=a
xi + b yi
=a
xi + b (a xi + b + i )
= (
a a)xi + (b b) i
Passons l'esprance mathmatique,
[
]
E [
i ] = E (
a a)xi + (b b) i
= xi E(
a a) + E(b b) E(i )
=0
Page: 37
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
38
Cette esprance est nulle si l'on se rfre aux hypothses et aux rsultats des moindres carrs ordinaires.
En eet, les estimateurs a
et b sont sans biais (E(
a) = a et E(b) = b), et l'esprance de l'erreur est nulle
[
2i
1
(xi x
)2
1+ +
)2
n
i (xi x
]
(4.1)
( 2 )
2i
1
(xi x
)2
1+ +
)2
n
i (xi x
]
(4.2)
Quelques remarques
La variance sera d'autant plus petite, et par consquent la fourchette d'autant plus troite, que :
est faible, c.--d. la rgression est de bonne qualit.
n est lev c.--d. la taille de l'chantillon ayant servi la construction du modle est lev.
(xi x
) est faible c.--d. l'observation est proche du centre de gravit du nuage de points (en
abcisse, sur l'axe des X ). De fait, l'intervalle de prdiction s'vase mesure que xi s'loigne de x
.
La somme i (xi x
)2 est leve c.--d. la dispersion des points ayant servi la construction du
modle est grande, ils couvrent bien l'espace de reprsentation. En ralit, c'est surtout le rapport
(xi
x)2
x)2
i (xi
Page: 38
qui joue.
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
39
i
yi yi
=
N (0, 1)
i
i
(4.3)
de la dnition de la distribution des coecients estims (section 3.2.3), sachant que (n2) 2 2 (n2),
i
yi yi
=
T (n 2)
(4.4)
(xi x
)2
1
yi t1 2
1 + + n
n
)2
i=1 (xi x
O t1 2 est le quantile d'ordre 1
(4.5)
(1 ) = 95%. Nous partons des rsultats fournis par la fonction DROITEREG d'Excel (Figure 4.1) 1 .
Dans un premier temps, nous calculons la prdiction ponctuelle
i (xi
x
)2 = 492.4
57.76
1
+
= 3.1167
i = 2.82486 1 +
10 492.4
Enn, pour un intervalle de conance 95% :
1. regression_simple_rendements_agricoles.xlsx - "prediction"
Page: 39
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
40
Fig. 4.1.
Page: 40
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Fig. 4.2.
Page: 41
41
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 42
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
5
tude de cas - Consommation des vhicules vs. Poids
Rcapitulons tous les lments tudis jusqu' prsent en ralisant une tude de cas. On souhaite
expliquer la consommation des vhicules (en l/100km) (Y ) partir de leur poids (en kg) (X ). Nous
disposons d'un chantillon de n = 28 observations.
Le modle s'crit classiquement
yi = axi + b + i
Le graphique nuage de points (Figure 5.1) laisse penser qu'il y a eectivement une relation entre les
deux variables. Elle est plutt positive c.--d. lorsque le poids augmente, la consommation a tendance
augmenter galement. Sans tre un grand expert en automobile, on imagine bien que la causalit est dans
ce sens : c'est le poids qui inue sur la consommation, et non l'inverse. On conoit mal qu'en faisant baisser
la consommation par un moyen quelconque, on arriverait par magie rduire le poids des vhicules.
Fig. 5.1.
Page: 43
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
44
Nous avons construit la feuille Excel pour la totalit des calculs (Figure 5.2) 1 . Nous numrons les
principaux rsultats.
Fig. 5.2.
Coecients estims. La fonction DROITEREG nous fournit directement les coecients estims
a
= 0.006694
b = 1.062691
la SCE = 115.508374 et la SCR = 19.104126. Nous pouvons en dduire la SCT = SCE + SCR =
SCE
SCT
1. conso_poids_vehicules_reg_simple.xlsx
Page: 44
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
45
directement fourni par Excel. La rgression est plutt de bonne qualit. Ce qui est conrm par le trac
de la droite de rgression au sein du nuage de points (Figure 5.3).
Fig. 5.3.
Avec les degrs de liberts adquates, 1 au numrateur, n 2 = 26 au dnominateur, nous obtenons une
probabilit critique trs faible (1.57589 1012 ). Le modle est globalement signicatif au risque = 5%.
Test de signicativit de la pente. Sans surprise, la pente est aussi signicative 5%. La statistique
de test est forme par le rapport de valeurs toutes deux propose par Excel, ta =
0.006694
0.000534
Prdiction ponctuelle et par intervalle. Nous souhaitons prdire la consommation pour un vhicule prsentant un poids de x = 1155 kg. Nous calculons la prdiction ponctuelle de la consommation :
y = a
x +b = 0.006694 1155 + 1.062691 = 8.79
Pour construire l'intervalle de prdiction, nous avons besoin de l'estimation l'cart-type de l'erreur de
prdiction
(x
x)2
(1195 1196.96429)2
1
1
=
0.857190
+
= 0.872650
1+ +
1
+
n
)2
28
2577866.96
i (xi x
Au niveau de conance 90%, nous prenons le quantile t0.95 (26) = 1.705618, nous avons ainsi les bornes
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
46
Un vhicule pesant 1155 kg a 90% de chances de consommer entre 7.31 et 10.28 litres au 100 km.
Nous visualisons la fourchette de prdiction dans le graphique nuage de points (Figure 5.4).
Fig. 5.4.
L'amplitude de la fourchette semble visuellement moindre par rapport celle que nous avions calcule
pour les rendements agricoles (Figure 4.2). Ce n'est pas qu'une impression. Si on rapporte l'tendue
des intervalles l'cart-type de l'endogne, on se rend compte que le second [consommation = f(poids)]
est (presque) deux fois moins large que le premier [rendement = f(engrais)]. Il y a plusieurs raisons
cela : la rgression est de meilleure qualit (R2 ) ; l'individu prdire est plus proche du centre de gravit
du nuage de points ; la taille n de l'chantillon est plus leve ; et... nous avons spci un niveau de
conance moindre (ah le coquin, la comparaison est forcment avantageuse). Aprs coup, ce rsultat
n'est pas tonnant du tout.
Page: 46
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
6
Non linarit - Modles drivs et interprtation des coecients
y
=a
x
Dans notre exemple, nous dirons : lorsque le prix augmente d'un euro, les ventes baissent de 12 units.
Le modle est linaire, la variation de Y est proportionnelle la variation de X . Son principal atout
est la simplicit. On l'utilise souvent dans un premier temps pour apprcier l'existence d'une relation
(dont on ne cerne pas trs bien la nature) entre Y et X . Les paramtres peuvent tre estims directement
l'aide de la mthode des moindres carrs comme nous avons pu le constater dans ce fascicule.
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
48
Dans cette section, nous allons dcrire quelques modles trs utiliss en conomtrie.
Y = b Xa
Fig. 6.1.
(6.1)
Liaison log-linaire - Y = b X a , (a = 3, b = 5)
a=
y
y
x
x
(6.2)
Nous avons un modle lasticit constante, c'est la favori des conomistes [ex. emploi = f(production),
demande = f(prix)].
Nous linarisons en passant par les logarithmes. Nous pouvons ainsi obtenir facilement une estimation
des paramtres a et b avec la mthode des MCO.
(6.3)
Y = eaX+b
Le coecient de la pente se lit
a=
y
y
(6.4)
(6.5)
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
49
est constante dans le temps. Ce type d'volution (exponentielle) ne dure pas longtemps (Figure 6.2). On
linarise la relation de la manire suivante
ln(Y ) = a X + ln(b)
Fig. 6.2.
(6.6)
Y = a ln(X) + b
(6.7)
a=
(6.8)
x
x
C'est l'archtype de la croissance (ou dcroissance) qui s'puise (Figure 6.3)[ex. salaire = f(anciennet) ;
vente = f(publicit)].
Fig. 6.3.
Page: 49
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
50
Y = ymin +
ymax ymin
1 + eaX+b
(6.9)
Les valeurs ymin et ymax peuvent tre estimes partir des donnes. Mais le plus souvent, elles sont
fournies par les connaissances du domaine.
Nous obtenons une forme linaire dont les paramtres peuvent tre estimes par les MCO via l'criture
suivante
(
ln
Fig. 6.4.
ymax Y
Y ymin
)
(6.10)
= aX + b
ymax ymin
,
1+eaX+b
Les modles ci-dessus sont intressants parce qu'ils correspondent des phnomnes conomiques
connus et reconnus. La lecture des rsultats, l'analyse des coecients principalement, est bien cadre.
L'utilisation qui en dcoule l'est galement. C'est leur principal intrt.
Dans certains cas, nous sommes plus intresss par les capacits prdictives que par l'interprtation.
Nous souhaitons produire le modle le plus performant possible en termes de proportion de variance
explique (R2 ). La meilleure piste consiste alors tenter diverses transformations tant sur l'endogne Y
que sur l'exogne X . Si l'ide est simple, trouver la solution adquate est loin d'tre vidente tant les
possibilits sont innombrables. Nous approfondirons cette piste dans un chapitre ddi de notre second
support consacr la "Pratique de la rgression linaire multiple" ([13], chapitre 6).
Page: 50
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
51
Fig. 6.5.
(
ln
ymax
1
y
)
= ax + b
ymax
y
)
800
1 (ex. z1 = ln( 44.7
1) = 2.82714 ;
a
= 0.22457
b = 446.98081
La rgression est d'excellente qualit avec un R2 = 0.99229. Elle est bien videmment globalement
signicative avec F = 2187.39514 et une p-value trs faible.
1. equipementmagnetoscope.xlsx - "rgression"
Page: 51
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
52
Fig. 6.6.
Fig. 6.7.
Essayons de voir quel serait le taux d'quipement en 1998 ? Pour ce faire, nous appliquons directement
le modle pour obtenir z1998 ,
y1998 =
800
ymax
=
= 676.74
1 + ez1998
1 + e1.7030
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
y1998 = ymin +
53
800 0
ymax ymin
=0+
= 676.74
1 + eax+b
1 + e0.224571998+446.98081
Si on veut produire une fourchette de prdiction, la premire solution est prfrable. Nous calculons
tout d'abord l'intervalle de prdiction pour z1998 , puis nous appliquons la transformation inverse sur les
bornes pour obtenir la fourchette pour y1998 .
Estimation de
ymax . Dernier point avant de conclure cette section, nous avions considr ymax =
800 comme acquise dans notre dmarche. Elle tait le fruit d'une information exogne au processus
modlisation (en rfrence une autre population).
En ralit, nous pouvons galement intgrer son estimation dans les calculs. Bourbonnais (page 162)
dcrit une procdure de balayage : elle tente plusieurs valeurs probables comprises entre 680 et 990 (des
valeurs crdibles bien videmment, il ne s'agit pas de tester n'importe quoi), la valeur slectionne est
celle qui minimise la SCR du modle nal. Avec le logiciel Rats, il obtient sur notre exemple la valeur de
ymax = 710 2 .
Nous avons voulu ritrer la mme exprimentation en utilisation
entres d'Excel
(nous n'utilisons qu'une seule entre en l'occurrence). ymax est devenu un paramtre
dans la feuille de calcul, utilis pour construire la variable intermdiaire z . Pour chaque valeur de ymax
allant de 680 990 avec un pas de 10, Excel a relanc Droitereg et nous avons collect la somme des
carrs des rsidus de la rgression. Au nal, la valeur qui minimise la SCR (SCR = 0.08892) est bien
ymax
.
1+bax
nature du modle.
3. Voil pourquoi j'adore les tableurs. Avec un peu de rexion et trois clics, on peut mener des analyses assez
complexes. La feuille Excel est autrement plus simple que le code source rapport dans Bourbonnais (page 162),
pourtant particulirement limpide si on sait un tant soit peu coder (une boucle DO avec un condition l'intrieur).
Mais c'est le genre de choses faire fuir les tudiants pourtant friands de statistique mais rfractaires toute ide
de programmation.
4. equipementmagnetoscope.xlsx - "estimation y.max"
Page: 53
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
54
Fig. 6.8.
Page: 54
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
7
Rgression sans constante
Jusqu' prsent dans tous les exemples dcrits dans ce support, nous n'avions jamais tent de tester la
signicativit de la constate. La raison est que nous serions bien embts si elle s'avrait non signicative.
En eet, la supprimer de l'quation de rgression modie (un peu beaucoup) la nature de l'aaire. Le
modle s'crit
(7.1)
yi = axi + i
Nous devons faire face plusieurs phnomnes :
Nous introduisons une contrainte dans la rgression. La droite passe forcment par l'origine c.--d.
lorsque x = 0, y(0) = 0. Et, sauf cas particulier des donnes centres que nous aborderons plus bas
(section 7.1), elle ne passe pas forcment par le barycentre G(
x, y) du nuage de points.
La dcomposition de la variance telle que nous l'avons dcrite prcdemment (quation 1.9) n'est
plus valable. La tableau d'analyse de variance n'a plus de sens. Le coecient de dtermination R2
ne peut plus tre lue en termes de proportion de variance explique par la rgression. Il peut mme
prendre
des valeurs ngatives. C'est trs gnant pour un indicateur qui prsente un carr dans son
expression.
La pente de la rgression peut tre interprte d'une autre manire. Elle reprsente directement
le rapport entre les variables c.--d. a =
Y
X.
nous dtaillerons dans la section 7.2. La lecture en termes de rapport de variation reste valable
cependant.
b = y a
x
= 0. On constate facilement que b = 0.
Or, par dnition y = x
Page: 55
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
56
C'tait logique dans la mesure o l'on sait que la droite de rgression passe toujours par le centre de
gravit des points. Lorsque les donnes sont centres, le barycentre est le point de coordonnes (0, 0), il
est normal donc qu'elle passe par l'origine sur Y et sur X.
de calcul des "Rendements agricoles". Nous avons centr les donnes l'aide des moyennes empiriques
y = 26.1 et x
= 30.4. Nous avons construit le nuage de points puis, l'aide de l'outil "Courbe de tendance"
d'Excel, nous avons trac la droite de rgression (Figure 7.1) 1 . Elle passe bien par l'origine du repre,
la constante estime b = 0. Par rapport aux rsultats obtenus dans la rgression avec constante (section
1.2.2), nous remarquons que la pente de la droite n'est pas modie, a
= 0.71405.
Fig. 7.1.
SCR(ax+b) . Lorsqu'elle est totalement inadapte, sa SCR peut mme tre suprieure la SCT. Le modle
est moins bon que la simple prdiction l'aide de la moyenne de l'endogne. D'o la possibilit d'obtenir
des coecients de dtermination R2 ngatifs. C'est la raison pour laquelle nous avons hachur le R2 fourni
par Excel dans les sorties de DROITEREG (Figure 7.2).
1. regression_sans_constante.xlsx - "rendements agricoles"
Page: 56
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Fig. 7.2.
57
Dans notre exemple des Rendements agricoles, nous avons SCR(ax) = 73.59996 (Figure 7.2) contre
ddl
Rendements agricoles, gure 7.2]. Il faudra en tenir compte lors de la mise en oeuvre des tests d'hypothses.
7.2.2 Formules
Les frus de calculs pourront aisment reproduire la dmarche des moindres carrs ordinaires pour
obtenir a
. Nous donnons directement les principaux rsultats sans dmonstration dans cette section.
L'estimateur des MCO de la pente de la rgression sans constante s'crit
yi xi
a
= i 2
i xi
(7.2)
On remarque l'analogie avec l'estimateur de la pente pour la rgression avec constante, surtout en
tenant compte du fait que la droite passe forcment par l'origine.
L'estimateur de la variance de l'erreur doit tenir compte des degrs de libert, c.--d.
2 =
SCR
n1
(7.3)
Enn, la quantit
a2 = 2
i xi
(7.4)
a
1
T (n 1)
(7.5)
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
58
Y
X
yi = axi + i
Et nous mettons en oeuvre le test d'hypothses au risque = 5%
H : a = 1
0
H1 : a > 1
Nous utilisons la statistique :
t(a>1) =
a
1
La rgion critique du test est dnie pour les valeurs "anormalement" leves de a
par rapport 1 :
(7.6)
t(a>1) =
2. Rakotomalala,
1.02083 1
a
1
=
= 3.80528
a
0.00547
fr/~ricco/cours/cours/Comp_Pop_Tests_Parametriques.pdf.
3. Rakotomalala, Comparaison de populations - Tests non paramtriques, chapitre 6, http://eric.
univ-lyon2.fr/~ricco/cours/cours/Comp_Pop_Tests_Nonparametriques.pdf.
4. regression_sans_constante.xlsx - "salaire H.F dans les mnages"
5. Contrairement ce que laisse croire le graphique, la droite de rgression passe bien par l'origine (0, 0).
Page: 58
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
59
Que nous comparons au seuil critique fournie par la loi de Student (n 1 = 49) degrs de libert,
t0.95 (49) = 1.67655. Nous nous situons dans la rgion critique. Les donnes conrment l'ide selon laquelle
le salaire de l'homme a tendance tre suprieur celui de sa conjointe au sein des mnages.
Fig. 7.3.
Page: 59
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 60
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
8
Comparaison des rgressions
L'objectif de la comparaison des rgressions est de vrier que la liaison existant entre X et Y est de
la mme nature dans direntes sous-populations.
Prenons un exemple simple dont nous dtaillerons l'analyse plus loin (section 8.5.1). On pense que le
montant du salaire mensuel des employs est fonction de leur niveau d'tudes. Cela semble logique : plus
la personne est qualie, plus leve sera sa rmunration. Mais est-ce que la liaison est la mme chez les
hommes et chez les femmes ? Valorise-t-on de la mme manire la qualication ? Dans cette conguration,
la variable endogne Y est le salaire ; le nombre d'annes d'tudes est l'explicative X ; les sous-populations
sont dnies par la sexe Z , avec (K = 2) groupes.
Dans ce chapitre, mme si nos exemples porterons sur le cas particulier de (K = 2) groupes pour
faciliter les interprtations, l'expos et les formules seront valables pour un nombre quelconque de souspopulations (K 2).
Cette conguration n'est pas sans rappeler un autre type de problme que nous avons tudi dans
notre second polycopi [13] (chapitre 5). Nous y abordons la comparaison de modles sous l'angle de la
rupture de structure dans la rgression multiple. Nous cherchons savoir dans un premier temps si, dans
deux sous-priodes (ou deux sous-populations), la relation entre les exognes et l'endogne est la mme.
Dans un deuxime temps, nous essayons de dtecter la source de la dirence, si elle existe videmment.
L'ide est la mme dans ce chapitre. Sauf que nous nous plaons dans le cadre de la rgression simple
et que nous pouvons traiter un nombre quelconque de groupes.
Ainsi, dans les exemples que nous dtaillerons dans ce chapitre : rgression simple et comparaison
de K = 2 groupes, les deux approches sont applicables. C'est le genre de situations que j'apprcie tout
particulirement. Nous disposons de deux prismes dirents pour traiter le mme problme. A priori, les
approches devraient converger. C'est ce que nous ne manquerons pas de vrier bien videmment.
Ce chapitre doit beaucoup Avazian (pages 151 156, [1]), Dagnelie (pages 486 494, [5]) et Scherrer
(pages 713 717, [16]).
Page: 61
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
62
yi = axi + b + i , i = 1, . . . , n.
A partir de cette droite, nous calculons la somme des carrs des rsidus SCRT .
2. Dans un deuxime temps, nous ralisons les "rgressions non contraintes", hors H0 c.--d. pour les
K groupes, nous calculons les paramtres (ak , bk ) du modle sur des chantillons de taille nk :
yi,k = ak xi,k + bk + i,k , i = 1, . . . , nk , k = 1, . . . , K.
Pour chaque rgression nous avons la somme des carrs des rsidus SCRk . Nous formons la somme
SCRW =
SCRk
k=1
Qui correspond en quelque sorte la somme des carrs des rsidus intra-groupes.
Ayant retirer la contrainte d'galit des coecients dans les groupes pour les secondes rgressions,
nous sommes certains de la proprit suivante
SCRW SCRT
Toute la problmatique revient alors poser la question : est-ce que l'cart est susamment important
pour qu'il ne soit pas imputable aux simples uctuations d'chantillonnage ? Auquel cas, la contrainte
d'galit des coecients dans les groupes (H0 ) est trop forte, inapproprie.
On devine aisment que la statistique de test est base sur l'opposition entre les SCR, elle s'crit :
F =
(8.1)
Page: 62
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
63
(nk 2) =
nk 2K
k
= n 2K
Et au numrateur :
(n 2) (n 2K) = 2K 2
= 2(K 1)
La dmarche est totalement cohrente avec les tests sur les changements structurels dans la rgression
linaire multiple que nous exposons par ailleurs [13] (chapitre 5).
Sous H0 , F suit une loi de Fisher [2(K 1), n 2K] degrs de libert. La rgion critique au risque
Fig. 8.1.
Nous avons K = 2 groupes, avec n1 = 5 et n2 = 10. Nous avons construit le modle sur la totalit
des donnes ("Rgression globale") et dans les sous-populations ("Rgression groupe k") (Figure 8.1) 1 :
1. comparaisondesregressions.xls - "comp.groupes"
Page: 63
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
64
F =
Avec une loi F(2, 11), nous avons une probabilit critique de 0.0181
Au risque = 5%, nous pouvons rejeter l'hypothse d'galit des rgression dans les sous-groupes.
Ce rsultat n'est gure tonnant si l'on considre le nuage des points (X, Y ) mettant en exergue
l'appartenance aux groupes (Figure 8.2).
Fig. 8.2.
Page: 64
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
65
H : a = a = = a = 0
0
1
2
K
H1 : k, k tel que ak = ak
Pour rpondre la question, nous devons calculer l'estimation commune aux K groupes de la pente
de la droite de rgression :
K
a
c = k=1
K
(nk 1)syx,k
k=1 (nk
(8.2)
1)s2x,k
Nous nous servons d'une sries de statistiques dnies dans les sous-chantillons de taille nk relatifs
aux K groupes :
n k
1
k )(xi x
k ) est la covariance entre Y et X dans le groupe k .
i=1 (yi y
nk 1
n
k
yk = n1k i=1
yi (resp. x
k ) est la moyenne de Y (resp. X ) dans le groupe k .
nk
1
2
sx,k = nk 1 i=1 (xi x
k )2 (resp. s2y,k ) est la variance estime de X (resp. Y ) dans le
syx,k =
groupe k .
On dduit une somme des carrs des rsidus associs aux K droites parallles :
SCRC =
2c
(nk 1)s2y,k a
(nk 1)s2x,k
(8.3)
k=1
k=1
La contrainte de "paralllisme" des droites, exprime travers une estimation commune de la pente
a
c , font que SCRC SCRW (issu des estimations spares dans la groupes, sans contraintes). La
question est : est-ce que l'cart est susamment signicatif ? Auquel cas, l'hypothse d'galit des pentes
ne tiendrait pas la route.
A partir de cette ide, on propose la statistique de test suivante :
F =
(8.4)
Sous H0 (galit des pentes), elle suit une loi de Fisher (K 1, n 2K) degrs de libert. La rgion
critique correspond aux fortes valeurs de F.
Application numrique
Revenons sur notre exemple (section 8.1.2). Nous avions conclu que les rgressions taient direntes
dans les K = 2 groupes. Mais nous n'avions pas dtermin le paramtre (pente ou constante) responsable
de cette dirence. Nous allons vrier maintenant le rle de la pente.
A partir des donnes et des rsultats des prcdentes rgressions (Figure 8.1), nous calculons les
nouveaux indicateurs ncessaires au test (Figure 8.3) 2 :
2. comparaisondesregressions.xls - "comp.groupes"
Page: 65
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
66
syx,1 =
1
168 = 18.6667
9
n1
1
1
(xi x
1 )2 = 80 = 20.0
=
n1 1 i=1
4
syx,2 =
s2x,1
1
330 = 36.6667
9
= 4.0
s2x,2 =
s2y,1
s2y,2 = 9.7778
La pente commune aux rgressions conditionnelles est obtenue avec
K
(nk 1)syx,k
4 8.75 + 9 18.6667
ac = k=1
=
= 0.4951
K
2
4 20 + 9 36.6667
k=1 (nk 1)sx,k
Nous en tirons la SCRC , l'erreur rsiduelle associe aux K droites parallles
F =
Fig. 8.3.
Page: 66
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
67
F =
(8.5)
Application numrique
Toujours sur notre exemple (section 8.1.2), l'galit entre les pentes a t tablie dans la section
prcdente. Voyons maintenant ce qu'il en est concernant les constantes. Tous les lments intermdiaires
sont dj prts (Figures 8.1 et 8.3), il ne nous reste plus qu' calculer la statistique de test (Figure 8.4) 3 :
F =
Fig. 8.4.
Avec un F F(1, 11), la probabilit critique est = 0.007509, en de de notre risque = 5%.
Conclusion : l'cart entre les rgressions est due une disparit entre les constantes.
Remarque 3 (Dirence
sur les mmes donnes, en comparant les constantes dans les sous-groupes, nous obtenons certes la mme
conclusion mais avec des valeurs numriques lgrement direntes [13] (chapitre 5, section 5.2.1). Aprs
avoir tudi de prs la question, la divergence s'explique essentiellement par la comptabilisation des degrs
de libert. Dans le test de Chow (trait dans Johnston et DiNardo, pages 134 et 135), nous estimons
directement la pente sur la totalit des donnes, le degr de libert dans la rgression non contrainte est
3. comparaisondesregressions.xls - "comp.groupes"
Page: 67
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
68
gale n 3 = 12 (3 parce que 2 constantes et 1 pente commune). Dans la procdure que nous dcrivons
ici, nous tirons les rsultats partir des rgressions opres sur les sous groupes, les degrs de libert
deviennent n 4 = 11 (4 parce que 2 constantes et 2 pentes). Si les SCR sont identiques, le degr de
libert au dnominateur qui entre dans le calcul de F et de la probabilit critique n'est pas le mme.
4. Rakotomalala R.,
univ-lyon2.fr/~ricco/cours/cours/Comp_Pop_Tests_Parametriques.pdf
Page: 68
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
69
Aprs les rgressions dans les 2 groupes, nous obtenons une estimation des variances des erreurs
)
. Si les variances sont identiques, leur rapport doit tre gal 1 ; s'il s'en carte signicativement,
,k
la disparit va au-del des uctuations d'chantillonnage, elles sont direntes dans les sous-groupes.
Nous utilisons la statistique de test suivante :
2 =
,1
2
,2
(8.6)
Sous H0 , galit des rgressions dans les 2 sous-populations, 2 suit une loi de Fisher F(n1 2, n2 2).
La rgion critique au risque est situe sur les valeurs anormalement faibles ou anormalement leve par
rapport l'unit c.-d.
(8.7)
Cette procdure n'est pas sans rappeler le test de Fisher de comparaison de variances de deux souspopulations. Elle est sduisante par son principe, on peut faire le rapprochement avec des techniques
que l'on connat bien. Mais elle en partage galement les dfauts, savoir une trs faible robustesse par
rapport un cart l'hypothse de normalit des donnes (des rsidus en l'occurrence).
s2 =
2
2
+ (n2 2)
,2
(n1 2)
,1
n1 + n2 4
(8.8)
H : a = a
0
1
2
H1 : a1 = a2
La statistique de test est forme par la dirence entre les coecients estims, soit
Da = a
1 a
2
Dont l'estimation de l'cart-type est obtenu avec
1
1
Da = s
+
(n1 1)s2x,1
(n2 1)s2x,2
Page: 69
job: econometrie_regression
macro: svmono.cls
(8.9)
(8.10)
date/time: 11-Feb-2013/22:06
70
Sous H0 , D suit une loi de Student (n1 + n2 4) degrs de libert. La rgion critique au risque ,
conduisant au rejet de l'hypothse de l'galit des pentes, est dnie par :
R.C :
|Da |
t1/2 (n1 +, n2 4)
Da
(8.11)
a
c =
(n1 1)s2x,1 a
1 + (n2 1)s2x,2 a
2
2
(n1 1)sx,1 + (n2 1)s2x,2
(8.12)
a
0 =
y1 y2
x
1 x
2
(8.13)
Soit (Db = a
c a
0 ) l'cart entre ces deux valeurs, son cart-type est gal
1
1
1
n1 + n2
+
Db = s
(n1 1)s2x,1 + (n2 1)s2x,2
(
x1 x
2 )2
(8.14)
R.C. :
|Db |
t1/2 (n1 + n2 4)
Db
(8.15)
2
2
,1
,2
+
(n1 1)s2x,1
(n1 1)s2x,2
sDa =
La rgion critique devient :
R.C. :
Page: 70
job: econometrie_regression
|Da |
t1/2 (l)
sDa
macro: svmono.cls
(8.16)
(8.17)
date/time: 11-Feb-2013/22:06
71
A l'instar du test d'Aspin-Welch pour la comparaison de moyennes, la dicult rside dans le calcul
des degrs de libert. La formule est particulirement tarabiscote (Avazian, page 153) 5 :
[
]1
C2
(1 C)2
l=
+
n1 2
n2 2
o
C=
,1
(n1 1)s2x,1
2
,1
(n1 1)s2x,1
,2
(n2 1)s2x,2
a
0 =
y1 y2
x
1 x
2
En revanche, l'estimation conjointe de la pente doit tenir du fait que les variances des erreurs sont
direntes dans les groupes :
a
1
a
c =
(n1 1)s2x,1
2
,1
+a
2
(n1 1)s2x,1
2
,1
(n2 1)s2x,2
2
,2
(8.18)
(n2 1)s2x,2
2
,2
2 +n
2
2
2
n2
,1
,1
,2
1 ,2
R.C. : |
ac a
0 | u1/2
+
2
2 + n s2
,2
n1 n2 (
x1 x
2 )2
n1 s2x,1
2 x,2 ,1
(8.19)
Il s'agit bien d'une procdure approximative, nous utilisons la loi normale : u1/2 correspond au
quantile de la loi normale centre et rduite.
lement aux groupes. Nous modions la feuille Excel de manire obtenir la statistique de test (Figure
8.5) 6 :
5. NDA : J'ai du vrier 20 fois les critures. J'espre seulement ne pas avoir introduit des erreurs en recopiant
les quations, particulirement alambiques il faut dire. Malheureusement, je n'ai pas trouv d'autres rfrences
bibliographiques pour croiser les formules, comme je le fais habituellement. Et la procdure n'est implmente
nulle part, je n'ai pas pu contrler non plus sur des jeux de donnes... Bon, on retiendra surtout et avant tout
l'ide qu'il est possible de procder des comparaisons des paramtres des modles dans le cas o les variances
des erreurs sont direntes. Les formulations sont un peu plus compliques simplement.
6. comparaisondesregressions.xls - "comp.2.groupes"
Page: 71
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
72
Fig. 8.5.
2 =
,1
0.47872
0.2292
=
=
= 0.7414
2
2
,2
0.5560
0.3091
s2 =
2
2
(n1 2)
,1
+ (n2 2)
,2
4 0.2292 + 9 0.3091
=
= 0.2873
n1 + n2 4
5 + 10 4
Comparaison des pentes. Pour comparer les pentes, nous calculons leur dirence (Figure 8.6) 7
Da = a
1 a
2 = 0.4375 0.5091 = 0.0716
Et son cart-type
Da = s
1
1
+
= 0.2873
2
2
(n1 1)sx,1
(n2 1)sx,2
1
1
+
= 0.0668
(5 1) 20 (10 1) 36.6667
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Fig. 8.6.
73
t=
Da
0.0716
=
= 1.0718
Da
0.0668
Puisque |t| = 1.0718 < 2.2010 = t0.975 (11) au risque = 5%, nous ne pouvons pas rejeter l'hypothse
selon laquelle les pentes sont identiques. La probabilit critique est = 0.30677. Elle est exactement
la mme que celle produite par le test des pentes valable pour K 2 groupes dcrit dans la section
prcdente (Figure 8.3). D'ailleurs, concernant les statistiques de test, nous constatons galement que
t2 = (1.0718)2 = 1.1487 = F .
C'est plutt rassurant. Les deux approches, l'une valable pour un nombre quelconque de groupes
Comparaison des constantes. L'galit des pentes tant tablie, on s'interroge maintenant sur les
dirences entre les constantes (Figure 8.7) 8 . Tout d'abord, nous calculons la pente commune aux droites
a
c =
2
1 + (n2 1)s2x,2 a
(n1 1)s2x,1 a
(5 1) 20 0.4375 + (10 1) 36.6667 0.5091
=
= 0.4951
2
(n1 1)sx,1 + (n2 1)s2x,2
(5 1) 20 + (10 1) 36.6667
Puis la pente dans le cas o l'hypothse nulle d'galit des constantes serait vraie
a
0 =
y1 y2
3.0 6.0
=
= 0.75
x
1 x
2
7.0 11.0
Db = a
c a
0 = 0.4951 0.7500 = 0.2549
Et son cart-type
8. comparaisondesregressions.xls - "comp.2.groupes"
Page: 73
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
74
Fig. 8.7.
+ n2
1
+ n1
2
2
(n1 1)sx,1 + (n2 1)sx,2
(
x1 x
2 )2
1
1
1
5 + 10
= 0.2873
+
(5 1)20 + (10 1)36.6667 (7.0 11.0)2
= 0.0780
Db = s
t=
Db
0.2549
=
= 3.2667
Db
0.0780
Avec le seuil critique au risque = 5%, t0.975 (11) = 2.2010. Comme |t| > t0.975 (11), nous rejetons
l'hypothse d'galit des constantes. La probabilit critique est gale = 0.007509. Ici aussi, le rsultat
est compltement cohrent [t2 = (3.2667)2 = 10.6716 = F ] avec l'approche gnrique pour un nombre
de groupes quelconques (Figure 8.4).
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
75
Nous utiliserons ces mmes donnes dans un autre contexte (rgression sur des exognes qualitatives)
plus loin dans ce fascicule. Le chier provient du site http://www.cabannes.net/.
n2 = 20 femmes. Nous sommes en prsence de K = 2 groupes. Les eectifs tant relativement faibles,
nous raliserons nos tests = 10%.
Fig. 8.8.
F =
9. comparaisondesregressions.xls - "salaires-ed-sexe"
Page: 75
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
76
= 0.09164. Au risque = 10%, nous pouvons considrer que les rgressions sont direntes
c.--d. la liaison entre les annes d'tudes et le salaire n'est pas la mme selon le sexe de l'employ.
Visuellement, les nuages de points et les courbes de tendance associes conrment cette conclusion
(Figure 8.9).
Fig. 8.9.
Fig. 8.10.
A quel paramtre alors serait imputable cette divergence ? Penchons-nous sur le rle de la pente.
Tester la dirence entre les pentes. Pour laborer le test, nous avons besoin des covariances et
des variances de Y et X , conditionnellement aux groupes (Figure 8.10) 10 :
10. comparaisondesregressions.xls - "salaires-ed-sexe"
Page: 76
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
77
1
(yi y1 )(xi x
1 ) = 1360.3158
n1 1 i=1
20
syx,1 =
syx,2 = 1063.3158
s2x,1 = 5.2105
s2x,2 = 5.9579
s2y,1 = 2302280.379
s2y,2 = 1043651.039
Nous pouvons en extraire la pente commune
K
a
c = k=1
K
(nk 1)syx,k
k=1 (nk
1)s2x,k
19 1360.3158 + 19 1063.3158
= 217.0075
19 5.2105 + 19 5.9579
SCRC =
2c
(nk 1)s2y,k a
(nk 1)s2x,k
k=1
k=1
F =
Avec un F(1, 36), nous avons une p-value de = 0.6245. Les donnes ne contredisent pas l'hypothse
d'galit des pentes des deux rgressions.
Tester la dirence entre les constantes. Si les pentes sont censes tre identiques (hum, a ne
parat pas trs vident sur le graphique nuage de points, on y reviendra plus loin...), voyons ce qu'il en
est concernant les constantes (Figure 8.9).
Nous disposons de tous les lments ncessaires au calcul dj, il ne reste plus qu' former la statistique
de test
F =
(60775962.6 53579716.74)/(2 1)
(SCRT SCRC )/(K 1)
=
= 4.8351
SCRC /(n 2K)
53579716.74/(40 2 2)
Avec un F(1, 36), nous avons une p-value de = 0.0344. Au risque 10%, nous concluons une
dirence signicative des constantes. La divergence constate globalement est essentiellement due un
dcalage sur l'axe des ordonnes entre les droites de rgression
Conclusion : L'volution des salaires selon la qualication est la mme chez les hommes et chez les
femmes. En revanche, il y a une dirence intrinsque du niveau de rmunration selon le sexe, en faveur
des hommes.
Page: 77
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
78
tous les calculs du monde...) : les droites ne sont pas si parallles que a contrairement ce que semble
armer le test d'galit des pentes ; et surtout, la dispersion des salaires est plus forte mesure que
niveau d'tudes augmente.
Nous avons essay d'introduire une transformation log-log pour stabiliser la variance c.--d. raliser
les rgressions sur les variables transformes endogne = ln(salaire) vs. exogne = ln(annes d'tudes).
Le rsultat est particulire diant (Figure 8.11) 11 . La nature de la divergence est conrme, elle est
manifestement du un dcalage entre les droites qui sont quasi-parfaitement parallles. Et ce dcalage
correspond en ralit un
le niveau d'tudes.
Comme quoi, des transformations de variables judicieusement choisies peuvent transgurer les rsultats de la rgression. Il ne faut jamais l'oublier.
Une autre information importante dcoule de cette nouvelle analyse : la relation entre le salaire et les
annes d'tudes est lasticit constante, une augmentation relative des annes d'tudes entrane une
augmentation relative proportionnelle du salaire.
Fig. 8.11.
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
79
Fig. 8.12.
12. Ou l'inverse, qu'importe, cet exemple vaut surtout pour la singularit des rsultats que l'on obtient. Les donnes proviennent du site
Books/Hand/Hand-R/jelly-R.html
Page: 79
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
80
SCRT = 72.9121
A partir des deux rgressions dans les groupes,
F =
Avec une distribution F(2, 42), nous obtenons une probabilit critique de = 0.4128.
Au risque = 5%, nous pouvons armer que la relation entre la longueur et la largeur est la mme
pour les mduses en provenance des deux sites. On
Fig. 8.13.
Comparaison des rgressions - Largeur vs. longueur des mduses - Nuages de points
Grand bien nous en a pris (Figure 8.13). Les rsultats obtenus travers la procdure statistique
masquaient en ralit un problme de taille (si je puis dire). Eectivement, la relation entre la largeur et
la longueur semblent identique dans les deux sous-populations. En revanche, les mduses ne sont pas de
mme taille. Les mduses du second groupe sont plus larges et plus longs que ceux du premier. Le test de
comparaison des rgressions, dont l'objectif est de dtecter les disparits sur les coecients a et b de la
13. comparaisondesregressions.xls - "comp.meduses"
Page: 80
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
81
droite, n'est absolument pas arm pour dceler ce type de phnomne. Alors qu'une simple comparaison
de moyennes, tant sur X que sur Y , l'aurait immdiatement mis en vidence.
Moralit, il ne faut jamais demander aux tests plus que ce qu'ils savent faire. Il nous appartient de
dlimiter prcisment leur champ d'action.
Page: 81
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 82
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Partie II
Page: 83
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 84
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
9
Rgression linaire multiple
yi = a0 + a1 xi,1 + + ap xi,p + i
(9.1)
Nous devons estimer les valeurs des (p + 1) paramtres (a0 , a1 , . . . , ap ) partir d'un chantillon de n
observations. Nous remarquons dans le modle (quation 9.1) :
i = 1, . . . , n correspond au numro des observations ;
yi est la i-me observation de la variable Y ;
xi,j est la i-me observation de la j-me variable ;
i est l'erreur du modle, il rsume les informations manquantes qui permettrait d'expliquer linairement les valeurs de Y l'aide des p variables Xj (ex. problme de spcication, valeurs exognes
manquantes, etc.).
Les tapes
1. Estimer les valeurs des coecients (a0 , a1 , . . . , ap ) partir d'un chantillon de donnes (estimateur
des moindres carrs ordinaires).
2. valuer la prcision de ces estimations (biais, variance des estimateurs).
3. Mesurer le pouvoir explicatif du modle dans sa globalit (tableau d'analyse de variance, coecient
de dtermination).
4. Tester la ralit de la relation entre Y et les exognes Xj (test de signicativit globale de la rgression).
5. Tester l'apport marginal de chaque variable explicative dans l'explication de Y (test de signicativit
de chaque coecient).
Page: 85
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
86
6. Tester l'apport d'un groupe de variables explicatives dans l'explication de Y (test de signicativit
simultane d'un groupe de coecient).
7. Pour un nouvel individu i pour lequel on fournit la description (xi,1 , . . . , xi,p ), calculer la valeur
prdite yi et la fourchette de prdiction.
8. Interprter les rsultats en mettant en avant notamment l'impact des exognes sur l'endogne (interprtation des coecients, analyse structurelle).
y
xj
= aj .
Mais, la dirence de la rgression linaire simple, on prend en compte le rle des autres variables lors
de son calcul. On dit alors que c'est un coecient partiel : il indique l'impact de la variable en contrlant
l'eet des autres variables, c'est la fameux "toutes choses gales par ailleurs". Nous approfondirons cette
notion dans un chapitre ddi l'interprtation des coecients (chapitre 13).
Enn, l'eet des variables est additif c.--d. toutes les autres tant constantes, si xj et xj sont tous
deux augments d'une unit, alors y est augment (aj + aj ).
rgression simple (section 7.2) restent valables. Il faut faire attention aux degrs de libert puisque nous
n'estimons plus que p paramtres. Le coecient de dtermination R2 n'est plus interprtable en termes
de proportion de variance explique.
Page: 86
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
9.3 Hypothses
87
Y = Xa +
Les dimensions des matrices sont respectivement :
Y (n, 1)
X (n, p + 1)
a (p + 1, 1)
(n, 1)
La matrice X de taille (n, p + 1) contient l'ensemble des observations sur les exognes, avec une
premire colonne forme par la valeur 1 indiquant que l'on intgre la constante a0 dans l'quation.
1 x1,1 x1,p
1 x2,1 x2,p
X = .
..
1 xn,1 xn,p
9.3 Hypothses
Comme pour la rgression simple, les hypothses permettront de dterminer les proprits des estimateurs (biais, convergence) et les lois de distribution (loi de Student pour chaque coecient pris
individuellement, loi de Fisher ds que l'on traite un groupe de coecients).
Nous distinguons (Bourbonnais, page 51 ; Labrousse, page 19 ; Giraud et Chaix, pages 22 et 23) :
p + 1 et rang(X X) = p + 1.
H8
Page: 87
(X X)
n
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
88
H9
le cas o n = p + 1, nous avons un interpolation, la droite passe exactement par tous les points.
Lorsque n < p + 1, la matrice (X X) n'est plus inversible.
S=
(9.3)
2i
i=1
normales.
quations
=
0
2 i i = 0
a
0
..
.
..
.
S = 0
2 x = 0
i
i i,p
ap
a + a1 x
1 + + ap x
p = y
0
..
.
a x + a x x + + a x x = x y
0
1
p
i,p i
i i,p
i i,1 i,p
i i,p i,p
(
a0 , a
1 , . . . , a
p ). Mais cette criture est dicile manipuler. Passons aux matrices.
S=
2i =
Dveloppons l'expression
= (Y Xa) (Y Xa)
= Y Y Y Xa a X Y + a X Xa
= Y Y 2a X Y + a X Xa
S = Y Y 2a X Y + a X Xa
Page: 88
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
89
Quelques lments sur les calculs matriciels pour comprendre les dveloppements ci-dessus :
(Xa) = a X
(Y Xa) = a X Y
La transpose d'un scalaire est gal lui mme. Or en se rfrant aux dimensions des vecteurs et
matrice, on constate que (a X Y ) est de dimension (1, 1), un scalaire.
Pour dterminer le minimum de S , nous ralisons la drivation matricielle que nous annulons (Labrousse, page 22) :
S
= 2(X Y ) + 2(X X)a = 0
a
(X X)a = X Y
L'estimateur des moindres carrs ordinaires (MCO) des coecients du modle s'crit :
a
= (X X)X Y
(9.4)
1 846 32 650
1 993 39 790
X = .
..
(X X) =
28
..
.
50654
2176
33515
28
i=1
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
90
Fig. 9.1.
Ensuite, nous calculons la matrice des produits croiss entre X et Y , soit (X Y ), nous avons
254.1
493218.1
(X Y ) =
21473.7
321404.5
a
0
1.7020
1 0.0005
a
= =
2 0.0183
a
3
0.042
Page: 90
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
91
Matrice (X X)
Chaque case de la matrice (X X), de dimension (p+, 1, p + 1), est forme par la somme du produit
crois entre les exognes, en eet :
xi,1
xi,p
i xi,1
i xi,1 xi,p
i xi,1
(X X) = .
..
2
i xi,p
i xi,1 xi,p
i xi,p
(X X) est une matrice symtrique. Elle indique le degr de liaison entre les exognes.
Matrice (X Y )
Chaque case du vecteur (X Y ), de dimension (p + 1, 1), est compose du produit crois entre les
exognes et l'endogne.
yi
i xi,1 yi
(X X) =
..
x
y
i i,p i
x i,j = xi,j x
j
y i = yi y
Page: 91
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
92
1
(X X) = cov(Xj , Xj )
n
1
(X Y ) = cov(Xj , Y )
n
reprsentent respectivement la matrice des variances covariances des exognes, et le vecteur des covariances entre les exognes et l'endogne.
xi,j x
j
xj
yi y
cr
yi =
y
cr
xi,j =
Les matrices
1 cr cr
(X X ) = r(Xj , Xj )
n
1 cr cr
(X Y ) = r(Xj , Y )
n
reprsentent respectivement les corrlations croises entre les Xj et les corrlations des Xj avec Y .
9.5.1 Biais
L'estimateur a
est sans biais si E(
a) = a. Voyons quelles conditions cette proprit est respecte.
Dveloppons a
:
Page: 92
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
93
a
= (X X)1 X Y
= (X X)1 X (Xa + )
= (X X)1 X Xa + (X X)1 X
a
= a + X X)1 X
Ainsi, en passant l'esprance mathmatique :
E(
a) = a + E[(X X)1 X ]
On sait que X est non alatoire, nous avons E[(X X)1 X ] = (X X)1 X E() ; de plus E() = 0
par hypothse. Au nal, nous avons bien
E(
a) = a
L'estimateur des MCO est sans biais sous les deux hypothses suivantes (section 9.3) : (H1) X
est non alatoire, les exognes sont mesures sans erreur ; (H2) la moyenne de l'erreur est nulle E() = 0.
V (
a0 ) COV (
a0 , a
1 ) COV (
a0 , a
p )
V (
a1 )
COV (
a1 , a
p )
a = .
..
V (
ap )
La matrice est symtrique, sur la diagonale principale nous observons les variances des coecients
estims.
Comment obtenir cette matrice ?
Elle est dnie de la manire suivante
a = E[(
a a)(
a a) ]
Or
a
a = (X X)1 X
(
a a) = X[(X X)1 ]
= X(X X)1 car (X X)1 est symetrique
Ainsi
(
a a)(
a a) = (X X)1 X X(X X)1
En passant l'esprance mathmatique, et sachant que les X sont non-stochastiques (H1),
Page: 93
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
94
E[(
a a)(
a a) ] = (X X)1 X E[ ]X(X X)1
La quantit E[ ], de dimension (n, n), reprsente la matrice de variance covariance des erreurs, en
voici le dtail
E[ ] = ..
E(n )
Nous observons les variances des erreurs sur la diagonale principale, et les covariances sur les autres
cases. Or, par hypothse (section 9.3), (H3) la variance de l'erreur est constante V (i ) = E(2i ) = 2 et,
(H4) leurs covariances nulles COV (i , i ) = 0. De fait,
E[ ] = 2 I
O I est la matrice unit de dimension (n, n).
La matrice de variance covariance des estimateurs s'en retrouve grandement simplie. En eet,
E[(
a a)(
a a) ] = (X X)1 X E[ ]X(X X)1
= 2 (X X)1 X IX(X X)1
= 2 (X X)1 X X(X X)1
= 2 (X X)1
Nous trouvons ainsi la matrice de variance covariance des coecients estims :
a = 2 (X X)1
(9.5)
On montre qu'une condition ncessaire et susante pour que a soit un estimateur convergent de a
est que les variables exognes ne tendent pas devenir colinaires lorsque n tend vers l'inni, autrement
dit que l'hypothse (H8) reste valable lorsque n tend vers l'inni. (Giraud et Chaix, page 65 ; que l'on
retrouve sous des formes plus ou moins analogues chez Bourbonnais, page 53, et Labrousse, page 26).
rgression multiple qu'il n'existe pas d'estimateurs sans biais avec une variance plus faible que celle
des moindres carrs ordinaires (Labrousse, page 26). Les estimateurs des MCO sont BLUE (best
linear
unbiased estimator ).
Page: 94
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
95
=
np1
np1
O i est le rsidu de la rgression pour l'observation no i.
Le lecteur dsireux d'approfondir la question, notamment le dtail de la dmarche, trouvera une
dmonstration plus rigoureuse dans les ouvrages lists en bibliographie (Labrousse, pages 28 33 ; Dodge
et Rousson, pages 65 67 ; Giraud et Chaix, pages 67 69 ; etc.).
a =
2 (X X)1
(9.7)
9.6.3 Dtails des calculs pour les donnes "Consommation des vhicules"
Nous reprenons notre exemple des vhicules (section 9.4.3). Nous avons reconstruit la feuille de calcul
de manire obtenir les lments ncessaires l'estimation de la variance de l'erreur et de la matrice de
variance covariance des coecients estims (Figure 9.2) 2 .
Nous reprenons des rsultats prcdents (Figure 9.1) la matrice (X X)1 et les coecients estims a
.
Nous formons alors :
La valeur prdite de l'endogne yi pour chaque individu (ex. y1 = 1.070205 + 0.00049 846 +
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
96
Fig. 9.2.
0.1978 + = 13.5807).
L'estimation de la variance de l'erreur s'crit
2 =
SCR
13.5807
=
= 0.56586
np1
28 3 1
L'estimation de son cart-type en est dduite, valeur souvent automatiquement retourne par les
logiciels de statistique
0.56586 = 0.75224
Reste la dernire multiplication pour obtenir l'estimation de la matrice de variance covariance des
coecients :
a =
2 (X X)1
Elle est forcment symtrique parce que la covariance est un oprateur symtrique.
Comme nous l'avons soulign prcdemment, nous disposons sur la diagonale de cette matrice de
l'estimation de la variance des coecients. Dans notre exemple,
a20 = 0.399490226
a22 = 0.00020279
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
97
En passant la racine carre, nous avons l'estimation de l'cart-type, valeurs directement fournies
par la majorit des logiciels de statistique. C'est pour cette raison que nous avons ach les
aj ct
des estimations a
j dans notre feuille Excel (Figure 9.2). Nous les retrouverons souvent sous cette forme
dans les sorties des logiciels que nous analyserons au chapitre 15.
a0 = 0.63205
= 0.00078
a
1
a2 = 0.01424
a3 = 0.00094
a0 dans la rgression. Dans la plage de rsultats, nous slectionnons donc (p + 1 = 4) colonnes pour
notre rgression, et 5 lignes pour qu'Excel puisse intgrer les informationnelles additionnelles permettant
d'analyser les rsultats.
Dans l'exemple que nous reproduisons ici (Figure 9.3) 3 , nous avons insr la commande
DROITE-
REG(F3 :F30 ;B3 :D30 ;1 ;1). Le premire paramtre correspond la colonne de valeurs de Y ; le second
au(x) colonne(s) de X ; le troisime paramtre indique que nous ralisons une rgression avec constante
(0 si nous souhaitons une rgression sans constante) ; et le dernier indique que l'on souhaite obtenir des
informations additionnelles en plus des coecients estims (0 dans le cas contraire).
Fig. 9.3.
Mettons en parallle les rsultats de DROITEREG avec ceux calculs manuellement avec les fonctions
matricielles d'Excel (Figure 9.3) :
3. reg_multiple_consommation_automobiles.xlsx - "variance erreur (droitereg)"
Page: 97
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
98
(cylindree, puissance, poids). Dans le tableau fourni par DROITEREG, nous avons de gauche
droite les coecients associs (poids, puissance, cylindree).
Mis part cette petite incongruit, nous constatons que les coecients sont les bons, (
a0 =
1.70205, a
cylindree = 0.00049, a
puissance = 0.01825, a
poids = 0.00423).
Sur la seconde ligne, nous avons les cart-types estims des coecients. En prenant en compte
le dcalage, nous constatons que les valeurs concident avec l'estimation l'aide des fonctions
matricielles d'Excel.
Dans la case (3, 2), nous avons l'estimation de l'cart-type de l'erreur
= 0.75224.
Dans la case (4, 2), nous observons les degrs de libert de la rgression, n p 1 = 28 3 1.
Enn, dans la case (5, 2), nous observons la SCR = 13.5807.
D'autres informations sont fournies, nous les dtaillerons par la suite.
Page: 98
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
10
Tests de signicativit
yi y)2
Explique
SCE = i (
p
CM E = SCE
p
2
SCR
Rsiduelle
SCR = i (yi yi )
np1
CM R = np1
Totale
SCT = i (yi y)2
n1
Tableau 10.1.
La part de variance de Y explique par le modle est toujours traduit par le coecient de dtermination
R2 =
SCE
SCR
=1
SCT
SCT
(10.1)
Bien videmment (0 R2 1), plus il tend vers 1 meilleur sera le modle. Lorsqu'il est proche de 0,
cela veut dire que les exognes Xj n'expliquent en rien les valeurs prises par Y . Nous retiendrons cette
ide dans le test de signicativit globale du modle.
10.1.2
R2
corrig ou ajust
Le R2 est un indicateur de qualit, mais il prsente un dfaut ennuyeux : plus nous augmentons le
nombre de variables explicatives, mme non pertinentes, n'ayant aucun rapport avec le problme que l'on
cherche rsoudre, plus grande sera sa valeur, mcaniquement.
Page: 99
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
100
10 Tests de signicativit
A l'extrme, si nous multiplions le nombre d'explicatives jusqu' ce que (p + 1) soit gal n, nous
obtiendrions un R2 = 1.
Teneur en oxyde de carbone des cigarettes. Voyons un petit exemple pour montrer l'inconvnient
du R2 dans la comparaison des modles. Nous souhaitons expliquer la teneur en oxyde de carbone
(CO) des cigarettes partir de leur composition en goudron (TAR), en nicotine (NICOTINE) et leur
poids (WEIGHT). Nous disposons de n = 24 observations. Nous ralisons la rgression l'aide de
DROITEREG, nous obtenons le R2 dans la case (3, 1) du tableau de rsultats : R2 = 0.93498 (Figure
10.1) 1 . Le degr de libert est ddl = 24 3 1 = 20.
Fig. 10.1.
Ajoutons la colonne ALEA dans le tableau de donnes. Elle a t gnre alatoirement avec la
fonction ALEA() d'Excel [loi uniforme U (0, 1)]. Nous eectuons de nouveau la rgression en intgrant
ALEA parmi les explicatives. Le degr de libert est diminu, il est pass ddl = 19, tmoin que la
variable supplmentaire a bien t prise en compte. Malgr que la variable n'ait aucun rapport avec le
problme que nous traitons, nous dcouvrons que le R2 a t augment, passant R2 = 0.9373. Diable,
ALEA permettrait donc d'expliquer la teneur en carbone des cigarettes ?
Clairement le R2 en tant que tel n'est pas un bon outil pour valuer le rle de variables supplmentaires
lors de la comparaison de modles imbriqus. En augmentant le nombre d'explicatives, nous augmentons
de manire mcanique la valeur du R2 mais, dans le mme temps, nous diminuons le degr de libert. Il
faudrait donc intgrer cette dernire notion pour contrecarrer l'volution du R2 . C'est exactement ce que
fait le R2 -ajust (ou R2 -corrig).
Le R2 -ajust est dni de la manire suivante :
1. cigarettes-regressionmultiple.xls - "R2 ajust"
Page: 100
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
2 = 1 CM R = 1 SCR/(n p 1)
R
CM T
SCT /(n 1)
101
(10.2)
Il s'agit donc d'un R2 corrig par les degrs de libert, il peut s'exprimer en fonction du R2 d'ailleurs :
2 = 1
R
n1
(1 R2 )
np1
(10.3)
Attention, la lecture en termes de part de variance explique n'est plus possible dans ce cas. De mme,
2 peut prendre des valeurs ngatives. Il ne faut pas s'en ousquer.
le R
Le R2 -ajust en tant que tel n'est pas d'une grande utilit. Son principal avantage est qu'il permet
de comparer des modles imbriqus. Si nous prenons notre exemple des cigarettes (Figure 10.1), nous
2 = 0.92414 < R
2 = 0.92522,
constatons que le R2 -ajust du second modle est plus faible avec R
2
1
indiquant clairement que l'adjonction de ALEA parmi les exognes n'amne pas d'information pertinente
supplmentaire dans l'explication de Y .
Remarque 4 (Comparaison des R2 ). La comparaison directe des R2 (bruts) n'est pas une bonne ide
pour valuer la pertinence de variables supplmentaires dans la rgression disions-nous. C'est certain.
En revanche, nous pouvons tourner le problme d'une autre manire en posant la question : "est-ce
que l'introduction de nouvelles exognes induit une augmentation
intressante dans ce cas, car nous nous situons dans un schma de test d'hypothses. Au rsultat est
associ un niveau de crdibilit traduit par le risque du test. Nous exploiterons cette ide plus loin dans
ce fascicule pour tester la signicativit d'un groupe de variables (section 10.4).
R=
R2
ry,y = R
(10.4)
Cela suggre d'ailleurs de construire le graphique nuage de points confrontant yi et yi pour valuer la
qualit de la rgression. Si le modle est parfait, les points seraient aligns sur la premire bissectrice.
Page: 101
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
102
10 Tests de signicativit
(Figure 10.2) 2 .
Fig. 10.2.
Fig. 10.3.
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
103
2 = 1
Le R2 -ajust, R
0.89911) = 0.88650.
R2 ) = 1
27
24 (1
Nous vrions aisment qu'il est gal au coecient de corrlation linaire entre l'endogne observe
Y et l'endogne prdite par le modle Y , ry,y = 0.94822.
Un R2 assez lev laisse penser que le modle est plutt bon. En construisant le graphique croisant
Y et Y , nous constatons eectivement que les points sont plutt bien aligns sur la premire bissectrice
(Figure 10.3).
H : a = a = = a = 0
0
1
2
p
H1 : j / aj = 0
Remarque 5 (Le cas de la constante). Attention, seuls les coecients associs aux variables Xj
sont inclus dans le test. En eet, c'est bien l'inuence des exognes sur l'endogne que l'on cherche
tablir. Si H0 est vrai, on sait que a0 est gal la moyenne des Y . Sauf cas particulier des variables
centres, la moyenne des Y est non nulle. Inclure a0 dans le test fausserait les rsultats.
F =
SCE/p
CM E
=
CM R
SCR/(n p 1)
(10.5)
F =
Page: 103
job: econometrie_regression
(1
R2 /p
p 1)
R2 )/(n
macro: svmono.cls
(10.6)
date/time: 11-Feb-2013/22:06
104
10 Tests de signicativit
Sous H0 , F suit une loi de Fisher F(p, n p 1). Au risque , la rgion critique (rejet de H0 ) du test
correspond aux valeurs exceptionnellement grandes de F :
(10.7)
Application aux donnes "Consommation de vhicules. Revenons aux rsultats de notre rgression sur les vhicules (Figure 10.2). A partir du R2 , nous obtenons :
F =
(1
R2 /p
0.89911/3
=
= 71.2965
p 1)
(1 0.89911)/(24)
R2 )/(n
F =
SCE/p
121.0318/3
40.3439
=
=
= 71.2965
SCR/(n p 1)
13.5807/(24)
0.5659
On constate par ailleurs que la valeur de F est directement fournie par DROITEREG (Figure 10.2).
Nous la comparons avec le quantile d'ordre 0.95 pour un test 5%, savoir 3 F0.95 (3, 24) = 3.00879.
Nous constatons que nous sommes dans la rgion critique. Au risque 5%, nous concluons que le modle
est globalement signicatif : la cylindre, la puissance et poids, pris dans leur globalit, emmnent de
l'information pertinente sur la consommation.
En passant par le calcul de la probabilit critique, nous aurions obtenu 4 = 4.26 1012 , largement
infrieure = 5%. La conclusion est cohrente.
a
j a
T (n p 1)
aj
(10.8)
A partir de l, nous pouvons dnir les tests de conformit un standard, les intervalles de conance
et, ce qui nous intresse dans cette section, les tests de signicativit.
Le test consiste opposer :
H : a = 0
0
j
H1 : aj = 0
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
105
Le retrait de la variable Xj de la rgression est possible si l'hypothse nulle est avre. Par rapport aux
autres variables, la contribution de Xj dans l'explication de Y n'est pas signicative. Mance nanmoins,
des problmes de colinarit peuvent parfois perturber les rsultats. Nous en reparlerons lors du traitement
du chier "Consommation de vhicules".
La statistique de test s'crit :
taj =
a
j
aj
(10.9)
(10.10)
Fig. 10.4.
Nous n'avons pas intgr la constante dans la procdure. En eet, comme nous l'avons soulign dans
la rgression simple, remettre en cause a0 modie la nature de la rgression. Pour chaque variable, nous
avons calcul la statistique de test :
ta1 =
ta2 =
ta3 =
0.00049
0.00078
0.01825
0.01424
0.00423
0.00094
= 0.63304
= 1.28161
= 4.51838
Pour un risque = 5%, le seuil critique 6 est gal t0.975 (24) = 2.06390. Nous constatons que seul le
coecient a3 associ (X3
5. reg_multiple_consommation_automobiles.xlsx - "test.signif"
6. LOI.STUDENT.INVERSE(0.05 ;24) dans Excel.
Page: 105
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
106
10 Tests de signicativit
Ni
pas contribuer signicativement dans l'explication de la consommation. C'est trange si l'on connat un
peu les automobiles. Nous reviendrons sur cet aspect dans la section suivante (section 10.4).
Une autre manire de parvenir aux mmes conclusions est de calculer la probabilit critique 7 , nous
les achons dans notre feuille Excel (Figure 10.4) :
a1 = 0.53269
a2 = 0.21222
a3 = 0.00014
ta4 =
Fig. 10.5.
0.81653
= 0.84477
0.96657
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
107
On constate par ailleurs que ni le poids (weight) ni la nicotine ne semblent peser non plus dans
l'explication de CO.
de test. L'hypothse nulle du test s'crit (sans restreindre la gnralit du propos, nous ne testons pas
forcment les q premiers coecients) :
H0 : a1 = a2 = = aq = 0
Pour rsoudre ce problme, nous confrontons deux rgressions : celle sous hypothse nulle, avec (p q)
variables explicatives, nous obtenons un premier coecient de dtermination R02 ; et celle avec les p
variables, nous obtenons R12 . Les deux modles sont imbriqus et, forcment, R12 R02 . Nous posons alors
la question suivante : est-ce que l'adjonction des q exognes supplmentaires dans la rgression induit une
augmentation
signicative du R2 au risque .
F =
(10.11)
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
108
10 Tests de signicativit
Fig. 10.6.
Dans un premier temps, nous ralisons la rgression avec la seule variable poids. Nous obtenons
R02
= 0.85808. Dans un deuxime temps, nous construisons le modle incluant toutes les variables c.--d.
au modle prcdent, nous adjoignons les (q = 2) variables cylindre et puissance que nous souhaitons
prouver. Nous obtenons R12 = 0.89911. Le coecient de dtermination est plus leve, il ne peut pas en
tre autrement. Mais est-ce qu'il est signicativement plus grand ?
Nous formons la statistique de test
F =
Avec la loi de Fisher (2, 24) degrs de libert, nous obtenons une p-value de 0.01665. Contrairement
au test individuel o ils n'taient pas signicatifs 5%, les coecients pris en bloc le deviennent pour le
mme niveau de risque. Cette apparente contradiction n'en est pas une, elle s'explique simplement par
la forte corrlation entre les deux variables, en eet rcylindree,puissance = 0.94755. Les deux variables se
neutralisent dans la rgression. Clairement, oprer une slection de variables serait approprie ici. Vient
alors une question cruciale : laquelle retenir ? Nous tudions en dtail cette question dans le fascicule
consacr la pratique de la rgression [13] (chapitre 3).
Page: 108
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
109
Fig. 10.7.
Pour ce faire, nous ralisons les deux rgressions (Figure 10.7) 10 : la premire avec la totalit (p = 4)
des variables, nous obtenons R12 = 0.93733 avec un degr de libert de (n p 1 = 24 4 1 = 19) ; la
seconde avec TAR seulement, le coecient de dtermination diminue et passe R02 = 0.93346, avec un
degr de libert n (p q) 1 = 24 (4 3) 1 = 22. Formons la statistique de test :
F =
Avec une loi de Fisher (3, 19) degrs de libert, nous obtenons un p-value = 0.76096, largement
suprieure = 5%. Clairement, nous pouvons retirer le bloc de variables (alea, nicotine et weight) de
la rgression, elles n'emmnent rien
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
110
10 Tests de signicativit
la rgression comporte p q variables) et SCR1 celle de la rgression incluant toutes les p variables,
forcment (SCR0 SCR1 ) 11 , alors :
F =
(10.12)
La valeur obtenue est identique celle base sur les coecients de dtermination (quation 10.11).
Voyons notre exemple de la nullit de cylindre et puissance dans la rgression "Consommation des
vhicules" (Figure 10.6). Nous y lisons les valeurs adquates :
SCR0 = 19.1041
SCR1 = 13.5807
Nous en dduisons
F =
11. L'erreur rsiduelle de la rgression non contrainte est toujours plus faible que celle de la rgression contrainte.
Attention, si on se base sur le coecient de dtermination, la relation est inverse c.--d. nous avons forcment
(R12 R02 ). En eet, R2 = 1
SCR
SCT
; et SCT - bas uniquement sur les valeurs de Y - est toujours constant quelle
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
11
Gnralisation de l'tude des coecients
Concernant l'infrence sur les coecients, nous pouvons aller plus loin que les simples tests de signicativit. Dans ce chapitre, nous dcrivons la panoplie des outils que l'on pourrait mettre en oeuvre pour
les tudier. Nous verrons ainsi que tous les tests exposs dans ce fascicule peuvent s'crire sous une forme
gnrique unique, le test de combinaisons linaires des coecients.
a
j t1 2
aj
Fig. 11.1.
(11.1)
Nous reprenons notre chier des Consommations de vhicules. Nous souhaitons construire les intervalles de variation des coecients au niveau de conance 95% (Figure 11.1) 1 . Nous utilisons le quantile
1. reg_multiple_consommation_automobiles.xlsx - "intv.conf.coefs"
Page: 111
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
112
t0.975 (24) = 2.06390 de la loi de Student (n p 1 = 24) degrs de libert. Avec les a
j et
aj , nous
formons les bornes basses et bornes hautes. Pour la variables poids, nous obtenons :
H : a
0
poids =
H1 : apoids >
1
400
1
400
= 0.0025
ta(poids >0.0025) =
a
poids 0.0025
apoids
ta(poids >0.0025) =
0.00423 0.0025
= 1.84722
0.00094
A comparer avec t0.95 (24) = 1.71088. Puisque nous sommes dans la rgion critique au risque 5%, nous
pouvons dire qu'une augmentation du poids des vhicules de 400 kg,
2. reg_multiple_consommation_automobiles.xlsx - "test.poids.conformit"
Page: 112
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Fig. 11.2.
113
H0
a1
c1
a2 c2
: . = . a(q) = c(q)
.. ..
aq
cq
(11.2)
H1 : j / aj = cj
Attention, nous ne pouvons absolument rduire ce test une succession de tests individuels. Il est tentant d'utiliser des rgles du type "si on accepte H0 pour tous les tests pris individuellement,
alors on accepte H0 pour l'galit simultane" ou bien "si on rejette H0 au moins une fois sur un des tests
individuels, alors on rejette H0 pour le test simultan". Ces formulations sont errones tout simplement
parce qu'elles ne tiennent pas compte de l'interaction entre les variables, traduite numriquement par les
covariances des coecients. Ces dernires interviennent dans la construction de la statistique de test. Elle
s'crit :
F =
] 1 [
]
1[
a
(q) c(q)
(q) c(q)
a
(q) a
q
(11.3)
a est la
a
(q) reprsente le sous-vecteur des coecients estims mis contribution dans le test ;
(q)
matrice de variance covariance rduite aux coecients tests.
Sous H0 , la quantit F suit une loi de Fisher F(q, n p 1).
Page: 113
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
114
apuissance
0
=
H0 :
acylindree
0
Fig. 11.3.
Nous avons labor une feuille de calcul Excel pour former la statistique de test (Figure 11.3) 3 . Nous
distinguons :
a ,
A partir de la matrice de variance covariance des coecients
Nous extrayons la sous-matrice correspondant aux coecients de cylindre et puissance
(2)
8.9923 106 2.0279 104
Que nous inversons
a
(2)
4782997.0660 212097.2404
=
212097.2404 14336.5614
3. reg_multiple_consommation_automobiles.xlsx - "test.conformit.cyl.puissance"
Page: 114
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
115
Nous formons la statistique de test en confrontant les coecients estims avec les standards :
(
)
0.000494
0
1
1
= 4.88057
F =
0.000494 0 ; 0.018251 0
a
(q)
2
0.018251 0
Le seuil critique est F0.95 (2; 24) = 3.40283. Nous sommes dans la rgion critique. Au risque 5%,
nous rejetons l'hypothse nulle d'galit des coecients (la p-value est = 0.01665).
Les coecients, qui taient gaux 0 pris individuellement (acceptation de H0 ), deviennent non nuls
lorsque nous les traitons en bloc (rejet de H0 ). Tout simplement parce que nous avons pris en compte
leur covariance dans la procdure.
Notons un rsultat intressant, cette procdure est totalement quivalente au test de signicativit
bas sur la comparaison des coecients de dtermination R2 mis en oeuvre sur les mmes donnes (section
10.4). La valeur de la statistique de test est exactement la mme.
a1
1
: a2 = 1
a4
0
a1
1
H1 : a2 = 1
a4
0
H0
(11.4)
Par rapport l'exemple prcdent, l'originalit est qu'il s'agit ici d'un test de conformit quelconque ;
la dicult rside dans le fait que les coecients analyss se rapportent des colonnes non adjacentes
du tableau de donnes. Il faudra faire trs attention lors de l'extraction des valeurs dans la matrice de
variance covariance des coecients.
Les calculs sont dtaills dans une feuille Excel (Figure 11.4) 4 :
Nous avons excut la fonction DROITEREG pour obtenir les coecients. Ils sont dans l'ordre
inverse des colonnes de donnes dans le tableau de rsultats. Pour viter les confusions, numronsles
4. cigarettes-regressionmultiple.xls - "tests.conformite.coefs"
Page: 115
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
116
Fig. 11.4.
a
0 = 0.72260
a
1 = 0.85569
a
2 = 0.93450
a
3 = 1.87048
a
4 = 0.81653
= 1.16822 (en violet dans le
Nous observons galement l'estimation de l'cart-type de l'erreur,
tableau DROITEREG).
Nous calculons successivement (X X) et (X X )1 pour obtenir la matrice de variance covariance
a =
des coecients
2 (X X)1 .
Sur la diagonale de cette matrice, nous avons les variances. On remarque par exemple pour la
(q)
(q)
=
0.6355 10.9738 0.4760
0.0365 0.4760 0.9343
Page: 116
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
117
a
(q)
=
17.3665 1.0914 0.1223
2.9529 0.1223 1.1234
0.85569
1
)
1(
1 0.93450 1 = 2.22172
F =
0.85569 1; 0.93450 1; 0.81653 0
a
(q)
3
0.81653 0
Avec la loi de Fisher F(q = 3, np1 = 19), nous obtenons un probabilit critique de = 0.11880.
Au risque 5%, nous ne pouvons pas rejeter l'hypothse nulle. Les donnes ne la contredisent pas.
1
2
, et nous avons :
F =
a
j cj
aj
)2
H : Ra = r
0
H1 : Ra = r
(11.5)
O a est le vecteur des coecients, de dimension (p + 1, 1) ; R est la matrice dcrivant les contraintes
linaires de dimension (q, p + 1), q dsignant le nombre de contraintes ; r est le vecteur des valeurs de
rfrence, de dimensions (q, 1).
Page: 117
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
118
F =
1
a
q (R
r) [R(X X)1 R ]1 (R
a r)
(11.6)
SCR/(n p 1)
0100
0
R=
0 0 1 0 , r = 0
0001
0
0100
0
,r=
R=
0010
0
11.3.3 Aller plus loin avec les tests portant sur des contraintes linaires
Pourquoi faire simple quand on peut faire compliqu, n'est-ce pas ? En ralit, le principal intrt de
cette nouvelle formulation est qu'elle ouvre la porte toute une srie de tests qui vont au del du test
de conformit, notamment les tests de comparaison de coecients ou les test d'galit de combinaisons
linaires de coecients un standard.
Page: 118
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
119
H : 1000 a
0
cylindree = 40 apuissance
H1 : 1000 acylindree = 40 apuissance
Pour tre en adquation avec la formulation matricielle, nous la r-crivons :
H : 0 a + 1000 a + (40) a + 0 a = 0
0
0
1
2
3
H1 : 0 a0 + 1000 a1 + (40) a2 + 0 a3 = 0
On peut la r-crire sous la forme de contraintes linaires sur les coecients de la rgression. Nous
avons q = 1 dans notre exemple. Nous en dduisons les matrices :
(
)
( )
R = 0; 1000; 40; 0 , r = 0
Ralisons les calculs l'aide d'une feuille Excel (Figure 11.5) 6 :
Pour rappel, nous avons les coecients
1.70205
0.00049
a
=
0.01825
0.00423
La matrice (X X)1 a dj t obtenue par ailleurs ; il en est de mme pour la somme des carrs
des rsidus SCR = 13.58067 et le degr de libert n p 1 = 24.
Nous formons le vecteur (R
a r). Comme nous n'avons qu'une seule (q = 1) contrainte, le rsultat
est un scalaire
1.70205
) 0.00049 ( ) (
)
R
a r = 0; 1000; 40; 0
0 = 0.23648
0.01825
0.00423
(
02/regression-lineaire-lecture-des.html
6. reg_multiple_consommation_automobiles.xlsx - "test.comb.lineaire"
Page: 119
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
120
Fig. 11.5.
La quantit [R(X X)1 R ] est galement un scalaire, il est gal 2.91886. Son inverse est gal
[R(X X)1 R ]1 =
1
2.91886
= 0.34260.
F =
1 (0.23648) (1/2.91886)(0.23648)
13.58067/24
0.01916
= 0.03386
0.56586
Page: 120
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
121
Cela peut survenir par exemple conscutivement aux tests de contraintes linaires tels que nous les
avons tudis dans les sections prcdentes. Aprs avoir accept l'hypothse nulle, nous souhaitons que
les coecients estims par les MCO retent les conditions mises.
Il s'agit donc d'un optimisation sous q contraintes linaires. A rsoudre directement, a parat trs
compliqu. Fort heureusement, il est possible de driver les nouveaux coecients des rsultats de la
rgression sans contraintes. Soit a
le vecteur des coecients estims obtenus avec la procdure habituelle.
Si nous souhaitons introduire q contraintes linaires sous la forme Ra = r dans la rgression [R est une
matrice (q, p+1) et r un vecteur (q, 1)], l'instar de l'hypothse nulle du test dcrit ci-dessus, l'estimateur
sous contrainte a
s'crit alors (Johnston et DiNardo, page 102) :
a
=a
+ (X X)1 R [R(X X)1 R ]1 (r R
a)
(11.7)
Clairement, l'expression n'est pas trs simple. Mais on constate nanmoins qu'elle s'appuie uniquement
sur les rsultats produits par la rgression sans contrainte c.--d. par la mthode des MCO classique
propose par n'importe quel logiciel de statistique 7 .
En ce qui concerne les performances, la somme des carrs des rsidus, forcment plus leve ici puisque
nous introduisons des contraintes dans l'optimisation, peut tre dduite de la SCR de la rgression usuelle
(Johnston et DiNardo, page 103) :
SCRa = SCRa + (
aa
) (X X)(
aa
)
(11.8)
SCRa est la SCR de la rgression sous contrainte, SCRa est la SCR de la rgression usuelle, et
SCRa SCRa .
1000 acylindree = 40 apuissance ) n'tait pas dmentie par les donnes. Nous souhaitons donc introduire
explicitement cette contrainte dans l'estimation des paramtres du modle. Il n'est pas ncessaire de relancer les oprations, nous pouvons nous appuyer sur les rsultats des calculs prcdents. Nous compltons
la feuille Excel (Figure 11.6) 8 :
Nous avons R = (0; 1000; 40; 0) et r = (0).
A partir des coecients estims a
, nous calculons r R
a = 0.23648.
Vu prcdemment, R(X X)1 R = 2.91886 est un scalaire, son inverse est donc [R(X X)1 R ]1 =
1/2.91886 = 0.34260.
Le produit matriciel
7. Les manipulations telles que nous les dcrirons sous Excel paraissent fastidieuses. Je le concde. Mais crire
les mmes formules sous R, pour peu que l'on connaisse un peu les oprations matricielles, est un jeu d'enfant.
8. reg_multiple_consommation_automobiles.xlsx - "reg.sous.contraintes"
Page: 121
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
122
Fig. 11.6.
0.0000
R [R(X X)
R]
81.01861
(r R
a) =
3.24074
0.00000
fourni une matrice de taille (p + 1, q), comme q = 1 dans notre exemple, nous avons un vecteur
colonne.
Pr-multiplie par (X X)1 , nous avons toujours un vecteur
0.03002
0.00014
1 1
(X X) R [R(X X) R ] (r R
a) =
0.00245
0.00003
Il ne reste plus qu' corriger l'estimation des MCO hors contrainte
Page: 122
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
123
1.67203
0.03002
0.00049 0.00014 0.00063
1 1
a
=a
+ (X X) R [R(X X) R ] (r R
a) =
=
+
0.01825 0.00245 0.01580
0.00423
0.00003
0.00420
1.70205
SCRa = SCRa + (
aa
) (X X)(
aa
) = 13.58067 + 0.01916 = 13.59983
Ici galement, il n'est nullement besoin d'accder au tableau de donnes. Nous exploitons pleinement
les rsultats de la rgression sans contraintes. On constate que (SCRa > SCRa ).
F =
(11.9)
Elle suit une loi de Fisher F(q, n p 1) sous l'hypothse nulle. La rgion critique correspond aux
grandes valeurs de F .
En reprenant notre exemple "Consommation des vhicules" (Figure 11.6), nous avons
F =
La valeur de la statistique est exactement la mme que celle obtenue avec la premire formulation du
test sur les contraintes linaires (Figure 11.5).
Page: 123
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 124
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
12
Prdiction ponctuelle et par intervalle
(xi,1 , . . . , xi,p ).
La prdiction ponctuelle est obtenue en appliquant les coecient estims sur la description de l'individu traiter
yi = y(xi )
=a
0 + a
1 xi,1 + + a
p xi,p
L'expression est plus facile manipuler en utilisant la notation matricielle :
yi = Xi a
(12.1)
(p + 1, 1).
On montre aisment que
l'erreur de prdiction i :
i = yi yi
= Xi a
(Xi a + i )
= Xi (
a a) + i
Et
E(i ) = Xi E(
a a) + E(i ) = 0
Page: 125
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
126
L'esprance de l'erreur de prvision est nulle parce que les estimateurs sont sans biais [E(
a) = a] et
l'esprance de l'erreur est nulle [E(i ) = 0] par hypothse.
Par consquent, la prdiction ponctuelle est sans biais :
E(
yi ) = yi
[
]
2i =
2 1 + Xi (X X)1 Xi
(12.2)
La variance sera d'autant plus grande que la rgression est de mauvaise qualit (
2 est lev) et que
i
yi yi
=
T (n p 1)
(12.3)
yi t1 2
i
(12.4)
1.70205
(
) 0.00049
yi = Xi a
= 1; 1984; 85; 1155
= 9.12
0.01825
0.00423
1. reg_multiple_consommation_automobiles.xlsx - "prediction"
Page: 126
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Fig. 12.1.
127
hi = Xi (X X)
Xi
1984
= 0.05910
85
1155
[
]
2i =
2 1 + Xi (X X)1 Xi
= 0.56586 [1 + 0.05910] = 0.59931
Pour un niveau de conance de 95%, le quantile de la loi de Student (24) degrs de libert est
t0.975 (24) = 2.06390, nous calculons nalement les bornes basses et hautes de la fourchette de prdiction :
0.59931 = 7.52
i = 9.12 2.06390
b.b. = yi t1 2
b.h. = yi + t1 2
i
Page: 127
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 128
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
13
Interprtation des coecients
d'analyse
et les X mais, en
plus, elle quantie travers les coecients du modle l'importance des associations : dans quelle mesure
les exognes inuent sur les valeurs (ou les variations de valeurs) de l'endogne.
L'interprtation cherche mettre jour les causalits entre les variables. Elle ne peut tre base
uniquement sur des critres numriques. L'expertise du domaine joue un rle important. Revenons notre
exemple ftiche de "Consommation des vhicules". On peut comprendre que le poids ait une inuence sur
la consommation. En s'attachant diminuer la premire, on espre diminuer galement la gloutonnerie
des automobiles. En revanche, la relation inverse parat incongrue. Manipuler la consommation, par
exemple en prenant un gicleur de carburateur de plus grosse section (ouh l l, a devient technique
l, je me demande qui connat encore les carburateurs de nos jours http://fr.wikipedia.org/wiki/
Carburateur, un beau weber double ou quadruple corps avec les bruits d'aspiration qui vont bien, ahhh...)
ne va pas modier le poids de la voiture. C'est d'ailleurs la raison pour laquelle je m'attache prendre
des exemples simples dans ce support. Il ne s'agit surtout pas de se lancer dans des interprtations plus
ou moins heureuses (foireuses) dans des domaines que je matrise mal (ex. mdecine, cologie, etc.).
Dans cette section, nous nous attacherons lire les coecients fournis par la modlisation, tout
d'abord dans une rgression simple, on parle de coecients bruts, puis dans la rgression multiple, on
parle de coecients partiels.
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
130
0.00669/0.00053 = 12.53805.
Fig. 13.1.
Nous pouvons lire le coecient de la manire suivante : une augmentation du poids d'un vhicule de
1 kg entrane une consommation supplmentaire de 0.00669 litres au km. On mesure l'association brute,
en dehors de toute considration des autres variables qui pourraient inuencer la consommation.
(13.1)
2. reg_multiple_consommation_automobiles.xlsx - "coef.interprtation"
Page: 130
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
131
La modication du coecient de poids s'explique par le fait que la variable poids est lie cylindre.
Le coecient de corrlation rpoids,cylindree = 0.8616 le montre bien. Lorsque la cylindre augmente, le
poids varie galement, dans le mme sens : a
poids en tient compte.
Le nouveau coecient se lit de la manire suivante :
ailleurs" dont on nous rabche les oreilles en conomtrie. On parle alors de coecient partiel. Nous avons
neutralis l'impact de la cylindre sur le poids dans la dtermination de l'inuence de ce dernier sur la
consommation. Ces notions sont rapprocher du concept de corrlation partielle et semi-partielle que nous
tudions en dtail dans notre fascicule consacr l'tude des dpendances entre variables quantitatives
[12] (Partie II - Chapitres 4 et 5).
Le rsidu reprsente la fraction de poids qui n'est pas explique par la cylindre. Nous l'introduisons
comme variable explicative dans la rgression expliquant la consommation :
contrlant, en
neutralisant ) l'inuence de la cylindre et, oh miracle, nous retrouvons le coecient partiel de la rgression
multiple (quation 13.1).
3. reg_multiple_consommation_automobiles.xlsx - "coef.interprtation"
Page: 131
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
132
Fig. 13.2.
coecients consiste centrer et rduire toutes les variables (exognes et endogne) et lancer la rgression sur les donnes transformes. Nous avons ralis cette opration sur notre chier. Pour la variable
Page: 132
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
133
1
yi = 9.0750
n i
1
y =
(yi y)2 = 2.1926
n i
y =
cr
yi =
yi y
y
Nous obtenons de nouveaux coecients avec la rgression sur le tableau de donnes centres et rduites
(Figure 13.3 - Rgression sur donnes centres et rduites) 4 :
cr
cr
cr
Fig. 13.3.
Les variables tant centres, la constante est nulle. Nous pouvons lire les rsultats en termes d'cartstype et comparer les coecients. Lorsque le poids (resp. la cylindre) augmente de 1 cart-type, la
consommation augmente de 0.61281 fois (resp. 0.36390) son cart-type. Maintenant, nous pouvons dire
que le poids pse comparativement plus sur la consommation que la cylindre.
Ces coecients standardiss sont souvent directement fournis par les logiciels de statistique pour
indiquer l'importance relative des variables (Standardized
//faculty.chass.ncsu.edu/garson/PA765/regress.htm#bcoeff).
4. reg_multiple_consommation_automobiles.xlsx - "coef.comparaison"
Page: 133
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
134
la procdure est un peu lourde quand mme. Elle devient contraignante si nous avons manipuler un
chier volumineux. Et, en ralit, elle n'est pas ncessaire. Il est possible de corriger les coecients
de la rgression sur les donnes originelles avec les carts-type des variables pour obtenir les coecients
standardiss. Pour la variable Xj , dont le coecient estim est initialement a
j , nous obtenons le coecient
standardis j avec
x
j = a
j j
(13.2)
y
C'est ainsi que pour la variables poids, nous retrouvons (Figure 13.3 - Coecients corrigs par les
carts-type) :
poids = a
poids
poids
303.4249
= 0.00443
= 0.61281
consommation
2.1926
le coecient obtenu sur les donnes centres et rduites. Il en de mme pour la variable cylindre.
H :
0
y/1 = y/0
H1 : y/1 = y/0
O y/1 (resp. y/0 ) est la moyenne des salaires chez les femmes (resp. chez les hommes).
Nous disposons de n = 40 observations. A l'aide du tableau crois dynamique d'Excel (Figure 13.4) 7 ,
nous calculons les moyennes, les carts-type et les eectifs conditionnels.
5. Les donnes proviennent du site http://www.cabannes.net/
6. Rakotomalala R., Comparaison de populations - Tests paramtriques, Chapitre 1 : Comparaison de
2 moyennes - Cas des variances gales, http://eric.univ-lyon2.fr/~ricco/cours/cours/Comp_Pop_Tests_
Parametriques.pdf
7. regression-salaire-sexe.xlsx - "comp.moyenne"
Page: 134
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
135
Sexe
Moyennes
Ecarts-type
Nombre
1
1
Homme (0) y0 = n0 i:xi =0 yi = 3110.800 s0 = n0 1 i:xi =0 (yi y0 )2 = 1517.327 n0 = 20
Femme (1) y1 = 1947.250
Fig. 13.4.
s1 = 1021.592
n1 = 20
Nous calculons l'cart entre les salaires, la statistique de test sera base sur cet indicateur
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
136
s2 =
Enn
D = s
1
1
+
= 1293.43176
n0
n1
1
1
+
= 409.01903
20 20
(13.3)
tcalc =
D
1163.550
=
= 2.84473
D
409.01903
Sous H0 , elle suit une loi de Student (n0 + n1 2 = n 2 = 38) degrs de libert. La rgion critique
au risque correspond
salaire = a sexe + b
Fig. 13.5.
b = 3110.800 = y0
a
= 1165.550 = y1 y0 = D
9. regression-salaire-sexe.xlsx - "comp.moyenne"
Page: 136
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
137
de 881 euros par rapport celui des hommes. Et l'cart reste signicatif 5% avec un t-calcul de
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
138
Fig. 13.6.
Les frus de statistique n'auront pas manqu de voir dans cet exemple une illustration simplie d'une
analyse de covariance
catgorielle sur une variable dpendante quantitative, en contrlant l'eet d'une tierce variable sur cette
dernire.
11. http://pages.usherbrooke.ca/spss/pages/statistiques-inferentielles/analyse-de-covariance.
php ; http://faculty.chass.ncsu.edu/garson/PA765/anova.htm
Page: 138
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
14
tude de cas : Analyse du taux de chmage en France
Rcapitulons les dirents thmes abords dans ce document en ralisant une tude de cas. Nous
souhaitons comprendre les tenants et aboutissants du taux de chmage en France mtropolitaine
la n de l'anne 2008. Le sujet et les donnes proviennent du site de Mme Aurlie Bonein (http:
26.8532
SCR
13.8800
SCE
=
= 5.3706, CM R =
=
= 0.8675
p
5
np1
16
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
140
Fig. 14.1.
Fig. 14.2.
SCE
29.8532
=
= 0.6592
SCT
40.7332
2 = 1 n 1 (1 R2 ) = 1 22 1 (1 0.6592) = 0.5528
R
np1
22 5 1
R2 =
F =
5.3706
CM E
=
= 6.1909
CM R
0.8675
Distribue selon une loi de Fisher F(5, 16) sou H0 , nous obtenons la probabilit critique =
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Variable
X5
X4
X3
X2
X1
a
j
aj
taj =
a
j
a
j
p-value
141
Signif. 5%
non
oui
non
oui
oui
Les variables qui inuent sur le taux de chmage 5%, toutes choses gales par ailleurs (en contrlant
l'eet des autres variables) sont : X1 , le nombre d'entreprises en faillites dans la rgion ; X2 , le
nombre d'tablissements de construction ; X4 , le nombre d'tablissement de service.
Fig. 14.3.
F =
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
142
Avec la distribution F(3, 16), nous avons une p-value de = 0.1050. Eectivement, l'expert avait raison, l'hypothse selon laquelle les coecients de (X2 , X3 , X5 ) sont simultanment nuls n'est pas dmentie
par les donnes.
Dans le modle rduit 2 variables (X1 , X4 ), nous constatons que tous deux sont individuellement
signicatifs. Un nombre de faillites accru entrane une augmentation du chmage ; lorsque le nombre
d'entreprises de services est lev, le chmage est moindre. Oui, tout a tombe sous le sens. On se
demande parfois pourquoi on s'enquiquine avec des techniques compliques pour sortir des vidences
pareilles....
C'est tout le charme de la modlisation. Beaucoup d'appels (on tente, on tente, on triture les donnes
comme on peut), mais peu d'lus (trouver des modles rellement intressants, oprationnels, reste rare).
(X1 , X4 ), puisque nous avons montr dans la section prcdente que (X2 , X3 , X5 ) n'taient pas pertinentes
dans l'explication de Y . Mais, pour tre raccord avec le corrig propos en ligne sur notre site de rfrence 3 ,
nous utiliserons le modle complet avec p = 5 exognes.
La prdiction est trs simple obtenir. Il sut d'appliquer les coecients estims du modle sur la
description de la nouvelle observation traiter
12.5732
2.1239
(
)
0.8975
= 14.07
y = x.
a = 1, 3.45, 4.01, 11.2, 28, 2.54 .
0.1766
0.3975
2.7246
Plus compliques chirer sont les bornes de l'intervalle de prdiction (Figure 14.4) 4 .
Il nous faut au pralable calculer la matrice (X X)1 . Ce que nous faisons dans la feuille Excel.
Puis calculer le levier pour les DOM-TOM
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
143
Nous calculons alors l'cart type de l'erreur de prdiction, en nous servant de l'estimation de l'erreur
du modle fournie par Droitereg
= 0.9314,
=
1 + h = 0.93124 1 + 6.4385 = 2.5403
Avec le quantile d'ordre 1 /2 de la loi de Student T (n p 1 = 16), nous tablissons les bornes
basses et hautes de l'intervalle au niveau de conance (1 ) = 95%
b.b. = y t0.975
= 14.07 2.1199 2.5403 = 8.6849
b.h. = y + t0.975
= 14.07 + 2.1199 2.5403 = 19.4551
Fig. 14.4.
Page: 143
Taux de chmage en France (2008) - Prdiction et intervalle de prdiction pour les DOM-TOM
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 144
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15
La rgression linaire avec les logiciels de statistique
Dans ce chapitre, nous dcrirons la mise en oeuvre de la rgression linaire multiple l'aide de
quelques logiciels connus (ou non) des praticiens de l'conomtrie. Nous mettrons l'accent sur la lecture
des rsultats. Pour faciliter les comparaisons, nous utiliserons le seul et unique chier "conso-vehicules.xls"
correspondant au problme de "Consommation des vhicules" maintes fois analys dans ce fascicule.
Pour les outils que je connais bien (Tanagra, Regress et R principalement), nous creuserons un peu
plus en abordant des sujets qui sont par ailleurs dtaills dans notre second fascicule relatif la rgression
[13] (ex. slection de variables, dtection des points atypiques, etc.).
Un petit apart avant de commencer. "Bon sang ne saurait mentir" a-t-on l'habitude de dire.
A travers le choix des logiciels que j'ai choisi de mettre en avant dans ce fascicule, tout le monde aura
bien compris quelle est ma vritable culture. D'autres auraient plutt choisi de parler de EViews,
Gauss,
Rats (que j'ai beaucoup utilis nagure), Stata, TSP, etc. Ils auraient trs bien fait galement. Comme
j'ai l'habitude de le dire : qu'importe le logiciel, le plus important est que nous sachions quoi faire avec
l'outil, puis comment exploiter ecacement les rsultats. C'est justement pour dgager les tudiants du
logiciel que je m'vertue dtailler tous les calculs l'aide d'un tableur.
15.1 Tanagra
15.1.1 Rgression linaire multiple avec Tanagra
Tanagra est un logiciel gratuit de Data Mining (http://eric.univ-lyon2.fr/~ricco/tanagra/,
version 1.4.38). Il comporte un onglet ddi l'analyse de rgression. On y retrouve des outils pour la
rgression linaire telle qu'elle est dcrite dans ce document. Les outils associs sont galement proposs.
De nombreux tutoriels dcrivent l'importation d'un chier Excel dans Tanagra 1 , nous ne reviendrons
pas l-dessus. Une fois les donnes importes et le problme spci l'aide de l'outil DEFINE STATUS
(consommation en TARGET, les autres variables en INPUT), nous introduisons la rgression linaire
1. http://tutoriels-data-mining.blogspot.com/
Page: 145
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
146
multiple l'aide du composant MULTIPLE LINEAR REGRESSION. Dtaillons les rsultats achs par
Tanagra (Figure 15.1) :
Fig. 15.1.
tiser rapidement la qualit de l'ajustement. Nous y apprenons, entres autres, que le coecient de
dtermination R2 = 0.899113. Le modle explique prs de 90% de la variance de consommation.
Le second tableau "Analysis of variance" correspond au tableau d'analyse de variance. Tanagra y
adjoint le statistique F du test de signicativit globale de la rgression et la p-value associe. Dans
notre exemple, le modle est trs fortement signicatif.
Le troisime tableau correspond aux coecients associs aux variables explicatives du modle.
"Intercept" est la constante. Parmi les exognes, seul poids semble signicatif. Mais nous avons
vu par ailleurs que "cylindre" et "puissance" se gnent dans la rgression parce que fortement
corrles.
Page: 146
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.1 Tanagra
Fig. 15.2.
147
Un dernier tableau dans la partie basse de la fentre donne un aperu des caractristiques des rsidus,
si importants dans la rgression (Figure 15.2). Nous avons un histogramme de frquences et quelques
caractristiques numriques. On sait par exemple que si le rapport MAD/STDDEV (cart absolu moyen
/ cart type) s'carte rsolument de 0.8 ( 2 pour tre prcis 2 ), l'hypothse de normalit des rsidus est
mise mal. Dans notre cas, nous avons M AD/ST DEV = 0.8361. Nous dtaillons l'analyse des rsidus
dans le chapitre 1 du second fascicule de cours [13].
Fig. 15.3.
Dans le second onglet de la fentre d'achage (Figure 15.3), nous disposons de la matrice (X X)1 qui
ouvre la porte toute une batterie de tests statistiques (ex. tests de conformit simultane, combinaison
linaire de variables, levier pour les intervalles de prvision...). Il est facile d'en copier les valeurs dans
un tableur. Un tutoriel en dtaille l'usage (http://tutoriels-data-mining.blogspot.com/2011/02/
regression-lineaire-lecture-des.html).
fr/~ricco/cours/cours/Test_Normalite.pdf
Page: 147
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
148
forward, l'autre la procdure backward [13] (chapitre 3). Dans la copie d'cran ci-jointe, nous avons mis
en oeuvre la slection backward sur nos donnes. La variable "cylindre" a t limine, puis le processus
a t stopp car toutes les variables restants taient signicatives au niveau de signication choisi par
l'utilisateur (Figure 15.4).
Le diagramme de traitement
Comme la trs grande majorit des logiciels de Data Mining, Tanagra retrace les oprations menes
sur les donnes l'aide d'un diagramme. Nous pouvons le sauvegarder pour des traitements ultrieurs.
Soit parce que le chier a t mis jour, soit tout simplement parce que nous souhaitons complter notre
tude.
Concernant les analyses dcrites dans cette section, nous avons ralis (Figure 15.8) : une importation
des donnes (Dataset), spci l'endogne et les exognes (Dene Status), men une premire analyse de
rgression (Multiple linear regression), eectu une slection de variables
dtection des points atypiques et inuents (Outlier Detection), puis une second analyse approfondie
permettant de dterminer sur quels coecients agissent ces points (Dfbetas).
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.1 Tanagra
Fig. 15.4.
149
Utilisation du composant "Backward Elimination Reg" dans Tanagra - Consommation des vhicules
(http://tutoriels-data-mining.blogspot.
Page: 149
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
150
Fig. 15.5.
Dtection des points atypiques - Indicateurs, bornes basses et hautes - Consommation des vhicules
Fig. 15.6.
Page: 150
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.1 Tanagra
Fig. 15.7.
Fig. 15.8.
151
Colinarit et rgression
rgression.html). Dans un premier temps, il dcrit les outils utiliser pour dtecter rapidement
les problmes de colinarit (redondance des explicatives) dans la rgression. Dans un deuxime
temps, direntes solutions pour combattre la colinarit sont tudies. Tout d'abord une premire
solution base sur la slection de variables est propose. Puis, par la suite, d'autres pistes sont
Page: 151
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
152
explores : la rgression sur les axes d'une ACP (analyse en composante principale) et la rgression
PLS (partial least squares). Enn, nous comparons les coecients des dirents modles obtenus.
D'autres tutoriels dcrivant les autres techniques de rgression peuvent nous intresser galement :
les arbres de rgression (http://tutoriels-data-mining.blogspot.com/2008/04/arbres-de-rgression.
15.2 REGRESS
Le logiciel REGRESS est un logiciel trs simpli de rgression linaire multiple que j'ai dvelopp il
y a fort longtemps. Je l'ai mis jour l'occasion de l'criture de ce document. Mon ide est de le mettre
en totale adquation avec les formules prsentes dans mes fascicules consacrs la rgression.
Fig. 15.9.
Page: 152
Envoi des donnes d'Excel vers REGRESS via la macro complmentaire SIPINA.XLA
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.2 REGRESS
153
REGRESS est distribu de deux manires. Il peut tre charg et install individuellement (http:
Fig. 15.10.
Aprs avoir spci l'endogne et les exognes dans la bote de dialogue de paramtrage, les principaux
rsultats apparaissent dans une fentre ddie (Figure 15.10 ). Nous observons successivement : le tableau
d'analyse de variance avec la statistique F du test de signicativit globale ; le R2 et le R2 -ajust ; la grille
des coecients, avec notamment leurs intervalles de conance 95% (paramtrable).
4. Excel
est
trs
largement
utilis
dans
ce
contexte
http://www.kdnuggets.com/polls/2010/
data-mining-analytics-tools.html
5. Et qui est trs complet concernant la rgression linaire multiple. Hlas, je ne peux pas prsenter tous les
outils existants dans ce fascicule. J'ai du faire des choix. Sur le site de OPEN STAT, vous trouverez plusieurs
tutoriels, rdigs et sous forme d'animation vido. C'est vraiment du travail de trs trs grande qualit.
Page: 153
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
154
La mise en oeuvre de REGRESS et l'accs aux rsultats sont dcrits dans un tutoriel accessible en ligne
(http://tutoriels-data-mining.blogspot.com/2011/05/regress-dans-la-distribution-sipina.
html).
15.3 Le logiciel R
R est un logiciel extraordinaire (http://www.r-project.org/). Je ne lui vois qu'un seul dfaut : il
faut faire l'apprentissage de son langage de commande (de programmation) pour en tirer prot. Pour
les personnes rfractaires l'informatique, la barrire (psychologique) peut paratre insurmontable. Mais
une fois cet cueil pass, on constate rapidement les immenses possibilits de l'outil.
Comme pour Tanagra, plusieurs tutoriels relatifs la pratique de la rgression avec R sont disponibles
sur notre site web http://tutoriels-data-mining.blogspot.com/. Mais, de toute manire, vous
trouverez de trs nombreux documents gratuits et de qualit sur internet via Google. Citons, entres
autres, le fameux (parce prcurseur) tutoriel de Julian J. Faraway,
R, 2002 ; http://cran.r-project.org/doc/contrib/Faraway-PRA.pdf.
Et n'allez surtout pas acheter les livres qui prtendent prsenter la rgression
et sa mise en oeuvre
avec R dans un chapitre de quelques pages, noyes au milieu de tout un tas de techniques statistiques,
dcrites galement de manire expditive 6 . Ca ne vous servira pas grand chose. Mis part constater
que le label
Fig. 15.11.
6. Et ils sont nombreux, surtout en anglais. J'en ai moi-mme achet. Honte moi. A part caler mon tagre,
je ne vois pas trs bien quoi ils peuvent servir.
Page: 154
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.3 Le logiciel R
155
Il ne faut pas s'arrter ce premier rsultat. Si on connat un peu R, on sait que des champs sont
associs la grande majorit des objets de R. Pour en obtenir la liste, nous utilisons la commande
attributes(.). On se rend compte alors qu'on peut avoir accs aux coecients sous forme de tableau
($coef f icients), a peut toujours tre intressant pour des manipulations ultrieures ; mais nous avons
galement accs d'autres informations comme les rsidus ($residuals) (Figure 15.12).
Fig. 15.12.
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
156
Fig. 15.13.
Fig. 15.14.
(Akaike) ou, c'est paramtrable, le critre BIC de Schwartz. Les stratgies usuelles de recherche (forward,
Page: 156
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Fig. 15.15.
157
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
158
Fig. 15.16.
souvent fastidieuses, est dvolue au tableur. Les calculs scientiques sont en revanche raliss l'aide des
logiciels spcialiss. Chaque outil oeuvre dans l'espace qui lui est le plus favorable.
Parmi les innombrables add-ons disponibles, nous citerons volontiers, parce que faisant rfrence
des logiciels gratuits que tout le monde peut charger et installer, ceux de Tanagra 8 et de R 9 .
8. http://tutoriels-data-mining.blogspot.com/2008/03/connexion-open-office-calc.html
9. http://wiki.services.openoffice.org/wiki/R_and_Calc
Page: 158
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
159
Dans cette section, j'ai choisi de mettre en avant "l'utilitaire d'analyse" parce qu'elle fait partie de
la distribution standard d'Excel. Aucune installation additionnelle n'est requise. Parmi les techniques
statistiques proposes se trouve la rgression linaire. Par rapport DROITEREG, ses sorties sont plus
riches, d'o l'intrt de les dcrire de manire dtaille.
Fig. 15.17.
Dans Excel 2007, l'utilitaire d'analyse est accessible dans l'onglet "Donnes". Nous slectionnons la
rgression linaire. La bote de paramtrage apparat (Figure 15.17) :
10. http://tutoriels-data-mining.blogspot.com/2008/03/importation-fichier-xls-excel-macro.html
11. http://tutoriels-data-mining.blogspot.com/2010/08/ladd-in-tanagra-pour-excel-2007-et-2010.
html
Page: 159
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
160
Nous spcions les plages de valeurs pour l'endogne et les exognes. Nous pouvons slectionner
les tiquettes de colonnes, il faut simplement prciser Excel que la premire ligne correspond aux
noms des variables dans ce cas.
Les rsultats sont insrs dans une nouvelle feuille de calcul.
Nous pouvons, si nous le souhaitons, obtenir des indications dtailles concernant les rsidus.
Les rsultats sont achs dans une nouvelle feuille, conformment notre paramtrage. Par rapport
DROITEREG, les sorties sont mieux organises, elles intgrent de surcrot les ratios intermdiaires
permettant de tester la signicativit globale de la rgression (tableau d'analyse de variance, test de
Fisher) et la signicativit de chaque coecient (t calcul, probabilit critique). Les intervalles de conance
des coecients sont galement fournies. Je ne sais pas du tout en revanche pourquoi les colonnes associes
sont dupliques (Figure 15.18) 12 .
Fig. 15.18.
15.5 SAS
SAS est un logiciel connu des statisticiens, bien en place depuis de trs nombreuses annes dj. Il
doit faire face une concurrence de plus en plus accrue aujourd'hui. Beaucoup de praticiens se posent la
question du passage d'autres logiciels libres (ou non) de qualit (KDnuggets Poll,
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.6 SPAD
161
Je me contenterai d'une description assez succincte dans ce fascicule (SAS version 9.2). Pour le lecteur
dsireux d'en apprendre plus sur la pratique de la rgression sous SAS, je conseille l'excellent tutoriel
de Confais et Leguen (2005) [4] paru dans la non moins excellente revue gratuite en ligne MODULAD
(http://www-roc.inria.fr/axis/modulad/).
La rgression sur les donnes "Consommation des vhicules" a t ralise l'aide des commandes
suivantes
Fig. 15.19.
15.6 SPAD
SPAD (version 7.3) est un logiciel de traitement statistique qui a fait les beaux jours de l'analyse de
donnes " la franaise". Depuis quelques annes, il tend ses comptences en investissant, entres autres,
les domaines de la modlisation et du data mining.
Nous avons construit une lire pour ralis la rgression linaire multiple (Figure 15.20). Le composant ddi "Rgression Anova" encapsule plusieurs techniques connexes : la rgression, l'analyse de
Page: 161
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
162
Fig. 15.20.
Fig. 15.21.
variance (anova) et l'analyse de covariance. Dans notre tude, la variable expliquer est quantitative, les
facteurs simples galement, nous oprons bien une analyse de rgression.
Les rsultats peuvent tre visualiss de direntes manires. Pour ma part, je prfre l'diteur de
rsultats car il permet d'obtenir directement une vision globale : tous les lments importants tiennent
sur une seule page (Figure 15.21). L'autre option est de transfrer les rsultats dans le tableur Excel, la
prsentation est certainement meilleure, mais le test de signicativit globale et la grille des coecients
sont sur deux feuilles direntes. Tout dpend des souhaits de l'utilisateur en dnitive.
Page: 162
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
15.8 STATISTICA
163
15.7 SPSS
Nous lanons la rgression linaire standard (Analyse / Rgression / Linaire...) dans SPSS version
12.0. Dans le fentre de rapport sont achs : le tableau indiquant la qualit globale du modle (R2 ,
) ;
le tableau d'analyse de variance et le test F d'valuation globale du modle ; la grille des paramtres de
la rgression avec les coecients standardiss et les tests individuels de signicativit (Figure 15.22).
Fig. 15.22.
15.8 STATISTICA
Ma version de STATISTICA est plutt ancienne (version 5.5). Mais bon, la rgression telle que nous
l'abordons n'ayant pas connu de bouleversements thoriques forts ces dernires annes (enn j'imagine),
nous pouvons considrer que les sorties restent d'actualit.
Les donnes ont t importes, nous lanons la rgression en spciant la variable dpendante (endogne) et les variables indpendantes (exognes). Nous obtenons un bilan global de la rgression dans
une premire fentre (Figure 15.23). Nous y trouvons le coecient de dtermination R2 , la valeur de la
statistique F , l'cart type estim de l'erreur, etc.
Page: 163
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
164
Fig. 15.23.
Fig. 15.24.
Cette fentre nous permet d'accder d'autres rsultats.Si nous cliquons sur le bouton "Synthse de
rgression" par exemple, nous obtenons la grille des coecients avec les tests de signicativit individuels.
Notons que STATISTICA propose directement les coecients standardiss (BETA) (Figure 15.24).
D'autres analyses sont possibles bien videmment. Si nous actionnons le bouton "Analyse des rsidus",
nous accdons un panneau de commande particulirement complet permettant de scruter en dtail les
caractristiques des rsidus de la rgression (Figure 15.25). Nous pouvons obtenir, entres autres, la "Droite
de Henry" (graphique Q-Q Plot ; [13], chapitre 1) permettant de vrier la compatibilit de la distribution
observe des rsidus avec l'hypothse gaussienne (Figure 15.26).
Page: 164
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Fig. 15.25.
165
Panneau de commande de l'analyse des rsidus sous STATISTICA - Consommation des vhicules
Fig. 15.26.
Page: 165
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
166
(data
management ), l'accs au logiciel, etc. Il dpend aussi, soyons honnte, de la culture ambiante dans
Page: 166
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
A
Gestion des versions
Ce document n'est pas g. Il est appel voluer dans le temps. Dans cette annexe, nous dtaillerons
au fur et mesure son volution. Le numro de version est indique sur la couverture. En bas de page,
nous avons la date et l'heure de la compilation. Toute modication un tant soit peu importante (rajout
de section, rorganisation) induit un nouveau numro de version. Un simple erratum en revanche n'est
pas explicitement indiqu (coquilles, fautes d'orthographes), il faut se rfrer la date de compilation
dans ce cas.
1.
Version 1.0 -
comporte 15 chapitres.
Page: 167
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Page: 168
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
B
Fichiers de donnes et de calculs
Plusieurs exemples illustrent les sujets traits dans ce document. L'norme avantage de la distribution
par le web est que nous pouvons diuser les chiers de donnes avec les calculs associs.
Tous les chiers sont au format Excel. Vous avez du le remarquer, chaque copie d'cran est accompagne en bas de page d'une double rfrence : le nom du chier (.xlsx - Excel format 2007) et le nom de la
feuille. Vous pouvez ainsi tudier dans le dtail la squence de calculs ralise pour obtenir les rsultats
dcrits dans le document.
Ces chiers sont regroups dans une archive (http://eric.univ-lyon2.fr/~ricco/cours/cours/
econometrie_regression_fichiers.zip). Nous les listons ici avec les principaux thmes qui y sont
abords :
1. regression_simple_rendements_agricoles.xlsx. Source : Bourbonnais, page 12. Thmes : rgression linaire simple, intervalle de conance de la droite de rgression, dcomposition de la variance,
test de signicativit globale, test de signicativit de la pente, intervalle de conance de la pente,
rsultats de droitereg, prdiction ponctuelle, intervalle de prdiction.
2. conso_poids_vehicules_reg_simple.xlsx. Thme : tude de cas, consommation de carburant vs.
poids.
3. equipementmagnetoscope.xlsx. Source : Bourbonnais, page 160. Thmes : modle logistique, estimation des coecients, estimation par balayage de ymax .
4. regression_sans_constante.xlsx. Thme : rgression sans constante, sur donnes centres et noncentres.
5. comparaisondesregressions.xls. Thme : comparaison des rgressions.
6. reg_multiple_consommation_automobiles.xlsx. Thmes : rgression linaire multiple et sujets
associs (en version Open Oce Calc : reg_multiple_consommation_automobiles.ods).
7. cigarettes-regressionmultiple.xls. Thmes : rgression linaire multiple et sujets associs.
8. regression-salaire-sexe.xlsx. Source : http://www.cabannes.org/exemples_pour_excel.htm.
Thme : rgression sur exogne qualitative (binaire).
Page: 169
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
170
Page: 170
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06
Littrature
1. Avazian Z.,
2. Bourbonnais, R.,
3. Bressoux P.,
2006.
5. Dagnelie P., Statistique thorique et appliques - Infrence Statistique une et deux dimensions, vol.2, de Boeck,
2006.
6. Dodge, Y, Rousson, V.,
7. Giraud, R., Chaix, N.,
8. Hardy M.,
Regression with Dummy Variables, Sage University Papers Series on Quantitative Applications in
Interaction eects in multiple regression, (2nd ed). Sage University Papers Series on
Quantitative Applications in the Social Sciences, 07-072, Thousands Oaks, CA : Sage, 2003.
10. Johnston, J., DiNardo, J.,
11. Labrousse, C.,
univ-lyon2.fr/~ricco/cours/cours/Analyse_de_Correlation.pdf.
13. Rakotomalala R.,
//eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf.
14. Rakotomalala, R.,
//eric.univ-lyon2.fr/~ricco/cours/cours/pratique_regression_logistique.pdf.
15. Saporta, G.,
Page: 171
job: econometrie_regression
macro: svmono.cls
date/time: 11-Feb-2013/22:06