Vous êtes sur la page 1sur 8

Cours Econométriee 3 Fin 2020/2021

VII Analyse de la variance et coe¢ cient de détermination

L’analyse de la variance a pour objet de dériver un indicateur synthétique, appelé coe¢ cient de
détermination R2 , qui évalue la qualité de l’ajustement réalisé en appliquant le critère des moindres
carrés. Il indique donc dans quelle mesure, la variable explicative X nous permet d’améliorer nos
connaissances sur la variable endogène Y .

VII.1 Équation d’analyse de la variance : Tableau ANOVA


Pn
(y y)2
Nous allons voir que la variance totale des y, soit t=1 n t , peut être décomposée en une
somme de deux variances, celle des y^ (partie expliquée par la régression) et celle des résidus e (partie
résiduelle).
A cette …n, nous prouverons que :
Pn Pn Pn
t=1 (yt y)2 = yt y)2 +
t=1 (^ t=1 (yt y^t )2
SCT SCE SCR
avec :
SCT : somme des carrés totaux
SCE : somme des carrés expliqués par le modèle
SCR : somme des carrés résiduels, non expliqués par le modèle

Démonstration :
X
n X
SCR = (yt y^t )2 = e2t
t=1

24
Cours Econométriee 3 Fin 2020/2021

avec

et = yt y^t = yt ^ ^ xt
= yt y ^x ^ xt

= (yt y) ^ (xt x)

donc
X X
n X
n
2 X
n
e2t = (yt y)2 2^ (xt x) (yt y) + ^ (xt x)2
t=1 t=1 t=1
Pn ^ Pn 2
or t=1 (xt x) (yt y) = t=1 (xt x) ; on obtient
X X
n X
n
e2t = (yt y)2 ^2 (xt x)2
t=1 t=1

Pour prouver que SCT = SCE + SCR, il su¢ t alors de montrer que :
X
n X
n
^2 (xt x) = 2
(^
yt y)2
t=1 t=1

Mais ceci est évident car :

X
n X
n
2
(^
yt y) 2
= ^ + ^ xt ^ + ^x
t=1 t=1

2 X
n
= ^ (xt x)2
t=1

Le tableau suivant présente l’analyse de la variance pour un modèle de régression simple.

Source de variation Somme des carrés Degré de liberté Carrés moyens


P
x SCE = Pnt=1 (^
yt y)2 1 SCE=1
n
Résidu SCR = t=1 e2t n 2 SCR=(n 2)
P
Total SCT = nt=1 (yt y)2 n 1

VII.2 Coe¢ cient de détermination

L’équation de la variance nous permettra de dé…nir le coe¢ cient de détermination, qui permet
de mesurer la qualité de l’ajustement linéaire. Le coe¢ cient de détermination est dé…ni par
SCE SCR
R2 = =1
SCT SCT
et l’on a 0 R2 1 . Plus R2 est proche de 1, plus la variance expliquée est proche de la variance
totale, et donc plus la qualité de l’ajustement du nuage de points par la droite des moindres carrés
est meilleure.

25
Cours Econométriee 3 Fin 2020/2021

Remarque : dans le cas d’un modèle de régression simple (une seule variable explicative) le
coe¢ cient de détermination est égal au carré du coe¢ cient de corrélation linéaire simple entre X et
Y.
Exemple :
Nous reprenons l’exemple précédent.
1) Construire le tableau de l’analyse de la variance
2) Calculer le coe¢ cient de détermination

Solution
X
n
SCR = e2t = 38:0443
t=1

X
n
2 X
n
SCE = (^
yt y)2 = ^ (xt x)2
t=1
!t=1
2 X
n
= ^ x2t nx2
t=1

= (0:4451)2 1024 10 (8:6)2


= 56: 35

SCT = SCR + SCE = 38:0443 + 56:356


= 94:4

On obtient alors le tableau de l’analyse de la variance :

Source de variation Somme des carrés Degré de liberté Carrés moyens


x SCE = 56: 356 1 56:356
Résidu SCR = 38:044 8 4:756
Total SCT = 94:4 9

2)
SCE 56:356
R2 = = = 0:597
SCT 94:4

VIII Théorie de la corrélation

Nous avons introduit la notion de la corrélation dans le chapitre premier. Il s’agit d’une mesure
du degré de liaison entre deux variables. Il est à noter que dans le cadre d’une régression linéaire,
la position des variables est symétrique ; l’analyse de la corrélation ne permet pas de distinguer la
variable endogène de la variable exogène.

26
Cours Econométriee 3 Fin 2020/2021

VIII.1 Coe¢ cient de corrélation de Bravais –Pearson

Le coe¢ cient de corrélation linéaire de Bravais – Pearson, noté rXY , est un coe¢ cient paramé-
trique qui donne la mesure du degré de liaison linéaire entre deux variables quantitatives X et Y
normalement distribuées. Il est donné par le rapport entre leur covariance et le produit non nul de
leurs écarts–types. Ainsi, il standardise la covariance et la corrige de l’in‡uence des unités de mesure
des variables.
Formellement, le rXY est donné par la formule :
P
cov(X; Y ) Xt X Yt Y
rXY = = qP t qP
X Y 2 2
t Xt X t Yt Y
Hypothèses fortes au calcul du rXY
Le calcul du coe¢ cient de corrélation linéaire de Bravais – Pearson entre les variables X et Y
n’est adapté qu’au strict respect des hypothèses suivantes :
– Les variables X et Y doivent être quantitatives ;
– Les variables X et Y doivent être gaussiennes ;
– La relation entre X et Y doit être linéaire

Test sur le coe¢ cient de corrélation de Bravais - Pearson


Les hypothèses du test sont :

H0 : rXY = 0 (hypothèse d’absence de corrélation)


H1 : rXY 6= 0 (hypothèse de présence de corrélation)
Sous l’hypothèse H0 , la statistique du test suit une distribution de Student à (n 2) degrés de
liberté :
X;Y
t= r ! Tn 2
(1 2
X;Y )
n 2

où X;Y est le coe¢ cient de corrélation empirique (l’estimateur de rX;Y )


Nous calculons alors la statistique de Student empirique :

X;Y
t =r
(1 2
X;Y )
n 2

Si t > ta=2;n 2 ; l’hypothèse H0 est rejetée, le coe¢ cient de corrélation est donc signi…cativement
di¤érent de 0 ;
Si t < ta=2;n 2 , l’hypothèse H0 n’est pas rejetée, le coe¢ cient de corrélation n’est pas donc
signi…cativement di¤érent de 0.

27
Cours Econométriee 3 Fin 2020/2021

VIII.2 Limites de la corrélation

En principe, le coe¢ cient de Bravais - Pearson n’est applicable que pour mesurer la relation
entre deux variables X et Y ayant une distribution de type gaussien (normale) et ne comportant
pas de valeur exceptionnelles. Si ces conditions ne sont pas véri…ées (cas fréquent ...) l’emploi de ce
coe¢ cient peut aboutir à des conclusions erronées sur la présence ou l’absence d’une relation.
On notera également que l’absence d’une relation linéaire ne signi…e pas l’absence de toute relation
entre les deux variables étudiées.

IX Test de signi…cativité conjointe ou globale

Ce test consiste à tester la signi…cativité conjointe de tous les paramètres estimés du modèle. Les
hypothèses du test sont :

H0 : Le modèle n’amène rien dans l’explication de Y


H1 : Le modèle est pertinent (globalement signi…catif)
C’est le test basé sur la statistique de Fisher, appelé aussi test d’analyse de la variance ANOVA.
La statistique du test est donnée par le rapport suivant :
SCE
1
F = SCR
n 2

On peut aussi l’exprimer en fonction du R2 :


R2 R2
F = R2 )
= (n 2)
(1 1 R2
(n 2)

L’hypothèse de normalité des erreurs implique que sous l’hypothèse H0 , F suit une loi de Fisher
(rapport de deux chi-deux) à 1 et (n 2) degrés de liberté.

F ! F(1;n 2)

Au seuil de signi…cation a%; nous comparons donc ce F calculé au F théorique : si F > Fa;(1;n 2)
nous rejetons l’hypothèse H0 , le modèle est globalement signi…catif.
Remarques :
– Le test de signi…cativité globale ne porte que sur les paramètres associés aux variables exogènes.
– Tester la signi…cativité de la régression et tester la signi…cativité individuelle de la pente ( )
sont équivalents dans la régression simple.

Exemple : En reprenant l’exemple précédent, tester la signi…cativité globale du modèle au seuil


de 5%.
Solution :
Nous calculons la statistique de Fisher :
SCE
1 56:356
F = SCR
= = 11:849
n 2
4:756

28
Cours Econométriee 3 Fin 2020/2021

La valeur issue de la loi de Fisher au seuil de 5%, F0:05;(1;8) ; est telle que P (F(1;8) < F0:05;(1;8) ) =
1 0:05 = 0:95: C’est donc la quantile d’ordre 0.95. D’après la table de la loi de Fisher, on obtien
F0:05;(1;8) = 5:318:
On a F > F0:05;(1;8) ; alors on rejette H0 et donc le modèle est globalement signi…catif à 5%.

X Prévision dans le modèle de régression simple


Lorsque les coe¢ cients du modèle ont été estimés, il est possible de calculer une prévision à un
horizon h.
Soit le modèle estimé sur la période t = 1; :::; n :

yt = ^ + ^ xt + et
si la valeur de la variable explicative xt est connue en n + 1; c’est à dire xn+1 est disponible, la
prévision est donnée par :

y^n+1 = ^ + ^ xn+1
Cette prévision est-elle sans biais ?
L’erreur de prévision est égale à

en+1 = yn+1 y^n+1


= ( + xn+1 + "n+1 ) ^ + ^ xn+1

= ( ^) + ^ xn+1 + "n+1

En prenant l’espérance mathématique de l’erreur de prévision, on obtient

E (en+1 ) = E ( ^) + E ^ xn+1 + E ("n+1 ) = 0

car ^ et ^ sont deux estimateurs sans biais de et respectivement, et E("n+1 ) = 0 (en se


référant aux hypothèses sur les erreurs).
Une démonstration analogue permet d’obtenir E(en+h ) = 0 8h 1.
Dans la pratique, la valeur de la prévision n’est utile que si nous savons quel degré de con…ance
nous pouvons lui accorder. Nous allons donc calculer la variance de l’erreur de prévision qui nous
permettra de déterminer un intervalle de con…ance de la prévision. La variance de l’erreur de prévision
est donnée par :

h i
V (en+1 ) = V ( ^) + ^ xn+1 + "n+1

= V (^ ) + V ^ xn+1 + 2Cov ^ ; ^ xn+1 + V ("n+1 ) (4)

= V (^ ) + x2n+1 V ^ + 2xn+1 Cov ^ ; ^ + V ("n+1 ) (5)

29
Cours Econométriee 3 Fin 2020/2021

or
2
V ^ = P
(xt x)2
P 2 P
2 xt 2( (xt x)2 + nx2 )
V (^ ) = P = P
n (xt x)2 n (xt x)2
2 1 x2
= +P
n (xt x)2
2
= + x2 V ( ^ )
n
x
Cov ^ ; ^ = 2
P = xV ( ^ )
(xt x)2

d’où

2
V (en+1 ) = + x2 V ( ^ ) + x2n+1 V ^ 2xn+1 xV ( ^ ) + 2
n
1
= + 1 2 + (xn+1 x)2 V ( ^ )
n
!
1 (xn+1 x)2 2
= +1+ P 2
n (xt x)

L’hypothèse de normalité de "t permet alors de déterminer la distribution de l’erreur de prévision


! !
2
1 (xn+1 x) 2
en+1 = yn+1 y^n+1 ! N 0; +1+ P 2
n (xt x)

soit
y^n+1 yn+1
r ! Tn 2 (Student à n 2 d:d:l:)
2
1 Pn+1 x)2
(x
^ n
+1+ (xt x)

On obtient alors l’intervalle de con…ance à (1 a)% pour la prévision :


v !
u
u 1 (x x) 2
IC1 a (yn+1 ) = y^n+1 t a2 ;n 2^
t +1+ P
n+1
n (xt x)2

Exemple : En reprenant l’exemple précédent, on suppose que les valeurs de X11 et X12 sont
respectivement 9 et 13: Déterminer la prévision de Y pour ces deux dates ainsi que l’intervalle de
prédiction au seuil de 95 %.

Solution :
Les prévisions sont calculées par l’utilisation du modèle estimé.

30
Cours Econométriee 3 Fin 2020/2021

Y^11 = 7:5717 + 0:4451X11 = 7:5717 + 0:4451 9


= 11:578

L’intervalle de prévision peut alors être calculé :


v !
u
u 1 (x x)2
IC1 a (y11 ) = y^11 t a2 ;n 2 ^ t
11
+1+ P
n (xt x)2
avec

n = 10
t a2 ;n 2 = t0:025;8 = 2:306
p
^ = 4:7555 = 2: 180 7
x = 8:6
X X
(xt x)2 = x2t nx2 = 1024 10 (8:6)2 = 284:4

d’où
v !
u
u 1 (9 8:6)2
IC95% (y11 ) = 11:578 2:306 2: 180 7t +1+
10 284:4
= 11:578 2:306 2:2877
= [6:3025; 16: 8536]

La réalisation y11 a 95 % de chance de se trouver à l’intérieur de cet intervalle1.


De même, pour y12 , nous obtenons :

y^12 = 7:5717 + 0:4451x12 = 7:5717 + 0:4451 13


= 13:358

et
v !
u
u 1 (13 8:6)2
IC95% (y12 ) = 13:358 2:306 2: 180 7t +1+
10 284:4
= 13:358 2:306 2:3568
= [7:9231; 18:793]

31

Vous aimerez peut-être aussi