Vous êtes sur la page 1sur 124

Plan du cours

Introduction

fondamentaux

économétrique

générale

sur

la

:

rappels

démarché

Chapitre 1 : Le modèle linéaire à deux variables et à plusieurs variables

Chapitre 2 : L’Analyse Factorielle des correspondances A.F.C

Chapitre

Composantes Principales A.C.P

3

L’Analyse

:

1

en

BIBLIOGRAPHIE

JOHSSTON (J.), méthodes économétriques, tome 1 et tome 2, Paris, 1985.

PAULRE (B.), la causalité en économie, collection des sciences des systèmes, Lyon,

1985.

et

statistiques appliquées, New York, groupe Mc Graw-Hill, 1985.

ARTUS (P.), modélisation macro- économique, Economica, Paris, 1986.

BENZECRI (J.-P.), pratique de l'analyse des données, Dunod, Paris, 1986.

GAGOU (A.), modélisation par la méthode de Box et Jenkins, thèse de doctorat, université d'Aix-Marseille, 1986.

à

DORMONT (B.), introduction

SALVATORE

(D.),

économétrie

l'économétrie des données de panels, Edition CNRS, Paris, 1989.

CIRAUD (R.) et CHAIX (N.), économétrie, Economica, Paris, 1989.

MOUCHOT (C.), statistique et économétrie, Economica, Paris, 1991.

BATOLA (L.), statitiques et économétrie, Masson, Paris, 1990.

2

INTRODUCTION Rappels sur la démarché économétrique

- Les systèmes économiques sont souvent difficiles à comprendre car ils font appel à la science sociale.

- Pour cerner cette réalité, les théoriciens ont tenté de déterminer les lois qui les régissent : construction et estimation d'un ensemble de modèles qui peuvent appréhender et formaliser les liaisons, les interactions et les relations entre plusieurs variables. Exemple : formuler des équations entre des grandeurs économiques.

- Le rôle des mathématiques et des statistiques est donc primordial.

- Exemple de grandeurs économiques pour lesquelles on cherche à comprendre le comportement et le fonctionnement : les agrégats macro-économiques globaux (masse monétaire, inflation, emploi, PNB, etc.), les secteurs d'une économie donnée (production automobile, aéronautique, situation de la récolté céréalière, etc.).

- Autres types de grandeurs : phénomènes sociaux, politiques (sondage d'opinion et campagne électorale), personnels, etc.

- Les théoriciens font ce genre de recherches dans un double objectif :

3

*

prévoir

la

réalité

économique

et

*

sociale; tester la portée

et

la validité des

théories économiques.

1- définition de l'économétrie

Branche qui traite des modèles aléatoires et de la décision.

Elle se base sur l'observation et la vérification chiffrée (variable quantitative ou qualitative) pour expliquer la relation entre les grandeurs économiques : vérifier l'existence de liaisons entre les agrégats, mais aussi et surtout, détecter et préciser la forme correcte de ces liaisons.

L'économétrie est aussi la validation empirique des données théoriques.

Etapes de la démarche économétrique :

* proposer un certain nombre de modèles rapprochés de la réalité par des théoriciens; * les soumettre à des économètres pour les mathématiser;

* le rejet ou le maintien des dits modèles (pour des fins de prévisions) dépend d'une panoplie de tests statistiques et économétriques.

4

La démarche économétrique peut se schématiser ainsi

Hypothèses sur les variables

Modèle

théorique

proposé

sur les variables Modèle théorique proposé Traitement économétrique Observations chiffrées

Traitement

économétrique

Modèle théorique proposé Traitement économétrique Observations chiffrées Acceptation ou rejet du modèle

Observations

chiffrées

Acceptation ou rejet du modèle

2- Concepts et terminologie

- Econométrie : expliquer des phénomènes économiques par plusieurs autres variables.

- Selon la théorie économique, la relation

existant entre plusieurs variables est de la

forme : Y t = f(x t , z t ,…

R, Ex, L, etc.).

),

exemple : I = f(E,

* Avec, I : le niveau de l'investissement;

* E : l'épargne;

* R : le revenu;

5

* Ex : l'exportation;

* L : la législation en vigueur.

- Nécessité d'intervenir le facteur temps :

modèles dynamiques. Exemple, pour les variables C et R, on peut dire que la C t = f(R t ), surtout à court terme.

- Ce type de formulation, Y t = f(X t ) n'explique pas réellement la nature de la relation entre les deux variables X et Y. Donc : faire intervenir d'autres types de variables à côté de X t .

- La relation entre les phénomènes à expliquer et explicatifs est dans la quasi- totalité des cas de type linéaire : y t = a + bx t ou du type exponentielle multiplicatrice, qui peut devenir linéaire en utilisant le logarithme :

Si y t = x a t * z b t , alors log y t = c + a log x t + b log z t .

- La relation entre les variables à expliquer et explicatives n'est pas stricte, mais plutôt stochastique (aléatoire).

- Un terme résiduel sera toujours prévu pour faire face aux variables non déclarées. Donc:

y t = f(x 1t , x 2t , x 3t , x 4t ,.…x nt + t ) y t = a 1 x 1t + a 2 x 2t + a 3 x 3t + a 4 x 4t +……+a n x nt + t

6

Terminologie

Variable y

Variable x

- variable

- variable explicative

expliquée

- variable exogène

- variable

- variable prédéterminée

endogène

- variable indépendante

- variable

déterminée

- variable

dépendante

 

a

2

t

- pondérations

Période

- terme

- coefficients de régression

d'observation

résiduel

fixe

- résidu

 

- bruit

- perturbations

 

REMARQUES :

Ces

modèles linéaires qui cherchent à

appréhender les relations entre variables sont dits des modèles de régression. - régression simple : si l'on cherche à expliquer une seule variable. Exemple : C t = a + bR t + t ; - régression multiple si plusieurs variables interviennent en même temps pour

7

expliquer un phénomène. Exemple : E t = a + bE t + cPE t + dPP t + eSG t + t .E : environnement international; .PE : politique économique; .PP : pouvoir publics; .SGE : situation géographique.

Le terme (erreur) intervient pour résumer l'impact de toutes les autres variables qui sont omises. Celui-ci dépend de :

.l'erreur d'observation sur les variables X et Y; .la période d'observation. puisque l'objectif de toute étude économétrique est d'élaborer des modèles efficients servant de prévision fiables, on peut aussi travailler sur des variables retardées

(y t-1 , t-1 , x 1t-1 ).

8

CHAPITRE I : LE MODELE LINEAIRE A DEUX ET A PLUSIEURS VARIABLES

I – Concepts de base du modèle linéaire général - La représentation graphique de la distribution des ouvriers, par exemple selon l'age et le salaire met en relief l'existence d'une liaison statistique entre ces variables. Pour préciser la forme de cette liaison, on trace et on détermine la courbe de régression. Mais pour mesurer son intensité, il faut calculer le rapport de corrélation (matrice de corrélation). A/ Ecriture du modèle

économétrique linéaire

- Considérons (n+1) variables dans le temps, l'une notée y et les autres x i =

peuvent être des évènements, des

Ces grandeurs

(i

1,

2,…

,n).

9

indicateurs économiques, sociaux, etc. - Ces (n+1) variables sont généralement mesurées pendant t périodes (souvent l'année) et on dispose, de ce fait de t observations de ces valeurs. - Supposons qu'à travers l'histoire, une analyse théorique passée a fait établir une relation causale et linéaire entre les valeurs des x i et celles de y pour chaque période :

y t = a 1 x 1t + a 2 x 2t + a 3 x 3t + a 4 x 4t +……+a n x nt +

(régression simple ou

b+t multiple)

= a i x it + b+t

-

Ce

modèle

à

une

seule

équation

et

à

plusieurs

variables

comporte

nécessairement

un

régressant

(y)

et

n

régresseurs.

 

-

Ce

modèle

s'appelle

aussi

régression

linéaire de y en x 1, x 2, x n, les paramètres

sont

nommées coefficients de régression de y en

x i .

(coefficients)

(i

1,

2,…

,n)

a i

=

10

- Le terme résiduel t (choisi d'une manière aléatoire) peut être interprété de la façon suivante :

*à l'échelle de l'interprétation économique, t va nous représenter l'ensemble des raisons pour lesquelles la formule y t = a i x it + b+n'est pas assurée de façon stricte et sérieuse. Ces motifs peuvent être par exemple:

la non linéarité stricte de la relation;

l'influence de l'impact sur y des variables autres que x i ;

les erreurs commises lors de la mesure des grandeurs y t et x it .

- La prise en compte de tous ces facteurs nous permet de dire que ces modèles économétriques se basent beaucoup plus sur l'approche de l'approximation. Mais, la relation linéaire ne pourra être acceptée que si les termes résiduels t sont suffisamment petits.

- Les coefficients a i et b sont dits les vraies valeurs des paramètres du modèle.

- Ces véritables valeurs seront toujours (comme les résidus) inconnues : il s'agit pour la démarche économétrique de fournir des estimations rigoureuses pour ces coefficients.

11

-

La

variable

expliquée

et

les

variables

explicatives

sont

observées

t

fois. La

meilleure façon qui permet de visualiser

toutes ces observations est l'écriture matricielle :

y

1

 

X

11 …….x n1

 

a

1

 

e

1

.

 

.

.

.

.

.

.

.

.

.

.

.

y

i

=

x

1i …….x ni

*

a

j

+

e

i

.

.

.

.

.

.

.

.

.

.

.

.

y

t

x

1t ……x nt

a

n

e

n

Cela pourra s'écrire encore:

Y = X * A+ e

REMARQUES

1- La relation entre les variables du modèle économétrique est dénommée corrélation; celle-ci peut, parfois, entraîner un effet de causalité : en effet, à partir du moment où l'on suppose que la connaissance des variables x i génère celle de y, on peut

12

construire un modèle causal : {x i } y; le modèle fourni détermine y;

2- Le terme constant b est, dans la majorité des cas, différent des a i : sa signification économique est faible, mais sa flexibilité (variabilité) est grande;

3- Le modèle supposé doit être formulé à partir d'hypothèses théoriques liant les variables étudiées, et c'est, d'ailleurs, la qualité de l'estimation obtenue qui confirmera ou infirmera ces hypothèses;

4- Le modèle linéaire peut être de deux ou plusieurs variables, d'une ou de plusieurs équations.

II

L'estimation du coefficient de

régression a et b : le principe de l'ajustement linéaire par la méthode des moindres carrés ordinaires

Les paramètres de régression et la constante ne peuvent être qu'estimés pour donner l'image la plus fidèle que possible de la réalité.

13

Supposons qu'une relation entre la consommation (régressant) et le revenu (régresseur) est de la sorte : y t = β x t + + t . graphiquement, on notera :

Y (c)
Y
(c)

- il faut essayer d'ajuster et de tracer une droite qui soit proche de tous ces points. C'est-à-dire minimiser les écarts entre les points de nuages et la droite tracée. Celle-ci est la droite de régression : il faut déterminer la meilleure.

14

Y - c'est la méthode des moindres carrés ordinaires (MCO) qui nous permet de
Y
-
c'est
la
méthode
des
moindres
carrés
ordinaires
(MCO)
qui
nous permet de

minimiser les carrés des écarts (distance) à la droite d'ajustement ou de régression.

Exposé de la méthode des MCO

y t = βx t + + t y t = βx t + sera alors le modèle estimateur de y t et β seront donc, les estimateurs de et β, il s'agit alors de calculer et β.

- considérons la droite d'équation :

15

y t = βx t + + t . Calculons la valeur des écarts des points observés à la droite, mesurés parallèlement à l'axe des ordonnées :

t = y t - - βx t

La somme de ces écarts est égale à :

S =

t = (y t - - βx t ) 2

Y

∑  t = ∑ (y t -  - β x t ) 2 Y

- La droite des moindres carrés correspond aux valeurs des coefficients et β qui

rendent minimum la quantité (S). Ce minimum est obtenu en égalant à zéro

les dérivées partielles de S par rapport

à et β. Il faut, tout d'abord,

16

rechercher pour un β fixé, la valeur de qui rend S minimale.

Les hypothèses de la méthode des MCO H 1 - Les variables x t sont, à l'inverse

des t non aléatoires; elles sont donc connues; H 2 - E(t ) = 0. Cela veut dire que chaque perturbation a une espérance mathématique nulle. Autrement dit, elle est centrée à l'origine. Si alors les résidus ne sont pas centrés à l'origine, cela pourrait provenir de l'omission d'une ou plusieurs variables explicatives;

H 3 - V(e t )= σ 2 et = constante. Cela veut dire que les écarts (erreurs) y t – y t qui correspond à e t ne doivent pas disparaître dans le temps.

H 4 - La normalité des résidus. Ainsi, la population doit être suffisante pour que les résidus puissent suivre une loi normale de paramètre 0 et σ 2 :

σ 2

les résidus puissent suivre une loi normale de paramètre 0 et σ 2 : σ 2

N(m, σ)

17

les résidus puissent suivre une loi normale de paramètre 0 et σ 2 : σ 2

N(0, σ 2 et ).

H 5 - Les résidus sont non corrélés entre eux. C'est la propriété d'homoscédasticité des perturbations.

Ainsi, E(e 2 t ) = σ 2 et ce t = 1, 2,……n. Les perturbations ont même variance, elles se dispersent toutes de manière égale autour de leur valeur moyenne. Donc, on dit qu'elles sont homoscédastiques. En effet, la condition de non corrélation des résidus est matérialisée par :

Cov (e t , e j ) = 0 et ce i j | i, j = 1,… ,n H 6 - La matrice X est certaine. Cela veut dire que les observations réalisées sur les variables explicatives le sont sans erreur. Cela se justifie surtout pour le modèle linéaire à K variables (régression multiple).

Calcul des estimateurs

- Nous avons y t = β 0 + βx t + t (t = 1,…

- Il s'agit d'estimer β 0 et β.

- En général, on ne peut pas trouver exactement les valeurs des paramètres β 0 et β qui restent toujours des inconnus.

- On peut noter aussi qu'il y a toujours une différence entre β 0 et β et leurs estimateurs β 0 et β. Nous avons alors : y t = β 0 + βx t

18

- Il y a une différence entre y t et y t . différence que l'on appelle résidu, et que l'on peut désigner par e t .

- Nous pouvons, donc, écrire :

y t – y t = e t , ou :

(1)

y t - β 0 - βx t = e t , ou :

y t = β 0 + βx t + e t Il faut remarquer que y t et x t sont ici des valeurs réelles de l'échantillon (mais que l'on cherche à estimer). Pour n périodes, la relation (1) sera :

(y 1 - β 0 βx 1 ) = e 1 (y 2 - β 0 βx 2 )= e 2

.

.

.

.

.

.

.

.

(y n - β 0 βx n ) = e n

La méthode des moindres carrés ordinaires consiste à trouver les valeurs de β 0 et β telles que la somme des valeurs absolues des résidus soit minimale. Un résidu égal à + 2 est traité sur le même pied d'égalité qu'in résidu égal à –2.

Si on appelle π cette somme des résidus, on aura les détails suivants :

19

π = e 2 1 + e 2 2 + e 2 3 +……… + e 2 n

cela sera égal aussi à :

(y

1 - β 0

βx 1 ) 2

+

(y

2 - β 0

βx 2 ) 2

+

……

……

……

+

(y n - β 0 βx n ) 2

Dans ce cas, y t et x t sont des valeurs de l'échantillon et sont connues. β 0 et β sont des inconnus qu'il faut calculer.

Nous savons que la valeur π devient minimale si l'on peut réaliser deux principales conditions :

- dérivées premières de π par rapport à β 0 et β sont toutes deux nulles (condition du premier ordre);

- dérivée seconde par rapport à β est positive (condition du second ordre).

Après démonstration et calculs, on aura :

20

β

0

= y β x

Et :

Donc :

 

β

=

Et :

( y − y )( x − x ) ∑ t t ( x −
(
y
y )( x
− x
)
t
t
(
x
− x
)
2
t

β

0

( y − y )( x − x ) ∑ = − y x t
(
y
y )( x
− x
)
= −
y x
t
t
(
x
− x
)
2
t

21

Illustration (voir exercice n°7 de la série d'exercices n°1) - Premier cas : régresser y par rapport à x 1 .

- Premier cas : régresser y par rapport à x 1 . Y t = a

Y t = a 0 + a 1 x 1 + t

Coefficient simple :

de

corrélation

linéaire

cov( x , y ) r = 1 x y 1 σ σ * y
cov( x
,
y
)
r
=
1
x y
1
σ σ
*
y
x 1
cov( x
,
y ) =
1
(
x
n
1
i

x )( y

i y

)

σ x 1

=

2 1 ( x − x ) n ∑ i
2
1
(
x − x
)
n
i

σ y

=

2 1 ( y − y ) n ∑ i
2
1
(
y − y
)
n
i

22

Tableau des calculs

x
x

y

= 6.07

= 17.71

Observations

y

t

x

t

(x

t -x) 2

(y

t -y) 2

(x t -x)( y t -y)

1

12

2

1

6.56

3

2.60

23.24

2

14

1

25.70

13.76

18.81

3

10

3

9.42

59.44

23.67

4

16

6

0

2.92

0

5

14

7

0.86

13.76

-3 .45

6

19

8

3.72

1.66

2.49

7

21

8

3.72

10.82

6.35

8

19

5

1.14

1.66

-1.38

9

21

5

1.14

10.82

-3.52

10

16

8

3.72

2.92

-3.30

11

19

4

4.28

1.66

-2.67

12

21

9

8.58

10.82

9.64

13

25

12

35.16

53.14

43.23

14

21

7

0.86

10.82

3.06

Total

248

85

113.7

2

226.8

116.1

7

Estimer les paramètres a 0 et a 1 :

y − y x )( − x ) ∑ ( a = t t 1
y
y x
)(
x
)
∑ (
a =
t
t
1
(
x
− x
)
2
t

23

116.17

=

113.72

= 1.02

a

= −

y a x

1

0

a =

17.71 (1.02*6.07)

0

= 11.52

D onc : Y

t

= 11.52 + 1.02x

ou :

Y t = 1 1.52 + 1.02x

1

1

+ t

Calculer le coefficient de corrélation linéaire simple :

cov( x y ) r = 1 , σ σ x y 1 x y
cov( x
y
)
r
=
1 ,
σ σ
x y
1
x y
1
1
14(116.17)
=
* 1
1
1
14(113.72)
14(226.8)

= 0.72 = 72% c oefficient de détermination; r 2 = (0.72) 2 = 0 .52 = 52%

24

Autre manière pour calculer r 2 (R 2 )

( y − y ) ˆ ∑ R 2 = r 2 = t (
( y − y )
ˆ
R 2
= r 2 =
t
(
y
− y
)
2
t
ε 2
t
=− 1
2
y
)
∑ (
t − y

On a :

y

t =11,52+1,02

x

1

t

25

t

y

t

y ˆ

t

2

ε =

t

e

t

2

 

e

t

1

12

13.56

2.43

 

1.56

2

14

12.54

2.13

   

1.46

3

10

14.58

20.98

 

4.58

4

16

17.64

2.69

 

1.64

5

14

18.66

21.72

 

4.66

6

19

19.68

0.46

 

0.68

7

21

19.68

1.74

   

1.32

8

19

16.62

5.66

   

2.38

9

21

16.62

19.18

   

4.38

10

16

19.68

13.54

 

3.68

11

19

15.60

11.56

   

3.40

12

21

20.7

0.09

 

0.30

13

25

23.76

1.54

   

1.24

14

21

18.66

5.48

   

2.34

total

   

111.20

 

00.00

2

111,21

226,8

R =−

=

1

0.52 = 52%

Effectuer le test de Student permettant de se prononcer sur la participation de x1 à l'explication du modèle :

Soit H o =a 1 =0 Le seuil de signification le plus utilisé est α=0,05, soit un risque de rejet à tort de H 0 de

5%.

a ˆ

a

1

X m

1

ˆ

=

a ˆ

σ

1

a

1

σ a ˆ1

suit une loi de Student à n

ˆ

σ

a ˆ 1

2

DL

Sous l'hypothèse H0, cette relation devient :

27

ˆ

a

0

a ˆ

1

1

=

ˆ

ˆ

σ

a ˆ1

σ

a ˆ1

a ˆ1

t

⎯⎯→

loi de Student à n

t ° ˆ1 est appelé ratio de Student

a

2

DL

.

Nous avons déjà calculé a 1 , il convient, à présent, de calculer σ a1 . Or, nous avons déjà souligné que :

ˆ 2 ou v a ) =

σ

a ˆ1

1

Nous avons :

ˆ

σ

ε

2

(

x

t

)

x

2

t

(

x

t

)

x

2

=

113,72

Nous savons aussi que l'estimation de la variance de l'erreur (σ ε 2 ), notée σ ε 2 est égale à :

ˆ

σ

ε

2

=

1

n 2

ˆ

σ ε

2

=

e t

2

n 2

e

t

2

où e est le résidu de l ' estimation ( e =

t

t

28

y

t

y

t

)

A/ Calcul de y t et de e t (voir tableau de la question précédente)

y ˆ

t

=

a ˆ

0

+ a ˆ x

1

t

soit e =

e

e

etc

= y

y

1

t y ˆ

2

t

y ˆ

y ˆ

=

y

1

2

1

2

t

D'après le tableau 2

précédente, on obtiendra e t =0 e t 2 = 111,20 et e t 2 /14, c'est à dire la somme moyenne ou encore e t 2 = 7,94

question

de

la

B/ Calcul de l'estimation de la variance de l'erreur et de l'écart-type du coefficient de régression

L'estimation de la variance de l'erreur est donc égale à :

ˆ

σ ε

2

2

e

t

111.2

= n 2

=

14

2

= 9.27

Ce qui nous permet de calculer la variance estimée de a 1 :

29

ˆ

σ

ˆ

a 1

2

=

ˆ 2

σ

9.27 = 0.08

ε

=

(

x

t

)

x

2 113.72

soit σ ˆ a 1

ˆ

= 0.28551

C/ Calcul du ratio de Student et règle de décision Nous savons que

a ˆ

t

ˆ

σ

ˆ

a t

t

a ˆ t

est distribuée selon une loi de Student à n-2

DL.

La règle de décision pour un seuil α = 0,05 est la suivant :

si t °

a ˆ t

=

a ˆ

1

ˆ

σ

ˆ

a t

> t

c

n 2

0.025

On rejette l'hypothèse H 0 ; le coefficient α est alors significativement différent de 0 (on accepte a 1 0); la variable explicative x 1 est

donc contributive à l'explication de la variable

y.

30

si par contre t °

:

a ˆ t

=

a ˆ

1

ˆ

σ

ˆ

a t

< t

c

n 2

0.025

on accepte l ' hypothèse H

0

.

donc, pas

significativement différent de 0 (on accepte

a 1 = 0), la variable explicative x 1, n'est donc

n'est donc

Le

coefficient

a 1

n'est,

pas contributive à l'explication de y.

pas contributive à l'explication de y.

DansDans notrenotre exercice,exercice, onon aa ::

et

= t

t °

a ˆ 1.02 = 1 = = 3.57 a 1 ˆ σ ˆ 1.28551 a
a ˆ
1.02
=
1 =
= 3.57
a 1
ˆ
σ
ˆ
1.28551
a 1
ˆ
0.025
t
α = t
2
14
− 2
n − 2
c
c
0.025
=
2.179

c 12

On voit très bien que t°>au t c , donc on rejette

On voit très bien que t°>au t , donc on rejette

c

H

. Donc

H 0 . Donc

0

a1

a1

est

est

bien

bien

0.

0.

X X 1

1

contribue à

contribue à

l'explication de y.

l'explication de y.

Effectuer le test de Fisher permettant de

Effectuer le test de Fisher permettant de

déterminer si la régression est globalement

déterminer si la régression est globalement

significative

significative

31

Nous savons que :

F° c = R 2 /n-1 2 R k − 1 F °= c 2
F° c = R 2 /n-1
2
R
k − 1
F
°=
c
2
(1 − R
)
(
t − k
)

k= nombre de régresseurs t= nombre d'observations dans notre exercice :

F

°=

c

2 R k − 1 2 (1 − R ) ( t − 2)
2
R
k − 1
2
(1 − R
)
(
t −
2)

si c >F 0.05 t k-t, t-k (DL) , nous rejetons l'hypothèse H 0 qui signifie que a 1 = a 2 = a 3 =……….= a k = 0 si, par contre, c <F 0.05 t k-t, t-k (DL) , on accepte l'hypothèse H 0 , c'est-à-dire le modèle n'a pas de signification dans son ensemble. Dans notre exercice :

F

°=

c

2 R k − 1 2 (1 − R ) ( t − 2)
2
R
k − 1
2
(1 − R
)
(
t −
2)

=

0.52

(1 0.52) − (14 − 2)
(1 0.52)
(14
− 2)

=

13

Remarque On peut aussi remarquer que pour le modèle de régression simple, nous avons égalité entre

32

le coefficient de détermination et le carré du coefficient de corrélation linéaire simple.

R 2 F °= = c 2 (1 − R ) ( t k −
R 2
F
°=
=
c
2
(1 −
R
)
(
t k
)
2 r = ( ° t ) 2 (1 − r ) ( t k
2
r
= ( °
t
)
2
(1 −
r
)
(
t k
)

2

dans notre exercice, nous avions :

c =3.57, donc (c ) 2 = 13 Règle de décision :

On a c =13 et F 0.05 t 1 et 12 DL = 4.75 Donc, c > F t . cela veut dire qu'il faut rejeter l'hypothèse H 0 , a 1 = a 2 = a 3 =……….= a k sont bien différent de 0, donc la variable explicative x 1 est significative.

Construire le tableau d'analyse de la variance pour vérifier les résultats obtenus

Il faut, donc, connaître que :

2

SCE

SCR =

e

=

( y ˆ

t

2

t

(

y )

: 2 SCE SCR = ∑ ∑ e = ( y ˆ t 2 t ∑

t y

)

=

et SCT

y

2

Nous savons que :

R

2

=− 1

e

t

2

SCR

2 SCT

=−

1

( y y )

t

33

R2 = r2 =0.52, la connaissance de SCR = =111.20 permet de déterminer SCT = 231.67 car 1-(111.20/SCT) = 0.52.

Tableau d'analyse de la variance

Source de var iation

Sommes des carrés

Dl

 

Carrés moyens

X

SCE = 120.47

 

1

120.47

Résidu

SCR = 111.20

14

2

9.26

Total

SCT = 231.67

14

1

 

F ° calculé

=

SCE S CE 1 1 SCR SCR ( t − k ) 12
SCE
S CE
1
1
SCR
SCR
(
t − k
)
12

34

=

120.47

9. 26

=

13

I- LE COEFFICIENT DE DETERMINATION ET LE COEFFICIENT DE CORRELATION

Nous savons très bien que la variation de Y a utour de la moyenne est subdivisée en deux partie : une partie expliquée par la régression et une partie résiduelle non expliquée.

Donc y =

:

t

ˆ

y +

t

ε

t

⎯⎯→

y

y

t

2

2

=

ˆ

y

t

y ˆ

2

t

=

t

2

+

ε

t

+

ε

t

2

2

+

2

y ˆ

t

×

ε

t

⎯⎯→

tend vers zéro

Le coef ficient de détermination :

35

Aussi R

2

R =

2

y ˆ t

2

y t

2

=

2 ∑ (ˆ y − y ) t 2 ∑ ( y − y )
2
(ˆ y − y )
t
2
( y
− y )
t

cas des

var

iables centrées

est le résultat de la variabilité expliquée sur la variabilité totale de Y.

y 2 t − ε ∑ ∑ ε 2 t donc R = 2 t
y
2 t −
ε
ε 2
t
donc R =
2
t
=− 1
2
2
y t
y t
dans le cas des
var
iables centrées
:
2
2
(
y −
y
)
ε
t
2
ε
t
2
t
R =
=− 1
2
2
(
y
− y
)
(
y
− y
)
t
t

36

Ce quotient nous permet de juger de la qualité de l'ajustement d'un modèle. En effet, plus la variance expliquée est proche de la variance totale de Y, meilleur est l'ajustement du nuage de points par la droite des moindres carrées. R 2 est appelé le coefficient de détermination, et R le coefficient de corrélation multiple. Dans le cas particulier du modèle de régression à une seule variable explicative, il est égal au coefficient de corrélation simple entre X et Y. dans ce cas, il est noté (r).

INTERPRETATION

Le coefficient de détermination indique le pourcentage de variance expliquée par la régre ssion, il mesure la qualité de l'ajustement linéaire. 0<R 2 <1 - Si R 2 = 0, il y a indépendance totale :

aucune liaison entre x et y. Ceci implique que l'équation de régression en présence n'explique en rien et en aucun ca s la variabilité de Y.

- Si R 2 = 1, cela veut dire que tous les points (x, y) appartien nent à la droite de régression, c'est-à-dire le résidu est nul et donc :

37

ε

2

t

2

y t

= 0

Pour le coefficient de corrélat

ion :

R = R 2
R = R
2

-1<R<1

R<0

que X et Y varient dans le sens

inverse;

R>0

sens

R=1 ou R= -1

entre X et Y

R =0

que X et Y varient dans le même

une

corrélation

parfaite

aucune relation entre X et Y X et

Y sont deux variables indépendantes.

La corrélation

:

Le coefficient de corrélation linéaire r mesure exclusivement la caractère plus ou moin s linéaire du nuage de points formés par les variables X et Y.

38

= cov( x , y ) r xy σ σ × x y co v(
= cov( x , y
)
r xy
σ σ
×
x
y
co v(
x , y ) =
1
(
x
n
i
=
1
(
x − x )
2
σ x
n
i

σ y

=

2 1 ( y − y ) n ∑ i
2
1
(
y − y
)
n
i

x )( y

i y

)

r sera toujours compris entre –1 et 1

1r 1

Le Coefficient de détermination

est égal :

r 2 = R 2 . Si r=1 cela serait équivalent à l'existence d'une corrélation exacte entre x et y,

est une

autrement dit : ax i droite.

contre

résume

linéaires entre les P valeurs observées.

par dépen dances

+

by i

+

c

=

0

La

matrice

la

de

corrélation,

des

structure

CAS

DE

LA

REGRESSION

LINEAIRE MULTIPLE

39

- Pour

linéaire général ou la

régression multiple, on note coefficient de d étermination :

le modèle

2

R =−

1

ε 2

t

2

e t

1

=−

y 2 t

y 2 t

Dans le cas des var iables c en t ré e s :

2

R =−

1

2

e t

( y y)

t

2

REMARQUES

1- Le coefficient de détermination multiple varie entre 0% et 100%. Dans ce dernier cas, tous les points appartiennent au plan ou à l'hyperplan de régression. Ce coefficient donne une idée assez correcte de l'efficacité de l'ajustement par la méthode des MCO. Cependant, comme sa valeur a tendance à augmenter avec le nombre de variables explicatives (il est

40

égal à 100% lorsque le nombre de variables explicatives est égal au nombre d'observations ), les économètres ont introduit un coefficient de détermination corrigé ou ajusté: 2 2 .

E n effet, lorsque le degré de liberté est

2 afin de

teni r compte du relativement faible nombre

d'ob servation comparé au nombre de facteurs

2 "corrigé", noté

2 2 .

exp licatifs par le calcul d'un R

faib le, il convient de corriger le R

R

2

=−

1

n 1

(

n k

− −

1)

(1

R

2

)

2- Le coefficient de corrélation multiple (cas de régression linéaire multiple) est égal :

R =

Y X ( X X

)

1

X Y

Y Y

3- Dans le cas d'un modèle où le nombr e d'observation est égal au nombre de variables

41

explicatives (degré de liberté égal à 0), le R 2 est égal à 1, c-à-d: 100%. Cependant, le pouvoir explicatif de ce modèle est nul.

42

TABLEAU D'ANALYSE DE LA VARIANCE

1- Cas simple

d'un

modèle

de

Nous savons que:

y

t

(

y

y ˆ

t

t

= e et que :

t

2

que: y t − ∑ ( y y ˆ t t = e et que :

)

=

( y ˆ y ˆ)

t

y

2

+

régression

e

t

2

CAD: SCT (somme des carrés totale) = SCE(somme des carrés expliquées) + SCR(somme des carrés des résidus). L a variabilité totale (SCT) est égale à la variabilité expliqué e (SCE) + la variabilité des résidus (SCR). D'où le tableau d'analyse de variance suivant :

Source de

var

iation

Sommes des carrés

Dl

 

X

SCE

(

= y

t

y

)

2

1

SCE

1
1

Résidu

 

SCR

= y ˆ

(

t

y

)

2

t k

SCR

(
(

n

2)

T

o ta l

 

SCT

=

e

t

2

t k + 1

 

Carrés moyens

43

F ° calculé =

SCE 1 SCR (t − k )
SCE
1
SCR
(t
k )

Où F° suit la loi de Fischer à 1 et n-2 degré de liberté. Nous pouvons aussi écrire cette formule en fonction du coefficient de détermination :

F ° =

R 2 2 (1 − R ) ( t − k )
R 2
2
(1 − R
)
(
t − k
)

La statistique F° est le rapport de la somme des carrés expliqués par x t sur la s omme des carrés des résidus. Chacune de c es sommes étant divisée par son degré de

liberté respectif. Aussi, si la variance exp liquée est significativement supérieure à la

variance

résiduelle, la variable x t est

considérée comme étant une variable

réellement explicative.

Si F

°>

F

0,05

t

1,

n

2

CAD F =

t

F k

(

1,

t k DL

)

nous rejetons l'hypothèse d'égalité des variances, la variable x t est significative; dans le cas contraire, nous acceptons l'hypothèse

44

d'égalité des variances, la variable x t n'est pas explicative de la variable yt.

2- Cas d'un modèle de régression

multiple (modèle linéaire général) Nous savons que la régression est jugée significative si la variabilité expliquée est significativement différent de 0.

Tableau d'analyse de la variance dans le cas RLM :

Source de var iation Sommes des carrés Dl Carrés moyens 2 x x , ,
Source de
var
iation
Sommes des carrés
Dl
Carrés moyens
2
x x
,
,
x
SCE
=
( y ˆ
− y )
k
SCE
1
2
k
t
k
2
Résidu
SCR
=
e
t − k − 1
SCR
t
(
t − k −
1)
2
Total
SCT