Vous êtes sur la page 1sur 44

ecopro-edu.blogspot.

com

Économétrie
realiser par
ecopro-edu.blogspot.com

Définition

L'économétrie n'est rien d'autre que l'intégration des mathématiques et de la statistique en


vue de fournir des valeurs numériques aux paramètres des relations économiques. Elle est
donc un type spécial de recherche et d'analyse économique dans lequel la théorie
économique est généralement formalisé en terme mathématique et combiné avec une
mesure empirique des phénomènes économiques, raison pour laquelle, on dit que
l'économétrie est l'application des mathématiques et de la statistique en économie
politique. C'est pourquoi pour tout économiste ou gestionnaire, c'est un outil d'analyse qui
lui permet d'infirmer ou de confirmer les théories qu'il construit.

Méthodologie

La méthode économétrique procède donc de la manière suivante :

- on observe un phénomène ou fait,

- on émet une théorie c'est-à-dire une explication du phénomène,

- on sélectionne les données sur lesquelles on doit mener une étude empirique,

- on fait de l'induction statistique en vue de tester les hypothèses,

- puis on compare les résultats à la théorie.


Si la théorie n'est pas contraire aux observations, il n'y a pas de raison de la rejeter, si elle
est contraire à la théorie, on essaie de modifier les hypothèses testables, par exemple en
introduisant les hypothèses ad hoc. Le schéma ci-après illustre la démarche de validation
de la théorie à l'aide de l'économétrie.

La théorie est validée

Théorie

Formulation de la théorie : modélisation

Confrontation du modèle aux données : Estimation économétrique

La théorie n'est pas validée

Nouvelles données testées

1
ecopro-edu.blogspot.com

2
Nouvelle spécification du modèle

Nouvelle spécification du modèle

Figure N°2 : La démarche de validation de la théorie à l'aide de l'économétrie

Etape de l'application de l'économétrie

On peut distinguer trois étapes dans l'application de l'économétrie à savoir :

- la spécification du modèle,

- l'estimation du modèle,

- l'évaluation des résultats de l'estimation.

a. La spécification du modèle

Les variables entrant dans le modèle sont déterminées :

- soit par la théorie économique,

- soit par les études déjà publiées qui peuvent aussi nous donner des variables
additionnelles,

- soit par l'information ad hoc : exemple les conditions particulières d'un pays.

Il faut noter, à ce sujet, que le modèle ne doit pas inclure toutes les variables explicatives
moins importantes, non incluses dans le modèle, est prise en compte dans le modèle par
la variable aléatoire.

b. Estimation des modèles

Cette étape consiste à déterminer les signes et la grandeur des paramètres théoriquement
attendus. L'estimation du modèle est une étape purement technique qui exige de la
connaissance des méthodes économétriques variées.

On distingue 4 étapes importantes dans l'estimation d'un modèle, à savoir :

1. La collecte et l'analyse des données sur les variables du modèle

2. L'examen des problèmes d'agrégation compris dans les variables de la fonction,

3. L'examen du degré de corrélation entre variables,

3
4. Le choix de la meilleure technique d'estimation.

c. Evaluation des résultats

Elle permet de décider si les valeurs estimées des paramètres sont économiquement
pertinentes et statistiquement valide.

Régression linéaire simple :

Introduction
Les données observées nous ont permis de détecter une dépendance linéaire
très forte entre le budget publicitaire et les ventes enregistrées au cours de la
première année : plus les dépenses en publicité sont élevées, plus les ventes
auront aussi tendance à être élevées (r = 0,9641).

diagramme de dispersion ou nuage de points


(scatter-plot)

160
Ventes la 1ère année (millions$)

140

120

100

80

60

40

20

0
0 0,5 1 1,5 2 2,5 3
Dépenses en publicité (millions$)

Les dirigeants de la compagnie pourraient utiliser l’information fournie par les


données observées pour « prédire » les ventes de leur produit dans une nouvelle
région, en fonction du budget publicitaire prévu. Ils devront donc modéliser la
relation observée entre les deux variables sous forme de fonction.

ecopro-edu.blogspot.com
4
Lorsqu’une tendance linéaire existe entre deux variables, on peut modéliser la
relation à l’aide de l’équation de la droite qui s’ajuste le mieux au diagramme de
dispersion des observations.

Droite des moindres carrés :


Soit (x1, y1), (x2, y2), …., (xn, yn) une série de n couples d’observations des
variables X et Y.
La droite des « moindres carrés » correspond à la droite qui s’ajuste le mieux au
nuage de points. La pente (b1) et l’ordonnée à l’origine (b0) sont tels qu’ils
minimisent globalement les distances verticales entre les points observés et la
droite.

Équation de la droite des moindres carrés : ˆy = b0 + b1x


Considérons l’observation (xi, yi) :
yi = valeur observée de la variable Y correspondant à X=xi
ˆyi = valeur de Y sur la droite des moindres carrés correspondant à X=xi
= b0 + b1xi
ei = résidu associé à l’observation (xi, yi)
= distance verticale entre l’observation et la droite
= yi − ŷ i

ecopro-edu.blogspot.com

5
La quantité  ei 2 = ( yi − ˆyi )2 = ( yi − ( b0 + b1xi ))2 correspond à la mesure
globale des distances verticales entre les observations (xi , yi) et la droite.

Parmi toutes les droites qu’on peut ajuster à un ensemble d’observations (xi , yi),
la droite des « moindres carrés » est celle qui minimise ei 2 .

Pour obtenir l’équation de la droite des moindres carrés qui correspond à un


ensemble d’observations (xi , yi), il faut déterminer les valeurs b0 et b1 qui
minimisent la fonction  ei 2 = ( yi − ˆyi )2 = ( yi − ( b0 + b1xi ))2 (il s’agit d’un
problème d’optimisation d’une fonction à deux variables : b0 et b1)

Exemple 1: À l’aide du solveur Excel, déterminer l’équation de la droite


des moindres carrés qui s’ajuste à la série d’observations de l’exemple 1 du
chapitre 7, avec Y = ventes et X = dépenses publicitaires (voir feuille 1 du fichier
« Ex_chap8.xls »).

Réponse : ˆy = 13,8238 + 48,5871x


ecopro-
edu.blogspot.co
m

6
Droite des moindres carrés :
Soit (x1, y1), (x2, y2), …., (xn, yn) une série de n couples d’observations. La pente
(b1) et l’ordonnée à l’origine (b0) de la droite des moindres carrés ˆy= b0 + b1x
qui s’ajuste à la série d’observations, sont données par :

b1 =
( yi − y )( xi − x ) et b0 = y − b1x
( x i− x )2
où x =
 xi = moyenne des x et y=
 yi = moyenne des y
i i
n n

Le modèle de régression linéaire simple :


Soit Y= Variable « expliquée » (ou dépendante)
(variable dont on veut expliquer ou prédire la valeur)

x= Variable « explicative »
(les valeurs de cette variable sont connues ou fixées à l’avance et
ne sont donc pas considérées comme aléatoires)

LE MODÈLE THÉORIQUE: Y = 0 + 1x + 


où  0 + 1x = composante linéaire du modèle
0 = ordonnée à l’origine du modèle théorique
1 = pente du modèle théorique
0 et 1 sont des paramètres (valeurs inconnues).

 = erreur ou fluctuation aléatoire


(tient compte de tous les autres facteurs qui peuvent
influencer Y)
C’est une variable aléatoire distribuée selon une loi Normale
de moyenne  = 0 et d’écart type  constant.
Notez que si E(  ) = 0  pour chaque x fixé, E(Y|x) =  +  x
0 1

La relation linéaire exacte n’est pas entre X et Y mais plutôt entre X et


l’espérance « conditionnelle » de Y.

ecopro-edu.blogspot.com

7
Pour n couples (x1 , Y1), (x2 , Y2), …,(xn , Yn), le modèle s’écrit :

Modèle de régression linéaire simple théorique :

Yi = 0 + 1xi + i i = 1, 2, …, n
avec les 4 conditions suivantes :
1. les i de moyenne 0 (linéarité du modèle)

2. l’écart type des i est  constant (homoscédasticité)

3. les i sont de loi Normale.

4. les i sont indépendantes.

Notons qu’il y a trois paramètres inconnus dans le modèle : 0, 1 et . On


devra les estimer à l’aide des données d’un échantillon.

Estimation ponctuelle des paramètres 0 et 1 :


Soit (x1, y1), (x2, y2), …., (xn, yn) n couples d’observations provenant d’un
échantillon. L’ordonnée à l’origine et la pente de la droite des moindres carrés,
qui s’ajuste aux observations, fournissent des estimations ponctuelles de ces
deux paramètres :
Estimation ponctuelle de  : b1=
( yi − y )( xi − x )
( xi − x )2
1

8
Estimation ponctuelle de 0 : b0 = y − b1 x

Estimation ponctuelle de l’écart type des erreurs :

ˆ
La quantité ̂(e) =
 ei2 , où ei = yi − yi , s’appelle l’écart type résiduel. Elle
n−2
fournit une estimation ponctuelle de l’écart type des erreurs théoriques .

ecopro-edu.blogspot.com

9
Estimation de la droite de régression théorique E(Y|x)=  0 + 1x :

L’équation de la droite des moindres carrés, aussi appelée droite de régression


expérimentale, fournit une estimation de la droite de régression théorique.

ŷ = b 0 + b1x
Utilité de la droite de régression expérimentale:

1. Estimation de la moyenne conditionnelle de Y pour une valeur de x


fixée.
2. Prévision de la valeur de Y pour une nouvelle observation de x. La
marge d’erreur associée à la prévision sera nécessairement plus
grande que celle de l’estimation de la moyenne.

Il sera toujours possible d’ajuster une droite à un ensemble d’observations,


même lorsque la relation entre les deux variables n’est pas vraiment linéaire.
C’est pourquoi Il est important de valider le modèle postulé avant d’utiliser la
droite de régression expérimentale pour obtenir des estimations ou des
prévisions.

La régression linéaire avec Excel :

Avec Excel, toutes les estimations peuvent être obtenues à l’aide du menu
« Outils > Utilitaire d’analyse > Régression linéaire » :

10
Exemple 2: À l’aide de l’utilitaire d’analyse, obtenir la sortie de régression pour
les données de l’exemple 1 où Y = ventes et X = dépenses publicitaires
a) Donner une estimation de la droite de régression théorique.
b) Interpréter, dans le contexte du problème, les estimations de l’ordonnée à
l’origine et de la pente de la droite de régression.
c) Comparer l’écart-type « s » des ventes observées et l’écart-type résiduel.
Commenter sur la différence entre ces deux valeurs.

Solution :
RAPPORT DÉTAILLÉ
Statistiques de la régression
Coefficient de détermination
multiple 0,964136108
Coefficient de détermination R^2 0,929558435
Coefficient de détermination R^2 0,923688304
Erreur-type 9,106122272
Observations 14

ANALYSE DE VARIANCE
Somme des Moyenne des Valeur critique
Degré de liberté carrés carrés F de F
Régression 1 13130,94245 13130,94245 158,353965 2,8433E-08
Résidus 12 995,057554 82,92146283
Total 13 14126

Limite inf pour Limite sup pour


seuil de seuil de
Coefficients Erreur-type Statistique t Probabilité confiance=95% confiance=95%
Constante 13,82374101 5,579203078 2,477726803 0,029079 1,667701969 25,97978005
PUB 48,5971223 3,861856052 12,5838772 2,843E-08 40,18286093 57,01138367

ANALYSE DES RÉSIDUS


Prévisions
Observation VENTES Résidus
1 101,2985612 2,701438849
2 72,14028777 -4,14028777
3 33,26258993 5,737410072
4 38,12230216 4,877697842
5 135,3165468 -1,316546763
6 135,3165468 -8,316546763
7 86,71942446 0,28057554
8 72,14028777 4,85971223
9 91,57913669 10,42086331
10 62,42086331 2,579136691
11 86,71942446 14,28057554
12 47,84172662 -1,841726619
13 62,42086331 -10,42086331
14 52,70143885 -19,70143885

ecopro-edu.blogspot.com

11
Inférence sur les paramètres du modèle :
(Les 4 conditions du modèle linéaire doivent être respectées.)

Estimation par intervalle de confiance des paramètres 0 et 1 :

Pour 0 : b 0  (t n − 2; / 2 ̂(b 0 ))


Pour 1 : b1  (t n−2; / 2 ̂(b1 ))

Tests d’hypothèses :

12
Exemple 3 : Pour les données de l’exemple 1 où Y = ventes et X = dépenses
publicitaires .

a) Estimer, à l’aide d’intervalles de confiance de niveau 95%, l’ordonnée à


l’origine et la pente de la droite de régression théorique.
b) Avec le test de niveau  = 5%, peut-on conclure que l’ordonnée à l’origine
de la droite de régression théorique est significativement non nulle?
(interpréter)
c) Avec le test de niveau  = 5%, peut-on conclure que la pente de la droite
de régression théorique est significativement positive? (interpréter)

Remarque : Le test qui confronte les hypothèses :


H0 : 1 = 0 vs H1 : 1  0
Permet de déterminer si la contribution de la variable explicative est
significative pour expliquer les variations de Y, par l’entremise d’un
modèle linéaire.
C’est généralement la première étape de la validation du modèle
postulé.

Coefficient de détermination et analyse de la


variance:
Décomposition de la variation totale de Y:

Variation totale de Y = variation expliquée + variation résiduelle


(autour de sa moyenne) par la régression (non expliquée)

( y − y )
i
2
=  ( ŷ i − y )2 +  ( y − ˆy)
i i
2

SCTotale = SCRégression + SCe (résidus)

Coefficient de détermination :

R2 = proportion de la variation totale de Y qui est expliquée par le


modèle de régression.

var iation exp liquée par la régression


= = SCR / SCT
var iation totale

13
Remarques :

• R2 = le carré du coefficient de corrélation r (voir notes chapitre 7)

• Le coefficient de détermination mesure le degré d’ajustement de la droite


aux observations. C’est un indicateur de la « performance » du modèle
comme outil de prévision. C’est généralement la deuxième étape de la
validation du modèle postulé.

• Si on veut comparer différents modèles qui ne possèdent pas le même


nombre de variables explicatives, il vaut mieux utiliser le R2 ajusté (nous
reverrons ce coefficient en régression multiple).

Tableau d’analyse de la variance : Cas général

Source degrés de somme Moyenne F seuil


de la liberté de des carrés expérimental
variation carrés

Régression k SCR SCr / k


(nb de var
*
explicatives) SCr / k 
SCe /(n − k − 1)
Résidus n–k-1 SCe SCe / (n-k-1)

Totale n-1 SCT

Dans l’exemple :

ANALYSE DE VARIANCE
Somme des Moyenne des Valeur critique
Degré de liberté carrés carrés F de F
Régression 1 13130,94245 13130,94245 158,353965 2,8433E-08
Résidus 12 995,057554 82,92146283
Total 13 14126

Le tableau d’analyse de variance fournit les résultats d’un autre test


d’hypothèses qui permet de déterminer si la régression est « globalement »
significative.
Dans le cas d’un modèle de régression linéaire simple, ce test n’est pas vraiment
utile puisqu’il est tout à fait équivalent au test sur le 1 .
Nous reviendrons sur ce deuxième test en régression multiple.

14
Exemple 4 : Pour les données de l’exemple 1 où Y = ventes et X = dépenses
publicitaires, peut-on conclure que la régression est significative? Si oui, évaluer
la performance du modèle

Intervalle de confiance pour estimer la


moyenne conditionnelle et intervalle de prévision:
Tel que mentionné précédemment, la droite de régression expérimentale servira
principalement à :

1. Estimer la moyenne conditionnelle de Y pour une valeur de x fixée.


2. Prévoir la valeur de Y pour une nouvelle observation de x.

Pour le même x fixé, la valeur ŷ(x) = b 0 + b1x fournit à la fois une estimation
ponctuelle de la moyenne conditionnelle de Y et une prévision ponctuelle de la
valeur de Y. Cependant, la marge d’erreur associée à la prévision sera
nécessairement plus grande que la marge d’erreur associée à l’estimation de la
moyenne.

INTERVALLE DE CONFIANCE POUR ESTIMER LA MOYENNE


CONDITIONNELLE E( Y | X = x) :

ˆ  ˆˆ 1 (x − x) 2
y(x) t n − 2; / 2(y(x)) où ̂(ŷ(x)) = ̂(e) +
n (x i − x)2

INTERVALLE DE PRÉVISION POUR UNE VALEUR INDIVIDUELLE DE Y :

ŷ(x)  t n − 2; / 2 ̂ 2 (e) + ̂ 2 (ŷ(x) )

Exemple 5 : Utiliser le modèle de régression linéaire simple élaboré dans


l’exemple 1 pour :
a) Estimer, à l’aide d’un intervalle de confiance de niveau 95%, les ventes
annuelles moyennes enregistrées la première année dans les régions où le
budget consacré à la publicité s’élève à 1 500 000$?
b) Estimer, à l’aide d,un intervalle de même niveau de confiance, les ventes
annuelles moyennes enregistrées la première année dans les régions où le
budget consacré à la publicité s’élève à 4 000 000$? Peut-on se fier à
l’estimation obtenue?
c) La direction compte lancer le produit dans deux nouvelles régions. Dans la
première, on se propose d’investir 750 000$ en publicité. Dans la seconde,

15
2 000 000$. Au niveau 95%, entre quelles valeurs devraient se situer les ventes
enregistrées au cours de la première année dans chacune de ces régions? Peut-
on conclure qu’il y aura une différence significative au niveau des ventes entre
les deux régions?

Solution :
a) Intervalle de confiance pour la moyenne : (81,16 ; 92,28)
b) Intervalle de confiance pour la moyenne : (84,88; 231,54)
c) Intervalles de prévision : (29,22; 71,32) et ( 89,65; 132,38)

Vérification des 4 conditions du modèle de


régression linéaire simple:
La validité des intervalles de confiance et des tests portant sur les paramètres du
modèle, de l’intervalle de confiance pour estimer la moyenne conditionnelle de Y
et de l’intervalle de prévision, repose sur ces 4 conditions :
1. les i de moyenne 0 (linéarité du modèle)

2. l’écart type des i est  constant (homoscédasticité)

3. les i sont de loi Normale.

4. les i sont indépendantes.

Ces conditions portent sur les fluctuations aléatoires i (erreurs théoriques) qui
ne sont pas observables. Il est donc impossible de vérifier si elles sont
parfaitement respectées.
Lorsqu’on dispose de suffisamment d’observations, une analyse graphique des
résidus (erreurs observées pour le modèle estimé) nous permet cependant de
détecter s’il y a un problème majeur avec certaines de ces conditions.
Toutefois, Excel n’étant pas un logiciel spécialisé en statistique, nous disposons
de peu d’outils pour faire une analyse complète.
Graphiques à examiner :

1. Résidus en fonction de la variable explicative


(Dans Excel : « Courbe des résidus »):

Condition 1 (linéarité) : Les points de ce graphique devraient être répartis


aléatoirement autour de la droite « résidu=0 ».

ecopro-edu.blogspot.com

16
Variable X 1 Graphique des résidus

20000

15000

10000

Résidus
5000

0
0 5 10 15 20 25 30
-5000

-10000

-15000
Variable X 1

Les graphiques suivants indiquent un problème majeur avec la condition de


linéarité :
X1 Graphique des résidus

20
X Graphique des résidus
15
6000
10

4000 5
R és id u s

0
2000 0 10 20 30 40 50 60
-5
R é s id u s

0 -10
350 400 450 500 550 600 650 700
-15
-2000
-20

-4000 -25
X1
-6000
X

17
Condition 2 (homoscédasticité) : Le respect de la deuxième condition implique
que la dispersion verticale des points du graphique des résidus en fonction de la
variable explicative X devrait être relativement constante pour toute valeur de X.

Graphique des résidus

200000

150000

100000
Résidus

50000

0
500 1000 1500 2000 2500 3000 3500 4000
-50000

-100000

-150000
X

Les graphiques suivants indiquent un problème majeur avec la condition


d’homoscédasticité :

18
2. Résidus en fonction de l’ordre d’entrée des données (pour données
« chronologiques » seulement)
(Ce graphique n’est pas fournit automatiquement dans Excel mais on peut
facilement le produire à l’aide du graphique « nuage de points » en
prenant le rang de l’observation en abscisse et la valeur du résidu
correspondant en ordonnée)

Condition 4 (indépendance des erreurs) : Si les erreurs sont indépendantes,


on ne devrait pas observer de tendance cyclique au niveau des résidus. En
présence d’observations « chronologiques », c'est-à-dire de mesures
quotidiennes, hebdomadaires, mensuelles, annuelles ou autre, les points du
graphique des résidus en fonction de l’ordre chronologique des données
correspondantes ne devrait pas comporter de tendance.

Résidus en fonction du rang de


l'observation (données chronologiques)

100000
Résidus

-100000

10 20 30 40 50 60 70 80
Numéro de l'observation

Le diagramme suivant indique un problème au niveau de l’indépendance des


erreurs :

19
Contrairement à certains logiciels spécialisés, Excel n’offre pas de graphique
suffisamment précis pour vérifier la normalité des erreurs. Certains tests
d’hypothèses permettent de vérifier si la distribution des résidus s’approche
suffisamment d’une loi Normale mais ces notions dépassent le cadre du cours.
Voici quelques exemples d’outils offerts par d’autres logiciels :

Normal Probability Plot for RESI1

ML Estimates

Mean: -0,0000000
99
StDev: 8,60538
95
90
80
Percent

70
60
50
40
30
20
10
5

-30 -20 -10 0 10 20 30

Data

Descriptive Statistics
Variable: RESI1

Anderson-Darling Normality Test


A-Squared: 0,893
P-Value: 0,021

Mean -0,00000
StDev 8,67341
Variance 75,2280
Skewnes s 0,288592
Kurtos is -7,9E-01
N 64
-17,5 -10,0 -2,5 5,0 12,5
Minim um -18,9311
1s t Quartile -6,6035
Median -1,5240
3rd Quartile 8,1348
95% Confidence Interval for Mu Maximum 16,7798
95% Confidence Interval for Mu
-2,1666 2,1666
-5 -4 -3 -2 -1 0 1 2 3 95% Confidence Interval for Sigma
7,3880 10,5045
95% Confidence Interval for Median
95% Confidence Interval for Median
-5,0750 2,6415

20
LA RÉGRESSION LINÉAIRE MULTIPLE
ecopro-edu.blogspot.com
Introduction
Dans le modèle de régression linéaire simple, l’analyste n’utilise qu’une
seule variable (X) pour expliquer les variations sur la variable dépendante
(Y). En utilisant ainsi un modèle de régression linéaire simple, on peut
avoir omis d’autres variables explicatives pertinentes, soit
intentionnellement pour une simplification de l’analyse, soit que ces
variables n’étaient pas mesurables avec une précision acceptable, soit que
le coût encouru pour l’acquisition de cette information additionnelle était
prohibitif ou encore simplement à cause d’un manque de planification
expérimentale.

Dans le cas de la régression multiple, notre intérêt va consister, entre


autres, à accroître la précision de notre estimation de la valeur moyenne de
Y en introduisant dans notre analyse plusieurs variables explicatives.

La régression multiple est un outil de la statistique qui a pour but d’expliquer la


variabilité existante dans une variable aléatoire (Y) lorsque le comportement de
cette variable est conditionné par les valeurs certaines que peuvent prendre
d’autres variables, contrôlées ou non par l’expérimentateur.

On peut difficilement dénombrer tous les domaines d’application où l’on


peut faire usage de la régression multiple. Des applications très variées
relevant, entre autres, de la technologie, de l’ingénierie, de la finance, de la
gestion, de l’économétrie, du marketing, de la psychologie, de l’éducation
physique, du domaine médical, de la biologie, de l’agriculture..., ont fait le
sujet de nombreuses publications.

Forme générale du modèle de régression linéaire multiple

Y = 0 + 1X1 + 2 X2 +... + p Xp

Note : Le mot multiple est introduit ici à cause de la présence de


plusieurs variables explicatives dans le modèle, contrairement
à une seule variable explicative dans le modèle linéaire simple.
21
ecopro-edu.blogspot.com

Note : Le terme linéaire s’applique, par contre, aux paramètres


0 , 1, 2,...,  p du modèle et non aux variables explicatives.

Notation :

Y= variable dépendante ou expliquée à caractère


aléatoire;

X1, X2,... Xp= variables indépendantes ou explicatives mesurées


sans erreur ou fixées à des niveaux arbitraires (non
aléatoire);

0 , 1,  2,...,  p = sont les paramètres du modèle (nous les estimons à


l’aide d’un échantillon et la méthode d’estimation
sera de nouveau la méthode des moindres carrés);

Sens des paramètres du modèle

0 = représente la moyenne des Yi lorsque la valeur de chaque


variable explicative est égale à 0.

 j , j = 1, 2,..., p = représente le changement subi par E(Yi) correspondant à


un changement unitaire dans la valeur de la j-ième
variable explicative, lorsque les autres variables
explicatives demeurent inchangées.

Estimation du modèle de régression linéaire multiple

Le modèle linéaire empirique a la forme suivante :

Yˆ = b + b X + b X +... +b X
0 1 1 2 2 p p

22
bo, b1 ... bp = les coefficients de régression empiriques (estimations de
0 , 1, 2,...,  p respectivement)

ei = yi − ŷi représente l’erreur empirique pour 1  i  n

Il s’agit maintenant de trouver bo, b1, ... bp de sorte que la somme des
erreurs au carré soit la plus petite possible (minimale).

Calcul des coefficients bo, b1,...,bp

Les estimations des paramètres du plan de régression obtenues par la


méthode des moindres carrés sont obtenues à l’aide du logiciel SPSS (il
existe une méthode de calcul des paramètres à l’aide d’un système
d’équations matricielles mais la connaissance de cette méthode dépasse le
niveau du cours, nous utiliserons donc SPSS).

Exemple :

Suite de l’exemple (Restaurant Cocorico).

Pour pousser plus loin votre analyse, vous examiner aussi le modèle avec
les quatre variables explicatives : Y = 0 + 1X1 + 2 X2 + 3 X3 +  4 X4 +  . À
partir des résultats obtenus à l’aide de SPSS, répondez aux questions
suivantes :

d) Donnez l’équation de l’hyperplan ajusté par la méthode des moindres


carrés.

Solution:
ecopro-edu.blogspot.com

23
Solution :

Statistiques descriptives

Moyenne Ecart-type N
Y = Bénéfices
hebdomadaires moyens 241,4904 75,0698 25
en milliers de $
X1 = Nombre de
véhicules/semaine sur 20,12 5,53 25
la route en millers
X2 = Facilité d'accès au
restaurant (cote a à 100 49,12 24,31 25
mesurant l'accès)
X3 = Revenu annuel des
ménages (en milliers de 24,23484 4,41122 25
$)
X4 = Concurrence oui (1)
,48 ,51 25
ou non (0)

Corrélations

Y X1 X2 X3 X4
Corrélation de Pearson Y 1,000 ,419 ,330 -,050 ,017
X1 ,419 1,000 ,097 ,039 -,139
X2 ,330 ,097 1,000 -,272 ,136
X3 -,050 ,039 -,272 1,000 ,128
X4 ,017 -,139 ,136 ,128 1,000
Signification (unilatérale) Y , ,018 ,054 ,406 ,469
X1 ,018 , ,323 ,426 ,253
X2 ,054 ,323 , ,094 ,258
X3 ,406 ,426 ,094 , ,270
X4 ,469 ,253 ,258 ,270 ,

24
Récapitulatif du modèle

Changement dans les statistiques


Erreur Variation Modification
R-deux standard de de Variation de F
Modèle R R-deux ajusté l'estimation R-deux de F ddl 1 ddl 2 signification
1 ,511a ,261 ,114 70,6799 ,261 1,768 4 20 ,175
a. Valeurs prédites : (constantes), X4, X3, X1, X2

ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 35338,391 4 8834,598 1,768 ,175a
Résidu 99912,978 20 4995,649
Total 135251,368 24
a. Valeurs prédites : (constantes), X4, X3, X1, X2
b. Variable dépendante : Y

Coefficientsa

Coefficients non Coefficients Intervalle de confiance à


standardisés standardisés 95% de B
Erreur Signifi- Borne Borne
Modèle B standard Bêta t cation inférieure supérieure
1 (constante) 83,606 105,724 ,791 ,438 -136,930 304,142
X1 5,361 2,665 ,395 2,012 ,058 -,198 10,919
X2 ,895 ,633 ,290 1,414 ,173 -,426 2,216
X3 ,160 3,468 ,009 ,046 ,964 -7,074 7,394
X4 4,545 29,428 ,031 ,154 ,879 -56,841 65,931
a. Variable dépendante : Y

25
Validation du modèle de régression linéaire multiple

Dans le cas d’un modèle de régression linéaire multiple, l’estimation de la


variance des erreurs théoriques ou variance théorique  2 est inconnue en
pratique. Nous utiliserons donc la variance des erreurs empiriques ei
notée S 2e comme estimateur de cette valeur inconnue.

n n

 ei2  (y − ŷi )
2
i
Se2 = i =1
= i =1
n − p −1 n − p −1

La variance résiduelle S 2 est un estimateur non biaisé pour 2 .


e 

Remarque : La précision des estimateurs bo, b1...,bp dépend de  2 ; plus  2


 

est petite plus précis seront les estimateurs.

Tout comme dans le cas du modèle de régression linéaire simple on a :

b  N ( ,  2 ), b  N ( , 2 ). .. et b N ( ,2 ) .
o 0 b0 1 1 b1 p p bp

De là, on obtient la statistique suivante :

b j−  j
b t à n − p − 1 d. l
j

Remarque : Puisque les  b j sont inconnues, nous devons les estimer à


l’aide des estimateurs notés Sb j.

On obtiendra donc les statistiques suivantes :

b j−  j
sb t à n − p − 1 d. l
j

26
Estimation de  j par intervalle de confiance

L’intervalle de confiance pour estimer  j , au niveau de confiance (1 - )


pour 1  j  p, est donnée par :

LI , LS = b j − t 2 . sb ,
j
b j + t 2 . s b j 

Test d’hypothèses sur  j

Pour la régression multiple nous avons deux types de tests :

La première question qu’on pourrait se poser est :

« Est-ce que le modèle de régression théorique permet d’expliquer la


variation de Y de façon significative ? »

Cette question peut se décomposer en deux sous-questions :

1) Est-ce que la contribution individuelle de chacune des variables X j, j =


1, 2, 3,..., p, dans l’explication de Y est significative ?

Dans ce cas, on utilise un test de Student sur les paramètres  j pris


individuellement.

Les étapes d'un test d’hypothèses sur les  j pris individuellement:

1- Énoncer les hypothèses :

Ho =  j = 0;
H1 =  j  0 .
ecopro-edu.blogspot.com

27
Remarque : Si Ho est retenue, alors la variable indépendante Xj n’est pas
significative (elle n’explique pas les valeurs prises par Y).

2- Préciser les conditions de validité du test :

- la population est normale;

- la variance résiduelle  2 est inconnue.

3- Statistique utilisée :

bj −  j
o
t=  t (n − p − 1) d.l pour 1  j  p
Sb j

4- Trouver la région critique au niveau de signification  ;

On rejette Ho, si to  t (n − p − 1) d. l ou si to  − t (n − p − 1) d. , l
2 2

sinon on l’accepte.

Exemple : Suite de l’exemple (Restaurant Cocorico).

e) Est-ce qu’individuellement la variable X2 explique Y de façon


significative au seuil  = 0,01 ?

Solution : (voir information sur la sortie informatisée)


1. ecopro-edu.blogspot.com

28
Deuxième sous-question :

2) Est-ce que globalement l’ensemble des variables X1, X2, X3, ...Xp,
explique Y de façon significative ?

Dans ce cas on utilise l’analyse de la variance.

Les étapes d'un test d’analyse de la variance sur les  j pris globalement:

1- Énoncer les hypothèses :

Ho = 1 = 2 = 3 =.. .=  p = 0
H1 = au moins un des  j est  0, 1  j  p

2- Statistique utilisée :

MCreg
F= F ( p,n − p − 1)
MCres

Soit F (dans les tables) et Fo la valeur calculée à l’aide du logiciel SPSS, si Fo >
F, alors l’ensemble des Xj explique Y de façon significative (c’est-à-dire au
moins un des  j est  0 ); sinon, la droite de régression n’est pas
significative au niveau .

Exemple : Suite de l’exemple.

f) Est-ce que le modèle est significatif au seuil  = 0,01 et y a-t-il des


variables explicatives qui ne sont pas significatives au seuil  = 0,01 ?

Solution : (voir sortie informatisée pour résoudre)

29
Coefficient de détermination multiple

Le coefficient de détermination ou d’explication empirique pour un


modèle de régression multiple est donné comme suit :

 (Yˆ − Y )
2
i SCreg SCE
RYX2 1 X 2 ... X p = i =1
= SCT = 1 − SCT
 (Y − Y )
n
i 2

i =1

Ce coefficient permet de mesurer la proportion de la variation totale


dans Y qui est expliquée par l’ensemble des variables explicatives X1,
X2, X3, ...Xp, c’est-à-dire la dispersion des observations autour de
l’hyperplan de régression.

Comme dans le cas de R2 dans le modèle simple, 0  R2  1.

Remarque: * On peut augmenter la valeur de R2 en introduisant de


nouvelles variables explicatives dans le modèle.
Chaque variable introduite dans le modèle augmente
SCR (la somme des carrés due à la régression). D’autre
part, pour un même nombre d’observations, plus le
nombre de variables explicatives augmente dans le
modèle, plus le nombre de degrés de liberté associé au
carré moyen résiduel diminue. Il faut éviter de se rendre
à un point de saturation où le nombre de paramètres à
estimer est égal au nombre d’observations dans
l’expérience (n > p + 1).

30
TESTS D'HYPOTHÈSE LINÉAIRE

Les tests d'hypothèse linéaire d'un modèle économétrique appartiennent au vaste


domaine des tests statistiques. On en rappelle le principe général.

⚫ Une ou plusieurs grandeurs pour lesquelles on dispose d'observations sont


supposées suivre un certain modèle, dit modèle de base ou alternatif et noté Ha (par
exemple la taille d'un adulte est modélisée par une loi normale).
⚫ On veut tester une hypothèse plus particulière, dite hypothèse H0, inspirée par la
réflexion ou l'examen des données (par exemple la taille moyenne des hommes et
celle des femmes sont-elles égales ?)
⚫ Pour ce faire, on détermine une certaine grandeur, ou statistique, dérivée des
grandeurs initiales et calculable sur les observations, dont on connaît - au moins de
manière approximative - la loi lorsque H0 est vraie, (par exemple la différence des
moyennes empiriques des hommes et des femmes examinés).
⚫ On détermine la zone des valeurs les plus improbables de cette grandeur, dite
zone de rejet, pour une probabilité totale choisie, dite niveau de risque (souvent 5%).
La zone complémentaire est la zone d'acceptation.
⚫ Enfin, si la valeur, calculée sur les données, de la grandeur est dans la zone de
rejet, on rejette l'hypothèse H0 jugée trop improbable au niveau de risque choisi et
on conserve l'hypothèse alternative Ha qui n'est pas remise en doute. Sinon, on
accepte H0.

HYPOTHÈSES LINÉAIRES

Hypothèse linéaire

Soit un modèle linéaire, une hypothèse linéaire (ou restriction linéaire) est un
ensemble de une, ou plusieurs, conditions du premier degré, portant sur les
coefficients.

Exemples : à partir du modèle de départ à quatre variables explicatives (incluant la


constante), et d'aléa  :

Y = a.X + b.Z + c.T + d + 

on donne différents exemples d'hypothèses linéaires.

• b=0 (une condition)

• b=c (une condition)

• b = -1 et c = 0 (deux conditions)

• a + c = 1 et d = 0 (deux conditions)

• a=b=c=0 (trois conditions)

31
Modèle transformé

Le modèle initial peut s'écrire sous une forme plus simple, traduisant
algébriquement l'hypothèse linéaire.

Exemples : on donne les modèles transformés du modèle initial dans les cas
précédents.

• Y = a.X + c.T + d +  (trois explicatives)

• Y = a.X + b.(Z+T) + d +  (trois explicatives)

• Y+Z = a.X + d +  (deux explicatives)

• Y-T = a.(X-T) + b.Z +  (deux explicatives)

• Y=d+ (une explicative)

Le nombre des variables explicatives est diminué du nombre de conditions


élémentaires.

Le modèle transformé (par l'hypothèse linéaire) est un cas particulier du modèle


initial.

Problème

Lorsqu'on estime le modèle initial par les mco, les estimations des coefficients
peuvent satisfaire de manière plus ou moins approchée l'hypothèse linéaire
envisagée, alors que les coefficients estimés sur le modèle transformé, par
construction, vérifient exactement l'hypothèse linéaire.
On veut tester, ou éprouver, si l'hypothèse linéaire est acceptable, c'est à dire si le
modèle transformé est correct (auquel cas, ses coefficients estimés seront retenus).

TEST DE FISHER D'UNE HYPOTHÈSE LINÉAIRE

Notations

Elles sont empruntées au domaine de la théorie des tests statistiques rappelée plus-
haut :

• On note : H0, l'hypothèse linéaire que l'on veut tester, et le modèle transformé
correspondant.
• On note : Ha, le modèle initial (ou alternatif), supposé à priori correct.
Conditions

On suppose que le modèle satisfait aux hypothèses des mco, avec aléa normal (c'est à
dire que les aléas: i, sont indépendants, et de même loi normale : N(0,s)).

32
Principe

Sous les conditions précédentes, on montre que, si l'hypothèse H0 est vraie, la


quantité, notée F :

SCR0 - SCRa
-------------------
dl0 - dla
F = --------------------------
SCRa
-------
dla

suit une loi de Fisher (dite aussi parfois de Fisher-Snedecor) : F(dl0-dla,dla), à dl0-dla et
dla degrés de liberté. SCRa note la somme des carrés des résidus de la régression par
les mco du modèle Ha, et dla le nombre de degrés de liberté, c'est à dire le nombre
d'observations diminué du nombre d'explicatives (N-k), SCR0 et dl0 notent les
quantités correspondantes du modèle H0, et dl0-dla est donc le nombre de conditions
élémentaires.

Test de Fisher

Les lois de Fisher : F(p,q), dérivées de la loi normale, étant tabulées, pour tester au
niveau de risque: , le modèle H0, on examine la position de la quantité F calculée
par rapport au seuil de rejet de niveau de risque : F, pour la loi F(dl0-dla,dla).

• Si F  F on admet l'hypothèse linéaire et le modèle H0 au risque .

• Si F > F on juge la valeur obtenue de F trop improbable et on rejette H0 au


risque  (et on retient le modèle initial Ha).

F(dl0-dla,dla)

F

33
Exemple : soit le modèle de demande de thé de Ceylan aux États-Unis:

ln Q = a + b.ln PC + c.ln PI + d.ln PB + f.ln R + 

où Q note les importations de thé de Ceylan, PC le prix du thé de Ceylan, PI le prix


du thé d'Inde, PB le prix du café du Brésil, R le revenu national et  l'aléa.
La régression par les mco donne l'équation estimée:

lnQ = 2,837 - 1,481.lnPC + 1,181.lnPI + 0,186.lnPB + 0,257.lnR


(2,000) (0,987) (0,690) (0,134) (0,370)

avec N = 22 et SCR = 0,4277

On veut tester l'hypothèse: b = -1 et c = 0 (c'est à dire d'élasticité unitaire des


quantités au prix et conjointement d'absence d'influence du prix du thé d'Inde).
L'estimation du modèle transformé donne:

lnQ + lnPC = -0,738 + 0,199.lnPB + 0,261.lnR et SCR = 0,6788


(0,820) (0,155) (0,165)

(0,6788 - 0,4277)/2
on calcule: F = -------------------------- = 4,99
0,4277/(22-5)

pour une loi de Fisher F(2,17), on lit d'autre part dans la table le seuil de rejet au
risque 5%: F0,05 = 3,59. On rejette donc au risque 5% l'hypothèse linéaire
envisagée.

CAS PARTICULIERS DU TEST DE FISHER

Test de nullité d'un coefficient


La nullité d'un coefficient est une hypothèse linéaire particulière (premier exemple),
cependant le test de Fisher d'une telle hypothèse est inutile car il est
mathématiquement équivalent au test de Student de significativité d'un coefficient,
déjà présenté.

Test de nullité de tous les coefficients sauf la constante

Ce test radical de significativité minimum de la régression (cinquième exemple) est


appelé test F, et il est calculé systématiquement par les logiciels économétriques.
Concrètement, il conduit presque toujours au rejet de l'hypothèse testée et présente
donc un intérêt limité.

Test de stabilité d'une partie des coefficients

34
On présente la méthode sur un exemple.
Soit un modèle temporel, expliquant Y par les variables X, Z, W et la constante, on
suppose que les coefficients de X et de Z ont pu varier entre les deux sous-périodes: I
et II.
Le modèle alternatif peut s'écrire, en dédoublant les variables X et Z:

Ha : Y = aI.XI + aII.XII + bI.ZI + bII.ZII + c.W + d + 

où XI vaut X sur la sous-période I et 0 sur la sous-période II, et XII l'inverse (soit XII
= X - XI), de même pour ZI et ZII. L'aléa est .

L'hypothèse linéaire est: aI = aII et bI = bII, et le modèle transformé:

H0 : Y = a.X + b.Z + c.W + d + 

Si N est le nombre d'observations, le test de H0 revient à

(SCR0 - SCRa)/2
comparer: F = ---------------------- à une loi F(2,N-6).
SCRa/(N-6)

Test de stabilité de tous les coefficients (test de Chow)


L'estimation du modèle alternatif, après dédoublement de l'ensemble des variables,
revient en fait à faire deux régressions séparément sur les deux sous-périodes, tandis
que le modèle traduisant la stabilité est le modèle simple sur toute la période.
Avec des notations naturelles, N observations et k explicatives, le test revient à
comparer la quantité:

SCR0 - (SCRI+SCRII)
-----------------------------
k
F = ---------------------------------- à une loi F(k,N-2k).
SCRI+SCRII
-----------------
N-2k

Exemple : l'étude d'une fonction de consommation aux États-Unis a donné les trois
régressions :

pour 1929-41: C = 282,56 + 0,69328.R où SCR = 3611,39


(39,6) (0,035) et dl = 11

pour 1946-70: C = 63,09 + 0,88286.R où SCR = 7399,05

35
(22,2) (0,011) et dl = 23

pour l'ensemble: C = 85,06 + 0,87104.R où SCR = 19839,62


(13,9) (0,008) et dl = 36

Pour tester la stabilité, on compare :

(19838,62 - 11010,44)/2
F = --------------------------------- = 13,63 à une loi F(2,34)
11010,44/34

le seuil de rejet au risque 5% est de l'ordre de 3,28 et on rejette donc l'hypothèse de


stabilité.

On vient de voir comment effectuer « à la main » un test d’hypothèse linéaire (en


régressant explicitement le modèle transformé puis en examinant la quantité F
calculée à partir des résidus des deux régressions) ; les logiciels économétriques, tels
SAS, Eviews ou Gretl, dispensent l’utilisateur de ces opérations : il suffit d’indiquer
dans une syntaxe appropriée la ou les contraintes à tester, le logiciel calcule alors la
valeur de F et indique à quel seuil d’acceptation/rejet elle correspond.

Il faut d’autre part garder à l'esprit que les tests de Fisher ne sont corrects
qu'autant que les hypothèses des mco, avec normalité des aléas, sont satisfaites. Il
convient donc en principe de s'en assurer par l'examen préalable des résidus.

Il est également important de noter que le rejet d'une hypothèse: H 0, à la suite d'un
test de Fisher d'hypothèse linéaire, ne constitue aucunement une confirmation a
posteriori de l'hypothèse initiale : Ha. Si celle-ci était douteuse, elle le reste: on teste
H0 contre Ha, en supposant Ha vraie.

ecopro-edu.blogspot.com

36
Travaux dirigés

Td 1_regression linéaire
Les propriétés des estimateurs et de la méthode MCO

37
38
TD1 : régression simple

Exercice 1

X 3 4 5 7 2 3 2

Y 100 112 150 210 60 85 77


1. Soit le modèle suivant : Yi=a0 + a1Xi + ei ; Estimer les paramètres par la
méthode des MCO
2. Calculer l’erreur d’estimation et en déduire la valeur de r².

Exercice 2:
Soit un échantillon de 10 observations qui concernent les salariés d’une firme
de chocolat1 :
n◦ 1 2 3 4 5 6 7 8 9 10
yi 11 10 12 6 10 7 9 10 11 10
xi 10 7 10 5 8 8 6 7 9 10
Où xi est le nombre d’heures travaillées (par salarié) et yi est la quantité de biens produite
(par le salarié). Le directeur de cette entreprise souhaite étudier la relation qui existe entre
la quantité de biens produite par le salarié et le nombre d’heures travaillées.
1. Quel modèle doit-il choisir (en donner une interprétation économique) ?
2. Calculer les estimateurs des MCO des coefficients du modèle proposé. Commenter.

Exercice 3: Soit le modèle de régression linéaire suivant : Yi=ao+a1Xi+ei.


Sous les hypothèses des MCO,
1. montrer que le coefficient a1 = Cov (x,y)/V(x).
2. Montrer que le paramètre a1 est sans biais.
Soit la régression inverse : Xi=a’0+a’1Y+e’i
3. Exprimé r² en fonction de a1 et a’1. Donner une interprétation de r².

Exercice 4

39
ecopro-edu.blogspot.com

Td3 : régression linéaire multiple


Exercice 1

Exercice 2

Exercice 3

40
Exercice 4

Exercice 5

41
Td 4 : régression linéaire multiple : les tests

Exercice 1

Exercice 2

42
Exercices 3

Exercice 4

43
44

Vous aimerez peut-être aussi