Académique Documents
Professionnel Documents
Culture Documents
Support Econometrie1
Support Econometrie1
22 42 22 65/ 22 42 27 24 / 22 52 55 67 /07 23 18 62 / 05 23 52 35
Année universitaire : 2018-2019.
Programme du cours
2
N° de Séance Contenu Lectures/travaux
Prise de contact
Séance 1
Syllabus du cours
Date :
Introduction générale
Séance 2
Greene, W
Date : Chap. 1 : INTRODUCTION A L’ECONOMETRIE
Séance 3
Chap. 1 : (suite et fin) Greene, W
Date :
Séance 4
FICHE DE TD N°1
Date :
Séance : 5
Suite et fin de la correction de la fiche de TD N°1
Date :
Séance : 6
Devoir de table
Date :
Séance 7 Bourbonnais, R Greene,
Date : Chap. 2 : LE MODELE DE REGRESSION SIMPLE W
Séance 8
Chap. 2 : (suite et fin) Bourbonnais, R Greene, W
Date :
Chap. 3: INFERENCE STATISTIQUE DANS LE
Séance 9
Date : MODELE DE REGRESSION SIMPLE Casella, G. & Berger, R. L.
Greene, W. (2012), Econometric Analysis, 7th edition, English version, Pearson Education,
ISBN: 978-0-13-139538-1Pindyck, R. et D. Rubinfeld (2009), Microéconomie, Pearson.
Bourbonnais, R. (2004) : Économétrie. Dunod, Paris, 5e edn. Disponible à la bibliothèque de
IUA.
Casella, G. & Berger, R. L. (2001) Statistical Inference, Duxbury
4
INTRODUCTION
L’analyse économique est basée sur des représentations théoriques qui décrivent les
comportements des agents et les mécanismes qui sont à l’origine des phénomènes observés.
Les théories économiques sont des énoncés logiques qui reposent sur des hypothèses plus
ou moins réalistes et mènent à des conclusions (prise de décisions par exemple) dont la
portée est positive et souvent normative. Compte tenu de leur conséquence en termes
d’actions sur le réel, les énoncés théoriques doivent être confrontés aux faits observés. Ceci
constitue le champ d’application de l’économétrie.
1
Chapitre 1 : INTRODUCTION A L’ECONOMETRIE
Théorie
L’économétrie n’est pas seulement un système de validation, mais elle est également un
outil d’analyse. Citons quelques domaines où l’économétrie apporte une aide à la
modélisation, à la réflexion théorique ou à l’action économique :
- la mise en évidence de relations entre des variables économiques qui n’étaient pas à
priori évidentes ou pressenties;
2
- l’inférence statistique consiste à inférer, à partir des caractéristiques d’un échantillon,
les caractéristiques d’une population. Elle permet de déterminer des intervalles de
confiance pour des paramètres du modèle ou tester si un paramètre est
significativement inférieur, supérieur ou simplement différents d’une valeur fixée ;
- la simulation qui mesure l’impact d’une modification de la valeur d’une variable sur
une autre ;
- la prévision qui est utilisée par les pouvoirs publics ou l’entreprise pour anticiper et
éventuellement réagir à l’environnement économique.
Le modèle est alors une présentation schématique et partielle d’une réalité naturellement
plus complexe. Toute la difficulté de la modélisation consiste à ne retenir que les
représentations pertinentes pour le problème que le modélisateur cherche à expliciter. Ce
choix dépend de :
- la nature du problème;
- le type de décision;
- l’étude à effectuer.
Keynes postule que les dépenses de consommation (C) des ménages dépendent du niveau
de leur revenu disponible (Y), C = f(Y). Les hypothèses du modèle sont :
H1 : la propension marginale à consommer est inférieure à l’unité (0 < dC/dY <1);
H2 : la propension moyenne à consommer décroit à mesure que le revenu augmente
(d(C/Y)/dY < 0).
La spécification satisfaisant les hypothèses ci-dessus et communément utilisée est :
C = α + βY avec α > 0 et 0 < β < 1 (1)
3
2.1.2- Le modèle économétrique
- l’erreur de mesure : les données utilisées pour l’estimation du modèle ne reflètent pas
exactement les valeurs réelles des variables du modèle;
L’estimation consiste à calculer les valeurs numériques des paramètres à partir des
données recueillies sur un échantillon de la population. A ce niveau, le processus de collecte
des données relatives aux variables du modèle joue un rôle important. La justesse des
estimations dépend de la qualité des données disponibles. Lorsque les données sont
obtenues à l’issue d’une enquête directe menée sur un échantillon de la population étudiée,
elles sont qualifiées de données primaires. Les données secondaires sont celles
collectées auprès d’un organisme ou dans des ouvrages spécialisés. Statistiquement, on
distingue 4 types de données.
Elles indiquent les valeurs des variables pour un échantillon d’individus, de ménages,
d’entreprises, de pays ou toute autre variété d’entités considérées à un instant donné. Les
coupes instantanées ignorent souvent les décalages temporels de collecte des données et
une enquête où les ménages sont interrogés une fois à différentes périodes de l’année est
considérée comme une coupe instantanée. La coupe transversale est obtenue à partir d’un
échantillonnage aléatoire de la population étudiée.
4
Exemple d’une coupe d’instantanée des ménages à Abidjan
: : : :
. . . .
Les variables sont observées dans le temps à différentes périodes successives. Le temps
représente une dimension importante pour l’étude de certains phénomènes tels que
l’évolution du chiffre d’affaire d’une entreprise, la gestion des stocks, le taux de chômage …
La fréquence de collecte des données (journalière, mensuelles ou annuelle) ne varie pas
pendant la période de l’enquête.
: : : :
. . . .
2012 - - -
5
Les données de panels ou données longitudinal sont une catégorie particulière de données
en coupes instantanées ou chaque unité de l’échantillon est enquêtée dans le temps. Les
informations relatives à plusieurs variables sont collectées auprès dès mêmes individus de
façon chronologique durant une période.
Puisqu’il est extrêmement coûteux voire impossible d’obtenir des informations concernant
les variables sur l’ensemble de la population étudiée, on construit une base de données sur
un échantillon de N individus. L’inférence statistique consiste à dériver les valeurs des
paramètres de la population à partir des données de l’échantillon. Les valeurs numériques
obtenue sont appelées estimateurs des paramètres du modèle.
On peut calculer une estimation ponctuelle et obtenir une valeur spécifique de chaque
paramètre. On peut également construire des estimations d’intervalle et obtenir alors un
intervalle de confiance recouvrant avec une probabilité élevée la valeur réelle du
paramètre. La méthode d’estimation dépend de la forme fonctionnelle du modèle (linéaire
ou non linéaire) et de la nature des données.
Avant toute utilisation des estimations à des fins de prévision, il est nécessaire de vérifier
son adéquation au phénomène étudié. Il existe des tests statistiques permettant d’apprécier
6
l’écart entre les valeurs estimées et les valeurs réelles des paramètres. Si le modèle n’est pas
globalement significatif, on reprend les étapes précédentes de sorte à améliorer la qualité
des estimations.
Lorsque le modèle est globalement significatif, il convient de tester les hypothèses du
modèle. Si ces hypothèses sont vérifiées, l’analyse économétrique valide la théorie
économique qui soutend le modèle. Ce dernier peut être utilisé pour établir des prévisions
ou asseoir des politiques économiques.
En cas d’infirmation des hypothèses, l’économiste peut procéder à l’élaboration d’une
nouvelle théorie économique sur le phénomène analysé.
7
Chapitre 2- LE MODELE DE REGRESSION SIMPLE
1. La présentation du modèle
8
H6 : La normalité : le terme d’erreur suit une loi normale et on note εi ~ N(0,σ2).
Si les hypothèses ci-dessus sont satisfaites, on peut appliquer la méthode des MCO qui
consiste à minimiser la somme des carrés des écarts.
On distingue la fonction de régression de la population E Yi ( )=β 0 + β1 X i où β0 et β1
sont les paramètres de population et la fonction de régression de l’échantillon
Yˆi = βˆ0 + βˆ1 X i où β̂ 0 et β̂1 sont les estimateurs de β 0 et β1 . Les valeurs numérique de
β̂ 0 et β̂1 sont obtenues à partir des données collectées sur un échantillon de la population.
La contrepartie du modèle économétrique de la population Yi = β 0 + β1 X i + ε i dans
l’échantillon est Yi = βˆ0 + βˆ1 X i + ei = Yˆi + ei où ei est l’estimateur de εi .
ei est appelé l’écart ou le résidu. ei est donc la différence entre les valeurs observées de la
variable à expliquer et les valeurs ajustées à l’aide des estimations des coefficients du
modèle : Yˆi = βˆ0 + βˆ1 X i .
Le ieme résidu ei s’interprète comme l’estimation de la partie de Yi qu’on ne peut pas
expliquer par Xi. Dans la mesure où la valeur ajustée Yˆi peut être considérée comme un
estimateur de E(Yi), on peut considérer que ei = Yi − Yˆi est un estimateur de
ε i = Yi − E (Yi ) .
Yi
E (Yi ) = β 0 + β1 X i
εn
Yn
en
Y1
e1
E(Y1) ε1 Yˆi = βˆ0 + βˆ1 X i
Ŷ1
Xi
X1 Xn
Figure 1 : Les droites de régression de la population et de l’échantillon.
9
On obtient une bonne approximation de la fonction de régression de la population si les
écarts ei , i = 1, 2, …n sont très petits. Le principe de la méthode des MCO consiste à choisir
β 0 et β1 de sorte que la somme des carrés des résidus soit minimale.
De façon algébrique, le problème s’écrit :
2
∑ e = ∑ (Y − βˆ )
n n
Minimiser S =
2
i i 0 − βˆ1 X i
i =1 i =1
∑ e = ∑ (Y )
n n
Or S =
2
i i
2
+ βˆ02 + βˆ12 X i2 − 2 βˆ0 Yi − 2 βˆ1 X i Yi + 2 βˆ0 βˆ1 X i
i =1 i =1
∂S
= 2nβˆ0 − 2∑ Yi + 2 βˆ1 ∑ X i = 0
∂β 0
ˆ
⇒ nβˆ − Y + βˆ
0 ∑ X =0 i 1∑ i
⇒ ∑ Y = nβˆ
i 0 + βˆ ∑ X
1 i (1)
∂S
= 2 βˆ1 ∑ X i2 − 2∑ X iYi + 2 βˆ0 ∑ X i = 0
∂β1
ˆ
⇒ ∑
X Y = βˆ X + βˆ
i i X 2 (2)0 ∑ i 1 ∑ i
(1) et (2) sont appelées les équations normales du modèle linéaire de régression simple.
βˆ1 =
∑ ( X − X )(Y − Y ) = ∑ X Y − nXY
i i i i
(2.6)
∑( X − X ) ∑ X − nX 2 2 2
i i
βˆ1 = ∑
xi yi
(2.7)
∑ xi2
10
2.3- Les variances et écart-types des estimateurs des MCO
Les hypothèses du modèle de régression simple permettent à la fois d’estimer les valeurs
numériques, les variances et les écart-types de β̂ 0 et β̂1 . Ces paramètres sont des variables
aléatoires et leurs valeurs numériques varient d’un échantillon à un autre. C’est cette
variabilité ou fluctuation d’échantillonnage que mesurent les variances et les écart-types,
l’écart-type étant la racine carrée de la variance.
Les variances sont :
1
( )
var βˆ0 = σ β2ˆ =
∑X i
2
σε = σε
2 +
X22 (2.8)
n∑ ( X − X ) n ∑( Xi − X )
0
2 2
i
σ ε2
( )
var βˆ1 = σ β2ˆ = (2.9)
∑( X −X)
1
2
i
Lorsque la variance σ ε2 est connue, les variances des paramètres sont obtenues
directement à partir des formules (2.8) et (2.9). Si la valeur de σ ε2 n’est pas connue, elle
doit être estimée à l’aide de la formule suivante :
σˆ ε
2
=
∑e 2
i
(2.10)
n−2
où σˆ ε est l’estimateur MCO de σ ε2 . Le dénominateur (n – 2) est connu sous le nom de
2
( )
var βˆ0 = σˆ 2
=
∑X i
2
σˆ ε = ∑
2
X i
2
σˆ ε2
n∑ ( X − X ) n∑ x
βˆ
0
2 2
i i
σˆ ε2 σˆ ε2
( )
var βˆ1 = σˆ β2ˆ = =
∑( X i − X ) ∑x
1
2 2
i
σˆ βˆ = σˆ = σˆ ε 2 ∑X i
2
et σˆ βˆ = σˆ β2ˆ =
σˆ ε
0 βˆ
0
n∑ x i
2 1 1
∑x 2
i
3. La qualité de la régression
∑ (Y − Y ) = ∑ (Yˆ − Y ) + ∑ (Y − Yˆ )
2 2 2
ou encore i i i i
La somme des carrés totale (SCT) est égale à la somme des carrés expliqués (SCE) plus la
somme des carrés des résidus (SCR). Cette équation permet de juger de l’adéquation du
modèle. En effet, plus la variabilité expliquée est proche de la variabilité totale, meilleure est
l’approximation de la fonction de régression de la population par celle de l’échantillon. Il est
d’usage de calculer une mesure de qualité de la régression appelée le coefficient de
détermination :
∑( )
2
SCE Yˆi − Y ∑e 2
R =
2
⇔ R 2
= =1− i
∑ (Y − Y ) ∑ (Y − Y )
2 2
SCT i i
( )
2
SCE = ∑ Yˆi − Y SCE
( )
2
Variation expliquée 1 = ∑ Yˆi − Y
= β12 ∑( X i − X ) 1
2
SCR ∑ ei
2
Variation résiduelle SCR = ∑ ei2 n-2 =
n−2 n−2
SCT ∑ (Yi − Y )
2
SCT = ∑ (Yi − Y )
2
Variation totale (n-1) =
n −1 n −1
rX /Y =
∑ ( X − X )(Y − Y )
i i
=
∑x y i i
∑ ( X − X ) ∑ (Y − Y ) ∑x ∑ y
2 2 2 2
i i i i
Soit le tableau suivant qui fournit les données relatives à la quantité demandée (Y) et le prix
(X) d’un bien pour un échantillon aléatoire de la population.
Quantité
49 45 44 39 38 37 34 33 30 29
demandée (Yi)
Prix (Xi) 1 2 3 4 5 6 7 8 9 10
Jusqu’ici, nous avons supposé que la relation entre X et Y est linéaire. Cependant, on
rencontre plusieurs relations non linéaires en économie. Pour la majorité de celles-ci, il est
possible de transformer le modèle non linéaire en un modèle linéaire de régression simple.
α
i) Y = AX
Par transformation logarithmique, on obtient : log Y = log A + α log X (modèle log-log).
Si on pose Y * = log Y et X * = log X le modèle devient :
Y * = β 0 + β1 X * avec β 0 = log A et β1 = α .
Le modèle économétrique est : Yi = β 0 + β1 X i + ε i .
* *
∆Y * ∆ log Y ∆Y / Y
Dans ce modèle β1 = = = . D’où β1 représente l’élasticité de Y en
∆X * ∆ log X ∆X / X
fonction de X.
αX
ii) Y = Ae
Par transformation logarithmique, on obtient : log Y = log A + α X (modèle semi-log).
Si on pose Y * = log Y , le modèle devient :
Y * = β 0 + β1 X avec β 0 = log A et β1 = α .
Le modèle économétrique est : Yi * = β 0 + β1 X i + ε i .
1
iii) Y = β 0 + β1
X
1
Si on pose X = , le modèle devient : Y = β 0 + β1 X * .
*
X
Le modèle économétrique est : Yi = β 0 + β1 X i + ε i .
*
13
Chapitre 3 – INFERENCE STATISTIQUE DANS LE MODELE DE REGRESSION SIMPLE
1- Rappels Statistiques
Une variable aléatoire est une grandeur mesurable dont les valeurs sont soumises à une
certaine dispersion lors de la répétition d’un processus donné. Elle est régie par une loi de
probabilité loi de probabilité loi de probabilité caractérisée par la moyenne et la variance.
Soit une population caractérisée par une variable aléatoire Y.
Un échantillon aléatoire de taille n de Y est une suite de n variables aléatoires (Y1, Y2, … , Yn)
indépendantes et suivant toutes la même loi de probabilité que Y, notée f (Y, β) où β est un
paramètre ou un vecteur de paramètres inconnus. C’est une suite de variables aléatoires
identiquement et indépendamment distribuées (i.i.d.) de même distribution que la variable
aléatoire X.
Les n valeurs (y1, y2, . . . , yn) sont les réalisations identifiées aux données de l’échantillon
aléatoire des n variables aléatoires (Y1, Y2, … , Yn).
L’estimation désigne le procédé par lequel on détermine les valeurs inconnues des
paramètres β d’une population à partir des données d’un échantillon. L’inférence statistique
consiste alors à effectuer des études sur l’échantillon et transposer avec une certaine
probabilité, les résultats sur la population.
Un estimateur β̂ d’un paramètre inconnu β est une statistique, et donc une variable
aléatoire, fonction des n variables aléatoires Y1, Y2, … , Yn : β̂ = g (y1, y2, . . . , yn).
Un estimateur est une méthode de l’inconnue β. Il ne faut pas le confondre avec l’estimation,
qui est une valeur particulière de l’estimateur obtenue à partir d’un échantillon. Si un autre
échantillon aléatoire était tiré sous des conditions identiques, on obtiendrait une valeur
différente de l’estimateur, et on qualifie cette différence de fluctuation d’échantillonnage.
Le problème de l’estimation est alors celui de la recherche d’une statistique utilisée comme
estimateur qui soit dotée de bonnes propriétés en échantillon de taille finie, c’est-à-dire qui
14
conduise à la meilleure évaluation possible, la meilleure estimation du paramètre inconnu
β. La statistique β̂ , estimateur de β, est une variable aléatoire, dont les réalisations peuvent
s’écarter plus ou moins de la vraie valeur du paramètre θ qu’on cherche à estimer. Ces
estimations fluctuent autour de l’espérance mathématique de l’estimateur E( β̂ ) avec une
dispersion caractérisée par la valeur de la variance Var( β̂ ) de l’estimateur.
Il est donc évident que les estimateurs dont l’espérance mathématique coïncide avec la
vraie valeur du paramètre θ et dont la variance est la plus petite possible, sont les plus
intéressants. On établit alors les critères de choix ou propriétés souhaitables pour un
estimateur dans un échantillon de taille finie. On aimerait que :
• l’espérance mathématique de l’estimateur soit égale à la vraie valeur du paramètre
qu’on cherche à estimer : estimateur centré ou sans biais ;
• la variance de l’estimateur soit la plus petite possible : autrement dit la dispersion
autour de l’espérance mathématique (la vraie valeur du paramètre) soit la plus petite
possible.
Il peut arriver qu’un estimateur soit biaisé, mais que ce biais soit négligeable pour des
échantillons de grande taille. Un estimateur est dit asymptotiquement sans biais si :
() ()
lim B βˆ = 0 ou lim E βˆ = β .
n→∞ n→∞
15
1.3.2- Estimateur efficace - efficient
Un estimateur β̂ de β est dit efficient si :
• il est sans biais ; et
• il est à variance minimale parmi tous les estimateurs sans biais.
Si de plus on se limite à la classe des estimateurs linéaires, un tel estimateur est appelé
BLUE (Best Linear Unbiased Estimator).
Si θ̂ et θɶ sont des estimateurs non biaisés de θ, avec θ̂ plus efficace que θɶ , les distributions
d’échantillonnage se présentent comme suit :
Nous avons défini un estimateur efficient comme étant celui à variance minimale dans la
classe des estimateurs sans biais. Mais il est clair qu’on pourrait trouver des estimateurs
biaisés à variances plus petites que celle de l’estimateur centré. Se concentrer uniquement
sur les estimateurs centrés pourrait conduire à écarter a priori un estimateur “légèrement”
biaisé mais à variance de loin inférieure à celle de l’estimateur centré.
Un critère permettant d’arbitrer entre l’absence de biais et la variance est le critère de
l’erreur quadratique moyenne.
Soit β̂ un estimateur de β, l’erreur quadratique moyenne est définie par E( β̂ - β)2 .
Elle mesure la précision de l’estimateur β̂ ou encore le risque d’utiliser β̂ pour estimer θ.
On montre qu’elle dépend à la fois de la variance et du biais de l’estimateur :
E( β̂ - β)2 = Var( β̂ ) + B2( β̂ ).
Ainsi, il est possible de trouver des estimateurs biaisés plus précis que le meilleur
estimateur sans biais.
16
Ceci signifie qu’en augmentant la taille de l’échantillon, on peut rendre l’estimateur β̂ aussi
proche de la vraie valeur de β qu’on le souhaite avec une probabilité égale à 1. Ont dit que β̂
est un estimateur consistant de β.
( )
E ( βˆ0 ) = β 0 , E βˆ1 = β1 et E (σˆ ε2 ) = σ ε2 .
- Variance minimale : Var βˆ0 ( ) et Var ( βˆ ) sont plus petites que les variances de tout
1
autre estimateur linéaire non biaisé. Le théorème de Gauss-Markov implique que nous
obtenons les estimateurs efficaces de β 0 et β1 par la méthode des MCO qu’en utilisant une
autre méthode générant des estimateurs non biaisés.
17
- Convergence : Lorsque la taille de l’échantillon n tend vers ∞, les estimateurs β̂ 0 et β̂1
convergent en probabilité vers les valeurs de β 0 et β1 .Ont dit qu’ils sont des estimateurs
consistants de β 0 et β1 .
L’hypothèse H6 du modèle de régression simple stipule que les erreurs sont normalement
et identiquement distribuées, ce qui implique que les distributions d’échantillonnage de β̂ 0
et β̂1 sont des distributions normales.
Yi = β 0 + β1 X i + ε i , avec ε i ∼ N ( 0,σ ε2 )
D’après H2, X est non stochastique et donc Y suit une loi normale. Puisque β̂ 0 et β̂1 sont
des fonctions linéaires de Y, alors β̂ 0 et β̂1 suivent des distributions normales :
( )
βˆ0 ∼ N β 0 ,σ β2ˆ 0
βˆ ∼ N ( β ,σ )
1 1
2
βˆ1
σˆ ε 2
=
∑e 2
i
=
1
( e12 + e22 + ... + en2 )
n−2 (n − 2)
Comme ei ∼ N 0,σ ε ( 2
) alors e
2
i ∼ χ (1)
2
.et ∑e
2
i ∼ χ (2n − 2) .
D’où σˆ ε2 suit une loi de Khi-deux à (n-2) degré de liberté.
βˆ0 − β 0
∼ t( n−2)
σˆ βˆ 0
18
βˆ1 − β1
∼ t( n−2)
σˆ βˆ
1
La loi Khi-deux normalisé demeure une loi Khi-deux à (n-2) degré de liberté :
(n − 2)σˆ ε2
∼ χ (2n−2)
σε 2
( )
P βˆ1 − δ ≤ β1 ≤ βˆ1 + δ = 1 − α avec δ>0
βˆ1 − δ , βˆ1 + δ est l’intervalle de confiance de β1 au seuil α%.
Puisque les bornes de l’intervalle de confiance reposent sur la valeur de β̂1 , l’intervalle de
confiance est lui-même aléatoire, i.e. qu’il varie d’un échantillon à un autre. Et comme
βˆ1 − β1
∼ t( n−2) alors, c’est la loi de student qui sera utilisée pour construire l’intervalle de
σˆ βˆ
1
confiance. On obtient :
βˆ1 − β1
P −tα /2 ≤ ≤ tα /2 = 1 − α
σˆ βˆ
1
Après arrangement :
( )
P βˆ1 − tα /2σˆ βˆ ≤ β1 ≤ βˆ1 + tα /2σˆ βˆ = 1 − α
1 1
(n − 2)σˆ ε
P χ12−α /2 ≤ ≤ χα2 /2 = 1 − α
σε
19
(n − 2)σˆ ε (n − 2)σˆ ε
P ≤ σ 2
ε ≤ =1−α
χα /2 χ12−α /2
2
3.3- Les tests d’hypothèses
3.3.1- La théorie des tests
La théorie des tests consiste à tester si une hypothèse, par exemple β1 = −2 , est vraie. En
général, on teste une hypothèse ou une assertion portant sur un ou plusieurs estimateurs
ou le modèle global. Dans le langage statistique, l’hypothèse spécifiée est appelée hypothèse
nulle, notée Ho. Elle est testée contre une hypothèse alternative H1. La décision
d’acceptation ou de rejet de l’une ou l’autre des hypothèses est prise sur la base d’une
statistique calculée à partir des données et dont on connaît la loi de probabilité.
20
Figure 5 : Distribution de β̂ − β * sous Ho.
H 0 : β = β *
Le test
H1 : β ≠ β
* est un test bilatéral qui concerne les deux côtés de la distribution.
H 0 : β = β * H 0 : β = β *
Les tests * et
H1 : β > β H1 : β < β
* sont des tests unilatéraux.
On définit la p-valeur comme la probabilité d’obtenir une valeur plus grande que celle
observée (ou calculée). Pour les tests bilatéraux, on définit la p-valeur comme suit :
p-value = Prob(| β | > | β * |). Une p-value élevée équivaut au rejet de Ho.
t
- tα/2 0 tα/2
βˆk − β k
Dans la procédure du test, on calcule tc = qui sera comparée à t( n − 2),α /2 lue sur la
σˆ βˆ
k
21
Si tc > t( n −2),α /2 , on rejette Ho et β k est significativement différent de β k* .
Si tc < t( n − 2),α /2 , on rejette H1 et β k n’est pas significativement différent de β k* .
H 0 : β k = β k*
Pour le test
H1 : β k > β k
* , graphiquement, le test a lieu dans la partie droite :
(1-α)% α%
t
0 tα
Acceptation de H0 Rejet de H0
βˆk − β k
βk = β *
βk ≠ β *
tc = > t( n−2),α /2
k k
σˆ β2ˆ k
Le test de Khi-deux porte sur la variance. Par exemple on désir tester si σ ε2 = b , avec b > 0.
H 0 : σ ε = b
2
Le test est :
H1 : σ ε ≠ b
2
22
α/2 %
α/2 %
(1-α)%
χ2
χ 2
1−α /2
χα /2
2
(n − 2)σˆ β2ˆ
On calcule la statistique χ =
2 k
c qui sera comparée à la valeur lue dans la table
b
statistique de Khi-deux : χ (2n − 2),α /2 .
H 0 : σ 12 = σ 22
Le test d’égalités des variances est donc un test de Fisher.
H1 : σ 1 ≠ σ 2
2 2
σˆ12
On calcule la statistique Fc = 2 que l’on compare à F( n −1),( n −1),α /2 .
σˆ 2 1 2
La règle de décision :
- si Fc < F( n −1),( n −1),α /2 alors on accepte Ho qui suppose que les variances sont égales.
1 2
23
- si Fc > F( n −1),( n −1),α /2 alors on rejette Ho. On peut conclure que les variances ne sont pas
1 2
égales.
Tableau de significativité du test de Khi-deux
Le test qui consiste à tester la significativité conjointe de tous les paramètres estimés du
modèle un test de Fisher. La statistique du test est donnée par :
SCE 1 R2 1
Fc = =
SCR ( n − 2 ) (1 − R 2 ) ( n − 2 )
Dans le cas d’une régression linéaire simple, le test F est confondu au test de significativité
individuelle de la pente. Les deux tests sont basés sur les mêmes hypothèses, et on
( ).
2
démontre dans ce cas que : Fc = tβˆ
1
Lorsque les coefficients du modèle ont été estimés, il est possible de calculer une prévision
i.e de prédire en moyenne la valeur de Yo que prendra la variable dépendante pour une
valeur Xo donnée.
E (Y0 X 0 ) = βˆ0 + βˆ1 X 0 = Yˆ0
L’erreur de prévision est
e0 = Y0 − Yˆ0 = Y0 − βˆ0 + βˆ1 X 0 avec E (e0 ) = 0
On montre que
1 ( )
2
X − X
2
e0 ∼ N 0,σ ε +
0
+ 1
n ∑ ( X i − X )2
e0
∼ tn − 2
( X0 − X ) +1
2
1
σˆ ε +
n ∑ ( X i − X )2
Un intervalle de confiance de la valeur prédite est :
( X 0 − X ) + 1.
2
1
Y0 = Yˆ0 ± tn −2 .σˆ ε +
n ∑ ( X i − X )2
24
Chapitre 4 - LE MODELE DE REGRESSION MULTIPLE
Dans le modèle de régression simple, nous avons considéré la relation entre 2 variables :
une variable dépendante et une variable explicative. Dans ce chapitre, nous étendons le
modèle à plus d’une variable explicative. Un modèle de régression contenant plus d’une
variable explicative est appelé un modèle de régression multiple.
Par exemple, la demande d’un bien ne dépend pas uniquement du prix de ce bien, mais
aussi des ressources du consommateur, des prix des biens substituts ou complémentaires et
du niveau général des prix. Pour inclurent toutes ces variables dans un modèle de
régression afin de considérer les multiples influences sur la demande, on construit un
modèle de régression multiple.
1- La présentation du modèle
H1 : Exogénéité : les variables explicatives X1, X2, …, XK ne sont pas corrélées avec le terme
d’erreur ou sont non stochastiques. Les variables explicatives sont certaines.
H6 : Normalité : ε i ∼ N (0,σ 2 ) .
25
2- Estimation du modèle de régression multiple
Si les hypothèses ci-dessus sont satisfaites, on peut appliquer la méthode des MCO pour
estimer les paramètres du modèle de régression multiple.
Supposons que nous disposons d’un échantillon de n individus où chaque individu est décrit
par rapport à la valeur de la variable dépendante Yi et les valeurs des variables explicatives
X1i, X2i, …, et XKi.
Le modèle à estimer est Yi = β 0 + β1 X 1i + β 2 X 2 i + ... + β K X Ki + ε i .
Sous forme matricielle, il s’écrit : Y = X Β + ε
Y1 1 X 11 X 21 ⋯ X K 1 β0 ε1
Y 1 X X 22 ⋯ X K 1 β ε
avec Y = X = Β = et ε = 2 .
2 12 1
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
Yn 1 X 1n X 2 n ⋯ X Kn βK ε n
L’équation de régression de l’échantillon est :
Yˆi = βˆ0 + βˆ1 X 1i + βˆ2 X 2i + ... + βˆK X Ki et Yi = Yˆi + ei .
Sous forme matricielle Y = Yˆ + e .
La somme des carrées des écarts ou résidus est :
n
S = ∑ ei2 = e′e .
i =1
(
S = e′e = Y − X Β
ˆ )′ (Y − X Βˆ )
= (Y ′ − Β
ˆ ′X ′ )(Y − X Βˆ)
ˆ ′X ′Y − Y ′X Βˆ + Βˆ ′X ′X Βˆ
= Y ′Y − Β
= Y ′Y − 2Βˆ ′X ′Y + Βˆ ′X ′X Βˆ
ˆ ′X ′Y = Y ′X Β
car Β ˆ et ce sont des scalaires.
26
Etape 3 : faire le produit matriciel ( X ′X )
−1
X ′Y .
σˆ ε =
2 e′e
=
∑ ei2
n − K −1 n − K −1
X 21 ⋯ X 2 n ∑ X 2i ∑X X ∑X
2
X 22 1i 2i 2i
1 X 1n X 2n
Y
1 1 ⋯1 1 ∑ Yi
Y
X ′Y = X 11 X 12 ⋯ X 1n 2 = ∑ X 1iYi
⋮
X 21 X 22 ⋯ X 2 n ∑ X 2iYi
Yn
Les équations normales sont : X ′X Β ˆ = X ′Y
n
∑ X 1i ∑ X 2i βˆ0 ∑ Yi
ˆ
∑ X 1i ∑ X 1
2
i ∑ X 1i X 2 i β 1 = ∑ X 1iY i
∑ X 2i ∑ X 1i X 2i ∑ 2i 2 ∑ 2i i
X 2
β
ˆ X Y
ˆ
β 0 ∑ X 2i + β1 ∑ X 1i X 2i + β 2 ∑ X 2i = ∑ X 2iYi
ˆ ˆ 2
(
∑ (Yi − Y ) = ∑ Yˆi − Y ) ( )
2 2
+ ∑ Yi − Yˆi
2
La mesure alternative, plus robuste à l’ajout des variables, qui corrige ce problème associé
2
aux degrés de liberté est le coefficient de détermination ajusté ou corrigé R .
SCR (n − K − 1) n −1
R2 = 1 − =1− (1 − R 2 )
SCT (n − 1) n − K −1
2 2
Contrairement au R , le R décroît si la ou les variables additionnelles ont un faible
2
pouvoir explicatif. Cependant, il faut faire attention de ne pas interpréter le R en termes
de part de variance expliquée. Son seul avantage est qu’il permet de comparer plusieurs
2
modèles. De plus, le R peut prendre des valeurs négatives. Dans ce dernier cas, il faut
l’assimiler à zéro.
Dans les échantillons de petite taille, R < R et quand n est assez grand, R ≃ R . En
2 2 2 2
2 2
outre, le R et le R n’ont de sens que dans un modèle qui comporte un terme constant.
( )
2
SCE = ∑ Yˆi − Y
SCE Βˆ ′X ′Y − nY 2
Variation expliquée ˆ ′X ′Y − nY 2
=Β K
=
K K
ˆ ′X ′X Β
=Β ˆ − nY 2
SCR e′e
Variation résiduelle SCR = ∑ ei2 n–K–1 =
n − K −1 n − K −1
SCT = ∑ (Yi − Y ) SCT ∑ (Yi − Y )
2 2
Y 3 1 8 3 5
X1 3 1 5 2 4
X2 5 4 6 4 6
5 15 25 20
X ′X = 15 55 81 X ′Y = 76
25 81 129 109
5 15 25 βˆ0 20
Les équations normales : 15 55 81 βˆ1 = 76
25 81 129 β 2 109
ˆ
3
5
SCR = SCT − SCE = 28 − 26,5 = 1,5
σˆ ε =
2 ∑ ei2
=
1,5
= 0,75 et R 2 =
SCE 26,5
= = 0,95
n − K −1 5 − 2 −1 SCT 28
SCR ( n − K − 1) 1,5 2
Le coefficient de détermination ajusté : R = 1 − =1− = 0,81 .
2
SCT ( n − 1) 28 4
Le Tableau d’analyse de la variance :
Source de variation Somme des carrés Degré de liberté Carrées moyens
SCE 26.5
Variation expliquée SCE = 26,5 2 = = 13,25
K 2
SCR 1,5
Variation résiduelle SCR = 1,5 5–2–1=2 = = 0.75
n − K −1 2
SCT 28
Variation totale SCT = 28 5 – 1 =4 = =7
n −1 4
29
2.2- Estimation par la méthode du maximum de vraisemblance
∂Bˆ
∂ log L e′e
= 0 ⇒ σˆ ε2MV =
∂σˆ ε
2
n
La matrice des variance-covariance asymptotique de l’estimateur Bˆ MV est :
.
AsymVar ( )
Bˆ MV = σˆ ε2MV ( X ′X )
−1
30
En outre, les lois de probabilité des estimateurs sont :
βˆk − β k
(
βˆk ∼ N β k ,σ β2ˆ k
) et
σˆ βˆ
∼ t( n− K −1)
k
( n − K − 1)σˆ ε2 ∼ χ2
σε ∼ χ
2 2
( n − K −1) et ( n − K −1)
σ ε2
Les intervalles de confiance au seuil de α% sont:
IC = βˆk − t( n− K −1),α /2σˆ βˆ , βˆk + t( n − K −1),α /2σˆ βˆ pour l’estimateur de β k .
k k
(n − K − 1)σˆ 2 (n − K − 1)σˆ 2
IC = 2 ε
, 2 ε
pour l’estimateur de σ ε2 .
χ( n− K −1)α /2 χ( n− K −1)(1−α /2)
βˆ − β k
avec σˆ βˆ = ( X ′X ) σˆ ε qui est simplement la composante
−1 2
On calcule tc = k
2
σˆ βˆk k kk
correspondant à la kième ligne et la kième colonne de la matrice des variances covariances.
On rejette H0 si tc > t( n− K −1),α /2 .
L’objectif est de tester l’égalité simultanée de certains coefficients à des valeurs fixées. Par
exemple β 0 = 5 , β1 = 0,5 , …, β p = −1, 2 avec p ≤ K .
Le test est H 0 : β 0 = β 0*contre H1 : β 0 ≠ β 0*
β1 = β1* β1 ≠ β1*
........... ...........
H 0 : Β p =βΒp*p≠ β p
β p = β p*
*
′
( )( ) ( )
−1
1 ˆ
On calcule la statistique Fc = Β p − Β*p σˆ Β2ˆ Βˆ − Β*
p p
p p
où σˆ Β2ˆ est la matrice des variances – covariances des coefficients concernés par le test. On
p
31
- Test de significativité globale
Un cas particulier du problème précédent consiste à tester la nullité de tous les coefficients
de régression (excepté la constante). Le test est :
H 0 : β k = 0, ∀ k = 1,2,..., K
H1 : au moins un des β k ≠ 0
STC K R2 K
La statistique calculée est Fc = =
SCR ( n − K − 1) (1 − R 2 ) ( n − K − 1)
Si Fc > FK ,( n − K −1),α , et le modèle est globalement significatif.
Exemple :
0,702 / 3
F= = 7,878 > F3;10;0,05 = 3,71
(1 − 0,702) / 10
1
p = 2 , B2 =
−0,5
0,8 0,013 0,0012 0,013 0,0012
Bˆ 2 = , σˆ 2
= 6,745 0,0012 0,004 = 0,0012 0,004
−0,38
Βp
ˆ
Le problème consiste à déterminer quelle valeur doit être attribuée à la variable endogène
lorsque nous connaissons les valeurs des variables exogènes.
La modèle estimé est : Yi = βˆ0 + βˆ1 X 1i + βˆ2 X 2i + ... + βˆK X Ki + ei .
La prévision pour l’individu i + h (ou t + h pour les modèles de séries temporelles) est :
32
Yˆi + h = βˆ0 + βˆ1 X 1i + h + βˆ2 X 2 i + h + ... + βˆK X Ki + h
1
X
1i + h
avec X i + h = X 2i + h
⋯
X Ki + h
Yi + h − Yˆi + h
Puisque ei + h ∼ N 0,σ ei + h ,
2
1/2
∼ tn− K −1
σˆ ε X i′+h ( X ′X ) X i +h + 1
−1
Comme pour le MRS, on remarque que la variance de l’erreur de prévision est d’autant plus
faible lorsque :
- la variance résiduelle est faible ;
- les valeurs prévues des variables explicatives se rapprochent de leurs moyennes.
Elle est utilisée en économétrie pour saisir les facteurs qualitatifs – comme la race, le sexe,
la religion ou même un événement tel qu’une guerre, une grève, un tsunami, etc. – que l’on
désire intégrer dans les modèles. Comme variable explicative, on la note généralement par
la lettre D, pour dire dummy.
L’utilisation de ces variables dépend fortement du problème posé. Comme variables
explicatives, les variables binaires sont utilisées pour résoudre les problèmes suivants :
- corriger les écarts aberrants (ou déviants) ;
- capter l’hétérogénéité des individus ou la présence de la discrimination ;
- capter les variations saisonnières.
33
5.1- Corriger les valeurs singulières (ou anormales)
Lorsque la variable endogène comporte, à certaines dates, des valeurs atypiques – c’est-à-
dire des valeurs anormalement élevées ou anormalement basse s – associées en général à
la survenance de chocs ou d’événement rares, il y a lieu d’incorporer une dummy dans le
modèle afin d’en tenir compte. La démarche consiste simplement à détecter les valeurs
anormales et à les corriger, en mettant 1 à ces dates là et 0 ailleurs, afin que les déviants ne
perturbent pas l’estimation statistique des autres variables.
Exemple :
On veut estimer le modèle Yt = β 0 + β1 X t + ε t à partir des données suivantes :
Date 10 janvier 10 février 10 mars 10 avril 10 mai 10 juin
Xt 5 7 8 9 10 12
Yt 10 12 2 15 17 20
Remarques :
- La correction effectuée n’est valable que si le coefficient associé à la variable dummy est
statistiquement significatif.
34
- Attention à ne pas saisir les écarts anormalement élevés et anormalement bas par une
même une variable muette. Lorsque la série présente à la fois les deux types d’écarts, il
convient de les capter par deux variables auxiliaires différentes, l’une pour les
observations exceptionnellement élevées et l’autre pour celles exceptionnellement basses.
Les variables indicatrices sont aussi utilisées pour prendre en compte les mouvements
saisonniers qui caractérisent certaines variables comme les ventes qui sont généralement
plus importantes en certaines périodes de l’année qu’en d’autres. Par exemple, sur des
données trimestrielles, on peut distinguer l’effet saisonnier de chaque trimestre en créant 4
variables dummy D1, D2, D3 et D4 prenant respectivement la valeur 1 le premier, le second,
le troisième et le quatrième et 0 sinon.
35
Statistique
1e année bachelor
Questions de cours
Exercice 1
P 2 7 5 1 4 8 2 8
Q 15 41 32 9 28 43 17 40
1) Estimez par la méthode des MCO la droite de régression liant la quantité offerte au prix
Q = β 0 + β1 P + ε .
2) Dressez le tableau d’analyse de la variance et calculez le coefficient de détermination R 2 .
Interpréter le.
3) La régression est-elle globalement
globale significative au seuil de 5%?
4) Calculez les écarts types des estimateurs β̂ et βˆ .0 1
Exercice 2
Travail demandé :
1- Estimer les coefficients du modèle.
2- Evaluer la qualité de la régression.
3- Tester la significativité globale du modèle de deux manières.
Exercice 3
Vous êtes sollicités pour analyser la relation entre les importations (Y) d’un pays, la
consommation des ménages (X1) et le PIB (X2) sur la base des données suivantes :
Y 2 2,8 4 4 3,7
X1 2 3 5 4 3
X2 5 6 6 5 6