Académique Documents
Professionnel Documents
Culture Documents
INTRODUCTION
CONCLUSION
I/ LE MODELE DE REGRESSION SIMPLE
y t =a1 x t +a 0
On parle de modèle de régression simple car le modèle ne comporte qu’une seule variable
explicative qui est x . Lorsque le modèle comporte plusieurs variables explicatives, on parlera
t
Notations :
avec par exemple t = 1980, 1981,…, 2004 (qui peut être remplacé par un nombre : t =
1,2,…,T)
Où t est la date à laquelle on observe la valeur de yt et de xt et εt est une variable aléatoire
représentant l’erreur de spécification dont les caractéristiques seront précisées au cours de
l’énoncé des hypothèses du modèle. On introduit la variable εt pour marquer le fait que toute
modélisation d’un phénomène ne peut pas être parfaite.
ŷ =âx +â
t 1 t 0
Ou encore
y =âx +â +e
t 1 t 0 t
La technique des Moindres Carrés Ordinaire (MCO) apporte une réponse au problème posé.
On doit estimer a1 et a0 de façon à minimiser la distance au carré entre chaque point observé y t
Soit e = y – ŷ l’écart entre ces deux mesures, la méthode ou technique des MCO consiste à
t t
T T T
Min ∑ et =min ∑ ( y t −^y t ) =min ∑ ( y t− a^ 1 x t −a 0) =min S
2 2 2
t =1 t =1 t=1
Où T désigne le nombre d’observations pour les variables y et x . t t
Les conditions nécessaires du 1er ordre pour obtenir un optimum pour S sont :
T
∂S
• = 0 ¿> ∑ −2 ( yt − a^ 1 x t −a0 ) =0 → dite « équation normale »
∂ a^ 0 t =1
T T T
¿> ∑ y t−¿ ∑ a^ 1 x t −∑ a^ 0 ¿
t =1 t =1 t=1
T T
∑ y t ∑ a^ 1 x t T a^ 0 = 0
t=1 t =1
¿> − −
T T T
¿> y −^a1 x−^a 0 = 0
⇔â 0 = y− a^ 1 x
T T T
¿>−∑ xt y t +∑ a^ 1 x + ∑ a^ 0 xt =0
2
t
t =1 t=1 t =1
T T T
∑ x t y t a^ 1 ∑ x 2t a^ 0 ∑ x t
t=1 t =1 t =1
¿> + + =0
T T T
T T
∑ xt yt a^ 1 ∑ x 2t
( y− a^ 1 x ¿ x=0 en utilisant l’expression de l’estimateur de
¿> t=1 + t =1
+¿
T T
a0
( )
T T
−∑ x t y t ∑ x 2t
t =1 t =1 2
¿> + a^ 1 −x + x y=0
T T
T T
∑ xt yt ∑ x t y t −T y x
t =1 t =1
−x y
T T
¿> a^ 1= = estimateur par les MCO
( )
T ¿¿
∑x 2
t
t =1
−x 2
T
2
H3 : Var(ε ) = E(ε ) – (E(ε ))² = E(ε ) = σ ε ∀t car on a supposé E(ε ) = 0
t
2
t
2
t t
Ces hypothèses permettent aux estimateurs d’obtenir les bonnes propriétés suivantes :
2/ les estimateurs sont convergents : Tlim var ( a^ 1)=0 et lim var ( a^ 0 )=0
→+∞ T →+∞
Théorème de Gauss-Markov :
Les estimateurs des MCO ont la plus petite variance parmi les estimateurs linéaires sans biais.
On dit que ce sont des estimateurs BLUE (Best Linear Unbiased Estimator).
où SCT = somme des carrés totale ou variabilité totale de y , SCE = somme des carrés t
expliquée ou variabilité expliquée par ŷ , SCR = somme des carrés des résidus ou variabilité
t
des résidus.
Soit
∑ ( y t − y )2 ∑ ( y t − y )2 ∑ ( y t− y ) 2
t =1 t =1 t =1
T
On a : ^y = y car on ∑ et = 0 lorsque le modèle comporte une constante. Plus SCE est
t =1
proche de SCT, meilleur est l’ajustement du nuage de points par la droite des
MCO.
Le R² est compris entre 0 et 1 (0 ≤ R² ≤ 1) : plus il est proche de 1, meilleur est l’ajustement.
{
y 1=a0 + a1 x 11+ a2 x 21 +…+ ak−1 x (k −1 )1 + ε 1
y 2=a0 + a1 x 12+ a3 x22 +…+ ak−1 x ( k−1 ) 2+ ε 2
…
y T =a0 +a1 x 1T +a2 x 2T + …+a k−1 x (k−1 )T + ε T
Pour alléger cette écriture, on va écrire ce système d’équation sous forme matricielle :
[] [ ] [ ] []
y1 1 x 11 x 21 … x(k−1)1 a0 ε1
y 1 x 12 x 22 … x(k−1)2 a1 ε2
Y= 2 ; X= ; a= ; ε=
… … … … … … … …
yT 1 x 1T x2T … x (k−1)T a k−1 εT
Y = X (T , k) a(T ,1) + ε .
(T,1) (T,1)
Afin d’estimer le vecteur a des coefficients, on applique la méthode des MCO qui consiste
toujours à minimiser la somme des carrés des résidus, soit :
T
Min ∑ et =min e e=min ( Y − X a^ ) ( Y −X a^ )=minS
2 ' '
t =1
où e’ est le transposé du vecteur e.
Les équations issues de la relation -X’Y + X’Xâ = 0 sont appelées équations normales.
On voit que l’on ne peut obtenir l’estimateur â de a que si (X’X) est inversible. Lorsqu’il y a
colinéarité des variables explicatives, la matrice (X’X) n’est pas inversible !
-1
H3 : Rg(X) = k et T > k
(le nombre d’observations T doit être supérieur au nombre de variables explicatives k car on a
Rg(X(T,k)) ≤ Min(T,k). Si T > k, on a alors Rg(X) = k qui est vérifiée)
( )[ ]
var ( ε 1 ) cov ( ε 1 , ε 2 ) … cov ( ε 1 , ε T ) E ( ε1 ε1 ) E ( ε1 ε2 ) … E ( ε1 ε n )
cov ( ε 2 , ε 1 ) var ( ε 2 ) … cov ( ε 2 , ε T ) E ( ε2 ε1 ) E ( ε2 ε2 ) … E ( ε2 ε n )
Vε = E(εε’) = =
… … … … … …. ……….
cov ( ε T , ε 1 ) … var ( ε T ) E ( εT ε1 ) … … E ( εT εT )
Var(ε 1 ¿=E ( ε t ) −¿
2
car on a et Cov
[ ]
2
σε 0 … 0
2
0 σ … 0 =σ 2 I (I est une matrice identité )
ε
Vε = E(εε’) = ε
… … … …
2
0 0 … σε
X'X
H5 : tend versune matrice finie non singulière ( inversible ouregulière ) .
T
Ces hypothèses permettent aux estimateurs d’obtenir les bonnes propriétés suivantes :
−1
1 1(
ou encore : V = σ 2ε â ( X ’ X ))
T T
On a : Tlim V ^a = 0 si l’hypothèse H5 suivante est vérifiée : 1 ( X ’ X ) tend vers une matrice
→∞ T
finie, définie positive et inversible lorsque T tend vers ∞.
2 2 ∑e 2
σ ε =s = SCR t=1 1
=
T −k T −k
∑ ( y t − y) =∑ ( ^y t −^y ) +∑ e 12
2 2
t =1 t=1 t =1
Où SCT = somme des carrés totale ou variabilité totale de y t , SCE = somme des carrés
expliquée ou variabilité expliquée par ^y t , SCR = somme des carrés des résidus ou variabilité
des résidus.
T T T
D’où
∑ ( yt − y ) 2
∑ (^y t −^y ) 2
∑ e1 2
t =1
= t =1 + t =1
T T T
SCE t=1
∑ ( ^y t− ^y )2 ∑ ( ^y t − y )2 ∑ e 12
R² = = T = t =1 =1− t =1
SCT T T
∑ ( y t− y)2 ∑ ( y t − y )2 ∑ ( y t − y )2
t=1 t =1 t =1
T
^y =¿ y et ∑ e1 =0 (lorsque le
2
On a comme pour le modèle de régression simple, on a :
t =1
modèle comporte une constante).
2 2 T −1
Rc =1−(1−R )
T −k
Remarque :
En général, lorsque les modèles n’ont pas le même nombre de variables explicatives, on
√
'
utilise pour comparer les modèles le critère du s = σ^ ε= e e où e’ est le transposé du
T −k
vecteur des résidus du modèle estimé, T désigne le nombre d’observations et k le nombre de
variables explicatives. Le meilleur modèle est celui qui a le s le plus petit.
Une variable indicatrice est une variable explicative particulière qui est composée de 0 et de
1.
On peut l’utiliser dans 3 cas :
La présence d’un point aberrant dans une série temporelle a pour conséquence
l’autocorrélation des erreurs, il faut donc l’éliminer. Si on a une série temporelle, on ne peut
pas le supprimer directement de la série (on aurait un « trou » dans la série). Il faut utiliser une
variable indicatrice.
Cette variable aura une valeur égale à 1 pour la date à laquelle on observe le point aberrant et
une valeur égale à 0 pour toutes les autres dates de la série temporelle, c’est-à-dire on a :
{
ème '
I = 1 sit=1982.3 pour≤3 trimestre de l année 1982
82.3
0 sinon
y t =a1 x t +a 0+ v t
Où ε t et v t désignent l’erreur de chacun des 2 modèles.
Détection des valeurs anormales : construction de l’intervalle de confiance pour les résidus :
^y t =Xa^ + e
= Xa +ε – Xa - X(X’X) X’ε -1
= (I - X(X’X) X’)ε
-1
D’où, on a
Var(e )= σ ε2 (1−htt )
t
et et
On obtient alors : = > N ( 0,1)
√Var ( e t) σ ε √1−htt
√ SCR et
Si on remplace σ ε par son estimateur σ ε = s = , le rapport suit alors la loi de
T −k s √1−htt
Student avec (T-k) degrés de liberté :
et
~> S(T-k).
s √ 1−htt
et
Lorsque T grand (T > 30), on a qui suit la loi normale centrée et réduite, on peut
s √1−htt
alors écrire :
Prob(-1.96 s √ 1−htt )≤ e t ≤ 1.96 s √ 1−h tt) = 1-α
Où 1,96 représente la valeur critique de la loi normale centrée et réduite pour un risque de 1 ère
–1,96s ≤ e t ≤ 1,96s
Les résidus qui se trouvent en dehors de cet intervalle sont des points aberrants.
D/ Prévisions
Lorsque les coefficients du modèle ont été estimés, il est possible de faire une prévision à un
horizon h.
si la valeur des variables explicatives x1 (T+1) , x2(T+1) ,…, x (k-1)(T+1) est connue en T+1, la
prévision de ŷ est donnée par :
T+1
Est ce que cet écart e = y - ŷ est acceptable ? Pour répondre à cette question, on va
T+1 T+1 T+1
√ √
( X −X )2 1 (X T +1− X)
2
t
α/ 2
^σ ε 1 + T T +1 α/ 2
^
+1 ≤ y T +1− ^y T +1 ≥+t T−1 σ ε + +1
- T−1
T T T
∑ ( X T −X )2
∑ (X T − X) 2
t =1 t =1
( )
2
1 (X −X )
^σ ε + T T+1 +1
Car Var(e )= T
∑ ( X T −X ) 2
t
t=1
t αT−1
/2
représente la valeur critique de la loi de Student pour un risque de α % et (T-2) degrés de
liberté.
D’où l’intervalle de prévision suivant :
√ √
2 2
(X − X) 1 ( X T +1−X )
^y T +1−t α/ 2
^ 1 + T T +1
T−1 σ ε + 1≤ y T +1 ≥ ^y T +1 +t T −1 σ^ ε
α /2
+ +1
T T T
∑ ( X T − X)2
∑ ( X T −X )2
t =1 t=1
Pour un modèle avec plusieurs variables explicatives, on a :
Lorsque l’on dispose de la valeur observée yT+1, on peut vérifier si le modèle que l’on a
estimé est bon ou non en regardant si cette valeur appartient ou non à l’intervalle de
confiance. Si cette valeur n’appartient pas à l’intervalle de confiance, le modèle estimé n’est
pas bon.
Pour savoir si une variable joue un rôle explicatif dans un modèle, on effectue un test de
Student ou test de significativité du coefficient de la variable explicative.
Pour faire un test de Student, il faut vérifier au préalable que les erreurs suivent une loi
normale :
ε t > N (0 , σ^ ε )
a^ i−ai
La statistique de test est : t = ^ > S(T −k )
σ a^ i
La statistique de test suit la loi de Student à (T-k) degrés de liberté car les erreurs du modèle
suivent une loi normale.
Sous H0 vraie, on a
a^ i
t= ^ > S (T −k )
σ a^i
La règle de décision est la suivante :
Si | t | > t* où t* est la valeur critique de la table de Student pour un risque fixé et un nombre
de degré de liberté égal à (T-k)
⇒ On rejette H0 et on accepte H1 : le coefficient est significativement différent de zéro et la
variable joue un rôle explicatif dans le modèle.
Remarque :
Lorsque la taille d’échantillon est grande (T > 30), on peut comparer | t | directement avec le
seuil critique de la loi normale centrée et réduite qui est 1,96 (pour un risque de 5%) car
d’après le théorème central limite, la loi de Student tend vers une loi normale lorsque T est
suffisamment grand. Donc, si | t | > 1,96 ⇒ on rejette H0 et on accepte H1 : le coefficient est
significatif et la variable joue un rôle explicatif dans le modèle.
Si le coefficient n’est pas significativement différent de zéro, il faut enlever la variable
explicative correspondante du modèle (à condition que le critère du s n’augmente pas ! Il
arrive que nous puissions nous tromper sur la non significativité d’une variable en présence
d’une colinéarité des variables explicatives qui entraîne des t de Student relativement faibles
nous conduisant à rejeter à tort certaines variables explicatives. C’est pourquoi il faut
examiner la valeur du s après le retrait des variables jugées non significatives. Une hausse de
la valeur du s indique que la variable retirée était en fait contributive à l’explication de la
variable endogène).
f=
( SCR ¿ ¿ c−SCR nc )/(ddl c −ddl nc )
> F ( ddl c −ddl nc ) =F ( p , q)¿
(SCR nc / ddl nc )
Avant d’effectuer le test de Student, il faut effectuer un test de normalité afin de vérifier que
les erreurs sont gaussiennes.
Soit le modèle suivant :
Y = Xa + ε.
{ H 0 :ε t > N (0 , σ^ ε)
H 1 :les erreurs ne suivent pas une loi normale
μ3
α 3= 3
σε
Nous désirons déterminer un estimateur de a qui ait les mêmes propriétés que l’estimateur des
MCO : sans biais, fonction linéaire de Y et à variance minimale. Il démonte que cet
estimateur sest donné par :
a^ =¿(¿Y)
Ωa^ =¿
Cet estimateur est appelé estimateur des Moindres Carrés Généralisés (MCG) ou encore
estimateur de Aitken.
REMARQUE : lorsque les hypothèses classiques sont satisfaites, nous retrouvons
l’estimateur des MCO
( ( ))( ( ))
−1
1 1 −1
a^ =¿Y) = X
'
2
I X X' 2
I Y =( X ' X ) ( X ' Y )
σε σε
Dans la pratique, nous ne connaissons pas la matriceΩ ε, les formules ci-dessus ne sont pas
utilisables, sauf dans des cas exceptionnels. Il convient donc de présenter des procédures
d’estimation opérationnelles.
CONCLUSION