Chapter 2

Econométrie
Chapitre 2 : Modèle de Régression Linéaire Simple
Pr. Moad El kharrim
Université AbdelMalek Essaâdi, FSJES - Tétouan

sites.google.com/view/kharrim
melkharrim@uae.ac.ma
Année Universitaire 2023-2024
Pr. Moad El kharrim Modèle de Régression Linéaire Simple 2023-2024 1 / 39

Sommaire du chapitre
1 Construction de Modèle de Régression
2 Estimation des Moindres Carrés et les Hypothèses Classiques
3 Conséquences de la Normalité des Erreurs
4 Inférences dans la Régression et Analyse de la Variance (ANOVA)
5 Prévision dans le Modèle de Régression Simple

Construction de Modèle de Régression
Présentation Formelle du Modèle
La régression simple est le modèle le plus simple : une variable
endogène est expliquée par une variable exogène.
Soit la fonction de consommation keynésienne : Y = β0 + β1 X
▶ Y = Consommation
▶ X = Revenu
▶ β1 = Propension marginale à consommer
▶ β0 = Consommation autonome ou incompressible

La variable consommation est appelée variable à expliquer,
variable endogène, variable de réponse ou variable dépendante.
La variable revenu est appelée variable explicative, exogène ou
encore variable indépendante.
β1 et β0 sont les paramètres du modèle ou encore les coefficients de
régression

Nous pouvons distinguer deux types des spécifications.
Les modèles en série temporelle, les variables représentent des
phénomènes observés à intervalles de temps réguliers.
Par exemple la consommation et le revenu annuel de 2000 à 2020
pour un pays donné :
Yi = β 0 + β 1 Xi i = 2000, . . . , 2020

Les modèles en coupe instantanée, les variables représentent des
phénomènes observés au même instant mais concernant divers
individus, par exemple la consommation et le revenu observés sur un
échantillon de 20 pays
Yi = β 0 + β 1 Xi i = 1, . . . , 20
Yi = Consommation pour le pays i en 2020
Xi = Revenu pour le pays i en 2020

Le modèle qu’il vient d’être spécifié n’est qu’une caricature de la
réalité.
En effet, ne retenir que le revenu pour l’explication de la
consommation est à l’évidence même insuffisant.
Il existe une multitude d’autre facteurs susceptibles d’expliquer la
consommation.

C’est pourquoi nous ajoutons un terme (εi ) qui synthétise l’ensemble de
ces informations non explicitées dans le modèle.
Yi = β 0 + β 1 Xi + ε i i = 1, . . . , n
Où (ε) représente l’erreur de spécification du modèle, c’est-à-dire
l’ensemble des phénomènes explicatifs de la consommation non liés au
revenu.

Consommation
Revenu Disponible
Fonction de consommation “réelle”
En pratique, le terme (ε) mesure la différence entre les valeurs
réellement observées de Yi , et les valeurs qui auraient été observées
si la relation spécifiée avait été rigoureusement exacte.
Le terme (ε) regroupe donc trois types d’erreurs :
▶ Erreur de spécification, c.à.d. le fait que la variable explicative n’est
pas suffisante.
▶ Erreur de mesure : les données ne représentent pas exactement le
phénomène.
▶ Erreur de fluctuation d’échantillonnage.

Estimation des Moindres Carrés et les Hypothèses Classiques
Estimation des Moindres Carrés
Dans la réalité nous ne connaissons pas les valeurs vraies des
coefficients
On peut seulement observer le valeurs de Y et de X .
Les estimateurs de coefficients sont notés respectivement : βb0 et βb1 .
Ce sont des variables aléatoires, qui suivent les mêmes lois de
probabilité, celle de (ε), puisque ils sont fonction de (ε).

Consommation
Revenu Disponible
Fonction de consommation “éstimée”
Estimation des paramètres du modèle
Yi = β 0 + β 1 Xi + ε i pour i = 1, . . . , n
Avec :
Yi = Variable à expliquer au temps i
Xi = Variable explicative au temps i
βb0 , βb1 = Paramètres du modèle
εi = Erreur de spécification
n = Nombre d’observations
Hypothèses
H1 : E (εi ) = 0 pour tout i = 1, ..., n, c’est-à-dire, les erreurs ont une

moyenne nulle.

H2 : var (εi ) = E ε2i = σ 2 , pour tout i = 1, ..., n, c’est-à-dire, les
erreurs ont une variance constante (Homoscédasticité).
H3 : E (εi εj ) = 0 pour i ̸= j et i, j = 1, ..., n , c’est-à-dire, les erreurs ne
sont pas corrélées.
H4 : Les valeurs de X sont observés sans erreur (X est non
stochastique).
H5 : cov (Xi , εi ) = 0 pour tout i = 1, ..., n ; toutes les variables
explicatives ne sont pas corrélées avec le terme d’erreur.

H6 : Les εi ’s sont indépendants et identiquement distribués N 0, σ 2 .

Les estimateurs des coefficients βb0 et βb1 , sont obtenus en minimisant la
distance au carré entre chaque observation et la droite.
D’où le nom d’estimateur des moindres carrés ordinaires (MCO)
La résolution analytique est la suivante :
X
n n
X 2
Min SCR ≡ Min ei2 ≡ Min Yi − βb0 − βb1 Xi
i=1 i=1

En opérant par dérivation par rapport à β0 et β1 (c’est-à-dire les

conditions de premier ordre) afin de trouver le minimum de cette
fonction,
on obtient les résultats suivants :
P
n
∂ ei2
P
n P
n P
n
i=1
= −2 ei = 0 =⇒ Yi − n βb0 − βb1 Xi = 0
∂β0 i=1 i=1 i=1

Pn
∂ ei2
P
n P
n P
n P
n
i=1
= −2 ei Xi = 0 =⇒ Yi Xi − βb0 Xi − βb1 Xi2 = 0
∂β1 i=1 i=1 i=1 i=1
On obtient :
P
n
Xi − X̄ Yi − Ȳ
βb1 = i=1
2 et βb0 = Ȳ − βb1 X̄
P
n
Xi − X̄
i=1
La spécification du modèle n’est pas neutre :
▶ Y = f (X ) n’est pas équivalente à X = f (Y )
▶ Le coefficient β1 représente la pente de la droite ou encore la
propension marginale. On verra que lorsque les variables sont
transformées en logs, le coefficient représentera l’élasticité.
Il y a des cas spéciaux où le terme constante est nul : pour exemple
le cas d’une fonction de production où le facteur fixe n’intervienne
pas.

Le modèle de régression linéaire simple peut s’écrire sous deux formes
selon qu’il s’agit du modèle théorique spécifié par l’économiste ou du
modèle estimé à partir d’un échantillon.
Le résidu observé (ei ) est donc la différence entre les valeurs observées
bi à l’aide des
de la variable à expliquer Yi et les valeurs ajustées Y
estimations des coefficients du modèle, on a :
bi = Yi − βb0 − βb1 Xi
ei = Yi − Y i = 1, 2, ..., n

Propriétés Statistiques des Estimateurs des

Moindres Carrés
Les estimateurs obtenus en utilisant la méthode des moindres carrés
ordinaires ont deux proprieté importantes :
Estimateurs Sans Biais
Consistance (où Convergence)

Propriétés Statistiques des Estimateurs des

Moindres Carrés
Estimateurs Sans Biais :

E βb1 = β1 et E βb0 = β0
Consistance (où Convergence) :

 
 σ2 
▶ lim var βb1 = lim  n 
n→∞ n→∞  P 2  = 0
Xi − X̄
 i=1 
1 X̄ 2 
▶ lim var βb0 = σ 2  + n 
n→∞ n P 2  = 0
Xi − X̄
i=1
Ces types d’estimateurs sont dit ‘BLUE’ : Best Linear Unbiased
Conséquences de la Normalité des Erreurs
L’hypothèse de normalité des erreurs n’est pas nécessaire pour
obtenir des estimateurs convergents.
Cette hypothèse est en revanche importante pour construire des
tests statistiques concernent la validité du modèle estimé.

les εi sont indépendants N 0, σ 2

Estimation de la Variance des Erreurs σε2
La variance des erreurs de régression notée σ 2 est inconnue et doit être
estimée. En fait, la variance de βb1 et celle de βb0 dépendent de σ 2 . Un
estimateur sans biais pour σ 2 est :
P
n
ei2
i=1
b =
σ 2
n−2

Estimation des Variances des Estimateurs βb1 et βb0
Les variances estimées des deux estimateurs βb1 et βb0 sont :
b2
σ
bβ2b =
σ 2
1 P
n
Xi − X̄
i=1
 
1 X̄ 2 
σ b2 
bβ2b = σ n + P
n

2 
0
Xi − X̄
i=1

En conséquence de l’hypothèse de normalité des erreurs, on peut

observer que :
βb1 − β1
∼ N (0, 1)
σβb1
βb0 − β0
∼ N (0, 1)
σβb0
En utilisant ces formules, on peut mettre en place des tests statistiques
pour :
Comparer un coefficient de régression par rapport a une valeur
fixée
Comparer deux coefficients provenant de deux échantillons
différents
Déterminer un intervalle de confiance pour un coefficient
Inférences dans la Régression et Analyse de la Variance (ANOVA)
Intervalles de Confiance
On peut obtenir un intervalle de confiance pour β1 en utilisant le fait
que
h i
Pr −tn−2 < tβ∗b < tn−2 = 1 − α
α/2 α/2
1
βb1 − β1
et en substituant t ∗b par sa valeur . Puisque les valeurs critiques
β1 bβ̂1
σ
sont connues, βb1 et σ
bβ̂1 peuvent être calculés à partir des données, et
l’intervalle de confiance de β1 avec un niveau de confiance (1 − α) % se
présente comme
h i
ICβ1 = βb1 ± tn−2 σ
α/2
bβ̂1

Tests de Signification des Paramètres de Régression
Une approche alternative mais complémentaire à la méthode des
intervalles de confiance pour tester des hypothèses statistiques est
l’approche des tests de signification développée indépendamment
par R. A. Fisher et conjointement par Neyman et Pearson.
De manière générale, un test de signification est une procédure par
laquelle des résultats d’échantillons sont utilisés pour vérifier la
véracité ou la fausseté d’une hypothèse nulle.

Test Bilatéral
Les deux alternatives possibles sont :
H0 ; β 1 = 0
H1 ; β1 ̸= 0
Tester l’hypothèse H0 contre l’hypothèse H1 , soit à comparer le ratio

βb1
empirique de Student |t ∗b | (dans ce cas t ∗b = ) à la valeur de t de
β1 β1 bβ̂1
σ
Student lue dans la table de de la loi de Student à (n − 2) degrés de
liberté pour un seuil de probabilité égal à 5%.
La règle de décision avec ce test pour contrôler le niveau de
signification est la suivante :
Si |t ∗b | ≤ tn−2 on accepte H0
α/2
β1
|t ∗b |
α/2
Si > tn−2 on accepte H1
β1

Test Unilatéral
Supposons que nous voulons vérifier si β1 est positif ou non. Les
alternatives seraient alors :
H0 ; β 1 ≤ 0
H1 ; β 1 > 0
Tester l’hypothèse H0 contre l’hypothèse H1 , soit à comparer le ratio

empirique de Student |t ∗b | à la valeur de t de Student lue dans la table
β1
de de la loi de Student à (n − 2) degrés de liberté pour un seuil de
probabilité égal à 5%.
La règle de décision avec ce test pour contrôler le niveau de
signification est la suivante :
Si |t ∗b | ≤ tn−2
α on accepte H0
β1
Si |t ∗b | > tn−2
α on accepte H1
β1

Analyse de la Variance (ANOVA)
L’analyse de la variance est importante pour évaluer dans quelle mesure
le modèle estimé est capable de expliquer la réalité.
La formule pour l’analyse de la variance est la suivante :
P
n 2 n
P 2 P
n
Yi − Ȳ = b
Yi − Ȳ + ei2
i=1 i=1 i=1
SCT = SCE + SCR
La variabilité totale est égale à la variabilité expliquée plus la
variabilité des residus

Cette équation va nous permettre de juger de la qualité de l’ajustement
d’un modèle
Plus la variance expliquée est proche de la variance totale, meilleur est
l’ajustement du nuage de points par la droite des moindres carrés
n
P 2 P
n
bi − Ȳ
Y ei2
SCE SCR
R2 = = i=1
P
n 2 = 1 − P
n
i=1
2 = 1 − SCT
SCT
Yi − Ȳ Yi − Ȳ
i=1 i=1
R2 = Coefficient de détermination ;

Notez que R2 a deux significations alternatives :

bi ;
C’est le coefficient de corrélation simple au carrée entre Yi et Y
c’est-à-dire r 2 bi .
Yi ,Y
C’est la corrélation simple au carré entre X et Y .

Degrés de
Source de Somme des Carrés Carrés Moyens
liberté (ddl)
variation
n
P 2 SCE
X SCE = bi − Ȳ
Y 1 MCE =
i=1 1
P
n SCR
Résidu SCR = ei2 n−2 MCR =
i=1 n−2
P
n 2
Total SCT = Yi − Ȳ n−1
i=1
Tableau d’Analyse de la Variance

Test de Fisher
Le test d’hyopthèse H0 ; β1 = 0 est équivalent au test d’hypothèse
H0 ; SCE = 0 (la variable explicative Xi ne contribue pas à l’explication
du modèle).
Soit le test d’hypothèses H0 ; SCE = 0 contre H0 ; SCE ̸= 0. La
statistique de ce test est donnée par :
n
P 2
bi − Ȳ
Y
SCE i=1 R2
ddlSCE MCE
F∗ = = = 1 = 1
SCR MCR P
n
1 − R2
ei2
ddlSCR i=1 n−2
n−2
Test de Fisher
F ∗ suit une statistique de Fisher à 1 et n − 2 degrés de liberté. Si
F ∗ > F1;n−2
α nous rejetons au seuil α l’hypothèse H0 d’égalité des
variances, la variable Xi est significative ; dans le cas contraire, nous
acceptons l’hypothèse d’égalité des variances, la variable Xi n’est pas
explicative de la variable Yi .

Remarque
!2
2 βb1 βb12
∗
F = tβ∗b = =
1 bβ̂1
σ b2
σ
P
n 2
Xi − X̄
i=1
P
n 2 R2
βb12 Xi − X̄
= i=1
= 1
P
n
1 − R2
ei2
i=1 n−2
n−2

Prévision dans le Modèle de Régression Simple
Losque les coefficients du modèle de régression sont estimés, il est serait
aisé de calculer une prévision futur à un horizon h.
Soit le modèle de régression estimé sur une période i = 1, ..., n
Yi = βb0 + βb1 Xi + εi i = 1, ..., n
Si la valeur de la variable explicative Xi est connue en n + 1 soit Xn+1 ,
la prévision est donnée par : Yn+1 = βb0 + βb1 Xn+1 , on parle d’une
prévision ponctuelle sans biais.

Dans la pratique, il n’est que de peu d’utilité de connaître la prévision
si nous ne savons pas quel degré de confiance nous pouvons lui
accorder. Nous allons donc calculer la variance de l’erreur de
prévision qui nous permet de déterminer un intervalle de confiance
bornant la prévision (on parle d’un intervalle de prédiction).

 
2
 1 Xn+1 − X̄ 
bn+1 = σ
var (en+1 ) = var Yn+1 − Y b2  1 + + 
 n P
n 2 
Xi − X̄
i=1
L’hypothèse de normalité de εi permet alors de déterminer un intervalle
à (1 − α) % pour la prévision :
  
2
  
bn+1 ∼ N 0, σ 2 1 + 1 + Xn+1 − X̄ 
en+1 = Yn+1 − Y   n Pn 2  
Xi − X̄
i=1

Soit
βb + βb1 Xn+1 − Yn+1
v 0  ∼ tn−2
u
u 2
u Xn+1 − X̄ 
u 1 
b u1 + + n
σ 2 
t n P
Xi − X̄
i=1
ainsi l’intervalle de prédiction est donnée comme suit :
v 
u
u
u Xn+1 − X̄ 
2
bn+1 ± t α/2 σ u 1 
Yn+1 =Y n−2 ub  1+ + n 2 
t n P
Xi − X̄
i=1

Chapter 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapter 2

Transféré par

Droits d'auteur :

Formats disponibles

Econométrie

Chapitre 2 : Modèle de Régression Linéaire Simple

Pr. Moad El kharrim

Université AbdelMalek Essaâdi, FSJES - Tétouan

Année Universitaire 2023-2024

Pr. Moad El kharrim Modèle de Régression Linéaire Simple 2023-2024 1 / 39

1 Construction de Modèle de Régression

2 Estimation des Moindres Carrés et les Hypothèses Classiques

3 Conséquences de la Normalité des Erreurs

4 Inférences dans la Régression et Analyse de la Variance (ANOVA)

5 Prévision dans le Modèle de Régression Simple

Pr. Moad El kharrim Modèle de Régression Linéaire Simple 2023-2024 2 / 39

Présentation Formelle du Modèle

La régression simple est le modèle le plus simple : une variable

endogène est expliquée par une variable exogène.

Soit la fonction de consommation keynésienne : Y = β0 + β1 X

▶ β1 = Propension marginale à consommer

▶ β0 = Consommation autonome ou incompressible

Pr. Moad El kharrim Modèle de Régression Linéaire Simple 2023-2024 3 / 39

Présentation Formelle du Modèle

La variable consommation est appelée variable à expliquer,

variable endogène, variable de réponse ou variable dépendante.

La variable revenu est appelée variable explicative, exogène ou

encore variable indépendante.

β1 et β0 sont les paramètres du modèle ou encore les coeﬃcients de

Pr. Moad El kharrim Modèle de Régression Linéaire Simple 2023-2024 4 / 39

Présentation Formelle du Modèle

Nous pouvons distinguer deux types des spéciﬁcations.

Les modèles en série temporelle, les variables représentent des

phénomènes observés à intervalles de temps réguliers.

Par exemple la consommation et le revenu annuel de 2000 à 2020

pour un pays donné :

Pr. Moad El kharrim Modèle de Régression Linéaire Simple 2023-2024 5 / 39

Présentation Formelle du Modèle

Les modèles en coupe instantanée, les variables représentent des

phénomènes observés au même instant mais concernant divers

individus, par exemple la consommation et le revenu observés sur un

Pr. Moad El kharrim Modèle de Régression Linéaire Simple 2023-2024 6 / 39

Présentation Formelle du Modèle

Le modèle qu’il vient d’être spéciﬁé n’est qu’une caricature de la

En eﬀet, ne retenir que le revenu pour l’explication de la

consommation est à l’évidence même insuﬃsant.

Il existe une multitude d’autre facteurs susceptibles d’expliquer la

Pr. Moad El kharrim Modèle de Régression Linéaire Simple 2023-2024 7 / 39

Présentation Formelle du Modèle

C’est pourquoi nous ajoutons un terme (εi ) qui synthétise l’ensemble de

ces informations non explicitées dans le modèle.

Où (ε) représente l’erreur de spéciﬁcation du modèle, c’est-à-dire

l’ensemble des phénomènes explicatifs de la consommation non liés au

Pr. Moad El kharrim Modèle de Régression Linéaire Simple 2023-2024 8 / 39

Présentation Formelle du Modèle

Présentation Formelle du Modèle

En pratique, le terme (ε) mesure la diﬀérence entre les valeurs

réellement observées de Yi , et les valeurs qui auraient été observées

si la relation spéciﬁée avait été rigoureusement exacte.

Le terme (ε) regroupe donc trois types d’erreurs :

▶ Erreur de spéciﬁcation, c.à.d. le fait que la variable explicative n’est

Pr. Moad El kharrim Modèle de Régression Linéaire Simple 2023-2024 10 / 39

Estimation des Moindres Carrés

Dans la réalité nous ne connaissons pas les valeurs vraies des

On peut seulement observer le valeurs de Y et de X .

Les estimateurs de coeﬃcients sont notés respectivement : βb0 et βb1 .

Ce sont des variables aléatoires, qui suivent les mêmes lois de