AS2 Cours EML Fev 2023 Chap1+2

Support de cours Traitement & Analyse des données d'enquête
Communauté Economique et Monétaire de l'Afrique Centrale

(CEMAC)
aout 2010 Institut Sous-régional de Statistique et d'Economie Appliquée
(ISSEA)
Organisation Internationale
Support de cours
Econométrie du Modèle Linéaire
Filière : Analyste Statisticien – 2ème Année (AS2)
Symplice NGAH NGAH

Février 2023
symplicen@yahoo.com
Cours d’Econométrie du Modèle Linéaire – AS2
SOMMAIRE
SOMMAIRE ---------------------------------------------------------------------------- 1
Syllabus du cours Econométrie du modèle linéaire – AS2 ----------- 2
1. Généralités sur les modèles ---------------------------------------------- 3

1.1. Objet de l’économétrie --------------------------------------------------------------- 3
1.2. Notion de modèle économétrique ----------------------------------------------- 3
1.3. Théorie de la corrélation ------------------------------------------------------------ 4
2. Modèle de régression linéaire simple -------------------------------- 7

2.1. Présentation du modèle ------------------------------------------------------------- 7
2.2. Estimation des paramètres du modèle ---------------------------------------- 8
2.3. Validation du modèle --------------------------------------------------------------- 10
2.4. Prévision avec le modèle ---------------------------------------------------------- 16
1
Syllabus du cours Econométrie du modèle linéaire – AS2
Semestre 4 Volume horaire : 30h

UE : Econométrie 1 Crédits : 3
Objectifs du cours :
Présenter les méthodes statistiques explicatives multivariées sous l’angle de la statistique
inférentielle (fondée sur une modélisation probabiliste). Les modèles présentés ici sont ceux qui
prétendent expliquer une variable quantitative observée. Après l’approche probabiliste, de
nombreux exemples pratiques seront traités.
Contenu du cours :
Chapitre 1 : Généralités sur les modèles (4h)

1. Objet de l’économétrie
2. Notion de Modèle en économétrique
3. Théorie de la corrélation
Chapitre 2 : Modèle de régression linéaire simple (8h)

1. Présentation du modèle
2. Estimation des paramètres (propriétés des estimateurs…)
3. Validation par test (tests sur les paramètres et résidus…)
4. Prévision et intervalle de prévision (prévision ponctuelle, prévision par intervalle)
Chapitre 3 : Modèle de régression linéaire multiple (10h)

1. Présentation du modèle et hypothèses
2. Estimation des paramètres
3. Validation par tests
4. Prédiction et intervalle de prédiction
Chapitre 4 : Hétéroscédasticité et Multi colinéarité (8h)

1. Détection et estimation en présence d’hétéroscédasticité
2. Multi colinéarité : nature, conséquence, détection et correction
Contrôle des connaissances : 1 contrôle écrit
Bibliographie :
Berry W.D. and Feldman S. (1985), Multiple Regression in Pratice , SAGE university papers.
Bourdonnais R. (2004), Econométrie, Dunod.
William Greene, Théophile A. Phu N. (2011), Econométrie, Pearson Education ; 7e edition
Fox J. (1991), Regression Diagnostics, SAGE university papers.
Hardy M. (1993), Regression with Dummy Variables, SAGE university papers.
Iversen G.R and H. Norpoth (1976), Analysis of Variance, SAGE university papers.
Johnson (1985), Econométrie, tomes 1 et 2, Economica.
Netter J., W. Wasserman, M. Kurtner, (1985), Regression Analysis of Variance and Experimental
design, Eds Irwin Homewood.
Saporta G. (1990), Probabilités, analyse des données et statistique, Technip.
Wildt A.R and Hatola O.T. (1978), Analysis of Covariance, SAGE university papers.
2
1. Généralités sur les modèles
On se propose dans ce chapitre de présenter l’objet de l’économétrie, définir la notion de

modèle économétrique et donner un aperçu sur la notion de corrélation entre deux
variables.
1.1. Objet de l’économétrie
L’objet de l’économétrie est de tester la validité empirique des modèles théoriques

énoncés. Pour cela elle doit postuler d’abord une forme pour les fonctions intervenant
dans le modèle. Cette fonction mathématique restant bien entendu compatible avec les
hypothèses a priori du modèle théorique. Ensuite, elle doit disposer d’un échantillon
d’unités sur lesquelles ont été observées les variables du modèle. Enfin, elle a recours aux
tests statistiques (sur la forme fonctionnelle du modèle, sur les paramètres, sur les
hypothèses, etc.) afin de juger de la validité du modèle qui a été spécifié.
Il convient de souligner que, si à l'origine, l'économétrie s'applique à l'économie, en tant

qu'outil de modélisation, elle s'applique à tous les domaines de la vie. Son objet principal
est d'expliquer et prédire (prévoir).
1.2. Notion de modèle économétrique
Pour étudier un phénomène économique, on essaie de représenter celui-ci par le

comportement d’une variable. Cette variable économique dépend elle-même d’autres
variables que l’on relie entre elles par une ou plusieurs relations mathématiques. Ces
relations combinées aux hypothèses sur les variables impliquées définissent ce qu’on
appelle un modèle théorique.
Par exemple, si on se propose d’étudier la consommation d’un certain bien par les
ménages, la théorique économique postule que C = f (R ) .
Toutefois, la théorie économique se contente en général d’indiquer les variables

économiques qui permettent d’expliquer le phénomène et suggère le signe probable des
dérivées partielles. Elle ne nous renseigne pas sur un certain nombre de choses dont la
forme exacte des fonctions (𝑓) intervenant dans le modèle (spécification du modèle), et
la définition et la mesure des variables qui la composent.
3
Donc, dans le cadre de l’économétrie, un modèle peut être considéré comme « une
présentation formalisée d’un phénomène sous forme d’équations dont les variables sont des
grandeurs économiques. »1
On parle de modèle linéaire lorsque la forme fonctionnelle 𝑓 est linéaire.
1.3. Théorie de la corrélation
1.3.1. Concept de corrélation
Deux variables sont dites corrélées lorsqu’elles ont tendance à avoir une évolution
commune.
Lorsque cette tendance d’évolution va dans le même sens (elles croissent ensemble, ou
elles décroissent ensemble, ou encore elles stagnent ensemble), on dit qu’elles sont
corrélées positivement. Si par contre, une variable a tendance à croître lorsque les valeurs
de l’autre variable décroissent, on dit qu’elles sont corrélées négativement.
La corrélation peut être linéaire ou non linéaire.
Figure 1 : corrélation linéaire positive Figure 2 : corrélation linéaire négative
Figure 3 : corrélation non linéaire positive Figure 4 : corrélation non linéaire négative
1Définition tirée de l’URL https://www.cairn.info/econometrie--9782100773459-page-1.htm consulté

vendredi 28 mai 2021.
4
S’il n’y a aucune relation entre les variations des valeurs de l’une des variables et les
valeurs de l’autre, on dit que ces variables sont non corrélées.
Figure 5 : absence de corrélation
Dans le cas des modèles linéaires, la corrélation souhaitée est linéaire. Elle est mesurée
par le coefficient de corrélation (linéaire) ou coefficient de corrélation de Pearson.
Le coefficient de corrélation de Pearson entre les variables X et Y dans la population est

déterminé par la formule
𝐶𝑜𝑣(𝑋, 𝑌)
𝜌(𝑋, 𝑌) =
𝜎𝑋 𝜎𝑌
Si l’on dispose plutôt d'un échantillon de n observations (𝑥𝑖 , 𝑦𝑖 )𝑖=1,2,…,𝑛 des variables X et
Y, 𝜌(𝑋, 𝑌) est estimé par
∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)(𝑦𝑖 − 𝑌̅)

𝑟(𝑋, 𝑌) =
√∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)2 √∑𝑛𝑖=1(𝑦𝑖 − 𝑌̅)2
𝜌(𝑋, 𝑌) prend toujours des valeurs comprises entre -1 et 1.
Deux cas particuliers à signaler :
• 𝜌(𝑋, 𝑌) = 1 ∶ tous les points du nuage sont alignés le long d’une droite de pente
positive
• 𝜌(𝑋, 𝑌) = −1 ∶ tous les points du nuage sont alignés le long d’une droite de pente
négative.
1.3.2. Test de significativité d'une corrélation
Notons 𝜌(𝑋, 𝑌) le coefficient de corrélation (linéaire) ou coefficient de corrélation de

Pearson entre les variables X et Y dans la population.
𝐶𝑜𝑣(𝑋, 𝑌)
=
𝜎𝑋 𝜎𝑌
Les hypothèses testées sont :
5
Hypothèse principale H0 : le coefficient de corrélation linéaire entre X et Y est

nul, c'est-à-dire, n'est pas significatif ; 𝐻0 : 𝜌 = 0
Hypothèse alternative H1 : le coefficient de corrélation linéaire est significatif,
c'est-à-dire, il existe une relation linéaire entre X et Y ; 𝐻1 : 𝜌 ≠ 0.
𝑟√𝑛−2
La statistique du test est 𝑇 = où 𝑟 est la valeur estimée de 𝜌 sur l'échantillon.
√1−𝑟 2
Au risque α, c'est-à-dire, avec une probabilité 𝛼 (0 ≤ 𝛼 ≤ 1) de se tromper, la conclusion

du test est la suivante :
𝛼
si |𝑇| ≥ 𝑡,𝛼 , où 𝑡,𝛼 est le fractile d'ordre 1 − 2 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝑑𝑒 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 à 𝑛 −
2 𝑑𝑒𝑔𝑟é𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡é, on rejette H0 et donc on accepte H1. 𝑡,𝛼 est lu sur la table
statistique de la loi de Student.
si |𝑇| < 𝑡,𝛼 , on accepte H0.
Remarques
Il est toujours possible et plus facile de réaliser un test statistique en utilisant la P-
valeur ou probabilité critique (P-value ou significance en anglais).
 𝑆𝑖 𝑃 < 𝛼 → 𝑅𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0
 𝑆𝑖 𝑃 ≥ 𝛼 → 𝑁𝑜𝑛 𝑟𝑒𝑗𝑒𝑡 (𝑎𝑐𝑐𝑒𝑝𝑡𝑎𝑡𝑖𝑜𝑛) 𝑑𝑒 𝐻0
Dans le cas où l'on rejette H0, on peut construire un modèle de régression linéaire
simple sur la relation entre X et Y.
Exercice d’application
Que peut-on dire de la corrélation entre les variables du fichier

Ch1ExAp.sav prises 2 à 2 ?
6
2. Modèle de régression linéaire simple
Un modèle de régression linéaire simple (MRLS) se propose d'expliquer un phénomène

représenté par une variable quantitative, par un autre phénomène représenté par une
variable quantitative, par le biais d'une équation "linéaire" (ou plutôt affine).
Pour recourir à cet outil statistique, il convient de se rassurer au préalable qu'il existe une
liaison linéaire significative entre les deux variables. Ce qui peut se faire à travers un
graphique (nuage de points) et un test de significativité de la corrélation (voir chapitre
précédent).
2.1. Présentation du modèle
Considérons deux variables quantitatives X (la superficie cultivée de maïs par exemple)
et Y (la production de maïs par exemple) pour lesquelles on dispose d'un échantillon de n
observations (𝑥𝑖 , 𝑦𝑖 )𝑖=1,2,…,𝑛 .
La spécification du MRLS comporte l'équation du modèle et les hypothèses sur les

variables du modèle.
2.1.1. Equation du modèle2

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 𝑖 = 1, 2, … , 𝑛 [2.1]
Y est appelée variable expliquée et X variable explicative3.
𝜀𝑖 (supposée aléatoire) est appelé erreur ou perturbation ; il représente toute
l’information qui n’est pas prise en compte dans la relation linéaire entre Y et X
(l'ensemble des facteurs qui influencent Y mais qui ne sont pas pris en compte dans le
modèle, problèmes de spécifications, erreurs de mesure, approximation de la linéarité,
etc.)
𝛽0 et 𝛽1 sont les paramètres de l’équation du modèle.
2
Le modèle peut être spécifié en série temporelle (variables observées à intervalles de temps réguliers) ou en
coupe instantanée (variables observées au même instant sur un échantillon de plusieurs individus). C’est cette
dernière option que nous retenons.
3 On trouve d'autres appellations dans la littérature :
• Variable expliquée ~ variable endogène ~ variable dépendante, variable réponse, etc.
• Variable explicative ~ variable exogène ~ variable indépendante, variable de contrôle, régresseur,
etc.
Le terme “simple” fait référence au fait qu’il n’y a qu’une seule variable explicative X pour expliquer Y.
7
2.1.2. Hypothèses du modèle

On suppose que :
o 𝜀𝑖 est une variable aléatoire, non observée,
o 𝑥𝑖 est observée et non aléatoire,
o 𝑦𝑖 est observée et aléatoire (à travers le terme d’erreur).
𝐻1 ∶ absence d'erreur systématique dans le modèle

𝐸(𝜀𝑖 ) = 0, ∀𝑖 = 1, … , 𝑛
ou de manière équivalente :
𝐸(𝑦𝑖 ) = 𝛽0 + 𝛽1 𝑥𝑖 , ∀𝑖 = 1, … , 𝑛
𝐻1 indique que les erreurs sont centrées ; ce qui implique que 𝑦𝑖 dépend seulement de 𝑥𝑖
et que les autres sources de variations de 𝑦𝑖 sont aléatoires.
𝐻2 ∶ homoscédasticité des erreurs

𝑉𝑎𝑟(𝜀𝑖 ) = 𝜎², ∀𝑖 = 1, … , 𝑛
ou de manière équivalente :
𝑉𝑎𝑟(𝑦𝑖 ) = 𝜎², ∀𝑖 = 1, … , 𝑛
La variance des erreurs (ou de Y) est constante et indépendante de X.
𝐻3 ∶ les termes d’erreur 𝜀𝑖 sont non corrélés

𝐶𝑜𝑣(𝜀𝑖 , 𝜀𝑗 ) = 𝐸(𝜀𝑖 𝜀𝑗 ) = 0, ∀𝑖 ≠ 𝑗
𝐻4 ∶ les termes d’erreur 𝜀𝑖 sont non corrélés aux variables explicatives

𝐶𝑜𝑣(𝜀𝑖 , 𝑥𝑗 ) = 𝐸(𝜀𝑖 𝑥𝑗 ) = 0, ∀𝑖, 𝑗
𝐻5 ∶ les erreur 𝜀𝑖 suivent la loi normale4

𝜀𝑖 ~ 𝑁(0, 𝜎²), ∀𝑖 = 1, … , 𝑛
2.2. Estimation des paramètres du modèle
Estimer un modèle revient à trouver des valeurs à ses paramètres inconnus sur la base
des données d'échantillon. Dans le cas du MRLS, ses paramètres (𝛽0 , 𝛽1 , 𝜎 2 ) peuvent être
estimés soit par la méthode des moindres carrés, soit par la méthode du maximum de
vraisemblance.
2.2.1. Estimation de 𝜷𝟎 et 𝜷𝟏
Par la MMC, on recherche les valeurs de 𝛽0 𝑒𝑡 𝛽1 qui minimisent la somme des carrés des
erreurs du modèle 𝑆(𝛽0 , 𝛽1 ) = ∑𝑛𝑖=1 𝜀𝑖2 = ∑𝑛𝑖=1(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 )2.
4Cette dernière hypothèse n'est pas indispensable. Son utilité est dans la méthode d'estimation par le
maximum de vraisemblance et pour l'inférence.
Le modèle linéaire qui comporte cette hypothèse est appelé modèle linéaire gaussien.
8
La solution à ce problème donne :

𝑛
̂1 = 𝐶𝑜𝑣(𝑋,𝑌) = ∑𝑖=1𝑛(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦̅)
𝛽 [2.2]
𝑉𝑎𝑟(𝑋) ∑ (𝑥 −𝑥̅ )²𝑖=1 𝑖
̂0 = 𝑦̅ − 𝛽
𝛽 ̂1 𝑥̅ [2.3]
Pour une observation 𝑖 quelconque, la valeur de Y prédite par le modèle est

̂0 + 𝛽
𝑦̂𝑖 = 𝛽 ̂1 𝑥𝑖
L'erreur estimée par le modèle est appelée résidu.

̂0 − 𝛽
𝜀̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 = 𝑦𝑖 − 𝛽 ̂1 𝑥𝑖
̂𝟎 et 𝜷
2.2.2. Propriétés de 𝜷 ̂𝟏
• ̂0 et 𝛽
Les estimateurs 𝛽 ̂1 de 𝛽0 et 𝛽1 sont sans biais.
̂0 ) = 𝛽0 et
𝐸(𝛽
̂1 ) = 𝛽1
𝐸(𝛽
• ̂0 et 𝛽
Les estimateurs 𝛽 ̂1 de 𝛽0 et 𝛽1 sont aussi de variance minimale parmi tous les
estimateurs linéaires (par rapport à 𝑦𝑖 , … , 𝑦𝑛 ) sans biais (théorème de Gauss-
Markov).
1 𝑥̅ 2
̂0 ) = 𝜎̂
𝑉𝑎𝑟(𝛽 2
= 𝜎2 [ + 𝑛 ] [2.4]
𝛽0 𝑛 ∑𝑖=1(𝑥𝑖 −𝑥̅ )2
𝜎 2
̂1 ) = 𝜎̂
𝑉𝑎𝑟(𝛽 2
= [2.5]
𝛽1 ∑𝑛
𝑖=1 𝑖 −𝑥̅ )
(𝑥 2
−𝑥̅
̂0 , 𝛽
𝐶𝑜𝑣(𝛽 ̂1 ) = 𝜎 2 [ 𝑛 [2.6]
2]
∑ 𝑖=1 𝑖 −𝑥̅ )
(𝑥
2.2.3. Estimation de 𝝈𝟐
La variance des erreurs 𝜎 2 est estimée sans biais par la MMC par 5 :
𝑛 2
̂2 = ∑𝑖=1 𝜀̂𝑖
𝜎 [2.7]
𝑛−2
̂𝟎 , 𝜷
2.2.4. Autres propriétés de 𝜷 ̂𝟐
̂𝟏 et 𝝈
̂0 ~𝑁 (𝛽0 , 𝜎̂
𝛽 2
)
𝛽0
̂1 ~𝑁 (𝛽1 , 𝜎̂
𝛽 2
)
𝛽1
̂2
(𝑛−2)𝜎
~2 (𝑛 − 2)
𝜎2
̂2 sont indépendantes.
̂0 et 𝜎
𝛽
̂2 sont indépendantes.
̂1 et 𝜎
𝛽
2
∑𝑛
𝑖=1 𝜀̂𝑖
5 ̂2
L’estimateur (biaisé) de 𝜎 2 par la MMV est 𝜎 = 𝑛
9
2.3. Validation du modèle
Pour valider un modèle, on vérifie le caractère plausible des hypothèses grâce aux
résultats de l'estimation ; en particulier, les conditions concernant les erreurs
(𝜀𝑖 ) utilisent les résidus (𝜀̂).
𝑖 On peut également effectuer des tests de significativité des
paramètres du modèle . 6
2.3.1. Tests sur les résidus
Pour cela, on peut soit faire des graphiques, soit réaliser des tests statistiques.
• On peut représenter le nuage de points des résidus en fonction des valeurs

prédites (𝑦̂𝑖 , 𝜀̂)
𝑖 𝑖=1,…,𝑛 pour la vérification de 𝐻1 , 𝐻2 et 𝐻3 . On s'attend à ce que :
les points soient répartis "uniformément" de part et d'autre de la valeur 0 du

résidu ;
la variance soit être constante ;
les points soient répartis aléatoirement dans le plan (sans une forme
particulière).
 L'exemple ci-dessous illustre bien un cas où les erreurs du modèle s'avèrent

aléatoires.
Figure 6 : nuage des résidus en fonction des valeurs prédites de Y – cas 1
6
La validation d’un modèle linéaire passe par l’examen de la qualité d’ajustement, les graphes des résidus
(simples, standardisés ou studentisés), les Q-Q ou P-P plots et les tests d’ajustement (Shapiro-Wilks,
Kolmogorov-Smirnov, etc.) – Source : Ana Karina Fermin, Univ. Paris Nanterre (http://fermin.perso.math.cnrs.fr/)
10
 Par contre, les 2 nuages ci-dessous posent problème
On observe une tendance parabolique évidente dans les résidus du graphique ci-dessus (qui
ne sauraient donc être aléatoires).
Il faudrait donc prendre en compte cette structure, par exemple en ajoutant un terme
quadratique 𝑥 2 dans la partie explicative du modèle.
Ici, la variance des résidus augmente en fonction des valeurs prédites. Il n’y a donc pas
homoscédasticité.
• On peut également représenter le nuage de points des résidus en fonction de la

variable explicative (𝑥𝑖 , 𝜀̂)
𝑖 𝑖=1,…,𝑛 pour la vérification de 𝐻4 .
Là aussi, on s'attend à ce que les points soient répartis aléatoirement dans le

plan (sans une forme particulière).
11
• La vérification graphique de 𝐻1 est généralement effectué en représentant les

résidus standardisés en fonction de la variable explicative (𝑥𝑖 , 𝜀̂𝑖∗ )𝑖=1,…,𝑛 . Pour une
observation donnée, le résidu standardisé est donné par la formule :
𝜀̂𝑖
𝜀̂𝑖∗ = ̂ √1−ℎ𝑖𝑖
𝜎
1 (𝑥𝑖 −𝑥̅ )2
avec7 ℎ𝑖𝑖 = 𝑛 + 2
∑𝑛
𝑗=1(𝑥𝑗 −𝑥̅ )
On s'attend à ce qu'au moins 95% des points du nuage soient compris entre
les valeurs -2 et +2 de l'axe des résidus.
• La vérification de 𝐻5 peut se faire graphiquement, en traçant l'histogramme de la

distribution des résidus ( 𝜀̂).
𝑖 Pour mieux apprécier, on peut ajuster, dans le même
graphique, la courbe de densité d'une distribution normale de moyenne 0 et de
variance celle des 𝜀̂.𝑖
• De façon équivalente, on peut tracer l'histogramme de la distribution des résidus

( 𝜀̂𝑖∗ ) et ajuster dans le même graphique la courbe de densité d'une distribution
normale centrée et réduite.
• On peut également effectuer des tests statistiques de normalité (Shapiro-Wilk,

Jarque-Bera, Kolomogorov-Smirnov, etc.).
2.3.2. Tests de significativité des paramètres du modèle
A. Test de significativité (signification) globale du modèle8
7 En effet, on démontre facilement que :

𝑛
1 (𝑥𝑖 − 𝑥̅ )(𝑦𝑗 − 𝑦̅)
̂0 + 𝛽
𝑦̂𝑖 = 𝛽 ̂1 𝑥𝑖 = ∑ ℎ𝑖𝑗 𝑦𝑗 𝑎𝑣𝑒𝑐 ℎ𝑖𝑗 = + 2
𝑛 ∑𝑛 (𝑥 − 𝑥̅ )
𝑗=1 𝑗=1 𝑗
Les éléments diagonaux ℎ𝑖𝑖 de cette matrice mesurent ainsi l’impact ou l’importance du rôle que joue 𝑦𝑖
dans l’estimation de 𝑦̂.𝑖
Par ailleurs, même si l’hypothèse d’homoscédasticité est vérifiée, les résidus n’ont pas la même variance
𝑖 = 𝜎²(1 − ℎ𝑖𝑖 )
𝑉𝑎𝑟(𝜀̂)
Il est donc d’usage d’en calculer des versions standardisées afin de les rendre comparables.
8 Ce test ainsi que les deux qui suivent sont bilatéraux ; on peut aussi effectuer des tests unilatéraux.
• Dans le cas du test unilatéral gauche (𝐻1 : 𝛽1 < 0), on va rejeter 𝐻0 au seuil 𝛼 si 𝑡 < 𝑡𝛼 (𝑛 − 2),
𝑡𝛼 (𝑛 − 2) étant le quantile /fractile d'ordre 𝛼 de la loi de Student à 𝑛 − 2 degrés de liberté.
• Pour le cas du test unilatéral droit (𝐻1 : 𝛽𝑗 > 0), on va rejeter 𝐻0 au seuil 𝛼 si 𝑡 > 𝑡1−𝛼 (𝑛 − 2),
𝑡1−𝛼 (𝑛 − 2) étant le quantile /fractile d'ordre 1 − 𝛼 de la loi de Student à 𝑛 − 2 degrés de liberté.
12

𝐻0 : 𝛽1 = 0 contre 𝐻1 : 𝛽1 ≠ 0
C'est un test de Fisher qui peut être effectué à l'aide de la table ANOVA fournie par les
résultats du modèle.
Somme Degrés de Carrés moyens Statistique de

Source de variation
des carrés liberté Fisher
𝑆𝐶𝐸
Régression : X (expliquée) SCE 𝐷𝐷𝐿𝐸 = 1 𝐶𝑀𝐸 =
𝐷𝐷𝐿𝐸
𝐶𝑀𝐸
𝐹=
𝑆𝐶𝑅 𝐶𝑀𝑅
Erreur (résiduelle) SCR 𝐷𝐷𝐿𝑅 = 𝑛 − 2 𝐶𝑀𝑅 =
𝐷𝐷𝐿𝑅
Totale SCT 𝐷𝐷𝐿𝑇 = 𝑛 − 1 -
La statistique du test est

𝐶𝑀𝐸 𝑅²
𝐹∗ = = (𝑛 − 2) ( ) ~ 𝐹𝑖𝑠ℎ𝑒𝑟(1, 𝑛 − 2) 𝑠𝑜𝑢𝑠 𝐻0 .
𝐶𝑀𝑅 1 − 𝑅²
Au seuil 𝛼, on va rejeter 𝐻0 si 𝐹 ∗ > 𝑓1−𝛼 (1, 𝑛 − 2) où 𝑓1−𝛼 (1, 𝑛 − 2) est le quantile /fractile
de la loi de Fisher à 1 et 𝑛 − 2 degrés de liberté.
La comparaison de la P-value avec le risque 𝛼 suffit pour implémenter ledit test.
B. Test de significativité de la pente (𝜷𝟏 )

𝐻0 : 𝛽1 = 0 contre 𝐻1 : 𝛽1 ≠ 0
̂1
𝛽
𝑇= ~ 𝑇(𝑛 − 2) 𝑠𝑜𝑢𝑠 𝐻0 .
𝜎̂̂1
𝛽
Au seuil 𝛼, on va rejeter 𝐻0 si |𝑡| > 𝑡1−𝛼 (𝑛 − 2) où 𝑡1−𝛼 (𝑛 − 2) est le quantile /fractile de

2 2
la loi de Student à 𝑛 − 2 degrés de liberté.
C. Test de significativité de la constante (𝜷𝟎 )

𝐻0 : 𝛽0 = 0 contre 𝐻1 : 𝛽0 ≠ 0
13

̂0
𝛽
𝑇= ~ 𝑇(𝑛 − 2) 𝑠𝑜𝑢𝑠 𝐻0 .
𝜎̂̂0
𝛽
Au seuil 𝛼, on va rejeter 𝐻0 si |𝑡| > 𝑡1−𝛼 (𝑛 − 2).

2
Remarque
Tous ces tests peuvent facilement effectués avec la connaissance de la P-value. En effet,
 𝑆𝑖 𝑃 < 𝛼 → 𝑅𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0
 𝑆𝑖 𝑃 ≥ 𝛼 → 𝑁𝑜𝑛 𝑟𝑒𝑗𝑒𝑡 (𝑎𝑐𝑐𝑒𝑝𝑡𝑎𝑡𝑖𝑜𝑛) 𝑑𝑒 𝐻0
2.3.3. Qualité d'ajustement du modèle
Pour apprécier la qualité d'ajustement du modèle, on utilise le coefficient de

détermination.
A partir de la relation :
Variabilité totale de Y = variabilité expliquée (par le modèle) + variabilité résiduelle
Ou encore
Variabilité totale de Y = variabilité due à X + variabilité due à l’erreur
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 + ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂)

𝑖
2
ou encore
𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅
𝑆𝐶 𝑡𝑜𝑡𝑎𝑙𝑒 (𝑑𝑒 𝑌) = 𝑠𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝑐𝑎𝑟𝑟é𝑠 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 (𝑝𝑎𝑟 𝑋) + 𝑠𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝑐𝑎𝑟𝑟é𝑠 𝑟é𝑠𝑖𝑑𝑢𝑒𝑙𝑙𝑒
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡é 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒
On définit le coefficient de détermination par le ratio 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡é 𝑡𝑜𝑡𝑎𝑙𝑒
𝑆𝐶𝐸 𝑆𝐶𝑅
𝑅 2 = 𝑆𝐶𝑇 = 1 − 𝑆𝐶𝑇 [2.8]
Il mesure la proportion de variabilité de Y qui est expliquée par le modèle.
Comme interprétation, plus 𝑅 2 est proche de 1, meilleure est l’adéquation du modèle aux
données.
14
On peut aussi vérifier graphiquement la qualité d'ajustement du modèle en

représentant le nuage des valeurs observées de Y en fonction des valeurs
prédites par le modèle (𝑦̂𝑖 , 𝑦𝑖 )𝑖=1,…,𝑛 : on s'attend alors à ce que la majorité des
points soient alignés le long de la première bissectrice.
Figure 9 : nuage des valeurs observées en fonction des valeurs prédites de Y
Le graphique ci-dessus illustre un "excellent" ajustement.
Ce qui n'est pas le cas dans le graphique suivant où une structure non linéaire (exponentielle
notamment) apparaît.
Dans un tel cas, il faudrait changer de modèle, en transformant l'une des 2 variables X ou Y,
mais plus généralement X (par 𝑙𝑛𝑋, 𝑒 𝑋 , 𝑋 2 , √𝑋, etc.), puisque Y est la variable d'intérêt.
Figure 10 : nuage des valeurs observées en fonction des valeurs prédites de Y
15
2.3.4. Présentation des résultats de l'estimation du modèle

Une fois la validation des résultats de l’estimation effectuée, on peut présenter les
résultats comme suit :
𝑦̂𝑖 = ̂0 + 𝛽
𝛽 ̂1 𝑥𝑖
(𝜎̂
̂0 )
𝛽 (𝜎̂
̂1 )
𝛽
𝑅² =
𝑛=
{(. ) = é𝑐𝑎𝑟𝑡 − 𝑡𝑦𝑝𝑒 𝑑𝑒𝑠 𝑐𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑠
A noter que les valeurs (. ) peuvent dans certains cas être les 𝑡 de Student.
2.4. Prévision avec le modèle
On désire prévoir à l’aide du modèle la valeur de la variable Y pour une nouvelle

observation 𝑥0 de X.
La valeur proposée par le modèle est 𝑦 ̂0 + 𝛽
̂0 = 𝛽 ̂1 𝑥0
L'intervalle de confiance pour 𝑦0 de niveau 1 − 𝛼 est

1 (𝑥0 −𝑥̅ )2
𝐼𝐶1−𝛼 (𝑦0 ) = [𝑦
̂0 ± 𝜎̂𝑡1−𝛼 (𝑛 − 2)√1 + 𝑛 + ∑𝑛 2 ] [2.9]
2 𝑖=1(𝑥𝑖 −𝑥̅ )
16

AS2 Cours EML Fev 2023 Chap1+2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

AS2 Cours EML Fev 2023 Chap1+2

Transféré par

Droits d'auteur :

Formats disponibles

Support de cours Traitement & Analyse des données d'enquête

Communauté Economique et Monétaire de l'Afrique Centrale

Filière : Analyste Statisticien – 2ème Année (AS2)

Symplice NGAH NGAH

Syllabus du cours Econométrie du modèle linéaire – AS2 ----------- 2

1. Généralités sur les modèles ---------------------------------------------- 3

2. Modèle de régression linéaire simple -------------------------------- 7

Syllabus du cours Econométrie du modèle linéaire – AS2

Semestre 4 Volume horaire : 30h

Chapitre 1 : Généralités sur les modèles (4h)

Chapitre 2 : Modèle de régression linéaire simple (8h)

Chapitre 3 : Modèle de régression linéaire multiple (10h)

Chapitre 4 : Hétéroscédasticité et Multi colinéarité (8h)

Contrôle des connaissances : 1 contrôle écrit

1. Généralités sur les modèles

On se propose dans ce chapitre de présenter l’objet de l’économétrie, définir la notion de

1.1. Objet de l’économétrie

L’objet de l’économétrie est de tester la validité empirique des modèles théoriques

Il convient de souligner que, si à l'origine, l'économétrie s'applique à l'économie, en tant

1.2. Notion de modèle économétrique

Pour étudier un phénomène économique, on essaie de représenter celui-ci par le

Toutefois, la théorie économique se contente en général d’indiquer les variables

1.3. Théorie de la corrélation

1.3.1. Concept de corrélation

La corrélation peut être linéaire ou non linéaire.

Figure 1 : corrélation linéaire positive Figure 2 : corrélation linéaire négative

1Définition tirée de l’URL https://www.cairn.info/econometrie--9782100773459-page-1.htm consulté

Figure 5 : absence de corrélation

Le coefficient de corrélation de Pearson entre les variables X et Y dans la population est

∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)(𝑦𝑖 − 𝑌̅)

𝜌(𝑋, 𝑌) prend toujours des valeurs comprises entre -1 et 1.

Deux cas particuliers à signaler :

1.3.2. Test de significativité d'une corrélation

Notons 𝜌(𝑋, 𝑌) le coefficient de corrélation (linéaire) ou coefficient de corrélation de

Hypothèse principale H0 : le coefficient de corrélation linéaire entre X et Y est

Au risque α, c'est-à-dire, avec une probabilité 𝛼 (0 ≤ 𝛼 ≤ 1) de se tromper, la conclusion

Que peut-on dire de la corrélation entre les variables du fichier

2. Modèle de régression linéaire simple

Un modèle de régression linéaire simple (MRLS) se propose d'expliquer un phénomène

2.1. Présentation du modèle

La spécification du MRLS comporte l'équation du modèle et les hypothèses sur les

2.1.1. Equation du modèle2

2.1.2. Hypothèses du modèle

𝐻1 ∶ absence d'erreur systématique dans le modèle

𝐻2 ∶ homoscédasticité des erreurs

𝐻3 ∶ les termes d’erreur 𝜀𝑖 sont non corrélés

𝐻4 ∶ les termes d’erreur 𝜀𝑖 sont non corrélés aux variables explicatives

𝐻5 ∶ les erreur 𝜀𝑖 suivent la loi normale4

2.2. Estimation des paramètres du modèle

La solution à ce problème donne :

Pour une observation 𝑖 quelconque, la valeur de Y prédite par le modèle est

L'erreur estimée par le modèle est appelée résidu.

2.3. Validation du modèle

2.3.1. Tests sur les résidus

• On peut représenter le nuage de points des résidus en fonction des valeurs

les points soient répartis "uniformément" de part et d'autre de la valeur 0 du

la variance soit être constante ;

 L'exemple ci-dessous illustre bien un cas où les erreurs du modèle s'avèrent

Figure 6 : nuage des résidus en fonction des valeurs prédites de Y – cas 1

 Par contre, les 2 nuages ci-dessous posent problème

Figure 7 : nuage des résidus en fonction des valeurs prédites de Y – cas 2

Figure 8 : nuage des résidus en fonction des valeurs prédites de Y – cas 3

• On peut également représenter le nuage de points des résidus en fonction de la