0% ont trouvé ce document utile (0 vote)
54 vues27 pages

Modèle de régression linéaire simple

Transféré par

harounadabre133
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
54 vues27 pages

Modèle de régression linéaire simple

Transféré par

harounadabre133
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 3 : Le modèle de régression linéaire simple(MRS)

Le modèle de régression linéaire simple représente la forme la plus basique et


la plus simplifiée d’un modèle économétrique (une variable endogène et une variable
exogène). La désignation “simple” fait référence au fait qu’il n’y a qu’une seule variable
explicative x pour expliquer y. La désignation “linéaire” correspond au fait que le
modèle (1) est linéaire en 𝛽0 et 𝛽1.

Section 1- Présentation du modèle

1.1- Forme générale

Le modèle économétrique est une représentation simplifiée mais la plus


exhaustive possible d’une entité économique donnée. Sous la forme la plus courante,
un modèle économétrique est représenté par des équations, le plus souvent linéaires.
Dans ces équations, nous avons deux types de variables :
- les variables exogènes (explicatives ou prédictives) : X ;
- les variables endogènes (expliquées) : Y.
On a donc Y=f(X)
La fonction f peut avoir plusieurs formes. Elle peut être linéaire, exponentielle
ou fonction puissance. Mais il faut savoir que tout modèle non linéaire peut se ramener
au cas linéaire par transformation.

Exemple
Soient
1) 𝑌 = 𝛼𝑒 𝛽𝑋
𝑙𝑛 𝑌 = ln 𝛼 + 𝑙𝑛𝑒 𝛽𝑋 = ln 𝛼 + 𝛽𝑋𝑙𝑛𝑒 ⇔ 𝑌1 = 𝛼1 + 𝛽𝑋1
𝑌
0
2) 𝑌𝑡 = 1+𝛽𝑋 𝑡

𝑌𝑡 1 𝑌0 𝑌0 𝑌0
= = 𝑡
⇔ = 1 + 𝛽𝑋 𝑡 ⇔ − 1 = 𝛽𝑋 𝑡 ⇔ 𝑙𝑛 ( − 1)
𝑌0 1 + 𝛽𝑋 𝑌𝑡 𝑌𝑡 ⏟ 𝑌𝑡
𝑌1

⏟ 𝑡= ⏟
= 𝑙𝑛𝛽𝑋 𝑙𝑛𝛽 + 𝑡𝑙𝑛𝑋
= 𝛽1 + 𝑡𝑋1
Globalement, soient deux variables X et Y. Nous cherchons une fonction telle
que le plus proche que possible de Y en moyenne quadratique. En effet, la forme
générale du modèle linéaire est donnée comme suit :
𝑌𝑡 = 𝛽0 + 𝛽1 𝑋𝑡
⏟ + 𝜀⏟𝑡
𝑃𝑎𝑟𝑡𝑖𝑒 𝑑é𝑡𝑒𝑟𝑚𝑖𝑛𝑖𝑠𝑡𝑒 𝑃𝑎𝑟𝑡𝑖𝑒 𝑠𝑐𝑡𝑜𝑐ℎ𝑎𝑠𝑡𝑖𝑞𝑢𝑒

où 𝑌𝑡 est la variable endogène (expliquée, c’est une variable observée et aléatoire.).


𝑋𝑡 les variables explicatives (exogènes, c’est une variable observée et non aléatoire).
Et 𝛽0 et 𝛽1 sont les paramètres (les coefficients) du modèle. 𝜀𝑡 est le résidu (l’erreur du
modèle, c’est une variable aléatoire, non observée).

Exemple : 𝑆 = 𝑎0 + 𝑠𝑌 + 𝜀
Dans ce modèle simplifié on explique l’évolution du taux d’épargne chez les
ménages en fonction de leur revenu disponible.
S est l’épargne du ménage. 𝑎0 est l’épargne autonome du revenu. 𝑠 représente la
propension marginale à épargner. 𝑌 est le revenu disponible. 𝜀 représente la part de
l’épargne qui est inexpliquée par le revenu disponible.

Remarque : En économie, il y a trois types de spécifications différentes de modèles :


- les modèles en série temporelles tels que 𝑌𝑡 = 𝛼 + 𝛽𝑋 𝑡 + 𝜀𝑡 . A ce niveau, les
variables sont des phénomènes observés à intervalle de temps régulier, comme
l’évolution de taux de l’épargne des ménages au Gabon entre 1970 et 2021 ;
- les modèles en coupes instantanées, notés 𝑌𝑡 = 𝛼 + 𝛽𝑋 𝑡 + 𝑈𝑖 . En effet, les
variables sont des phénomènes observés simultanément mais concernant des
individus différents. Comme l’explication du taux de l’épargne par le revenu disponible
dans la région de l’Ogooué-Maritime pour l’année 2020 ;
- les modèles de panel, notés 𝑌𝑡,𝑖 = 𝛼 + 𝛽𝑋𝑖,𝑡 + 𝑈𝑖,𝑡 .

1.2- Signification du terme aléatoire

Comme il n’y a pas une seule variable explicative en économie, on en ajoutera


une que l’on appellera aléa ou erreur. On dit que cette variable synthétise l’ensemble
des influences sur Y que X ne peut pas expliquer.
En effet, le terme aléatoire représente l’erreur liée au modèle. C’est la partie
stochastique du modèle. Elle regroupe l’ensemble des éléments explicatifs de la
variable endogène et qui ne sont pas expliqués par la variable exogène. Or, le résidu
l'erreur observée. Il est donc mesuré par l’écart entre les valeurs réellement observées
des variables et leur valeur estimée. Ce terme est généré par trois types d’erreur :
- erreur de spécification : dans ce cas la variable explicative est insuffisante pour
expliquer la totalité du phénomène observé ;
- erreur de mesure : il existe un problème dans la structure des données
utilisées dans l’estimation ;
- erreur de fluctuation de l’échantillon : entre un échantillon et un autre les
observations sont différentes.

L’existence de ce terme d’erreur implique que les estimateurs de 𝛽0 et 𝛽1 qui


̂0 et 𝛽
sont notés respectivement 𝛽 ̂1 sont des variables aléatoires qui suivent la même
loi de probabilité que le terme de l’erreur.

N’étant pas de même valeur, l’écart de valeur entre 𝑌𝑡 et 𝑌̂𝑡 est appelé écart ou
résidu, notée 𝑒𝑡 .
1.3- Les hypothèses de MRS

H1 : Le modèle est linéaire en X. La relation entre les variables explicatives X


et la variable dépendante Y est linéaire. On a jusqu’ici considéré la droite de régression
comme un outil de prédiction. Ici, on lui donne une interprétation descriptive plus
précise en faisant une hypothèse de linéarité. L’hypothèse de linéarité concerne la
moyenne de la variable Y dans les groupes définis par les différentes valeurs possibles
x de X (on suppose que les moyennes des différents groupes sont alignées sur la
droite de régression 𝛽0 + 𝛽1 𝑥.

H2 : L’espérance de l’erreur est nulle. 𝐸(𝜀) = 0

H3 : Les valeurs de la variable explicative sont observées sans erreur.


Autrement dit, les 𝑥𝑖𝑗 représentent la valeur prise par la jième variable sur l'individu i.
Les 𝑥𝑖𝑗 sont supposées non-aléatoires. Il n'y a ni d'erreurs de mesure, ni d'erreurs
d'échantillonnage sur les variables explicatives, en d’autres termes, les 𝑥𝑖𝑗 j ne sont
pas aléatoires.

H4 : les termes d’erreurs ou simplement les erreurs sont non corrélées entre
eux. 𝐸(𝜀𝑖 , 𝜀𝑘 ) = 0 , pour tout 𝑖 ≠ 𝑘;

H5 : la variance de l’erreur est constante. 𝐸 (𝜀 2 ) = 𝜎𝜀2 . Tous les 𝜀𝑖 ont la même


variance. Cette variance commune sera alors égale à la variance résiduelle, que l’on
notera 𝜎𝜀2 / Il s’agit de l’hypothèse d’homoscédasticité (ou de la « variance constante»).

H6 : l’erreur est indépendante de la variable explicative. 𝐶𝑜𝑣(𝑥𝑡 , 𝜀𝑡 ) = 0

Section 2- Estimation des paramètres du modèle

Avant d’effectuer l’estimation des paramètres du modèle, il est recommandé de


vérifier l’existence d’une relation linéaire significative entre la variable endogène Y et
la variable exogène X. En effet, il est intéressant de calculer le coefficient de corrélation
entre Y et X.
2.1- Le coefficient de corrélation

La nature et l’intensité du lien existant entre deux variables X et Y peut être


définie par le calcul du coefficient de corrélation linéaire.

Soient 𝑋̅ et 𝑌̅ les moyennes de X et de Y respectivement, et 𝜎𝑥 et 𝜎𝑦 les écart-


types de X et de Y respectivement.

Le rapport de la corrélation linéaire est le coefficient symétrique par rapport aux


variables X et Y, il est défini comme suit :
𝐶𝑜𝑣(𝑥, 𝑦)
𝑟𝑥𝑦 =
𝜎𝑥 𝜎𝑦
𝑟𝑥𝑦 est un coefficient sans dimension, il mesure l’existence et l’intensité de la relation
entre X et Y. Il est compris entre -1 et 1.

Si 𝑟𝑥𝑦 = 1 , la relation linéaire est positive stricte. Si la droite de régression


"monte", on dira qu'il y a corrélation positive entre les deux variables.

Si 𝑟𝑥𝑦 = −1 , la relation linéaire est négative stricte. Si elle "descend", il s'agira


d'une corrélation négative.

Si 𝑟𝑥𝑦 = 0 , les variables X et Y sont indépendantes.

Si 0 < 𝑟𝑥𝑦 < 1 relation linéaire positive (relative) X et Y évoluent dans le même
sens.
Si −1 < 𝑟𝑥𝑦 < 0 relation linéaire négative (relative) X et Y évoluent dans deux
sens inverse.

Lorsque |𝑟𝑥𝑦 | > 0,6 , la relation linéaire est considérée comme forte.

Une fois que la relation linéaire entre les deux variables est démontrée, il
convient d’estimer les paramètres du modèle.

2.2- L’estimation des paramètres du modèle

Il existe principalement deux méthodes permettant d’estimer les paramètres du


modèle :
- la méthode des Moindre Carrées Ordinaires (MCO) ;
- la méthode du maximum de vraisemblance.

L’utilisation de ces 2 méthodes doit mener à des valeurs estimées appelées


̂0 et 𝛽
estimateurs, notés 𝛽 ̂1 .
̂0
En retentant cette fois-ci la première méthode, la définition des estimateurs 𝛽
̂1 est effectuée dans le cadre de minimiser la distance au carré entre chaque
et 𝛽
observation et la droite de régression.
Soit le modèle linéaire
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
⇔ 𝜀𝑖 = 𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖
⇔ 𝜀𝑖 2 = (𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 )2
𝑛 𝑛

𝑀𝑖𝑛 ∑ 𝜀𝑖 = 𝑀𝑖𝑛 ∑(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 )2


2

𝑖=1 ⏟ 𝑖=1
𝑆

𝑛
𝜕𝑆
= 0 ⇔ −2 ∑(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 ) = 0
𝜕𝛽0
𝑖=1
𝑛

⇔ ∑(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 ) = 0
𝑖=1
𝑛 𝑛 𝑛

⇔ ∑(𝑦𝑖 ) − ∑ 𝛽0 − ∑ 𝛽1 𝑥𝑖 = 0
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛

⇔ ∑(𝑦𝑖 ) − 𝑛𝛽0 − 𝛽1 ∑ 𝑥𝑖 = 0
𝑖=1 𝑖=1

∑𝑛𝑖=1(𝑦𝑖 ) ∑𝑛𝑖=1 𝑥𝑖
⇔ − 𝛽0 − 𝛽1 =0
𝑛 𝑛
⇔ 𝑦̅ − 𝛽0 − 𝛽1 𝑥̅ = 0
⇔ 𝛽0 = 𝑦̅ + 𝛽1 𝑥̅

̂0 = 𝑦̅ + 𝛽
𝛽 ̂1 𝑥̅

𝑛
𝜕𝑆
= 0 ⇔ −2 ∑ 𝑥𝑖 (𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 ) = 0
𝜕𝛽1
𝑖=1
𝑛
̂0 − 𝛽
⇔ ∑ 𝑥𝑖 (𝑦𝑖 − 𝛽 ̂1 𝑥𝑖 ) = 0
𝑖=1
𝑛
̂1 𝑥̅ ) − 𝛽1 𝑥𝑖 ] = 0
⇔ ∑ 𝑥𝑖 [𝑦𝑖 − (𝑦̅ + 𝛽
𝑖=1
𝑛
̂1 + 𝛽
⇔ ∑(𝑥𝑖 𝑦𝑖 − 𝑥𝑖 𝑦̅ + 𝑥𝑖 𝑥̅ 𝛽 ̂1 𝑥𝑖 2 ) = 0
𝑖=1
𝑛 𝑛 𝑛 𝑛
̂1 ∑ 𝑥𝑖 − 𝛽
⇔ ∑ 𝑥𝑖 𝑦𝑖 − 𝑦̅ ∑ 𝑥𝑖 + 𝑥̅ 𝛽 ̂1 ∑ 𝑥𝑖 2 = 0
𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
̂1 (∑ 𝑥𝑖 𝑥̅ − ∑ 𝑥𝑖 2 ) = 0
⇔ ∑ 𝑥𝑖 𝑦𝑖 − 𝑦̅ ∑ 𝑥𝑖 + 𝛽
𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
̂1 (𝑥̅ ∑ 𝑥𝑖 − ∑ 𝑥𝑖 2 ) = 0
⇔ ∑ 𝑥𝑖 𝑦𝑖 − 𝑦̅ ∑ 𝑥𝑖 + 𝛽
𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛
̂1 ∑(𝑥̅ − 𝑥𝑖 )𝑥𝑖 = 0
⇔ ∑ 𝑥𝑖 𝑦𝑖 − 𝑦̅ ∑ 𝑥𝑖 + 𝛽
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛
̂1 ∑(𝑥𝑖 − 𝑥̅ )𝑥𝑖 = 0
⇔ ∑ 𝑥𝑖 𝑦𝑖 − 𝑦̅ ∑ 𝑥𝑖 − 𝛽
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛
̂1 ∑(𝑥𝑖 − 𝑥̅ )𝑥𝑖 = ∑ 𝑥𝑖 𝑦𝑖 − 𝑦̅ ∑ 𝑥𝑖
⇔𝛽
𝑖=1 𝑖=1 𝑖=1
1 𝑛
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑦̅ ∑𝑛𝑖=1 𝑥𝑖 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦̅ 𝑛 ∑𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅
̂1 =
⇔𝛽 = 𝑛 =
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝑥𝑖 ∑𝑖=1 𝑥𝑖 2 − 𝑛𝑥̅ 2 1 𝑛
∑ 2 2
𝑛 𝑖=1 𝑥𝑖 − 𝑥̅
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) 𝐶𝑜𝑣(𝑥, 𝑦)
= =
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑉(𝑥)
𝐶𝑜𝑣(𝑥, 𝑦)
̂1 =
𝛽
𝑉(𝑥)

̂1 représente la pente de la droite de régression (la propension


Le coefficient 𝛽
marginale).

Remarque :
Dans le cas particulier d’un modèle de régression sans constante, Le modèle
de régression est de type 𝑌𝑡 = 𝛽1 𝑋𝑡 + 𝜀𝑡 avec 𝛽0 = 0
̂1 est
L’estimateur 𝛽
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖
̂1 =
𝛽
∑𝑛𝑖=1 𝑥𝑖 2
Exemple :
̂0 et 𝛽
Soit le modèle 𝑌𝑡 = 𝛽0 + 𝛽1 𝑋𝑡 + 𝜀𝑡 . Déterminer les estimateurs 𝛽 ̂1 et la
somme des écarts au carrée.
Individu Xt Yt XtYt Xt2 ̂𝒕
𝒀 ̂ 𝒕 -Yt
𝒀 𝒆𝒕 𝟐
1 3 10 30 9 11,4 -1,4 1,96
2 4 14 56 16 13,6 0,4 0,16
3 5 16 80 25 15,8 0,2 0,04
4 6 22 132 36 18 0,4 16
5 7 17 114 49 20,2 -3,2 10,24
Total 25 79 417 135 79 0 28,4

𝑥̅ = 5 𝑦̅ = 15,8
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦̅ 417 − 5 × 5 × 15,8 22
̂1 =
𝛽 = = = 2,2
∑𝑛𝑖=1 𝑥𝑖 2 − 𝑛𝑥̅ 2 135 − 5 × 32 10
̂0 = 𝑦̅ + 𝛽
𝛽 ̂1 𝑥̅ = 15,8 − (2,2 × 5) = 4,8

Donc 𝑌̂𝑡 = 4,8 + 2,2𝑋


̂𝑡

̂𝑡 c’est la différence entre les valeurs observées de la variable expliquée et


𝑒𝑡 = 𝑌𝑡 − 𝑌
les valeurs ajustées à l’aide des estimations des coefficients du modèle.

2.3- Les propriétés des estimateurs

Un estimateur est Best Linear Unbiased Estimator (BLUE).

̂0 et 𝛽
1°/ - Les estimateurs 𝛽 ̂1 sont linéaires en Yi

̂𝟏 , on a :
Pour 𝜷
𝐶𝑜𝑣(𝑥, 𝑦) 𝑆𝑥𝑦 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅)
̂1 =
𝛽 = =
𝑉(𝑥) 𝑆𝑥𝑥 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2

Montrons d’abord que ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)𝑌𝑖


𝑛 𝑛

(𝑋𝑖 − 𝑋̅) (𝑌𝑖 − 𝑌̅) = ∑ 𝑎𝑖 (𝑌𝑖 − 𝑌̅)


∑⏟
𝑖=1 = 𝑎𝑖 𝑖=1
𝑛

= ∑(𝑎𝑖 𝑌𝑖 − 𝑎𝑖 𝑌̅)
𝑖=1
𝑛 𝑛

= ∑ 𝑎𝑖 𝑌𝑖 − ∑ 𝑎𝑖 𝑌̅
𝑖=1 𝑖=1
𝑛 𝑛

= ∑ 𝑎𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑎𝑖
𝑖=1 𝑖=1
𝑛 𝑛

= ∑ 𝑎𝑖 𝑌𝑖 − 𝑌̅ ∑(𝑋𝑖 − 𝑋̅)
𝑖=1 𝑖=1
𝑛 𝑛

= ∑ 𝑎𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖 + 𝑌̅𝑛𝑋̅
𝑖=1 𝑖=1
𝑛

𝑛𝑌̅𝑋̅ + 𝑌̅𝑛𝑋̅
= ∑ 𝑎𝑖 𝑌𝑖 − ⏟
𝑖=1 =0
𝑛

= ∑ 𝑎𝑖 𝑌𝑖
𝑖=1
𝑛

= ∑(𝑋𝑖 − 𝑋̅)𝑌𝑖
𝑖=1

Ainsi
𝑛
𝐶𝑜𝑣(𝑥, 𝑦) 𝑆𝑥𝑦 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)
̂
𝛽1 = = = = 𝑛 . 𝑌 = ∑ 𝑤𝑖 𝑌𝑖
𝑉(𝑥) 𝑆𝑥𝑥 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 ∑𝑖=1(𝑋𝑖 − 𝑋̅)2 𝑖
𝑖=1

𝑋𝑖 − 𝑋̅
avec 𝑤𝑖 =
(𝑋𝑖 − 𝑋̅)2
̂1 est linéaire.
On obtient donc une somme algébrique linéaire, d’où 𝛽

Remarque : Les propriétés de 𝑤𝑖


𝑋 −𝑋̅
a)- ∑𝑛𝑖=1 𝑤𝑖 = ∑𝑛𝑖=1 (𝑋 𝑖 ̅ )2
=0
𝑖 −𝑋

𝑋 −𝑋̅ 2 1
b)- ∑𝑛𝑖=1 𝑤𝑖 2 = ∑𝑛𝑖=1 [(𝑋 𝑖−𝑋̅)2 ] = ∑𝑛 ̅ 2
𝑖 𝑖=1(𝑋𝑖 −𝑋 )

c)- ∑𝑛𝑖=1 𝑤𝑖 𝑥𝑖 = ∑𝑛𝑖=1 𝑤𝑖 (𝑋𝑖 − 𝑋̅) = ∑𝑛𝑖=1 𝑤𝑖 𝑋𝑖 − 𝑋̅ ⏟


∑𝑛𝑖=1 𝑤𝑖 = ∑𝑛𝑖=1 𝑤𝑖 𝑋𝑖
=0
𝑋 −𝑋̅ ∑𝑛 (𝑋 −𝑋̅)2
d)- ∑𝑛𝑖=1 𝑤𝑖 𝑥𝑖 = ∑𝑛𝑖=1 (𝑋 𝑖−𝑋̅)2 (𝑋𝑖 − 𝑋̅) = ∑𝑖=1
𝑛 (𝑋
𝑖
=1
𝑖 𝑖=1−𝑋̅)2 𝑖

̂𝟎 , on a :
Pour 𝜷
̂0 = 𝑌̅ − 𝛽
𝛽 ̂1 𝑥̅
𝑛 𝑛
1
= ∑ 𝑌𝑖 − ∑ 𝑤𝑖 𝑌𝑖 𝑋̅
𝑛
𝑖=1 𝑖=1
𝑛
1
= ∑ 𝑦𝑖 ( − 𝑤𝑖 𝑋̅)
⏟𝑛
𝑖=1
=𝑚𝑖
𝑛
1
= ∑ 𝑚𝑖 𝑌𝑖 avec 𝑚𝑖 = − 𝑤𝑖 𝑋̅
𝑛
𝑖=1
̂0 est linéaire par rapport 𝑌𝑖
Il convient de dire que 𝛽

̂0 et 𝛽
2°/ - Les estimateurs 𝛽 ̂1 sont sans biais

̂𝟏 , on a :
Pour 𝜷
𝑛
̂1 = ∑ 𝑤𝑖 𝑌𝑖
𝛽 avec ̂0 + 𝛽̂1 𝑋𝑖 + 𝜀𝑖
𝑌𝑖 = 𝛽
𝑖=1

𝑛
̂1 ) = 𝐸 (∑ 𝑤𝑖 𝑌𝑖 )
𝐸(𝛽
𝑖=1
𝑛
̂0 + 𝛽
= 𝐸 [∑ 𝑤𝑖 (𝛽 ̂1 𝑋𝑖 + 𝜀𝑖 ) ]
𝑖=1
𝑛 𝑛 𝑛
̂0 + 𝛽
= 𝐸 (∑ 𝑤𝑖 𝛽 ̂1 ∑ 𝑤𝑖 𝑋𝑖 + ∑ 𝑤𝑖 𝜀𝑖 )
𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 𝑛

=𝐸 𝛽̂0 ∑ 𝑤𝑖 + 𝛽
̂1 ∑ 𝑤𝑖 𝑋𝑖 + ∑ 𝑤𝑖 𝜀𝑖

𝑖=1 ⏟
𝑖=1 𝑖=1
( =0 =1 )
𝑛
̂1 + ∑ 𝑤𝑖 𝜀𝑖 )
= 𝐸 (𝛽
𝑖=1
𝑛
̂1 ) + 𝐸 (∑ 𝑤𝑖 𝜀𝑖 )
= 𝐸(𝛽
𝑖=1
𝑛

𝐸(𝜀𝑖 )
= 𝛽1 + ∑ 𝑤𝑖 ⏟
𝑖=1 =0

= 𝛽1

̂1 ) = 𝛽
𝐸(𝛽 ̂1
̂1 est sans biais.
D’où 𝛽

̂𝟎 , on a :
Pour 𝜷
̂0 = 𝑌̅ − 𝛽
𝛽 ̂1 𝑋̅
̂0 ) = 𝐸(𝑌̅ − 𝛽
𝐸(𝛽 ̂1 𝑋̅)
𝑛 𝑛
1
= 𝐸 ( ∑ 𝑌𝑖 − ∑ 𝑤𝑖 𝑌𝑖 𝑋̅)
𝑛
𝑖=1 𝑖=1
𝑛 𝑛
1
= 𝐸 ( ∑ 𝑌𝑖 − 𝑋̅ ∑ 𝑤𝑖 𝑌𝑖 )
𝑛
𝑖=1 𝑖=1
𝑛
1
= 𝐸 [∑ ( + 𝑋̅𝑤𝑖 ) 𝑌𝑖 ]
𝑛
𝑖=1
𝑛
1
̂0 + 𝛽
= 𝐸 [∑ ( + 𝑋̅𝑤𝑖 ) (𝛽 ̂1 𝑋𝑖 + 𝜀𝑖 )]
𝑛
𝑖=1
𝑛
1 1 1
= 𝐸 [∑ ( 𝛽̂0 + 𝛽
̂1 𝑋𝑖 + 𝜀𝑖 − 𝛽
̂0 𝑋̅𝑤𝑖 − 𝛽
̂1 𝑋̅𝑋𝑖 𝑤𝑖 − 𝑋̅𝑤𝑖 𝜀𝑖 )]
𝑛 𝑛 𝑛
𝑖=1

𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
1 1 1
=𝐸 ∑ 𝛽̂0 + 𝛽
̂1 ∑ 𝑋𝑖 + ∑ 𝜀𝑖 − 𝛽
̂0 𝑥̅ ∑ 𝑤𝑖 − 𝛽
̂1 𝑋̅ ∑ 𝑋𝑖 𝑤𝑖 − 𝑋̅ ∑ 𝑤𝑖 𝜀𝑖
𝑛 𝑛 𝑛
𝑖=1 𝑖=1 ⏟
𝑖=1 ⏟ 𝑖=1 𝑖=1 𝑖=1
( =0 =1 )
𝑛 𝑛
1
= 𝐸 (∑ 𝛽̂) + 𝐸(𝛽
̂1 𝑋̅) − 𝐸(𝛽
̂1 𝑋̅) − 𝑋̅ ∑ 𝑤𝑖 𝜀𝑖
𝑛 0
𝑖=1 𝑖=1
𝑛 𝑛
𝑛 𝜀
= 𝐸( 𝛽̂0 ) + 𝐸(𝛽 ̂1 𝑋̅) − 𝐸 (∑ 𝑖 − 𝑋̅ ∑ 𝑤𝑖 𝜀𝑖 )
̂1 𝑋̅) − 𝐸(𝛽
𝑛 𝑛
𝑖=1 𝑖=1
𝑛
1
̂0 + ⏟
=𝛽 ̂1 𝑋̅ − 𝛽
𝛽 ̂1 𝑋̅ − ∑ ( − 𝑋̅𝑤𝑖 ) ⏟
𝐸(𝜀𝑖 )
𝑛
=0 𝑖=1 =0

̂0 ) = 𝛽0
𝐸(𝛽
̂0 est sans biais.
D’où 𝛽

̂0 et 𝛽
3°/ - Les estimateurs 𝛽 ̂1 sont à variances minimales de 𝛽0 et 𝛽1. Il s’agit de
déterminer leurs variances et voir si elles sont convergentes.

̂𝟏 , on a :
Pour 𝜷
2 𝑛
̂1 ) = 𝐸 [𝛽
𝑉(𝛽 ̂1 − 𝐸(𝛽
⏟ ̂1 )] avec ̂1 = 𝛽1 + ∑ 𝑤𝑖 𝜀𝑖
𝛽
=𝛽1 𝑖=1
𝑛 2
̂1 ) = 𝐸 (𝛽1 + ∑ 𝑤𝑖 𝜀𝑖 − 𝛽1 )
⇔ 𝑉(𝛽
𝑖=1
𝑛 2

= 𝐸 [(∑ 𝑤𝑖 𝜀𝑖 ) ]
𝑖=1
𝑛 𝑛

= 𝐸 (∑ 𝑤𝑖 2 𝜀𝑖 2 + 2 ∑ 𝑤𝑖 𝑤𝑖 ′ 𝜀𝑖 𝜀𝑖 ′ )
𝑖=1 𝑖<𝑖 ′
𝑛 𝑛
2 2)
= ∑ 𝑤𝑖 𝐸( 𝜀𝑖 + 2 ∑ 𝑤𝑖 𝑤𝑖 ′ 𝐸(𝜀𝑖 𝜀𝑖 ′ )
𝑖=1 𝑖<𝑖 ′

Or, par hypothèse on a 𝐸( 𝜀𝑖 2 ) = 𝑉(𝜀𝑖 ) = 𝜎𝜀2 , (c'est l'hypothèse


d'homoscédasticité), d’une part, et 𝐶𝑜𝑣(𝜀𝑖 𝜀𝑖 ′ ) = 𝐸(𝜀𝑖 𝜀𝑖 ′ ) = 0 (les erreurs sont deux à
deux indépendantes. C'est l'hypothèse de non-autocorrélation des erreurs), d’autre
part.
Donc :
𝑛
̂1 ) = ∑ 𝑤𝑖 2 𝑉( 𝜀𝑖 )
𝑉(𝛽
𝑖=1
𝑛

= ∑ 𝑤𝑖 2 𝑉( 𝜀𝑖 )
𝑖=1
𝑛

= ∑ 𝑤𝑖 2 𝜎𝜀2
𝑖=1
𝑛

= 𝜎𝜀2 ∑ 𝑤𝑖 2
𝑖=1
𝑛 2
𝑋𝑖 − 𝑋̅
= 𝜎𝜀2 ∑ [ ]
(𝑋𝑖 − 𝑋̅)2
𝑖=1

∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
= 𝜎𝜀2
∑𝑛𝑖=1[(𝑋𝑖 − 𝑋̅)2 ]2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
= 𝜎𝜀2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)4
1
= 𝜎𝜀2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝜎𝜀2
̂1 ) =
𝑉(𝛽
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2

Qu'en est-il de la convergence alors ?


Nous observons que :
- 𝜎𝜀2 est une valeur qui ne dépend pas de n, c'est la variance de l'erreur dénie
dans la population ;
- en revanche, lorsque 𝑛 → ∞, on constate facilement que ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 → ∞
En effet, c'est une somme de valeurs toutes positives ou nulles.

̂1 est un estimateur convergent


A cet égard, nous pouvons donc affirmer que 𝛽
̂1 ) = 0
de 𝛽1, parce que lim 𝑉(𝛽
𝑛→∞

̂𝟎 , on a :
Pour 𝜷
𝑛
2 1
̂0 ) = 𝐸[𝛽
𝑉(𝛽 ̂0 − 𝐸(𝛽
̂0 )] avec ̂0 = 𝛽0 + ∑ ( − 𝑋̅𝑤𝑖 ) 𝜀𝑖
𝛽
𝑛
𝑖=1
𝑛 2 𝑛
1 1
̂0 ) = 𝐸 [𝛽0 + ∑ ( − 𝑋̅𝑤𝑖 ) 𝜀𝑖 − 𝐸(𝛽
𝑉(𝛽 ̂0 )] avec ̂0 = 𝛽0 + ∑ ( − 𝑋̅𝑤𝑖 ) 𝜀𝑖
𝛽
𝑛 𝑛
𝑖=1 𝑖=1
𝑛 2
1
= 𝐸 [𝛽0 + ∑ ( − 𝑋̅𝑤𝑖 ) 𝜀𝑖 − 𝛽0 ]
𝑛
𝑖=1
𝑛 2
1
= 𝐸 [𝛽0 − 𝛽0 + ∑ ( − 𝑋̅𝑤𝑖 ) 𝜀𝑖 ]
𝑛
𝑖=1
𝑛 2
1
= 𝐸 [∑ ( − 𝑋̅𝑤𝑖 ) 𝜀𝑖 ]
𝑛
𝑖=1
2𝑛 𝑛 𝑛
1 1 1
= 𝐸 [∑ ( 𝑋𝑤𝑖 ) 𝜀𝑖 2 + 2 ∑ ∑ ( − 𝑋̅𝑤𝑖 ) 𝜀𝑖 ( − 𝑋̅𝑤𝑖 ′ ) 𝜀𝑖 ′ ]
̅
𝑛 ′
𝑛 𝑛
𝑖=1 𝑖=1 𝑖 =1
𝑛 2 𝑛 𝑛
1 1 1
= ∑ ( − 𝑋̅𝑤𝑖 ) 𝐸(𝜀𝑖 2 ) + 2 ∑ ∑ ( − 𝑋̅𝑤𝑖 ) ( − 𝑋̅𝑤𝑖 ′ ) 𝐸(𝜀
⏟ 𝑖 𝜀𝑖 ′ )
𝑛 ′
𝑛 𝑛
𝑖=1 𝑖=1 𝑖 =1 =0
𝑛 2
1
̅
= ∑ ( − 𝑋𝑤𝑖 ) 𝐸(𝜀𝑖 2 )
𝑛
𝑖=1
𝑛 2
1
= ∑ ( − 𝑋̅𝑤𝑖 ) 𝜎𝜀2
𝑛
𝑖=1
𝑛 2
1
= 𝜎𝜀2 ∑ ( ̅
− 𝑋𝑤𝑖 )
𝑛
𝑖=1
𝑛
1 2𝑋̅𝑤𝑖
= 𝜎𝜀2 ∑ ( 2 − + 𝑋̅ 2 𝑤𝑖 2 )
𝑛 𝑛
𝑖=1

𝑛 𝑛
𝑛 2𝑋̅
= 𝜎𝜀2 − ∑ 𝑤 + 𝑋̅ 2 ∑ 𝑤𝑖 2
𝑛2 𝑛 ⏟ 𝑖
𝑖=1 𝑖=1
( =0 )
𝑛
1
= 𝜎𝜀2 ( + 𝑋̅ 2 ∑ 𝑤𝑖 2 )
𝑛
𝑖=1

2𝑛
1 𝑋𝑖 − 𝑋̅
2 ̅ 2
= 𝜎𝜀 [ + 𝑋 ∑ ( ) ]
𝑛 (𝑋𝑖 − 𝑋̅)2
𝑖=1
𝑛
1 (𝑋𝑖 − 𝑋̅)2
= 𝜎𝜀2 [ + 𝑋̅ 2 ∑ ]
𝑛 (𝑋𝑖 − 𝑋̅)4
𝑖=1
𝑛
1 1
= 𝜎𝜀2 [ + 𝑋̅ 2 ∑ ]
𝑛 (𝑋𝑖 − 𝑋̅)2
𝑖=1

1 𝑋̅ 2
= 𝜎𝜀2 [ + 𝑛 ]
𝑛 ∑𝑖=1(𝑋𝑖 − 𝑋̅)2
1 𝑋̅ 2
̂ 2
𝑉(𝛽0 ) = 𝜎𝜀 [ + 𝑛 ]
𝑛 ∑𝑖=1(𝑋𝑖 − 𝑋̅)2

Qu'en est-il de la convergence alors ?


Nous observons que :
- 𝜎𝜀2 est une valeur qui ne dépend pas de n, c'est la variance de l'erreur définie
dans la population ;
- en revanche, lorsque 𝑛 → ∞, on constate facilement que ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 → ∞
En effet, c'est une somme de valeurs toutes positives ou nulles.

̂0 est un estimateur convergent


A cet égard, nous pouvons donc affirmer que 𝛽
̂0 ) = 0
de 𝛽0, parce que lim 𝑉(𝛽
𝑛→∞

2
̂0 , 𝛽
4°/ - Les estimateurs 𝐶𝑜𝑣(𝛽 ̂1 ) ≠ 0 ̂1 ) = 𝑛 −𝑛𝜎
̂0 , 𝛽
𝐶𝑜𝑣(𝛽 ∑ (𝑋 −𝑋̅ )2
𝑖=1 𝑖

Section 3- Construction des tests statistiques

Après avoir estimé le modèle, l’étape suivante est de valider le modèle avec
l’application d’un ensemble de tests statistiques.

3.1-Test de significativité partielle du modèle (test de Student)

Ce test de significativité partielle du modèle permet de trancher sur la


̂0 et 𝛽
significativité des coefficients de paramètres 𝛽 ̂1au seuil pris généralement à 5%.
Le test est formulé à partir des hypothèses suivantes :

̂𝟎
Test de significativité pour le paramètre 𝜷
𝐻0 ∶ 𝛽0 = 0
𝐻1 ∶ 𝛽0 ≠ 0
̂0 − 𝛽0 |
|𝛽 ̂0 −0|
|𝛽
Il est donnée que ̂ 𝛽0
= 𝑡𝛽∗0 ; sous l’hypothèse 𝐻0 , soit ̂ 𝛽0
= 𝑡𝛽∗0 suit une loi
𝜎 𝜎

de Student à 𝑛 − 2 degré de liberté. 𝑡𝛽∗0 est la statistique de Student calculé associée


au paramètre 𝛽0.
1 𝑋̅ 2
𝜎̂𝛽20 = 𝜎̂𝜀2 [ + ]
𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
Sachant que
∑𝑛𝑖=1 𝜀𝑖 2 (𝑌𝑖 − 𝑌̂𝑖 )
𝜎̂𝜀2 = =
𝑛−2 𝑛−2
La règle de décision pour le test est que si 𝑡𝛽∗0 > 𝑇𝑡𝑎𝑏𝑙𝑒 on rejette l’hypothèse 𝐻0
̂0 est significativement différent de 0.
et on accepte l’hypothèse 𝐻1 , donc 𝛽

̂𝟏
Test de significativité pour le paramètre 𝜷
𝐻0 ∶ 𝛽1 = 0
𝐻1 ∶ 𝛽1 ≠ 0
̂1 − 𝛽1 |
|𝛽 ̂1 −0|
|𝛽
Il est donnée que ̂ 𝛽1
= ̂ 𝛽1
= 𝑡𝛽∗1 ; sous 𝐻0 : 𝑡𝛽∗0 suit une loi de Student à
𝜎 𝜎

𝑛 − 2 degré de liberté. 𝑡𝛽∗0 est la statistique de Student calculé associée au paramètre


𝛽1.
Avec
𝜎𝜀2
̂1 ) =
𝑉(𝛽
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
La règle de décision pour le test est que si 𝑡𝛽∗1 > 𝑇𝑡𝑎𝑏𝑙𝑒 on rejette l’hypothèse 𝐻0
̂1 est significativement différent de 0.
et on accepte donc l’hypothèse 𝐻1 , donc 𝛽

3.2-Test de significativité globale du modèle (test de Fisher)

Le test de Fisher permet de trancher sur la significativité globale du modèle.


Pour l’effectuer on pose deux hypothèses :
𝐻0 ∶ 𝛽1 = 𝛽0 = 0
𝐻1 ∶ 𝑖𝑙 𝑒𝑥𝑖𝑠𝑡𝑒 𝑎𝑢 𝑚𝑜𝑖𝑛𝑠 𝑢𝑛 𝑝𝑎𝑟𝑎𝑚è𝑡𝑟𝑒 ≠ 0
∑𝑛 ̂ ̅ 2
𝑖=1(𝑌𝑖 −𝑌)
Nous calculons la statistique 𝐹 ∗ = ̂ 2
et on compare avec la statistique de
∑𝑛
𝑖=1(𝑌𝑖 −𝑌𝑖 )
𝑛−2

Fisher tablé au seuil de 5% 𝑓(5%;k;n−2).


Si 𝐹 ∗ > 𝑓(5%;k;n−2) Nous rejetons 𝐻0 et nous acceptons 𝐻1 donc le modèle est
globalement significatif.

3.3-Intervalle de confiance pour les paramètres

̂0 est donné comme suit :


L’intervalle de confiance pour le paramètre 𝛽
̂0 − (𝑇𝑡𝑎𝑏𝑙𝑒 × 𝜎̂𝛽 ) ; 𝛽
𝐼𝐶𝛽̂0 = [𝛽 ̂0 + (𝑇𝑡𝑎𝑏𝑙𝑒 × 𝜎̂𝛽 )]
0 0

̂0 est donné comme suit :


L’intervalle de confiance pour le paramètre 𝛽
̂1 − (𝑇𝑡𝑎𝑏𝑙𝑒 × 𝜎̂𝛽 ) ; 𝛽
𝐼𝐶𝛽̂1 = [𝛽 ̂1 + (𝑇𝑡𝑎𝑏𝑙𝑒 × 𝜎̂𝛽 )]
1 1

Section 4- Equation de décomposition de la variance

La fluctuation totale des valeurs de autour de la moyenne de l’échantillon peut


être décomposée en 2 éléments : La variation totale est constituée de la variation
expliquée et la variation résiduelle. Autrement dit : Variance totale = Variance
résiduelle + Variance expliquée.

La somme des carrés totale : 𝑆𝐶𝑇 = ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)2


La somme des carrés expliqués ou la variance expliquée est la variation des
valeurs de 𝑌̂ autour de leur moyenne, c’est la somme des carrées expliquées par
2
l’influence linéaire de la variable. 𝑆𝐶𝐸 = ∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌̅)

La somme des carrés résiduels ou la variance résiduelle est la variation


résiduelle des valeurs de autour de Y la droite des moindre carrés. Plus la variance
résiduelle que l’on peut considérer comme l’erreur est faible, plus le modèle ne sera
2
précis et exact. 𝑆𝐶𝑅 = ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̂𝑖 )
2 2
𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅 donc ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)2 = ∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌̅) + ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̂𝑖 )

Remarque :
Le coefficient de détermination qui est le coefficient de corrélation, élevé au
carré,𝑅 2 indique la fraction de la variance de Y expliquée par l’influence linéaire de la
valeur X. En effet, Le coefficient de détermination mesure la qualité d’ajustement du
modèle, c’est-à-dire le degré d’ajustement des observations sur la droite de
régression.
𝑆𝐶𝐸 𝑆𝐶𝑅
𝑅2 = = 1−
𝑆𝐶𝑇 𝑆𝐶𝑇
Le coefficient de détermination est compris entre 0 et 1. Plus la variance
expliqué et proche de la variance totale le mieux est l’ajustement par la droite des
moindres carrés (≈ 1) .

Section 4- Prévision dans le modèle de régression linaire simple

A l’aide d’un modèle de régression linéaire nous pouvons effectuer des


estimations pour la période 𝑡 + 1.
Soit le modèle estimé sur la période 𝑡 = 1,2,3, … , 𝑛
̂0 + 𝛽
𝑌𝑡 = 𝛽 ̂1 𝑋𝑡 + 𝑒𝑡
À partir de cette équation estimé on pourra déterminer la valeur de 𝑌𝑡+1 en
remplaçant la valeur de 𝑋𝑡 par 𝑋𝑡+1
Donc
̂0 + 𝛽
𝑌𝑡+1 = 𝛽 ̂1 𝑋𝑡+1

Cette valeur estimée est sans biais mais en réalité il est peu pratique de
connaitre la prévision sans connaitre son degré de confiance. Donc il est nécessaire
de calculer la variation de l’erreur de la prévision afin de déterminer un intervalle de
confiance pour cette prévision.

La variation de l’erreur de prévision est donnée comme suit :


𝑉( 𝑒𝑛+1 ) = 𝑉(𝑌𝑛+1 − 𝑌̂𝑛+1 )
1 𝑥𝑛+1 − 𝑋̅
= 𝜎̂𝜀2 (1 + + 𝑛 )
𝑛 ∑𝑖=1(𝑋𝑖 − 𝑋̅)2
L’hypothèse de normalité des résidus nous permet de définir un intervalle de
confiance pour la prévision :
𝛼⁄2 1 𝑥𝑛+1 − 𝑋̅ 𝛼⁄2
𝐼𝐶𝛼; 𝑛+1 = [𝑌̂𝑛+1 − 𝑇𝑛−2 ∗ 𝜎̂𝜀 ∗ √(1 + + 𝑛 ) ; 𝑌̂𝑛+1 + 𝑇𝑛−2 ∗ 𝜎̂𝜀
𝑛 ∑𝑖=1(𝑋𝑖 − 𝑋̅) 2

1 𝑥𝑛+1 − 𝑋̅
∗ √(1 + + 𝑛 )]
𝑛 ∑𝑖=1(𝑋𝑖 − 𝑋̅)2

Exemple récapitulatif
Le tableau suivant représente l’évolution du chiffre d’affaires annuelles d’une
entreprise en 2021. Désignant par 𝑌𝑡 le chiffre d’affaires relatif au trimestre t et 𝑋𝑡 le
rang du trimestre t, on fait l’hypothèse que ces données sont liées par un modèle de
̂0 + 𝛽
régression linéaire simple : 𝑌𝑡 = 𝛽 ̂1 𝑋𝑡 + 𝑒𝑡
T X Y
1 3 6
2 2 4
3 1 5
4 2 9

1. Représenter graphiquement les données, que peut-on conclure ?


2. Calculer le coefficient de corrélation r. Que peut-on conclure ?
3. Estimer les paramètres 𝛽0 et 𝛽1 et tracer la droite de régression
correspondante.
4. Tester la signification du paramètre 𝛽0 et 𝛽1 donner son intervalle de
confiance au seuil de signification de 95%.
5. Tester la signification du paramètre et donner son intervalle de confiance au
seuil de signification de 95%.
6. Tester la significativité globale du modèle.
7. Au vu de ces résultats, quelles prévisions pouvait-on faire du chiffre d’affaires
de l’année 2022.
Chapitre 4: Le modèle de régression linéaire multiple(MRM)

Le modèle de régression linéaire multiple est une généralisation du modèle de


régression linaire simple. Ce dernier s’inscrit dans un cadre restreint où la variable
endogène est expliquée par une seule variable explicative (en générale dans le but de
simplification). Cependant, un phénomène est généralement expliqué par un
ensemble de variables exogènes. En effet, l’introduction de p variables dans le cadre
de la régression multiple afin d’expliquer une variable endogène (y) améliore
l’estimation et réduit le résidu.

Section 1- La forme générale du modèle

1.1- La forme analytique du modèle multiple

La forme générale du modèle multiple est donnée comme suit :


𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1,𝑡 + +𝛽2 𝑋2,𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘,𝑡 + 𝜀𝑡 pour 𝑡 = 1,2,3, … , 𝑛
𝑌𝑡 : la variable à expliquer à la date t.
𝑋1,𝑡 : la première variable explicative à la date t.
𝑋2,𝑡 : la deuxième variable explicative à la date t.

𝑋𝑘,𝑡 : la kième variable explicative à la date t.
𝛽0 , 𝛽1 , 𝛽2 , … , 𝛽𝑘 : les paramètres du modèle.
𝜀𝑡 : le résidu du modèle.

1.2- La forme matricielle du modèle multiple

Afin de rendre l’écriture du modèle plus pratique, nous utilisons l’écriture matricielle.
𝑌1 = 𝛽0 + 𝛽1 𝑋1,1 + +𝛽2 𝑋2,1 + ⋯ + 𝛽𝑘 𝑋𝑘,1 + 𝜀1
𝑌2 = 𝛽0 + 𝛽1 𝑋1,2 + +𝛽2 𝑋2,2 + ⋯ + 𝛽𝑘 𝑋𝑘,2 + 𝜀2
𝑌3 = 𝛽0 + 𝛽1 𝑋1,3 + +𝛽2 𝑋2,3 + ⋯ + 𝛽𝑘 𝑋𝑘,3 + 𝜀3
⋮ ⋮ ⋮ ⋮
𝑌𝑛 = 𝛽0 + 𝛽1 𝑋1,𝑛 + 𝛽2 𝑋2,𝑛 + ⋯ + 𝛽𝑘 𝑋𝑘,𝑛 + 𝜀𝑛
Donc
𝑌(𝑛,1) = 𝑋(𝑛,𝑘+1) 𝛽𝑘+1,1 + 𝜀(𝑛,1)
𝑦1
𝑦2
𝑌 = 𝑦3

𝑦
( 𝑛)
1𝑋11 𝑋21 …𝑋𝑘1
1𝑋12 𝑋22 …𝑋𝑘2
𝑋 = 1𝑋13 𝑋23 …𝑋𝑘3
⋮ ⋮ ⋮ ⋮ ⋮
(1𝑋1𝑛 𝑋2𝑛 …𝑋𝑘𝑛 )
𝛽1
𝛽2
𝛽 = 𝛽3

(𝛽𝑛 )
𝜀1
𝜀2
𝜀 = 𝜀3

𝜀
( 𝑛)
La première colonne de la matrice X est constitué de chiffre 1 ce qui correspond
au terme constant 𝛽0 . Puis les autres colonnes sont constituées des variables
explicatives.

Section 2- Les hypothèses de la régression linéaire multiple

Le modèle est linéaire sur ses variables explicatives. Deux types d’hypothèses
émergent : les hypothèses stochastiques, d’une part, et celles dites structurelles,
d’autre part.

2.1- Les hypothèses stochastiques

1)- Les observations doivent être indépendantes. C’est-à-dire absence de


multicolinéarité. Les valeurs xi, t sont observées sans erreur.
2)- l’espérance mathématique de l’erreur est nulle. 𝐸(𝜀𝑡 ) = 0.
3)- La variance de l’erreur est constante 𝑉(𝜀𝑡 ) = 𝐸(𝜀 2 ) = 𝜎𝜀2 . Il y a
homoscédasticité
4)- Les erreurs sont non corrélées.
5)- 𝐶𝑜𝑣(𝑋, 𝜀) = 0 l’erreur est indépendante des variables explicatives.

2.2- Les hypothèses structurelles

1)- Absence de colinéarité entre les variables explicatives, ce qui implique que
la matrice(𝑋 ′ 𝑋) est stable, et qu’elle est inversible.
(𝑋 ′ 𝑋)
2)- tend vers une matrice finie non régulière.
𝑛

3)- 𝑛 > 𝑘 + 1 c’est-à-dire que le nombre d’observations doit être supérieurs au


nombre de variables explicatives.

Section 2- Estimation et propriété des estimateurs

Soit le modèle multiple a k variables explicatives suivant : 𝑌 = 𝛽𝑋 + 𝜀


L’estimation du vecteur a est effectuée par la méthode des moindres carrés ordinaires
qui consiste à minimiser le carré des résidus.
𝑛

𝐻(𝛽0 , 𝛽1 , 𝛽2 , … 𝛽𝑘 ) = ∑(𝑌𝑛 −𝛽0 − 𝛽1 𝑋1,𝑛 − 𝛽2 𝑋2,𝑛 − ⋯ − 𝛽𝑘 𝑋𝑘,𝑛 )


𝑖=1

Le minimum de la fonction est atteint par la différenciation de cette fonction par


rapport à a.
𝜕𝐻
=0
𝜕𝛽
⇔ −2𝑋 ′ 𝑌 + 2𝑋 ′ 𝑋𝛽̂ = 0
⇔ −𝑋 ′ 𝑌 + 𝑋 ′ 𝑋𝛽̂ = 0
𝑋′𝑌
⇔ 𝛽̂ = = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑌
𝑋′𝑋
La réalisation de cette solution est sous contrainte que la matrice carrée 𝑋 ′ 𝑋 est
inversible.
Donc le modèle estimé s’écrit :
̂ ̂0 + 𝛽
𝑌𝑛 = 𝛽 ̂1 𝑋1,𝑛 + 𝛽
̂2 𝑋2,𝑛 + ⋯ + 𝛽
̂𝑘 𝑋𝑘,𝑛 + 𝑒𝑛

Le résidu mesure l’écart entre la valeur observée et la valeur estimé 𝑒𝑛 = 𝑌𝑛 −


̂
𝑌𝑛 .
Remarque :
il faut distinguer entre l’erreur de spécification notée 𝜀 qui est un terme inconnu
et le résidu 𝑒 qui est un terme estimé.

Section 3- La matrice des variances covariances des coefficients de


régression
L’estimation sans biais de la variance 𝜎 2 est la quantité
𝑒 ′𝑒 ∑𝑛𝑖=1 𝑒 2 (𝑦 − 𝑋𝛽̂ )
𝜎𝜀2 = = =
𝑛−𝑘−1 𝑛−𝑘−1 𝑛−𝑘−1
𝑛 le nombre d’observation ;
𝑘 le nombre de variables explicatives.
D’après l’hypothèse de la variance de l’erreur est constante et celle que les
erreurs sont non corrélées :
𝐸(𝜀1 𝜀1 ) 𝐸(𝜀1 𝜀2 ) … 𝐸(𝜀1 𝜀𝑛 ) 𝜎𝜀2 0) … 0
𝐸(𝜀2 𝜀1 ) 𝐸(𝜀2 𝜀2 )…𝐸(𝜀2 𝜀𝑛 ) 0 𝜎𝜀2 … 0
Ω𝜀 = 𝐸(𝜀3 𝜀1 ) 𝐸(𝜀3 𝜀2 )…𝐸(𝜀3 𝜀𝑛 ) = 0 0) … 0
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
(𝐸(𝜀𝑛 𝜀1 )𝐸(𝜀𝑛 𝜀2 )…𝐸(𝜀𝑛 𝜀𝑛 )) ( 0 0 …𝜎𝜀 )
2

Donc Ω𝛽̂ = 𝜎𝜀2 (𝑋 ′ 𝑋)−1


En remplaçant la variance de l’erreur par son estimateur :
̂𝛽̂ = 𝜎𝜀2 (𝑋 ′ 𝑋)−1
Ω
Les variances des coefficients de régression se trouvent à la première
̂𝛽̂ .
diagonale de la matrice Ω

Section 4- La construction des tests statistiques et la prévision

Afin de valider le modèle et de passer à l’étape de la prévision, il est


nécessaire d’effectuer un ensemble de tests statistiques. En effet, nous allons
construire deux principaux tests ; test de significativité partielle du modèle et test de
significativité globale du modèle.
4.1- Test de significativité partielle du modèle (test de Student)

Il s’agit d’effectuer un test de significativité sur chacune des variables


explicatives du modèle, notamment la constante. Le test est basé sur les deux
hypothèses suivantes :
𝐻0 ∶ 𝛽𝑖 = 0
𝐻1 ∶ 𝛽𝑖 ≠ 0
̂𝑖 − 𝛽0 |
|𝛽
Sous l’hypothèse 𝐻0 nous calculons la statistique de student 𝑡𝛽∗𝑖 = ̂ 𝛽0
, et
𝜎

nous comparons avec la statistique de Student 𝑇𝑡𝑎𝑏𝑙é avec 𝑛 − 𝑘 − 1 degrés de liberté.


𝛼∕2
Si 𝑡𝛽∗𝑖 > 𝑇𝑛−𝑘−1 nous rejetons 𝐻0 et nous acceptons 𝐻1 donc le coefficient est
𝛼∕2
significativement différent de 0. Dans le cas contraire c’est-à-dire 𝑡𝛽∗𝑖 < 𝑇𝑛−𝑘−1 nous

acceptons 𝐻0 dans ce cas le coefficient 𝛽𝑖 n’est pas significatif.

Intervalle de confiance pour les paramètres estimé


Il est toute a fait intéressant de déterminer un intervalle de confiance pour les
paramètres estimés et qui sont significativement différents de 0.
𝛼∕2 𝛼∕2
𝐼𝐶𝛽̂𝑖 = [𝛽̂𝑖 − (𝑇𝑛−𝑘−1 × 𝜎̂𝛽𝑖 ) ; ̂
𝛽𝑖 + (𝑇𝑛−𝑘−1 × 𝜎̂𝛽𝑖 )]

4.2 Test de significativité globale du modèle (Test de Fisher)

Le test de Fisher informe sur la significativité globale du modèle. Ce test a


comme principe que la régression est significative si la variabilité expliquée est
significativement différente de 0. Il est basé sur deux hypothèses :
𝐻0 ∶ 𝛽1 = 𝛽2 = 𝛽𝑖 = 0
𝐻1 ∶ 𝑖𝑙 𝑒𝑥𝑖𝑠𝑡𝑒 𝑎𝑢 𝑚𝑜𝑖𝑛𝑠 𝑢𝑛 𝑝𝑎𝑟𝑎𝑚è𝑡𝑟𝑒 ≠ 0
𝑅2

Sous l’hypothèse 𝐻0 nous calculons la statistique 𝐹 = 𝑘
1−𝑅2
𝑛−𝑘−1

∑𝑛𝑖=1 𝑒
2
Le coefficient de détermination 𝑅 2 = 1 − 𝑛
∑𝑖=1(𝑌𝑖 −𝑌̅)2

Nous comparons la statistique de Fisher calculée avec la statistique de Fisher


tablé 𝑓(α;𝑛−𝑘−1) .
Si 𝐹 ∗ > 𝑓(α; 𝑛−𝑘−1) Nous rejetons 𝐻0 et nous acceptons 𝐻1 donc le modèle est
globalement significatif. Dans le cas contraire c’est-à-dire 𝐹 ∗ < 𝑓(α; 𝑛−𝑘−1) nous

acceptons 𝐻0 dans ce cas le modèle ne serait pas significatif.

Remarque :
Si l’hypothèse de non-régression n’est pas satisfaite, la loi de 𝑅 2 n’est pas une
forme simple, ce qui suggère de calculer le coefficient de détermination ajusté.
̅̅̅ 𝑛−1
𝑅 2̅ = 1 − 𝑛−𝑘−1 (1 − 𝑅 2 ) Avec n : nombre d’observation et k : nombre de variables

explicatives.
Si ̅𝑅̅̅2̅ ≈ 𝑅 2 ≈ 1 cela indique l’absence d’erreur liée à l’introduction des variables
explicatives dans le modèle. Donc le modèle est bien spécifié.

4.3- La prévision dans le modèle multiple

Soit le modèle générale suivant :


𝑌̂𝑡 = 𝛽0 + 𝛽1 𝑋1,𝑡 + +𝛽2 𝑋2,𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘,𝑡 + 𝜀𝑡 pour 𝑡 = 1,2,3, … , 𝑛
La prévision pour𝑌̂𝑡+ℎ est donnée par :
𝑌̂𝑡+ℎ = 𝛽0 + 𝛽1 𝑋1,𝑡+ℎ + +𝛽2 𝑋2,𝑡+ℎ + ⋯ + 𝛽𝑘 𝑋𝑘,𝑡+ℎ
L’erreur de la prévision notée 𝑒𝑡+ℎ = 𝑌𝑡+ℎ − 𝑌̂𝑡+ℎ
La variance de l’erreur de prévision est donnée comme suit :
𝑉(𝑒𝑡+ℎ ) = 𝜎𝜀2 𝑉ℎ′ (𝑋 ′ 𝑋)−1 𝑉ℎ + 1
avec 𝑉ℎ la valeur de la matrice des variables explicative à 𝑡 = ℎ

En effet, l’intervalle de confiance pour la prévision est donné :


𝛼∕2 𝛼∕2
𝐼𝐶𝑌(𝑒𝑡+ℎ ) = [𝑌̂𝑡+ℎ − (𝑇𝑛−𝑘−1 × √𝑉(𝑒𝑡+ℎ )) ; 𝑌̂𝑡+ℎ + (𝑇𝑛−𝑘−1 × √𝑉(𝑒𝑡+ℎ ))]

Exemple récapitulatif
On suppose qu’une entreprise cherche à déterminer l’impact des ruptures de
production sur la hausse du cout de production, pour cela elle utilise deux variables
explicatives (𝑋1 : la fréquence des coupures d’électricité par mois et 𝑋2 : la fréquence
des pannes de machines par mois). Aussi les fluctuations figurent-elles dans le tableau
ci-après.
Y X X
1 3 4
1 3 2
2 5 2
3 7 1
3 8 1

1. Donner la forme générale du modèle.


2. Donner la forme matricielle du modèle
3. Estimer les paramètres du modèle sachant que
0,02 0,17 0,31
(𝑋 ′ 𝑋) −1
= (0,17 0,03 0,11)
0,31 0,11 0,74
On considère que ces données sont erronées. A cet égard, on suppose désormais le
8,2
5
modèle de régression suivant 𝑌 = ( ) et : 𝑌 = 2 + 1,3𝑋1 + 0,52𝑋2 tandis que 𝑋 =
7,5
6
1 3 4 0,15 0,2 0,1
(1 2 1 ) et (𝑋 ′ 𝑋)−1 = ( 0,2 0,03 0,24)
1 4 2 0,1 0,24 0,7
1 1 4
4. Calculer l’écart-type des coefficients de régression
5. Déterminer les intervalles de confiance des paramètres
6. Tester la significativité partielle de des paramètres globale du modèle.
7. Tester la significativité globale du modèle
8. en supposant la significativité de l’ensemble des paramètres
a)- établir le tableau d’analyse de la variance
b)- calculer le coefficient de détermination et le coefficient de
détermination ajusté.
c)- Faites une prévision pour la valeur 𝑋1 = 5 et 𝑋2 = 4
d)- Donner un intervalle de confiance pour cette prévision au seuil de
significativité de 5%.

Vous aimerez peut-être aussi