Vous êtes sur la page 1sur 68

Econométrie I

Mounir JERRY
Année universitaire 2021-2022

Master: Gestion des Risques Financiers

USTV
Master G.R.F.

Table des Matières

Table des matières


1 Régression linéaire simple 2
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Principe de l’ajustement des moindres carrés . . . . . . . . . . . . . . . . . 3
1.3 Décomposition de la variance et coefficient de détermination R2 . . . . . . 6
1.4 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Distribution des coefficient estimés . . . . . . . . . . . . . . . . . . . . . . 14
1.6 Prévision et intervalle de prévision . . . . . . . . . . . . . . . . . . . . . . 17
1.7 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 Régression linéaire multiple 29


2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Estimateurs des Moindres Carrés Ordinaires . . . . . . . . . . . . . . . . . 30
2.3 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4 Décomposition de la variance et coefficient de détermination R2 . . . . . . 43
2.5 Test de significativité des paramètres . . . . . . . . . . . . . . . . . . . . . 45
2.6 Prédiction et intervalle de prédiction . . . . . . . . . . . . . . . . . . . . . 49
2.7 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3 Les modèles non linéaires 60


3.1 Linéarisation des modèles non linéaires . . . . . . . . . . . . . . . . . . . 60
3.2 Méthodes d’estimation des modèles non linéaires . . . . . . . . . . . . . . 64
3.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Mounir Jerry
Master G.R.F.

1 Régression linéaire simple


1.1 Introduction
Introduction
— La plupart du temps, l’objectif d’un économiste est de montrer qu’une variable à un
effet causal sur une autre. Exemple : l’éducation a un effet causal sur la productivité
d’un travailleur.
— La plupart des analyses économétriques commencent comme ceci : y et x sont deux
variables représentant une population et nous voulons expliquer y en fonction de x,
c-à-d comment varie y lorsque x varie ?
— Objectif : estimer un modèle du type
y = β0 + β1 x + ε

— La variable qu’on cherche à prévoir est appelée variable dépendante y.


— La variable ou les variables utilisées pour prévoir la valeur de la variable dépendante
sont appelées variables indépendantes x.
— ε est le terme d’erreur (aléa) = facteurs non-observés autres que x qui affectent y.
— Les principaus modèles utilisés en économétrie

Linéaire : y = ax + b
Log-linéaire : y = bxa
Exponentiel : y = eax+b
Logarithmique : y = aln(x) + b
a
Hyperbolique : y = + y0
x − x0
ymax − ymin
Logistique : y = ymin +
1 + eax+b
2
Parabolique : y = ax + bx + c

— Linéarisation

Log-linéaire : ln(y) = aln(x) + ln(b)


Exponentiel :
ln(y) = ax + b
a
Hyperbolique : = x − x0
y − y0
ymax − y
Logistique : ln( ) = ax + b
y − ymin
Parabolique = y = a(x − x0 )2 + y0

Mounir Jerry
Master G.R.F.

1.2 Principe de l’ajustement des moindres carrés


Position du problème

Modèle de régression simple : yi = β0 + β1 xi + εi


— Nous disposons donc d’un échantillon de n couples de points (xi , yi ) i.i.d. (indépen-
dants et identiquement distribués), et on veut expliquer (prédire) les valeurs de y en
fonction des valeurs prises par x.
— Le terme aléatoire permet de résumer toute l’information qui n’est pas prise en compte
dans la relation linéaire entre y et x.

Hypothèses
Permettent de déterminer les propriétés des estimateurs, et de mettre en place les outils
de statistique inférentielle (tests d’hypothèses, intervalle de confiance).
1. H1 x et y sont des grandeurs numériques mesurées sans erreur. x est une donnée
(exogène) dans le modèle, y est aléatoire par l’intermédiare de ε (c-à-d, la seule erreur
que l’on a sur y provient des insuffisances de x à expliquer ses valeurs dans le modèle).
2. H2 Les εi sont i.i.d.
(a) H21 En moyenne les erreurs s’annulent, le modèle est bien spécifié : E(εi ) = 0
(b) H22 La variance de l’erreur est constante et ne dépend pas de l’observation :
homoscédasticité V (εi ) = σε2
(c) H23 En particulier, l’erreur est indépendante de la variable exogène : Cov(xi , εi ) =
0
(d) H24 Indépendance des erreurs, les erreurs relatives à deux observations sont in-
dépendantes : Cov(εi , εj ) = 0
(e) H25 εi ∼ N (0, σε )

Mounir Jerry
Master G.R.F.

Estimateur des moindres carrés ordinaires


Critère des moindres carrés : trouver les valeurs de β0 et β1 qui minimise la somme
des carrés des écarts entre les vraies valeurs de y et les valeurs prédites avec le modèle de
prédiction.

n
X n
X
min ε2i = min [yi − (β0 + β1 xi )]2
β0 ,β1 β0 ,β1
i=1 i=1
Xn
= min [yi − β0 − β1 xi ]2 = min φ(β0 , β1 )
β0 ,β1 β0 ,β1
i=1

La détermination de β̂0 et β̂1 se fait en appliquant les conditions du premier ordre :

 n
∂φ(β0 , β1 )
 X
 −2 [yi − β̂0 − β̂1 xi ] = 0

=0
 


∂β0 =⇒ i=1
n
 ∂φ(β0 , β1 ) = 0
  X
 −2 [xi (yi − β̂0 − β̂1 xi )] = 0

∂β1

i=1

 β̂0 = ȳ − β̂1 x̄

n
=⇒ X
 −2
 [xi (yi − ȳ + β̂1 x̄ − β̂1 xi )] = 0
i=1


 β̂0 = ȳ − β̂1 x̄

 X n X n

xi (yi − ȳ) = β̂1 xi (xi − x̄)



=⇒ |i=1 {z } |i=1 {z }


 X n Xn

(xi − x̄)(yi − ȳ) (xi − x̄)2




i=1 i=1

Mounir Jerry
Master G.R.F.

Estimateurs des moindres carrés




 β̂0 = ȳ − β̂1 x̄

 X n

(xi − x̄)(yi − ȳ)


i=1

 β̂1 = n
 X
(xi − x̄)2




i=1

Propriétés
n
∂φ(β0 , β1 ) X
1. = ε̂i = 0
∂β0 i=1
n
∂φ(β0 , β1 ) X
2. = xi ε̂i = 0
∂β1 i=1

3. (x̄, ȳ) est toujours sur la droite de régression, car on a : ȳ = β̂0 + β̂1 x̄

Les différentes écritures du modèle : erreur et résidu


Le modèle de régression simple peut s’écrire sous deux formes selon qu’il s’agit du
modèle théorique spécifié par l’économiste ou du modèle estimé à partir d’un échantillon.
 Modèle spécifié par l’économiste avec εi l’erreur inconnue :

y i = β 0 + β 1 xi + εi

 Modèle estimé à partir d’un échantillon d’observations avec ε̂i le résidu :

yi = β̂0 + β̂1 xi + ε̂i = ŷi + ε̂i

 Les MCO décomposent chaque yi en deux parties : une valeur prédite + un résidu (valeur
non prédite).

n n n n
1X 1X 1X 1X
yi = β0 + β1 xi + εi
n i=1 n i=1 n i=1 n i=1
ȳ = β0 + β1 x̄ + ε̄

Comme on a
n n
1X 1X 2
Sx2 = (xi − x̄)2 = x − x̄2
n i=1 n i=1 i
n n
1X 1X 2
Sy2 = (yi − ȳ)2 = y − ȳ 2
n i=1 n i=1 i
n n
1X 1X
Cov(x, y) = Sxy = (xi − x̄)(yi − ȳ) = xi yi − x̄ȳ
n i=1 n i=1

Mounir Jerry
Master G.R.F.

Avec le coefficient de corrélation de Bravais-Pearson


Cov(x, y)
rxy = tel que − 1 ≤ rxy ≤ 1
Sx Sy
Alors
Cov(x, y) Sy
β̂1 = 2
= rxy
Sx Sx

Le coefficient de corrélation mesure la dépendance linéaire entre deux variables

1.3 Décomposition de la variance et coefficient de détermination R2


Décomposition de la variance
Objectif de la régression est de minimiser la fonction
n
X
ε2i
i=1

Somme des écarts à la moyenne


n
X n
X
2
(yi − ȳ) = (yi − ŷi + ŷi − ȳ)2
i=1 i=1
Xn n
X n
X
2 2
= (yi − ŷi ) + (ŷi − ȳ) + 2 (yi − ŷi )(ŷi − ȳ)
i=1 i=1 i=1
| {z }
=0

Mounir Jerry
Master G.R.F.

Or on a
ŷi = β̂0 + β̂1 xi = ȳ − β̂1 x̄ + β̂1 xi
D’où
ŷi − ȳ = β̂1 (xi − x̄)
Alors
n
X n
X
(yi − ŷi )(ŷi − ȳ) = ε̂i (ŷi − ȳ)
i=1 i=1
Xn
= ε̂i β̂1 (xi − x̄)
i=1
Xn n
X
= β̂1 ( ε̂i xi − ε̂i x̄)
i=1 i=1
Xn X n
= β̂1 ( ε̂i xi − x̄ ε̂i )
i=1 i=1
| {z } | {z }
=0 =0

Alors on a
n
X n
X n
X
2 2
(yi − ȳ) = (yi − ŷi ) + (ŷi − ȳ)2
i=1 i=1 i=1
SCT = SCR + SCE

— SCT : somme des carrés totaux. Elle indique la variabilité totale de y.


— SCE : somme des carrés expliqués par le modèle. Elle indique la variation de y due à
sa régression linéaire sur x.
— SCR : somme des carrés résiduels. Elle indique la variabilité de y non expliquée par le
modèle.

Coefficient de détermination

SCE SCR
R2 = =1−
SCT SCT
2
— R est la proportion de la variance de y expliqué par x.
— Il est toujours compris entre 0 et 1.
— Il est un instrument de mesure de la qualité de l’ajustement, par le modèle linéaire et
des données observées. Plus il est proche de 1, mieux cela vaut.
— Plus le R2 est proche de 0, l’ajustement est mauvais, x n’apporte pas d’informations
utiles sur y.

Mounir Jerry
Master G.R.F.

— Il faut tout de même faire attention quant au crédit à accorder au R2 , il doit toujours
être accompagné d’autres tests (Student et Fisher essentiellement) avant de trancher
sur la bonté d’un modèle, mais il reste un critère non négligeable pour la prévision.
En plus
SCE
R2 =
SCT
Xn
(ŷi − ȳ)2
i=1
= n
X
(yi − ȳ)2
i=1
n
X
(xi − x̄)2
= β̂12 i=1
n
X
(yi − ȳ)2
i=1

2
Sy2 Sx2
= rxy 2 ·
Sx Sy2
2
= rxy

1.4 Propriétés des estimateurs


— β̂0 et β̂1 sont des estimateurs des paramètres de la population β0 et β1 .
— Ce sont donc des variables aléatoires car on obtiendra des β̂0 et β̂1 différents si on
utilise des échantillons différents (tirés de la même population).
— on va devoir imposer certaines hypothèses pour étudier :
1. E(β̂0 ) et E(β̂1 )
2. V (β̂0 ) et V (β̂1 )
xi − x̄
Si on pose wi = n , alors
X
2
(xj − x̄)
j=1
n
X
n
xi − x̄
X i=1
— wi = n =0
X
i=1 2
(xj − x̄)
j=1
n
X n
X n
X n
X
— β̂1 = wi (yi − ȳ) = wi yi − ȳ wi = wi yi
i=1 i=1 i=1 i=1

Mounir Jerry
Master G.R.F.

n
X
n
(xi − x̄)2
X i=1 1
— wi2 = !2 = X
n
n
i=1
(xj − x̄)2
X
(xj − x̄)2
j=1 j=1

n
X
n
(xi − x̄)2
X i=1
— wi (xi − x̄) = n =1
X
i=1
(xj − x̄)2
j=1
n
X n
X n
X n
X
— wi (xi − x̄) = wi xi − x̄ wi = wi x i = 1
i=1 i=1 i=1 i=1
n n n
1
X X X 1
— β̂0 = ȳ − β̂1 x̄ = n
yi − x̄ wi yi = ( − x̄wi )yi
i=1 i=1 i=1
n
xi n’est pas aléatoire par hypothèse, donc wi ne l’est pas.

β̂0 et β̂1 sont des estimateurs sans biais de β0 et β1


Xn
β̂1 = wi yi , avec yi = β0 + β1 xi + εi , donc
i=1

n
!
X
E(β̂1 ) = E wi (β0 + β1 xi + εi )
 i=1 
 X n X n n
X 
= E β0 wi +β1 w i xi + w i εi 
 
 i=1 
| {z } |i=1{z } i=1
=0
n
! =1
X
E(β̂1 ) = E β1 + w i εi
i=1
Xn
= E(β1 ) + wi E(εi )
| {z }
i=1 =0
= β1

Mounir Jerry
Master G.R.F.

n
!
X 1
E(β̂0 ) = E ( − x̄wi )yi
i=1
n
n
!
X 1
= E ( − x̄wi )(β0 + β1 xi + εi )
n
 i=1 
n n n n n n
X 1 1 X 1X X X X 
= E β0 + β1 xi + εi − x̄β0 wi −x̄β1 wi xi −x̄ w i εi 
 
 i=1 n n i=1 n i=1 
|i=1{z } |i=1{z } i=1

n n
!=0 =1

1X X
= E β0 + β1 x̄ + + εi − β1 x̄ − x̄ w i εi
n i=1 i=1
n
!
X 1
E(β̂0 ) = E β0 + ( − x̄wi )εi
i=1
n
n n
1X X
= β0 + E(εi ) −x̄ wi E(εi )
n i=1 | {z } i=1
| {z }
=0 =0
= β0

Calcul de la variance de β̂0 et β̂1

 
V (β̂1 ) = E (β̂1 − E(β̂1 ))2
 
2
= E (β̂1 − β1 )
n
!
X
= E ( wi εi )2
i=1
n n
!
X X
= E wi2 ε2i + 2 w i w j εi εj
i=1 i<j
n
X n
X
= wi2 × E(ε2i ) +2 wi wj × E(εi εj )
| {z } | {z }
i=1 i<j
=E((εi −E(εi ))2 )=σε2 =E(εi )·E(εj )=0

σε2
= n
X
(xi − x̄)2
i=1

Mounir Jerry
Master G.R.F.

 
2
V (β̂0 ) = E (β̂0 − E(β̂0 ))
 
= E (β̂0 − β0 )2
n
!
X 1
= E ( ( − x̄wi )εi )2
i=1
n
n
!
X 1 2 1
= E 2
εi + x̄2 wi2 ε2i − 2 x̄wi ε2i
i=1
n n
n n
1 X 2 2
X
2 2 1 X
= E(ε i ) + x̄ wi E(ε i ) − 2 x̄ wi E(ε2i )
n2 i=1 i=1
n i=1
 

2
 
1 x̄ 
= σε2  +
n Xn


2
(xi − x̄)

i=1

β̂0 et β̂1 sont des estimateurs convergents

σε2
V (β̂1 ) = n
X
(xi − x̄)2
i=1

Or on a σε2
est une valeur qui ne dépend pas des effectifs (variance de l’erreur théorique) et
Xn
(xi − x̄)2 −→ +∞, alors
n→+∞
i=1
V (β̂1 ) −→ 0
n→+∞

On a aussi  

x̄2
 
1 
V (β̂0 ) = σε2  +
n Xn
 −→ 0
 n→+∞
2
(xi − x̄)

i=1

— Les estimateurs MCO de la régression sont sans biais et convergents.


— Ils sont à variance minimale c-à-d, il est impossible de trouver un autre estimateur sans
biais à plus petite variance.
=⇒
→ On dit qu’ils sont BLUE (best linear unbiased estimator)
→ Ce sont des estimateurs efficaces

Mounir Jerry
Master G.R.F.

Estimation de la variance de l’erreur


Le résidu est donné par :

ε̂i = yi − ŷi = yi − β̂1 xi − β̂0

Or on a ȳ = β̂1 x̄ + β̂0 , d’où :

ε̂i = yi − ȳ − β̂1 (xi − x̄)

On a aussi yi − ȳ = β1 (xi − x̄) + (εi − ε̄), alors :

ε̂i = (β1 − β̂1 )(xi − x̄) + (εi − ε̄)

En élevant ce terme au carré et en effectuant la somme sur les n observations, on aura :


n
X n
X n
X n
X
ε̂2i = (β1 − β̂1 ) 2
(xi − x̄) + 2 2
(εi − ε̄) + 2(β1 − β̂1 ) (xi − x̄)(εi − ε̄)
i=1 i=1 i=1 i=1

Or d’après l’expression
n
X n
X n
X n
X
β̂1 = β1 + wi εi = β1 + wi εi − ε̄ w i = β1 + wi (εi − ε̄)
i=1 i=1 i=1 i=1
| {z }
=0

En remplaçant wi par sa valeur, on aura


n
X n
X
(xi − x̄)(εi − ε̄) = −(β1 − β̂1 ) (xi − x̄)2
i=1 i=1

Nous remplaçons dans l’expression précédente et après simplification :


n
X n
X n
X
ε̂2i = 2
(εi − ε̄) − (β1 − β̂1 ) 2
(xi − x̄)2
i=1 i=1 i=1

En prenant l’espérance de cette dernière


n
X n
X n
X
E( ε̂2i ) = E( (εi − ε̄)2 ) − E((β1 − β̂1 )2 ) (xi − x̄)2
i=1 i=1 i=1

Mounir Jerry
Master G.R.F.

Examinons les deux membres de cette équation


n n
!
X X
E( (εi − ε̄)2 ) = E (ε2i − 2εi ε̄ + ε̄ ) 2

i=1 i=1
n n n
!
X X X
= E ε2i − 2ε̄ εi + ε̄ 2

i=1 i=1 i=1


n
!
X
= E ε2i − 2ε̄nε̄ + nε̄ 2

i=1
n
! n n
!
X X X
= E ε2i − nε̄ 2
=E ε2i − ε̄ εi
i=1 i=1 i=1
n n
!
X 1 X 2
= E ε2i − ( εi )
i=1
n i=1
n n
X 1 X
= E(ε2i ) − E(( εi )2 )
i=1
n i=1

Nous savons que E(ε2i ) = σε2 et


n
X 1
E( (εi − ε̄)2 ) = nσε2 − E((ε1 + ε2 + · · · + εn )2 )
i=1
n
Or, d’après l’hypothèse d’indépendance des erreurs, les doubles produits sont donc tous
nuls. Nous obtenons alors
n
X 1
E( (εi − ε̄)2 ) = nσε2 − nσε2 = (n − 1)σε2
i=1
n
On a aussi   σε2
V (β̂1 ) = E (β̂1 − β1 )2 = n
X
(xi − x̄)2
i=1
Alors n
X
E((β1 − β̂1 )2 ) (xi − x̄)2 = σε2
i=1

Donc n
X
E( ε̂2i ) = (n − 1)σε2 − σε2 = (n − 2)σε2
i=1

L’estimateur sans biais de la variance de l’erreur σε2 noté σ̂ε2 est donc égal à :
n
1 X 2 SCR
σ̂ε2 = ε̂i =
n − 2 i=1 n−2
En remplaçant la variance des erreurs par son estimateur sans biais, on définit les estimateurs
empiriques de la variance de chacun des coefficients

Mounir Jerry
Master G.R.F.

σ̂ε2
 σ̂β̂2 = n
1 X
(xi − x̄)2
i=1
 

2
 
1 x̄ 
 σ̂β̂2 = σ̂ε2  +
n n

0  X 
(xi − x̄)2
 
i=1

1.5 Distribution des coefficient estimés


Les estimateurs théoriques de la variance de chacun des coefficients sont
σε2
 V (β̂1 ) = σβ̂2 = n
1 X
(xi − x̄)2
i=1
 

x̄2
 
1 
 V (β̂0 ) = σβ̂2 = σε2  +
n Xn

0 
2
(xi − x̄)

i=1
L’hypoyhèse de normalité des erreurs implique que

β̂0 − β0 β̂1 − β1
et
σβ̂0 σβ̂1

suivent une loi normale centrée réduite N (0, 1).


Par hypothèse εi ∼ N (0, σε ). Le résidu ε̂i est une réalisation de l’erreur εi , alors il suit
aussi une loi normale
ε̂i
⇒ ∼ N (0, 1)
σε
Xn
ε̂2i
 n
X
n 
X ε̂i  2 
 ε̂i = 0
⇒ = i=1 2 ∼ χ2 (n − 2) car i=1
n

i=1
σε σε 

X
xi ε̂i = 0
i=1

σ̂ 2
⇒ (n − 2) ε2 ∼ χ2 (n − 2)
σε
On vérifie facilement

σ̂ε2 σ̂β̂2 σ̂β̂2


(n − 2) 2 = (n − 2) 2 = (n − 2) 20 ∼ χ2 (n − 2)
1

σε σβ̂ σβ̂
1 0

Mounir Jerry
Master G.R.F.

β̂0 − β0 β̂1 − β1
Il en résulte que et (l’écart-type théorique est remplacé par l’écart-type
σ̂β̂0 σ̂β̂1
empirique) suivent une loi de Student à n − 2 degrés de liberté. En effet


 β̂0 − β0



 β̂0 − β0 σβ̂0

 =v



 σ̂β̂0 u
u σ̂β̂2 1
0
(n − 2)

 t
2
σβ̂ n − 2



0


 β̂1 − β1

β̂1 − β1 σβ̂1




 = v
σ̂β̂1

σ̂β̂2 1

 u
 u

 t(n − 2) 1
σ2 n − 2



β̂1

est le rapport d’une loi normale centrée réduite à la racine carrée d’un chi-deux divisé par
son degré de liberté.
Il est donc possible maintenant de mettre en place des tests statistiques afin d’apporter
des réponses à des problèmes tels que :
• comparaison d’un coefficient de régression par rapport à une valeur fixée.
• comparaison de deux coefficient de régression provenant de deux échantillons différents.
• détermination d’un intervalle de confiance pour un coefficient.

Le test de Student
−→ A partir de ces éléments, on peut mettre en place l’inférence statistique. Si x et y sont
linéairement liés, nous devons avoir β1 6= 0.
−→ Le but du test de Student est d’utiliser les données de l’échantillon pour conclure si
β1 6= 0 : H0 : β1 = 0 contre H1 : β1 6= 0
−→ Le test de signification de Student est basé sur le fait que la statistique de test T =
β̂1 − β1
suit une loi de Student à n − 2 degrés de liberté. Si l’hypothèse nulle est vraie,
σ̂β̂1
β̂1
alors β1 = 0 et T = .
σ̂β̂1
−→ On calcule alors pour les valeurs de l’échantillon T et on accepte ou on rejette H0
suivant la valeur trouvée, au risque α.
−→ On calcule la valeur de la v.a. T,
∗ Si T ∈ [−t1− α2 , t1− α2 ], alors on accepte H0 .
∗ Si T ∈
/ [−t1− α2 , t1− α2 ], alors on rejette H0 .

Mounir Jerry
Master G.R.F.

α
Avec t1− α2 le quantile d’ordre 1 − 2
de la loi de Student à n − 2 degrés de liberté.
Intervalle de confiance pour β1
En se basant sur le paramètre estimé β̂1 et en assumant un risque donné α. La forme de
l’intervalle de confiance pour β1 est

[β̂1 − t1− α2 σ̂β̂1 , β̂1 + t1− α2 σ̂β̂1 ]

Le test de Fisher
Un autre test consiste à tester la significativité conjointe de tous les paramètres estimés
du modèle. C’est le test basé sur la statistique de Fisher, appelé aussi test d’analyse de la
variance ANOVA. La statistique du test est donnée par le rapport suivant :
SCE
F = 1
SCR
n−2
Comme on a
SCE = R2 · SCT et SCR = (1 − R2 )SCT
Alors
R2
F = 1
1 − R2
n−2
Dans le cas d’une régression linéaire simple, le test F est confondu au test de signifi-
cativité individuelle de la pente (test de Student). Les deux tests sont basés sur les mêmes
hypothèses, et on démontre dans ce cas que :

β̂12
F = T2 =
σ̂β̂2
1

Preuve :
n
X
SCE β̂12 (xi − x̄)2
1 = i=1 β̂12
F = n =
SCR X σ̂ε2
n−2 ε̂2i n
X
i=1 (xi − x̄)2
n−2 i=1

β̂12
=
σ̂β̂2
1

Remarque

Mounir Jerry
Master G.R.F.

La statistique F est le rapport de la somme des carrés expliqués xi sur la somme des carrés
des résidus, chacune de ces sommes étant divisée par son degré de liberté respectif. Ainsi, si
la variance expliquée est significativement supérieure à la variance résiduelle, la variable xi ,
est considérée comme étant une variable réellement explicative.
I Test de signification de Fisher

H0 : β1 = 0
H1 : β1 6= 0

I Statistique de test
SCE
F = 1
SCR
n−2
I Règle de rejet

Rejet de H0 si F ≥ F1−α (1, n − 2)

où F1−α (1, n − 2) est le quantile d’ordre 1 − α de la loi de Fisher-Snedecor F(1, n − 2)


à 1 et n − 2 degrés de liberté.

Table d’analyse de la variance (ANOVA)


On complète souvent l’étude en construisant la table d’ANOVA.

Source de variation Somme des carrés ddl carré moyen F


SCE
n
X SCE 1
Expliquée (Régression) SCE= (ŷi − ȳ)2 1
1 SCR
i=1
n
n−2
X SCR
Résiduelle SCR= (yi − ŷi )2 n−2
i=1
n−2
n
X SCT
Totale SCT= (yi − ȳ)2 n−1
i=1
n−1

Les degrés de liberté correspondent au nombre de valeurs que nous pouvons choisir arbi-
trairement (par exemple, pour la variabilité totale, connaissant n − 1 valeurs, nous pourrons
en déduire la n-ième, puisque nous connaissons la moyenne ȳ).

1.6 Prévision et intervalle de prévision


On désire prévoir à l’aide du modèle la valeur de la variable y pour une valeur non
observé x0 de x. D’après le modèle on a y0 = β0 + β1 x0 + ε0 où y0 et ε0 sont des variables

Mounir Jerry
Master G.R.F.

aléatoires. La prédiction naturelle est alors :

ŷ0 = β̂0 + β̂1 x0

Montrons que cette prévision est sans biais. L’erreur de prévision est définie par

ε̂0 = y0 − ŷ0 = β0 + β1 x0 + ε0 − (β̂0 + β̂1 x0 )


= (β0 − β̂0 ) + (β1 − β̂1 )x0 + ε0

En se référant aux hypothèses du modèle, on a :


 
E(ε̂0 ) = E (β0 − β̂0 ) + (β1 − β̂1 )x0 + ε0
= E(β0 − β̂0 ) + E(β1 − β̂1 )x0 + E(ε0 )
= 0

Dans la pratique, il n’est que de peu d’utilité de connaître la prévision si nous ne savons
pas quel degré de confiance nous pouvons lui accorder. Nous allons donc calculer la variance
de l’erreur de prévision qui nous permet de déterminer un intervalle de confiance bornant la
prévision.
 
V (ε̂0 ) = V (β0 − β̂0 ) + (β1 − β̂1 )x0 + ε0
 2 
= E (β0 − β̂0 ) + (β1 − β̂1 )x0 + ε0
     
= E (β0 − β̂0 )2 + E (β1 − β̂1 )2 x20 + E(ε20 ) + E 2x0 (β0 − β̂0 )(β1 − β̂1 ) +
   
E 2(β0 − β̂0 )ε0 + E 2x0 (β1 − β̂1 )ε0
 
= V (β̂0 ) + x20 V (β̂1 ) + σε2 + 2x0 E (β0 − β̂0 )(β1 − β̂1 ) +
2 E( (β0 − β̂0 ) ε0 ) +2x0 E( (β1 − β̂1 ) ε0 )
| {z } | {z }
n n
X 1 X
=− ( − x̄wi )εi =− w i εi
i=1
n i=1
| {z } | {z }
=0 =0

Mounir Jerry
Master G.R.F.

n
! n
!!
σ2 X 1 X
V (ε̂0 ) = ε + x̄2 V (β̂1 ) + x20 V (β̂1 ) + σε2 + 2x0 E ( − x̄wi )εi w i εi
n i=1
n i=1
n
!
σε2 X 1
= + x̄2 V (β̂1 ) + x20 V (β̂1 ) + σε2 + 2x0 E ( − x̄wi )wi ε2i
n i=1
n
n
!
σε2 X wi
= + x̄2 V (β̂1 ) + x20 V (β̂1 ) + σε2 + 2x0 E ( − x̄wi2 )ε2i
n i=1
n
n n
σε2 2 2 2 2x0 σε2 X X
= + x̄ V (β̂1 ) + x0 V (β̂1 ) + σε + wi −2x0 x̄σε2 wi2
n n i=1
| {z } |i=1{z }
=0 1
= n
X
(xi − x̄)2
i=1
σε2 σε2 σε2 σε2
= + x̄2 n + x20 n + σε2 − 2x0 x̄ n
n X X X
(xi − x̄)2 (xi − x̄)2 (xi − x̄)2
i=1 i=1 i=1
 

2
 
 + (x0 − x̄) + 1
1 
= σε2 n Xn 
(xi − x̄)2
 
i=1

Alors   

2
  
 
2 1 (x 0 − x̄) 
ε̂0 = y0 − ŷ0 ∼ N 0, σ
 ε n X + n + 1 

(xi − x̄)2
  
i=1

On en déduit que
y0 − ŷ0
v 
u  ∼ N (0, 1)
u
u 
(x0 − x̄)2

u 2 1
u  
uσε  + n + 1
u n X 
(xi − x̄)2
t 
i=1

σε étant inconnu, or
σ̂ε2
(n − 2) 2
∼ χ2 (n − 2)
σε

Mounir Jerry
Master G.R.F.

D’où
y0 − ŷ0
v  
u
u
u 
(x0 − x̄)2

u 2 1
u  
uσε  + n + 1
u n X 2

(xi − x̄)
t 
i=1 y0 − ŷ0
s = v  ∼ T(n − 2)
(n − 2)σ̂ε2
u
u
(n − 2)σε2
u
(x0 − x̄)2

u 1
u 
σ̂ε u + n + 1
u n X 
(xi − x̄)2
t 
i=1

On utilise ce résultat pour construire un intervalle de prédiction pour y0 , c’est à dire l’inter-
valle [A, B] tel que
P (A ≤ y0 ≤ B) = 1 − α
Ici, y0 est une variable aléatoire et non pas un paramètre. L’intervalle de prédiction est donc
un intervalle dans lequel une future observation y0 va tomber avec une certaine probabilité
(différent d’un intervalle de confiance).
On en déduit l’intervalle de prédiction pour y0 au niveau de confiance 1 − α suivant :
 v  v 
u u
u u
 u u 
2 2

u 1 (x0 − x̄) 1 (x − x̄)
 u u 
 0
ŷ0 − t1− 2 σ̂ε u + n + 1, ŷ0 + t1− 2 σ̂ε u + n + 1
 u 
α  α 
u n X u n X  
 2 2

(xi − x̄) (xi − x̄)
 t  t  
i=1 i=1

Avec t1− α2 le quantile d’ordre 1 − α2 de la loi de Student à n − 2 degrés de liberté.


On peut aussi construire un intervalle de confiance de la valeur moyenne

E(y0 ) = β0 + β1 x0

qui est cette fois un paramètre. On va donc chercher l’intervalle aléatoire [A, B] tel que

P (A ≤ E(y0 ) ≤ B) = 1 − α

ŷ0 = β̂0 + β̂1 x0 correspond à l’estimation de E(y0 ) lorsque x = x0 .


Pour construire cet intervalle, on a

E(ŷ0 ) = β0 + β1 x0
V (ŷ0 ) = V (β̂0 + β̂1 x0 )
= V (β̂0 ) + x20 V (β̂1 ) + 2Cov(β̂0 , β̂1 x0 )

Mounir Jerry
Master G.R.F.

Or
σε2 σε2
V (β̂0 ) = + x̄2 n
n X
(xi − x̄)2
i=1
σε2
V (β̂1 ) = n
X
(xi − x̄)2
i=1
 
Cov(β̂0 , β̂1 x0 ) = x0 E (β0 − β̂0 )(β1 − β̂1 )
σε2
= −x0 x̄ n
X
(xi − x̄)2
i=1

Alors  

2 
 
 + (x0 − x̄) 
1
V (ŷ0 ) = σε2 n Xn 
2
(xi − x̄)

i=1

D’où   

(x0 − x̄)2 
  
2 1
  
ŷ0 ∼ N β0 + β1 x0 , σε  + n
 
n X
 
2 
(xi − x̄)

i=1

De la même façon, on montre


ŷ − β0 − β1 x0
v 0  ∼ T(n − 2)
u
u
u
(x0 − x̄)2 

u 1
u
σ̂ε u + n 
u n X 
(xi − x̄)2
t 
i=1

On en déduit l’intervalle de confiance de E(y0 )


 v  v 
u u
u u
 u u 
2  2  

1 (x − x̄) 1 (x − x̄)
 u u
0 0
ŷ0 − t1− α2 σ̂ε u + n , ŷ0 + t1− α σ̂ε u +
 u u 
n
 u n X  2 un X 

(xi − x̄)2 (xi − x̄)2 
 t   t
i=1 i=1

α
Avec t1− α2 le quantile d’ordre 1 − 2
de la loi de Student à n − 2 degrés de liberté.

Mounir Jerry
Master G.R.F.

1.7 Exemples

Exemple 1
Les données suivantes correspondent au pourcentage de femmes employées dans cinq en-
treprises dans le secteur de commerce de détail. Le pourcentage de postes à responsabilités
détenus par des femmes dans chaque entreprise est également indiqué.

% de femmes employées 67 45 73 54 61
% de femmes responsables 49 21 65 47 33
1) Représenter le nuage de points associé à ces données en utilisant le pourcentage de femmes
travaillant dans l’entreprise comme variable indépendante.
2) Quelle relation entre les deux variables le nuage de points indique-t-il ?
3) Développer l’équation estimée de la régression en calculant les valeurs de β̂0 et β̂1 .
4) Prédire le pourcentage de postes à responsabilité confiés à des femmes dans une entreprise
employant 60% de femmes.
Solution :
1)

2) Il semble y avoir une relation linéaire entre les deux variables.


3) D’après les calculs on a :

x̄ = 60; ȳ = 43; Sx2 = 96; Cov(x, y) = 124, 8


Cov(x, y)
β̂1 = = 1, 3; β̂0 = ȳ − β̂1 x̄ = −35
Sx2
Alors :
ŷ = 1, 3x − 35
4) ŷ = 43%.
Exemple 2

Mounir Jerry
Master G.R.F.

Les données suivantes indiquent les dépenses publicitaires annuelles en millions de dollars
et la part de marché de six sociétés automobiles (Advertising Age, 23 juin 2006).

Société Publicité Part de marché


(millions de dollars) (%)
Daimler Chrysler 1590 14,9
Ford Motor Co. 1568 18,6
General Motors Corp. 3004 26,2
Honda Motor Co. 854 8,6
Nissan Motor Co. 1023 6,3
Toyota Motor Corp. 1075 13,3
1) Représenter le nuage de points associé à ces données, avec pour variable indépendante les
dépenses publicitaires et pour variable dépendante la part de marché.
2) Utiliser la méthode des moindres carrés pour développer l’équation de régression estimée.
3) Calculer SCT, SCE et SCR.
4) Calculer le coefficient de détermination R2 .
5) Quelle est la valeur du coefficient de corrélation de l’échantillon rxy ?
6) Supposez que la société Honda pense que l’équation de la régression estimée peut per-
mettre d’estimer la part de marché de l’année suivante. Prévoir la part de marché de Honda
si la société décide d’accroître ses dépenses publicitaires à 1200 millions de dollars l’année
prochaine.
Solution :
1)

2) D’après les calculs on a :

x̄ = 1519; ȳ = 14, 65; Sx2 = 516340, 667; Cov(x, y) = 4354, 55


Cov(x, y)
β̂1 = = 0, 0084; β̂0 = ȳ − β̂1 x̄ = 1, 8904
Sx2

Mounir Jerry
Master G.R.F.

Alors :
ŷ = 0, 0084x + 1, 8904
3) On a :
n
X
SCT = (yi − ȳ)2 = 257, 215
i=1
n
X
SCE = (ŷi − ȳ)2 = 218, 597985
i=1
n
X
SCR = (yi − ŷi )2 = SCT − SCE = 38, 617015
i=1

4)
SCE
R2 = = 0, 8498
SCT

5)

rxy = signe(β̂1 ) R2 = 0, 9218

6)
0, 0084 · 1200 + 1, 8904 = 11, 9704%

Exemple 3
Le tableau ci-dessous représente l’évolution du revenu disponible brut et de la consommation
des ménages en euros pour un pays donné sur la période 1992-2001.

Année Revenu Consommation


1992 8000 7389,99
1993 9000 8169,95
1994 9500 8831,71
1995 9500 8652,84
1996 9800 8788,08
1997 11000 9616,21
1998 12000 10593,45
1999 13000 11186,11
2000 15000 12758,09
2001 16000 13869,62

1) On cherche à expliquer la consommation des ménages (C) par le revenu (R). Tracer le
nuage de points et commenter.
2) Utiliser la méthode des moindres carrés pour développer l’équation de régression estimée.
3) En déduire les valeurs estimées.

Mounir Jerry
Master G.R.F.

4) Calculer les résidus et vérifier la propriété selon laquelle la moyenne des résidus est nulle.
5) Calculer l’estimateur de la variance de l’erreur.
6) Tester la significativité de la pente au risque de 5%.
7) Construire l’intervalle de confiance au niveau de confiance de 95% pour le parametre β1 .
8) Calculer le coefficient de détermination et effectuer le test de Fisher permettant de déter-
miner si la régression est significative dans son ensemble.
9) Ecrire et vérifier l’équation d’analyse de la variance.
10) Après un travail minutieux, un étudiant trouve le coefficient de corrélation linéaire sui-
vant rxy = 0, 99789619. Sans le moindre calcul, tester la significativité de ce coefficient.
Argumenter.
11) En 2002 et 2003, on prévoit respectivement 16800 et 17000 euros pour la valeur du re-
venu. Déterminer les valeurs prévues de la consommation pour ces deux années, ainsi que
l’intervalle de prévision au niveau de confiance de 95%.
Solution :
1)

2) D’après les calculs on a :

x̄ = 11280; ȳ = 9985, 605; Sx2 = 6415600; Sy2 = 3929500, 871; Cov(x, y) = 5010404, 5

Cov(x, y)
β̂1 = = 0, 7809; β̂0 = ȳ − β̂1 x̄ = 1177, 053
Sx2
Alors :
ŷ = 0, 7809x + 1177, 053
3) Les valeurs estimées et les résidus sont

Mounir Jerry
Master G.R.F.

Année Valeur estimée ŷ Résidu ε̂


1992 7424,253 -34,263
1993 8205,153 -35,203
1994 8595,603 236,107
1995 8595,603 57,237
1996 8829,873 -41,793
1997 9766,953 -150,743
1998 10547,853 45,597
1999 11328,753 -142,643
2000 12890,553 -132,463
2001 13671,453 198,167
On vérifie facilement que la moyenne des résidus est nulle.
5) L’estimateur sans biais de la variance de l’erreur est
n
1 X 2 165148, 619
σ̂ε2 = ε̂ = = 20643, 5774
n − 2 i=1 i 8
6) Le test de la significativité de la pente est le test de sgnification de Student, dans ce cas on
calcule :
σ̂ε2 20643, 5774
σ̂β̂21 = n = = 0, 0003 =⇒ σ̂β̂1 = 0, 0179
X
2
6415600 · 10
(xi − x̄)
i=1

Alors, le test est


β̂1 0, 7809
T= = = 43, 6256
σ̂β̂1 0, 0179
Comme on a le quantile d’ordre 1 − α2 de la loi de Student à 8 d.d.l. vaut : t1− α2 = t0,975 =
2, 306, donc 43, 6256 6∈ [−2, 306; 2, 306], alors on rejette H0 , càd β1 6= 0.
7) l’intervalle de confiance pour β1 est

[β̂1 − t1− α2 σ̂β̂1 , β̂1 + t1− α2 σ̂β̂1 ] = [0, 7396; 0, 8221]


165148,619
8) Le coefficient de détermination est : R2 = 1 − SCR
SCT
= 1 − 3929500,871·10 = 0, 9957
2
Le test de Fisher est : F = T = 1903, 1929, comme on a le quantile d’ordre 0, 95 de la loi
de Fisher-Snedecor F(1, 8) à 1 et 8 d.d.l. vaut : F0,95 (1, 8) = 5, 318, car :

P (F(1, 8) ≤ F0,95 (1, 8)) = 0, 95 =⇒

P (F(1, 8) ≥ F0,95 (1, 8)) = 0, 05


Puisque : 1903, 1929 ≥ 5, 318, alors on rejette H0 et la régression est significative dans
son ensemble.
9) L’équation de l’analyse de la variance est

SCT = SCE + SCR = 39295008, 71 = 39122637, 4 + 165148, 619 = 39287786, 019

Mounir Jerry
Master G.R.F.

10) Nous savons que dans un modèle linéaire simple, accepter la significativité de la pente
revient à accepter celle du coefficient de corrélation linéaire. La pente étant significative, le
rxy l’est aussi naturellement.
11) La prévision ponctuelle ne pose aucun problème. La prévision par intervalle requiert
l’estimation de l’écart-type de l’erreur de prévision. Il est donné par :
 v  v 
u u
u u
 u u 
(x0 − x̄)2 2

u 1 1 (x − x̄)
 u u 
 0
ŷ0 − t1− α2 σ̂ε u + n + 1 , ŷ + t α σ̂ u + + 1
 u 
0 1− ε n
 u n X  2 u n X
 

2 2
(xi − x̄) (xi − x̄)
 t  t 
i=1 i=1

Prévision ponctuelle Intervalle de prévision


2002 0, 7809 · 16800 + 1177, 053 = 14296, 173 [13880, 3734; 14711, 9726]
2003 0, 7809 · 17000 + 1177, 053 = 14452, 353 [14031, 9534; 14872, 7526]
Exemple 4
Soit le modèle linéaire yi = β0 + β1 xi + εi . Où yi représente la quantité offerte de pommes
et xi le prix. On donne les informations suivantes : ȳ = 5 et x̄ = 3. Après estimation, on a la
droite de régression suivante : ŷi = β̂0 + β̂1 xi . Connaissant le couple (y = 2, 5; x = 2) par
lequel passe cette droite de régression, trouver β̂0 et β̂1 .
Solution :
Connaissant le couple (y = 2, 5; x = 2) et le centre de gravité du nuage de points (ȳ = 5; x̄ =
3), on peut reproduire la droite des moindres carrés de cette estimation comme ci-après :
(
β̂0 + 2β̂1 = 2, 5
β̂0 + 3β̂1 = 5
Alors
β̂1 = 2, 5 et β̂0 = −2, 5

Exemple 5
Le tableau suivant donne l’âge et la tension artérielle y de 12 femmes :
Individu 1 2 3 4 5 6 7 8 9 10 11 12
Age 56 42 72 36 63 47 55 49 38 42 68 60
Tension artérielle 136 132 136 130 138 132 136 130 142 134 136 140
1) Déterminer l’équation de la droite de régression.
2) Tester la significativité de la pente au seuil de 5%. Quelle conclusion peut-on tirer ?
3) Estimer la tension artérielle d’une femme âgée de 50 ans.
Solution :
1) D’après les calculs on a :

x̄ = 52, 3333; ȳ = 135, 1666; Sx2 = 129, 2222; Sy2 = 12, 9722; Cov(x, y) = 13, 9444

Mounir Jerry
Master G.R.F.

Cov(x, y)
β̂1 = = 0, 1079; β̂0 = ȳ − β̂1 x̄ = 129, 5198
Sx2
Alors :
ŷ = 0, 1079x + 129, 5198
2) Le test de la significativité de la pente est le test de sgnification de Student, dans ce
cas on calcule :
σ̂ε2 13, 7609
σ̂β̂21 = n = = 0, 0088 =⇒ σ̂β̂1 = 0, 0938
X 129, 2222 · 12
(xi − x̄)2
i=1

Alors, le test est


β̂1 0, 1079
T= = = 1, 1503
σ̂β̂1 0, 0938
Comme on a le quantile d’ordre 1 − α2 de la loi de Student à 10 d.d.l. vaut : t1− α2 = t0,975 =
2, 228, donc 1, 1503 ∈ [−2, 228; 2, 228], alors on accepte H0 , d’où la pente est statistique-
ment nulle, ce qui signifie que l’âge n’explique en rien la tension artérielle.
3) La tension artérielle d’une femme âgée de 50 ans est : ŷ = 129, 5198 + 0, 1079 · 50 =
134, 9148

Mounir Jerry
Master G.R.F.

2 Régression linéaire multiple


2.1 Introduction
Introduction
— Lors du chapitre précédent, nous avons considéré qu’une variable endogène est expli-
quée à l’aide d’une seule variable exogène.
— Il est extrêmement rare qu’un phénomène économique ou social puisse être appré-
hendé par une seule variable.
— Le modèle de régression linéaire multiple est une généralisation du modèle de régres-
sion simple lorsque les variables explicatives sont en nombre quelconque.
— Dans sa formule générale, il s’écrit de la forme :
yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + εi , pour i = 1, . . . , n

avec :
k = le nombre des variables explicatives
yi = variable à expliquer
xij = variable explicative
β0 , β1 , β2 , · · · , βk = paramètre du modèle
εi = erreur de spécification, une variable
aléatoire inconnue
n = nombre d’observations

Forme matricielle
Afin d’en alléger l’écriture et de faciliter l’expression de certains résultats, on a habituel-
lement recours aux notations matricielles.
 
    β0  
y1 1 x11 x12 · · · x1k ε 1
  β1  
 
 y2   1 x21 x22 · · · x2k     ε2 
   
  β2  +  .. 
 . = . .. .. ..     
 .   .
. . . . · · · .   ..   .
 . 
   
yn 1 xn1 xn2 · · · xnk εn
βk
Sous forme compacte : Y = Xβ + ε où :
— Y est un vecteur aléatoire de dimension n,
— X est une matrice de taille n × k + 1 connue, appelée matrice du plan d’expérience,
— β est le vecteur de dimension k + 1 des paramètres inconnus du modèle,
— ε est le vecteur de dimension n des erreurs.

Mounir Jerry
Master G.R.F.

2.2 Estimateurs des Moindres Carrés Ordinaires


Hypothèses de base
La méthode des moindres carrés ordinaires repose sur les hypothèses suivantes :
1. Hypothèses stochastiques
H1 : les valeur xij et yi sont observées sans erreur. yi est aléatoire par l’intermédiare
de εi .
H2 : E(εi ) = 0, l’espérance mathématique de l’erreur est nulle.
H3 : E(ε2i ) = σε2 , la variance de l’erreur est constante (quel que soit i) (homoscédas-
ticité).
H4 : E(εi εj ) = 0 si i 6= j, les erreurs sont non corrélées (ou encore indépendantes).
H5 : Cov(xij εi ) = 0, l’erreur est indépendante des variables explicatives.
2. Hypothèses structurelles
H6 : absence de colinéarité entre les variables explicatives, cela implique que la ma-
trice X t X est inversible (det(X t X) 6= 0).
H7 : n > k + 1, le nombre d’observations est supérieur au nombre des paramètres à
estimer. Dans le cas où n = k + 1, nous avons un interpolation, la droite passe
exactement par tous les points. Lorsque n < k + 1, la matrice X t X n’est plus
inversible.
XtX
H8 : n
tend vers une matrice finie non singulière (inversible).

Estimateurs des Moindres Carrés Ordinaires


Comme pour la régression simple, on cherche les coefficients qui permettent de minimi-
ser la quantité suivante :
n
X n
X
S= ε2i t
=εε= (yi − (β0 + β1 xi1 + β2 xi2 + · · · + βk xik ))2
i=1 i=1

On passe de nouveau par les dérivées partielles que l’on annule pour obtenir les k + 1 équa-
tions normales.

X n
−2 εi = 0
 
∂S 


 = 0 

∂β0 i=1

 

  n
∂S

 
 X

 =0  −2

xi1 εi = 0
∂β1 ⇔ i=1
 ..  ..


 . 

 .
∂S
 
  n
=0

 
 X
 −2 xik εi = 0
 
∂βk 

i=1

Mounir Jerry
Master G.R.F.

Nous avons k + 1 équations à k + 1 inconnues. Nous pouvons en extraire les estimations


(β̂0 , β̂1 , · · · , β̂k ). Mais cette écriture est difficile à manipuler. Passons aux matrices.

S = εt ε
= (Y − Xβ)t (Y − Xβ) = Y t Y − Y t Xβ − (Xβ)t Y + (Xβ)t Xβ
= Y t Y − Y t Xβ − β t X t Y + β t X t Xβ
= Y t Y − 2β t X t Y + β t X t Xβ

Rappels sur les matrices


Quelques éléments sur les calculs matriciels pour comprendre les développements ci-dessus :
— (Xβ)t = β t X t
— (Y t Xβ)t = β t X t Y
— La transposée d’un scalaire est égal à lui même. Or en se référant aux dimensions des
vecteurs et matrice, on constate que β t X t Y est de dimension 1, un scalaire.

La transposée d’une matrice


ê Soit A une matrice d’ordre (n, p), elle admet n lignes et p clonnes :
 
a11 a12 · · · a1p
 a21 a22 · · · a2p 
 
A=  .. .. . . .. 
 . . . . 

an1 an2 · · · anp

ê La transposée de A notée A t
est d’ordre (p, n) :
 
a11 a21 · · · an1
 a12 a22 · · · an2 
 
t
A =  .. .. . . . 
 . . . .. 

a1p a2p · · · anp

Le produit de deux matrices


Soient A une matrice d’ordre (n, p) et B d’ordre (p, m), alors :
é Le produit matriciel AB est réalisé si le nombre de colonne de la matrice à gauche
A est égal au nombre de ligne de la matrice à droite B.

Mounir Jerry
Master G.R.F.

é La matrice résultante C est d’ordre (n, m).


   
a11 a12 ··· a1p b11 b12 · · · b1m
a21 a22 ··· a2p   b21 b22 · · · b2m 
   
é C = AB =




..
.
..
.
..
.
..
.
× .
  .
  .
..
.
..
.
.. 
. 

an1 an2 ··· anp bp1 bp2 · · · bpm


 
c11 c12 · · · c1m
 c21 c22 · · · c2m 
 
=  .
 . .. .. .. 
.

 . . . 
cn1 cn2 · · · cnm
p
é Où c ij =
X
aik bkj , pour tout 1 ≤ i ≤ n et 1 ≤ j ≤ m.
k=1

Le déterminant d’une matrice


ò Soit A une matrice d’ordre 2 :
!
a11 a12 a
11 a12
Ü

A= det(A) = = a11 a22 − a12 a21

a21 a22 a21 a22

ò Soit A une matrice d’ordre 3 :


 
a11 a12 a13
A =  a21 a22 a23 
 

a31 a32 a33


Ü


a11
a12 a13 + a11 − a12 + a13
det(A) = a21 a22 a23 = a21 a22 a23


a31 a32 a33 a31 a32 a33

a22 a23 a
21 a23
a
21 a22
= a11 − a12 + a13


a32 a33 a31 a33 a31 a32

L’inverse d’une matrice


ò ! 6= 0.
A est une matrice inversible si et seulement si det(A)
a11 a12
ò Soit A une matrice d’ordre 2 A= Ü
a21 a22
!t !
1 a22 −a21 1 a22 −a12
A−1 = =
det(A) −a12 a11 det(A) −a21 a11
 
a11 a12 a13
ò Soit A une matrice d’ordre 3 Ü A =  a21 a22 a23 
 

a31 a32 a33

Mounir Jerry
Master G.R.F.

 t
a a23 a a23 a21 a22
22 21
 − 
 a32 a33 a31 a33 a 31 a32 

 
 a12 a13
1  a a13 a a12 

11 11
A−1 =  − −

det(A)  a32

 a33 a31
a33 a31 a32 
 a a13 a a13 a11 a12 
 12 11



a22 a23 a21 a23 a21 a22

Formulaire de dérivation matricielle


— Soit v ∈ Rm et a ∈ Rm
∂(v t a) ∂(at v)
= =a
∂v ∂v
— Soit un vecteur v ∈ Rm et une matrice A ∈ Rm×m
∂(v t Av)
= (A + At )v
∂v
En particulier, si A est symétrique, At = A, alors

∂(v t Av)
= 2Av
∂v

— Soit un vecteur v ∈ Rm et une matrice A ∈ Rm×m


∂((Av)t (Av)) ∂(v t At Av)
= = 2At Av
∂v ∂v

Expression de β̂
Pour déterminer le minimum de S, nous réalisons la dérivation matricielle :
∂S
On doit résoudre =0
∂β
Þ ∂S
∂β
= −2X t Y + 2X t X β̂ = 0

Þ X t X β̂ = X t Y

Þ β̂ = (X t X)−1 (X t Y )

2.3 Propriétés des estimateurs


Biais

Mounir Jerry
Master G.R.F.

Le modèle sous forme matricielle peut s’écrire, comme pour le modèle de régression
simple, de différentes manières :

Y = Xβ + ε 
Þ

Y = X β̂ + ε̂ ε̂ = Y − Ŷ (ε̂ = résidu)

Ŷ = X β̂

L’estimateur β̂ est sans biais si E(β̂) = β.

β̂ = (X t X)−1 (X t Y )
= (X t X)−1 (X t (Xβ + ε))
= (X t X)−1 (X t X)β + (X t X)−1 (X t ε)
= β + (X t X)−1 (X t ε)

E(β̂) = E (β + (X t X)−1 (X t ε))


= E(β) + E ((X t X)−1 (X t ε))
á = β + (X t X)−1 (X t E(ε)) ←Parce que X non aléatoire
=β ←Parce que E(ε) = 0 par hypothèse

L’estimateur des MCO est sans biais


Variance
La matrice de variance covariance de β̂ est alors :
 
V (β̂) = E (β̂ − β)(β̂ − β)t

Or on a :
 
β̂0 −β0
  
 β̂1 −β1  
(β̂−β)(β̂−β)t =  .. × β̂0 −β0 β̂1 −β1 ··· β̂k −βk
.
 
 
β̂k −βk
 
(β̂0 −β0 )2 (β̂0 −β0 )(β̂1 −β1 ) ··· (β̂0 −β0 )(β̂k −βk )
 
 (β̂1 −β1 )(β̂0 −β0 ) (β̂1 −β1 )2 ··· (β̂1 −β1 )(β̂k −βk ) 
=  .. .. ... .. 
. . .
 
 
(β̂k −βk )(β̂0 −β0 ) (β̂k −βk )(β̂1 −β1 ) ··· (β̂k −βk )2

Alors :
 
V (β̂0 ) Cov(β̂0 , β̂1 ) · · · Cov(β̂0 , β̂k )
Cov(β̂0 , β̂1 ) V (β̂1 ) · · · Cov(β̂1 , β̂k )
 
 
V (β̂) = Ωβ̂ =  .. .. .. .. 

 . . . .


Cov(β̂0 , β̂k ) Cov(β̂1 , β̂k ) ··· V (β̂k )

Mounir Jerry
Master G.R.F.

La matrice est symétrique de dimension (k + 1, k + 1), sur la diagonale principale nous


observons les variances des coefficients estimés.
Or on a :

β̂ − β = (X t X)−1 (X t ε)
(β̂ − β)t = ((X t X)−1 (X t ε))t
= εt X((X t X)−1 )t ←Parce que (AB)t = B t At et (ABC)t = C t B t At
= εt X(X t X)−1 ← Parce que (At )−1 = (A−1 )t et X t X est symétrique

Ü
(β̂ − β)(β̂ − β)t = (X t X)−1 X t εεt X(X t X)−1
Ü

V (β̂) = Ωβ̂ = E((β̂ − β)(β̂ − β)t ) = (X t X)−1 X t E(εεt )X(X t X)−1

La quantité E(εεt ), de dimension (n, n), représente la matrice de variance covariance


des erreurs :  
E(ε21 ) E(ε1 ε2 ) · · · E(ε1 εn )
 E(ε1 ε2 ) E(ε22 ) · · · E(ε2 ε2 ) 
 
t
E(εε ) =   .. .. .. .. 
 . . . .


E(ε1 εn ) E(ε1 εn ) · · · E(ε2n )
Grâce aux hypothèses H3 et H4, on a :
   
σε2 0 0 0 1 0 0 0
 0 σε2 · · · 0  0 1 ··· 0
   
t 2
 
E(εε ) =  .
 .. . .  = σε
..   .. .. . . .. 
 . . . . . 

 . . . .


0 0 · · · σε2 0 0 ··· 1
| {z }
Matrice identité d’ordre n, notée In

Alors :

E(εεt) = σε2In
Ü

Ωβ̂ = σε2(X tX)−1X tInX(X tX)−1

Mounir Jerry
Master G.R.F.

Ü
Ωβ̂ = σε2(X tX)−1(X tX)(X tX)−1

Ü
Ωβ̂ = σε2(X tX)−1

L’estimateur des MCO est BLUE


Théorème de Gauss-Markov
L’estimateur β̂ des MCO est de variance minimale parmi les estimateurs linéaires sans biais
de β.
Preuve Soit donc β̃ = AY un autre estimateur linéaire de β. Nous pouvons supposer
sans perte de généralité que :
A = (X t X)−1 X t + C
Alors :
 t −1 t 
β̃ = (X X) X + C (Xβ + ε)
= β + (X t X)−1 X t ε + CXβ + Cε
= (I + CX)β + Aε

est un estimateur sans biais de β si et seulement si :

E(β̃) = E((I + CX)β + Aε)


= (I + CX)β
= β
Ü

CX = 0

Mounir Jerry
Master G.R.F.

Ü
β̃ = β + Aε

La matrice de variance covariance de β̃ est alors :

 
t
E (β̃ − β)(β̃ − β) = E(Aεεt At )
= σε2 AAt
= σε2 (X t X)−1 X t + C X(X t X)−1 + C t
  

= σε2 (X t X)−1 + (X t X)−1 X t C t + CX(X t X)−1 + CC t


 

= σε2 (X t X)−1 + CC t
 
← Puisque CX = 0
= V (β̂) + σε2 CC t

Alors les éléments de la diagonale de CC t sont des sommes de carrés, donc non néga-
tives. Les variances des composantes de β̃ sont donc supérieures ou égales aux variances des
composantes de β̂ 

L’estimateur des MCO est BLUE


Exemple 1
Supposons que les services de police souhaitent établir un modèle de régression linéaire
reliant la variable endogène taux de criminalité juvénile mesuré par un indicateur Y , à la
densité de la population urbaine mesurée par un indicateur X1 et au taux de scolarité X2 . On
a relevé 5 observations :

Y X 1 X2
1 2 4
1 3 2
2 5 2
3 7 1
3 8 1
Donner une estimation des paramètres de l’équation suivante :

Y = β0 + β1 X1 + β2 X2 + ε

Solution :
Nous allons donc déterminer les paramètres de l’équation estimée

Ŷ = β̂0 + β̂1 X1 + β̂2 X2

Mounir Jerry
Master G.R.F.

Définissons les matrices X, β̂ et Y


   
1 2 4 1
 
 1 3 2 β̂0 1
   
  
   
X=  1 5 2  , β̂ =  β̂ et Y = 2
  
  1   
 1 7 1 β̂ 3
   
 2  
1 8 1 3

D’après la méthode des Moindres Carrés Ordinaires, ona :

β̂ = (X t X)−1 (X t Y )

Alors
 
1 2 4
     
1 1 1 1 1  1 3 2  5 25 10
t    
X X = 2 3 5 7 8 · 1 5 2  =  25 151 39 

  
4 2 2 1 1 1 7 1 10 39 26
 
 
1 8 1
 
481 −52 −107
35 35 35
(X t X)−1 =  −52 6 11
 
35 35 35 
−107 11 26
35 35 35
et  
1
     
1 1 1 1 1  1  10
t    
X Y = 2 3 5 7 8 · 2  =  60 

  
4 2 2 1 1 3 16
 
 
3

Donc

β̂ = (X t X)−1 (X t Y )
   
481 −52 −107
35 35 35
10
−52 6 11
=   ·  60 
   
35 35 35
−107 11 26
35 35 35
16
   
−22
35
β̂0
16
=   =  β̂1 
   
35
6
35
β̂2

D’où l’expression finale de l’équation de regression multiple estimée :


−22 16 6
Ŷ = + X1 + X2
35 35 35
Mounir Jerry
Master G.R.F.

Ceci signifie qu’il existe une relation positive assez forte entre le taux de criminalité ju-
vénile et la densité urbaine, l’augmentation de l’indicateur de la densité urbaine d’une
unité entraine l’augmentation de la criminalité juvénile de 45, 7142%.
Exemple 2
On veut exprimer l’évolution de l’indice du revenu nominal moyen Y d’un ménage de sala-
riés en fonction de l’indice général des prix X1 et de l’indice du produit intérieur brut réel
X2 . On se limite à 9 observations :

Y X1 X2
100 100 100
106 104 99
107 106 110
120 111 126
111 111 113
116 115 103
123 120 102
133 124 103
137 126 98
Donner une estimation des paramètres de l’équation suivante :

Y = β0 + β1 X1 + β2 X2 + ε

Solution :
Nous allons donc déterminer les paramètres de l’équation estimée

Ŷ = β̂0 + β̂1 X1 + β̂2 X2

Définissons les matrices X, β̂ et Y


   
1 100 100 100
   
 1 104 99   106 
   
 1 106 110   107 
     
 1 111 126 β̂0 120
   
  
   
X=  1 111 113
 , β̂ =  β̂1  et Y =  111
  
  
 1 115 103 β̂2 116
   
  
   
 1 120 102   123 
   
 1 124 103   133 
   
1 126 98 137

D’après la méthode des Moindres Carrés Ordinaires, ona :

β̂ = (X t X)−1 (X t Y )

Mounir Jerry
Master G.R.F.

Alors
 
1 100 100
 

 1 104 99 

 1 106 110 
   
1 1 1 1 1 1 1 1 1 1 111 126
 
 
t   
X X= 100 104 106 111 111 115 120 124 126  ·  1 111 113
 
 
100 99 110 126 113 103 102 103 98 1 115 103
 
 
 

 1 120 102 


 1 124 103 

1 126 98
 
9 1017 954
= 1017 115571 107690 
 

954 107690 101772

D’où  
10297232 −10637 −20389
229869 51082 102164
(X t X)−1 =  −10637 81 7
 
51082 51082 25541 
−20389 7 325
102164 25541 204328
et
 
100
 

 106 

 107 
   
1 1 1 1 1 1 1 1 1 120
 
 
t   
X Y =  100 104 106 111 111 115 120 124 126  ·  111
 
 
100 99 110 126 113 103 102 103 98 116
 
 
 

 123 


 133 

137
 
1053
=  119861 
 

111546

Mounir Jerry
Master G.R.F.

Donc

β̂ = (X t X)−1 (X t Y )
   
10297232 −10637 −20389
229869 51082 102164
1053
−10637 81 7
=   ·  119861 
   
51082 51082 25541
−20389 7 325
102164 25541 204328
111546
   
−1282433
25541
β̂0
34812
=   =  β̂1 
   
25541
3179
25541
β̂2

D’où l’expression finale de l’équation de regression multiple estimée :

Ŷ = −50, 2107 + 1, 3629X1 + 0, 1244X2

Estimation de la variance des erreurs


Pour estimer la variance covariance des coefficients, il faut produire une estimation de la
variance de l’erreur.

Ωβ̂ = σε2 (X t X)−1 Ü Ω̂β̂ = σ̂ε2 (X t X)−1

Car σε2 est inconnu. Développons le résidu :

ε̂ = Y − Ŷ
= Xβ + ε − X β̂
= Xβ + ε − X β + (X t X)−1 (X t ε)
 

= I − X(X t X)−1 X t ε
 

= Mε

La matrice M est symétrique


t
Mt = I − X(X t X)−1 X t

t
= I t − X(X t X)−1 X t
= I − (X t )t ((X t X)−1 )t X t
= I − X((X t X)t )−1 X t
= I − X(X t X)−1 X t
= M

Mounir Jerry
Master G.R.F.

La matrice M est idempotente

M 2 = I − X(X t X)−1 X t I − X(X t X)−1 X t


  

= I 2 − IX(X t X)−1 X t − X(X t X)−1 X t I + X(X t X)−1 X t X(X t X)−1 X t


= I − 2X(X t X)−1 X t + XI(X t X)−1 X t
= I − X(X t X)−1 X t
=M

Alors

ε̂t ε̂ = (M ε)t M ε
= εt M t M ε
= εt M M ε
= εt M 2 ε
= εt M ε

La matrice X est d’ordre n × k + 1 et le vecteur ε est de dimension n, ainsi la matrice M est


d’ordre n × n.
Ü

εt M ε est un scalaire
La trace d’une matrice
Ô Si A est une matrice carrée d’ordre n, on définit la trace de A comme la somme des
éléments de la diagonale principale :
n
X
tr(A) = aii
i=1
 
2 0 −1
Ô Soit A = 
 0 6 4 , alors tr(A) = 2 + 6 − 5 = 3

9 8 −5
Ô tr(At) = tr(A)
Ô tr(A + B) = tr(A) + tr(B)
Ô tr(A · B) = tr(B · A)
Ô tr(In) = n
Ô Si A est un scalaire, alors tr(A) = A

Mounir Jerry
Master G.R.F.

Donc
E(ε̂t ε̂) = E(εt M ε)
= E tr(εt M ε)
 
← Puisque εt M ε est un scalaire
= E tr(M εεt )
 

= tr E(M εεt )
 
← Puisque la trace est une somme
= tr M E(εεt )
 
← Puisque M est non aléatoire
= tr M σε2 In
 

= σε2 tr(M In )
= σε2 tr(M )
Si on remplace M par sa valeur, on a
E(ε̂t ε̂) = σε2 tr(In − X(X t X)−1 X t )
= σε2 tr(In ) − tr(X(X t X)−1 X t )
 

= σε2 n − tr(X t X(X t X)−1 )


 

= σε2 [n − tr(Ik+1 )]
= σε2 · (n − k − 1)
|{z} | {z }
Variance de l’erreur Degrés de liberté
Donc si on pose
n
X
ε̂2i
t
ε̂ ε̂
σ̂ε2 = = i=1
n−k−1 n−k−1
est un estimateur sans biais de la variance de l’erreur. ε̂i est le résidu de la régression pour
l’observation i.

2.4 Décomposition de la variance et coefficient de détermination R2


Décomposition de la variance
Comme précédemment en régression linéaire simple, la somme des carrés totaux se dé-
compose en une somme de deux termes :
X n X n n
X
2 2
(Yi − Ȳ ) = (Yi − Ŷi ) + (Ŷi − Ȳ )2
i=1 i=1 i=1
SCT = SCR + SCE
— SCT : somme des carrés totaux. Elle indique la variabilité totale de Y .
— SCE : somme des carrés expliqués par le modèle. Elle indique la variabilité expliquée
par le modèle.
— SCR : somme des carrés résiduels. Elle indique la variabilité de Y non expliquée par
le modèle.

Mounir Jerry
Master G.R.F.

Preuve

n
X n
X n
X
2 2
(Yi − Ȳ ) = (Yi − Ŷi ) + (Ŷi − Ȳ )2
i=1 i=1 i=1
t 2
Y Y −
nȲ

= ε̂t ε̂ + Ŷ t Ŷ −
nȲ
2

(Xβ + ε)t (Xβ + ε) = εt M ε + β̂ t X t X β̂


β t X t Xβ + β t X t ε + εt Xβ + εt ε = εt M ε + εt X(X t X)−1 + β t X t X β + (X t X)−1 X t ε
 

β t t 
β t t
εt 
Xβ + εt ε = εt M ε +  Xβ + εt X(X t X)−1 X t ε + 
εt  β t t 
β t t
 
X Xβ +  X ε + X Xβ +  X ε
 

X)−1 −1 t
(
εt ε = εt (I − ( t ( ( t
εt ( t ((
(( (
X(X X )ε +( X(X
((X) Xε
(
(((
εt ε = εt ε 

La part de variance de Y expliquée par le modèle est toujours traduit par le coefficient de
détermination
SCE SCR
R2 = =1−
SCT SCT
2
Bien évidemment (0 ≤ R ≤ 1), plus il tend vers 1 meilleur sera le modèle. Lorsqu’il est
proche de 0, cela veut dire que les exogènes Xi n’expliquent en rien les valeurs prises par Y .

R2 corrigé ou ajusté
Problème
Le R2 est un indicateur de qualité, mais il présente un défaut ennuyeux : plus nous augmen-
tons le nombre de variables explicatives, même non pertinentes, n’ayant aucun rapport avec
le problème que l’on cherche à résoudre, plus grande sera sa valeur, mécaniquement.
Une augmentation de variables explicatives implique une diminution de degré de liberté.
La mesure alternative, plus robuste à l’ajout des variables, qui corrige ce problème associé
aux degrés de liberté est le R2 ajusté de Henry Theil, appelé aussi R2 corrigé. Elle se définit
comme suit :
SCR
n−1
R̄2 = 1 − n − k − 1 = 1 − (1 − R2 )
SCT n−k−1
n−1
Note importatnte
il faut faire attention de ne pas interpréter le R̄2 en termes de part de variance expliquée. Son
seul avantage est qu’il permet de comparer plusieurs modèles. De plus, le R̄2 peut prendre
des valeurs négatives. Dans ce dernier cas, il faut l’assimiler à zéro, on a aussi : R̄2 < R2 et
si n est grand R̄2 ' R2 .
Nous pouvons maintenant construire une nouvelle version du tableau d’analyse de va-
riance.

Mounir Jerry
Master G.R.F.

Source de variation Somme des carrés Degrés de liberté Carrés moyen


Xn
Expliquée SCE = (Ŷi − Ȳ )2 k CM E = SCE
k
i=1
n
X
Résiduelle SCR = (Yi − Ŷi )2 n−k−1 CM R = SCR
n−k−1
i=1
n
X
Totale SCT = (Yi − Ȳ )2 n−1
i=1

2.5 Test de significativité des paramètres


Test de significativité individuelle
La démarche est analogue à celle définie pour la régression linéaire simple (section Dis-
tribution des coefficients estimés). Par hypothèse εi ∼ N (0, σε ). Le résidu ε̂i est une réalisa-
tion de l’erreur εi , alors il suit aussi une loi normale
ε̂i
⇒ ∼ N (0, 1)
σε
n
X
n  2 ε̂2i
X ε̂i i=1 σ̂ε2
⇒ = = (n − k − 1) ∼ χ2 (n − k − 1)
i=1
σε σε2 σε2

On a : ä σβ̂j est l’écart-type estimé, obtenu à partir de la matrice de variance covariance



Ωβ̂ = σε2 (X t X)−1 , ainsi σβ̂j = σε aj+1j+1 , où aj+1j+1 est le j+1ème terme de la diagonale
principale de la matrice (X t X)−1 .
ä σ̂β̂j est l’écart-type estimé, obtenu à partir de la matrice de variance covariance es-

timée Ω̂β̂ = σ̂ε2 (X t X)−1 , ainsi σ̂β̂j = σ̂ε aj+1j+1 , où aj+1j+1 est le j+1ème terme de la
diagonale principale de la matrice (X t X)−1 .
äOn vérifie facilement
σ̂ε2 σ̂β̂2
(n − k − 1) 2 = (n − k − 1) 2j ∼ χ2 (n − k − 1)
σε σβ̂
j

äToujours par analogie avec la régression linéaire simple, on a


β̂j − βj
∼ N (0, 1)
σβ̂j

äIl en résulte que


β̂j − βj
∼ T (n − k − 1)
σ̂β̂j

Mounir Jerry
Master G.R.F.

Test de Student
Test de significativité Si nous désirons savoir si une variable explicative figurant dans un
modèle est réellement-significativement- contributive pour expliquer la variable endogène, il
convient de tester si son coefficient de régression est significativement différent de 0 pour un
seuil choisi, en général α = 5%.

Comme pour le cas linéaire simple, le test de significativité individuelle, qui porte sur
chaque paramètre, est mené en calculant les ratios de Student. Pour un test bilatéral, les
hypothèses du test sont : (
H0 : βj = 0
H1 : βj 6= 0
Le ratio de Student est calculé comme suit :
β̂j − βj
tβ̂j =
σ̂β̂j

Sous H0 , la formule devient :


β̂j
tβ̂j =
σ̂β̂j
∗ Si |tβ̂j | ≤ t1− α2 , alors on accepte H0 .
∗ Si |tβ̂j | > t1− α2 , alors on rejette H0 .
Avec t1− α2 le quantile d’ordre 1 − α2 de la loi de Student à n − k − 1 degrés de liberté.
Test de conformité à un standard Le test d’hypothèses est le suivant :
(
H0 : βj = β̄
H1 : βj 6= β̄

Sous H0 , le ratio de Student est calculé comme suit :

β̂j − β̄
tβ̂j =
σ̂β̂j

∗ Si |tβ̂j | ≤ t1− α2 , alors on accepte H0 .


∗ Si |tβ̂j | > t1− α2 , alors on rejette H0 .

Intervalle de confiance pour βj


En se basant sur le paramètre estimé β̂j et en assumant un risque donné α. La forme de
l’intervalle de confiance pour βj est
h i
β̂j − t1− 2 σ̂β̂j , β̂j + t1− 2 σ̂β̂j
α α

Mounir Jerry
Master G.R.F.

Test de significativité conjointe ou globale


a Le test de significativité globale sert à tester la pertinence du modèle. Il répond à la
question de savoir si l’ensemble des exogènes apporte de l’information utile à la connais-
sance de la variable endogène. Ceci dit, seuls les paramètres associés aux variables explica-
tives interviennent dans le test, la constante β0 n’est donc prise en compte ici, car c’est bien
l’influence des exogènes sur la variable expliquée que l’on cherche à établir.

a Dans la littérature anglophone, ce test est parfois considéré comme un test de signifi-
cativité du R2 , dans le sens où il évaluerait le pouvoir explicatif des exogènes, pris dans leur
globalité, sur l’endogène. Les hypothèses du test sont :
(
H0 : β1 = β2 = · · · = βk = 0
H1 : ∃ au moins un βj 6= 0

a Le cas où l’hypothèse H0 est acceptée signifie qu’il n’existe aucune relation linéaire
significative entre la variable à expliquer et les variables explicatives (ou encore que la
somme des carrés expliqués n’est pas significativement différente de 0). La statistique de
test est extraite du tableau d’analyse de variance
SCE R2
CM E k k
F = = =
CM R SCR (1 − R2 )
n−k−1 n−k−1

a L’hypothèse de normalité des erreurs implique que sous l’hypothèse H0, F suit une loi
de Fisher (rapport de deux chi-deux) F(k, n − k − 1).

Rejet de H0 au risque α si F > F1−α (k, n − k − 1)

où F1−α (k, n−k−1) est le quantile d’ordre 1−α de la loi de Fisher-Snedecor F(k, n−k−1)
à k et n − k − 1 degrés de liberté.

Test de significativité d’un bloc de coefficients


a Le test précédent amène à rejeter H0 dès que l’une des variables Xj est liée à Y . Il
est donc d’un intérêt limité. Il est souvent plus utile de tester un modèle réduit c’est-à-dire
dans lequel certains coefficients sont nuls (à l’exception du terme constant) contre le modèle
complet avec toutes les variables.

a Les hypothèses s’écrivent (en toute généralité, on teste q (avec q ≤ k) coefficients, pas
nécessairement les q premières, nous adoptons cette écriture pour simplifier les notations) :
(
H0 : β1 = β2 = · · · = βq = 0
H1 : ∃ au moins un βj 6= 0

Mounir Jerry
Master G.R.F.

a Pour résoudre ce problème, nous confrontons deux régressions : celle sous hypothèse
nulle, avec (k − q) variables explicatives, nous obtenons un premier coefficient de détermi-
nation R02 ; et celle avec les k variables, nous obtenons R2 . Les deux modèles sont imbriqués
et, forcément, R2 ≥ R02 .
a Nous posons alors la question suivante : est-ce que l’adjonction des q exogènes sup-
plémentaires dans la régression induit une augmentation significative du R2 au risque α ?
Formons la statistique de test F

(R2 − R02 ) (SCR0 − SCR)


q q
F = 2 =
(1 − R ) SCR
n−k−1 n−k−1

a Sous H0, elle suit une loi de Fisher à (q, n − k − 1) degrés de liberté.
Rejet de H0 au risque α si F > F1−α (q, n − k − 1)

a Dans le cas particulier où q = 1 (βj = 0), la F -statistique est alors le carré de la t-


statistique de l’inférence sur un paramètre et conduit donc au même test.

Test de conformité pour un bloc de coefficients


a Nous pouvons généraliser le test de conformité à un groupe de q (avec q ≤ k) coef-
ficients. Nous cherchons à tester simultanément l’égalité d’un sous ensemble de coefficients
de régression à des valeurs fixées
    

 β1 c 1

β c
    
 H :  2 = 2 

   
0  ..   ..  ⇔ β(q) = c(q)

  .   . 



 βq cq

H1 : ∃ au moins un βj 6= cj

a Les cj représentent les standards auxquels nous comparons nos coefficients. Attention, la
notation ne doit pas nous induire en erreur : on teste bien q paramètres quelconques parmi
les k.
a La statistique de test est
1 t
−1
 
F = β̂(q) − c(q) Ω̂β̂ β̂(q) − c(q)
q (q)

β̂(q) représente le sous-vecteur des coefficients estimés mis a contribution dans le test ; Ω̂β̂(q)
est la matrice de variance covariance réduite aux coefficients
  SousH0 , la quantité F
 testés.
t
suit une loi de Fisher F(q, n−k −1). En effet : a β̂ − β Ω−1 β̂
β̂ − β suit une loi du χ2
(chi-deux) à k + 1 degrés de liberté (somme au carré de k + 1 variables aléatoires normales

Mounir Jerry
Master G.R.F.

centrées réduites, les k + 1 coefficients) a Si on remplace la matrice des variances cova-


riances théorique des coefficient, par son estimateur Ω̂β̂ = σ̂ε2 (X t X)−1 , la loi de probabilité
1  t
−1
 
de β̂ − β Ω̂β̂ β̂ − β est alors un Fisher à k + 1 et n − k − 1 degrés de liberté.
k+1
1  t  −1  
β̂ − β σε2 (X t X)−1 β̂ − β
aF = k+1 σ̂ε2 1
est le rapport de deux chi-deux divi-
(n − k − 1) 2
σε n − k − 1
sés par leurs degrés de liberté (caractéristique d’une loi de Fisher à k + 1 et n − k − 1 degrés
de liberté).
1 t  
Rejet de H0 au risque α si β̂(q) − c(q) Ω̂−1 β̂(q) − c (q) > F1−α (q, n − k − 1)
q β̂(q)

où F1−α (q, n−k−1) est le quantile d’ordre 1−α de la loi de Fisher-Snedecor F(q, n−k−1)
à q et n − k − 1 degrés de liberté.

Test de contraintes linéaires sur les coefficients


a La formulation du test de combinaisons linéaires des coefficients permet de couvrir
tous les tests exposés dans ce livre. C’est déjà intéressant en soi. Il est toujours plaisant
intellectuellement de produire une procédure suffisamment globale qui permette de résoudre
tous les problèmes possibles. a Tester q contraintes linéaires sur les coefficients : R est la
matrice décrivant les contraintes linéaires de dimension (q, k+1) ; r est le vecteur des valeurs
de référence de taille (q, 1) (
H0 : Rβ = r
H1 : Rβ 6= r

a Nous utilisons la statistique :


1 t 
t
 
−1 t −1

Rβ̂(q) − r R(X X) R Rβ̂(q) − r
q
F =
SCR
n−k−1

a Sous H0, elle suit une loi de Fisher à (q, n − k − 1) degrés de liberté.
Rejet de H0 au risque α si F > F1−α (q, n − k − 1)

où F1−α (q, n−k−1) est le quantile d’ordre 1−α de la loi de Fisher-Snedecor F(q, n−k−1)
à q et n − k − 1 degrés de liberté.

2.6 Prédiction et intervalle de prédiction


Prédiction ponctuelle
_ Comme pour la régression linéaire simple, il s’agit, pour un nouvel individu i∗, de
fournir une prédiction de la valeur de l’endogène ŷi∗ à partir de sa description c-à-d les

Mounir Jerry
Master G.R.F.

valeurs prises par les exogènes (xi∗,1 , xi∗,2 , · · · , xi∗,k ). La prédiction ponctuelle est obtenue
en appliquant les coefficients estimés sur la description de l’individu à traiter

ŷi∗ = β̂0 + β̂1 xi∗,1 + · · · + β̂k xi∗,k

_ L’expression est plus facile à manipuler en utilisant la notation matricielle :


t
ŷi∗ = Xi∗ β̂
t t
où Xi∗ est un vecteur ligne de dimension (1, k + 1) ; Xi∗ = (1, xi∗,1 , xi∗,2 , · · · , xi∗,k )
_ On montre aisément que la prédiction ponctuelle est sans biais. Pour ce faire, intéres-
sons nous à l’erreur de prédiction ε̂i∗ :

ε̂i∗ = yi∗ − ŷi∗


t t
= Xi∗ β + εi∗ − Xi∗ β̂
t
= Xi∗ (β − β̂) + εi∗

Et
t
E(ε̂i∗ ) = Xi∗ E(β − β̂) + E(εi∗ ) = 0
_ Par conséquent, la prédiction ponctuelle est sans biais :
E(ŷi∗ ) = yi∗

Intervalle de prédiction
_ Pour construire l’intervalle de prédiction (la fourchette), nous devons connaître la
variance estimée de l’erreur de prédiction et la distribution de cette dernière. L’esprit de
l’approche a déjà été développée lors de la présentation de la régression simple. Calculons
la variance de l’erreur de prédiction :
t
V (ε̂i∗ ) = V (Xi∗ (β − β̂) + εi∗ )
t
= V (εi∗ ) + V (Xi∗ (β − β̂)) + 2Cov(Xi∗ (β − β̂), εi∗ )
= E(ε2i∗ ) + E((Xi∗
t
(β − β̂))2 ) + 2Cov(Xi∗ (β − β̂), εi∗ )

_ Mais la covariance est nulle, puisque β̂ ne dépend que des erreurs ε1 , ε2 , · · · , εn de


l’échantillon qui sont indépendante de εi∗ par hypothèse. On a alors :
h i
2 t t
V (ε̂i∗ ) = σε + E Xi∗ (β − β̂)(β − β̂) Xi∗
= σε2 + σε2 Xi∗
t
(X t X)−1 Xi∗
= σε2 1 + Xi∗
t
(X t X)−1 Xi∗ = σε̂2i∗


_ Or l’erreur de prévision ε̂i∗ = yi∗ −ŷi∗ est distribué suivant une loi normale N (0, σε̂2 i∗
),
en remplaçant la variance théorique σε2 par la variance empirique σ̂ε2 , nous pouvons en déduire
que :
yi∗ − ŷi∗
p
t
∼ T (n − k − 1)
σ̂ε 1 + Xi∗ (X t X)−1 Xi∗

Mounir Jerry
Master G.R.F.

_ On en déduit l’intervalle de prédiction au niveau de confiance (1 − α) :


h p p i
t t
ŷi∗ − t1− α2 σ̂ε 1 + Xi∗ (X t X)−1 Xi∗ , ŷi∗ + t1− α2 σ̂ε 1 + Xi∗ (X t X)−1 Xi∗

α
où t1− α2 est le quantile d’ordre 1 − 2
de la loi de Student à n − k − 1 degrés de liberté.

Mounir Jerry
Master G.R.F.

2.7 Exemples

Exemple 1
On examine l’évolution d’une variable Yt en fonction de deux exogènes X1t et X2t . On
dispose de n observations de ces variables. On note X = [1 X1 X2 ] où 1 est le vecteur
constant et X1 et X2 sont les vecteurs des variables explicatives.
1) On a obtenu les résultats suivants :
   
25 0 0 0, 04 0 0
X t X =  ? 9, 3 5, 4  et (X t X)−1 =  0 0, 1428 −0, 0607 
   

? ? 12, 7 0 −0, 0607 0, 1046


Donner les valeurs manquantes. Que vaut n ?
2) La régression de Y sur la constante et les deux exogènes donne :

Yt =−1, 61 + 0, 61X1t + 0, 46X2t + εt ; SCR = 0, 3; Y t Y = 73, 48; Ȳ = −1, 61

Calculer la somme des carrés expliqués SCE, la somme des carrés totaux SCT , le R2 et le
R2 ajusté
Solution :
1) Les 3 valeurs manquantes se déduisent de la symétrie de la matrice X t X, la valeur de
n = (X t X)11 = 25.
2) La régression linéaire de Y sur (1, X1 , X2 ) est
25
X
Yt = −1, 61 + 0, 61X1t + 0, 46X2t + ε̂t et SCR = ε̂2t = 0, 3
t=1

la moyenne empirique des résidus est nulle : ε̂¯ = 0. On en déduit que

Ȳ = −1, 61 + 0, 61X̄1 + 0, 46X̄2 + ε̂¯


(X t X)12 (X t X)13
= −1, 61 + 0, 61 + 0, 46
n n
= −1, 61

La somme des carrés expliquées par le modèle est


25
X
SCE = (Ŷt − Ȳ )2
t=1
X25
= (0, 61X1t + 0, 46X2t )2
t=1
25
X 25
X 25
X
= 0, 612 X12t + 2 · 0, 61 · 0, 46 X1t X2t + 0, 462 X22t
t=1 t=1 t=1
2 t t 2 t
= 0, 61 (X X)22 + 2 · 0, 61 · 0, 46(X X)23 + 0, 46 (X X)33
= 9, 18

Mounir Jerry
Master G.R.F.

Alors
SCT = SCR + SCE = 9, 48
Le coefficient de détermination et le R2 ajusté
SCE 25 − 1
R2 = = 0, 9683 et R̄2 = 1 − (1 − R2 ) = 0, 9654
SCT 25 − 2 − 1

Exemple 2
On souhaite expliquer la hauteur Y (en mètres) d’un arbre en fonction de sa circonférence
X (en centimètres) à 1m30 du sol et de la racine carrée de celle-ci. On a relevé n = 1429
couples (xi , yi ).

y i = β 0 + β 1 xi + β 2 xi + εi
Les εi sont des variables aléatoires indépendantes, de loi normale centrée admettant la même
variance σ 2 . En posant :
 √   
1 x1 x1 y1
 . . ..  .. 
X =  .. .. .  et Y = 

. 

1 xn xn yn

on a observé :
   
? ? 9792 30310
X t X =  ? 3306000 ?  , X t Y =  1462000  et Y t Y = 651900
   

? 471200 67660 209700

1) Déterminer les ’ ?’ dans la matrice X t X. Que vaut la circonférence moyenne empirique


X̄ ?

2) Le calcul donne
   
4, 646 0, 101 −1, 379 −16, 8
(X t X)−1 =  0, 101 0, 002 −0, 03  et (X t X)−1 X t Y =  −0, 3 
   

−1, 379 −0, 03 0, 411 7, 62

Calculer l’estimateur de σε2 pour les moindres carrés et pour β2 un intervalle de confiance à
95%.
3) Tester l’hypothese β1 = 0 au niveau de risque 10%. Que vaut la hauteur moyenne empi-
rique Ȳ ? En deduire le coefficient de détermination ajusté R̄2 .
4) Construire un intervalle de prévision à 95% de yn+1 connaissant xn+1 = 49.
5) Construire un intervalle de prévision à 95% de yn+1 connaissant xn+1 = 25.
6) Des deux intervalles précédents, lequel est le plus grand ? Pouvait-on s’y attendre ?

Mounir Jerry
Master G.R.F.

Solution :
1) La matrice X t X se complète comme suit :
 
1429 67660 9792
X t X =  67660 3306000 471200 
 

9792 471200 67660

La circonférence moyenne empirique vaut :


(X t X)12
X̄ = = 47, 3477
n
2)

(Y − X β̂)t (Y − X β̂)
σ̂ε2=
n−k−1
1 h t i
= Y Y − Y t X β̂ − β̂ t X t Y + β̂ t X t X β̂
1426
1  t
Y Y − Y t X(X t X)−1 X t Y − Y t X(X t X)−1 X t Y + Y t X(X t X)−1 X t X(X t X)−1 X t Y

=
1426
1 h t i
= Y Y − β̂ t X t Y
1426
651900 − 650106
=
1426
=1, 258

L’intervalle de confiance pour β2 à 95% est


h i
β̂2 − t1− 2 σ̂β̂2 , β̂2 + t1− 2 σ̂β̂2
α α

p
où β̂2 = 7, 62 et σ̂β̂2 = σ̂ε2 ((X t X)−1 )33 = 0, 719. Puisque la taille de l’échantillon est
assez grande, alors on utilise la loi normale centrée réduite : t1− α2 = 1, 96, donc l’intervalle
de confiance

[7, 62 − 1, 96 · 0, 719, 7, 62 + 1, 96 · 0, 719] = [6, 2107, 9, 0292]

3) On veut tester l’hypothese H0 : β1 = 0 contre H1 : β1 6= 0 au niveau de risque 10%. Sous


H0 , on sait que Le ratio de Student est donné par

β̂1 −0, 3
tβ̂1 = =p = −6
σ̂β̂1 σ̂ε ((X t X)−1 )22
2

Il nous suffit donc de comparer la valeur absolue de la statistique de test obtenue ici au
quantile d’ordre 0.95 d’une loi normale centrée réduite, c’est-à-dire à 1, 645. Or

|tβ̂1 | = 6 > 1, 645

Par conséquent on rejette l’hypothese selon laquelle β1 = 0.

Mounir Jerry
Master G.R.F.

La moyenne empirique des yi se déduit de la première composante du vecteur X t Y


30310
Ȳ = = 21, 2106
1429
Par définition, le coefficient de détermination ajusté R̄2 vaut :
n−1 n−1 SCR
R̄2 = 1 − (1 − R2 ) = 1 − ·
n−k−1 n − k − 1 SCT
Or n
SCR X
σ̂ε2 = et SCT = (yi − Ȳ )2 = Y t Y − nȲ 2
n−k−1 i=1

Alors
1428 · 1, 258
R̄2 = 1 − = 0, 8005
651900 − 1429 · 21, 21062
t
4) En notant Xn+1 = (1 49 7), la valeur prédite de yn+1 est

t
ŷn+1 = Xn+1 · β̂ = 21, 84

un intervalle de prévision à 95% pour yn+1 est


 q q 
t t
ŷn+1 − t1− α2 σ̂ε 1 + Xn+1 (X t X)−1 Xn+1 , ŷn+1 + t1− α2 σ̂ε 1 + Xn+1 (X t X)−1 Xn+1

Comme t1− α2 = 1, 96, alors l’intervalle de prévision à 95% est

[20, 1386; 23, 5414]

t
5) En notant Xn+1 = (1 25 5), la valeur prédite de yn+1 est

t
ŷn+1 = Xn+1 · β̂ = 13, 8

un intervalle de prévision à 95% pour yn+1 est


 q q 
t t −1 t t −1
ŷn+1 − t1− α2 σ̂ε 1 + Xn+1 (X X) Xn+1 , ŷn+1 + t1− α2 σ̂ε 1 + Xn+1 (X X) Xn+1

Comme t1− α2 = 1, 96, alors l’intervalle de prévision à 95% est

[11, 6789; 15, 9211]

6) On constate que c’est le second intervalle de prévision qui est le plus grand : ceci est dû
au fait que le second point est plus éloigné du centre de gravité. On prévoit donc moins bien
sa valeur.
Exemple 3

Mounir Jerry
Master G.R.F.

Nous nous intéressons au modèle Y = Xβ + ε sous les hypothèses classiques. Nous avons
obtenu sur 21 données :

Ŷ = 6, 683(2,67) + 0, 44(2,32) X1 + 0, 425(2,47) X2 + 0, 171(2,09) X3 + 0, 009(2,24) X4


R2 = 0, 54

où, pour chaque coefficient, le nombre entre parenthèses représente la valeur absolue de la
statistique de test.
1) Tester la nullité de β1 au seuil de 5%.
2) Pouvez-vous tester H0 : β3 = 1 contre H1 : β3 6= 1 ?
3) Tester la nullité simultanée des paramètres associés aux variables X1 , · · · , X4 au seuil de
5%.
Solution :
β̂1 − β1
1) Nous savons que tβ̂1 = suit une loi de Student à 16 degrés de liberté. Sous
σ̂β̂1
l’hypothèse β1 = 0, et d’après l’énoncé, nous avons donc

β̂
1
|tβ̂1 | = = 2, 32 > t0,975 = 2, 119
σ̂β̂1
Donc, au seuil de 5%, on rejette l’hypothese
selon laquelle β1 serait nul.
β̂
3
2) Par le même raisonnement |tβ̂3 | = = 2, 09 suit une loi de Student à 16 degrés de
σ̂β̂3
liberté. D’après l’énoncé β̂3 = 0, 171, alors σ̂β̂3 = 0, 0818. Or la statistique de test dans ce
cas est
β̂ − β 0, 171 − 1
3 3
= = 10, 1344 > 2, 12
σ̂β̂3 0, 0818

donc on rejette l’hypothese H0 selon laquelle β3 serait égal à 1.


3) Nous effectuons un test de Fisher global : H0 : β1 = · · · = β4 = 0 contre H1 :
∃ au moins un βj 6= 0. Avec les notations du cours, nous savons que sous l’hypothèse H0 ,
nous avons
n−k−1 R2
F = ·
k 1 − R2
suit une loi de Fisher à 4 et 16 degrés de liberté, alors

F = 4, 6956 > 3, 007

ce qui nous amène à rejeter l’hypothèse H0 au seuil de 5%.


Exemple 4
On considère le modèle de régression suivant :

yi = β0 + β1 xi1 + β2 xi2 + εi

Mounir Jerry
Master G.R.F.

On a observé :
   
30 20 0 15
X t X =  20 20 0  , X t Y =  20  et Y t Y = 59, 5
   

0 0 10 10
1) Déterminer la valeur de n, la moyenne des xi2 .
2) Estimer β0 , β1 , β2 et σ̂ε2 par la méthode des moindres carrés ordinaires.
3) Calculer pour β1 un intervalle de confiance à 95% et tester l’hypothèse β2 = 0, 8 au niveau
10%.
4) Tester β1 + β2 = 3 contre β1 + β2 6= 3, au niveau 5%.
5) Que vaut Ȳ , moyenne empirique des yi ? En déduire le coefficient de détermination ajusté
R̄2 .
6) Construire un intervalle de prévision à 95% de yn+1 connaissant : xn+1,1 = 3 et xn+1,2 =
0, 5.
Solution :
1)
(X t X)13
n = (X t X)11 = 30, et X̄2 = =0
30
2) Grâce à la méthode des moindres carrés ordinaires, on a :
      
β̂0 0, 1 −0, 1 0 15 −0, 5
t −1 t
 β̂1  = (X X) X Y =  −0, 1 0, 15 0   20  =  1, 5 
      

β̂2 0 0 0, 1 10 1
et
1 h t i
σ̂ε2 = t t
Y Y − β̂ X Y
27
1
= [59, 5 − 32, 5] = 1
27
3) L’intervalle de confiance pour β1 à 95% est
h i
β̂1 − t1− α2 σ̂β̂1 , β̂1 + t1− α2 σ̂β̂1
p
où β̂1 = 1, 5 et σ̂β̂1 = σ̂ε2 ((X t X)−1 )22 = 0, 3872. Avec : t1− α2 = 2, 051, donc l’intervalle
de confiance

[1, 5 − 2, 051 · 0, 3872; 1, 5 + 2, 051 · 0, 3872] = [0, 7058; 2, 2941]

On veut tester l’hypothese H0 : β2 = 0, 8 contre H1 : β2 6= 0, 8 au niveau de risque 10%.


Sous H0, on sait que Le ratio de Student est donné par

β̂2 − β2 1
tβ̂2 = =p = 0, 6324
σ̂β̂2 σ̂ε ((X t X)−1 )33
2

Mounir Jerry
Master G.R.F.

Il nous suffit donc de comparer la valeur absolue de la statistique de test obtenue ici au
quantile d’ordre 0.95 de la loi de Student à 27 degrés de liberté, c’est-à-dire à 1, 703. Or

|tβ̂1 | = 0, 6324 < 1, 703

Par conséquent on accepte au niveau 10% l’hypothèse selon laquelle β2 = 0, 8.


4) On est dans le cas d’un test de contraintes linéaires sur les coefficients, alors on doit
l’écrire sous cette forme (
H0 : Rβ = r
H1 : Rβ 6= r
Nous utilisons la statistique :
1 t  −1  
Rβ̂(q) − r R(X t X)−1 Rt Rβ̂(q) − r
q
F =
SCR
n−k−1
Pour notre cas :  
R= 0 1 1 ; r = 3; et q = 1
Donc  
  −0, 5
Rβ̂(q) − r = 0 1 1  1, 5  − 3 = −0, 5
 

1
et  

  0, 1 −0, 1 0 0
t −1 t
R(X X) R = 0 1 1  −0, 1 0, 15 0   1  = 0, 25
  

0 0 0, 1 1
Alors
(−0, 5)t [0, 25]−1 (−0, 5)
F = =1
1
D’où
F = 1 < F0,05 (1, 27) = 4, 21
Par conséquent, au niveau 5%, on accepte H0 .
5) La moyenne empirique des yi se déduit de la première composante du vecteur X t Y , donc
15
Ȳ = = 0, 5. Par définition, le coefficient de détermination ajusté R̄2 vaut :
30
n−1 n−1 SCR
R̄2 = 1 − (1 − R2 ) = 1 − ·
n−k−1 n − k − 1 SCT
Or n
SCR X
σ̂ε2 = = 1 et SCT = (yi − Ȳ )2 = Y t Y − nȲ 2 = 52
n−k−1 i=1

Mounir Jerry
Master G.R.F.

Alors
29
R̄2 = 1 − = 0, 4423
52
 
t
6) En notant Xn+1 = 1 3 0, 5 , la valeur prédite de yn+1 est

t
ŷn+1 = Xn+1 · β̂ = 4, 5

un intervalle de prévision à 95% pour yn+1 est


 q q 
t t −1 t t −1
ŷn+1 − t1− α2 σ̂ε 1 + Xn+1 (X X) Xn+1 , ŷn+1 + t1− α2 σ̂ε 1 + Xn+1 (X X) Xn+1

Comme t1− α2 = 2, 051, alors l’intervalle de prévision à 95% est

[1, 693; 7, 307]

Mounir Jerry
Master G.R.F.

3 Les modèles non linéaires


Introduction
— Nous avons examiné le cas du modèle linéaire, cependant, très souvent, la théorie
économique doit être formalisée à l’aide de relations non linéaires.
— En effet, l’étude des modèles non linéaires se prête bien à l’exercice pratique.
— il est fréquent de rencontrer en économie des modèles non linéaires dans leur spécifi-
cation, comme c’est le cas des fonctions de production de type Cobb-Douglas.
— Les modèles non linéaires sont généralement regroupés en deux familles, à savoir :
• Modèles non linéaires mais linéarisables ;
• Modèles non linéaires et non linéarisables.
— Pour la première famille de ces modèles, le plus souvent, une transformation loga-
rithmique suffit à les rendre linéaires, ce qui, du reste, valide leur estimation par les
MCO.
— Quant à la deuxième famille de ces modèles, il convient d’appliquer les méthodes
d’estimation non linéaire.

3.1 Linéarisation des modèles non linéaires


Le modèle double log ou log-log
Forme
Y = AX β eε
La transformation logarithmique donne :

ln(Y ) = ln(A) + βln(X) + ε

A présent, en posant :

Y ∗ = ln(Y ); β0 = ln(A); β1 = β; et X ∗ = ln(X)

On retrouve ainsi le modèle linéaire bien connu, qu’on peut écrire de la sorte :

Y ∗ = β0 + β1 X ∗ + ε

Exemple La forme Cobb-Douglas : Q = AK α Lβ .


Avantage une lecture directe des élasticités.

Mounir Jerry
Master G.R.F.

Le modèle log-lin ou (semi-log)


Forme
Y = e(β0 +β1 X+ε)
En appliquant la transformation logarithmique, il vient :

ln(Y ) = β0 + β1 X + ε

Exemple La formule de l’intérêt composé : Y = Y0 (1 + r)t , où Y0 est une constante, (1 + r) un


paramètre et t le temps (la variable exogène). La transformation logarithmique donne :

Y ∗ = β0∗ + β1∗ X ∗ + ε

Où Y ∗ = ln(Y ), β0∗ = ln(Y0 ), β1∗ = ln(1 + r) et X ∗ = t.


Avantage Ce modèle permet le calcul du taux de croissance (taux d’intérêt) d’une part, et de la
tendance (croissante ou décroissante) caractérisant l’évolution de Y selon le signe de
β1∗ (positif ou négatif) d’autre part.

Le modèle lin-log ou (semi-log)


Forme
eY = e(β0 +ε) X1β
En appliquant la transformation logarithmique, il vient :

Y = β0 + β1 ln(X) + ε

Si l’on pose X ∗ = ln(X), la relation ci-dessus est ramenée à la formation standard


antérieure comme suit :
Y = β0 + β1 X ∗ + ε

Avantage Ce modèle permet l’estimation des modèles d’Engle : « La dépense totale consacrée
à la nourriture tend à croître selon une progression arithmétique lorsque la dépense
totale augmente en progression géométrique.

Les modèles réciproques


Forme 1
1
Y = β0 + β1 · +ε
X
La forme linéaire standard est retrouvée en posant simplement X ∗ = 1
X
, ainsi obtient-
on :
Y = β0 + β1 X ∗ + ε
Cette spécification est notamment utilisée pour estimer la courbe de Phillips, qui est la
relation entre l’inflation et le taux de chômage.

Mounir Jerry
Master G.R.F.

Forme 2
1
= β0 + β1 X + ε
Y
En posant Y ∗ = 1
Y
, il vient :

Y ∗ = β0 + β1 X + ε

Le modèle log-hyperbole (ou log-inverse)


Forme
1
Y = e[β0 +β1 · X +ε]
En appliquant la transformation logarithmique sur cette forme, on obtient :
1
ln(Y ) = β0 + β1 · +ε
X
Cette forme s’apparente beaucoup à la forme réciproque sauf que la variable dépen-
dante est exprimée sous forme logarithmique. Quand X augmente, LnY diminue. En
posant X ∗ = X1 et Y ∗ = ln(Y ), on obtient :

Y ∗ = β0 + β1 X ∗ + ε

Le modèle log-hyperbole est apte à représenter une fonction de production de court


terme.

Le modèle polynomial
Forme
Y = β0 + β1 X + β2 X 2 + · · · + βk X k + ε
Une manipulation simple permet d’écrire ce modèle sous la forme :

Y = β0 + β1 X1 + β2 X2 + · · · + βk Xk + ε

Où X1 = X ; X2 = X 2 ; · · · ; Xk = X k . Le modèle polynomial trouve des applications


dans les cas suivants :
• L’estimation d’une tendance d’une série chronologique (représente l’évolution à
long terme de la série étudiée. Elle traduit le comportement moyen de la série) :

Y = β0 + β1 t2 + β2 t3 + ε → où t représente le temps

• L’estimation d’une fonction de coût total :

CT = β0 + β1 Q + β2 Q2 + ε → où CT est le coût total et Q la quantité produite.

Mounir Jerry
Master G.R.F.

Modèle de cycle de vie du produit


— Les modèles de cycle de vie d’un produit, appelés parfois modèles de diffusion.
— Ils ont pour objet de déterminer l’évolution probable des ventes d’un produit connais-
sant le seuil de saturation.
— La courbe de vie du produit est une notion utilisée en marketing.
— les ventes évoluent en fonction du temps ; le démarrage est relativement lent lorsque
le produit est nouveau, puis elles connaissent une croissance rapide. La courbe passe
ensuite par un point d’inflexion (seuil de saturation) à partir duquel le rythme de crois-
sance des ventes diminue.

Le modèle logistique
Le modèle logistique est aussi connu sous le nom de modèle (ou courbe) de Verhulst, du
nom de son auteur Pierre-François Verhulst, qui le proposa en 1838.
Forme
Ymax
Y =
1 + brt
Où Ymax représente le seuil de saturation et r la vitesse de diffusion. Une manipulation
triviale permet d’écrire :
Ymax
− 1 = brt
Y
Après application de la transformation logarithmique, il vient :

Y ∗ = β0 + β1 t + ε
Ymax
Où Y ∗ = ln( − 1) ; β0 = ln(b) et β1 = ln(r).
Y

Le modèle de Gompertz
Le modèle de Gompertz, du nom du mathématicien anglais Benjamin Gompertz, a été
introduit en 1825.
Forme
t
Y = ebr +a
Où ea est le seuil de saturation et r la vitesse de diffusion. Deux transformations lo-
garithmiques sont nécessaires pour linéariser ce type de modèles. Dans un premier
temps, la transformation logarithmique du modèle donne :

ln(Y ) = brt + a

Après manipulation et en log-linéarisant, il vient :

Y ∗ = β0 + β1 t + ε

Où Y ∗ = ln(ln(Y ) − a) ; β0 = ln(b) et β1 = ln(r).

Mounir Jerry
Master G.R.F.

3.2 Méthodes d’estimation des modèles non linéaires


Introduction
— L’inspiration générale des techniques d’estimation non linéaires sont les mêmes quel
que soit le type d’algorithme.
— Il s’agit de méthodes itératives dans lesquelles l’équation non linéaire est linéarisée à
l’aide d’un développement limité de Taylor (à partir d’un jeu de valeurs de coefficients
initiaux)
— Les MCO sont alors utilisés sur cette équation linéaire afin d’estimer des nouveaux co-
efficients. Ces nouveaux coefficients permettent, à l’aide d’un nouveau développement
limité, de procéder à une nouvelle linéarisation.
— La procédure est arrêtée lorsque les coefficients sont relativement stables d’une itéra-
tion à l’autre.
— Pour ce type de méthode soit efficiente, il convient que les valeurs initiales ne soient
pas trop éloignées des valeurs optimales. Dans le cas contraire, il n’y a pas convergence
et la procédure est défaillante.
— Il y a plusieurs algorithmes de résolution (procédures numérique d’optimisation) des
modèles non linéaires, notamment : l’algorithme de Gauss-Newton, Newton-Raphson
ou quasi-Newton, etc. En physique, il en existe plusieurs approches, notamment : les
modèles polynomiaux par morceaux, les méthodes à base de B-splines, le perceptron
multi-couche (dans sa version régressive) et les méthodes à fonctions de base radiale.

Algorithme de Gauss-Newton
Soit le modèle non linéaire :
Y = f (X, β) + ε
Où X est la matrice des observations des variables explicatives (de dimension n, k + 1) et β
est le vecteur (de dimension k + 1) des paramètres à estimer. Sous les hypothèses classiques
concernant ε, l’estimateur des moindres carrés est la valeur de β qui minimise la somme des
carrés des résidus :

S(β) = εt ε = [Y − f (X, β)]t [Y − f (X, β)]


 
∂S
Nous avons k + 1 conditions du premier ordre = 0 , soit :
∂β

∂S f (X, β)
= −2 [Y − f (X, β)] = 0
∂β ∂β
Le modèle est non linéaire, on ne peut pas trouver l’expression analytique des estimateurs.

Mounir Jerry
Master G.R.F.

Avec :
∂f (x1 , β) ∂f (x1 , β)
 
···
 ∂β0 ∂βk 
∂S  .. . . 
= Z(β) =   . .. .. 
∂β  ∂f (x , β)

n ∂f (x n , β) 
···
∂β0 ∂βk
On définit une valeur initiale β 1 , qu’on appelle aussi valeur particulière de β. Puis, à l’aide
d’un développement limité de Taylor au voisinage de β 1 , nous pouvons approximer la i-ième
observation.
 
1 ∂f (xi , β) ∂f (xi , β)
f (xi , β) ' f (xi , β ) + |β=β 1 · · · |β=β 1 (β − β 1 )
∂β0 ∂βk | {z }
| {z } vecteur colonne
i-ième ligne de la matrice Z(β 1 )
Ou encore, en notation matricielle :

f (X, β) ' f (X, β 1 ) + Z(β 1 )(β − β 1 )

Soit
Y = f (X, β 1 ) + Z(β 1 )(β − β 1 ) + ε
Ou encore
Y = f (X, β 1 ) + Z(β 1 )β − Z(β 1 )β 1 + ε
En posant Ȳ (β 1 ) = Y − f (X, β 1 ) + Z(β 1 )β 1 , nous pouvons alors construire un pseudo-
modèle linéaire qui est égal à :

Ȳ (β 1 ) = Z(β 1 )β + ε

L’estimateur des MCO de ce modèle linéaire est donné par :


−1
β 2 = Z(β 1 )t Z(β 1 ) Z(β 1 )t Ȳ (β 1 )
−1
= β 1 + Z(β 1 )t Z(β 1 ) Z(β 1 )t Y − f (X, β 1 )
 

— Ce qui donne k + 1 nouvelles valeurs pour le vecteur β = β 2 . Le processus est arrêté à


la p-ième itération, lorsque nous observons une relative stabilité des coefficients ainsi
estimés : β̂ = β p ' β p−1 .
— Cette méthode assez complexe connaît quelque raffinement par l’utilisation d’un dé-
veloppement limité de Taylor du second ordre (algorithme de Newton-Raphson).
— Les logiciels d’économétrie (SPSS, Eviews, RATS, MATLAB, ...) ainsi que les ta-
bleurs - à l’aide de la fonction SOLVEUR - permettent, très simplement, d’utiliser ces
méthodes d’estimation des modèles non linéaires.
— Néanmoins, il convient d’insister sur le fait qu’elles ne sont efficientes que si nous
sommes capables de fournir des valeurs initiales compatibles avec la spécification du
modèle et les données.

Mounir Jerry
Master G.R.F.

3.3 Exemples

Exemple 1
Soit le modèle log-linéaire suivant : Y = Y0 (1 + r)t . Connaissant les valeurs du tableau
ci-après qui montre l’évolution des ventes d’une entreprise au cours de 15 mois, on demande
d’ajuster cette fonction et de trouver Y0 et r.

Y 10 15 20 18 20 22 24 21 27 26 33 29 34 38 37
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Solution :
En linéarisant le modèle, on trouve que :

Y ∗ = β0∗ + β1∗ X ∗ + ε

Où Y ∗ = ln(Y ), β0∗ = ln(Y0 ), β1∗ = ln(1 + r) et X ∗ = t. Dans ce cas on établit un nouveau


tableau :

Y∗ 2,3025 2,708 2,9957 2,8903 2,9957 3,091 3,178 3,0445 3,2958 3,258 3,4965 3,3672 3,5263 3,6375 3,6109
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

En utilisant la méthode du MCO, on trouve que :

β̂0∗ = 2, 5527 et β̂1∗ = 0, 0758

D’où
ln(Ŷ0 ) = 2, 5527 et ln(1 + r̂) = 0, 0758
Alors
Ŷ0 = 12, 8417 et r̂ = 0, 0787
Donc
Ŷ = 12, 8417 · (1, 0787)t̂

Exemple 2
En considérant les données du tableau ci-dessous qui renseigne sur les quantités produites,
pendant dix jours, moyennant les facteurs travail (L) et capital (K), on demande d’estimer
le modèle ci-après :
Q = ALβ1 K β2 eε

Q 25 28 32 35 39 37
K 12 13 10 15 22 17
L 3 5 9 8 12 13

Mounir Jerry
Master G.R.F.

Solution :
En linéarisant le modèle, on trouve que :

Q∗ = β0 + β1 L∗ + β2 K ∗ + ε

Où Q∗ = ln(Q), β0 = ln(A), L∗ = ln(L) et K ∗ = ln(K).


Dans ce cas on établit un nouveau tableau :
Q∗ 3,2188 3,3322 3,4657 3,5553 3,6635 3,6109
K∗ 2,4849 2,5649 2,3025 2,708 3,091 2,8332
L∗ 1,0986 1,6094 2,1972 2,0794 2,4849 2,5649

En utilisant la méthode du MCO, on trouve que :

β̂0 = 2, 5456 β̂1 = 0, 2488 et β̂2 = 0, 1612

D’où Â = 12, 7508, alors :

Q̂ = 12, 7508 · L̂0,2488 · K̂ 0,1612

Mounir Jerry

Vous aimerez peut-être aussi