Vous êtes sur la page 1sur 36

Régression linéaire multiple

Modèles de régression linéaire

Ouazza Ahmed

Institut National de Statistique et d’Economie Appliquée


(INSEA)

2019-2020

1 / 36
Régression linéaire multiple

Plan

1 Régression linéaire multiple

2 / 36
Régression linéaire multiple

1 Régression linéaire multiple

3 / 36
Régression linéaire multiple

Régression linéaire multiple

Définition:

Le modèle de régression linéaire multiple est une généralisation du


modèle de régression simple lorsque le nombre de variables
explicatives est supérieur ou égale à 2.
Dans ce cas, on suppose qu’on a une variable y qui dépend de k
variables x1 , x2 , ..., xk et le modèle linéaire est donné par:

y = a1 x1 + a2 x2 + ... + ak xk + ε
Lorsque l’expérience est répétée n fois (n représente la taille de
l’échantillon), on dispose n différentes valeurs de x1 , x2 , ..., xk avec
n ≥ k, et les valeurs observées de y sont y1 , ..., yn .

4 / 36
Régression linéaire multiple

Régression linéaire multiple


Pour la ième observation on a (yi , xi1 , ..., xik ), i = 1, ..., n donc on a
un système d’équations linéaires en a1 , ..., ak :


 y1 = a1 x11 + ... + ak x1k + ε1
.



.
.




yn = a1 xn1 + ... + ak xnk + ε1

qu’on peut écrire sous la forme:

Y = Xa + ε (1)

avec        
y1 x11 · · · x1k ε1 a1
 ..   .. ..  , ε =  ..  , a =  .. 
Y = . ,X = . ··· .  . .
yn xn1 · · · xnk εn ak
5 / 36
Régression linéaire multiple

Régression linéaire multiple

Dans cette écriture on a, Y ∈ Rn , ε ∈ Rn , a ∈ Rk et X une matrice


d’ordre (n × k)
Pour avoir de bonnes propriétés du modèle et de l’estimation, on
admet les hypothèses suivantes: E(ε) = 0 , V ar(ε) = σ 2 In
Donc le modèle de régression linéaire multiple s’écrit:

 Y = Xa + ε
E(ε) = 0, V ar(ε) = σ 2 In (2)
X matrice réelles d’ordre (n × k) tq n ≥ k

6 / 36
Régression linéaire multiple

Régression linéaire multiple

Remarques:
1) Le modèle peut contenir un terme constant, dans ce cas le modèle
est donné comme suit:

yi = a0 + a1 xi1 + ... + ak xik + εi , i = 1, ..., n

et la matrice
 X est définie 
de la façon suivante:
1 x11 · · · x1k
X =  ... .. .. 

. ··· . 
1 xn1 · · · xnk
0
2) On dit que le modèle est à plein rang si rg(X) = k (= rg(X X))
0
⇔ X X est inversible.
On supposera, dans la suite, que le modèle de rang plein.

7 / 36
Régression linéaire multiple

Estimateurs des Moindres Carrés Ordinaires:

Définition 1.1
a de a est défini comme suit :
L’estimateur des moindres carrés b
n
X k
X
a = arg min
b (yi − aj xij )2 = arg min ||Y − Xa||2 (3)
a∈Rk a∈Rk
i=1 j=1

0
On cherche la statistique qui minimise Q(a) = ||Y − Xa||2 = ε ε

8 / 36
Régression linéaire multiple

Estimateurs des Moindres Carrés Ordinaires:


Proposition 1.2
L’estimateur des moindres carrés de a est:
0 0
a = (X X)−1 X Y
b (4)

Preuve:
On a
0 0
Q(a) = ε ε = (Y − Xa) (Y − Xa)
0 0 0 0
= Y Y − 2Y Xa + a X Xa
Donc
∂Q 0 0 0 0 0
= −2(Y X) + X Xa + (X X) a
∂a
0 0 0
= −2(Y X) + 2(X X)a
0 0
= −2X Y + 2X Xa
9 / 36
Régression linéaire multiple

D’où
∂Q 0 0 0
∂a (b
a) a = (X X)−1 X Y car X X est inversible.
=0⇔b
∂2Q 0
a est un minimum car
b ∂a2
= 2X X qui est semi définie positive.

Remarque:
0 0
a = X(X X)−1 X Y est la valeur ajustée du vecteur Y .
• Yb = Xb

10 / 36
Régression linéaire multiple

Interprétation géométrique:
L’estimateur des MCO correspond à:
Yb = Xb a est la projection orthogonale de Y sur le sous espace
vectoriel (x1 , ..., xk ) de dimension k (c-à-d sous espace vectoriel
engendré par les vecteurs colonnes de X).
0 0
Donc Yb = PX (Y ) avec PX = X(X X)−1 X
0 0
On vérifie facilement, si PX = X(X X)−1 X et M = In − PX ,
alors:
 0
P = PX et PX2 = PX
 X0


M = M et M 2 = M
P M =0
 X


rg(PX ) = T race(PX ) = k et rg(M ) = T race(M ) = n − k

11 / 36
Régression linéaire multiple

a:
Propriétés de l’estimateur b
Theoreme 1.3
a est un estimateur sans biais de a, c-à-d E(b
1) b a) = a.
a est donnée par:
2) La matrice de covariance de b
0
a) = σ 2 (X X)−1
Cov(b

Preuve: (voir TD)


Theoreme 1.4
L’estimateur ba des MCO est de variance minimale parmi les
estimateurs linéaires sans biais de a.
Preuve: (voir TD)

12 / 36
Régression linéaire multiple

Calcul des résidus:


Les résidus sont définis comme suit:
 
εb1
 .. 
εb =  . 
εbn
= Y − Yb
= Y − PX Y
= (I − PX )Y
= MY
= Mε

13 / 36
Régression linéaire multiple

Calcul des résidus:

Propriétés:
1) E(b
ε) = 0
ε) = σ 2 M
2) V ar(b
3) E(Yb ) = Xa
4) V ar(Yb ) = σ 2 PX
5) Cov(b
ε, Yb ) = 0

Vérification: (voir TD)

14 / 36
Régression linéaire multiple

Estimation sans biais de σ 2 :

Un estimateur sans biais de σ 2 est:

n
1 X 2 ε||2
||b
b2 =
σ εbi =
n−k n−k
i=1

15 / 36
Régression linéaire multiple

En effet,
n
2 1 X
E(b
σ )= E( εb2i )
n−k
i=1
n
1 X
= ε2i )
E(b
n−k
i=1
n
1 X
= V ar(b
εi )
n−k
i=1
1
= T race(Cov(b ε))
n−k
1
= T race(σ 2 M )
n−k
σ2
= T race(M )
n−k
= σ 2 (car T race(M ) = n − k)

16 / 36
Régression linéaire multiple

Coefficient de détermination:

Pour calculer le coefficient de détermination on distingue deux cas:


Cas 1: Modèle de régression avec constante:
Supposons qu’il y a la constante dans
 lemodèle, c-à-d la première
1
 .. 
colonne de la matrice X est: 1n =  .  et
1
 
1 x11 · · · x1k
 .. .. .. 
X = . . ··· . 
1 xn1 · · · xnk
Dans ce cas l’équation de la variance est donnée par:

||Y − y1n ||2 = ||Yb − y1n ||2 + ||b


ε||2
SCT = SCE + SCR

17 / 36
Régression linéaire multiple

Définition 1.5
Le coefficient de détermination R2 , dans le cas où le modèle de
régression contient le terme constant, est défini par:

|Yb − y1n ||2 ε||2


||b SCR
R2 = 2
=1− =1−
||Y − y1n || ||Y − y1n ||2 SCT

Cas 2: Modèle de régression sans terme constant:


L’équation de la variance est donnée par:

||Y ||2 = ||Yb ||2 + ||b


ε||2
SCT = SCE + SCR

18 / 36
Régression linéaire multiple

Définition 1.6
Le coefficient de détermination R2 , dans le cas où le modèle de
régression ne contient pas le terme constant, est défini par:

|Yb ||2 ε||2


||b SCR
R2 = 2
= 1 − 2
=1−
||Y || ||Y || SCT

19 / 36
Régression linéaire multiple

2
Coefficient de détermination ajusté R :
Le R2 augmente avec le nombre de variables. Même si les variables
additionnelles ne sont absolument pas pertinentes.
Donc on ne peut pas comparer des modèles de complexité différente
(avec un nombre de variables explicatives différent) sur la base du R2 .

⇒ Il faut utiliser le R2 ajusté qui est un R2 corrigé par les degrés de


liberté.

20 / 36
Régression linéaire multiple

Définition 1.7
2
Le coefficient de détermination ajusté R est défini par :
• Avec constante:

2 n−1 ε||2
||b n − 1 SCR
R =1− =1−
n − k ||Y − y1n ||2 n − k SCT
• Sans terme constant:

2 n ||b ε||2 n SCR


R =1− =1−
n − k ||Y ||2 n − k SCT

21 / 36
Régression linéaire multiple

Exemple:
On considère le tableau suivant:
Y x1 x2
4.9 1.5 5.0
6.4 2.0 6.5
8.6 3.5 8.0
9.6 4.0 9.0

1. Réaliser une régression multiple de Y sur x1 et x2 sans terme


constant, puis avec la constante.
2
2. Calculer R2 et R pour les deux régressions. Comparer les
résultats.

22 / 36
Régression linéaire multiple

Corrigé:
a) Modèle sans constante:

Y = a1 x1 + a2 x2 + ε = Xa + ε
   
4.9 1.5 5.0  
6.4 2.0 6.5 a1
avec Y =  , X = (x1 , x2 ) = 
    et a =
8.6 3.5 8.0 a2
9.6 4.0 9.0
L’estimateur de a est
0 0
a = (X X)−1 X Y
b
   
a1 0.636
a=
Après les calculs, on trouve b = D’où
b
a2
b 0.789

Y = 0.636 x1 + 0.789 x2
2
Après les calculs, on trouve:R2 = 0.99 et R = 0.99
23 / 36
Régression linéaire multiple

b) Modèle avec constante:

Y = a0 + a1 x1 + a2 x2 + ε = Xa + ε
   
4.9 1 1.5 5.0  
6.4 1 2.0 6.5 a0
avec Y =  , X = (1, x1 , x2 ) =   et a = a1 
8.6 1 3.5 8.0
a2
9.6 1 4.0 9.0
L’estimateur de a est
0 0
a = (X X)−1 X Y
b
   
a0
b 0.157
a1  =  0.7  D’où
a = b
Après les calculs, on trouve b
a2
b 0.742

Y = 0.157 + 0.7 x1 + 0.742 x2


2
Après les calculs, on trouve:R2 = 0.99 et R = 0.99
24 / 36
Régression linéaire multiple

Cas du modèle gaussien:


Dans le cas d’un modèle gaussien, on suppose que le vecteur ε est
gaussien, par suite le modèle de régression multiple est donné par:

Y = Xa + ε
(5)
ε ∼ Nn (0, σ 2 In )

Remarque:
Puisque ε ∼ Nn (0, σ 2 In ) alors

Y ∼ Nn (Xa, σ 2 In )

et les yi sont mutuellement indépendants car les erreurs εi le sont.

25 / 36
Régression linéaire multiple

Estimateurs du maximum de vraisemblance:


La vraisemblance est donnée par:

1 −1 0
fn (Y, a, σ 2 ) = n 2
(Y − Xa) (Y − Xa))
exp(
(σ 2 2π) 2 2σ
1 −1
= n exp( ||Y − Xa||2 )
(σ 2 2π) 2 2σ 2

et on déduit la log-vraisemblance comme suit:

n n 1
logfn (Y, a, σ 2 ) = − log(2π) − log(σ 2 ) − 2 ||Y − Xa||2
2 2 2σ

26 / 36
Régression linéaire multiple

Theoreme 1.8
0 0
•ba = (X X)−1 X Y est aussi l’estimateur du maximum de
vraisemblance de a (c’est un estimateur sans biais de a.)
• L’estimateur du maximum de vraisemblance de σ 2 est
2 ε||2
||b a||2
||Y − Xb
σ
bmv = = (c’est un estimateur biaisé de σ 2 ).
n n

27 / 36
Régression linéaire multiple

Lois des estimateurs:


Propriétés:
0
a ∼ Nk (a, σ 2 (X X)−1 )
•b
2
• (n − k) σσb2 ∼ χ2 (n − k)
•b
a et εb sont indépendante
aj −aj 0
• ∼ t(n − k) où σ b2 [(X X)−1 ]jj = σ
bj2 = σ b2 xjj avec xjj est le
b
σ
bj
0
j-ème élément de la diagonale de (X X)−1
0 0
• 1
σ2
kb
a−
(b a − a) ∼ F (k, n − k)
a) X X(b
Ces lois permettent de donner des régions de confiance et de faire des
tests sur les paramètres.

28 / 36
Régression linéaire multiple

Prévision:
Objectif:
Prévoir la réalisation de la valeur aléatoire y0 connaissant
0
x0 = (x01 , ..., x0k ) et sachant que:
 0
y0 = x0 a + ε0
(6)
E(ε0 ) = 0, V ar(ε0 ) = σ 2 , E(ε0 , εi ) = 0; i = 1, ..., n
Le prédicteur de y0 dont la variance de l’erreur de prévision est
0
minimale parmi les prédicteurs sans biais linéaire en y est yb0 = x0 b
a

29 / 36
Régression linéaire multiple

Proposition 1.9
L’erreur de prévision εb0 = y0 − yb0 satisfait les propriétés suivantes :
• E(b
ε0 ) = 0
0 0
ε0 ) = σ 2 (1 + x0 (X X)−1 x0 )
• V ar(b

Cas du modèle gaussien:


Si ε0 ∼ N (0, σ 2 ), alors on a les propriétés suivantes:

0 0
y0 − yb0 ∼ N (0, σ 2 (1 + x0 (X X)−1 x0 )

y0 − yb0
q ∼ t(n − k)
0
σb2 (1 + x0 (X 0 X)−1 x0 )

30 / 36
Régression linéaire multiple

Tests d’hypothèses:
Dans toute la suite on considère le modèle linéaire gaussien suivant:

 Y = Xa + ε
ε ∼ N (0, σ 2 In )
X d’ordre (n × k), rg(X) = k

1) Test des paramètres individuellement:


Dans ce cas, on cherche à tester les hypothèses suivantes:

H0 : aj = a∗j

(7)
H1 : aj 6= a∗j
où a∗j est une valeur donnée.

31 / 36
Régression linéaire multiple

Remarque:
Si a∗j = 0 on parle de test de significativité de aj (ie, y’a-t-il un
influence ou non de xj sur y ).
I La Statistique du test:

aj − a∗j
b
T = ∼ t(n − k)
σ
bj
I Décision:
On rejette H0 si |T | > t1− α2 (n − k) avec t1− α2 (n − k) est le quantile
d’ordre 1 − α2 d’une loi de Student à n − k ddl.

32 / 36
Régression linéaire multiple

Remarque:
Une deuxième façon de tester les paramètres individuellement est la
suivante:

H0 : aj ≤ a∗j

(8)
H1 : aj > a∗j
I La Statistique du test:

aj − a∗j
b
T = ∼ t(n − k)
σ
bj
I Décision:
On rejette H0 si T > t1−α (n − k) avec t1−α (n − k) est le quantile
d’ordre 1 − α d’une loi de Student à n − k ddl.

33 / 36
Régression linéaire multiple

2) Test sur les paramètres conjointement:


Soit le modèle de régression multiple avec constante:

Y = a0 + a1 x1 + ... + ak−1 xk−1 + ε = Xa + ε


Avec X est d’ordre (n × k)
D’abord, on représente le tableau de l’analyse de la variance.

Table 1: Tableau de l’analyse de la variance

Source de Somme des ddl Carrés Fobs


variation carrés moyens
SCReg = n y − y)2 CM Reg = SCReg CM Reg
P
Régression (b k−1
Pni=1 i k−1 CM Res
Résiduelle SCRes = i=1 (yi − ybi )2 n−k CM Res = SCRes
n−k
SCT = n 2
P
Totale i=1 (yi − y) n−1

34 / 36
Régression linéaire multiple

L’objectif ici est de tester les hypothèses suivantes:



H0 : a1 = a2 = ... = ak−1 = 0
(9)
H1 : ∃j ∈ {1, ..., k − 1} tel que aj 6= 0

Remarque:
Si l’hypothèse nulle H0 est vérifiée alors le modèle s’écrit:

yi = a0 + εi

I La Statistique du test:

CM Reg n − k R2
Fobs = =
CM Res k − 1 1 − R2
I Décision:
On rejette H0 si Fobs > F1−α (k − 1, n − k) avec F1−α (k − 1, n − k)
est le quantile d’ordre 1 − α d’une loi de Fisher à (k − 1, n − k) ddl.
35 / 36
Régression linéaire multiple

Exemple:
On reprend l’exemple précédent (on considère le modèle avec
constante), tester les hypothèses suivantes:

H0 : aj = 0
(10)
H1 : aj 6= 0.5

H0 : aj ≤ 0.5
(11)
H1 : aj > 0.5

H0 : a1 = a2 = 0
(12)
H1 : ∃j ∈ {1, 2} tel que aj 6= 0
Travail à faire:
Démontrer les théorèmes, propositions et propriétés présentés
dans ce deuxième chapitre!!!!!

36 / 36

Vous aimerez peut-être aussi