Régression Multiple - Partie 1 Et 2

Régression linéaire multiple
Modèles de régression linéaire
Ouazza Ahmed
Institut National de Statistique et d’Economie Appliquée

(INSEA)
2019-2020
1 / 36
Plan
1 Régression linéaire multiple
2 / 36
1 Régression linéaire multiple
3 / 36
Définition:
Le modèle de régression linéaire multiple est une généralisation du

modèle de régression simple lorsque le nombre de variables
explicatives est supérieur ou égale à 2.
Dans ce cas, on suppose qu’on a une variable y qui dépend de k
variables x1 , x2 , ..., xk et le modèle linéaire est donné par:
y = a1 x1 + a2 x2 + ... + ak xk + ε
Lorsque l’expérience est répétée n fois (n représente la taille de
l’échantillon), on dispose n différentes valeurs de x1 , x2 , ..., xk avec
n ≥ k, et les valeurs observées de y sont y1 , ..., yn .
4 / 36

Pour la ième observation on a (yi , xi1 , ..., xik ), i = 1, ..., n donc on a
un système d’équations linéaires en a1 , ..., ak :


 y1 = a1 x11 + ... + ak x1k + ε1
.



.
.




yn = a1 xn1 + ... + ak xnk + ε1

qu’on peut écrire sous la forme:
Y = Xa + ε (1)
avec        
y1 x11 · · · x1k ε1 a1
 ..   .. ..  , ε =  ..  , a =  .. 
Y = . ,X = . ··· .  . .
yn xn1 · · · xnk εn ak
5 / 36
Dans cette écriture on a, Y ∈ Rn , ε ∈ Rn , a ∈ Rk et X une matrice

d’ordre (n × k)
Pour avoir de bonnes propriétés du modèle et de l’estimation, on
admet les hypothèses suivantes: E(ε) = 0 , V ar(ε) = σ 2 In
Donc le modèle de régression linéaire multiple s’écrit:

 Y = Xa + ε
E(ε) = 0, V ar(ε) = σ 2 In (2)
X matrice réelles d’ordre (n × k) tq n ≥ k

6 / 36
Remarques:
1) Le modèle peut contenir un terme constant, dans ce cas le modèle
est donné comme suit:
yi = a0 + a1 xi1 + ... + ak xik + εi , i = 1, ..., n
et la matrice
 X est définie 
de la façon suivante:
1 x11 · · · x1k
X =  ... .. .. 

. ··· . 
1 xn1 · · · xnk
0
2) On dit que le modèle est à plein rang si rg(X) = k (= rg(X X))
0
⇔ X X est inversible.
On supposera, dans la suite, que le modèle de rang plein.
7 / 36
Estimateurs des Moindres Carrés Ordinaires:
Définition 1.1
a de a est défini comme suit :
L’estimateur des moindres carrés b
n
X k
X
a = arg min
b (yi − aj xij )2 = arg min ||Y − Xa||2 (3)
a∈Rk a∈Rk
i=1 j=1
0
On cherche la statistique qui minimise Q(a) = ||Y − Xa||2 = ε ε
8 / 36
Estimateurs des Moindres Carrés Ordinaires:

Proposition 1.2
L’estimateur des moindres carrés de a est:
0 0
a = (X X)−1 X Y
b (4)
Preuve:
On a
0 0
Q(a) = ε ε = (Y − Xa) (Y − Xa)
0 0 0 0
= Y Y − 2Y Xa + a X Xa
Donc
∂Q 0 0 0 0 0
= −2(Y X) + X Xa + (X X) a
∂a
0 0 0
= −2(Y X) + 2(X X)a
0 0
= −2X Y + 2X Xa
9 / 36
D’où
∂Q 0 0 0
∂a (b
a) a = (X X)−1 X Y car X X est inversible.
=0⇔b
∂2Q 0
a est un minimum car
b ∂a2
= 2X X qui est semi définie positive.
Remarque:
0 0
a = X(X X)−1 X Y est la valeur ajustée du vecteur Y .
• Yb = Xb
10 / 36
Interprétation géométrique:
L’estimateur des MCO correspond à:
Yb = Xb a est la projection orthogonale de Y sur le sous espace
vectoriel (x1 , ..., xk ) de dimension k (c-à-d sous espace vectoriel
engendré par les vecteurs colonnes de X).
0 0
Donc Yb = PX (Y ) avec PX = X(X X)−1 X
0 0
On vérifie facilement, si PX = X(X X)−1 X et M = In − PX ,
alors:
 0
P = PX et PX2 = PX
 X0


M = M et M 2 = M
P M =0
 X


rg(PX ) = T race(PX ) = k et rg(M ) = T race(M ) = n − k
11 / 36
a:
Propriétés de l’estimateur b
Theoreme 1.3
a est un estimateur sans biais de a, c-à-d E(b
1) b a) = a.
a est donnée par:
2) La matrice de covariance de b
0
a) = σ 2 (X X)−1
Cov(b
Preuve: (voir TD)

Theoreme 1.4
L’estimateur ba des MCO est de variance minimale parmi les
estimateurs linéaires sans biais de a.
Preuve: (voir TD)
12 / 36
Calcul des résidus:

Les résidus sont définis comme suit:
 
εb1
 .. 
εb =  . 
εbn
= Y − Yb
= Y − PX Y
= (I − PX )Y
= MY
= Mε
13 / 36
Calcul des résidus:
Propriétés:
1) E(b
ε) = 0
ε) = σ 2 M
2) V ar(b
3) E(Yb ) = Xa
4) V ar(Yb ) = σ 2 PX
5) Cov(b
ε, Yb ) = 0
Vérification: (voir TD)
14 / 36
Estimation sans biais de σ 2 :
Un estimateur sans biais de σ 2 est:
n
1 X 2 ε||2
||b
b2 =
σ εbi =
n−k n−k
i=1
15 / 36
En effet,
n
2 1 X
E(b
σ )= E( εb2i )
n−k
i=1
n
1 X
= ε2i )
E(b
n−k
i=1
n
1 X
= V ar(b
εi )
n−k
i=1
1
= T race(Cov(b ε))
n−k
1
= T race(σ 2 M )
n−k
σ2
= T race(M )
n−k
= σ 2 (car T race(M ) = n − k)
16 / 36
Coefficient de détermination:
Pour calculer le coefficient de détermination on distingue deux cas:

Cas 1: Modèle de régression avec constante:
Supposons qu’il y a la constante dans
 lemodèle, c-à-d la première
1
 .. 
colonne de la matrice X est: 1n =  .  et
1
 
1 x11 · · · x1k
 .. .. .. 
X = . . ··· . 
1 xn1 · · · xnk
Dans ce cas l’équation de la variance est donnée par:
||Y − y1n ||2 = ||Yb − y1n ||2 + ||b

ε||2
SCT = SCE + SCR
17 / 36
Définition 1.5
Le coefficient de détermination R2 , dans le cas où le modèle de
régression contient le terme constant, est défini par:
|Yb − y1n ||2 ε||2

||b SCR
R2 = 2
=1− =1−
||Y − y1n || ||Y − y1n ||2 SCT
Cas 2: Modèle de régression sans terme constant:

L’équation de la variance est donnée par:
||Y ||2 = ||Yb ||2 + ||b

ε||2
SCT = SCE + SCR
18 / 36
Définition 1.6
Le coefficient de détermination R2 , dans le cas où le modèle de
régression ne contient pas le terme constant, est défini par:
|Yb ||2 ε||2

||b SCR
R2 = 2
= 1 − 2
=1−
||Y || ||Y || SCT
19 / 36
2
Coefficient de détermination ajusté R :
Le R2 augmente avec le nombre de variables. Même si les variables
additionnelles ne sont absolument pas pertinentes.
Donc on ne peut pas comparer des modèles de complexité différente
(avec un nombre de variables explicatives différent) sur la base du R2 .
⇒ Il faut utiliser le R2 ajusté qui est un R2 corrigé par les degrés de

liberté.
20 / 36
Définition 1.7
2
Le coefficient de détermination ajusté R est défini par :
• Avec constante:
2 n−1 ε||2
||b n − 1 SCR
R =1− =1−
n − k ||Y − y1n ||2 n − k SCT
• Sans terme constant:
2 n ||b ε||2 n SCR

R =1− =1−
n − k ||Y ||2 n − k SCT
21 / 36
Exemple:
On considère le tableau suivant:
Y x1 x2
4.9 1.5 5.0
6.4 2.0 6.5
8.6 3.5 8.0
9.6 4.0 9.0
1. Réaliser une régression multiple de Y sur x1 et x2 sans terme

constant, puis avec la constante.
2
2. Calculer R2 et R pour les deux régressions. Comparer les
résultats.
22 / 36
Corrigé:
a) Modèle sans constante:
Y = a1 x1 + a2 x2 + ε = Xa + ε
   
4.9 1.5 5.0
6.4 2.0 6.5 a1
avec Y =  , X = (x1 , x2 ) = 
    et a =
8.6 3.5 8.0 a2
9.6 4.0 9.0
L’estimateur de a est
0 0
a = (X X)−1 X Y
b

a1 0.636
a=
Après les calculs, on trouve b = D’où
b
a2
b 0.789
Y = 0.636 x1 + 0.789 x2
2
Après les calculs, on trouve:R2 = 0.99 et R = 0.99
23 / 36
b) Modèle avec constante:
Y = a0 + a1 x1 + a2 x2 + ε = Xa + ε
   
4.9 1 1.5 5.0  
6.4 1 2.0 6.5 a0
avec Y =  , X = (1, x1 , x2 ) =   et a = a1 
8.6 1 3.5 8.0
a2
9.6 1 4.0 9.0
L’estimateur de a est
0 0
a = (X X)−1 X Y
b
   
a0
b 0.157
a1  =  0.7  D’où
a = b
Après les calculs, on trouve b
a2
b 0.742
Y = 0.157 + 0.7 x1 + 0.742 x2

2
Après les calculs, on trouve:R2 = 0.99 et R = 0.99
24 / 36
Cas du modèle gaussien:

Dans le cas d’un modèle gaussien, on suppose que le vecteur ε est
gaussien, par suite le modèle de régression multiple est donné par:

Y = Xa + ε
(5)
ε ∼ Nn (0, σ 2 In )
Remarque:
Puisque ε ∼ Nn (0, σ 2 In ) alors
Y ∼ Nn (Xa, σ 2 In )
et les yi sont mutuellement indépendants car les erreurs εi le sont.
25 / 36
Estimateurs du maximum de vraisemblance:

La vraisemblance est donnée par:
1 −1 0
fn (Y, a, σ 2 ) = n 2
(Y − Xa) (Y − Xa))
exp(
(σ 2 2π) 2 2σ
1 −1
= n exp( ||Y − Xa||2 )
(σ 2 2π) 2 2σ 2
et on déduit la log-vraisemblance comme suit:
n n 1
logfn (Y, a, σ 2 ) = − log(2π) − log(σ 2 ) − 2 ||Y − Xa||2
2 2 2σ
26 / 36
Theoreme 1.8
0 0
•ba = (X X)−1 X Y est aussi l’estimateur du maximum de
vraisemblance de a (c’est un estimateur sans biais de a.)
• L’estimateur du maximum de vraisemblance de σ 2 est
2 ε||2
||b a||2
||Y − Xb
σ
bmv = = (c’est un estimateur biaisé de σ 2 ).
n n
27 / 36
Lois des estimateurs:

Propriétés:
0
a ∼ Nk (a, σ 2 (X X)−1 )
•b
2
• (n − k) σσb2 ∼ χ2 (n − k)
•b
a et εb sont indépendante
aj −aj 0
• ∼ t(n − k) où σ b2 [(X X)−1 ]jj = σ
bj2 = σ b2 xjj avec xjj est le
b
σ
bj
0
j-ème élément de la diagonale de (X X)−1
0 0
• 1
σ2
kb
a−
(b a − a) ∼ F (k, n − k)
a) X X(b
Ces lois permettent de donner des régions de confiance et de faire des
tests sur les paramètres.
28 / 36
Prévision:
Objectif:
Prévoir la réalisation de la valeur aléatoire y0 connaissant
0
x0 = (x01 , ..., x0k ) et sachant que:
0
y0 = x0 a + ε0
(6)
E(ε0 ) = 0, V ar(ε0 ) = σ 2 , E(ε0 , εi ) = 0; i = 1, ..., n
Le prédicteur de y0 dont la variance de l’erreur de prévision est
0
minimale parmi les prédicteurs sans biais linéaire en y est yb0 = x0 b
a
29 / 36
Proposition 1.9
L’erreur de prévision εb0 = y0 − yb0 satisfait les propriétés suivantes :
• E(b
ε0 ) = 0
0 0
ε0 ) = σ 2 (1 + x0 (X X)−1 x0 )
• V ar(b
Cas du modèle gaussien:

Si ε0 ∼ N (0, σ 2 ), alors on a les propriétés suivantes:
•
0 0
y0 − yb0 ∼ N (0, σ 2 (1 + x0 (X X)−1 x0 )
•
y0 − yb0
q ∼ t(n − k)
0
σb2 (1 + x0 (X 0 X)−1 x0 )
30 / 36
Tests d’hypothèses:
Dans toute la suite on considère le modèle linéaire gaussien suivant:

 Y = Xa + ε
ε ∼ N (0, σ 2 In )
X d’ordre (n × k), rg(X) = k

1) Test des paramètres individuellement:

Dans ce cas, on cherche à tester les hypothèses suivantes:
H0 : aj = a∗j

(7)
H1 : aj 6= a∗j
où a∗j est une valeur donnée.
31 / 36
Remarque:
Si a∗j = 0 on parle de test de significativité de aj (ie, y’a-t-il un
influence ou non de xj sur y ).
I La Statistique du test:
aj − a∗j
b
T = ∼ t(n − k)
σ
bj
I Décision:
On rejette H0 si |T | > t1− α2 (n − k) avec t1− α2 (n − k) est le quantile
d’ordre 1 − α2 d’une loi de Student à n − k ddl.
32 / 36
Remarque:
Une deuxième façon de tester les paramètres individuellement est la
suivante:
H0 : aj ≤ a∗j

(8)
H1 : aj > a∗j
aj − a∗j
b
T = ∼ t(n − k)
σ
bj
I Décision:
On rejette H0 si T > t1−α (n − k) avec t1−α (n − k) est le quantile
d’ordre 1 − α d’une loi de Student à n − k ddl.
33 / 36
2) Test sur les paramètres conjointement:

Soit le modèle de régression multiple avec constante:
Y = a0 + a1 x1 + ... + ak−1 xk−1 + ε = Xa + ε

Avec X est d’ordre (n × k)
D’abord, on représente le tableau de l’analyse de la variance.
Table 1: Tableau de l’analyse de la variance
Source de Somme des ddl Carrés Fobs

variation carrés moyens
SCReg = n y − y)2 CM Reg = SCReg CM Reg
P
Régression (b k−1
Pni=1 i k−1 CM Res
Résiduelle SCRes = i=1 (yi − ybi )2 n−k CM Res = SCRes
n−k
SCT = n 2
P
Totale i=1 (yi − y) n−1
34 / 36
L’objectif ici est de tester les hypothèses suivantes:

H0 : a1 = a2 = ... = ak−1 = 0
(9)
H1 : ∃j ∈ {1, ..., k − 1} tel que aj 6= 0
Remarque:
Si l’hypothèse nulle H0 est vérifiée alors le modèle s’écrit:
yi = a0 + εi
CM Reg n − k R2
Fobs = =
CM Res k − 1 1 − R2
I Décision:
On rejette H0 si Fobs > F1−α (k − 1, n − k) avec F1−α (k − 1, n − k)
est le quantile d’ordre 1 − α d’une loi de Fisher à (k − 1, n − k) ddl.
35 / 36
Exemple:
On reprend l’exemple précédent (on considère le modèle avec
constante), tester les hypothèses suivantes:

H0 : aj = 0
(10)
H1 : aj 6= 0.5

H0 : aj ≤ 0.5
(11)
H1 : aj > 0.5

H0 : a1 = a2 = 0
(12)
H1 : ∃j ∈ {1, 2} tel que aj 6= 0
Travail à faire:
Démontrer les théorèmes, propositions et propriétés présentés
dans ce deuxième chapitre!!!!!
36 / 36

Régression Multiple - Partie 1 Et 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Régression Multiple - Partie 1 Et 2

Transféré par

Droits d'auteur :

Formats disponibles

Régression linéaire multiple

Modèles de régression linéaire

Institut National de Statistique et d’Economie Appliquée

1 Régression linéaire multiple

1 Régression linéaire multiple

Régression linéaire multiple

Le modèle de régression linéaire multiple est une généralisation du

Régression linéaire multiple

qu’on peut écrire sous la forme:

Régression linéaire multiple

Dans cette écriture on a, Y ∈ Rn , ε ∈ Rn , a ∈ Rk et X une matrice

Régression linéaire multiple

yi = a0 + a1 xi1 + ... + ak xik + εi , i = 1, ..., n

Estimateurs des Moindres Carrés Ordinaires:

Estimateurs des Moindres Carrés Ordinaires:

Preuve: (voir TD)

Calcul des résidus:

Calcul des résidus:

Vérification: (voir TD)

Estimation sans biais de σ 2 :

Un estimateur sans biais de σ 2 est:

Pour calculer le coefficient de détermination on distingue deux cas:

||Y − y1n ||2 = ||Yb − y1n ||2 + ||b

|Yb − y1n ||2 ε||2

Cas 2: Modèle de régression sans terme constant:

||Y ||2 = ||Yb ||2 + ||b

|Yb ||2 ε||2

⇒ Il faut utiliser le R2 ajusté qui est un R2 corrigé par les degrés de

2 n ||b ε||2 n SCR

1. Réaliser une régression multiple de Y sur x1 et x2 sans terme

b) Modèle avec constante:

Y = 0.157 + 0.7 x1 + 0.742 x2

Cas du modèle gaussien:

et les yi sont mutuellement indépendants car les erreurs εi le sont.

Estimateurs du maximum de vraisemblance:

et on déduit la log-vraisemblance comme suit:

Lois des estimateurs:

Cas du modèle gaussien:

1) Test des paramètres individuellement:

2) Test sur les paramètres conjointement:

Y = a0 + a1 x1 + ... + ak−1 xk−1 + ε = Xa + ε

Table 1: Tableau de l’analyse de la variance

Source de Somme des ddl Carrés Fobs

L’objectif ici est de tester les hypothèses suivantes:

Vous aimerez peut-être aussi