Vous êtes sur la page 1sur 11

Régression Multiple

Sidi Mohamed MAOULOUD

23 décembre 2014

Sidi Mohamed MAOULOUD


Régression Multiple
Spécification
Y = f (x 1 , ..., x p ) +  = a0 + a1 x 1 + · · · + ap x p + 
La spécification est supposée linéaire
a0 , ..., ap sont des paramétres inconnus
Les variables x j sont supposées non aléatoires
 est le terme erreur qui supposé aléatoire
L’objectif estimer les paramètres a0 , ..., ap
On dispose de mesures sur n unités statistiques :


 Y1 = a0 + a1 x1,1 + · · · + ap x1,p + 1
 Y2 = a0 + a1 x2,1 + · · · + ap x2,p + 2

..


 .
Yn = a0 + a1 xn,1 + · · · + ap xn,p + n

xi,j est la mesure de la variable x j sur l’unité i


Yi est la mesure de la variable Y sur l’unité i
Sidi Mohamed MAOULOUD
Régression Multiple
Ecriture matricielle

      
Y1 1 x1,1 · · · x1,p a0 1
 Y2  1 x2,1 · · · x2,p  a1   2 
 =  .. +
      
 .. .. .. ..  .. .. 
  . . . . .  .   . 
Yn 1 xn,1 · · · xn,p ap n
Y = Xa + 
(1)
avec
Y = Y(n,1)
X = X(n,p+1)
a = ap+1,1
 = (n,1)
Sidi Mohamed MAOULOUD
Régression Multiple
Les hypothèses

Les hypothèses stochastiques


H1 : E (i ) = 0, les erreurs sont centrées
H2 : E (2i ) = σ 2 , les erreurs sont homoscédastiques
H3 : E (i j ) = 0, les erreurs sont non corrélées
H4 : i ∼ N(0, σ 2 ), les erreurs sont normales
H5 : cov (xi,j , i ) = 0,les erreurs sont indépendants
des prédicteurs
Les hypothéses de structure
H6 : det(X T X ) 6= 0, absence de colinéarité entre les
prédicteurs
H7 : X T X /n converge vers une matrice finie
inversible

Sidi Mohamed MAOULOUD


Régression Multiple
L’estimateur MCO

Est celui qui rend minimum la somme des carrées des résidus
â = arg mina i ei2 = arg mina k Y − Xa k2 = arg mina S(a)
P

Revient à résoudre les E.N.s ∂S


∂a (â) = 0 et montrer que
∂2S
∂a2
>0
∂S ∂2S
∂a (â)= 2X T X â − 2X T Y et ∂a2
= 2X T X qui définie
positive sous H6 on a donc

â = (X T X )−1 X T Y

l’équation (??) devient

Y = X â + e

Le terme s’appelle résidu.


Sidi Mohamed MAOULOUD
Régression Multiple
Propriétés de l’estimateur MCO

E (â) = a, l’estimateur est sans biais


V (â) = σ 2 (X T X )−1
Théoréme de Gauss-Markov : â est de tous les estimateurs
sans biais linéaires celui de variance minimale. Il est dit BLUE

Sidi Mohamed MAOULOUD


Régression Multiple
Interprétation géométrique

Ŷ = X â = X (X T X )−1 X T Y = HY = PX Y
H est la matrice de projection sur Vect(X )
On a par Pythagore

Y − Ŷ Ŷ − ȳ 1
Y − ȳ 1 = ∈ + ∈
Vect(X )⊥ Vect(X )

− ȳ )2 − ȳ )2 − ŷi )2
P P P
i (yi = i (ŷi + i (yi
SCT SCE SCR
R 2 = SCE /SCT = cos2 θ plus R 2 ≈ 1 meilleur c’est
SCT =k (I − U)Y k2 , SCE =k (H − U)Y k2 et
SCR =k (I − H)Y k2
Sidi Mohamed MAOULOUD
Régression Multiple
Propriétés de e et Ŷ

SCR =k e k2 =k (I − H) k2 =k PX ⊥  k2
⇒ E (SCR) = (n − p − 1)σ 2
SCR
σ̂ 2 = est un estimateur sans biais de σ 2
n−p−1
E (e) = 0 ; V (e) = σ 2 (I − H)
E (Ŷ ) = Xa ; V (Ŷ ) = σ 2 H
cov (e, Ŷ ) = 0

Sidi Mohamed MAOULOUD


Régression Multiple
Inférence de le cas gaussien

L’estimateur MCO est égal à celui MV


L’estimateur MV de σ 2 est égal à SCR n qui est biaisé
Test global de significativité (le test F )

H0 : a1 = · · · = ap = 0
H1 : ∃i | ai 6= 0
2
On a SCR/σ 2 = k(I − H)/σk ∼ χ2n−p−1 et indépendante de
2
SCE /σ 2 = k(H − U)/σk qui sous H0 suit χ2p
Ainsi sous H0

SCE /p
F = ∼ fp;n−p−1
SCR/(n − p − 1)

On rejette H0 si F > f1−α;p;n−p−1

Sidi Mohamed MAOULOUD


Régression Multiple
Tests individuels
 
∀i, L’estimateur âi ∼ N ai , σ 2 (X T X )−1
ii
⇒ q âi −ai ∼ tn−p−1
σ̂ (X T X )−1
ii

H0 : ai = 0
Les hypothéses du test sont
H1 : ai 6= 0
La statistique de test est
âi
ti = q
σ̂ (X T X )−1
ii

Rejeter H0 si |ti | > t1−α/2;n−p−1


q
IC1−α (ai ) = âi ± t1−α/2;n−p−1 σ̂ (X T X )−1
ii

Sidi Mohamed MAOULOUD


Régression Multiple
Prévision

T
xn+1 = (1, xn+1,1 , xn+1,2 , ..., xn+1,p ) des nouvelles valeurs pour
les prédicteurs ;
T a+
On a Yn+1 = xn+1 T
n+1 . On pose Ŷn+1 = xn+1 â ,
en+1 = Yn+1 − Ŷn+1
On a E (en+1 ) = 0 ; V (en+1 ) = σ 2 xn+1 (X T X )−1 xn+1 + 1
 T 

Intervalle de prévision

q
T T (X T X )−1 x
IC1−α (Yn+1 ) = xn+1 â±t1−α/2;n−p−1 σ̂ xn+1 n+1 + 1

Sidi Mohamed MAOULOUD


Régression Multiple

Vous aimerez peut-être aussi