1 Regression

Régression Multiple
Sidi Mohamed MAOULOUD
23 décembre 2014

Spécification
Y = f (x 1 , ..., x p ) + = a0 + a1 x 1 + · · · + ap x p +
La spécification est supposée linéaire
a0 , ..., ap sont des paramétres inconnus
Les variables x j sont supposées non aléatoires
est le terme erreur qui supposé aléatoire
L’objectif estimer les paramètres a0 , ..., ap
On dispose de mesures sur n unités statistiques :


 Y1 = a0 + a1 x1,1 + · · · + ap x1,p + 1
 Y2 = a0 + a1 x2,1 + · · · + ap x2,p + 2

..


 .
Yn = a0 + a1 xn,1 + · · · + ap xn,p + n

xi,j est la mesure de la variable x j sur l’unité i

Yi est la mesure de la variable Y sur l’unité i
Ecriture matricielle
      
Y1 1 x1,1 · · · x1,p a0 1
 Y2  1 x2,1 · · · x2,p  a1   2 
 =  .. +
      
 .. .. .. ..  .. .. 
  . . . . .  .   . 
Yn 1 xn,1 · · · xn,p ap n
Y = Xa +
(1)
avec
Y = Y(n,1)
X = X(n,p+1)
a = ap+1,1
= (n,1)
Les hypothèses
Les hypothèses stochastiques

H1 : E (i ) = 0, les erreurs sont centrées
H2 : E (2i ) = σ 2 , les erreurs sont homoscédastiques
H3 : E (i j ) = 0, les erreurs sont non corrélées
H4 : i ∼ N(0, σ 2 ), les erreurs sont normales
H5 : cov (xi,j , i ) = 0,les erreurs sont indépendants
des prédicteurs
Les hypothéses de structure
H6 : det(X T X ) 6= 0, absence de colinéarité entre les
prédicteurs
H7 : X T X /n converge vers une matrice finie
inversible

L’estimateur MCO
Est celui qui rend minimum la somme des carrées des résidus
â = arg mina i ei2 = arg mina k Y − Xa k2 = arg mina S(a)
P
Revient à résoudre les E.N.s ∂S

∂a (â) = 0 et montrer que
∂2S
∂a2
>0
∂S ∂2S
∂a (â)= 2X T X â − 2X T Y et ∂a2
= 2X T X qui définie
positive sous H6 on a donc
â = (X T X )−1 X T Y
l’équation (??) devient
Y = X â + e
Le terme s’appelle résidu.

Propriétés de l’estimateur MCO
E (â) = a, l’estimateur est sans biais

V (â) = σ 2 (X T X )−1
Théoréme de Gauss-Markov : â est de tous les estimateurs
sans biais linéaires celui de variance minimale. Il est dit BLUE

Interprétation géométrique
Ŷ = X â = X (X T X )−1 X T Y = HY = PX Y
H est la matrice de projection sur Vect(X )
On a par Pythagore
Y − Ŷ Ŷ − ȳ 1
Y − ȳ 1 = ∈ + ∈
Vect(X )⊥ Vect(X )
− ȳ )2 − ȳ )2 − ŷi )2
P P P
i (yi = i (ŷi + i (yi
SCT SCE SCR
R 2 = SCE /SCT = cos2 θ plus R 2 ≈ 1 meilleur c’est
SCT =k (I − U)Y k2 , SCE =k (H − U)Y k2 et
SCR =k (I − H)Y k2
Propriétés de e et Ŷ
SCR =k e k2 =k (I − H) k2 =k PX ⊥ k2
⇒ E (SCR) = (n − p − 1)σ 2
SCR
σ̂ 2 = est un estimateur sans biais de σ 2
n−p−1
E (e) = 0 ; V (e) = σ 2 (I − H)
E (Ŷ ) = Xa ; V (Ŷ ) = σ 2 H
cov (e, Ŷ ) = 0

Inférence de le cas gaussien
L’estimateur MCO est égal à celui MV

L’estimateur MV de σ 2 est égal à SCR n qui est biaisé
Test global de significativité (le test F )

H0 : a1 = · · · = ap = 0
H1 : ∃i | ai 6= 0
2
On a SCR/σ 2 = k(I − H)/σk ∼ χ2n−p−1 et indépendante de
2
SCE /σ 2 = k(H − U)/σk qui sous H0 suit χ2p
Ainsi sous H0
SCE /p
F = ∼ fp;n−p−1
SCR/(n − p − 1)
On rejette H0 si F > f1−α;p;n−p−1

Tests individuels

∀i, L’estimateur âi ∼ N ai , σ 2 (X T X )−1
ii
⇒ q âi −ai ∼ tn−p−1
σ̂ (X T X )−1
ii

H0 : ai = 0
Les hypothéses du test sont
H1 : ai 6= 0
La statistique de test est
âi
ti = q
σ̂ (X T X )−1
ii
Rejeter H0 si |ti | > t1−α/2;n−p−1

q
IC1−α (ai ) = âi ± t1−α/2;n−p−1 σ̂ (X T X )−1
ii

Prévision
T
xn+1 = (1, xn+1,1 , xn+1,2 , ..., xn+1,p ) des nouvelles valeurs pour
les prédicteurs ;
T a+
On a Yn+1 = xn+1 T
n+1 . On pose Ŷn+1 = xn+1 â ,
en+1 = Yn+1 − Ŷn+1
On a E (en+1 ) = 0 ; V (en+1 ) = σ 2 xn+1 (X T X )−1 xn+1 + 1
T
Intervalle de prévision
q
T T (X T X )−1 x
IC1−α (Yn+1 ) = xn+1 â±t1−α/2;n−p−1 σ̂ xn+1 n+1 + 1


1 Regression

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

1 Regression

Transféré par

Droits d'auteur :

Formats disponibles

Régression Multiple

Sidi Mohamed MAOULOUD

Sidi Mohamed MAOULOUD

xi,j est la mesure de la variable x j sur l’unité i

Les hypothèses stochastiques

Sidi Mohamed MAOULOUD

Revient à résoudre les E.N.s ∂S

l’équation (??) devient

Le terme s’appelle résidu.

E (â) = a, l’estimateur est sans biais

Sidi Mohamed MAOULOUD

Sidi Mohamed MAOULOUD

L’estimateur MCO est égal à celui MV

On rejette H0 si F > f1−α;p;n−p−1

Sidi Mohamed MAOULOUD

Rejeter H0 si |ti | > t1−α/2;n−p−1

Sidi Mohamed MAOULOUD

Sidi Mohamed MAOULOUD

Vous aimerez peut-être aussi