Chapitre2 MRLM

ANALYSE DE LA REGRESSION
Royaume du Maroc
Haut Commissariat au Plan
Institut National de Statistique
C HAPITRE
et d’Economie Appliquée 2. MODÈLE LINÉAIRE STANDARD
ASPECTS THÉORIQUES
MUSTAPHA BERROUYNE
INGÉNIEUR EN CHEF PRINCIPAL
ENSEIGNANT À L’INSEA
ANNEE UNIVERSITAIRE 2023-2024

PLAN
1. SPECIFICATION
2. ESTIMATION
3. HYPOTHESES
4. INTERPRETATION GEOMETRIQUE
5. PROPRIETES STATISTIQUES DES ESTIMATEURS MCO

6. DECOMPOSITION DE LA VARIANCE
7. QUALITE DE L’AJUSTEMENT
8. RESUME
Mustapha BERROUYNE 2 CHAPITRE 2. MODELE LINEAIRE STANDARD

1. SPECIFICATION
On considère une variable d’intérêt y appelée variable dépendante et un
ensemble de p variables explicatives auquel on adjoint une constante.
L'équation de régression s'écrit pour l’année t :
𝐲𝐭 = 𝐚𝟎 + 𝐚𝟏 𝐱 𝟏𝐭 + ⋯ + 𝐚𝐩 𝐱 𝐩𝐭 + 𝐭 (1) t=1, …, n
On note 𝐘 = (𝐲𝟏,…,𝐲𝐧 )' l’empilement des n observations de la variable dépendante.

On définit de même les vecteurs 𝐱𝟏,…, 𝐱𝐩 et 𝐗 la matrice des variables
explicatives à laquelle on adjoint le vecteur constant e =(1, …, 1)' : est donc
une matrice de dimension n × (p + 1).
Enfin, le vecteur résiduel  =(𝟏,…,𝐧)'.
On peut écrire ce modèle sous une écriture matricielle :
𝐘= 𝐗𝐚 + 
1. SPECIFICATION
 a0 
 y1  1 x1,1  x1, p    1 

   =      1+    a
       
 yn  1 x1,n  xn, p     n 
a p 
y = Xa + 

2. ESTIMATION
On définit l'estimateur des moindres carrées ordinaires comme :
𝐧 𝐧
𝟐
𝐚𝐦𝐜𝐨 = 𝐀𝐫𝐠 𝐦𝐢𝐧𝐚 𝐲𝐭 − 𝐱𝐭 𝐚 𝟐
= 𝐀𝐫𝐠 𝐦𝐢𝐧𝐚 𝐭 𝐚
𝐭=𝟏 𝐭=𝟏
Comme 𝐭 𝐚 = 𝐲𝐭 − 𝐱𝐭 𝐚 ➔ 𝐚𝐦𝐜𝐨 = 𝐀𝐫𝐠 𝐦𝐢𝐧𝐚 𝐘 − 𝐗 𝐚 (𝐘 − 𝐗 𝐚) ′
On dit que l'estimateur "mco" minimise le critère 𝐒 = 𝐘−𝐗 𝐚 𝐘−𝐗 𝐚 = ( )

′ ′
t, 𝐒 = 𝐘 − 𝐗 𝐚 ′
𝐘 − 𝐗 𝐚 = 𝐘 ′ − 𝐚′ 𝐗′ 𝐘 − 𝐗 𝐚
= 𝐘 ′ 𝐘 − 𝐘 ′ 𝐗 𝐚 − 𝐚′ 𝐗 ′ 𝐘 + 𝐚′ 𝐗 ′ 𝐗 𝐚 ′ ′ ′ ′′
𝐘 𝐗 𝐚 = 𝐘 𝐗 𝐚 =𝐚 𝐗 𝐘 (Scalaire)
➔ 𝐒 = 𝐘 ′ 𝐘 − 𝟐𝐚′ 𝐗 ′ 𝐘 + 𝐚′ 𝐗 ′ 𝐗 𝐚
2. ESTIMATION
𝛛𝐒
La condition du premier ordre s’écrit : =𝟎
𝛛𝐚
𝛛𝐒
= 𝟎 ➔ − 𝟐 𝐗′ 𝐘 + 𝟐 𝐗′ 𝐗 𝐚 = 𝟎
𝛛𝐚
′ ′
➔ 𝐗 𝐗 𝐚 = 𝐗 𝐘 (𝟐)
➔ 𝐗′ 𝐘 − 𝐗 𝐚 = 𝟎 ➔ 𝐗 ′ 𝐮 = 𝟎 (3)
➔ Les résidus sont orthogonaux à X.
𝛛²𝐒
Les conditions du deuxième ordre s’écrivent : >𝟎
𝛛²𝐚
𝛛²𝐒
En effet, = 𝟐 𝐗′ 𝐗 > 𝟎
𝛛²𝐚
2. ESTIMATION
𝐗 ′  = 𝟎 (3)
(𝟑) ➔ il existe (p+1) contraintes :
 1 1  1 
 
𝐭=𝟏 𝐭
𝐧
=𝟎
      ➔
𝐭=𝟏 𝐱 𝐭𝐢 𝐭 = 𝟎  𝐢 = 𝟏, … , 𝐩
𝐧
x x2 p  xnp 
 1p 
 1 1  1  1 x11  x1 p 
  
′     
𝐗𝐗=    
1
 
x  xnp  x1n  xnp 
 1p x2 p  
 n
 x 1t  x 
pt
𝐗′ 𝐗 =      
 2 
  x pt x pt x1t   pt 
x
2. ESTIMATION
    yt 
 1 1  1    y1 
   y    x1t yt 
𝐗′ 𝐘 =       2  =   
 
x  
 1, p x2 , p  xn , p     x y 
 un    pt t 
 n
  x1t   x pt   a0 
  
 a1 
  yt 

  x1t yt 

      
   =  

 x   x 2pt 
 
  pt x  ap   
pt 1tx     x pt yt 
 
Comme 𝐗 ′ 𝐗 la matrice carrée d’ordre (p+1) des produits croisés des
variables explicatives est symétrique semi-définie positive et s’il n y a pas
de colinéarité parfaite entre variables explicatives, alors elle est inversible
et on a :
Soit, 𝐚 = 𝐗 𝐗 ′ −𝟏 ′
𝐗𝐘
2. ESTIMATION
EXEMPLE D’APPLICATION Avec STATA
marque consom prix cylindrée puissance poids
Daihatsu Cuore 5,7 11600 846 32 650
Suzuki Swift 1.0 GLS 5,8 12490 993 39 790
Fiat Panda Mambo L 6,1 10450 899 29 730
VW Polo 1.4 60 6,5 17140 1390 44 955
Opel Corsa 1.2i Eco 6,8 14825 1195 33 895
Subaru Vivio 4WD 6,8 13730 658 32 740
Toyota Corolla 7,1 19490 1331 55 1010
Opel Astra 1.6i 16V 7,4 25000 1597 74 1080
Peugeot 306 XS 108 9,0 22350 1761 74 1100
Renault Safrane 2.2. V 11,7 36600 2165 101 1500
Seat Ibiza 2.0 GTI 9,5 22500 1983 85 1075
VW Golt 2.0 GTI 9,5 31580 1984 85 1155
Citroen ZX Volcane 8,8 28750 1998 89 1140
Fiat Tempra 1.6 Liberty 9,3 22600 1580 65 1080
Fort Escort 1.4i PT 8,6 20300 1390 54 1110
Honda Civic Joker 1.4 7,7 19900 1396 66 1140
Volvo 850 2.5 10,8 39800 2435 106 1370
Ford Fiesta 1.2 Zetec 6,6 19740 1242 55 940
Hyundai Sonata 3000 11,7 38990 2972 107 1400
Lancia K 3.0 LS 11,9 50800 2958 150 1550
Mazda Hachtback V 10,8 36200 2497 122 1330
Opel Omega 2.5i V6 11,3 47700 2496 125 1670
Peugeot 806 2.0 10,8 36950 1998 89 1560
Nissan Primera 2.0 9,2 26950 1997 92 1240
Seat Alhambra 2.0 11,6 36400 1984 85 1635
Toyota Previa salon 12,8 50900 2438 97 1800
Volvo 960 Kombi aut 12,7 49300 2473 125 1570
2. ESTIMATION
EXEMPLE D’APPLICATION AVEC STATA
. regress consom prix cylindrée puissance poids
Source SS df MS Number of obs = 27

F(4, 22) = 72.54
Model 123.027842 4 30.7569606 Prob > F = 0.0000
Residual 9.32845387 22 .42402063 R-squared = 0.9295
Adj R-squared = 0.9167
Total 132.356296 26 5.09062678 Root MSE = .65117
consom Coef. Std. Err. t P>|t| [95% Conf. Interval]
prix .0000339 .0000451 0.75 0.460 -.0000596 .0001274

cylindrée .0012078 .0007221 1.67 0.109 -.0002897 .0027054
puissance -.0037419 .0150304 -0.25 0.806 -.0349132 .0274293
poids .0037283 .0012997 2.87 0.009 .0010329 .0064237
_cons 1.838006 .7933671 2.32 0.030 .1926637 3.483349

3. HYPOTHESES
Les hypothèses de la RLM permettent de déterminer les estimateurs
qualifiés de BLUE -Best Linear Unbiaised Estimator- (théorème de Gauss
Markov) à l’aide de la méthode des moindres carrés ordinaires.
✓ Hypothèses stochastiques (de nature probabiliste, liées à l’erreur)
H2 : E(t) = 0, en moyenne le modèle est bien spécifié et donc l’erreur

moyenne est nulle.
H3 : E(𝟐𝐭 ) =𝟐 = 𝐜𝐬𝐭𝐞, la variance de l’erreur est constante pour tout t
(homoscédasticité des erreurs).
H4 : 𝐄(𝐭 𝐭′ ) = 0 si t  𝐭′ , les erreurs sont non corrélées (ou indépendantes).
H5 : COV(xt,t)=0, l’erreur est indépendante des variables explicatives.
3. HYPOTHESES
✓ Hypothèses structurelles
H6 : Absence de colinéarité entre les variables explicatives.

Aucune variable explicative n’est linéairement dépendante des autres,
➔ 𝐗 𝐗 est inversible ou régulière ou non singulière (det(𝐗 𝐗𝟎).
′ ′

On définit les termes suivants : 𝐲 et 𝛆
𝐘 = 𝐚 𝐗 , la valeur prédite par le modèle ;
𝛆 = 𝐘 − 𝐘, les résidus estimés par le modèle.
Proposition 1.
- 𝐘 est la projection orthogonale de y sur Vect(X) ;
- Matriciellement, 𝐘 = 𝐗 𝐚 = 𝐗 (𝐗 ′ 𝐗)−𝟏 𝐗′𝐘.
On pose 𝐏𝐱 = 𝐗(𝐗 ′ 𝐗)−𝟏 𝐗′, la matrice de projection orthogonale sur Vect(X).

Soit 𝐘 = 𝐏𝐱 𝐘
𝐏𝐱 est Symétrique et idempotente :
𝐏𝐱′ = 𝐏𝐱 et 𝐏𝐱𝟐 = 𝐏𝐱
Démonstration
′
- 𝐏𝐱′ = 𝐗 𝐗 ′ 𝐗 −𝟏
𝐗′ = 𝐗 𝐗′ 𝐗 −𝟏
𝐗′ = 𝐏𝐱 , car 𝐗 ′ 𝐗 est symétrique.
- 𝐏𝐱𝟐 = 𝐏𝐱 𝐏𝐱 = 𝐗(𝐗 ′ 𝐗)−𝟏 𝐗 ′ 𝐗(𝐗 ′ 𝐗)−𝟏 𝐗 ′ = 𝐗(𝐗 ′ 𝐗)−𝟏 𝐗 ′ = 𝐏𝐱
𝐈𝐩+𝟏
▪ On note 𝐌𝐱 la matrice de projection orthogonale sur l'orthogonal de
Vect(X), avec 𝛆 = 𝐘 − 𝐏𝐱 𝐘 = 𝟏 − 𝐏𝐱 𝐘 = 𝐌𝐱𝐘
𝐌𝐱 vérifie les deux propositions (Symétrique et idempotente):
𝐌𝐱′ = 𝐏𝐱 et 𝐌𝐱𝟐 = 𝐏𝐱.
Démonstration
′ −𝟏 ′ ′
- 𝐌𝐱 = 𝟏 − 𝐗 𝐗 𝐗 𝐗 = 𝟏 − 𝐗 𝐗 𝐗 𝐗 = 𝐌𝐱 , car 𝐗 𝐗 est symétrique.
′ ′ −𝟏 ′ ′
- 𝐌𝐱𝟐 = 𝐌𝐱 𝐌𝐱 = 𝟏 − 𝐏𝐱 𝟏 − 𝐏𝐱 = 𝟏 − 𝐏𝐱 − 𝐏𝐱 + 𝐏𝐱𝟐 = 𝟏 − 𝐏𝐱 = 𝐌𝐱
5. PROPRIETES STATISTIQUES
DE L'ESTIMATEUR DES MCO
Soit l’estimateur 𝒂 = 𝐗′ 𝐗 −𝟏
𝐗′𝐘
1. 𝒂 est sans biais.
𝐘=𝐗𝐚+𝛆
Preuve
𝒂 = 𝐗′ 𝐗 −𝟏 ′
𝐗 𝐘 = 𝐗′ 𝐗 −𝟏 ′
𝐗 (𝐗𝐚 + 𝛆)
′ −𝟏 ′ ′ −𝟏 ′
= 𝐗𝐗 𝐗 𝐗𝐚 + 𝐗 𝐗 𝐗𝛆
= 𝐚 + 𝐗′ 𝐗 −𝟏 ′
𝐗𝛆 𝐄 𝛆 = 𝟎 "H2"
𝐄(𝒂 ) = 𝐚 + 𝐗 ′ 𝐗 −𝟏 ′
𝐗 𝐄(𝛆)
 𝐄(𝒂 ) = 𝐚
𝐘=𝐗𝐚+𝐮
2. L'estimateur 𝒂 est convergent.
Preuve
Preuve
Calculons d'abord la matrice de variances-covariances de l'erreur , noté 𝜺 .
Calculons d'abord la matrice de variances-covariances
𝟏
𝟐
 = 𝐄 ′  = 𝐄 𝟏 𝟐 … 𝐧
⋮
𝐧
𝟐𝟏 𝟏  𝟐 𝟏 𝐧 𝐄(𝟐𝟏 ) 𝐄(𝟏 𝟐 ) 𝐄(𝟏 𝐧 )

𝟐 𝟏 𝟐𝟐 𝟐 𝐧 𝐄(𝟐 𝟏 ) 𝐄(𝟐𝟐 ) 𝐄(𝟐  )
=𝐄 =𝐄
′
=𝐄 =′ 𝐧
𝐧 𝟏 𝐧  𝟐 𝟐𝐧 𝐄(𝐧  ) 𝐄(𝐧  ) 𝐄(𝟐𝐧 )

𝟏 𝟐
𝟐
𝛔𝛆 𝟎 𝟎
𝟐
𝟎 𝛔𝛆 𝟎 𝐄 𝟐𝟏 = 𝛔𝟐𝛆 H3
=𝐄  = ′
𝟎 𝟎 𝐄(𝐭  ′ ) = 𝟎 si t ≠ t' H4
𝐭
𝟐
𝟎 𝟎 𝛔𝛆
𝐘=𝐗𝐚+𝐮
Preuve   = 𝛔𝟐 𝛆 𝐈𝐧
La matrice des d'abord

Calculons variances-covariances
la matricedes coefficients de RLM est symétrique.
de variances-covariances
𝐕𝐚𝐫(𝐚𝟎 ) 𝐂𝐨𝐯(𝐚𝟎 , 𝐚𝟏 ) 𝐂𝐨𝐯(𝐚𝟎 , 𝐚𝐩 )
𝐂𝐨𝐯(𝐚𝟏 , 𝐚𝟎 ) 𝐕𝐚𝐫(𝐚𝟏 ) 𝐂𝐨𝐯(𝐚𝟏 , 𝐚𝐩 )
𝐚 =
𝐂𝐨𝐯(𝐚𝐩 , 𝐚𝟎 ) 𝐂𝐨𝐯(𝐚𝐩 , 𝐚𝟏 ) 𝐕𝐚𝐫(𝐚𝐩 )
(A B C)'=C' B' A'

(A')' = A
𝒂 = 𝐚 + 𝐗′ 𝐗 −𝟏
𝐗′ 𝛆
𝐚 = 𝐄 𝐚−𝐚 𝐚−𝐚 ′ = 𝐄 𝐗 ′ 𝐗 −𝟏 𝐗 ′ 𝛆𝛆′𝐗 𝐗 ′ 𝐗 −𝟏

= 𝐗′ 𝐗 𝐗 𝐄 𝛆𝛆′ 𝐗 𝐗 ′ 𝐗 −𝟏 = 𝐗 ′ 𝐗 −𝟏 𝐗 ′  𝐗 𝐗 ′ 𝐗 −𝟏
−𝟏 ′
= 𝛔𝟐 ′
𝛆 𝐗 𝐗
−𝟏
𝐗′ 𝐗 𝐗′ 𝐗 −𝟏
= 𝛔𝟐 ′
𝛆 𝐗 𝐗
−𝟏
𝐈𝐩+𝟏,𝐩+𝟏
Preuve
 Var(𝐚) = 𝛔𝟐 𝛆 𝐗 ′
𝐗 −𝟏
Calculons d'abord la matrice de variances-covariances
𝟐 𝟐 ′ −𝟏
Donc, il est important de bien estimer 𝛔𝛆 , car Var(𝐚) = 𝛔𝛆 𝐗 𝐗 en dépend.
𝐧 𝟐
𝐭=𝟏 𝐞𝐭 𝐞′ 𝐞
𝟐
On peut montrer que : 𝛔𝛆 = = , où e =  = 𝐘 − 𝐘
𝐧−(𝐩+𝟏) 𝐧−(𝐩+𝟏)
𝟐
Remarquons que lorsque n est assez grand, 𝛔𝛆 tend vers 0 et par suite
l’estimateur 𝐚 est convergent.
𝐧 𝟐
𝐞 𝐞′ 𝐞
Montrons que 𝛔𝟐
𝛆 =
𝐭=𝟏 𝐭
=
𝐧−(𝐩+𝟏) 𝐧−(𝐩+𝟏)
𝐞 =  = 𝐘 − 𝐘 = 𝐗𝐚 +  − 𝐗𝐚 = 𝐗𝐚 +  − 𝐗(𝐚 + (𝐗 ′ 𝐗)−𝟏 𝐗′𝛆)

= 𝐈𝐧 − 𝐗 𝐗 ′ 𝐗 −𝟏 ′
𝐗 𝛆
Soit 𝐞 = 𝐌𝐱 𝛆 où 𝐌𝐱 matrice symétrique et idempotente.
𝐧 𝟐 ′
𝐭=𝟏 𝐞𝐭 = 𝐞 𝐞 = 𝐌𝐱 𝛆 ′𝐌𝐱 𝛆 = 𝛆′𝐌′𝐱 𝐌𝐱 𝛆 = 𝛆′𝐌𝐱 𝛆
Or 𝛆′𝐌𝐱𝛆 est un scalaire  𝛆 𝛆 = 𝐓𝐫 𝛆′𝐌𝐱𝛆 = 𝐓𝐫(𝐌𝐱𝛆 𝛆 )

′𝐌𝐱 ′
2. L'estimateur 𝒂 𝐧 est𝟐 convergent.
′
𝐭=𝟏 𝐞𝐭 𝐞 𝐞
Montrons que 𝛔𝟐𝛆 = =
𝐧−(𝐩+𝟏) 𝐧−(𝐩+𝟏)
𝐄(𝛔𝟐𝛆 ) = 𝐄 𝐞′ 𝐞 = 𝐄 𝐓𝐫 𝐌𝐱 𝛆′ 𝛆 = 𝐓𝐫(𝐌𝐱 𝐄 𝛆′ 𝛆 )
𝐄 𝛆′ 𝛆 = 𝛔𝟐𝛆 𝐈𝐧  𝐄 𝛔𝟐𝛆 = 𝛔𝟐𝛆 𝐈𝐧𝐓𝐫(𝐌𝐱)
′ −𝟏 ′ ′ ′ −𝟏
𝐓𝐫 𝐌𝐱 = 𝐓𝐫 𝐈𝐧 − 𝐗 𝐗 𝐗 𝐗 = 𝐓𝐫 𝐈𝐧 − 𝐓𝐫(𝐗 𝐗 𝐗 𝐗 )
𝐓𝐫 𝐌𝐱 = 𝐓𝐫 𝐈𝐧 − 𝐓𝐫 𝐈𝐩+𝟏 = 𝐧 − (𝐩 + 𝟏)
 𝐄(𝛔𝟐
𝛆 ) = 𝐧 − (𝐩 + 𝟏) 𝛔 𝟐
𝛆
𝐧 𝟐
𝐞
 Un estimateur sans biais de 𝛔𝟐𝛆 est 𝐧−(𝐩+𝟏) CQFD 𝐭=𝟏 𝐭

3. L'estimateur 𝒂 est optimal au sens du critère de minimisation de la
variance (Théorème de Gauss-Markov)
Optimalité de 𝒂
On prend comme critère d'optimalité la minimisation de la variance.
Soit 𝐚 un estimateur de a. On dit que 𝐚 est optimal ssi  ; Var('𝐚) est
minimale, c'est-à-dire que la variance de toute compostion linéaire des
composantes est minimale.
Enoncé du théorème
Sous les hypothèses H2 à H6, dans la classe des estimateurs de a linéaires
dans les variables à expliquer et sans biais, 𝒂 est optimal au sens du critère
de minimisation de la variance.
Preuve
𝐚 linéaire en Y Il existe donc une matrice A tel que 𝐚 = 𝐀𝐘

𝐚 sans biais 𝐄 𝐚 = 𝐄 𝐀𝐗𝐚 + 𝐀 = 𝐚
Comme 𝐄  = 𝟎, 𝐀𝐗𝐚 = 𝐚. Ce résultat est vrai pour a quelconque ( 𝐚),
c’est-à-dire, 𝐀𝐗 = 𝐈𝐩+𝟏 .
En outre, 𝐚 − 𝐚 = 𝐀𝐘 − 𝐚 = 𝐀𝐗𝐚 + 𝐀 − 𝐚 = 𝐀 (𝐀𝐗 = 𝐈),
donc Var(𝐚) = 𝐄 𝐚 − 𝐚 𝐚 − 𝐚 ′ = 𝐄 𝐀𝛆𝛆′ 𝐀′ = 𝐀𝐄(𝛆𝛆′ )𝐀′.
Or, on a supposé que 𝐄(𝛆𝛆′ ) = 𝟐𝛆 𝐈𝐧, donc Var(𝐚) = 𝟐𝛆 𝐀𝐈𝐀′.
Preuve Var(𝐚) = 𝟐𝛆 𝐀𝐈𝐀′
𝐏𝐱 = 𝐗(𝐗 ′ 𝐗)−𝟏 𝐗′
Ecrivons : 𝐈 = 𝐏𝐱 + 𝐌𝐱 avec
𝐌𝐱 = 𝐈 − 𝐏𝐱
𝐕𝐚𝐫 𝐚 = 𝟐𝛆 𝐀(𝐏𝐱 + 𝐌𝐱 )𝐀′ = 𝟐𝛆 (𝐀𝐏𝐱𝐀′ + 𝐀𝐌𝐱𝐀′ )

Or, 𝟐𝛆 𝐀𝐏𝐱 𝐀′ = 𝟐𝛆 𝐀𝐗(𝐗′ 𝐗)−𝟏𝐗′𝐀′.
Comme 𝐀 𝐌𝐱 𝐀′ 𝐞𝐬𝐭 𝐬𝐲𝐦é𝐭𝐫𝐢𝐪𝐮𝐞 𝐝é𝐟𝐢𝐧𝐢𝐞 𝐩𝐨𝐬𝐢𝐭𝐢𝐯𝐞, 𝐨𝐧 𝐚 ∶
𝐕𝐚𝐫 𝐚 ≥ 𝐕𝐚𝐫 𝐚 CQFD
Il faut noter que cette démonstration repose très fortement sur
l'homoscédasticité.
Théorème
Si la constante est incluse dans les variables explicatives, la variance se
décompose comme :
𝟏 𝟐 𝟏 𝟐 𝟏 𝟐
(𝐘𝐭 − 𝐘) = (𝐘𝐭 − 𝐘) + 𝛆𝐭
𝐧 𝐧 𝐧
𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐭𝐨𝐭𝐚𝐥𝐞 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐞𝐱𝐩𝐥𝐢𝐪𝐮é𝐞 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐫é𝐬𝐢𝐝𝐮𝐞𝐥𝐥𝐞
𝟐 𝟐 𝟐
(𝐘𝐭 − 𝐘) = (𝐘𝐭 − 𝐘) + 𝛆𝐭
𝐒𝐂𝐓 𝐒𝐂𝐄 𝐒𝐂𝐑

(𝐘𝐭 − 𝐘)𝟐 = (𝐘𝐭 − 𝐘)𝟐 + 𝛆𝟐𝐭
𝐒𝐂𝐓 𝐒𝐂𝐄 𝐒𝐂𝐑

𝐘 = 𝐘 + 𝛆  𝐘 = 𝐘 + 𝛆 , or 𝛆 = 𝟎  𝐘 = 𝐘
D'où 𝐘 − 𝐘𝐞 = 𝐘 − 𝐘𝐞 + 𝛆
𝐧
𝐘 − 𝐘𝐞 ′ 𝐘 − 𝐘𝐞 = (𝐘
𝐭=𝟏 𝐭 − 𝐘)𝟐
′ ′
𝐘 − 𝐘𝐞 + 𝛆 𝐘 − 𝐘𝐞 + 𝛆 = 𝐘 − 𝐘𝐞 𝐘 − 𝐘𝐞 + 𝟐𝛆′ 𝐘 − 𝐘𝐞 + 𝛆′𝛆
Or, 𝛆 = 𝐌𝐱𝛆, 𝐘 = 𝐏𝐱 𝐘 𝛆 𝐘 − 𝐘𝐞 = 𝛆 𝐌𝐱(𝐏𝐱 𝐘 − 𝐘𝐞)

′ ′
Or, 𝐌𝐱𝐏𝐱 = 𝟎, d'où le résultat : 𝐧

(𝐘
𝐭=𝟏 𝐭 − 𝐘 )𝟐
= 𝐧
(𝐘
𝐭=𝟏 𝐭 − 𝐘 )𝟐
+ 𝐧
(𝐘 −
𝐭=𝟏 𝐭 𝐭 𝐘 )𝟐

7. QUALITE DE L'AJUSTEMENT
On introduit des indicateurs de qualité du modèle sans dimension :
𝐧 𝟐 𝐧 𝟐
𝟐 𝐒𝐂𝐄 𝐭=𝟏(𝐘𝐭 −𝐘) (𝐘
𝐭=𝟏 𝐭 𝐭−𝐘 ) 𝐒𝐂𝐑
𝐑 = = 𝐧 𝟐 =𝟏− 𝐧 𝟐 =𝟏−
𝐒𝐂𝐓 (𝐘
𝐭=𝟏 𝐭 −𝐘 ) (𝐘
𝐭=𝟏 𝐭 −𝐘 ) 𝐒𝐂𝐓
Du fait du théorème de décomposition de la variance, R²[0,1].

𝐑𝟐 mesure la proportion de la variance de Y expliquée par la régression de Y
sur X.
Le R² est fréquemment utilisé pour mesurer la qualité de l’ajustement.

Néanmoins deux précautions doivent être prises :
7. des
On introduit QUALITE DE L'AJUSTEMENT
indicateurs de qualité du mod
𝐧 𝟐 𝐧 𝟐
𝟐 𝐒𝐂𝐄 𝐭=𝟏(𝐘𝐭 −𝐘) 𝐭=𝟏(𝐘𝐭 −𝐘𝐭 ) 𝐒𝐂𝐑
𝐑 = = 𝐧 𝟐 =𝟏− 𝐧 𝟐 =𝟏−
𝐒𝐂𝐓 𝐭=𝟏(𝐘𝐭 −𝐘) 𝐭=𝟏(𝐘𝐭 −𝐘) 𝐒𝐂𝐓
- On montre facilement que plus on étend l'ensemble des variables
explicatives plus le R² est grand. R² n'est pas nécessairement un bon critère
de choix de modèle.
Pour remédier à cette insuffisance, on a introduit une quantité proche mais
directement reliée qui est le R² ajusté. Il se présente comme suit :
𝛔𝟐𝛆 𝐒𝐂𝐑 (𝐧−𝐩−𝟏) (𝐒𝐂𝐓−𝐒𝐂𝐄) (𝐧−𝐩−𝟏)
𝐑𝟐𝐚𝐣𝐮𝐬𝐭é =𝟏− =𝟏− =𝟏−
𝐕𝐚𝐫(𝐘) 𝐒𝐂𝐓 𝐧−𝟏 𝐒𝐂𝐓 𝐧−𝟏
𝐧−𝟏
𝐑𝟐𝐚𝐣𝐮𝐬𝐭é = 𝟏 − (𝟏 − 𝐑 ) 2
(𝐧−𝐩−𝟏)
8. RESUME
1. On a vu dans ce chapitre la définition algébrique de l’estimateur des mco
comme vecteur des coefficients de la projection orthogonale de la variables
dépendante sur l’espace engendré par les variables explicatives.
2. Cet estimateur existe est unique sous l’hypothèse H1 que les vecteurs des
variables explicatives soient linéairement indépendant.
3. On a vu sous quelle condition l’estimateur des mco est un estimateur sans
biais du paramètre économique a dans le modèle linéaire y = xa+ : Il s’agit
de l’hypothèse H2 que l’espérance des résidus conditionnellement aux
variables observables est nulle.
4. Sous les hypothèses H3 et H4 que dans ce modèle, les perturbations sont

conditionnellement aux variables explicatives des variances identiques et
sont non corrélées les unes avec les autres, on peut donner l’expression
classique de la matrice de variance de l’estimateur Var(𝐚) = 𝛔𝟐𝛆 𝐗 ′ 𝐗 −𝟏 .
8. RESUME
5. Sous ces mêmes hypothèses l’estimateur des mco est le meilleur

estimateur linéaire sans biais, au sens de la minimisation de la variance.
6. L’interprétation de cette formule conduit à la conclusion que plus le
nombre d’observations est grand, plus la variance résiduelle 𝛔𝟐𝛆 est faible,
plus les variables explicatives présentent de variabilité propre, plus
l’estimateur est précis.
7. Le paramètre 𝛔𝟐𝛆 peut être estimé sans biais comme la moyenne des
𝐧 𝟐
𝐭=𝟏 𝐞𝐭
carrés des résidus tenant compte des degrés de liberté : 𝛔𝟐𝛆 =
𝐧− 𝐩+𝟏
8. Le R² est une mesure de la qualité de l’ajustement du modèle aux

données: il mesure la part de la variance totale expliquée par le modèle.
8. RESUME
Ces résultats sont importants : ils établissent les conditions sous lesquelles
les estimateurs sont sans biais et ils permettent de déterminer la précision
des estimations.
Ils sont néanmoins insuffisants pour donner des intervalles de confiance sur
les paramètres estimés et réaliser des tests d’hypothèse.
Pour ce faire, il faut faire des hypothèses supplémentaires. On peut
procéder de deux façons :
1. Lorsque le nombre d’observations est faible, on peut spécifier la loi des
observations conditionnellement aux variables explicatives -les résidus
comme suivant une loi normale-.
On peut alors caractériser la loi de l’estimateur. On peut aussi dans ce cas
estimer le modèle par maximum de vraisemblance.
8. RESUME
On peut alors tester des hypothèses dites simples (nullité d’un paramètre).
Ces tests sont appelés test de Student.
On2. Lapeutdeuxième
aussi sur lafaçon
base deestcette hypothèse
d’étudier les estimer le modèle
propriétés en imposantde
asymptotiques
des contraintesc’estlinéaires
l’estimateur, sur lesleparamètres
à dire lorsque et tester l’hypothèse
nombre d’observations que ces
devient grand.
On montre
contraintes aussi
sont que, sans
acceptées. spécifier la loi des résidus mais en faisant des
hypothèses suffisamment fortes, on peut spécifier la loi asymptotique de
Les tests mis en oeuvres sont alors des test dits de Fisher.
l’estimateur.

Chapitre2 MRLM

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre2 MRLM

Transféré par

Droits d'auteur :

Formats disponibles

ANALYSE DE LA REGRESSION

ANNEE UNIVERSITAIRE 2023-2024

5. PROPRIETES STATISTIQUES DES ESTIMATEURS MCO

Mustapha BERROUYNE 2 CHAPITRE 2. MODELE LINEAIRE STANDARD

On note 𝐘 = (𝐲𝟏,…,𝐲𝐧 )' l’empilement des n observations de la variable dépendante.

Mustapha BERROUYNE 4 CHAPITRE 2. MODELE LINEAIRE STANDARD

Comme 𝐭 𝐚 = 𝐲𝐭 − 𝐱𝐭 𝐚 ➔ 𝐚𝐦𝐜𝐨 = 𝐀𝐫𝐠 𝐦𝐢𝐧𝐚 𝐘 − 𝐗 𝐚 (𝐘 − 𝐗 𝐚) ′

On dit que l'estimateur "mco" minimise le critère 𝐒 = 𝐘−𝐗 𝐚 𝐘−𝐗 𝐚 = ( )

. regress consom prix cylindrée puissance poids

Source SS df MS Number of obs = 27

consom Coef. Std. Err. t P>|t| [95% Conf. Interval]

prix .0000339 .0000451 0.75 0.460 -.0000596 .0001274

Mustapha BERROUYNE 10 CHAPITRE 2. MODELE LINEAIRE STANDARD

H2 : E(t) = 0, en moyenne le modèle est bien spécifié et donc l’erreur

H6 : Absence de colinéarité entre les variables explicatives.

Mustapha BERROUYNE 12 CHAPITRE 2. MODELE LINEAIRE STANDARD

On pose 𝐏𝐱 = 𝐗(𝐗 ′ 𝐗)−𝟏 𝐗′, la matrice de projection orthogonale sur Vect(X).

𝟐𝟏 𝟏  𝟐 𝟏 𝐧 𝐄(𝟐𝟏 ) 𝐄(𝟏 𝟐 ) 𝐄(𝟏 𝐧 )

𝐧 𝟏 𝐧  𝟐 𝟐𝐧 𝐄(𝐧  ) 𝐄(𝐧  ) 𝐄(𝟐𝐧 )

La matrice des d'abord

(A B C)'=C' B' A'

𝐚 = 𝐄 𝐚−𝐚 𝐚−𝐚 ′ = 𝐄 𝐗 ′ 𝐗 −𝟏 𝐗 ′ 𝛆𝛆′𝐗 𝐗 ′ 𝐗 −𝟏

𝐞 =  = 𝐘 − 𝐘 = 𝐗𝐚 +  − 𝐗𝐚 = 𝐗𝐚 +  − 𝐗(𝐚 + (𝐗 ′ 𝐗)−𝟏 𝐗′𝛆)

Or 𝛆′𝐌𝐱𝛆 est un scalaire  𝛆 𝛆 = 𝐓𝐫 𝛆′𝐌𝐱𝛆 = 𝐓𝐫(𝐌𝐱𝛆 𝛆 )

Mustapha BERROUYNE 20 CHAPITRE 2. MODELE LINEAIRE STANDARD

𝐚 linéaire en Y Il existe donc une matrice A tel que 𝐚 = 𝐀𝐘

𝐕𝐚𝐫 𝐚 = 𝟐𝛆 𝐀(𝐏𝐱 + 𝐌𝐱 )𝐀′ = 𝟐𝛆 (𝐀𝐏𝐱𝐀′ + 𝐀𝐌𝐱𝐀′ )

𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐭𝐨𝐭𝐚𝐥𝐞 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐞𝐱𝐩𝐥𝐢𝐪𝐮é𝐞 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐫é𝐬𝐢𝐝𝐮𝐞𝐥𝐥𝐞

𝐒𝐂𝐓 𝐒𝐂𝐄 𝐒𝐂𝐑

𝐒𝐂𝐓 𝐒𝐂𝐄 𝐒𝐂𝐑

Or, 𝛆 = 𝐌𝐱𝛆, 𝐘 = 𝐏𝐱 𝐘 𝛆 𝐘 − 𝐘𝐞 = 𝛆 𝐌𝐱(𝐏𝐱 𝐘 − 𝐘𝐞)

Or, 𝐌𝐱𝐏𝐱 = 𝟎, d'où le résultat : 𝐧

Mustapha BERROUYNE 25 CHAPITRE 2. MODELE LINEAIRE STANDARD

Du fait du théorème de décomposition de la variance, R²[0,1].

Le R² est fréquemment utilisé pour mesurer la qualité de l’ajustement.

4. Sous les hypothèses H3 et H4 que dans ce modèle, les perturbations sont

5. Sous ces mêmes hypothèses l’estimateur des mco est le meilleur

8. Le R² est une mesure de la qualité de l’ajustement du modèle aux

Vous aimerez peut-être aussi