Vous êtes sur la page 1sur 16

CHAPITRE IV: INFERENCES DANS LE MODELE DE REGRESSION LINEAIRE

SIMPLE (MRLS)

4.1- Propriétés caractéristiques des estimateurs des moindres carrés (EMC)

Sous les hypothèses H2, H3, H4, et H5, les EMC sont sans biais, efficaces et convergents. Avec
l’hypothèse H6 les EMC tendent vers la loi normale. Elle permet de construire des intervalles
de confiances autour de ces EMC et aux tests d’hypothèses.

Si on considère par exemple plusieurs échantillons de même taille n à partir desquels on


estime plusieurs régressions, on obtiendra des valeurs de b0 et b1 qui varient d’un échantillon
à l’autre. On peut alors s’intéresser au calcul de leurs moyennes, variances et covariances, à
l’identification de leur distribution de probabilité. Si les estimateurs sont de bonne qualité, on
peut les utiliser à des fins de prédiction ou à des fins d’analyse de politique économique.

Toutes ces préoccupations sont abordées à travers l’étude des inférences dans le modèle de
régression linéaire simple. Les investigations porteront sur les EMC.

4.1.1- Caractère aléatoire des EMC

Les estimations de la régression linéaire simple et par conséquent les EMC sont des variables
aléatoires dont la distribution découle de celle du terme aléatoire du modèle.

b1 et b0 peuvent être exprimés comme suit: b1 =


∑ Yi − Y X i − X = Syx . ( )( )
( )
2
∑ Xi − X Sxx

( )( X ) ( ) ( ).
2 2
En rappel SYX = S XY = ∑ Yi − Y i − X , S XX = ∑ X i − X et SYY = ∑ Yi − Y
Développons SYX .
(
Syx = ∑ Yi − Y )( X − X ) = ∑ Y ( X − X ) − Y ∑ ( X
i i i i −X )
(
= ∑ Yi X i − X ) −Y∑ X +Y∑ X i

= ∑Y ( X − X ) − nY * ∑ X +Yn X
1
i i i
n
= ∑Y ( X
i i − X ) − nY X + nY X

= ∑Y ( X
i i − X ) +0 .
On peut développer autrement SYX :
(
Syx = ∑ Yi − Y )( X i ) (
− X = ∑ X i Yi − Y − X ∑ Yi − Y ) ( )
(
On aboutit à SYX = ∑ X i Yi − Y . Donc SYX ) = ∑ Y ( X − X ) = ∑ X (Y − Y )
i i i i

Egalement si on développe Sxx et Syy on aboutit à des résultats analogues, c'est-à-dire que
() et Syy = ∑ Y (Y − Y ) . On
Sxx=∑ X i X i − X i i peut donc écrire autrement b1 et b0 . Soit

Syx ∑ Y ( X − X ) (X − X ) = i−X
∑∑ Yi * Ci , avec Ci = XSxx . b1 = ∑ Ci * Yi est
i i i
b1 = = = Y* i
Sxx Sxx Sxx
alors une combinaison linéaire de Yi qui est aléatoire. Donc b1 est une variable aléatoire.

1
1 1 
b0 = Y − b1 X =
n
∑ Yi − X * ∑ Yi * Ci = ∑ Yi  − XCi  = ∑ Yi * di , avec di = 1 − X Ci . Donc
n  n
b0 = ∑ Yi * d i . b0 est aussi une variable aléatoire puisque Yi est une variable aléatoire.
b0 et b1 étant des variables aléatoires, on peut faire des inférences sur ces estimateurs et sur les
estimateurs dérivés de ces derniers.

4.1.2-Absence de biais des EMC

Les EMC b0 et b1 sont sans biais si E ( b0 ) = β 0 et E ( b1 ) = β 1 .


Calcul de E ( b1 ) .
∑ y x = Syx = C Y ; avec C Xi − X
En rappel, b1 = ∑
i i
= .
∑ x Sxx
2 i i i
Sxx
i

E ( b ) = E ( ∑ C *Y ) = ∑ C * E (Y )
1 i i i i

= ∑C * E (β + β X )
i 0 1 i

= β *∑C + β *∑C * X
0 i 1 i i

= β0 * ∑
Xi − X
+ β1 * ∑
Xi − X
* Xi
( )
Sxx Sxx
= β0 *
1
∑ (
X i − X + β1*
Sxx 14243
1
Sxx
)
∑ Xi Xi − X ( )
=0
1
= 0 + β1 * Sxx
Sxx
E ( b1 ) = β1 , donc b1 est sans biais.

Calcul de E ( b0 )

b0 = ∑ di * Yi , avec di = 1 − X Ci = 1 −
X Xi −X ( )
n n Sxx
E ( b0 ) = E ( ∑ di Yi ) = ∑ di * E (Yi ) = ∑ di * ( β 0 + β1 X i )
= β 0 * ∑ di + β1 * ∑ di * X i
1  1 
= β 0 * ∑  − XCi  + β1 * ∑  − XCi X i
n  n 
1 1
= β 0 * ∑ − β 0 * X ∑ Ci + β1 * ∑ X i − β1 * X * ∑ Ci * X i
{ n { n 1424 3
0 1
1

= β0 − 0 + β1 X − β1 X
= E ( b0 ) = β 0 , donc b0 est sans biais.

4.1.3- Efficacité des EMC

Les EMC ( b0 , b1 ) sont efficaces s’ils présentent la variance la plus petite parmi les
estimateurs sans biais des paramètres β 0 et β 1 .

2
Variances de b1

En rappel V ( aX , bY ) = ab * V ( X , Y ) .
V ( b1 ) = V ( ∑ C i * Y i ) = ∑ Ci2 * V (Yi ) ; or, V (Yi ) = V (U i ) = σ 2 .
2
X −X
∑( X −X)
1
Alors, V ( b1 ) = σ * ∑ C = σ * ∑  i
2
 =σ * 2
2 2 2 2
i i
 S XX  S XX
1
= σ 2 * 2 * Sxx = σ 2 *
1
= σ2 .
( )
2
S xx Sxx
∑ iX − X

Au finish on a V ( b1 ) =
σ2
∑( X )
2
i −X

Variance de b0
2
1 
V ( b0 ) = V ( ∑ di Yi ) = ∑ di * σ = σ * ∑  − XCi 
2 2 2

n 
n 1 2
= σ ∑  2 − 2* XCi + X Ci 
2
2

n n 
1 1 
= σ 2  − 2 X ∑ Ci + X 2 ∑ Ci 
2

n n{ 
 =0 
 2 
2 1 1  2 1 X .
2
=σ  + X *  =σ  +
( )
2 
n Sxx   n ∑ Xi − X 
 
 2 
2 1 X .
Ainsi, V ( b0 ) = σ +
 n
( )
2 

 ∑ X i − X 
Covariance de b0 et b1

En rappel, COV ( aX , bY ) = abCOV ( X , Y ) .


COV ( b0 , b1 ) = COV (∑ d *Y , ∑ C
i i i )
* Yi = ∑ Ci * di * COV (Yi , Yi )
1 
= ∑ Ci * di *σ 2 = σ 2∑ Ci * di = σ 2∑  − XCi  * Ci
n 
1  1 X
Or, ∑ Ci * di = ∑  − XCi  * Ci = * ∑ Ci − X ∑ Ci2 = 0 −
n  n S XX
 X  X
Ainsi, COV ( b0 , b1 ) = σ 2 *  0 −  , ou encore COV ( b0 , b1 ) = − σ *
2
.
( )
2
 S XX 
∑ Xi − X

3
Efficacité

b1 est-il efficace? On sait que b1 est sans biais, c'est-à-dire que E ( b1 ) = β 1 .


En considérant le modèle Yi = β 0+ β 1 X i +ui , on peut écrire que:
Y = β 0 + β 1X + u = β 0 + β 1X .
( )
Alors Yi −Y = β 1 X i − X +ui ou yi = β 1xi +ui et E ( yi ) = β 1xi .
En transformant la formule de β 1 on obtient
∑ (Y − Y )( X − X ) = ∑ y x = y *  x  xi
∑  x  = ∑ Ci * yi , avec Ci =
i i
b1 =
i i i
.
∑( ) ∑ ∑ ∑ xi 2
2 2 i 2
X − X x i i 
i

Au finish b peut s’écrire: b = ∑ C y .


1 1 i i

Dans quelles conditions b1 peut-il être efficace? b1 est efficace si et seulement si b1 est sans
biais et V ( b1 ) minimale.
On sait que b1 est sans biais, avec E ( b1 ) = β1 et que b1 = ∑ ci yi . Soit β̂1 un estimateur
quelconque de β1 . Alors βˆ1 = ∑ ai * yi .

Calculons l’espérance de β̂1 .

( )
E βˆ1 = E ( ∑ ai yi ) = ∑ ai E ( yi ) . or, E ( yi ) = β 1xi . Par conséquent E βˆ1 = β1 * ∑ ai * xi . ( )
Donc β̂1 est sans biais si ∑ai xi =1 .

Calculons V βˆ1 ( )
Supposons que β̂1 soit sans biais, c'est-à-dire que ∑ai xi =1 . Dans quelle condition V βˆ1 ( ) est
minimale.
( )
V βˆ = V (
1 ∑ a y ) = ∑ a V ( y ) = ∑ a V ( β x + u ) . Or, V ( β x + u ) = σ .
i i
2
i i
2
i 1 i i 1 i i
2

Alors, V ( βˆ ) = ∑ a * V ( y ) = ∑ a *σ . Donc, V ( βˆ ) = σ * ∑ a .
1
2
i i
2
i
2
1
2 2
i

V ( βˆ ) est minimale si ∑ a est minimale sous la contrainte ∑a x =1 .


1
2
i i i

Minimisons ∑ a / ∑ a x = 1 . Pour cela posons le Lagrangien L(a )=∑a −λ(∑a x −1) .


2
i i i i 2
i i i

CPO:
∂L(ai )
=0 ⇒ 2∑ai −λ∑ xi =0 ⇒ ∑ai = λ ∑ xi , (1)
∂ai 2
Transformons l’équation (1) en la multipliant par xi : soit ∑ai xi = λ ∑ xi2 . En considérant la
2
λ
contrainte on aura 1 = ∑ xi2 ⇒ λ = 2 2 , (2);
2 ∑ xi
1 2
En intégrant (2) dans (1) on obtient: ∑a i = *
2 ∑ xi2
* ∑ xi .

4
Soit donc que ∑ ai =
∑x  x
= ∑ i 2
i

 .
∑x ∑x
2
 i i 
Donc V βˆ1 ( ) est minimale si ai = xi 2 .
∑ xi
xi
Or = Ci et par conséquent b1 = ∑ ai yi = ∑ Ci yi = βˆ1
∑ xi2

Donc b1 est efficace si et seulement si b1 = β̂1 . Par conséquent b1 (EMC de β1 ) est l’estimateur
possédant la variance minimale parmi les estimateurs linéaires non biaisés de β1 . On dit que
l’EMC est BLUE (Best Linear Unbiased Estimator).

4.1.4- Convergence des EMC

Les EMC bi sont convergents (en probabilité) vers β i si ∀ε aussi petit que possible, on a:
lim Pr oba ( bi − βi > ε ) = 0 et lim V ( bi ) = 0 si les estimateurs sont sans biais.
n →∞ n →∞

lim V ( b1 ) = lim
σ 2
. Quand n → ∞ , alors σ
2
→0 .
n →∞ n →∞
∑x 2
i ∑x 2
i

Donc b1 converge en probabilité vers β1 .

1 2
  2 
X 2 1 X .
lim V ( b0 ) = lim σ  +
2
 = lim σ +
n
( )
2 
 n ∑ xi2  n →∞
∑ X i − X 
n →∞ n →∞
  

 2 
1 1 2 1 X  =0 .
lim = 0 et lim = 0 . Donc = lin σ +
n →∞ n n →∞
∑( X i −X )
2 n→∞ n
 ∑ Xi −X ( )
2 

Par conséquent, b0 est convergent.

4.2-Distribution des EMC et estimation de leur variance

Distribution des EMC. Comme on peut écrire que b1 = ∑ Ci yi , b0 = ∑ di yi et dans la mesure


où yi suit une distribution normale, alors b1 et b0 suivent aussi une distribution normale.
 σ2 
σ2
Alors, b1 → N  β1 ,
 ∑ ( X − X )2 
 ou encore b1 → N β1 , σ b2 , avec σ b2 = ( ) .
∑( Xi − X )
1 1 2
 i 
   1 

b0 → N β 0 , σ 2 1
+
X2   (
, ou b0 → N β 0 , σ b0 ; avec σ b0 =
2 2  + ) X2 .
 n
∑ ( )  n
∑( Xi − X ) 
2 2
 X − X   
 i

5
Estimateur de σ .
2

Les variances des estimateurs b1 et b0 dépendent de σ une inconnue. Soit le modèle


2

Yi = β 0+ β 1 X i +ui lié à la population mère. La valeur estimée de Yi dans l’échantillon est


Yˆi = b0 + b1 X i . La différence Yi − Yˆi = ei est appelée résidu de l’estimation. On montre que le

meilleur estimateur de σ est S =


2 2 ∑e 2
i
. S est un estimateur sans biais de σ , c'est-à-
2 2

n−2
dire E ( S ) = σ . (n-2) est choisi pour que l’estimateur soit sans biais.
2 2

Les estimateurs des variances de b1 et b0 sont: Vˆ ( b1 ) = Sb21 et Vˆ ( b0 ) = Sb20 .


1 X2 
S2
Avec, Sb21 = et Sb20 = S 2  + .
 n ∑ ( X − X )2
∑( X −X) 
2
i  i 

4.3- Analyse de variance dans le modèle de régression simple

L’analyse de la variance de régression a pour objectif d’apprécier le niveau d’adéquation du


modèle. Il s’agit de dire dans quelle mesure (à quel degré) la variable retenue comme
explicative détermine la variation de la variable dépendante ou expliquée.

4.3.1- Décomposition de la variance de Y (variation totale de Y autour de sa moyenne)

En considérant la variable dépendante Y, Celle-ci varie autour de sa moyenne Y , de telle sorte


qu’à chaque valeur Y i est associée un écart ( Yi − Y ). Avec un échantillon de taille n, la
variation totale de Y autour de sa moyenne peut être représentée par la grandeur
2

suivante STC = ∑ (Yi − Y ) , où STC est la Somme Totale des Carrées.


n

i =1
Introduisant une variable explicative X, i.e., construisons un modèle explicatif de Y par X.
La variation totale de Y se décompose selon deux parties:
-une partie expliquée par la régression, c'est-à-dire par la présence de la variable explicative X
appelée SCE (somme des carrés expliqués);
-une partie non expliquée par la régression, c'est-à-dire liée aux erreurs d’estimation SCR
(somme des carrés des résidus). On a alors: STC = SCE + SCR .

Décomposition

∑ (Y − Y ) = ∑ (Y − Yˆ + Yˆ − Y ) = ∑ ( (Y − Yˆ ) + (Yˆ − Y ) )
2 2 2
STC = i i i i i i i

= ∑ (Y − Yˆ ) + ∑ (Yˆ − Y ) + 2∑ (Yˆ − Y )(Y − Yˆ ) .


2 2
i i i i i i

( )
En rappel Yi − Yˆi = ei . C’est aussi la déviation de la droite de régression par rapport à Ŷ .

( ) ( )
2
Donc, STC = ∑ ei2 + ∑ Yˆi − Y + 2∑ ei * Yˆi − Y . Or,

∑ e * (Yˆ − Y ) = ∑ e * Yˆ − Y ∑
i i
{
e i i i
=0

6
= ∑ ei * Yˆi = ∑ ei * ( b0 + b1 X i )
= b0 *∑ ei + b1 *∑ ei * X i = 0 + 0
{ {
=0 =0

⇒ ∑ ei * Yˆi − Y = 0 . ( )
( )
2
Ainsi, STC = ∑ ei2 + ∑ Yˆi − Y , ou STC = SCE + SCR .

( )
2
Exercice: Montrer que SCE = ∑ Yˆi − Yˆ = b12 ∑ xi2 .

uˆi =Yi −Yˆi ⇒ Yi =Yˆi +uˆi ⇒ Y =Yˆ +uˆ ⇒ Y =Yˆ ⇒

∑ (Yˆ − Y ) ( )
2
= ∑ yˆi2 = ∑ ( b1 xi ) = b12 * ∑ xi2
2
= ∑ Yˆi − Yˆ
2
i

∑x y * x
= b1 * ∑ = b1 ∑ xi yi , ou encore
i i 2

∑x 2 i
i

(∑ x y ) ∑ (Y − Y )( X − X )
2
∑x y
∑ (Yˆ − Y ) = x * ∑ x y =
2 i i
, or b1 =
i i i i

∑ ∑x ∑( X − X )
i 2 i i 2 2
i i
i

( )( )
2

( ∑ xi yi )  ∑ Yi − Y X i − X 
2

= =  = b2 * x 2 .
∑ i
∑x ( )
2 2 1
i
∑ Xi − X
On peut aussi écrire: STC = ∑ (Yi − Y ) = S yy et SCE = ∑ Yˆi − Y ( )
2
= b1 ∑ xi yi = b1 S xy .
2

Alors SCR = STC − SCE = S yy − b1 S xy .


On sait qu’en l’absence de variable explicative,
STC =∑(Yi −Y ) =∑ yi2 et ∑y → σ χ 2 ( n − 1) , Y étant estimée.
2 2 2
i

En présence d’une variable explicative (Y = β 0 + β1 X +u ) et SCR = ∑ ei2 .


∑e 2
i
→ χ 2 ( n − 2 ) ⇒ ∑ ei2 → σ 2 χ 2 ( n − 2 )
σ 2

 Y − E (Yi ) 
2

Yi → N ( E (Yi ) ; σ ) ⇒  i  → χ (1)
22

 σ 
(Y − E (Y ) ) → σ χ (1) ⇒ ∑ (Y − E (Y ) ) → σ 2χ 2 (n)
2 2 2 2
i i i i

∑ (Y − Y ) → σ χ ( n − 1) .
2 2 2
i

STC = SCE + SCR ;


ddl n − 1 = 1 + n − 2
n − 2 = n − k ( k = nombre de paramètre estimés)
1 = k − 1 (nombre de variables explicatives).

7
Synthèse de l’analyse de variance
Source de Degré de Carrés
variation Sommes des carrés liberté moyens
Régression SCE = b1 * S xx k − 1 = 2 − 1 = 1 SCE k − 1
2

Résidus SCR = S yy − b12 * S xx n−k =n−2 SCR n − 2


TOTAL STC = S yy n −1

SCR ∑ ei
2

Note. = = S 2 est le meilleur estimateur de σ 2 .


n−2 n−2

4.3.2- Mesure d’adéquation du modèle. Le coefficient de détermination R 2 .

SCE
L’adéquation de la régression est mesurée par le coefficient de détermination R 2 = .
STC
R 2 donne la proportion de la variation totale de Y expliquée par la variable explicative X. On
dit aussi qu’il mesure la proportion de la variation totale de Y expliquée par le modèle. Plus
R 2 est élevé plus le modèle est adéquat. Cependant certains modèles ont tendance à donner un
coefficient R 2 élevé tandis que d’autres conduisent généralement à un coefficient R 2 faible.
SCE SCR SCR SCE SCR
STC = SCE + SCR ⇒ 1 = + ⇒ 1− = = R2 ⇒ R2 = 1 − .
STC STC STC STC STC
R 2 comporte des biais liés à la taille de l’échantillon et au nombre de paramètres estimés.
SCR ( n − k )
On peut corriger ces biais en calculant R 2 , avec R 2 = 1 − , avec k = nombre de
STC ( n − 1)
paramètres à estimer.

R 2 est une mesure plus fiable d’adéquation du modèle comparativement à R 2 . Un R 2 élevé


indique une bonne adéquation du modèle sur le plan statistique mais ne suffit pas à valider le
modèle sur le plan théorique. Des tests d’hypothèses sur les paramètres peuvent être conduits
sur la validité théorique du modèle.

4.4- les tests d’hypothèses

Reprenons le modèle Yi = β 0+ β 1 X i +ui . Dans ce modèle l’influence de la variable explicative X


sur la variable expliquée Y est donnée par le niveau du paramètre β1 . Si X a une influence Y,
on s’attend à ce que β1 soit différent de zéro ( β1 ≠ 0 ). Le test d’influence de X sur Y consiste
 H 0 : β1 = 0
donc au test des hypothèses suivantes:  . Si le test aboutit au rejet de H0, on dira
 H1 : β1 ≠ 0
que le paramètre β1 est significatif au seuil du test considéré, c'est-à-dire qu’il est
significativement différent de zéro à ce seuil. Cela signifie également que la variable X
associée au paramètre β1 ont une influence significative sur Y au seuil considéré.
Si le test aboutit au non rejet de H0, on dira que le paramètre β1 n’est pas significatif au seuil
du test considéré et que par conséquent la variable X n’influence pas significativement Y au
seuil considéré.
On peut généraliser le test sur l’ensemble des paramètres du modèle de la manière suivante:

8
 H 0 : β j = 0  H 0 : β j = c  H 0 : β j = 0
 ; ou  ; ou encore 
 H1 : β j ≠ 0  H1 : β j ≠ c  H1 : β j f 0

Procédure du test

 H 0 : β j = 0
Soit à tester  .
 H1 : β j ≠ 0
-La procédure du test consiste à construire une statistique à partir de la distribution de
l’estimateur b j associé à β j ;
-calculer la valeur empirique de cette statistique et la comparer à la valeur théorique lue sur la
table des lois.

Construction du test
 H 0 : β j = c
On s’intéresse à β1 . Soit les hypothèses  ; c est une constante, une donnée.
 H1 : β j ≠ c
( )
D’après ce qui précède, on sait que b j → N β j , σ b2j . On peut construire la statistique
bj − β j
Z= → N ( 0,1) . Malheureusement, Z n’est pas utilisable parce que σ b j n’est pas
σb j

connu. σ b j est aussi appelé paramètre de nuisance. σ b j peut être estimé par Sb j = Sb2j . Sb j est
S2
appelé erreur-type du coefficient b j . On montre que W = ( n − 2 ) → χ 2 ( n − 2 ) . Alors, on
σ2
Z
peut construire T = → t ( n − 2 ) . Par remplacement, on aboutit à
W ( n − 2)
bj − β j bj − β j

T=
Z
=
σ ∑x 2
i
=
σ ∑x 2
i
. Soit T=
bj − β j
, ou
W ( n − 2) S 2
1 Sσ σ ∑x 2
( n − 2) * i

σ 2
( n − 2)
bj − β j bj − c
T= → t ( n − 2 ) . Dans l’échantillon et sous H0, on calcul t = ; t est bilatéral. On
Sb j Sb j
rejette H0 pour les valeurs extrêmes de t. Au niveau α on rejette H0 si t f tα
2
( n − 2) .

(graphique)

9
Cas particulier: c=0
H : β = 0 b −0
Pour c=0, le test devient  0 1 ; alors t se réduit à t = 1 → t ( n − 2 ) , ou
 H1 : β1 ≠ 0 Sb1
b
t = 1 → t ( n − 2 ) . Ce genre de test est appelé test de signification de β1 . Si H0 n’est pas
Sb1
rejeté, c'est-à-dire que β1 = 0 , la variable X ne contribue pas statistiquement à expliquer Y.

4.5- Intervalle de confiance (IC) autour de β1

Construire un IC autour d’un paramètre β1 avec un niveau de confiance (1-α) revient à trouver
les bornes A et B tel que P ( A p T p B ) = 1 − α .
b1 − β1
L’IC permet de mesurer la précision de β1 . Soit T = . On peut trouver un nombre (1-α)
Sb1

0<α<1, tel que P −tα p T p tα ( 2 2


) = 1 − α . Soit graphiquement,

En développant P on obtient:
 b − β1 
P  −tα p 1 p tα  = 1 − α
 2 Sb1 2 
 

(
⇒ P −tα * Sb1 p b1 − β1 p tα * Sb1 = 1 − α
2 2
)
⇒ P ( −b − t 1 α
2 2
)
* Sb1 p − β1 p tα * Sb1 − b1 = 1 − α

⇒ P (b − t
1 α * Sb1 p β1 p b1 + tα * S ) = 1−α
b1
2 2

⇒ β1 ∈ b1 − tα * Sb1 ; b1 + tα * Sb1  .


 2 2 
L’IC avec un coefficient (1-α) pour β1 est donc β1 élément de

l’intervalle b1 − tα * Sb1 ; b1 + tα * Sb1  , ou encore β1 = b1 ± tα * Sb1 .


 2 2  2

10
Relation entre IC et test

La relation entre IC et test est immédiate.


H : β = c
Soit le test  0 1 et on dispose d’un intervalle b1 − tα * Sb1 ; b1 + tα * Sb1  autour de β1 .
H
 1 1: β ≠ c  2 2 
Si c est inclus dans l’intervalle on accepte H0, autrement on rejette H0. L’IC avec le
coefficient (1-α) est plus général qu’un test au niveau α. La connaissance de l’IC permet de
rejeter toutes les hypothèses de type H 0 : β1 = c , pour tout c situé à l’extérieur de l’IC, c'est-à-

dire c ∉ b1 − tα * Sb1 ; b1 + tα * Sb1  .


 2 2 

Exemple. Soit la fonction de consommation estimée à Monorovia au Libéria en 1986:


Yˆ = 23,32 + 0, 013* X . Construire un IC autour de β1 .
On écrit directement β1 ∈ b1 − tα * Sb1 ; b1 + tα * Sb1  .
 2 2 

On sait que Sb21 =


S2
et S =
2 ∑ ei . On calcule donc S 2 .
2

∑ xi n−2
2 b1

Xi Yi xi = X − X xi2 Yˆi ei = Yi − Yˆi ei2

50 27 -590,364 348529,652 23,970 3,030 9,181


150 24 -490,364 240456,852 25,270 -1,270 1,613
250 27 -390,364 152384,052 26,570 0,430 0,185
350 24 -290,364 84311,252 27,870 -3,870 14,977
450 30 -190,364 36238,452 29,170 0,830 0,689
550 24 -90,364 8165,652 30,470 -6,470 41,861
650 38 9,636 92,852 31,770 6,230 38,813
800 38 159,636 25483,652 33,720 4,280 18,318
1000 30 359,636 129338,052 36,320 -6,320 39,942
1360 51 719,636 517875,972 41,000 10,000 100,000
1500 36 859,636 738974,052 42,820 -6,820 46,512

7110 349 2281850,497 312,092

312, 092 34, 677


X = 640,364 ; ∑ ei2 = 312, 092 ; S2 = = 34, 677 ; Sb21 = = 1,52 *10−5 .
9 2281850, 497
Soit Sb1 = 0, 004 . Au seuil α = 5% , on a (1 − α ) = 0,95 , tα ( n − 2 ) = t0,025 ( 9 ) = 2, 262 .
2

L’IC à 95% pour β1 = b1 ± tα * Sb1 , ou β1 = 0, 013 ± 2, 262 * 0, 004 , ou β1 = 0, 013 ± 0, 00905 .


2

Donc β1 ∈ [ 0, 00395; 0, 02205] , avec 95% de confiance. Concrètement le résultat veut dire que
la pmc des biens alimentaires à Monorovia en 1986 se situe entre 0,31% et 2,2%, avec une
marge d’erreur de 5%.

11
Le test

H : β = c
On pose  0 1 ; et on dispose d’un IC à 95% pour β1 .
 H1 : β1 ≠ c
Si c ∈ [ 0, 00395;0, 02205] ou 0, 00395 p c p 0, 02205 , on acceptera H0, au seuil de 5%. Si
 H 0 : β1 = 0
ailleurs, on rejette H0. On pose  . D’après ce qui précède, on rejette H0, soit
 H1 : β1 ≠ 0
b 0, 013
formellement t = 1 = ou t  3, 25 . On a t f t0,025 ( 9 ) , ou 3, 25 f 2, 262 . Alors on
Sb1 0, 004
rejette H0. C'est-à-dire que le revenu X contribue à expliquer la consommation de riz dans la
ville de Monorovia en 1986.

4.6- Test et IC unilatéraux

Il y a deux types de tests unilatéraux.

 H 0 : β1 = c
Type 1. On pose 
 H1 : β1 p c
On a tc= t calculé; t=t(1-α)=-tα . Si tc<-tα, on rejette H0.

 H 0 : β1 = c
Type 2. On pose 
 H1 : β1 f c
Si tc>tα, on rejette H0.
b1 − c
Dans tous les cas la statistique à étudier est celle de t avec t = → t ( n − 2 ) . La valeur
Sb1
théorique de t(n-2) à utiliser n’est plus tα mais tα .
2

 H 0 : β1 = 1 b − 1 0, 013 − 1
Exemple dans le cas de Monorovia on pose:  ; on a t = 1 = .
 H1 : β1 p 1 Sb1 0, 004
Soit t  −246, 75 . On a aussi –t0,05=-1,833. Comparons t à –t0,05.
On voit que t<–t0,05 ou (-246,75<-1,833). Alors, on rejette de H0. La pmc est inférieure à 1 à
Monorovia en 1986.

Il y a deux types d’IC unilatéraux:


type1: intervalle ]¨−∞; LD ] , LD= limite droite;
type2: intervalle [ LG; +∞[ , LG= limite gauche.
Les IC de type1 implique β1 ≤ LD , avec 100(1-α)% de confiance. Les IC de type2
implique β1 ≥ LG , avec 100(1-α)% de confiance.

12
Type1 Type2

Exemple.
IC type1: β1 ≤ LD , avec 95% de confiance. β1 ≤ b1 + Sb1 * t0,05 ( 9 ) . Ce qui donne
β1 ≤ 0, 013 + ( 0, 004 ) * (1,833) ; β1 ≤ 0, 020332 avec 95% de confiance.

IC type2: β1 ≥ LG , avec 95% de confiance. β1 ≥ b1 − Sb1 * t0,05 ( 9 ) . Ce qui donne


β1 ≥ 0, 013 − ( 0, 004 ) * (1,833) ; β1 ≥ 0, 0057 avec 95% de confiance.
A partir des tests unilatéraux on peut reconstruire le test bilatéral, à savoir
que 0, 0057 ≤ β1 ≤ 0, 020332 , avec 90% de confiance. En rappel l’IC à 95% est
0, 00395 p β1 p 0, 02205 .
Alors l’IC de type1 permet de tester les tests unilatéraux de type1. Les résultats montrent
que β1 ≤ 0, 020332 dans 95% des cas. Ce qui confirme le résultat du test unilatéral.

4.7- Analyse de la variance et test de régression

Les logiciels présentent les résultats de la régression sous forme d’analyse de la variance.
L’analyse de la variance peut être aussi utilisée pour tester la signification de la régression.
Ceci est surtout utile dans le modèle de régression multiple.

On sait que 1
b − β1 ∑ ei2
→ N ( 0.1) et que 2 → λ 2 ( n − 2 ) . On peut construire la statistique
σb 1
σ
( b1 − β1 ) σ b2 ( b1 − β1 ) σ 2 ∑ xi2 ( b1 − β1 ) ∑ xi2
2 2 2

F= ⇒F=
1
⇒F= → F (1; n − 2 ) .
∑ ei2 σ 2 / ( n − 2 ) ∑ ei2 σ 2 / ( n − 2 ) ∑ ei2 ( n − 2 )
Sous H0, F =
b12 ∑x
2
i
→ F (1; n − 2 ) . On sait que SCE = b12 * ∑ xi2 et SCR = ∑ ei2 .
∑ e ( n − 2)
2
i

SCE 1
Alors F = → F (1; n − 2 ) . Au niveau α on rejette H0 si F «élevé» c'est-à-dire
SCR ( n − 2 )
si F f Fα (1; n − 2 ) .

(graphique)

Soit les données de Monorovia au Libéria. On a STC = ∑ (Yi − Y ) = 698,19


2
et
SCR = 312,092 ; ce qui donne SCE = STC − SCR ⇒ 698,19 − 312, 092 = 386, 090 . Ainsi on a
SCE 386, 090
R2 = =  0,553 ; soit R 2  0,553 = 55,30% . Ce qui veut dire que 55,30% des
STC 698,19
variations de la consommation alimentaire à Monorovia en 1986 est expliquée par le revenu.

13
SCE 1 386, 090
F= = = 11,134 , soit F = 11,134 . F0,05 (1;9 ) = 5,12 . On voit
SCR ( n − 2 ) 312, 092 9
que F f Fα , soit 11,134 f 5,12 . On rejette donc H0.

Régression et corrélation
Il existe une relation entre le coefficient de corrélation r et les EMC.
1 
∑ y 2 σ Y
b1 =
∑ xy = ∑ xy ¨*
n  σ
, donc b1 = rXY * Y , avec σ X et σ Y les écarts-
∑ x 1442443
2
∑x * ∑y
2 2
1  σX
rXY n
∑ x 2 σ X

types de X et Y.
Dans la régression simple rXY = ± R 2 et le signe dépend du signe de b1 .

σ
rXY = b1 * X ⇒ rXY = b1 *
∑x 2

⇒ R =b
2 2
*
∑x 2

= rXY
2
.
σY ∑y ∑y
2 1 2

4.9- Régression et prédiction


Une des utilisations des résultats de la régression est la prédiction des valeurs des variables
expliquées pour des valeurs données de la variable explicative. Il peut s’agir comme dans le
cas de Monorovia au Libéria, de la prédiction du niveau de la consommation alimentaire pour
un niveau donné de revenu.

Soit Y0 la valeur prédite de la variable expliquée (consommation) et X0 la valeur donnée de la


variable X (revenu). X0 peut faire partie des valeurs observées ou non.
La valeur prédite en X0 est Yˆ0 = b0 + b1 * X 0 . Le vrai modèle est Y0 = β 0 + β1 * X 0 + u0 , avec
u0 la valeur de l’erreur de la prédiction de l’unité considérée.
( )
L’erreur de prédiction est e0 = Yˆ0 − Y0 = b0 + b1 * X 0 − ( β 0 + β1 * X 0 + u0 ) ⇒
e0 = ( b0 − β 0 ) + ( b1 − β1 ) * X 0 − u0 .

Propriétés
Espérance de l’erreur

E ( e0 ) = E ( b0 − β 0 ) + X 0 * ( b1 − β1 ) − E ( u0 )
 
= E ( b0 ) − β 0 + X 0 *  E ( b1 ) − β1  − 0
{ { 
β0  β1 
= β 0 − β 0 + X 0 * ( β1 − β1 ) − 0
E ( e0 ) = 0 + 0 − 0 = 0 .

( ) ( )
Ainsi, E ( e0 ) = 0 ⇒ E Yˆ0 − Y0 = 0 ⇒ E Yˆ0 − E (Y0 ) = 0

( ) ( )
⇒ E Yˆ0 = E ( Y0 ) ⇒ E Yˆ0 = Y0 , c'est-à-dire que la prédiction est sans biais.

14
Variance de l’erreur

V ( e0 ) = V ( b0 − β 0 ) + X 02 *V ( b1 − β1 ) + V ( u0 ) + 2COV ( b0 ; b1 ) X 0
= V ( b0 ) + X 02 *V ( b1 ) + V ( u0 ) + 2 X 0 * COV ( b0 ; b1 )
1 X2  σ2 X
=σ2 + + * X 02 + σ 2 − 2 X 0 * *σ 2
 n ∑ x 2  ∑ x 2 ∑ x 2
 
1 ( ) 
2
 1 X 2
X 2
2 X X  X − X
V ( e0 ) = σ 2  + 1 + + − ( ) = σ 2
+ + .
0
0 0
 ⇒ V e 1
n ∑ ∑x 2
x 2
∑ x 2  0
 n ∑ x 2
 
La variance de l’erreur de prédiction est minimum quand X 0 = X . Ainsi la prédiction à la
moyenne du régresseur est la meilleure. Au fur et à mesure que X 0 s’éloigne de X , la
variance augmente de manière non linéaire. Nous n’avons aucun contrôle sur σ 2 ni sur n. Par
contre c’est nous qui choisissons X 0 .

Intervalle de confiance pour Y0

(
e0 = Yˆ0 − Y0 ) est une variable normale car Ŷ0 et Y0 sont des variables normales. De
Ŷ − Y Yˆ0 − Y0
( )
plus E Yˆ0 = Y0 . Donc Z = 0 0 ⇒ Z =
V ( e0 )
→ N ( 0;1) .
(X − X )
2
1
σ * 1+ +
0

n ∑x 2

Comme σ est inconnu, on le remplace par son estimateur sans biais S = ∑e 2


i n−2 .
Yˆ0 − Y0 Yˆ0 − Y0
t= → t ( n − 2 ) , ou t = → t ( n − 2 ) On peut déterminer un IC
1 ( X0 − X )
2 Se0
S * 1+ +
n ∑ x2
pour Y0 avec un coefficient de (1 − α ) .

2


Yˆ − Y
Se0

2 
 2
(
Pour tα , on a P  −tα p 0 0 p tα  = 1 − α ⇒ P −tα * Se0 p Yˆ0 − Y0 p tα * Se0 = 1 − α
 2 2
)
( )
⇒ P Yˆ0 − tα * S e0 p Y0 p Yˆ0 + tα * Se0 = 1 − α .
2 2

1 ( X0 − X )
2

L’IC à 100 * (1 − α ) % pour Y0 est Y0 = Yˆ0 ± tα * Se0 ⇒ Y0 = Yˆ0 ± tα * S * 1 + + .


2 2 n ∑ x2

15
Application

Soit le modèle estimé de Monorovia au Libéria en 1986, Yˆ = 23,32 + 0, 013* X et soit


X 0 = 100 . On a Yˆ0 = 23,32 + 0, 013* (100 ) , soit Yˆ0 = 24, 62 .
1 ( ) 
2
X − X
V ( e0 ) , la variance de l’erreur de prédiction est estimée par Se20 = S 2  + 1 + .
0

n
 ∑ x 2

En rappel,

n X S2 ∑x 2

11 640,364 34,677 2281850,497

1 (100 − 640, 364 ) 


2

S = 34, 677 *  + 1 +
2
 ⇒ Se20 = 42, 267 ⇒ Se0 = 42, 267
e0
 11 2281850, 497 

⇒ Se0 = 6, 5013 , avec Se0 est l’erreur de prédiction.
Un IC à 95% de la prédiction est Y = Yˆ ± t * S .
0 0 α e0
2

Soit Y0 = 24, 62 ± t0,025 ( 9 ) * Se0 ⇒ Y0 = 24, 62 ± 2, 262*6,5013


⇒ Y0 = 24, 62 ± 2, 262*6,5013 ⇒ 9,914 ≤ Y0 ≤ 39,326 , avec 95% de confiance.

Pour X 0 = 640, 364 ,

THE END

16