Vous êtes sur la page 1sur 18

SEANCE N° 5

Chapitre 4 : Modèle de Régression Multiple : Inférence

Objectif : Effectuer les tests d’hypothèse sur un paramètre et une combinaison de


paramètres.

Contenu :

Dans ce chapitre consacré aux inférences statistiques, on effectue le test d’hypothèse


sur un paramètre c’est-à-dire le test individuel appelé test de student ensuite, on
construit les intervalles de confiance et enfin, on effectue les tests d’hypothèse sur une
combinaison linéaire des paramètres et les tests multiples de restrictions linéaires, c’est-
à-dire le test de Fisher.

4.1 Distribution d’échantillonnage des estimateurs MCO

La connaissance de l’espérance mathématique et de la variance des estimateurs MCO


est utile pour la description de la précision des estimateurs MCO. Cependant, dans le
but de performer l’inférence statistique, nous avons besoin de connaitre plus que les
deux moments de βˆj ; nous avons besoin de connaitre la totalité de la distribution
d’échantillonnage de βˆ . Même sous les hypothèses de Gauss-Markov, la distribution
j

de βˆj peut avoir virtuellement toutes les formes.

Quand nous posons des conditions sur les valeurs des variables indépendantes dans
notre échantillon, il est clair que les distributions d’échantillonnage des estimateurs
MCO dépendent de la distribution sous-jacente des erreurs. Pour faire les distributions
d’échantillonnage de βˆ tractable (c'est-à-dire susceptible d’être tiré), nous supposons
j

maintenant que l’erreur inobservée est normalement distribuée dans la population. Nous
appelons ceci l’hypothèse de normalité.

Pour faire de l’inférence statistique, nous avons besoins de formuler une hypothèse
supplémentaire:

MLR.6 : L’erreur du modèle de population u est indépendante des variables explicatives


x1, x2,…, xk et est normalement distribuée de moyenne nulle et de variance σ 2 :
( )
u ∼ N 0, σ 2 .
L’hypothèse MLR.6 est supérieure à toutes nos précédentes hypothèses. En fait, si u
est indépendant de xj sous MLR.6, Ε (u x 1 , x 2 ,..., x k ) = Ε (u ) = 0 , et
Var (u x 1 , x 2 ,..., x k ) =Var (u ) = σ 2 . Ainsi, en formulant l’hypothèse MLR.6, nous
intégrons automatiquement MLR.3 et MLR.5. Pour prendre en compte cela, nous
supposons, que nous nous référerons à la totalité des hypothèses de MLR.1 à MLR.6.

Pour les applications de la régression sur les données transversales, les six hypothèses
de MLR.1 à MLR.6 sont appelées hypothèses du Modèle Linéaire Classique (MLC).
Ainsi, nous nous référerons au modèle sous ces six hypothèses comme le Modèle Linéaire
Classique. Il est mieux de penser aux hypothèses MLC comme contenant toutes les
hypothèses de Gauss-Markov plus l’hypothèse du terme d’erreur normalement
distribué.

Sous les hypothèses MLC, les estimateurs βˆ0 , βˆ1 ,..., βˆk ont une grande propriété
d’efficacité que sous les hypothèses de Gauss-Markov. On peut montrer que les
estimateurs MCO sont des estimateurs non biaisés à variance minimum, qui signifie
que les MCO ont la plus petite variance dans la classe des estimateurs non biaisés.

La manière la plus simple de résumer les hypothèses MLC est :

y X ∼ Ν ( β0 + β1x1 + β2x2 +K + βk xk , σ2 )

où x est encore représenté par (x1, x2,…, xk). Ainsi, conditionnellement à x, y suit une
distribution normale de moyenne linéaire dans x1, x2,…, xk et de variance constante.
Pour une seule variable indépendante x, cette situation est représentée sur la figure
4.1 :

2
Figure 4.1
Distribution normale homoscédastique avec une seule variable explicative

Distributions normales

L’argument justifiant la distribution normale des erreurs ressemble d’habitude à


quelque chose comme suit : du fait que u est la somme de plusieurs différents facteurs
inobservables affectant y, nous pouvons faire appel au Théorème Central Limite (TCL)
pour conclure que u a une distribution normale approximative. Cet argument à
quelques mérites, mais il n’est pas sans faiblesse. D’abord, les facteurs contenus dans u
ont des distributions très différentes dans la population (par exemple, l’habileté et la
qualité d’éducation contenues dans l’erreur d’une équation de salaire). Bien que le TCL
puisse toujours prévaloir dans ces cas, l’approximation normale peut être faiblement
dépendante du nombre de facteurs contenus dans u et de la diversité de leurs
distributions.

Un problème plus sérieux avec l’argument du TCL est qu’il suppose que tous les
facteurs inobservables affectent y de façon séparée et additive. Rien ne garantit que ce
soit ainsi. Si u est une fonction complexe des facteurs inobservables, alors l’argument
du TCL ne s’applique pas réellement.

La normalité du terme d’erreur traduite en distributions normales d’échantillonnage


des estimateurs MCO :

Théorème 4.1 : Sous les hypothèses MLC de MLR.1 à MLR.6, conditionnellement aux
valeurs dans l’échantillon des variables explicatives,

3
 ( )
βˆ j ∼ N β j , Var βˆ j 

(1)

( ) sd ( βˆ ) ∼ N ( 0,1) .
Donc, βˆ j − β j j

Rappelons que Var ( βˆ ) =


σ2 σ2
= , ∀j = 0, 1, ..., k
j

∑ (x
n

ij (
− x j ) 1− Rj2
2
) (
STC j 1− Rj2 )
i =1

( )
et sd βˆ j = Var βˆ j . ( )
n
Preuve : Chaque βˆj peut être réécrite comme suit βˆ j = β j + ∑ wij ui , où wij = rˆij SCR j
i =1
ème
, rˆij est le i résidu de la régression de xj sur toutes autres variables indépendantes, et
SCR j est la somme des carrés des résidus de cette régression (voir par exemple
 n   n 
l’équation βˆ1 = β1 +  ∑ rˆi 1ui   ∑ rˆi21  ). Si les wij dépendent seulement des variables
 i =1   i =1 
indépendantes, elles peuvent être traitées comme non aléatoire. Ainsi, βˆj est juste une
combinaison linéaire des erreurs dans l’échantillon, {ui : i = 1, . . . , n} . Sous l’hypothèse
MLR.6 (et l’hypothèse MLR.2 d’échantillonnage aléatoire), les erreurs sont des
variables aléatoires indépendamment et identiquement distribuées, N(0,1). Un fait
important concernant les variables aléatoires normales indépendantes est qu’une
combinaison linéaire de chaque variable aléatoire est normalement distribuée.

La seconde partie de ce théorème provient immédiatement du fait que quand nous


normalisons une variable en la divisant par sa écart-type, nous arrivons à une variable
aléatoire normale standard.

La conclusion du théorème 4.1 peut être consolidée. En plus de (1), toute combinaison
linéaire de βˆ0 , βˆ1 , , βˆk est alors normalement distribuée, et tout βˆj a une distribution
normale jointe.

4.2 Tests d’hypothèse sur un coefficient individuel : Test t

Cette sous-section couvre un sujet très important des tests d’hypothèses de tout
paramètre individuel (communément appelé test de student) dans le modèle de
régression de population qui peut être écrit comme suite :

y = β0 + β1x1 + β2x 2 + β3x 3 +K + βk x k + u (2)

4
et nous supposons qu’il satisfait les hypothèses MLC. Nous étudions ici comment tester
βj
les hypothèses sur un particulier. Pour une meilleure compréhension des tests
βj
d’hypothèses, on doit se rappeler que les sont des paramètres inconnus de la
population, et nous ne les connaitrons jamais avec certitude. Néanmoins, nous pouvons
βj
formuler des hypothèses sur les valeurs de et utiliser l’inférence statistique pour
tester nos hypothèses.

Dans le but de construire les tests d’hypothèses, nous avons besoin du résultat suivant
:

Théorème 4.2 : (t-statistique pour les estimateurs standards)


Sous les hypothèses du MLC (MLR.1-MLR.6),

( βˆ − β ) se ( βˆ ) ∼ t
j j j n −k −1 (3)

où k+1 est le nombre de paramètre inconnu dans le modèle de population (2).

Rappelons que se βˆ j =( ) σˆ 2
=
σˆ 2
(
, ∀j = 0, 1, ..., k .
)
∑ (x ( )
n
− x j ) 1− Rj2 STC j 1− Rj2
2
ij
i =1

Preuve : Comme sd βˆ j = ( ) σ2
( )
et se βˆ j =
σˆ 2
− x j ) (1 − R ) − x j ) (1 − Rj2 )
n n

∑ (x ∑ (x
2 2 2
ij j ij
i =1 i =1

( )= ( )
se βˆ j se βˆj
( )
Alors : sd βˆ j =
σˆ 2 σ 2 σˆ σ

( βˆ − β ) ∼ N ( 0,1)
j j

Donc,
( βˆ − β ) = sd ( βˆ )
j j j
∼t
se ( βˆ ) 2 2 2 n−k −1
j σˆ σ ∼ χ n−k −1

∑ uˆ 2
i
SCR n
Car on sait que σˆ 2 = i =1
n −k −1

n − k −1
, donc ∑ uˆ
i =1
2
i est la somme de ( n − k − 1 )

1
variables indépendantes au carré, ce qui implique que σˆ 2 ∼ χn2−k−1 . Si le degré
n−k −1
de liberté (df) tend vers ∞, tfd ∼ N ( 0,1) .

5
Le théorème 4.2 est important en ce qu’il nous permet de tester les hypothèses
βj
concernant . Dans la plupart des applications, nous nous intéressons en premier lieu
au test d’hypothèse nulle :

H 0 : βj = 0 (4)

Il s’agit dans ce test, après avoir contrôlé l’effet des autres variables, de voir si xj a un
effet sur y.

Comme exemple, considérons l’équation du salaire :

wage = β0 + β1educ + β2exper + β3 format + u

L’hypothèse nulle H 0 : β2 = 0 signifie qu’une fois l’éducation (educ) et la formation


(format) ont été prises en compte, l’expérience (exper) n’a aucun effet sur le salaire.
On parle en fait des paramètres. Dans cet exemple, le t-statistique est :
βˆ −0 βˆ2
tβˆ ≡ 2 ≡
2
se βˆ ( )
se βˆ
2 ( )
2

Dans le cas général, le t-statistique est donné par la relation :

βˆ j
tβˆ ≡
j
( )
se βˆ j

Il faut noter que même sous l’hypothèse H 0 : β j = 0 , β̂j ne sera jamais égale à zéro,
que H 0 soit vraie ou pas. Nous cherchons en fait dans ce test une règle de décision
pour rejeter H 0 avec un certain niveau de significativité. La détermination d’une règle
de décision pour rejeter H 0 à un niveau de significativité (c'est-à-dire la probabilité de
rejeter H 0 quand c’est vraie) requiert la connaissance de la distribution de l’échantillon
de t β̂ quand H 0 est vraie. Nous l’avions désigné par tn−k −1 dans le théorème 4.2. C’est
j

la clef du résultat théorique recherché dans le test H 0 : β j = 0 .

• Hypothèse alternative H1

Dans le but de déterminer la règle de décision qui permet de rejeter H 0 , nous avons
besoin d’une hypothèse alternative H1 formulée comme suit :

H 1 : βj > 0 ou H 1 : βj < 0 (alternative unilatérale).

6
H 1 : βj ≠ 0 (alternative bilatérale).

Il faut décider d’un niveau de significativité ou de probabilité de rejet de H 0 quand


elle est en fait vraie. De façon concrète, supposer que nous avons choisi le niveau de
significativité de 5% (seuil généralement retenu).

( )
Si on spécifie H 1 : βj > 0 et que E t β̂ = 0 sous H 0 , alors que sous H1 , E t β̂ > 0 , on
j
( )j

rejet H 0 uniquement si t β̂ est suffisamment supérieur à zéro (c’est un exemple de test


j

unilatéral). La définition suffisamment large, avec un niveau de significativité de 5%,


est le 95ème percentile dans un t-statistique à n−k−1 degré de liberté ; appelons le c.
Cette valeur c représente la valeur critique. Pour l’obtenir, on a seulement besoin du
niveau de significativité et du degré de liberté. Par exemple, pour un niveau de
significativité de 5% et un degré de liberté n−k−1 = 28, la valeur critique c = 1,701
(voir les tables statistiques).

Si t β̂ > c , il faut choisir c de telle manière à rejeter H 0 en faveur de H1 (voir la figure


j

4.2 pour c = 1,701 obtenue au seuil de significativité de 5% à 28 degré de liberté).

Figure 4.2
5% de rejet pour l’hypothèse alternative H1 : βj >0 à 28 degré de liberté

Aire = 0, 05

1,701 Région
de rejet

( )
Si on spécifie maintenant H 1 : βj < 0 et que E t β̂ = 0 sous H 0 , alors que sous H1 ,
j

( )
E t β̂ < 0 , on rejet H 0 uniquement si t β̂ est suffisamment inférieur à zéro (c’est aussi
j j

7
un exemple de test unilatéral). Si t β̂ < c , il faut choisir c de telle manière à rejeter H 0
j

en faveur de H1 (voir la figure 4.3 pour c =−1,734 obtenue au seuil de significativité


de 5% à 18 degrés de liberté 18).

Figure 4.3
5% de rejet pour l’hypothèse alternative H1 : βj <0 à 18 degré de liberté

Aire = 0, 05

Région -1,734
de rejet

( )
Si on spécifie enfin H 1 : βj ≠ 0 et que E tβ̂ = 0 sous H 0 , alors que sous H1 , E t β̂ < 0
j
( )
j

( )
ou E t β̂ > 0 , on rejet H 0 uniquement si t β̂ est suffisamment inférieur ou supérieur à
j j

zéro (c’est un exemple de test bilatéral). Si t β̂ > c , il faut choisir c de telle sorte à
j

rejeter H 0 en faveur de H1 . C’est le 97,5ème percentile dans un t-statistique à


n−k−1 degré de liberté. Quand n−k−1 = 25, la valeur critique au seuil de 5% est c =
2,060 (voir la figure 4.4).

8
Figure 4.4
5% de rejet pour l’hypothèse alternative H1 : βj ≠ 0 à 25 degré de liberté

Aire = 0,025 Aire = 0,025

Région -2,06 2,06 Région


de rejet de rejet

• Tester d’autres hypothèses sur β j

Nous avons besoin parfois de tester si β j est égale à une certaine constante autre que
zéro. Deux exemples courants sont β j = 1 et βj = −1 . Généralement, l’hypothèse nulle
est formulée comme suit : H 0 : β j = a j où aj est notre valeur hypothétique de β j , alors
βˆ −a j
tβˆ = j . Les hypothèses alternatives sont H 1 : β j > a j , H 1 : β j < a j ou H 1 : β j ≠ a j .
j
( )
se βˆ j
Si l’hypothèse alternative est H 1 : β j > a j , alors on rejette H 0 en faveur de H1 au seuil
de significativité appropriée si t > c. Dans ce cas, on dira que β̂j est statistiquement
plus grand que 1 au niveau de significativité appropriée.

• Calcul des valeurs de probabilité (p-valeurs) des tests t

Précédemment, nous avons choisi, comme c’est le cas habituellement, le niveau de


significativité de 5%. Les niveaux de significativité de 1% et de 10% sont souvent
également choisis. Ces seuils de significativité sont souvent supposés corrects. Différents
chercheurs préfèrent différents niveaux de significativité, dépendant d’application
particulière. Il n’y a pas un niveau de significativité qui soit correct. Nous cherchons à
calculer le plus petit niveau de significativité auquel H 0 serait rejetée.

9
H 0 : βj = 0
H 1 : βj ≠ 0

Dans ce cas, la valeur de probabilité (p-valeur) du test t est P ( T > t ) où, pour la
clarté, T désigne une distribution t de la variable aléatoire à n−k−1 degré de liberté (
Τ ∼ tn−k−1 ) et t la valeur numérique du test statistique.

Dans l’exemple de la figure 4.5, df = 40 et t = 1,85.


p - valeur = P ( T > 1,85 ) = 2P (T > 1, 85 ) = 2 ( 0, 0359 ) = 0, 0718

Figure 4.5
Obtention de p-valeur contre l’alternative H1 : βj ≠ 0, quand t = 1,85 et df = 40
Aire = 0,9282

Aire = 0,0359 Aire = 0,0359

-1,85 1,85

En ce qui concerne le langage du test des hypothèses classiques, quand H 0 n’est pas
rejeté, on prefère dire ‘‘on ne rejette pas H 0 au seuil de α % ’’ plutôt que de dire ‘‘on
accepte H 0 au seuil de α % ’’. En effet, on peut tester l’estimateur d’un paramatre par
rapport à différents coefficients ou valeurs spécifiées dans H 0 et que toutes soient
rejeter en même temps. Du fait que toutes ces hypothèses ne peuvent être vraies en
même temps, cela n’a aussi aucun sens de dire qu’on ‘‘accepte’’ toutes ces hypothèses
nulles pour le même estimateur. Tout ce que nous pouvons dire c’est que les données
ne nous permettent pas de rejeter chacune de ces hypothèses au seuil de significativité
appropriée.

10
Quand on ne rejette pas H 0 au seuil de α %, cela a un sens statistique et non
économique. Economiquement, la valeur de β̂j peut toutefois être non significative (car
de faible ampleur).

4.3 Intervalles de confiance

Sous les hypothèses du modèle linéaire classique, nous pouvons construire un intervalle
de confiance autour du paramètre de la population β j (voir figure 4.6).

On sait que t βˆ ≡
( βˆ − β ) ∼ t
j j

se ( βˆ )
j
n−k −1
j

 βˆ − β j 
Pr −cα 2 ≤ j ≤ cα 2  = 1− α


se βˆ j ( )


( )
⇔ Pr βˆj −cα 2se βˆj ≤ βj ≤ βˆj +cα 2se βˆj  = 1− α
  ( )
Figure 4.6
Construction de l’intervalle de confiance autour de βj au seuil de α %

Non rejet de H0

1−α
Rejet de H0 Rejet de H0

α/2 α/2

−cα/2 cα/2

Ainsi, par exemple, lorsque df = n−k−1 = 25 alors l’intervalle de confiance à 95% de

( )
β j est βˆ j −2,06 × se βˆ j ; βˆj +2,06 × se βˆj  .
  ( )
Lorsqu’on formule H 0 : β j = a j contre H 1 : β j ≠ a j , si a j n’est pas dans l’intervalle de
confiance à 95%, on rejette H 0 au seuil de 5%.

11
4.4 Test d’hypothèse sur une combinaison linéaire des paramètres

Il s’agit dans cette section de tester une hypothèse simple impliquant plus d’un
paramètre de β j . Pour illustrer l’approche générale, nous considérons un simple modèle
permettant de comparer les revenus de l’éducation dans une école supérieure de cycle
court et de cycle long (université) :

log (wage ) = β0 + β1 jc + β2univ + β3exper + u (5)

où jc et univ sont respectivement le nombre d’années passées dans une école


supérieure de cycle court et de cycle long.

En formulant H 0 : β1 = β2 contre H 1 : β1 < β2 cela équivaut à H 0 : β1 − β2 = 0 contre


H 1 : β1 − β2 < 0 .

βˆ1 − βˆ2
t βˆ −βˆ =
1 2
(
se βˆ − βˆ
1 2 )
( ) ( ) ( )
où se βˆ1 − βˆ2 = Var βˆ1 − βˆ2 = Var βˆ1 +Var βˆ2 − 2Cov βˆ1 ,βˆ2 ( ) ( ) peut être calculé
en estimant la matrice de variance covariance des paramètres de modèle (5).
On rejet H 0 au seuil de significativité appropriée si t βˆ − βˆ <−c.
1 2

Exemple : Relation entre le Poids et la Taille (Suite)


yˆi = −17,26+0,51xi

( )
ˆ βˆ1 = 0,01 ⇒ Var
Var ˆ βˆ1 = 0,12 ( )
( )
ˆ βˆ0 = 389,98 ⇒ Var
Var ˆ βˆ0 = 19,75 ( )
Test individuel sur les estimateurs β̂1 et β̂0

Η0 : β1 = 0

Η1 : β1 ≠ 0

βˆ1 −0 0,51
tβˆ = = = 4,29 ∼ tn −k −1
1
( )
se βˆ1 0,12

n =10 ⇒ c = 2,228

12
t βˆ > c ⇒ Rejet de l’hypothèse Η0 au seuil de 5%. Donc, β̂1 est significatif au seuil de
1

de 5%.

Η0 : β0 = 0

Η1 : β0 ≠ 0

βˆ0 −17,35
tβˆ = = = −0,879 ∼ tn −k −1
0
( )
se βˆ0 19,74

t βˆ = −0, 879 <2,228 ⇒ Non rejet de Η0 . Donc, β̂0 n’est pas significatif au seuil de 5%.
0

Intervalles de confiance β1 et β 0

( ) ( )
⇒ βˆ0 −cα 2se βˆ0 ≤ β0 ≤ βˆ0 + cα 2se βˆ0
−17,26− 2,228 ∗ 19,75 ≤ β0 ≤ −17,26 + 2,228 ∗19,75
−61,263 ≤ β0 ≤ 26,743 ⇔ β0 ∈ [−61,263;26,743]

( ) ( )
⇒ βˆ1 −cα 2se βˆ1 ≤ β1 ≤ βˆ1 + cα 2se βˆ1
0,51− 2,228 ∗ 0,12 ≤ β1 ≤ 0,51+ 2,228 ∗ 0,12
0,24264 ≤ β1 ≤ 0,77736 ⇔ β1 ∈ [ 0,24264;0,77736]

Exemple : Relation entre le salaire, l’éducation et l’expérience (Suite)

 = 1525,99 + 4, 89educ −72,39exper


wage

 
Var (βˆ2 ) = 130, 35429 ⇒ Var (βˆ2 ) = 11, 41728

 
Var (βˆ1 ) = 33, 424172 ⇒ Var (βˆ1 ) = 5,7813

 
Var (βˆ0 ) = 38334,187 ⇒ Var (βˆ0 ) = 195,7912

Η0 : β2 = 0

Η1 : β2 <0

−72,39
t βˆ = = −6,34 ∼ tn5%
−k −1 t25% = 2,92
2
11, 41

t βˆ <2,92 ⇒ −6,32< −2,92 ⇒ Rejet de H0 au seuil de 5%.


2

13
Test d’hypothèse sur la combinaison linéaire des paramètres βˆ1 − βˆ2

H 0 : β1 = β2 ⇔ H 0 : β1 − β2 = 0
βˆ1 − βˆ2
tβˆ −βˆ = ∼ tn5%
1 2
( ˆ )
se β1 − β2 ˆ −k −1

se ( βˆ − βˆ ) = Var ( βˆ − βˆ ) = Var ( βˆ ) +Var ( βˆ ) − 2Cov ( βˆ ,βˆ )


1 2 1 2 1 2 1 2

En supposant que Cov ( βˆ , βˆ ) = 0 , on aura :


1 2

se ( βˆ − βˆ ) = Var ( βˆ − βˆ ) = Var ( βˆ ) +Var ( βˆ )


1 2 1 2 1 2

4,89− ( −72,39 )
t βˆ −βˆ = = 6,0386 ∼ tn5%
−k −1 t25% = 4,303
1 2
33,424172 +130,35429

t βˆ > 4,303 ⇒ 6, 0386 > 4,303 ⇒ Rejet de H0 au seuil de 5%. Donc, βˆ1 est égale à βˆ2 au
2

seuil de 5%.

4.5 Tests multiples de restrictions linéaires : Test de Fisher

Il s’agit de tester des hypothèses multiples sur les paramètres β0 , β1 ,..., βk . Par exemple,
dans le cas du modèle (5) on peut formuler H 0 : β2 = 0, β3 = 0 ; si sous
H 1 : β2 ≠ 0, β3 ≠ 0, alors H 0 n’est pas vraie. L’hypothèse nulle H 0 constitue les deux
restrictions exclusives (contraintes exclusives), c'est-à-dire que si H 0 est vraie, alors
univ et exper n’ont aucun effet sur log(wage) après que jc ait été contrôlée et donc
seront exclues du modèle. C’est juste un exemple d’un ensemble de restrictions
multiples parce que nous avions imposé plus d’une contrainte sur les paramètres du
modèle (5). Un test de restrictions multiples est appelé ‘‘test d’hypothèses multiples’’
ou ‘‘test d’hypothèses jointes’’.

Sous, l’hypothèse H 0 le modèle (5) appelé généralement ‘‘modèle non contraint’’ donne
le ‘‘modèle contraint’’ suivant :

log (wage ) = β0 + β1 jc + u (6)

A présent, nous allons formuler le test d’hypothèses dans le cas général. Nous écrivons
le modèle non contraint avec k variables indépendantes :

y = β0 + β1x1 + β2x 2 + β3x 3 +K + βk x k + u (7)

14
Le nombre de paramètre est k+1. Supposer que nous avons q restrictions exclusives à
tester. Pour la simplicité de la notation, supposer que c’est les q dernières variables
dans la liste des variables indépendantes : xk−q+1 ,..., xk . L’hypothèse nulle est :

H 0 : βk −q +1 = 0,..., βk = 0 (8)

Sous l’hypothèse H 0 le modèle contraint est le suivant :

y = β0 + β1x1 + β2x2 + β3x 3 +K+ βk −q xk −q + u (9)

Le test statistique appelé ‘‘F-statistique’’ est un test de Fisher qui est défini comme
suit :

F≡
( SCRc − SCRnc ) q (10)
SCR nc (n − k − 1)

où SCRc est la somme du carré des résidus du modèle contraint et SCRnc la somme
du carré des résidus du modèle non-contraint.

La procédure de calcul de (10) s’inscrit en trois étapes : (i) on estime le modèle non
contraint à k+1 paramètres, (ii) on estime le modèle contraint à k−q+1 paramètres et
(iii) on calcule le F-statistique.

Sous H 0 , F ∼ Fq ,n−k−1 où F est la statistique de Fisher.

L’équation (10) peut encore s’écrire :

F≡
(R 2
nc − Rc2 ) q
(1− R ) (n − k − 1)
2
nc

A travers cette écriture, il apparait que F sera toujours positif.

15
• Distribution de Fisher

Figure 4.7
Valeur critique à 5% et région de rejet dans une distribution de F3,60

Aire = 0,95

Aire = 0,05

Région
2,76
de rejet

On rejet H 0 au seuil approprié α% (dans notre exemple 5%), si F > cα (dans notre
exemple F > 2,76 , voir figure 4.7), où c = Fq,nα −k −1 . Si on rejette H 0 , Cela signifie qu’au
moins un des paramètres est différent de zéro.

• Relation entre les tests F et t

Si on choisit d’effectuer le test F en formulant H 0 : β j = a j contre H 1 : β j ≠ a j , on peut


montrer que F = t2. Le fait que F1,n −k −1 = tn2−k −1 implique un résultat identique (c'est-à-
dire aussi la même p-valeur). Le test t est cependant plus flexible car il permet des
alternatives du type β j < a j ou β j > a j . Dans le contexte du test F, la p-valeur est
donnée par : p - valeur = Pr ( F > F ) , où F ∼ Fq ,n−k−1 (F est une variable aléatoire de
F à (q, n−k−1) degré de liberté et F la valeur actuelle du test statistique).

• Test F reporté par défaut

Dans un modèle à k variables indépendantes, on peut écrire l’hypothèse nulle comme


suit : H0 : x1 , x2,..., xk n’explique pas y. Ainsi, l’hypothèse nulle signifie qu’aucune des
variables explicatives n’affecte y. Retranscrit en terme des paramètres, l’hypothèse
nulle signifie que tous les paramètres sont nuls : H 0 : β1 = β2 = ... = βk = 0 . Sous cette

16
hypothèse avec k restrictions, le modèle contraint est : y = β0 + u . Alors, le F-statistique
R2 k
donne : F ≡ . C’est généralement ce test F qui est reporté par défaut
(1− R2 ) (n − k − 1)
à chaque régression incluant la constante β0 .

• Test sur les restrictions linéaires générales

Considérons le modèle de population suivant : y = β0 + β1x1 + β2x2 + β3x 3 + u . Sous


l’hypothèse nulle H 0 : β1 = 1, β2 = 0 , on a le modèle contraint suivant :

y − x1 = β0 + β3x 3 + u

En posant w = y − x 1 , on a le nouveau modèle suivant :

w = β0 + β3x 3 + u .
Sous H0 , F ∼ F2,n−3−1

Exemple : Relation entre le Poids et la Taille (Suite)

Η0 : β0 = β1 = 0

Η1 : Au moins un βj ≠ 0
R2
F= ∼ Fkα+1;n−k −1
(1− R ) 10−2
2

0,6976 2
F= = 9,22
(1 − 0,6976 ) 8
5%
F2;8 = 4,10

F > 4,10 ⇒ Rejet de Η0 . Tous les estimateurs sont globalement significatifs au seuil de
5%.

Exemple : Relation entre le salaire, l’éducation et l’expérience (Suite)

 = 1525,99 + 4, 89educ −72,39exper


wage

SCE 1250, 064


R 2 = 1− = 1− = 0,98
SCT 62503,2

Η0 : β0 = β1 = β2 = 0

Η1 : Au moins un βj ≠ 0

17
R2 0,98 2 5%
F= = = 49 ∼ F2;2 = 4,10
( )
1 − R 5−2−1 (1−0,98 ) 2
2

F > 4,10 ⇒ Rejet de Η0 . Tous les estimateurs sont globalement significatifs au seuil de
5%.

Activités : Traiter tous les exercices du TD N°3.

18

Vous aimerez peut-être aussi