Académique Documents
Professionnel Documents
Culture Documents
Contenu :
Quand nous posons des conditions sur les valeurs des variables indépendantes dans
notre échantillon, il est clair que les distributions d’échantillonnage des estimateurs
MCO dépendent de la distribution sous-jacente des erreurs. Pour faire les distributions
d’échantillonnage de βˆ tractable (c'est-à-dire susceptible d’être tiré), nous supposons
j
maintenant que l’erreur inobservée est normalement distribuée dans la population. Nous
appelons ceci l’hypothèse de normalité.
Pour faire de l’inférence statistique, nous avons besoins de formuler une hypothèse
supplémentaire:
Pour les applications de la régression sur les données transversales, les six hypothèses
de MLR.1 à MLR.6 sont appelées hypothèses du Modèle Linéaire Classique (MLC).
Ainsi, nous nous référerons au modèle sous ces six hypothèses comme le Modèle Linéaire
Classique. Il est mieux de penser aux hypothèses MLC comme contenant toutes les
hypothèses de Gauss-Markov plus l’hypothèse du terme d’erreur normalement
distribué.
Sous les hypothèses MLC, les estimateurs βˆ0 , βˆ1 ,..., βˆk ont une grande propriété
d’efficacité que sous les hypothèses de Gauss-Markov. On peut montrer que les
estimateurs MCO sont des estimateurs non biaisés à variance minimum, qui signifie
que les MCO ont la plus petite variance dans la classe des estimateurs non biaisés.
y X ∼ Ν ( β0 + β1x1 + β2x2 +K + βk xk , σ2 )
où x est encore représenté par (x1, x2,…, xk). Ainsi, conditionnellement à x, y suit une
distribution normale de moyenne linéaire dans x1, x2,…, xk et de variance constante.
Pour une seule variable indépendante x, cette situation est représentée sur la figure
4.1 :
2
Figure 4.1
Distribution normale homoscédastique avec une seule variable explicative
Distributions normales
Un problème plus sérieux avec l’argument du TCL est qu’il suppose que tous les
facteurs inobservables affectent y de façon séparée et additive. Rien ne garantit que ce
soit ainsi. Si u est une fonction complexe des facteurs inobservables, alors l’argument
du TCL ne s’applique pas réellement.
Théorème 4.1 : Sous les hypothèses MLC de MLR.1 à MLR.6, conditionnellement aux
valeurs dans l’échantillon des variables explicatives,
3
( )
βˆ j ∼ N β j , Var βˆ j
(1)
( ) sd ( βˆ ) ∼ N ( 0,1) .
Donc, βˆ j − β j j
∑ (x
n
ij (
− x j ) 1− Rj2
2
) (
STC j 1− Rj2 )
i =1
( )
et sd βˆ j = Var βˆ j . ( )
n
Preuve : Chaque βˆj peut être réécrite comme suit βˆ j = β j + ∑ wij ui , où wij = rˆij SCR j
i =1
ème
, rˆij est le i résidu de la régression de xj sur toutes autres variables indépendantes, et
SCR j est la somme des carrés des résidus de cette régression (voir par exemple
n n
l’équation βˆ1 = β1 + ∑ rˆi 1ui ∑ rˆi21 ). Si les wij dépendent seulement des variables
i =1 i =1
indépendantes, elles peuvent être traitées comme non aléatoire. Ainsi, βˆj est juste une
combinaison linéaire des erreurs dans l’échantillon, {ui : i = 1, . . . , n} . Sous l’hypothèse
MLR.6 (et l’hypothèse MLR.2 d’échantillonnage aléatoire), les erreurs sont des
variables aléatoires indépendamment et identiquement distribuées, N(0,1). Un fait
important concernant les variables aléatoires normales indépendantes est qu’une
combinaison linéaire de chaque variable aléatoire est normalement distribuée.
La conclusion du théorème 4.1 peut être consolidée. En plus de (1), toute combinaison
linéaire de βˆ0 , βˆ1 , , βˆk est alors normalement distribuée, et tout βˆj a une distribution
normale jointe.
Cette sous-section couvre un sujet très important des tests d’hypothèses de tout
paramètre individuel (communément appelé test de student) dans le modèle de
régression de population qui peut être écrit comme suite :
4
et nous supposons qu’il satisfait les hypothèses MLC. Nous étudions ici comment tester
βj
les hypothèses sur un particulier. Pour une meilleure compréhension des tests
βj
d’hypothèses, on doit se rappeler que les sont des paramètres inconnus de la
population, et nous ne les connaitrons jamais avec certitude. Néanmoins, nous pouvons
βj
formuler des hypothèses sur les valeurs de et utiliser l’inférence statistique pour
tester nos hypothèses.
Dans le but de construire les tests d’hypothèses, nous avons besoin du résultat suivant
:
( βˆ − β ) se ( βˆ ) ∼ t
j j j n −k −1 (3)
Rappelons que se βˆ j =( ) σˆ 2
=
σˆ 2
(
, ∀j = 0, 1, ..., k .
)
∑ (x ( )
n
− x j ) 1− Rj2 STC j 1− Rj2
2
ij
i =1
Preuve : Comme sd βˆ j = ( ) σ2
( )
et se βˆ j =
σˆ 2
− x j ) (1 − R ) − x j ) (1 − Rj2 )
n n
∑ (x ∑ (x
2 2 2
ij j ij
i =1 i =1
( )= ( )
se βˆ j se βˆj
( )
Alors : sd βˆ j =
σˆ 2 σ 2 σˆ σ
( βˆ − β ) ∼ N ( 0,1)
j j
Donc,
( βˆ − β ) = sd ( βˆ )
j j j
∼t
se ( βˆ ) 2 2 2 n−k −1
j σˆ σ ∼ χ n−k −1
∑ uˆ 2
i
SCR n
Car on sait que σˆ 2 = i =1
n −k −1
≡
n − k −1
, donc ∑ uˆ
i =1
2
i est la somme de ( n − k − 1 )
1
variables indépendantes au carré, ce qui implique que σˆ 2 ∼ χn2−k−1 . Si le degré
n−k −1
de liberté (df) tend vers ∞, tfd ∼ N ( 0,1) .
5
Le théorème 4.2 est important en ce qu’il nous permet de tester les hypothèses
βj
concernant . Dans la plupart des applications, nous nous intéressons en premier lieu
au test d’hypothèse nulle :
H 0 : βj = 0 (4)
Il s’agit dans ce test, après avoir contrôlé l’effet des autres variables, de voir si xj a un
effet sur y.
βˆ j
tβˆ ≡
j
( )
se βˆ j
Il faut noter que même sous l’hypothèse H 0 : β j = 0 , β̂j ne sera jamais égale à zéro,
que H 0 soit vraie ou pas. Nous cherchons en fait dans ce test une règle de décision
pour rejeter H 0 avec un certain niveau de significativité. La détermination d’une règle
de décision pour rejeter H 0 à un niveau de significativité (c'est-à-dire la probabilité de
rejeter H 0 quand c’est vraie) requiert la connaissance de la distribution de l’échantillon
de t β̂ quand H 0 est vraie. Nous l’avions désigné par tn−k −1 dans le théorème 4.2. C’est
j
• Hypothèse alternative H1
Dans le but de déterminer la règle de décision qui permet de rejeter H 0 , nous avons
besoin d’une hypothèse alternative H1 formulée comme suit :
6
H 1 : βj ≠ 0 (alternative bilatérale).
( )
Si on spécifie H 1 : βj > 0 et que E t β̂ = 0 sous H 0 , alors que sous H1 , E t β̂ > 0 , on
j
( )j
Figure 4.2
5% de rejet pour l’hypothèse alternative H1 : βj >0 à 28 degré de liberté
Aire = 0, 05
1,701 Région
de rejet
( )
Si on spécifie maintenant H 1 : βj < 0 et que E t β̂ = 0 sous H 0 , alors que sous H1 ,
j
( )
E t β̂ < 0 , on rejet H 0 uniquement si t β̂ est suffisamment inférieur à zéro (c’est aussi
j j
7
un exemple de test unilatéral). Si t β̂ < c , il faut choisir c de telle manière à rejeter H 0
j
Figure 4.3
5% de rejet pour l’hypothèse alternative H1 : βj <0 à 18 degré de liberté
Aire = 0, 05
Région -1,734
de rejet
( )
Si on spécifie enfin H 1 : βj ≠ 0 et que E tβ̂ = 0 sous H 0 , alors que sous H1 , E t β̂ < 0
j
( )
j
( )
ou E t β̂ > 0 , on rejet H 0 uniquement si t β̂ est suffisamment inférieur ou supérieur à
j j
zéro (c’est un exemple de test bilatéral). Si t β̂ > c , il faut choisir c de telle sorte à
j
8
Figure 4.4
5% de rejet pour l’hypothèse alternative H1 : βj ≠ 0 à 25 degré de liberté
Nous avons besoin parfois de tester si β j est égale à une certaine constante autre que
zéro. Deux exemples courants sont β j = 1 et βj = −1 . Généralement, l’hypothèse nulle
est formulée comme suit : H 0 : β j = a j où aj est notre valeur hypothétique de β j , alors
βˆ −a j
tβˆ = j . Les hypothèses alternatives sont H 1 : β j > a j , H 1 : β j < a j ou H 1 : β j ≠ a j .
j
( )
se βˆ j
Si l’hypothèse alternative est H 1 : β j > a j , alors on rejette H 0 en faveur de H1 au seuil
de significativité appropriée si t > c. Dans ce cas, on dira que β̂j est statistiquement
plus grand que 1 au niveau de significativité appropriée.
9
H 0 : βj = 0
H 1 : βj ≠ 0
Dans ce cas, la valeur de probabilité (p-valeur) du test t est P ( T > t ) où, pour la
clarté, T désigne une distribution t de la variable aléatoire à n−k−1 degré de liberté (
Τ ∼ tn−k−1 ) et t la valeur numérique du test statistique.
Figure 4.5
Obtention de p-valeur contre l’alternative H1 : βj ≠ 0, quand t = 1,85 et df = 40
Aire = 0,9282
-1,85 1,85
En ce qui concerne le langage du test des hypothèses classiques, quand H 0 n’est pas
rejeté, on prefère dire ‘‘on ne rejette pas H 0 au seuil de α % ’’ plutôt que de dire ‘‘on
accepte H 0 au seuil de α % ’’. En effet, on peut tester l’estimateur d’un paramatre par
rapport à différents coefficients ou valeurs spécifiées dans H 0 et que toutes soient
rejeter en même temps. Du fait que toutes ces hypothèses ne peuvent être vraies en
même temps, cela n’a aussi aucun sens de dire qu’on ‘‘accepte’’ toutes ces hypothèses
nulles pour le même estimateur. Tout ce que nous pouvons dire c’est que les données
ne nous permettent pas de rejeter chacune de ces hypothèses au seuil de significativité
appropriée.
10
Quand on ne rejette pas H 0 au seuil de α %, cela a un sens statistique et non
économique. Economiquement, la valeur de β̂j peut toutefois être non significative (car
de faible ampleur).
Sous les hypothèses du modèle linéaire classique, nous pouvons construire un intervalle
de confiance autour du paramètre de la population β j (voir figure 4.6).
On sait que t βˆ ≡
( βˆ − β ) ∼ t
j j
se ( βˆ )
j
n−k −1
j
βˆ − β j
Pr −cα 2 ≤ j ≤ cα 2 = 1− α
se βˆ j ( )
( )
⇔ Pr βˆj −cα 2se βˆj ≤ βj ≤ βˆj +cα 2se βˆj = 1− α
( )
Figure 4.6
Construction de l’intervalle de confiance autour de βj au seuil de α %
Non rejet de H0
1−α
Rejet de H0 Rejet de H0
α/2 α/2
−cα/2 cα/2
( )
β j est βˆ j −2,06 × se βˆ j ; βˆj +2,06 × se βˆj .
( )
Lorsqu’on formule H 0 : β j = a j contre H 1 : β j ≠ a j , si a j n’est pas dans l’intervalle de
confiance à 95%, on rejette H 0 au seuil de 5%.
11
4.4 Test d’hypothèse sur une combinaison linéaire des paramètres
Il s’agit dans cette section de tester une hypothèse simple impliquant plus d’un
paramètre de β j . Pour illustrer l’approche générale, nous considérons un simple modèle
permettant de comparer les revenus de l’éducation dans une école supérieure de cycle
court et de cycle long (université) :
βˆ1 − βˆ2
t βˆ −βˆ =
1 2
(
se βˆ − βˆ
1 2 )
( ) ( ) ( )
où se βˆ1 − βˆ2 = Var βˆ1 − βˆ2 = Var βˆ1 +Var βˆ2 − 2Cov βˆ1 ,βˆ2 ( ) ( ) peut être calculé
en estimant la matrice de variance covariance des paramètres de modèle (5).
On rejet H 0 au seuil de significativité appropriée si t βˆ − βˆ <−c.
1 2
( )
ˆ βˆ1 = 0,01 ⇒ Var
Var ˆ βˆ1 = 0,12 ( )
( )
ˆ βˆ0 = 389,98 ⇒ Var
Var ˆ βˆ0 = 19,75 ( )
Test individuel sur les estimateurs β̂1 et β̂0
Η0 : β1 = 0
Η1 : β1 ≠ 0
βˆ1 −0 0,51
tβˆ = = = 4,29 ∼ tn −k −1
1
( )
se βˆ1 0,12
n =10 ⇒ c = 2,228
12
t βˆ > c ⇒ Rejet de l’hypothèse Η0 au seuil de 5%. Donc, β̂1 est significatif au seuil de
1
de 5%.
Η0 : β0 = 0
Η1 : β0 ≠ 0
βˆ0 −17,35
tβˆ = = = −0,879 ∼ tn −k −1
0
( )
se βˆ0 19,74
t βˆ = −0, 879 <2,228 ⇒ Non rejet de Η0 . Donc, β̂0 n’est pas significatif au seuil de 5%.
0
Intervalles de confiance β1 et β 0
( ) ( )
⇒ βˆ0 −cα 2se βˆ0 ≤ β0 ≤ βˆ0 + cα 2se βˆ0
−17,26− 2,228 ∗ 19,75 ≤ β0 ≤ −17,26 + 2,228 ∗19,75
−61,263 ≤ β0 ≤ 26,743 ⇔ β0 ∈ [−61,263;26,743]
( ) ( )
⇒ βˆ1 −cα 2se βˆ1 ≤ β1 ≤ βˆ1 + cα 2se βˆ1
0,51− 2,228 ∗ 0,12 ≤ β1 ≤ 0,51+ 2,228 ∗ 0,12
0,24264 ≤ β1 ≤ 0,77736 ⇔ β1 ∈ [ 0,24264;0,77736]
Var (βˆ2 ) = 130, 35429 ⇒ Var (βˆ2 ) = 11, 41728
Var (βˆ1 ) = 33, 424172 ⇒ Var (βˆ1 ) = 5,7813
Var (βˆ0 ) = 38334,187 ⇒ Var (βˆ0 ) = 195,7912
Η0 : β2 = 0
Η1 : β2 <0
−72,39
t βˆ = = −6,34 ∼ tn5%
−k −1 t25% = 2,92
2
11, 41
13
Test d’hypothèse sur la combinaison linéaire des paramètres βˆ1 − βˆ2
H 0 : β1 = β2 ⇔ H 0 : β1 − β2 = 0
βˆ1 − βˆ2
tβˆ −βˆ = ∼ tn5%
1 2
( ˆ )
se β1 − β2 ˆ −k −1
4,89− ( −72,39 )
t βˆ −βˆ = = 6,0386 ∼ tn5%
−k −1 t25% = 4,303
1 2
33,424172 +130,35429
t βˆ > 4,303 ⇒ 6, 0386 > 4,303 ⇒ Rejet de H0 au seuil de 5%. Donc, βˆ1 est égale à βˆ2 au
2
seuil de 5%.
Il s’agit de tester des hypothèses multiples sur les paramètres β0 , β1 ,..., βk . Par exemple,
dans le cas du modèle (5) on peut formuler H 0 : β2 = 0, β3 = 0 ; si sous
H 1 : β2 ≠ 0, β3 ≠ 0, alors H 0 n’est pas vraie. L’hypothèse nulle H 0 constitue les deux
restrictions exclusives (contraintes exclusives), c'est-à-dire que si H 0 est vraie, alors
univ et exper n’ont aucun effet sur log(wage) après que jc ait été contrôlée et donc
seront exclues du modèle. C’est juste un exemple d’un ensemble de restrictions
multiples parce que nous avions imposé plus d’une contrainte sur les paramètres du
modèle (5). Un test de restrictions multiples est appelé ‘‘test d’hypothèses multiples’’
ou ‘‘test d’hypothèses jointes’’.
Sous, l’hypothèse H 0 le modèle (5) appelé généralement ‘‘modèle non contraint’’ donne
le ‘‘modèle contraint’’ suivant :
A présent, nous allons formuler le test d’hypothèses dans le cas général. Nous écrivons
le modèle non contraint avec k variables indépendantes :
14
Le nombre de paramètre est k+1. Supposer que nous avons q restrictions exclusives à
tester. Pour la simplicité de la notation, supposer que c’est les q dernières variables
dans la liste des variables indépendantes : xk−q+1 ,..., xk . L’hypothèse nulle est :
H 0 : βk −q +1 = 0,..., βk = 0 (8)
Le test statistique appelé ‘‘F-statistique’’ est un test de Fisher qui est défini comme
suit :
F≡
( SCRc − SCRnc ) q (10)
SCR nc (n − k − 1)
où SCRc est la somme du carré des résidus du modèle contraint et SCRnc la somme
du carré des résidus du modèle non-contraint.
La procédure de calcul de (10) s’inscrit en trois étapes : (i) on estime le modèle non
contraint à k+1 paramètres, (ii) on estime le modèle contraint à k−q+1 paramètres et
(iii) on calcule le F-statistique.
F≡
(R 2
nc − Rc2 ) q
(1− R ) (n − k − 1)
2
nc
15
• Distribution de Fisher
Figure 4.7
Valeur critique à 5% et région de rejet dans une distribution de F3,60
Aire = 0,95
Aire = 0,05
Région
2,76
de rejet
On rejet H 0 au seuil approprié α% (dans notre exemple 5%), si F > cα (dans notre
exemple F > 2,76 , voir figure 4.7), où c = Fq,nα −k −1 . Si on rejette H 0 , Cela signifie qu’au
moins un des paramètres est différent de zéro.
16
hypothèse avec k restrictions, le modèle contraint est : y = β0 + u . Alors, le F-statistique
R2 k
donne : F ≡ . C’est généralement ce test F qui est reporté par défaut
(1− R2 ) (n − k − 1)
à chaque régression incluant la constante β0 .
y − x1 = β0 + β3x 3 + u
w = β0 + β3x 3 + u .
Sous H0 , F ∼ F2,n−3−1
Η0 : β0 = β1 = 0
Η1 : Au moins un βj ≠ 0
R2
F= ∼ Fkα+1;n−k −1
(1− R ) 10−2
2
0,6976 2
F= = 9,22
(1 − 0,6976 ) 8
5%
F2;8 = 4,10
F > 4,10 ⇒ Rejet de Η0 . Tous les estimateurs sont globalement significatifs au seuil de
5%.
Η0 : β0 = β1 = β2 = 0
Η1 : Au moins un βj ≠ 0
17
R2 0,98 2 5%
F= = = 49 ∼ F2;2 = 4,10
( )
1 − R 5−2−1 (1−0,98 ) 2
2
F > 4,10 ⇒ Rejet de Η0 . Tous les estimateurs sont globalement significatifs au seuil de
5%.
18