Vous êtes sur la page 1sur 27

ECO 4272 : Introduction à l’Économétrie

Statistique: estimation et inférence

Steve Ambler
Département des sciences économiques
École des sciences de la gestion
Université du Québec à Montréal
c 2018: Steve Ambler

Hiver 2018
Objectifs du cours

1. Concept d’un estimateur.


2. Propriétés désirables d’un estimateur.
3. Estimateur de la moyenne d’une variable aléatoire.
4. Tests d’hypothèses concernant l’estimateur de la moyenne.
5. Intervalles de confiance.
6. Inférence sur la différence entre les moyennes de deux
populations différentes.
7. Tests d’hypothèse concernant la variance d’une population.
Estimateurs
I Définition formelle : un estimateur du paramètre inconnu θ
d’un modèle ou loi de probabilité est une fonction qui fait
correspondre à une suite d’observations x1 , x2 , . . . , xn issues
du modèle ou de la loi de probabilité, la valeur θ̂ que l’on
nomme estimé ou estimation :

θ̂n ≡ f (x1 , x2 , . . . , xn ) .

I Ainsi, θ̂ est une fonction des données.


I L’exemple que nous avons déjà vu, la moyenne
échantillonnale, est évidemment une fonction linéaire des
observations de l’échantillon.
I L’estimateur nous permet de faire de l’inférence (tester des
hypothèses, construire des intervalles de confiance)
concernant les propriétés inconnues de la variable aléatoire qui
nous intéresse.
Propriétés désirables d’un estimateur
I Nous souhaiterions que l’estimateur soit le plus près possible
de sa vraie valeur

1. Absence de biais : l’estimateur est en moyenne égal à sa


vraie valeur 
E Ȳ = µY

2. Convergence en probabilité : un nombre suffisant


d’observations ⇒ l’estimateur se retrouve avec une probabilité
très élevée à l’intérieur d’un intervalle arbitrairement petit
autour de sa vraie valeur. Pour une séquence de variables
aléatoires Yn et la constante µY ,

lim Pr (|Yn − µY | ≥ ) = 0,  > 0


n→∞
p
Ȳ −
→ µY .
Propriétés désirables d’un estimateur (suite)

  
3. Efficience : 2 estimateurs non biaisés, Var Ȳ < Var Ỹ ,
⇒ Ȳ est plus efficient que Ỹ . L’efficience est un concept
relatif
4. Erreur moyenne quadratique : permet de comparer deux
estimateurs qui ne sont pas forcément non biaisés. Définition :
   2 
EQM β̃ ≡ E β̃ − β

Un estimateur peut être baisé et néanmoins avoir une erreur


moyenne quadratique plus petite qu’un autre.
Propriétés désirables d’un estimateur (suite)

EQM est la somme de la variance plus le biais au carré. Pour une


variable quelconque X ,

Var (X ) = E X 2 − (E (X ))2


   2    2
⇒ Var β̃ − β = E β̃ − β − E β̃ − β
 2      2
⇒E β̃ − β = Var β̃ − β + E β̃ − β
 2      2
⇒E β̃ − β = Var β̃ + E β̃ − β
La moyenne échantillonnale comme estimateur MCO de la
moyenne
I Problème : choisir un estimateur m pour prédire les valeurs
d’une variable aléatoire Y , minimiser la somme des erreurs au
carré :
X n
min (Yi − m)2 .
m
i=1

I La CPO pour le choix de m est


n n n
X X 1X
−2 (Yi − m) = 0 ⇒ Yi = nm ⇒ m = Yi ≡ Ȳ .
n
i=1 i=1 i=1

I La solution est tout simplement Ȳ .


I Possible de montrer que Ȳ est le plus efficient parmi tous les
estimateurs linéaires non biaisés. (BLUE)
Gauss-Markov

Soit une variable aléatoire tel que E (Yi ) = µY , Var (Yi ) = σY2 .
Soit un estimateur linéaire quelconque
n
X
Ye = ai Yi
i=1

n n n
!
X X X
E ai Yi = ai E (Yi ) = µY ai
i=1 i=1 i=1

donc
n n
!
X X
E ai Yi = µY ⇔ ai = 1
i=1 i=1
Gauss-Markov (suite)
Choix des ai qui minimise la variance de l’estimateur
n n n n
!
X X X X
Var ai Yi = Var (ai Yi ) = ai 2 Var (Yi ) = σY2 ai 2
i=1 i=1 i=1 i=1

Programme :
" n n
!#
X X
min ai 2 + λ 1 − ai
ai ,λ
i=1 i=1

CPO :
ai : 2ai − λ = 0, ∀i, i = 1 . . . n
X n
λ: 1− ai = 0.
i=1
n
λ X λ 2 1
⇒ ai = ⇒ = 1 ⇒ λ = ⇒ ai =
2 2 n n
i=1

⇒ Ye = Ȳ
Tests d’hypothèse concernant la moyenne

I Statistique : une fonction de nos observations (notre


échantillon). Par exemple, la moyenne échantillonnale.
I L’hypothèse nulle spécifie que la statistique utilisée pour
estimer un moment est égale à une valeur spécifique.
I Principe : nous rejetons une hypothèse nulle lorsqu’il
serait suffisamment peu probable d’obtenir une valeur
calculée de la statistique au moins aussi éloignée de sa
valeur sous l’hypothèse nulle si l’hypothèse nulle est
vraie.
I Statistique normalisée : on soustrait la moyenne sous H0 , et
on divise par l’écart type :

Ȳact − µY0 σY2


tact ≡ σȲ2 = ,
σȲ n
Tests avec hypothèse alternative bilatérale

I H0 : µY = µY0 , H1 : µY 6= µY0 .
I H0 : tact = 0, H1 : tact 6= 0.
I Principe : Nous rejetons l’hypothèse nulle lorsqu’il serait
suffisamment peu probable d’obtenir une valeur au
moins aussi éloignée de zéro de la statistique normalisée,
soit positif soit négatif.
I Si on a des observations sont i.i.d. on aura tact ∼ N(0, 1).
I Un exemple de l’inférence asymptotique.
P-value

I La p-value de notre test est


  !
Ȳ − µY0 Ȳact − µY0
PrH0 > ,
σȲ σȲ

I Soit Φ(z) la valeur de la distribution normale centrée réduite


cumulée. La p-value serait donnée par :
 
Ȳact − µY0
p-value = 2Φ − .
σȲ
Tests avec hypothèse alternative unilatérale (a)

I H0 : µY = µY0 , H1 µY < µY0 .


I H0 : tact = 0, H1 : tact < 0.
I Principe : Nous rejetons l’hypothèse nulle lorsqu’il serait
suffisamment peu probable d’obtenir une valeur au
moins aussi négative de la statistique normalisée.
I On a encore tact ∼ N(0, 1).
Tests avec hypothèse alternative unilatérale (a) (suite)

I La p-value du test est


!  !!
Ȳ − µY0 Ȳact − µY0
PrH0 < .
σȲ σȲ

I On a  
Ȳact − µY0
p-value = Φ ,
σȲ
où Φ(z) est encore la valeur de la distribution normale centrée
réduite cumulée. Notez que l’on ne calcule pas la valeur
absolue de la statistique.
Tests avec hypothèse alternative unilatérale (b)

I H0 : µY = µY0 , H1 µY > µY0 .


I H0 : tact = 0, H1 : tact > 0.
I Principe : Nous rejetons l’hypothèse nulle lorsqu’il serait
suffisamment peu probable d’obtenir une valeur au
moins aussi positive de la statistique normalisée.
I On a encore tact ∼ N(0, 1).
Tests avec hypothèse alternative unilatérale (b) (suite)

I La p-value de notre test est


!  !!
Ȳ − µY0 Ȳact − µY0
PrH0 >
σȲ σȲ

I On a  
Ȳact − µY0
p-value = 1 − Φ ,
σȲ
où Φ(z) est encore la valeur de la distribution normale centrée
réduite cumulée
La notion de p-value

I P-value : probabilité d’obtenir une valeur calculée de la


statistique au moins aussi défavorable à l’hypothèse nulle,
si elle est vraie
I Seuils habituels : 10%, 5%, 1%. Pourquoi ? Arbitraire, mais on
veut être conservateur
I Se limiter à dire si un test est rejeté ou non à un taux de 10%,
de 5% ou de 1% remonte à l’époque où il fallait utiliser des
tables de valeurs pour les différents types de distribution
I Il est préférable de donner tout simplement la p-value exacte.
Le lecteur peut décider si l’évidence est assez forte pour
rejeter ou non
Taux de significativité marginal

I On dit qu’une hypothèse nulle est rejetée  à un niveau de


X %  si la probabilité de la rejeter si elle est vraie est égale
ou inférieure à X /100
I Donc on rejette à X % si la p-value du test est égale ou
inférieure à X /100
Risques de première, deuxième espèce, puissance

I Risque de première espèce ( probability of a type 1


error ) : probabilité de rejeter H0 lorsqu’elle est vraie.
I Concept très semblable à celui de p-value
I Souvent appelé  α
I Risque de deuxième espèce ( probability of a type 2
error ) : probabilité d’accepter l’hypothèse nulle si elle est
fausse
I Souvent appelé  β 

I Puissance d’un test : probabilité de rejeter H0 lorsqu’elle est


fausse
I Si β est le risque de deuxième espèce, alors (1 − β) est la
puissance du test
Tests lorsque la variance n’est pas connue

I Typiquement on ne connaı̂t pas σY2


I On peut remplacer par un estimateur convergent :
n
1 X 2
sY2 = Yi − Ȳ
(n − 1)
i=1

I Une technique que nous allons employer à maintes reprises


dans le cours
I La convergence est cruciale. En grand échantillon, l’estimateur
se comporte de plus en plus comme une constante
Intervalles de confiance pour la moyenne de la population

I Intervalle de confiance de X % pour Ȳ : toutes les valeurs Ȳi


de Ȳ où on ne rejette pas H0 : Ȳ = Ȳi à un taux de
significativité de (100 − X )%
I H1 : toujours bilatérale
Intervalles de confiance (suite)
I D’abord on cherche la valeur de z > 0 telle que
Φ(−z) = 1−X2/100 .
I Maintenant, on a
 
X Ȳ − µY
= Pr −z ≤ ≤z
100 σ̂Ȳ
 
= Pr −z σ̂Ȳ ≤ Ȳ − µY ≤ z σ̂Ȳ

 
= Pr −z σ̂Ȳ ≤ µY − Ȳ ≤ z σ̂Ȳ


= Pr Ȳ − z σ̂Ȳ ≤ µY ≤ Ȳ + z σ̂Ȳ ,

I La probabilité
 que la moyenne
 de la distribution est entre
Ȳ − z σ̂Ȳ et Ȳ + z σ̂Ȳ est égale à X %.
Stat t en petit échantillon

I Si nos observations suivent une loi normale, nous pouvons


construire des statistiques t qui obéissent à une loi t de
Student, avec n − 1 degrés de liberté où n est la taille de
l’échantillon.
I Il faut écrire la statistique sous une forme particulière :
Z
t=p ,
W /(n − 1)

I Z est une variable aléatoire normale centrée réduite et W est


une variable aléatoire qui obéit à une loi χ2 avec n − 1 degrés
de liberté
I Pour une discussion plus détaillée, voir la page 87 du manuel
ou les notes de cours
Tests concernant la différence entre 2 moyennes

I (Variances connues) : Soit Ȳm la moyenne échantillonnale


d’une 1ère population, Ȳw la moyenne échantillonnale d’une
2e population, et H0 : µm − µw = 0
I La statistique suivante :

Ȳm − Ȳw − 0
q
2
σm 2
σw
nm + nw

aurait une moyenne nulle est une variance unitaire sous H0


I L’échantillonnage aléatoire est cruciale. Il permet de calculer
la variance (pas de covariance)
I Sous H0 , la statistique converge à une normale centrée réduite
Tests concernant la différence entre 2 moyennes (suite)

I Si nous ne connaissons pas les variances, nous pouvons utiliser


des estimateurs convergents :

Ȳm − Ȳw − 0 d
q
2

→ N(0, 1)
sm sw2
nm + nw

I Qu’est qui arrive en petit échantillon si Ym et Yw sont


générées par des lois normales ?
I On peut utiliser sm 2 et s 2 , mais la statistique ne satisfait pas
w
les critères pour la distribution t de Student (p.87 du
manuel), et donc la distribution qui génère la statistique n’est
pas connue
Tests concernant la différence entre 2 moyennes (suite)

I 2 et σ 2 sont identiques, on a :
Exception : si on sait que σm w

nm nm
!
2 1 X 2 X 2
spooled = Ymi − Ȳm + Ywi − Ȳw
(nm + nw − 2)
i=1 i=1

I Dans ce cas, la statistique suivante suit une loi t de Student


avec (nm + nw − 2) degrés de liberté :

Ȳm − Ȳw − 0
q p ∼ tnm +nw −2 .
2
spooled 1/nm + 1/nw
Concepts à retenir
1. Notion d’un estimateur.
2. Les propriétés désirables d’un estimateur : a) absence de biais ;
b) convergence ; c) efficience.
3. La moyenne échantillonnale => estimateur MCO de la
moyenne.
4. Tester une H0 concernant un moment de la population.
5. Distinction entre H1 bilatérale et H1 unilatérale.
6. P-value d’un test, relation avec taux de significativité
marginal.
7. Remplacer un moment inconnu d’une statistique par un
estimateur convergent.
8. Intervalle de confiance pour un estimateur d’un moment de la
population.
9. Définition d’une statistique t.
10. Tester une hypothèse concernant la différence de moyennes
entre 2 populations.

Vous aimerez peut-être aussi