Statistislidesb

ECO 4272 : Introduction à l’Économétrie
Statistique: estimation et inférence
Steve Ambler
Département des sciences économiques
École des sciences de la gestion
Université du Québec à Montréal
c 2018: Steve Ambler
Hiver 2018
Objectifs du cours
1. Concept d’un estimateur.

2. Propriétés désirables d’un estimateur.
3. Estimateur de la moyenne d’une variable aléatoire.
4. Tests d’hypothèses concernant l’estimateur de la moyenne.
5. Intervalles de confiance.
6. Inférence sur la différence entre les moyennes de deux
populations différentes.
7. Tests d’hypothèse concernant la variance d’une population.
Estimateurs
I Définition formelle : un estimateur du paramètre inconnu θ
d’un modèle ou loi de probabilité est une fonction qui fait
correspondre à une suite d’observations x1 , x2 , . . . , xn issues
du modèle ou de la loi de probabilité, la valeur θ̂ que l’on
nomme estimé ou estimation :
θ̂n ≡ f (x1 , x2 , . . . , xn ) .
I Ainsi, θ̂ est une fonction des données.

I L’exemple que nous avons déjà vu, la moyenne
échantillonnale, est évidemment une fonction linéaire des
observations de l’échantillon.
I L’estimateur nous permet de faire de l’inférence (tester des
hypothèses, construire des intervalles de confiance)
concernant les propriétés inconnues de la variable aléatoire qui
nous intéresse.
Propriétés désirables d’un estimateur
I Nous souhaiterions que l’estimateur soit le plus près possible
de sa vraie valeur
1. Absence de biais : l’estimateur est en moyenne égal à sa

vraie valeur
E Ȳ = µY
2. Convergence en probabilité : un nombre suffisant

d’observations ⇒ l’estimateur se retrouve avec une probabilité
très élevée à l’intérieur d’un intervalle arbitrairement petit
autour de sa vraie valeur. Pour une séquence de variables
aléatoires Yn et la constante µY ,
lim Pr (|Yn − µY | ≥ ) = 0, > 0

n→∞
p
Ȳ −
→ µY .
Propriétés désirables d’un estimateur (suite)

3. Efficience : 2 estimateurs non biaisés, Var Ȳ < Var Ỹ ,
⇒ Ȳ est plus efficient que Ỹ . L’efficience est un concept
relatif
4. Erreur moyenne quadratique : permet de comparer deux
estimateurs qui ne sont pas forcément non biaisés. Définition :
2
EQM β̃ ≡ E β̃ − β
Un estimateur peut être baisé et néanmoins avoir une erreur

moyenne quadratique plus petite qu’un autre.
Propriétés désirables d’un estimateur (suite)
EQM est la somme de la variance plus le biais au carré. Pour une

variable quelconque X ,
Var (X ) = E X 2 − (E (X ))2

2 2
⇒ Var β̃ − β = E β̃ − β − E β̃ − β
2 2
⇒E β̃ − β = Var β̃ − β + E β̃ − β
2 2
⇒E β̃ − β = Var β̃ + E β̃ − β
La moyenne échantillonnale comme estimateur MCO de la
moyenne
I Problème : choisir un estimateur m pour prédire les valeurs
d’une variable aléatoire Y , minimiser la somme des erreurs au
carré :
X n
min (Yi − m)2 .
m
i=1
I La CPO pour le choix de m est

n n n
X X 1X
−2 (Yi − m) = 0 ⇒ Yi = nm ⇒ m = Yi ≡ Ȳ .
n
i=1 i=1 i=1
I La solution est tout simplement Ȳ .

I Possible de montrer que Ȳ est le plus efficient parmi tous les
estimateurs linéaires non biaisés. (BLUE)
Gauss-Markov
Soit une variable aléatoire tel que E (Yi ) = µY , Var (Yi ) = σY2 .
Soit un estimateur linéaire quelconque
n
X
Ye = ai Yi
i=1
n n n
!
X X X
E ai Yi = ai E (Yi ) = µY ai
i=1 i=1 i=1
donc
n n
!
X X
E ai Yi = µY ⇔ ai = 1
i=1 i=1
Gauss-Markov (suite)
Choix des ai qui minimise la variance de l’estimateur
n n n n
!
X X X X
Var ai Yi = Var (ai Yi ) = ai 2 Var (Yi ) = σY2 ai 2
i=1 i=1 i=1 i=1
Programme :
" n n
!#
X X
min ai 2 + λ 1 − ai
ai ,λ
i=1 i=1
CPO :
ai : 2ai − λ = 0, ∀i, i = 1 . . . n
X n
λ: 1− ai = 0.
i=1
n
λ X λ 2 1
⇒ ai = ⇒ = 1 ⇒ λ = ⇒ ai =
2 2 n n
i=1
⇒ Ye = Ȳ
Tests d’hypothèse concernant la moyenne
I Statistique : une fonction de nos observations (notre

échantillon). Par exemple, la moyenne échantillonnale.
I L’hypothèse nulle spécifie que la statistique utilisée pour
estimer un moment est égale à une valeur spécifique.
I Principe : nous rejetons une hypothèse nulle lorsqu’il
serait suffisamment peu probable d’obtenir une valeur
calculée de la statistique au moins aussi éloignée de sa
valeur sous l’hypothèse nulle si l’hypothèse nulle est
vraie.
I Statistique normalisée : on soustrait la moyenne sous H0 , et
on divise par l’écart type :
Ȳact − µY0 σY2

tact ≡ σȲ2 = ,
σȲ n
Tests avec hypothèse alternative bilatérale
I H0 : µY = µY0 , H1 : µY 6= µY0 .
I H0 : tact = 0, H1 : tact 6= 0.
I Principe : Nous rejetons l’hypothèse nulle lorsqu’il serait
suffisamment peu probable d’obtenir une valeur au
moins aussi éloignée de zéro de la statistique normalisée,
soit positif soit négatif.
I Si on a des observations sont i.i.d. on aura tact ∼ N(0, 1).
I Un exemple de l’inférence asymptotique.
P-value
I La p-value de notre test est

!
Ȳ − µY0 Ȳact − µY0
PrH0 > ,
σȲ σȲ
I Soit Φ(z) la valeur de la distribution normale centrée réduite

cumulée. La p-value serait donnée par :

Ȳact − µY0
p-value = 2Φ − .
σȲ
Tests avec hypothèse alternative unilatérale (a)
I H0 : µY = µY0 , H1 µY < µY0 .

I H0 : tact = 0, H1 : tact < 0.
moins aussi négative de la statistique normalisée.
I On a encore tact ∼ N(0, 1).
Tests avec hypothèse alternative unilatérale (a) (suite)
I La p-value du test est

! !!
PrH0 < .
σȲ σȲ
I On a
Ȳact − µY0
p-value = Φ ,
σȲ
où Φ(z) est encore la valeur de la distribution normale centrée
réduite cumulée. Notez que l’on ne calcule pas la valeur
absolue de la statistique.
Tests avec hypothèse alternative unilatérale (b)
I H0 : µY = µY0 , H1 µY > µY0 .

I H0 : tact = 0, H1 : tact > 0.
moins aussi positive de la statistique normalisée.
I On a encore tact ∼ N(0, 1).
Tests avec hypothèse alternative unilatérale (b) (suite)
I La p-value de notre test est

! !!
PrH0 >
σȲ σȲ
I On a
Ȳact − µY0
p-value = 1 − Φ ,
σȲ
où Φ(z) est encore la valeur de la distribution normale centrée
réduite cumulée
La notion de p-value
I P-value : probabilité d’obtenir une valeur calculée de la

statistique au moins aussi défavorable à l’hypothèse nulle,
si elle est vraie
I Seuils habituels : 10%, 5%, 1%. Pourquoi ? Arbitraire, mais on
veut être conservateur
I Se limiter à dire si un test est rejeté ou non à un taux de 10%,
de 5% ou de 1% remonte à l’époque où il fallait utiliser des
tables de valeurs pour les différents types de distribution
I Il est préférable de donner tout simplement la p-value exacte.
Le lecteur peut décider si l’évidence est assez forte pour
rejeter ou non
Taux de significativité marginal
I On dit qu’une hypothèse nulle est rejetée à un niveau de

X % si la probabilité de la rejeter si elle est vraie est égale
ou inférieure à X /100
I Donc on rejette à X % si la p-value du test est égale ou
inférieure à X /100
Risques de première, deuxième espèce, puissance
I Risque de première espèce ( probability of a type 1

error ) : probabilité de rejeter H0 lorsqu’elle est vraie.
I Concept très semblable à celui de p-value
I Souvent appelé α
I Risque de deuxième espèce ( probability of a type 2
error ) : probabilité d’accepter l’hypothèse nulle si elle est
fausse
I Souvent appelé β
I Puissance d’un test : probabilité de rejeter H0 lorsqu’elle est

fausse
I Si β est le risque de deuxième espèce, alors (1 − β) est la
puissance du test
Tests lorsque la variance n’est pas connue
I Typiquement on ne connaı̂t pas σY2

I On peut remplacer par un estimateur convergent :
n
1 X 2
sY2 = Yi − Ȳ
(n − 1)
i=1
I Une technique que nous allons employer à maintes reprises

dans le cours
I La convergence est cruciale. En grand échantillon, l’estimateur
se comporte de plus en plus comme une constante
Intervalles de confiance pour la moyenne de la population
I Intervalle de confiance de X % pour Ȳ : toutes les valeurs Ȳi

de Ȳ où on ne rejette pas H0 : Ȳ = Ȳi à un taux de
significativité de (100 − X )%
I H1 : toujours bilatérale
Intervalles de confiance (suite)
I D’abord on cherche la valeur de z > 0 telle que
Φ(−z) = 1−X2/100 .
I Maintenant, on a

X Ȳ − µY
= Pr −z ≤ ≤z
100 σ̂Ȳ

= Pr −z σ̂Ȳ ≤ Ȳ − µY ≤ z σ̂Ȳ

= Pr −z σ̂Ȳ ≤ µY − Ȳ ≤ z σ̂Ȳ

= Pr Ȳ − z σ̂Ȳ ≤ µY ≤ Ȳ + z σ̂Ȳ ,
I La probabilité
que la moyenne
de la distribution est entre
Ȳ − z σ̂Ȳ et Ȳ + z σ̂Ȳ est égale à X %.
Stat t en petit échantillon
I Si nos observations suivent une loi normale, nous pouvons

construire des statistiques t qui obéissent à une loi t de
Student, avec n − 1 degrés de liberté où n est la taille de
l’échantillon.
I Il faut écrire la statistique sous une forme particulière :
Z
t=p ,
W /(n − 1)
I Z est une variable aléatoire normale centrée réduite et W est

une variable aléatoire qui obéit à une loi χ2 avec n − 1 degrés
de liberté
I Pour une discussion plus détaillée, voir la page 87 du manuel
ou les notes de cours
Tests concernant la différence entre 2 moyennes
I (Variances connues) : Soit Ȳm la moyenne échantillonnale

d’une 1ère population, Ȳw la moyenne échantillonnale d’une
2e population, et H0 : µm − µw = 0
I La statistique suivante :

Ȳm − Ȳw − 0
q
2
σm 2
σw
nm + nw
aurait une moyenne nulle est une variance unitaire sous H0

I L’échantillonnage aléatoire est cruciale. Il permet de calculer
la variance (pas de covariance)
I Sous H0 , la statistique converge à une normale centrée réduite
Tests concernant la différence entre 2 moyennes (suite)
I Si nous ne connaissons pas les variances, nous pouvons utiliser

des estimateurs convergents :

Ȳm − Ȳw − 0 d
q
2
−
→ N(0, 1)
sm sw2
nm + nw
I Qu’est qui arrive en petit échantillon si Ym et Yw sont

générées par des lois normales ?
I On peut utiliser sm 2 et s 2 , mais la statistique ne satisfait pas
w
les critères pour la distribution t de Student (p.87 du
manuel), et donc la distribution qui génère la statistique n’est
pas connue
Tests concernant la différence entre 2 moyennes (suite)
I 2 et σ 2 sont identiques, on a :
Exception : si on sait que σm w
nm nm
!
2 1 X 2 X 2
spooled = Ymi − Ȳm + Ywi − Ȳw
(nm + nw − 2)
i=1 i=1
I Dans ce cas, la statistique suivante suit une loi t de Student

avec (nm + nw − 2) degrés de liberté :

Ȳm − Ȳw − 0
q p ∼ tnm +nw −2 .
2
spooled 1/nm + 1/nw
Concepts à retenir
1. Notion d’un estimateur.
2. Les propriétés désirables d’un estimateur : a) absence de biais ;
b) convergence ; c) efficience.
3. La moyenne échantillonnale => estimateur MCO de la
moyenne.
4. Tester une H0 concernant un moment de la population.
5. Distinction entre H1 bilatérale et H1 unilatérale.
6. P-value d’un test, relation avec taux de significativité
marginal.
7. Remplacer un moment inconnu d’une statistique par un
estimateur convergent.
8. Intervalle de confiance pour un estimateur d’un moment de la
population.
9. Définition d’une statistique t.
10. Tester une hypothèse concernant la différence de moyennes
entre 2 populations.

Statistislidesb

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistislidesb

Transféré par

Droits d'auteur :

Formats disponibles

ECO 4272 : Introduction à l’Économétrie

Statistique: estimation et inférence

1. Concept d’un estimateur.

I Ainsi, θ̂ est une fonction des données.

1. Absence de biais : l’estimateur est en moyenne égal à sa

2. Convergence en probabilité : un nombre suffisant

lim Pr (|Yn − µY | ≥ ) = 0,  > 0

Un estimateur peut être baisé et néanmoins avoir une erreur

EQM est la somme de la variance plus le biais au carré. Pour une

I La CPO pour le choix de m est

I La solution est tout simplement Ȳ .

I Statistique : une fonction de nos observations (notre

Ȳact − µY0 σY2

I La p-value de notre test est

I Soit Φ(z) la valeur de la distribution normale centrée réduite

I H0 : µY = µY0 , H1 µY < µY0 .

I La p-value du test est

I H0 : µY = µY0 , H1 µY > µY0 .

I La p-value de notre test est

I P-value : probabilité d’obtenir une valeur calculée de la

I On dit qu’une hypothèse nulle est rejetée  à un niveau de

I Risque de première espèce ( probability of a type 1

I Puissance d’un test : probabilité de rejeter H0 lorsqu’elle est

I Typiquement on ne connaı̂t pas σY2

I Une technique que nous allons employer à maintes reprises

I Intervalle de confiance de X % pour Ȳ : toutes les valeurs Ȳi

I Si nos observations suivent une loi normale, nous pouvons

I Z est une variable aléatoire normale centrée réduite et W est

I (Variances connues) : Soit Ȳm la moyenne échantillonnale

aurait une moyenne nulle est une variance unitaire sous H0

I Si nous ne connaissons pas les variances, nous pouvons utiliser

I Qu’est qui arrive en petit échantillon si Ym et Yw sont

I Dans ce cas, la statistique suivante suit une loi t de Student

Vous aimerez peut-être aussi

lim Pr (|Yn − µY | ≥ ) = 0, > 0

I On dit qu’une hypothèse nulle est rejetée à un niveau de

I Risque de première espèce ( probability of a type 1