Vous êtes sur la page 1sur 94

ECGEB 252 - Probabilités et statistique

inférentielle

Nathan Uyttendaele (slides par Sophie Béreau)

Estimation

Estimation ECGEB 252 - Probabilités et statistique inférentielle 1 / 73



Variablealéatoire quiponède du coratériniques


µ F IN

Vx

0

q tp
toutcequ'ila àconnaitrede
fonctionderépartition F sa P

1 Xe x

le statisticien connaitpar la valeurdecescaractéristiques


ESTIMER

il percedesobservations sur ton échantillonpour

mais il peut l 0Werres un gd de pois voir x pour



Xr Xm
avec les voleursprécises


L pas

Mx


µ

Moyennedel'échantillon

Xs tkt Xm à sert à estimerµ


Fr envimotionponctuelle


ok

_sertàestimer of
on
In ZI Xi Il

in


Pourquoionembleslesobservationsde
Maisd'où sortent
c esformules

cettemanière

l'échantillonde

obtenirdesformulesquinous disentantonemeences

2 méthodespour d'estimer

voleursdel'échantillon Xx tn dans le but une



caractéristique etinconnue de

µ ou oé

1 Méthodesdesmoments

Soit une V A X
il moments
Donnces caractéristiques y a les

EN M µ le1ermoment

cacatériniquesdene v a
.
Ê
ËEË gemmqgneât

reconstituer f 1 x
l'ensembledesmomentspermetde
BÂT de
Estimationpar la méthode
desobservations
cmtestimer lesmoments àpartir
Pourestimer

EtM µ D m'y 1mZ Xi

FKM µà m'a 1m24


EtM µ j Dm'as 1m24
EtXY µà m'a 1m I Xi

O n'a la méthodedesmoments
desmoments
Voix comme une f4
64 VIN Et x EIxD
ni
n'a luit
EnExil_ EnExil la formule
1mEtXi Il
2 Technique du mari mum de vraisemblance
Soit une V A
il connaitre la densité ou le coréchéant sa distributionde
peut polo
lesconnait on a le blueprintetcesméthool
Maisparles paramètres si on desens
n'ont1er

exemple
x Ë se o
f x 1oz
ont inconnu

on a Xr Xm quellevoleur a o
Mox de vraisemblanceetgraceà o on soit tout calculer

A construire la vraisemblance
X2 n
X E
Zik e E
Koi k éE filmé
n fois
tailledel'échantillon

la vraisemblance
B a
Xi e

B Mariminer la moisemblonce
Trouver le voleur de o t.q.ee moiremblonceseraitla
hontepossible
Vrais 10 a

Mn i 70
mac
voleurdeOqui maximise la vraisemblance
Ê
Vroisto ÎIÊ Xi e

ornoislamoisdérinéed'lettrésdifficile
30
Astucemathématique
levoleurdeoquimonimoincopertonnilanderndeoquimosc
leloglmoisiollipaàponner
B Monimiserleeoglmoision
loglTtElog
foule à désirer
eoglIIEXie.fi
iEfeogoE Xi E
e

iEfeogorteogxi eogèÊ
n Ennotilagien
ÊlogfatiÊlogxitiÉloge loget hxes

m.LI 2
eogxi E fiAlogen
logo
zneogo t.frlogXi f Ê.fi
logmois 2M 11oz'ÊÏ
3 f 0

0 pour trouverlemonimum

D 2 102 21 0

2M
JE2 ti o

Xi 2M
2 Xi 0
O
2M

Si on pend 0 Efim Vraisto sera monimum

c Envimoteur utilisé de 0 Et
2M
fin

commentfairepourdépartager les 2 formuler

Fsaluer la qualitédesestimateursquifontle michose


2outils

Regarder le biais del'estimateur


Lesestimateursdépendentdes Xi IV A t ils sont anni du v A
2
a E n1r Et Xi F à envimoteurnon biaisé
Si
b E Efim O
c àd

âêîEYûûm
Onpréfèreraceluiaec le biais le faible
Variancedel'estimateur
folleÎEËna
a va II EH Mienmoteurde Ë non biaisé
estimateurde o
faible nuience
b Va Eff

Onpréfèreraceluiaec le roionce le faible


Tips peutlescomparerpar un rayon
Quand on compare sertimoteursde la même quantité
D celui aec le petiteVerest dit efficace

Rappels concernant T

Î Ai An Az Az An
AI
Île
i r
b til _Être
_II b II ki
e e ce ce bon M Xz Xm
n

n
en bm.IT ti
i

Île bail iÊetiÊb iÊ Xi


ne nb
Ê Xi

logCabc loge logb loge


Blog et b c loge logb loge
logf.ttiil EIlogcxit
IT
log Elog
Introduction

Le but de la statistique est de tirer des inductions (inférences) à partir


d’un certain nombre d’observations
Deux problèmes importants en inférence statistique sont l’estimation
et les tests d’hypothèses
De façon intuitive, le problème est le suivant : supposons qu’une
certaine caractéristique des éléments d’une population puisse être
représentée par une variable aléatoire X de densité fX (x, ✓) dont la
forme est connue, mais qui contient un paramètre inconnu ✓
A partir d’un échantillon aléatoire X1 , . . . , Xn on désire estimer la
valeur du paramètre inconnu ✓ (ou d’une fonction ⌧ (✓) de ✓)
On va souvent utiliser la notation “ˆ” pour représenter l’estimateur
du paramètre inconnu, soit par exemple ✓b pour ✓

Estimation ECGEB 252 - Probabilités et statistique inférentielle 2 / 73


Introduction (ctnd)

Onrentatimercertainercord dex

Ceci peut être fait de deux façons :

On se donne une statistique t(X1 , . . . , Xn ) qui permet d’évaluer le


paramètre ✓; c’est l’estimation simple ou ponctuelle (en anglais :
point estimation)
On se donne deux statistiques, t1 (X1 , . . . , Xn ) et t2 (X1 , . . . , Xn ) avec
t1 (.) < t2 (.) qui permettent de définir un intervalle et la probabilité
que l’intervalle contienne ✓; c’est l’estimation par intervalle de
confiance (en anglais : confidence interval estimation)
Trouverzformulesavec etunepoliqueosait
dedans

Estimation ECGEB 252 - Probabilités et statistique inférentielle 3 / 73


Introduction (ctnd)
si on veutétudier le poidsdesbelges mais on a observéque personnes
Exemples d’estimateurs de µ
i.i.d
Soient X1 , . . . , Xn ⇠ N (µ, 2 ), µ 2 R, 2 2 R+ etµ x
Les statistiques suivantes sont toutes à valeurs dans R, et constituent
donc des estimateurs de µ :
1 X̄ (moyenne arithmétique)
(n)
2 X1/2 (médiane empirique)
1
3 2 (Xmin + Xmax ) (moyenne des extrêmes)
1 (n) (n)
4 2 (X 1/4 + X 3/4 ) (milieu de l’intervalle interquartile)
1 P90 ex n 90 faire la
5 80 X
i=11 i (moyenne tronquée ou “trimmed”) moyennede80premieres
personnes
6 X1 (première observation)très naïve
7 ...
Question : Comment faire la di↵érence entre un bon et un moins bon
estimateur ?
Estimation ECGEB 252 - Probabilités et statistique inférentielle 4 / 73
Introduction (ctnd)
Exemples d’estimateurs de µ
i.i.d
Soient X1 , . . . , Xn ⇠ N (µ, 2 ), µ 2 R, 2 2 R+
Les statistiques suivantes sont toutes à valeurs dans R, et constituent
donc des estimateurs de µ :
1 X̄ (moyenne arithmétique)
(n)
2 X1/2 (médiane empirique)
1
3 2 (Xmin + Xmax ) (moyenne des extrêmes)
1 (n) (n)
4 2 (X 1/4 + X 3/4 ) (milieu de l’intervalle interquartile)
1 P90
5 80 i=11 Xi (moyenne tronquée ou “trimmed”)
6 X1 (première observation)
7 ...
Plus généralement : Quelles sont les propriétés désirables d’un
estimateur ?
Estimation ECGEB 252 - Probabilités et statistique inférentielle 5 / 73
Introduction (ctnd)
Exemples d’estimateurs de µ
i.i.d
Soient X1 , . . . , Xn ⇠ N (µ, 2 ), µ 2 R, 2 2 R+
Les statistiques suivantes sont toutes à valeurs dans R, et constituent
donc des estimateurs de µ :
1 X̄ (moyenne arithmétique)
(n)
2 X1/2 (médiane empirique)

Ùâüaàm
1
3 2 (Xmin + Xmax ) (moyenne des extrêmes)
1 (n) (n)
4 2 (X 1/4 + X 3/4 ) (milieu de l’intervalle interquartile)
1 P90
5 80 i=11 Xi (moyenne tronquée ou “trimmed”)
6 X1 (première observation)
7 ...
Piste de réponse : Les propriétés d’un estimateur sont, en fait, les
propriétés de sa loi échantillonnée, càd de sa distribution
d’échantillonnage!
Estimation ECGEB 252 - Probabilités et statistique inférentielle 6 / 73
Intuition

Figure: Distributions d’échantillonnage de deux estimateurs concurrents de ✓ = 0


2estimoteursetleensptoledernité labonnendeur
formulede intimes
meth à estimateurs

Biais
Ôagogne
Dispersion
Bioréparoporton
Engogne centredelecible
perdelonne f
réponse ôiestimoteurs
Biencenhésurleo moisquiddela
nombiois renonce
Question : A votre avis, quel est le meilleur estimateur pour prédire la
vraie valeur de ✓?
Estimation ECGEB 252 - Probabilités et statistique inférentielle 7 / 73
Méthodes des moments

Le premier principe d’estimation est le plus évident et intuitif


On fait l’hypothèse ici que les paramètres inconnus de la population
peuvent être écrits comme des fonctions des moments théoriques de la
distribution sous-jacente, e.g. µ = E(X ), 2 = E(X 2 ) E2 (X ), etc.
On utilise ensuite le principe du “plug-in” qui consiste à estimer le
moment théorique par sa contre-partie empirique, soit l’espérance µ
d’une population par la moyenne d’échantillonnage X̄ ,. . .
. puis, le moment d’ordre 2 de la population, soit E X 2 , par
. .P
1 n 2
n i=1 Xi et ainsi de suite. . . equivalentpourl'échantillon
Le principe d’estimer un paramètre inconnu de la distribution en
remplaçant les moments de la population servant à son expression par
les moments empiriques équivalents mesurés sur l’échantillon est
appelé “méthode des moments”

Estimation ECGEB 252 - Probabilités et statistique inférentielle 8 / 73


Méthode des moments (ctnd)
Soient X1 , . . . , Xn une séquence de v.a. i.i.d. caractérisée par un
ensemble de paramètres ✓ = (✓1 , . . . , ✓K )0 , on note pour tout k :
µ0k (✓) := E[X k ], les moments théoriques de X d'ordre K
Xn
1
mk0 := Xik , les moments empiriques correspondants
n
i=1 Pour
estimer les moments
Supposons que les moments théoriques existent et soient finis jusqu’à
l’ordre K au moins, et caractérisés comme des fonctions du paramètre

La méthode des moments (MM) consiste à prendre comme
estimateur de ✓ la solution ✓b du système de K conditions de
moments à K inconnues ✓1 , . . . , ✓K suivant :
8 0 0
< µ1 (✓) = m1
>
..
> .
: 0 0
µK (✓) = mK
Estimation ECGEB 252 - Probabilités et statistique inférentielle 9 / 73
Méthode des moments (ctnd)
Et M momentd'ordre k M'µ cequ'onsoit
Notez qu’au lieu de prendre des moments ordinaires ou non-centrés
(µ0k (✓) := E[X k ], comme ce que l’on a fait), on peut également utiliser
i centrés E [X E(X )] et des moments centrés réduits
des k
h moments
X µ k
E .

Mois F x ENM momentd'ordre lncentré Vos4 Elk East centré


moment
d004
Quelques moments remarquables
l’espérance, moment d’ordre 1, E(X )
⇥ ⇤
la variance, moment centré d’ordre 2, E (X µ)2
le coe↵ficient
h id’asymétrie (skewness), moment centré réduit d’ordre
3
3, E X µ
h i
X µ 4
le kurtosis non-normalisé, moment centré réduit d’ordre 4, E

Pournotreculture
Estimation ECGEB 252 - Probabilités et statistique inférentielle 10 / 73
Méthode des moments (ctnd)

Exemple : Echantillon de Bernoulli


i.i.d
Soient X1 , . . . , Xn ⇠ B(p) pproportiondechoncerd'oroireaudeur
succès
Le seul paramètre à estimer, p, correspond à l’espérance
mathématique de la distribution des Xi :
p
µ01 (p) = E(X ) = p
c f théorie
L’estimateur de p fourni par la méthode des moments est donc de
façon triviale donné par :

µ01 (p) = m10 ,


n
1X
pbMM = Xi = X̄ palométhodedes
Pourertimerp n
i=1 moments

Estimation ECGEB 252 - Probabilités et statistique inférentielle 11 / 73


Méthode des moments (ctnd)

Exemple : Echantillon Gaussien


i.i.d
Soient X1 , . . . , Xn ⇠ N (µ, 2 ).
µ ok
Les moments théoriques sont donnés par :

µ01 = µ
µ02 = 2 + µ2
aimé luit b 2
Note : On a utilisé ici le fait que la variance est donnée par = E(X 2 ) µ2
La solution (µ̂, ˆ 2 ) du système

µ = X̄ P MM (µ01 = m10 )
2 + µ2 = 1 n 2 (µ0 = m0 )
n i=1 X i 2 2

bMM = X̄ P
µ
est donc : 2
bMM = n1 ni=1 Xi2 X̄ 2

Estimation ECGEB 252 - Probabilités et statistique inférentielle 12 / 73


Méthode des moments (ctnd)

Exemple : Echantillon uniforme


i.i.d
Soient X1 , . . . , Xn ⇠ U [0, ✓] lesvoleursdesobservationssontentre
O etO ettoutestéquiprobable 0
Remarque : Il est impossible que Xmax soit strictement supérieur à ✓
(quelle que soit la valeur de ✓, la probabilité que cela se produise est
nulle) On
peutdémontrerque EN µ En
Ici, le moment théorique d’ordre 1 est : µ01 (✓) = 2✓ D2µL 0
L’estimateur ✓b fourni par la méthode des moments est la solution de
l’équation (µ0 =) ✓ = X̄ , l’estimateur qui en résulte est : ✓bMM = 2X̄
1 2
Or il arrivera avec probabilité strictement positive que
✓bMM = 2X̄ < Xmax .
La méthode des moments fonctionne bien en général; le cas d’une loi
uniforme discrète illustre un exemple où ce n’est pas le cas
DEstimateurpasbon car il estpossiblequeqdoncalcule 2F on serende
comptequ'uneobservationXiroit 2E pascohérentavec la def
Estimation ECGEB 252 - Probabilités et statistique inférentielle 13 / 73
Pourquoi

M 10 EH defMM
0 0 défolirtribuniforme

10
2
Méthode du maximum de vraisemblance
Donne le poted'atterrirl'observationqu'on a obtenu
Comme son nom l’indique, cette méthode utilise la fonction de
vraisemblance, définie
Qn précédemment soit
L (X1 , . . . , Xn ) = i=1 fX (xi ) où fX (x) est la distribution ou densité
de la population
tu lui
La fonction de vraisemblance décrit la distribution ou densité jointe
des observations
La méthode se base sur l’idée que les observations doivent être
vraisemblables
Ce principe implique de donner aux paramètres inconnus les valeurs
qui maximisent la vraisemblance càd la probabilité d’observer les
valeurs réalisées par l’échantillon de données à disposition
En e↵et, puisque le résultat observé est ce qu’il est on suppose que
c’est parce qu’il avait de grandes chances d’arriver!

Estimation ECGEB 252 - Probabilités et statistique inférentielle 14 / 73


Mieuxcomprendre la mainembeonce

Disonsqu'onfaitfaceà unepiècetruquéemais on ne soitpordequellemanière


p potedepile
h pt potedefou
jelance 2 fois P F
d'oroirPif
p In p Vraisemblance poke
nij'aiobtenucerésultat iln'estpasimprobable
mais àquelpoint la pièceesttruquée
la vraisemblance
envoyer toutes les moteursde p pourmaximiser a obtenu
Onchoisitppom more le poted'obtenircequ'on
plan p
q
Vrais

I d
O 21 z

Principe de la méthode trouverl'estimateur de la valeur


la probabilité
de 0 qui merci mix la vraisemblance c'est à dire
voleurs du obnervations Xr km
que prenne les
Rappel : La fonction de vraisemblance

Soit X1 , . . . , Xn , un échantillon aléatoire de taille n extrait d’une


population dont la densité (ou distribution) est fX (x) et ✓ est un
paramètre inconnu
Dans le cas continu, la fonction de vraisemblance s’écrit comme suit :
n
Y
L✓ (X ) := L (X1 , . . . , Xn ; ✓) = fX (xi ; ✓)
i=1

Pour la cas discret, on a :


n
Y
L✓ (X ) := L (X1 , . . . , Xn ; ✓) = pX (xi ; ✓)
i=1

Estimation ECGEB 252 - Probabilités et statistique inférentielle 15 / 73


Estimateur du maximum de vraisemblance (MLE)
Q
Soit L(X1 , . . . , Xn ; ✓) = ni=1 fX (xi ; ✓) la fonction de vraisemblance
correspondant à un échantillon aléatoire X1 , . . . , Xn de fonction de
densité fX (x) et de paramètre ✓ inconnu
On appelle estimateur de maximum de vraisemblance (en anglais
maximum likelihood estimator ou MLE) de ✓ toute valeur ✓bMLE de ✓
maximisant la vraisemblance L✓ (X ), càd :

L✓b (x) L✓ (x) pour toute valeur de ✓


MLE

ou
✓bMLE = argmax✓ L✓ (X )
De façon équivalente, on note :

✓bMLE = argmax✓ ln L✓ (X )
P
avec: lnL✓ (X ) := ln [L✓ (X )] = ni=1 lnfX (xi ; ✓)
Estimation ECGEB 252 - Probabilités et statistique inférentielle 16 / 73
MLE (ctnd)

La méthode du maximum de vraisemblance est sans doute la


méthode d’estimation la plus utilisée
La valeur estimée du paramètre est celle qui rend l’observation faite la
plus plausible (la plus vraisemblable)
Formellement, cette méthode consiste à prendre comme estimateur de
✓ la solution ✓b du système suivant :
n
X @ ln fX (Xi ; ✓)
=0 pourmoximer la
@✓ vraisemblance
i=1

S’il y a K paramètres, on va se retrouver avec un système de K


équations à K inconnues ✓1 , . . . , ✓K , appelées équations de
vraisemblance

Estimation ECGEB 252 - Probabilités et statistique inférentielle 17 / 73


MLE (ctnd) 1

Exemple : Echantillon de Bernoulli


i.i.d
Soient X1 , . . . , Xn ⇠ B(p) avec p 2 [0, 1]
Pn Pn
Xi n Xi
Lp (X1 , . . . , Xn ) = p i=1 (1 p) i=1

Passant par les logarithmes,


n
X ✓ n
X ◆
ln Lp (X1 , . . . , Xn ) = Xi ln(p) + n Xi ln(1 p)
i=1 i=1

et
✓X
n ✓ ◆
Xn ◆
@lnLp (X1 , . . . , Xn ) 1 1
= Xi n Xi
@p p 1 p
i=1 i=1
✓Xn ◆✓ ◆
1 1 n
= Xi +
p 1 p 1 p
i=1
Estimation ECGEB 252 - Probabilités et statistique inférentielle 18 / 73
MLE (ctnd)

Exemple : Echantillon de Bernoulli (ctnd)


On égalise à 0 et on résout :
✓X
n ◆✓ ◆
(1 p) + p np
Xi = 0
p(1 p) p(1 p)
i=1
✓Xn ◆
Xi np = 0
i=1
n
X
Xi = np
i=1

La solution donne donc :


n
1X
pbMLE = Xi = X̄
n
i=1

Estimation ECGEB 252 - Probabilités et statistique inférentielle 19 / 73


1

XrBei p
Xp Xm
cequ'oncherche
p.IT
plsc p u pt
DistribdeBernouilli
plot po r pt E r p polod'avoir0
pm j 4 g p poted'avoir 1
Vrais lphlrpi H.lpklr.pt lphrlr.pt

ÎI fin pp
IT
log Vrais log
Ê eogtpih.pt il
Î loger eogcr.pt
1 Xi
I log
p ZlogU p
A
Z ki log pt Eh til log11 p
log j I Xi log U pt Eh til
logp Exit log r pt n EX

log Vrais
log Vrais 0
j
n EX 1 1 0
Ep 1
p

D E Xi M E Xi
0
p 1
p
1 t 2 Xi Eti
pin p pin o
pls p
pls p
os
ftp.ZXi pn p ti o
D Xi pIXi pn pzxr.c
sZXi pn O
i
os p n
s f à
servimoteurmaxmoisemblance méthodedes
méthodes
MLE (ctnd) 2
commentonemmerles n observationspours'approcherde µ no ade la population
commenttrouver la bonneformule
Exemple : Echantillon Gaussien
i.i.d 2 ).
Soient X1 , . . . , Xn ⇠ N (µ, La vraisemblance s’écrit :
inconnues
n
Y 1 (Xi µ)2
Lµ, 2 (X1 , . . . , Xn ) = p e 2 2
2⇡ 2
i=1
 n
2
n 1 X
= 2⇡ 2
exp 2
(Xi µ)2
2
i=1

En passant aux logarithmes, on obtient :


n
n n 2 1 X
ln Lµ, 2 (X1 , . . . , Xn ) = ln(2⇡) ln( ) 2
(Xi µ)2
2 2 2
i=1

Estimation ECGEB 252 - Probabilités et statistique inférentielle 20 / 73


Xp Xm N µ 02
Méthodedu mac demoisemblonce

Vrais
â
ftp
e
Ina e

la fonctiondedensité
théoriquede N évoluée
enXp

mpois

II Içi e üÀ Vraisemblance

Quellesvoleurspourµ etorquimaximiserait le noir


panerou 1mois etle net021erontlesmêmesqueceuxquimox.ee mes
log
log1mois Hi n
a
1 e
T 2oz
log ça
e defcog
zeogf.gg
E logafro logé Ëî
E logafro Heiji

ÜoÊÏ H t

I log12F04 Hai Y
floglette Zhi ut loglvroisthoveillé
dépendpasde µ
Maximiser

DUponteedésimoilapoispero et pain
µ
O Ez EX 2 Xiu µ
µ
1 AM
Z 21 14
202

EZtitmen 0 pourmonimiser

Xi MM 0
02 02
I Xi nµ 0

IX nu
µ Ifni _à
viole méthodede mox.demoyen
Pour estimerµ la suggestion
d'utiliser à

nFl
sEEeogktto4jEgZHi
pI Poronso2
_s eaglets
.IEE f x ZHI MI
se
dépendperdex
I f log 2Fr J E log 2T log x 1
Dsc Dsc x

Lse Zain Z ti n
se

x
Mz Elli 112 0 x

2 Mz E him o z

2
D m Zhi µ 0

D M Et Xi n
1 02 1m Xi µ
inconnu
estimateur ont

DEstimateurde02 1m21Xi
Il

Ccl
Qd2 posemètres dérivesàl'un et 0 etfaire la pourl'autre
m'chose
Remarques

La fonction de vraisemblance précédente contient deux paramètres


inconnus µ et
Nous devons les estimer en maximisant la fonction de
(log-)vraisemblance
Il nous faut annuler la dérivée première en fonction de chacun des
paramètres
En dérivant ces condition dans notre exemple, on obtient un système
de 2 équations de vraisemblance indépendantes à deux inconnues, le
système est donc parfaitement identifié !

Estimation ECGEB 252 - Probabilités et statistique inférentielle 21 / 73


MLE (ctnd)

Exemple : Echantillon Gaussien (ctnd)


La première condition nous donne :
n
@ ln Lµ, 2 (X1 , . . . , Xn ) 1 X
= 2 (Xi µ) = 0

i=1

Cette équation, dont l’inconnue est µ, est satisfaite dans le cas où :
n
X
(Xi µ) = 0
i=1

La solution est donc :


n
1X
bMLE
µ = bMLE = X̄
Xi soit µ
n
i=1

Estimation ECGEB 252 - Probabilités et statistique inférentielle 22 / 73


MLE (ctnd)

Exemple : Echantillon Gaussien (ctnd)


En ce qui concerne la deuxième condition de premier ordre, on y
substitue µ par µ̂, ce qui donne :
n
@ ln Lµ, 2 (X1 , . . . , Xn ) n 1 1 X
= + (Xi b)2 = 0
µ
@ 2 2 2 2 4
i=1
n
1 X
= n+ 2
(Xi X̄ )2 = 0
i=1

La solution est alors donnée par :


n
2 1X
bMLE = (Xi X̄ )2
n
i=1

Estimation ECGEB 252 - Probabilités et statistique inférentielle 23 / 73


MLE (ctnd) 3
Exercicetyped'examen
Exemple : Echantillon uniforme
i.i.d
Soient X1 , . . . , Xn ⇠ U [0, ✓]. Les fonctions de vraisemblance et
log-vraisemblance sont données par :
1
L✓ (X1 , . . . , Xn ) =
✓n
ln L✓ (X1 , . . . , Xn ) = nln(✓)
@ ln L✓ (X1 , . . . , Xn ) n
= <0
@✓ ✓
On peut donc dire que L✓ (X1 , . . . , Xn ) est une fonction décroissante
pour ✓ Xmax , ce qui implique que L✓ (X1 , . . . , Xn ) est maximisée
quand ✓ = Xmax .
On a alors :
✓bMLE = max Xi
i

Estimation ECGEB 252 - Probabilités et statistique inférentielle 24 / 73


Xp Xn r Uni Oo

1
1 1 fonctionde vraisemblancesimplede
Je 0s O O O
i q
e b

Ici on saitoù le potcommence moisporoùelletermine


Vrais
Vrais 1pm Dépendpordel'échantillon
J J Ê
n pois

D On cherche le voleurde0 quipermetdemaximiser la maremblonce

Mariminer la vraisemblance
D ton ne
1pm avec 0 0

DProblème si 0 0 notredensitémede Oà O Çan'aspasdesens


si ce O etb 0 0
parexemple X et égaleà2,4 mais impossible
c'est

7
0 os

DOncontreditl'échantillon

pour monmises le mois il fautle 0 le Mit 2 conditions à


AucunXi nepeutdéponero Mater
quelcompromis
I I I I I
X X Xp Xs
X voleur mac denotreéchantillon
D On neécroses O sur X

D estimateur de mon vraisemblance


Ô mort Xs tn

cl
On chercheà Max la vraisemblance sanscontredireles hypothèsesde
basedel'échantillon Il y a parfoisdescontraintes àrespecter
Dilpeutêtre logique
Qualité des estimateurs

Pour comprendre ce paragraphe, il est important de bien se rappeler


la di↵érence entre un estimateur (ou statistique) et un paramètre.
Le paramètre, représenté en général par ✓, est une valeur unique mais
inconnue (pour la connaı̂tre avec certitude il faudrait e↵ectuer un
recensement). Le paramètre inconnu est en quelque sorte Ia cible visée
La statistique ou l’estimateur, représenté par ✓,b est une fonction des
observations, donc de l’échantillon
L’échantillon étant aléatoire, Ia statistique est elle aussi aléatoire
Si l’on répète plusieurs fois l’échantillonnage, éventuellement avec
remise, on obtient chaque fois des résultats qui peuvent être di↵érents
Impossible donc de garantir que, pour chaque échantillon, l’estimateur
fournisse exactement la valeur du paramètre inconnu

Estimation ECGEB 252 - Probabilités et statistique inférentielle 25 / 73


Estimateur sans biais

On se contentera donc de demander que l’estimateur ne vise pas


systématiquement à côté
Pour être plus précis, on demandera que l’estimateur soit sans biais
c’est-à-dire qu’en espérance, il donne la valeur cherchée
Définition
Soit ✓b un estimateur et ✓ un paramètre. Le biais encouru en utilisant ✓b
pour estimer ✓ est la di↵érence donnée :
⇣ ⌘
b = E ✓b
Biais (✓) ✓

b
Le biais peut être noté b(✓) Sans biais Anchois

Estimation ECGEB 252 - Probabilités et statistique inférentielle 26 / 73


Estimateur sans biais (ctnd)

Définition
Un estimateur ✓b est dit “sans biais” si :
⇣ ⌘ non
E ✓b = ✓

Exemple
Soient X1 , . . . , Xn i.i.d. E[Xi ] = µ < 1.
n
1X
X̄ := Xi
n
i=1

est un estimateur sans biais de µ


Question : Est-ce aussi le cas pour X1 ?

Estimation ECGEB 252 - Probabilités et statistique inférentielle 27 / 73


Estimateur sans biais (ctnd)
i i d indepetidentiquem distrib
Exemple : Echantillon de Bernoulli
i.i.d
Soient X1 , . . . , Xn ⇠ B(p) avec p 2 (0, 1).
n
1X
pb := Xi
n
i=1

est un estimateur sans biais de p puisque : n Elpt p pourqueBiais j 0


 Xn n
1 1X
E Xi = E [Xi ]
n n
i=1 i=1
1
= np = p p 2 (0, 1)
n

Estimation ECGEB 252 - Probabilités et statistique inférentielle 28 / 73


Etit EffÊiI
fn.EExi def espérance

In Êm F Hit def espérance


1m I
i Sp
def dithiliBernouilli

Xp
p
estimateur son biais
Exemple : Variance empirique
Soient X1 , . . . , Xn i.i.d. Var(Xi ) = 2 < 1, E(Xi ) = µ.
n n
2 1X 2 1X 2
S := (Xi X̄ ) = Xi X̄ 2
n n
i=1 i=1
Ëenimoteindeo
est un estimateur biaisé de 2 . En e↵et,
 X n
2 1
E[S ] = E Xi2 E[X̄ 2 ]
n
i=1
n
= E[X 2 ] Var(X̄ ) + E2 (X̄ )
n
= Var(X ) + E2 (X ) Var(X̄ ) + E2 (X̄ )
2
2 2
= +µ µ2
n
n 1 2 2
= <
n
Estimation ECGEB 252 - Probabilités et statistique inférentielle 29 / 73
SE fn Ê Xi I

Ets F EnÊtre t

FEn EI F FI
EYED porVostxt Et 4 E 4F

friabtitique
1m
Ê EtXi VosCE1

voir
2
ca Evil _µ 1erpot de F
f Xi njr.my µ

Vor X ETX Vor F µ ca Vaut ELM E4 1

6 tn 12 car 0 pa pq de I
m

Biais
Estimateur sans biais (ctnd)
Varianced'échantillonnage
Enoncé
µ 1 Pn
Montrer que s2 := n 1 i=1 (Xi X̄ )2 est un estimateur sans biais de 2

Solution : Commençons par calculer une formule plus pratique de la


variance d’échantillonnage :
X n
1
s2 = (Xi X̄ )2
n 1
i=1
Xn
1
= (Xi2 2Xi X̄ + X̄ 2 )
n 1
i=1
Xn
1 2n n
= (Xi2 ) X̄ 2 + X̄ 2
n 1 n 1 n 1
i=1
Xn
1 n
= (Xi2 ) X̄ 2
n 1 n 1
i=1

Estimation ECGEB 252 - Probabilités et statistique inférentielle 30 / 73


Trouverune formuleplussimplede sa

s
É È Ki Il M
2 Xi _zxix x 4 n.fi ZXi2 Z2XiI F

2 MF2
2h 2F Exit MI E ki 2F Ici I
m
n s n 1

n
Z ti 2Mff En Exit mn EX 2mm né
n
m s

Etixx tmf fr Et F
fr
Montrer
quel'estimateur s'est10ns biais
F
F Is F Et F EH Eh E Fr
m
Ek til mm Et F

Elen Zhi
Et n'Varix

Ei Etvamp
Estimateur sans biais (ctnd)

Montrons maintenant que s 2 est un estimateur sans biais de 2

 n
X
1 n
E(s 2 ) = E (Xi2 ) X̄ 2
n
1 n 1
i=1
X n
E X̄ 2 pa Va KI EH4 KI
1 n CE
= E (Xi2 )
n 1 n 1
i=1
n ⇥ v 2
⇤ n ⇥ 2

= Var(X ) + E (X ) Var(X̄ ) + E (X̄ )
n 1 n 1
 2
n ⇥ 2 ⇤ n
= + µ2 + µ2
n 1 n 1 n
n 2n 1
= = 2
n 1 n
Biais d F s2 O2 0
A noter que s = n n 1 S 2 est un estimateur sans biais de 2 mais pas
2

s de !
Estimation ECGEB 252 - Probabilités et statistique inférentielle 31 / 73
Estimateur efficace (de variance minimale)
Au-delà de l’exigence qu’un estimateur vise juste en espérance, on
souhaite aussi qu’il soit suffisamment précis, càd que ses valeurs
observées soient suffisamment concentrées autour de la valeur espérée
L’efficacité d’un estimateur est donc liée à la faible dispersion des
résultats observés, donc à sa faible variance
Efficacité relative
Soit ✓b1 et ✓b2 deux estimateurs sans biais du paramètre ✓.
L’efficacité relative de ✓b1 par rapport à ✓b2 est le rapport

b b Var ✓b2
ER(✓1 , ✓2 ) =
Var ✓b1

✓b1 est relativement plus efficace que ✓b2 si ER(✓b1 , ✓b2 ) 1

Un estimateur sans biais est plus efficace qu’un autre si sa variance


est plus petite
Estimation ECGEB 252 - Probabilités et statistique inférentielle 32 / 73
Estimateur efficace (ctnd)

Exercice
Soient X1 , . . . , Xn i.i.d. , E[Xi ] = µ < 1.
X̄ et X1 sont deux estimateurs sans biais pour µ (En quoi?).
Question : Quel est l’estimateur relativement le plus efficace?

Estimation ECGEB 252 - Probabilités et statistique inférentielle 33 / 73


Estimateur efficace (ctnd)

Exercice
Soient X1 , . . . , Xn i.i.d. , E[Xi ] = µ < 1.
X̄ et X1 sont deux estimateurs sans biais pour µ (En quoi?).
Question : Quel est l’estimateur relativement le plus efficace?

L’efficacité relative de X̄ par rapport à X1 est donnée par :

Var(X1 ) 2
ER(X̄ , X1 ) = = 2 /n
=n
Var(X̄ )

Estimation ECGEB 252 - Probabilités et statistique inférentielle 33 / 73


Estimateur efficace (ctnd)

Exercice
Soient X1 , . . . , Xn i.i.d. , E[Xi ] = µ < 1.
X̄ et X1 sont deux estimateurs sans biais pour µ (En quoi?).
Question : Quel est l’estimateur relativement le plus efficace?

L’efficacité relative de X̄ par rapport à X1 est donnée par :

Var(X1 ) 2
ER(X̄ , X1 ) = = 2 /n
=n
Var(X̄ )

La moyenne d’échantillonnage X̄ est relativement plus efficace que X1


si n > 1.

Estimation ECGEB 252 - Probabilités et statistique inférentielle 33 / 73


Estimateur efficace (ctnd)

Exercice
Soient X1 , X2 , X3 un échantillon aléatoire extrait d’une normale dont µ et
sont inconnus.
(1) Montrez que µ̂1 et µ̂2 sont sans biais.
(2) Quel estimateur de µ est le plus efficace, µ̂1 ou µ̂2 ?
1 1 1
µ̂1 = X1 + X2 + X3
4 2 4
1 1 1
µ̂2 = X1 + X2 + X3
3 3 3

Estimation ECGEB 252 - Probabilités et statistique inférentielle 34 / 73


Estimateur efficace (ctnd)
Pour répondre à la première question, étudions les espérances
mathématiques des deux estminateurs, soient :

1 1 1
E(bµ1 ) = E X 1 + X 2 + X 3
4 2 4
1 1 1
= E(X1 ) + E(X2 ) + E(X3 )
4 2 4
1 1 1
= µ+ µ+ µ=µ
4 2 4
1 1 1
E(bµ2 ) = E X 1 + X 2 + X 3
3 3 3
1 1 1
= E(X1 ) + E(X2 ) + E(X3 )
3 3 3
1 1 1
= µ+ µ+ µ=µ
3 3 3
Ces deux estimateurs sont donc bien sans biais.
Estimation ECGEB 252 - Probabilités et statistique inférentielle 35 / 73
Estimateur efficace (ctnd)

Intéressons-nous maintenant à leur efficacité relative :



1 1 1
Var(bµ1 ) = Var X1 + X2 + X3
4 2 4
1 1 1 3 2
= Var(X1 ) + Var(X2 ) + Var(X3 ) =
16  4 16 8
1 1 1
Var(bµ2 ) = Var X1 + X2 + X3
3 3 3
1 1 1 3 2
= Var(X1 ) + Var(X2 ) + Var(X3 ) =
9 9 9 9
3 2 2
b2 par rapport à µ
L’efficacité relative de µ b1 est 8 / 39 soit 1.125.

Estimation ECGEB 252 - Probabilités et statistique inférentielle 36 / 73


Borne inférieure de Cramér-Rao

Soient ✓b1 et ✓b2 , deux estimateurs sans biais du paramètre ✓


Nous savons que le “meilleur” des deux est celui avec la plus petite
variance mais quid de leur performance par rapport aux autres
estimateurs sans biais de ✓?
Autrement dit : Peut-il y avoir un ✓b3 de variance inférieure à ✓b1 et ✓b2 ?
Question : Et plus largement, peut-on identifier l’estimateur sans
biais à variance minimale?

Estimation ECGEB 252 - Probabilités et statistique inférentielle 37 / 73


Borne inférieure de Cramér-Rao (ctnd)

Principe
Soit un échantillon aléatoire de taille n extrait d’une population de densité
fX (x; ✓) où ✓ est un paramètre inconnu.
Il existe une limite théorique inférieure à la variance de tout estimateur
sans biais de ✓, connue comme la borne inférieure de Cramér-Rao

Si la variance d’un ✓b donné est égale à la borne inférieure de


Cramér-Rao, cet estimateur est optimal
Aucun autre ✓b sans biais ne peut estimer ✓ avec une plus grande
précision (ou une plus petite variance)

Estimation ECGEB 252 - Probabilités et statistique inférentielle 38 / 73


Borne inférieure de Cramér-Rao (ctnd)
Théorème
Soit fX (xi ; ✓) une fonction de densité continue et dérivable deux fois par
rapport à ✓.
Supposons également que l’ensemble des valeurs de x où fX (xi ; ✓) = 0 ne
dépende pas de ✓.
Soient X1 , . . . , Xn , un échantillon aléatoire de taille n extrait d’une
population de densité fX (xi ; ✓) et ✓b un estimateur sans biais du paramètre
inconnu ✓, alors

b 1 1
Var(✓) ⇣ ⌘2 = 
@lnL(X ;✓) @ 2 lnL(X ;✓)
E @✓ E @✓ 2

NB1:
1 1
⇣ ⌘2 = 
@lnL(X ;✓) @lnL(X ;✓)
E @✓ Var @✓

Estimation ECGEB 252 - Probabilités et statistique inférentielle 39 / 73


Borne inférieure de Cramér-Rao (ctnd)

Théorème
Soit fX (xi ; ✓) une fonction de densité continue et dérivable deux fois par
rapport à ✓.
Supposons également que l’ensemble des valeurs de x où fX (xi ; ✓) = 0 ne
dépende pas de ✓.
Soient X1 , . . . , Xn , un échantillon aléatoire de taille n extrait d’une
population de densité fX (xi ; ✓) et ✓b un estimateur sans biais du paramètre
inconnu ✓, alors

b 1 1
Var(✓) ⇣ ⌘2 = 
@lnL(X ;✓) @ 2 lnL(X ;✓)
E @✓ E @✓ 2

NB2: Ce théorème tient également dans le cas discret.

Estimation ECGEB 252 - Probabilités et statistique inférentielle 40 / 73


Estimateur efficace

Soient X1 , . . . , Xn , un échantillon aléatoire de taille n extrait d’une


population de densité fX (x, ✓) et ✓b un estimateur sans biais du
paramètre inconnu ✓
On dit de l’estimateur sans biais ✓b qu’il est efficace si la variance de
✓b est égale à la borne inférieure de Cramér-Rao associée à fX (x; ✓)
L’efficacité d’un estimateur sans biais ✓b est le rapport entre la borne
inférieure de Cramér-Rao associée à fX (x; ✓) et la variance de ✓b

Estimation ECGEB 252 - Probabilités et statistique inférentielle 41 / 73


Estimateur efficace (ctnd)

Exemple : Distribution binomiale


i.i.d
Soient X1 , . . . , Xn ⇠ B(p) avec p 2 (0, 1)
La vraisemblance de l’échantillon est donné par :
Pn Pn
Lp (X1 , . . . , Xn ) = p i=1 Xi (1 p) n i=1 Xi

P
X
Définissons pb = X̄ = ni i dont il doit être, à présent, clair pour vous
qu’il est un estimateur sans biais de p. (Pouvez-vous le montrer?)
Notez tout d’abord que :
⇣1 X ⌘ 1 ⇣X ⌘ 1 p(1 p)
Var(b
p ) = Var Xi = 2 Var Xi = 2 np(1 p) =
n n n n
i i

Question : Comment la Var(b p ) se situe-t-elle par rapport à la borne


inférieure de Cramér-Rao?
Estimation ECGEB 252 - Probabilités et statistique inférentielle 42 / 73
Estimateur efficace (ctnd)
La solution au problème posé passe d’abord par la réécriture de la
vraisemblance sous forme logarithmique : Lp (X1 , . . . , Xn ) devient
alors :
n
X ✓ n
X ◆
lnLp (X1 , . . . , Xn ) = Xi ln(p) + n Xi ln(1 p)
i=1 i=1
et ✓X ◆
n
@lnLp (X1 , . . . , Xn ) 1 n
= Xi
@p p(1 p) 1 p
i=1
@lnLp (X1 ,...,Xn )
La variance de @p est alors donnée par :
!
@lnLp (X1 , . . . , Xn ) 1 ⇣X
n ⌘
Var = Var Xi
@p p 2 (1 p)2
i=1
np(1 p) n
= =
p 2 (1 p)2 p(1 p)
Estimation ECGEB 252 - Probabilités et statistique inférentielle 43 / 73
Estimateur efficace (ctnd)

On voit donc que :


1
Var(b
p) = ⇣ ⌘
@lnLp (X1 ,...,Xn )
Var @p

Comme P Var(b p ) est égale à la borne inférieure de Cramér-Rao,


X
pb = ni i est l’estimateur sans biais préféré du paramètre p d’une
distribution binomiale
Autrement dit : On ne peut, en e↵et, trouver aucun autre estimateur
sans biais de p ayant une plus petite variance.

Estimation ECGEB 252 - Probabilités et statistique inférentielle 44 / 73


Estimateur efficace (ctnd)
On peut également prendre l’espérance de la dérivée seconde par
rapport au paramètre inconnu pour atteindre la borne inférieure de
Cramér-Rao comme suit :
✓X
n ◆
@ 2 lnLp (X1 , . . . , Xn ) 1 + 2p n
= X i
@p 2 p 2 (1 p)2 (1 p)2
i=1


@ 2 lnLp (X1 , . . . , Xn ) 1 + 2p n
E = np
@p 2 p 2 (1 p)2 (1 p)2
n + 2np np n
= =
p(1 p)2 p(1 p)
En toute logique, nous confirmons que la variance de l’estimateur est
égale à la borne inférieure de Cramér-Rao, soit
 1
Var(bp) =
@ 2 lnLp (X1 ,...,Xn )
E
@p 2

Estimation ECGEB 252 - Probabilités et statistique inférentielle 45 / 73


Estimateur efficace (ctnd)

Exercice : Moyenne d’un échantillon Gaussien


i.i.d 2) 2
Soient X1 , . . . , Xn ⇠ N (µ, avec donnée
P
Xi
b = X̄ =
Définissons µ n
i

Question : Comment la Var(b µ) se situe-t-elle par rapport à la borne


inférieure de Cramér-Rao?

Estimation ECGEB 252 - Probabilités et statistique inférentielle 46 / 73


Estimateur efficace (ctnd)
Il convient de définir dans un premier temps, la log-vraisemblance de
l’échantillon, soit :
n
n n 2 1 X 2
lnLµ, 2 (X1 , . . . , Xn ) = ln(2⇡) ln( ) 2
Xi µ
2 2 2
i=1

On calcule ensuite la dérivée première de la fonction par rapport à µ,


celle-ci est donnée par :
n
@lnLµ, 2 (X1 , . . . , Xn ) 1 X
= 2 Xi µ

i=1

La variance de cette expression devient :


✓ ◆ n
@lnLµ, 2 (X1 , . . . , Xn ) 1 X 2
Var = 4
E[ Xi µ ]

i=1
1 2 n
= 4
n = 2

Estimation ECGEB 252 - Probabilités et statistique inférentielle 47 / 73


Estimateur efficace (ctnd)

Reste à présent à comparer l’inverse de cette expression avec la


variance de X̄
2 1
Var(X̄ ) = = ✓ ◆
n @lnLµ, 2 (X1 ,...,Xn )
Var @µ

La moyenne d’échantillonnage X̄ en tant qu’estimateur de µ, la


moyenne de la population atteint la borne de Carmér-Rao
C’est donc un estimateur efficace de ce paramètre

Estimation ECGEB 252 - Probabilités et statistique inférentielle 48 / 73


Estimateur efficace (ctnd)

Il eût été possible de dériver ce résultat autrement en calculant de


façon alternative la borne de Cramér-Rao, soit :
 1
, ce qui donne :
@ 2 ln L (X ,...,Xn )
µ, 2 1
E
@ µ2

@ 2 lnLµ, 2 (X1 , . . . , Xn ) 1
= n
@µ2 2

On obtient alors :
1 2
 =
@ 2 ln Lµ, 2 (X1 ,...,Xn ) n
E @ µ2

Ce qui confirme à nouveau que X̄ est un estimateur efficace de µ

Estimation ECGEB 252 - Probabilités et statistique inférentielle 49 / 73


Estimateur efficace (ctnd)

La notion de “meilleur” estimateur est liée au concept d’efficacité


Notez cependant que “efficace” et “meilleur” ne sont pas synonymes
Si la variance d’un estimateur sans biais est égale à la borne inférieure
de Cramér-Rao, par définition, on a alors un meilleur estimateur (best
estimator )
La réciproque n’est pas nécessairement vraie dans le sens où il existe
des situations dans lesquelles la variance d’estimateurs sans biais
n’atteint jamais la borne inférieure de Cramér-Rao. Dans ce cas, ces
estimateurs ne sont pas efficaces, mais certains d’entre eux peuvent
être qualifiés de “meilleur”
P
Xi
Dans l’exemple précédent pb = n
i
est à la fois efficace et meilleur

Estimation ECGEB 252 - Probabilités et statistique inférentielle 50 / 73


Efficacité ou biais?

Figure: Distributions d’échantillonnage de deux estimateurs concurrents de ✓ = 0

Question : A votre avis, quel est le meilleur estimateur pour prédire la


vraie valeur de ✓?
Estimation ECGEB 252 - Probabilités et statistique inférentielle 51 / 73
Efficacité ou biais? (ctnd)
Tout comme il vaut mieux être riche et en bonne santé que pauvre et
malade, l’idéal est de trouver un estimateur sans biais et à faible
variance
Mais, ne pourrait-on accepter un estimateur de léger biais à très faible
variance?
Autrement dit : Comment peut-on comparer deux estimateurs dont
l’un serait sans biais et l’autre pas?
Cette notion globale d’efficacité, avec ou sans biais, est mesurée par
l’erreur quadratique moyenne
Erreur quadratique moyenne
L’erreur quadratique moyenne de l’estimateur ✓b du paramètre ✓ est donnée
par : ⇥ ⇤
b
EQM(✓) = E (✓ ✓)b 2

L’erreur quadratique moyenne est évidemment liée au biais et à la


variance de l’estimateur
Estimation ECGEB 252 - Probabilités et statistique inférentielle 52 / 73
Erreur quadratique moyenne
Théorème
b = Var(✓)
EQM(✓) b + [b(✓)]
b 2

Sketch of proof : Soient ✓b un estimateur de ✓, ⌧ l’espérance de ✓b et b


b on a alors :
le biais de ✓,
⇥ ⇤
b
EQM(✓) = E (✓ ✓) , b 2
⇥ ⇤
b
= E (✓ ⌧ + ⌧ ✓) 2
⇥ ⇤
= E (✓b ⌧ + b)2
En développant le carré et en calculant l’espérance de la somme on
obtient :
⇥ ⇤ ⇥ 2⇤
b b
EQM(✓) = E (✓ ⌧ ) + E b 2

⇥ ⇤ ⇥ ⇤
b b
puisque 2E (✓ ⌧ )b = 2bE (✓) ⌧ = 0
b = Var(✓)
D’où : EQM(✓) b + b2
Estimation ECGEB 252 - Probabilités et statistique inférentielle 53 / 73
Efficacité relative
Si deux estimateurs sont sans biais, le plus efficace est celui de plus
petite variance
Par ailleurs, pour deux estimateurs de même variance, c’est celui de
plus petit biais qui est le plus efficace
Nous pouvons généraliser notre définition de l’efficacité de la façon
suivante :
Efficacité relative
Soient ✓b1 et ✓b2 , deux estimateurs de ✓, sans biais ou non.
L’efficacité relative de ✓b1 par rapport à ✓b2 est le rapport

b b EQM(✓b2 )
ER(✓1 , ✓2 ) =
EQM(✓b1 )

Remarque : EQM(✓) b = Var(✓)b si ✓b est un estimateur sans biais de ✓,


on retrouve alors la formulation précédente
Estimation ECGEB 252 - Probabilités et statistique inférentielle 54 / 73
Efficacité relative (ctnd)
Si deux estimateurs sont sans biais, le plus efficace est celui de plus
petite variance
Par ailleurs, pour deux estimateurs de même variance, c’est celui de
plus petit biais qui est le plus efficace
Nous pouvons généraliser notre définition de l’efficacité de la façon
suivante :
Efficacité relative
Soient ✓b1 et ✓b2 , deux estimateurs de ✓, sans biais ou non.
L’efficacité relative de ✓b1 par rapport à ✓b2 est le rapport

b b EQM(✓b2 )
ER(✓1 , ✓2 ) =
EQM(✓b1 )

Généralisation : Un estimateur ✓b de ✓ est dit efficace si son écart


quadratique moyen atteint la borne inférieure de Cramér-Rao
Estimation ECGEB 252 - Probabilités et statistique inférentielle 55 / 73
Propriétés asymptotiques des estimateurs
Il existe également des définitions asymptotiques de la qualité d’un
estimateur
Estimateur asymptotiquement sans biais
Un estimateur est asymptotiquement sans biais si le biais tend vers zéro
lorsque la taille d’échantillon s’accroı̂t indéfiniment.

Estimateur convergent (consistent)


Un estimateur est convergent ou asymptotiquement convergent
Iorsque son EQM tend vers zéro lorsque la taille d’échantillonnage s’accroı̂t
indéfiniment.
Un estimateur convergent a évidemment un biais et une variance qui
tendent vers zéro
Ceci revient en quelque sorte à demander que l’estimateur tende à
donner la bonne réponse avec certitude lorsque l’échantillon se
rapproche d’un recensement de la population
Estimation ECGEB 252 - Probabilités et statistique inférentielle 56 / 73
Propriétés asymptotiques des estimateurs (ctnd)

Exemple : Moyenne d’échantillonnage


Soient X1 , . . . , Xn i.i.d. ⇠ N (µ, 1) avec (n 2), E (Xi ) = µ < 1
La moyenne d’échantillonnage X̄ est telle que

E(X̄ ) = µ
Var(X̄ ) = n1 ) lim Var(X̄ ) = 0
n!+1

A titre d’illustration, on peut se référer aux simulations de Monte


p
Carlo du chapitre précédent qui illustre le fait que / n diminue avec
la taille de l’échantillon
Quand la taille de l’échantillon est tellement grande que l’on obtient
la population, X̄ = µ et donc la variance, qui mesure la dispersion
autour de la mesure de tendance centrale, devient nulle

Estimation ECGEB 252 - Probabilités et statistique inférentielle 57 / 73


Estimation ponctuelle vs. estimation par IC
Estimation simple ou ponctuelle Un point, une statistique t(X1 , . . . , Xn )
(ex : moyenne d’échantillonnage) permet d’évaluer ✓
(paramètre inconnu de la population)
Cette valeur ne donne en revanche pas d’information sur la
marge d’erreur (ou la précision de l’estimation)
Estimation par intervalle de confiance Deux statistiques t1 (X1 , . . . , Xn ) et
t2 (X1 , . . . , Xn ) constituent les bornes inférieure et supérieure
avec t1 (.) < t2 (.), définissant un intervalle et la probabilité
que l’intervalle contienne la véritable valeur du paramètre
estimé
Définition
Un intervalle de confiance au niveau de confiance (1 ↵) pour ✓ est un
intervalle [t1 (.), t2 (.)] tel que :
t1 (.) et t2 (.) sont des statistiques
P[t1 (.)  ✓  t2 (.)] 1 ↵ 8✓
Estimation ECGEB 252 - Probabilités et statistique inférentielle 58 / 73
Estimation ponctuelle vs. estimation par IC (ctnd)
Dans le cadre d’une estimation ponctuelle, l’information fournie se
résume à un nombre unique t(.) = ✓b
Si on répète l’opération, on obtient une autre valeur (dont on sait que
la probabilité qu’elle soit égale à ✓ est nulle, soit P(✓b = ✓) = 0)
t(.)

L’estimation par intervalle de confiance fournit quant à elle un


intervalle de valeurs possibles pour le paramètre inconnu, plus
l’intervalle est petit, plus la précision est grande
Cette mesure incorpore donc une marge d’erreur ou erreur
d’échantillonnage (EE )
t1 (.) t2 (.)

t1 (.) t2 (.)

Estimation ECGEB 252 - Probabilités et statistique inférentielle 59 / 73


IC pour la moyenne d’un échantillon Gaussien
Soient X1 , . . . , Xn i.i.d. ⇠ N (µ, 2) avec (n 2). Supposons que 2 est
connu. On sait que :

2 X̄ µ
X̄ ⇠ N (µ, /n) ) ⇠ N (0, 1)
p
n

On a donc

µ X̄
P p  z↵/2 = ↵/2 8µ
/ n

X̄ µ
P p  z1 ↵/2 = 1 ↵/2 8µ
/ n

X̄ µ
P p z1 ↵/2 = ↵/2 8µ
/ n

X̄ µ
) P z↵/2  p  z1 ↵/2 = 1 ↵ 8µ
/ n
avec z↵/2 = z1 ↵/2
Estimation ECGEB 252 - Probabilités et statistique inférentielle 60 / 73
IC pour la moyenne d’un échantillon Gaussien (ctnd)

↵/2 1 ↵ ↵/2

X̄ pµ
z↵/2 0 z1 ↵/2 / n
z1 ↵/2

Figure: Loi Normale centrée réduite, N (0, 1)

Estimation ECGEB 252 - Probabilités et statistique inférentielle 61 / 73


IC pour la moyenne d’un échantillon Gaussien (ctnd)


X̄ µ
P z↵/2  p  z1 ↵/2 = 1 ↵ 8µ
/ n

P z↵/2 p  X̄ µ  z1 ↵/2 p = 1 ↵ 8µ
n n

P X̄ z1 ↵/2 p  µ  X̄ z↵/2 p = 1 ↵ 8µ
n n

P X̄ z1 ↵/2 p  µ  X̄ + z1 ↵/2 p = 1 ↵ 8µ
n n
| {z } | {z }
t1 (X1 ,...,Xn ) t2 (X1 ,...,Xn )

[t1 (X1 , . . . , Xn ), t2 (X1 , . . . , Xn )] = [X̄ ± z1 ↵/2 pn ] est donc un intervalle


de confiance pour µ au niveau de confiance (1 ↵).
EE = z1 ↵/2 pn

Estimation ECGEB 252 - Probabilités et statistique inférentielle 62 / 73


IC pour la moyenne d’un échantillon Gaussien (ctnd)

↵/2 1 ↵ ↵/2

µ X̄
µ z1 ↵/2 p n
µ + z1 ↵/2 p n

Figure: Distribution d’échantillonnage des moyennes d’échantillonnage de n


observations d’une N (µ, 2 ) et intervalle de confiance à (1 ↵)%

Un intervalle de confiance pour la moyenne de population sera basé sur la


valeur observée de la moyenne d’échantillonnage, càd sur une observation
tirée de cette distribution d’échantillonnage.
Estimation ECGEB 252 - Probabilités et statistique inférentielle 63 / 73
Imaginons que l’on recommence 20 fois le processus de tirer un
échantillon de 100 observations
Ceci n’a↵ecte en rien la vraie valeur de µ. Par contre, X̄ sera très
probablement di↵érent d’un échantillon à l’autre. En recommençant
20 fois le même processus, on obtiendrait 20 intervalles di↵érents

Ce que P X̄ 1.96 pn  µ  X̄ + 1.96 pn = .95 nous dit, c’est que
environ 95 % de ceux-ci, soit 19 d’entre eux devraient contenir la
vraie valeur de µ
Le statisticien n’a aucun moyen de vérifier quelle est la vraie valeur de
µ et même si le nombre d’intervalles contenant µ est de 19 comme
“espéré”, il n’est pas possible de savoir lesquels contiennent µ
De toute façon, en pratique, il est de loin préférable de prendre un
échantillon de 2000 observations plutôt que 20 fois un échantillon de
100 observations
Question : Pourquoi?

Estimation ECGEB 252 - Probabilités et statistique inférentielle 64 / 73


µ

Figure: 20 intervalles de confiance et moyenne de population

On s’attend à ce que µ se trouve dans 19 des 20 intervalles de confiance


provenant de 20 échantillons tirés d’une même population (95% des cas).
Le centre de chaque intervalle de confiance est la moyenne
d’échantillonnage, X̄ .
Estimation ECGEB 252 - Probabilités et statistique inférentielle 65 / 73
Intervalles de confiance

Exercice : Temps à l’épicerie


Supposons que le temps passé par les clients d’une épicerie est
distribué normalement avec un écart-type de population connu de 20
minutes
Un échantillon aléatoire de 64 clients a passé un temps moyen de 75
minutes à faire les courses dans cette épicerie.
Trouvez l’écart-type, la marge d’erreur, les bornes inférieure et
supérieure d’un intervalle au niveau de confiance de 95% pour la
moyenne de population, µ

Estimation ECGEB 252 - Probabilités et statistique inférentielle 66 / 73


Intervalles de confiance (ctnd)

L’écart-type est donné par : p = p20 = 2.5


n 64
L’erreur d’échantillonnage par EE = z1 ↵/2 pn = 1.96(2.5) = 4.9
L’intervalle de confiance à 95% est alors le suivant :

[X̄ z1 ↵/2 p , X̄ + z1 ↵/2 p ]


n n

[70.1, 79.9]
Le niveau de confiance de l’intervalle implique qu’à long terme, 95%
des intervalles trouvés en suivant cette procédure contiennent la
véritable valeur de la moyenne de la population
On ne peut cependant savoir si cet intervalle fait partie des 95% de
bons ou des 5% de mauvais sans connaı̂tre µ

Estimation ECGEB 252 - Probabilités et statistique inférentielle 67 / 73


IC pour la moyenne d’un échantillon de loi quelconque
Soient X1 , . . . , Xn i.i.d. où Var(X ) = 2 < 1.
i
1 Pn
Posons µ = E(Xi ) et X̄ = n i=1 Xi . On sait que :

X̄ µ
P  x ! (x)
p
n

où x 7! (x) est la fonction de répartition de la Normale (0,1). Pour n


suffisamment grand, il suit :

X̄ µ
P z↵/2  s  z1 ↵/2 ' 1 ↵ 8µ
p
n

s s
P X̄ z1 ↵/2 p  µ  X̄ + z1 ↵/2 p ' 1 ↵ 8µ
n n
| {z } | {z }
t1 (X1 ,...,Xn ) t2 (X1 ,...,Xn )

[t1 (X1 , . . . , Xn ), t2 (X1 , . . . , Xn )] = [X̄ ± z1 ↵/2 psn ] est donc un intervalle


de confiance pour µ au niveau de confiance (asymptotique) (1 ↵).
Estimation ECGEB 252 - Probabilités et statistique inférentielle 68 / 73
IC pour une proportion (Bernoulli)
Soient X1 , . . . , Xn i.i.d. ⇠ B(p) avec p 2 (0, 1). Pour pb = X̄ , on a
E(X̄ ) = p et Var(X̄ ) = p(1n p) .
Par le théorème de de Moivre-Laplace (Chapitre 5), on sait que
" #
X̄ p
P q  x ! (x)
p(1 p)
n
Si n est suffisamment grand et qu’on approxime p par pb, on a

pb p
P z↵/2  q  z1 ↵/2 ' 1 ↵ 8p
pb(1 pb)
n
 r r
pb(1 pb) pb(1 pb)
P pb z1 ↵/2  p  pb + z1 ↵/2 ' 1 ↵ 8p
| {z n } | {z n }
t1 (X1 ,...,Xn ) t2 (X1 ,...,Xn )
q
b b
p ± z1 ↵/2 p (1n p ) ] est donc un IC
[t1 (X1 , . . . , Xn ), t2 (X1 , . . . , Xn )] = [b
pour p au niveau de confiance (asymptotique) (1 ↵).
Estimation ECGEB 252 - Probabilités et statistique inférentielle 69 / 73
Valeurs critiques de la loi normale centrée réduite, N (0, 1), pour di↵érents
niveaux de confiance.

1 ↵ ↵ ↵/2 z1 ↵/2
.9 .1 .05 z.95 = 1.645
.95 .05 .025 z.975 = 1.960
.99 .01 .005 z.995 = 2.575

Estimation ECGEB 252 - Probabilités et statistique inférentielle 70 / 73


Correction pour petits échantillons
Les formules de l’erreur d’échantillonnage pour un échantillon Gaussien et
une proportion sont basées sur le fait que pour une variable aléatoire ayant
un écart-type , la moyenne d’échantillonnage a un écart-type pn .
Lorsque l’échantillonnage se fait sans remise, l’écart-type de la moyenne
d’échantillonnage est réduit par le facteur de réduction :
r
N n
N 1
où N est la taille de la population et n la taille de l’échantillon.
Dans le cas de l’échantillon sans remise, les formules de l’erreur
d’échantillonnage (EE ) deviennent respectivement pour une variable
aléatoire Normale et une proportion
r r r
N n p(1 p) N n
EE = z1 ↵/2 p et EE = z1 ↵/2
n N 1 n N 1
On constate que si la population est très grande, le facteur correctif est
négligeable.
Estimation ECGEB 252 - Probabilités et statistique inférentielle 71 / 73
Taille de l’échantillon

Dans la pratique, il arrive fréquemment que l’on veuille trouver la taille


d’échantillon n nécessaire pour que l’intervalle de confiance construit, au
niveau de confiance (1 ↵), soit de longueur au plus égale à 2EE .
En partant de la formule de l’erreur d’échantillonnage, on obtient :

p 2
n = z1 ↵/2 )n= z12 ↵/2
EE EE 2
Et dans le cas particulier d’une proportion :
p
p pb(1 pb) pb(1 pb)
n = z1 ↵/2 ) n = z12 ↵/2
EE EE 2
Dans le cas d’un échantillonnage de Bernoulli, on peut vouloir trouver la
taille n minimale du sondage nécessaire pour connaı̂tre, au niveau de
confiance (1 ↵), la proportion inconnue p à 0.01 près (à 1% près).

Estimation ECGEB 252 - Probabilités et statistique inférentielle 72 / 73


Ne connaissant pas la proportion p, on peut la remplacer par la plus
grande valeur qu’elle peut prendre soit p = .5. On a alors

z12↵/2
n=
4EE 2
Soit, pour des valeurs fréquentes de ↵ (5% et 1%) et EE (10%, 5% et
1%),

EE = .1 EE = .05 EE = .01
↵ = .05 97 385 9604
↵ = .01 166 664 16577

Notez que :
(1) la taille minimale de l’échantillon doit être un entier (il faut donc
arrondir à l’unité supérieure) ;
(2) si vous disposez d’une estimation de p, vous pouvez évidemment
l’utiliser.

Estimation ECGEB 252 - Probabilités et statistique inférentielle 73 / 73

Vous aimerez peut-être aussi