Académique Documents
Professionnel Documents
Culture Documents
Philippe Ciblat
Notion d’estimateurs
Bornes de Cramer-Rao
Analyse asymptotique
Maximum de vraisemblance
Objectif
A la donnée d’une réalisation, retrouver de l’information sur la densité
de probabilité
Hypothèse
La densité de probabilité de XN dépend d’un paramètre d’intérêt θ.
pX (xN |θ)
Détection Estimation
θ admet un nombre θ admet un nombre
dénombrable/fini de valeurs non-dénombrable de valeurs
Critère Critère
Probabilité d’erreur Erreur quadratique moyenne
θ̂ N = θ̂(x1 , . . . , xN )
Remarques
Toute statistique est une variable aléatoire
La théorie de l’estimation a pour objet de trouver des bons
estimateurs par rapport à des critères mesurant l’écart entre la
vraie valeur et la valeur estimée
A chaque critère correspond des bons et des mauvais
estimateurs
Philippe Ciblat Estimation des paramètres de propagation 6/1
Statistiques exhaustives
Une statistique est dite exhaustive par rapport à pX (xN |θ) ssi
Exemple
Soit XN un vecteur gaussien réel dont les composantes sont i.i.d. de
moyenne m et variance v . Soit θ = [m, v ]. On a
PN 2 N 2
= e− 2v (v̂N +(m̂N −m) )
1
pX (xN |θ) ∝ e− 2v n=1 (xn −m)
avec
PN
m̂N = n=1 xn /N : la moyenne empirique
PN
v̂N = n=1 (xn − m̂N )2 /N : la variance empirique
Risque
On moyenne la fonction de coût sur les valeurs possibles de xN
Remarques
Un estimateur est dit sans biais ssi b(θ, θ̂) = 0
Le lien entre les trois mesures est
N
1 X
m̂N = xn
N
n=1
v
var(m, m̂N ) =
N
R(θ, θ̂ 1 ) ≤ R(θ, θ̂ 2 ) ∀ θ ∈ Θ
Question
Y-a-t-il une valeur minimale du risque ?
Si le risque est quadratique
Si le problème est suffisamment régulier
Si on restreint la classe des estimateurs
alors la réponse est affirmative ⇒ borne de Cramer-Rao (BCR/CRB)
Exemple
Soit X un scalaire gaussien réel de moyenne θ = m et variance 1
1 2
pX (x|θ) = √ e−(x−θ) /2
2π
Proposition 1
Un estimateur sans biais vérifie l’inégalité suivante
T
EX θ̂ − θ θ̂ − θ ≥ F (θ)−1 = CRB(θ)
Remarques
EQM(θ, θ̂) ≥ trace(F (θ)−1 )
La matrice F (θ) se nomme matrice d’information de Fisher (FIM)
" T #
∂ ln pX (xN |θ) ∂ ln pX (xN |θ)
F (θ) = EX
∂θ ∂θ
Proposition 2
Si la fonction ln pX (xN |θ) admet une dérivée seconde, alors
2
∂ ln pX (xN |θ)
F (θ) = −EX
(∂θ)2
Remarques
La formule précédente est une variante de la CRB
pX (xN |θ) est la vraisemblance
ln pX (xN |θ) est la log-vraisemblance
Z
∂ ∂
EX (θ̂ − θ) ln pX (x|θ) = (θ̂ − θ)
ln pX (x|θ)pX (x|θ)dx
∂θ ∂θ
Z
∂
= (θ̂ − θ) pX (x|θ)dx
∂θ
∂
= EX [θ̂]
∂θ
= 1
∂2
1 ∂ 1 ∂
EX ln pX (x|θ) = −EX pX (x|θ) pX (x|θ)
(∂θ)2 pX (x|θ) ∂θ pX (x|θ) ∂θ
∂2
1
+ EX pX (x|θ)
pX (x|θ) (∂θ)2
1 ∂ 1 ∂
= −EX pX (x|θ) pX (x|θ)
pX (x|θ) ∂θ pX (x|θ) ∂θ
" 2 #
∂
= −EX ln pX (x|θ)
∂θ
1 PN 2
pX (XN |m) = √ e− n=1 (xn −m) /2v
( 2πv )N
Résultat
La matrice d’information de Fisher (pour l’estimation de m) est tel que
v
F −1 =
N
Remarques
Considérons l’estimateur empirique de la moyenne
Cet estimateur est sans biais et d’erreur quadratique v /N
Cet estimateur est donc efficace
Objectif
Etude des performances de l’estimateur θ̂ N lorsque N → ∞
0.45
Notion de convergence
0.4
0.35
0.3
0.25
Notion de dispersion
0.2 Variance
0.15
Allure de la
0.1
distribution
0.05
0
−1.5 −1 −0.5 0 0.5 1 1.5
Moyenne estimée
Objectif
Etude des performances de l’estimateur θ̂ N lorsque N → ∞
0.45
Notion de convergence
0.4
0.35
0.3
0.25
Notion de dispersion
0.2 Variance
0.15
Allure de la
0.1
distribution
0.05
0
−1.5 −1 −0.5 0 0.5 1 1.5
Moyenne estimée
Objectif
Etude des performances de l’estimateur θ̂ N lorsque N → ∞
0.45
Notion de convergence
0.4
0.35
0.3
0.25
Notion de dispersion
0.2 Variance
0.15
Allure de la
0.1
distribution
0.05
0
−1.5 −1 −0.5 0 0.5 1 1.5
Moyenne estimée
Démarche classique :
Loi forte des grands nombres
Lemme de Borel-Cantelli
X
∀ε > 0, Prob(kθ̂ n − θk > ε) < +∞ ⇒ Prob( lim θ N = θ) = 1
N→∞
n∈N
Inégalité de Markov/Tchebitchev
E[kθ̂ N − θkpLp ]
Prob(kθ̂ N − θk > ε) ≤ , p≥2
εp
Philippe Ciblat Estimation des paramètres de propagation 19 / 1
Normalité asymptotique
Définition
Un estimateur est dit asymptotiquement normal ssi
L
N p/2 (θ̂ N − θ) → N (0, Γ)
où
p est la vitesse de convergence (convergence dite en 1/N p )
Γ est la matrice de covariance (asymptotique)
L
Convergence en loi : xn → x
Pour toute fonction continue bornée : limN→∞ E[f (xn )] = E[f (x)]
Pour tout w, limN→∞ E[eiwxn ] = E[eiwx ]
les réalisations des v.a. peuvent être totalement différentes, elles
ont juste la même loi asymptotiquement
Définition
Soit pX (.|θ) une densité de probabilité paramétrée par θ
Remarque :
Supposons, pour simplifier, que les xn sont i.i.d.
∝ − ln p(xN |θ̃)
Performances asymptotiques
Si la suite xn est i.i.d. et pX (xn |θ) vérifie des conditions techniques
peu restrictives, alors l’estimateur ML est
consistant
asymptotiquement sans biais
asymptotiquement normal avec p = 1
asymptotiquement efficace
Soit
xn = fn (θ) + bn , pour n = 1, . . . , N
avec
fn (.) des fonctions déterministes
une suite bn i.i.d gaussienne de moyenne nulle et de variance v
Estimateur ML
N
X
θ̂ ML,N = arg min |xn − fn (θ̃)|2
θ̃
n=1
C’est donc l’estimateur des moindres carrés (LS pour Least Square)
Exemple :
L’estimateur empirique de la moyenne est le LS/ML.
L
X
y (n) = h(k )sn−k + b(n)
k =0
avec
h le filtre équivalent
b(n) un bruit blanc iid centré gaussien
Objectif
Comment estimer h ?
Trois modes :
Avec séquence d’apprentissage
Data-aided (DA) ou supervisé
Objectif
Estimer h à la donnée de y (n) et sn
yN = SN h + bN
avec
yN = [y (0), · · · , y (N − 1)]T
N nombre d’observations (temps d’observation = [0, NTs [)
[01,L , s0 , · · · , sN−1 ]T : séquence d’apprentissage
SN une matrice N × (L + 1) définie comme suit
s0 s−1 . . . s−L
. . . .
s1 . .
SN =
.
..
sN−1 sN−2 . . . sN−1−L
h = [h(0), · · · , h(L)]T
bN = [b(0), · · · , b(N − 1)]T : bruit blanc gaussien
Philippe Ciblat Estimation des paramètres de propagation 28 / 1
Estimateur du maximum de vraisemblance
On a ( )
2
kyN − SN hk
p(yN |h) ∝ exp −
2N0
d’où
2
ĥN = arg min kyN − SN hk
h
Résultat
−1
ĥN = S# H
N yN = SN SN SH
N yN
avec S#
N la pseudo-inverse de SN
Résultat fondamental
N−1
1 X p.s.
tN (k , l) = sn−k sn−l → E[sn−k sn−l ] = rs (k − l)
N
n=0
1 H p.s.
SN SN → Rs
N
Résultat
Estimateur sans biais : E[ĥN ] = h
Estimateur consistant
p.s.
ĥN → h
Estimateur asymptotiquement normal (avec une vitesse en 1/N)
L
N 1/2 (ĥN − h) → CN (0, Γ)
avec
−1
Γ = 2N0 (Rs )
Remarque :
h i trace(Γ)
MSE = E kĥN − hk2 ≈
N
−1
ĥN = SH
N SN SH N yN
−1
h + SH SH
= N SN N bN
⇒ sans biais
−1
1 H 1 H
= h+ SN SN S bN
N N N
⇒ consistant
−1
1 H 1
N 1/2 (ĥN − h) = SN SN √ SH b
N N
N N
⇒ asymptotiquement normal
−1
H 1 H
NE[(ĥN − h)(ĥN − h) ] = 2N0 S SN
N N
⇒ de covariance asymptotique Γ
Problème d’optimisation :
Résultat
La matrice Rs = P0 IdL+1 rend la MSE minimale
Remarque :
La séquence d’apprentissage optimale est blanche
1 H
L’estimateur ML devient le simple corrélateur ĥN = NP0 SN yN
λ` = P0
Résultat
−1
2N0 1 H
CRBN (h) = S SN
N N N
Remarque :
L’estimateur ML est donc efficace
On a
h = [−0.40825, 0.81650, 0.40825]T
Séquence blanche
0.1
MSE
MSE
0.01
0.01
0.001 0.001
0 50 100 150 200 250 300 0 5 10 15 20
N Eb/N0
On a
h = [−0.40825, 0.81650, 0.40825]T
Séquence blanche
Egaliseur de Wiener
Constellation d’amplitude à deux états (MDA2/BPSK)
0.1
0.01 0.01
TEB
TEB
0.001
0.001 1e-04
1e-05
1e-04 1e-06
0 50 100 150 200 250 300 0 2 4 6 8 10
N Eb/N0
Modèle de signal
Estimateurs ML
Bornes de Cramer-Rao
Illustrations numériques
Hypothèse
δfa Ts 1
⇒ δfa petit devant la largeur de bande
Signal reçu
L
!
X
y (n) = h(k )sn−k e2iπf0 n + b(n)
k =0
| {z }
a(n)
Deux modes :
Avec séquence d’apprentissage
Data-aided (DA) ou supervisé ou avec pilote
Estimation d’harmonique avec amplitude partiellement
connue variant dans le temps
Objectif
Estimer f0 à la donnée de y (n) et sn
Exemple :
Harmonic with f0=0.1 and SNR=−10dB Harmonic with f0=0.1 and SNR=0dB Harmonic with f0=0.1 and SNR=10dB
6 6 6
4 4 4
2 2 2
Real part of harmonic
−2 −2 −2
−4 −4 −4
−6 −6 −6
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
sample index sample index sample index
Résultat
h P i
1 N−1
Si phase φ0 connue : f̂N = arg maxf < N n=0 y (n)e−2iπ(fn+φ0 )
P 2
N−1
Si phase φ0 inconnue : f̂N = arg maxf N1 n=0 y (n)e−2iπfn
N−1
1 X 2 2
J(|a|, φ, f ) = |y (n)| + |a|
N
n=0
N−1 N−1
!
1 X 1 X
− |a| y (n)e2iπ(fn+φ) + y (n)e−2iπ(fn+φ)
N N
n=0 n=0
d’où
1 N−1
X
J(|a|, φ̂N , f ) = constante − 2|a| y (n)e−2iπfn
N
n=0
f0 = 0.1
N = 100
Harmonic with f0=0.1, N=100 and SNR=−10dB Harmonic with f0=0.1, N=100 and SNR=0dB Harmonic with f0=0.1, N=100 and SNR=10dB
80 120 100
90
70
100
80
60
70
80
50
60
FFT norm
FFT norm
FFT norm
40 60 50
40
30
40
30
20
20
20
10
10
0 0 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
frequency index frequency index frequency index
yN = DN (f0 )SN h + bN
avec
yN = [y (0), · · · , y (N − 1)]T
N nombre d’observations (temps d’observation = [0, NTs [)
[01,L , s0 , · · · , sN−1 ]T : séquence d’apprentissage
SN une matrice N × (L + 1) définie comme suit
s0 s−1 . . . s−L
.. ..
s1 . .
SN = .
..
sN−1 sN−2 . . . sN−1−L
h = [h(0), · · · , h(L)]T
DN (f ) = diag([1, · · · , e2iπ(N−1)f ])
bN = [b(0), · · · , b(N − 1)]T : bruit blanc gaussien
Philippe Ciblat Estimation des paramètres de propagation 48 / 1
Estimateurs ML (I)
Problème dirigé
si la fréquence est connue (problème classique)
−1 H
ĥN|f = (SH
N SN ) SN yN
Problème conjoint
( −1 H
f̂N = arg maxf ∈[0,1[ yH H
N DN (f )SN (SN SN ) SN DN (f )H yN
−1 H
ĥN = (SH
N SN ) SN DN (f̂N )H yN
−1 H
Soit PN = SN (SH
N SN ) SN la projection sur l’image de SN .
Soit la décomposition de Cholesky de PN = QH
N QN
Résultat
N0 1
γf |h = 4π 2 N 3 hH W2 h
2N0 −1
Γh|f = N W0
avec
K
SH
N ∆N SN
WK =
N +1)
(K
et
∆N = diag([0, 1, · · · , N − 1])
Remarque :
Estimateur ML est asymptotiquement efficace
Résultat
N0
1
γf
= 4π 2 N 3 hH (W2 −W1 W−1 W1 )h
0
Remarque :
Convergence de l’estimateur de la fréquence en 1/N 3
Convergence de l’estimateur du canal en 1/N
Estimateur ML asymptotiquement efficace
Résultat fondamental
N−1
1 X p.s. E[sn−k sn−l ] rs (k − l)
wK (k , l) = nK sn−k sn−l → =
N (K +1) K +1 K +1
n=0
Esquisse de preuve :
N−1
! N−1
1 X
K 1 X
wK (k , l) = n E[sn−k sn−l ] + nK εk ,l (n)
N (K +1) N (K +1)
n=0 n=0
| {z } | {z }
1/(K +1) p.s.
→0
Problème dirigé
3N0 1 2N0 −1
γf |h = et Γh|f = R
4π 2 N 3 hH Rs h N s
Problème conjoint
3 hhH
3N0 1 2N0
γf = 2 3 H
et Γh = R−1
s +
π N h Rs h N 2 hH Rs h
Remarque :
Perte de 6dB pour l’estimation de fréquence si le canal est inconnu
Protocole :
Afin de maximiser les périodogrammes, on procède en deux étapes
1. une étape dite grossière réalisée à l’aide d’une TFD
2. une étape dite fine réalisée par le biais d’un algorithme du
gradient initialisé avec le résultat de l’étape grossière
Remarques
A faible RSB et/ou quand le nombre d’échantillons est petit,
l’étape grossière peut échouer ⇒ phénomène de décrochement
La borne de Cramer-Rao ne fournit de l’information que sur la
seconde étape
−40
−10
(dB)
(dB)
−60 −20
−30
−80
−40
−100
−50
−120 −60
−20 −10 0 10 20 30 40 50 −20 −10 0 10 20 30 40 50
SNR (N=32, MC=200) SNR (N=32, MC=200)
f0 h
0.1
BER
0.01
0.001
1e-04
0 2 4 6 8 10 12 14 16
SNR