Académique Documents
Professionnel Documents
Culture Documents
DEPARTEMENT
ELECTRICITÉ
Cours de
DÉTECTION ESTIMATION
Par
Arezki YOUNSI
Maitre de conférences A
i
Table of Contents
Table of Contents ii
List of Tables v
List of Figures vi
1 Introduction 2
ii
II *** Théorie de l’estimation*** 53
4 Introduction 54
7 Modèle linéaire 86
7.1 Le modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.2 Modèle linéaire générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.3 Meilleur estimateur linéaire non-biaisé (BLUE) . . . . . . . . . . . . . . . . . 92
7.3.1 Cas scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.3.2 Cas vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
iii
9 Least square 103
10 MOM 104
iv
Liste des tableaux
v
Table des figures
vi
11.13CA-CFAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
11.14PD en fonction du SNR, du CA-CFAR pour différentes valeurs de N . . . . . 123
vii
Première partie
1
Chapitre 1
Introduction
H0 : ”0” T ansmis
H1 : ”1” T ansmis
2
3
H0 : abscence de cible
H1 : présence de cible
H1 : Y = m + N
H0 : Y = N
Exemple :
Soit le modèle d’observation suivant :
5
6
H1 : A = 1 (signal + bruit)
H0 : A = 0 (bruit )
ou encore :
H1 : A ∈ Z1
H0 : A ∈ Z0
PF = P [D = H1 /H0 ] (2.0.4)
Probabilité de détection
Pd = P [D = H1 /H1 ] (2.0.6)
H1
P [H1 /y] ≷ P [H0 /y] (2.1.1)
H0
fY /Hi (y/Hi ) P [Hi ]
En utilisant la règle de Bayes : P [Hi /y] = fY (y)
, la règle de décision MAP
s’écrira :
Exemple 1
Dans un systrème de communication binaire le bit transmis par la source peut prendre
deux valeurs : "X=0" ou bien "X=1". Le recepteur observe le signal à son entrée avec un bruit
aditif supposé gaussien de moyenne nulle et variance σ 2 = 1/9.On donne P [X = 0] = 3/4 et
on suppose que le signal et le bruit sont indépendants.
1- Etablir la règle de décision MAP et tracer les régions de décision
2- Calculer la probabilité d’erreur moyenne
Solution :
Le problème peut se mettre sous la forme d’un test d’hypothèses simple suivant :
9
H1 : Y = 1 + N
H0 : Y = N
avec :
N : bruit gaussien de loi N (0, σ 2 ) ;P [H0 ] = P [X = 0] = 3/4 =⇒ P [H1 ] = P [X = 1] = 1/4
Les fonctions densité de probabilité conditionnelles sous chacune des hypothèses sont :
2 2
fY /H0 (y/H0 ) = √1
2πσ
y
exp(− 2σ 2 ) et fY /H1 (y/H1 ) =
√1
2πσ
exp(− (y−1)
2σ 2
)
1) le rapport de vraissemblance s’écrit :
fY /H1 (y/H1 ) 2y − 1
Λ(y) = = exp( )
fY /H0 (y/H0 ) 2σ 2
H1
la règle de décision MAP est Λ(y) ≷ P [H0 ]
P [H1 ]
=3
H0
soit en passant au logarithme naturel :
H1 H1
ln Λ(y) ≷ ln 3 ⇔ y ≷ γ = σ 2 ln 3 + 1/2 = 0.622
H0 H0
H1
y ≷ γ = 0.622
H0
f (y / H0)
Y/H f (y / H1)
0 Y/H
1
contenue dans tous les échantillons. Le problème peut être formulé de la façon suivante :
H1 : Yk = 1 + Nk , k = 1, 2, ..., K (2.1.5)
H0 : Yk = Nk , k = 1, 2, ..., K (2.1.6)
on note le vecteur des observations par : Y = [Y1 Y2 ......YK ]T les fonctions densité de proba-
bilité (pdf) conjointes des observations sous chaque hypothèse sont : fY /H0 (y/H0 ) sous
H0 et fY /H1 (y/H1 ) sous H1
Le test du rapport de vraissemblance (LRT : Likelihood Ratio Test) s’ecrit dans ce cas :
fY /H1 (y/H1 ) H1 P [H0 ]
Λ(Y ) = ≷ =η (2.1.7)
fY /H0 (y/H0 ) H0 P [H1 ]
∏
K ∏
K
fY /H0 (y/H0 ) = fYk /H0 (yk /H0 ) et fY /H1 (y/H1 ) = fYk /H1 (yk /H1 )
k=1 k=1
avec :
y2
exp(− (yk2σ−1)
2
fYk /H0 (yk /H0 ) = √1 exp(− 2σk2 ) et fYk /H1 (yk /H1 ) = √1 2 )
2πσ 2πσ
Aprés quelques manipulations mathématiques, le LRT s’écrit :
∑
K H1
Λ(Y ) = exp( σ12 yk − 2σ
K
2) ≷ η
k=1 H0
11
∑
K H1
ou bien : yk ≷ σ 2 ln(η) + K
2
=γ
k=1 H0
la règle de décision devient :
∑
K H1
yk ≷ γ
k=1 H0 (2.1.8)
H1 : Yk = S1,k + Nk , k = 1, 2, ..., K
H0 : Yk = S0,k + Nk , k = 1, 2, ..., K
1ms
où : S1,k = 2 et S0,k = 1 et le nombre d’échantillons est K = 10 (K = 0.1ms
= 10)
12
k −1) k −2)
2 2
fYk /H0 (yk /H0 ) = √ 1
2πσN
exp(− (y2σ 2
1
) et fYk /H1 (yk /H1 ) = √2πσ exp(− (y2σ 2 )
N N N
2 2
∫
+∞
La variance du bruit σN est donnée par : σN = SN N (f )df = 0.2
−∞
Le LRT s’ecrit alors, en vertu de l’indépendance statistique des échantillons :
∏
K
fY (yk /H1 ) H1 P [H0 ]
k /H1
Λ(Y ) = ≷ =1
k=1
f Yk /H0 (yk /H0 ) H0 P [H1 ]
{ ( )}
1 ∑
K
Λ(Y ) = exp − 2 3K − 2 yk
2σN k=1
et en passant au logarithme :
( )
1 ∑
K
H1
ln(Λ(Y )) = − 2 3K − 2 yk ≷ 0
2σN k=1
H0
soit alors :
∑
K H1
1
K
yk ≷ 1.5
k=1 H0
exp(− (yk2σ−2)
2
et sous H1 : fZ/H1 (z/H1 ) = √ 1 2 )
2πσZ Z
∫ ∫
1.5
exp(− (yk2σ−2)
2
Pm = P [D = H0 /H1 ] = fZ/H1 (z/H1 )dz = √ 1 2 )dz = Q( 0.5 )
Z0 2πσZ Z σZ
−∞
1 1
donc : P e = P
2 F
+ P
2 m
= Q( 0.5
σZ
)
P e = 0.0002
√
Si le recepteur utilise un seul échantillon, nous posons K = 1 et on trouve : σZ = 0.2 =⇒
P e = 0.13
Ayant la probabilité conjointe P [Di , Hj ] de décider Hi et que Hj est vraie, le coût moyen
ou risque s’écrit alors :
∫
P [D0 /H1 ] = Pr[déciderH0 /H1 vraie] = fY /H1 (y/H1 )dy = Pm (2.2.4)
Z0
∫
P [D1 /H0 ] = Pr[déciderH1 /H0 vraie] = fY /H0 (y/H0 )dy = PF (2.2.5)
Z1
∫
P [D1 /H1 ] = Pr[déciderH1 /H1 vraie] = fY /H1 (y/H1 )dy = Pd (2.2.6)
Z1
ona : Pm = 1 − Pd et P [D0 /H0 ] = 1 − PF le coût moyen ou risque s’écrit :
R = P0 {c00 P [D0 /H0 ] + c10 P [D1 /H0 ]} + P1 {c01 P [D0 /H1 ] + c11 P [D1 /H1 ]} (2.2.8)
∫
{[ ] [ ]}
R = P0 c10 + P1 c11 + P1 (c01 − c11 )fY /H1 (y/H1 ) − P0 (c10 − c00 )fY /H0 (y/H0 ) dy
Z0
(2.2.10)
Comme c01 > c11 et c10 > c00 , les quantités entre [.] sont positives. Le risque R est
minimum si et seulement si on choisit la région de décision Z0 telle que l’integralle devient
négative, c.a.d :
P1 (c01 − c11 )fY /H1 (y/H1 ) < P0 (c10 − c00 )fY /H0 (y/H0 ) (2.2.11)
15
En d’autres termes, les valeurs de Y pour lesquelles le second terme de l’inéquation est
superieur au premier sont assignées à la région Z0 ( on décide H0 ) et on décide H1 dans le
cas contraire. Ainsi donc, la règle de décision qui découle du critère de Bayes est la suivante :
toujours
fY /H1 (y/H1 )
Λ(y) = (2.2.13)
fY /H0 (y/H0 )
est le rapport de vraissemblance et
P0 (c10 − c00 )
η= (2.2.14)
P1 (c01 − c11 )
est le seuil de décision.
– Si maintenant on a K observations, c.a.d K échantillons du signal reçu, Y1 Y2 ....YK , le
rapport de vraissemblance s’exprime par :
fY /H1 (y/H1 )
Λ(Y ) = (2.2.15)
fY /H0 (y/H0 )
avec Y = [Y1 Y2 ....YK ]T est le vecteur des échantillons reçus. Le critère de Bayes qui
minimise le coût moyen devient le test du rapport de vraissemblance (LRT) :
H1
Λ(Y ) ≷ η (2.2.16)
H0
R = P1 Pm + P0 PF = P e (2.2.18)
exemple 3 :
Supposons que dans un système de communication binaire la source emet un signal
s(t) tel que : sous H0 : s(t) = 1 et sous H1 : s(t) = −1. Le bruit est supposé blanc
gaussien de moyenne nulle et variance 1. Etant donné P [H0 ] = 1/3 et P [H1 ] = 2/3.
1)- Trouver la règle de décision MAP
2)- En considérant c11 = c00 = 0, c01 = 6 et c10 = 1, trouver la règle de décision qui
minimise le coût moyenc et calculer cmin .
solution :
H1 : Y = −1 + N
H0 : Y = 1 + N
1 (y − 1)2
fY /H0 (y/H0 ) = √ exp(− )
2π 2
et
1 (y + 1)2
fY /H1 (y/H1 ) = √ exp(− )
2π 2
1)-La règle de décision MAP est :
clcul de PF :
∫ ∫B
γ
2
PF = Z1 fY /H0 (y/H0 )dy = √1
2π
exp(− (y−1)
2
)dy = 1 − Q(γB − 1)
−∞
PF ≃ 0.596
clcul de Pm :
∫ ∫ 1
+∞ 2
Pm = Z0 fY /H1 (y/H1 )dy = √
2π
exp(− (y+1)
2
)dy = Q(γB + 1)
γB
Pm ≃ 0.0125
⇒
cmin = 0.2485
R(P1 ) = c00 (1 − PF ) + c10 PF + P1 [(c11 − c00 ) + (c01 − c11 )Pm − (c10 − c00 )PF ] (2.3.1)
Si P1 est connue, on peut établir un test de Bayes RB (P1 ). La figure ci dessus montre
RB (P1 ) en fonction de P1 (notons que lorsque P1 varie, les régions de décision pour le test
de Bayes varient ainsi que Pm et PF ).
Si on choisi une valeur P1 = P1∗ ,cela implique que les régions de décision et donc Pm
et PF deviennent fixes (seuil de décision fixé). Notons le risque de Bayes pour cette valeur
par RB (P1∗ ). Si maintenant P1 varie, l’équation 36 devient une droite RF (P1∗ , P1 ) qui est
tangente à la courbe RB (P1 ) au point (P1∗ , RB (P1∗ )). On se place alors dans le cas le plus
pessimiste où P1 est choisie à l’intérieur de l’intervalle [0, 1] de sorte que le risque RF (P1∗ , P1 )
soit maximum. Ceci est atteint lorsque la droite RF (P1∗ , P1 ) est horrizontale. Autrement dit
sa pente est nulle.c.a.d :
⇒
R0 (δ) = R1 (δ) (2.3.4)
Pm = PF (2.3.6)
Exemple 4 :
Trouver la règle minimax et le risque minimax pour tester les hypothèses H0 et H1 avec
des coûts uniformes en supposant que les pdfs conditionnelles sont :
{ 2(y+1)
3
si 0≤y≤1
fY /H0 (y/H0 ) =
0 si non
19
{
1 si 0≤y≤1
fY /H1 (y/H1 ) =
0 si non
solution :
Le rapport de vraissemblance s’écrit :
fy/H1 (y/H1 ) H1 P0 (c10 − c00 ) p0
Λ(Y ) = ≷η= =
fy/H0 (y/H0 ) H0 P1 (c01 − c11 ) 1 − p0
soit :
3/2 H1
≷η
y + 1 H0
ou encore :
3
décider H1 : 0 ≤ y ≤ −1
2η
3
décider H0 : −1≤y ≤1
2η
on pose
3
−1
γ=
2η
Il faut alors déterminer γ (et par voie de conséquence P0 ) qui vérifie l’équation minimax
Pm = PF .
on a :
∫ γ
γ 2 2γ
PF = P [H1 /H0 ] = fY /H0 (y/H0 )dy = +
3 3
∫0 1
Pm = P [H0 /H1 ] = fY /H1 (y/H1 )dy = 1 − γ
γ
√
γ2
Pm = PF ⇒ 3
+ 2γ
3
= 1 − γ ⇔ γ 2 + 5γ − 3 = 0 ⇒ γ = − 52 + 37
2
⇒ P0 = √3
37
et
P1 = 1 − √3
37
la règle de décision devient alors :
décider H1 : 0 ≤ y ≤ 0.5414
décider H0 : 0.5414 ≤ y ≤ 1
Rm = 0.4586
20
J = Pm + λ [PF − α] (2.4.1)
∫ [∫ ]
J = fY /H1 (y/H1 )dy + λ fY /H0 (y/H0 )dy − α
∫
Z0
[ ∫
Z1
]
= fY /H1 (y/H1 )dy + λ 1 − fY /H0 (y/H0 )dy − α
Z0
∫ Z0
J est minimum lorsque les valeurs de Y qui rendent l’integralle négative sont assignées à
la région Z0 : c’est à dire
fY /H1 (y/H1 ) < λfY /H0 (y/H0 ) (2.4.3)
Exemple 5 :
Considerer le problème de test d’hypothèses binaires suivant :
21
H0 : Y = µ0 + N
H1 : Y = µ1 + N
µ1 > µ0 sont des constantes et N est un bruit gaussien de moyenne nulle et variance σ 2 .
1- Etablir le test de N-P de niveau α.
2- Calculer la probabilité de détection correspondante.
solution :
1)-on a :
2 2
fY /H1 (y/H1 ) = √1
2πσ
exp(− (y−µ 1)
2σ 2
) et fY /H0 (y/H0 ) = √1
2πσ
exp(− (y−µ 0)
2σ 2
)
le LRT est :
fY /H1 (y/H1 ) H1
Λ(y) = ≷η
fY /H0 (y/H0 ) H0
aprés substitution :
{ }
1 H1
Λ(y) = exp [2y(µ1 − µ0 ) + µ 2
0 − µ2
1 ] ≷η
2σ 2 H0
soit
1 H1
ln Λ(y) = [2y(µ 1 − µ0 ) − (µ2
1 − µ2
0 )] ≷ ln η
2σ 2 H0
=⇒
σ 2 ln η
H1 µ1 + µ0
y≷ + =γ
H0 µ1 − µ0 2
Le test de N-P de niveau α implique : PF = α ⇒
∫ ∫ +∞
PF = fY /H0 (y/H0 )dy = fY /H0 (y/H0 )dy
Z1 γ
∫ +∞
1 (y − µ0 )2 γ − µ0
= √ exp(− )dy = Q( )
γ 2πσ 2 σ
on en tire le seuil de décision de N-P :
γ = σQ−1 (α) + µ0
où :
µ1 − µ0
d=
σ
√
Matlab programme : on utilise : Q(y) = 12 erf c(y/ 2)
clear
alpha=0.1;
d=[0:0.1:5];
x=sqrt(2)*erfcinv(2*alpha);
y=1-cdf(’norm’,x-d,0,1);%
plot(d,y)
∫+∞
Pd = fΛ/H1 (λ/H1 )dλ (2.5.1)
η
∫+∞
PF = fΛ/H0 (λ/H0 )dλ (2.5.2)
η
∫+∞
dPd d
= fΛ/H1 (λ/H1 )dλ (2.5.3)
dη dγ
η
= −fΛ/H1 (η/H1 ) (2.5.4)
et
∫+∞
dPF d
= fΛ/H0 (λ/H0 )dλ (2.5.5)
dη dη
η
= −fΛ/H0 (η/H0 ) (2.5.6)
24
donc :
dPd
dη dPd −fΛ/H1 (η/H1 )
= = (2.5.7)
dPF
dη
dPF −fΛ/H0 (η/H0 )
en outre on a :
∫+∞
Pd = fΛ/H1 (λ/H1 )dλ (2.5.8)
η
∫+∞
= Λ(y)fΛ/H0 (λ/H0 )dλ (2.5.9)
η
d’où :
dPd
=η (2.5.11)
dPF
Exemple 6 :
Considérons un problème de test d’hypothèses suivant :
{
e−y , y ≥ 0
fY /H0 (y/H0 ) =
0, ailleurs
{
αe−αy , y ≥ 0, α > 1
fY /H1 (y/H1 ) =
0, ailleurs
∫δ
PF = fY /H0 (y/H0 )dy = 1 − e−δ ⇒ δ = − ln(1 − PF )
0
∫+∞
Pd = fY /H1 (y/H1 )dy = 1 − e−αδ = 1 − exp[α ln(1 − PF )]
δ
= 1 − (1 − PF )α
et sachant que :
1 η η
δ = ln = − ln(1 − PF ) ⇒ ln = ln(1 − PF )α−1
1−α α α
dP d
⇒ η = α(1 − PF )α−1 =
dPF
Chapitre 3
Dans le test d’hypothèse simple précédent, les paramètres relatifs à chaque hypothèse
sont connus. Dans la plupart des cas, ces paramètres ne sont pas connus, l’hypothèse est dite
composée.
Supposons que chaque hypothèse est caractérisée par un ensemble de K paramètres qu’on
peut representer sous forme d’un vecteur
θ
1
θ
2
Θ=
.
(3.0.1)
.
θK
Par exemple en radar, ces paramètres peuvent représenter l’amplitude du signal reçu, la
durée de propagation(distance de la cible), la vitesse de la cible, etc....
Deux cas peuvent être considérés. Premièrement Θ peut être considéré comme aléatoire
avec des pdfs fΘ/H0 (θ/H0 ) et fΘ/H1 (θ/H1 ) connues, deuxièmement, il peut être déterministe
mais toujours inconnu.
26
27
Exemple 7 :
Considérons le test d’hypothèses suivant :
H1 : Y = M + N
H0 : Y = N
∫
+∞
fY /M,H1 (y/M, H1 )fM/H1 (m/H1 )dm
−∞ H1
Λ(y) = ≷η
fY /H0 (y/H0 ) H0
où : ( )
1 y2
fY /H0 (y/H0 ) = √ exp − 2
2πσN 2σN
( )
1 m2
fM/H1 (m/H1 ) = √ exp − 2
2πσM 2σM
et ( )
1 (y − m)2
fY /M,H1 (y/M, H1 ) = √ exp − 2
2πσN 2σN
notons le numérateur de Λ(y) par N um(y).On a alors :
∫+∞ { }
1 (y − m)2 m2
N um(y) = exp − 2
− 2 dm
2πσN σM 2σN 2σM
−∞
28
∫+∞ { }
1 (y − m)2 m2
N um(y) = exp − 2
− 2 dm
2πσN σM 2σN 2σM
−∞
∫+∞ { 2 }
1 y − 2my + m2 m2
N um(y) = exp − 2
− 2 dm
2πσN σM 2σN 2σM
−∞
∫+∞ { }
1 y2 m2 m2 2my
= exp(− 2 ) exp − 2 − 2 + 2 dm
2πσN σM 2σN 2σN 2σM 2σN
−∞
∫+∞ { }
1 y2 1 1 2my
= exp(− 2 ) exp −m ( 2 + 2 ) + 2 dm
2
2πσN σM 2σN 2σN 2σM 2σN
−∞
on calcul d’abord :
∫+∞ { }
1 1 2my
I = exp −m ( 2 + 2 ) + 2 dm
2
2σN 2σM 2σN
−∞
∫+∞ { 2 2 2 2
}
σM + σN 2my 2σN σM
= exp − 2 2
[m − 2 2
2
2
dm
2σN σM 2σN σM + σN
−∞
∫+∞ { 2 2 2 4 4
}
σM + σN σM y σM σM
= exp − 2 2
[m − 2m 2
2
2
+ 2 2 2
y − 2
2
2 2
2
y ] dm
2σN σM σM + σN (σM + σN ) (σM + σN )
−∞
∫+∞ { 2 2 2 4
} 2
σM + σN σM y σM σM
I = exp − 2 2
[m 2
− 2m 2 2
+ 2 2 2
y 2
] exp{ 2 2 2
2
}dm
y(3.1.4)
2σN σM σM + σN (σM + σN ) 2σN (σM + σN )
−∞
2 ∫+∞ { 2 2 2
}
σM σM + σN σM
I = exp{ 2 2 2
y2} exp − 2 2
[m − 2 2
2
y] dm (3.1.5)
2σN (σM + σN ) 2σN σM σM + σN
−∞
29
∫+∞
1 (x − a)2
√ exp(−
on utilise : )dx = 1.
2π 2
−∞
√
2 2
σM + σN σN σM
pour cela, on pose : x = m ⇒ dm = √ 2 dx ⇒
σN σM σM + σN2
∫+∞ { 2 } ∫+∞ { √ }
2 2 2 2
σM + σN σM 1 σ + σ y
exp − 2 2
[m − 2 2
y]2 dm = exp − [m M N
− √ ]2 dm
2σN σM σM + σN 2 σN σM 2
σN σM + σN 2
−∞ −∞
∫+∞ { }
σN σM 1 1
= √ exp − [x − √ y]2 dx
2
σM 2
+ σN 2 2 2
σN σM + σN
−∞
√
2πσN σM
= √
2 2
σM + σN
on tire alors : √ 2
2πσN σM σM
I = √ exp{ 2 2 2
y2}
2
σM 2
+ σN 2σN (σM + σN )
ce qui donne :
1 y2 σM 2
N um(y) = √ exp(− 2
) exp{ 2 2 2
y2}
2 2
2π(σM + σN ) 2σ N 2σ N (σM + σN )
en passant au logarithme :
1 σ2 y2 σ2
ln Λ(y) = ln( 2 N 2 ) + 2 ( 2 M 2 )
2 σN + σM 2σN σN + σM
et le LRT s’écrit :
H1
ln Λ(y) ≷ ln η
H0
2
1 σN y2 σM2 H1
ln( 2 2
) + 2
( 2 2
) ≷ ln η
2 σN + σM 2σN σN + σM H0
H1 σ2 1 σ2
y 2 ≷ 2σN 2
(1 + 2N )[ln η + ln(1 + M 2
)]
H0 σM 2 σN
| {z }
H1
y2 ≷ γ
H0
30
H0 : θ = θ0 (3.2.1)
H1 : θ ∈ S1 (3.2.2)
H1 : Y = m + N
H0 : Y = N
Dans ce cas aussi, en performant le test de NP, on peut tirer la valeur du seuil γ2 à partir
∫ γ2
de PF = −∞ fY /H0 (y/H0 )dy ⇒ la connaissance de m n’est pas indispensable pour effectuer
le test, le test NP, dans ce cas, est aussi UMP.
3ieme cas : m ̸= 0 :
Dans ce cas m peut prendre des valeurs positives ou négatives, et on a vu que le test
pour les valeurs positives de m est différent de celui correspendant aux valeurs négatives de
m. Donc le test UMP n’éxiste pas.
Example 9 :
Etant donné le modèle suivant d’un signal noyé dans un bruit.
où A est inconnu, S est un signal connu et W un bruit blanc gaussien de moyenne nulle et
variance σ 2 inconnue.
33
x[0] s[0]
x[1] s[1]
On pose : X = : le vecteur observation ; S = : le vecteur
. .
x[N − 1] s[N − 1]
signal
Etablir le test du rapport de vraissemblence généralisé pour tester les hypothèses sui-
vantes :
H0 : A = 0 (abscence du signal)
H1 : A ̸= 0 (présence du signal)
Solution
Le GLR nécessite le calcul des estimés ML de A et de σ 2 sous chaque hypothèse.
La fonction de vraissemblance sous H1 s′ écrit :
1 1
L(A, σ 2 ) = N exp{− (X − AS)T (X − AS)}
(2πσ 2 ) 2 2σ 2
en passant au logarithme :
N 1
ln L(A, σ 2 ) = − ln(2πσ 2 ) − 2 (X − AS)T (X − AS)
2 2σ
a- calcul du MLE de A :
∂ ∂
ln L(A, σ 2 ) = 0 ⇔ [A2 S T S − 2AS T X] = 0
∂A ∂A
⇔ 2AS T S = 2S T X
ce qui donne :
b ST X
AM L = T
S S
b- calcul du MLE de σ 2 :
∂ N 1
2
ln L(A, σ 2 ) = 0 ⇔ − 2 + 4 (X − AS)T (X − AS) = 0
∂σ 2σ 2σ
ce qui donne :
1 bM L S)T (X − A
bM L S)
bM
σ 2
L,H1 = (X − A
N
Sous H0 :
34
bM
le MLE de σ 2 est σ 2
bM
L,H0 et est obtenu en posant ÂM L = 0 dans l’expression de σ
2
L,H1 .Soit :
1 T
bM
σ 2
L,H0 = X X
N
donc le GLR est
fX/AbM L ,bσ2 bM L , σ
(x/A bM2
M L,H1
L,H1 )
Λg (x) = 2
fX/bσM
2
L,H
(x/b
σM L,H0 )
0
avec
bM L , σ 1 1 bM L S)T (X − A
bM L S)}
fX/AbM L ,bσ2 (x/A bM2
L,H1 ) = N exp{− 2
(X − A
M L,H1
(2πb
σM2
L,H1 )
2 2b
σM L,H1
1 N
= N exp{− }
(2πb
σM2
L,H1 )
2 2
et
1 1
fX/bσM
2 (x/b
σM2
L,H0 ) = N exp{− 2
X T X}
L,H
0
(2πb
σM2
L,H0 )
2 2b
σM L,H0
1 N
= N exp{− }
(2πb
σM2
L,H0 )
2 2
soit
N bM
σ 2
L,H0
H1
ln Λg (x) = ln( 2 ) ≷ ln η
2 bM L,H1 H0
σ
bM
σ 2
L,H0
H1 2
⇒ ln( )≷ ln η
bM L,H1 H0 N
σ 2
Série d’éxercices corrigés
Exercice 1
fY /H1 (y/H1 ) = 3y 2 ; 0 ⩽ y ⩽ 1
fY /H0 (y/H0 ) = 2y; 0 ⩽ y ⩽ 1
1. Trouver le test qui assure une probabilité d’erreur minimale. Calculer cette probabilité
d’erreur.
2. Spécifier le test de Neyman-Person de niveau α et calculer la probabilité de détection
correspondante.
3. Trouver le test minimax en assumant des coûts uniformes. Calculer alors les probabilités
de fausse alarme et de détection correspondantes ainsi que la probabilité d’erreur.
Solution :
1. Le test qui assure une probabilité d’erreur minimale est celui de Bayes avec des coûts
uniformes. c.a.d : c01 = c10 = 1 et c00 = c11 = 0. Dans ce cas le LRT s’écrit :
fY /H1 (y/H1 ) H1 P0
Λ(y) = ≷η=
fY /H0 (y/H0 ) H0 1 − P0
2 H1
3y
≷ 1/4
2y H0
H1
y ≷ 1/6
H0
on peut écrire le test celon :
décider H1 : 1/6 ⩽ y ⩽ 1
décider H0 : 0 ⩽ y ⩽ 1/6
35
36
telle que :
∫1
PF = Pr[H1 /H0 ] = 2ydy = 1 − 1/36 = 0.9722
1/6
∫1/6
Pm = Pr[H0 /H1 ] = 3y 2 dy = 0.0046
0
Pe = 0.1981
2 Pour le test de NP de niveau α , il faut determiner le seuil de décision qui assure une
probabilité de fausse alarme égale à α.Soit :
∫1
√
PF = 2ydy = 1 − γ 2 = α ⇒ γ = 1−α
γ
3- Le test minimax avec des coûts uniformes est tel que Pm = PF . Ce qui implique, avec
Pm = 1 − Pd ,que le seuil de décision verifie :
1 − γ2 = γ3
γ3 + γ2 − 1 = 0
PF = 1 − γ ∗2
= 0.4301
Pd = 1 − γ ∗3
= 0.57
Pe = P0∗ PF + P1∗ Pm
= PF (P0∗ + P1∗ ) = PF
Pe = 0.43
Exercice 2 Dans un problème de détetion,on décide entre deux hypothèses simples en utilisant le
test du rapport de vraissemblance :
fY /H1 (y/H1 ) H1
Λ(y) = ≷η
fY /H0 (y/H0 ) H0
Le tracé des curbes ROCs donnent une courbe qui semble répondre au modèle suivant :
√
Pd = PF
1. Donner la valeur du seuil qui assure une probabilité de fausse alarme de 0.5.
2. En assumant des coûts uniformes, calculer la probabilité de fausse alarme induite par
un test du minimax.
Solution
1 on sait que
dPd
=η
dPF
donc :
1
η= √
2 PF
√
pour une PF = 0.5 ⇒ η = 1/ 2
Soient X1 , X2 , ..., Xn des observations iid de pdf exponentielle de paramètre θ.On consi-
dère le test d’hypothèse binaire suivant :
H0 : θ = θ 0
H1 : θ = θ 1
où θ0 < θ1 .
38
solution :
n
fX/H0 (x/H0 ) = Π θ0 e−θ0 xi
i=1
n
fX/H1 (x/H1 ) = Π θ1 e−θ1 xi
i=1
H1
Λ(x) ≷ η
H0
où le seuil η est choisie de telle sorte que la probabilité de fausse alarme soit fixée à la
valeur désirée α. En passant au logarithme :
∑
n
H1 θ0
−(θ1 − θ0 ) xi ≷ ln η + n ln
i=1
H0 θ1
∑
n
H1 1 θ0
xi ≷ ln(( )n η) = δ
i=1
H0 (θ0 − θ1 ) θ1
∑
n
En posant Z = Xi , la règle de décision devient :
i=1
H1
z≷δ
H0
Pour calculer la probabilité de fausse alarme et/ou de détection, il nous faut calculer la pdf
de Z.Pour ce faire, on utilise la fonction caractéristique. Les v.a Xi étant iid ⇒ ΦZ (w) =
∫
+∞
(ΦXi (w))n où ΦXi (w) = E[ejωxi ] = θe−θxi ejωxi dxi = θ−jω
θ θ
.⇒ ΦZ (w) = ( θ−jω )n . On re-
0
∫
+∞
trouve la pdf par transformée inverse : fZ (z) = 1
2π
θ
( θ−jω )n e−jwz dw
−∞
39
on utilise la formule suivante :(voir Gradsteyn and stegun page 365 eqt 3.382 n7)
∫+∞ {
2π ν−1 −βp
−υ −jpx
p e , pour p ≥ 0
(β − jx) e dx = Γ(ν)
Re(υ) > 0etℜ(β) > 0
0, pour p < 0
−∞
avec Γ(ν) = (ν − 1)! pour ν entier
∫δ
PF = Pr[H1 /H0 ] = fZ/H0 (z/H0 )dz
0
∫ 0δ
nθ ∫ 0δ
nθ
(nθ0 )n n−1 −nθ0 z 1
= z e dz = xn−1 e−x dx
(n − 1)! (n − 1)!
0 0
1
= γ(n, nθ0 δ)
(n − 1)!
∫t
où : γ(m, t) = xm−1 e−x dx, Re(m) > 0 est la fonction gamma incomplète
0
H1 : Y = S + N
H0 : Y = N
où S et N sont iid ayant une pdf f (x) = e−x ε(x), ε(x) est la fonctio échellon.
H1 : Yk = S + Nk ,k = 1, 2, .., n
H0 : Yk = Nk ,k = 1, 2, .., n
fY /H1 (y/H1 )
Λ(y) =
fY /H0 (y/H0 )
avec :
don :
ye−y
Λ(y) = = y, y ≥ 0
e−y
2 Test de N-P :
Le LRT s’écrit :
H1
Λ(y) = y ≷ γ
H0
le test N-P de niveau α est telle que : PF = α.La probabilité de fausse alarme est donnée
par :
∫+∞
PF = e−y dy = e−γ
γ
⇒ γ = − ln(PF )
41
H1 : Yk = S + Nk ,k = 1, 2, .., n
H0 : Yk = Nk ,k = 1, 2, .., n
(a) Le LR est :
fY /H1 (y/H1 )
Λ(y) =
fY /H0 (y/H0 )
où :
∑
n
fY /H0 (y/H0 ) = Πnk=1 e−yk = exp(− yk ), yk ≥ 0
k=1
−(yk −s)
fYk /S (yk /s) = e ; s ≤ yk
∑
n
fY /S (y/s) = Πnk=1 e−(yk −s) = exp(− (yk − s)); s ≤ yk ∀ k
k=1
s ≤ yk ∀ k ⇔ s ≤ min(yk ) = ymin donc :
∫
ymin ∫
ymin ∑
n
− (yk −s)
fY /H1 (y/H1 ) = fY /S (y/s)ds = e k=1 e−s ds
0 0
∑
n ∫
ymin ∑
n
− yk
(n−1)s e(n−1)ymin − 1 − k=1 yk
= e k=1 e ds = e
n−1
0
finallement le LR devient :
e(n−1)ymin − 1
Λ(y) = , ymin ≥ 0
n−1
42
1. b Le LRT s’écrit :
e(n−1)ymin − 1 H1
Λ(y) = ≷η
n−1 H0
H1
e(n−1)ymin ≷ 1 + (n − 1)η
H0
H1
(n − 1)ymin ≷ ln(1 + (n − 1)η)
H0
H1 1 ′
ymin ≷ ln(1 + (n − 1)η) = γ
H0 n − 1
∫+∞
′
Pd = Pr[ymin ≥ γ /S = s, H1 ]e−s ds
0
∫+∞
′
= (Pr[y1 ≥ γ /S = s, H1 ])n e−s ds
0
∫
+∞ ∫+∞ ∫+∞ ∫+∞
= [ e−(y−s) ]n e−s ds = [ e−y ]n e(n−1)s ds
0 ′ 0 ′
max(s,γ ) max(s,γ )
′
∫+∞ ∫γ ∫+∞
′ ′
= e−n. max(s,γ ) e(n−1)s ds = e−n.γ e(n−1)s ds + e−n.s e(n−1)s ds
0 0 γ′
′
e−n.γ (n−1)γ ′ ′
= [e − 1] + e−γ
n−1
′ ′ ′ ′ ′ ′
e−γ − e−n.γ + ne−γ − e−γ ne−γ − e−n.γ
= =
n−1 n−1
n α
= (α1/n − )
n−1 n
43
Exercice 5
Solution :
ce qui donne :
exp[− (zi −m
2
1)
∏
N √ 1
2πσ1 2σ 2
]
1
Λ(z) =
exp[− (zi −m
2
0)
√ 1 ]
i=1 2πσ0 2σ 2
0
σ0 N ∏
N
(zi − m1 )2 (zi − m0 )2
= ( ) exp[− + ]
σ1 i=1
2σ12 2σ02
σ0 ∑ (zi − m1 )2 (zi − m0 )2
N
ln(Λ(z)) = N ln( ) [− + ]
σ1 i=1 2σ12 2σ02
1 ∑ 2 m1 m0 ∑
N N
1 m0 2 m1 2 σ0
= ( 2
− 2
) z i + ( 2
− 2
) zi + N.( 2
− 2 + ln( ))
2σ0 2σ1 i=1 σ1 σ0 i=1 2σ0 2σ1 σ1
44
1 ∑ 2 m1 m0 ∑ H 1 ′
N N
1
( 2 − 2) zi + ( 2 − 2 ) zi ≷ τ
2σ0 2σ1 i=1 σ1 σ0 i=1 H0
1 ∑ 2
N
1 H1
( 2
− 2) [zi − 2mzi + m2 − m2 ] ≷ 2τ ′
σ0 σ1 i=1 H0
1 ∑
N
1 H1 1 1
( 2 − 2) (zi − m)2 ≷ 2τ ′ + N m2 ( 2 − 2 )
σ0 σ1 i=1 H0 σ0 σ1
∑
N
H1
(zi − m)2 ≷ τ
H0
i=1
∫+∞
1 y2 γ
PF = 2 √ exp(− )dy = 2Q( )
2π 2 σ0
γ/σ0
−1 α
Un test de NP de niveau α est tel que : PF = α ⇒ 2Q( σγ0 ) = α ⇒γ = σ0 Q ( 2 )
45
m1 − m0 ∑ H 1 ′
N
( ) zi ≷ τ
σ2 i=1
H0
ou bien :
∑
N
H1
zi ≷ γ
H0
i=1
∑
N
La quantité Y = Zi suit une loi N (N mi , N σi2 ) sous l’hypothèse Hi , i = 0, 1.
i=1
La probabilité de fausse alarme est donnée par :
H0 : θ = θ 0
H1 : θ > θ 0
H0 : θ = θ 0
H1 : θ < θ 0
H0 : θ = θ 0
H1 : θ ̸= θ0
ce qui donne :
1 ∑ 3
n
θ0 1
Λ(x) = ( )n exp[−( − ) x]
θ θ θ0 i=1 i
le LRT est :
H1
Λ(x) ≷ η
H0
1 ∑ 3 H1
n
θ0 1
ln( )n − ( − ) x ≷ ln η
θ θ θ0 i=1 i H0
1 ∑ 3 H1
n
1 θ
( − ) xi ≷ ln η + ln( )n
θ0 θ i=1 H0 θ0
vu que θ > θ0 ⇒
∑
n
H1 θθ0 θ
x3i ≷ ln[η( )n ]
i=1
H0 θ − θ0 θ0
θθ0
1.b En posant τ = θ−θ0
ln[η( θθ0 )n ],la règle de décision devient :
∑
n
H1
T (x) = x3i ≷ τ
H0
i=1
3y 2/3 y 1 2
fY (y) = exp(− ) y − 3
θ θ 3
1 y
= exp(− ); y ≥ 0
θ θ
ou bien
H1
y≷τ
H0
48
1.e Le seuil de décision est dans ce cas indépendant du paramètre inconnu θ.Un test U M P
existe et est simplement donné par le test de Neyman-Person.
2.a En supposant le test d’hypothèses suivant :
H0 : θ = θ0
H1 : θ < θ 0
τ ′ = −θ0 ln(1 − α)
H0 : θ = θ0
H1 : θ ̸= θ0
On vient de voire que le seuil de décision pour θ > θ0 est différent de celui pour θ < θ0 .De
ce fait si θ ̸= θ0 on ne peut pas trouver un test U M P.
Série d’éxercices
Exercice 1
fY /H1 (y/H1 ) = 3y 2 ; 0 ⩽ y ⩽ 1
fY /H0 (y/H0 ) = 2y; 0 ⩽ y ⩽ 1
1. Trouver le test qui assure une probabilité d’erreur minimale. Calculer cette probabilité
d’erreur.
2. Spécifier le test de Neyman-Person de niveau α et calculer la probabilité de détection
correspondante.
3. Trouver le test minimax en assumant des coûts uniformes. Calculer alors les probabilités
de fausse alarme et de détection correspondantes ainsi que la probabilité d’erreur.
Exercice 2
Dans un problème de détetion,on décide entre deux hypothèses simples en utilisant le test
du rapport de vraissemblance :
fY /H1 (y/H1 ) H1
Λ(y) = ≷η
fY /H0 (y/H0 ) H0
Le tracé des curbes ROCs donnent une courbe qui semble répondre au modèle suivant :
√
Pd = PF
1. Donner la valeur du seuil qui assure une probabilité de fausse alarme de 0.5.
2. En assumant des coûts uniformes, calculer la probabilité de fausse alarme induite par
un test du minimax.
49
50
Exercice 3
Soient X1 , X2 , ..., Xn des observations iid de pdf exponentielle de paramètre θ.On consi-
dère le test d’hypothèse binaire suivant :
H0 : θ = θ 0
H1 : θ = θ 1
où θ0 < θ1 .
Exercice 4
H1 : Y = S + N
H0 : Y = N
où S et N sont iid ayant une pdf f (x) = e−x ε(x), ε(x) est la fonctio échellon.
H1 : Yk = S + Nk ,k = 1, 2, .., n
H0 : Yk = Nk ,k = 1, 2, .., n
Exercice 5
Dans un problème de test d’hypothèses binaires, les observations Zi , i = 1, 2, ..., N ; sont i.i.d
sous chaque hypothèse, telles que :
Exercice 6
Soient X1 , X2 , ..., Xn des échantillons d’une variable aléatoire X ayant une une pdf donnée
par : {
3x2 3
θ
exp(− xθ ); x≥0
fX/θ (x/θ) =
0; x<0
1- Supposons le test d’hypothèses suivant :
H0 : θ = θ0
H1 : θ > θ 0
H0 : θ = θ0
H1 : θ < θ 0
52
H0 : θ = θ0
H1 : θ ̸= θ0
53
Chapitre 4
Introduction
qu’on appele aussi estimateur, qui donne une estimation du paramètre θ, en appliquant une
certaine fonction g(.) aux vecteur de mesure. On note :
54
55
θ̂ = g(x) (4.0.2)
l’estimé de θ. Il est aussi important de distinguer entre l’estimateur qui est une fonction des
observations et l’estimé qui est la valeur prise par l’estimateur pour une réalisation particu-
lière x de x. Notons ici que le vecteur des observations est toujours aléatoire quelque soit
l’hypothèse (aléatoire ou déterministe) faite sur le paramètre θ (ceci est dû au fait que la
mesure est toujours acompagnée du bruit comme mentionné plus haut) et l’estimateur étant
lui même une fonction de variables aléatoire, est donc aussi aléatoire.
Il existe deux approches pour aborder le problème de la conception d’un estimateur. Une pre-
mière approche dite Bayesienne, suppose que le paramètre θ est aléatoire ayant une fonction
densité de probabilité (PDF) fθ (θ), connue a priori. Dans ce cas, on estime une réalisation
particulière de cette variable aléatoire. Une deuxième approche, dite classique ou de Fisher,
suppose que θ est déterministe.
Notations
Dans ce chapitre, nous considérons que le paramètre à estimer θ (ou bien le vecteur θ)
est une variable aléatoire avec une PDF a priori connue f (θ).
La PDf a posteriori est donnée par le théorème de Bayes :
f (x|θ)f (θ)
f (θ|x) = (5.0.1)
f (x)
où ∫
f (x) = f (x|θ)f (θ)dθ (5.0.2)
Θ
et la PDF conjointe est donnée par
Lorsque l’on cherche une estimation d’un parmamètre θ, on est amené à évaluer ses perfor-
mances et il est raisonable d’introduire la fonction erreur (appelée aussi innovation)
θ̃ = θ − θ̂(x) (5.0.4)
L’erreur étant de nature aléatoire, on ne peut tirer de conclusion sur la précision de l’esti-
mation qu’à partir de valeurs moyennes associées à cette fonction erreur. Par exemple, on
peut raisonablement penser que plus la variance de θ̃ sera faible, meilleure sera l’estima-
tion. On peut alors rechercher l’estimatuer θ̂(x) qui minimise la quantité E[θ̃2 ]. L’approche
Bayesienne généralise ce raisonnement en introduisant une fonction coût C(θ̃), appelée aussi
fonction de perte, et en recherchant l’éstimateur qui minimise le risque Bayesien R définit
par ∫ ∫
R = E[C(θ̃)] = C(θ̃)f (x, θ)dxdθ (5.0.5)
Θ χ
56
57
Nous allons maintenant considérer les différents estimateurs associés à chacune des erreurs
précédentes.
en utilisant (5.0.3)
∫ ∫
Rms = E[C(θ̃)] = (θ − θ̂)2 f (θ|x)f (x)dxdθ (5.1.2)
Θ χ
ou bien ∫ ∫
Rms = E[C(θ̃)] = [ (θ − θ̂)2 f (θ|x)dθ]f (x)dx (5.1.3)
χ Θ
58
Puisque f (x) est une fonction positive, minimiser le risque revient à minimiser l’integrale
suivante : ∫
I(θ̂) = (θ − θ̂)2 f (θ|x)dθ (5.1.4)
Θ
ce qui s’obtient en calculant :
∫
dI(θ̂) d
= (θ − θ̂)2 f (θ|x)dθ = 0 (5.1.5)
dθ dθ Θ
ce qui donne : ∫ ∫
θf (θ|x)dθ = θ̂ f (θ|x)dθ = θ̂ (5.1.6)
Θ
|Θ
{z }
=1
ou encore ∫
θ̂mse = θf (θ|x)dθ = E[θ|x] (5.1.7)
Θ
donc l’estimé à erreur quadratique moyenne est donné par la moyenne conditionnelle de θ
sachant x (i.e. connaissant le vecteur de mesure).
En remplaçant (5.1.7) dans (5.1.3) on obtient l’erreur quadratique minimum de Bayes sui-
vante :
∫ ∫ ∫
Bmse (θ̂) = E[(θ − θ̂) ] = [ (θ − E[θ|x]) f (θ|x)dθ] f (x)dx = var[θ|x]f (x)dx (5.1.8)
2 2
χ
|Θ {z } χ
var[θ|x]
ce qui donne :
∑N −1
1
exp[− 1
(x[n]−A)2 ]
2A0 (2πσ 2 )N/2 2σ 2 n=0
∫0
A
∑N −1
; |A| ≤ A0
f (A|x) =
1
exp[− 1
(x[n]−A)2 ]dA (5.1.12)
2A0 (2πσ 2 )N/2 2σ 2 n=0
−A0
0 ; |A| > A0
on a
∑
N −1 ∑
N −1
(x[n] − A)2 = x2 [n] − 2N Ax̄ + N A2
n=0 n=0
∑
N −1
= N A − x̄) + 2
x2 [n] − N x̄2 (5.1.13)
n=0
ce qui donne
[ ]
√1 exp − 1
2 (A − x̄)2 ; |A| ≤ A0
f (A|x) = c 2π σN
2
2 σN (5.1.14)
0 ; |A| > A0
∫A0 [ ]
1 1
c= √ exp − σ2 (A − x̄)2 dA (5.1.15)
2π σN
2 2N
−A0
 = E[A|x]
∫+∞
= Af (A|x)dA
−∞
[ ]
∫0
A
A √ 1 σ2 exp − 1
2 (A − x̄) 2
dA
2π N 2 σN
−A0
= [ ] (5.1.16)
∫0
A
√ 1 exp − 1
2 (A − x̄)2 dA
2π σN
2
2 σN
−A0
Aucune forme compacte ne peut être trouvée pour (5.1.16). On note que  dépend de x̄, de
A0 et de σ 2 .
Exemple 2.2 (DC level with Gaussian prior PDF in WGN)
Considérons le même problème que l’exemple précedent : x[n] = A + w[n], n = 0, ..., N − 1
où w[n] est un bruit Gaussien de moyenne nulle et variance σ 2 et A est une variable aléatoire
60
ayant maintenant une PDF a priori Gaussienne de moyenne µA et variance σA2 . Calculer
ÂM SE et l’erreur quadratique minimum de Bayes Bmse(Â) = E[(A − Â)2 ].
Solution :
On doit calculer la loi a posteriori f (A/x) en utilisant (5.0.1) et (5.0.2). Tout calcul fait, on
trouve (voir T.D) :
1 1
f (A/x) = √ exp[− 2
(A − µA/x )2 ] (5.1.17)
2
2πσA/x 2σA/x
avec :
N µA 2
µA/x = ( 2
x + 2 )σA/x (5.1.18)
σ σA
et :
2 1
σA/x = (5.1.19)
N 1
2
+ 2
σ σA
ce qui donne :
ÂM SE = E[A|x] = µA|x (5.1.20)
σ2
[ σA2 ] [ N ]
ÂM SE = x+ µA (5.1.21)
σ2 σ2
σA2 + σA2 +
| {z N } | {z N }
=α =1−α
L’utilisation d’une loi Gaussienne comme PDF a priori (on l’appelle aussi prior) a conduit
à une forme compacte ou explicite de l’estimateur, ce qui n’était pas le cas pour un prior
uniforme.
Le coefficient de pondération 0 < α < 1. ÂM SE est une somme pondérée de la moyenne a
priori µA et la moyenne des données X.
σ2
Lorsque le nombre N de données est faible, on a ≪ ⇒ α ≈ 0 et ÂM SE ≈ µA , mais
σA2
N
à mesure qu’on augmente le nombre d’observations N , l’estimateur prend en compte ses
observations et à la limite lorsque N → ∞ on a α → 1 et l’estimateur oublie la moyenne a
1 ∑N −1
priori et ne tient compte que des observations,i.e. ÂM SE ≈ X = x[n]
N n=0
- Calcul de Bmse(Â)
61
on a :
∫ ∫
Bmse(Â) = (A − Â)2 f (x, A)dxdA
∫ ∫
= (A − Â)2 f (A|x)dAf (x)dx (5.1.22)
2 1
= σA/x = (5.1.23)
N 1
2
+ 2
σ σA
σ2 ( σA2 )
Bmse(Â) = 2 (5.1.24)
N σ
σA2 +
N
σ2 σ2
on remarque que Bmse(Â) < où est la minimum MSE obtenue lorsque aucune
N N
information a priori n’est disponible (i.e. σA2 → ∞). Donc l’incorporation de l’information
a priori améliore l’estimation.
Nous commençons par considérer le cas où le paramètre θ est un scalaire. Nous éxprimons
alors l’estimateur de la façon suivante :
∑
N −1
θ̂ = an x[n] + aN (5.2.1)
n=0
et il faut choisir les coefficients an qui minimisent l’erreur quadratique moyenne de Bayes
suivante :
Bmse(θ̂) = E[(θ − θ̂)2 ] (5.2.2)
L’estimateur obtenu est appelé estimateur Bayesien linéaire à erreur moyenne quadratique
minimum (LMMSE : Linear Minimum Mean Squared Error Estimator). Notons que nous
avons introduit le coefficient aN pour prendre en considération le cas où les moyennes de x
et θ sont différentes de zéro. Dans le cas contraire,aN = 0.
On commence par trouver le coefficient aN en résolvant :
∂ ∑ N −1
E[(θ − an x[n] − aN )2 ] = 0 (5.2.3)
∂aN n=0
ou bien
∑
N −1
−2E[θ − an x[n] − aN ] = 0 (5.2.4)
n=0
ce qui donne
∑
N −1
aN = E[θ] − an E[x[n]] (5.2.5)
n=0
Ce qui confirme que aN = 0 si les moyennes E[θ] et E[x[n]] sont nulles.
On continu pour trouver les autres coefficients en minimisant :
∑
{[ N −1
]2 }
Bmse(θ̂) = E an (x[n] − E(x[n])) − (θ − E(θ)) (5.2.6)
n=0
{[ T ]2 }
Bmse(θ̂) = E a (x − E(x)) − (θ − E(θ))
[ ] [ ]
= E aT (x − E[x])(x − E[x])T a − E aT (x − E[x])(θ − E[θ])
[ ] [ ]
−E (θ − E[θ])(x − E[x])T a + E (θ − E[θ])2
= aT Cxx a − aT Cxθ − Cθx a + Cθθ (5.2.8)
63
où Cxx est la matrice NxN de covariance de x, Cθx est le vecteur 1xN de cross-covariance
tel que CT
θx = Cxθ et Cθθ est la variance de θ.
∂Bmse(θ̂)
= 2Cxx a − 2Cxθ = 0 (5.2.11)
∂a
on trouve le vecteur des coefficients :
a = C−1
xx Cxθ (5.2.12)
θ̂ = aT x + aN
−1 −1
xθ Cxx x + E[θ] − Cxθ Cxx E[x]
= CT T
(5.2.13)
ou encore
θ̂ = E[θ] + Cθx C−1
xx (x − E[x]) (5.2.14)
θ̂ = Cθx C−1
xx x (5.2.15)
L’erreur quadratique minimum Bmse(θ̂) est obtenue en remplaçant (5.2.12) dans (5.2.8). Ce
qui donne :
−1 −1 −1 −1
xθ Cxx Cxx Cxx Cxθ − Cxθ Cxx Cxθ − Cθx Cxx Cxθ + Cθθ
Bmse(θ̂) = CT T
= Cθx C−1 −1
xx Cxθ − 2Cθx Cxx Cxθ + Cθθ
soit finalement :
Bmse(θ̂) = Cθθ − Cθx C−1
xx Cxθ (5.2.16)
où A ∼ U [−A0 , +A0 ] : loi unif orme sur [−A0 , +A0 ], w[n] est un bruit blanc Gaussien
(WGN :White Gaussian Noise) de variance σ 2 et nous voulons estimer A et calculer Bmse(Â).
solution :
Sous forme vectorielle le problème peut se réecrire sous forme :
x = 1A + w
où le vecteur 1 = [1 1...1]T
Dans l’exemple 2.1 précédent, nous avons montré que le MMSEE de A ne possède pas une
forme compacte (voir (5.1.16)), on se propose alors de calculer l’éstimateur linéaire LMMSEE
de A. Dans ce problème θ = A et on a E[A] = 0 ⇒ E(x[n]) = 0 et E(x) = 0. On applique
alors l’équation (5.2.15) où la matrice de covariance Cxx et le vecteur d’intercovaraince Cθx
sont donnés par :
Cxx = E[xxT ]
= E[(1A + w)(1A + w)T ]
= E[A2 ]11T + σ 2 I (5.2.18)
et
Cθx = E[AxT ]
= E[A(1A + w)T ]
= E[A2 ]1T (5.2.19)
 = Cθx C−1
xx x
et comme on a 1T I = 1T , I1 = 1 et 1T 1 = N , on aura :
σA2 [ T N ]
 = 2
1 − σ 2 1
T
x (5.2.23)
σ N + σ2
A
et on a aussi 1T x = N x̄ on aura :
σA2
 = 2 x̄ (5.2.24)
σA2 + σN
on a aussi pour une loi uniforme, σA2 = E[A2 ] = (2A0 )2 /12 = A20 /3 d’où :
A20
3
 = A20
x̄ (5.2.25)
σ2
3
+ N
lorsque N → ∞, Â → x̄
On note que (5.2.25) est équivalente à (5.1.21) avec µA = 0.
-calcul de Bmse(Â) :
L’erreur Bmse(Â) est donnée par (5.2.16) soit :
avec CAA = E[AA] = var[A] = σA2 , CxA = CTAx = σA2 1 et Cxx = σA2 11T + σ 2 I et en utilisant
(5.2.23) on aura :
σA2 [ T N ] 2
Bmse(Â) = σA2 − 2
1 − σ 2 1
T
σA 1
σ N + σ2
A
1 σ2 1 σ2
= = [ ] < (5.2.27)
1
2
σA
+ N
σ2
N 1 + Nσσ22 N
A
Contrairement au MMSEE (5.1.16) qui nécessite le calcul d’intégrals, nous avons trouvé une
forme compacte ou explicite pour le LMMSEE donnée par (5.2.25). Cependant, ce dernier
est sous optimal puisqu’il est construit sous la contrainte de linéarité. L’estimateur optimal
pour ce problème reste celui donné par (5.1.16).
où
f (x|θ)f (θ)
f (θ|x) = ∫ (5.3.2)
f (x|θ)f (θ)dθ
En suivant le même raisonnement que précédemment, on obtient l’estimateur MMSE de θ1
comme ∫
θˆ1 = E[θ1 |x] = θ1 f (θ1 |x)dθ1 (5.3.3)
soit en généralisant :
∫
θˆi = E[θi |x] = θi f (θi |x)dθi i = 1, 2, ..., p (5.3.4)
Donc chaque composante [θ̂]i = [E(θ|x)]i minimise l’erreur quadratique E[(θi − θ̂i )2 ].
En utilisant (5.1.8) on aura l’erreur quadratique minimum de Bayes
∫ ∫
Bmse (θ̂i ) = var[θi |x]f (x)dx = [Cθ|x ]ii f (x)dx (5.3.8)
67
Exemple 2.4
Considérons le modèle suivant :
où f0 est un multiple de 1/N sauf pour 0 ou 1/2 (pour lesquels sin 2πf0 n = 0) et w[n] est
un WGN de variance σ 2 . On veut estimer θ = [a b]T où a et b sont des variables aléatoires
telles que θ ∼ N (0, σθ2 I) et θ est indépendant de w[n].
solution
Le problème peut être écrit comme suit (on l’appele modèle Bayesien linéaire) :
x = Hθ + w (5.3.11)
on pose µθ = 0, Cθ = σθ2 I et Cw = σ 2 I.
∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ◦ − − − Rappel − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗
Nous rappellons le théorème suivant (voir théorème 10.3 S. Kay page 326) :
Si le modèle des observations s’écrit
x = Hθ + w (5.3.13)
où x est le vecteur N × 1 des observations, H est une matrice N × p connue, θ est un vecteur p × 1 aléatoire avec une PDF a
priori N (µθ , Cθ ) et w ∼ N (0, Cw ), alors la PDF a posteriori f (θ|x) est aussi Gaussienne de moyenne :
T T
E[θ|x] = µθ + Cθ H (HCθ H + Cw )−1 (x − Hµθ ) (5.3.14)
et matrice de covariance :
T T
Cθ|x = Cθ − Cθ H (HCθ H + Cw )−1 HCθ (5.3.15)
∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗◦−−− ⋆ − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗
68
N
Puisque les colonnes de H sont orthogonales, on montre que HT H = 2
I ce qui donne :
N σ2 (2/N )
θ̂ = σθ2 HT (σθ2 I + σ 2 I)−1 x = 2 N θ 2 HT x = 2σ
T
2 /N H x (5.3.17)
2 σθ 2 + σ 1 + σ2
θ
1
Bmse(b̂) = 1 N
(5.3.22)
σθ2
+ 2σ 2
∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ◦ − − − note − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗
où
h1 = [1 cos(2πf0 ) . . . cos(2πf0 (N − 1))]T et h2 = [1 sin(2πf0 ) . . . sin(2πf0 (N − 1))]T
de sorte que [ ] [ ]
hT [ ] hT hT
1 1 h1 1 h2
HT H = h1 h2 =
hT
2 hT
2 h1 hT
2 h2
69
avec
∑
N −1
hT T
1 h2 = h2 h1 = cos(2πf0 n) sin(2πf0 n)
n=0
∑
N −1 ∑
N −1
hT
1 h1 = cos2 (2πf0 n) et hT
2 h2 = sin2 (2πf0 n)
n=0 n=0
1 1
cos a sin b = [sin(a + b) + sin(a − b)] , cos a cos b = [cos(a + b) + cos(a − b)]
2 2
−1
(N −1 ) −1
(N −1 )
∑
N ∑ ∑
N ∑
sin(αn) = Im exp(jαn) , cos(αn) = Re exp(jαn)
n=0 n=0 n=0 n=0
∑
N −1
1 − exp(j2παN )
et exp(j2παn) = (suite géométrique)
n=0
1 − exp(j2πα)
on montre que
N −1
(N −1 )
1 ∑ N 1 ∑ N
hT
1 h1 = [1 + cos(4πf0 n)] = + Re exp(j4πf0 n) =
2 n=0 2 2 n=0
2
N −1
(N −1 )
1 ∑ N 1 ∑ N
hT
2 h2 = [1 − cos(4πf0 n)] = − Re exp(j4πf0 n) =
2 n=0 2 2 n=0
2
−1
(N −1 )
1 ∑
N
1 ∑
hT
1 h2 = sin(4πf0 n) = Im exp(j4πf0 n) =0
2 n=0
2 n=0
puisque
∑
N −1
1 − exp(j2πf0 N )
exp(j4πf0 n) = = 0 ; car f0 = k/N ;
n=0
1 − exp(j2πf0 )
finallement
[ ]
N
0 N
HT H = 2
N
= I
0 2
2
∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗◦−−− ⋆ − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗
∫ θ̂ ∫ ∞
dI(θ̂)
= f (θ|x)dθ − f (θ|x)dθ = 0 (5.4.6)
dθ −∞ θ̂
ou bien ∫ ∫
θ̂ ∞
f (θ|x)dθ = f (θ|x)dθ (5.4.7)
−∞ θ̂
Donc l’estimateur à erreur moyenne absolue minimum, noté ici θ̂abs est la médiane de la PDF
conditionnelle f (θ|x).
Pour une valeur de ϵ trés petite, ceci est équivalent à choisir θ̂ = θ̂M AP qui maximise la PDF
a posteriori f (θ|x) :
θ̂M AP = arg max f (θ|x) (5.5.3)
θ
f (x|θ)f (θ)
Puisque f (θ|x) = f (x)
c’est équivalent à maximiser f (x|θ)f (θ).
∏
K
1 (yk − m)2
f (y|m) = √ exp −
k=1
2πσ 2σ 2
∑K
k=1 (yk − m)
2
1
= exp − (5.5.7)
(2πσ 2 )k/2 2σ 2
ce qui donne :
( )2
1 ∑
K
′ 1
f (m|y) = C (y) exp − 2 m− yk (5.5.10)
2σm K + 1 k=1
2
où σm = σ2
K+1
et C ′ (y) rassemble toujours tout ce qui ne dépend pas de m.
La PDF a posteriori f (m|y) est donc une Gaussienne.
1- determination de m̂ms :
on a m̂ms = E[M |Y ] soit
1 ∑
K
m̂ms = yk (5.5.11)
K + 1 k=1
2- determination de m̂M AP :
m̂M AP est solution de
( )
1 ∑
K
∂ ln f (m|y) 1
=0⇔− 2 m− yk =0 (5.5.12)
∂m 2σm K + 1 k=1
ce qui donne :
1 ∑
K
= m̂M AP = yk (5.5.13)
K + 1 k=1
3- determination de m̂abs :
Sachant que la densité Gaussienne est symétrique donc sa médiane se confend avec sa
1
∑K
moyenne, donc : m̂M AP = K+1 k=1 yk
conclusion :
Pour une densité Gaussienne m̂mse = m̂M AP = m̂abs .
Chapitre 6
L’estimation des paramètres non aléatoires, souvent appelée l’approche classique d’esti-
mation ou de Fisher, est utilisée lorsque le paramètre inconnu θ (ou vecteur de paramètres
θ) à estimer est non aléatoire (i.e. déterministe) ou aléatoire mais de statistique inconnue.
Le problème est toujours de trouver la valeur de θ (qui est déterministe) via un estimateur
θ̂(x) (qui est toujours aléatoire) et d’évaluer ses performances. Dans l’approche Bayesienne
où on connait la PDF a priori (ou prior) du paramètre à estimer, on a utilisé un critère
de performance basé sur la minimisation du risque de Bayes. Cependant, comme le prior
est inconnu on ne peut pas utiliser ce principe. On fait appel alors à d’autres critères de
performances tels que le biais et la variance de l’estimateur.
Le biais mesure la différence entre la moyenne des réalisations de l’estimateur et la vraie va-
leur du paramètre à estimer. Pour une bonne qualité d’estimation il faut que cette différence
soit la plus faible possible et de préference nulle.
- Estimateur non biaisé (unbiased) :
73
74
b(θ̂) = 0, ∀ θ ∈ Θ (6.1.2)
Exemple 3.1 :
Considérons les observations suivantes : x[n] = A + w[n], n = 0, ..., N − 1 où w[n] est un bruit
blanc Gaussien de moyenne nulle et variance σ 2 et A est un paramètre inconnu (deterministe)
à estimer. Un estimateur raisonnable est la moyenne simple suivante :
1 ∑
N
 = x̄ = x[n] (6.1.4)
N n=0
[ ∑ ] ∑N ∑N
1 N 1 1
On a alors : E[Â] = E N n=0 x[n] = N n=0 E(x[n]) = N n=0 A=A
Ce qui donne un biais nul b(Â) = 0. Donc la moyenne simple est un estimateur non biaisé.
Supposons maintenant que même la variance σ 2 est inconnue et doit être éstimée et que l’on
choisit comme estimateur :
1 ∑
N −1
b2
σb = [x(k) − Â]2 (6.1.5)
N k=0
Calculons alors son biais.
on peut écrire :
1 ∑{ }2
N −1
σbb2 = [x(k) − A] − [Â − A]
N k=0
{ }2
1 ∑ 1 ∑
N −1 N −1
= [x(k) − A] − [x(l) − A]
N k=0 N l=0
{ N −1 }2
∑
N −1 ∑ N∑−1
1 1 2
= [x(k) − A] +
2
[x(l) − A] − [x(k) − A] [x(l) − A]
N k=0 N l=0 N l=0
[ N −1 ]2 { }
1 ∑ ∑ ∑ ∑ ∑
N −1 N −1 N −1 N −1
1 1 2
= [x(k) − A]2 + [x(l) − A] − 2 [x(k) − A] [x(l) − A]
N k=0 N k=0 N l=0 N k=0 l=0
75
En prenant l’espérence mathématique de chaque coté et sachant que les variables aléatoires
[x(k) − A] sont de moyenne nulle et indépendantes, on aura :
{ }
1 ∑ { 1 ∑ [ ]2 2 ∑ ∑
N −1 N −1 N −1 −1
b } N
2
E[σb ] = E [x(k) − A] +
2
E Â − A − 2 E [x(k) − A] [x(l) − A]
N k=0 N k=0 N k=0 l=0
1 1 2
= N σ 2 + N var(Â) − 2 N σ 2
N N N
2 2
σ σ
= σ2 + −2
N N
1
= σ 2 (1 − )
N
ce qui donne le biais :
2
σ
b(σbb2 ) = E[σbb2 ] − σ 2 = − (6.1.6)
N
c’est donc un estimateur biaisé, mais asymptotiquement non biaisé.
Par contre on peut facillement montrer que l’estimateur suivant est non biaisé :
1 ∑
N −1
bnb
σ 2
= [x(k) − Â]2 (6.1.7)
N − 1 k=0
bnb
En effet, σ 2
= N
b2
σ
N −1 b
⇒ E[b 2
σnb ]= N
N −1
σb2 ]
E[b = σ 2 ⇒ b(b
σb2 ) = 0
Cependant, le critère de biais nul est généralement insuffisant. En effet, si pour un es-
timateur donné, le biais est nul, mais les fluctuations de la variable aléatoire θ̂(x) sont
importantes, il est clair que cet estimateur est peu précis. Il est donc raisonnable de cher-
cher un estimateur dont les fluctuations sont faibles. On introduit alors un second critère de
perforamance permettant de quantifier ces fluctuations : la variance de l’estimateur.
1 ∑
N
= var(x[n]), (les x[n] sont i.i.d)
N 2 n=0
1 ∑ 2
N
= σ
N 2 n=0
σ2
= (6.1.9)
N
on peut écrire :
{[ ]2 }
mse(θ̂) = E (θ̂ − E(θ̂)) + (E(θ̂) − θ)
[ ] [ ] [ ]
= E (θ̂ − E(θ̂))2 + E (E(θ̂) − θ)2 + 2E (θ̂ − E(θ̂))(E(θ̂) − θ))
[ ]
= var(θ̂) + b(θ̂) + 2 E (θ − E(θ̂)) b(θ̂)
2
| {z }
=0
2
= var(θ̂) + b(θ̂) (6.1.11)
- Estimateur consistant :
Un estimateur est consistant si son mse tend vers zéro lorsque le nombre d’observations tend
vers l’infini. i.e.
[ ]
lim E (θ̂ − θ)2 = 0 (6.1.12)
N →∞
Remarques :
-Un estimateur consistant doit être au moins asymptotiquement non biaisé.
- Pour obtenir le meilleur estimateur, on pense naturellement à minimiser l’écart quadratique
entre θ̂ et θ (i.e mse(θ̂)). Mais d’aprés 6.1.10, on voit que mse(θ̂) dépend du biais b(θ̂) qui
lui même dépend de θ qui est inconnu. Il est donc difficile voire même impossible de trouver
cet estimateur. On se restreint généralement aux estimateurs non biaisés et on cherchera
77
alors parmi eux, l’estimateur à variance minimum. L’estimateur ainsi obtenu est appellé
’estimateur non biaisé à variance minimale’ ou MVU (Minimum Variance Unbiased). Pour
illustrer ceci, reprenons l’exemple 3.1, mais cette fois avec un autre estimateur  = ax̄ et
cherchons l’estimateur qui minimise la mse(Â).
2 2
on a E[Â] = aA et var[Â] = a2 σN ⇒ mse(Â) = a2 σN + (a − 1)2 A2
Cherchons la valeur de a qui minimise mse(Â).
2 A2
dmse(Â)
da
= 2a σN + 2(a − 1)A2 = 0 ⇒ aopt = 2 qui dépend de A qui est inconnu.
A2 + σN
Donc l’estimateur est irréalisable pratiquement.
En général l’estimateur MVU n’existe pas toujours comme le montre la figure 6.1. Même
s’il existe, on peut ne pas être à même de le trouver et ceci est dû au fait qu’il n’existe pas
de méthode qui marche à tous les coups. Dans ce qui suit, nous allons discuter quelques
méthodes pour chercher l’estimateur MVU. Parmi ces mèthodes on peut citer :
1- Determiner la borne inférieure de Cramer-Rao (CRLB : Cramer Rao Lower Bound) et
voir s’il existe un estimateur qui satisfait celle ci.
2- Appliquer le théorème de Rao-Blackwell-Lehmann-Scheffe (RBLS).
La CRLB nous renseigne que la variance de n’importe quel estimateur non-biaisé est
toujours supérieur ou égale à une certaine valeur inférieure comme le montre la Fig.6.2. S’il
78
existe un estimateur dont la variance est égale à la CRLB quelque soit la valeur du paramètre
θ, alors cet estimateur est l’estimateur MVU. Il se pourait qu’aucun estimateur n’atteigne
cette borne mais un estimateur MVU existe, par example l’estimateur θ1 sur la Fig.6.2.
n=0
2πσ 2 2σ
[ ]
1 ∑
N −1
1
= exp − 2 (x[n] − A) 2
(6.3.7)
(2πσ 2 )N/2 2σ n=0
en dérivant :
[ ]
∂ ln f (x; A) ∂ ( ) N/2 1 ∑
N −1
= − ln[ 2πσ 2 ]− 2 (x[n] − A)2 (6.3.8)
∂A ∂A 2σ n=0
1 ∑
N −1
= (x[n] − A) (6.3.9)
σ 2 n=0
( N −1 )
N 1 ∑
= x[n] − A (6.3.10)
σ 2 N n=0
80
∑N −1 N
en utilisant (6.3.6) on identifie :g(x) = n=0 x[n] et I(A) = σ 2
1
∑N −1
Donc l’éstimateur efficace de A est : Â = N n=0 x[n] = x̄, (simple moyenne arithmétique)
1 σ2
et sa variance, qui est aussi la borne inférieur de Cramer Rao, est : var(Â) = I(A)
= N
aussi, en calculant la dérivée seconde :
∂ 2 ln f (x; A) N
2
=− 2 (6.3.11)
∂A σ
[ 2 ]
On a bel et bien : I(A) = −E ∂ ln∂A
f (x;A)
2 = σN2 .
( ∂g )2
var(α̂) ≥ 2
∂θ
(6.4.2)
−E[ ∂ ln f (x;θ)
∂θ 2
]
En d’autres termes ( )2
∂g
CRLBα̂ = CRLBθ̂ (6.4.3)
∂θ
- Exemple 3.3
Supposons que dans l’exemple précédent on veut estimer la puissance du signal α = g(A) =
A2 . En utilisant (6.4.2), on trouve :
(2A)2 4A2 σ 2
var(Â2 ) ≥ N
= (6.4.4)
σ2
N
sa variance atteint la CRLB. On pourrait penser que l’estimateur naturel x̄2 de A2 est aussi
efficace, mais ceci n’est pas vrai. En effet, cet estimateur est biaisé car on a : x̄ ∼ N (A, σ 2 /N )
Calculons sa variance
var(x̄2 ) = E(x̄4 ) − E 2 (x̄2 ) (6.4.6)
Avant de calculer E(x̄4 ), on fait le rappel suivant :
∗∗∗∗∗∗∗∗∗∗∗∗◦−−− rappel − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗
Le moment d’ordre n d’une variable aléatoire Z est donné en fonction de la fonction génératrice des moments
(MGF) mz (t), comme suit :
dn /
E[Z n ] = mz (t) t=0 (6.4.7)
dtn
où la MGF est donnée par ∫ +∞
mz (t) = E[etZ ] = etz fz (z)dz (6.4.8)
−∞
Pour une variable aléatoire Z ∼ N (µz , σz2 ), la MGF est donnée par
2 2
mz (t) = eµt+σ t /2
(6.4.9)
ce qui donne
∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗◦−−− ⋆ − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗
4A2 σ 2 2σ 4
var(x̄2 ) = + 2 (6.4.12)
N N
En comparant ceci à la CRLB (6.4.4), on conclut que l’estimateur x̄2 de A2 n’est pas efficace.
4A2 σ 2
Par contre, il est asymptotiquement efficace, car lorsque N → ∞, on a var(x̄2 ) → N
,
qui est la CRLB donnée par(6.4.4). On conclut que l’efficacité n’est pas maintenue pour
les fonctions non linéaires, par contre elle l’est pour les transformations linéaires, comme le
montre l’exemple suivant :
- Exemple 3.4
Admettons qu’il existe un estimateur efficace θ̂ d’un paramètre θ et nous voulons estimer
d = g(θ̂) = aθ̂ + b. On a alors :
g(θ) = aθ + b. Nous choisissons l’estimateur g(θ)
82
mais
d = var[aθ̂ + b] = a2 var[θ̂]
var[g(θ)] (6.4.15)
(6.4.16)
où
var(θ̂1 ) cov(θ̂1 , θ̂2 ) . . . cov(θ̂1 , θ̂p )
[ ] cov(θ̂2 , θ̂1 ) var(θ̂2 ) . . . cov(θ̂2 , θ̂p )
Cθ̂ = E (θ̂ − E[θ̂])(θ̂ − E[θ̂])T = .. .. ... .. (6.5.3)
. . .
cov(θ̂p , θ̂1 ) cov(θ̂p , θ̂2 ) . . . var(θ̂p )
et I(θ) est la matrice p × p d’information de Fisher, dont l’élément de la ieme ligne et
j eme colonne, est défini par :
[ ]
∂ 2 ln f (x; θ)
[I(θ)]ij = −E ; i, j = 1, 2, ..., p (6.5.4)
∂θi ∂θj
83
Donc la CRLB pour le cas vectoriel stipule que la variance de chaque élément est telle que :
De plus, un estimateur non biaisé qui atteint la CRLB, peut être trouvé si et seulement si :
∂ ln f (x; θ)
= I(θ) [g(x) − θ] (6.5.6)
∂θ
où g(.) est une fonction à p dimension et I est la matrice p × p d’information de Fisher. Cet
estimateur est un estimateur MVU et est donné par θ̂ = g(x) et sa matrice de covariance
est Cθ̂ = I−1 (θ), et (6.5.5) devient :
Example 3.5
Considérons le problème suivant :
où, ce n’est pas seulement le parmètre A qui est inconnu, mais la variance du bruit σ 2 est
aussi inconnue. Le vecteur des paramètres est ici θ = [A σ 2 ]T et donc p = 2. La matrice
d’information de Fisher est donnée par :
[ 2 ∂ 2 ln f (x;θ)
]
−E[ ∂ ln∂A f (x;θ)
2 ] −E[ ∂A∂σ 2
]
I(θ) = ∂ 2 ln f (x;θ) ∂ 2 ln f (x;θ)
(6.5.9)
−E[ ∂σ2 ∂A ] −E[ ∂σ2 2 ]
avec [ ]
1 ∑
N −1
1
f (x; θ) = exp − 2 (x[n] − A)2 (6.5.10)
(2πσ 2 )N/2 2σ n=0
Tout calcul fait, on trouve : [ ]
N/σ 2 0
I(θ) = (6.5.11)
0 N/2σ 4
Dans cet example, la matrice d’information de Fisher est diagonale (ce n’est pas tjrs le cas !),
son inverse est [ ]
σ 2 /N 0
I−1 (θ) = (6.5.12)
0 2σ 4 /N
on a donc
var(Â) ≥ σ 2 /N
var(σ̂ 2 ) ≥ 2σ 4 /N
84
Example 3.6
On reprend l’example précédent (6.5.8) avec toujours A et σ 2 inconnus et on veut estimer α =
A2
σ2
qui peut être intérprété comme le SNR (Signal to Noise Ratio) pour un seul échantillon.
Ici, θ = [A σ 2 ]T et g(θ) = θ12 /θ2 = A2 /σ 2 .
On a déja calculé la matrice d’information de Fisher, soit :
[ ]
N/σ 2 0
I(θ) = (6.6.3)
0 N/2σ 4
Le Jacobien est
[ ] [ ]
∂g(θ) ∂g(θ) ∂g(θ) ∂g(θ) ∂g(θ)
= =
∂θ ∂θ1 ∂θ2 ∂A ∂σ 2
[ ]
2A A2
= − (6.6.4)
σ2 σ4
de sorte que :
[ ][ ][
2A
]
∂g(θ) −1 ∂g(θ)T 2A A2 σ 2 /N 0
I (θ) = − 4 σ2
2
∂θ ∂θ σ2 σ 0 2σ 4 /N − Aσ4
4A2 2A4
= +
N σ2 N σ4
4α + 2α2
= (6.6.5)
N
85
4α + 2α2
var(α̂) ≥ (6.6.6)
N
Comme on l’a déja mentionné précédement dans le cas scalaire, l’éfficacité n’est maintenue
que pour les transformation linéaire. Ceci reste vrai dans le cas vectoriel. Supposons une
transformation linéaire
α = g(θ) = Aθ + b (6.6.7)
∂g(θ) −1 ∂g(θ)T
I (θ) = AI−1 (θ)AT (6.6.11)
∂θ ∂θ
Donc la bande de Cramer-Rao est atteinte, ce qui confirme que l’éfficacité est maintenue
pour les transformations linéaires.
Chapitre 7
Modèle linéaire
La recherche d’estimateur MVU est en générale une tâche difficile. Cependent, un nombre
important de problèmes en traitement du signal, peuvent être représentés par un modèle
linéaire. Dans ce cas, la recherche d’éstimateur MVU (et donc efficace) est rendue facile.
x = Hθ + w (7.1.1)
où
x : vecteur des observations (N × 1)
H : Matrice d’observation (N × p)
θ : vecteur des paramètres à estimer (p × 1)
w : vecteur bruit (N × 1) de PDF N (0, σ 2 I)
En premier lieu, nous supposons que le bruit est blanc, donc sa matrice de covariance est
diagonale. Le cas où le bruit est corrélé sera traité ultérieurement.
En utilisant (6.5.6), un estimateur θ̂ = g(x) sera MVU ssi
∂ ln f (x; θ)
= I(θ) [g(x) − θ] (7.1.2)
∂θ
et sa matrice de covariance sera donnée par Cθ̂ = I−1 (θ)
La PDF conditionnelle f (x; θ) s’écrit :
1 1
f (x; θ) = N exp{− (x − Hθ)T (x − Hθ)} (7.1.3)
(2πσ 2 ) 2 2σ 2
86
87
[ ]
∂ ln f (x; θ) ∂ 1
= − 2 (x − Hθ) (x − Hθ)
T
∂θ ∂θ 2σ
1 ∂ [ T ]
= − 2 x x − 2xT Hθ + θ T HT Hθ (7.1.4)
2σ ∂θ
en utilisant les identités suivantes
∂bT θ
= bT
∂θ
(7.1.5)
T
∂θ Aθ
= 2Aθ
∂θ
où A est une matrice symétrique, on aura :
∂ ln f (x; θ) 1 [ ]
= 2 HT x − HT Hθ
∂θ 2σ
T
en supposant que H H est inversible, on aboutit à :
∂ ln f (x; θ) HT H [ T −1 T ]
= (H H) H x − θ (7.1.6)
∂θ σ2
qui est exactement de la forme (7.1.2) avec :
et
HT H
I(θ) = (7.1.8)
σ2
donc l’estimateur MVU de θ est donné par (7.1.7) et sa matrice de covariance, qui est dans
ce cas aussi, la borne de Cramer-Rao (CRLB), est donnée par
On peut écrire :
donc
[ ]
Cθ̂ = E (HT H)−1 HT wwT H(HT H)−1
[ ]
= (HT H)−1 HT E wwT H(HT H)−1
= σ 2 (HT H)−1 HT H(HT H)−1
= σ 2 (HT H)−1 (7.1.13)
[ ]
Nous avons utilisé E wwT = σ 2 I et les identités (AB)T = BT AT et (A−1 )T = (AT )−1
L’estimateur θ̂ (7.1.7) est une combinaison linéaire de variables aléatoires gaussiennes. Donc
2σ 2
θ̂ ∼ N (θ, I) (7.1.14)
N
Example 7.1 Analyse de Fourier
Considérons le modèle suivant
∑M ( ) ∑ M ( )
2πkn 2πkn
x[n] = ak cos + bk sin + w[n]; n = 0, 1, ..., N − 1 (7.1.15)
k=1
N k=1
N
θ = [a1 a2 · · · aM b1 b2 · · · bM ]T (7.1.16)
de dimension p × 1 où p = 2M
et
1 ... 1 0 ... 0
( 2π ) ( 2πM ) ( 2π ) ( 2πM )
cos ... cos sin ... sin
N N N N
H= .. .. .. .. .. .. (7.1.17)
. . . . . .
[ ] [ ] [ ] [ ]
2π(N −1) 2πM (N −1) 2π(N −1) 2πM (N −1)
cos N
. . . cos N
sin N
. . . sin N
89
∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ◦ − − − démonstration − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗
∑
N −1
T 2πkn 2πln
on a ha a
k hl = cos( ) cos( )
n=0
N N
on aura
∑
N −1 N∑−1
T 2π(k + l)n 2π(k − l)n
2ha a
k hl = cos( )+ cos( )
n=0
N n=0
N
(N −1 ) (N −1 )
∑ 2π(k + l) ∑ 2π(k − l)
= Re exp(j n) + Re exp(j n)
n=0
N n=0
N
si k = l, on a
∑
N −1 ∑
N −1
2π(k − l)
exp(j n) = 1=N
n=0
N n=0
et
∑
N −1 ( ( ))
2π(k + l) 1 − exp(j 4kπ
N
N) 2π(k + l)
exp(j n) = = 0; suite géométrique de raison exp j
n=0
N 1 − exp(j 4kπ
N
) N
ce qui donne
T N
ha a
k hl =
2
si k ̸= l, on a
{ 2(k+l)π 2(k−l)π
} { }
T 1 − exp(j N) 1 − exp(j N) 1−1 1−1
2ha
k ha
l = Re N
2(k+l)π
+ N
2(k−l)π
= Re 2(k+l)π
+ 2(k+l)π
=0
1− exp(j N ) 1− exp(j N ) 1 − exp(j N
) 1 − exp(j N
)
90
∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗◦−−− ⋆ − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗
Ce qui donne
N
0 ... 0
2
N N
0 2
0 0
H H=
T
.. .. ... .. = I (7.1.19)
. . . 2
N
0 0 ... 2
2 aT
â1 h x
.. N 1
..
. .
âM 2 a T
h x
θ̂ = (HT H)−1 HT x = = N M
b̂1 2 b
h
T
x
N 1
..
..
. .
2 bT
b̂M h x
N M
(7.1.20)
2 ∑
N
2πkn
âk = x[k] cos( ) (7.1.21)
N k=0 N
2 ∑
N
2πkn
b̂k = x[k] sin( ) (7.1.22)
N k=0 N
2σ 2
âk ∼ N (ak , ) (7.1.24)
N
2σ 2
b̂k ∼ N (bk , ) (7.1.25)
N
91
x = Hθ + w; où w ∼ N (0, C) (7.2.1)
Pour détérminer l’estimateur MVU, on peut répéter les étapes de la section (7.1). On peut
aussi utiliser une autre approche basée sur la technique de blanchiment (’whitening’), comme
suit.
La matrice de covariance du bruit, C, étant supposée positive définie, il est de même pour
son inverse C−1 . On peut alors factoriser cette dernière comme suit :
C−1 = DT D (7.2.2)
où D est une matrice N × N inversible, qu’on peut obtenir par exemple en utilisant la
décomposition de Cholesky (dans ce cas, D est une matrice triangulaire supérieur).
On applique alors une transformation au modèle (7.2.1) comme suit :
Dx = |{z}
|{z} DH θ + |{z}
Dw (7.2.3)
′ ′ w′
x H
−1
E[w′ w′T ] = E[(Dw)(Dw)T ] = DE[wwT DT = DCDT = DD−1 DT DT = I (7.2.4)
Donc le bruit aprés transformation devient blanc (d’où l’appelation ’blanchiment’), i.e,
w′ = Dw ∼ N (0, I)
soit
Remarque :
Si C = σ 2 I, nous retrouvons les résultats de la section précédente.
Exemple
On reprend toujours l’exemple d’une constante noyée dans un bruit coloré.
H = 1 = [1 1 · · · 1]T
être déterminé avec la connaissance seulement des moments d’ordre un et deux de la PDF.
Puisque la connaissance complète de la PDF n’est pas nécessaire, l’éstimateur BLUE est
convenable pour des implémentations pratiques.
∑
N −1
θ̂ = an x[n] = aT x (7.3.1)
n=0
∑
N −1
E[θ̂] = an E(x[n]) = θ (7.3.2)
n=0
pour satisfaire cette condition, E(x[n]) doit être linéaire en fonction de θ, i.e,
ce qui donne
∑
N −1
E[θ̂] = an s[n]θ = θ
n=0
ou bien
∑
N −1
an s[n] = 1
n=0
ou encore
aT s = 1 (7.3.4)
[ ]
où C = E (x − E[x])(x − E[x])T doit être connue aussi.
La contrainte de minimum variance est obtenue, en minimisant (7.3.5), tout en respectant
la condition de non biaisé (7.3.4). Pour cela, nous utilisons la méthode du multiplieur de
Lagrange, qui s’écrit
J = aT C a + λ(aT s − 1) (7.3.6)
∂J
= 2Ca + λs (7.3.7)
∂a
en annulant celui-ci, on aura
λ
a = − C−1 s
2
et en utilisant la contrainte de sans biais, on aura
λ
aT s = − sT C−1 s = 1
2
ce qui donne
λ 1
− = T −1
2 s C s
donc la valeur optimale de a qui annule le gradient, avec la satisfaction de la contrainte
imposée, est
C−1 s
aopt = (7.3.8)
sT C−1 s
de sorte que l’estimateur BLUE est, en utilisant (7.3.1)
sT C−1 x
θ̂ = θ̂BLU E = (7.3.9)
sT C−1 s
et sa variance est donc
Exemple
On observe
x[n] = A + w[n]; n = 0, 1, · · · , N − 1
où w[n] est un bruit, dont la PDF est non spécifiée, mais de moyenne nulle, non corrélé et
de variance var(w[n]) = σn2 .
Dans ce cas, on a : s = 1
1
σ02 0 ... 0 σ02
0 ... 0
σ12 . . . 0 1
0 0 −1 σ12
... 0
et la matrice de covariance est C = .. .. . . .. ⇒ C = . .. ..
. . . . .. .
..
. .
2 1
0 0 . . . σn 0 0 ... σn2
et sa variance est
1
var(ÂBLU E ) = ∑N −1 1
(7.3.12)
n=0 σn2
et sa variance est
1 σ2
var(ÂBLU E ) = ∑N −1 1
= (7.3.14)
n=0 σ 2
N
Donc la moyenne arithmétique est l’estimateur BLUE indépendement de la PDF. On a vu
aussi précédemment, que c’est aussi l’estimateur MVU pour le cas Gaussien.
AH = I (7.3.20)
si on définit ai = [ai0 ai1 . . . ai(N −1) ]T et la ieme colonne de H par hi , de sorte que
aT1
aT2 [ ]
θ̂i = aTi x, A= .. et H= h1 h2 · · · hp
.
aTp
et
var(θ̂i ) = aTi Cai (7.3.22)
L’estimateur BLUE est obtenu en minimisant (7.3.22) sous la contrainte (7.3.21), en répétant
l’opération pour chaque composante i. On trouve
et sa matrice de covariance
Cθ̂ = (HT C−1 H)−1 (7.3.24)
Remarques :
La forme du BLUE (7.3.23) est identique à celle de l’estimateur MVU (7.2.6) obtenue pour
97
le cas du modèle linéaire générale. La principale différence réside dans le fait que le BLUE ne
fait aucune supposition sur la PDF des données (i.e du bruit), par contre le MVU est obtenu
pour un modèle Gaussien du bruit. Il est bien entendu que, si les données sont réellement
Gaussiennes, alors le BLUE est aussi MVU.
x = Hθ + w (7.3.25)
où H est une matrice N ×p supposée connue, θ est un vecteur p×1 des paramètres à estimer,
et w est un vecteur p × 1 bruit de vecteur moyenne nule et de matrice de covariance C (la
PDF de w est arbitraire), alors l’estimateur BLUE de θ est
et sa matrice de covariance
Cθ̂ = (HT C−1 H)−1 (7.3.27)
Estimateur du Maximum de
Vraisemblance
8.1 Définition
Dans le cas où un estimateur MVU n’éxiste pas, ou ne peut pas être trouvé, même s’il
existe, on fait appel à l’estimateur du maximum de vraisemblance (MLE : Maximu Likelihood
Estimate). C’est un estimateur trés utilisé en pratique, car il est souvent relativement facile
à déterminer et donne généralement de bonnes performances : il est généralement asympto-
tiquement non biaisé et asymptotiquement efficace (donc asymptotiquement MVU). Même
si dans certains cas, il est difficile à trouver analytiquement, il existe des algorithmes qui
permettent de le chercher numériquement.
Soi x = [x1 , · · · , xN ]T un ensemble de N observations d’une variable aléatoire X, ayant une
PDF f (x; θ) dépendant d’un vecteur de paramètres θ à estimer.
On définit la fonction de vraisemblance (likelihood function) L(θ) par
98
99
-Exemple
où
1 (xi − m)2
f (xi ; m) = √ exp{− } (8.1.7)
2πσ 2σ 2
Le MLE m̂M L est solution de
d
ln L(m) = 0 (8.1.8)
dm
ou bien
1 ∑
N
d
[− (xi − m)2 ] = 0
dm 2σ 2 i=1
∑
N ∑
N
ou bien (xi − m) = xi − N.m = 0
i=1 i=1
ce qui donne
1 ∑
N
m̂M L = xi = x̄ (8.1.9)
N i=1
100
d2
2
ln L(m) = −N/2σ 2 < 0
dm
- Calcul du biais :
1 ∑
N
1
E[m̂M L ] = E[xi ] = N.m = m
N i=1 N
ce qui donne un biais
b(m̂M L ) = E[m̂M L ] − m = 0
1 ∑ 1 ∑ 2
N N
var[m̂M L ] = 2 var[xi ] = 2 σ = σ 2 /N
N i=1 N i=1
qui est aussi égale à la mse.
La CRLB a été aussi calculée précedemment, et trouvée égale à σ 2 /N . Ce qui veut dire que
le MLE de m est efficace.
On a aussi
lim var[m̂M L ] = 0
N →+∞
lim b[θ̂M L ] = 0
N →+∞
a
où le symbole ∼ signifie "asymptotiquement distribué selon"
Dans certains cas on s’intéresse à l’estimation d’une certaine fonction α = g(θ) du para-
mètre θ, aulieu du parmètre θ lui même, connaissant le MLE θ̂M L de θ.
Si g(.) est une fonction inversible (bijective), alors le MLE de α est tout simplement
- Example :
Considérons le problème suivant :
1 ∑
N −1
1
f (x; α) = N exp{− 2 (x[n] − ln α)2 } (8.2.4)
(2πσ 2 ) 2 2σ n=0
∑
N −1
1
(x[n] − ln α̂) =0
n=0
α̂
ce qui donne
α̂M L = exp(x̄)
On a déja vu que le MLE de A est ÂM L = x̄, ce qui confirme que α̂M L = exp(ÂM L )
−−−◦−−−
On peut aussi montrer que la propriété d’invariance (8.2.2) reste valable quelque soit la
fonction g.
- Example :
102
1 ∑ 2
N −1
ˆ2
P̂ = 10 log10 σ = 10 log10 x [n]
N n=0
Chapitre 9
Least square
103
Chapitre 10
MOM
104
Chapitre 11
Détection radar
Nous avons vu que la détection radar consiste à prendre une décision, concernant la
présence ou non, d’une cible dans un volume d’espace donné à un instant donné. Cette
décision est équivalente à un test entre deux hypothèses mutuellement exclusives :
H1 : cible présente
H0 : cible absente (11.0.1)
ou encore
où Y (t) est le signal observé, S(t) le signal utile de la cible et N (t) le bruit.
Généralement, la décision est prise en comparant le signal reçu avec un seuil. Lorsque le
signal est supérieur au seuil, on déclare qu’il y a cible et qu’il n’y a pas de cible, dans le cas
contraire (Fig. 11.1)
Si on appele Z l’espace d’observation, dans lequel se trouve l’observation Y , on peut le
subdiviser en deux sous espaces Z1 et Z2 , tels que :
si Y ∈ Z1 : on décide H1
si Y ∈ Z0 : on décide H0 (11.0.3)
Avant de parler de la règle de décision proprement dite, nous commençons par donner la
terminologie généralement utilisée en radar.
105
106
Pour simplifier les choses, supposons que le recepteur se base sur un échantillon de l’obser-
vation Y pour effectuer le test. On définit alors :
- La probabilité de fausse alarme PF A , par la probabilité de décider H1 sachant H0 :
∫
PF A = P r[D = H1 |H0 ] = fY |H0 (y|H0 )dy (11.0.4)
Z1
et
- La probabilité de décider H0 sachant H0 :
∫
P r[D = H0 |H0 ] = 1 − PF A = fY |H0 (y|H0 )dy (11.0.7)
Z0
107
On remarque les deux probabilités PF A et Pd sont sufisantes. De plus, afin d’avoir une
“bonne décision”, il est souhaitable d’avoir PF A , la plus petite possible, tout en ayant la
Pd la plus grande possible. Cependant, ceci est irréalisable, car lorqu’on augmente Pd , PF A
augmente aussi. La stratégie la plus aqéquate, est de fixer l’une des probabilité à une valeur
prédéfinie et d’optimiser l’autre, en tenant compte de cette contrainte. C’est justement cette
stratégie qui est retenue dans le critère de décision de Neyman-Pearson, qui est la règle
la plus utilisée en radar.
J = Pm + λ [PF − α] (11.0.8)
∫ [∫ ]
J = fY /H1 (y/H1 )dy + λ fY /H0 (y/H0 )dy − α
∫
Z0
[ ∫
Z1
]
= fY /H1 (y/H1 )dy + λ 1 − fY /H0 (y/H0 )dy − α
Z0
∫ Z0
J est minimum lorsque les valeurs de Y qui rendent l’integralle négative sont assignées à
la région Z0 : c’est à dire
fY /H1 (y/H1 ) < λfY /H0 (y/H0 ) (11.0.10)
où
fY /H1 (y/H1 )
Λ(y) = (11.0.13)
fY /H0 (y/H0 )
108
de cette expression, on tire le seuil λ, qu’on utilisera pour calculer la probabilité de détection
∫ ∫ +∞
Pd = fΛ/H1 (Λ/H1 )dΛ = fΛ/H1 (Λ/H1 )dΛ (11.0.15)
Z1 λ
On conclut que pour établir le LR, il est nécessaire de connaitre les PDFs conditionnelles
fY |H1 (y|H1 ) et fY |H0 (y|H0 ). Si la première PDF est généralement tirée de la deuxième PDF,
en utilisant les connaissances a priori sur le signal utile S(t) (modèle de fluctuation), cette
dernière, quant à elle, est dépendante du type de détecteur qu’on utilise (quadratique, li-
néaire, ou autre,).
où : √
r(t) = vI (t)2 + vQ (t)2 est l’amplitude du signal
et
vQ (t) = r(t) sin φ(t) est la composante en quadrature
Comme on l’a déja mensioné plus haut, pour le calcul de la PF A et la Pd , on doit déter-
miner les PDFs conditionnelles fY |H1 (y|H1 ) (i.e, PDF du signal+bruit) et fY |H0 (y|H0 ) (PDF
du bruit).
Avant de donner les expression de ces PDFs, nous rappelons que les composantes I (en phase)
et Q (en quadrature de phase) du bruit, notées respectivement par NI et NQ sont, en vertu
du théorème central limit, des variables aléatoires Gaussiennes de moyenne nulle et variance
σ 2 avec une même PDF qui s’écrit :
1
fNI (nI ) = √ exp −n2I /2σ 2 (11.0.19)
2πσ
1
fNQ (nQ ) = √ exp −n2Q /2σ 2 (11.0.20)
2πσ
Cette PDF va changer en fonction du type de détecteur utilisé.
- Cas du détecteur quadratique
La sortie du détecteur quadratique est donnée par l’eqt (11.0.17). Pour determiner la PDF
du bruit aprés ce détecteur, on utilise le resultat suivant :
∑N
Si xi ∼ N (0, σ 2 ), i = 1, ..., N alors y = i=1 x2i suit une loi de khi 2 avec N degrés de
libertés (χ2N ) donnée par :
1
y 2 −1 exp(−y/2); y ≥ 0
N
fY (y) = (11.0.21)
2N/2 Γ(N/2)
et si Z = aY alors
1
fZ (z) =
fY (y/a) (11.0.22)
|a|
Dans notre cas N = 2, on trouve une PDF exponentiel pour le bruit, aprés détecteur qua-
dratique :
1
fY |H0 (y | H0 ) =2
exp(−y/2σ 2 ), y ≥ 0 (11.0.23)
2σ
Ce qui nous permet de calculer la probabilité de fausse alarme :
∫ +∞
fY |H0 (y|H0 )dy = e−λ/2σ
2
PF A = (11.0.24)
λ
110
Remarque :
Il est important de remarquer que la quantité 2σ 2 , qui représentait la puissance moyenne du
bruit avant le passage par le détecteur quadratique, devient égale à la moyenne de la va-
riable aléatoire Y | H0 , aprés détecteur (qu’on peut facilement calculer à partir de (11.0.23)).
- Cas du détecteur linéaire
Il faut donc déterminer la PDF du signal + bruit, fY |H1 (y|H1 ). Celle ci dépend évidemment
du type de détecteur utilisé, mais aussi, du modèle de fluctuation du signal de la cible.
- Cible non fluctuante
La cible non fluctuante renvoie des signaux d’amplitude A constante (SER constante). On
peut montrer alors que l’amplitude du signal+ bruit suit alors une distribution de Rice :
y y 2 + A2 yA
fY |H1 (y|H1) = 2
exp(− 2
)I0 ( 2 ) (11.0.28)
σ 2σ σ
où ∫ 2π
1
I0 (x) = ex cos θ dθ (11.0.29)
2π 0
est la fonction de Bessel modifiée d’ordre zero.
La probabilité de détction sera alors donnée par :
∫ +∞
y y 2 + A2 yA
Pd = exp(− )I0 ( )dy (11.0.30)
λ σ2 2σ 2 σ2
Cette expression ne peut pas être évaluée exactement, mais de façon approchée par des
méthodes numériques.
Les courbes suivantes donnent les valeurs de Pd en fonction du rapport signal/bruit SN R =
A2
2σ 2
(en dB) pour différentes valeurs de la Pf a . Par exemple, pour avoir une Pd de 0.9, il faut
un SN R de 13.3 dB pour une Pf a de 10−6 .
111
pour un SNR donné, le SW1/SW2 donne la plus petite et le SW3/SW4 est entre les deux.
Il est aussi intéressant de noter que le SN R nécessaire pour une Pd = 0.5, pour le modèle
SW1/SW2 est environ 13 dB. Ce même SN R donne Pd = 0.9 pour un SW0 modèle. Pour
obtenir la même Pd = 0.9 avec un SW1/SW2, le SN R doit passer à environ 21 dB soit une
113
augmentation de 8 dB.
Dans la majorité de cas, un radar utilise plusieurs impulsions récoltées durant le temps
d’illumination de la cible par le faisceau (c’est le nombre de coups au but). Ce processus
s’appelle "intégration".
SN RN = N.SN R1 (11.0.34)
Dans la pratique, l’intégration cohérente est souvent difficile à réaliser à cause de la dif-
ficulté à préserver la phase du signal entre impulsions.De ce fait, la majorité des radars
utilisent l’intégration non-cohérente.
- Intégration non-cohérente ou post-détection
Le rapport signal/bruit lorsqueN impulsions sont intégrées de façon non cohérente est
donné par :
SN RN = SN R1 .In
Dans le cas d’une cible non-fluctuante avec une intégration non-cohérente de N impul-
sions, l’expression de la Pd est donnée par :
(√ ) N (
∑ )(i−1)/2 ( √ )
√ −(T +N.SN R) T
Pd = Qm 2.N.SN R, 2T + e Ii−1 2 T.N.SN R
i=2
N.SN R
(11.0.37)
où ∫ +∞
1
Qm (x, y) = t exp[− (t2 + x2 )]I0 (xt)dt
y 2
115
On suppose qu’on veut avoir Pd = 0.9, Pf a = 10−6 pour un radar utilisant une seule
impulsion sur une cible non fluctuante. Le SN R nécessaire dans ce cas est trouvé égale à
13.14 dB. Si le radar intègre 100 impulsions d’une façon non cohérente, alors on calcule le
SNR1 relatif à une seul impulsion qui nous assure la même Pd et Pfa on trouve -1.26 dB,
soit une réduction de 14.4 dB ou bien un gain d’intégration de 14.4 dB.
∑
N −1 ( )l
−T /(1+SN R) 1 T
Pd = e (11.0.40)
l=0
l! 1 + SN R
nécessitent un SNR plus grand pour la même Pd. Les cibles de Swerling 2 et 4 (pulse to
pulse fluctuation) offrent une meilleure détection que les cibles Swerling 1 et (scan to scan
fluctuation). L’inverse se produit pour les Pd < 0.5 mais ce cas n’est pas d’un grand intérêt
en pratique. Intégration binaire
Figure 11.7 – Comparaison des Pd pour les cibles fluctuantes et non fluctuantes avec
intégration cohérente de N=10 impulsions, Pfa=10-8. Détecteur quadratique
C’et une technique utilisée dans les radars Pulse-Doppler qui utilise une détection à
double seuil. Après détection, le signal est comparé à un premier seuil, le résultat est codé
par 1 (présence de cible) ou 0 (absence de cible). Le résultat des comparaisons de N échos
successifs pour la même distance est mis en mémoire et leur somme est comparée à un
deuxième seuil. Si la somme est supérieure ou égal à ce seuil, on décide la présence d’une
cible.
- Intégration binaire
117
C’et une technique utilisée dans les radars Pulse-Doppler qui utilise une détection à
double seuil. Après détection, le signal est comparé à un premier seuil, le résultat est codé
par 1 (présence de cible) ou 0 (absence de cible). Le résultat des comparaisons de N échos
successifs pour la même distance est mis en mémoire et leur somme est comparée à un
deuxième seuil. Si la somme est supérieure ou égal à ce seuil, on décide la présence d’une
cible.
λ = −2σ 2 ln PF A (11.0.41)
Le signal reçu Y est alors comparé à ce seuil pour décider de la présence de cible (si Y > λ)
et de son absence (si Y < λ), comme le montre la figure suivante :
Dans le calcul du seuil de détection en (11.0.41), la moyenne m = 2σ 2 du bruit aprés
détecteur (ou bien la variance σ 2 qui est aussi la puissance moyenne du bruit avant détecteur)
est supposée connue a priori. Tant que cette quantité ne change pas, le seuil ainsi calculé
restera fixe et permettera de maintenir la PF A à la valeur désirée. Cependant, dans la réalité,
le radar opère dans un environnement variable, ce qui fait que la moyenne m change, et de
ce fait la PF A change aussi. Ceci est illustré sur la figure suivante, où on a une augmentation
118
0.35
0.3
0.25
cible
seuil
0.2
0.15
bruit
0.1
0.05
0
0 50 100 150 200 250
0.5
0.45
bruit
0.4
0.35
0.3
cible
0.25
seuil
0.2
0.15
0.1
0.05
0
0 50 100 150 200 250
(indépendants identiquement distribués) ayant une PDF commune donnée par (11.0.23)
1
fYi |H0 (yi | H0 ) = exp(−yi /m), yi ≥ 0 (11.0.42)
m
où m = 2σ 2 est le paramètre à estimer.
La fonction de vraisemblance est donnée par
( )
∏
N
1 1 ∑
N
L(m) = fY |H0 (y | H0 ) = fYi |H0 (yi | H0 ) = N exp − yi (11.0.43)
i=1
m m i=1
1 ∑
N
log L(m) = −N log m − yi (11.0.44)
m i=1
c’est la solution de
∂ log L(m)
=0
∂m
ce qui donne
1 ∑
N
m̂ = yi (11.0.45)
N i=1
120
0.5
0.45
bruit
0.4
0.35
0.3
cible
0.25
seuil ajusté
0.2
0.15
0.1
0.05
0
0 50 100 150 200 250
qui n’est rien d’autre que la simple moyenne arithmétique des échantillons. On peut montrer
aussi que cet estimateur est efficace (sa variance atteint la bande de Cramer-Rao).
Le problème qui se pose maintenant, est comment obtenir les N échantillons du bruit (ou
clutter) nécessaires pour l’estimation ? Une approche possible, est d’utiliser les échantillons
provenant des cellules de résolution qui entourent la cellule sous test (CUT : Cell Under
Test). C’est cette technique qui est utilisée dans le detecteur CA-CFAR (Cell Averaging-
CFAR) de la Fig. 11.13 ; où le contenu Y de la CUT est comparé au seuil adaptatif T Z, avec
∑
Z= N i=1 Yi et T est un facteur appelé "multiplicateur du seuil", choisi pour fixer la PF A à
la valeur désirée. Notons que le facteur 1/N de la moyenne arithmétique peut être incorporé
dans T .
La PF A est définie par la probabilité que le bruit tout (hypoyhèse H0 ) seul dépasse le seuil,
i.e :
PF A = P r [Y > T Z | H0 ] (11.0.46)
121
70
50
40
clutter
30
cible 3
20
cible 1
10
0
100 200 300 400 500 600 700
PF A = EZ {P r [Y > T Z | H0 ]} (11.0.47)
{∫ +∞ }
1
= EZ exp(−y/m)dy
Tz m
∫ +∞
= exp(−T z/m)fZ (z)dz
−∞
= ΦZ (−T /m)
(11.0.48)
où ∫ +∞
ΦZ (ω) = exp(−ωz)fZ (z)dz (11.0.49)
−∞
et les variables aléatoires Yi sont i.i.d, alors la MGF de Z est le produit des MGFs des Yi .
La MGF de chaque Yi (la même) est donnée par
1
ΦYi (ω) = (11.0.50)
1 − mω
ce qui donne
( )N
1
ΦZ (ω) = (11.0.51)
1 − mω
ce qui donne alors
( )N
1
PF A = (11.0.52)
1+T
et
−1/N
T = PF A −1 (11.0.53)
- Remarque importante :
L’expression de la probabilité de fausse alarme est indépendante du paramètre inconnu m du
bruit (ou clutter). Même si ce paramètre change, ce qui est souvent le cas en pratique, lors du
balayage de l’espace par le radar, la PF A , quat à elle, reste constante. C’est la définition
du CFAR.
- Calcul de la probabilité de détection :
Pd = EZ {P r [Y > T Z | H1 ]}
{∫ +∞ }
= EZ fY |H1 (y|H1 ) dy (11.0.54)
Tz
123
aussi le risque d’apparition de cibles interférentes ou tout autres types de non homogeneités.