Vous êtes sur la page 1sur 131

ECOLE MILITAIRE POLYTECHNIQUE

DEPARTEMENT
ELECTRICITÉ

Cours de

DÉTECTION ESTIMATION

Par
Arezki YOUNSI

Maitre de conférences A

i
Table of Contents

Table of Contents ii

List of Tables v

List of Figures vi

I *** Théorie de la détection *** 1

1 Introduction 2

2 Test d’hypothèse binaire simple 5


2.1 Règle de décision "MAP"(Maximum A Posteriori) . . . . . . . . . . . . . . . 8
2.2 Règle de décision de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Critère du minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4 Critère de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Caractéristiques Opérationnelle du Recepteur(ROC :Receiver Operating Cha-
racteristic) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Test d’hypothèses binaires composées 26


3.1 Cas où Θ est aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 Cas où Θ n’est pas aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1 Test uniformement le plus puissant(UMP) . . . . . . . . . . . . . . . 30
3.2.2 Test du rapport de vraissemblance généralisé (GLRT) . . . . . . . . 32

ii
II *** Théorie de l’estimation*** 53

4 Introduction 54

5 Estimation des paramètres aléatoires 56


5.1 Estimateur à Erreur Moyenne Quadratique Minimum . . . . . . . . . . . . . 57
5.2 Estimateurs Bayesien Linéaires à Erreur Moyenne Quadratique Minimum . . 61
5.3 Estimateur Bayesien à Erreur Moyenne Quadratique Minimum : cas vectoriel 65
5.4 Estimateur à Erreur Moyenne Absolue Minimale . . . . . . . . . . . . . . . . 69
5.5 Estimateur Maximum A Posteriori . . . . . . . . . . . . . . . . . . . . . . . 70

6 Estimation des paramètres non aléatoires 73


6.1 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.1.1 Biais d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.1.2 Variance d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.1.3 Erreur Quadratique Moyenne . . . . . . . . . . . . . . . . . . . . . . 76
6.2 Estimateur non biaisé à variance minimale(MVU) . . . . . . . . . . . . . . . 77
6.3 La borne inférieure de Cramer Rao . . . . . . . . . . . . . . . . . . . . . . . 78
6.4 Transformation de paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.5 CRLB cas vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.6 CRLB cas vectoriel et transformation de paramètres . . . . . . . . . . . . . . 84

7 Modèle linéaire 86
7.1 Le modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.2 Modèle linéaire générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.3 Meilleur estimateur linéaire non-biaisé (BLUE) . . . . . . . . . . . . . . . . . 92
7.3.1 Cas scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.3.2 Cas vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

8 Estimateur du Maximum de Vraisemblance 98


8.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.2 Propriétés du MLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

iii
9 Least square 103

10 MOM 104

11 Détection radar 105


11.0.1 Détection à taux de fausse alarme constant : CFAR . . . . . . . . . . 117

iv
Liste des tableaux

v
Table des figures

1.1 Example de signaux dans un système de communication digital. . . . . . . . 2


1.2 Principe d’un radar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Signaux émis et reçus en radar . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.1 Espace d’observation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5


2.2 Régions de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5.1 Les différentes fonctions Coût . . . . . . . . . . . . . . . . . . . . . . . . . . 57


5.2 MAP estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.1 Existance ou non de l’estimateur MVU . . . . . . . . . . . . . . . . . . . . . 77


6.2 CRLB et MVU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

11.1 Chaine de réception radar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106


11.2 Espaces d’observation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
11.3 Pd en fonction du SNR, cible non-fluctuante . . . . . . . . . . . . . . . . . . 111
11.4 Pd en fonction du SNR, cible fluctuante . . . . . . . . . . . . . . . . . . . . 112
11.5 Intégration coherente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
11.6 Intégration non-coherente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
11.7 Comparaison des Pd pour les cibles fluctuantes et non fluctuantes avec inté-
gration cohérente de N=10 impulsions, Pfa=10-8. Détecteur quadratique . . 116
11.8 Intégration binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
11.9 Détection à seuil fixe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
11.10Détection à seuil fixe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
11.11Détection à seuil ajusté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
11.12Détection à seuil adaptatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

vi
11.13CA-CFAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
11.14PD en fonction du SNR, du CA-CFAR pour différentes valeurs de N . . . . . 123

vii
Première partie

*** Théorie de la détection ***

1
Chapitre 1

Introduction

Le problème de la détection d’un signal en présence du bruit est commun à plusieurs


systèmes : radar, sonar, communication, diagnostic médical, sismologie, traitement d’image
et de la parole, etc...Il est généralement traité comme un problème de test d’hypothèses où on
est amené à prendre une décision en faveur d’une hypothèse vraie parmi plusieurs hypothèses
possibles, en se basant sur la connaissance de la distribution statistique des observations sous
les différentes hypothèses.
Exemples : - Dans un système de communication digitale, il y a deux hypothèses (hypothèse
binaire) qui correspondent aux deux symboles transmis : "0" ou "1".

Figure 1.1 – Example de signaux dans un système de communication digital.

H0 : ”0” T ansmis
H1 : ”1” T ansmis

2
3

- Dans un système de détection radar, on peut aussi considérer deux hypothèses :

Figure 1.2 – Principe d’un radar

Figure 1.3 – Signaux émis et reçus en radar

H0 : abscence de cible
H1 : présence de cible

H0 est souvent appelée hypothèse nulle et H1 hypothèse alternative.


4

En générale, le recepteur collecte un ou plusieurs échantillons du signal reçu, élabore une


règle de décision selon certains critères et décide laquelle des hypothèses H0 ou H1 est vraie.
Revenons à l’exemple du système de communication binaire, le recepteur sait que les deux
symboles possibles que peut transmettre la source sont ”0” ou ”1”, mais ce qu’il ignore,
c’est quel est le symbole émis pendant la durée T du bit. Il doit alors observer le signal reçu
durant la durée T, traiter les échantillons reçus et prendre sa décision. Mais le signal reçu est
souvent distordu et toujours accompagné du bruit, ce qui peut provoquer occasionellement
une fausse décision.
– Hypothèse simple et hypothèse composée
Hypothèse simple : on parle d’hypothèse simple lorsque la fonction densité de probabi-
lité (PDF) (ou la fonction de répartition (CDF) ) associée à cette hypothèse est complètement
connue.
Hypothèse composée : on parle d’hypothèse composée lorsque la fonction densité de
probabilité (PDF) (ou la fonction de répartition (CDF)) associée à cette hypothèse présente
un ou plusieurs paramètres inconnus.

H1 : Y = m + N
H0 : Y = N

avec : N :bruit blanc gaussien de moyenne nulle et variance σ 2 .


H0 : est une hypothèse simple. Si m est connu alors H1 est aussi une hypothèse simple,
mais si m n’est pas connu, elle est dite hypothèse composée(noter que dans ce cas m peut
être aléatoire ou non aléatoire).
Chapitre 2

Test d’hypothèse binaire simple

On parle d’hypothèse binaire lorsqu’il y a seulement deux hypothèses possibles : H0 ou


H1 . Supposons que le recepteur se base sur une seule observation du signal pour prendre
sa décision. L’observation est considérée comme une variable aléatoire Y et l’ensemble des
valeurs qu’elle peut prendre constitue l’espace d’observation Z. Cet espace est subdivisé en
deux sous espaces Z0 et Z1 tels que : si Y ∈ Z0 on décide H0 et si Y ∈ Z1 on décide H1 .Les
fonctions densité de probabilité de la variable aléatoire Y sous chacune des hypothèses sont
supposées connues. On les notes par : fY /H0 (y/H0 ) et fY /H1 (y/H1 ) :

Figure 2.1 – Espace d’observation

Exemple :
Soit le modèle d’observation suivant :

Y [n] = AS[n] + W [n], n = 0, 1, ...., N

5
6

où : Y [n] est le signal observé (réalisation d’une v.a Y )


S[n] est un signal connu
W [n] est un bruit aditif supposé blanc.
A est une amplitude qui peut prendre deux valeurs : ”0” ou ”1”
Le problème peut être posé en termes d’hypothèse binaire suivant :

H1 : A = 1 (signal + bruit)
H0 : A = 0 (bruit )

ou encore :

H1 : A ∈ Z1
H0 : A ∈ Z0

où les sous espaces : Z0 = {0} et Z1 = {1} et l’espace d’observation Z = Z0 ∪ Z1 =


{0, 1} .Le rôle d’un détecteur est de pouvoir, à partir des N échantillons colléctés, élaborer
une règle de décision et décider s’il y a présence du signal (hypothèse H1 ) ou bruit tout seul
(hypothèse H0 ).
Une fois qu’une décision est prise, on a 4 possibilités : La paire (Hi , Hj ) i, j = 0, 1 veut

dire : décider Hi et Hj est vraie. Nous avons alors quatre possibilités :

1. décider H0 et H0 vraie : (H0 , H0 )


2. décider H0 et H1 vraie : (H0 , H1 )
3. décider H1 et H0 vraie : (H1 , H0 )
7

4. décider H1 et H1 vraie : (H1 , H1)

En terminologie radar :- le cas 2 s’appelle oubli ou non détection (miss)


- le cas 3 s’appelle alarme
- le cas 4 s’appelle détection
Les cas 1 et 4 sont des décisions correctes et les cas 2 et 3 sont des erreurs ou décisions
incorrectes.
Dans une grande majorité de réferences, on définit le détecteur ou la règle de décision
par : {
1 si Y ∈ Z1
δ (y) = (2.0.1)
0 si Y ∈ Z0
Probabilité d’une décision correcte : Pc = P [D = H0 , H = H0 ]+P [D = H1 , H = H1 ]
en utilisant la règle de Bayes

Pc = P [D = H0 /H0 ] P [H0 ] + P [D = H1 /H1 ] P [H1 ] (2.0.2)

Probabilité d’erreur moyenne ou d’une décision incorrecte :


Pe = P [D = H0 , H = H1 ] + P [D = H1 , H = H0 ]

Pe = P [D = H0 /H1 ] P [H1 ] + P [D = H1 /H0 ] P [H0 ] (2.0.3)

Probabilité de fausse alarme

PF = P [D = H1 /H0 ] (2.0.4)

Probabilité "of miss"


Pm = P [D = H0 /H1 ] (2.0.5)

Probabilité de détection

Pd = P [D = H1 /H1 ] (2.0.6)

On a alors : Pm = 1 − Pd et P [D = H0 /H0 ] = 1 − PF on peut écrire alors :

Pc = (1 − PF )P [H0 ] + Pd P [H1 ] (2.0.7)


Pe = Pm P [H1 ] + PF P [H0 ] (2.0.8)
8

2.1 Règle de décision "MAP"(Maximum A Posteriori)


On appelle P [Hi /y], la probabilité a posteriori que l’hypothèse Hi soit vraie sachant que
Y = y est observée. La règle de décision MAP signifie que le recepteur décide en faveur de
l’hypothèse Hi qui présente la probabilité a posteriori P [Hi /y] la plus grande. La règle peut
être mise sous forme :

H1
P [H1 /y] ≷ P [H0 /y] (2.1.1)
H0
fY /Hi (y/Hi ) P [Hi ]
En utilisant la règle de Bayes : P [Hi /y] = fY (y)
, la règle de décision MAP
s’écrira :

fY /H1 (y/H1 ) H1 P [H0 ]


≷ (2.1.2)
fY /H0 (y/H0 ) H0 P [H1 ]
La quantité
fY /H1 (y/H1 )
Λ(y) = (2.1.3)
fY /H0 (y/H0 )
s’appelle le rapport de vraissemblance (Likelihood Ratio) et la r ègle de décision MAP
P [H0 ]
revient à comparer le rapport de vraissemblance à la constante η = P [H1 ]
qu’on appelle’seuil
de décision’ (threshold).
Une autre manière d’écrire la règle est la suivante :
{
1 si Λ(y) > η
δ (y) = (2.1.4)
0 si Λ(y) < η

Exemple 1

Dans un systrème de communication binaire le bit transmis par la source peut prendre
deux valeurs : "X=0" ou bien "X=1". Le recepteur observe le signal à son entrée avec un bruit
aditif supposé gaussien de moyenne nulle et variance σ 2 = 1/9.On donne P [X = 0] = 3/4 et
on suppose que le signal et le bruit sont indépendants.
1- Etablir la règle de décision MAP et tracer les régions de décision
2- Calculer la probabilité d’erreur moyenne

Solution :
Le problème peut se mettre sous la forme d’un test d’hypothèses simple suivant :
9

H1 : Y = 1 + N
H0 : Y = N

avec :
N : bruit gaussien de loi N (0, σ 2 ) ;P [H0 ] = P [X = 0] = 3/4 =⇒ P [H1 ] = P [X = 1] = 1/4
Les fonctions densité de probabilité conditionnelles sous chacune des hypothèses sont :
2 2
fY /H0 (y/H0 ) = √1
2πσ
y
exp(− 2σ 2 ) et fY /H1 (y/H1 ) =
√1
2πσ
exp(− (y−1)
2σ 2
)
1) le rapport de vraissemblance s’écrit :

fY /H1 (y/H1 ) 2y − 1
Λ(y) = = exp( )
fY /H0 (y/H0 ) 2σ 2
H1
la règle de décision MAP est Λ(y) ≷ P [H0 ]
P [H1 ]
=3
H0
soit en passant au logarithme naturel :
H1 H1
ln Λ(y) ≷ ln 3 ⇔ y ≷ γ = σ 2 ln 3 + 1/2 = 0.622
H0 H0

H1
y ≷ γ = 0.622
H0

Les régions de décision sont représentées sur la figure 2.


2) la probabilité d’erreur moyenne est donnée par : Pe = P [D = H0 /H1 ] P [H1 ]+P [D = H1 /H0 ] P [H0 ]
où :

P [D = H0 /H1 ] = Z0 fY /H1 (y/H1 )dy
∫γ 2 ∫ γ−1 1 2
= −∞ √2πσ1
exp(− (y−1)
2σ 2 )dy = −∞
σ √ exp(− z2 )dz
∫ −1.134 2 ∫ +∞

2
= −∞ √12π exp(− z2 )dz = 1.134 √12π exp(− z2 )dz
= Q(1.134) ≃ 0.128
et
∫ ∫ +∞ 2
P [D = H1 /H0 ] = f
Z1 Y /H0
(y/H0 )dy = γ
√1
2πσ
exp(− y2 )dy = Q( σγ ) = Q(1.866) =
0.031
ce qui donne : P e = 0.055
-Cas d’observations multiples
Dans la majorité des cas, le recepteur recolte plusieurs échantillons du signal reçu dans
l’intervalle d’observation T, les traite et élabore sa décision en se basant sur l’information
10

f (y / H0)
Y/H f (y / H1)
0 Y/H
1

−1 −0.5 0 0.5 1 1.5 2 2.5


H0 γ
H1

Figure 2.2 – Régions de décision

contenue dans tous les échantillons. Le problème peut être formulé de la façon suivante :

H1 : Yk = 1 + Nk , k = 1, 2, ..., K (2.1.5)
H0 : Yk = Nk , k = 1, 2, ..., K (2.1.6)

on note le vecteur des observations par : Y = [Y1 Y2 ......YK ]T les fonctions densité de proba-
bilité (pdf) conjointes des observations sous chaque hypothèse sont : fY /H0 (y/H0 ) sous
H0 et fY /H1 (y/H1 ) sous H1
Le test du rapport de vraissemblance (LRT : Likelihood Ratio Test) s’ecrit dans ce cas :
fY /H1 (y/H1 ) H1 P [H0 ]
Λ(Y ) = ≷ =η (2.1.7)
fY /H0 (y/H0 ) H0 P [H1 ]

Dans le cas où les observations sont statistiquements indépendantes et identiquement


distriobuées(i.i.d), les pdfs conjointes s’ecrivent :


K ∏
K
fY /H0 (y/H0 ) = fYk /H0 (yk /H0 ) et fY /H1 (y/H1 ) = fYk /H1 (yk /H1 )
k=1 k=1
avec :
y2
exp(− (yk2σ−1)
2
fYk /H0 (yk /H0 ) = √1 exp(− 2σk2 ) et fYk /H1 (yk /H1 ) = √1 2 )
2πσ 2πσ
Aprés quelques manipulations mathématiques, le LRT s’écrit :

K H1
Λ(Y ) = exp( σ12 yk − 2σ
K
2) ≷ η
k=1 H0
11


K H1
ou bien : yk ≷ σ 2 ln(η) + K
2

k=1 H0
la règle de décision devient :

K H1
yk ≷ γ
k=1 H0 (2.1.8)

le recepteur effectue la somme des échantillons reçus et les compare à un seuil γ.


∑K
Remarque : On remarque que la connaissance de la seule quantité T (y) = yk est
k=1
suffisante pour prendre la décision. On dit que T(y) est une statistique suffisante.
Exemple 2
Soit un système de communication binaire qui utilise les signaux s0 (t) et s1 (t) ci-dessous
pour transmettre respectivement "0" et "1". A l’entrée du recepteur, le signal observé est
accompagné d’un bruit N(t) supposé gaussien de densité spectrale de puissance :
{
10−7 , |f | < 106
SN N (f ) =
0, ailleurs
on suppose que les deux symboles sont équiprobables et que le recepteur échantillonne le
signal reçu à une cadence de 0.1ms et prend une décision chaque milliseconde.
1- en supposant que le recepteur utilise tous les échantillons en sa disposition, établir la
règle de décision MAP et calculer la probabilité d’erreur Pe.
2- supposons que le recepteur utilise un seul échantillon, calculer alors Pe et comparer au
cas 1.
solution :

H1 : Yk = S1,k + Nk , k = 1, 2, ..., K

H0 : Yk = S0,k + Nk , k = 1, 2, ..., K
1ms
où : S1,k = 2 et S0,k = 1 et le nombre d’échantillons est K = 10 (K = 0.1ms
= 10)
12

k −1) k −2)
2 2
fYk /H0 (yk /H0 ) = √ 1
2πσN
exp(− (y2σ 2
1
) et fYk /H1 (yk /H1 ) = √2πσ exp(− (y2σ 2 )
N N N

2 2

+∞
La variance du bruit σN est donnée par : σN = SN N (f )df = 0.2
−∞
Le LRT s’ecrit alors, en vertu de l’indépendance statistique des échantillons :


K
fY (yk /H1 ) H1 P [H0 ]
k /H1
Λ(Y ) = ≷ =1
k=1
f Yk /H0 (yk /H0 ) H0 P [H1 ]

{ ( )}
1 ∑
K
Λ(Y ) = exp − 2 3K − 2 yk
2σN k=1

et en passant au logarithme :
( )
1 ∑
K
H1
ln(Λ(Y )) = − 2 3K − 2 yk ≷ 0
2σN k=1
H0

soit alors :

K H1
1
K
yk ≷ 1.5
k=1 H0

Ainsi, le recepteur effectue la moyenne des échantillons et la compare au seuil 1.5.

Calcul de la Probabilité d’erreur moyenne Pe :



K
Posons Z = K1 yk . La v.a Z est une combinaison linéaire de v.a gaussiennes Yk ⇒
k=1
elle est donc aussi gaussienne.Il suffit de calculer sa moyenne et sa variance pour pouvoir la
caractériser entièrement.
moyenne de Z :

K
E [Z] = K1 E[yk ] . La moyenne de Z est différente sous les deux hypothèses.Ainsi :
k=1
E [Z/H0 ] = 1 et E [Z/H1 ] = 2
variance de Z :

K ∑
K 2
σN
σZ2 = K12 var[yk ] = 1
K2
2
σN = K
k=1 k=1
exp(− (yk2σ−1)
2
Donc : sous H0 : fZ/H0 (z/H0 ) = √ 1 2 )
2πσZ Z

exp(− (yk2σ−2)
2
et sous H1 : fZ/H1 (z/H1 ) = √ 1 2 )
2πσZ Z

On peut maintenant calculer la probabilité d’erreur moyenne :


P e = P [H1 ].Pm + P [H0 ].PF et :
∫ ∫
+∞
(yk −1)2
PF = P [D = H1 /H0 ] = Z1 fZ/H0 (z/H0 )dz = √ 1 exp(− )dz = Q( 0.5 )
2πσ 2σ 2 σZ Z Z
1.5
13

∫ ∫
1.5
exp(− (yk2σ−2)
2
Pm = P [D = H0 /H1 ] = fZ/H1 (z/H1 )dz = √ 1 2 )dz = Q( 0.5 )
Z0 2πσZ Z σZ
−∞
1 1
donc : P e = P
2 F
+ P
2 m
= Q( 0.5
σZ
)

P e = 0.0002

Si le recepteur utilise un seul échantillon, nous posons K = 1 et on trouve : σZ = 0.2 =⇒

P e = 0.13

On conclut qu’en moyennant K échantillons la probabilité d’erreur diminue considéra-


blement.

2.2 Règle de décision de Bayes


Dans plusieurs applications, des coûts associés à chaque décision doivent être pris en
considération. Ainsi, le coût d’une décision correcte n’est pas le même que celui d’une fausse
décision.Avec la règle de Bayes,on suppose que les probabilités a priori P0 = P [H0 ] et
P1 = P [H1 ] des deux hypothèses sont connues et on assigne un coût à chaque décision Di ,
i = 0, 1 (D0 : D = H0 et D1 : D = H1 ) .On définit alors cij , i, j = 0, 1 , comme le coût associé
à la décision Di et que Dj est vraie (c.a.d associée à la paire( Di ,Dj )). Nous obtenons :
P [D = H0 , H0 ] = P [D0 , H0 ] → c00
P [D = H1 , H0 ] = P [D1 , H0 ] → c10
P [D = H0 , H1 ] = P [D0 , H1 ] → c01
P [D = H1 , H1 ] = P [D1 , H1 ] → c11
Habituellement, le coût d’une fausse décision est supérieur à celui d’une décision correcte,
c.a.d : c01 > c11 et c10 > c00 . Le but du critère de Bayes est de déterminer la règle de décision
δ(y) telle que le coût moyen E[C] = c aussi appelé risque R associé à cette règle (qu’on note
parfois par R(δ)) soit minimum.
On définit le risque conditionnel Rj (δ) pour l’hypothèse Hj ,comme le coût moyen associé
à la règle δ(y) étant donnée que l’hypothèse Hj est vraie.c.a.d :

Rj (δ) = c1j P [D1 /Hj ] + c0j P [D0 /Hj ], j = 0, 1. (2.2.1)

Ayant la probabilité conjointe P [Di , Hj ] de décider Hi et que Hj est vraie, le coût moyen
ou risque s’écrit alors :

c = R = c00 P [D0 , H0 ] + c01 P [D0 , H1 ] + c10 P [D1 , H0 ] + c11 P [D1 , H1 ] (2.2.2)


14

la règle de Bayes nous permet d’ecrire :P [Di , Hj ] = P [Di /Hj ]P [Hj ]


Les probabilités conditionelles P [Di /Hj ], i, j = 0, 1 en fonction des régions de décisions
sont : ∫
P [D0 /H0 ] = Pr[déciderH0 /H0 vraie] = fY /H0 (y/H0 )dy (2.2.3)
Z0


P [D0 /H1 ] = Pr[déciderH0 /H1 vraie] = fY /H1 (y/H1 )dy = Pm (2.2.4)
Z0


P [D1 /H0 ] = Pr[déciderH1 /H0 vraie] = fY /H0 (y/H0 )dy = PF (2.2.5)
Z1


P [D1 /H1 ] = Pr[déciderH1 /H1 vraie] = fY /H1 (y/H1 )dy = Pd (2.2.6)
Z1
ona : Pm = 1 − Pd et P [D0 /H0 ] = 1 − PF le coût moyen ou risque s’écrit :

c = R = c00 (1 − PF )P0 + c01 (1 − Pd )P1 + c10 PF P0 + c11 Pd P1 (2.2.7)

qu’on peut mettre sous forme :

R = P0 {c00 P [D0 /H0 ] + c10 P [D1 /H0 ]} + P1 {c01 P [D0 /H1 ] + c11 P [D1 /H1 ]} (2.2.8)

soit en fonction des risques conditionnels :

R = P0 R0 (δ) + P1 R1 (δ) (2.2.9)

On peut aussi exprimer le risque en fonction des régions de décision par :


∫ ∫ ∫ ∫
R = P0 c00 Z0 fY /H0 (y/H0 )dy+P1 c01 Z0 fY /H1 (y/H1 )dy+P0 c10 Z1 fY /H0 (y/H0 )dy+P1 c11 Z1 fY /H1 (y/
∫ ∫ ∫
sachant que : Z=Z0 ∪Z1 et Z fY /H0 (y/H0 )dy = Z fY /H1 (y/H1 )dy = 1 donc : Z1 fY /Hj (y/Hj )dy =

1 − Z0 fY /Hj (y/Hj )dy, j = 0, 1
Aprés substitution on trouve :


{[ ] [ ]}
R = P0 c10 + P1 c11 + P1 (c01 − c11 )fY /H1 (y/H1 ) − P0 (c10 − c00 )fY /H0 (y/H0 ) dy
Z0
(2.2.10)
Comme c01 > c11 et c10 > c00 , les quantités entre [.] sont positives. Le risque R est
minimum si et seulement si on choisit la région de décision Z0 telle que l’integralle devient
négative, c.a.d :

P1 (c01 − c11 )fY /H1 (y/H1 ) < P0 (c10 − c00 )fY /H0 (y/H0 ) (2.2.11)
15

En d’autres termes, les valeurs de Y pour lesquelles le second terme de l’inéquation est
superieur au premier sont assignées à la région Z0 ( on décide H0 ) et on décide H1 dans le
cas contraire. Ainsi donc, la règle de décision qui découle du critère de Bayes est la suivante :

fY /H1 (y/H1 ) H1 P0 (c10 − c00 )


≷ (2.2.12)
fY /H0 (y/H0 ) H0 P1 (c01 − c11 )

toujours
fY /H1 (y/H1 )
Λ(y) = (2.2.13)
fY /H0 (y/H0 )
est le rapport de vraissemblance et
P0 (c10 − c00 )
η= (2.2.14)
P1 (c01 − c11 )
est le seuil de décision.
– Si maintenant on a K observations, c.a.d K échantillons du signal reçu, Y1 Y2 ....YK , le
rapport de vraissemblance s’exprime par :
fY /H1 (y/H1 )
Λ(Y ) = (2.2.15)
fY /H0 (y/H0 )

avec Y = [Y1 Y2 ....YK ]T est le vecteur des échantillons reçus. Le critère de Bayes qui
minimise le coût moyen devient le test du rapport de vraissemblance (LRT) :
H1
Λ(Y ) ≷ η (2.2.16)
H0

ou bien d’une manière équivalente en utilisant le logarithme:


H1
lnΛ(Y ) ≷ lnη (2.2.17)
H0

Cas particulier : Si on a 1 comme le coût d’une erreur et 0 le coût d’une décision


correcte de sorte que : c01 = c10 = 1 et c11 = c00 = 0, le risque devient :

R = P1 Pm + P0 PF = P e (2.2.18)

dans ce cas, minimiser le risque R devient à minimiser la probabilité d’erreur. Un


tel recepteur s’appelle "recepteur à probabilité d’erreur minimum". Le seuil de
P0
décision devient η = P1
et la règle de décision de Bayes devient équivalente à la règle
de décision MAP.
16

exemple 3 :
Supposons que dans un système de communication binaire la source emet un signal
s(t) tel que : sous H0 : s(t) = 1 et sous H1 : s(t) = −1. Le bruit est supposé blanc
gaussien de moyenne nulle et variance 1. Etant donné P [H0 ] = 1/3 et P [H1 ] = 2/3.
1)- Trouver la règle de décision MAP
2)- En considérant c11 = c00 = 0, c01 = 6 et c10 = 1, trouver la règle de décision qui
minimise le coût moyenc et calculer cmin .
solution :

H1 : Y = −1 + N
H0 : Y = 1 + N

les pdfs conditionnelles sont :

1 (y − 1)2
fY /H0 (y/H0 ) = √ exp(− )
2π 2
et
1 (y + 1)2
fY /H1 (y/H1 ) = √ exp(− )
2π 2
1)-La règle de décision MAP est :

fy/H1 (y/H1 ) H1 P [H0 ]


Λ(Y ) = ≷
fy/H0 (y/H0 ) H0 P [H1 ]
H1 H1
soit : Λ(Y ) = exp(−2y) ≷ 1/2 ⇒ ln Λ(Y ) = −2y ≷ − ln 2
H0 H0

H1
y ≷ γM AP = 0.35
H0

2)-la règle de Bayes est :


fY /H1 (y/H1 ) H1 P0 (c10 −c00 ) H1
Λ(Y ) = fY /H0 (y/H0 )
≷ P1 (c01 −c11 ) = 1/12 ⇒ ln Λ(Y ) = −2y ≷ − ln 12
H0 H0

H1
y ≷ γB = 1.243
H0

cmin = c00 (1 − PF )P0 + c01 Pm P1 + c10 PF P0 + c11 Pd P1


comme c11 = c00 = 0 ⇒ cmin = c01 Pm P1 + c10 PF P0 = 6. 23 Pm + 31 PF = 31 (PF + 12Pm )
17

clcul de PF :
∫ ∫B
γ
2
PF = Z1 fY /H0 (y/H0 )dy = √1

exp(− (y−1)
2
)dy = 1 − Q(γB − 1)
−∞

PF ≃ 0.596

clcul de Pm :
∫ ∫ 1
+∞ 2
Pm = Z0 fY /H1 (y/H1 )dy = √

exp(− (y+1)
2
)dy = Q(γB + 1)
γB

Pm ≃ 0.0125


cmin = 0.2485

2.3 Critère du minimax


Dans la plupart des situations pratiques, il n’est pas possible de connaitre les probabilités
a priori P0 = P [H0 ] et P1 = P [H1 ], ce qui rend le critère de Bayes inaplicable. Une approche
sera de choisir une valeur P1 = P1∗ (ou P0∗ ) dont le risque et maximum puis minimiser le
risque pour cette valeur de P1 . Comme P0 = 1 − P1 , le risque en fonction de P1 s’écrit :

R(P1 ) = c00 (1 − PF ) + c10 PF + P1 [(c11 − c00 ) + (c01 − c11 )Pm − (c10 − c00 )PF ] (2.3.1)

Si P1 est connue, on peut établir un test de Bayes RB (P1 ). La figure ci dessus montre
RB (P1 ) en fonction de P1 (notons que lorsque P1 varie, les régions de décision pour le test
de Bayes varient ainsi que Pm et PF ).
Si on choisi une valeur P1 = P1∗ ,cela implique que les régions de décision et donc Pm
et PF deviennent fixes (seuil de décision fixé). Notons le risque de Bayes pour cette valeur
par RB (P1∗ ). Si maintenant P1 varie, l’équation 36 devient une droite RF (P1∗ , P1 ) qui est
tangente à la courbe RB (P1 ) au point (P1∗ , RB (P1∗ )). On se place alors dans le cas le plus
pessimiste où P1 est choisie à l’intérieur de l’intervalle [0, 1] de sorte que le risque RF (P1∗ , P1 )
soit maximum. Ceci est atteint lorsque la droite RF (P1∗ , P1 ) est horrizontale. Autrement dit
sa pente est nulle.c.a.d :

(c11 − c00 ) + (c01 − c11 )Pm − (c10 − c00 )PF = 0 (2.3.2)

On appelle cette équation " l’équation minimax".


18

Une autre manière d’écrire cette équation est la suivante :

[c00 (1 − PF ) + c10 PF ] − [c11 (1 − Pm ) + c01 Pm ] = 0


R0 (δ) − R1 (δ) = 0 (2.3.3)


R0 (δ) = R1 (δ) (2.3.4)

Ce qui veut dire que les riques conditionnels sont égaux.


Un cas spécial trés utilisé est le cas où les coûts sont uniformes c.a.d :

cij = 1 pour i ̸= j (2.3.5)


cij = 0 pour i = j

Dans ce cas l’équation minimax devient :

Pm = PF (2.3.6)

Exemple 4 :
Trouver la règle minimax et le risque minimax pour tester les hypothèses H0 et H1 avec
des coûts uniformes en supposant que les pdfs conditionnelles sont :
{ 2(y+1)
3
si 0≤y≤1
fY /H0 (y/H0 ) =
0 si non
19

{
1 si 0≤y≤1
fY /H1 (y/H1 ) =
0 si non
solution :
Le rapport de vraissemblance s’écrit :
fy/H1 (y/H1 ) H1 P0 (c10 − c00 ) p0
Λ(Y ) = ≷η= =
fy/H0 (y/H0 ) H0 P1 (c01 − c11 ) 1 − p0
soit :
3/2 H1
≷η
y + 1 H0
ou encore :
3
décider H1 : 0 ≤ y ≤ −1

3
décider H0 : −1≤y ≤1

on pose
3
−1
γ=

Il faut alors déterminer γ (et par voie de conséquence P0 ) qui vérifie l’équation minimax
Pm = PF .
on a :
∫ γ
γ 2 2γ
PF = P [H1 /H0 ] = fY /H0 (y/H0 )dy = +
3 3
∫0 1
Pm = P [H0 /H1 ] = fY /H1 (y/H1 )dy = 1 − γ
γ

γ2
Pm = PF ⇒ 3
+ 2γ
3
= 1 − γ ⇔ γ 2 + 5γ − 3 = 0 ⇒ γ = − 52 + 37
2
⇒ P0 = √3
37
et
P1 = 1 − √3
37
la règle de décision devient alors :

décider H1 : 0 ≤ y ≤ 0.5414
décider H0 : 0.5414 ≤ y ≤ 1

le risque minimax est :

Rm = P0 PF + P1 Pm = (P0 + P1 )Pm = Pm = 1 − 0.5414 = 0.4586

Rm = 0.4586
20

2.4 Critère de Neyman-Pearson


Dans plusieurs situations, il est trés difficile d’assigner des coûts réalistes et des probabi-
lités a priori. Dans ce cas, on utilise le test de Neyman-Pearson où on fixe la probabilité de
fausse alarme PF = α et on maximise la probabilité de détection Pd . Maximiser Pd revient
à minimiser Pm = 1 − Pd . Pour cela on utilise la fonctiuon objective :

J = Pm + λ [PF − α] (2.4.1)

avec λ ≥ 0 est le multiplicateur de Lagrange.

∫ [∫ ]
J = fY /H1 (y/H1 )dy + λ fY /H0 (y/H0 )dy − α

Z0
[ ∫
Z1
]
= fY /H1 (y/H1 )dy + λ 1 − fY /H0 (y/H0 )dy − α
Z0
∫ Z0

= λ(1 − α) + [fY /H1 (y/H1 ) − λfY /H0 (y/H0 )]dy (2.4.2)


Z0

J est minimum lorsque les valeurs de Y qui rendent l’integralle négative sont assignées à
la région Z0 : c’est à dire
fY /H1 (y/H1 ) < λfY /H0 (y/H0 ) (2.4.3)

Le test devient dans ce cas :


fY /H1 (y/H1 ) H1
≷λ (2.4.4)
fY /H0 (y/H0 ) H0
qui est le test du rapport de vraissemblance :
H1
Λ(y) ≷ λ (2.4.5)
H0

Pour satisfaire la contrainte imposée, on choisit λ tel que : PF = α. Si on dénote la


pdf conditionnelle de Λ(y) sous l’hypothèse H0 par fΛ/H0 (Λ/H0 ), la probabilité de fausse
alarmme sera donnée par :
∫ +∞
PF = fΛ/H0 (Λ/H0 )dΛ = α (2.4.6)
λ

Exemple 5 :
Considerer le problème de test d’hypothèses binaires suivant :
21

H0 : Y = µ0 + N
H1 : Y = µ1 + N

µ1 > µ0 sont des constantes et N est un bruit gaussien de moyenne nulle et variance σ 2 .
1- Etablir le test de N-P de niveau α.
2- Calculer la probabilité de détection correspondante.
solution :
1)-on a :
2 2
fY /H1 (y/H1 ) = √1
2πσ
exp(− (y−µ 1)
2σ 2
) et fY /H0 (y/H0 ) = √1
2πσ
exp(− (y−µ 0)
2σ 2
)
le LRT est :
fY /H1 (y/H1 ) H1
Λ(y) = ≷η
fY /H0 (y/H0 ) H0
aprés substitution :
{ }
1 H1
Λ(y) = exp [2y(µ1 − µ0 ) + µ 2
0 − µ2
1 ] ≷η
2σ 2 H0

soit
1 H1
ln Λ(y) = [2y(µ 1 − µ0 ) − (µ2
1 − µ2
0 )] ≷ ln η
2σ 2 H0
=⇒
σ 2 ln η
H1 µ1 + µ0
y≷ + =γ
H0 µ1 − µ0 2
Le test de N-P de niveau α implique : PF = α ⇒
∫ ∫ +∞
PF = fY /H0 (y/H0 )dy = fY /H0 (y/H0 )dy
Z1 γ
∫ +∞
1 (y − µ0 )2 γ − µ0
= √ exp(− )dy = Q( )
γ 2πσ 2 σ
on en tire le seuil de décision de N-P :

γ = σQ−1 (α) + µ0

2) La probabilité de détection est donnée par :


∫ ∫ +∞
1 (y − µ1 )2
Pd = fY /H1 (y/H1 )dy = √ exp(− )dy
Z1 γ 2πσ 2σ 2
γ − µ1 µ1 − µ0
= Q( ) = Q(Q−1 (α) − )
σ σ
= Q(Q−1 (α) − d)
22

où :
µ1 − µ0
d=
σ


Matlab programme : on utilise : Q(y) = 12 erf c(y/ 2)

clear
alpha=0.1;
d=[0:0.1:5];
x=sqrt(2)*erfcinv(2*alpha);
y=1-cdf(’norm’,x-d,0,1);%
plot(d,y)

2.5 Caractéristiques Opérationnelle du Recepteur(ROC :Re-


ceiver Operating Characteristic)
On appelle les courbes ROC, le traçé de la probabilité de détection Pd en fonction de la
probabilité de fausse alarme PF . Pour l’exemple précédent le tracé des courbes ROC est :
Propriétés des courbes ROC :

1. les courbes sont au dessus de la courbe Pd = PF


2. elles sont concaves
23

3. la pente de la courbe Pd = PF en un point donné est égale à la valeur du seuil γ qui


donne la valeur de la PF et Pd en ce point. En effet :
la Pd et PF sont donnée par :

∫+∞
Pd = fΛ/H1 (λ/H1 )dλ (2.5.1)
η
∫+∞
PF = fΛ/H0 (λ/H0 )dλ (2.5.2)
η

∫+∞
dPd d
= fΛ/H1 (λ/H1 )dλ (2.5.3)
dη dγ
η
= −fΛ/H1 (η/H1 ) (2.5.4)

et
∫+∞
dPF d
= fΛ/H0 (λ/H0 )dλ (2.5.5)
dη dη
η
= −fΛ/H0 (η/H0 ) (2.5.6)
24

donc :
dPd
dη dPd −fΛ/H1 (η/H1 )
= = (2.5.7)
dPF

dPF −fΛ/H0 (η/H0 )
en outre on a :
∫+∞
Pd = fΛ/H1 (λ/H1 )dλ (2.5.8)
η
∫+∞
= Λ(y)fΛ/H0 (λ/H0 )dλ (2.5.9)
η

en dérivant l’équation ... par rapport à η on trouve :


dPd
= −ηfΛ/H0 (η/H0 ) (2.5.10)

d’où :
dPd
=η (2.5.11)
dPF
Exemple 6 :
Considérons un problème de test d’hypothèses suivant :
{
e−y , y ≥ 0
fY /H0 (y/H0 ) =
0, ailleurs
{
αe−αy , y ≥ 0, α > 1
fY /H1 (y/H1 ) =
0, ailleurs

Traçer les courbes ROCs.


Solution :
Le rapport de vraissemblance est :
αe−αy −(α−1)y
H1
Λ(y) = = αe ≷η
e−y H0
H1
ln α − (α − 1)y ≷ ln η
H0
H1 1 η
y≷ ln = δ
H0 1−α α
25

Figure 2.3 – Courbe ROC

en appliquant le test NP, la probabilité de fausse alarme et de détection sont :

∫δ
PF = fY /H0 (y/H0 )dy = 1 − e−δ ⇒ δ = − ln(1 − PF )
0
∫+∞
Pd = fY /H1 (y/H1 )dy = 1 − e−αδ = 1 − exp[α ln(1 − PF )]
δ
= 1 − (1 − PF )α

les coubes ROC avec α comme paramètre sont :


calculons le dérivée dPd /dPF :
dPd
= α(1 − PF )α−1
dPF

et sachant que :
1 η η
δ = ln = − ln(1 − PF ) ⇒ ln = ln(1 − PF )α−1
1−α α α
dP d
⇒ η = α(1 − PF )α−1 =
dPF
Chapitre 3

Test d’hypothèses binaires composées

Dans le test d’hypothèse simple précédent, les paramètres relatifs à chaque hypothèse
sont connus. Dans la plupart des cas, ces paramètres ne sont pas connus, l’hypothèse est dite
composée.
Supposons que chaque hypothèse est caractérisée par un ensemble de K paramètres qu’on
peut representer sous forme d’un vecteur
 
θ
 1 
 θ 
 2 
 
Θ=
 . 
 (3.0.1)
 
 . 
 
θK

Par exemple en radar, ces paramètres peuvent représenter l’amplitude du signal reçu, la
durée de propagation(distance de la cible), la vitesse de la cible, etc....
Deux cas peuvent être considérés. Premièrement Θ peut être considéré comme aléatoire
avec des pdfs fΘ/H0 (θ/H0 ) et fΘ/H1 (θ/H1 ) connues, deuxièmement, il peut être déterministe
mais toujours inconnu.

3.1 Cas où Θ est aléatoire


Si Θ est aléatoire avec des pdfs fΘ/H0 (θ/H0 ) et fΘ/H1 (θ/H1 ) connues, la décision optimum
est toujours obtenue en utilisant le test de Bayes conduisant au rapport de vraissemblance.
Celui-ci nécessite la connaissance de fY /H0 (y/H0 ) et fY /H1 (y/H1 ) qui peuvent être facillement

26
27

obtenues en moyennant sur toutes les valeurs possible de Θ de la façon suivante :



fY /Hj (y/Hj ) = fY /Θ,Hj (y/θ, Hj )fθ/Hj (θ/Hj )dθ, j = 0, 1 (3.1.1)

Le rapport de vraissemblance s’écrit alors :


fY /H1 (y/H1 )
Λ(y) = (3.1.2)
fY /H0 (y/H0 )

fY /Θ,H1 (y/θ, H1 )fθ/H1 (θ/H1 )dθ
= ∫ (3.1.3)
fY /Θ,H0 (y/θ, H0 )fθ/H0 (θ/H0 )dθ

Exemple 7 :
Considérons le test d’hypothèses suivant :

H1 : Y = M + N
H0 : Y = N

avec le bruit N ∼ N (0, σN


2
) et M est une variable aléatoire gaussienne de moyenne 0 et
2
varaince σM (M ∼ N (0, σM
2
).Déterminer la règle de décision optimum.
Solution :
Dans ce problème l’hypothèse H0 est simple et H1 est composée.La règle de décision
optimum est donnée par le test du rapport de vraissemblance :


+∞
fY /M,H1 (y/M, H1 )fM/H1 (m/H1 )dm
−∞ H1
Λ(y) = ≷η
fY /H0 (y/H0 ) H0
où : ( )
1 y2
fY /H0 (y/H0 ) = √ exp − 2
2πσN 2σN
( )
1 m2
fM/H1 (m/H1 ) = √ exp − 2
2πσM 2σM
et ( )
1 (y − m)2
fY /M,H1 (y/M, H1 ) = √ exp − 2
2πσN 2σN
notons le numérateur de Λ(y) par N um(y).On a alors :

∫+∞ { }
1 (y − m)2 m2
N um(y) = exp − 2
− 2 dm
2πσN σM 2σN 2σM
−∞
28

∫+∞ { }
1 (y − m)2 m2
N um(y) = exp − 2
− 2 dm
2πσN σM 2σN 2σM
−∞

∫+∞ { 2 }
1 y − 2my + m2 m2
N um(y) = exp − 2
− 2 dm
2πσN σM 2σN 2σM
−∞
∫+∞ { }
1 y2 m2 m2 2my
= exp(− 2 ) exp − 2 − 2 + 2 dm
2πσN σM 2σN 2σN 2σM 2σN
−∞
∫+∞ { }
1 y2 1 1 2my
= exp(− 2 ) exp −m ( 2 + 2 ) + 2 dm
2
2πσN σM 2σN 2σN 2σM 2σN
−∞
on calcul d’abord :
∫+∞ { }
1 1 2my
I = exp −m ( 2 + 2 ) + 2 dm
2
2σN 2σM 2σN
−∞
∫+∞ { 2 2 2 2
}
σM + σN 2my 2σN σM
= exp − 2 2
[m − 2 2
2
2
dm
2σN σM 2σN σM + σN
−∞
∫+∞ { 2 2 2 4 4
}
σM + σN σM y σM σM
= exp − 2 2
[m − 2m 2
2
2
+ 2 2 2
y − 2
2
2 2
2
y ] dm
2σN σM σM + σN (σM + σN ) (σM + σN )
−∞

∫+∞ { 2 2 2 4
} 2
σM + σN σM y σM σM
I = exp − 2 2
[m 2
− 2m 2 2
+ 2 2 2
y 2
] exp{ 2 2 2
2
}dm
y(3.1.4)
2σN σM σM + σN (σM + σN ) 2σN (σM + σN )
−∞

2 ∫+∞ { 2 2 2
}
σM σM + σN σM
I = exp{ 2 2 2
y2} exp − 2 2
[m − 2 2
2
y] dm (3.1.5)
2σN (σM + σN ) 2σN σM σM + σN
−∞
29

∫+∞
1 (x − a)2
√ exp(−
on utilise : )dx = 1.
2π 2
−∞

2 2
σM + σN σN σM
pour cela, on pose : x = m ⇒ dm = √ 2 dx ⇒
σN σM σM + σN2

∫+∞ { 2 } ∫+∞ { √ }
2 2 2 2
σM + σN σM 1 σ + σ y
exp − 2 2
[m − 2 2
y]2 dm = exp − [m M N
− √ ]2 dm
2σN σM σM + σN 2 σN σM 2
σN σM + σN 2
−∞ −∞
∫+∞ { }
σN σM 1 1
= √ exp − [x − √ y]2 dx
2
σM 2
+ σN 2 2 2
σN σM + σN
−∞

2πσN σM
= √
2 2
σM + σN
on tire alors : √ 2
2πσN σM σM
I = √ exp{ 2 2 2
y2}
2
σM 2
+ σN 2σN (σM + σN )
ce qui donne :
1 y2 σM 2
N um(y) = √ exp(− 2
) exp{ 2 2 2
y2}
2 2
2π(σM + σN ) 2σ N 2σ N (σM + σN )

le rapport de vraissemblance devient :


√ { }
2 2
σN σM 2
Λ(y) = 2 2
exp 2 2 2
y
σN + σM 2σN (σM + σN )

en passant au logarithme :

1 σ2 y2 σ2
ln Λ(y) = ln( 2 N 2 ) + 2 ( 2 M 2 )
2 σN + σM 2σN σN + σM
et le LRT s’écrit :
H1
ln Λ(y) ≷ ln η
H0
2
1 σN y2 σM2 H1
ln( 2 2
) + 2
( 2 2
) ≷ ln η
2 σN + σM 2σN σN + σM H0
H1 σ2 1 σ2
y 2 ≷ 2σN 2
(1 + 2N )[ln η + ln(1 + M 2
)]
H0 σM 2 σN
| {z }
H1
y2 ≷ γ
H0
30

Nous remarquons que le seuil de décision γ est indépendant du paramètre m.


remarque : dans cet exemple, la v.a Y sous l’hypothèse H1 est une somme de deux v.a
gaussiennes, donc elle est gaussienne de moyenne : E[Y /H1 ] = E[m] + E[N ] = 0 et variance :
2 2
var[Y /H1 ] = σN + σM . On retrouve facillement le résultat précédent.

3.2 Cas où Θ n’est pas aléatoire

3.2.1 Test uniformement le plus puissant(UMP)


Si Θ n’est pas aléatoire (mais toujours inconnu), on peut faire appelle au test de Neyman-
Person(NP). Considérons par exemple le problème de test d’hypothèse composées suivant :

H0 : θ = θ0 (3.2.1)
H1 : θ ∈ S1 (3.2.2)

Le test de NP fixe la probabilité de fausse alarme PF = α, tout en maximisant la proba-


bilité de détection Pd pour une valeur de θ supposée. En performant ce test pour plusieurs
valeurs de θ, il en résulte un graphe de Pd en fonction de θ,connu sous le nom de "fonction
de puissance"(power function). Un test δ ∗ qui maximise la probabilité de détection pour
toutes les valeurs de θ,s’appelle : test uniformement le plus puissant "UMP"(Uniformly
Most Powerful). Donc un test UMP maximise la Pd quelque soit la valeur de θ
Remarques : - le test UMP n’éxiste pas toujours.
31

- rechercher le test UMP (lorsqu’il éxiste) en cherchant le test de Neyman-


Person pour une valeur donnée de θ. Si les régions de décisions sont indépendantes de θ,
alors le test est UMP.
Exemple 8 :
Considérons l’exemple suivant :

H1 : Y = m + N
H0 : Y = N

où m est un paramètre inconnu et N un bruit blanc gaussien de moyenne nulle et variance


σ2.
Trouvez le test UMP, s’il éxiste, pour les trois cas suivants :
1) m > 0
2) m < 0
3) m ̸= 0
solution :
Les pdfs conditionnelles sont :
( 2) ( 2
)
fY /H0 (y/H0 ) = √1
2πσ
exp − 2σ
y
2 et fY /H1 (y/H1 ) = √1
2πσ
exp − (y−m)
2σ 2
Tout calcul fait, le test du logLRT aboutit à :
H1 m2
my ≷ σ ln η +
2
H0 2
1er cas : m > 0 :
Dans ce cas en divisant par m on obtient :
H1 σ2 m
y≷ ln η + = γ1
H0 m 2

En performant le test de NP on peut tirer la valeur du seuil γ1 à partir de PF =


∫ +∞
γ1
fY /H0 (y/H0 )dy ⇒ la connaissance de m n’est pas indispensable pour effectuer le test,
en d’autres thermes, le test NP dans ce cas est UMP.
2ieme cas : m < 0 :
Dans ce cas en divisant par m le test change et devient :
H1 σ2 m
y≷ ln η + = γ2
H0 m 2
32

Dans ce cas aussi, en performant le test de NP, on peut tirer la valeur du seuil γ2 à partir
∫ γ2
de PF = −∞ fY /H0 (y/H0 )dy ⇒ la connaissance de m n’est pas indispensable pour effectuer
le test, le test NP, dans ce cas, est aussi UMP.
3ieme cas : m ̸= 0 :
Dans ce cas m peut prendre des valeurs positives ou négatives, et on a vu que le test
pour les valeurs positives de m est différent de celui correspendant aux valeurs négatives de
m. Donc le test UMP n’éxiste pas.

3.2.2 Test du rapport de vraissemblance généralisé (GLRT)


Dans le cas où un test UMP n’éxiste pas, une approche possible du problème est d’estimer
le paramètre inconnu θ sous chaque hypothèse est d’utiliser cet éstimé dans le rapport de
vraissemblance. Lorsque la méthode d’estimation utilisée est la méthode du maximum de
vraissemblance (MLE : Maximum Liklihood Estimation), on parle du test du rapport de
vraissemblance généralisé (GLRT : Generalized Liklihood Ratio Test)
On rappelle que l’éstimé à maximum de vraissemblance est celui qui maximise la fonction
de vraissemblance suivante :
L(θ) = fY /θ (y/θ)

On note cette valeur par : θb = θbM L et elle est solution de l’équation :



L(θ) = 0
∂θ
le logarithme étant une fonction monotone croissante, on utilise souvent :

ln L(θ) = 0
∂θ
Le GLRT s’écrit alors :
θ1 fY /θ1 (y/θ1 ) H1
max
Λg (y) = ≷η
θ0 fY /θ0 (y/θ0 ) H0
max

Example 9 :
Etant donné le modèle suivant d’un signal noyé dans un bruit.

x[n] = A s[n] + w[n], n = 0, 1, ..., N − 1

où A est inconnu, S est un signal connu et W un bruit blanc gaussien de moyenne nulle et
variance σ 2 inconnue.
33

   
x[0] s[0]
   
   
 x[1]   s[1] 
On pose : X =   : le vecteur observation ; S =   : le vecteur
 .   . 
   
x[N − 1] s[N − 1]
signal
Etablir le test du rapport de vraissemblence généralisé pour tester les hypothèses sui-
vantes :

H0 : A = 0 (abscence du signal)
H1 : A ̸= 0 (présence du signal)

Solution
Le GLR nécessite le calcul des estimés ML de A et de σ 2 sous chaque hypothèse.
La fonction de vraissemblance sous H1 s′ écrit :
1 1
L(A, σ 2 ) = N exp{− (X − AS)T (X − AS)}
(2πσ 2 ) 2 2σ 2

en passant au logarithme :
N 1
ln L(A, σ 2 ) = − ln(2πσ 2 ) − 2 (X − AS)T (X − AS)
2 2σ
a- calcul du MLE de A :

∂ ∂
ln L(A, σ 2 ) = 0 ⇔ [A2 S T S − 2AS T X] = 0
∂A ∂A
⇔ 2AS T S = 2S T X

ce qui donne :
b ST X
AM L = T
S S
b- calcul du MLE de σ 2 :
∂ N 1
2
ln L(A, σ 2 ) = 0 ⇔ − 2 + 4 (X − AS)T (X − AS) = 0
∂σ 2σ 2σ
ce qui donne :
1 bM L S)T (X − A
bM L S)
bM
σ 2
L,H1 = (X − A
N
Sous H0 :
34

bM
le MLE de σ 2 est σ 2
bM
L,H0 et est obtenu en posant ÂM L = 0 dans l’expression de σ
2
L,H1 .Soit :

1 T
bM
σ 2
L,H0 = X X
N
donc le GLR est
fX/AbM L ,bσ2 bM L , σ
(x/A bM2
M L,H1
L,H1 )
Λg (x) = 2
fX/bσM
2
L,H
(x/b
σM L,H0 )
0

avec

bM L , σ 1 1 bM L S)T (X − A
bM L S)}
fX/AbM L ,bσ2 (x/A bM2
L,H1 ) = N exp{− 2
(X − A
M L,H1
(2πb
σM2
L,H1 )
2 2b
σM L,H1

1 N
= N exp{− }
(2πb
σM2
L,H1 )
2 2

et
1 1
fX/bσM
2 (x/b
σM2
L,H0 ) = N exp{− 2
X T X}
L,H
0
(2πb
σM2
L,H0 )
2 2b
σM L,H0
1 N
= N exp{− }
(2πb
σM2
L,H0 )
2 2

ce qui donne le GLRT :


bM
σ 2
L,H0 N
H1
Λg (x) = [ ]2 ≷ η
bM L,H1
σ 2
H0

soit
N bM
σ 2
L,H0
H1
ln Λg (x) = ln( 2 ) ≷ ln η
2 bM L,H1 H0
σ
bM
σ 2
L,H0
H1 2
⇒ ln( )≷ ln η
bM L,H1 H0 N
σ 2
Série d’éxercices corrigés

Exercice 1

L’observation Y possède les pdfs conditionnelles suivantes :

fY /H1 (y/H1 ) = 3y 2 ; 0 ⩽ y ⩽ 1
fY /H0 (y/H0 ) = 2y; 0 ⩽ y ⩽ 1

on suppose P [H0 ] = 1/5 et P [H1 ] = 4/5

1. Trouver le test qui assure une probabilité d’erreur minimale. Calculer cette probabilité
d’erreur.
2. Spécifier le test de Neyman-Person de niveau α et calculer la probabilité de détection
correspondante.
3. Trouver le test minimax en assumant des coûts uniformes. Calculer alors les probabilités
de fausse alarme et de détection correspondantes ainsi que la probabilité d’erreur.

Solution :

1. Le test qui assure une probabilité d’erreur minimale est celui de Bayes avec des coûts
uniformes. c.a.d : c01 = c10 = 1 et c00 = c11 = 0. Dans ce cas le LRT s’écrit :
fY /H1 (y/H1 ) H1 P0
Λ(y) = ≷η=
fY /H0 (y/H0 ) H0 1 − P0
2 H1
3y
≷ 1/4
2y H0
H1
y ≷ 1/6
H0
on peut écrire le test celon :
décider H1 : 1/6 ⩽ y ⩽ 1
décider H0 : 0 ⩽ y ⩽ 1/6

35
36

La proba d’erreur est :


Pe = P [H0 ]PF + P [H1 ]Pm

telle que :
∫1
PF = Pr[H1 /H0 ] = 2ydy = 1 − 1/36 = 0.9722
1/6

∫1/6
Pm = Pr[H0 /H1 ] = 3y 2 dy = 0.0046
0
Pe = 0.1981

2 Pour le test de NP de niveau α , il faut determiner le seuil de décision qui assure une
probabilité de fausse alarme égale à α.Soit :
∫1

PF = 2ydy = 1 − γ 2 = α ⇒ γ = 1−α
γ

la probabilité de détection correspondante est :


∫1
Pd = 3y 2 = 1 − γ 3 = 1 − (1 − α)3/2
γ

3- Le test minimax avec des coûts uniformes est tel que Pm = PF . Ce qui implique, avec
Pm = 1 − Pd ,que le seuil de décision verifie :

1 − γ2 = γ3
γ3 + γ2 − 1 = 0

la résolution donne γ ∗ = 0.7549.


Les probabilités de fausse alarme et de détection pour ce test sont :

PF = 1 − γ ∗2
= 0.4301
Pd = 1 − γ ∗3
= 0.57

La probabilité d’erreur est :,


37

Pe = P0∗ PF + P1∗ Pm
= PF (P0∗ + P1∗ ) = PF
Pe = 0.43

Exercice 2 Dans un problème de détetion,on décide entre deux hypothèses simples en utilisant le
test du rapport de vraissemblance :
fY /H1 (y/H1 ) H1
Λ(y) = ≷η
fY /H0 (y/H0 ) H0
Le tracé des curbes ROCs donnent une courbe qui semble répondre au modèle suivant :

Pd = PF

1. Donner la valeur du seuil qui assure une probabilité de fausse alarme de 0.5.
2. En assumant des coûts uniformes, calculer la probabilité de fausse alarme induite par
un test du minimax.
Solution
1 on sait que
dPd

dPF
donc :
1
η= √
2 PF

pour une PF = 0.5 ⇒ η = 1/ 2

2 Dans le cas où les coûts sont uniformes, l’équation minimax s’écrit : PF = Pm =


√ √
1 − Pd .soit : PF = 1 − PF ⇔ PF = (1 − PF )2 ⇒ PF = 3±2 5 .on garde la solution qui

3− 5
assure PF < 1, soit PF = 2
= 0.3820
Exercice 3

Soient X1 , X2 , ..., Xn des observations iid de pdf exponentielle de paramètre θ.On consi-
dère le test d’hypothèse binaire suivant :

H0 : θ = θ 0
H1 : θ = θ 1

où θ0 < θ1 .
38

1. Etablir le rapport de vraissemblance.


2. Etablir le test de Neyman Person de niveau α.

solution :

n
fX/H0 (x/H0 ) = Π θ0 e−θ0 xi
i=1
n
fX/H1 (x/H1 ) = Π θ1 e−θ1 xi
i=1

1. le rapport de vraissemblance est :



n
nθ1 e−θ1 θ1 n −(θ1 −θ0 ) i=1 xi
Λ(x) = Π = ( ) e
i=1 θ0 e−θ0 θ0

2. le test de NP est de la forme :

H1
Λ(x) ≷ η
H0

où le seuil η est choisie de telle sorte que la probabilité de fausse alarme soit fixée à la
valeur désirée α. En passant au logarithme :

n
H1 θ0
−(θ1 − θ0 ) xi ≷ ln η + n ln
i=1
H0 θ1

n
H1 1 θ0
xi ≷ ln(( )n η) = δ
i=1
H0 (θ0 − θ1 ) θ1


n
En posant Z = Xi , la règle de décision devient :
i=1

H1
z≷δ
H0

Pour calculer la probabilité de fausse alarme et/ou de détection, il nous faut calculer la pdf
de Z.Pour ce faire, on utilise la fonction caractéristique. Les v.a Xi étant iid ⇒ ΦZ (w) =

+∞
(ΦXi (w))n où ΦXi (w) = E[ejωxi ] = θe−θxi ejωxi dxi = θ−jω
θ θ
.⇒ ΦZ (w) = ( θ−jω )n . On re-
0

+∞
trouve la pdf par transformée inverse : fZ (z) = 1

θ
( θ−jω )n e−jwz dw
−∞
39

on utilise la formule suivante :(voir Gradsteyn and stegun page 365 eqt 3.382 n7)

∫+∞ {
2π ν−1 −βp
−υ −jpx
p e , pour p ≥ 0
(β − jx) e dx = Γ(ν)
Re(υ) > 0etℜ(β) > 0
0, pour p < 0
−∞
avec Γ(ν) = (ν − 1)! pour ν entier

on trouve alors : { (nθ)n n−1 −nθz


(n−1)!
z e ; z≥0
fZ (z) =
0; z<0
la probabilité de fausse alarme est :

∫δ
PF = Pr[H1 /H0 ] = fZ/H0 (z/H0 )dz
0
∫ 0δ
nθ ∫ 0δ

(nθ0 )n n−1 −nθ0 z 1
= z e dz = xn−1 e−x dx
(n − 1)! (n − 1)!
0 0
1
= γ(n, nθ0 δ)
(n − 1)!
∫t
où : γ(m, t) = xm−1 e−x dx, Re(m) > 0 est la fonction gamma incomplète
0

Pour un nombre m fixé, la fonction γ(m, t) est monotone et strictement croissante en


fonction de t. Autrement dit, pour une valeur fixée de la proba de fausse alarme PF = α, il
est possible de trouver le seuil δN P correspondant.
La probabilité de détection est trouvée de la même manière, soit :
1
Pd = γ(n, nθ1 δN P )
(n − 1)!
Exercice 4

Considérer le test suivant :

H1 : Y = S + N
H0 : Y = N

où S et N sont iid ayant une pdf f (x) = e−x ε(x), ε(x) est la fonctio échellon.

1. Calculer le rapport de vraissemblance


40

2 Spécifier un test de Neyman Person de niveau α sous la forme la plus simple.


2. calcler la probabilité de détection correspondante.
3. Considérer maintenant le test suivant :

H1 : Yk = S + Nk ,k = 1, 2, .., n
H0 : Yk = Nk ,k = 1, 2, .., n

4.a Trouver le rapport de vraissemblance


4.b Spécifier un test de NP.
solution :
1. Le rapport de vraissemblance est donné par :

fY /H1 (y/H1 )
Λ(y) =
fY /H0 (y/H0 )
avec :

fY /H0 (y/H0 ) = e−y , y ≥ 0


fY /H1 (y/H1 ) = ES [fY /S (y/s)]

où ES [.] est l’espérance mathématique par rapport à S et fY /S (y/s) = e−(y−s) , s ≤ y. ⇒


∫y
fY /H1 (y/H1 ) = e−(y−s) .e−s ds = e−y [s]y0 = ye−y , y ≥ 0
0

don :
ye−y
Λ(y) = = y, y ≥ 0
e−y
2 Test de N-P :
Le LRT s’écrit :
H1
Λ(y) = y ≷ γ
H0
le test N-P de niveau α est telle que : PF = α.La probabilité de fausse alarme est donnée
par :
∫+∞
PF = e−y dy = e−γ
γ
⇒ γ = − ln(PF )
41

3 La probabilité de détection correspondante est :


∫+∞ ∫+∞
−y −y +∞
Pd = ye dy = [−ye ]γ + e−y dy
γ γ
−γ
= e (1 + γ)
= α(1 − ln(α))

4 Dans ce cas les hypothèses sont les suivantes :

H1 : Yk = S + Nk ,k = 1, 2, .., n
H0 : Yk = Nk ,k = 1, 2, .., n

(a) Le LR est :
fY /H1 (y/H1 )
Λ(y) =
fY /H0 (y/H0 )
où :

n
fY /H0 (y/H0 ) = Πnk=1 e−yk = exp(− yk ), yk ≥ 0
k=1
−(yk −s)
fYk /S (yk /s) = e ; s ≤ yk

n
fY /S (y/s) = Πnk=1 e−(yk −s) = exp(− (yk − s)); s ≤ yk ∀ k
k=1
s ≤ yk ∀ k ⇔ s ≤ min(yk ) = ymin donc :

ymin ∫
ymin ∑
n
− (yk −s)
fY /H1 (y/H1 ) = fY /S (y/s)ds = e k=1 e−s ds
0 0

n ∫
ymin ∑
n
− yk
(n−1)s e(n−1)ymin − 1 − k=1 yk
= e k=1 e ds = e
n−1
0

finallement le LR devient :
e(n−1)ymin − 1
Λ(y) = , ymin ≥ 0
n−1
42

1. b Le LRT s’écrit :
e(n−1)ymin − 1 H1
Λ(y) = ≷η
n−1 H0
H1
e(n−1)ymin ≷ 1 + (n − 1)η
H0
H1
(n − 1)ymin ≷ ln(1 + (n − 1)η)
H0
H1 1 ′
ymin ≷ ln(1 + (n − 1)η) = γ
H0 n − 1

la Proba de fausse alarme est :



PF = Pr [ymin > γ /H0 ] = α
′ ′ ′
= Pr [y1 > γ /H0 ].Pr [y2 > γ /H0 ].....Pr [yn > γ /H0 ]
∫+∞
′ ′
= (Pr [y1 > γ /H0 ])n = ( e−x dx+)n = e−nγ
γ′
′ 1
⇒ γ = − ln(α)
n
La probabilité de détection est :

∫+∞

Pd = Pr[ymin ≥ γ /S = s, H1 ]e−s ds
0
∫+∞

= (Pr[y1 ≥ γ /S = s, H1 ])n e−s ds
0

+∞ ∫+∞ ∫+∞ ∫+∞
= [ e−(y−s) ]n e−s ds = [ e−y ]n e(n−1)s ds
0 ′ 0 ′
max(s,γ ) max(s,γ )

∫+∞ ∫γ ∫+∞
′ ′
= e−n. max(s,γ ) e(n−1)s ds = e−n.γ e(n−1)s ds + e−n.s e(n−1)s ds
0 0 γ′

e−n.γ (n−1)γ ′ ′
= [e − 1] + e−γ
n−1
′ ′ ′ ′ ′ ′
e−γ − e−n.γ + ne−γ − e−γ ne−γ − e−n.γ
= =
n−1 n−1
n α
= (α1/n − )
n−1 n
43

Exercice 5

Dans un problème de test d’hypothèses binaires, les observations Zi , i = 1, 2, ..., N ; sont


i.i.d sous chaque hypothèse, telles que :

H0 : Zi ∼ N (m0 , σ02 ); i = 1, ..., N


H1 : Zi ∼ N (m1 , σ12 ); i = 1, ..., N

1. Trouver le test du rapport de vraissemblance et l’exprimer en fonction des quantités



N ∑
N
zi et zi2 .
i=1 i=1
2. Supposons m0 = m1 = m et σ12 > σ02 .Montrer que la règle de décision peut s’écrire

N H1
(zi − m)2 ≷ τ.Etablir le test de Neyman Person de niveau α en considérant N = 1.
i=1 H0

3. On suppose maintenant σ12 = σ02 = σ 2 et m1 > m0 . Donner la règle de décision et


établir le test de Neyman Person de niveau α.

Solution :

1. Le rapport de vraissemblance est :


fZ/H1 (z/H1 )
Λ(z) =
fZ/H0 (z/H0 )

vu que les echantillons Zi sont i.i.d, on peut écrire :



N
fZ/Hj (z/Hj ) = fZi /Hj (zi /Hj ) , j = 0, 1
i=1

ce qui donne :

exp[− (zi −m
2
1)

N √ 1
2πσ1 2σ 2
]
1
Λ(z) =
exp[− (zi −m
2
0)
√ 1 ]
i=1 2πσ0 2σ 2
0

σ0 N ∏
N
(zi − m1 )2 (zi − m0 )2
= ( ) exp[− + ]
σ1 i=1
2σ12 2σ02

en passant au logarithme naturel :

σ0 ∑ (zi − m1 )2 (zi − m0 )2
N
ln(Λ(z)) = N ln( ) [− + ]
σ1 i=1 2σ12 2σ02

1 ∑ 2 m1 m0 ∑
N N
1 m0 2 m1 2 σ0
= ( 2
− 2
) z i + ( 2
− 2
) zi + N.( 2
− 2 + ln( ))
2σ0 2σ1 i=1 σ1 σ0 i=1 2σ0 2σ1 σ1
44

Le logLRT est donnée par :

1 ∑ 2 m1 m0 ∑ H 1 ′
N N
1
( 2 − 2) zi + ( 2 − 2 ) zi ≷ τ
2σ0 2σ1 i=1 σ1 σ0 i=1 H0

2 si m0 = m1 = m et σ12 > σ02 la règle de décision peut s’écrire :

1 ∑ 2
N
1 H1
( 2
− 2) [zi − 2mzi + m2 − m2 ] ≷ 2τ ′
σ0 σ1 i=1 H0

1 ∑
N
1 H1 1 1
( 2 − 2) (zi − m)2 ≷ 2τ ′ + N m2 ( 2 − 2 )
σ0 σ1 i=1 H0 σ0 σ1

cette règle de décision peut être mise sous forme :


N
H1
(zi − m)2 ≷ τ
H0
i=1

En prenant N = 1, la règle de décision devient :


H1
(z1 − m)2 ≷ τ
H0
H1 √
|z1 − m| ≷ γ = τ
H0

la probabilité de fausse alarme est :

PF = Pr[|z1 − m| > γ/H0 ]


= Pr[z1 > m + γ/H0 ] + Pr[z1 < m − γ/H0 ]
∫+∞ ∫
m−γ

= fZ1 /H0 (z1 /H0 ) + fZ1 /H0 (z1 /H0 )


m+γ −∞
∫+∞ ∫+∞
1 (z1 − m)2
= 2 fZ1 /H0 (z1 /H0 ) = 2 √ exp(− )dz1
2πσ0 2σ02
m+γ m+γ

on pose y = (z1 − m)/σ0 ⇒ dz1 = σ0 dy donc :

∫+∞
1 y2 γ
PF = 2 √ exp(− )dy = 2Q( )
2π 2 σ0
γ/σ0

−1 α
Un test de NP de niveau α est tel que : PF = α ⇒ 2Q( σγ0 ) = α ⇒γ = σ0 Q ( 2 )
45

La probabilité de détection est :


γ
Pd = Pr[|z1 − m| > γ/H1 ] = 2Q( )
σ1
σ0 −1 α
= 2Q( Q ( ))
σ1 2
3 si σ12 = σ02 = σ 2 et m1 > m0 , la règle décision devient :

m1 − m0 ∑ H 1 ′
N
( ) zi ≷ τ
σ2 i=1
H0

ou bien :

N
H1
zi ≷ γ
H0
i=1


N
La quantité Y = Zi suit une loi N (N mi , N σi2 ) sous l’hypothèse Hi , i = 0, 1.
i=1
La probabilité de fausse alarme est donnée par :

PF = Pr[y > γ/H0 ]


∫+∞
1 (y − N m0 )2 γ − N m0
= √ exp(− 2
)dy = Q( √ )
2πσ 2N σ σ N
γ
√ −1
Un test NP de niveau α ⇒ PF = α ⇒ Q( γ−N
√ m0 ) = α ⇒γ = σ N Q (α) + N m0
σ N
La probabilité de détection correspondante est (on remplace m0 par m1 dans PF ) :
γ − N m1
Pd = Q( √ )
σ N
√ m1 − m0
= Q[Q−1 (α) − N ]
σ
Exercice 6 Soient X1 , X2 , ..., Xn des échantillons d’une variable aléatoire X ayant une une pdf
donnée par : {
3x2 3
θ
exp(− xθ ); x≥0
fX/θ (x/θ) =
0; x<0
1- Supposons le test d’hypothèses suivant :

H0 : θ = θ 0
H1 : θ > θ 0

a- Etablir le test du rapport de vraissemblance(LRT) et le simplifier au maxi-


mum.
46

b- Montrer que la règle de décision peut se mettre sous la forme :



n
H1
T (x) = x3i ≷ τ
H0
i=1

c- Soit la variable aléatoire Y = X 3 .Montrer que la pdf de Y conditionnée par


la paramètre θ est:
{
1
θ
exp(− yθ ); y ≥ 0
fY /θ (y/θ) =
0; y<0

d- On considère le cas où n = 1, déterminer le seuil de décision pour un test de


Neyman Person de niveau α.Existe t-il dans ce cas un test U M P ?

2- Supposons le test d’hypothèses suivant :

H0 : θ = θ 0
H1 : θ < θ 0

a- Donner la nouvelle règle de décision.


b- On considère le cas où n = 1, déterminer le seuil de décision pour un test de
Neyman Person de niveau α.Existe t-il dans ce cas un test U M P ?

3- Supposons maintenant le test d’hypothèses suivant :

H0 : θ = θ 0
H1 : θ ̸= θ0

Existe t-il un test U M P dans ce cas ? Pourqoui ?


Solution

1.a Commençons par le calcul du LR


fx/H1 (x/H1 )
Λ(x) =
fx/H0 (x/H0 )


n
3x2 x3i
i
fx/H0 (x/H0 ) = fx/θ0 (x/θ0 ) = exp(− )
i=1
θ0 θ0

n
3x2 x3i
i
fx/H1 (x/H1 ) = exp(− )
i=1
θ θ
47

ce qui donne :
1 ∑ 3
n
θ0 1
Λ(x) = ( )n exp[−( − ) x]
θ θ θ0 i=1 i
le LRT est :
H1
Λ(x) ≷ η
H0

1 ∑ 3 H1
n
θ0 1
ln( )n − ( − ) x ≷ ln η
θ θ θ0 i=1 i H0
1 ∑ 3 H1
n
1 θ
( − ) xi ≷ ln η + ln( )n
θ0 θ i=1 H0 θ0

vu que θ > θ0 ⇒

n
H1 θθ0 θ
x3i ≷ ln[η( )n ]
i=1
H0 θ − θ0 θ0
θθ0
1.b En posant τ = θ−θ0
ln[η( θθ0 )n ],la règle de décision devient :


n
H1
T (x) = x3i ≷ τ
H0
i=1

1.c Posons Y = g(x) = X 3 , on calcul la pdf de Y en utilisant la formule de transformation


de variables aléatoires suivante :
dg −1 (y)
fY (y) = fX (g −1 (y))
dy
dg −1 (y)
où : g −1 (y) = y 1/3 et = 13 y − 3 = 13 [y − 3 ]2 ≥ 0 ⇒
2 1
dy

3y 2/3 y 1 2
fY (y) = exp(− ) y − 3
θ θ 3
1 y
= exp(− ); y ≥ 0
θ θ

1.d Pour n = 1, la règle de décision est :


H1
x3 ≷ τ
H0

ou bien
H1
y≷τ
H0
48

Le test NP de niveau α est tel que : PF = α. Calculon donc PF .


∫+∞
PF = Pr[H1 /H0 ] = fY /H0 (y/H0 )dy
τ
∫+∞
1 y −τ
= exp(− )dy = e θ0 = α
θ0 θ0
τ

On en tire le seuil de décision :


τ = −θ0 ln(α)

1.e Le seuil de décision est dans ce cas indépendant du paramètre inconnu θ.Un test U M P
existe et est simplement donné par le test de Neyman-Person.
2.a En supposant le test d’hypothèses suivant :

H0 : θ = θ0
H1 : θ < θ 0

la règle de décision devient :


∑ n
H1 θθ0 θ0
x3i ≷ ln[η( )n ] = τ ′
i=1
H0 θ − θ0 θ
2.b Dans ce cas (n = 1) :
∫τ ′ ∫τ ′
1 y
PF = fY /H0 (y/H0 )dy = exp(− )dy
θ0 θ0
−∞ 0

− θτ
= 1−e 0 =α

on en tire le seuil relatif à un test de NP de niveau α.

τ ′ = −θ0 ln(1 − α)

2.c Dans ce cas aussi un test U M P existe.


1. En supposant le test suivant :

H0 : θ = θ0
H1 : θ ̸= θ0

On vient de voire que le seuil de décision pour θ > θ0 est différent de celui pour θ < θ0 .De
ce fait si θ ̸= θ0 on ne peut pas trouver un test U M P.
Série d’éxercices

Exercice 1

L’observation Y possède les pdfs conditionnelles suivantes :

fY /H1 (y/H1 ) = 3y 2 ; 0 ⩽ y ⩽ 1
fY /H0 (y/H0 ) = 2y; 0 ⩽ y ⩽ 1

on suppose P [H0 ] = 1/5 et P [H1 ] = 4/5

1. Trouver le test qui assure une probabilité d’erreur minimale. Calculer cette probabilité
d’erreur.
2. Spécifier le test de Neyman-Person de niveau α et calculer la probabilité de détection
correspondante.
3. Trouver le test minimax en assumant des coûts uniformes. Calculer alors les probabilités
de fausse alarme et de détection correspondantes ainsi que la probabilité d’erreur.

Exercice 2

Dans un problème de détetion,on décide entre deux hypothèses simples en utilisant le test
du rapport de vraissemblance :
fY /H1 (y/H1 ) H1
Λ(y) = ≷η
fY /H0 (y/H0 ) H0
Le tracé des curbes ROCs donnent une courbe qui semble répondre au modèle suivant :

Pd = PF

1. Donner la valeur du seuil qui assure une probabilité de fausse alarme de 0.5.
2. En assumant des coûts uniformes, calculer la probabilité de fausse alarme induite par
un test du minimax.

49
50

Exercice 3

Soient X1 , X2 , ..., Xn des observations iid de pdf exponentielle de paramètre θ.On consi-
dère le test d’hypothèse binaire suivant :

H0 : θ = θ 0
H1 : θ = θ 1

où θ0 < θ1 .

1. Etablir le rapport de vraissemblance.


2. Etablir le test de Neyman Person de niveau α.

Exercice 4

Considérer le test suivant :

H1 : Y = S + N
H0 : Y = N

où S et N sont iid ayant une pdf f (x) = e−x ε(x), ε(x) est la fonctio échellon.

1. Calculer le rapport de vraissemblance


2 Spécifier un test de Neyman Person de niveau α sous la forme la plus simple.
2. calcler la probabilité de détection correspondante.
3. Considérer maintenant le test suivant :

H1 : Yk = S + Nk ,k = 1, 2, .., n
H0 : Yk = Nk ,k = 1, 2, .., n

4.a Trouver le rapport de vraissemblance


4.b Spécifier un test de NP.

Exercice 5

Dans un problème de test d’hypothèses binaires, les observations Zi , i = 1, 2, ..., N ; sont i.i.d
sous chaque hypothèse, telles que :

H0 : Zi ∼ N (m0 , σ02 ); i = 1, ..., N


H1 : Zi ∼ N (m1 , σ12 ); i = 1, ..., N
51

1. Trouver le test du rapport de vraissemblance et l’exprimer en fonction des quantités



N ∑
N
zi et zi2 .
i=1 i=1
2. Supposons m0 = m1 = m et σ12 > σ02 .Montrer que la règle de décision peut s’écrire

N H1
(zi − m)2 ≷ τ.Etablir le test de Neyman Person de niveau α en considérant N = 1.
i=1 H0

3. On suppose maintenant σ12 = σ02 = σ 2 et m1 > m0 . Donner la règle de décision et


établir le test de Neyman Person de niveau α.

Exercice 6

Soient X1 , X2 , ..., Xn des échantillons d’une variable aléatoire X ayant une une pdf donnée
par : {
3x2 3
θ
exp(− xθ ); x≥0
fX/θ (x/θ) =
0; x<0
1- Supposons le test d’hypothèses suivant :

H0 : θ = θ0
H1 : θ > θ 0

a- Etablir le test du rapport de vraissemblance(LRT) et le simplifier au maximum.


b- Montrer que la règle de décision peut se mettre sous la forme :

n
H1
T (x) = x3i ≷ τ
H0
i=1

c- Soit la variable aléatoire Y = X 3 .Montrer que la pdf de Y conditionnée par la


paramètre θ est: {
1
θ
exp(− yθ ); y ≥ 0
fY /θ (y/θ) =
0; y<0
d- On considère le cas où n = 1, déterminer le seuil de décision pour un test de
Neyman Person de niveau α.Existe t-il dans ce cas un test U M P ?

2- Supposons le test d’hypothèses suivant :

H0 : θ = θ0
H1 : θ < θ 0
52

a- Donner la nouvelle règle de décision.


b- On considère le cas où n = 1, déterminer le seuil de décision pour un test de
Neyman Person de niveau α.Existe t-il dans ce cas un test U M P ?

3- Supposons maintenant le test d’hypothèses suivant :

H0 : θ = θ0
H1 : θ ̸= θ0

Existe t-il un test U M P dans ce cas ? Pourqoui ?


Deuxième partie

*** Théorie de l’estimation ***

53
Chapitre 4

Introduction

La théorie de l’estimation se rencontre dans les systèmes de traitement du signal dé-


diés à l’extraction d’information. Parmi ces systèmes, on peut citer : le radar, sonar, parole,
image, biomédecine, communication, controle, seismologie, etc. Toutes ces applications d’en-
gineering nécessitent l’éstimation d’un paramètre inconnu θ (ou d’un vecteur de paramètres
θ)(par exemple la variance du bruit, l’amplitude, la fréquence ou la phase du signal, etc.) à
partir d’une collection de données d’observations bruitées qui dépendent d’une manière plus
ou moins étroite du paramètre θ.
Mathématiquement parlant, nous avons un ensemble de N échantillons (mesures) x[n], n = 0, ..., N − 1,
dépendant d’un parmètre inconnu θ, qu’on regroupe souvent dans un vecteur de mesure
x = [x[0], ..., x[N − 1]]T et nous voulons déterminer (estimer pour être plus juste !) la valeur
de ce paramètre en se basant sur ces mesures.
Le système sur lequel on prélève les mesures et les procédés de mesure eux mêmes sont géné-
ralement tels que la relation reliant les paramètres à déterminer et la mesure fait apparaître
un certain nombre de perturbations (bruits) dont il est impossible de déterminer la valeur
exacte. Ceci a pour principale conséquence qu’il est impossible de déterminer la valeur exacte
de θ à partir de la connaissance de x : on ne peut en determiner qu’une estimation qu’on
notera θ̂ (le chapeau indique que c’est une valeur estimée pour la distinguer de la vraie valeur
de θ). Pour cela, on cherche à déterminer une fonction d’estimation

g(x[0], ..., x[N − 1]) (4.0.1)

qu’on appele aussi estimateur, qui donne une estimation du paramètre θ, en appliquant une
certaine fonction g(.) aux vecteur de mesure. On note :

54
55

θ̂ = g(x) (4.0.2)

l’estimé de θ. Il est aussi important de distinguer entre l’estimateur qui est une fonction des
observations et l’estimé qui est la valeur prise par l’estimateur pour une réalisation particu-
lière x de x. Notons ici que le vecteur des observations est toujours aléatoire quelque soit
l’hypothèse (aléatoire ou déterministe) faite sur le paramètre θ (ceci est dû au fait que la
mesure est toujours acompagnée du bruit comme mentionné plus haut) et l’estimateur étant
lui même une fonction de variables aléatoire, est donc aussi aléatoire.
Il existe deux approches pour aborder le problème de la conception d’un estimateur. Une pre-
mière approche dite Bayesienne, suppose que le paramètre θ est aléatoire ayant une fonction
densité de probabilité (PDF) fθ (θ), connue a priori. Dans ce cas, on estime une réalisation
particulière de cette variable aléatoire. Une deuxième approche, dite classique ou de Fisher,
suppose que θ est déterministe.

Notations

χ : espace des observations.


X ∈ χ : vecteur des variables aléatoires représentant les mesures.
x : vecteur des réalisations de X .
θ ∈ Θ : vecteur des paramètres inconnus (à estimer).
Θ : espace des paramètres.
f (x; θ) : PDF de X pour une valeur donnée de θ ( cas où θ est déterministe).
f (x|θ) : PDF de X sachant θ (cas où θ est aléatoire).
f (x, θ) : PDF conjointe de X et θ.
Chapitre 5

Estimation des paramètres aléatoires

Dans ce chapitre, nous considérons que le paramètre à estimer θ (ou bien le vecteur θ)
est une variable aléatoire avec une PDF a priori connue f (θ).
La PDf a posteriori est donnée par le théorème de Bayes :
f (x|θ)f (θ)
f (θ|x) = (5.0.1)
f (x)
où ∫
f (x) = f (x|θ)f (θ)dθ (5.0.2)
Θ
et la PDF conjointe est donnée par

f (x, θ) = f (θ|x)f (x) (5.0.3)

Lorsque l’on cherche une estimation d’un parmamètre θ, on est amené à évaluer ses perfor-
mances et il est raisonable d’introduire la fonction erreur (appelée aussi innovation)

θ̃ = θ − θ̂(x) (5.0.4)

L’erreur étant de nature aléatoire, on ne peut tirer de conclusion sur la précision de l’esti-
mation qu’à partir de valeurs moyennes associées à cette fonction erreur. Par exemple, on
peut raisonablement penser que plus la variance de θ̃ sera faible, meilleure sera l’estima-
tion. On peut alors rechercher l’estimatuer θ̂(x) qui minimise la quantité E[θ̃2 ]. L’approche
Bayesienne généralise ce raisonnement en introduisant une fonction coût C(θ̃), appelée aussi
fonction de perte, et en recherchant l’éstimateur qui minimise le risque Bayesien R définit
par ∫ ∫
R = E[C(θ̃)] = C(θ̃)f (x, θ)dxdθ (5.0.5)
Θ χ

56
57

On considère généralement les trois fonctions coût suivantes :


- Erreur quadratique(squared error) :

C(θ̃) = (θ − θ̂)2 (5.0.6)

-Erreur absolue (absolute error) :


C(θ̃) = |θ − θ̂| (5.0.7)

- Erreur uniforme (uniform error) :

C(θ̃) = I(|θ − θ̂| > ε) (5.0.8)

Nous allons maintenant considérer les différents estimateurs associés à chacune des erreurs

Figure 5.1 – Les différentes fonctions Coût

précédentes.

5.1 Estimateur à Erreur Moyenne Quadratique Minimum


L’estimateur à erreur moyenne quadratique minimum ou MMSEE (Minimum Mean Squa-
red Error Esimator) est celui qui minimise le risque suivant :
∫ ∫
Rms = E[C(θ̃)] = E[(θ − θ̂) ] =
2
(θ − θ̂)2 f (x, θ)dxdθ (5.1.1)
Θ χ

en utilisant (5.0.3)
∫ ∫
Rms = E[C(θ̃)] = (θ − θ̂)2 f (θ|x)f (x)dxdθ (5.1.2)
Θ χ

ou bien ∫ ∫
Rms = E[C(θ̃)] = [ (θ − θ̂)2 f (θ|x)dθ]f (x)dx (5.1.3)
χ Θ
58

Puisque f (x) est une fonction positive, minimiser le risque revient à minimiser l’integrale
suivante : ∫
I(θ̂) = (θ − θ̂)2 f (θ|x)dθ (5.1.4)
Θ
ce qui s’obtient en calculant :

dI(θ̂) d
= (θ − θ̂)2 f (θ|x)dθ = 0 (5.1.5)
dθ dθ Θ

ce qui donne : ∫ ∫
θf (θ|x)dθ = θ̂ f (θ|x)dθ = θ̂ (5.1.6)
Θ

{z }
=1
ou encore ∫
θ̂mse = θf (θ|x)dθ = E[θ|x] (5.1.7)
Θ
donc l’estimé à erreur quadratique moyenne est donné par la moyenne conditionnelle de θ
sachant x (i.e. connaissant le vecteur de mesure).
En remplaçant (5.1.7) dans (5.1.3) on obtient l’erreur quadratique minimum de Bayes sui-
vante :
∫ ∫ ∫
Bmse (θ̂) = E[(θ − θ̂) ] = [ (θ − E[θ|x]) f (θ|x)dθ] f (x)dx = var[θ|x]f (x)dx (5.1.8)
2 2
χ
|Θ {z } χ
var[θ|x]

Exemple 2.1 (DC level with uniform prior PDF in WGN)


Considérons le cas suivant : x[n] = A + w[n], n = 0, ..., N − 1 où w[n] est un bruit Gaussien
de moyenne nulle et variance σ 2 et A est une variable aléatoire ayant une PDF a priori
uniforme A ∼ U [−A0 , +A0 ]. Calculer ÂM SE .
Solution :
Ici le maramètre θ = A. On doit dabord calculer la loi a posteriori f (A/x) en utilisant (5.0.1)
et (5.0.2), soit :
f (x|A)f (A) f (x|A)f (A)
f (A|x) = =∫ (5.1.9)
f (x) f (x|A)f (A)dA
avec
{
1
2A0
; |A| ≤ A0
f (A) = (5.1.10)
0 ; |A| > A0
et [ ]
1 ∑
N −1
1
f (x|A) = 2 N/2
exp − 2 (x[n] − A)2 (5.1.11)
(2πσ ) 2σ n=0
59

ce qui donne :
 ∑N −1
1
exp[− 1
(x[n]−A)2 ]

 2A0 (2πσ 2 )N/2 2σ 2 n=0
 ∫0
A
∑N −1
; |A| ≤ A0
f (A|x) =
1
exp[− 1
(x[n]−A)2 ]dA (5.1.12)
2A0 (2πσ 2 )N/2 2σ 2 n=0


−A0

0 ; |A| > A0
on a

N −1 ∑
N −1
(x[n] − A)2 = x2 [n] − 2N Ax̄ + N A2
n=0 n=0

N −1
= N A − x̄) + 2
x2 [n] − N x̄2 (5.1.13)
n=0

ce qui donne
 [ ]

 √1 exp − 1
2 (A − x̄)2 ; |A| ≤ A0
f (A|x) = c 2π σN
2
2 σN (5.1.14)

 0 ; |A| > A0

la constante c est donnée par

∫A0 [ ]
1 1
c= √ exp − σ2 (A − x̄)2 dA (5.1.15)
2π σN
2 2N
−A0

L’estimateur MMSE de A est donc

 = E[A|x]
∫+∞
= Af (A|x)dA
−∞
[ ]
∫0
A
A √ 1 σ2 exp − 1
2 (A − x̄) 2
dA
2π N 2 σN
−A0
= [ ] (5.1.16)
∫0
A
√ 1 exp − 1
2 (A − x̄)2 dA
2π σN
2
2 σN
−A0

Aucune forme compacte ne peut être trouvée pour (5.1.16). On note que  dépend de x̄, de
A0 et de σ 2 .
Exemple 2.2 (DC level with Gaussian prior PDF in WGN)
Considérons le même problème que l’exemple précedent : x[n] = A + w[n], n = 0, ..., N − 1
où w[n] est un bruit Gaussien de moyenne nulle et variance σ 2 et A est une variable aléatoire
60

ayant maintenant une PDF a priori Gaussienne de moyenne µA et variance σA2 . Calculer
ÂM SE et l’erreur quadratique minimum de Bayes Bmse(Â) = E[(A − Â)2 ].
Solution :
On doit calculer la loi a posteriori f (A/x) en utilisant (5.0.1) et (5.0.2). Tout calcul fait, on
trouve (voir T.D) :
1 1
f (A/x) = √ exp[− 2
(A − µA/x )2 ] (5.1.17)
2
2πσA/x 2σA/x

avec :
N µA 2
µA/x = ( 2
x + 2 )σA/x (5.1.18)
σ σA
et :
2 1
σA/x = (5.1.19)
N 1
2
+ 2
σ σA
ce qui donne :
ÂM SE = E[A|x] = µA|x (5.1.20)

qu’on peut écrire sous forme :

σ2
[ σA2 ] [ N ]
ÂM SE = x+ µA (5.1.21)
σ2 σ2
σA2 + σA2 +
| {z N } | {z N }
=α =1−α

L’utilisation d’une loi Gaussienne comme PDF a priori (on l’appelle aussi prior) a conduit
à une forme compacte ou explicite de l’estimateur, ce qui n’était pas le cas pour un prior
uniforme.
Le coefficient de pondération 0 < α < 1. ÂM SE est une somme pondérée de la moyenne a
priori µA et la moyenne des données X.
σ2
Lorsque le nombre N de données est faible, on a ≪ ⇒ α ≈ 0 et ÂM SE ≈ µA , mais
σA2
N
à mesure qu’on augmente le nombre d’observations N , l’estimateur prend en compte ses
observations et à la limite lorsque N → ∞ on a α → 1 et l’estimateur oublie la moyenne a
1 ∑N −1
priori et ne tient compte que des observations,i.e. ÂM SE ≈ X = x[n]
N n=0
- Calcul de Bmse(Â)
61

on a :
∫ ∫
Bmse(Â) = (A − Â)2 f (x, A)dxdA
∫ ∫
= (A − Â)2 f (A|x)dAf (x)dx (5.1.22)

puisque  = E[A|x] on aura :


∫ ∫
Bmse(Â) = (A − E[A|x])2 f (A|x)dAf (x)dx

= var[A|x]f (x)dx

2
= σA/x f (x)dx

2
= σA/x f (x)dx

2 1
= σA/x = (5.1.23)
N 1
2
+ 2
σ σA

qu’on peut écrire sous forme :

σ2 ( σA2 )
Bmse(Â) = 2 (5.1.24)
N σ
σA2 +
N
σ2 σ2
on remarque que Bmse(Â) < où est la minimum MSE obtenue lorsque aucune
N N
information a priori n’est disponible (i.e. σA2 → ∞). Donc l’incorporation de l’information
a priori améliore l’estimation.

5.2 Estimateurs Bayesien Linéaires à Erreur Moyenne


Quadratique Minimum
Le problème principal de l’estimateur Bayesien est qu’il est géneralement difficile, hormis
dans le cas Gaussien, à déterminer d’une façon explicite et que dans la pratique il est souvent
difficile à implémenter et assez gourment en temps de calcul. On peut utiliser une approche
simplifiée (sous-optimal)qui consiste à supposer que l’estimateur est linéaire par rapport aux
mesures.
62

Nous commençons par considérer le cas où le paramètre θ est un scalaire. Nous éxprimons
alors l’estimateur de la façon suivante :

N −1
θ̂ = an x[n] + aN (5.2.1)
n=0

et il faut choisir les coefficients an qui minimisent l’erreur quadratique moyenne de Bayes
suivante :
Bmse(θ̂) = E[(θ − θ̂)2 ] (5.2.2)

L’estimateur obtenu est appelé estimateur Bayesien linéaire à erreur moyenne quadratique
minimum (LMMSE : Linear Minimum Mean Squared Error Estimator). Notons que nous
avons introduit le coefficient aN pour prendre en considération le cas où les moyennes de x
et θ sont différentes de zéro. Dans le cas contraire,aN = 0.
On commence par trouver le coefficient aN en résolvant :

∂ ∑ N −1
E[(θ − an x[n] − aN )2 ] = 0 (5.2.3)
∂aN n=0

ou bien

N −1
−2E[θ − an x[n] − aN ] = 0 (5.2.4)
n=0
ce qui donne

N −1
aN = E[θ] − an E[x[n]] (5.2.5)
n=0
Ce qui confirme que aN = 0 si les moyennes E[θ] et E[x[n]] sont nulles.
On continu pour trouver les autres coefficients en minimisant :

{[ N −1
]2 }
Bmse(θ̂) = E an (x[n] − E(x[n])) − (θ − E(θ)) (5.2.6)
n=0

aprés avoir remplacé (5.2.5)dans (5.2.2).


En posant a = [a0 a1 ...aN −1 ]T , on obtient :
{[ ]2 }
Bmse(θ̂) = E aT (x − E(x)) − (θ − E(θ)) (5.2.7)

{[ T ]2 }
Bmse(θ̂) = E a (x − E(x)) − (θ − E(θ))
[ ] [ ]
= E aT (x − E[x])(x − E[x])T a − E aT (x − E[x])(θ − E[θ])
[ ] [ ]
−E (θ − E[θ])(x − E[x])T a + E (θ − E[θ])2
= aT Cxx a − aT Cxθ − Cθx a + Cθθ (5.2.8)
63

où Cxx est la matrice NxN de covariance de x, Cθx est le vecteur 1xN de cross-covariance
tel que CT
θx = Cxθ et Cθθ est la variance de θ.

En utilisant les identités suivantes


∂bT y
=b (5.2.9)
∂y
et
∂bT Ab
= 2Ab (5.2.10)
∂b
on peut minimiser (5.2.8) en annulant le gradient :

∂Bmse(θ̂)
= 2Cxx a − 2Cxθ = 0 (5.2.11)
∂a
on trouve le vecteur des coefficients :

a = C−1
xx Cxθ (5.2.12)

ce qui donne l’expression du LMMSE :

θ̂ = aT x + aN
−1 −1
xθ Cxx x + E[θ] − Cxθ Cxx E[x]
= CT T
(5.2.13)

ou encore
θ̂ = E[θ] + Cθx C−1
xx (x − E[x]) (5.2.14)

si les moyennes de θ et x sont nulles, le LMMSE devient :

θ̂ = Cθx C−1
xx x (5.2.15)

L’erreur quadratique minimum Bmse(θ̂) est obtenue en remplaçant (5.2.12) dans (5.2.8). Ce
qui donne :

−1 −1 −1 −1
xθ Cxx Cxx Cxx Cxθ − Cxθ Cxx Cxθ − Cθx Cxx Cxθ + Cθθ
Bmse(θ̂) = CT T

= Cθx C−1 −1
xx Cxθ − 2Cθx Cxx Cxθ + Cθθ

soit finalement :
Bmse(θ̂) = Cθθ − Cθx C−1
xx Cxθ (5.2.16)

Exemple 2.3 (DC level in WGN with uniform prior PDF)


Considérons le modèle suivant

x[n] = A + w[n], n = 0, 1, ..., N − 1 (5.2.17)


64

où A ∼ U [−A0 , +A0 ] : loi unif orme sur [−A0 , +A0 ], w[n] est un bruit blanc Gaussien
(WGN :White Gaussian Noise) de variance σ 2 et nous voulons estimer A et calculer Bmse(Â).
solution :
Sous forme vectorielle le problème peut se réecrire sous forme :

x = 1A + w

où le vecteur 1 = [1 1...1]T
Dans l’exemple 2.1 précédent, nous avons montré que le MMSEE de A ne possède pas une
forme compacte (voir (5.1.16)), on se propose alors de calculer l’éstimateur linéaire LMMSEE
de A. Dans ce problème θ = A et on a E[A] = 0 ⇒ E(x[n]) = 0 et E(x) = 0. On applique
alors l’équation (5.2.15) où la matrice de covariance Cxx et le vecteur d’intercovaraince Cθx
sont donnés par :

Cxx = E[xxT ]
= E[(1A + w)(1A + w)T ]
= E[A2 ]11T + σ 2 I (5.2.18)

et

Cθx = E[AxT ]
= E[A(1A + w)T ]
= E[A2 ]1T (5.2.19)

ce qui donne, en posant σA2 = E[A2 ], le LMMSE de A :

 = Cθx C−1
xx x

= σA2 1T (σA2 11T + σ 2 I)−1 x


σA2 T σA2 T
= 2
1 ( 2 11 + I)−1 x (5.2.20)
σ σ
Nous allons utiliser l’identité de Woodbury suivante :
M−1 uuT M−1
(M + uuT )−1 = M−1 − (5.2.21)
1 + uT M−1 u
σA
en posant la matrice M = I et le vecteur u = σ
1 on obtient :
σ2
σ2 [ 2 I11 I ]
A T
 = A2 1T I − σ σ2 x (5.2.22)
σ 1 + σA2 1T I1
65

et comme on a 1T I = 1T , I1 = 1 et 1T 1 = N , on aura :
σA2 [ T N ]
 = 2
1 − σ 2 1
T
x (5.2.23)
σ N + σ2
A

et on a aussi 1T x = N x̄ on aura :
σA2
 = 2 x̄ (5.2.24)
σA2 + σN
on a aussi pour une loi uniforme, σA2 = E[A2 ] = (2A0 )2 /12 = A20 /3 d’où :
A20
3
 = A20
x̄ (5.2.25)
σ2
3
+ N

lorsque N → ∞, Â → x̄
On note que (5.2.25) est équivalente à (5.1.21) avec µA = 0.
-calcul de Bmse(Â) :
L’erreur Bmse(Â) est donnée par (5.2.16) soit :

Bmse(Â) = CAA − CAx C−1


xx CxA (5.2.26)

avec CAA = E[AA] = var[A] = σA2 , CxA = CTAx = σA2 1 et Cxx = σA2 11T + σ 2 I et en utilisant
(5.2.23) on aura :
σA2 [ T N ] 2
Bmse(Â) = σA2 − 2
1 − σ 2 1
T
σA 1
σ N + σ2
A

1 σ2 1 σ2
= = [ ] < (5.2.27)
1
2
σA
+ N
σ2
N 1 + Nσσ22 N
A

Contrairement au MMSEE (5.1.16) qui nécessite le calcul d’intégrals, nous avons trouvé une
forme compacte ou explicite pour le LMMSEE donnée par (5.2.25). Cependant, ce dernier
est sous optimal puisqu’il est construit sous la contrainte de linéarité. L’estimateur optimal
pour ce problème reste celui donné par (5.1.16).

5.3 Estimateur Bayesien à Erreur Moyenne Quadratique


Minimum : cas vectoriel
Nous avons défini précédemment (5.1.7) l’estimateur MMSE pour le cas où le paramètre
à estimer est un scalaire θ, comme la moyenne conditionnelle E[θ|x]. Nous allons maintenant
66

étendre ce principe pour un vecteur de paramètres θ = [θ1 θ2 ...θp ]T de dimension p × 1.

La PDF a posteriori du paramètre θ1 est donnée par :


∫ ∫
f (θ1 |x) = ... f (θ|x)dθ2 ... dθp (5.3.1)


f (x|θ)f (θ)
f (θ|x) = ∫ (5.3.2)
f (x|θ)f (θ)dθ
En suivant le même raisonnement que précédemment, on obtient l’estimateur MMSE de θ1
comme ∫
θˆ1 = E[θ1 |x] = θ1 f (θ1 |x)dθ1 (5.3.3)

soit en généralisant :

θˆi = E[θi |x] = θi f (θi |x)dθi i = 1, 2, ..., p (5.3.4)

Une autre manière d’écrire (5.3.3) en utilisant (5.3.1) est :



θˆ1 = θ1 f (θ1 |x)dθ1
∫ [∫ ∫ ]
= θ1 ... f (θ|x)dθ2 ... dθp dθ1

= θ1 f (θ|x)dθ (5.3.5)

ou d’une manière générale :



θˆi = θi f (θ|x)dθ i = 1, 2, ..., p (5.3.6)

ou bien sous forme vectorielle :


 ∫   
θ1 f (θ|x)dθ E[θ1 |x]
 ∫    ∫
 θ f (θ|x)dθ   E[θ |x] 
 2   2 
θ̂ =  .. = .  = θf (θ|x)dθ = E[θ|x] (5.3.7)
 .   .. 
   

θp f (θ|x)dθ E[θp |x]

Donc chaque composante [θ̂]i = [E(θ|x)]i minimise l’erreur quadratique E[(θi − θ̂i )2 ].
En utilisant (5.1.8) on aura l’erreur quadratique minimum de Bayes
∫ ∫
Bmse (θ̂i ) = var[θi |x]f (x)dx = [Cθ|x ]ii f (x)dx (5.3.8)
67

où Cθ|x est la matrice de covariance a posteriori donnée par :


[ ]
Cθ|x = Eθ|x (θ − E[θ|x])(θ − E[θ|x])T (5.3.9)

Exemple 2.4
Considérons le modèle suivant :

x[n] = a cos 2πf0 n + b sin 2πf0 n + w[n], n = 0, 1, ..., N − 1 (5.3.10)

où f0 est un multiple de 1/N sauf pour 0 ou 1/2 (pour lesquels sin 2πf0 n = 0) et w[n] est
un WGN de variance σ 2 . On veut estimer θ = [a b]T où a et b sont des variables aléatoires
telles que θ ∼ N (0, σθ2 I) et θ est indépendant de w[n].
solution
Le problème peut être écrit comme suit (on l’appele modèle Bayesien linéaire) :

x = Hθ + w (5.3.11)

où la matrice H est donnée par :


 
1 0
 
 
 cos 2πf0 sin 2πf0 
H= .. ..  (5.3.12)
 . . 
 
cos[2πf0 (N − 1)] sin[2πf0 (N − 1)]

on pose µθ = 0, Cθ = σθ2 I et Cw = σ 2 I.
∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ◦ − − − Rappel − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗

Nous rappellons le théorème suivant (voir théorème 10.3 S. Kay page 326) :
Si le modèle des observations s’écrit
x = Hθ + w (5.3.13)

où x est le vecteur N × 1 des observations, H est une matrice N × p connue, θ est un vecteur p × 1 aléatoire avec une PDF a
priori N (µθ , Cθ ) et w ∼ N (0, Cw ), alors la PDF a posteriori f (θ|x) est aussi Gaussienne de moyenne :

T T
E[θ|x] = µθ + Cθ H (HCθ H + Cw )−1 (x − Hµθ ) (5.3.14)

et matrice de covariance :
T T
Cθ|x = Cθ − Cθ H (HCθ H + Cw )−1 HCθ (5.3.15)

H doit être de rang plein (full rank) pour assurer l’inversion.

∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗◦−−− ⋆ − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗
68

En appliquant ce théorème à notre problème on trouve le MMSE :

θ̂ = E[θ|x] = σθ2 HT (Hσθ2 HT + σ 2 I)−1 x (5.3.16)

N
Puisque les colonnes de H sont orthogonales, on montre que HT H = 2
I ce qui donne :

N σ2 (2/N )
θ̂ = σθ2 HT (σθ2 I + σ 2 I)−1 x = 2 N θ 2 HT x = 2σ
T
2 /N H x (5.3.17)
2 σθ 2 + σ 1 + σ2
θ

Ce qui donne le MMSE de a et celui de b :


[ N −1 ]
1 2 ∑
â = 2 x[n] cos 2πf0 n (5.3.18)
1 + 2σσ2/N N n=0
θ
[ N −1 ]
1 2 ∑
b̂ = 2 x[n] sin 2πf0 n (5.3.19)
1 + 2σ 2/N N n=0 σθ

La matrice de covariance a posteriori, en utilisant (5.3.15), est :

Cθ|x = σθ2 I − σθ2 HT (Hσθ2 HT + σ 2 I)−1 Hσθ2 I


N
= σθ2 I − σθ2 HT (σθ2 I + σ 2 I)−1 Hσθ2 I
[ 2]
4
N σ /2 σ2σ2
= σθ2 − 2 N θ 2 I = 2 N θ 2 I
σθ 2 + σ σθ 2 + σ
1
= 1 N
I (5.3.20)
σ2
+ 2σ 2
θ

qui ne dépend pas de x.


En utilisant (5.3.8) on trouve :
1
Bmse(â) = 1 N
(5.3.21)
σθ2
+ 2σ 2

1
Bmse(b̂) = 1 N
(5.3.22)
σθ2
+ 2σ 2

∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ◦ − − − note − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗

On peut écrire la matrice H sous forme


H = [h1 h2 ]


h1 = [1 cos(2πf0 ) . . . cos(2πf0 (N − 1))]T et h2 = [1 sin(2πf0 ) . . . sin(2πf0 (N − 1))]T

de sorte que [ ] [ ]
hT [ ] hT hT
1 1 h1 1 h2
HT H = h1 h2 =
hT
2 hT
2 h1 hT
2 h2
69

avec

N −1
hT T
1 h2 = h2 h1 = cos(2πf0 n) sin(2πf0 n)
n=0


N −1 ∑
N −1
hT
1 h1 = cos2 (2πf0 n) et hT
2 h2 = sin2 (2πf0 n)
n=0 n=0

en utilisant les identités suivantes

1 1
cos a sin b = [sin(a + b) + sin(a − b)] , cos a cos b = [cos(a + b) + cos(a − b)]
2 2

−1
(N −1 ) −1
(N −1 )

N ∑ ∑
N ∑
sin(αn) = Im exp(jαn) , cos(αn) = Re exp(jαn)
n=0 n=0 n=0 n=0


N −1
1 − exp(j2παN )
et exp(j2παn) = (suite géométrique)
n=0
1 − exp(j2πα)

on montre que
N −1
(N −1 )
1 ∑ N 1 ∑ N
hT
1 h1 = [1 + cos(4πf0 n)] = + Re exp(j4πf0 n) =
2 n=0 2 2 n=0
2

N −1
(N −1 )
1 ∑ N 1 ∑ N
hT
2 h2 = [1 − cos(4πf0 n)] = − Re exp(j4πf0 n) =
2 n=0 2 2 n=0
2

−1
(N −1 )
1 ∑
N
1 ∑
hT
1 h2 = sin(4πf0 n) = Im exp(j4πf0 n) =0
2 n=0
2 n=0

puisque

N −1
1 − exp(j2πf0 N )
exp(j4πf0 n) = = 0 ; car f0 = k/N ;
n=0
1 − exp(j2πf0 )

finallement

[ ]
N
0 N
HT H = 2
N
= I
0 2
2

∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗◦−−− ⋆ − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗

5.4 Estimateur à Erreur Moyenne Absolue Minimale


Nous allons maintenant considérer la fonction côut donnée par l’erreur absolue (5.0.7).
Le risque de Bayes dans ce cas est tiré de (5.1.3) en y remplaçant (θ − θ̂)2 par|θ − θ̂| :
∫ ∫
Rabs = E[C(θ̃)] = [ |θ − θ̂|f (θ|x)dθ]f (x)dx (5.4.1)

Minimiser ce risque revient à minimiser l’integrale entre crochets :



I(θ̂) = |θ − θ̂|f (θ|x)dθ (5.4.2)
70

ce qui s’obtient en mettant


dI(θ̂)
=0 (5.4.3)

on peut écrire :
∫ θ̂ ∫ ∞
dI(θ̂) d d
= (θ̂ − θ)f (θ|x)dθ + (θ − θ̂)f (θ|x)dθ (5.4.4)
dθ dθ −∞ dθ θ̂

On utilise la règle de Leibnitz suivante :


∫ g(u) ∫ g(u)
∂ ∂h(u, v) dg(u) df (u)
h(u, v)dv = dv + h(u, g(u)) − h(u, f (u)) (5.4.5)
∂u f (u) f (u) ∂u du du

on pose : h(θ̂, θ) = (θ̂ − θ)f (θ|x)


on a df (u)
du
= 0 et h(u, g(u)) = h(θ̂, θ̂) = (θ̂ − θ̂)f (θ|x) = 0 ce qui donne :

∫ θ̂ ∫ ∞
dI(θ̂)
= f (θ|x)dθ − f (θ|x)dθ = 0 (5.4.6)
dθ −∞ θ̂

ou bien ∫ ∫
θ̂ ∞
f (θ|x)dθ = f (θ|x)dθ (5.4.7)
−∞ θ̂

Donc l’estimateur à erreur moyenne absolue minimum, noté ici θ̂abs est la médiane de la PDF
conditionnelle f (θ|x).

5.5 Estimateur Maximum A Posteriori


Dans cette methode la fonction coût est donnée par l’erreur uniforme (5.0.8). En suivant
la même approche que précédemment, minimiser le risque revient à minimiser l’integrale
suivante :
∫ θ̂− 2ϵ ∫ ∞
I(θ) = 1.f (θ|x)dθ + 1.f (θ|x)dθ
−∞ θ̂+ 2ϵ
∫ θ̂+ 2ϵ
= 1− f (θ|x)dθ (5.5.1)
θ̂− 2ϵ

cela revient à maximiser ∫ θ̂+ 2ϵ


f (θ|x)dθ (5.5.2)
θ̂− 2ϵ
71

Pour une valeur de ϵ trés petite, ceci est équivalent à choisir θ̂ = θ̂M AP qui maximise la PDF
a posteriori f (θ|x) :
θ̂M AP = arg max f (θ|x) (5.5.3)
θ
f (x|θ)f (θ)
Puisque f (θ|x) = f (x)
c’est équivalent à maximiser f (x|θ)f (θ).

Figure 5.2 – MAP estimation

θ̂M AP est alors solution de


∂f (θ|x)
=0 (5.5.4)
∂θ
ou bien
∂ ln f (x|θ) ∂ ln f (θ)
+ =0 (5.5.5)
∂θ ∂θ
Exemple 2.5
Soit Yk = M + Nk , k = 1, 2, .., K où M et Nk sont des variables aléatoires statistiquement
indépendantes, Gaussiennes de moyenne nulle et variance σ 2 . Trouver m̂ms , m̂abs et m̂M AP
solution
f (y|m)f (m)
On va calculer la PDF a posteriori f (m|y) = f (y)
avec
1 m2
f (m) = √ exp − 2 (5.5.6)
2πσ 2σ


K
1 (yk − m)2
f (y|m) = √ exp −
k=1
2πσ 2σ 2
∑K
k=1 (yk − m)
2
1
= exp − (5.5.7)
(2πσ 2 )k/2 2σ 2

et sachant que f (y) ne dépend pas de m alors :


∑K
k=1 (yk − m)2 + m2
f (m|y) = C(y) exp − (5.5.8)
2σ 2
72

où C(y) rassemble tout ce qui ne dépend pas de m.


on a :

K ∑
K ∑
K
(yk − m) + m
2 2
= (k + 1)m − 2m2
yk + yk2 (5.5.9)
k=1 k=1 k=1
[ ]2 ( )2
1 ∑
K
1 ∑
K ∑
K
= (k + 1) m − yk − yk + yk2
k+1 k=1
k+1 k=1 k=1

ce qui donne :
( )2
1 ∑
K
′ 1
f (m|y) = C (y) exp − 2 m− yk (5.5.10)
2σm K + 1 k=1
2
où σm = σ2
K+1
et C ′ (y) rassemble toujours tout ce qui ne dépend pas de m.
La PDF a posteriori f (m|y) est donc une Gaussienne.
1- determination de m̂ms :
on a m̂ms = E[M |Y ] soit
1 ∑
K
m̂ms = yk (5.5.11)
K + 1 k=1
2- determination de m̂M AP :
m̂M AP est solution de
( )
1 ∑
K
∂ ln f (m|y) 1
=0⇔− 2 m− yk =0 (5.5.12)
∂m 2σm K + 1 k=1

ce qui donne :
1 ∑
K
= m̂M AP = yk (5.5.13)
K + 1 k=1
3- determination de m̂abs :
Sachant que la densité Gaussienne est symétrique donc sa médiane se confend avec sa
1
∑K
moyenne, donc : m̂M AP = K+1 k=1 yk

conclusion :
Pour une densité Gaussienne m̂mse = m̂M AP = m̂abs .
Chapitre 6

Estimation des paramètres non aléatoires

L’estimation des paramètres non aléatoires, souvent appelée l’approche classique d’esti-
mation ou de Fisher, est utilisée lorsque le paramètre inconnu θ (ou vecteur de paramètres
θ) à estimer est non aléatoire (i.e. déterministe) ou aléatoire mais de statistique inconnue.
Le problème est toujours de trouver la valeur de θ (qui est déterministe) via un estimateur
θ̂(x) (qui est toujours aléatoire) et d’évaluer ses performances. Dans l’approche Bayesienne
où on connait la PDF a priori (ou prior) du paramètre à estimer, on a utilisé un critère
de performance basé sur la minimisation du risque de Bayes. Cependant, comme le prior
est inconnu on ne peut pas utiliser ce principe. On fait appel alors à d’autres critères de
performances tels que le biais et la variance de l’estimateur.

6.1 Propriétés des estimateurs

6.1.1 Biais d’un estimateur


On appelle biais d’un estimateur la quantité :

b(θ̂) = E[θ̂] − θ (6.1.1)

Le biais mesure la différence entre la moyenne des réalisations de l’estimateur et la vraie va-
leur du paramètre à estimer. Pour une bonne qualité d’estimation il faut que cette différence
soit la plus faible possible et de préference nulle.
- Estimateur non biaisé (unbiased) :

73
74

Un estimateur est dit sans biais ou non biaisé si :

b(θ̂) = 0, ∀ θ ∈ Θ (6.1.2)

- Estimateur asymptotiquement non biaisé :


Un estimateur est dit asymptotiquement non biaisé si son biais tend vers zéro lorsque le
nombre d’observation tend vers l’infinit. i.e :

lim b(θ̂) = 0 (6.1.3)


N →∞

Exemple 3.1 :
Considérons les observations suivantes : x[n] = A + w[n], n = 0, ..., N − 1 où w[n] est un bruit
blanc Gaussien de moyenne nulle et variance σ 2 et A est un paramètre inconnu (deterministe)
à estimer. Un estimateur raisonnable est la moyenne simple suivante :

1 ∑
N
 = x̄ = x[n] (6.1.4)
N n=0
[ ∑ ] ∑N ∑N
1 N 1 1
On a alors : E[Â] = E N n=0 x[n] = N n=0 E(x[n]) = N n=0 A=A
Ce qui donne un biais nul b(Â) = 0. Donc la moyenne simple est un estimateur non biaisé.
Supposons maintenant que même la variance σ 2 est inconnue et doit être éstimée et que l’on
choisit comme estimateur :
1 ∑
N −1
b2
σb = [x(k) − Â]2 (6.1.5)
N k=0
Calculons alors son biais.
on peut écrire :

1 ∑{ }2
N −1
σbb2 = [x(k) − A] − [Â − A]
N k=0
{ }2
1 ∑ 1 ∑
N −1 N −1
= [x(k) − A] − [x(l) − A]
N k=0 N l=0
 { N −1 }2 

N −1  ∑ N∑−1 
1 1 2
= [x(k) − A] +
2
[x(l) − A] − [x(k) − A] [x(l) − A]
N k=0  N l=0 N l=0

[ N −1 ]2 { }
1 ∑ ∑ ∑ ∑ ∑
N −1 N −1 N −1 N −1
1 1 2
= [x(k) − A]2 + [x(l) − A] − 2 [x(k) − A] [x(l) − A]
N k=0 N k=0 N l=0 N k=0 l=0
75

En prenant l’espérence mathématique de chaque coté et sachant que les variables aléatoires
[x(k) − A] sont de moyenne nulle et indépendantes, on aura :
{ }
1 ∑ { 1 ∑ [ ]2 2 ∑ ∑
N −1 N −1 N −1 −1
b } N
2
E[σb ] = E [x(k) − A] +
2
E Â − A − 2 E [x(k) − A] [x(l) − A]
N k=0 N k=0 N k=0 l=0
1 1 2
= N σ 2 + N var(Â) − 2 N σ 2
N N N
2 2
σ σ
= σ2 + −2
N N
1
= σ 2 (1 − )
N
ce qui donne le biais :
2
σ
b(σbb2 ) = E[σbb2 ] − σ 2 = − (6.1.6)
N
c’est donc un estimateur biaisé, mais asymptotiquement non biaisé.
Par contre on peut facillement montrer que l’estimateur suivant est non biaisé :

1 ∑
N −1
bnb
σ 2
= [x(k) − Â]2 (6.1.7)
N − 1 k=0

bnb
En effet, σ 2
= N
b2
σ
N −1 b
⇒ E[b 2
σnb ]= N
N −1
σb2 ]
E[b = σ 2 ⇒ b(b
σb2 ) = 0
Cependant, le critère de biais nul est généralement insuffisant. En effet, si pour un es-
timateur donné, le biais est nul, mais les fluctuations de la variable aléatoire θ̂(x) sont
importantes, il est clair que cet estimateur est peu précis. Il est donc raisonnable de cher-
cher un estimateur dont les fluctuations sont faibles. On introduit alors un second critère de
perforamance permettant de quantifier ces fluctuations : la variance de l’estimateur.

6.1.2 Variance d’un estimateur


On définit la variance d’un estimateur par l’expression :

var(θ̂) = E[(θ̂ − E[θ̂])2 ] (6.1.8)


76

Calculons la variance de l’estimateur  de l’exemple 3.1.


[ ]
1 ∑
N
var(Â) = var x[n]
N n=0

1 ∑
N
= var(x[n]), (les x[n] sont i.i.d)
N 2 n=0

1 ∑ 2
N
= σ
N 2 n=0
σ2
= (6.1.9)
N

6.1.3 Erreur Quadratique Moyenne


L’erreur quadratique moyenne ou mse (mean squared error) est définie par :
[ ]
mse(θ̂) = E (θ̂ − θ)2 (6.1.10)

on peut écrire :
{[ ]2 }
mse(θ̂) = E (θ̂ − E(θ̂)) + (E(θ̂) − θ)
[ ] [ ] [ ]
= E (θ̂ − E(θ̂))2 + E (E(θ̂) − θ)2 + 2E (θ̂ − E(θ̂))(E(θ̂) − θ))
[ ]
= var(θ̂) + b(θ̂) + 2 E (θ − E(θ̂)) b(θ̂)
2

| {z }
=0
2
= var(θ̂) + b(θ̂) (6.1.11)

- Estimateur consistant :
Un estimateur est consistant si son mse tend vers zéro lorsque le nombre d’observations tend
vers l’infini. i.e.
[ ]
lim E (θ̂ − θ)2 = 0 (6.1.12)
N →∞

Remarques :
-Un estimateur consistant doit être au moins asymptotiquement non biaisé.
- Pour obtenir le meilleur estimateur, on pense naturellement à minimiser l’écart quadratique
entre θ̂ et θ (i.e mse(θ̂)). Mais d’aprés 6.1.10, on voit que mse(θ̂) dépend du biais b(θ̂) qui
lui même dépend de θ qui est inconnu. Il est donc difficile voire même impossible de trouver
cet estimateur. On se restreint généralement aux estimateurs non biaisés et on cherchera
77

alors parmi eux, l’estimateur à variance minimum. L’estimateur ainsi obtenu est appellé
’estimateur non biaisé à variance minimale’ ou MVU (Minimum Variance Unbiased). Pour
illustrer ceci, reprenons l’exemple 3.1, mais cette fois avec un autre estimateur  = ax̄ et
cherchons l’estimateur qui minimise la mse(Â).
2 2
on a E[Â] = aA et var[Â] = a2 σN ⇒ mse(Â) = a2 σN + (a − 1)2 A2
Cherchons la valeur de a qui minimise mse(Â).
2 A2
dmse(Â)
da
= 2a σN + 2(a − 1)A2 = 0 ⇒ aopt = 2 qui dépend de A qui est inconnu.
A2 + σN
Donc l’estimateur est irréalisable pratiquement.

6.2 Estimateur non biaisé à variance minimale(MVU)


Un estimateur MVU (Minimum Variance Unbiased) est un estimateur qui appartient à
la classe des estimateurs non biaisés et qui possède la plus faible variance. i.e.

θ̂M V U = arg min{var(θ̂)} (6.2.1)


θ̂

En général l’estimateur MVU n’existe pas toujours comme le montre la figure 6.1. Même

Figure 6.1 – Existance ou non de l’estimateur MVU

s’il existe, on peut ne pas être à même de le trouver et ceci est dû au fait qu’il n’existe pas
de méthode qui marche à tous les coups. Dans ce qui suit, nous allons discuter quelques
méthodes pour chercher l’estimateur MVU. Parmi ces mèthodes on peut citer :
1- Determiner la borne inférieure de Cramer-Rao (CRLB : Cramer Rao Lower Bound) et
voir s’il existe un estimateur qui satisfait celle ci.
2- Appliquer le théorème de Rao-Blackwell-Lehmann-Scheffe (RBLS).
La CRLB nous renseigne que la variance de n’importe quel estimateur non-biaisé est
toujours supérieur ou égale à une certaine valeur inférieure comme le montre la Fig.6.2. S’il
78

existe un estimateur dont la variance est égale à la CRLB quelque soit la valeur du paramètre
θ, alors cet estimateur est l’estimateur MVU. Il se pourait qu’aucun estimateur n’atteigne
cette borne mais un estimateur MVU existe, par example l’estimateur θ1 sur la Fig.6.2.

Figure 6.2 – CRLB et MVU

6.3 La borne inférieure de Cramer Rao


Pour tout estimateur non biaisé θ̂, le théorème de Cramer-Rao permet de donner une
borne inférieure de sa variance.
Théorème :
On suppose satisfaite la condition de régularité suivante :
∂ ln f (x; θ)
E[ ] = 0, ∀θ (6.3.1)
∂θ
alors l’inégalité de Cramer-Rao est donnée par :
1
var(θ̂) ≥ [ ] (6.3.2)
E ( ∂ ln ∂θ
f (x;θ) 2
)

ou bien d’une manière équivalente :


1
var(θ̂) ≥ (6.3.3)
I(θ)
avec
[( )2 ]
∂ ln f (x; θ)
I(θ) = E (6.3.4)
∂θ
[ ]
∂ 2 ln f (x; θ)
= −E (6.3.5)
∂θ2
79

où I(θ) s’appelle l’information de Fisher et son inverse est la borne de Cramer


Rao.
Efficacité :
Un estimateur efficace est un estimateur non biaisé dont la variance atteint la borne de
Cramer Rao.
Remarque : un estimateur efficace est donc un estimateur MVU, mais l’inverse n’est pas vrai
toujours.
- Estimateur asymptotiquement efficace :
Un estimateur est asymptotiquement efficace s’il est efficace lorsque le nombre d’observations
tend vers l’infini.
- Existance d’un estimateur efficace :
Si on peut écrire :
∂ ln f (x; θ)
= I(θ)[g(x) − θ] (6.3.6)
∂θ
où I(θ) dépend seulement de θ et non pas de x, alors θ̂ = g(x) est un estimateur efficace
(et aussi MVU) et sa variance, qui est dans ce cas la borne inférieure de Cramer Rao, est
var(θ̂) = 1/I(θ).
Exemple 3.2 :
On considère à nouveau l’exemple 3.1, x[n] = A + w[n], n = 0, ..., N − 1 où w[n] est un bruit
blanc Gaussien de moyenne nulle et variance σ 2 et A est un paramètre inconnu (deterministe)
à estimer.
On a

N −1 [ ]
1 1
f (x; A) = √ exp − 2 (x[n] − A) 2

n=0
2πσ 2 2σ
[ ]
1 ∑
N −1
1
= exp − 2 (x[n] − A) 2
(6.3.7)
(2πσ 2 )N/2 2σ n=0

en dérivant :
[ ]
∂ ln f (x; A) ∂ ( ) N/2 1 ∑
N −1
= − ln[ 2πσ 2 ]− 2 (x[n] − A)2 (6.3.8)
∂A ∂A 2σ n=0

1 ∑
N −1
= (x[n] − A) (6.3.9)
σ 2 n=0
( N −1 )
N 1 ∑
= x[n] − A (6.3.10)
σ 2 N n=0
80

∑N −1 N
en utilisant (6.3.6) on identifie :g(x) = n=0 x[n] et I(A) = σ 2
1
∑N −1
Donc l’éstimateur efficace de A est : Â = N n=0 x[n] = x̄, (simple moyenne arithmétique)
1 σ2
et sa variance, qui est aussi la borne inférieur de Cramer Rao, est : var(Â) = I(A)
= N
aussi, en calculant la dérivée seconde :
∂ 2 ln f (x; A) N
2
=− 2 (6.3.11)
∂A σ
[ 2 ]
On a bel et bien : I(A) = −E ∂ ln∂A
f (x;A)
2 = σN2 .

6.4 Transformation de paramètres


En pratique, le paramètre à estimer est souvent fonction d’autres paramètres fondamen-
taux, i.e,
α = f (θ) (6.4.1)

Disposant d’un estimateur θ̂ du paramètre θ, on veut trouver un estimateur α̂ pour le para-


mètre α.
Généralement α̂ ̸= f (θ̂), mais pour l’estimateur à maximum de vraisemblance (MLE : Maxi-
mum Likelihood Estimate) on a α̂ = f (θ̂), i.e. le MLE possède la propriété d’invariance et
ce quelque soit la fonction f (.).

La CRLB pour α̂ est donnée par

( ∂g )2
var(α̂) ≥ 2
∂θ
(6.4.2)
−E[ ∂ ln f (x;θ)
∂θ 2
]
En d’autres termes ( )2
∂g
CRLBα̂ = CRLBθ̂ (6.4.3)
∂θ
- Exemple 3.3
Supposons que dans l’exemple précédent on veut estimer la puissance du signal α = g(A) =
A2 . En utilisant (6.4.2), on trouve :

(2A)2 4A2 σ 2
var(Â2 ) ≥ N
= (6.4.4)
σ2
N

- Effet de la transformation sur le biais et l’efficacité :


On a vu que la moyenne arithmétique x̄ est un estimateur non-biaisé de A et aussi efficace, i.e.
81

sa variance atteint la CRLB. On pourrait penser que l’estimateur naturel x̄2 de A2 est aussi
efficace, mais ceci n’est pas vrai. En effet, cet estimateur est biaisé car on a : x̄ ∼ N (A, σ 2 /N )

E(x̄2 ) = E 2 (x̄) + var(x̄) = A2 + σ 2 /N ̸= A2 (6.4.5)

Calculons sa variance
var(x̄2 ) = E(x̄4 ) − E 2 (x̄2 ) (6.4.6)
Avant de calculer E(x̄4 ), on fait le rappel suivant :

∗∗∗∗∗∗∗∗∗∗∗∗◦−−− rappel − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗

Le moment d’ordre n d’une variable aléatoire Z est donné en fonction de la fonction génératrice des moments
(MGF) mz (t), comme suit :
dn /
E[Z n ] = mz (t) t=0 (6.4.7)
dtn
où la MGF est donnée par ∫ +∞
mz (t) = E[etZ ] = etz fz (z)dz (6.4.8)
−∞

Pour une variable aléatoire Z ∼ N (µz , σz2 ), la MGF est donnée par

2 2
mz (t) = eµt+σ t /2
(6.4.9)

ce qui donne

E[Z 2 ] = µ2z + σz2 (6.4.10)


4
E[Z ] = µ4z + 6µ2z σz2 + 3σz4 (6.4.11)

∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗◦−−− ⋆ − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗

Dans notre cas X̄ ∼ N (A, σ 2 /N ), on trouve alors :

4A2 σ 2 2σ 4
var(x̄2 ) = + 2 (6.4.12)
N N
En comparant ceci à la CRLB (6.4.4), on conclut que l’estimateur x̄2 de A2 n’est pas efficace.
4A2 σ 2
Par contre, il est asymptotiquement efficace, car lorsque N → ∞, on a var(x̄2 ) → N
,
qui est la CRLB donnée par(6.4.4). On conclut que l’efficacité n’est pas maintenue pour
les fonctions non linéaires, par contre elle l’est pour les transformations linéaires, comme le
montre l’exemple suivant :
- Exemple 3.4
Admettons qu’il existe un estimateur efficace θ̂ d’un paramètre θ et nous voulons estimer
d = g(θ̂) = aθ̂ + b. On a alors :
g(θ) = aθ + b. Nous choisissons l’estimateur g(θ)
82

E[aθ̂ + b] = aE[θ̂] + b = aθ + b = g(θ)


d est non-biaisé.
donc g(θ)
Sa CRLB est d’aprés (6.4.3) :
( )2
d ≥ ∂g
var[g(θ)] var[θ̂] = a2 var[θ̂] (6.4.13)
∂θ
(6.4.14)

mais
d = var[aθ̂ + b] = a2 var[θ̂]
var[g(θ)] (6.4.15)
(6.4.16)

La CRLB est atteinte, c’est donc un estimateur efficace.

6.5 CRLB cas vectoriel


b = [θˆ1 θˆ2 ...θˆp ]T son estimateur.
Soit θ = [θ1 θ2 ...θp ]T un vecteur de parmètres inconnus et θ
On suppose que θ b est non biaisé, i.e, E[θ]b = θ ou bien E[θi ] = θi , pour i = 1, ..., p.
On suppose que la PDF f (x; θ) satisfait la condition de régularité suivante :
[ ]
∂ ln f (x; θ)
E = 0, ∀, θ. (6.5.1)
∂θ
où l’espérance mathématique est prise par rapport à f (x; θ). Alors, la matrice de covariance
Cθ̂ , de n’importe quel estimateur non biaisé θ̂ de θ, verifie l’inégalité de Cramer-Rao sui-
vante :
Cθ̂ − I−1 (θ) ≥ 0 (6.5.2)


 
var(θ̂1 ) cov(θ̂1 , θ̂2 ) . . . cov(θ̂1 , θ̂p )
 
[ ]  cov(θ̂2 , θ̂1 ) var(θ̂2 ) . . . cov(θ̂2 , θ̂p ) 
 
Cθ̂ = E (θ̂ − E[θ̂])(θ̂ − E[θ̂])T =  .. .. ... ..  (6.5.3)
 . . . 
 
cov(θ̂p , θ̂1 ) cov(θ̂p , θ̂2 ) . . . var(θ̂p )
et I(θ) est la matrice p × p d’information de Fisher, dont l’élément de la ieme ligne et
j eme colonne, est défini par :
[ ]
∂ 2 ln f (x; θ)
[I(θ)]ij = −E ; i, j = 1, 2, ..., p (6.5.4)
∂θi ∂θj
83

Donc la CRLB pour le cas vectoriel stipule que la variance de chaque élément est telle que :

var[θi ] = [Cθ̂ ]ii ≥ [I−1 (θ)]ii (6.5.5)

De plus, un estimateur non biaisé qui atteint la CRLB, peut être trouvé si et seulement si :
∂ ln f (x; θ)
= I(θ) [g(x) − θ] (6.5.6)
∂θ
où g(.) est une fonction à p dimension et I est la matrice p × p d’information de Fisher. Cet
estimateur est un estimateur MVU et est donné par θ̂ = g(x) et sa matrice de covariance
est Cθ̂ = I−1 (θ), et (6.5.5) devient :

var[θi ] = [Cθ̂ ]ii = [I−1 (θ)]ii (6.5.7)

Example 3.5
Considérons le problème suivant :

x[n] = A + w[n]; n = 0, ..., N − 1. (6.5.8)

où, ce n’est pas seulement le parmètre A qui est inconnu, mais la variance du bruit σ 2 est
aussi inconnue. Le vecteur des paramètres est ici θ = [A σ 2 ]T et donc p = 2. La matrice
d’information de Fisher est donnée par :
[ 2 ∂ 2 ln f (x;θ)
]
−E[ ∂ ln∂A f (x;θ)
2 ] −E[ ∂A∂σ 2
]
I(θ) = ∂ 2 ln f (x;θ) ∂ 2 ln f (x;θ)
(6.5.9)
−E[ ∂σ2 ∂A ] −E[ ∂σ2 2 ]
avec [ ]
1 ∑
N −1
1
f (x; θ) = exp − 2 (x[n] − A)2 (6.5.10)
(2πσ 2 )N/2 2σ n=0
Tout calcul fait, on trouve : [ ]
N/σ 2 0
I(θ) = (6.5.11)
0 N/2σ 4
Dans cet example, la matrice d’information de Fisher est diagonale (ce n’est pas tjrs le cas !),
son inverse est [ ]
σ 2 /N 0
I−1 (θ) = (6.5.12)
0 2σ 4 /N
on a donc

var(Â) ≥ σ 2 /N
var(σ̂ 2 ) ≥ 2σ 4 /N
84

6.6 CRLB cas vectoriel et transformation de paramètres


Supposons qu’on veut estimer α = g(θ) où g est une fonction de dimension r. L’inégalité
de Cramer-Rao s’écrit dans ce cas :
∂g(θ) −1 ∂g(θ)T
Cα̂ − I (θ) ≥0 (6.6.1)
∂θ ∂θ
où "≥ ”0 est intérprété comme "positif semi défini" et ∂g(θ)/∂θ est la matrice Jacobiènne
de dimension r × p définie par :
 
∂g1 (θ) ∂g1 (θ) ∂g1 (θ)
...
 ∂θ 1 ∂θ 2 ∂θ p

∂g(θ)  
∂g2 (θ) ∂g2 (θ) ∂g2 (θ)
 ∂θ 1 ∂θ 2
... ∂θ p 
= .. .. ... ..  (6.6.2)
∂θ  . . . 
 
∂gr (θ) ∂gr (θ) ∂gr (θ)
∂θ 1 ∂θ 2
... ∂θ p

Example 3.6
On reprend l’example précédent (6.5.8) avec toujours A et σ 2 inconnus et on veut estimer α =
A2
σ2
qui peut être intérprété comme le SNR (Signal to Noise Ratio) pour un seul échantillon.
Ici, θ = [A σ 2 ]T et g(θ) = θ12 /θ2 = A2 /σ 2 .
On a déja calculé la matrice d’information de Fisher, soit :
[ ]
N/σ 2 0
I(θ) = (6.6.3)
0 N/2σ 4

Le Jacobien est
[ ] [ ]
∂g(θ) ∂g(θ) ∂g(θ) ∂g(θ) ∂g(θ)
= =
∂θ ∂θ1 ∂θ2 ∂A ∂σ 2
[ ]
2A A2
= − (6.6.4)
σ2 σ4
de sorte que :
[ ][ ][
2A
]
∂g(θ) −1 ∂g(θ)T 2A A2 σ 2 /N 0
I (θ) = − 4 σ2
2
∂θ ∂θ σ2 σ 0 2σ 4 /N − Aσ4
4A2 2A4
= +
N σ2 N σ4
4α + 2α2
= (6.6.5)
N
85

Finalement, α étant un scalaire,d’aprés l’inégalité de Cramer-Rao, sa variance est telle que :

4α + 2α2
var(α̂) ≥ (6.6.6)
N
Comme on l’a déja mentionné précédement dans le cas scalaire, l’éfficacité n’est maintenue
que pour les transformation linéaire. Ceci reste vrai dans le cas vectoriel. Supposons une
transformation linéaire
α = g(θ) = Aθ + b (6.6.7)

où A est une matrice r × p et b un vecteur r × 1. Supposons un estimateur efficace θ̂ de θ,


i.e, Cθ̂ = I−1 (θ).
L’estimateur
α̂ = Aθ̂ + b (6.6.8)

est non biaisé, car


E(α̂) = AE(θ̂) + b = Aθ + b = α (6.6.9)

Sa matrice de covariance est

Cα̂ = E[(α̂ − E(α̂))(α̂ − E(α̂))T ]


= AE[(θ̂ − E(θ̂))(θ̂ − E(θ̂))T ]AT
= ACθ̂ AT
= AI−1 (θ)AT (6.6.10)

D’un autre coté, la CLRB (6.6.1) est donnée par

∂g(θ) −1 ∂g(θ)T
I (θ) = AI−1 (θ)AT (6.6.11)
∂θ ∂θ
Donc la bande de Cramer-Rao est atteinte, ce qui confirme que l’éfficacité est maintenue
pour les transformations linéaires.
Chapitre 7

Modèle linéaire

La recherche d’estimateur MVU est en générale une tâche difficile. Cependent, un nombre
important de problèmes en traitement du signal, peuvent être représentés par un modèle
linéaire. Dans ce cas, la recherche d’éstimateur MVU (et donc efficace) est rendue facile.

7.1 Le modèle linéaire


Le modèle le plus simple s’écrit sous la forme

x = Hθ + w (7.1.1)


x : vecteur des observations (N × 1)
H : Matrice d’observation (N × p)
θ : vecteur des paramètres à estimer (p × 1)
w : vecteur bruit (N × 1) de PDF N (0, σ 2 I)
En premier lieu, nous supposons que le bruit est blanc, donc sa matrice de covariance est
diagonale. Le cas où le bruit est corrélé sera traité ultérieurement.
En utilisant (6.5.6), un estimateur θ̂ = g(x) sera MVU ssi
∂ ln f (x; θ)
= I(θ) [g(x) − θ] (7.1.2)
∂θ
et sa matrice de covariance sera donnée par Cθ̂ = I−1 (θ)
La PDF conditionnelle f (x; θ) s’écrit :
1 1
f (x; θ) = N exp{− (x − Hθ)T (x − Hθ)} (7.1.3)
(2πσ 2 ) 2 2σ 2

86
87

[ ]
∂ ln f (x; θ) ∂ 1
= − 2 (x − Hθ) (x − Hθ)
T
∂θ ∂θ 2σ
1 ∂ [ T ]
= − 2 x x − 2xT Hθ + θ T HT Hθ (7.1.4)
2σ ∂θ
en utilisant les identités suivantes

∂bT θ
= bT
∂θ
(7.1.5)
T
∂θ Aθ
= 2Aθ
∂θ
où A est une matrice symétrique, on aura :

∂ ln f (x; θ) 1 [ ]
= 2 HT x − HT Hθ
∂θ 2σ
T
en supposant que H H est inversible, on aboutit à :
∂ ln f (x; θ) HT H [ T −1 T ]
= (H H) H x − θ (7.1.6)
∂θ σ2
qui est exactement de la forme (7.1.2) avec :

θ̂ = (HT H)−1 HT x (7.1.7)

et
HT H
I(θ) = (7.1.8)
σ2
donc l’estimateur MVU de θ est donné par (7.1.7) et sa matrice de covariance, qui est dans
ce cas aussi, la borne de Cramer-Rao (CRLB), est donnée par

Cθ̂ = I−1 (θ) = σ 2 (HT H)−1 (7.1.9)

c’est donc un estimateur efficace.


On observe facilement que cet estimateur est non biaisé. En effet, en remplaçant (7.1.1) dans
(7.1.7), on trouve
{ }
E[θ̂] = E (HT H)−1 HT [Hθ + w]
{ }
= E (HT H)−1 HT Hθ + (HT H)−1 HT w
= θ + (HT H)−1 HT E [w]
| {z }
0
= θ (7.1.10)
88

Sa matrice de covariance est


[ ]
Cθ̂ = E (θ̂ − E(θ̂))(θ̂ − E(θ̂))T (7.1.11)

On peut écrire :

θ̂ − E(θ̂) = (HT H)−1 HT [Hθ + w] − θ


= (HT H)−1 HT w (7.1.12)

donc
[ ]
Cθ̂ = E (HT H)−1 HT wwT H(HT H)−1
[ ]
= (HT H)−1 HT E wwT H(HT H)−1
= σ 2 (HT H)−1 HT H(HT H)−1
= σ 2 (HT H)−1 (7.1.13)
[ ]
Nous avons utilisé E wwT = σ 2 I et les identités (AB)T = BT AT et (A−1 )T = (AT )−1
L’estimateur θ̂ (7.1.7) est une combinaison linéaire de variables aléatoires gaussiennes. Donc
2σ 2
θ̂ ∼ N (θ, I) (7.1.14)
N
Example 7.1 Analyse de Fourier
Considérons le modèle suivant
∑M ( ) ∑ M ( )
2πkn 2πkn
x[n] = ak cos + bk sin + w[n]; n = 0, 1, ..., N − 1 (7.1.15)
k=1
N k=1
N

Les amplitudes ak et bk sont à estimer.


On peut reformuler le problème sous forme du modèle linéaire, en posant :

θ = [a1 a2 · · · aM b1 b2 · · · bM ]T (7.1.16)

de dimension p × 1 où p = 2M
et
 
1 ... 1 0 ... 0
 ( 2π ) ( 2πM ) ( 2π ) ( 2πM ) 
 cos ... cos sin ... sin 
 N N N N 
H= .. .. .. .. .. ..  (7.1.17)
 . . . . . . 
 [ ] [ ] [ ] [ ] 
2π(N −1) 2πM (N −1) 2π(N −1) 2πM (N −1)
cos N
. . . cos N
sin N
. . . sin N
89

La matrice H est de dimension N × p où tjrs p = 2M .


On peut l’écrire sous la forme suivante :
[ ]
H = ha1 ha2 . . . haM hb1 hb2 . . . hbM (7.1.18)

où les vecteurs colonnes sont donnés par :


   
1 1
   
 cos( 2πk )   sin( 2πk ) 
 N   N 
hak =  .  et hb
=  .. 
 ..  k
 . 
   
−1) −1)
cos( 2πk(NN
) sin( 2πk(NN
)
On montre que :
T N
hai haj = δ
2 ij
T N
hbi hbj = δ
2 ij
hai hbj = 0; ∀i, j
T

hbi haj = 0; ∀i, j


T

∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ◦ − − − démonstration − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗


N −1
T 2πkn 2πln
on a ha a
k hl = cos( ) cos( )
n=0
N N

en utilisant les identités trigonométriques suivantes


−1
(N −1 )
1 1 ∑
N ∑
cos(a) cos(b) = cos(a + b) + cos(a − b) et cos(αn) = Re exp(jαn)
2 2 n=0 n=0

on aura


N −1 N∑−1
T 2π(k + l)n 2π(k − l)n
2ha a
k hl = cos( )+ cos( )
n=0
N n=0
N
(N −1 ) (N −1 )
∑ 2π(k + l) ∑ 2π(k − l)
= Re exp(j n) + Re exp(j n)
n=0
N n=0
N

si k = l, on a

N −1 ∑
N −1
2π(k − l)
exp(j n) = 1=N
n=0
N n=0
et

N −1 ( ( ))
2π(k + l) 1 − exp(j 4kπ
N
N) 2π(k + l)
exp(j n) = = 0; suite géométrique de raison exp j
n=0
N 1 − exp(j 4kπ
N
) N

ce qui donne
T N
ha a
k hl =
2
si k ̸= l, on a
{ 2(k+l)π 2(k−l)π
} { }
T 1 − exp(j N) 1 − exp(j N) 1−1 1−1
2ha
k ha
l = Re N
2(k+l)π
+ N
2(k−l)π
= Re 2(k+l)π
+ 2(k+l)π
=0
1− exp(j N ) 1− exp(j N ) 1 − exp(j N
) 1 − exp(j N
)
90

∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗◦−−− ⋆ − − − ◦ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗

Ce qui donne  
N
0 ... 0
 2

 N  N
 0 2
0 0 
H H=
T
.. .. ... .. = I (7.1.19)
 . . .  2
 
N
0 0 ... 2

D’où l’estimateur MVU est

   
2 aT
â1 h x
 ..   N 1 
   .. 
 .   . 
   
 âM   2 a T 
   h x 
θ̂ = (HT H)−1 HT x =  = N M

 b̂1   2 b
h
T
x 
   N 1 
 ..  
 .. 
 .   . 
  
2 bT
b̂M h x
N M
(7.1.20)

qu’on peut exprimer sous forme

2 ∑
N
2πkn
âk = x[k] cos( ) (7.1.21)
N k=0 N

2 ∑
N
2πkn
b̂k = x[k] sin( ) (7.1.22)
N k=0 N

qui sont les coefficients de la transformation de Fourier discrête (TFD).


Sa matrice de covariance est
2σ 2
Cθ̂ = σ 2 (HT H)−1 = I (7.1.23)
N
En utilisant (7.1.14)

2σ 2
âk ∼ N (ak , ) (7.1.24)
N
2σ 2
b̂k ∼ N (bk , ) (7.1.25)
N
91

7.2 Modèle linéaire générale


Dans le modèle linéaire simple précédent (7.1.1), le bruit est supposé blanc, i.e, sa matrice
de covariance est diagonale. Dans ce qui suit, nous considérerons le cas le plus générale, où
le bruit est corrélé, de matrice de covariance C.

x = Hθ + w; où w ∼ N (0, C) (7.2.1)

Pour détérminer l’estimateur MVU, on peut répéter les étapes de la section (7.1). On peut
aussi utiliser une autre approche basée sur la technique de blanchiment (’whitening’), comme
suit.
La matrice de covariance du bruit, C, étant supposée positive définie, il est de même pour
son inverse C−1 . On peut alors factoriser cette dernière comme suit :

C−1 = DT D (7.2.2)

où D est une matrice N × N inversible, qu’on peut obtenir par exemple en utilisant la
décomposition de Cholesky (dans ce cas, D est une matrice triangulaire supérieur).
On applique alors une transformation au modèle (7.2.1) comme suit :

Dx = |{z}
|{z} DH θ + |{z}
Dw (7.2.3)
′ ′ w′
x H

la matrice de covariance du nouveau bruit aprés transformation est

−1
E[w′ w′T ] = E[(Dw)(Dw)T ] = DE[wwT DT = DCDT = DD−1 DT DT = I (7.2.4)

Donc le bruit aprés transformation devient blanc (d’où l’appelation ’blanchiment’), i.e,

w′ = Dw ∼ N (0, I)

et les résultats de la section (7.1) s’appliquent.


L’estimateur MVU de θ est donné par (7.1.7)

θ̂ = (H′ H′ )−1 H′ x′ = (HT DT DH)−1 HT DT Dx


T T
(7.2.5)

soit

θ̂ = (HT C−1 H)−1 HT C−1 x (7.2.6)


92

et sa matrice de covariance est donnée par (7.1.9)

Cθ̂ = (H′ H′ )−1 = (HT C−1 H)−1


T
(7.2.7)

Remarque :
Si C = σ 2 I, nous retrouvons les résultats de la section précédente.
Exemple
On reprend toujours l’exemple d’une constante noyée dans un bruit coloré.

x[n] = A + w[n]; n = 0, 1, ..., N − 1 (7.2.8)

où w[n] est un bruit Gaussien coloré de matrice N × N de covariance C. On identifie facile-


ment la matrice H, qui devient dans ce cas, un vecteur

H = 1 = [1 1 · · · 1]T

L’estimateur MVU de la constante est


1T C−1 x
 = (HT C−1 H)−1 HT C−1 x = (7.2.9)
1T C−1 1
et sa variance est
1
var(Â) = (HT C−1 H)−1 = (7.2.10)
1T C−1 1
Remarques
- à cause de la correlation du bruit  ̸= x̄, .
- si C = σ 2 I, on retrouve  = x̄ et var(Â) = σ 2 /N

7.3 Meilleur estimateur linéaire non-biaisé (BLUE)


En pratique, il arrive souvent, que l’estimateur MVU, même lorsqu’il existe, est difficile à
calculer. Par exemple, on ne connait pas la PDf des données, ou bien on n’est pas en mesure de
lui attribuer un modèle. Dans ce cas, les méthodes précédentes d’estimation ne s’appliquent
plus et à défaut de trouver un estimateur optimale, on se contente d’un estimateur sous-
optimale, qui consiste à contraindre l’estimateur à être linéaire en fonction des données, et
chercher parmi cette classe d’estimateurs linéaires, le meilleur estimateur, dans le sens où
il soit non-biaisé et à variance minimale. L’estimateur ainsi obtenu, est appelé l’estimateur
BLUE ’Best Linear Unbised Estimator’. Comme on le verra par la suite, le BLUE peut
93

être déterminé avec la connaissance seulement des moments d’ordre un et deux de la PDF.
Puisque la connaissance complète de la PDF n’est pas nécessaire, l’éstimateur BLUE est
convenable pour des implémentations pratiques.

7.3.1 Cas scalaire


La contrainte de linéarité imposée à l’estimateur, nous permet de l’écrire sous forme


N −1
θ̂ = an x[n] = aT x (7.3.1)
n=0

où x = [x[0] x[1] · · · x[N − 1]]T et a = [a0 a1 · · · aN −1 ]T est le vecteur des coefficients à


déterminer pour assurer la qualité de non-biaisé et variance minimum.
La condition d’estimateur sans biais impose


N −1
E[θ̂] = an E(x[n]) = θ (7.3.2)
n=0

pour satisfaire cette condition, E(x[n]) doit être linéaire en fonction de θ, i.e,

E(x[n]) = s[n]θ (7.3.3)

ce qui donne

N −1
E[θ̂] = an s[n]θ = θ
n=0

ou bien

N −1
an s[n] = 1
n=0
ou encore
aT s = 1 (7.3.4)

avec s = [s[0] s[1] · · · s[N − 1]]T doit être connu.


La variance de l’estimateur est
[ ]
var(θ̂) = E (aT x − aT E[x])2
[ ]
= E (aT x − E[x])2
[ ]
= E aT (x − E[x])(x − E[x])T a
= aT C a (7.3.5)
94

[ ]
où C = E (x − E[x])(x − E[x])T doit être connue aussi.
La contrainte de minimum variance est obtenue, en minimisant (7.3.5), tout en respectant
la condition de non biaisé (7.3.4). Pour cela, nous utilisons la méthode du multiplieur de
Lagrange, qui s’écrit
J = aT C a + λ(aT s − 1) (7.3.6)

en utilisant (7.1.5), le gradient s’écrit

∂J
= 2Ca + λs (7.3.7)
∂a
en annulant celui-ci, on aura
λ
a = − C−1 s
2
et en utilisant la contrainte de sans biais, on aura
λ
aT s = − sT C−1 s = 1
2
ce qui donne
λ 1
− = T −1
2 s C s
donc la valeur optimale de a qui annule le gradient, avec la satisfaction de la contrainte
imposée, est
C−1 s
aopt = (7.3.8)
sT C−1 s
de sorte que l’estimateur BLUE est, en utilisant (7.3.1)

sT C−1 x
θ̂ = θ̂BLU E = (7.3.9)
sT C−1 s
et sa variance est donc

var(θ̂BLU E ) = aopt T C aopt


sT C−1 CC−1 s
=
(sT C−1 s)2
1
= T −1 (7.3.10)
s C s
Finalement, pour determiner l’estimateur BLUE, on doit connaitre seulement s (la moyenne)
et C (la covariance), i.e, les deux premiers moments. La connaissance de l’entière PDF n’est
pas nécessaire.
95

Exemple
On observe
x[n] = A + w[n]; n = 0, 1, · · · , N − 1

où w[n] est un bruit, dont la PDF est non spécifiée, mais de moyenne nulle, non corrélé et
de variance var(w[n]) = σn2 .
Dans ce cas, on a : s = 1    
1
σ02 0 ... 0 σ02
0 ... 0
   
 σ12 . . .   0 1 
 0 0  −1  σ12
... 0 
et la matrice de covariance est C =  .. .. . . .. ⇒ C =  . .. .. 
 . . . .  .. .
..
. . 
   
2 1
0 0 . . . σn 0 0 ... σn2

L’estimateur BLUE de A est donc


∑N −1 x[n]
1T C−1 x n=0 σ 2
ÂBLU E = T −1 = ∑N −1 1n (7.3.11)
1 C 1 n=0 σ 2 n

et sa variance est
1
var(ÂBLU E ) = ∑N −1 1
(7.3.12)
n=0 σn2

Dans le cas où le bruit est blanc, on aura σn2 = σ 2 = cste, on trouve


∑N −1 x[n]
1 ∑
N −1
n=0 σ 2
ÂBLU E = ∑N −1 1 = x[n] = x̄ (7.3.13)
n=0 σ 2
N n=0

et sa variance est
1 σ2
var(ÂBLU E ) = ∑N −1 1
= (7.3.14)
n=0 σ 2
N
Donc la moyenne arithmétique est l’estimateur BLUE indépendement de la PDF. On a vu
aussi précédemment, que c’est aussi l’estimateur MVU pour le cas Gaussien.

7.3.2 Cas vectoriel


Si le paramètre à estimer est un vecteur θ = [θ1 θ2 . . . θp ]T , alors pour que l’estimateur
soit linéaire en fonction des données,il faut que

N −1
θˆi = ain x[n] i = 1, 2, . . . , p (7.3.15)
n=0

soit en écriture matricielle


θ̂ = Ax (7.3.16)
96

où A est la matrice des coéfficients, de dimension p × N .


Pour que l’estimateur soit sans biais, il faut que

N −1
E(θˆi ) = ain E(x[n]) = θi i = 1, 2, . . . , p (7.3.17)
n=0

ou bien sous forme matricielle


E(θ̂) = AE(x) = θ (7.3.18)

cette condition est vérifiée ssi


E(x) = Hθ (7.3.19)

où H est une matrice N × p connue.


Ce qui nous permet d’écrire la condition d’estimateur non-biaisé de la façon suivante

AH = I (7.3.20)

si on définit ai = [ai0 ai1 . . . ai(N −1) ]T et la ieme colonne de H par hi , de sorte que
 
aT1
 
 aT2  [ ]
 
θ̂i = aTi x, A= ..  et H= h1 h2 · · · hp
 . 
 
aTp

Avec ces définitions, la contrainte de non-biaisé précédente, s’écrit

aTi hi = δij i, j = 1, 2, · · · , p (7.3.21)

et
var(θ̂i ) = aTi Cai (7.3.22)

L’estimateur BLUE est obtenu en minimisant (7.3.22) sous la contrainte (7.3.21), en répétant
l’opération pour chaque composante i. On trouve

θ̂ = θ̂ BLU = Ax = (HT C−1 H)−1 HT C−1 x (7.3.23)

et sa matrice de covariance
Cθ̂ = (HT C−1 H)−1 (7.3.24)

Remarques :
La forme du BLUE (7.3.23) est identique à celle de l’estimateur MVU (7.2.6) obtenue pour
97

le cas du modèle linéaire générale. La principale différence réside dans le fait que le BLUE ne
fait aucune supposition sur la PDF des données (i.e du bruit), par contre le MVU est obtenu
pour un modèle Gaussien du bruit. Il est bien entendu que, si les données sont réellement
Gaussiennes, alors le BLUE est aussi MVU.

BLUE pour le modèle linéaire générale : théorème de Gauss-Markov

Considérons un modèle linéaire générale de la forme

x = Hθ + w (7.3.25)

où H est une matrice N ×p supposée connue, θ est un vecteur p×1 des paramètres à estimer,
et w est un vecteur p × 1 bruit de vecteur moyenne nule et de matrice de covariance C (la
PDF de w est arbitraire), alors l’estimateur BLUE de θ est

θ̂ = (HT C−1 H)−1 HT C−1 x (7.3.26)

et sa matrice de covariance
Cθ̂ = (HT C−1 H)−1 (7.3.27)

et la variance minimum de θ̂i est


[ ]
var(θ̂i ) = (HT C−1 H)−1 ii (7.3.28)
Chapitre 8

Estimateur du Maximum de
Vraisemblance

8.1 Définition
Dans le cas où un estimateur MVU n’éxiste pas, ou ne peut pas être trouvé, même s’il
existe, on fait appel à l’estimateur du maximum de vraisemblance (MLE : Maximu Likelihood
Estimate). C’est un estimateur trés utilisé en pratique, car il est souvent relativement facile
à déterminer et donne généralement de bonnes performances : il est généralement asympto-
tiquement non biaisé et asymptotiquement efficace (donc asymptotiquement MVU). Même
si dans certains cas, il est difficile à trouver analytiquement, il existe des algorithmes qui
permettent de le chercher numériquement.
Soi x = [x1 , · · · , xN ]T un ensemble de N observations d’une variable aléatoire X, ayant une
PDF f (x; θ) dépendant d’un vecteur de paramètres θ à estimer.
On définit la fonction de vraisemblance (likelihood function) L(θ) par

L(θ) = f (x; θ) (8.1.1)

Le principe de la mèthode du maximum de vraisemblance est de choisir, parmi les valeurs


possibles du paramètre θ, celle qui maximise la probabilité d’apparition des observations
dont on dispose. En d’autres termes

θ̂ = argmax L(θ) (8.1.2)


θ

98
99

Cette valeur est appelée l’estimateur du maximum de vraisemblance ou MLE (Maximum


Likelihood Estimate) et est souvent noée par θ̂ M L .
Vu que souvent les problèmes que nous traitons ont une forme exponentielle, on utilise alors
le logarithme de la fonction de vraisemblance

θ̂ M L = argmax ln L(θ) (8.1.3)


θ

Donc le MLE est solution de l’équation suivante



ln L(θ) = 0 (8.1.4)
∂θ
De plus il faut vérifier que cette solution correspond bien à un maximum et non pas un
minimum en verifiant que
∂2
ln L(θ) (8.1.5)
∂θ∂θ T
est négative semi-définie en cette valeur.

-Exemple

Soient X1 , ..., XN ∼ N (m, σ 2 ) où σ 2 est connue et la moyenne m est à estimer.


La fonction de vraissemblance est ici

N
L(m) = f (xi ; m) (8.1.6)
i=1


1 (xi − m)2
f (xi ; m) = √ exp{− } (8.1.7)
2πσ 2σ 2
Le MLE m̂M L est solution de
d
ln L(m) = 0 (8.1.8)
dm
ou bien
1 ∑
N
d
[− (xi − m)2 ] = 0
dm 2σ 2 i=1

N ∑
N
ou bien (xi − m) = xi − N.m = 0
i=1 i=1

ce qui donne
1 ∑
N
m̂M L = xi = x̄ (8.1.9)
N i=1
100

qui est la simple moyenne arithmétique.


On vérifie bien que ceci correspond à un maximum car

d2
2
ln L(m) = −N/2σ 2 < 0
dm
- Calcul du biais :

1 ∑
N
1
E[m̂M L ] = E[xi ] = N.m = m
N i=1 N
ce qui donne un biais
b(m̂M L ) = E[m̂M L ] − m = 0

donc on a affaire à un estimateur non biaisé.


- Calcul de la variance d’estimation :

1 ∑ 1 ∑ 2
N N
var[m̂M L ] = 2 var[xi ] = 2 σ = σ 2 /N
N i=1 N i=1
qui est aussi égale à la mse.
La CRLB a été aussi calculée précedemment, et trouvée égale à σ 2 /N . Ce qui veut dire que
le MLE de m est efficace.
On a aussi
lim var[m̂M L ] = 0
N →+∞

8.2 Propriétés du MLE


1 - Le MLE est asymptotiquement non-biaisé, i.e

lim b[θ̂M L ] = 0
N →+∞

2 - Le MLE est asymptotiquement efficace (atteint la CRLB), i.e

lim var[θ̂M L ] = I −1 (θ)


N →+∞

3 - Le MLE est asymptotiquement Gaussien, i.e,

θ̂M L ∼ N (θ, I −1 (θ))


a
(8.2.1)
101

a
où le symbole ∼ signifie "asymptotiquement distribué selon"

4- MLE et transformation de paramètres : Propriété d’invariance

Dans certains cas on s’intéresse à l’estimation d’une certaine fonction α = g(θ) du para-
mètre θ, aulieu du parmètre θ lui même, connaissant le MLE θ̂M L de θ.
Si g(.) est une fonction inversible (bijective), alors le MLE de α est tout simplement

α̂M L = g(θ̂M L ) (8.2.2)

- Example :
Considérons le problème suivant :

x[n] = A + w[n]; n = 0, 1, ..., N − 1

où W [n] est un bruit WGN de variance σ 2 et on veut trouver le MLE de α = exp(A)


On a
1 ∑
N −1
1
f (x; A) = N exp{− 2
(x[n] − A)2 } (8.2.3)
(2πσ 2 ) 2 2σ n=0
ou bien encore en fonction de α

1 ∑
N −1
1
f (x; α) = N exp{− 2 (x[n] − ln α)2 } (8.2.4)
(2πσ 2 ) 2 2σ n=0

Le MLE de α est trouvé en maximisant cette dernière expression. Soit


N −1
1
(x[n] − ln α̂) =0
n=0
α̂

ce qui donne
α̂M L = exp(x̄)

On a déja vu que le MLE de A est ÂM L = x̄, ce qui confirme que α̂M L = exp(ÂM L )

−−−◦−−−

On peut aussi montrer que la propriété d’invariance (8.2.2) reste valable quelque soit la
fonction g.
- Example :
102

On dispose de N échantillons d’un bruit WGN de variance σ 2 , dont on veut estimer la


puissance en dB, définie par P = 10 log10 σ 2 . La PDF est donnée par
[ ]
1 1 ∑
N −1
f (x, σ 2 ) = exp − 2 x2 [n]
(2πσ 2 )N/2 2σ n=0

On doit dabord calculer le MLE de σ 2 , ce qui s’obtient en annulant la dérivée de la fonction


log-vraisemblance :
1 ∑ 2
N −1
∂lnf (x, σ 2 ) N
= − + x [n] = 0
∂σ 2 2σ 2 2σ 4 n=0
ce qui donne
1 ∑ 2
N −1
ˆ2
σ = x [n] (8.2.5)
N n=0
et le MLE de la puissance en dB est obtenu en utilisant la propriété d’invariance, soit

1 ∑ 2
N −1
ˆ2
P̂ = 10 log10 σ = 10 log10 x [n]
N n=0
Chapitre 9

Least square

103
Chapitre 10

MOM

104
Chapitre 11

Détection radar

Nous avons vu que la détection radar consiste à prendre une décision, concernant la
présence ou non, d’une cible dans un volume d’espace donné à un instant donné. Cette
décision est équivalente à un test entre deux hypothèses mutuellement exclusives :

H1 : cible présente
H0 : cible absente (11.0.1)

ou encore

H1 : Y (t) = S(t) + N (t)


H0 : Y (t) = N (t) (11.0.2)

où Y (t) est le signal observé, S(t) le signal utile de la cible et N (t) le bruit.
Généralement, la décision est prise en comparant le signal reçu avec un seuil. Lorsque le
signal est supérieur au seuil, on déclare qu’il y a cible et qu’il n’y a pas de cible, dans le cas
contraire (Fig. 11.1)
Si on appele Z l’espace d’observation, dans lequel se trouve l’observation Y , on peut le
subdiviser en deux sous espaces Z1 et Z2 , tels que :

si Y ∈ Z1 : on décide H1
si Y ∈ Z0 : on décide H0 (11.0.3)

Avant de parler de la règle de décision proprement dite, nous commençons par donner la
terminologie généralement utilisée en radar.

105
106

Figure 11.1 – Chaine de réception radar

Figure 11.2 – Espaces d’observation

Pour simplifier les choses, supposons que le recepteur se base sur un échantillon de l’obser-
vation Y pour effectuer le test. On définit alors :
- La probabilité de fausse alarme PF A , par la probabilité de décider H1 sachant H0 :

PF A = P r[D = H1 |H0 ] = fY |H0 (y|H0 )dy (11.0.4)
Z1

- La probabilité de détection Pd , par la probabilité de décider H1 sachant H1 :



Pd = P r[D = H1 |H1 ] = fY |H1 (y|H1 )dy (11.0.5)
Z1

- La probabilité ‘of miss’ Pm par la probabilité de décider H0 sachant H1 :



Pm = P r[D = H0 |H1 ] = 1 − Pd = fY |H1 (y|H1 )dy (11.0.6)
Z0

et
- La probabilité de décider H0 sachant H0 :

P r[D = H0 |H0 ] = 1 − PF A = fY |H0 (y|H0 )dy (11.0.7)
Z0
107

On remarque les deux probabilités PF A et Pd sont sufisantes. De plus, afin d’avoir une
“bonne décision”, il est souhaitable d’avoir PF A , la plus petite possible, tout en ayant la
Pd la plus grande possible. Cependant, ceci est irréalisable, car lorqu’on augmente Pd , PF A
augmente aussi. La stratégie la plus aqéquate, est de fixer l’une des probabilité à une valeur
prédéfinie et d’optimiser l’autre, en tenant compte de cette contrainte. C’est justement cette
stratégie qui est retenue dans le critère de décision de Neyman-Pearson, qui est la règle
la plus utilisée en radar.

La règle de décision de Neyman-Pearson

Le critère de Neyman-Pearson (N-P) fixe la probabilité de fausse alarme PF A à une valeur


prédéfinie α et maximise la probabilité de détection Pd . Maximiser Pd revient à minimiser
Pm = 1 − Pd . Pour cela on utilise la fonctiuon objective :

J = Pm + λ [PF − α] (11.0.8)

avec λ ≥ 0 est le multiplicateur de Lagrange.

∫ [∫ ]
J = fY /H1 (y/H1 )dy + λ fY /H0 (y/H0 )dy − α

Z0
[ ∫
Z1
]
= fY /H1 (y/H1 )dy + λ 1 − fY /H0 (y/H0 )dy − α
Z0
∫ Z0

= λ(1 − α) + [fY /H1 (y/H1 ) − λfY /H0 (y/H0 )]dy (11.0.9)


Z0

J est minimum lorsque les valeurs de Y qui rendent l’integralle négative sont assignées à
la région Z0 : c’est à dire
fY /H1 (y/H1 ) < λfY /H0 (y/H0 ) (11.0.10)

Le test devient dans ce cas :


fY /H1 (y/H1 ) H1
≷λ (11.0.11)
fY /H0 (y/H0 ) H0
qui est le test du rapport de vraissemblance (LRT : Likelihood Ratio Test) :
H1
Λ(y) ≷ λ (11.0.12)
H0


fY /H1 (y/H1 )
Λ(y) = (11.0.13)
fY /H0 (y/H0 )
108

est le rapport de vraisemblance (LR : Likelihood Ratio).


Pour satisfaire la contrainte imposée, on choisit λ tel que : PF = α. Si on dénote la fonction
densité de probabilité (PDF) conditionnelle de Λ(y) sous l’hypothèse Hj par fΛ/Hj (Λ/Hj ),
la probabilité de fausse alarmme sera donnée par :
∫ ∫ +∞
PF = fΛ/H0 (Λ/H0 )dΛ = fΛ/H0 (Λ/H0 )dΛ = α (11.0.14)
Z1 λ

de cette expression, on tire le seuil λ, qu’on utilisera pour calculer la probabilité de détection
∫ ∫ +∞
Pd = fΛ/H1 (Λ/H1 )dΛ = fΛ/H1 (Λ/H1 )dΛ (11.0.15)
Z1 λ
On conclut que pour établir le LR, il est nécessaire de connaitre les PDFs conditionnelles
fY |H1 (y|H1 ) et fY |H0 (y|H0 ). Si la première PDF est généralement tirée de la deuxième PDF,
en utilisant les connaissances a priori sur le signal utile S(t) (modèle de fluctuation), cette
dernière, quant à elle, est dépendante du type de détecteur qu’on utilise (quadratique, li-
néaire, ou autre,).

Signal à la sortie de l’étage FI

Le signal à la sortie de l’étage à fréquence intérmédiaire peut s’écrire de la façon suivante :

v(t) = r(t)cos(2πf0 t − φ(t))


= r(t) cos φ(t) cos(2πf0 t) + r(t) sin φ(t) sin(2πf0 t)
= vI (t) cos(2πf0 t) + vQ (t) sin(2πf0 t) (11.0.16)

où : √
r(t) = vI (t)2 + vQ (t)2 est l’amplitude du signal

vI (t) = r(t) cos φ(t) est la composante en phase

et
vQ (t) = r(t) sin φ(t) est la composante en quadrature

Signal à la sortie d’un détecteur quadratique

A la sortie du détecteur quadratique, le signal s’écrit


2
y(t) = vI2 (t) + vQ (t) (11.0.17)
109

Signal à la sortie d’un détecteur linéaire

A la sortie du détecteur linéaire, le signal s’écrit



y(t) = vI2 (t) + vQ 2
(t) (11.0.18)

Comme on l’a déja mensioné plus haut, pour le calcul de la PF A et la Pd , on doit déter-
miner les PDFs conditionnelles fY |H1 (y|H1 ) (i.e, PDF du signal+bruit) et fY |H0 (y|H0 ) (PDF
du bruit).
Avant de donner les expression de ces PDFs, nous rappelons que les composantes I (en phase)
et Q (en quadrature de phase) du bruit, notées respectivement par NI et NQ sont, en vertu
du théorème central limit, des variables aléatoires Gaussiennes de moyenne nulle et variance
σ 2 avec une même PDF qui s’écrit :
1
fNI (nI ) = √ exp −n2I /2σ 2 (11.0.19)
2πσ
1
fNQ (nQ ) = √ exp −n2Q /2σ 2 (11.0.20)
2πσ
Cette PDF va changer en fonction du type de détecteur utilisé.
- Cas du détecteur quadratique
La sortie du détecteur quadratique est donnée par l’eqt (11.0.17). Pour determiner la PDF
du bruit aprés ce détecteur, on utilise le resultat suivant :

∑N
Si xi ∼ N (0, σ 2 ), i = 1, ..., N alors y = i=1 x2i suit une loi de khi 2 avec N degrés de
libertés (χ2N ) donnée par :
1
y 2 −1 exp(−y/2); y ≥ 0
N
fY (y) = (11.0.21)
2N/2 Γ(N/2)
et si Z = aY alors
1
fZ (z) =
fY (y/a) (11.0.22)
|a|
Dans notre cas N = 2, on trouve une PDF exponentiel pour le bruit, aprés détecteur qua-
dratique :
1
fY |H0 (y | H0 ) =2
exp(−y/2σ 2 ), y ≥ 0 (11.0.23)

Ce qui nous permet de calculer la probabilité de fausse alarme :
∫ +∞
fY |H0 (y|H0 )dy = e−λ/2σ
2
PF A = (11.0.24)
λ
110

Remarque :
Il est important de remarquer que la quantité 2σ 2 , qui représentait la puissance moyenne du
bruit avant le passage par le détecteur quadratique, devient égale à la moyenne de la va-
riable aléatoire Y | H0 , aprés détecteur (qu’on peut facilement calculer à partir de (11.0.23)).
- Cas du détecteur linéaire

Dans le cas d’un detecteur linéaire, on trouve une PDF de Rayleigh :


y 2
fY |H0 (y | H0 ) = 2
exp(−y /2σ 2 ), y ≥ 0 (11.0.25)
σ
et la PF A sera donnée par :
PF A = e−λ
2 /2σ 2
(11.0.26)

La probabilité de détection est donnée par l’équation suivante


∫ +∞
Pd = fY |H1 (y|H1 )dy (11.0.27)
λ

Il faut donc déterminer la PDF du signal + bruit, fY |H1 (y|H1 ). Celle ci dépend évidemment
du type de détecteur utilisé, mais aussi, du modèle de fluctuation du signal de la cible.
- Cible non fluctuante
La cible non fluctuante renvoie des signaux d’amplitude A constante (SER constante). On
peut montrer alors que l’amplitude du signal+ bruit suit alors une distribution de Rice :
y y 2 + A2 yA
fY |H1 (y|H1) = 2
exp(− 2
)I0 ( 2 ) (11.0.28)
σ 2σ σ
où ∫ 2π
1
I0 (x) = ex cos θ dθ (11.0.29)
2π 0
est la fonction de Bessel modifiée d’ordre zero.
La probabilité de détction sera alors donnée par :
∫ +∞
y y 2 + A2 yA
Pd = exp(− )I0 ( )dy (11.0.30)
λ σ2 2σ 2 σ2
Cette expression ne peut pas être évaluée exactement, mais de façon approchée par des
méthodes numériques.
Les courbes suivantes donnent les valeurs de Pd en fonction du rapport signal/bruit SN R =
A2
2σ 2
(en dB) pour différentes valeurs de la Pf a . Par exemple, pour avoir une Pd de 0.9, il faut
un SN R de 13.3 dB pour une Pf a de 10−6 .
111

Figure 11.3 – Pd en fonction du SNR, cible non-fluctuante

- Cas d’une cible fluctuante

Une cible de type Swerling 1 ou 2 se comporte comme un grand nombre de réflecteurs


indépendants, le signal réfléchi peut être donc considéré comme Gaussien. Dans ce cas,
l’amplitude du signal + bruit va suivre une loi de Rayleigh caractérisée par une PDF
y y2
fY |H1 (y|H1 ) = 2 exp[− ] (11.0.31)
σ + σs2 2(σ 2 + σs2 )
en posant
σs2
SN R = (11.0.32)
σ2
112

on trouve la probabilité de détection


1
Pd = PF1+SN
A
R
(11.0.33)

La figure suivante compare la Pd des différents modèles de fluctuation en fonction du SN R


pour une Pf a = 10−6 . En générale, le modèle SW0 (cible non fluctuante) donne la plus grande

Figure 11.4 – Pd en fonction du SNR, cible fluctuante

pour un SNR donné, le SW1/SW2 donne la plus petite et le SW3/SW4 est entre les deux.
Il est aussi intéressant de noter que le SN R nécessaire pour une Pd = 0.5, pour le modèle
SW1/SW2 est environ 13 dB. Ce même SN R donne Pd = 0.9 pour un SW0 modèle. Pour
obtenir la même Pd = 0.9 avec un SW1/SW2, le SN R doit passer à environ 21 dB soit une
113

augmentation de 8 dB.

Dans la majorité de cas, un radar utilise plusieurs impulsions récoltées durant le temps
d’illumination de la cible par le faisceau (c’est le nombre de coups au but). Ce processus
s’appelle "intégration".

-Intégration cohérente ou pré-détection

L’intégration s’effectue avant le détecteur d’enveloppe. Ce type d’intégration préserve les


relations de phase entre les impulsions et nécessite la connaissance de la fréquence Doppler.
Pour une cible non fluctuante, si N impulsions sont parfaitement intégrées par le détecteur
cohérent, le rapport signal/bruit est exactement multiplié par N .

SN RN = N.SN R1 (11.0.34)

Figure 11.5 – Intégration coherente

Dans la pratique, l’intégration cohérente est souvent difficile à réaliser à cause de la dif-
ficulté à préserver la phase du signal entre impulsions.De ce fait, la majorité des radars
utilisent l’intégration non-cohérente.
- Intégration non-cohérente ou post-détection

L’intégration s’effectue après le détecteur d’enveloppe. Ce type d’intégration détruit les


relations de phase entre les impulsions. Elle est facile à mettre en IJuvre mais son efficacité
est moindre.
114

Figure 11.6 – Intégration non-coherente

Le rapport signal/bruit lorsqueN impulsions sont intégrées de façon non cohérente est
donné par :
SN RN = SN R1 .In

où In est appelé facteur d’amélioration (Integration Improvement factor). On le détermine


à partir de courbes ou de formules approchées en fonction de Pd , PF A et N .
Dans le cas d’intégration non-cohérente de N impulsions et un détecteur quadratique,
un développement mathématique assez compliqué donne une expression de la probabilité de
fausse alarme comme suit :
T
PF A = 1 − I( √ , N − 1) (11.0.35)
N
où ∫ √
u m+1 m −t
t e
I(u, m) = dt (11.0.36)
0 m!
est la fonction Gamma incomplète
et T est le seuil.
- Cible non-fluctuante

Dans le cas d’une cible non-fluctuante avec une intégration non-cohérente de N impul-
sions, l’expression de la Pd est donnée par :
(√ ) N (
∑ )(i−1)/2 ( √ )
√ −(T +N.SN R) T
Pd = Qm 2.N.SN R, 2T + e Ii−1 2 T.N.SN R
i=2
N.SN R
(11.0.37)
où ∫ +∞
1
Qm (x, y) = t exp[− (t2 + x2 )]I0 (xt)dt
y 2
115

est la fonction de Marcum.


Le SNR dans l’équation précédente est celui relatif à une seule impulsion ou bien SN R1 .
Une forme empirique pour estimer SN R1 ,nécessaire pour avoir une Pd donnée, est donné
par la relation d’Albersheim suivante :
[ 4.54 ]
SN R(dB) = −5log10 N + 6.2 + √ .log10 (A + 0.12AB + 1.7B) (11.0.38)
N + 0.44

0.62 Pd
A = ln et B = ln
PF A 1 − Pd
Exemple :

On suppose qu’on veut avoir Pd = 0.9, Pf a = 10−6 pour un radar utilisant une seule
impulsion sur une cible non fluctuante. Le SN R nécessaire dans ce cas est trouvé égale à
13.14 dB. Si le radar intègre 100 impulsions d’une façon non cohérente, alors on calcule le
SNR1 relatif à une seul impulsion qui nous assure la même Pd et Pfa on trouve -1.26 dB,
soit une réduction de 14.4 dB ou bien un gain d’intégration de 14.4 dB.

- Cible fluctuante SW1


la formule exacte est trés compliquée, une approximation est donnée par :
( )N −1 ( )
1 T
Pd ≈ 1 + exp − (11.0.39)
N.SN R 1 + N.SN R
Cette approximation est valable si PF A < 1 et N.SN R > 1, ce qui est presque toujours le
cas en pratique.

- Cible fluctuante SW2

Dans ce cas la Pd est donnée par


N −1 ( )l
−T /(1+SN R) 1 T
Pd = e (11.0.40)
l=0
l! 1 + SN R

La figure suivante montre la comparaison de la probabilité de détection de cibles non fluc-


tuante et fluctuantes. Pour Pd > 0.5 les cibles non fluctuantes sont plus faciles ä détecter
que les cibles fluctuantes. La fluctuation rend la cible difficile ä détecter dans le sens où elles
116

nécessitent un SNR plus grand pour la même Pd. Les cibles de Swerling 2 et 4 (pulse to
pulse fluctuation) offrent une meilleure détection que les cibles Swerling 1 et (scan to scan
fluctuation). L’inverse se produit pour les Pd < 0.5 mais ce cas n’est pas d’un grand intérêt
en pratique. Intégration binaire

Figure 11.7 – Comparaison des Pd pour les cibles fluctuantes et non fluctuantes avec
intégration cohérente de N=10 impulsions, Pfa=10-8. Détecteur quadratique

C’et une technique utilisée dans les radars Pulse-Doppler qui utilise une détection à
double seuil. Après détection, le signal est comparé à un premier seuil, le résultat est codé
par 1 (présence de cible) ou 0 (absence de cible). Le résultat des comparaisons de N échos
successifs pour la même distance est mis en mémoire et leur somme est comparée à un
deuxième seuil. Si la somme est supérieure ou égal à ce seuil, on décide la présence d’une
cible.
- Intégration binaire
117

C’et une technique utilisée dans les radars Pulse-Doppler qui utilise une détection à
double seuil. Après détection, le signal est comparé à un premier seuil, le résultat est codé
par 1 (présence de cible) ou 0 (absence de cible). Le résultat des comparaisons de N échos
successifs pour la même distance est mis en mémoire et leur somme est comparée à un
deuxième seuil. Si la somme est supérieure ou égal à ce seuil, on décide la présence d’une
cible.

Figure 11.8 – Intégration binaire

11.0.1 Détection à taux de fausse alarme constant : CFAR


Comme on l’a déja vu, le critère de détection le plus utilisé dans le radar est celui de
Neyman-Pearson, qui consiste à fixer la probabilité de fausse alarme à une valeur nominale
PF A = PF Anom , tout en maximisant la probabilité de détection Pd . Le seuil de détection est
alors déterminé à partir de l’expression de la PF A . Par exemple, si on considère le cas du
détecteur quadratique, à partir l’expression de la PF A donnée en (11.0.24) on tire le seuil

λ = −2σ 2 ln PF A (11.0.41)

Le signal reçu Y est alors comparé à ce seuil pour décider de la présence de cible (si Y > λ)
et de son absence (si Y < λ), comme le montre la figure suivante :
Dans le calcul du seuil de détection en (11.0.41), la moyenne m = 2σ 2 du bruit aprés
détecteur (ou bien la variance σ 2 qui est aussi la puissance moyenne du bruit avant détecteur)
est supposée connue a priori. Tant que cette quantité ne change pas, le seuil ainsi calculé
restera fixe et permettera de maintenir la PF A à la valeur désirée. Cependant, dans la réalité,
le radar opère dans un environnement variable, ce qui fait que la moyenne m change, et de
ce fait la PF A change aussi. Ceci est illustré sur la figure suivante, où on a une augmentation
118

0.35

0.3

0.25
cible
seuil
0.2

0.15

bruit
0.1

0.05

0
0 50 100 150 200 250

Figure 11.9 – Détection à seuil fixe

brusque du niveau du bruit qui provoque une augmentation intolérable de la PF A . Pour


ramener celle-ci à sa valeur de consigne, on doit ajuster le seuil de décision. Dans les systèmes
radar relativement anciens, cette opération se faisait manuellement par un opérateur (Fig.
11.11), par contre, dans les systèmes modernes, elle se fait d’une façon automatique. Cette
technique permet alors d’avoir un seuil adaptatif qui suit les changements du niveau du
bruit (Fig. 11.12), ce qui permet de maintenir le taux de fausse alarme constant ou CFAR
(Constant False Alarm Rate).
Nous venons de présenter d’une façon simple la notion de détection CFAR, et pour être
plus rigoureux, nous allons maintenent aborder l’aspect mathématique du problème et arriver
à une définition plus juste de cette notion.
Revenons à l’expression du seuil en (11.0.41), lorsque le paramètre m, qui représente la
moyenne du bruit dans ce cas, est inconnu, il n’est pas possible d’établir le seuil, qui assure
une PF A donnée. Pour résoudre ce problème, nous devons estimer ce paramètre à partir
des observations ou données du radar. L’estimateur le plus utilisé en pratique est celui du
maximum de vraisemblance ou MLE en anglais (Maximum Likelihood Estimate).
Soient N échantillons y1 , y2 , · · · yN du signal sous H0 , i.e, bruit seul, que l’on suppose i.i.d
119

0.5

0.45
bruit

0.4

0.35

0.3
cible
0.25
seuil
0.2

0.15

0.1

0.05

0
0 50 100 150 200 250

Figure 11.10 – Détection à seuil fixe

(indépendants identiquement distribués) ayant une PDF commune donnée par (11.0.23)
1
fYi |H0 (yi | H0 ) = exp(−yi /m), yi ≥ 0 (11.0.42)
m
où m = 2σ 2 est le paramètre à estimer.
La fonction de vraisemblance est donnée par
( )

N
1 1 ∑
N
L(m) = fY |H0 (y | H0 ) = fYi |H0 (yi | H0 ) = N exp − yi (11.0.43)
i=1
m m i=1

Le MLE de m est la valeur qui maximise cette fonction ou son logarithme :

1 ∑
N
log L(m) = −N log m − yi (11.0.44)
m i=1
c’est la solution de
∂ log L(m)
=0
∂m
ce qui donne
1 ∑
N
m̂ = yi (11.0.45)
N i=1
120

0.5

0.45
bruit

0.4

0.35

0.3
cible
0.25
seuil ajusté
0.2

0.15

0.1

0.05

0
0 50 100 150 200 250

Figure 11.11 – Détection à seuil ajusté

qui n’est rien d’autre que la simple moyenne arithmétique des échantillons. On peut montrer
aussi que cet estimateur est efficace (sa variance atteint la bande de Cramer-Rao).
Le problème qui se pose maintenant, est comment obtenir les N échantillons du bruit (ou
clutter) nécessaires pour l’estimation ? Une approche possible, est d’utiliser les échantillons
provenant des cellules de résolution qui entourent la cellule sous test (CUT : Cell Under
Test). C’est cette technique qui est utilisée dans le detecteur CA-CFAR (Cell Averaging-
CFAR) de la Fig. 11.13 ; où le contenu Y de la CUT est comparé au seuil adaptatif T Z, avec

Z= N i=1 Yi et T est un facteur appelé "multiplicateur du seuil", choisi pour fixer la PF A à

la valeur désirée. Notons que le facteur 1/N de la moyenne arithmétique peut être incorporé
dans T .

- Calcul de la probabilité de fausse alarme :

La PF A est définie par la probabilité que le bruit tout (hypoyhèse H0 ) seul dépasse le seuil,
i.e :
PF A = P r [Y > T Z | H0 ] (11.0.46)
121

70

60 cible 2 seuil adaptatif

50

40
clutter

30
cible 3

20
cible 1

10

0
100 200 300 400 500 600 700

Figure 11.12 – Détection à seuil adaptatif

Comme Z est une variable aléatoire, on peut écrire

PF A = EZ {P r [Y > T Z | H0 ]} (11.0.47)
{∫ +∞ }
1
= EZ exp(−y/m)dy
Tz m
∫ +∞
= exp(−T z/m)fZ (z)dz
−∞
= ΦZ (−T /m)
(11.0.48)

où ∫ +∞
ΦZ (ω) = exp(−ωz)fZ (z)dz (11.0.49)
−∞

est la fonction génératrice des moments (MGF).


Comme

N
Z= Yi
i=1
122

Figure 11.13 – CA-CFAR

et les variables aléatoires Yi sont i.i.d, alors la MGF de Z est le produit des MGFs des Yi .
La MGF de chaque Yi (la même) est donnée par
1
ΦYi (ω) = (11.0.50)
1 − mω
ce qui donne
( )N
1
ΦZ (ω) = (11.0.51)
1 − mω
ce qui donne alors
( )N
1
PF A = (11.0.52)
1+T
et
−1/N
T = PF A −1 (11.0.53)
- Remarque importante :
L’expression de la probabilité de fausse alarme est indépendante du paramètre inconnu m du
bruit (ou clutter). Même si ce paramètre change, ce qui est souvent le cas en pratique, lors du
balayage de l’espace par le radar, la PF A , quat à elle, reste constante. C’est la définition
du CFAR.
- Calcul de la probabilité de détection :

Pd = EZ {P r [Y > T Z | H1 ]}
{∫ +∞ }
= EZ fY |H1 (y|H1 ) dy (11.0.54)
Tz
123

Le calcul nécéssite le modèle de fluctuation de la cible pour déterminer fY |H1 (y|H1 ) .


Si par exemple on considère le modèle de fluctation Swerling 1, alors on peut écrire :
[ ]
1 y
fY |H1 (y | H1 ) = 2 exp − 2 (11.0.55)
2σ (1 + SN R) 2σ (1 + SN R)
où SN R est le rapport signal sur bruit.
Tout calcul fait, on trouve
( )N ( )N
1 1 + SN R
Pd = T
= (11.0.56)
1+ 1+SN R
1 + SN R + T

La figure (11.14) montre l’évolution de la probabilité de détection en fonction du SN R pour

Figure 11.14 – PD en fonction du SNR, du CA-CFAR pour différentes valeurs de N

plusieurs valeurs du nombre de cellules des donnéessecondaires N . On remarque que lorsque


N augmente, la Pd augmente. Ce qui peut être expliqué par le fait que lorsque N augmente
l’estimateur (11.0.45) tend vers la vraie valeur de m. Seulement en pratique, on est souvent
limité en N , parceque lorsqu’on augmente le nombre de cellules secondaires, on s’éloigne de
la cellule sous test et les échantillons deviennent non représentatif de celle-ci. De plus, il y a
124

aussi le risque d’apparition de cibles interférentes ou tout autres types de non homogeneités.

Vous aimerez peut-être aussi