Vous êtes sur la page 1sur 119

Christian JUTTEN

Dtection, Estimation, Information.

Notions de base et exercices

Universit Joseph Fourier - Polytech Grenoble Cours de troisime anne du dpartement 3i Options Images et Signaux et Automatique Septembre 2007

Table des matires


1 Introduction 1.1 Problmes de dtection . . . . . . . . . . . . . . . . 1.1.1 Dtection dun signal connu . . . . . . . . . 1.1.2 Dtection dun signal inconnu . . . . . . . . 1.1.3 Dtection dun signal alatoire . . . . . . . . 1.1.4 Quelques exemples . . . . . . . . . . . . . . 1.2 Problmes destimation . . . . . . . . . . . . . . . . 1.2.1 Estimation dun signal connu . . . . . . . . 1.2.2 Estimation dun signal inconnu . . . . . . . 1.2.3 Estimation dun signal alatoire dans du bruit 1.2.4 Quelques exemples . . . . . . . . . . . . . . 1.3 Approche . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Systme linaire invariant . . . . . . . . . . 1.3.2 Systme non linaire . . . . . . . . . . . . . 1.3.3 Approche structure ou non . . . . . . . . . 1.4 Notations . . . . . . . . . . . . . . . . . . . . . . . 1.5 Rfrences . . . . . . . . . . . . . . . . . . . . . . . 1.6 Plan du document . . . . . . . . . . . . . . . . . . . 5 5 5 6 7 7 8 8 9 9 9 10 10 11 12 12 12 13

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

I Thorie de la Dtection
2 Dtection binaire 2.1 Critre de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Minimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . 2.2.3 Logarithme du rapport de vraisemblance . . . . . . . . . . . . . 2.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Exemple 1 : Dtection dun signal dterministe dans du bruit . . . 2.3.2 Exemple 2 : Dtection dun signal alatoire continu dans du bruit 2.3.3 Exemple 3 : Dtection dun signal alatoire discret dans du bruit . 2.4 Choix de cots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Cots uniformes . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Communications numriques . . . . . . . . . . . . . . . . . . . 2.4.3 Probabilits a priori inconnues. . . . . . . . . . . . . . . . . . . 2.5 Courbes de risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15
19 19 20 21 21 22 22 22 23 25 25 26 26 26 27

2.6 2.7 2.8 2.9

Critre MINIMAX . . . . . . . . . . . . . . . . . . . . . . Test de Neyman-Pearson . . . . . . . . . . . . . . . . . . . Statistique sufsante . . . . . . . . . . . . . . . . . . . . . Performance du test . . . . . . . . . . . . . . . . . . . . . . 2.9.1 Performance de lexemple 1 . . . . . . . . . . . . . 2.9.2 Performances pour la minimisation de lerreur totale. 2.9.3 Performance de lexemple 3 . . . . . . . . . . . . . 2.9.4 Proprits des courbes COR . . . . . . . . . . . . . 2.10 Rsum sur la dtection binaire . . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

28 29 30 30 31 33 33 35 37 39 39 40 40 41 42 44 44 44

3 Dtection non binaire 3.1 Critre de Bayes dans le cas M -aire . . . . . . . . . . . . . . . . . . 3.2 Critre de Bayes dans le cas ternaire . . . . . . . . . . . . . . . . . . 3.3 Test dans le cas ternaire . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Reprsentation graphique dans le plan (2 , 1 ) . . . . . . . . . . . . 3.4.1 Reprsentation graphique dans le cas particulier Cij = 1 ij 3.4.2 Interprtation des quations dans le cas Cij = 1 ij . . . . . 3.5 Rsum sur lestimation ternaire . . . . . . . . . . . . . . . . . . . . 3.6 Extension au cas M -aire . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

II Thorie de lestimation
4 Estimation dun paramtre alatoire 4.1 Principe et fonctions de cot . . . . . . . . . . 4.2 Calcul pour le cot quadratique . . . . . . . . 4.3 Calcul pour le cot erreur absolue . . . . . . . 4.4 Calcul pour le cot uniforme . . . . . . . . . . 4.5 Equation du maximum a posteriori (MAP) . . . 4.6 Exemple . . . . . . . . . . . . . . . . . . . . . 4.6.1 Enonc . . . . . . . . . . . . . . . . . 4.6.2 Calcul de a ls (r) . . . . . . . . . . . . . 4.6.3 Calcul de a abs (r) et de a map (r) . . . . 4.7 Invariance de lestimateur . . . . . . . . . . . . 4.8 Exemple dune observation non linaire . . . . 4.8.1 Enonc . . . . . . . . . . . . . . . . . 4.8.2 Solution . . . . . . . . . . . . . . . . . 4.9 Estimation dune loi de Poisson . . . . . . . . 4.9.1 Enonc . . . . . . . . . . . . . . . . . 4.9.2 Solution . . . . . . . . . . . . . . . . . 4.9.3 Remarques . . . . . . . . . . . . . . . 4.10 Rsum de lestimation de paramtres alatoires 5 Estimation de paramtres dterministes 5.1 Principe et qualit de lestimation . 5.2 Maximum de vraisemblance . . . . 5.3 Ingalits de Cramer-Rao . . . . . . 5.3.1 Thorme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45
47 47 48 49 49 50 51 51 51 53 53 54 54 54 55 55 55 57 57 59 59 60 60 60

. . . . 2

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

5.4 5.5 5.6

5.7 5.8

5.3.2 Dmonstration de la premire ingalit . . . . . 5.3.3 Dmonstration de la seconde ingalit . . . . . . Remarques . . . . . . . . . . . . . . . . . . . . . . . . Variance dun estimateur non biais et efcace . . . . . . Applications des ingalits de Cramer-Rao . . . . . . . . 5.6.1 Paramtre avec bruit additif gaussien . . . . . . 5.6.2 Loi de Poisson . . . . . . . . . . . . . . . . . . 5.6.3 Observation non linaire . . . . . . . . . . . . . Liens entre estimateurs ML et MAP . . . . . . . . . . . Proprits de lestimateur du maximum de vraisemblance

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

61 62 62 63 63 63 65 66 67 68 71 71 71 73 73 73 73 74

6 Estimation de paramtres multiples 6.1 Estimation . . . . . . . . . . . . . . . . . . 6.1.1 Estimation de vecteurs alatoires . . 6.1.2 Estimation de vecteurs dterministes 6.2 Performance . . . . . . . . . . . . . . . . . 6.2.1 Biais de lestimateur . . . . . . . . 6.2.2 Dispersion de lestimateur . . . . . 6.2.3 Dispersion dans le cas gaussien . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

III Thorie de linformation


7 Grandeurs fondamentales de la thorie de linformation 7.1 Entropie . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Dnitions . . . . . . . . . . . . . . . . . . 7.1.2 Proprits . . . . . . . . . . . . . . . . . . . 7.1.3 Exemples . . . . . . . . . . . . . . . . . . . 7.2 Entropies jointes et conditionnelles . . . . . . . . . . 7.2.1 Dnitions . . . . . . . . . . . . . . . . . . 7.2.2 Relations entre entropies . . . . . . . . . . . 7.2.3 Proprits et cas particulier . . . . . . . . . . 7.2.4 Exemple 1 . . . . . . . . . . . . . . . . . . 7.2.5 Exemple 2 . . . . . . . . . . . . . . . . . . 7.3 Entropies relatives et information mutuelle . . . . . . 7.3.1 Dnitions . . . . . . . . . . . . . . . . . . 7.3.2 Relations avec les entropies . . . . . . . . . 7.4 Ingalit de Jensen . . . . . . . . . . . . . . . . . . 7.4.1 Thorme . . . . . . . . . . . . . . . . . . . 7.4.2 Consquences . . . . . . . . . . . . . . . . . 7.5 Exercice : entropies dune exprience . . . . . . . . 7.5.1 Enonc . . . . . . . . . . . . . . . . . . . . 7.5.2 Existence dune solution en trois peses . . . 7.5.3 Dtermination de la premire pese . . . . . 7.5.4 Dtermination de la seconde pese . . . . . . 3

77
79 79 79 79 79 80 80 80 81 81 82 84 84 84 85 85 86 87 87 87 87 88

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

8 Codage et compression de donnes 8.1 Exemples de codes . . . . . . . . . . . . . . . . . 8.1.1 Dnitions . . . . . . . . . . . . . . . . . 8.1.2 Exemples . . . . . . . . . . . . . . . . . . 8.1.3 Codes rguliers, dchiffrables et instantans 8.1.4 Exercice . . . . . . . . . . . . . . . . . . . 8.2 Construction de codes . . . . . . . . . . . . . . . . 8.2.1 Ingalit de Kraft . . . . . . . . . . . . . . 8.2.2 Extension et remarque . . . . . . . . . . . 8.2.3 Exemples . . . . . . . . . . . . . . . . . . 8.3 Codes optimaux . . . . . . . . . . . . . . . . . . . 8.3.1 Longueur optimale . . . . . . . . . . . . . 8.3.2 Thorme . . . . . . . . . . . . . . . . . . 8.4 Bornes . . . . . . . . . . . . . . . . . . . . . . . . 8.4.1 Codes mot mot . . . . . . . . . . . . . . 8.4.2 Codes par paquets . . . . . . . . . . . . . 8.4.3 Comparaison de deux codes . . . . . . . . 8.5 Thorme de Mac Millan . . . . . . . . . . . . . . 8.5.1 Thorme . . . . . . . . . . . . . . . . . . 8.5.2 Commentaires . . . . . . . . . . . . . . . 8.6 Codes de Shannon et dHuffman . . . . . . . . . . 8.6.1 Code de Shannon . . . . . . . . . . . . . . 8.6.2 Code dHuffman . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

91 91 91 91 93 94 95 96 96 97 98 98 99 100 100 100 101 101 101 102 102 102 104

IV Travaux dirigs
1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 Dtection binaire 1 . . . . . . . . . . . . . . . . . Dtection binaire 2 . . . . . . . . . . . . . . . . . Dtection binaire dans un espace deux dimensions Dtection ternaire . . . . . . . . . . . . . . . . . . Prdiction dun signal alatoire . . . . . . . . . . . Estimation dun paramtre dterministe . . . . . . Bornes de Cramer-Rao dun estimateur biais . . . Estimation dun processus de Poisson . . . . . . . Estimation de la dure dune exprience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

109
111 111 112 114 115 115 116 116 116

Chapitre 1

Introduction
1.1 Problmes de dtection
Pour illustrer les objectifs des thories de la dtection et de lestimation, considrons lexemple dun systme de communications numriques (Fig. 1.1) destin transmettre un message de la source vers un rcepteur. La source met des mots binaires toutes les T secondes. Le canal de transmission transmet le message. Sa nature, et la faon dont linformation sera transmise, peuvent tre trs variables : l pour une transmission lectrique (tlphone), air pour des transmissions lectromagntiques ou acoustiques, eau pour des transmissions en acoustique sous-marine, bres optiques, etc. Considrons par exemple une transmission radio avec une porteuse sinusodale telle que, pendant T secondes : s(t) = s0 (t) = sin(0 t) s1 (t) = sin(1 t) (1.1)

avec une pulsation connue 0 ou 1 , selon que la source met le mot binaire 0 ou 1 (Fig. 1.2).

1.1.1

Dtection dun signal connu

Dans le meilleur des cas, le signal, aprs transmission dans le canal, arrive avec attnuation mais sans distorsion au niveau du rcepteur. Il suft dun amplicateur pour restituer lamplitude initiale du signal. Cependant, le canal et lamplicateur introduisent du bruit, si bien que le signal reu, r(t) scrit : r(t) = sin(0 t) + n(t) sin(1 t) + n(t).
Canal source metteur Signal squence numrique

(1.2)

F IG . 1.1 Schma dun systme de communication numrique. 5

symboles binaires metteur

signal modul

F IG . 1.2 Schma dun systme avec modulation binaire. Le problme consiste donc dcider, en observant le signal r(t), lequel des deux symboles 0 ou 1 a t mis. Cest donc une problme simple de dtection dun signal connu dans du bruit.

1.1.2

Dtection dun signal inconnu

Supposons maintenant que les oscillateurs dlivrant les signaux s0 (t) et s1 (t) aient un glissement de phase, alors pendant T secondes on observe : r(t) = sin(0 t + 0 ) + n(t) sin(1 t + 1 ) + n(t), (1.3)

o 0 et 1 sont des angles inconnus et constants1 . Mme en absence de bruit, le signal reu nest pas parfaitement connu. Le problme est alors plus complexe que dans le paragraphe prcdent : il sagit de dtecter un signal inconnu (ou paramtres inconnus) dans du bruit. Exemple : cho radar. Le radar met pendant T secondes, avec une certaine priode de rptition Tr , un signal de pulsation 0 , cest--dire : s(t) = sin(0 t), 0, si t [kTr , kTr + T [ sinon. (1.4)

Si une cible immobile2 est prsente, on observe, en rponse s(t) un signal r(t) : r(t) = Ar sin(0 (t ) + r ) + n(t), n(t), si t [kTr + , kTr + T + [ sinon. (1.5)

o Ar est lattnuation qui dpend de la distance de la cible, de sa taille et de son coefcient de rexion, est gal au temps aller-retour entre la cible et la source, r est le glissement de phase en rception, et n(t) est un bruit. On voit quen absence de cible, on observe toujours n(t). Mme sil ny a pas de bruit, lcho est un signal inconnu, puisquil comporte trois paramtres inconnus : lattnuation Ar , le retard et le glissement de phase r .
1 2

Gnralement, les glissements de phase varient lentement dans le temps Il ny a donc pas deffet Doppler

1.1.3

Dtection dun signal alatoire

Quittons lexemple des communications numriques, et considrons maintenant un signal sonar dans lequel on cherche dtecter le signal mis par un navire parmi les signaux mis par dautres btiments et les signaux dorigine biologique mis par les crevettes, les dauphins, les poissons, etc. Le signal mis par le navire est inconnu, il est complexe car d des causes multiples : signaux des moteurs et de transmission, signaux des hlices et de cavitation, bruits produits par lquipage et transmis par la coque, etc. On le modlise donc par un signal alatoire sa (t), et toutes les perturbations sont rsumes par le bruit n(t). On observe donc : r(t) = sa (t) + n(t), n(t), si le navire est prsent, sinon. (1.6)

Cette situation se retrouve dans le traitement de signaux sismiques ou radio-astronomiques, mais aussi pour des communications numriques lorsque les caractristiques sont inconnues. Ce problme est encore plus compliqu, puisquil sagit de dtecter un signal alatoire dans du bruit, cest--dire dans un autre signal alatoire.

1.1.4

Quelques exemples

La dtection est une tape essentielle dans de nombreux problmes. Nous avons voqu des problmes de communications numriques o il sagit de dtecter un signal parmi deux possibles : il sagit de dtection binaire. Les communications numriques peuvent utiliser des codes plus compliqus, si bien qu chaque instant un signal parmi 4, 16, voire 256 peut tre attendu : on parle alors de dtection M -aire, avec M = 4, M = 16 ou M = 256. Les problmes de classication sont galement des problmes de dtection gnralement M aire. En reconnaissance optique de caractres, il sagit de dtecter un caractre alphanumtique parmi 26 lettres (en distinguant ventuellement les majuscules), plus 10 chiffres et les signes de ponctuation. Dans le cas le plus simple, on connait le type de caractres (par exemple, la fonte Time Roman 11pt) : on connat donc parfaitement les signaux possibles. Dans le cas o la taille de la fonte est inconnue, la dtection doit tre invariante ; cest aussi le cas pour les classieurs multi-fontes. En reconnaissance de la parole (ou de locuteur), il sagit de dtecter un mot (ou un locuteur) partir dun signal de parole. Dans la plupart des cas, le signal est multi-dimensionnel. Dans le cas de signaux de communication, on observe le signal sur un temps T , ce qui permet de mesurer N chantillons. Pour un signal de parole de 100 ms, chantillonn entre 10 et 20 kHz, on mesure entre 1000 et 2000 chantillons. Il est illusoire de travailler dans un espace qui comporte autant de dimensions3 . La premire tape consiste extraire un nombre rduit des caractristiques pertinentes (features en anglais) qui seront discriminantes. De la pertinence de ces caractristiques dpendront les performances du classieur. La mme tape de codage qui permet de rduire la dimension de lobservation de faon judicieuse est primordiale en reconnaissance de caractres, analyse de scnes, etc. Certains dtecteurs sont dj tout fait usuels : cest le cas des logiciels de lecture optique associs nimporte quel scanner. Dautres sont encore concevoir : par exemple, larchivage et
En raison de la maldiction de la dimensionalit, les donnes sont gnralement trop parses dans un espace de dimension suprieure 5 pour que les estimations aient un sens
3

la recherche de donnes complexes (images, sons, squences audio-vido, etc.) dans des bases de donnes de trs grandes tailles (par exemple, sur Internet) suppose de savoir indexer automatiquement des donnes pour les ranger et les retrouver efcacement : lindexation est le calcul de caractristiques pertinentes de ces donnes. On voudrait aboutir des systmes capables de rechercher (et vite) des donnes partir dune requte du style : je veux les images de coucher de soleil en montagne ou bien une recherche par le contenu partir dune image de coucher de soleil en montagne, cest--dire : je veux les images qui ressemblent celle-ci. Pour rsumer, nous avons rassembl ces exemples par niveau de complexit dans le tableau ci-dessous.

Rsum des problmes de classication

Complexit
Niveau 1 Dtection dun signal connu dans du bruit Niveau 2 Dtection dun signal inconnu dans du bruit Niveau 3 Dtection dun signal alatoire dans du bruit

Types de problmes
Communications numriques synchrones Reconnaissances de formes (connues) Dtection dune cible en radar ou sonal actifs Classication invariante Communication sans rfrence de phase Reconnaissance de la parole pour un locuteur connu Communications numriques Reconnaissance multi-locuteurs Radar ou sonar passifs, signaux sismiques, Radio-astronomie

1.2 Problmes destimation


On peut galement considrer plusieurs niveaux de complexit, similaires, dans les problmes destimation. En dtection, il sagit de dcider dune hypothse parmi un nombre ni M dhypothses possibles. En estimation, il sagit dvaluer la valeur dune quantit continue (au moins par intervalles) et qui peut prendre une innit de valeurs.

1.2.1

Estimation dun signal connu

Considrons de nouveau un systme de communications, dans lequel la source met un signal analogique, A(t), chantillonn Te . A chaque instant kTe , on mesure lamplitude A(kTe ) = Ak qui est transmise vers le rcepteur et perturbe par les bruits du canal, de lmetteur et du rcepteur. Ainsi, avec un metteur utilisant une modulation damplitude, le signal mis est de la forme : s(t, Ak ) = Ak sin(c t), t [kTe , (k + 1)Te [. Dans le cas dune modulation de frquence, on aura : s(t, Ak ) = sin(c t + Ak t), t [kTe , (k + 1)Te [. 8 (1.8) (1.7)

Sur le rcepteur, en tenant compte des divers bruits, on a : r(t) = s(t, Ak ) + n(t), t [kTe , (k + 1)Te [. (1.9)

Le signal reu, r(t) dpend donc de lamplitude A du signal. Si lon connait parfaitement la modulation : type et paramtre (c ), et si lapplication entre A et s(t, A) est bijective, cest un problme destimation (des paramtres) dun signal connu dans du bruit.

1.2.2

Estimation dun signal inconnu

Considrons de nouveau le signal reu en rponse une mission radar, pour une cible qui se dplace. Le signal reu est similaire lquation (1.5), mais avec un effet Doppler qui se traduit par une variation de pulsation d : Ar sin((0 + d )(t ) + r ) + n(t), n(t), si t [kTr + , kTr + T + [ sinon.

r(t) =

(1.10)

Ici, on sait quil y a une cible et on dsire valuer sa distance et sa vitesse (et mme ventuellement sa taille et son type) partir de lestimation de et d . Dans cet exemple, on remarque quil existe, en plus des paramtres utiles, des paramtres supplmentaires inconnus, Ar et r , qui vont rendre lestimation difcile. Le problme est donc lestimation dun signal inconnu dans du bruit.

1.2.3

Estimation dun signal alatoire dans du bruit

Dans ce cas, le rcepteur mesure : r(t) = sa (t, A) + n(t), (1.11)

o sa (t, A) est la ralisation dun processus alatoire. Ce type de situations est frquent en radar ou sonar passif4 (estimation de la vitesse dun avion ou dun navire), en radio-astronomie (estimation de la vitesse dun object cleste), etc.

1.2.4

Quelques exemples

Lestimation est une tape essentielle, qui succde gnralement la dtection (inutile destimer la vitesse dune cible sil ny a pas de cible !). Aux problmes de dtection voqus ci-dessus, on peut associer des problmes destimation. Comme en dtection, dans la plupart des cas et pour les mmes raisons, le signal est multidimensionnel. La relation entre lobservation et les grandeurs que lon cherche estimer est aussi essentielle. Certains systmes destimation sont tout fait usuels : cest le cas des systmes radar qui sont capables destimer avec prcision la position et la vitesse des avions.
4

cest--dire sans mission dun signal

Pour rsumer, nous avons rassembl ces exemples par niveau de complexit dans le tableau ci-dessous.

Rsum des problmes destimation

Complexit
Niveau 1 Estimation dun signal connu dans du bruit Niveau 2 Estimation dun signal inconnu dans du bruit Niveau 3 Estimation dun signal alatoire dans du bruit

Types de problmes
Systmes de communications modulation damplitude, de frquence, etc. connues Vitesse, distance en radar ou sonal actifs Communication analogique avec modulation damplitude, de frquence, etc. inconnues. Estimation des paramtres dun spectre Vitesse en radio-astronomie Paramtres dune cible en radar ou sonar passifs ou en sismique.

1.3 Approche
Il est vident, comme nous lavons dj soulign, que dans les problmes de dtection comme ceux destimation, on trouve des aspects alatoires, diffrents niveaux de complexit. De faon naturelle, ceci conduit une approche statistique. Par ailleurs, nous pourrons considrer un cadre structur ou non. Dans le cadre structur, la solution est recherche dans le cadre dun modle paramtrique. Dans la suite, on considrera deux exemples, le premier dans lequel le modle est un systme linaire invariant, le second dans lequel le modle est non linaire.

1.3.1

Systme linaire invariant

Lentre r(t) dun systme linaire invariant, de rponse impulsionnelle h( ), vaut : r(t) = s(t) + n(t), si 0 t T 0, sinon. (1.12)

Le signal dterministe s(t) a une nergie connue :


T

Es =
0

s2 (t)dt,

(1.13)

et le bruit n(t) est suppos centr, blanc et de covariance : n (t, u) = E [n(t)n(t u)] = N0 (u). 10 (1.14)

En absence de bruit, la sortie du systme linstant T serait :


T

so (T ) =
0

h( )s(T )d.

(1.15)

De mme, la rponse au bruit seul serait :


T

no (T ) =
0

h( )n(T )d.

(1.16)

Comme critre de qualit du systme, on peut dnir le rapport signal bruit en sortie :
S N

= =

s2 o (T ) E [n2 o (T )]
T T
0 0

T
0

h( )s(T )d
2

h( )n(T )h(u)n(T u)d du


T
0

T T
0 0

h( )s(T )d
2

h( )h(u)E n(T )n(T u) d du


0

(1.17)

= =

T T
0

h( )s(T )d
2

T
0

h( )h(u)N0 (u )d du

h( )s(T )d T h2 ( )d N0 0

On peut alors choisir le systme h( ) qui maximise le rapport signal bruit. Cet exemple montre que la solution du problme repose sur trois ingrdients : une structure : ici, nous avons choisi un systme linaire invariant, un critre : ici, cest le rapport signal bruit, des informations a priori : sur le signal (pour calculer s2 o (T )) et sur le bruit (covariance). Des informations supplmentaires sur le signal, par exemple sa densit de probabilit, ne seraient daucune utilit. Rciproquement, si on avait moins dinformations, on ne pourrait plus de rsoudre le problme. De plus, si nous changions le critre, les informations requises seraient diffrentes, ainsi peuttre que la solution. Ainsi, les trois ingrdients : structure, critre et information a priori, sont fortement lies. Mentionnons galement dans la mise en uvre pratique un quatrime ingrdient : lalgorithme doptimisation du critre.

1.3.2

Systme non linaire

La structure nest pas limite un modle linaire. Considrons par exemple un systme non linaire sans mmoire (la sortie linstant t ne dpend que de lentre linstant t) dont lentre vaut r(t) = s(t) + n(t), o s(t) est un signal alatoire de densit de probabilit connue ps (u) et n(t) est un bruit de densit connue pn (v ). Le systme est un dispositif quadratique dont la sortie y (t) sexprime par : y (t) = a0 + a1 r(t) + a2 r2 (t). (1.18) 11

On dtermine le systme, cest--dire ses coefcients a0 , a1 et a2 , en minimisant lerreur quadratique moyenne : e = E [(y (t) s(t))2 ], (1.19) = E [(a0 + a1 r(t) + a2 r2 (t) s(t))2 ].

Cet exemple propose une autre approche structure et montre bien les liens entre la structure, le critre et les informations. En effet, un systme linaire invariant ou un modle paramtrique non linaire se formalisent avec des quations diffrentes, minimiser lerreur quadratique moyenne (1.19) ne requiert pas du tout les mmes informations que maximiser le rapport signal bruit.

1.3.3

Approche structure ou non

Dans le cas non structure, on nimpose pas de structure au systme recherch, seulement un critre. Lavantage de cette mthode est que, si nous savons trouver une solution, ce sera la meilleure solution vis--vis de ce critre. La difcult est que, en raison de labsence de structure, on doit disposer dinformations trs compltes sur le signal et le bruit. Au contraire, les approches structures ncessitent moins dinformations sur le signal et le bruit. En revanche, les performances sont fortement lies la qualit du modle.

1.4 Notations
Dans ce document, nous noterons les quantits scalaires par des caractres simples et les vecteurs en caractres gras : par exemple, r correspond un scalaire alors que r est un vecteur. Pour simplier les notations, nous ne distinguerons pas (en gnral) une variable alatoire (scalaire) R ou un vecteur alatoire R de leur ralisations r ou r, respectivement : toutes seront notes en minuscules. La densit conditionnelle de r tant donn une quantit (variable, paramtre, hypothse) a sera note p(r/a). Une variable alatoire s gaussienne, de moyenne m et de variance 2 sera note de faon compacte s N (m, 2 ). Les intgrales, intervenant notamment dans le risque et dans les moyennes, qui sont souvent des intgrales multiples, seront notes avec un seul signe ; llment diffrentiel sera scalaire, par exemple dr, pour une intgrale simple, ou vectoriel, par exemple dr, pour une intgrale multiple.

1.5 Rfrences
De trs nombreux ouvrages ont t crits sur ces thories et les outils ncessaires leur comprhension. Quelques rfrences disponibles la bibliothque universitaire et celle de Polytech sont proposes ci-dessous.

Rappels de probabilits et de statistiques


Bibliothque Polytech H. Stark, Probability, Random Processes, and Estimation Theory for Engineers, Prentice Hall, 12

1994 Bibliothque ENSERG B. Picinbono, Signaux alatoires, Tomes 1 et 2, Dunod universit, 1994 A. Papoulis, Signal Analysis, McGraw-Hill, 1977

Thories de la dtection et de lestimation


Bibliothque Polytech D. Declecq, Signaux et systmes en questions (IV) Dtection et estimation des signaux, Herms, 1996 M. Akay, Detection and estimation methods for biomedical signals, California Academic Press, 1996 A. Quinquis, C.-S. Maroni, Dtection et estimations des signaux : exercices et ptoblmes corrigs, Herms, 1999 M. Kunt, G. Coray, Granlund G. H., J.-P. Haton, Reconnaissance de formes et analyse de scnes, Presses polytechniques et universitaires romandes, CNET-ENST, 2000 Bibliothque Sciences R. Deutsch, Estimation Theory, Prentice Hall, 1965 M. Gugliemi, Signaux alatoires : modlisation, estimation, dtection, Herms, 2004 J. Hrault, C. Jutten, Rseaux neuronaux et traitement du signal, Herms, 1994 Bibliothque ENSERG L. L. Scharf, Statistical Signal Processing - Detection, Estimation and Time Series Analysis, Addison-Wesley, 1991 H. Van Trees, Detection, Estimation and Modulation Theory, John Wiley and Sons, 1968 (Tomes 1, 2 et 3)

Thories de linformation
Bibliothque Sciences L. Brillouin, La science et la thorie de linformation, Masson, 1959 R. McEliece, The theory of information and coding (student edition), Cambridge University Press, 2003 J. F. Young, Information theory, Butterworth, 1971 Bibliothque ENSERG G. Battail, Thorie de linformation - Application aux techniques de communication, Masson, 1997 T. M. Cover and J. A. Thomas, Elements of information theory, Wiley, 1991

1.6 Plan du document


Outre cette introduction, ce cours est partag en 4 parties. La premire concerne la thorie de la dtection, la seconde la thorie de lestimation, la troisime la thorie de linformation. Ces trois 13

parties de cours sont suivies dune quatrime partie, qui est un recueil des exercices proposs en travaux dirigs.

14

Premire partie

Thorie de la Dtection

15

Bruit n(t) mesure r(t)

Source discrte

symboles

Dnitions
Introduisons dabord les dnitions gnrales de la thorie de la dtection.

Source
La source gnre le signal du ct de lmetteur. En dtection, la source est discrte, cest-dire que le signal mis ne peut prendre quun nombre ni de valeurs : source binaire : 2 hypothses (valeurs) notes H0 et H1 , source M -aire : M hypothses (valeurs) notes H0 , . . . , HM 1 . Exemples. Communications numriques : 2 symboles 0 (H0 ) et 1 (H1 ) sont mis, Radar : absence (H0 ) ou prsence (H1 ) dune cible, Classication de locuteurs parmi 6 hypothses : 3 nationalits (Allemand, Anglais, Franais) 2 genres (homme ou femme)

Loi de probabilit
La dcision optimale ncessite de connatre la loi de probabilit du signal reu. Ce signal, illustr la gure ci-dessus, suit la relation : si H0 est vraie, s0 (t) + n(t), ... r(t) = sM 1 (t) + n(t), si HM 1 est vraie.

Si lon connait la loi de probabilit du bruit, on peut dduire les lois de probabilit conditionnelles, sachant les diffrentes hypothses Hi . Supposons que lhypothse Hi gnre le signal si (t), et que le bruit n(t) admette la densit de probabilit pn (u), on peut crire : p(r/Hi ) = pn (r si ). La loi de probabilit du signal observ est lensemble des lois conditionnelles p(r/Hi ), i = 1, . . . , M 1.

Espace dobservation
Pour une valeur donne (hypothse) de la source, on rpte gnralement la mesure. Chaque observation est ainsi un ensemble de k mesures que lon peut associer un vecteur r dans Rk , lespace dobservation. La dimension de lespace dobservation k est donc indpendante du nombre M dhypothses. On supposera simplement que ce nombre k est ni. 16

Rgle de dcision
A partir des mesures dans lespace dobservation, on doit nalement dcider quelle est lhypothse la plus vraisemblable, au moyen dune rgle qui assigne une hypothse chaque point de lespace dobservation. De faon plus globale, la rgle de dcision partitionne lespace dobservation en M rgions (qui peuvent tre non connexes), chacune associe une hypothse.

Organisation
Cette partie consacre la thorie de la dtection est organise en trois chapitres : cette introduction, un chapitre sur la dtection binaire et un chapitre qui gnralise la dtection M -aire et dtaille le cas ternaire (M = 3).

17

Chapitre 2

Dtection binaire
Dans ce chapitre, on suppose des sources binaires, cest--dire que deux hypothses (valeurs), H0 et H1 , sont possibles avec des probabilits a priori, P0 et P1 . Chaque observation r est un vecteur de Rk , dont on suppose connues les lois de probabilit conditionnelles p(r/H0 ) et p(r/H1 ). Dans le cas binaire, on a 2 hypothses possibles lmission et 2 dcisions possibles la rception, soit 4 situations diffrentes : 1 : H0 est vraie et on dcide H0 , 2 : H0 est vraie et on dcide H1 , 3 : H1 est vraie et on dcide H0 , 4 : H1 est vraie et on dcide H1 . Les situations 1 et 4 correspondent des bonnes dcisions, les deux autres des dcisions erronnes. La rgle de dcision que lon cherche concevoir doit bien entendu donner le plus souvent possible de bonnes dcisions. Pour cela, on associe un critre qui mesure la qualit de la dcision. Dans la suite de cette partie, nous tudierons trois critres : le critre de Bayes, le critre MINIMAX et le critre de Neyman-Pearson.

2.1 Critre de Bayes


On attribue chacune des quatre situations : on dcide Hi alors que Hj est vraie, un cot Cij . A la rgle de dcision, on associe un cot moyen, appel risque de Bayes et not RBayes : RBayes = C00 P0 Pr(choisir H0 /H0 vraie) +C10 P0 Pr(choisir H1 /H0 vraie) +C01 P1 Pr(choisir H0 /H1 vraie) +C11 P1 Pr(choisir H1 /H1 vraie). (2.1)

Le critre de dcision doit permettre de choisir entre les deux hypothses H0 et H1 . Ceci revient partager lespace dobservation, not Z (lensemble des points r Rk ), en deux rgions : Z0 associe la dcision H0 et Z1 associe la dcision H1 (Figure 2.1). On peut donc crire chaque probabilit Pr(choisir Hi /Hj vraie) comme lintgrale (multiple, dans Rk ) de la densit conditionnelle p(r/Hj ) sur le domaine Zi : Pr(choisir Hi /Hj vraie) =
Zi

p(r/Hj )dr.

(2.2)

19

on choisit H0 Z0 on choisit H1 Z1 p(r/H1) espace dobservation Z

p(r/H0) source

F IG . 2.1 La loi de dcision vise partitionner lespace dobservation. Le risque de Bayes scrit alors : RBayes = C00 P0 Z0 p(r/H0 )dr +C10 P0 Z1 p(r/H0 )dr +C01 P1 Z0 p(r/H1 )dr +C11 P1 Z1 p(r/H1 )dr.

(2.3)

Les domaines Z0 et Z1 formant une partition, on a Z = Z0 Z1 et Z0 Z1 = . On peut donc crire les intgrales en les dcomposant en deux termes, en notant Z0 = Z \Z1 o \ reprsente la diffrence de deux ensembles. Ainsi :
Z0

p(r/Hj )dr = =

Z \Z1

p(r/Hj )dr Z p(r/Hj )dr

Z1

p(r/Hj )dr

(2.4)

De plus, lintgrale dune densit sur le domaine tout entier tant gale 1, on a nalement : p(r/Hj )dr = 1 p(r/Hj )dr.
Z1

(2.5)

Z0

En utilisant (2.4), on peut crire lquation (2.3) sous forme dintgrales sur les domaines Z et Z0 uniquement : RBayes = C00 P0 Z0 p(r/H0 )dr +C10 P0 Z \Z0 p(r/H0 )dr (2.6) +C01 P1 Z0 p(r/H1 )dr +C11 P1 Z \Z0 p(r/H1 )dr. En regroupant les termes constants, obtenus en utilisant la proprit (2.5), et ceux sous lintgrale, on arrive : RBayes = [C11 P1 + C10 P0 ] + Z0 [P1 (C01 C11 )p(r/H1 ) P0 (C10 C00 )p(r/H0 )]dr. (2.7)

2.2 Rapport de vraisemblance


Dans (2.7), le premier terme de droite entre crochets correspond un cot xe ; le second, sous lintgrale, est variable selon le domaine Z0 . 20

Dans le cas gnral, les cots Cij sont quelconques, mais le cot relatif une dcision juste doit tre naturellement plus faible que celui relatif une dcision erronne : C10 > C00 , C01 > C11 . (2.8)

Ainsi, dans le terme entre crochet lintrieur de lintgrale (lintgrande), les coefcients (C01 C11 ) et (C10 C00 ) sont supposs positifs.

2.2.1

Minimisation

Pour minimiser lintgrale, on construit Z0 de sorte que chaque point r Z0 minimise lintgrale, cest dire corresponde un intgrande ngatif. Tous les points r Z0 doivent donc satisfaire : [P1 (C01 C11 )p(r/H1 ) P0 (C10 C00 )p(r/H0 )] < 0 (2.9) P1 (C01 C11 )p(r/H1 ) < P0 (C10 C00 )p(r/H0 ) soit nalement : p(r/H1 ) P0 (C10 C00 ) < . p(r/H0 ) P1 (C01 C11 ) (2.11) (2.10)

Rciproquement, pour minimiser le risque de Bayes, les points r Z1 doivent satisfaire lingalit : P0 (C10 C00 ) p(r/H1 ) > . (2.12) p(r/H0 ) P1 (C01 C11 )

2.2.2

Rapport de vraisemblance

On appelle rapport de vraisemblance, et on note (r) la quantit : (r) = p(r/H1 ) . p(r/H0 ) (2.13)

On voit que (r) (grand lambda) est une variable alatoire positive une dimension, qui ne dpend que des deux densits de probabilit conditionnelles (cest leur rapport). La dcision optimale (qui minimise le critre de Bayes) est alors obtenue en comparant le rapport de vraisemblance, (r), un seuil scalaire, not (eta) : P0 (C10 C00 ) = , (2.14) P1 (C01 C11 ) qui ne dpend que des probabilits a priori et des cots. On rassemble les deux quations (2.11) et (2.12) sous la notation compacte :
H1

(r) .
H0

(2.15)

Ce test est appel test du rapport de vraisemblance (en anglais likelihood ratio test). 21

2.2.3

Logarithme du rapport de vraisemblance

Le rapport de vraisemblance tant une quantit positive, et le logarithme tant une fonction croissante de R+ dans R, on peut aussi crire le critre de dcision sous la forme :
H1

ln (r) ln .
H0

(2.16)

Cette forme est trs pratique lorsque les densits conditionnelles, qui interviennent dans le rapport de vraisemblance, sexpriment sous forme de produits.

2.3 Exemples
Dans ce paragraphe, nous illustrons lutilisation du test de rapport de vraisemblance sur trois exemples.

2.3.1

Exemple 1 : Dtection dun signal dterministe dans du bruit

Enonc. On mesure une tension lectrique qui vaut m Volts sous lhypothse H1 et 0 Volt sous lhypothse H0 . Une observation est constitue de k mesures prleves toutes les Te secondes. On suppose que la valeur du signal ne change pas pendant la dure de lobservation. Chaque mesure est pollue par un bruit additif gaussien, centr, de mme variance 2 et indpendant du bruit de la mesure prcdente. Dterminer le test du rapport de vraisemblance. Solution. Daprs lnonc, pour une mesure i, on obtient : ri = m + ni , si H1 , 0 + ni , si H0 . (2.17)

On connat par ailleurs la loi de probabilit de chaque chantillon de bruit : pn (u) = 1 u2 exp( 2 ) 2 2 (2.18)

On peut facilement calculer les deux lois conditionnelles. Sous lhypothse H0 , on a : p(ri /H0 ) = pn (ri ) = Sous lhypothse H1 , on a : p(ri /H1 ) = pn (ri m) (ri m)2 1 = 2 ). exp( 2 2 (2.20)
1 2 r2

i exp( 2 2 ).

(2.19)

Lobservation est constitue de k mesures. Cest donc un vecteur k composantes : r = (r1 , r2 , . . . , rk )T , o T reprsente lopration de transpostion. Puisque les chantillons de bruits, 22

ni , sont indpendants, la loi conditionnelle p(r/Hj ) est simplement le produit des densits p(ri /Hj ), cest--dire sous lhypothse H0 : p(r/H0 ) = k i=1 p(ri /H0 ) = k i=1 pn (ri ) = et sous lhypothse H1 : p(r/H1 ) = k i=1 p(ri /H1 ) = k i=1 pn (ri m) 1 = k i=1 2 exp ( On peut crire le rapport de vraisemblance (r) : (r) = =
p(r/H1 ) p(r/H0 )
1 k i=1 2

1 k i=1 2

exp (

2 ri ). 2 2

(2.21)

(ri m)2 ). 2 2

(2.22)

exp (

1 k i=1 2

exp (

(ri m)2 2 2 r2 i2 2

(2.23)

En simpliant et en prenant le logarithme, on obtient : ln (r) = ln = =


k i=1 exp ( k i=1
(ri m)2 2 2 r2 i2 2

)
2) + ri

exp ( ) 1 k ((r m)2 i 2 2 i=1 m k r km ) ( i 2 i=1 2

(2.24)

P0 (C10 C00 ) P1 (C01 C11 ) .

Le test du rapport de vraisemblance est obtenu en comparant ln (r) un seuil ln o = On arrive nalement :
H1

k i=1 ri

H0

2 km ln + = m 2

(2.25)

On remarque que toute linformation sur les mesures qui permet de faire le test optimal est contenu dans la somme des mesures. La quantit l(r) = k i=1 ri constitue une statistique sufsante. Il est donc inutile de conserver toutes les mesures ri : seule la somme est importante. Cette remarque est trs importante car elle conditionne la mise en uvre, logicielle ou matrielle, du test.

2.3.2

Exemple 2 : Dtection dun signal alatoire continu dans du bruit

Enonc. Chaque observation est un ensemble de k mesures : r1 , r2 , . . ., rk . Les ri sont des 2 sous lhypothse H et variables alatoires gaussiennes, centres, indpendantes et de variance 0 0 2 1 sous lhypothse H1 . On suppose que la source ne change pas pendant la dure de lobservation. Dterminer le test du rapport de vraisemblance. 23

Solution. On peut calculer les densits conditionnelles de chaque mesure ri . Sous lhypothse H0 , on a : r2 1 exp ( i 2 ). p(ri /H0 ) = (2.26) 20 20 Sous lhypothse H1 , on a : p(ri /H1 ) = r2 1 exp ( i 2 ). 21 21 (2.27)

Chaque mesure tant indpendante, on peut facilement calculer les lois conditionnelles de lobservation r. Sous lhypohse H0 , on a : p(r/H0 ) = k i=1 p(ri /H0 )
1 = k i=1 2 exp (
0 2 ri 2 ). 20

(2.28)

et sous lhypothse H1 : p(r/H1 ) = k i=1 p(ri /H1 )


1 = k i=1 2 exp (
1 2 ri 2 ). 21

(2.29)

On peut maintenant calculer le rapport de vraisemblance (r) : (r) = =


p(r/H1 ) p(r/H0 )
k i=1 k i=1 1 21 1 20 2 ri 2 21 r2 i2 20

exp ( exp (

) )

(2.30)

En simpliant et en prenant le logarithme, on obtient : ln (r) = ln


1 k i=1 exp ( 1 0 1 k i=1 exp ( 2 ri 2 21 2 r i2 20

) ) (2.31)

= k ln
P0 (C10 C00 ) P1 (C01 C11 ) ).

0 1

1 1 2 2 ( 1

1 2 k 2 )i=1 ri . 0

Le test du rapport de vraisemblance est obtenu en comparant ln (r) un seuil ln o = 2 2 > 0, on arrive nalement : Aprs simplication, si 1 0
2 k i=1 ri

H1 H0

22 20 0 1 (ln k ln ) = . 2 2 1 1 0

(2.32)

2 2 < 0, il faut inverser le sens des ingalits en divisant Dans le cas contraire, cest--dire si 1 0 par ce terme, et on obtient le test contraire :

2 k i=1 ri

H0 H1

22 20 0 1 (ln k ln ) = . 2 2 1 1 0

(2.33)

De nouveau, le test de rapport de vraisemblance met en vidence une statistique sufsante. 2 Contrairement lexemple prcdent, cest ici la quantit l(r) = k i=1 ri . Cette statistique est importante pour la mise en uvre du test. 24

2.3.3

Exemple 3 : Dtection dun signal alatoire discret dans du bruit

Enonc. Pendant un temps dobservation T , on recueille les impulsions envoyes par une source dont lmission suit une loi de Poisson, de moyenne m0 sous lhypothse H0 et m1 sous lhypothse H1 . Dterminer le test du rapport de vraisemblance. Solution. La source mettant selon une loi de Poisson, on a directement la probabilit dobserver n impulsions : Pr(n impulsions) =
mn 0 nn ! m1 n!

exp(m0 ), sous lhypothse H0 , exp(m1 ), sous lhypothse H1 .

(2.34)

Par rapport aux deux exemples prcdents, celui-ci est caractris par des vnements discrets, et donc modlis par une loi discrte car la densit nexiste pas. Le rapport de vraisemblance est le rapport des probabilits conditionnelles : (r) = = Pr(n impulsions/H1 ) Pr( n impulsions/H0 ) n
m1 exp(m1 ) n! mn 0 exp(m ) 0 n! m1 n m0

(2.35)

= (

) exp[(m1 m0 )].

En prenant le logarithme, on arrive au test : ln (r) = n ln


1 m1 (m1 m0 ) ln . m0

(2.36)

H0

Aprs quelques simplications, on obtient la forme suivante, si m1 > m0 :


H1

n
H0

ln + m1 m0 , ln m1 ln m0

(2.37)

ou bien, si m1 < m0 :
H0

n
H1

ln + m1 m0 . ln m1 ln m0

(2.38)

Dans cet exemple, on remarque encore une statistique sufsante : le test ne demande que la connaissance du nombre dimpulsions. Inutile de mmoriser les dates darrive de ces impulsions. Cette remarque permet galement de concevoir le rcepteur optimal le plus simple : cest un simple compteur, suivi dun comparateur.

2.4 Choix de cots


Dans tous les exemples prcdents, le test du rapport de vraisemblance, optimal au sens du risque de Bayes, fait intervenir le seuil . Ce seuil sexprime en fonction des probabilits a priori, P0 et P1 , et des cots, Cij . Si les probabilits choisies sont fausses, le seuil nest plus optimal. Si on change les cots, le seuil de dcision change galement. 25

2.4.1

Cots uniformes

On suppose que les erreurs ont un cot identique : C01 = C10 = 1 et que les bonnes dcisions ont un cot nul : C00 = C11 = 0. Le risque de Bayes (2.1) se simplie alors : RBayes = P0 Pr(choisir H1 /H0 vraie) + P1 Pr(choisir H0 /H1 vraie) = P0 Z1 p(r/H0 )dr + P1 Z0 p(r/H1 )dr. (2.39)

Ce risque sinterprte facilement comme la probabilit moyenne derreur. Dans le test du rapport de vraisemblance associ, seul le seuil est modi. Avec les hypothses ci-dessus, on a : = do le test :
H1

P0 P0 (C10 C00 ) = , P1 (C01 C11 ) P1 P0 . P1

(2.40)

(r)
H0

(2.41)

ou bien, sous forme logarithmique :


H1

ln((r)) ln
H0

P0 . P1

(2.42)

2.4.2

Communications numriques

Dans le cas de communications numriques, les erreurs sont pnalises de faon identique. De plus, on peut supposer que les probabilits a priori des symboles 0 et 1 sont identiques, autrement dit : P0 = P1 = 1/2. Le seuil du test vaut donc : = P0 = 1. P1 (2.43)

Le test du rapport de vraisemblance prend alors la forme trs simple :


H1

(r) 1,
H0

(2.44)

ou bien, sous forme logarithmique :


H1

ln((r)) 0.
H0

(2.45)

2.4.3

Probabilits a priori inconnues.

La dcision optimale dpend du seuil , et revient dterminer les rgions Z0 et Z1 . A cots xs, le seuil ne dpend que des probabilits a priori. Dans le cas binaire, on peut lexprimer en 26

fonction de P1 (car P0 = 1 P1 ). On introduit la probabilit de fausse alarme, PF , la probabilit de dtection, PD et la probabilit doubli, PM (M pour Missing) : PF PD PM = Pr(choisir H1 /H0 vraie) = = Pr(choisir H1 /H1 vraie) = = Pr(choisir H0 /H1 vraie) =
Z1

p(r/H0 )dr Z1 p(r/H1 )dr Z0 p(r/H1 )dr.

(2.46)

Les relations sous forme dintgrales supposent lexistence des densits p(r/Hi ) (ce ne sera pas le cas si la variable alatoire est discrte - voir lexemple 3 au paragraphe 2.3.3 ci-dessus). Dans ce cas, les trois probabilits qui minimisent le risque de Bayes sont fonctions du seuil , lui-mme fonction continue de P1 . Si P1 change, le seuil change de faon continue ainsi que les rgions Z0 et Z1 et par consquent les trois probabilits, PF PD et PM . Ces probabilits, PF PD et PM , sont donc des fonctions continues de P1 . Pour simplier, dans ce paragraphe, on omettra cette dpendance et on crira simplement : PF (P1 ) = PF , etc. On peut alors r-crire le risque de Bayes (2.6) : RBayes = C00 P0 (1 PF ) + C10 P0 PF + C01 P1 PM + C11 P1 PD . (2.47)

En remarquant que PM = 1 PD , et que P0 = 1 P1 , on peut exprimer le risque de Bayes en fonction uniquement de PF , PM et P1 : RBayes (P1 ) = C00 (1 PF ) + C10 PF +P1 [(C11 C00 ) + (C01 C11 )PM (C10 C00 )PF ]. (2.48)

2.5 Courbes de risque


Les courbes de risque sont les courbes RBayes (P1 ), fonction de P1 . Si les cots et les probabilits a priori sont connus, on connait et on peut en dduire le test optimal de Bayes, en calculant les valeurs exactes de PF et de PM . Si les probabilits a priori sont inconnues, le seuil nest pas connu avec exactitude et les valeurs de PF et PM ne sont pas les valeurs optimales. , et notons P = P (P ) et P = P (P ) les probabilits de fausse Supposons P1 = P1 F M 1 1 F M . La relation (2.48) ne dpend plus que de la variable P . On alarme et doubli calcules pour P1 1 , P ) le risque calcul avec les probabilits P et P : notera R(P1 1 F M
, P ) = C (1 P ) + C P R(P1 1 00 10 F F (C C )P ]. +P1 [(C11 C00 ) + (C01 C11 )PM 10 00 F

(2.49)

, P ) ne concide On remarque que ce risque est une fonction afne de P1 . Ce risque R(P1 1 avec le risque optimal de Bayes que pour P1 = P1 . R(P1 , P1 ) est tangent au risque de Bayes , et au-dessus partout ailleurs (Figure 2.2) : RBayes (P1 ) en P1 = P1 R(P1 , P1 ) RBayes (P1 ).

(2.50)

Pour mieux caractriser les courbes de risque de Bayes, on peut calculer quelques valeurs particulires, par exemple pour P1 = 0 et P1 = 1. Pour cela, calculons PM et PF pour ces valeurs de P1 . Si P1 = 0, on sait que le symbole 1 nest jamais mis. Par consquent, on ne dcidera jamais H1 , et : PF (0) = Pr(dcider H1 /H0 vraie) = 0 (2.51) PM (0) = Pr(dcider H0 /H1 vraie) = 0. 27

Risque Risque de Bayes C11 C00

P1 P1*
x. F IG . 2.2 Risque de Bayes et risque P1

Risque C00 C11 C00 P1

Risque C11 C00 P1

Risque

C11 P1

F IG . 2.3 Exemples de courbes de risques Le risque de Bayes devient alors : RBayes (0) = C00 (1 PF (0)) + C10 PF (0) = C00 . (2.52)

Si P1 = 1, on sait que le symbole 1 est toujours mis (H0 nest jamais vraie). Par consquent, on dcide toujours H1 , et : PF (1) = Pr(dcider H1 /H0 vraie) = 0 PM (1) = Pr(dcider H0 /H1 vraie) = 0. Le risque de Bayes devient alors : RBayes (1) = C00 (1 PF (1)) + C10 PF (1) +[(C11 C00 ) + (C01 C11 )PM (1) (C10 C00 )PF (1)], = C11 . Les courbes de risque ont les allures typiques suivantes (Figure 2.3). (2.53)

(2.54)

2.6 Critre MINIMAX


Dans le cas o les probabilits a priori sont inconnues, on pourrait minimiser le risque calcul de P . Mais, en regardant les diffrentes courbes de risques (Fig. 2.3), on pour une valeur xe P1 1 remarque que cette stratgie est risque. En effet, pour certaines valeurs de P1 , le critre minimis serait trs diffrent du risque de Bayes. Pour viter cette situation, dans le cas o la courbe de risque prsente un maximum pour la valeur o le risque 0 < P1 < 1, une stratgie consiste minimiser le risque maximum. Soit P1 28

, P ) est donc tangente au maximum de la courbe de risque est maximal, la droite RBayes (P1 1 RBayes (P1 ). Elle est caractrise par sa pente nulle, cest--dire daprs (2.48) par la relation :

(C11 C00 ) + (C01 C11 )PM (C10 C00 )PF = 0.

(2.55)

Ce test qui minimise le risque maximal sappelle test MINIMAX. Il est caractris par lquation (2.55) et le risque vaut : RM inimax = C00 (1 PF ) + C10 PF . (2.56)

Dans le cas frquent o lon choisit C00 = C11 = 0, le test MINIMAX est caractris par lquation : C01 PM C10 PF = 0, (2.57) et le risque vaut : RM inimax = C10 PF . (2.58)

2.7 Test de Neyman-Pearson


En pratique, il est souvent difcile dattribuer des cots ralistes et des probabilits a priori. Pour contourner cette difcult, on peut utiliser une autre stratgie partir de probabilits PF et PD . En effet, on peut chercher le test qui produit la probabilit de fausse alarme, PF , aussi petite que possible et la probabilit de dtection, PD aussi grande que possible. Fixons PF et cherchons un test qui maximise PD (ou minimise PM = 1 PD ). Pour cela, on construit la fonction de cot F : F = PM + [PF ], = Z0 p(r/H1 )dr + [ Z \Z0 p(r/H0 )dr ] = (1 ) + Z0 [p(r/H1 ) p(r/H0 )]dr, (2.59)

o est un multiplieur de Lagrange. Dans la dernire quation, on remarque que le premier terme de droite est un cot xe. Pour minimiser F , il faut donc choisir r Z0 si lintgrande p(r/H1 ) p(r/H0 ) est ngatif, cest--dire si : p(r/H1 ) < . p(r/H0 ) On obtient donc le test : Si (r) < , alors on choisit H0 , o le seuil est calcul par lquation : PF = Pr((r) > /H0 ) =
+

(2.60)

(2.61)

p (u/H0 )du = .

(2.62)

Dans cette quation intgrale, linconnue est une borne de lintgrale. Puisque la variable alatoire (r) ne prend que des valeurs positives (cest le rapport de deux densits), le seuil doit aussi tre positif. Faire dcrotre revient augmenter la rgion Z1 o lon dcide H1 : la probilit de fausse alarme PF ainsi que la probabilit de dtection PD augmentent si diminue. La rsolution de cette quation (2.62) est en gnral impossible analytiquement. Si PF est une fonction continue de , le test de Neyman-Pearson, comme le montre lexpression (2.60), est un test du rapport de vraisemblance, ce qui rend ce test trs intressant. 29

2.8 Statistique sufsante


Dans les paragraphes prcdents, deux ides essentielles ont t dveloppes : Relativement un critre de Bayes ou de Neyman-Pearson, le meilleur test revient compa(r/H1 ) rer le rapport de vraisemblance (r) = p p(r/H0 ) un seuil scalaire . Quelle que soit la di-

mension k de lespace dobservation (r Rk ) lespace de dcision est mono-dimentionnel. En calculant le rapport de vraisemblance, on met en vidence une statistique sufsante, qui renseigne sur la structure (logicielle et/ou matrielle) du dtecteur optimal.

Ce dernier point napparat pas directement dans le calcul thorique, mais gnralement dans le calcul explicite (voir en particulier les trois exemples). Lexplication thorique est assez simple, et peut parfois sillustrer gomtriquement. Dun point de vue thorique, on peut dcomposer lespace dobservation R = {r Rk } de dimension k en un espace de dimension 1 correspondant la statistique sufsante l et un espace de dimension (k 1) dont on notera les lments y. On peut donc crire le rapport de vraisemblance : (r) = (l, y) = En utilisant le thorme de Bayes, on a : (l, y) = pl/H1 (l/H1 )py/l,H1 (y/l, H1 ) pl/H0 (l/H0 )py/l,H0 (y/l, H0 ) (2.64) pl,y/H1 (l, y/H1 ) pl,y/H0 (l, y/H0 ) (2.63)

Puisque l est une statistique sufsante, la dcision ne dpend que de l et pas de y, et (l, y) doit donc se rduire (l). On doit donc avoir : py/l,H1 (y/l, H1 ) = py/l,H0 (y/l, H0 ), (2.65) car la densit de y ne dpend pas des hypothses H0 ou H1 . Dans lexemple 1 (paragraphe 2.3.1), en nous restreignant k = 2 (2 mesures = 2 dimensions), la statistique sufsante est la somme des observations : l r1 + r2 . On peut donc transformer lespace initial (r1 , r2 ) par une simple rotation en l = (r1 + r2 )/ 2 et y = (r1 r2 )/ 2. Sur la seconde coordonne y , on mesure : (m + n1 m n2 )/ 2 = (n1 n2 )/ 2, si H1 est vraie, (2.66) y= si H0 est vraie. (n1 n2 )/ 2, On remarque que la variable y est identique pour les deux hypothses : elle nest donc daucune utilit dans la dcision.

2.9 Performance du test


On caractrise un dtecteur par ses performances, cest--dire le couple (PD , PF ). De faon exhaustive (et thorique), on peut tracer les courbes PD en fonction de PF pour diffrentes valeurs du seuil (test de Bayes). Dans le cas dun test de Neyman-Pearson, le seuil permet directement de calculer PF selon la relation (2.62) et PD selon : PD = Pr((r) > /H1 ) =
+

p (u/H1 )du.

(2.67)

Dans ce paragraphe, nous allons calculer ces courbes pour les trois exemples du paragraphe 2.3, puis en dterminer les proprits essentielles. 30

p(l/H0) = N(0, 1) PF

p(l/H1) = N(d, 1)

1111111 0000000 0000000 1111111 0000000 1111111


d p(l/H0) = N(0, 1) p(l/H1) = N(d, 1) PD

111111111111 000000000000 000000000000 111111111111 0000 1111 000000000000 111111111111 0000 1111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111
l d

F IG . 2.4 Lois conditionnelles de la variable L, avec PF (en haut) et PD en bas.

2.9.1

Performance de lexemple 1
k (normalisation), on a : (2.68)

A partir du test (2.25), en divisant les deux termes par

H1 km 1 ln + l = k i=1 ri 2 k H m k
0

Cette division ralise une normalisation de la variable alatoire l, cest--dire de la statistique sufsante. En effet, chaque mesure ri est la ralisation dune variable alatoire (VA) Ri qui suit une loi gaussienne, de moyenne m (si H1 ) ou 0 (si H0 ) et de variance 2 , ce que nous noterons : Ri N (0, 2 ), si H0 est vraie, Ri N (m, 2 ), si H1 est vraie. (2.69)

La somme S = k i=1 Ri est la somme de k VA gaussiennes, de mme moyenne (m ou 0) et de variance 2 . En utilisant les rsultats classiques sur la somme de VA gaussiennes identiques (la moyenne de la somme est gale la somme des moyennes et les variances sajoutent) on peut donc crire : S N (0, k 2 ), si H0 est vraie, (2.70) S N (km, k 2 ), si H1 est vraie. En divisant S par k , on obtient une variable normalise L, cest--dire de variance unit : L N (0 , 1), si H0 est vraie, L N ( km/, 1), si H1 est vraie. (2.71)

Les lois conditionnelles pL/H0 (l/H0 ) et pL/H1 (l/H1 ) suivent des densits gaussiennes nor mes de moyenne 0 et km/ , respectivement. Ces deux gaussiennes sont traces la gure 31

2.4. En posant d = km/ , on remarque que la dcision optimale (2.68) utilise le seuil scalaire = (ln )/d + d/2. Selon les valeurs de , on a (pour d > 0) : = d/2, si = 1, > d/2, si > 1, < d/2, si < 1.

(2.72)

En reprenant les dnitions des probabilits de fausse alarme et de dtection, on peut crire : PF = Pr(choisir H1 /H0 vraie) = Pr(L > /H0 ) + = pL/H0 (u/H0 )du,

(2.73)

et PD = Pr(choisir H1 /H1 vraie) = Pr(L > /H1 ) + = pL/H1 (u/H1 )du. (2.74)

Pour un seuil x, les probabilits de fausse alarme PF et de dtection PD sont reprsentes par les aires hachures sur la gure 2.4. Dans cet exemple, les lois pL/H0 (u/H0 ) et pL/H1 (u/H1 ) tant connues, on peut expliciter le calcul : PF =
+ (ln )/d+d/2

u2 1 exp( )du, 2 2

(2.75)

Il nest pas possible de continuer le calcul analytique. Pour la distribution gaussienne, il existe des tables (indirectes) calcules (voir Travaux Dirigs) pour la fonction erf(x) dnie par : 2 erf(x) =
x 0

exp(u2 )du.

(2.76)

On peut alors exprimer les probabilits PF et PD partir de cette fonction : 1 erf(/ 2) , PF = 2 1 erf(( d)/ 2) PD = . 2 . On remarque que lon a PD PF , avec galit si d = 0 (cest--dire si m = 0 !) et pour PF = 0 et pour PF = 1. La fonction erf(x) tant croissante, on remarque que PD comme PF sont des fonctions dcroissantes du seuil . Puisque = ln /d + d/2, on dduit que : d x, PD et PF sont fonctions dcroissantes de , PF xe, PD crot avec d. On obtient des courbes typiques (Fig. 2.5) appeles courbes oprationnelles du rcepteur (COR) dont lacronyme anglais est ROC pour Receiver Operating Characteristic. 32 (2.77)

(2.78)

PD 1 d=8 d=2 d=0 d=1 =0

PF 1

F IG . 2.5 Allure typique des courbes ROC. Pour d = 0, les deux densits conditionnelles sont identiques, par consquent PD = PF . Si d augmente, les courbes de performance scartent de la diagonale et on a toujours PD PF . A d = cte, chaque courbe passe par PD = PF = 1 pour = 0 et tend vers PD = PF = 0 pour +.

2.9.2

Performances pour la minimisation de lerreur totale.

Dans ce cas particulier, associ aux cots Cij = 1 ij o ij est le symbole de Kronecker, le risque vaut RBayes = P0 PF + P1 PM . Si lon suppose aussi P0 = P1 = 0.5, on a RBayes = (PF + PM )/2, et on a = 1, do le seuil = d/2. Les probabilits de fausse alarme et de dtection scrivent simplement : PF = = et PD = = =
+ d/2 pL/H0 (u/H0 )du 2 + 1 exp u 2 d/2 2

du,

(2.79)

+ d/2 pL/H1 (u/H1 )du + 1 (ud)2 du exp 2 d/2 2 2 + 1 u d/2 2 exp 2 du.

(2.80)

En comparant les deux quations (2.79) et (2.80), et en utilisant la symtrie de la gaussienne, on remarque que les valeurs sont situes sur une droite : PD = 1 PF =
d 1 + erf( 2 ) 2

(2.81)

2.9.3

Performance de lexemple 3

Reprenons maintenant lexemple 3, du paragraphe 2.3.3. Pour m1 > m0 , on avait trouv le test (2.37) :
H1

n
H0

ln + m1 m0 = . ln m1 ln m0

(2.82)

Bien sr, le seuil est gnralement un rel, alors que le nombre dvnements n est un entier. En notant I = int( + 1) o int(u) reprsente la partie entire de u, on peut alors remplacer le test 33

PD 1

PF 1

F IG . 2.6 Caractristiques COR dans le cas dune variable discrte. Seules certaines paires (PD , PF ) existent. Elles sont reprsentes ici par des points, carrs ou ronds, vides ou plein, selon les valeurs de m0 et m1 . prcdent par : n I , on choisit H1 , n < I , on choisit H0 . (2.83)

On peut alors crire les probabilits de dtection et de fausse alarme. Dtaillons dabord le calcul de PD : PD = Pr(choisir H1 /H1 vraie) = Pr(n I /H1 vraie) + = (2.84) n=I Pr(n/H1 ) I 1 Pr( n/H ) = 1 1 n=0 n I 1 m1 exp( m1 ). = 1 n=0 n! De faon similaire, on obtient : PF = = = = = Pr(choisir H1 /H0 vraie) Pr(n I /H0 vraie) + n=I Pr(n/H0 ) I 1 1 n/H0 ) n=0 Pr( I 1 mn 0 1 n=0 n! exp(m0 ).

(2.85)

En consquence, PD et PF sont fonctions de la variable entire I , et ne prennent quun nombre inni dnombrable de valeurs. On ne peut plus parler de courbes COR, puisque dans le plan (PD , PF ), les performances sont caractrises par des points isols (PD (I ), PF (I )) (Figure 2.6). , puisquil nexiste en gnral A priori, il est en gnral impossible de xer une valeur de PF pas dentier k tel que PF (k ) = PF . Les test de Neyman-Pearson sont donc a priori difciles. Notion de test alatoire Pour surmonter ce problme, on peut introduire la notion de test alatoire, qui aura un sens en moyenne si lon ralise un grand nombre de tests. 34

Supposons que lon veuille obtenir une probabilit PF comprise entre PF (i) et PF (i + 1). Il existe un nombre 0 < p < 1 tel que : PF = pPF (i + 1) + (1 p)PF (i). (2.86)

Pour atteindre en moyenne PF , on propose de faire le test avec I = i + 1 avec la probabilit p et et avec I = i avec la probabilit 1 p. Ce test alatoire permet datteindre en moyenne nimporte quelle valeur. La probabilit PD vaut alors : PD = pPD (i + 1) + (1 p)PD (i). (2.87)

Ce test alatoire ralise une interpolation linaire par morceaux du test discret initial. Il na un sens quen moyenne, si on a les moyens de prendre une dcision en ralisant un grand nombre de tests lmentaires.

2.9.4

Proprits des courbes COR

Les probabilits de fausse alarme et de dtection, d x, sont des fonction du seuil (positif ou nul) de Bayes . Pour des variables alatoires continues (exemples 1 et 2), on peut les crire sous la forme dintgrales : PF ( ) = PD ( ) =
+ p/H0 (l/H0 )dl, + p/H1 (l/H1 )dl,

(2.88)

o p/Hi (l/Hi reprsente la densit du rapport de vraisemblance (r) sachant lhypothse Hi . A partir de ces quations, on peut dduire les proprits suivantes des courbes COR. Proprit 1. Ce sont donc des fonctions continues de , monotones et dcroissantes, avec les limites suivantes, en zro : lim0 PF ( ) = 1, (2.89) lim0 PD ( ) = 1, et linni : lim PF ( ) = 0, lim PD ( ) = 0. Proprit 2. Dans le plan (PF , PD ), les courbes COR sont convexes, car PD PF . Proprit 3. Tous les tests du rapport de vraisemblance ont des courbes COR situes au dessus de la droite PD = PF . Proprit 4. Dans le plan (PF , PD ), en tout point dune courbe COR, la pente de la tangente est gale la valeur du seuil correspondant ce point. En effet, en drivant les quations (2.88) par rapport , on a : dPF ( )/d = p/H0 (/H0 ), dPD ( )/d = p/H1 (/H1 ). 35 (2.91) (2.90)

La tangente la courbe (PF , PD ) scrit alors : p/H1 (/H0 ) dPD ( )/d = . dPF ( )/d p/H0 (/H1 ) Notons maintenant ( ) lensemble : ( ) = r/(r) > = r/ On peut alors exprimer PD ( ) sous la forme : PD ( ) = =
( ) pr/H1 (r/H1 )dr, ( ) (r)pr/H0 (r/H0 )dr.

(2.92)

pr/H1 (r/H1 ) > . pr/H0 (r/H0 )

(2.93)

(2.94)

En utilisant la dnition de ( ), on peut crire : PD ( ) =


( )

(r)pr/H0 (r/H0 )dr =

lp/H0 (l/H0 )dl.

(2.95)

En drivant la dernire quation de (2.95) par rapport , on trouve : dPD ( )/d = p/H0 (/H0 ). En reportant dans (2.92), on arrive au rsultat prvu. Proprit 5. Lorsque la valeur maximale du risque de Bayes est atteinte pour une valeur de P1 intrieure lintervalle ]0, 1[, le point de fonctionnement MINIMAX est lintersection de la droite dquation (condition MINIMAX) : (C11 C00 ) + (C01 C11 )(1 PD ) (C10 C00 )PF = 0, avec la courbe COR approprie (valeur de d). Dans le cas o C00 = C11 = 0, en notant CM = C01 et CF = C10 , lquation MINIMAX se rduit : CF PF . (2.98) PD = 1 CM Si on a en plus CM = CF = 1 (cest--dire globalement Cij = 1 ij ), on a simplement : PD = 1 PF . (2.99) (2.97) (2.96)

La gure 2.7 montre les points des courbes COR associs aux conditions MINIMAX, pour quelques valeurs de CF et CM . 36

PD 1

CM/CF = 2 CM/CF = 1

CM/CF = 0,5 1

PF

F IG . 2.7 Performances dans le cas de tests MINIMAX. Pour d x, les performances (PD , PF ) sont les points dintersection entre la courbe COR correspondante et la droite associe la condition MINIMAX.

2.10 Rsum sur la dtection binaire


Trois rsultats importants doivent tre compris concernant la dtection binaire. En utilisant un critre de Bayes ou de Neyman-Pearson, on trouve que le test optimal est un test du rapport de vraisemblance. Quelle que soit la dimension de lespace dobservation, ce test consiste comparer une variable alatoire une dimension un seuil scalaire. La mise en uvre dun test du rapport de vraisemblance est simplie par la dtermination de la statistique sufsante. Dun point de vue gomtrique, on peut interprter cette statistique comme la coordonne (de lespace dobservation) qui contient toutes les informations ncessaires la dcision. On peut dcrire les performances dun test du rapport de vraisemblance en traant les courbes COR (courbes PD (PF ) pour diffrentes valeurs du seuil . En pratique, il est inutile (et coteux en calcul) de tracer la courbe complte : la valeur correspondant au test suft. Peu de formules sont savoir par cur, hormis le rapport de vraisemblance (r) = p(r/H1 )/p(r/H0 ), les dnitions des probabilits de dtection et de fausse alarme. Le seuil de Bayes et les autres quantits sont disponibles dans le cours.

37

Chapitre 3

Dtection non binaire


Il sagit maintenant de concevoir un rcepteur capable de dcider dune hypothse parmi M : cest le cas M -aire. Puisquil y a M hypothses possibles et M dcisions possibles, on a au total M 2 situations de la forme : choisir Hi alors que Hj est vraie. On peut facilement tendre au cas M -aire le risque de Bayes introduite en dcision binaire. En revanche, la mise en uvre dun critre de Neyman-Pearson nest pas utilise en pratique. Cest pourquoi nous ne dveloperons dans ce chapitre que le critre de Bayes, dabord succintement dans le cas M -aire, puis de faon plus dtaille dans le cas ternaire (M = 3).

3.1 Critre de Bayes dans le cas M -aire


On associe chacune des M 2 situations choisir Hi alors que Hj est vraie un cot Cij . En notant les probabilits a priori Pi et les densits conditionnelles p(r/Hi ), le risque de Bayes est le cot moyen : RBayes =
M 1 M 1 i=0 j =0

Pj Cij Pr(dcider Hi /Hj vraie)

(3.1)

En notant Z lespace dobservation, la dcision consiste dterminer la partition (Z0 , Z1 , . . . , ZM 1 ) de Z qui minimise le risque de Bayes, que lon peut aussi crire : RBayes =
M 1 M 1 i=0 j =0

Pj Cij
Zi

p(r/Hj )dr

(3.2)

On peut transformer lquation prcdente : RBayes =


M 1 i=0 Zi M 1 j =0 Pj Cij .p(r/Hj )

dr.

(3.3)

En notant Ij les intgrandes des intgrales sur Zj , on minimise le risque en suivant la procdure : Calculer les Ij , j = 1, . . . , M 1, Choisir lhypothse Hi0 , dindice i0 tel que Ii0 est la plus petite des intgrandes Ij , j = 1, . . . , M 1, autrement dit tel que i0 = Argminj Ij . 39

H0 H1 H2

000 111 000 111 111111 000000 000 111 000 111 000000 111111 000000000 111111111 000 111 000 111 000000 111111 000000000 111111111 000000 111111 000000000 111111111 000000 111111 000000000 111111111
Z0 r Z2 Z1

F IG . 3.1 Dtection ternaire. La rgle de dcision consiste partitionner lespace dobservation Z en trois rgions de faon minimiser le risque.

3.2 Critre de Bayes dans le cas ternaire


Dans le cas ternaire (M = 3), on a :
2 2

RBayes =

Pj Cij
i=0 j =0 Zi

p(r/Hj )dr,

(3.4)

En utilisant le fait que les Zi forment une partition de Z , on peut crire : RBayes = P0 [C00 Z \(Z1 Z2 ) p(r/H0 )dr + C10 Z1 p(r/H0 )dr + C20 Z2 p(r/H0 )dr] +P1 [C01 Z0 p(r/H1 )dr + C11 Z \(Z0 Z2 ) p(r/H1 )dr + C21 Z2 p(r/H1 )dr] +P2 [C02 Z0 p(r/H2 )dr + C12 Z1 p(r/H1 )dr + C22 Z \(Z0 Z1 ) p(r/H2 )dr].

(3.5)

En isolant les termes constants (obtenus en intgrant sur Z ) et en regroupant les termes dans les intgrales sur Zi , on a : RBayes = C00 P0 + C11 P1 + C22 P2 + Z0 [P2 (C02 C22 )p(r/H2 ) + P1 (C01 C11 )p(r/H1 )]dr + Z1 [P0 (C10 C00 )p(r/H0 ) + P2 (C12 C22 )p(r/H2 )]dr + Z2 [P0 (C20 C00 )p(r/H0 ) + P1 (C21 C11 )p(r/H1 )]dr.

(3.6)

Dans cette expression, la premire ligne correspond un cot xe, les trois suivantes des cots variables, selon le choix des domaines Zj . Notons Ij les trois intgrandes (termes entre crochets) dans les intgrales sur Zj . Pour minimiser le risque de Bayes, on compare simplement les intgrandes et on choisit la dcision Hj associe lintgrande Ij la plus petite. Autrement dit : si I0 (r) < I1 (r) et I0 (r) < I2 (r), on choisit H0 , si I1 (r) < I0 (r) et I1 (r) < I2 (r), on choisit H1 , si I2 (r) < I0 (r) et I2 (r) < I1 (r), on choisit H2 . (3.7)

3.3 Test dans le cas ternaire


A partir des expressions prcdentes, on peut introduire deux rapports de vraisemblance : 1 (r) = 2 (r) = 40
p(r/H1 ) p(r/H0 ) , p(r/H2 ) p(r/H0 ) .

(3.8)

En reportant dans (3.6) et en divisant par p(r/H0 ), les ingalits (3.7) peuvent alors sexprimer dans le plan (1 , 2 ). Commenons par lingalit I0 (r) < I1 (r) : P2 (C02 C22 )2 (r) + P1 (C01 C11 )1 (r) < P0 (C10 C00 ) + P2 (C12 C22 )2 (r) do : P1 (C01 C11 )1 (r) < P0 (C10 C00 ) + P2 (C12 C02 )2 (r). (3.9) De la mme faon, on obtient pour I0 (r) < I2 (r) : P2 (C02 C22 )2 (r) < P0 (C20 C00 ) + P1 (C21 C01 )1 (r), et pour I1 (r) < I2 (r) : P2 (C12 C22 )2 (r) < P0 (C20 C00 ) + P1 (C21 C11 )1 (r). (3.11) (3.10)

Les trois autres ingalits : I0 (r) > I1 (r), I0 (r) > I2 (r) et I1 (r) > I2 (r), sont obtenus en changeant < par > dans les trois relations prcdentes. Chacune des ingalits ci-dessus permet donc de dcider dune hypothse parmi deux, la troisime ne jouant aucun rle, cest--dire quon ne peut rien dire. Autrement dit, le test peut tre rsum par les trois ingalits : P1 (C01 C11 )1 (r) P2 (C02 C22 )2 (r) P (C C22 )2 (r) 2 12
H1 (ou H2 )

H0 (ou H2 ) H2 (ou H1 )

P0 (C10 C00 ) + P2 (C12 C02 )2 (r), P0 (C20 C00 ) + P1 (C21 C01 )1 (r), P0 (C20 C10 ) + P1 (C21 C11 )1 (r). (3.12)

H0 (ou H1 ) H2 (ou H0 )

H1 (ou H0 )

3.4 Reprsentation graphique dans le plan (2 , 1 )


Dans le plan (2 , 1 ), il est facile de voir que les frontires des rgions sont dlimites par les droites dquation : P1 (C01 C11 )1 (r) = P0 (C10 C00 ) + P2 (C12 C02 )2 (r), P2 (C02 C22 )2 (r) = P0 (C20 C00 ) + P1 (C21 C01 )1 (r), P2 (C12 C22 )2 (r) = P0 (C20 C10 ) + P1 (C21 C11 )1 (r). On obtient alors les rgions de dcision de la gure (3.2). 41

(3.13)

F IG . 3.2 Rgions de dcision dans le plan (1 (r), 2 (r)).

0000 1111 1111 0000 00 11 0000 1111 0000 1111 00 11 0000 1111 0000 1111 00 11 0000 1111 0000 1111 0000 1111 00 11 000 111 0000 1111 00 11 000 111 0000 1111 00 11 000 111
2 1 0
H1 (ou H2 )

3.4.1

Reprsentation graphique dans le cas particulier Cij = 1 ij

Dans ce cas, les quations (3.12) se simplient : P1 1 (r) P2 2 (r) P (r) 2 2

P0 ,

H0 (ou H2 ) H2 (ou H1 )

P0 ,

(3.14)

H0 (ou H1 ) H2 (ou H0 )

P1 1 (r).

H1 (ou H0 )

ou encore, en prenant les logarithmes : ln 1 (r) ln 2 (r) ln 2 (r)

H1 (ou H2 )

H0 (ou H2 ) H2 (ou H1 )

P0 , ln P 1

H0 (ou H1 ) H2 (ou H0 )

0 ln P P2 ,

(3.15)

H1 (ou H0 )

1 ln 1 (r) + ln P P2 .

Dans le plan (2 , 1 ), comme dans le plan (ln 2 , ln 1 ), les rgions de dcision dnies par ces quation sont limites par des droites, trs simples. Les deux reprsentations sont donnes aux gures 3.3 et 3.4.

42

P0/P2

1 0 0000000 0 1111111 1 0000000 0 1111111 1 0000000 0 1111111 1 0000000 1111111 0 1 0000000 1111111 0000 1111 11111 00000 0 1 0000 1111 0 1 0000 1111 0 1
2 2 1 0 1 P0/P1

F IG . 3.3 Rgions de dcision dans le plan (1 (r), 2 (r)), pour le cas particulier Cij = 1 ij .

ln(P0/P2)

1 0 0 1 0000000 1111111 0 1 0000000 1111111 0 1 0000000 1111111 0 1 0000000 1111111 000 111 1111 0000 0 1 0000000 1111111 000 111 0 1 0 1 000 111 0 1 0 1 0 0 1 1 111111111 000000000 0 1 0 1 0 0 1 1
ln 2 2 1 0 ln 1 ln(P0/P1)

ln 2= ln 1+ ln(P1/P2)

F IG . 3.4 Rgions de dcision dans le plan (ln 1 (r), ln 2 (r)), pour le cas particulier Cij = 1 ij .

43

3.4.2

Interprtation des quations dans le cas Cij = 1 ij

Les quations (3.14), quoique fort simples, sont encore difciles interprter. En remplaant 1 et 2 par leurs dnitions et en multipliant par p(r/H0 ), on arrive : H1 (ou H2 ) P p(r/H ) P0 p(r/H0 ), 1 1 H (ou H ) 0 2 H2 (ou H1 ) P0 p(r/H0 ), (3.16) P2 p(r/H2 ) H (ou H ) 0 1 H2 (ou H0 ) P p(r/H2 ) P1 p(r/H1 ). 2 H1 (ou H0 )

Ces quations permettent une interprtation simple et logique du test : en effet, on choisit lhypothse Hi dont la probabilit sachant les observations, Pr(Hi /r) (cest la probabilit a posteriori), est la plus grande.

En appliquant le thorme de Bayes chaque probabilit conditionnelle : Pi p(r/Hi ) = Pr(Hi /r)p(r), on obtient nalement : H1 (ou H2 ) Pr ( H / r ) Pr(H0 /r), 1 H0 (ou H2 ) H2 (ou H1 ) Pr(H2 /r) Pr(H0 /r)), (3.17) H0 (ou H1 ) H2 (ou H0 ) Pr(H2 /r) Pr(H1 /r). H1 (ou H0 )

3.5 Rsum sur lestimation ternaire


La dcision optimale au sens du risque de Bayes met en vidence les deux points suivants : La dimension de lespace de dcision est infrieure ou gale 2. Les frontires des rgions de dcisions sont des droites dans le plan (2 , 1 ). Le test optimal est gnralement facile trouver. Dans le cas o lon cherche minimiser la probabilit derreur totale (cas o Cij = 1 ij ), le test consiste choisir lhypothse Hi dont la probabilit a posteriori Pr(Hi /r) est la plus grande.

3.6 Extension au cas M -aire


Les rsultats se gnralisent facilement au cas M -aire. Dune faon gnrale, le dcision, quelle que soit la dimension k de lespace dobservation, seffectue dans un espace de dcision de dimension infrieure ou gale M 1. Dans cet espace, les frontires entre les rgions de dcision sont des hyperplans.

44

Deuxime partie

Thorie de lestimation

45

Dnitions et position du problme


Dans la partie prcdente, le problme consistait choisir une hypothse parmi 2 (cas binaire) ou M (dans le cas gnral), de faon la plus vraisemblable en minimisant une fonction de cot. Dans cette partie, nous voulons aller plus loin et prdire la valeur de paramtres. Par exemple, on veut mesurer une tension v . Daprs la physique du systme, on peut par exemple supposer que cette tension est comprise entre [V, +V ]. La mesure est entche dun 2. bruit n que lon peut modliser par un bruit additif, gaussien, de moyenne nulle et de variance n On observe donc : r = v + n. (3.18) La densit de lobservation, tant donn le paramtre inconnu v , note p(r/v ) peut alors scrire : p(r/v ) = pN (r v ) = 1 (r v )2 . exp 2 2n 2n (3.19)

Le problme est de prdire la valeur de v partir de lobservation r. Le principe gnral de lestimation peut se rsumer par les 4 points essentiels : Espace des paramtres : la sortie de la source est une variable que lon peut considrer comme un point dans lespace des paramtres. Dans le cas dun seul paramtre, cet espace est a priori laxe rel < v < +, ou une partie de laxe rel V v +V si des informations permettent de rduire la gamme des valeurs possibles. Espace dobservation : cest en gnral un espace de dimension k nie. Chaque mesure ou observation est un point r de cet espace. Loi de probabilit : elle dcrit la relation probabiliste p(r/v ) entre lobservation et le paramtre v . Rgle destimation : cest la relation qui permet de prdire v , sous la forme dun estimateur v (r) dpendant de lobservation r. Par rapport la thorie de la dtection, la nouveaut rside dans lespace des paramtres et la rgle destimation. Lobjectif de ce chapitre est de proposer quelques mthodes gnrales pour lestimation de paramtres. Les observations tant perturbes par du bruit, la formalisation du problme repose encore sur un modle statistique. On distinguera deux approches selon que le paramtre estimer est alatoire ou dterministe.

Organisation
Cette seconde partie est organise en trois chapitres : un chapitre consacr lestimation dun paramtre alatoire, un autre pour lestimation dun paramtre dterministe et un dernier sur lestimation de paramtres multiples.

46

Chapitre 4

Estimation dun paramtre alatoire


Dans ce chapitre, le paramtre estimer est une variable alatoire note a. Lobservation est un vecteur de dimension k , not r.

4.1 Principe et fonctions de cot


Essayons dabord dtendre lide du risque de Bayes au problme destimation. Dans le problme de dtection M -aire, le risque de Bayes tait construit en associant un cot Cij chaque situation : dcider Hi alors que Hi est vraie. Aux M 2 situations possibles, on pouvait donc associer la matrice de cot C = (Cij ). Dans le problme destimation, le paramtre a et son estime a (r) sont des variables continues. Pour chaque paire (a, a (r)), on peut donc associer un cot C (a, a (r)), qui est une fonction de deux variables. Gnralement, on considre, et cest raliste, que le cot dpend uniquement de lerreur destimation e(r) = a (r) a. La fonction de cot se rduit alors une fonction dune seule variable, lerreur e(r). Dans la suite, on supposera que cette fonction est valeurs positives. Quelques fonctions de cot classiques (Figure 4.1) sont : 1. La fonction de cot quadratique : Cls (e(r)) = ( a(r) a)2 , 3. La fonction de cot uniforme : Cunif (e(r)) = 0 si |e(r)| 1 si |e(r)| >
2, 2.

2. La fonction de cot valeur absolue : Cabs (e(r)) = |a (r) a|,

(4.1)

Le rle de chaque fonction de cot est : de mesurer la qualit de lestimation, daboutir une solution en minimisant la fonction de cot. Dans le problme de dtection, le risque de Bayes permettait de mesurer un cot moyen, partir des cot Cij , des probabilits a priori Pi et des densits conditionnelles. Dans le problme destimation, on tend cette ide pour mesurer lerreur moyenne : le cot est remplac par la fonction 47

+ K  K = >

+ K  K

+ K  K ?

F IG . 4.1 Exemples de quelques fonctions de cot : (a) cot quadratique, (b) cot valeur absolue, (c) cot uniforme. de cot C (e(r)), la probabilit a priori Pi est remplac par la densit de probabilit du paramtre (variable alatoire) a. On a alors : R = E [C (e(r))] = da
A Rk

C ( a(r) a)p(a, r)dr.

(4.2)

Cette quation montre que la moyenne (oprateur E [.]) porte la fois sur toutes les valeurs de a (premire intgrale, simple) et sur toutes les valeurs r (seconde intgrale, multiple - k ) de lespace dobservation. La densit de probabilit conjointe, p(a, r), peut tre factorise en appliquant le thorme de Bayes : p(a, r) = p(r)p(a/r). En supposant la convergence uniforme des intgrales, on peut intervertir les deux intgrales, ce qui conduit la relation : R= p(r)
Rk A

C ( a(r) a)p(a/r)da dr.

(4.3)

Dans cette expression, les termes p(r) et C ( a(r) a)p(a/r) tant positifs, la minimisation du risque R sera obtenue en minimisant simplement lintgrale intrieure. Le meilleur estimateur a (r), au sens de la fonction de cot C (.), est donc obtenu en calculant la valeur de a (r) pour laquelle lintgrale intrieure est minimale. Dans les paragraphes suivants, nous allons dtailler le calcul pour les trois fonctions de cot introduites plus haut.

4.2 Calcul pour le cot quadratique


Le risque, not RLS (LS pour least square), scrit : Rls = p(r)
Rk A

( a(r) a)2 p(a/r)da dr.

(4.4)

Pour minimiser lintgrale intrieure, Ils (r), par rapport a (r), nous calculons la drive de cette 1 intgrale par rapport a (r) :
d da Ils (r)

= = = = =

a)2 p(a/r)da 2 A ( a(r) a)p(a/r)da 2 Aa (r)p(a/r)da 2 A ap(a/r)da 2 a(r) A p(a/r)da 2 A ap(a/r)da 2 a(r) 2 A ap(a/r)da. a(r) A (

d da

(4.5)

Dans la suite, pour simplier les notations, da (r) sera simplement not da dans les drivations

48

En utilisant la dernire relation, on dduit que la valeur a qui annule la drive vrie : a ls (r) =
A Ils = 2 > 0, ce qui montre que la valeur trouve En drivant une seconde fois Ils , on trouve dda 2 est un minimum. Cet estimateur, appel estimateur des moindres carrs (en abrg : LS pour least square, ou parfois MS pour mean square) est not a ls (r) pour bien montrer quil est relatif la fonction de cot quadratique. On remarque que lestimateur des moindres carrs est simplement la moyenne conditionnelle ou moyenne a posteriori. En revenant la relation (4.4), on en dduit que Rls est alors la variance conditionnelle ou variance a posteriori sur lespace dobservation.
2

ap(a/r)da.

(4.6)

4.3 Calcul pour le cot erreur absolue


Le risque, not Rabs , scrit : Rabs = p(r)
Rk A

|a (r) a|p(a/r)da dr.

(4.7)

Pour traiter la valeur absolue, on dcompose lintgrale intrieure, Iabs (r), en deux intgrales :
a (r)

Iabs (r) =

( a(r) a)p(a/r)da

+ a (r)

( a(r) a)p(a/r)da.

(4.8)

En diffrentiant par rapport a , variable qui apparat dans les bornes des deux intgrales et dans les deux intgrales elles-mmes, on a : dIabs (r) = da
a (r)

p(a/r)da

+ a (r)

p(a/r)da.

(4.9)

La valeur a abs (r), qui annule cette expression, vrie :


a abs (r)

p(a/r)da =

+ a abs (r)

p(a/r)da.

(4.10)

Cest la mdiane de la densit a posteriori.

4.4 Calcul pour le cot uniforme


Le risque, not Runif , scrit : Runif = p(r)
Rk A

Cunif ( a(r) a)p(a/r)da dr,

(4.11)

que lon peut crire, en tenant compte de la dnition (4.1) :


a unif (r)+/2

Runif =

Rk

p(r) 1

p(a/r)da dr.
a unif (r)/2

(4.12)

49

Pour minimiser le risque, on minimise le terme entre crochets, ce qui revient maximiser lintgrale Iunif (r) :
a unif (r)+/2

Iunif (r) =
a unif (r)/2

p(a/r)da.

(4.13)

Lorsque 0, Iunif (r) est maximale pour la valeur de a = a unif (r) telle que p(a/r) est maximale. Lestimateur a unif (r) est donc le maximum de la densit a posteriori. On le note gnralement a map (r), avec map pour maximum a posteriori, notation que nous utiliserons dans la suite.

4.5 Equation du maximum a posteriori (MAP)


Lestimateur a map (r) est donc la solution de lquation : p(a/r) = 0. a La fonction logarithme tant strictement monotone, on utilise frquemment : ln p(a/r) = 0. a (4.15) (4.14)

Cette dernire quation est souvent la plus pratique, notamment en raison des formes produits frquentes de p(a/r), obtenues avec le thorme de Bayes ou partir de mesures indpendantes. Les solutions de cette quation donnent bien entendu tous les extrma de p(a/r), maxima et minima. Sil ny a quune seule solution, il faut vrier quil sagit bien dun maximum. Sil y en a plusieurs, il faut rechercher le maximum maximorum. Ainsi, en utilisant le thorme de Bayes : p(a/r) = on a : ln p(a/r) = ln p(r/a) + ln p(a) ln p(r). (4.17) p(r/a)p(a) , p(r) (4.16)

Puisque lon cherche le maximum sur a, le dernier terme ne joue aucun rle. Lestimateur MAP est donc le maximum de la quantit : l(a) = ln p(r/a) + ln p(a). (4.18)

Cette expression montre le rle des donnes (premier terme de droite) et le rle de linformation a priori sur le paramtre a (second terme droite). Lquation MAP est alors : l(a) a = ln p(r/a) a + ln p(a) a = 0. (4.19)

a= amap (r)

a= amap (r)

a= amap (r)

50

4.6 Exemple
4.6.1 Enonc
On ralise un ensemble de k mesures regroupes dans le vecteur r. Chaque mesure est de la forme ri = a + ni , o a est un paramtre inconnu et ni sont des chantillons indpendants et 2 ). La connaissance a priori identiquement distribus (iid) selon une loi gaussienne : ni N (0, n 2 ). On peut donc crire : sur le paramtre a est rsume par sa densit de probabilit : a N (0, a p(a) = et pour une observation ri : p(ri /a) = pn (ri a) = 1 (ri a)2 . exp 2 2n 2n (4.21) 1 a2 exp ( 2 ), 2a 2a (4.20)

Puisque les bruits ni sont indpendants, on peut crire : p(r/a) = = =


k i=1 p(ri /a) k i=1 pn (ri a) k 1 i=1 2n exp

(r i a )2 2 2n

(4.22) .

On se propose de calculer les trois estimateurs tudis ci-dessus : lestimateur LS, lestimateur ABS et lestimateur MAP.

4.6.2

Calcul de a ls (r)

On rappelle que a ls (r) est la moyenne a posteriori (de la densit a posteriori) : a ls (r) =
+

ap(a/r)da.

(4.23)

Pour calculer cet estimateur, il faut donc calculer la densit a posteriori p(a/r). En utilisant les hypothses (4.20) et (4.22), et en appliquant le thorme de Bayes, on peut crire : p(a/r) = = = =
p(r/a)p(a) p(r) k 1 1 a2 1 2) i=1 2n p(r) 2a exp ( 2a k 1 1 1 i=1 2n ) exp 2 p(r) 2a ( (r i a )2 k 1 a2 f (r) exp 2 2 + 2 i=1 a n

exp (
a2 2 a

(r i a )2 ). 2 2n (r i a )2 k 2 i=1 n

(4.24)

Dans la dernire expression, nous avons regroup tous les termes ne dpendants pas de a (donc fonction de r ou constants) dans un terme not f (r). Dans la suite, nous allons traiter uniquement le terme exponentiel que lon note T , en dveloppant les termes quadratiques et en factorisant ceux qui ne dpendent pas de a : T = exp = exp
1 2 1 2 a2 2 a a2 2 a

+ +

2 2ar +a2 (r i k i 2 i=1 n 2 ri k ka2 2 + 2 i=1 n n

2a

k ri 2 i=1 n

(4.25)

51

2 + 1/ 2 = 1/ 2 et en factorisant, T scrit alors : En posant k/n a p 2 2ap 1 T = exp 2 a2 2 2p n k i=1 2 p ri + 2 n k 2 ri i=1

(4.26)

On remarque que le terme entre parenthses est le dbut du dveloppement dun terme au carr de la forme (a u)2 , que lon explicite : 1 T = exp 2 2p
2 p a 2 n k

ri
i=1

2 p 2 n

ri
i=1

2 p + 2 n

2 ri i=1

(4.27)

Les deux derniers termes ne dpendant pas de a, on peut les sortir de lexponentielle et les regrouper dans le terme f (r). Finalement, la densit a posteriori scrit :
2 p 1 p(a/r) = f (r) exp 2 a 2 2p n k

ri
i=1

(4.28)

Le terme f (r) est un simple terme de normalisation, tel que p(a/r)da = 1. Son expression exacte na pas ici dimportance, dans la mesure o lon remarque que p(a/r) a la forme typique dune densit gaussienne : 2 k p 2 ri , p . (4.29) p(a/r) N 2 n
i=1

Puisque lon sait que lestimateur des moindres carrs, a ls (r) est la moyenne a posteriori, on a directement : 2 k p ri , (4.30) a ls (r) = 2 n
i=1

que lon mettra sous la forme nale : a ls (r) =


2 a 2+ a
2 n k

1 k

ri .
i=1

(4.31)

Remarques. Cette expression met en vidence lexistence dune statistique sufsante, comme dans les problmes de dtection. En effet, toute linformation sur les mesures est rsume dans leur somme. Cette remarque est trs importante pour la mise en uvre pratique, logicielle ou matrielle, de lestimateur. La rgle destimation (4.31) utilise de faon pertinente linformation disponible. 2 2 n , cest--dire lorsque la variance de a est trs petite par rapport celle du Si a k bruit, linformation a priori donne par p(a) est bien plus prcise que les mesures. Puisque 2 2 ), a doit tendre vers 0, qui est la limite de (4.31) pour 2 n . Lestimateur a N (0, a a k ne tient pas du tout compte des mesures ri . 2 2 n , linformation a priori est trs oue (a possde une trs grande Au contraire, si a k variance) par rapport aux mesures ri . La limite de (4.31) sous cette condition est alors : a ls (r) 1 k
k

ri ,
i=1

(4.32)

et ne tient aucun compte de linformation a priori sur a. 52

+ N + = N


+ K 

 = N + N 

K
N


= N


 = N


N


F IG . 4.2 Fonction convexe.

4.6.3

Calcul de a abs (r) et de a map (r)

A partir de la densit a posteriori (4.28), on peut aussi dduire facilement ces deux estimateurs. Daprs (4.10), lestimateur a abs (r) nest autre que la mdiane de la densit a posteriori. Pour une densit gaussienne, la mdiane est gale la moyenne, donc : a abs (r) = a ls (r) =
2 a 2+ a
2 n k

1 k

ri .
i=1

(4.33)

Daprs (4.10), lestimateur a unif (r) nest autre que la valeur qui correspond au maximum de la densit a posteriori. Pour une densit gaussienne, le maximum est obtenu pour la moyenne, donc : k 2 1 a a map (r) = a ls (r) = (4.34) ri . 2 2 + n k
a k i=1

Dans cet exemple, les trois estimateurs concident. En gnral, ceci nest pas vrai, et lestimateur peut dpendre du critre de cot utilis. Remarquons enn que lestimateur a map (r) peut tre obtenu directement de p(a/r) (4.24), par simple drivation par rapport a.

4.7 Invariance de lestimateur


Dans lexemple prddent, les estimateurs a ls (r), a abs (r) et a map (r)) taient identiques. On peut se demander quelles conditions, on a invariance des estimateurs. On donnera dans ce paragraphe deux propositions qui conduisent linvariance, mais sans dmonstration. Proposition 4.7.1 Si la fonction de cot, C (x), est paire (C1) et convexe (Figure 4.2 cest--dire concavit tourne vers le haut (C2), et si la densit a posteriori p(a/r) est symtrique par rapport sa moyenne (la moyenne conditionnelle) (C3), lestimateur a (r) minimisant la fonction de cot vrie a (r) = a ls (r). Dun point de vue mathmatique, ces conditions scrivent : (C1) : C (x) = C (x), (C2) : (x0 , x1 ) R2 , C (x0 + (1 )x1 ) C (x0 ) + (1 )C (x1 ), (C3) : u R, p((m u)/r) = p((m + u)/r). 53

Essayons dappliquer cette proposition lexemple prcdent. Prenons dabord la fonction de cot C (x) = |x|. On vrie facilement les conditions (C1) et (C2). De plus, la densit a posteriori, qui est gaussienne, vrie la condition (C3). On peut donc conclure que a abs (r) = a ls (r). En revanche, on ne peut pas utiliser cette proposition pour conclure en ce qui concerne lestimateur a map (r), car (C2) nest pas vrie. Proposition 4.7.2 Si la fonction de cot, C (x), est paire (C1) et non dcroissante pour x > 0 (C2), et si la densit a posteriori p(a/r) est unimodale, symtrique par rapport sa moyenne (la moyenne conditionnelle) (C3) et vrie (C4) :
x+

lim

C (x)p(x/r) = 0,

(4.35)

alors lestimateur a (r) minimisant la fonction de cot vrie a (r) = a ls (r). On peut appliquer cette proposition dans lexemple prddent : C (x) = |x| : (C1), (C2) et C(3) sont vries. De plus, limx+ xp(x/r) = 0, donc (C4) est aussi vrie. On peut donc appliquer la proposition et conclure a abs (r) = a ls (r). Estimateur MAP, associ au cot uniforme : (C1), C(2) et (C3) sont vries. De plus, (C4) est aussi vrie, car limx+ p(x/r) = 0. On peut donc appliquer la proposition et conclure : a map (r) = a ls (r). Ces deux propositions sont importantes, en particulier parce quelles sappliquent pour une large gamme de fonctions de cot et de densits a posteriori. Ces propositions justient lintrt de lestimateur des moindres carrs, puisquasymptotiquement, en raison de la loi des grands nombres, dans de nombreux problmes, la densit a posteriori tendra vers une loi gaussienne, et par consquent de nombreux critres conduiront un estimateur gal celui des moindres carrs.

4.8 Exemple dune observation non linaire


4.8.1 Enonc

La variable inconnue estimer a est mesure au travers dun systme non linaire qui fournit : ri = g (a) + ni , i = 1, . . . k. (4.36)

2 ), et la Comme dans lexemple prcdent, les ni sont de chantillons iid, gaussiens (de loi N (0, n 2 densit a priori de a suit une loi N (0, a ).

4.8.2

Solution

En utilisant les calculs (4.24), la densit a posteriori est alors : 1 a2 p(a/r) = f (r) exp ( 2 + 2 a
k i=1

(ri g (a))2 ) . 2 n

(4.37)

Si la fonction g (a) nest pas connue, on ne peut pas aller plus loin.

54

Lquation MAP peut tre crite facilement en maximisant l(a) = ln p(r/a) + ln p(a) (4.18). On a ici : k (ri g (a))2 1 a2 + . (4.38) l(a) = 2 2 2 a n
i=1

Lestimateur MAP est donc solution de : l(a) 1 2a 1 = + 2 2 a 2 a n do : 2 a map (r) = a 2 n


k i=1 k i=1

2(ri g (a))

g (a) a

= 0,

(4.39)

(ri g (a))

g (a) a

a= amap (r)

(4.40)

En gnral, cette quation ne peut pas tre rsolue analytiquement, mme lorsque g est connue.

4.9 Estimation dune loi de Poisson


4.9.1 Enonc
Le nombre dvnements n dune exprience suit une loi de Poisson de paramtre a inconnu. La probabilit dobserver n vnements est donc : Pr(n vnements/a) = an exp(a). n! (4.41)

On suppose que le paramtre a est distribu selon une loi exponentielle unilatrale : p(a) = exp(a), si a > 0, 0, sinon. (4.42)

On veut estimer le paramtre a partir du nombre n.

4.9.2

Solution

En utilisant le thorme de Bayes, la densit a posteriori scrit : p(a/n) = = Pr(n/a)p(a) Pr(n) an 1 n! exp(a) exp(a) Pr(n)

(4.43)

= f (n)an exp[( + 1)a] o f (n) est un terme de normalisation tel que : f (n)
+ n a exp[( 0 + p(a/n)da 0

= 1, + 1)a]da = 1, f (n) =
+ n a exp[( 0

+ 1)a]da

(4.44)

Pour calculer f (n), nous devons calculer lintgrale : In =


0 +

an exp[( + 1)a]da. 55

(4.45)

Par intgration par partie, on tablit facilement une relation de rcurrence : In =


1 n +1 a exp

= = = ... n! = (+1) n I0 .

n +1 In1 n n1 +1 +1 In2

( + 1)a

+ 0

n +1

+ n1 a exp[( 0

+ 1)a]da (4.46)

Pour nir, calculons I0 : I0 = = = =

+ 0 a exp[( + 1)a]da, 0 + exp[( + 1)a]da, 0

1 +1 .

exp (+1)a +1

+ 0

(4.47)

En combinant (4.47) et (4.46), on trouve : In = do : f (n) = et la densit p(a/n) = n! , ( + 1)n+1 ( + 1)n+1 , n! (4.48)

(4.49)

( + 1)n+1 n a exp[( + 1)a]. n!

(4.50)

Estimateur LS. On peut maintenant calculer lestimateur des moindres carrs. Puisque cest la moyenne de la densit a posteriori, on a : a ls (n) = E [a/n], + = 0 a p(a/n)da, n+1 + = (+1) a an exp[( + 1)a]da, n! 0 n +1 (+1) In+1 = n! En utilisant la relation de rcurrence (4.48), on trouve immdiatement : a ls (n) = =
(+1)n+1 (n+1)! n! (+1)n+2 n+1 +1 .

(4.51)

(4.52)

Estimateur MAP. On peut aussi calculer lestimateur MAP. Pour cela, nous calculons le maximum de la densit a posteriori. Prenons dabord le logarithme : ln p(a/n) = ln f (n)an exp[( + 1)a] puis calculons la drive par rapport a :
ln p(a/n) a

= ln f (n) + n ln a ( + 1)a, = =
a n ln a ( n a ( + 1).

(4.53)

+ 1)a ,

(4.54)

56

Lestimateur MAP correspond la solution de lquation :


n a

( + 1)

= 0

soit : a map (n) =

a= amap (n) n +1

(4.55)

4.9.3

Remarques

Dans cet exemple, les estimateurs des moindres carrs et MAP sont formellement diffrents. La diffrence est importante pour n petit. De plus, lestimateur MAP est plus simple obtenir, car il ne requiert pas le calcul explicite de f (n). De faon gnrale, on remarque que lestimateur MAP nexige pas un calcul complet de la densit p(a/n).

4.10 Rsum de lestimation de paramtres alatoires


On retiendra que lestimation repose sur la minimisation dune fonction de cot. Deux estimateurs trs usuels ont t prsents : lestimateur des moindres carrs (LS) et lestimateur du maximum a posteriori (MAP). Lestimateur des moindres carrs, cest--dire minimisant lerreur quadratique moyenne et not a ls (r), est toujours la moyenne de la densit de probabilit a posteriori p(a/r) parfois appel moyenne condionnelle ou moyenne a posteriori. Lestimateur du maximum a posteriori, not a map (r), est la valeur de a pour laquelle la densit de probabilit a posteriori p(a/r) est maximale. En pratique, lestimateur MAP est obtenu en cherchant le maximum de p(a/r) ou de ln p(a/r). Pour une large classe de fonctions de cot, lestimateur optimal est gal lestimateur des moindres carrs a ls (r), pourvu que la densit a posteriori p(a/r) satisfasse quelques conditions simples (parit, unimodale, etc.). La distribution gaussienne satisfait en particulier ces conditions.

57

Chapitre 5

Estimation de paramtres dterministes


Il nest pas possible de traiter lestimation de paramtres dterministes comme celle de paramtres alatoires. En effet, avec des paramtres dterministes, p(a) et p(a/r) nont plus de sens. Il faut en particulier trouver une formulation de la mesure de performance des estimateurs.

5.1 Principe et qualit de lestimation


Puisque a est une variable dterministe, la premire ide consisterait calculer un critre de Bayes sous la forme : RBayes (a) =
Rk

( a(r) a)2 p(r/a)dr.

(5.1)

En minimisant le risque par rapport a (r), on obtient a (r) = a. Mais a tant inconnu, ceci nest pas applicable. Il faut donc trouver une autre mesure de la qualit de lestimateur. Chaque estimateur est ralis partir dun jeu de mesures bruites, lobservation r. Chaque estimation est donc la ralisation dune variable alatoire, lestimateur. Si on considre un ensemble (virtuel et arbitrairement grand) destimations, on peut mesurer : La moyenne : E [ a(r)] =
Rk

a (r)p(r/a)dr,

(5.2)

pour valuer lcart (appel biais) la valeur vraie a. Si E [ a(r)] = a, le biais est nul et lestimateur est dit non biais. Si E [ a(r)] = a + b o b est une constante, lestimation a un biais xe. En estimant ce biais, il est facile de corriger lestimateur. Si E [ a(r)] = a + b(a), o b(a) est une fonction de a, le biais devient plus complexe compenser. La variance Var( a(r)) = E =
Rk

a (r) E [ a(r)] a (r) E [ a(r)]

2 2

, p(r/a)dr, (5.3)

= E [ a(r)2 ] E 2 [ a(r)],

qui mesure la dispersion des estimations autour de leur moyenne. La variance dpend gnralement du nombre N de mesures utilis pour raliser une estimation, et dcrot frquemment en 1/N . La situation idale serait davoir un biais et une variance nuls. 59

5.2 Maximum de vraisemblance


Reprenons lexemple du paragraphe 4.6, o lon observe une mesure (scalaire) r = a + n, dans laquelle n N (0, n ) mais a est maintenant dterministe. On peut donc crire la densit conditionnelle de lobservation r sachant le paramtre a : (r a)2 1 exp . (5.4) 2 2n 2n Choisissons comme estimation la valeur de a qui entrane le plus vraisemblablement lobservation r, cest--dire pour laquelle la densit est maximale. Dans (5.4), le terme exponentiel est maximal pour r a = 0, cest--dire pour a = r. Autrement dit, dans le cas dune mesure avec un bruit additif comme cest le cas ici, on retranche r la valeur la plus probable du bruit n. Cest bien sr 0, valeur pour laquelle pn (u) est maximale. p(r/a) = Cet estimateur est appel estimateur du maximum de vraisemblance (en anglais maximum likelihood). Il est not a ml (r) = r. La densit p(r/a) est appele fonction de vraisemblance. Lestimateur du maximum de vraisemblance, note estimateur ML dans la suite, est donc la valeur de a qui maximise p(r/a). Si le maximum est intrieur la gamme de variation de a et si ln p(r/a) a une drive premire continue, lestimateur ML satisfait lquation : ln p(r/a) = 0. (5.5) a a= aml (r ) On remarque que cet estimateur est similaire lestimateur MAP, dans le cas o le terme en p(a) disparait, cest--dire si la connaissance a priori sur a est nulle : p(a) est constante.

5.3 Ingalits de Cramer-Rao


Pour mesurer les performances de lestimateur, on calcule sa moyenne (pour dterminer le biais) et sa variance. La moyenne est gnralement facile calculer, mais la variance requiert souvent des calculs complexes. Les ingalits de Cramer-Rao, que nous allons noncer et dmontrer ci-dessous, fournissent plus facilement une borne infrieure de la variance.

5.3.1

Thorme

Nous nonons et dmontrons ci-dessous les ingalits de Cramer-Rao pour des estimateurs non biaiss. Ce rsultat peut tre tendu des estimateurs biaiss (voir travaux dirigs). Ces ingalits ont dabord t proposes par Fisher (1922) et par Dugu (1937). Elles ont t obtenues sous leur forme actuelle par Cramer (1946) et Rao (1945). Tous les estimateurs qui atteignent la borne (la variance est gale la borne) sont appels estimateurs efcaces. Thorme 5.3.1 Soit a (r) un estimateur quelconque non biais de a, tel que p(r/a) possde des drives partielles premire et seconde par rapport a absolument intgrables, on a alors Var[ a(r) a] E ou bien, ce qui est quivalent : Var[ a(r) a] E 60 2 ln p(r/a) a2
1

ln p(r/a) a

(5.6)

(5.7)

Remarque. Si lestimateur a (r) est non biais, alors E [ a(r)] = a, et la variable alatoire a (r) a est centre. On a alors simplement : Var[ a(r) a] = E [( a(r) a)2 ].

5.3.2

Dmonstration de la premire ingalit

Puisque lestimateur a (r) est non biais, on a : E [ a(r) a] = En drivant par rapport a, on obtient :
a Rk a

Rk

( a(r) a)p(r/a)dr = 0.

(5.8)

a(r) Rk (

Rk

p(r/a)dr +

a (r) a)p(r/a) dr = 0
p(r/a) a(r) a (

a)p(r/a)dr = 0 a)dr = 0.

(5.9)

Rk

La premire intgrale de la dernire expression, qui intgre une densit sur tout son domaine, vaut videmment 1. En remarquant par ailleurs que : ln p(r/a) p(r/a) = p(r/a), a a on peut modier la seconde intgrale et crire :
ln p(r/a) a Rk ln p(r/a) p(r/a)( a(r) a

(5.10)

Rk

p(r/a)

p(r/a)( a(r) a) dr = 1.

a)dr = 1

(5.11)

On lve au carr la dernire expression, et en appliquant lingalit de Schwartz sur les intgrales : A2 dx on arrive :
Rk Rk ln p(r/a) a

B 2 dx

ABdx

(5.12)

p(r/a)
2 Rk

ln p(r/a) a Rk

p(r/a)( a(r) a) dr
2

= 1 (5.13)

p(r/a) dr
2

ln p(r/a) a

p(r/a)dr

Rk

( a(r) a)2 p(r/a)dr

p(r/a)( a(r) a) dr 1 1

La seconde intgrale de cette quation nest autre que la variance de a (r) a. On arrive nalement la premire ingalit : ( a(r) a)2 p(r/a)dr ln p(r/a) a
2

p(r/a)dr

(5.14)

Rk

Rk

On montre que lgalit, cest--dire la borne, est atteinte si et seulement si la densit vrie : ln p(r/a) = ( a(r) a)f (a), a (5.15)

o f (a) est une fonction qui ne dpend pas des observations r. Un estimateur qui vrie cette condition est appel estimateur efcace (en anglais efcient). 61

5.3.3

Dmonstration de la seconde ingalit


p(r/a)dr = 1, que lon drive par

Pour montrer la seconde ingalit, on remarque que rapport a en tenant compte de (5.10) :
p(r/a) a dr Rk ln p(r/a) p(r/a)dr a

Rk

= 0 = 0.

(5.16)

En drivant de nouveau par rapport a :


p(r/a) p(r/a) 2 ln p(r/a) p(r/a)dr + Rk ln a a dr Rk a2 2 2 p(r/a) ln p(r/a) p(r/a)dr + Rk ln a p(r/a)dr a2

= 0 = 0,

(5.17)

Rk

et on obtient la relation : E ln p(r/a) a


2

= E

2 ln p(r/a) . a2

(5.18)

Lexpression (5.18) montre lgalit des bornes des deux ingalits et de (5.6) on dduit la seconde ingalit (5.7).

5.4 Remarques
Ce thorme mrite quelques commentaires. Toute estimation non biaise a une variance plus grande quune certaine valeur. Malheureusement, dans le cas gnral, on ne sait pas si la variance est proche ou non de cette borne. Si (5.15) est vrie, lestimateur a ml (r) atteint la borne, cest--dire : Var[ aml (r) a] = E ln p(r/a) a
2 1

= E

2 ln p(r/a) a2

(5.19)

En effet, lestimateur ML est solution de lquation de vraisemblance : ln p(r/a) a Les solutions sont donc : a (r) = a ml (r), ou f ( aml ) = 0. (5.22) Or, la solution doit bien sr dpendre des observations r. La solution (5.22) doit donc tre limine. Ainsi, sil existe un estimateur efcace, cest lestimateur ML, solution de lquation de vraisemblance. Sil ny a pas destimateur efcace, cest--dire si ln p(r/a)/a ne peut pas se mettre sous la forme f (a)( a(r) a), on ne peut pas conclure sur la qualit de lestimateur ML. De plus, on ne sait pas comment sa variance sapproche de la borne. Avant dutiliser la borne, il faut dabord vrier que lestimateur est non biais. Ces bornes ne sont pas aplicables pour des estimateurs biaiss, pour lesquels des bornes similaires peuvent tre calcules. 62 (5.21) = f (a)( a(r) a) = 0. (5.20)

a= aml (r)

a= aml (r)

5.5 Variance dun estimateur non biais et efcace


Le calcul de ce paragraphe est valable pour un estimateur non biais et efcace, cest--dire tel que ln p(r/a)/a = f (a)( a(r) a). Calculons loppos de la drive seconde de ln p(r/a) : En prenant la moyenne : Er 2 ln p(r/a) df a(r) a) . = Er [f (a)] (a)Er ( 2 a da (5.24) df 2 ln p(r/a) = f (a) (a)( a(r) a). 2 a da (5.23)

Puisque lestimateur est non biais, le dernier terme est nul. De plus, f (a) ne dpend pas de r donc lesprance de f (a) sur r est gale f (a). Finalement : Er 2 ln p(r/a) = f (a). a2 (5.25)

En utilisant la premire borne du thorme de Cramer-Rao, on a simplement : Var( a(r) a) = f (a)1 . On peut donc noncer le thorme suivant. Thorme 5.5.1 Soit a (r) un estimateur non biais et efcace tel que ln p(r/a) = f (a)( a(r) a), a alors a (r) = a ml (r) et Var( a(r) a) = f (a)1 . Ce thorme est trs pratique mais il doit tre utilis rigoureusement. En effet, le terme ln p(r/a)/a intervient dabord dans lquation de vraisemblance : ln p(r/a)/a = 0 pour laquelle le facteur f (a) est sans importance. En revanche, pour lutilisation du thorme, la forme f (a)( a(r) a) ne supporte aucune erreur de signe ou de facteur puisque la variance dpend directement du terme f (a). (5.27) (5.26)

5.6 Applications des ingalits de Cramer-Rao


Dans ce paragraphe, nous montrons sur deux exemples comment calculer lestimateur du maximum de vraisemblance et utiliser les ingalits de Cramer-Rao pour en dduire les performances de lestimateur.

5.6.1

Paramtre avec bruit additif gaussien

Enonc. On ralise un ensemble de k mesures regroupes dans le vecteur r. Chaque mesure est de la forme ri = a + ni , o a est un paramtre dterministe inconnu et ni sont des chantillons 2 ). indpendants et identiquement distribus (iid) selon une loi gaussienne : ni N (0, n 63

Estimateur du maximum de vraisemblance. Pour calculer lestimateur ML, on doit calculer la densit p(r/a). Calculons dabord la densit pour une observation ri : p(ri /a) = pn (ri a) = (ri a)2 1 . exp 2 2n 2n (5.28)

Puisque les bruits ni sont indpendants, on peut crire : p(r/a) = = = On calcule ln p(r/a) : ln p(r/a) = k ln En drivant par rapport a :
ln p(r/a) a k i=1 p(ri /a] k i=1 pn (ri a] k 1 i=1 2n exp

(r i a )2 2 2n

(5.29) .

2n +
i=1

(ri a)2 . 2 2n

(5.30)

= =

1 2( n k 2 n

k i=1 (ri k 1 i=1 ri k

a)) a

(5.31)

Lquation de vraisemblance : k 2 n a pour solution : 1 a ml (r) = k


k

1 k

k i=1

ri a

a= aml (r)

= 0,

(5.32)

ri .
i=1

(5.33)

Biais de lestimateur. Calculons dabord le biais de (5.33). Pour cela, on calcule lesprance de a ml (r) : k k 1 1 = k E k i=1 ri i=1 E [ri ]
1 = k 1 = k = a. k i=1 E [a k i=1 a

+ ni ]

(5.34)

Lestimateur est donc non biais.

Lestimateur est-il efcace ? Avant de calculer sa variance laide du thore de Cramer-Rao, vrions si lestimateur est efcace. Pour cela, reprenons la dernire ligne de lquation (5.31). k 2 )[(1/k ) On remarque que le terme de droite (k/n aml (r) a], i=1 ri a] est de la forme f (a)[ 2 avec f (a) = k/n . On peut donc en dduire que lestimateur est efcace. De plus, en utilisant le thorme (5.5.1), on en dduit immdiatement la variance : Var[ aml (r) a] = f (a)1 = 64
2 n . k

(5.35)

Calcul avec le thorme de Cramer-Rao. On peut aussi utiliser le thorme de Cramer-Rao. A titre dexercice, nous allons ici utiliser les deux ingalits. Pour la premire, drivons une seconde fois lexpression (5.31) :
2 ln p(r/a) a2

= =

1 2( a n k 2 . n

k i=1 (ri

a))

(5.36)

En prenant linverse de loppos de lesprance, on obtient directement la variance. Pour la seconde ingalit, on calcule lesprance du carr de E
ln p(r/a) a 2 ln p(r/a) a

= E ( 12 = = =

1 4E ( n 1 2 4 kn n k 2. n

k i=1 (ri 2 k i=1 ni )

a))2 (5.37)

2 ), Pour le passage de la seconde la troisime ligne (5.37), on utilise le fait que ni N (0, n 2 k 2 donc k nest autre i=1 ni est une variable alatoire gaussienne N (0, kn ). Donc E ( i=1 ni ) 2 que la variance de k i=1 ni , cest--dire kn . En prenant linverse du dernier terme, on obtient directement la variance.

On peut aussi faire un calcul direct de (5.37) sans utiliser le thorme de Cramer-Rao : E (
i

ni )2

= E
i

n2 i +2
i j =i

ni nj , car ni et nj sont indpendants et centrs (5.38)

= E
i 2 = kn .

n2 i ,

On peut noter que la mise en uvre pratique de la seconde ingalit conduit souvent des calculs plus complexes que la premire.

5.6.2

Loi de Poisson

Enonc. Le nombre dvnements n dune exprience suit une loi de Poisson de paramtre dterministe a inconnu. On veut estimer le paramtre dterministe a partir du nombre n. Calcul de la fonction de vraisemblance. La fonction de vraisemblance est la probabilit dobserver n vnements, le paramtre a tant donn : Pr(n vnements/a) = Calculons le logarithme de la vraisemblance : ln Pr(n vnements/a) = n ln a ln(n!) a. 65 (5.40) an exp(a). n! (5.39)

On en dduit lquation de vraisemblance :


ln Pr(n

vnements/a)

a [n ln a

= 0 a ln(n!) a] = 0 n a 1 = 0 1 a [n a] = 0.

(5.41)

La dernire quation met en vidence que la drive de la fonction de vraisemblance se met sous la forme f (a)[ aml (n) a], avec f (a) = 1/a. Sil est non biais, lestimateur obtenu sera efcace. Lestimateur ML est obtenu en rsolvant lquation (5.41) : a ml (n) = n. Biais de lestimateur. On calcule lesprance de lestimateur : E [ aml (n)] = E [n] = a, en utilisant les proprits de la loi de Poisson1 . Variance de lestimateur. Daprs les calculs prcdents, on sait que lestimateur est non biais et efcace. On peut utiliser le thorme des bornes dun estimateur efcace, et on trouve directement la variance : Var[ aml (n) a] = f (a)1 = a. (5.44) On peut galement utiliser lune ou lautre des (in)galits de Cramer-Rao, tche que nous laissons au lecteur. (5.43) (5.42)

5.6.3

Observation non linaire

Enonc. La variable dterministe inconnue estimer, a, est mesure au travers dun systme non linaire qui fournit : ri = g (a) + ni , i = 1, . . . k. (5.45)
2 ). Les ni sont des chantillons iid, gaussiens de loi N (0, n

Calcul de la fonction de vraisemblance. p(r/a) = ln p(r/a) =

En raison de lindpendance des ni , on peut crire : (5.46)

(ri g (a))2 k 1 ) , 2 i=1 2n exp 2n k 1 1 k ln ( 2 ) 22 i=1 (ri g (a))2 . n n

On en dduit lquation de vraisemblance : 1 ln p(r/a) = 2 a n


1

k i=1

(ri g (a))

g (a) = 0. a

(5.47)

ce calcul a t fait de faon dtaille en TD dans les rappels de probabilits et de statistiques

66

En gnral, le second terme ne peut pas se mettre sous la forme f (a)( a(r) a), par consquent lestimateur nest pas efcace. Lquation de vraisemblance peut encore scrire : g (a) a Sil existe a tel que g (a) =
1 k

1 k

k i=1

ri g (a))

a= aml (r)

= 0.

(5.48)

k i=1 ri ,

on a la solution :
k

1 g ( aml (r)) = k et si la fonction g est inversible, on a nalement : a ml (r) = g 1 1 k

ri ,
i=1

(5.49)

ri .
i=1

(5.50)

Dans le cas o g 1 nexiste pas, il ny aucune mthode gnrale pour estimer a, mme en absence de bruit. Par exemple, si g (u) = u2 , on dduit u = g (u), mais il ny a aucun moyen (sans information supplmentaire) de dcider du signe ! Calcul de la variance On suppose que lestimateur est non biais. On peut alors utiliser les bornes de Cramer-Rao, par exemple : Var[ a(r) a] E 2 ln p(r/a) a2
1

(5.51)

A partir de (5.47), calculons donc la drive seconde de la fonction de vraisemblance : 1 2 ln p(r/a) = 2 2 a n puis son esprance : E do lon dduit la borne : Var[ a(r) a] 2 ln p(r/a) k g (a) = 2 2 a n a
2 n . k (g (a)/a)2 2 N i=1

(ri g (a))

2 g (a) k g (a) 2 2 a n a

(5.52)

(5.53)

(5.54)

On remarque que la borne ressemble celle obtenue dans le cas dune observation linaire, au terme correctif (g (a)/a)2 prs. Ce terme sexplique facilement en considrant la gure 5.1 : en effet, une erreur a sur a est associe une erreur g (dg/da)a. Dun point de vue variance, on a donc E [(g )2 ] (dg/da)2 E [(a)2 ].

5.7 Liens entre estimateurs ML et MAP


Les estimateurs MAP et ML sont assez voisins. En effet, en comparant lquation de vraisemblance : ln p(r/a)/a = 0, (5.55) 67

C = 
@ C = 
@ C @ = @ =

=
@ =

F IG . 5.1 Erreur dans le cas dune estimation non linaire g (a). et lquation MAP : ln p(r/a)/a + ln p(a)/a = 0, (5.56) on voit que la diffrence rside dans le fait que lestimateur MAP utilise en plus la connaissance a priori sur a (second terme). Par consquent, si la connaissance sur a devient nulle, les deux estimateurs concident. Dans le cas de lobservation avec bruit gaussien additif, lestimateur MAP tend vers lestimateur ML si la connaissance sur a devient nulle, cest--dire si la variance de a tend vers linni : lim a map (r) = lim
2 a 2+ a
2 n k

a +

a +

1 k

ri
i=1

1 = k

ri = a ml (r)
i=1

(5.57)

Dans lexemple avec la loi de Poisson, lestimateur MAP utilise la connaissance a priori contenue dans le paramtre de la loi exponentielle de a. Si la connaissance devient nulle, cest--dire lorsque tend vers 0, lestimateur MAP tend vers lestimateur ML. En effet :
0

lim a map (n) = lim

n =n=a ml (n). 0 + 1

(5.58)

5.8 Proprits de lestimateur du maximum de vraisemblance


Lestimateur du maximum de vraisemblance, mme lorsquil nest pas efcace, possde des proprits asymptotiques trs intressantes. De plus, lapproche ML est une approche systmatique que lon peut toujours mettre en uvre, et souvent de faon simple. Ces remarques fournissent donc des motivations fortes pour lutiliser. On montre que la solution de lquation ML : p(r/a)/a = 0, converge en probabilit vers la valeur idale a si le nombre de mesures k tend vers linni, autrement dit : > 0,
k+

lim P |a ml (r) a| < ) = 1.

(5.59)

Tous les estimateurs possdant cette proprit sont dits consistants. Lestimateur ML est assymptotiquement efcace, cest--dire :
k+

lim

Var[ aml (r) a] E


2 ln p(r/a] a2

= 1.

(5.60)

68

Lestimateur ML est asymptotiquement gaussien, cest--dire que pour k +, a ml 2 ). N (a, a Nous terminerons par deux questions et leurs rponses. Existe-t-il un meilleur estimateur que lestimateur ML ? Sil ny a pas destimateur efcace, il peut exister des estimateurs non biaiss avec des variances plus faibles que lestimateur ML. Le problme est quil ny a pas de mthodes gnrales pour concevoir ces estimateurs hypothtiques, contrairement lestimateur ML. Y-a-t-il des bornes plus petites que celles proposes par le thorme de Cramer-Rao ? Sil ny a pas destimateur efcace, il existe effectivement des bornes plus faibles que celles proposes par ce thorme, mais les calculs pour y parvenir sont trs complexes. Cest pourquoi les bornes de Cramer-Rao restent trs utilises.

69

Chapitre 6

Estimation de paramtres multiples


Dans de nombreux problmes, il est ncessaire destimer plusieurs paramtres. Cest par exemple le cas dans lestimation des paramtres dune cible radar : position, vitesse, etc. La plupart des ides introduites dans les chapitres prcdents peuvent tre tendues au cas multivariable. Dans ce cadre, on considrera lensemble des paramtres sous forme dun vecteur dans un espace de dimension p : a = (a1 , a2 , . . . , ap )T . Dans ce chapitre, on tudiera les deux situations, de vecteurs paramtres alatoires et dterministes, et on dveloppera trois points : les procdures destimation, la mesure des erreurs, les performances.

6.1 Estimation
6.1.1 Estimation de vecteurs alatoires

Dans le cas de lestimation de vecteurs alatoires, on tend le critre de Bayes an de gnraliser les estimateurs des moindres carrs (LS) et du maximum a posteriori (MAP). (r)). Comme dans le cas On mesure lerreur laide dune fonction de cot vectorielle : C (a, a scalaire, on considre gnralement une fonction de lerreur C de Rp R telle que ( a(r) a) p (r) sont des vecteurs de dimension p, par exemple : R C ( a(r) a) R. Ici a et a (r) a = a Estimateur des moindres carrs Dans le cas du critre derreur quadratique, la fonction de cot est :
p

a 1 (r) a1 a 2 (r) a2 . . . a p (r) ap

(6.1)

Cls ( a(r) a) =

i=1

(r) a)T ( ( ai (r) ai )2 = a a(r) a). 71

(6.2)

La dernire expression de droite est la forme vectorielle : un simple produit scalaire. Le risque de Bayes associ ce critre est simplement lerreur moyenne, intgre sur tout lespace des observations r Rk et sur tout lespace des vecteurs paramtres a Rp : Rls =
Rk Rk Rk Rp

= =

p(r)

Cls ( a(r) a)p(r, a)drda, a Rp (


Rp

a)T ( a(r) a)p(a/r)da dr,


p ai (r) i=1 (

(6.3)

p(r)

ai

)2 )p(a/r)da

dr.

Comme dans le cas scalaire, on minimise le risque en minimisant lintgrale intrieure. Puisque chaque terme de la somme est positif (somme de carrs), minimiser lintgrale de la somme revient minimiser chaque terme : mina 1 (r),...,a p (r) mina 1 (r)
Rp

p ai (r) i=1 (

a1 (r) Rp (

a1 )2 p(a/r)da + . . . ap )2 p(a/r)da .

ai )2 )p(a/r)da

= (6.4)

+ mina p (r)

ap (r) Rp (

Pour le terme dindice i, le minimum est solution de : a i cest--dire pour : ( ai )ls (r) = soit de faon globale : ls (r) = a ap(a/r)da.
Rp Rp

Rp

( ai (r) ai )2 p(a/r)da = 2

Rp

( ai (r) ai )p(a/r)da = 0,

(6.5)

ai p(a/r)da,

(6.6)

(6.7)

Lestimateur des moindres carrs est donc la moyenne conditionnelle ou moyenne a posteriori, comme dans le cas scalaire. Estimateur du maximum a posteriori (r) qui maximise la densit mulSi on choisit lestimateur MAP, on cherche la valeur a = a tivariable p(a/r). Si le maximum est intrieur au domaine de variation de a, et si les drives partielles ln p(a/r)/ai existent, lquation MAP est constitue de p quations lmentaires : ln p(a/r) ai que lon peut crire de faon compacte : a ln p(a/r)
a= amap (r)

a= amap (r)

= 0, i = 1, . . . , p,

(6.8)

= 0,

(6.9)

o a reprsente le vecteur gradient par rapport a. On doit bien entendu slectionner parmi les solutions, celle qui correspond au maximum maximorum. 72

6.1.2

Estimation de vecteurs dterministes

Pour un vecteur dterministe, on choisit lestimateur du maximum de vraisemblance, cest(r) qui maximise la vraisemblance multivariable p(r/a). Si le maximum -dire la valeur a = a est intrieur au domaine de variation de a, et si les drives partielles ln p(r/a)/ai existent, lquation du maximum de vraisemblance est constitue de p quations lmentaires : ln p(r/a) ai = 0, i = 1, . . . , p, (6.10)

a= aml (r)

que lon peut aussi crire de faon compacte : a ln p(r/a) = 0, (6.11)

a= aml (r)

o a reprsente le vecteur gradient par rapport a. On doit encore slectionner parmi les solutions, celle qui correspond au maximum maximorum.

6.2 Performance
Dans le cas destimation de vecteurs dterministes, on mesure les performances en calculant lcart entre lestimation et la solution thorique (le biais) et la dispersion des estimations.

6.2.1

Biais de lestimateur

Dans le cas multivariable, le biais est un vecteur, calcul simplement comme la diffrence entre lesprance de lestimateur et le vecteur thorique : b(a) = E [ a(r)] a. (6.12)

Lestimateur est non biais, si le biais est le vecteur nul : b(a) = 0, cest--dire si chaque composante est nulle : (b(a))i = E [ ai (r)] ai = 0, i = 1, . . . , p. (6.13)

6.2.2

Dispersion de lestimateur

Dans le cas dun scalaire, la dispersion tait mesure par la variance de lcart entre lestimateur et la valeur thorique. Dans le cas multivariable, la dispersion pourra tre mesure par la (r) a : matrice de variance-covariance e de lerreur e = a e = E ( a(r) a) E [ a(r) a] ( a(r) a) E [ a(r) a]
T

(6.14)

Les lments diagonaux, dindice ii, de la matrice donneront la dispersion de chacune des composantes ai . Les lments ij , hors de la diagonale, renseignent sur le couplage des erreurs destimation entre ai et aj . 73

6.2.3

Dispersion dans le cas gaussien

On suppose que lerreur ( a(r) a), note e(r) pour simplier, est une variable alatoire gaussienne de dimension p. Sa densit de probabilit scrit alors : 1 1 (6.15) p(e) = (2 p/2 | det(e )|1/2 )1 exp eT e e 2 De cette quation, on dduit que les valeurs de e qui ont une mme densit de probabilit satisfont lquation : 1 2 eT (6.16) e e=c , o c est une constante. Dans le cas p = 2, la courbe dnie par (6.16) est une ellipse. On peut alors calculer la probabilit que lerreur e soit situe lintrieur de lellipse. Pour cela, il faut intgrer p(e) sur le 2 1 domaine correspondant lellipse. Laire de lellipse dnie par eT e e = c est simplement : A = | det(e )|1/2 c2 . Entre c et c + dc, on a une couronne lmentaire dont laire vaut : dA = | det(e )|1/2 2cdc. Sur un point de la couronne, la densit de probabilit est gale (au premier ordre) : p(e) = (2 | det(e )|1/2 )1 exp La probabilit des points extrieurs lellipse est donc : P = Pr(e extrieur de lellipse) 2 + = c (2 p/2 | det(e )|1/2 )1 exp ( x 2 )d A 2 + 1/2 2xdx = c (2 | det(e )|1/2 )1 exp ( x 2 )| det(e )|
2 + exp x 2 c c2 /2 exp(u)du 2 exp ( c2 ).

(6.17)

(6.18) c2 . 2

(6.19)

xdx

(6.20)

= =

La probabilit de e lintrieur de lellipse vaut donc : Pr(e ellipse) = 1 P = 1 exp c2 . 2 (6.21)

2 1 Les ellipses eT e e = c sont appeles ellipses de concentration car elles donnent une mesure de la concentration de la densit de lerreur, qui ne dpend que du scalaire c. 1 2 Dans le cas gnral (p quelconque), eT e e = c dnit une ellipsode. On peut tendre les calculs prddents, et on trouve :

Pr(e extrieur de lellipsode) =

p 2p/2 (p/2+1)

+ p 1 x exp ( c

x2 2 )dx,

(6.22)

o est la fonction Eulrienne de premire espce (fonction factorielle) dnie par : (u) =
0 +

tu1 exp(t)dt.

(6.23)

74

On parle alors dellipsodes de concentration.

75

Troisime partie

Thorie de linformation

77

Objectifs
La thorie de linformation rpond deux questions importantes : 1. Quel est le taux de compression ultime ? Nous verrons quil sagit de lentropie H . 2. Quel est le taux de transmission ultime dune communication ? On verra quil sagit de la capacit du canal C . La thorie de linformation a des liens avec de nombreuses disciplines scientiques et technologiques : mathmatiques : les quantits fondamentales de la thorie de linformation sont dnies dans un formalisme statistique, elles permettent aussi de caractriser les distributions, le comportement de longues squences de varaibles alatoires, etc. Thermodynamique physique : mcanique statistique, seconde loi de la thermodynamique, les communications : capacit dun canal de transmission, codage et compression, codes dtecteurs et correcteurs derreur, etc. linformatique : complexit de Kolmogorov, minimum description length de Rissanen.

Repres historiques
La notion dentropie a t initialement introduite en physique statistique par Boltzman. En 1930, Hartley propose une mesure logarithmique de linformation, dnie comme le logarithme de la taille de lalphabet. Dans les annes 40, Shannon introduit les dnitions actuelles de lentropie et de linformation mutuelle.

Information : une mesure de lincertitude


Dnition 6.2.1 Soit une variable alatoire discrte X valeurs x dans X de probabilit p(x), on appelle incertitude ou information dun vnement x, la quantit I (x) = log p(x) Cette dnition est lie une dnition objective de linformation, non fonde sur son contenu, mais sur son incertitude : linformation apporte par un vnement est gale lincertitude sur cet vnement avant lexprience. De plus, elle est cohrente avec le bon sens : un vnement imprvu apporte beaucoup plus dinformation quun vnement prvisible. En effet, on remarque que : Pour un vnement x certain, cest--dire tel que p(x) = 1, lincertitude vaut I (x) = log 1 = 0. Pour un vnement de probabilit nulle, lincertitude I (x) +.

Organisation
Cette troisime partie traite de la thorie de linformation pour des sources discrtes. Elle est organise en deux chapitres : le premier introduit les grandeurs fondamentales de la thorie de linformation, le second chapitre est consacr aux principes de base du codage. Le lecteur curieux pourra complter ses connaissances notamment pour les sources continues et le thorme de Shannon concernant la capacit dun canal bruit en consultant des ouvrages spcialiss.

78

Chapitre 7

Grandeurs fondamentales de la thorie de linformation


7.1 Entropie
7.1.1 Dnitions
Dnition 7.1.1 Soit une variable alatoire discrte X valeurs x dans X , et de distribution de probabilit p(x), lentropie H (X ) est gale lincertitude ou information moyenne : H (X ) = E [I (x)] = E [log p(x)] = p(x) log p(x).
xX

(7.1)

Dans lentropie, la base usuelle du logarithme est le base 2. Dans ce cas, lunit dentropie est le BIT pour BInary uniT. Dans la suite, on ne notera pas log2 mais simplement log. On a alors quelques galits usuelles : log 2 = 1, log 2n = n, log 3 1.58.

7.1.2

Proprits

Lentropie est positive ou nulle : H (X ) 0. En effet : 0 p(x) 1 0 log p(x) do E [ log p(x)] 0, (7.2)

avec galit E [ log p(x)] = 0 si et seulement si x/p(x) = 1. Cette galit, admise pour le moment, sera montre par la suite.

7.1.3

Exemples

Soit la variable alatoire binaire X : X= 1 avec une probabilit p, 0 avec une probabilit 1 p. 79 (7.3)

Lentropie scrit alors : H (X ) = p log p (1 p) log(1 p) H (p). (7.4)

log 0 0. Par symtrie, on a aussi H (1) = H (0).

Pour p = 1, on trouve H (1) = 1 log 1 0 log 0 = 0 bit. Pour p = 0.5, H (0.5) = 0.5 log 0.5 0.5 log 0.5 = 1 bit. Pour p = 0, on a H (0) = 0 en utilisant la convention

7.2 Entropies jointes et conditionnelles


7.2.1 Dnitions

On peut dnir galement lentropie dun vecteur alatoire. Dans cette partie, on donnera les dnitions dentropie jointe et conditionnelle dans le cas dun vecteur alatoire deux dimensions. Lextension un vecteur alatoire de dimension quelconque est immdiate. Dnition 7.2.1 Soient deux variables alatoires X valeurs x dans X et de distribution de probabilit p(x), et Y valeurs y dans Y et de distribution de probabilit p(y ), lentropie jointe H (X, Y ) est gale : H (X, Y ) = p(x, y ) log p(x, y ) = E [log p(x, y )]. (7.5)

xX y Y

Dnition 7.2.2 Soient deux variables alatoires X valeurs x dans X et de distribution de probabilit p(x), et Y valeurs y dans Y et de distribution de probabilit p(y ), lentropie conditionnelle H (Y /X ) est gale : H (Y /X ) = = = = =
xX p(x)H (Y /X = x) xX p(x) yY p(y/x) log p(y/x) xX yY p(x)p(y/x) log p(y/x) xX yY p(x, y ) log p(y/x) E [log p(y/x)].

(7.6)

Bien sr, on peut galement dnir lentropie conditionnelle H (X/Y ). En suivant un calcul similaire, on trouve : H (X/Y ) = p(x, y ) log p(y/x) = E [log p(x/y )]. (7.7)

xX y Y

7.2.2

Relations entre entropies

Thorme 7.2.1 Soient deux variables alatoires X et Y , les entropies simple, jointe et conditionnelles sont lies par la relation : H (X, Y ) = H (X ) + H (Y /X ) = H (Y ) + H (X/Y ). 80 (7.8)

Dmonstration Par dnition, lentropie jointe vaut : H (X, Y ) = = = = xX yY p(x, y ) log p(x, y ) xX yY p(x, y ) log (p(x)p(y/x)) xX yY p(x, y ) log p(x) xX H (X ) + H (Y /X )

y Y

p(x, y ) log p(y/x)

(7.9)

La seconde galit se dmontre de faon similaire en utilisant p(x, y ) = p(y )p(x/y ).

7.2.3

Proprits et cas particulier


H (X/Y ) H (X ), H (Y /X ) H (Y ),

On montre que : (7.10)

avec galits si les variables X et Y sont indpendantes.

Si X et Y sont deux variables alatoires indpendantes, cest--dire vriant p(x, y ) = p(x)p(y ) (ou p(x/y ) = p(x) et p(y/x) = p(y )), on a les relations : H (X ) = H (X/Y ), H (Y ) = H (Y /X ), H (X, Y ) = H (X ) + H (Y ). (7.11)

7.2.4

Exemple 1

Soient deux variables alatoires X et Y prenant chacune quatre valeurs, {x1 , x2 , x3 , x4 } et {y1 , y2 , y3 , y4 } respectivement, avec les probabilits jointes donnes dans le tableau ci-dessous. y1 y2 y3 y4 p(xi ) x1 1/8 1/16 1/16 1/4 1/2 x2 1/16 1/8 1/16 0 1/4 x3 1/32 1/32 1/16 0 1/8 x4 1/32 1/32 1/16 0 1/8 p(yi ) 1/4 1/4 1/4 1/4

TAB . 7.1 Probabilits jointes p(xi , yj ) de lexemple 1.

Calcul des entropies simples, H (X ) et H (Y ) On utilise les probabilits marginales, calcules en faisant la somme des probabilits jointes, en ligne pour y et en colonne pour x. On a donc : H (X ) = 4 i=1 p(xi ) log p(xi ) 1 1 1 1 1 1 1 = ( 2 log 1 2 + 4 log 4 + 8 log 8 + 8 log 8 ) 1 1 1 1 = 21 + 42 + 83 + 83 = 7 4 bits. Le calcul de H (Y ) est similaire et on trouve H (Y ) = 2bits 81

(7.12)

Calcul des entropies conditionnelles, H (X/Y ) et H (Y /X ) Calculons H (X/Y ) en utilisant la relation : H (X/Y ) = E [log p(x/y )] 4 = 4 i=1 j =1 p(xi , yj ) log p(xi /yj ) 4 4 = i=1 j =1 p(yj )p(xi /yj ) log p(xi /yj ) =
4 j =1 p(yj )

(7.13) .

4 i=1 p(xi /yj ) log p(xi /yj )

On doit donc calculer les probabilits conditionnelles p(xi /yj ). Pour y = y1 , on calcule : p(x1 /y1 ) = p(x1 , y1 )/p(y1 ) 1/8 = 1 /4 1 , = 2

(7.14)

et de faon similaire p(x2 /y1 ) = 1/4, p(x3 /y1 ) = 1/8 et p(x4 /y1 ) = 1/8. On effectue les mmes calculs pour les autres yi . On peut maintenant appliquer la formule (7.13), et on trouve en notant H (U ) = H (p(u1 ), p(u2 ), p(u3 ), p(u4 )) : H (X/Y ) = = =
1 1 1 1 1 4 H( 2 , 4 , 8 , 8 ) + 17 17 1 4 4 + 4 4 + 42 + 11 8 bits. 1 1 1 1 1 4 H( 4 , 2 , 8 , 8 ) 1 40 1 1 1 1 1 +4 H( 1 4 , 4 , 4 , 4 ) + 4 H (1, 0, 0, 0)

(7.15)

En procdant de faon similaire, on trouve H (Y /X ) = 13/8 bits. Vrication des relations entre entropies On peut vrier les relations entre entropies : H (X, Y ) = 27 8 13 27 = H (X ) + H (Y /X ) = 7 4 + 8 = 8 27 = H (Y ) + H (X/Y ) = 2 + 11 8 = 8 . On vrie galement que : H (X/Y ) = H (Y /X ) =
11 8 13 8

(7.16)

H (X ) = 14 8 , H (Y ) = 2.

(7.17)

On remarque que H (X/Y ) = H (Y /X ). Enn, on a : H (X/Y ) < H (X ) H (Y /X ) < H (Y ), car X et Y ne sont pas des variables alatoires indpendantes. (7.18)

7.2.5

Exemple 2

On considre la langue franaise comme une source dinformation X , qui utilise 27 symboles : 26 lettres plus le caractre espace sont les lments xi de lalphabet X . 82

Si chaque symbole xi tait quiprobable, on aurait donc p(xi ) = 1/27 et par consquent : H (X ) = = = = 27 i=1 p(xi ) log p(xi ) 27 1 1 i=1 27 log 27 log 27 4.75 bits/lettre.

(7.19)

En ralit, on sait que les lettres ne sont pas quiprobables. Si on estime les probabilits p(xi ) partir des frquences relatives dun texte, on trouve par exemple : p(espace) = 0.184, p(e) = 0.148, p(s) = 0.077, p(n) = 0.071, p(t) = 0.068, etc. Ces probabilits sont trs diffrentes de 1/27 0.037. Avec ces valeurs, le calcul de lentropie donne maintenant : H (X ) = 3.98 bits/lettre. (7.20)

La perte dentropie est due au fait que lincertitude nest pas identique pour toutes les lettres. On peut encore aller plus loin. En effet, on sait que la probabilit dune lettre dpend fortement de la lettre prcdente. Par exemple, aprs la lettre q , la probabilit davoir un u est trs proche de 1. Pour avoir une meilleure estimation de lentropie de la langue franaise (ou dune autre langue), on doit tenir compte de cette dpendance, et considrer non pas des lettres isoles mais des groupes de deux lettres, trois lettres ou plus. Ici, nous considrerons la variable alatoire Z correspondant aux paquets de 2 lettres. Si deux lettres successives taient indpendantes, on aurait : H (Z ) = 2H (X ) 7.9 bits. (7.21)

En fait puisque deux lettres successives ne sont pas indpendantes, on peut crire (en notant X1 et X2 les sources associes respectivement la premire et la seconde lettre) : H (Z ) = H (X1 ) + H (X2 /X1 ) < H (X1 ) + H (X2 ) 7.9 bits. (7.22)

Enn, on peut se demander si toutes les langues ont des entropies identiques. A partir de statistiques sur les lettres (comme ci-dessus), on peut calculer lentropie de langlais, et on trouve : H (anglais) 4.1bits/lettre. (7.23)

et en considrant des paquets de deux lettres, on trouve H (X2 /X1 ) = 3.6 bits, do H (Z ) 7.7 bits. On remarque que lentropie de langlais est un peu suprieure lentropie du franais. Autrement dit, une lettre en anglais apporte plus dinformation quune lettre en franais. Concrtement, on observe quune traduction anglaise est plus courte que le texte franais correspondant. 83

7.3 Entropies relatives et information mutuelle


7.3.1 Dnitions
Dnition 7.3.1 On appelle entropie relative ou divergence de Kullback-Leibler (KL) entre deux distributions p(x) et q (x) de la mme variable alatoire X la quantit : D(p//q ) =
xX

p(x) log

p(x) p(x) = Ep log . q (x) q (x)

(7.24)

On montre que D(p//q ) 0 et ne sannulle que si les deux distributions sont gales : p(x) = q (x). Remarque. Dun point de vue mathmatique, la quantit D(p//q ) nest pas une distance, car elle nest pas symtrique : D(p//q ) = D(q//p). Le terme divergence provient de langlais et peut se traduire par cart. Dnition 7.3.2 Soient deux variables alatoires discrtes X et Y de probabilit jointe, p(x, y ), et de probabilits marginales p(x) et p(y ), on appelle information mutuelle I (X, Y ) lentropie relative entre la distribution jointe entre la distribution jointe et le produit des distributions marginales : I (X, Y ) = D(p(x, y )//p(x)p(y )) p(x, y ) = E log p(x)p(y ) p(x, y ) = p(x, y ) log . p(x)p(y )
xX y Y

(7.25)

7.3.2

Relations avec les entropies

A partir de la dnition de linformation mutuelle, on tire : I (X, Y ) =


xX y Y

p(x, y ) log p(x, y ) log


xX y Y

p(x, y ) p(x)p(y ) p(x, y ) p(x) p(x, y ) log p(y )


xX y Y

= H (Y /X ) + H (Y ). Avec un calcul similaire, on trouve galement :

(7.26)

I (X, Y ) = H (X ) H (X/Y ).

(7.27)

De plus, en utilisant la relation entre entropies conditionnelles, simples et jointes, on arrive la relation : I (X, Y ) = H (X ) + H (Y ) H (X, Y ). (7.28) Cas de variables indpendantes. Si les variables X et Y sont indpendantes, on a alors p(x, y ) = p(x)p(y ) et I (X, Y ) = x,y p(x, y ) log 1 = 0. 84

y = f(u) y=u1

y = ln(u) u

h F IG . 7.1 La droite y = u 1 est tangente la fonction ln u au point 1. La fonction ln tant concave, on en dduit ln u u 1.

7.4 Ingalit de Jensen


Cette ingalit est un rsultat trs utile en thorie de linformation qui tablit la positivit de la divergence de KL. Elle permet aussi de dduire que lentropie est maximale pour une distribution quiprobable.

7.4.1

Thorme

Thorme 7.4.1 Soient p(x) et q (x) deux distributions dune mme variable alatoire X , alors D(p//q ) 0 avec D(p//q ) = 0 si et seulement si p(x) = q (x). Preuve. Calculons loppos de la divergence de KL : D(p//q ) = = +
xX

p(x) log
xX

p(x) q (x) q (x) . p(x (7.29)

p(x) log

Le logarithme tant une fonction concave, on peut crire : ln u u 1, (7.30)

car la droite y = u 1 est tangente ln u en u = 1 (Fig. 7.1). On en dduit que log2 u = ln u/ ln 2 (u 1)/ ln 2. En reportant dans (7.29), on a alors : D(p//q ) + D(p//q ) p(x) q (x) 1 ln 2 p(x) q (x) p(x) .
xX

1 ln 2

xX

(7.31)

xX

85

La somme dune distribution sur tout lespace tant gale 1, on trouve nalement : D(p//q ) 0. (7.32)

Si p = q , alors log(p/q ) = 0 et D(p//q ) = 0. Rciproquement, si p = q , alors log(q/p) < (q/p) 1 et par consquent D(p//q ) > 0.

7.4.2

Consquences

Voici quelques rsultats que lon peut dduire de ce thorme. Thorme 7.4.2 Soient deux variables alatoires X et Y , linformation mutuelle I (X, Y ) vrie I (X, Y ) 0 avec I (X, Y ) = 0 si et seulement si X et Y sont indpendantes. La dmonstration est immdiate en utilisant la dnition de linformation mutuelle et lingalit de Jensen. Thorme 7.4.3 Soient deux variables alatoires X et Y , on a H (X/Y ) H (X ) avec galits si et seulement si X et Y sont indpendantes. Pour montrer ce rsultat, on crit : I (X, Y ) 0 H (X ) H (X/Y ). (7.33)

H (X ) H (X/Y ) 0

De plus, I (X, Y ) = H (X ) H (X/Y ) = 0 si et seulement si X et Y sont indpendantes. Thorme 7.4.4 Soient une variable alatoire X de distribution p(x) sur lensemble X de cardinal card(X ) = N , et q (x) = 1/N la distribution uniforme sur X , alors H (X ) log N , et lgalit H (X ) = log N est obtenue pour p(x) = q (x) = 1/N , cest--dire pour la distribution uniforme. Partons de loppos de la divergence KL entre p et q et appliquons lingalit de Jensen : +
xX

p(x) log

q (x) p(x)

H (X ) +
xX

p(x) log q (x) 0

H (X ) +
xX

p(x) log(1/N ) 0
xX

H (X ) log N

p(x) 0 0, (7.34)

H (X ) log N do nalement : H (X ) log N, avec galit si et seulement si p(x) = q (x) = 1/N . 86

(7.35)

7.5 Exercice : entropies dune exprience


7.5.1 Enonc

Soient une balance et neuf pices de monnaie. La balance, de type Roberval, ne permet de faire des peses comparatives. Huit des pices sont identiques, la neuvime est fausse et se distingue pas sa masse diffrente des pices vraies. On veut dterminer quelle pice est fausse et si elle est plus lourde ou moins lourde que les vraies.

7.5.2

Existence dune solution en trois peses

Calculer lentropie de lexprience. Chaque pice pouvant tre fausse, et sa diffrence de masse tant inconnue, on a donc 9 2 = 18 situations possibles, toutes aussi probables. On a donc : H (exprience) = log 18 4.16bits. (7.36) Calculer lentropie maximale dune pese. Une pese comparative peut proposer trois rsultats : le plateau gauche est plus lourd (vnement G), le plateau droit est plus lourd (vnement D), quilibre (vnement E ). Lentropie maximale dune pese est atteinte si les trois probabilits sont gales : PD = PG = PE = 1/3. On peut donc crire : H (pese) log 3 1.58bits. En dduire que trois peses sufsent pour rsoudre ce problme. donc acqurir une information : H (3 peses) 3H (pese) 4.75bits. (7.37) En trois peses, on peut

(7.38)

On remarque que lentropie de trois peses peut tre suprieure lentropie de lexprience. Par consquent, en choisissant judicieusement chaque pese, on peut rsoudre le problme en trois peses.

7.5.3

Dtermination de la premire pese

On place n pices dans chaque plateau de la balance. Calculer les probabilits PD , PG et PE . On a donc n pices dans chaque plateau et 9 2n pices lcart de la balance. Calculons PG : PG = Pr[(pice fausse et plus lourde gauche) ou (pice fausse et plus lgre droite)] n n = + 18 18 n . = 9 De mme, on trouve PD = n/9. On en dduit donc : PE = 1 PG PD 2n = 1 . 9 87 (7.39)

(7.40)

(7.41)

On aurait aussi pu calculer la probabilit dtre lquilibre. Cet vnement se produit si la pice fausse est carte, cest--dire se trouve parmi les 9 2n. On a alors : 9 2n PE = . (7.42) 9 Par symtrie, PD = PG et en utilisant PD + PE + PG = 1, on dduit : PD = PG = (1 PE )/2 9 2n = 1/2 18 n = . 9 (7.43) (7.44) (7.45)

Pour quelles valeurs de PD , PG et PE , lentropie dune pese est-elle maximales ? Trois vnements tant possibles, daprs les consquences du thorme de Jensen, on sait que lentropie dune pese est infrieure ou gale log 3 1.58 bits. Lgalit se produit lorsque les trois vnements ont des probabilits quiprobables. En dduire le nombre de pices n placer sur chaque plateau pour que lentropie de la pese soit maximale. On cherche n telle que PD = PG = PE = 1/3, cest--dire : n 2n =1 , (7.46) 9 9 do : n = 3. (7.47) La pese apporte une information maximale de log 3 1.58 bits si on place 3 pices dans chaque plateau.

7.5.4

Dtermination de la seconde pese

Le rsultat de la premire pese est lquilibre On sait donc que les 6 pices sur les plateau sont vraies et la pice fausse se trouve parmi les trois pices restantes. On peut donc considrer le problme avec trois pices, dont lentropie vaut H = log 6 = 2.58 bits, et qui peut donc tre rsolu en 2 peses. En rptant le raisonnement du paragraphe prcdent, on place 1 pice dans chaque plateau : cette exprience possde une entropie de 1.58 bits. Si le rsultat de cette seconde pese est lquilibre, la pice fausse se trouve hors du plateau : une troisime pese dterminera si elle est plus lourde ou plus lgre. Cette troisime pese ne peut donc avoir que deux rsultats quiprobables de probabilit PD = PG = 1/2, lquilibre tant impossible (PE = 0). On a donc : H (troisime pese) = log 2 = 1bit. Pour ces trois peses, on a donc une entropie totale : H (trois peses) = H (premire pese) + H (deuxime pese) +H (troisime pese) = log 3 + log 3 + log 2 = log 18, = log(32 2) (7.49) (7.48)

88

cest--dire qui est gale lentropie de lexprience. Le rsultat de la premire pese est G On sait alors que les trois pices cartes sont vraies, et que la pice fausse se trouve dans un des deux plateaux, gauche si elle est plus lourde, droite si elle est plus lgre. Montrer quil ne faut pas mlanger les pices des 2 plateaux et considrer un problme 6 pices. Si on remet ensemble ces 6 pices, le problme a une entropie de : H (problme 6 pices) = log 12 3.58bits suprieure linformation que lon peut acqurir en deux peses : H (2 peses) 2 log 3 3.16bits. (7.51) (7.50)

Il faut donc distinguer les pices de chaque plateau. En effet, en les mlangeant, on perd les informations si la pice fausse est gauche elle est plus lourde et si la pice fausse est droite elle est plus lgre, soit une entropie de 1 bit. Si lon commet cette erreur, le bilan reste malgr tout cohrent, mme si on ne peut plus rsoudre en trois peses. En effet, on retrouve lentropie du problme : H (problme) = H (problme 6 pices) + H (premire pese) = log 12 + log 3 log 2 H (perdue en mlangeant) (7.52)

= log 18 4.16bits.

On enlve une pice de chaque plateau. Montrer que cette pese ne convient pas. On enlve une pice de chaque plateau, mais on place les pices cartes prs du plateau do elles proviennent an de conserver la mmoire de la premire pese. Dans ce cas, on sait que deux rsultats seuls sont possibles : E1 ou G (car PD = 0), avec les probabilits : PE = 1/3 PG = 2/3, ce qui correspond une entropie : 1 2 2 1 H (seconde pese) = log log 3 3 3 3 log 3 2 log 3 2 log 2 + = 3 3 3 2 = log 3 3 0.92bits.

(7.53)

Les deux premires peses apportent donc H = 1.58 + 0.92 = 2.5 bits. Avec la troisime pese qui apporte au maximum 1.58 bits, on a donc au plus 4.08 bits, ce qui est plus faible que lentropie de lexprience. Cette pese nest donc pas judicieuse.
1

PE est la probabilit que la pice fausse soit parmi les 2 pices cartes sur les 6 considres)

89

An que pD = 0, on enlve une pice de chaque plateau, on permute une pice de chaque plateau. Calculer les probabilits des rsultats de la pese et son entropie. Calculons PE : PE = Pr(pice fausse est une des deux pices enleves) = 2/6. Calculons maintenant PG : PG = Pr[(pice fausse est la pice reste dans le plateau gauche) ou (pice fausse est la pice reste dans le plateau droit)] = 2/6. De mme, on trouve PD = 1/3. Lentropie de cette pese est donc maximale et vaut H (seconde pese) = 1.58 bits. Il est facile de vrier quune troisime pese permettra de dterminer la fausse pice et son poids, quel que soit le rsultat de cette pese. (7.54)

90

Chapitre 8

Codage et compression de donnes


Comme nous lavons indiqu dans lintroduction, un des objectifs de la thorie de linformation est de fournir des mthodes de compression de linformation. Intuitivement, on comprend quun code qui reprsente les symboles les plus frquents par des mots-codes les plus courts ralise cet objectif. Cest ce que nous allons voir de faon plus formelle dans ce chapitre.

8.1 Exemples de codes


8.1.1 Dnitions

Dnition 8.1.1 Un code C dune variable alatoire X est une application de X vers D, lensemble des chanes de longueur nie ralises partir dun alphabet D lettres. On notera C (x) le mot-code associ au symbole x et l(x) la longueur de ce mot-code. Dnition 8.1.2 Soient une variable alatoire X , prenant les valeurs x avec une probabilit p(x), et C un code sur X . La longueur moyenne L(C ) du code C est gale : L(C ) =
xX

l(x)p(x)

(8.1)

Sans perte de gnralit, lorsque lalphabet possde D lettres, on pourra supposer D = {0, 1, . . . , D 1}. Si le code utilise un alphabet deux lettres, cest un code binaire.

8.1.2

Exemples

Exemple 1 On considre X et les deux codes binaires dnis par le tableau ci-dessous. Lentropie de la source X vaut :
4

H (X ) =

p(xi ) log p(xi ) = 1.75 bits.


i=1

(8.2)

Dans cette quation, lunit bit signie Binary unIT. 91

x x1 x2 x3 x4

p(x) 1/2 1/4 1/8 1/8

C1 (x) 0 10 110 111

C2 (x) 00 01 10 11

TAB . 8.1 Probabilits et mots-codes de la source X de lexemple 1.

La longueur moyenne L(C1 ) des mots-codes de C1 est gale :


4

L(C1 ) =
i=1

l1 (xi )p(xi )

1 1 1 1 +2 +3 +3 2 4 8 8 = 1.75 digits binaires. = 1 De faon similaire, la longueur moyenne L(C2 ) vaut :


4

L(C2 ) =
i=1

l2 (xi )p(xi )

= 2 digits binaires. On nutilisera pas le terme bit pour les digits binaires, an dviter la confusion avec lunit dinformation. On remarque que la longueur moyenne des mots-codes est plus petite pour C1 que pour C2 : C1 est donc plus efcace que C2 . le nombre de digits binaires de la longueur moyenne L(C1 ) est gale lentropie, toute suite de mots-codes, de C1 comme de C2 , correspond une suite unique de symboles xi . Exemple 2 On considre X et les deux codes dnis par le tableau ci-dessous. x x1 x2 x3 p(x) 1/3 1/3 1/3 C1 (x) 0 10 01 C2 (x) 0 1 2

TAB . 8.2 Probabilits et mots-codes de la source X de lexemple 2. Lentropie de la source X vaut :


3

H (X ) =

p(xi ) log p(xi ) = 1.58 bits.


i=1

(8.3)

92

La longueur moyenne L(C1 ) est gale :


3

L(C1 ) =
i=1

l1 (xi )p(xi )

= 1

1 1 1 +2 +2 3 3 3 1.67 bits.
3

De faon similaire, la longueur moyenne L(C2 ) vaut : L(C2 ) =


i=1

l2 (xi )p(xi )

= 1 digit ternaire. On remarque que la longueur moyenne des codes, utilisant des alphabets diffrents (ici binaire et ternaire), est difcilement comparable, puisque les units sont diffrentes : des digits binaires ou ternaires ! il est galement difcile de comparer ces longueurs moyennes avec lentropie dont lunit est binaire (bit = binary unit), de au choix du logarithme en base 2, les suites de mots-codes de C1 peuvent tre ambiges. Par exemple 1001010 peut correspondre aux mots-codes des suites x2 , x3 , x1 , x2 ou x2 , x1 , x2 , x2 ou x2 , x3 , x3 , x1 .

8.1.3

Codes rguliers, dchiffrables et instantans

Les exemples prcdents ont montr que les codes ne possdent pas tous de bonnes proprits : il ne suft pas quun code soit une application de C dans D. Dans ce paragraphe, on sattachera dnir de faon prcise ces proprits. Dnition 8.1.3 Un code C est dit rgulier (ou non singulier) si chaque lettre x X a une reprsentation unique C (x), autrement dit si lapplication x C (x) est injective : xi = xj C (xi ) = C (xj ). (8.4)

Comme nous lavons vu dans lexemple 2 du paragraphe prddent (C1 ), cette proprit nest pas sufsante. En effet, il faut que cette proprit dinjectivit soit galement vraie pour le code des suites de symboles xi , sinon les suites de mots-codes sont ambiges. Dnition 8.1.4 Lextension X n de X est lensemble des suites de n symboles de X . Dnition 8.1.5 Lextention C n du code C est lapplication des chanes de longueur n dlments de X en chanes nies dlments de D, dnies ainsi : C n (x(1) , . . . , x(n) ) = C (x(1) )C (x(2) ) . . . C (x(n) ), (8.5) o C (x(1) )C (x(2) ) . . . C (x(n) ) est la concatnation des mots-codes C (x(1) ), C (x(2) ) . . . et C (x(n) ). Par exemple, si C (x1 ) = 00 et C (x2 ) = 11, on a C 2 (x1 , x2 ) = C (x1 )C (x2 ) = 0011. 93

Dnition 8.1.6 Un code est dchiffrable (ou dcodage unique) si toutes ses extentions sont rgulires. Cette dnition permet dviter les problmes dambiguits du dcodage, mais ce nest pas encore satisfaisant. En effet, considrons la source X et les deux codes binaires C1 et C2 du tableau 8.3. x x1 x2 x3 x4 C1 (x) 0 11 100 101 C2 (x) 0 01 011 0111

TAB . 8.3 Deux codes binaires pour la source X .

Il est facile de vrier que ces deux codes sont dchiffrables. Cependant, si on considre la suite de lettres x1 , x2 , x3 , x1 , x3 , x4 , dont les codes sont donnes dans le tableau 8.4, on remarque que les mots-codes de C2 ne peuvent tre interprts que tardivement, aprs le dbut du mot-code suivant. C6 6 C1 6 C2 x1 0 0 x2 11 01 x3 100 011 x1 0 0 x3 100 011 x4 101 0111

TAB . 8.4 Certains mots-codes de C2 ne peuvent tre dcods que tardivement, aprs acquisition de la premire lettre du mot-code suivant.

On introduit donc la notion de code instantan ou irrductible. Dnition 8.1.7 Un code est dit instantan ou irrductible sil vrie la condition du prxe, cest--dire sil nexiste aucun couple (xi , xj ) pour lequel le mot code C (xi ) est le dbut du motcode C (xj ). On voit clairement que le code C2 de lexemple prddent ne satisfait pas cette condition : C2 (xi ), i > 1, commence toujours avec C2 (xi1 ) ! En revanche, on peut facilement vrier que C1 vrie la condition du prxe. Les langues usuelles ne sont pas des codes instantans. Par exemple, en franais : paillasse, paillasson, paille, pailler, paillis, paillotte, etc. soixante, soixante-dix, soixante-dix-sept, etc. Ces dnitions des codes peuvent tre schmatises dans le diagramme 8.1.

8.1.4
Enonc

Exercice

On considre la source X et les cinq codes dnis dans le tableau suivant. 94

Codes quelconques Codes instantans

Codes singuliers

Codes dchiffrables

Codes rguliers

F IG . 8.1 Reprsentation des diffrents types de codes. x x1 x2 x3 x4 C1 0 1 0 1 C2 0 010 01 10 C3 10 00 11 110 C4 0 10 110 111 C5 00 01 10 11

Etudier chaque code et indiquer en argumentant sil est rgulier, dchiffrable ou instantan. Rponses Code C1 . Le code C1 est singulier car lapplication nest pas injective. Plusieurs symboles de X ont le mme mot-code : C (x1 ) = C (x3 ) et C (x2 ) = C (x4 ). Ce code est sans intrt. Code C2 . Ce code est rgulier. En revanche, il nest pas dchiffrable. En effet, C (x2 ) = 010 peut tre dcod comme x2 ou x3 , x1 ou x1 , x4 ! Ce code est galement sans intrt. Code C3 . Ce code est rgulier. Il est aussi dchiffrable. En revanche, il nest pas instantan. En effet, la condition du prxe nest pas vrie : C (x4 ) commence comme C (x3 ). Code C4 . Ce code est rgulier, dchiffrable et instantan. On peut facilement vrier la condition du prxe. Code C5 . Ce code est rgulier, dchiffrable et instantan. On peut remarquer que tout code rgulier dont les mots-codes ont mme longueur est dchiffrable et instantan.

8.2 Construction de codes


La construction de codes instantans de longueur moyenne minimale est un bon objectif pour la compression dinformation.

95

Bien sr, on ne peux pas attribuer des mots-codes courts chaque lettre frquente tout en respectant la condition du prxe. Pour cela, on montre dans ce paragraphe que lensemble des longueurs des mots-codes doit satisfaire la condition de Kraft.

8.2.1

Ingalit de Kraft

Thorme 8.2.1 Tout code instantan dune source X m mots sur un alphabet de taille D dont les longueurs des mots-codes sont l1 , l2 , . . . , lm doit satisfaire lingalit :
m i=1

Dli 1.

(8.6)

Rciproquement, tant donn un ensemble de longueurs de mots-codes qui satisfait lingalit de Kraft (8.6), il existe un code instantan dont les mots-codes ont ces longueurs. Preuve. On considre un arbre D-aire, dans lesquel chaque nud a D descendants. A chaque niveau, les D branches de larbre sont associes aux D lettres de lalphabet du code. La condition du prxe implique quaucun mot-code ne contienne le dbut dun mot-code existant : dans larbre, chaque mot-code limine donc toutes les branches descendantes de larbre. Appelons lmax la longueur du mot-code le plus long. Tous les noeuds du niveau lmax de larbre sont donc soit des mots-codes (de longueur maximale), dautres des descendants de mots-codes, et dautres des nuds de branches inutilises. Cela signie que le nombre de mots-codes doit tre infrieur ou gal Dlmax . Au niveau de la longueur li , un mot-code de longueur li a Dlmax li descendants de longueur lmax , quil faut liminer pour satisfaire la condition du prxe. Lensemble des descendants limins de tous les mots-codes doit videmment tre infrieur ou gal au nombre maximal de mots-codes de longueur lmax , Dlmax :
m i=1

Dlmax li Dlmax ,
m i=1

(8.7)

cest--dire :

Dli 1.

(8.8)

Rciproquement, si on se donne des longueurs de mots-codes l1 , l2 , . . . , lm qui satisfont lingalit de Kraft, on peut construire un arbre D-aire associ un code qui satisfait la condition du prxe, cest--dire un code instantan. Il suft dtiqueter C (x1 ) le premier noeud de niveau l1 et de supprimer tous ses descendants, etc.

8.2.2

Extension et remarque

Ce rsultat peut stendre pour un code inni, mais la preuve ne sera pas produite dans ce document. Lingalit de Kraft donne deux rsultats essentiels : 96

1 1 D 1 D 1 D D

1 1 D D D 1

niveau l_{i}

niveau l_{i+1}

niveau l_{max}

F IG . 8.2 Arbre D-aire. Si lingalit (8.6) nest pas vrie par un code, alors on peut afrmer que ce code nest pas instantan. Attention, si lingalit est vrie, on peut seulement dire quil est peut-tre instantan. Pour un ensemble de longueurs li vriant (8.6), on peut construire (il existe) un code instantan avec ces longueurs. Attention, cela ne veux pas dire que tous les codes avec ces longueurs sont instantans : cest trs facile de construire un code avec ces longueurs qui ne soit pas instantan, ni dchiffrable ni mme rgulier.

8.2.3

Exemples

Reprenons les codes de lexercice (paragraphe 8.1.4), qui sont reproduits ci-dessous. x x1 x2 x3 x4
li

C1 0 1 0 1

C2 0 010 01 10

C3 10 00 11 110

C4 0 10 110 111

C5 00 01 10 11

Calculons la quantit vrie.

iD

pour chacun des codes an de vrier si lingalit de Kraft est

Code C1 . Le code est binaire, donc D = 2. Les longueurs sont l1 = l2 = l3 = l4 = 1, do : Dli = 4 21 = 2 > 1. (8.9)

Lingalit de Kraft nest pas vrie. Le code C1 ne peut pas tre instantan. 97

Code C2 . Le code est binaire, donc D = 2. On calcule : Dli = 21 + 23 + 22 + 22 = 1.125 > 1.


i

(8.10)

Lingalit de Kraft nest pas vrie. Le code C2 ne peut pas tre instantan. Code C3 . Le code est binaire, donc D = 2. On calcule : Dli = 22 + 22 + 22 + 23 = 0.875 1. (8.11)

Lingalit de Kraft est vrie. Le code C3 est peut-tre instantan. Code C4 . Le code est binaire, donc D = 2. On calcule : Dli = 21 + 22 + 23 + 23 = 1 1. (8.12)

Lingalit de Kraft est vrie. Le code C4 est peut-tre instantan. Code C5 . Le code est binaire, donc D = 2. On calcule : Dli = 22 + 22 + 22 + 22 = 1 1. (8.13)

Lingalit de Kraft est vrie. Le code C5 est peut-tre instantan.

8.3 Codes optimaux


Au paragraphe prcdent, nous avons montr que tout code instantan satisfait lingalit de Kraft. Le problme consiste maintenant laborer une mthode de construction de codes instantans de longueur moyenne minimale. On peut formuler le problme de la faon suivante. Soient x1 , x2 , . . ., xm , les m symboles de X et l1 , l2 , . . ., lm les longueurs des mots-codes C (x1 ), C (x2 ), . . ., C (xm ) satisfaisant lingalit de Kraft, cherchons le code C (x) qui minimise L(C ) = i li p(xi ). Compte tenu de lingalit de Kraft, on peut lexprimer ainsi. Cherchons un code C qui minimise L(C ) = i li p(xi ) sous la contrainte i Dli 1.

8.3.1

Longueur optimale

En fait, pour simplier, on ne tient pas compte de la nature entire des li et on prendra li = 1. Le problme de minimisation sous contrainte revient alors chercher un code D i C qui minimise L(C ) = i li p(xi ) sous la contrainte i Dli = 1. On peut associer ce problme la fonction de cot : J=
i

p(xi )li +
i

D li ,

(8.14)

98

o est un multiplieur de Lagrange. En drivant par rapport li , on trouve que les minimas sont obtenus pour : J = p(xi ) Dli ln D = 0, (8.15) li cest--dire pour : p(xi ) D li = . (8.16) ln D En reportant cette relation dans la contrainte p(xi ) ln D
iD li

= 1, on a :

= 1

1 ln D

p(xi ) = 1
i

=
: li

1 . ln D

(8.17)

On en dduit que, loptimum (minimum de J ), on doit avoir des longueurs minimales notes
p(xi ) = Dli = exp(li ln D),

(8.18)

do :
ln p(xi ) = li ln D, ln p (xi ) li = , ln D log p(xi ) li = . log D

(8.19)

Finalement, la longueur moyenne minimale L vaut : L =


i p(xi )li

=
i

p(xi )

log p(xi ) log D p(xi ) log p(xi )

= =

1 log D H (X ) . log D

(8.20)

8.3.2

Thorme

On peut donc noncer le thorme suivant. Thorme 8.3.1 La longueur moyenne L(C ) des mots-codes C (x) dune source X par un code instantan C utilisant un alphabet D lettres vrie : L(C ) H (X ) . log D (8.21)

99

8.4 Bornes
Dans ce paragraphe, nous montrons que lon peut facilement encadrer la longueur moyenne dun code instantan. De plus, nous montrons lintrt pratique dun code par paquets de symboles.

8.4.1

Codes mot mot

, i = 1, 2, . . . , m, les valeurs optimales (mais pas forcment entires) des longueurs, Soient li il est clair que la longueur relle li des mots-codes C (xi ) est un entier qui vrie : li l i < li + 1.

(8.22)

En multipliant par p(xi ) puis sommant sur tous les mots-codes, on a :


p(xi )li

p(xi )li <


i i

p(xi )(li + 1),

(8.23)

soit :

H (X ) H (X ) L< + 1. log D log D

(8.24)

En codant symbole par symbole les lments de la source X , on peut toujours construire un code instantan telle que la longueur moyenne est comprise entre la longueur minimale thorique L et L + 1.

8.4.2

Codes par paquets

Considrons maintenant le codage par paquets de n symboles de la source X , cest--dire par lments de sa n-ime extention X n . On notera l(x(1) , x(2) , . . ., x(n) ) la longueur du mot-code associ llment x(1) , x(2) , . . ., x(n) de probabilit p(x(1) , x(2) , . . ., x(n) ). La longueur moyenne des mots-codes (de paquets de n symboles) est alors : Ln = l(x(1) , x(2) , . . . , x(n) )p(x(1) , x(2) , . . . , x(n) ). (8.25)

En appliquent le thorme sur la longueur minimale, on peut donc crire : H (X n ) H (X n ) Ln < + 1. log D log D (8.26)

Si les symboles successifs sont indpendants et identiquement distribus (iid), cest--dire que les x(1) , x(2) , . . . , x(n) sont indpendants et identiquement distribus, en appliquant les relations entre entropie jointe et entropies simples, on a H (X n ) = nH (X ). Ainsi, la relation (8.26) devient : nH (X ) nH (X ) Ln < + 1, (8.27) log D log D soit, aprs division par n : H (X ) Ln H (X ) 1 < + , log D n log D n o Ln /n reprsente la longueur moyenne par symbole des mots-codes par paquets de n. 100 (8.28)

Si les symboles successifs ne sont pas indpendants, on peut seulement crire : H (X n ) nH (X ). La longueur moyenne par symbole devient alors : Ln H (X n ) 1 H (X n ) < + . n log D n n log D n (8.30) (8.29)

Conclusion. On remarque quen codant par paquet de n symboles, la longueur moyenne par symbole est encadre entre la longueur minimale thorique H (X )/ log D et H (X )/ log D + 1/n. En augmentant la taille n du paquet, on peut donc rduire lintervalle 1/n et se rapprocher de la borne. Si les symboles successifs ne sont pas iid, alors la borne est plus faible mais son calcul exact est dlicat. Lintervalle reste toujours gal 1/n.

8.4.3

Comparaison de deux codes

Pour comparer des codes sur des alphabets diffrents ou bien des codes symbole symbole ou par paquets de symboles, on introduit lefcacit dun code. Dnition 8.4.1 On appelle efcacit dun code C sur un alphabet D lettres dune source X dont la longueur moyenne des mots-codes est L(C ), le rapport : = H (X ) . L(C ) log D (8.31)

La borne infrieure de la longueur moyenne tant H (X )/ log D, on voit que lefcacit est infrieure ou gale 1.

8.5 Thorme de Mac Millan


Le thorme de Kraft fournit une condition ncessaire pour les codes instantans. On peut se demander sil existe une condition similaire pour les codes simplement dchiffrables.

8.5.1

Thorme

McMillan a montr le thorme suivant. Thorme 8.5.1 Les longueurs, li , i = 1, . . . , m, de mots-codes dun code dchiffrable D lettres doivent satisfaire lingalit de Kraft : Dli 1.

Rciproquement, tant donn un ensemble de longueurs de mots-codes, li , i = 1, . . . , m, satisfaisant lingalit de Kraft, il existe un code dchiffrable avec ces longueur de mots-codes. 101

8.5.2

Commentaires

Ce rsultat peut sembler surprenant premire vue. Il montre en effet que lingalit de Kraft est une condition ncessaire la fois pour les codes instantans et dchiffrables. Attention utiliser ce rsultat avec justesse, comme le thorme de Kraft : Si lingalit de Kraft est satisfaite, on peut conclure simplement que le code est peut-tre dchiffrable et/ou instantan. Si lingalit de Kraft nest pas satisfaite, on peut conclure que le code nest ni dchiffrable ni (a fortiori) instantan.

8.6 Codes de Shannon et dHuffman


Dans ce paragraphe, nous proposons deux mthodes systmatiques de construction de codes instantans dont la longueur moyenne L satisfait lencadrement H (X )/ log D L < H (X )/ log D+ 1. Ces deux mthodes peuvent aussi tre utilises pour construire des codes par paquets de n symboles. Dans ce cas, la longueur moyenne par symbole Ln /n satisfait H (X n )/n log D Ln /n < H (X n )/n log D + 1/n.

8.6.1

Code de Shannon

Principe Lide est dattribuer des mots-codes courts aun symboles frquents. Au paragraphe 8.3.1, satisfaisait : nous avons vu que la longueur minimale li
li =

log p(xi ) . log D

= log[1/p(x )]. En gnral, l nest pas un Dans la cas binaire, cette relation se simplie et li i i entier, et on peut choisir pour xi un mot-code C (xi ) de longueur li vriant : li l i < li + 1.

(8.32)

On peut facilement vrier que la condition de Kraft est vrie avec les li . En effet,
li log D li log D > (li + 1) log D

ln p(xi ) li ln D > ln p(xi ) + ln D p(xi ) D li > D

p(xi ) exp[li log D] > p(xi )D


i i

p(xi ),

do nalement : Dli 1. (8.33)

Avec ce choix, il est facile de remarquer que, si lon sait construire un code C avec ces longueurs, la longueur moyenne L(C ) vrie :
li p(xi )

li p(xi ) 102

< (li + 1)p(xi ),

li p(xi )

i li p(xi )

<
i

(li + 1)p(xi ),

log p(xi ) p(xi ) log D H (X ) log D

i li p(xi )

<
i

log p(xi ) + 1)p(xi ), log D

L(C )

H (X ) < + 1. log D

Aprs avoir attribu une longueur chacun des symboles xi , daprs le thorme de Kraft, on sait quil existe un code instantan qui satisfait cette condition. Il est facile de construire un code instantan laide un arbre D-aire qui satisfait ces longueurs et la condition du prxe. Exemple On considre la source X dont les 5 symboles xi , i = 1, . . . , 5 dont les probabilits sont donnes dans le tableau 8.6.1. xi x1 x2 x3 x4 x5 pi 0.25 0.25 0.2 0.15 0.15
= log p li i 2 2 2.3 2.7 2.7

li 2 2 3 3 3

C (xi ) 00 01 100 101 110

TAB . 8.5 Exemple de construction dun code binaire de Shannon

On veut construire un code binaire, cest--dire D = 2. On calcule (voir tableau 8.6.1) les (colonne 3) puis les longueurs l choisies (colonne 4), vriant (8.32). Une longueurs optimales li i fois les longueurs choisies, on construit un arbre binaire (D = 2) dont on tiquette les nuds selon ce choix (Fig. 8.3). Les poids faibles des mots-codes sont les extrmits des branches. Lensemble des mots-codes de larbre est report dans la dernire colonne du tableau 8.6.1.
0 1 x1 : longueur 2 1 x2 : longueur 2 0 0 1 0 x3 : longueur 3 1 0 x4 : longueur 3 x5 : longueur 3

F IG . 8.3 Arbre binaire pour la construction dun code de Shannon. Pour vrier lefcacit du code, on peut calculer si la longueur moyenne est proche de la borne infrieure. Pour cela, on calcule lentropie de la source X : H (X ) 2.29 bits, puis la 103

longueur moyenne :
5

L(C ) =
i=1

pi l i

= 2.5 bits.

= 0.25 2 + 0.25 2 + 0.2 3 + 0.15 3 + 0.15 3

(8.34)

On remarquue que L(c) satisfait bien lencadrement : H (X )/ log D L(C ) < H (X )/ log D + 1

2.29/ log 2 L(C ) < 2.29/ log 2 + 1

soit : 2.29 2.5 < 3.29,

et se trouve mme assez proche de la borne infrieure. Malgr tout, on se rend compte que larbre nest pas utilis au mieux en respectant les longueurs li . En effet, la dernire branche de larbre nest pas utilis. On pourrait gagner en longueur moyenne en affectant un mot-code deux lettres au symbole x3 (Fig. 8.4).
0 1 x1 : longueur 2 1 x2 : longueur 2 0 0 1 x3 : nouvelle longueur 2 x4 : longueur 3

0 1

x5 : longueur 3

F IG . 8.4 Arbre binaire qui amliore le code de Shannon. Avec ce code C , on trouve alors la longueur moyenne : L(C ) = 0.25 2 + 0.25 2 + 0.2 2 + 0.15 3 + 0.15 3 = 2.3 bits. Cette longueur moyenne est vraiment trs proche de la borne infrieure.

(8.35)

8.6.2

Code dHuffman

Nous avons vu au paragraphe 8.3.1 les bornes des longueurs moyennes applicables aux codes instantans et dchiffrables. La construction du code de Shannon, trs simple dans son principe, ne conduit pas des codes optimaux. Dans ce paragraphe, nous prsentons une autre mthode de construction systmatique de codes optimaux, due Huffman. 104

Lemme prliminaire Comme prcdemment, la source X coder est constitue de m symboles, x1 , x2 , . . ., xn , que lon a ordonns de sorte que les probabilits soient dcroissantes p(x1 ) p(x2 ) . . . p(xn ). Lemme 8.6.1 Pour toute distribution, p(xi ), i = 1, . . . , m, il existe un code instantan optimal, cest--dire de longueur moyenne minimale, qui satisfait les trois propositions suivantes : si p(xj ) > p(xk ), alors lk lj , les deux mots-codes les plus longs ont mme longueur, les deux mots-codes les plus longs diffrent seulement par les bits de poids faibles. Preuve. Montrons dabord la premire proposition : si p(xj ) > p(xk ), alors lk lj . Soient C un code optimal et C un code dans lequel les mots-codes C (xj ) et C (xk ) sont permutts = l et l = l . On peut alors crire : par rapport au code C : on a donc lj j k k L(C ) L(C ) =
p(xi )li

p(xi )li
i

= (p(xj ) p(xk ))(lk lj ).

= p(xj )lk + p(xk )lj p(xj )lj p(xk )lk

(8.36)

Or p(xj ) p(xk ) tant positif par hypothse, et C tant optimal, les longueurs moyennes doivent vrier L(C ) L(C ) 0. Daprs la relation (8.36), on en dduit que (lk lj ) 0, cest--dire lk lj . Montrons maintenant la seconde proposition : les deux mots-codes les plus longs ont mme longueur. Si les deux mots-codes les plus longs (dun code optimal) navaient pas mme longueur, on pourrait supprimer le dernier bit du plus long des deux sans dtruire la condition du prxe, ce qui fournirait un code meilleur, ce qui est contraire lhypothse que le code est optimal. La troisime proposition ne sera pas dmontre. Mais elle est vidente si lon respecte la condition du prxe. Principe de construction du code dHuffman A laide du lemme prcdent, Huffman propose la mthode de construction suivante : 1. On ordonne les m symboles xi de faon ce que leur probabilits soient dcroissantes, 2. On traite les D (2 dans le cas binaire) symboles de probabilits les plus faibles et on attribue chacun le poids faible de leur mot-code : dans le cas binaire, 0 pour lun et 1 pour lautre. 3. On considre ce groupe de D symboles, affect dune probabilit gale la somme des probabilits. On forme une source auxiliaire possdant m D + 1 symboles, que lon ordonne selon les probabilits dcroissantes. 4. Si le nombre de symboles est gal D, on tiquette les symboles et on arrte, sinon on recommence ltape 1. 105

Exemple 1 On considre la source X0 5 symboles dont les probabilits, classes de manire dcroissante, sont donnes dans le tableau 8.5.
5 O > N N N N N
# " ! 

A I :


2 H > = :      #   #  # #


2 H > = :  !      # #


2 H > = :  " #  !   #

2 H > = :

   

   

   

 # #  " #

 

 

   

JI ? @ A I

  

 

  

F IG . 8.5 Exemple de construction dun code binaire dHuffman Commenons par construire un code dHuffman binaire C2 . Pour cela, considrons les deux symboles de probabilits les plus faibles, et attribuons le poids faible 0 lun et 1 lautre (laffectation na pas dimportance, puisquil auront tous les deux la mme longueur). Considrons maintenant lensemble de ces deux symboles, dont la probabilit vaut 0.15 + 0.15 = 0.30. On forme donc la source secondaire X1 , constitue de m D + 1 = 5 2 + 1 = 4 symboles que lon classe selon les probablites dcroissantes. Dans le tableau 8.5, les ches indiquent la correspondance entre les probabilits des symboles de deux sources successives. On rpte la procdure jusqu ce que la source auxiliaire ne compte plus que 2 (D = 2) symboles. Les mots-codes sont ensuite attribus en partant de chaque symbole, et en recopiant les bits rencontrs du poids faibles (colonne de gauche) vers les poids forts (colonne la plus droite). Calculons la longueur moyenne du code C2 ainsi obtenu. L(C2 ) = 0.25 2 + 0.25 2 + 0.2 2 + 0.15 3 + 0.15 3 = 2.3 bits. (8.37)

Construisons maintenant un code dHuffman ternaire C3 . Pour cela, on considre les trois symboles de probabilits les plus faibles, et on leurs attribue 0, 1 ou 2 pour poids faible. Puis on construit une source auxiliaire X1 m D + 1 = 5 3 + 1 = 3 symboles. Lensemble des tapes, comme expliqu prcdemment, est dtaill dans le tableau 8.6. Calculons la longueur moyenne du code C3 ainsi obtenu. L(C3 ) = 0.25 1 + 0.25 1 + 0.2 2 + 0.15 2 + 0.15 2 = 1.5 digits ternaires. (8.38)

Pour comparer les deux codes, nous utilisons lefcacit, dnie au paragraphe 8.4.3. = H (X . L(C ) log D

On calcule dj lentropie H (X ) 2.29 bits. Pour le code C2 , on a : 2 = H (X ) L(C2 ) log D 106

5 O

> N N N N N

A I :
 

2 H > = :    # #   # 


2 H > = :  #    # #


 

   


JI ? @ A I

! " #

 

  #

   

 

 

F IG . 8.6 Exemple de construction dun code ternaire dHuffman 2.29 2.30 log 2 = 0.996. = Pour le code C3 , on a : 3 = H (X ) L(C2 ) log D 2.29 = 1.5 log 3 = 0.966.

(8.39)

(8.40)

On voit que, pour cette source, le code binaire C2 est plus efcace que le code ternaire C3 . Exemple 2 Un second exemple avec une source 4 symboles (dentropie H (X ) = 1.75 bits) est propos dans ce paragraphe. Le tableau 8.7 donne les tapes du code binaire ; le tableau 8.8 donne les tapes du code ternaire. La longueur moyenne du code binaire C2 vaut L(C2 ) = 1.75 bits. Lefcacit du code vaut 2 = 1. La longueur moyenne du code ternaire C3 vaut L(C3 ) = 1.5 digits ternaires. Lefcacit du code vaut 3 = 0.738. On remarque que la construction du code ternaire dHuffman peut tre amliore car un mot est prsent dans le tableau 8.9. Sa longueur code un digit nest pas utilis. Ce code, not C3 moyenne vaut L(C3 ) = 1.25 digits ternaires. Son efcacit est 3 = 0.886. En conclusion, on remarque que, pour cette source, le code binaire est le meilleur. Il a lefcacit maximale. On pouvait sy attendre car les probabilits p(xi ) des mots-codes sont exactement des puissances (ngatives) de 2, ce qui correspond la condition optimale (8.18) trouve au paragraphe 8.3.1 : p(xi ) = Dli .

107

5 O

> N N N N

A I :
 

2 H > = :  #   #


2 H > = :  #    # #


2 H > = :

! "

  #   #

   

   

 #   # 

   

JI ? @ A I   

  

  

F IG . 8.7 Exemple de construction dun code binaire dHuffman

5 O

> N N N N

A I :
 

2 H > = :  #   #


2 H > = :

     

 #     #    

JI ? @ A I   

! "

  #   #

 

F IG . 8.8 Exemple de construction dun code ternaire dHuffman

5 O

> N N N N

A I :
 

2 H > = :  #   #


JI ? @ A I    

! "

  #   #

F IG . 8.9 Code ternaire amlior dHuffman

108

Quatrime partie

Travaux dirigs

109

Objectifs
Les noncs dexercices seront rsolus pendant les sances de travaux dirigs. Ils ont t choisis pour illustrer les diffrents points du cours (dtection et estimation) sans prsenter de difcults calculatoires. Ils sont complts par la rsolution du devoir de lanne prcdente, lors de la dernire sance de travaux dirigs. Il ny a pas de sances de travaux dirigs de thorie de linformation, car les exercices sont intgrs dans les sances de cours. Deux sances de rappel de probabilits prcdent ces exercices. Des exercices supplmentaires sont accessibles dans les ouvrages dont les rfrences sont donnes dans lintroduction de ce document.

110

Exercices de dtection
1.1 Dtection binaire 1
On considre un problme de dtection binaire dans lequel lobservation r vaut : r= n, s + n, si H0 , si H1 , (1.41)

o s et n sont deux variables alatoires indpendantes. On connat les densits de probabilit de s et du bruit n : ps (u) = et pn (u) = 1. Ecrire le rapport de vraisemblance. 2. En distinguant les trois cas b a > 0, b a < 0 et b = a, montrer que le test du rapport de vraisemblance peut scrire :
H1

a exp(au), 0, b exp(bu), 0,

si u 0, sinon, si u 0, sinon.

(1.42)

(1.43)

r
H0

(1.44)

et dterminer , en fonction des probabilits a priori, Pi , et des cots, Cij . 3. Exprimer la probabilit de fausse alarme PF = Pr(dcider H1 /H0 vraie), sous forme dune intgrale dpendant de . 4. En dduire le test de Neyman-Pearson obtenu en imposant PF = .

1.2 Dtection binaire 2


On considre un systme de transmission numrique dont les deux tats 0 et 1 sont reprsents au niveau du signal par des tensions et , respectivement. La transmission est perturbe par un bruit additif n de densit de probabilit (ddp) connue. On mesure donc : r= + n, + n, 111 si H0 , si H1 . (1.45)

On considre dans cet exercice deux modles de bruit, et on rpondra toutes les questions pour les deux modles : Modle M 1 : la ddp du bruit est gaussienne n N (0, 2 ), Modle M 2 : la ddp du bruit est uniforme dans [L, +L]. (1.46)

1. Calculer le rapport de vraisemblance (r), et reprsenter le graphiquement. 2. On veut utiliser le critre de Bayes. (a) Quelles donnes supplmentaires sont ncessaires ? (b) Donner le test du rapport de vraisemblance qui minimise le critre de Bayes sous la forme
H1

r
H0

(1.47)

3. 4. 5.

6.

7.

et dterminer . (c) Calculer formellement les probabilits de fausse alarme, PF , et de dtection, PD . On pose = 0, = 2, = 1, L = 3 et = 1. Calculer les valeurs des probabilits de fausse alarme, PF , et de dtection, PD . Tracer les courbes PD ( ) et PF ( ) pour le modle M 2. On impose PF = PF0 = 0.01 pour concevoir un test de Neyman-Pearson. Pour les deux modles : (a) Calculer la valeur du seuil qui correspond cette contrainte, (b) Calculer la probabilit de dtection PD . (c) Placer ce point dans la courbe COR PD (PF ). On suppose maintenant que les cots sont gaux Cij = 1 ij . En utilisant le cours, crire le risque de Bayes en fonction de P1 , PF et PM (la probabilit doubli). (a) Comment peut-on interprter le risque ? (b) Calculer le risque de Bayes pour P1 = 0, P1 = 0.25, P1 = 0.5, P1 = 0.75 et P1 = 1. Tracer les points RBayes (P1 ). et P les probabilits calcules pour P = P . (c) PF et PM dpendant de P1 , on note PF 1 1 M Si P1 = P1 que devient le risque et quelle est sa reprsentation graphique R(P1 ) ? = 0.25. Tracer le risque pour P1 (d) Donner la condition MINIMAX. Tracer le risque Rminimax correspondant. Calculer pour les deux modles PF et PD . Proposer une ralisation matrielle de ce dtecteur.

1.3 Dtection binaire dans un espace deux dimensions


On considre le problme de dtection binaire, dans lequel on ralise N observations indpendantes, reprsentes par un vecteur r de RN . Chaque mesure lmentaire ri suit la densit de probabilit conditionnelle : p(ri /Hk ) = avec k = 0 ou k = 1. 112 (ri mk )2 1 exp , 2 2k 2k (1.48)

1. Calculer le test du rapport de vraisemblance et exprimer le en fonction des grandeurs :


N

I1 =
i=1

ri ,

(1.49)

et I2 =

N 2 ri . i=1

(1.50)

2. Tracer les rgions de dcision dans le plan (I1 , I2 ) dans le cas particulier : m0 = 1, m1 = 2, 1 = 1, 0 = 2. 3. Proposer une ralisation lectronique de ce dtecteur.

113

1.4 Dtection ternaire


On veut dtecter la source Sk qui met le signal reu par un rcepteur. Trois sources Si peuvent mettre le signal avec la mme probabilit a priori. On observe donc : r = sk , si Sk met On veut trouver le test qui minimise lerreur totale. 1. Dans lexpression classique du risque de Bayes, comment choisir les valeurs des probabilits a priori Pi et des cots Cij ? 2. Exprimer le test du rapport de vraisemblance qui minimise le critre de Bayes partir des densits de probabilits conditionnelles p(r/Hi ). 3. Les trois sources mettent des signaux gaussiens :
2 ), Source S0 : p(r/S0 ) N (0, a 2 ), Source S1 : p(r/S1 ) N (m, a 2 Source S2 : p(r/S2 ) N (0, b ),

(1.51)

(1.52)

avec m > 0 et b > a . (a) Tracer approximativement les densits de probabilits conditionnelles. (b) Calculer les valeurs de r qui dnissent les frontires des trois rgions de dcision, et donner analytiquement les critres de dcision des diffrentes sources.
2 = 2 2 . Calculer en fonction de m les 4. On se place dans le cas particulier a = m et b a valeurs trouves la question prcdente. Tracer les rgions correspondant aux trois rgions sur laxe rel reprsentant la mesure r.

5. Calculer pour les valeurs trouves la question prcdente, les probabilits derreur P (erreur/Si ). En dduire la probabilit totale derreur.

114

Exercices destimation
1.5 Prdiction dun signal alatoire
Soit un signal centr gaussien x(t) stationnaire au second ordre. On note E [x(t)x(t ] = xx ( ) sa fonction dauto-corrlation. On veut estimer x(t + ) ( 0) partir de lobservation de x(t). On pose x1 = x(t) et x2 = x(t + ) ; x1 et x2 sont donc conjointement gaussiens, mais pas indpendants (sauf si xx ( ) = xx (0) ( )). Pour le vecteur alatoire x = (x1 , x2 )T La densit de probabilit conjointe scrit donc : p(x) = p(x1 , x2 ) = 1 1 exp xT 1 x . 1 / 2 2 (2 | det | ) (1.53)

1. Calculer la matrice de variances-covariances de x, et son inverse 1 . 2. Calculer la densit de probabilit a posteriori p(x2 /x1 ). En dduire lestimateur du maximum a posteriori (MAP), x map (x1 ). 2 3. Mettre la densit p(x2 /x1 ) sous la forme dune densit de probabilit gaussienne. En dduire lestimateur des moindres carrs x ls 2 (x1 ). 4. Comparer lestimateur MAP. Ce rsultat tait-il prvisible ? 5. Retrouver ce rsultat en appliquant le thorme de la projection orthogonale (cours de ltrage optimal de P.-O. Amblard) lestimation de x2 = kx1 .

1.6 Estimation dun paramtre dterministe


Un dispositif reoit le signal vectoriel : r = as + n, (1.54)

dans lequel a est un scalaire inconnu, s est un vecteur rel certain connu, centr et n est un vecteur rel alatoire gaussien de matrice de variances-covariances = E [nnT ]. 1. Calculer la densit de probabilit du vecteur gaussien n. 2. Calculer la densit de probabilit p(r/a). 3. En dduire lestimateur de maximum de vraisemblance a ml (r). 4. Calculer directement le biais et la variance de lestimateur. 5. Montrer que lestimateur a ml (r) est efcace. 6. En utilisant les bornes de Cramer-Rao, calculer la variance de lestimateur. 115

1.7 Bornes de Cramer-Rao dun estimateur biais


On considre a (r) un estimateur biais de a, tel que E [ a(r)] = a + b(a), o b(a) est le biais, fonction de a. En calculant la drive par rapport a de lesprance E [ a(r) (a + b(a))] et en suivant le principe de la dmonstration faite en cours, montrer que la borne de Cramer-Rao dun estimateur biais est gale : E [( a(r) a)2 ] 1+ E
db(a) da 2 2

ln p(r/a) a

(1.55)

1.8 Estimation dun processus de Poisson


On considre un processus de Poisson stationnaire x(t). Les vnements sont des impulsions que lon peut supposer inniment brves et damplitude constante. La probabilit dobserver n impulsions pendant un temps est gale : Pr(n/ ) = (k )n exp(k ). n! (1.56)

Le paramtre k du processus est une variable dterministe inconnue que lon dsire estimer. Pour cela, on observe le signal pendant un temps de mesure T . 1. Est-il ncessaire denregistrer la dates darrive des impulsions ou suft-il de compter ces impulsions ? ml (n). 2. Calculer lestimateur du maximum de vraisemblance k 3. Calculer le biais de cet estimateur. 4. En utilisant les ingalits de Cramer-Rao, calculer la borne infrieure de la variance de ml (n) k ). (k 5. Montrer que lestimateur est efcace. En dduire la valeur exacte de la variance.

1.9 Estimation de la dure dune exprience


On mesure une quantit scalaire y qui est la somme de N chantillons xk prlevs sur un bruit 2 : blanc gaussien, centr et de variance gale x
N

y=
k=1

xk .

(1.57)

Lexprience commence au temps t = 0. Le signal x(t), chantillonn selon la priode dchantillonnage Te , fournit les chantillons xk = x(kTe ) (k N ). On dsire estimer la dure T de par la lexprience. Pour cela, on estimera le nombre N de mesures, an den dduire ensuite T =N Te . relation T 1. Calculer la densit de probabilit de lobservation y , sachant N , p(y/N ), en fonction de x . ml (y ). 2. Calculer lestimateur du maximum de vraisemblance N 3. Calculer le biais de cet estimateur. Cet estimateur est-il efcace ? 116

4. Calculer la variance de lestimateur (a) par un calcul direct, (b) en utilisant les bornes de Cramer-Rao. 5. Comment peut-on amliorer lestimateur en tenant compte de la nature entire de N ?

117