Vous êtes sur la page 1sur 249

Méthodes à haute résolution pour l’estimation et le suivi

de sinusoïdes modulées. Application aux signaux de


musique
Roland Badeau

To cite this version:


Roland Badeau. Méthodes à haute résolution pour l’estimation et le suivi de sinusoïdes modulées.
Application aux signaux de musique. Traitement du signal et de l’image [eess.SP]. Télécom ParisTech,
2005. Français. �NNT : �. �tel-00009321�

HAL Id: tel-00009321


https://pastel.archives-ouvertes.fr/tel-00009321
Submitted on 26 May 2005

HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est


archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
École Doctorale
d’Informatique,
Télécommunications
et Électronique de Paris

Thèse
présentée pour obtenir le grade de docteur
de l’Ecole Nationale Supérieure des Télécommunications
Spécialité : Signal et Images

Roland BADEAU
Méthodes à haute résolution pour l’estimation
et le suivi de sinusoïdes modulées.
Application aux signaux de musique.

Soutenue le 18 avril 2005 devant le jury composé de

Pierre Comon Président


Sylvie Marcos Rapporteurs
Philippe Depalle
Yves Grenier Examinateurs
Karim Abed-Meraim
Gaël Richard Directeurs de thèse
Bertrand David
J e dédie ce mémoire
à mes parents et à Magali
i

Remerciements

Je remercie avant tout mes directeurs de thèse, Gaël Richard et Bertrand David, qui m’ont apporté
leur compétence scientifique et se sont montrés présents et disponibles pendant toute cette période. Ils
ont su accompagner mon travail tout en m’accordant la liberté d’approfondir les thèmes de recherche
qui me tenaient à coeur.

Je remercie aussi Henri Maître et Yves Grenier, qui m’ont accueilli au sein du département de
Traitement du Signal et des Images (TSI) de l’ENST, dans un environnement très favorable à la
réussite de ces travaux de recherche.

Je remercie également les autres membres du jury de m’avoir fait l’honneur de participer à ma
soutenance : Pierre Comon, président du jury, Sylvie Marcos et Philippe Depalle, rapporteurs, et enfin
Yves Grenier et Karim Abed-Meraim, examinateurs.

L’idée originale d’appliquer les méthodes à haute résolution aux signaux de musique m’a été sug-
gérée par Bertrand David, qui les avait lui-même utilisées dans sa thèse de doctorat pour étudier les
vibrations acoustiques en atmosphère raréfiée. Ces méthodes font partie des compétences développées
au sein du département TSI depuis un certain nombre d’années, en particulier dans les équipes TSAC,
AAO et COD.

Pendant la première période de ma thèse, Rémy Boyer m’a apporté son expérience des méthodes
à haute résolution qu’il avait acquise dans le cadre du codage audio.

Karim Abed-Meraim a également été un interlocuteur privilégié, qui m’a fait partager ses connais-
sances dans le domaine des techniques de poursuite de sous-espace.

Ma collaboration avec Miguel Alonso a conduit au développement d’un algorithme original d’esti-
mation du tempo musical.

Je remercie aussi tous les enseignants-chercheurs du département TSI avec lesquels j’ai échangé
quelques fructueuses conversations, notamment Maurice Charbit et Jacques Prado, sans oublier les
nombreux thésards avec lesquels j’ai pu partager quelques moments de distraction pendant ces trois
années de dur labeur.

Enfin, parvenir au terme de cette aventure aurait été plus difficile sans le soutien bienveillant et
chaleureux de ma famille et de mes proches.
ii

Table des matières

Remerciements i

Table des matières ii

Table des figures vii

Liste des tableaux ix

Acronymes x

Notations xii

Introduction 1

Partie I Modèle de signal et méthodes d’estimation 7

I État de l’art des méthodes à haute résolution 9


I.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
I.2 Modèle de signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
I.3 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . 11
I.3.1 Application du principe du maximum de vraisemblance au modèle ESM . . . 12
I.3.2 Maximum de vraisemblance et résolution de Fourier . . . . . . . . . . . . . . 13
I.4 Méthodes à haute résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
I.4.1 Techniques de prédiction linéaire . . . . . . . . . . . . . . . . . . . . . . . . . 14
I.4.2 Méthodes sous-espace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
I.5 Estimation des autres paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
I.5.1 Estimation de l’ordre de modélisation . . . . . . . . . . . . . . . . . . . . . . 20
I.5.2 Estimation des amplitudes, des phases et de l’écart-type du bruit . . . . . . . 21
I.6 Performances des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
I.6.1 Borne de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
I.6.2 Performances des méthodes HR . . . . . . . . . . . . . . . . . . . . . . . . . 23
I.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

II Estimation des paramètres dans le cas de pôles multiples 25


II.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
II.2 Le modèle Polynomial Amplitude Complex Exponentials . . . . . . . . . . . . . . . . 26
II.2.1 Equations de récurrence linéaires et homogènes . . . . . . . . . . . . . . . . . 26
II.2.2 Polynômes binomiaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
II.2.3 Paramétrisation complète du modèle de signal . . . . . . . . . . . . . . . . . 27
TABLE DES MATIÈRES iii

II.3 Les matrices de Pascal-Vandermonde . . . . . . . . . . . . . . . . . . . . . . . . . . 28


II.4 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . 30
II.5 Généralisation de l’algorithme ESPRIT . . . . . . . . . . . . . . . . . . . . . . . . . 31
II.5.1 Structure singulière de la matrice de données . . . . . . . . . . . . . . . . . . 31
II.5.2 Structure singulière de la matrice de corrélation . . . . . . . . . . . . . . . . 33
II.5.3 L’algorithme ESPRIT généralisé . . . . . . . . . . . . . . . . . . . . . . . . . 33
II.6 Estimation des amplitudes, des phases et de l’écart-type du bruit . . . . . . . . . . 34
II.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

III Performances de l’algorithme ESPRIT généralisé 35


III.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
III.2 Bornes de Cramér-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
III.2.1 Bornes de Cramér-Rao pour le modèle PACE . . . . . . . . . . . . . . . . . . 36
III.2.2 Bornes de Cramér-Rao asymptotiques . . . . . . . . . . . . . . . . . . . . . . 38
III.3 Etude des perturbations et de la performance des estimateurs . . . . . . . . . . . . 39
III.3.1 Perturbations induites par le bruit additif . . . . . . . . . . . . . . . . . . . . 39
III.3.2 Performance des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
III.4 Simulations numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
III.4.1 Modèle de signal réel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
III.4.2 Modulation d’amplitude polynomiale . . . . . . . . . . . . . . . . . . . . . . 49
III.4.3 Modulation d’amplitude et de fréquence . . . . . . . . . . . . . . . . . . . . . 49
III.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

IV Estimation de l’ordre de modélisation 53


IV.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
IV.2 Impact d’un ordre de modélisation erroné . . . . . . . . . . . . . . . . . . . . . . . . 54
IV.2.1 Sur-estimation de l’ordre du modèle . . . . . . . . . . . . . . . . . . . . . . . 54
IV.2.2 Sous-estimation de l’ordre du modèle . . . . . . . . . . . . . . . . . . . . . . 55
IV.3 Sélection d’un ordre de modélisation approprié reposant sur l’erreur d’estimation . . 56
IV.3.1 Calcul récursif de Φ(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
IV.3.2 Calcul récursif de E(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
IV.4 Simulations numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
IV.4.1 Pertinence des bornes d’erreur a priori et a posteriori . . . . . . . . . . . . . 59
IV.4.2 Sélection de l’ordre du modèle pour un signal synthétique . . . . . . . . . . . 60
IV.4.3 Comparaison statistique des performances . . . . . . . . . . . . . . . . . . . . 62
IV.4.4 Sélection de l’ordre du modèle pour un signal de musique . . . . . . . . . . . 63
IV.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

V Optimisation de l’algorithme d’estimation 67


V.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
V.2 Estimation de l’espace signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
V.2.1 Algorithme d’itération orthogonale . . . . . . . . . . . . . . . . . . . . . . . . 69
V.2.2 Produit matriciel rapide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
V.3 Optimisation des autres étapes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
V.3.1 Calcul de la matrice spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
V.3.2 Estimation des amplitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
V.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
iv TABLE DES MATIERES

Partie II Algorithmes rapides de poursuite des paramètres 75

VI Etat de l’art des techniques de poursuite de l’espace signal et des pôles 77


VI.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
VI.2 Poursuite de l’espace signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
VI.2.1 Étude préliminaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
VI.2.2 Méthode des puissances itérées . . . . . . . . . . . . . . . . . . . . . . . . . . 80
VI.2.3 Algorithmes adaptatifs de poursuite de l’espace signal . . . . . . . . . . . . . 81
VI.3 Poursuite de la matrice spectrale et des pôles . . . . . . . . . . . . . . . . . . . . . . 85
VI.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

VII Approximation de la méthode des puissances itérées 89


VII.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
VII.2 Fenêtrage des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
VII.3 L’approximation par projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
VII.4 Approximation des Puissances Itérées . . . . . . . . . . . . . . . . . . . . . . . . . . 92
VII.4.1 Récurrence pour la matrice C xy (t) . . . . . . . . . . . . . . . . . . . . . . . . 92
VII.4.2 Récurrence pour la matrice Z(t) . . . . . . . . . . . . . . . . . . . . . . . . . 94
VII.4.3 Récurrence pour la matrice W (t) . . . . . . . . . . . . . . . . . . . . . . . . 94
VII.5 Méthode API rapide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
VII.5.1 Une solution particulière à l’équation (VII.33) . . . . . . . . . . . . . . . . . 95
VII.5.2 Implémentation rapide de la solution particulière . . . . . . . . . . . . . . . . 98
VII.6 Lien avec les algorithmes PAST et OPAST . . . . . . . . . . . . . . . . . . . . . . . 99
VII.7 Poursuite des valeurs et vecteurs propres principaux de la matrice de corrélation . . 99
VII.8 Simulations numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
VII.8.1 Comparaison de FAPI et TW-FAPI avec d’autres algorithmes existants . . . 101
VII.8.2 Comportement de la méthode API vis-à-vis du RSB et de n et r . . . . . . . 106
VII.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

VIII Yet Another Subspace Tracker 109


VIII.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
VIII.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
VIII.3 Implémentation rapide de YAST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
VIII.3.1 Calcul de W (t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
VIII.3.2 Calcul de Z(t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
VIII.3.3 Mise à jour de W (t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
VIII.3.4 Mise à jour de Z(t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
VIII.3.5 Implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
VIII.4 Simulations numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
VIII.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

IX Suivi des pôles et des amplitudes complexes 121


IX.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
IX.2 Suivi de la matrice spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
IX.3 Suivi des pôles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
IX.3.1 Algorithme d’itération orthogonale séquentiel avec décalage . . . . . . . . . . 123
IX.3.2 Mise à jour exacte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
IX.4 Simulations numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
IX.5 Suivi des amplitudes complexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
TABLE DES MATIÈRES v

IX.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

Partie III Application aux signaux de musique 131

X Analyse à haute résolution des signaux de musique 133


X.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
X.2 Potentiel des méthodes HR pour l’analyse du signal de musique . . . . . . . . . . . 134
X.2.1 Trémolo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
X.2.2 Vibrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
X.2.3 Glissando . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
X.2.4 Modulations induites par les pôles multiples . . . . . . . . . . . . . . . . . . 139
X.3 Limites des méthodes HR pour l’analyse du signal de musique . . . . . . . . . . . . 140
X.3.1 Couleur du bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
X.3.2 Importance perceptive relative des composantes sinusoïdales . . . . . . . . . 142
X.3.3 Ordre de modélisation et stabilité numérique . . . . . . . . . . . . . . . . . . 142
X.4 Mise en oeuvre des méthodes HR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
X.4.1 Techniques d’estimation du signal dans un bruit coloré . . . . . . . . . . . . 143
X.4.2 Introduction d’une connaissance psycho-acoustique . . . . . . . . . . . . . . . 144
X.4.3 Découpage en sous-bandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
X.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

XI Système complet d’analyse / synthèse 147


XI.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
XI.2 Décomposition du signal en sous-bandes . . . . . . . . . . . . . . . . . . . . . . . . . 148
XI.2.1 Pré-accentuation du signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
XI.2.2 Découpage uniforme ou non uniforme . . . . . . . . . . . . . . . . . . . . . . 149
XI.2.3 Analyse multi-résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
XI.2.4 Bancs de filtres en cosinus modulés et découpage non uniforme . . . . . . . . 151
XI.3 Blanchiment du bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
XI.3.1 Blanchiment d’un processus AR . . . . . . . . . . . . . . . . . . . . . . . . . 154
XI.3.2 Blanchiment d’un signal comportant des sinusoïdes . . . . . . . . . . . . . . 154
XI.4 Analyse HR des signaux de sous-bandes . . . . . . . . . . . . . . . . . . . . . . . . . 156
XI.5 Traitements applicables dans les sous-bandes . . . . . . . . . . . . . . . . . . . . . . 157
XI.5.1 Débruitage du signal et extraction du bruit . . . . . . . . . . . . . . . . . . . 157
XI.5.2 Estimation du rythme musical basée sur l’extraction du bruit . . . . . . . . . 159
XI.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

Conclusions et perspectives 163

Partie IV Annexes 167

A Résultats de la première partie 169


A.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
A.2 Modèle PACE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
A.3 Déterminant de la matrice Pascal-Vandermonde . . . . . . . . . . . . . . . . . . . . 171
A.4 Propriété d’invariance rotationnelle des matrices de Pascal généralisées . . . . . . . 174
A.5 Factorisation de la matrice de données . . . . . . . . . . . . . . . . . . . . . . . . . 174
vi TABLE DES MATIERES

A.6 Caractérisation des matrices de Hankel singulières . . . . . . . . . . . . . . . . . . . 175


A.7 Bornes de Cramér-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
A.7.1 Bornes générales pour le modèle PACE . . . . . . . . . . . . . . . . . . . . . 177
A.7.2 Bornes asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
A.8 Lemmes d’inversion matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
A.9 Performance des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
A.9.1 Perturbation de l’espace signal . . . . . . . . . . . . . . . . . . . . . . . . . . 182
A.9.2 Perturbation de la matrice spectrale . . . . . . . . . . . . . . . . . . . . . . . 183
A.9.3 Perturbation des pôles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
A.9.4 Perturbation des amplitudes et des phases . . . . . . . . . . . . . . . . . . . 185
A.9.5 Performance des estimateurs au premier ordre . . . . . . . . . . . . . . . . . 186
A.9.6 Performances asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
A.10 Borne d’erreur a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

B Résultats de la deuxième partie 193


B.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
B.2 Moyenne géométrique des valeurs propres de Rss (t) . . . . . . . . . . . . . . . . . . 194
B.3 Approximation de la méthode des puissances itérées . . . . . . . . . . . . . . . . . . 194
B.4 Algorithme SW-NIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
B.5 Mise à jour des pôles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
B.5.1 Modification de la structure propre par ajout d’une matrice de rang un . . . 195
B.5.2 Modification de la structure propre par ajout d’une matrice de rang faible . . 197

C Articles 199

Bibliographie 221

Index 229
vii

Table des figures

I.1 Jean Baptiste Joseph FOURIER (1768-1830) . . . . . . . . . . . . . . . . . . . . . . 15


I.2 Gaspard-Marie RICHE de PRONY (1755-1839) . . . . . . . . . . . . . . . . . . . . 16

III.1 Efficacité des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46


III.2 Modulation d’amplitude polynomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
III.3 Modulation d’amplitude et de fréquence . . . . . . . . . . . . . . . . . . . . . . . . . 50

IV.1 Bornes d’erreur a priori et a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . 60


IV.2 Périodogramme et valeurs singulières du signal synthétique . . . . . . . . . . . . . . 61
IV.3 Sélection de l’ordre du modèle pour le signal synthétique . . . . . . . . . . . . . . . 62
IV.4 Périodogramme et valeurs singulières du signal de piano . . . . . . . . . . . . . . . . 64
IV.5 Sélection de l’ordre du modèle pour le signal de piano . . . . . . . . . . . . . . . . . 65

VI.1 Valeurs et vecteurs propres pour un signal contenant deux fréquences (n = l = 20) . 79
VI.2 Algorithmes de complexité élevée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
VI.3 Algorithmes de complexité linéaire O((n + l)r 2 ) ou O(nr) à fenêtre rectangulaire . . 86
VI.4 Algorithmes de complexité linéaire O(nr 2 ) à fenêtre exponentielle . . . . . . . . . . 87
VI.5 Algorithmes de complexité linéaire O(nr) à fenêtre exponentielle . . . . . . . . . . . 88
VI.6 Algorithmes à convergence lente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

VII.1 Poursuite de l’espace signal reposant sur une fenêtre exponentielle (1/2) . . . . . . . 103
VII.2 Poursuite de l’espace signal reposant sur une fenêtre exponentielle (2/2) . . . . . . . 104
VII.3 Poursuite de l’espace signal reposant sur une fenêtre rectangulaire . . . . . . . . . . 105
VII.4 Influence du rapport signal à bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
VII.5 Influence des paramètres n et r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

VIII.1 Poursuite de l’espace signal reposant sur une fenêtre exponentielle . . . . . . . . . . 117
VIII.2 Poursuite de l’espace signal reposant sur une fenêtre rectangulaire . . . . . . . . . . 118

IX.1 Suivi des fréquences (1/2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129


IX.2 Suivi des fréquences (2/2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

X.1 Tremolo synthétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135


X.2 Tremolo synthétique : fréquences parcourues et pôles estimés . . . . . . . . . . . . . 136
X.3 Vibrato synthétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
X.4 Vibrato synthétique : fréquences parcourues et pôles estimés . . . . . . . . . . . . . 138
X.5 Vibrato synthétique : spectre théorique et spectre estimé . . . . . . . . . . . . . . . 138
X.6 Chirp synthétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
X.7 Chirp synthétique : fréquences parcourues et pôles estimés . . . . . . . . . . . . . . . 140
X.8 Vibrato humain : spectrogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
X.9 Vibrato humain : fréquences parcourues et pôles estimés . . . . . . . . . . . . . . . . 141
viii TABLE DES FIGURES

X.10 Exponentielles dans un bruit coloré . . . . . . . . . . . . . . . . . . . . . . . . . . . 142


X.11 Analyse HR dans un bruit coloré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

XI.1 Système d’analyse du signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148


XI.2 Système de reconstruction du signal . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
XI.3 Signal traité et banc de filtres d’analyse . . . . . . . . . . . . . . . . . . . . . . . . . 151
XI.4 Périodogrammes des signaux des sous-bandes 0 à 3 . . . . . . . . . . . . . . . . . . . 152
XI.5 Périodogramme avant et après blanchiment du bruit . . . . . . . . . . . . . . . . . . 155
XI.6 Séparation par modélisation paramétrique . . . . . . . . . . . . . . . . . . . . . . . . 159
XI.7 Séparation par filtrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
XI.8 Vue d’ensemble du système. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
ix

Liste des tableaux

1 Structure du document . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

IV.1 Calcul récursif de E(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59


IV.2 Paramètres du signal synthétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
IV.3 Comparaison des performances pour diverses valeurs de N . . . . . . . . . . . . . . . 63
IV.4 Comparaison des performances pour divers RSB . . . . . . . . . . . . . . . . . . . . 63

V.1 Algorithme d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

VI.1 Algorithmes de poursuite d’espace signal . . . . . . . . . . . . . . . . . . . . . . . . 84

VII.1 Algorithme API à fenêtre exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . 96


VII.2 Algorithme API à fenêtre tronquée (TW-API) . . . . . . . . . . . . . . . . . . . . . 97
VII.3 Algorithme API rapide à fenêtre exponentielle (FAPI) . . . . . . . . . . . . . . . . . 99
VII.4 Algorithme API rapide à fenêtre tronquée (TW-FAPI) . . . . . . . . . . . . . . . . . 100
VII.5 Comparaison des algorithmes de poursuite de sous-espace . . . . . . . . . . . . . . . 102
VII.6 Erreur maximale d’orthonormalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

VIII.1 Comparaison des algorithmes de poursuite de l’espace signal . . . . . . . . . . . . . 116


VIII.2 Pseudo-code de l’algorithme YAST . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

IX.1 Suivi de la matrice spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123


IX.2 Itération orthogonale séquentielle avec décalage . . . . . . . . . . . . . . . . . . . . . 124
IX.3 Algorithme de suivi des pôles (mise à jour de rang 1) . . . . . . . . . . . . . . . . . 127
IX.4 Algorithme de suivi des pôles (mise à jour de rang faible) . . . . . . . . . . . . . . . 128

XI.1 Découpage dyadique du spectre en quatre sous-bandes . . . . . . . . . . . . . . . . . 150


XI.2 Structure d’un banc de filtres non-uniforme pour l’analyse de signaux audio . . . . . 152
XI.3 Paramètres des diverses fenêtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
XI.4 Performances des algorithmes d’estimation du tempo. . . . . . . . . . . . . . . . . . 162

B.1 Algorithme NIC à fenêtre rectangulaire . . . . . . . . . . . . . . . . . . . . . . . . . 196


x LISTE DES TABLEAUX
xi

Acronymes

Pour des raisons de lisibilité, la signification d’une abréviation ou d’un acronyme n’est souvent
rappelée qu’à sa première apparition dans le texte d’un chapitre. Par ailleurs, puisque nous utilisons
toujours l’abréviation la plus usuelle, il est fréquent que ce soit le terme anglais qui soit employé.

AIC Akaike Information Criterion


API Approximation de la méthode des Puissances Itérées
AR Auto-Régressif
ARMA Auto-Régressif à Moyenne Ajustée
Bi-SVD Bi-iteration SVD
BPM Battements Par Minute
dB decibels
CMF banc de Filtres en Cosinus Modulés
DSP Densité Spectrale de Puissance
EDC Efficient Detection Criteria
EDS Exponentially Damped Sinusoids
ESM Exponential Sinusoidal Model
ESPRIT Estimation of Signal Parameters via Rotational Invariance Techniques
ESTER ESTimation ERror
EVD Décomposition en Valeurs propres
FAPI API rapide
FFT Fast Fourier Transform
FST Fast Subspace Tracking
HR à Haute Résolution
HR-ogram High Resolution spectrogram
Hz Hertz
ITC Critères de Théorie de l’Information
KT Kumaresan et Tufts
LMS Least Mean Square
LORAF Low Rank Adaptive Filter
LS Least Squares
MDL Minimum Description Length
xii ACRONYMES

MKT Modified KT
MUSIC MUltiple SIgnal Classification
NIC Novel Information Criterion
NP3 fast Natural Power
OPAST PAST orthonormé
PACE Polynomial Amplitude Complex Exponentials
PAST Projection Approximation Subspace Tracking
QR orthogonale-triangulaire
SACF Fonction d’Auto-Corrélation de Synthèse
SP Subspace Projection
RSB Rapport Signal à Bruit
SVD Décomposition en Valeurs Singulières
SW-NIC NIC à fenêtre rectangulaire
SW-PAST PAST à fenêtre rectangulaire
SW-OPAST OPAST à fenêtre rectangulaire
SWASVD Sliding Window Adaptive SVD
TAM Toeplitz Approximation Method
TFD Transformée de Fourier Discrète
TLS Total Least Squares
TLS-ESPRIT Total Least Squares ESPRIT
TW-API API à fenêtre tronquée
TW-FAPI FAPI à fenêtre tronquée
YAST Yet Another Subspace Tracker
xiii

Notations

Nous avons regroupé ci-dessous les principales notations employées dans les différents chapitres
du document. Dans la mesure du possible, nous avons tenté de conserver les mêmes notations d’un
chapitre à l’autre.

v vecteur
v(z) vecteur contenant les puissances successives du scalaire z : v(z) = [1, z, z 2 , . . .]T
em vecteur dont tous les échantillons sont nuls, sauf celui d’indice m, égal à 1
M matrice
(.)T transposé
(.)H conjugué hermitien
Re(.) partie réelle
Im(.) partie imaginaire
span(.) espace image d’une matrice
ker(.) noyau d’une matrice
diag(.) matrice diagonale construite à partir d’un vecteur
dim(.) dimension d’un espace vectoriel
rank(.) rang d’une matrice
trace[.] trace d’une matrice
det(.) déterminant d’une matrice carrée
cond(.) conditionnement (rapport de la plus grande sur la plus petite valeur singulière)
c
(.) estimateur d’un paramètre
E[.] espérance mathématique
var(.) variance d’une variable aléatoire
cov(.) matrice de covariance d’un vecteur aléatoire
CRB{.} borne de Cramér-Rao pour un estimateur
Tous les indices désignant des éléments de vecteurs ou de matrices sont numérotés à partir de 0.
xiv NOTATIONS
1

Introduction

Dans le cadre du traitement de la parole et des signaux de musique, la partie tonale d’une grande va-
riété de sons trouve une modélisation efficace comme une somme de sinusoïdes à paramètres lentement
variables. Par exemple, les sons qui produisent une sensation de hauteur bien définie possèdent une
forme d’onde quasi périodique (sur une durée supérieure à quelques dizaines de milisecondes). L’analyse
de Fourier montre que ces signaux sont composés de sinusoïdes satisfaisant une relation d’harmonicité,
ce qui signifie que leurs fréquences sont multiples de la fréquence fondamentale, définie comme l’inverse
de la période. C’est notamment le cas des signaux de parole dits voisés, produits par vibration quasi
périodique des cordes vocales, comme les voyelles. De nombreux instruments à vent ou à corde pro-
duisent également des sons harmoniques ou quasi harmoniques. Cependant, dans un signal de musique
polyphonique, les sons émis simultanément par un ou plusieurs instruments se superposent ; ainsi la
relation d’harmonicité n’est plus vérifiée, mais le signal reste essentiellement constitué de sinusoïdes.
En traitement de la parole, le modèle sinusoïdal a été introduit par McAulay et Quatieri au début
des années 80 pour coder le signal en bande téléphonique [Mc Aulay et Quatieri, 1986]. Ce type de
représentation a également été utilisé en traitement des signaux de musique, notamment à Stanford,
dans le cadre des travaux de X. Serra qui a développé un système complet d’analyse / synthèse [Serra et
Smith, 1990]. Cette approche a également été adoptée pour coder les signaux de musique, notamment
dans le cadre du codeur bas-débit MPEG4-HILN. De telles applications nécessitent de disposer d’ou-
tils performants pour estimer les paramètres du modèle. Il s’agit d’un problème classique d’estimation,
vieux de plus de deux cents ans. Dans ce domaine, la transformation de Fourier est un outil privilégié
en raison de sa robustesse, de la simplicité de sa mise en oeuvre, et de l’existence d’algorithmes rapides
(Fast Fourier Transform (FFT)). Elle présente néanmoins un certain nombre d’inconvénients. Tout
d’abord, sa précision fréquentielle, c’est-à-dire la précision avec laquelle la fréquence d’une sinusoïde
peut être estimée, est limitée par le nombre d’échantillons utilisés pour la calculer. Cette première
limitation peut cependant être contournée en prolongeant le signal utile par une suite de zéros. Ce-
pendant, sa résolution fréquentielle, c’est-à-dire sa capacité à distinguer deux sinusoïdes proches, est
limitée par la durée du signal observé. Malgré ces inconvénients, la transformation de Fourier reste au-
jourd’hui encore l’outil le plus utilisé en analyse spectrale. Elle a donné lieu à de nombreuses méthodes
d’estimation des fréquences des sinusoïdes [Keiler et Marchand, 2002].

Les méthodes à haute résolution


Les méthodes dites à Haute Résolution (HR), qui trouvent leurs applications en traitement d’an-
tenne comme en analyse spectrale [Marcos et al., 1998], présentent l’avantage de s’affranchir des limita-
tions naturelles de l’analyse de Fourier. En effet, en l’absence de bruit, leur précision et leur résolution
fréquentielles sont virtuellement infinies (bien qu’en pratique limitées par la précision finie des machines
de calcul). Ceci est rendu possible en s’appuyant fortement sur un modèle paramétrique de signal. Ainsi,
contrairement à l’analyse de Fourier qui consiste à représenter le signal dans un domaine transformé,
les méthodes HR sont des méthodes d’estimation paramétrique. Dans le cadre du traitement du si-
2 INTRODUCTION

gnal audio, malgré leur supériorité en terme de résolution spectrale (en particulier sur des fenêtres
temporelles courtes), elles restent peu utilisées en raison de leur forte complexité algorithmique.
L’origine des méthodes HR remonte aux travaux de Prony publiés en 1795, qui visent à estimer
une somme d’exponentielles par des techniques de prédiction linéaire [Riche de Prony, 1795]. Plus
récemment, cette approche a été approfondie par Pisarenko pour estimer des sinusoïdes [Pisarenko,
1973]. Les fréquences se déduisent alors des racines du polynôme prédicteur. Les méthodes HR modernes
reposent sur les propriétés particulières de la matrice de covariance du signal. Ainsi, l’étude de son
rang permet de séparer l’espace des données en deux sous-espaces, l’espace signal engendré par les
sinusoïdes, et l’espace bruit qui est son complémentaire orthogonal. Les méthodes HR issues de cette
décomposition en sous-espaces sont plus robustes que les techniques de prédiction linéaire. Citons par
exemple la méthode MUltiple SIgnal Classification (MUSIC) [Schmidt, 1986], qui s’appuie sur l’espace
bruit, et les méthodes Matrix Pencil [Hua et Sarkar, 1990] et Estimation of Signal Parameters via
Rotational Invariance Techniques (ESPRIT) [Roy et al., 1986], qui s’appuient sur l’espace signal.

Analyse à haute résolution des signaux de musique


En outre, les méthodes HR sont bien adaptées pour estimer les paramètres d’une somme de si-
nusoïdes dont l’amplitude varie exponentiellement (modèle Exponential Sinusoidal Model (ESM)). Ce
type de modulation permet de décrire l’amortissement naturel des systèmes vibratoires libres, tels que
la vibration d’une corde pincée [Jensen et al., 2004]. D’autre part, il a été montré dans [Laroche, 1993]
que les méthodes HR se révèlent particulièrement performantes dans le cas de signaux fortement at-
ténués. D’une manière plus générale, le modèle ESM permet de décrire des signaux à forte variation
d’amplitude [Hermus et al., 2002]. Par ailleurs, les signaux de musique contiennent souvent des paires
ou des triplets de fréquences très proches qui engendrent un phénomène de battements. Ces battements
contribuent fortement à l’aspect naturel du son. Ils résultent souvent des propriétés particulières des
systèmes de vibration. Par exemple, une dissymétrie mineure dans la géométrie d’une cloche conduit
à des paires de modes de vibration. Dans le cas d’une guitare, le couplage entre les cordes et le che-
valet peut être représenté par une matrice dite de mobilité, dont il est possible de déduire des paires
de fréquences [Lambourg et Chaigne, 1993]. Dans le cas du piano, le couplage des modes de vibra-
tion horizontal et vertical de chaque corde et la présence de paires ou de triplets de cordes pour la
plupart des notes expliquent la présence de quatre ou six fréquences voisines au niveau de chaque
harmonique [Weinreich, 1977]. L’analyse de Fourier ne permet généralement pas de distinguer toutes
ces fréquences. Les études menées dans [Laroche, 1993] sur des sons de piano et de guitare ont montré
la supériorité des méthodes HR, et de l’algorithme Matrix Pencil, dans ce domaine. Cette supériorité
se révèle plus particulièrement sur des fenêtres temporelles courtes. La même technique a été utilisée
pour estimer des paramètres physiques, comme le facteur de rayonnement d’une guitare [David, 1999],
et pour étudier la propagation d’ondes mécaniques dans des matériaux solides [Jeanneau et al., 1998].
Enfin, de nombreux auteurs ont remarqué que le modèle ESM peut aussi modéliser efficacement
des sons transitoires, en particulier des attaques et des sons percussifs [Laroche, 1989, Nieuwenhui-
jse et al., 1998, Jensen et al., 1999, Hermus et al., 2002, Karjalainen et al., 2003]. En effet, certaines
attaques peuvent être décrites comme la réponse impulsionnelle d’un filtre linéaire invariant dans le
temps, qui satisfait justement le modèle ESM. De plus, une attaque est un son de courte durée, qui
se prête donc particulièrement bien à l’analyse HR. Cependant, il est indispensable de veiller à ce
que la fenêtre d’analyse débute à l’instant précis de l’attaque, sinon l’analyse HR donne des résultats
imprécis, et conduit généralement à des phénomènes de pré-écho, souvent observés en codage audio.
Pour résoudre ce problème, R. Boyer a proposé l’usage des modèles Damped and Delayed Sinusoids
(DDS) et Partially Damped and Delayed Sinusoids (PDDS), pour lesquels il propose des méthodes
d’estimation spécifiques [Boyer et Abed-Meraim, 2004].
Introduction 3

Nous montrerons également dans cette thèse que les méthodes HR permettent de représenter effica-
cement des signaux modulés lentement en fréquence, comme dans le cas d’un trémolo, d’un vibrato ou
d’un glissando. Elles possèdent donc un potentiel intéressant dans le cadre de l’analyse des signaux de
musique. Cependant elles présentent un inconvénient notable : leur complexité algorithmique élevée,
de l’ordre de N 3 , où N est la longueur de l’horizon d’observation1 . D’autre part, elles s’appuient sur
un modèle de signal à paramètres constants, alors que les signaux de musique présentent une certaine
variabilité. Il paraît donc nécessaire de développer des techniques de plus faible complexité permettant
le suivi des paramètres tout en conservant la même résolution spectrale.

Poursuite des paramètres du signal


Un exemple de méthode visant à suivre les variations des fréquences est l’algorithme Sintrack
développé par P. Duvaut [Duvaut, 1994]. Cette méthode comprend deux étapes : l’algorithme Matrix
Pencil est d’abord appliqué pour estimer les paramètres initiaux. Cet algorithme est connu pour sa
robustesse mais reste néanmoins assez coûteux, c’est pourquoi il n’est utilisé qu’à l’initialisation. La
poursuite est ensuite réalisée à l’aide d’une technique de prédiction linéaire adaptative de type Least
Mean Square (LMS), beaucoup moins complexe que Matrix Pencil. Les fréquences et les facteurs
d’atténuation sont ainsi déduits à chaque itération des racines du polynôme prédicteur. Quand l’erreur
de prédiction dépasse un certain seuil, l’algorithme Sintrack est réinitialisé à l’aide de Matrix Pencil.
Le principal avantage de cette méthode est la faible complexité de l’algorithme LMS, qui permet
d’envisager une poursuite en temps réel des sinusoïdes amorties. Cependant, quand elle est appliquée
à des signaux de musique [David et al., 2002], son manque de robustesse conduit à de fréquentes
réinitialisations, qui accroissent considérablement le coût du traitement.
Pour suivre les sinusoïdes de manière robuste, il faudrait appliquer Matrix Pencil à chaque itération,
ce qui est impraticable de par sa complexité élevée, principalement due à la technique utilisée pour
déterminer l’espace signal. En effet, celui-ci est obtenu en calculant une Décomposition en Valeurs
propres (EVD) de la matrice de covariance du signal, ou de façon équivalente une Décomposition en
Valeurs Singulières (SVD) de la matrice de données. Afin de pallier ce problème, il existe dans un
contexte adaptatif des techniques beaucoup plus rapides permettant de suivre l’espace signal et ainsi
de s’affranchir des décompositions précédentes (EVD ou SVD). Ces techniques de poursuite de sous-
espace ont été essentiellement développées depuis le début des années 90. Les plus rapides d’entre elles
ont une complexité linéaire en N . Elles offrent ainsi des perspectives intéressantes pour le problème du
suivi des fréquences. Dans le cadre de cette thèse, nous avons étudié les méthodes existantes et nous
en avons proposé de nouvelles, afin de développer un algorithme complet de suivi des sinusoïdes.

Principaux résultats apportés dans le cadre de la thèse


Dans la littérature, le modèle ESM est généralement considéré comme le modèle de signal le plus
général pouvant être estimé à l’aide des méthodes HR. Il est pourtant restreint au cas où le polynôme
prédicteur ne possède que des racines simples. Qu’advient-il en présence de racines multiples ? On
peut démontrer que le signal est alors composé de sinusoïdes dont la modulation est une combinaison
linéaire d’exponentielles et de polynômes. Nous introduisons ainsi une représentation paramétrique
complète de ce type de modulation, que nous avons baptisée modèle Polynomial Amplitude Complex
Exponentials (PACE). Pour l’estimer, nous proposons une version modifiée de l’algorithme ESPRIT.
Notre choix s’est porté sur cette méthode d’estimation, car elle se prête bien à diverses optimisations,
1
Typiquement, pour un signal audio échantillonné à 44100 Hz, l’horizon d’observation est de l’ordre de 23ms, soit
plus de 1000 échantillons.
4 INTRODUCTION

en particulier dans un contexte adaptatif. Les bornes de Cramér-Rao pour le modèle PACE sont
calculées analytiquement dans le contexte le plus général (sans approximation asymptotique). Les
performances de l’algorithme ESPRIT généralisé sont ensuite déterminées en terme de biais, de variance
et d’efficacité, grâce à la théorie des perturbations, sous l’hypothèse d’un fort rapport signal à bruit.
Tous ces résultats peuvent être directement particularisés au modèle ESM.
Par ailleurs, l’algorithme ESPRIT, comme toutes les méthodes HR, présuppose que l’ordre de
modélisation est connu, ce qui n’est généralement pas le cas en pratique. Quelle est la perturbation
induite sur les pôles estimés lorsque cet algorithme est appliqué avec un ordre de modélisation er-
roné ? Le travail mené au cours de cette thèse a permis d’apporter une réponse quantitative à cette
question, à partir de laquelle nous avons développé une nouvelle méthode d’estimation de l’ordre du
modèle, plus robuste que les critères généralement utilisés, issus de la théorie de l’information. Cette
méthode d’estimation peut être appliquée au modèle PACE comme au modèle ESM. Enfin, comme la
complexité algorithmique constitue un problème crucial pour la mise en oeuvre des méthodes HR, une
implémentation rapide de l’algorithme ESPRIT est proposée.
Enfin, dans un contexte adaptatif, nous avons cherché à réduire encore davantage le coût de cet
algorithme, en utilisant des techniques de poursuite de l’espace signal. Nous proposons ainsi de nou-
veaux algorithmes de poursuite, qui offrent un meilleur compromis performance / complexité que les
méthodes existantes. L’un d’eux possède la complexité la plus faible et atteint des performances équi-
valentes à celles d’une EVD ou d’une SVD. L’estimation de l’espace signal n’étant que la première
étape de l’algorithme ESPRIT, nous proposons également une implémentation adaptative des étapes
restantes (estimation de la matrice spectrale et de ses valeurs propres), qui permet de déterminer les
paramètres plus rapidement sans aucune perte de performance. Un algorithme complet d’estimation
et de poursuite des paramètres est ainsi obtenu, totalement adaptatif et de faible complexité.
Nous avons ensuite mis en oeuvre cet algorithme dans le cadre de l’analyse spectrale des signaux de
musique. Nous avons pu observer que cette mise en oeuvre est délicate, et qu’il est préférable de pré-
traiter les signaux de façon à ce qu’ils respectent au mieux le modèle de signal, tout en tenant compte
des propriétés du système auditif humain. Un système complet d’analyse / synthèse du signal audio
est ainsi proposé, dont le coeur est l’analyse HR. Ce système peut avoir plusieurs applications, comme
le codage, le débruitage et l’extraction du bruit additif. Une application de ce système développée en
collaboration avec M. Alonso sera présentée à la fin du mémoire : l’estimation du rythme musical.
Le lecteur remarquera sans doute que la partie théorique de ce document repose sur un modèle
de signal à valeurs complexes, alors que le signal audio est à valeurs réelles. Nous avons fait ce choix
pour la simple raison que les résultats théoriques s’expriment de façon plus concise et plus intelli-
gible en complexe qu’en réel. De plus, les résultats pour le modèle réel sont généralement obtenus en
particularisant les résultats pour le modèle complexe2 .

Structure du document

Le document est structuré en quatre parties regroupant chacune plusieurs chapitres. La lecture d’un
chapitre particulier ne requiert généralement pas d’avoir lu l’ensemble des chapitres qui le précèdent.
La table 1 présente un schéma des principales dépendances entre chapitres.

2
En pratique, il serait quand même possible d’appliquer l’algorithme d’estimation en complexe, en filtrant préalable-
ment le signal audio à l’aide d’un filtre analytique. Cela permettrait de réduire la complexité car la dimension de l’espace
signal serait alors divisée par deux ; cependant les calculs matriciels sont quatre fois plus coûteux en complexe qu’en réel.
Introduction 5

Première partie
- Chapitre III

Chapitre II
Deuxième partie
6 - Chapitre IV -Chapitre VII

- Chapitre I - Chapitre V - Chapitre VI -Chapitre VIII

- Chapitre IX
?
Chapitre X - Chapitre XI

Troisième partie

Tab. 1 – Structure du document

Première partie : Modèle de signal et méthodes d’estimation


Dans la première partie sont présentés divers aspects théoriques des techniques d’analyse spec-
trale à haute résolution. Le chapitre I est ainsi consacré à l’estimation des paramètres d’un signal
composé d’une somme de sinusoïdes modulées exponentiellement et perturbées par un bruit additif
(modèle ESM). Le chapitre II introduit ensuite une extension du modèle ESM, qui représente le signal
comme une somme d’exponentielles complexes à modulation d’amplitude polynomiale. Ce modèle,
baptisé PACE, correspond à la présence de pôles multiples. Il s’agit du modèle de signal le plus général
pouvant être traité par les méthodes HR. Deux techniques d’estimation sont présentées : la méthode
du maximum de vraisemblance et l’algorithme ESPRIT généralisé. Les performances de ces diverses
méthodes d’estimation sont étudiées dans le chapitre III. Tout d’abord, les bornes de Cramér-Rao pour
le modèle PACE sont calculées analytiquement dans le cas général, puis simplifiées dans un contexte
asymptotique. Les performances des estimateurs introduits dans le chapitre II sont ensuite comparées à
ces bornes, en étudiant les perturbations induites par le bruit additif au premier ordre. Des simulations
numériques sont proposées pour illustrer les résultats obtenus, dans le cas de signaux réels modulés en
amplitude et en fréquence. Le chapitre IV porte sur la sélection de l’ordre de modélisation. En effet,
les méthodes HR présupposent que l’ordre du modèle est connu, ce qui n’est généralement pas le cas
dans la pratique. En particulier, pour des applications de codage, le signal doit être représenté avec
un nombre minimal de paramètres. Malheureusement, il est connu qu’appliquer l’algorithme ESPRIT
avec un ordre de modélisation sous-estimé biaise l’estimation des fréquences. Nous proposons ainsi une
nouvelle méthode pour sélectionner un ordre de modélisation approprié, qui minimise ce biais. Cette
approche est appliquée à des signaux synthétiques et à des signaux de musique, et s’avère plus per-
formante que les critères classiques de théorie de l’information. Enfin, le chapitre V traite le problème
de la complexité algorithmique, qui constitue l’inconvénient principal des méthodes HR. L’objectif est
ainsi de réduire la complexité de l’algorithme ESPRIT généralisé. Toutes les étapes sont optimisées :
l’estimation de l’espace signal, qui constitue l’étape la plus coûteuse, le calcul de la matrice spectrale et
enfin l’estimation des amplitudes. Ce chapitre constitue aussi une introduction aux algorithmes rapides
de poursuite présentés dans la deuxième partie.
6 INTRODUCTION

Deuxième partie : Algorithmes rapides de poursuite des paramètres


La deuxième partie du document est consacrée à l’analyse de signaux dont les paramètres ne sont
plus constants, mais varient au cours du temps. Dans ce contexte, un très grand nombre d’algorithmes
permettant de suivre les variations temporelles de l’espace signal ont été proposés dans la littérature. Le
chapitre VI mentionne les principaux d’entre eux, parmi lesquels la méthode des puissance itérées, qui
est l’un des plus précis, et l’algorithme PAST orthonormé (OPAST), qui est l’un des plus rapides. Plu-
sieurs critères permettant de caractériser ces divers algorithmes sont présentés, et leurs performances
sont illustrées sur un signal présentant de brusques variations. Des techniques permettant de suivre la
matrice spectrale et ses valeurs propres sont également évoquées. Le chapitre VII introduit ensuite un
nouvel algorithme rapide de poursuite de l’espace signal dérivé de la méthode des puissances itérées,
baptisé Approximation de la méthode des Puissances Itérées (API). Cet algorithme est plus rapide que
la méthode des puissances itérées, mais un peu moins performant. Ensuite, le chapitre VIII introduit
un autre algorithme rapide de poursuite de l’espace signal, qui possède la même complexité que l’algo-
rithme OPAST, mais dont les performances sont équivalentes, voire supérieures, à celles de la méthode
des puissances itérées. Cet algorithme, baptisé Yet Another Subspace Tracker (YAST), peut être vu
comme une implémentation optimisée des algorithmes SP1 et SP2 récemment proposés dans [Davila,
2000]. Ses performances sont illustrées sur un signal présentant de brusques variations, et comparées
à la méthode des puissances itérées. Enfin, reposant sur l’estimation de l’espace signal obtenue par le
biais de l’algorithme API rapide ou de YAST, une technique rapide de suivi de la matrice spectrale
est présentée dans le chapitre IX. D’autre part, deux approches sont proposées pour suivre les pôles,
la première reposant sur une approximation, et la seconde permettant de les calculer exactement. La
question du suivi des amplitudes est également évoquée. Les performances de l’algorithme complet de
poursuite des paramètres ainsi obtenu sont illustrées à la fin du chapitre.

Troisième partie : Application aux signaux de musique


Dans la troisième partie de ce document, les algorithmes d’estimation introduits dans les deux pre-
mières parties sont appliqués à des signaux de musique. Dans la littérature, les méthodes HR restent
marginalement utilisées dans le cadre de l’analyse spectrale des signaux de musique. Pourtant, certains
auteurs ont montré que le modèle ESM est particulièrement bien adapté à ce type de signaux. En fait, il
permet de représenter bien plus qu’une simple somme de sinusoïdes à modulation exponentielle. Il n’en
reste pas moins que la mise en oeuvre des méthodes HR est délicate et nécessite de prendre certaines
précautions. Le chapitre X résume les problèmes que l’on peut rencontrer, et diverses solutions qui ont
été proposées pour y remédier. Le chapitre XI aborde ensuite la mise en oeuvre des techniques d’es-
timation présentées dans les deux premières parties du document. Divers pré-traitements permettant
d’accroître la robustesse de l’algorithme d’estimation sont ainsi présentés. Ces pré-traitements sont
agencés sous la forme d’un système complet d’analyse / synthèse du signal, pour lequel plusieurs ap-
plications sont envisagées, comme le codage, le débruitage et l’extraction de la partie bruitée du signal.
L’extraction du bruit peut avoir plusieurs applications ; à titre d’exemple sera présenté un travail mené
avec M. Alonso sur l’estimation du rythme musical.

Quatrième partie : Annexes


Enfin, trois annexes sont proposées dans la quatrième partie du document. Dans les deux premières
sont exposées les démonstrations des principaux résultats énoncés dans les parties I et II. La troisième
annexe contient les reproductions de trois articles publiés au début de cette thèse, mais dont le contenu
n’a pas été développé dans le corps de ce document afin d’éviter de le surcharger.
7

Première partie

Modèle de signal et méthodes


d’estimation
9

Chapitre I

État de l’art des méthodes à haute


résolution

Résumé
Ce chapitre est consacré à l’estimation des paramètres d’un signal composé d’une
somme de sinusoïdes modulées exponentiellement et perturbées par un bruit additif.
Le principe du maximum de vraisemblance ramène alors l’estimation des amplitudes
et des phases à un problème de moindres carrés simple, alors que l’estimation des
fréquences et des facteurs d’atténuation exige des méthodes plus sophistiquées, dites
à haute résolution, car elles s’affranchissent des limites de l’analyse de Fourier en
terme de résolution spectrale.
10 CHAPITRE I. ÉTAT DE L’ART DES MÉTHODES À HAUTE RÉSOLUTION

I.1 Introduction
L’origine des méthodes HR remonte aux travaux de Prony publiés en 1795, qui visent à estimer
une somme d’exponentielles par des techniques de prédiction linéaire [Riche de Prony, 1795]. Plus
récemment, cette approche a été approfondie par Pisarenko pour estimer des sinusoïdes [Pisarenko,
1973]. En comparaison, les méthodes HR modernes reposent sur les propriétés particulières de la matrice
de covariance du signal. Ainsi, l’étude de son rang permet de séparer l’espace des données en deux
sous-espaces, l’espace signal engendré par les sinusoïdes, et l’espace bruit qui est son complémentaire
orthogonal. Les méthodes HR issues de cette décomposition en sous-espaces sont connues pour être plus
robustes que les techniques de prédiction linéaire. C’est le cas des méthodes MUSIC [Schmidt, 1986] et
root-MUSIC [Barabell, 1983] (qui reposent sur l’espace bruit), de l’algorithme Toeplitz Approximation
Method (TAM) [Kung et al., 1983], ainsi que de l’algorithme ESPRIT [Roy et al., 1986] et de ses
variantes TLS-ESPRIT [Roy et Kailath, 1987] et PRO-ESPRIT [Zoltawski et Stavrinides, 1989] (qui
reposent sur l’espace signal). En fait, toutes ces méthodes d’estimation peuvent être appliquées à un
modèle de signal plus général, le modèle ESM, qui représente le signal comme une somme de sinusoïdes
modulées exponentiellement. Ce modèle est également baptisé Exponentially Damped Sinusoids (EDS)
quand la modulation est décroissante [Nieuwenhuijse et al., 1998]. D’autres techniques d’estimation ont
été spécifiquement développées pour le modèle ESM, telles que l’algorithme de Kumaresan et Tufts
(KT), encore appelé méthode Min-Norm [Kumaresan et Tufts, 1982], et sa version modifiée Modified
KT (MKT) [Li et al., 1997] (de type prédiction linéaire), et la méthode Matrix Pencil [Hua et Sarkar,
1990] (de type sous-espace). Une liste plus complète de ces méthodes peut être consultée dans [Van der
Veen et al., 1993].
Ce chapitre n’a pas vocation à présenter les méthodes HR de façon exhaustive, mais plutôt à
familiariser le lecteur avec les concepts sur lesquels elles reposent. C’est pourquoi seules certaines d’entre
elles sont présentées ici : les méthodes de Prony, de Pisarenko, MUSIC et ESPRIT. Cet exposé débutera
par la définition du modèle de signal (section I.2). Puis la méthode du maximum de vraisemblance, qui
permet d’établir un lien avec la transformation de Fourier, sera présentée dans la section I.3. Ensuite
les méthodes à haute résolution pour estimer les pôles complexes seront introduites dans la section I.4,
et des techniques d’estimation des autres paramètres du modèle seront présentées dans la section I.5.
La section I.6 sera consacrée à l’analyse des performances des méthodes HR. Enfin, les résultats de ce
chapitre seront résumés dans la section I.7.

I.2 Modèle de signal


Considérons le modèle de signal discret (défini pour tout t ∈ Z)

P
K−1
s(t) = αk zk t (I.1)
k=0

où K ∈ N∗ , ∀k ∈ {0 . . . K − 1}, αk ∈ C∗ , et tous les pôles zk ∈ C∗ sont distincts. Dans le cas particulier


où tous les pôles appartiennent au cercle unité, le signal est représenté comme une somme de sinusoïdes
complexes. Ainsi, chaque pôle zk s’écrit sous la forme zk = ei2πfk où fk ∈ R est la fréquence de la
sinusoïde. Plus généralement, si les pôles ne se trouvent pas sur le cercle unité, les sinusoïdes sont
modulées exponentiellement (modèle ESM). Dans ce cas, chaque pôle zk s’écrit sous forme polaire
zk = eδk ei2πfk , où δk ∈ R est le facteur d’atténuation (ou taux d’amortissement) de la sinusoïde. En
particulier, les pôles de même angle polaire et de modules différents sont associés à la même fréquence.
Les amplitudes complexes αk s’écrivent également sous forme polaire αk = ak eiφk , où ak ∈ R∗+ et
φ ∈ R.
I.3. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE 11

En outre, le signal observé x(t) peut être modélisé comme la somme du signal déterministe s(t)
défini ci-dessus et d’un bruit blanc gaussien complexe centré w(t) de variance σ 2 . Rappelons qu’un
bruit blanc gaussien complexe centré est une suite de variables aléatoires i.i.d à valeurs complexes, de
|w|2
densité de probabilité p(w) = 1
πσ2
e− σ2 . On obtient ainsi la relation

x(t) = s(t) + w(t). (I.2)

Le signal est observé sur des fenêtres temporelles de longueur N ≥ K. Ainsi, pour tout t ∈ Z, on
considère la fenêtre temporelle {t − l + 1 . . . t + n − 1}, où les entiers n et l sont tels que N = n + l − 1,
et on définit le vecteur s(t) = [s(t − l + 1), . . . , s(t + n − 1)]T , de dimension N . Pour tout z ∈ C, posons
K−1
P
v(z) = [1, z, . . . , z N −1 ]T . Or s(t) = αk zkt−l+1 v(zk ). Cette égalité peut être réécrite sous la forme
k=0
d’un produit : s(t) = V N J t−l+1 α, où α = [α0 , . . . , αK−1 ]T est un vecteur de
 dimension K, J =
N
diag(z0 , . . . , z(K−1) ) est une matrice diagonale de dimension K × K, et V = v(z0 ), . . . , v(z(K−1) )
est une matrice de Vandermonde de dimensions N × K :
 
1 1 ... 1
 z0 z1 ... zK−1 
N  
V = .. .. .. .. .
 . . . . 
z0 N −1 z1 N −1 . . . zK−1 N −1

Définissons alors le vecteur d’amplitudes à l’instant t, α(t) = J t−l+1 α, de sorte que s(t) = V N α(t). Il
est connu que la matrice de Vandermonde carrée V K extraite des K premières lignes de V N (rappelons
que N ≥ K) a pour déterminant [Horn et Johnson, 1985, pp. 29]

Q
det(V K ) = (zk2 − zk1 ). (I.3)
0≤k1 <k2 ≤K−1

Ainsi, la matrice V N est de rang plein si et seulement si tous les pôles sont distincts. La relation
s(t) = V N α(t) montre donc que pour chaque instant t le vecteur s(t) vit dans l’espace image de la
matrice V N , de dimension inférieure ou égale à K dans le cas général, et égale à K si tous les pôles
sont distincts.
Soit w(t) = [w(t − l + 1), . . . , w(t + n − 1)]T le vecteur contenant les échantillons du bruit additif.
Il s’agit d’un vecteur aléatoire gaussien centré, dont la matrice de covariance est Rww = σ 2 I N . Notons
enfin x(t) = [x(t − l + 1), . . . , x(t + n − 1)]T le vecteur de données observées. Ce vecteur vérifie donc
x(t) = s(t) + w(t). Le modèle étant posé, l’analyse du signal s(t) va consister à estimer les paramètres
σ 2 , z0 ,. . . , z(K−1) et α(t). Une technique classique d’estimation paramétrique, la méthode du maximum
de vraisemblance, est appliquée à ce modèle dans la prochaine section.

I.3 Méthode du maximum de vraisemblance

Le principe du maximum de vraisemblance est une méthode générale d’estimation de paramètres. Il


fournit des estimateurs asymptotiquement efficaces et sans biais. C’est pourquoi il est souvent préféré
aux autres techniques d’estimation lorsqu’il possède une solution analytique simple.
12 CHAPITRE I. ÉTAT DE L’ART DES MÉTHODES À HAUTE RÉSOLUTION

I.3.1 Application du principe du maximum de vraisemblance au modèle ESM


Le principe du maximum de vraisemblance consiste à maximiser la probabilité conditionnelle d’ob-
server le signal x sur l’intervalle {t − l + 1, . . . , t + n − 1}, connaissant les paramètres σ 2 , z0 ,. . . , z(K−1)
et α(t) (ou le logarithme népérien de cette probabilité, appelé log-vraisemblance des observations).
Puisque x(t) = s(t) + w(t), où s(t) = V N α(t) est un vecteur déterministe et w(t) est un vecteur
aléatoire gaussien complexe centré de matrice de covariance Rww = σ 2 I N , x(t) est lui-même un vec-
teur aléatoire gaussien complexe d’espérance s(t) et de matrice de covariance Rww . Rappelons que la
densité de probabilité d’un tel vecteur aléatoire est
1 H −1
p(x(t)) = e−(x(t)−s(t)) Rww (x(t)−s(t)) .
πN det(Rww )

Ainsi, la log-vraisemblance des observations est


1
L(σ 2 , z0 . . . zK−1 , α(t)) = −N ln(πσ 2 ) − g(z0 . . . zK−1 , α(t))
σ2
où H 
g(z0 . . . zK−1 , α(t)) = x(t) − V N α(t) x(t) − V N α(t) .
La maximisation de cette log-vraisemblance par rapport aux paramètres (σ 2 , z0 . . . zK−1 , α(t)) peut
être effectuée en minimisant d’abord g par rapport au couple (z0 . . . zK−1 , α(t)), puis en maximisant
L par rapport à σ. On obtient ainsi σ 2 = N1 g(z0 . . . zK−1 , α(t)), ou encore

1 2
σ2 = N x(t) − V N α(t) . (I.4)

Il apparaît que σ 2 est estimé en calculant la puissance du résiduel obtenu en soustrayant les exponen-
tielles du signal observé.
La matrice V N est de rang plein, puisqu’il a été supposé dans la section I.2 que les pôles sont
H
distincts deux à deux. Ainsi, la matrice V N V N est inversible. Pour minimiser g par rapport au
couple (z0 . . . zK−1 , α(t)), il suffit d’utiliser la décomposition
 H
−1 H
g(z0 . . . zK−1 , α(t)) = x(t)H x(t) − x(t)H V N V N V N V N x(t)
  −1 H    −1 
H H H H H
+ α(t) − V N V N V N x(t) VN VN α(t) − V N V N V N x(t) .

Le dernier terme de cette équation est toujours positif, et peut être rendu nul en posant
 −1
H H
α(t) = V N V N V N x(t). (I.5)

Il apparaît que le vecteur des amplitudes complexes α(t) est estimé de la même façon qu’en utilisant
la méthode des moindres carrés ordinaire.
La fonction g est donc minimale quand le K-uplet (z0 . . . zK−1 ) maximise la fonction J définie par
 −1
H H
J (z0 , . . . , z(K−1) ) = x(t)H V N V N V N V N x(t). (I.6)

Comme ce problème d’optimisation ne possède pas de solution analytique dans le cas général, il doit
être résolu numériquement. En résumé, le principe du maximum de vraisemblance conduit à estimer
les paramètres du modèle en trois étapes :
I.3. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE 13

les pôles complexes sont obtenus en effectuant la maximisation de la fonction J (équation (I.6)),
les amplitudes complexes sont obtenues en calculant le membre de droite de l’équation (I.5),
l’écart-type est alors donné par l’équation (I.4).
Malheureusement, il se trouve que la première étape de cette méthode d’estimation, qui requiert
l’optimisation d’une fonction de K variables complexes, est difficile à implémenter, car la fonction à
maximiser possède de nombreux maxima locaux. De plus, elle s’avère extrêmement coûteuse en temps
de calcul. C’est pourquoi on utilise généralement des méthodes plus fiables et plus rapides pour estimer
les pôles complexes. Néanmoins, une fois les pôles estimés, le principe du maximum de vraisemblance
peut être utilisé pour déterminer les amplitudes complexes et l’écart-type du bruit.

I.3.2 Maximum de vraisemblance et résolution de Fourier


Intéresssons-nous maintenant au cas particulier où tous les pôles sont sur le cercle unité (∀k, δk = 0).
Les résultats de la section I.3.1 ont montré que le principe du maximum de vraisemblance conduit à
un problème d’optimisation qui ne possède pas de solution analytique simple dans le cas général.
Cependant, une telle solution existe dans le cas particulier où K = 1, ainsi qu’une solution approchée
si K > 1.
Examinons d’abord le cas d’une seule exponentielle complexe (K = 1). Alors l’équation (I.6) se
simplifie en J (z0 ) = R bx (z0 ), où R
bx est le périodogramme du signal x(t) observé sur la fenêtre temporelle
{t − l + 1 . . . t + n − 1} :
bx (ei2πf0 ) = 1 X(ei2πf0 )
2
R
N
NP
−1
où X(ei2πf0 ) = v(ei2πf0 )H x(t) = x(t − l + 1 + τ ) e−i2πf0 τ . De même, l’équation (I.5) se simplifie
τ =0  
en α0 (t) = N1 X(ei2πf0 ). Enfin, l’équation (I.4) se simplifie en σ 2 = N1 kx(t)k2 − R bx (ei2πf0 ) .
Ces résultats induisent la conclusion suivante :

Le principe du maximum de vraisemblance conduit dans le cas d’une sinusoïde complexe


à détecter la fréquence pour laquelle le périodogramme atteint son maximum. L’amplitude
complexe correspondante est proportionnelle à la valeur de la Transformée de Fourier
Discrète (TFD) du signal à cette fréquence. La variance du bruit est estimée comme la
puissance du signal après soustraction de la sinusoïde.

Abordons maintenant le cas général K ≥ 1, pour lequel la maximisation de la fonction J (z) ne


possède plus de solution analytique exacte. On introduit alors l’hypothèse suivante :

1
N >> .
min |fk2 − fk1 |
k1 6=k2

H
La matrice V N V N est une matrice hermitienne définie positive de dimension K × K, dont les
n o NP
−1
H
coefficients peuvent être calculés analytiquement : V N V N = (zk∗1 zk2 )τ . On obtient alors
(k1 , k2 ) τ =0
n o
H sin(πN (fk2 −fk1 ))
1
N VN VN = eiπ(N −1)(fk2 −fk1 ) N sin(π(fk2 −fk1 )) si k1 6= k2
n (k ,
o 1 2 k )
1 H
N VN VN = 1 si k1 = k2 = k
(k, k)
14 CHAPITRE I. ÉTAT DE L’ART DES MÉTHODES À HAUTE RÉSOLUTION

1 H 
Ainsi, quand N >> , 1VN VN
min |fk2 −fk1 | N
= IK + O 1
N , donc
k1 6=k2

 −1  
NH N 1 1
V V = IK + O .
N N2

Alors l’équation (I.6) se simplifie en

  K−1
X  
1 NH
2 1 b k) + O 1
J (z0 , . . . , zK−1 ) = V x(t) +O = R(z .
N N2 N2
k=0

1 H 
De même, l’équation (I.5) se simplifie en α(t) = N V N x(t) + O 1
N2
, d’où
 
1 1
αk (t) = X(ei2πfk ) + O .
N N2
 
P
K−1 
Enfin, l’équation (I.4) se simplifie en σ2 = 1
kx(t)k2 − b
R(ei2πf k ) +O 1
.
N N2
k=0

Ainsi, la maximisation conjointe de J par rapport à z0 , . . . , zK−1 conduit à déterminer


les K fréquences associées aux K plus grandes valeurs du périodogramme. Les amplitudes
complexes correspondantes sont proportionnelles à la valeur de la TFD du signal à ces
fréquences. Rappelons que ces résultats ne sont valables que si tous les pôles sont sur le
cercle unité et reposent sur l’hypothèse N >> min f1 −f .
k 6=k
| k2 k1 |
1 2

On observe ainsi la limite de l’analyse de Fourier en terme de résolution spectrale : les paramètres
sont estimés correctement à condition que la longueur de la fenêtre observée soit suffisamment grande
devant l’inverse du plus petit écart fréquentiel entre deux pôles voisins. C’est de cette limite que les
méthodes HR présentées dans la section I.4 permettent de s’affranchir. Ainsi, les méthodes HR sont
capables de distinguer deux sinusoïdes proches, que l’analyse de Fourier ne permet pas de discerner
(un exemple sera donné dans la section IV.4.2). Dans les applications, les méthodes HR pourront
être utilisées avec des fenêtres plus courtes que celles que l’on utilise habituellement avec l’analyse de
Fourier.

I.4 Méthodes à haute résolution


On commence par introduire ici les méthodes à haute résolution les plus anciennes, qui reposent sur
des techniques de prédiction linéaire (section I.4.1), avant d’aborder dans la section I.4.2 les méthodes
de type sous-espace, plus récentes.

I.4.1 Techniques de prédiction linéaire


Les deux premières méthodes à haute résolution présentées dans ce chapitre reposent sur un résultat
fondamental portant sur les équations de récurrence linéaires, présenté dans la section I.4.1.1.
I.4. MÉTHODES À HAUTE RÉSOLUTION 15

Fig. I.1 – Jean Baptiste Joseph FOURIER (1768-1830)

I.4.1.1 Equations de récurrence linéaires


Soient p0 ∈ C∗ , K ∈ N∗ et {z0 , . . . , zK−1 } K nombres complexes distincts et non nuls. On définit
le polynôme de degré K dont le coefficient dominant est p0 et dont les racines sont les zk :
K−1
Y K
X
P [z] = p0 (z − zk ) = pK−τ z τ .
k=0 τ =0

Le théorème suivant caractérise le modèle de signal.


Théorème I.4.1. Un signal discret complexe {s(t)}t∈Z satisfait l’équation de récurrence

P
K
pτ s(t − τ ) = 0 (I.7)
τ =0

P
K−1
pour tout t ∈ Z si et seulement si il existe des scalaires α0 , . . . , αK−1 ∈ C tels que s(t) = αk zk t .
k=0

Ce résultat est prouvé entre autres dans [Kumaresan, 1983].

I.4.1.2 Méthode de Prony


Les travaux du baron de Prony sont à l’origine du développement des méthodes à haute résolution.
Celui-ci a proposé une méthode d’estimation s’inspirant du résultat précédent sur les équations de
16 CHAPITRE I. ÉTAT DE L’ART DES MÉTHODES À HAUTE RÉSOLUTION

Fig. I.2 – Gaspard-Marie RICHE de PRONY (1755-1839)

récurrence linéaires [Riche de Prony, 1795]. Cette méthode était originellement destinée à estimer
des exponentielles réelles non bruitées ; cependant nous l’appliquons ici à l’estimation d’exponentielles
complexes bruitées. La méthode de Prony consiste à déterminer dans un premier temps le polynôme
P [z] à l’aide de techniques de prédiction linéaire, puis à extraire les racines de ce polynôme. On définit
l’erreur de prédiction
XK
ε(t) , pτ x(t − τ ). (I.8)
τ =0

En particulier, en substituant les équations (I.2) et (I.7) dans l’équation (I.8), on obtient ε(t) =
P
K
pτ w(t − τ ). L’erreur de prédiction caractérise donc uniquement le bruit qui se superpose au signal.
τ =0
Plaçons-nous dans le cas particulier n = K + 1, et supposons que l ≥ K + 1. Ainsi, le signal est observé
sur la fenêtre {t − l + 1 . . . t + K}. En appliquant l’équation (I.8) aux instants {t − l + K + 1, t − l +
K + 2, . . . , t + K}, on obtient le système d’équations


 p0 x(t − l + K + 1) + p1 x(t − l + K) + ... + pK x(t − l + 1) = ε(t − l + K + 1)

 p0 x(t − l + K + 2) + p1 x(t − l + K + 1) + . . . + pK x(t − l + 2) = ε(t − l + K + 2)
.. .. .. ..

 . + . + ... + . = .


p0 x(t + K) + p1 x(t + K − 1) + ... + pK x(t) = ε(t + K)
(I.9)
 H
Posons alors p = pK , p(K−1) , . . . , p0 , ε(t) = [ε(t − l + K + 1), ε(t − l + K + 2), . . . , ε(t + K)]H
I.4. MÉTHODES À HAUTE RÉSOLUTION 17

et
 
x(t − l + 1) ··· x(t − 1) x(t)
 x(t − l + 2) ··· x(t) x(t + 1) 
 
X(t) =  .. .. ..  (I.10)
 . ··· . . 
x(t − l + K + 1) · · · x(t + K − 1) x(t + K)

de sorte que le système d’équations (I.9) peut être condensé sous la forme pH X(t) = ε(t)H .
La méthode de Prony consiste à minimiser la puissance de l’erreur de prédiction 1l kεk2 par rapport
à p, sous la contrainte p0 = 1. Or il est possible d’écrire 1l kεk2 = pH Rb xx (t) p, où la matrice R
b xx (t) =
1 H
l X(t) X(t) est de dimension (K + 1) × (K + 1). Comme la matrice X(t) possède K + 1 lignes et
l ≥ K + 1 colonnes, on peut supposer que la matrice R b xx (t) est inversible. La solution de ce problème
d’optimisation est alors
1 b xx (t)−1 e1
p= R
H b −1
e Rxx (t) e1
1

où e1 , [1, 0 . . . 0]T est un vecteur de dimension K + 1. Ainsi, la méthode d’estimation de Prony


comprend les étapes suivantes :
– Construire la matrice X(t) et calculer R b xx (t) ;
– Calculer p = H b 1 b −1
Rxx (t) e1 ;
−1
e1 Rxx (t) e1
P
K
– Déterminer les pôles {z0 , . . . , zK−1 } en tant que racines du polynôme P [z] = pk z K−k .
k=0

I.4.1.3 Méthode de Pisarenko

La méthode de Pisarenko est une variante de la méthode de Prony. Elle consiste à minimiser la
puissance de l’erreur de prédiction 1l kεk2 = pH R b xx (t) p sous la contrainte que le vecteur p soit de
norme 1. La solution de ce problème d’optimisation est le vecteur propre de la matrice R b xx (t) associé
à la plus petite valeur propre.
Ainsi la méthode de Pisarenko [Pisarenko, 1973] consiste à
– calculer et diagonaliser Rb xx (t) ;
– déterminer p comme le vecteur propre associé à la plus petite valeur propre ;
– extraire les racines du polynôme P [z].
Les méthodes de Prony et de Pisarenko constituent les plus anciennes méthodes HR. Comme nous
le montrerons dans la section I.6.2, elles s’avèrent peu robustes en pratique, c’est pourquoi les méthodes
de type sous-espace, proposées plus récemment, leur sont généralement préférées.

I.4.2 Méthodes sous-espace


Dans le même esprit que la méthode de Pisarenko, les méthodes HR modernes (e.g. [Schmidt,
b xx (t).
1986, Roy et al., 1986, Hua et Sarkar, 1990]) reposent sur une décomposition de la matrice R

I.4.2.1 Structure singulière de la matrice de données

Supposons désormais que n ≥ K + 1 et l ≥ K + 1, et construisons la matrice de données du signal


non bruité s(t) sur le même modèle que la matrice X(t) dans l’équation (I.10), selon une structure de
18 CHAPITRE I. ÉTAT DE L’ART DES MÉTHODES À HAUTE RÉSOLUTION

Hankel :  
s(t − l + 1) · · · s(t − 1) s(t)
 s(t − l + 2) · · · s(t) s(t + 1) 
 
S(t) =  .. .. .. . (I.11)
 . ··· . . 
s(t − l + n) · · · s(t + n − 2) s(t + n − 1)
La proposition suivante, démontrée dans [Hua et Sarkar, 1990], caractérise le modèle de signal.

Proposition I.4.2 (Factorisation de la matrice de données). Les assertions suivantes sont équiva-
lentes :
1. Le signal s(t) satisfait le modèle défini dans l’équation (I.1) sur l’intervalle {t−l+1, . . . , t+n−1} ;
2. La matrice S(t) définie dans l’équation (I.11) peut être factorisée sous la forme

T
S(t) = V n D(t) V l (I.12)

où la matrice diagonale D(t) = diag(z0t−l+1 α0 , . . . , z(K−1)


t−l+1
α(K−1) ) est de dimension K × K, V n
est de dimensions n × K, et V l est de dimensions l × K.

Cette proposition montre que la matrice S(t) est de rang inférieur ou égal à K. Plus précisément,
elle est de rang K si et seulement si n ≥ K, l ≥ K, tous les pôles zk sont distincts et non nuls, et
toutes les amplitudes αk sont non nulles. Dans ce cas, son espace image est engendré par la matrice
V n . La structure singulière de la matrice de données induit une structure équivalente pour la matrice
de corrélation, définie ci-dessous.

I.4.2.2 Structure singulière de la matrice de corrélation


Les méthodes sous-espace reposent sur la structure particulière de la matrice de corrélation du
signal C ss (t) = S(t) S(t)H , et en particulier sur ses sous-espaces propres, que nous allons maintenant
étudier. Définissons Rss (t) = 1l C ss (t). L’équation (I.12) montre que

Rss (t) = V n P (t) V nH (I.13)


1 T ∗
P (t) =D(t) V l V l D(t)H (I.14)
l
est une matrice symétrique définie positive. Ainsi, l’équation (I.13) montre que sous les mêmes hypo-
thèses que pour S(t), la matrice Rss (t) est de rang K. Son espace image, appelé espace signal dans la
littérature, est engendré par la matrice V n . En particulier, les K valeurs propres de Rss (t) associées
à cet espace sont strictement positives, alors que les n − K autres sont nulles.
On définit ensuite la matrice X(t) à partir des échantillons du signal bruité x(t), de la même
manière que la matrice S(t) dans l’équation (I.11), et on considère la matrice de corrélation

C xx (t) = X(t) X(t)H . (I.15)

Posons alors Rb xx (t) = 1 C xx (t) (comme dans la section I.4.1.2). Puisque le bruit additif w(t) est blanc
l
b xx (t)] vérifie Rxx (t) = Rss (t) + σ 2 I n . Cette dernière
et centré, de variance σ 2 , la matrice Rxx (t) = E[R
équation montre que tous les vecteurs propres de la matrice Rss (t) sont également vecteurs propres
de Rxx (t), et que les valeurs propres correspondantes de Rxx (t) sont égales à celles de Rss (t) plus σ 2 .
Par conséquent, l’espace signal est également l’espace principal de dimension K de la matrice Rxx (t),
I.4. MÉTHODES À HAUTE RÉSOLUTION 19

c’est-à-dire l’espace propre de Rxx (t) associé aux K plus grandes valeurs propres, toutes strictement
supérieures à σ 2 . Les n − K valeurs propres associées au complémentaire orthogonal de l’espace signal,
appelé espace bruit, sont toutes égales à σ 2 . Il est possible d’estimer l’espace signal et l’espace bruit en
calculant l’ EVD de la matrice R b xx (t), ou encore la SVD de X(t). En juxtaposant les K principaux
vecteurs propres ou singuliers de l’une de ces matrices, on obtient ainsi une matrice W (t) de dimensions
n × K engendrant l’espace signal, et en juxtaposant les n − K autres vecteurs, on obtient une matrice
W ⊥ (t) de dimensions n × (n − K) engendrant l’espace bruit.
L’idée qui consiste à décomposer l’espace des données en deux sous-espaces (signal et bruit) est à
l’origine de plusieurs méthodes à haute résolution, parmi lesquelles la méthode MUSIC, présentée dans
la section I.4.2.3, et la méthode ESPRIT, présentée dans la section I.4.2.4.

I.4.2.3 MUltiple SIgnal Characterization (MUSIC)

La méthode MUSIC, développée par R. O. Schmidt [Schmidt, 1981], repose sur la remarque sui-
vante : les pôles {zk }k=0...K−1 sont les uniques solutions de l’équation

kW ⊥ (t)H v(z)k2 = 0 (I.16)

où v(z) = [1, z, , . . . , z n −1]T . En effet, z est solution si et seulement si v(z) ∈ span(W (t)) = span(V n ).
Donc tout pôle zk est solution, et il ne peut y en avoir d’autre car dans le cas contraire l’espace signal
serait de dimension strictement plus grande que K. Ainsi, la méthode root-MUSIC [Barabell, 1983]
consiste à
– calculer et diagonaliser la matrice R b xx (t) ;
– en déduire une base de l’espace bruit W ⊥ (t) ;
– extraire les racines de l’équation (I.16).
Dans le cas particulier où l’espace bruit est de dimension 1, elle est équivalente à la méthode de
Pisarenko présentée dans la section I.4.1.3.
Dans la pratique, les signaux réels ne correspondent pas rigoureusement au modèle, et l’équa-
tion (I.16) n’est pas rigoureusement vérifiée. C’est pourquoi la méthode spectral-MUSIC [Schmidt,
1986] consiste plutôt à rechercher les K pics les plus élevés de la fonction S(z) b = kW H1v(z)k2 .

La méthode ESPRIT, présentée ci-dessous, permet d’éviter l’optimisation de la fonction S(z), b ou


la résolution de l’équation (I.16), et fournit les valeurs des pôles complexes d’une manière plus directe.

I.4.2.4 Estimation of Signal Parameters via Rotational Invariance Techniques

La méthode ESPRIT [Roy et al., 1986] s’appuie sur une propriété particulière de l’espace signal :
l’invariance rotationnelle. Soit V n↓ la matrice de dimensions (n − 1)× K qui contient les n − 1 premières
lignes de V n , et V n↑ la matrice de dimensions (n − 1) × K qui contient les n − 1 dernières lignes de
V n . De même, soit W (t)↓ la matrice de dimensions (n − 1) × K qui contient les n − 1 premières lignes
de W (t), et W (t)↑ la matrice de dimensions (n − 1) × K qui contient les n − 1 dernières lignes de
W (t). Alors on vérifie que
V n↑ = V n↓ J (I.17)

où J = diag(z0 , . . . , z(K−1) ). Or les colonnes de V n et celles de W (t) constituent deux bases d’un même
espace vectoriel de dimension K. Ainsi, il existe une matrice inversible G(t) de dimension K × K telle
que
V n = W (t) G(t) (I.18)
20 CHAPITRE I. ÉTAT DE L’ART DES MÉTHODES À HAUTE RÉSOLUTION

où G(t) est définie comme la matrice de passage de la première base à la seconde. En substituant
l’équation (I.18) dans l’équation (I.17), on montre que

W (t)↑ = W (t)↓ Φ(t)

où Φ(t), appelée matrice spectrale, est définie par son EVD :

Φ(t) = G(t) J G(t)−1 . (I.19)

En particulier, les valeurs propres de Φ(t) sont les pôles {zk }k=0...K−1 .
Finalement, l’algorithme ESPRIT se décompose en quatre étapes :
b xx (t) ;
– calculer et diagonaliser la matrice R
– en déduire une base de l’espace signal W (t) ;
– extraire de W (t) les matrices W (t)↓ et W (t)↑ ;
– estimer la matrice spectrale Φ(t) en utilisant la méthode des moindres carrés (Least Squares
(LS))1 ou des moindres carrés totaux (Total Least Squares (TLS)) 2 .
– diagonaliser Φ(t) et en déduire les pôles estimés.
Des études théoriques et expérimentales ont montré que la méthode ESPRIT est la plus performante
des méthodes HR présentées ci-dessus (cf. section I.6.2).

I.5 Estimation des autres paramètres


Les méthodes à haute résolution exposées dans les sections précédentes estiment uniquement les
pôles zk . On s’intéresse maintenant à l’estimation des autres paramètres du modèle.

I.5.1 Estimation de l’ordre de modélisation


Jusqu’à présent, l’ordre du modèle ESM était supposé connu, ce qui n’est généralement pas le cas
dans la pratique. De nombreuses méthodes ont été proposées dans la littérature pour estimer le nombre
de sinusoïdes présentes dans un bruit blanc. Les plus classiques sont la méthode du maximum de vrai-
semblance [Bienvenu et Kopp, 1983] et les critères issus de la théorie de l’information, dits Critères de
Théorie de l’Information (ITC) [Wax et Kailath, 1985], parmi lesquels les critères Akaike Information
Criterion (AIC) [Akaike, 1973] et Minimum Description Length (MDL) par Schwartz [Schwarz, 1978] et
Rissanen [Rissanen, 1978]. Une autre technique dans le cadre des ITC est le critère Efficient Detection
Criteria (EDC) [Zhao et al., 1986a], qui s’avère également robuste à un bruit blanc multiplicatif [Gini
et Bordoni, 2003]. Ces divers critères ITC reposent sur la similarité des valeurs propres dans l’espace
bruit, et non sur l’existence d’une cassure entre les espaces signal et bruit [Liavas et Regalia, 2001].
Un critère de sélection de l’ordre de modélisation fondé sur cette cassure, formulée en terme de décom-
position maximalement stable, a été développé dans [Liavas et al., 1999]. D’autres approches reposent
sur les matrices de Wishart [Grouffaud et al., 1996] et sur la méthode de validation croisée [Kundu et
Mitra, 2000].
Cependant, dans le cas où le bruit est coloré, toutes ces méthodes tendent à surestimer l’ordre du
modèle. Ainsi, des méthodes spécifiques ont été conçues pour traiter le cas d’un bruit coloré, parmi
lesquelles de nouveaux critères ITC [Zhao et al., 1986b,Zhang et Wong, 1993], une technique basée sur
un modèle de fonction d’autocovariance du bruit à support fini [Fuchs, 1992], et un critère de maximum
a posteriori [Bishop et Djuric, 1996].
L’algorithme LS-ESPRIT [Roy et al., 1986] calcule Φ(t) = W (t)†↓ W (t)↑ (où le symbole † désigne le pseudo-inverse).
1
2
L’algorithme Total Least Squares ESPRIT (TLS-ESPRIT) estime Φ(t) comme solution d’un problème de minimi-
sation au sens des moindres carrés totaux [Roy et Kailath, 1987].
I.6. PERFORMANCES DES ESTIMATEURS 21

Parmi toutes ces méthodes, nous présentons ici les plus classiques, à savoir les trois principaux
critères ITC : AIC, MDL et EDC (qui est une généralisation robuste de AIC et MDL). Ces méthodes
consistent à minimiser une fonction de coût composée d’un premier terme commun et d’un second
terme qui constitue un facteur de pénalisation :
 ! n−p
1 
Qn σq2
 
ITC(p) = −(n − p) l ln   + p (2n − p) C(l)
q=p+1
 1 Pn σq2

n−p
q=p+1

b xx (t) classées par ordre décroissant, et C(l)


où les scalaires σq2 sont les valeurs propres de la matrice R
est une fonction de la variable l. Le critère AIC est défini en posant C(l) = 1, et le critère MDL est
défini en posant C(l) = 12 ln(l). Les critères EDC sont obtenus pour toutes les fonctions l 7→ C(l)
telles que lim C(l) l
C(l)
= 0 et lim ln(ln(l)) = +∞. Ces critères conduisent à maximiser le rapport de
l→+∞ l→+∞
la moyenne géométrique des valeurs propres de l’espace bruit sur leur moyenne arithmétique. Or ce
rapport est maximal et égal à 1 lorsque toutes ces valeurs propres sont égales ; il mesure donc la
blancheur du bruit (en théorie les valeurs propres sont toutes égales à σ 2 ). Le terme de pénalisation
C(l) permet d’éviter de surestimer p. Dans la pratique, ces méthodes sont relativement satisfaisantes
pour traiter des signaux qui vérifient bien le modèle de signal, mais leurs performances s’effondrent
quand ce modèle est moins bien vérifié, en particulier quand le bruit est coloré.

I.5.2 Estimation des amplitudes, des phases et de l’écart-type du bruit


Le principe du maximum de vraisemblance développé dans la section I.3.1 suggère d’utiliser la
méthode des moindres carrés pour estimer les amplitudes complexes (cf. équation (I.5)) :

α(t) = V N x(t),

dont se déduisent ak = |αk | et φk = arg(αk ). Rappelons que d’après le théorème de Gauss-Markov,


l’estimateur des moindres carrés est un estimateur linéaire sans biais, de variance minimale parmi tous
les estimateurs linéaires sans biais, dans la mesure où le bruit additif est blanc. Dans le cas où le bruit
additif est coloré, l’estimateur optimal est obtenu par la méthode des moindres carrés pondérés (on
pourra consulter [Stoica et al., 2000] pour des informations détaillées sur l’estimation des amplitudes
par la méthode des moindres carrés pondérés).
Enfin, le principe du maximum de vraisemblance suggère d’estimer l’écart-type en calculant la
puissance du résiduel (cf. équation (I.4)) :
1 2
σ2 = x(t) − V N α(t) .
N

I.6 Performances des estimateurs


I.6.1 Borne de Cramer-Rao
La borne de Cramér-Rao est un outil fondamental en théorie des probabilités, car elle permet
d’analyser les performances d’un estimateur, en rapportant la variance de celui-ci à une valeur optimale,
qui tient en quelque sorte lieu de repère de qualité. Dans le cas particulier du modèle de signal ESM,
une étude de la borne de Cramér-Rao a été proposée dans [Hua et Sarkar, 1990]. Le théorème général de
la borne de Cramér-Rao est rappelé ci-dessous (cf. [Kay, 1993]). Il repose sur l’hypothèse d’un modèle
statistique régulier.
22 CHAPITRE I. ÉTAT DE L’ART DES MÉTHODES À HAUTE RÉSOLUTION

Définition I.6.1 (Modèle statistique régulier). Soit un modèle statistique dominé par une mesure µ et
paramétré par θ ∈ Θ, où Θ est une partie ouverte de Rq . Notons x la variable vectorielle de dimension
N . La paramétrisation est dite régulière si les conditions suivantes sont vérifiées :
1. la densité de probabilité p(x; θ) est continûment dérivable, µ-presque partout, par rapport à θ.
2. la matrice d’information de Fisher
Z
F (θ) , l(x; θ) l(x; θ)T p(x; θ) dx
H

définie à partir de la fonction de score l(x; θ) , ∇θ ln p(x; θ) 1p(x; θ)>0 est définie positive pour
toute valeur du paramètre θ et continue par rapport à θ.

Théorème I.6.1 (Borne de Cramér-Rao). Soit un modèle statistique régulier paramétré par θ ∈ Θ.
b un estimateur non biaisé de θ (∀θ ∈ Θ, Eθ [θ]
Soit θ b = θ). Alors la matrice de dispersion D(θ, θ)
b ,
  T 
Eθ θ b−θ θ b−θ b − F (θ)−1 est positive.
est telle que la matrice D(θ, θ)

b
En particulier, les éléments diagonaux de la matrice D(θ, θ)−F (θ)−1 sont positifs. Par conséquent,
b sont supérieures aux éléments diagonaux de la matrice F (θ)−1 . Ainsi
les variances des coefficients de θ
les bornes d’estimation de Cramér-Rao pour l’ensemble des paramètres scalaires s’obtiennent en trois
étapes :
– calcul de la matrice d’information de Fisher ;
– inversion de cette matrice ;
– extraction des éléments diagonaux.
Comme cela a été mentionné dans la section I.3.1, le vecteur x(t) contenant les N échantillons
du signal observé est un vecteur aléatoire gaussien d’espérance s(t) et de matrice de covariance Rww .
Ci-dessous, la dépendance de s(t) et de Rww par rapport aux paramètres du modèle sera mentionnée
explicitement. En revanche, pour simplifier les notations, nous omettrons la dépendance de s(t) par
rapport au temps (qui ne prête pas ici à ambiguïté).
Il est connu que la matrice d’information de Fisher d’un vecteur aléatoire gaussien s’exprime simple-
ment en fonction des paramètres du modèle, comme le montre la proposition suivante [Kay, 1993, pp.
525].

Proposition I.6.2 (Matrice d’information de Fisher pour une densité gaussienne). Pour une famille
de lois de probabilité gaussiennes complexes de matrice de covariance Rww (θ) et de moyenne s(θ),
où 1 N ×N ) et s ∈ C 1 (Θ, CN ), les coefficients de la matrice d’information de Fisher
 Rww ∈ C (Θ, C
F (i,j) (θ) 1≤i, j≤k sont donnés par la formule de Bangs-Slepian étendue :

   
−1 ∂Rww (θ) −1 ∂Rww (θ) H
F (i,j) (θ) = trace Rww ∂θi Rww ∂θj + 2Re ∂s(θ)
∂θi R−1
ww
∂s(θ)
∂θj . (I.20)

En appliquant la formule (I.20) au modèle ESM, on obtient une expression analytique de la matrice
d’information de Fisher. On en déduit le théorème suivant, démontré dans [Hua et Sarkar, 1990] :

Proposition I.6.3. Les bornes de Cramér-Rao pour les paramètres (φk , δk , fk ) sont indépendantes de
ak′ pour tout k′ 6= k, mais proportionnelles à a12 . La borne pour le paramètre ak est indépendante de
k
tous les ak′ . Enfin, les bornes pour tous les paramètres sont indépendantes de toutes les phases φk′ , et
sont inchangées par une translation de l’ensemble des fréquences fk′ .
I.6. PERFORMANCES DES ESTIMATEURS 23

En outre, les bornes de Cramér-Rao peuvent être calculées analytiquement sous certaines hypo-
thèses, comme cela a été fait dans [Rao et Zhao, 1993].

Proposition I.6.4. Supposons que tous les facteurs d’atténuation sont nuls, et faisons tendre N vers
+∞. Alors les bornes de Cramér-Rao pour les paramètres du modèle ESM admettent les développements
limités au premier ordre suivants :
σ2

– CRB{σ} = 4N + O N12 ;
2 
– CRB{fk } = 4π26σ N 3 a2k
+ O N14 ;
2 
– CRB{ak } = 2σN + O 1
N ;
2
2σ2
– CRB{φk } = N a2 + O N12 .
k

On remarque en particulier que les bornes de Cramér-Rao relatives aux fréquences fk sont de l’ordre
de N13 , ce qui est peu courant en estimation paramétrique. Par ailleurs, il est connu que le principe du
maximum de vraisemblance fournit des estimateurs asymptotiquement efficaces [Kay, 1993]. Ainsi, les
variances des estimateurs donnés dans la section I.3.1 sont asymptotiquement équivalentes aux bornes
de Cramér-Rao données dans la proposition I.6.4. Le cas des méthodes HR est abordé ci-dessous.

I.6.2 Performances des méthodes HR

Les performances d’un estimateur sont généralement exprimées en terme de biais et de variance. Il
est également possible de mesurer son efficacité, définie comme le rapport de sa variance sur la borne
de Cramér-Rao. En particulier, un estimateur est dit efficace si son efficacité est égale à 1.
Dans le cas des méthodes HR, il s’avère malheureusement impossible de calculer analytiquement
biais et variance, car l’extraction des racines d’un polynôme, ou des valeurs propres d’une matrice,
induit une relation complexe entre les statistiques du signal et celles des estimateurs. Cependant, des
résultats asymptotiques ont pu être obtenus grâce à la théorie des perturbations. Ces résultats reposent
soit sur l’hypothèse N → +∞ (dans le cas où tous les pôles sont sur le cercle unité), soit sur l’hypothèse
d’un fort Rapport Signal à Bruit (RSB) (RSB→ +∞). Sous chacune de ces deux hypothèses, il a été
démontré que toutes les méthodes HR présentées dans ce chapitre sont non biaisées. De plus, sous
l’hypothèse N → +∞, les variances des méthodes de Prony et Pisarenko ont été calculées dans [Stoica
et Nehorai, 1988], et celles de MUSIC et ESPRIT dans [Stoica et Söderström, 1991]. Sous l’hypothèse
RSB→ +∞, la variance de la méthode de Prony a été calculée dans [Kot et al., 1987], celle de MUSIC
dans [Eriksson et al., 1993], et celle de ESPRIT dans [Hua et Sarkar, 1991, Eriksson et al., 1993].
Les développements mathématiques proposés dans tous ces articles sont assez complexes, et sont
fortement liés à la méthode d’estimation considérée, c’est pourquoi ils ne sont pas reproduits dans le
cadre de ce document. Seuls les principaux résultats sont résumés ici. Tout d’abord, il a été démontré
dans [Kot et al., 1987, Stoica et Nehorai, 1988] que les méthodes de Prony et de Pisarenko sont très
inefficaces, au sens statistique du terme : leurs variances sont largement supérieures aux bornes de
Cramér-Rao. De plus, elles augmentent plus vite que les bornes de Cramér-Rao quand le RSB décroit.
En revanche les méthodes MUSIC et ESPRIT ont une efficacité asymptotique proche de 1. Plus pré-
cisément, il a été démontré dans [Stoica et Söderström, 1991, Eriksson et al., 1993] (dans le cadre de
sinusoïdes non modulées) que ces deux méthodes atteignent des performances presque identiques, mais
que ESPRIT est légèrement meilleur que MUSIC. L’étude menée dans [Hua et Sarkar, 1991] (dans le
cas plus général de sinusoïdes modulées exponentiellement) va dans le même sens : ESPRIT s’avère
moins sensible au bruit que MUSIC.
24 CHAPITRE I. ÉTAT DE L’ART DES MÉTHODES À HAUTE RÉSOLUTION

I.7 Conclusion
Dans ce chapitre, nous avons montré que l’estimation des fréquences et des facteurs d’atténuation
par la méthode du maximum de vraisemblance conduit à un problème d’optimisation difficile. Quand
tous les pôles du signal sont sur le cercle unité, elle peut être approchée par la détection des K
principaux pics du périodogramme. Ce résultat n’est valable que lorsque la longueur de la fenêtre
d’observation est suffisamment grande devant l’inverse du plus petit écart fréquentiel entre pôles voisins.
L’intérêt principal des méthodes HR est qu’elles s’affranchissent de cette limite de l’analyse de Fourier
en terme de résolution spectrale. Les premières méthodes de cette famille, proposées par Prony et
Pisarenko, reposent sur les équations de récurrence linéaire qui caractérisent le modèle de signal. En
revanche les techniques plus modernes, parmi lesquelles les méthodes MUSIC et ESPRIT, s’appuient
sur la décomposition de l’espace des données en deux sous-espaces propres de la matrice de covariance,
appelés espace signal et espace bruit. L’étude statistique de ces diverses techniques d’estimation a
montré que la méthode ESPRIT est la plus performante. Les amplitudes et les phases des exponentielles
complexes peuvent ensuite être estimées par la méthode des moindres carrés. L’algorithme ESPRIT et
la méthode des moindres carrés sont illustrés dans la section X.2, où ils sont appliqués à des signaux
synthétiques et à un signal de musique. On y montre en particulier que le modèle ESM permet aussi
de représenter des signaux modulés en amplitude et en fréquence.
Le prochain chapitre présente une généralisation du modèle de signal et de l’algorithme ESPRIT.
25

Chapitre II

Estimation des paramètres dans le cas de


pôles multiples

Résumé
Dans ce chapitre sont présentés des résultats de nos travaux de recherche qui généra-
lisent un certain nombre de concepts introduits dans le chapitre I. Une extension du
modèle ESM est ainsi proposée, qui représente le signal comme une somme d’expo-
nentielles complexes à modulation d’amplitude polynomiale. Il s’agit du modèle de
signal le plus général pouvant être traité par les méthodes HR. Ce modèle correspond
à la présence de pôles multiples. Deux techniques d’estimation sont présentées : la
méthode du maximum de vraisemblance et l’algorithme ESPRIT généralisé. Cette
dernière méthode repose sur la propriété d’invariance rotationnelle des matrices de
Pascal-Vandermonde, qui constituent une généralisation des matrices de Vander-
monde au cas de pôles multiples. Des techniques d’estimation des amplitudes et de
l’écart-type du bruit sont également proposées. Les développements qui vont suivre
ont fait l’objet d’un article à paraître dans IEEE Transactions on Signal Proces-
sing [Badeau et al., 2005c].
26 CHAPITRE II. ESTIMATION DES PARAMÈTRES DANS LE CAS DE PÔLES MULTIPLES

II.1 Introduction
Dans la littérature, le modèle ESM est généralement considéré comme le modèle de signal le plus
général pouvant s’inscrire dans le cadre des méthodes HR. Pourtant, il se trouve que ce modèle est
restreint aux signaux qui contiennent seulement des pôles simples. En revanche, le modèle PACE
introduit ci-dessous englobe le cas de pôles multiples. Il décrit une classe de signaux plus générale,
incluant des modulations d’amplitude et de fréquence, et conduit à une interprétation alternative des
fréquences estimées par les méthodes HR. Par ailleurs, le modèle PACE comprend moins de paramètres
pour un même ordre de modélisation, ce qui est particulièrement intéressant pour des applications de
codage. Une méthode complète d’estimation est proposée ci-dessous, reposant soit sur des techniques
de prédiction linéaire, soit sur l’algorithme ESPRIT.
Ce chapitre est organisé de la façon suivante : la section II.2 présente la solution générale des
équations de récurrence linaires et homogènes, et une paramétrisation complète du modèle PACE est
proposée. Les matrices de Pascal-Vandermonde associées à ce modèle sont ensuite introduites dans la
section II.3, et la méthode du maximum de vraisemblance est présentée dans la section II.4. Dans la
section II.5, l’algorithme ESPRIT est généralisé au modèle PACE. Des techniques permettant d’estimer
les amplitudes, les phases et l’écart-type du bruit sont présentées dans la section II.6. Enfin, le résumé
des principales conclusions obtenues clôturera ce chapitre dans la section II.7.

II.2 Le modèle Polynomial Amplitude Complex Exponentials


II.2.1 Equations de récurrence linéaires et homogènes
Il a été montré dans la section I.4.1.1 que tous les signaux de la forme (I.1) satisfont des équations de
récurrence linéaires et homogènes. Cependant, le modèle ESM ne correspond pas à la solution générale
de ces équations, puisque dans le cas général le polynôme prédicteur peut avoir des racines multiples,
comme le montre le théorème suivant.

Théorème II.2.1. Soit p0 ∈ C∗ ; ∀ k ∈ {0 . . . K − 1}, on pose Mk ∈ N∗ . Soit P [z] le polynôme d’ordre


P
K−1
r, Mk dont le coefficient dominant1 est p0 et dont les racines sont les zk , de multiplicités Mk :
k=0

K−1
Y r
X
P [z] = p0 (z − zk )Mk = pr−τ z τ . (II.1)
k=0 τ =0

Alors le signal s(t) satisfait la récurrence

P
r
pτ s(t − τ ) = 0 (II.2)
τ =0

pour tout t ∈ Z si et seulement si il s’écrit sous la forme

P
K−1
s(t) = αk [t] zk t (II.3)
k=0

où ∀k ∈ {0, . . . , K − 1}, αk [t] is un polynôme complexe de degré inférieur ou égal à Mk − 1.

1
Les coefficients pr−τ s’écrivent comme des fonctions des racines zk . En particulier, pr = p0
Q (−z )
K−1
k
Mk
.
k=0
II.2. LE MODÈLE POLYNOMIAL AMPLITUDE COMPLEX EXPONENTIALS 27

Exemple. Considérons le polynôme P [z] = (z − z0 )2 = z 2 − 2z0 z + z02 . Alors on vérifie que tous les
signaux complexes satisfaisant la récurrence s(t) − 2z0 s(t − 1) + z02 s(t − 2) = 0 sont de la forme
s(t) = (α0 + α1 t) z0 t où α0 , α1 ∈ C.
Ce théorème est démontré dans la section A.2 (une autre démonstration peut également être trouvée
dans [Kincaid et Cheney, 1996, pp. 33]). Le modèle de signal dans l’équation (II.3) sera désigné sous
le terme de modèle PACE. Ce modèle peut associer plusieurs pôles simples à une fréquence unique
(comme pour le modèle ESM), ainsi que des pôles multiples (contrairement au modèle ESM).

II.2.2 Polynômes binomiaux


Le modèle de signal dans l’équation (II.3) n’est pas encore complet, puisque une paramétrisation
complète nécessiterait en outre de choisir une base de polynômes sur laquelle projeter αk [t]. Dans cette
section est proposée une base particulière qui satisfait des propriétés intéressantes.

Définition II.2.1 (Polynômes binomiaux). Pour tout m ∈ Z, le polynôme binomial d’ordre m est le
polynôme 

 0 si m < 0
 1 si m = 0
Fm [t] = m−1

 1 Q
 m! (t − m′ ) si m > 0
m′ =0

La famille {Fm [t]}m≥0 est une base de C[t] puisque le degré de Fm [t] est m quel que soit m ≥ 0.
De plus, ces polynômes satisfont pour tout m ∈ Z la récurrence

Fm [t + 1] = Fm [t] + Fm−1 [t] ∀t ∈ Z. (II.4)

Cette propriété est un simple corollaire de l’identité du binôme [Roman, 1984,Graham et al., 1994],
plus générale :

Proposition II.2.2 (Identité du binôme). Pour tout m ∈ N,


m
X
Fm [t1 + t2 ] = Fm′ [t1 ] Fm−m′ [t2 ]
m′ =0

Ce résultat est démontré par récurrence sur m dans la section A.2. Il sera utilisé à plusieurs reprises
dans les démonstrations de l’annexe A.

II.2.3 Paramétrisation complète du modèle de signal


Les polynômes αk se décomposent dans la base {Fm [t]}m≥0 : ∀k ∈ {0 . . . K − 1},
M
X k −1

αk [t] = α′(k,m) Fm [t]


m=0

où ∀m ∈ {0 . . . Mk − 1}, α′(k,m) ∈ C, de sorte que l’équation (II.3) se réécrit sous la forme

P MP
K−1 k −1
s(t) = α(k,m) Fm [t] zk t−m (II.5)
k=0 m=0
28 CHAPITRE II. ESTIMATION DES PARAMÈTRES DANS LE CAS DE PÔLES MULTIPLES

où ∀k ∈ {0 . . . K − 1}, ∀m ∈ {0, Mk − 1},

α(k,m) = α′(k,m) zk m (II.6)

est une amplitude complexe. L’introduction volontaire du décalage temporel t − m est destinée à
simplifier les développements suivants.
Par ailleurs, le signal observé x(t) peut être modélisé comme la somme du signal déterministe s(t)
défini dans l’équation (II.5), et d’un bruit blanc ou coloré w(t) de variance σ 2 : x(t) = s(t) + w(t).
Par conséquent, les paramètres du modèle complet sont :
– les ordres K, {Mk }k∈{0...K−1} ,
– les K pôles complexes zk ,
– les r amplitudes complexes α(k,m) ,
– l’écart-type σ du bruit additif.
Les méthodes HR basées sur la prédiction linéaire, telles que [Riche de Prony, 1795, Pisarenko,
1973,Kumaresan et Tufts, 1982], peuvent être utilisées directement pour estimer les paramètres K, Mk
et zk , qui sont complètement caractérisés par le polynôme prédicteur. Cependant des techniques plus
robustes seront présentées dans la suite de ce chapitre.

II.3 Les matrices de Pascal-Vandermonde


Avant d’appliquer la méthode de maximum de vraisemblance au modèle PACE, il est nécessaire
d’introduire les matrices de Pascal généralisées et les matrices de Pascal-Vandermonde. Tout d’abord,
les matrices de Pascal généralisées constituent une généralisation des matrices de Pascal triangulaires
inférieures2 , dont la définition figure dans [Strang, 2003].

Définition II.3.1 (Matrices de Pascal généralisées). Soient z ∈ C et M ∈ N∗ . La matrice de Pascal


généralisée notée C N 3 N
M (z) est une matrice de dimensions N × M dont les coefficients sont C M (z)(i,j) =
Fj [i] z i−j pour tous i ∈ {0 . . . N − 1} et j ∈ {0 . . . M − 1}.

Exemple. Si M = 3 et N = 5,  
1 0 0
 z 1 0 
 
C 53 (z) =
 z2 2z 1 .

 z3 3 z2 3z 
z4 4 z3 6 z2
Une matrice de Pascal-Vandermonde est obtenue en juxtaposant plusieurs matrices de Pascal géné-
ralisées. La définition suivante généralise ainsi la structure de Vandermonde [Horn et Johnson, 1985, pp.
29]. Elle figure également dans [Boley et al., 1997].

Définition II.3.2 (Matrices de Pascal-Vandermonde). Soit K ∈ N∗ . Pour tout k ∈ {0 . . . K − 1},


P
K−1
soient zk ∈ C et Mk ∈ N∗ . Posons r , Mk . La matrice de Pascal-Vandermonde de dimension
k=0
N × r est obtenue en juxtaposant les matrices de Pascal généralisées C N Mk (zk ) :
h i
V N = CN N
M0 (z0 ), . . . , C MK−1 (z(K−1) ) .

2
Une matrice de Pascal triangulaire inférieure est une matrice de Pascal généralisée carrée pour laquelle z = 1.
3
Si z = 0, on définit C N N
M (0)(i,i) = 1 ∀i, et ∀i 6= j, C M (0)(i,j) = 0.
II.3. LES MATRICES DE PASCAL-VANDERMONDE 29

Exemple. Si K = 2, M0 = 3, M1 = 2 et N = r = 5,
 
1 0 0 1 0
 z0 1 0 z1 1 
 2 
V5=  z0 2 z0 1 z1 2 2 z1 .

 z0 3 3 z0 2 3 z0 z1 3 3 z1 2 
z0 4 4 z0 3 6 z0 2 z1 4 4 z1 3

La proposition suivante généralise un résultat classique sur le déterminant des matrices de Van-
dermonde [Horn et Johnson, 1985, pp. 29], dont l’expression a été donnée dans l’équation (I.3). Sa
démonstration figure en annexe dans la section A.3, page 171.

Proposition II.3.1 (Déterminant et rang des matrices de Pascal-Vandermonde). Le déterminant de


la matrice de Pascal-Vandermonde carrée V r est

Q
K−1
det(V r ) = (zk2 − zk1 )Mk1 Mk2
k1 , k2 = 0
k1 < k2

Par conséquent, la matrice de Pascal-Vandermonde V N de dimensions N × r (avec N ≥ r) est de rang


r si et seulement si les K paramètres z0 , . . . , zK−1 sont distincts.

Exemple. La matrice V 5 définie dans l’exemple ci-dessus a pour déterminant det(V 5 ) = (z1 − z0 )6 .
La propriété d’invariance rotationnelle des matrices de Vandermonde rappelée dans l’équation (I.17)
est généralisée ci-dessous aux matrices de Pascal-Vandermonde.

Théorème II.3.2 (Propriété d’invariance rotationnelle des matrices de Pascal-Vandermonde). Sup-


posons que n ≥ 2. Soit V n↓ la matrice extraite de V n en supprimant la dernière ligne. De même, soit
V n↑ la matrice extraite de V n en supprimant la première ligne. Alors V n↓ et V n↑ engendrent le même
sous-espace, et
V n↑ = V n↓ J (II.7)

où J est la matrice de dimension r × r, diagonale par blocs,


 
J M0 (z0 ) 0 ... 0
 . .. 
 0 J M1 (z1 ) . . . 
J =
 ..

 (II.8)
 .. .. 
. . . 0
0 ... 0 J M(K−1) (z(K−1) )

dont le kème bloc J Mk (zk ) est le bloc de Jordan de dimension Mk × Mk


 
zk 1 0
... 0
 .. . 
 0 zk 1 . .. 
 
 .. 
J Mk (zk ) =  0 0 zk . 0 .
 
 .. .. .. .. 
 . . . . 1 
0 ... 0 0 zk
30 CHAPITRE II. ESTIMATION DES PARAMÈTRES DANS LE CAS DE PÔLES MULTIPLES

Exemple. Si K = 2, M0 = 3 et M1 = 2 (dans ce cas r = 5), on peut vérifier que


   
z0 1 0 z1 1 1 0 0 1 0  
 z0 2 2 z0 1 z1 2 2 z1   z0 1 0 z1 1  z0 1 0 0 0
    0 z0 1 0 0 
 z0 3 3 z0 2 3 z0 z1 3 3 z1 2   z0 2 2 z0 1 z1 2 2 z1  
    
 z0 4 4 z0 3 6 z0 2 z1 4 4 z1 3 = z0 3 3 z0 2 3 z0 z1 3 3 z1 2  0 0 z0 0 0 
    
 z0 5 5 z0 4 10 z0 3 z1 5 5 z1 4   z0 4 4 z0 3 6 z0 2 z1 4 4 z1 3  0 0 0 z1 1
   
.. .. .. .. .. .. .. .. .. .. 0 0 0 0 z1
. . . . . . . . . .

Le théorème II.3.2 est un corollaire du lemme A.4.1, présenté dans l’annexe A.4, page 174. Il est
intéressant de constater dans le théorème II.3.2 que l’équation (II.7) fait apparaître une matrice de
Jordan4 J , qui caractérise les pôles zk et leurs multiplicités Mk .
Les matrices de Pascal-Vandermonde apparaissent dans la section suivante, portant sur la méthode
du maximum de vraisemblance, mais leur propriété d’invariance rotationnelle ne sera explicitement
utilisée que dans la section II.5.3, dans le cadre de l’algorithme ESPRIT généralisé.

II.4 Méthode du maximum de vraisemblance


La méthode du maximum de vraisemblance présentée dans la section I.3.1 est ici généralisée au
modèle PACE avec bruit additif coloré. Pour tout k ∈ {0 . . . K − 1}, définissons le vecteur αk =
[α(k,0) , . . . , α(k,Mk −1) ]T de dimension Mk . En juxtaposant les vecteurs αk , on définit le vecteur α =
[α0 , . . . , αK−1 ]T de dimension r. Définissons également les vecteur s(t) = [s(t−l+1), . . . , s(t+n−1)]T ,
w(t) = [w(t − l + 1), . . . , w(t + n − 1)]T et x(t) = [x(t − l + 1), . . . , x(t + n − 1)]T de dimension N = n +
l − 1. Alors la propriété d’invariance rotationnelle de la matrice Pascal-Vandermonde (théorème II.3.2)
montre que s(t) = V N J t−l+1 α. On définit donc le vecteur d’amplitudes à l’instant t, α(t) = J t−l+1 α,
de sorte que s(t) = V N α(t). De plus, on supposera que la matrice de covariance du processus w(t) est
Rww = σ 2 Γ, où Γ est une matrice à structure Toeplitz définie positive, dont les éléments diagonaux sont
tous égaux à 1 (Γ = I N si le bruit est blanc), supposée connue. La log-vraisemblance des observations
est
1
L(σ 2 , z0 . . . zK−1 , α(t)) = −N ln(πσ 2 ) − ln(det(Γ)) − 2 g(z0 . . . zK−1 , α(t))
σ

H 
g(z0 . . . zK−1 , α(t)) = x(t) − V N α(t) Γ−1 x(t) − V N α(t) .

La maximisation de la log-vraisemblance par rapport au triplet (σ 2 , z0 . . . zK−1 , α(t)) peut être ef-
fectuée en minimisant d’abord g par rapport au couple (z0 . . . zK−1 , α(t)), puis en maximisant L par
rapport à σ. On obtient ainsi σ 2 = N1 g(z0 . . . zK−1 , α(t)), ou encore

1 1  2
σ2 = N Γ− 2 x(t) − V N α(t) . (II.9)

1
où Γ− 2 est l’unique matrice définie positive dont le carré est égal à Γ−1 . Elle a pour effet de blanchir
le bruit additif. Il apparaît donc que σ 2 est estimé comme la puissance du résiduel blanchi.
La matrice V N est de rang plein, puisque les pôles sont distincts deux à deux (proposition II.3.1).
H
Ainsi, la matrice V N Γ−1 V N est inversible. Pour minimiser g par rapport au couple (z0 . . . zK−1 ,
4
Voir [Horn et Johnson, 1985, pp. 121–142] pour une définition de la décomposition canonique de Jordan.
II.5. GÉNÉRALISATION DE L’ALGORITHME ESPRIT 31

α(t)), il suffit de décomposer g sous la forme


 H
−1 H
g(z0 . . . zK−1 , α(t)) = x(t)H Γ−1 x(t) − x(t)H Γ−1 V N V N Γ−1 V N V N Γ−1 x(t)
  −1 H    −1 
H H H H H
+ α(t) − V N Γ−1 V N V N Γ−1 x(t) V N Γ−1 V N α(t) − V N Γ−1 V N V N Γ−1 x(t) .

Le dernier terme de cette équation est toujours positif, et peut être rendu nul en posant
 −1
H H
α(t) = V N Γ−1 V N V N Γ−1 x(t). (II.10)

Le vecteur des amplitudes complexes α(t) est ainsi estimé de la même façon qu’en utilisant la méthode
des moindres carrés pondérés.
La fonction g est donc maximale pour
  −1 
H −1 N N H −1 N N H −1
(z0 . . . zK−1 ) = argmax x(t) Γ V V Γ V V Γ x(t) . (II.11)

En résumé, le principe du maximum de vraisemblance conduit à estimer les paramètres du modèle


en trois étapes :
– les pôles complexes sont obtenus en effectuant la maximisation (II.11),
– les amplitudes complexes sont obtenues en calculant le membre de droite de l’équation (II.10),
– l’écart-type est alors donné par l’équation (II.9).
Cette approche présente les mêmes inconvénients que dans le cas du modèle ESM avec bruit blanc :
l’optimisation est difficile à implémenter et s’avère extrêmement coûteuse en temps de calcul. On voit
là encore l’intérêt d’utiliser une méthode HR pour estimer les pôles complexes. La section II.5 sera ainsi
consacrée à la généralisation de l’algorithme ESPRIT au modèle PACE. Néanmoins, une fois les pôles
estimés, le principe du maximum de vraisemblance pourra être utilisé pour déterminer les amplitudes
complexes et l’écart-type du bruit (cf. section II.6).

II.5 Généralisation de l’algorithme ESPRIT


Ci-dessous, l’algorithme ESPRIT introduit dans la section I.4.2.4 est généralisé au modèle PACE.
Le bruit additif est supposé blanc.

II.5.1 Structure singulière de la matrice de données


Les résultats énoncés dans la section I.4.2.1 dans le cas du modèle ESM sont ici généralisés au
modèle PACE. Les échantillons du signal s(t) peuvent être rangés dans une matrice de Hankel possédant
n ∈ N∗ lignes et l ∈ N∗ colonnes :
 
s(t − l + 1) · · · s(t − 1) s(t)
 s(t − l + 2) · · · s(t) s(t + 1) 
 
S(t) =  .. .. ..  (II.12)
 . ··· . . 
s(t − l + n) · · · s(t + n − 2) s(t + n − 1)

Une factorisation de la matrice de Hankel est proposée ci-dessous5 . La proposition II.5.1 est une
généralisation de la proposition I.4.2 au cas de pôles multiples.
5
Une telle factorisation a déjà été établie par Vandevoorde et Boley dans [Vandevoorde, 1996, Boley et al., 1997].
Cependant, les développements présentés ici reposent sur des concepts différents. De plus, ils conduisent à une formulation
explicite du facteur diagonal par blocs D(t) (voir la proposition II.5.1).
32 CHAPITRE II. ESTIMATION DES PARAMÈTRES DANS LE CAS DE PÔLES MULTIPLES

Proposition II.5.1 (Factorisation de la matrice de données). Les assertions suivantes sont équiva-
lentes :
1. Le signal s(t) satisfait le modèle défini dans l’équation (II.5) sur l’intervalle {t−l+1, . . . , t+n−1}.
2. La matrice de Hankel S(t) de dimensions n × l définie dans l’équation (II.12) peut être factorisée
sous la forme
T
S(t) = V n D(t) V l (II.13)

où D(t) est la matrice diagonale par blocs de dimension r × r


 
H 0 (t) 0 ··· 0
 .. .. 
 0 H 1 (t) . . 
D(t) = 
 ..

 (II.14)
 .. .. 
. . . 0
0 ··· 0 H (K−1) (t)

dont le kème bloc H k (t) est une matrice de Hankel anti-triangulaire supérieure de dimension
Mk × Mk et de la forme
 
β(k,0) (t) β(k,1) (t) · · · β(k,Mk −1) (t)
 . . 
 β(k,1) (t) .. .. 0 
H k (t) = 
 .. ..

 (II.15)
. .
 . .. .. . 
β(k,Mk −1) (t) 0 ··· 0

De plus, la relation entre les coefficients β(.,.) et les coefficients α(.,.) définis dans l’équation (II.6) est
la suivante :
M
X k −1

β(k,m′ ) (t) = α(k,m) Fm−m′ [t − l + 1]zk t−l+1−(m−m ) (II.16)
m=m′

pour tous k ∈ {0 . . . K − 1} et m′ ∈ {0 . . . Mk − 1}.

La démonstration de la proposition II.5.1 est présentée dans l’annexe A.5, page 174. Cette propo-
sition montre l’équivalence entre le modèle PACE et la factorisation de la matrice de Hankel donnée
dans l’équation (II.13). Elle montre aussi que la matrice S(t) est de rang inférieur ou égal à r.
Remarque. Pour tout k ∈ {0 . . . K − 1}, H k (t) peut être factorisée sous la forme
T
H k (t) = J Mk (zk )(t−l+1) H ′k (t) = H ′k (t) J Mk (zk )(t−l+1)

où H ′k (t) est définie de la même façon que H k (t) dans l’équation (II.15), en remplaçant tous les β(k,m)
par α(k,m) .
La démonstration du corollaire suivant figure dans l’annexe A.5, page 174. L’équation (II.17) signifie
que ∀k ∈ {0, . . . , K − 1}, le polynôme αk [t] dans l’équation (II.3) est de degré Mk − 1.

Corollaire II.5.2 (Rang de la matrice de données). Une matrice de Hankel S(t) de dimensions n × l
et de la forme (II.12), où s(t) est le signal défini dans l’équation (II.5), est de rang r si et seulement
si n ≥ r, l ≥ r, tous les pôles zk sont distincts et non nuls, et

∀k ∈ {0 . . . K − 1}, α(k,Mk −1) 6= 0. (II.17)


II.5. GÉNÉRALISATION DE L’ALGORITHME ESPRIT 33

Enfin, le théorème suivant caractérise les matrices de Hankel singulières : celles-ci sont étroitement
liées au modèle PACE.

Théorème II.5.3 (Équivalence entre la structure de Hankel singulière et le modèle de signal). Soient
n ≥ 2, l ≥ 2, et r un entier tel que r < n et r < l. On considère un signal discret s(t) et la matrice
S(t) définie dans l’équation (II.12) à partir des échantillons de s(t). Soit S(t)↓ la matrice extraite de
S(t) en supprimant la dernière ligne. De même, soit S(t)↑ la matrice extraite de S(t) en supprimant
la première ligne. Les assertions suivantes sont équivalentes :
1. La matrice S(t) est de rang r, et les matrices extraites S(t)↓ et S(t)↑ sont aussi de rang r.
2. Le signal s(t) s’écrit sous la forme (II.5) sur l’intervalle [t−l+1 . . . t+n−1], et ∀k ∈ {0 . . . K −1},
α(k,Mk −1) 6= 0.

La démonstration de ce théorème est assez complexe et figure en annexe dans la section A.6,
page 175.

II.5.2 Structure singulière de la matrice de corrélation


Dans le cas d’un bruit blanc additif, tous les développements mathématiques présentés dans la sec-
tion I.4.2.2 sont encore valables, sauf que V n a une structure Pascal-Vandermonde (cf. définition II.3.2),
D(t) est diagonale par blocs (cf. équation (II.14)), et l’espace signal est de dimension r. Plus préci-
sément, les matrices C ss (t) et Rss (t) sont définies de la même façon à partir des échantillons du
signal. L’équation (II.13) montre alors que Rss (t) = V n P (t) V nH , où V n est une matrice de Pascal-
T ∗
Vandermonde de dimension n × r, et P (t) = 1l D(t) V l V l D(t)H est une matrice symétrique définie
positive de dimension r × r. Ainsi, sous les mêmes hypothèses que pour S(t) dans le corollaire II.5.2, la
matrice Rss (t) est de rang r, et l’espace signal est engendré par la matrice V n . On définit de même les
matrices C xx (t) et R b xx (t). Puisque le bruit additif w(t) est blanc et centré, de variance σ 2 , la matrice
Rxx (t) = E[R b xx (t)] vérifie aussi Rxx (t) = Rss (t) + σ 2 I n . Ainsi, l’espace signal est également l’espace
principal de dimension r de la matrice Rxx (t). Une matrice W (t) de dimensions n × r engendrant
l’espace signal peut donc être estimée en calculant l’ EVD de la matrice R b xx (t), ou encore la SVD de
X(t).
Dans le cas où le bruit additif est coloré, sa matrice de covariance s’écrit sous la forme Rww = σ 2 Γ
comme dans la section II.4. Si Γ est connue, il est possible de blanchir le bruit additif en posant
1
X ′ (t) = Γ− 2 X(t) et R b ′ (t) = 1 X ′ (t) X ′ (t)H . En effet, on obtient alors
xx l
h ′ i    H
b xx (t) = Γ− 12 V n P (t) Γ− 12 V n
R′xx (t) , E R + σ2 I n .


Ainsi, en calculant l’EVD de R b (t) ou la SVD de X ′ (t), on peut extraire une matrice W ′ (t) de
xx
1
dimension n × r engendrant le même espace que la matrice Γ− 2 V n . Une base orthonormée W (t) de
1
l’espace signal est alors obtenue en orthonormalisant la matrice Γ 2 W ′ (t).
L’algorithme ESPRIT généralisé présenté ci-dessous estime les pôles complexes à partir de la ma-
trice W (t).

II.5.3 L’algorithme ESPRIT généralisé


De nouveau, tous les développements mathématiques présentés dans la section I.4.2.4 sont encore
valables, sauf que J est la matrice de Jordan définie dans l’équation (II.8). Plus précisément, la propriété
d’invariance rotationnelle s’écrit maintenant V n↑ = V n↓ J où J est la matrice de Jordan. Comme les
colonnes de V n et celles de W (t) constituent deux bases d’un même espace vectoriel de dimension r,
34 CHAPITRE II. ESTIMATION DES PARAMÈTRES DANS LE CAS DE PÔLES MULTIPLES

il existe une matrice inversible G(t) de dimension r × r telle que V n = W (t) G(t). On obtient ainsi
par substitution W (t)↑ = W (t)↓ Φ(t), où la matrice spectrale Φ(t) est définie par sa décomposition
canonique de Jordan : Φ(t) = G(t) J G(t)−1 . En particulier, chaque pôle zk est valeur propre de Φ(t)
de multiplicité Mk .
Ainsi l’algorithme ESPRIT généralisé comprend les étapes suivantes :
– estimation d’une base W (t) de l’espace signal,
– estimation de la matrice spectrale Φ(t), par la méthode des moindres carrés (LS) ou des moindres
carrés totaux (TLS),
– calcul de la décomposition canonique de Jordan de cette matrice, à partir de laquelle les pôles et
leurs multiplicités sont extraits.
Dans un contexte bruité, la matrice spectrale estimée ne possède pas de valeurs propres multiples en
pratique. Ce problème sera discuté dans la section III.3. Pour estimer la matrice spectrale, plusieurs
auteurs ont observé que la méthode des moindres carrés totaux, qui est plus coûteuse que la méthode
des moindres carrés, améliore de façon négligeable la performance de l’estimation [Van der Veen et al.,
1993]. Comme la méthode des moindres carrés peut être implémentée efficacement (cf. chapitre V),
elle sera utilisée dans les développements à venir.

II.6 Estimation des amplitudes, des phases et de l’écart-type du bruit


Le principe du maximum de vraisemblance développé dans la section II.4 suggère d’utiliser la
méthode des moindres carrés pondérés pour estimer les amplitudes complexes (cf. équation (II.10)) :
 H
−1 H
α(t) = V N Γ−1 V N V N Γ−1 x(t)

ou encore α(t) = V N x(t) dans le cas où le bruit est blanc, dont se déduisent ak = |αk | et φk =
phase(αk ). Enfin, le principe du maximum de vraisemblance suggère d’estimer l’écart-type en calculant
la puissance du résiduel blanchi (cf. équation (II.9)) :
1 1  2
σ2 = Γ− 2 x(t) − V N α(t)
N
2
ou encore σ 2 = 1
N x(t) − V N α(t) dans le cas où le bruit est blanc.

II.7 Conclusion
Dans ce chapitre, le modèle de signal PACE a été introduit comme la solution générale des équa-
tions de récurrence linéaires homogènes. Il permet ainsi de représenter des pôles simples ou multiples,
contrairement au modèle ESM qui est restreint au cas de pôles simples uniquement. Il offre en par-
ticulier des perspectives intéressantes en terme de codage, car il fait intervenir moins de paramètres
que le modèle ESM pour un même ordre de modélisation r (la fréquence et le facteur d’atténuation
d’un pôle multiple n’étant codés qu’une seule fois). Comme dans le cas du modèle ESM, la méthode
du maximum de vraisemblance s’avère difficile à implémenter et très coûteuse en temps de calcul. Afin
de mettre en oeuvre des méthodes de type sous-espace telles que celles présentées dans le chapitre I,
une formule de factorisation des matrices de Hankel a été proposée, faisant intervenir des matrices
de type Pascal-Vandermonde. Reposant sur la propriété d’invariance rotationnelle de ces matrices,
l’algorithme ESPRIT a été généralisé au modèle PACE et consiste à factoriser la matrice spectrale
sous sa forme de Jordan. Les amplitudes complexes sont ensuite estimées par la méthode des moindres
carrés. Les performances de ces diverses techniques d’estimation seront étudiées dans le chapitre III.
En particulier, le modèle PACE et l’algorithme ESPRIT seront illustrés dans la section III.4.
35

Chapitre III

Performances de l’algorithme ESPRIT


généralisé

Résumé
Dans ce chapitre, les bornes de Cramér-Rao pour le modèle PACE sont calculées
analytiquement dans le cas général, et simplifiées dans un contexte asymptotique.
Il s’agit d’un résultat nouveau, qui approfondit et généralise des études menées an-
térieurement sur le modèle ESM (cf. section I.6). Les performances des estimateurs
introduits dans le chapitre II sont ensuite comparées à ces bornes, en étudiant les
perturbations induites par le bruit additif au premier ordre. Nous démontrons en
particulier que la présence de bruit engendre un éclatement des pôles multiples en
plusieurs pôles simples, dispersés de façon homogène et isotrope en première approxi-
mation. Nous démontrons aussi que dans un contexte asymptotique les estimateurs
du chapitre II sont proches de l’efficacité, ce qui généralise un résultat présenté
dans [Hua et Sarkar, 1990] dans le cas particulier d’un signal constitué d’un unique
pôle simple. Des simulations numériques sont proposées pour illustrer les résultats
obtenus, dans le cas de signaux réels modulés en amplitude et en fréquence.
36 CHAPITRE III. PERFORMANCES DE L’ALGORITHME ESPRIT GÉNÉRALISÉ

III.1 Introduction
Dans la section I.6 ont été présentées les bornes de Cramér-Rao pour le modèle ESM, et les perfor-
mances des principales méthodes HR relativement à ces bornes. Ce chapitre porte sur le modèle PACE
et sur l’algorithme ESPRIT généralisé introduits dans le chapitre II.
Cet exposé débutera par l’étude des bornes de Cramér-Rao pour le modèle PACE (section III.2). Le
cas général sera abordé dans la section III.2.1, et des équivalents asymptotiques seront proposés dans
la section III.2.2. Dans la section III.3, les performances des estimateurs introduits dans le chapitre II
seront comparées aux bornes de Cramér-Rao ; pour cela il sera nécessaire d’étudier préalablement les
perturbations induites par le bruit additif (section III.3.1) dont se déduisent le biais et la variance des
estimateurs au premier ordre (section III.3.2). Un résultat remarquable sur la perturbation des pôles
multiples présenté dans la section III.3.1 sera ensuite illustré dans la section III.4. Enfin, les principales
conclusions de ce chapitre seront exposées dans la section III.5.

III.2 Bornes de Cramér-Rao


Dans la section I.6.1, nous avons rappelé l’énoncé du théorème de Cramér-Rao, qui donne une
borne inférieure sur la variance des estimateurs non biaisés. Il est ici appliqué au modèle PACE défini
dans la section II.2.

III.2.1 Bornes de Cramér-Rao pour le modèle PACE


Commençons par exprimer l’espérance et la matrice de covariance du vecteur observé en fonction
des paramètres du modèle. Soit θ k le vecteur contenant les 2(Mk + 1) paramètres réels associés au pôle
zk d’ordre Mk :
 T
θ k , a(k,0) , φ(k,0) , . . . , a(k,Mk −1) , φ(k,Mk −1) , δk , fk .
M
Le vecteur θ k appartient au sous-ensemble ouvert Θk = R∗+ × R k × (R × R) de R2(Mk +1) . Soit θ le
vecteur de dimension 1 + 2r + 2K contenant l’ensemble des paramètres du modèle :
 T
θ , σ, θ T0 , . . . , θ TK−1 .

Le vecteur θ appartient au sous-ensemble ouvert Θ = R∗+ × Θ0 × . . . × ΘK−1 de R1+2r+2K . Considérons


par ailleurs un bruit additif coloré, comme cela a été fait dans la section II.4, dont la matrice de
covariance est Rww (θ) = σ 2 Γ, où Γ est une matrice à structure Toeplitz définie positive, dont tous les
coefficients diagonaux sont égaux à 1, de dimension N × N (Γ = I N dans le cas d’un bruit blanc).
Rappelons enfin que le vecteur x(t) contenant les N échantillons du signal observé est un vecteur
aléatoire gaussien de matrice de covariance Rww , et d’espérance s(t). Comme nous l’avons fait dans la
section I.6, la dépendance de s(t) et de Rww par rapport aux paramètres du modèle sera mentionnée
explicitement ci-dessous. En revanche, pour simplifier les notations, nous omettrons la dépendance de
s(t) par rapport au temps (qui ne prête pas ici à ambiguïté). Les coefficients du vecteur s(θ) = s(t),
notés st (θ) = s(t), sont donnés pour tout t ∈ {0, . . . , N − 1} par la relation

X MX
K−1 k −1

st (θ) = a(k,mk ) ei φ(k,mk ) Cmk [t] e(δk +i 2πfk )(t−mk ) .


k=0 mk =0

L’application de la proposition I.6.2 au modèle PACE aboutit à une expression de la matrice


d’information de Fisher qui peut être inversée analytiquement (les calculs sont présentés en annexe
III.2. BORNES DE CRAMÉR-RAO 37

dans la section A.7.1, page 177), dont se déduisent les bornes données dans la proposition III.2.1
ci-dessous. Avant de l’énoncer, il est nécessaire d’introduire quelques notations.
Considérons la matrice Pascal-Vandermonde V N , de dimension N × (r + K), construite en juxtapo-
sant les matrices de Pascal généralisées C NMk +1 (zk ) pour tous k ∈ {0 . . . K − 1}. Définissons ensuite la
H
matrice Z = V N Γ−1 V N , de dimension (r+K)×(r+K). Cette matrice est constituée de K ×K blocs
H −1
Z (k,k′ ) = C N
Mk +1 (zk ) Γ CN
Mk′ +1 (zk ′ ). Chaque bloc Z (k,k ′ ) est de dimension (Mk + 1) × (Mk ′ + 1) et
ses éléments sont notés Z(k,k′ ,mk ,mk′ ) , où mk ∈ {0 . . . Mk } et mk′ ∈ {0 . . . Mk′ }. De même, la matrice
inverse Z −1 sera découpée en K × K blocs Z −1 (k ′ ,k) , de dimension Mk × Mk , dont les éléments seront

−1
notés Z(k ′ ,k,m ′ ,m ) .
k
k
Par ailleurs, il sera supposé ici que ∀k ∈ {0, K − 1}, ∀mk ∈ {0 . . . Mk − 1}, ak,mk 6= 0.

Proposition III.2.1 (Bornes de Cramér-Rao pour le modèle PACE). La borne de Cramér-Rao pour
σ2
l’écart-type du bruit est CRB {σ} = 4N . De plus, pour tout k ∈ {0 . . . K − 1},

σ 2 e−2δk
CRB {δk } = Z −1
2Mk2 a2(k,Mk −1) (k,k,Mk ,Mk )
σ 2 e−2δk
CRB {fk } = Z −1
8π 2 Mk2 a2(k,Mk −1) (k,k,Mk ,Mk )
 σ 2 −1
CRB a(k,0) = Z
2 (k,k,0,0)
 σ2
CRB φ(k,0) = Z −1
2a2(k,0) (k,k,0,0)

et pour tout mk ∈ {1 . . . Mk − 1},


 2
 2  !
σ −1 mk a(k,mk −1) −1 mk α(k,mk −1) −1
CRB a(k,mk ) = Z(k,k,mk ,mk )
+ Z(k,k,M k ,Mk )
− 2 Re Z
2 Mk a(k,Mk −1) Mk α(k,Mk −1) (k,k,Mk ,mk )
  2  !
σ2 −1 mk a(k,mk −1) −1 mk α(k,mk −1) −1
CRB φ(k,mk ) = Z(k,k,mk ,mk )
+ Z(k,k,M k ,Mk )
− 2 Re Z .
2a2(k,mk ) Mk a(k,Mk −1) Mk α(k,Mk −1) (k,k,Mk ,mk )

Ces formules appellent plusieurs commentaires :


– les bornes relatives à δk et fk ne dépendent d’aucune phase,
– elles sont inversement proportionnelles à a2(k,Mk −1) (a(k,Mk −1) étant l’amplitude d’indice le plus
élevé associée au pôle zk ), mais ne dépendent d’aucune autre amplitude,
– si le bruit est blanc (i.e. si Γ = I N ), l’ensemble des bornes ne dépend des fréquences que par
leurs différences (i.e. elles sont invariantes par une translation de l’ensemble des fréquences).
En outre, les formules des bornes pour les paramètres δk et fk peuvent encore être approfondies.
En effet,
CRB {δk } = σ2 e−2δk
2Mk2 a2(k,M −1)
Q F|z(z −z
,..., z
0
|
K−1 )
2(M ′ +1)
k
k k′ k
k′ 6=k

CRB {fk } = σ2 e−2δk


8π 2 Mk2 a2(k,M
Q F|z(z −z
,..., z
0
|
K−1 )
2(M ′ +1)
k
k −1) k′ k
k′ 6=k
38 CHAPITRE III. PERFORMANCES DE L’ALGORITHME ESPRIT GÉNÉRALISÉ

où F (z0 , . . . , zK−1 ) est une fonction continue, à valeurs finies et strictement positives (la démonstration
de ce résultat est présentée en annexe, dans la section A.7.1, page 177). Ces formules montrent la
divergence des bornes de Cramér-Rao quand deux pôles deviennent arbitrairement proches.
Dans un contexte asymptotique, les expressions des bornes de Cramér-Rao données dans la propo-
sition III.2.1 se simplifient, comme le montre la section suivante.

III.2.2 Bornes de Cramér-Rao asymptotiques


Dans cette section est proposée une expression simplifiée des bornes de Cramér-Rao, dans le cas
particulier où le bruit est blanc (Γ = I N ), tous les pôles sont sur le cercle unité (∀k ∈ {0 . . . K −1}, δk =
0), et l’horizon d’observation tend vers l’infini (N → +∞). Rappelons que pour tous k ∈ {0 . . . K − 1}
et mk ∈ {0 . . . Mk − 1}, la composante du signal d’indice mk associée au pôle zk a pour expression

s(k,mk ) (t) = a(k,mk ) ei φ(k,mk ) Cmk [t] e(δk +i 2πfk )(t−mk ) .

Proposition III.2.2 (Bornes de Cramér-Rao asymptotiques). Dans le cas particulier où le bruit est
blanc et où tous les pôles sont sur le cercle unité, le rapport signal à bruit de la composante s(k,mk ) (t),
1 P |s
N−1
(k,mk ) (t)|
2
N a2(k,m N 2mk
t=0 k)
défini par SNR(k,mk ) = σ2
, a pour équivalent asymptotique SNR(k,mk ) ∼ (2mk +1) mk !2 σ2
.
Lorsque N vers +∞, on obtient pour tout k ∈ {0 . . . K − 1}

σ2 (2Mk + 1)!2
CRB {δk } ∼
N 2Mk +1 a2(k,Mk −1) 2Mk2 (2Mk + 1)Mk !2
1 (2Mk + 1)!2

N 3 SNR(k,Mk −1) 2(4Mk2 − 1)Mk !4
σ2 (2Mk + 1)!2
CRB {fk } ∼
N 2Mk +1 a2(k,Mk −1) 8π 2 Mk2 (2Mk + 1)Mk !2
1 (2Mk + 1)!2

N 3 SNR(k,Mk −1) 8π 2 (4Mk2 − 1)Mk !4

et pour tout mk ∈ {0 . . . Mk − 1},


 σ2 (Mk + 1 + mk )!2
CRB a(k,mk ) ∼
N 2mk +1 2(2mk + 1)mk !2 (Mk − mk )!2
 σ2 (Mk + 1 + mk )!2
CRB φ(k,mk ) ∼
N 2mk +1 a2(k,m ) 2(2mk + 1)mk !2 (Mk − mk )!2
k

1 (Mk + 1 + mk )!2
∼ .
N SNR(k,mk ) 2(2mk + 1)2 (mk !)4 (Mk − mk )!2

La proposition III.2.2 est démontrée en annexe, dans la section A.7.2, page 181. Ces formules
appellent les commentaires suivants :
– les bornes en δk et fk sont inversement proportionnelles au produit de N 3 et du rapport signal
à bruit de la composante s(k,Mk −1) (résultat déjà connu dans le cas du modèle ESM),
– ces bornes croissent rapidement avec l’ordre du pôle zk . Plus précisément, on vérifie que

(2Mk + 1)!2 24Mk


2 ∼
(4Mk − 1)Mk !4 πMk
III.3. ETUDE DES PERTURBATIONS ET DE LA PERFORMANCE DES ESTIMATEURS 39

quand Mk → +∞. Ainsi l’estimation d’un pôle est d’autant plus difficile que celui-ci est d’ordre
élevé.
Dans le cas de pôles simples, les formules données dans la proposition III.2.2 se simplifient de la
façon suivante :
6 σ2 6
CRB {δk } ∼ 3 2 ∼ 3
N a(k,0) N SNR(k,0)
6 σ2 6
CRB {fk } ∼ 2 3 2 ∼ 2 3
4π N a(k,0) 4π N SNR(k,0)
 2 σ2
CRB a(k,0) ∼
N
 2 σ2 2
CRB φ(k,0) ∼ ∼ .
N a2(k,0) N SNR(k,0)

La section III.3 vise à déterminer les biais et variances des estimateurs introduits dans le chapitre II
afin de les comparer aux bornes de Cramér-Rao exprimées dans les propositions III.2.1 et III.2.2.

III.3 Etude des perturbations et de la performance des estimateurs


Nous souhaitons à présent mesurer la performance des estimateurs introduits ci-dessus en terme de
biais et de dispersion. Il s’avère malheureusement impossible d’établir des formules analytiques dans le
cas général, car l’extraction de valeurs et de vecteurs propres ou singuliers ne s’y prête pas. Cependant,
des résultats asymptotiques ont pu être obtenus grâce à la théorie des perturbations dans le cadre du
modèle sinusoïdal [Eriksson et al., 1993] et du modèle ESM [Hua et Sarkar, 1991], sous l’hypothèse
d’un rapport signal à bruit élevé (cf. section I.6.2). Cette section vise donc à appliquer la théorie des
perturbations dans le cadre plus général du modèle PACE, pour en déduire in fine les moments d’ordre
un et deux des estimateurs.

III.3.1 Perturbations induites par le bruit additif


Rappelons que le signal observé x(t) est la somme du signal non bruité s(t) et du bruit additif w(t),
dont la matrice de covariance est égale à σ 2 Γ (on suppose ici que le bruit n’est pas nécessairement blanc,
comme dans la section III.2). On définit alors le processus ∆s(t) = σ1 w(t), dont la matrice de covariance
est Γ. On considère de plus la matrice de Hankel ∆S(t) contenant les échantillons du processus ∆s(t),
définie de la même manière que les matrices S(t) et X(t) (cf. équation (II.12)). En posant ε = σ, on
obtient ainsi l’égalité X(t) = S(t) + ε∆S(t), qui peut être vue comme une perturbation d’ordre 1 de
la matrice de données.
Les démonstrations de tous les résultats présentés dans cette section sont proposées en annexe,
dans la section A.9, page 182. Pour simplifier les notations, les dépendances temporelles ne seront
plus explicitement mentionnées. Ainsi, S désignera S(t), W désignera W (t), etc. Nous commencerons
par étudier la perturbation induite par le bruit sur l’espace signal (section III.3.1.1), dont se déduit
la perturbation induite sur la matrice spectrale (section III.3.1.2), puis celle induite sur les pôles
complexes, les fréquences et les facteurs d’atténuation (section III.3.1.3), et enfin celle induite sur les
amplitudes et les phases (section III.3.1.4).

III.3.1.1 Perturbation de l’espace signal


La proposition suivante analyse l’impact d’une perturbation des données sur la matrice W .
40 CHAPITRE III. PERFORMANCES DE L’ALGORITHME ESPRIT GÉNÉRALISÉ

Proposition III.3.1 (Perturbation de l’espace signal). Soit ∆S ∈ Cn×l . Pour tout ε ∈ R, soit

X(ε) = S + ε∆S. (III.1)

Alors il existe une fonction ε 7→ Π(ε) définie dans un voisinage de ε = 0 et à valeurs dans Cn×n ,
de classe C ∞ , telle que Π(0) = W W H , et qui à tout ε associe le projecteur sur l’espace engendré par
les r principaux vecteurs propres de X(ε) X(ε)H .
D’autre part il existe une infinité 1 de fonctions ε 7→ W (ε) définies dans un voisinage de ε = 0 et
à valeurs dans Cn×r , de classe C ∞ , telles que W (0) = W et W (ε) W (ε)H = Π(ε).
Chacune des fonctions ε 7→ W (ε) admet un développement limité à l’ordre 1

W (ε) = W + ε (∆W − W A) + O(ε2 ) (III.2)

où A est une matrice à antisymétrie hermitienne et



∆W = I n − W W H ∆S S † W . (III.3)

L’équation (III.3) montre que ∆W est orthogonal à span(W ). En revanche, le terme W A dans
l’équation (III.2) appartient à cet espace.

III.3.1.2 Perturbation de la matrice spectrale


La proposition suivante complète le résultat de la proposition III.3.1 en montrant comment la
matrice spectrale est perturbée.

Proposition III.3.2 (Perturbation de la matrice spectrale). Supposons que la matrice W ↓ est de rang
plein, et posons Φ(ε) , W (ε)†↓ W (ε)↑ (en particulier, Φ(0) = Φ). Alors au voisinage de ε = 0, W ↓ (ε)
est aussi de rang plein et la fonction ε 7→ Φ(ε) est de classe C ∞ sur ce voisinage.
De plus, la fonction ε 7→ Φ(ε) admet le développement limité à l’ordre 1 :

Φ(ε) = Φ + ε (∆Φ + AΦ − ΦA) + O(ε2 ) (III.4)

où A est une matrice à antisymétrie hermitienne et

∆Φ = −W †↓ ∆W ↓ Φ + Φ W †↑ ∆W ↑ . (III.5)

La perturbation de la matrice de Jordan se déduit maintenant de la proposition III.3.2. Les vecteurs


v 0 et v (n−1) de même dimension r sont définis comme les conjugués hermitiens de la première et de la
dernière ligne de la matrice V n respectivement. Considérons également les vecteurs e0 = [1, 0 . . . 0]T
et e(n−1) = [0 . . . 0, 1]T de même dimension n.

Corollaire III.3.3 (Perturbation de la matrice de Jordan). Posons J (ε) = G−1 Φ(ε)G. La fonction
ε 7→ J(ε) est de classe C ∞ au voisinage de ε = 0, et admet le développement limité

J(ε) = J + ε (∆J + A′ J − J A′ ) + O(ε2 ) (III.6)

Toutes ces fonctions s’obtiennent en multipliant l’une d’entre elles à droite par une fonction de classe C ∞ , à valeurs
1

dans le groupe des matrices orthonormées Or (C), et prenant la valeur I r en ε = 0.


III.3. ETUDE DES PERTURBATIONS ET DE LA PERFORMANCE DES ESTIMATEURS 41

où A′ = G−1 A G et la matrice ∆J est de rang deux :


H H
∆J = v ′(n−1) e′(n−1) ∆S S † V n J − J v ′0 e′0 ∆S S † V n (III.7)

Z−1 v(n−1) −1
où Z = V nH V n , les vecteurs v ′(n−1) = 1−vH Z −1
v
et v ′0 = 1−vZH Zv−1
0
v0
sont de dimension r, et
(n−1) (n−1) 0
n −1
les vecteurs e′(n−1) = e(n−1) − V Z v (n−1) et e′0 = e0 − V n Z −1 v 0 sont de dimension n.

III.3.1.3 Perturbation des pôles


Nous nous intéressons maintenant à la perturbation des pôles. Ceux-ci sont obtenus en déterminant
la forme de Jordan de la matrice spectrale Φ. En pratique, contrairement à Φ, la matrice spectrale
perturbée ne possède pas de valeurs propres multiples. Chacune de ces valeurs propres est éclatée en
plusieurs valeurs propres simples.

Proposition III.3.4 (Perturbation fractionnaire). Soit zk une valeur propre non dérogatoire2 d’ordre
Mk ∈ N∗ de la matrice Φ de dimension r × r. Supposons que le coefficient de la matrice ∆J situé à
P
k P
k−1
l’intersection de la ligne d’indice Mk′ − 1 et de la colonne d’indice Mk′ soit non nul. Alors il
k ′ =0 k ′ =0
existe ε0 > 0 tel que pour tout ε < ε0 , il existe exactement Mk valeurs propres de la matrice Φ(ε),
notées z(k,m) (ε) m∈{0...M −1} , qui admettent le développement fractionnaire au premier ordre
k

1 m  2 
i2π M
z(k,m) (ε) = zk + ε Mk
∆zk e k + O ε Mk (III.8)

où ∆zk est une racine d’ordre Mk du nombre complexe

(∆zk )Mk = ∆J ! = e′(n−1) H ∆S e′′(n−1,k) − e′0 H ∆S e′′(0,k) (III.9)


Pk Mk ′ −1,
P
k−1
Mk ′
k′ =0 k′ =0

où les vecteurs e′′(n−1,k) et e′′(0,k) sont de dimension l :


 ′′ † ′ !
 e(n−1,k) = zk S v(zk ) v(n−1) P
 k
M ′ −1
k
k′ =0
 e′′(0,k) = zk S † v(zk ) v0′ P !.
 k
M ′ −1
k
k′ =0

Si Mk > 1, la perturbation au premier ordre du pôle zk dans l’équation (III.8) est homogène
et isotrope, si bien que les Mk valeurs propres perturbées constituent les sommets d’un
polygone régulier d’ordre Mk dans le plan complexe.

Il apparaît de plus que les pôles multiples sont plus sensibles aux perturbations que les pôles
1
simples, dans la mesure où le terme du premier ordre dans l’équation (III.8) est ε Mk > ε (en supposant
que ε < 1). Il est en fait possible de contourner ce problème en ne considérant plus les valeurs propres
z(k,m) (ε) comme Mk estimateurs distincts du même pôle zk , mais en construisant un estimateur unique
2
Consulter e.g. [Moro et al., 1997] pour une définition des valeurs propres non dérogatoires. Puisque les pôles sont
distincts, toutes les valeurs propres de la forme de Jordan définie dans l’équation (II.8) sont non dérogatoires.
42 CHAPITRE III. PERFORMANCES DE L’ALGORITHME ESPRIT GÉNÉRALISÉ

de ce pôle en moyennant les z(k,m) (ε). En effet, puisque la somme des racines Mkèmes de l’unité est nulle,
l’équation (III.8) implique

1 X
Mk −1  2 
zk (ε) , z(k,m) (ε) = zk + O ε Mk .
Mk
m=0

Il apparaît donc que l’estimateur zk (ε) est meilleur que chacun des z(k,m) (ε) puisque l’erreur d’estima-
tion est plus faible d’un ordre de grandeur au moins. La proposition suivante montre que zk (ε) admet
en fait un développement en séries entières.
MP
k −1
1
Proposition III.3.5 (Perturbation entière). Posons zk (ε) = Mk z(k,m) (ε) ∀k ∈ {0 . . . K − 1}.
m=0
Alors la fonction ε 7→ zk (ε) est de classe C ∞ et admet le développement limité au premier ordre

zk (ε) = zk + ε∆zk + O ε2 (III.10)

où ∆zk est le nombre complexe


1
∆zk = trace (∆J k ) (III.11)
Mk
(où ∆J k est le sous-bloc de dimension Mk × Mk extrait de la matrice ∆J , qui est associé au pôle
P
k−1 P
k
zk ; il correspond aux lignes et aux colonnes d’indices Mk′ à Mk′ − 1). Le nombre ∆zk s’écrit
k ′ =0 k ′ =0
également sous la forme
1  
H H
∆zk = e′(n−1) ∆S e′′(n−1,k) − e′0 ∆S e′′(0,k) (III.12)
Mk α(k,Mk −1)

où les vecteurs e′′(n−1,k) et e′′(0,k) sont de dimension l :


  T ∗ −1
V l V l  k−1  α(k,M −1) H −1  J M (zk ) v ′ 
P M ′ : Pk M ′ −1
 l∗



e ′′
(n−1,k) = V
:,
P M ′:
Pk
M ′ −1
k k k (n−1) k−1
k k k k
 T ∗ −1 k′ =0 k′ =0

k′ =0 k′ =0
 e′′(0,k) = V l V l V l  k−1  α(k,M −1) H −1 J M (zk ) v ′  k−1 .



 P :,
Pk M ′:
k k
M ′ −1
k 0 P Pk M ′: M ′ −1
k k k k
k′ =0 k′ =0 k′ =0 k′ =0
(III.13)

L’équation (III.12) s’écrit aussi sous la forme d’un produit scalaire :


1
∆zk = uk H ∆s (III.14)
Mk α(k,Mk −1)

où les vecteurs ∆s = [∆s(t − l + 1), . . . , ∆s(t + n − 1)]T et uk sont de dimension N = n + l − 1. Plus


précisément, pour tout τ ∈ [0, . . . , n + l − 2],
min(τ, n−1)
X
uk (τ ) = e′(n−1) (τ ′ ) e′′(n−1,k) (τ − τ ′ )∗ − e′0 (τ ′ ) e′′(0,k) (τ − τ ′ )∗ . (III.15)
τ ′ =max(τ −l+1, 0)

Le corollaire suivant montre comment la perturbation des pôles se répercute sur les fréquences et
les facteurs d’atténuation.
III.3. ETUDE DES PERTURBATIONS ET DE LA PERFORMANCE DES ESTIMATEURS 43

Corollaire III.3.6 (Perturbation des fréquences et des facteurs d’atténuation). Posons δk (ε) =
1
Re (ln(zk (ε))) et fk (ε) = 2π Im (ln(zk (ε))) (en particulier, δk (0) = δk et fk (0) = fk )3 . Alors les fonc-
tions ε 7→ δk (ε) et ε 7→ fk (ε) sont de classe C ∞ et admettent le développement limité au premier
ordre :  
δk (ε) = δk + ε ∆δk + O ε2 
(III.16)
fk (ε) = fk + ε ∆fk + O ε2
où   
 ∆δk = Re ∆zk
zk  (III.17)
 ∆fk = 1
Im ∆zk
.
2π zk

III.3.1.4 Perturbation des amplitudes et des phases


Connaissant l’impact d’une perturbation des données sur les pôles estimés, il est maintenant possible
d’analyser la perturbation induite sur les amplitudes complexes, déduites de ces pôles par la méthode
des moindres carrés. Cette étude nécessite préalablement de calculer la perturbation de la matrice
Pascal -Vandermonde V N .

Lemme III.3.7 (Perturbation de la matrice Pascal-Vandermonde). Soit V N (ε) la matrice Pascal-


Vandermonde de dimensions N × r associée aux pôles estimés {z0 (ε), . . . , zK−1 (ε)} définis dans la
proposition III.3.5 (en particulier, V N (0) = V N ). Alors la fonction ε 7→ V N (ε) est de classe C ∞ au
voisinage de ε = 0, et admet le développement limité à l’ordre 1 :

V N (ε) = V N + ε ∆V N + O(ε2 ) (III.18)

où la matrice ∆V N s’exprime sous la forme

N
∆V N = V ∆Z (III.19)
N
où V est la matrice Pascal-Vandermonde de dimensions N × (r + K) obtenue en juxtaposant les
matrices de Pascal généralisées C NMk +1 (zk ), et ∆Z = diag(∆Z 0 , . . . , ∆Z K−1 ) est une matrice de
 
0...0
dimension (r + K) × r dont les blocs diagonaux ∆Z k = ∆zk sont de dimension
diag(1, 2, . . . , Mk )
(Mk + 1) × Mk .

La perturbation des amplitudes complexes se déduit maintenant du lemme III.3.7. Notons s =


[s(t − l + 1), . . . , s(t + n − 1)]T le vecteur de dimension N contenant les échantillons du signal non
bruité.

Proposition III.3.8 (Perturbation des amplitudes complexes). Pour tout ε ∈ R, considérons le


vecteur x(ε) = s + ε ∆s de dimension N , contenant les échantillons du signal bruité. Posons alors
α(ε) = V N (ε)† x(ε) (en particulier, α(0) = α). Alors la fonction ε 7→ α(ε) est de classe C ∞ au
voisinage de ε = 0, et admet le développement limité au premier ordre :

α(ε) = α + ε ∆α + O(ε2 ) (III.20)

On suppose ici que toutes les fréquences sont comprises entre − 12 et 21 , et la notation ln(.) désigne la détermination
3

du logarithme complexe correspondant à un argument compris entre −π et π.


44 CHAPITRE III. PERFORMANCES DE L’ALGORITHME ESPRIT GÉNÉRALISÉ

où le vecteur ∆α de dimension r vérifie

∆α = B H ∆s (III.21)

où la matrice   
A0
† N  .. 
B H = V N I N − V  .  , (III.22)
AK−1
de dimensions r × N , est définie à partir des matrices Ak , de dimensions (Mk + 1) × N et de rang 1 :
 T
1 α(k,0) 2 α(k,1) Mk − 1 α(k,Mk −2)
Ak = 0, , ,..., , 1 uHk .
Mk α(k,Mk −1) Mk α(k,Mk −1) Mk α(k,Mk −1)

Le corollaire suivant montre comment la perturbation des amplitudes complexes se répercute sur
les amplitudes réelles et les phases4 .
Corollaire III.3.9 (Perturbation des amplitudes et des phases). Soient a(k,mk ) (ε) = |α(k,mk ) (ε)|
1

et φ(k,mk ) (ε) = 2π Im ln(α(k,mk ) (ε)) (on retrouve a(k,mk ) (0) = a(k,mk ) et φ(k,mk ) (0) = φ(k,mk ) ). Si
a(k,mk ) 6= 0, alors les fonctions ε 7→ a(k,mk ) (ε) et ε 7→ φ(k,mk ) (ε) sont de classe C ∞ et admettent le
développement limité à l’ordre 1 :
 
a(k,mk ) (ε) = a(k,mk ) + ε ∆a(k,mk ) + O ε2 
(III.23)
φ(k,mk ) (ε) = φ(k,mk ) + ε ∆φ(k,mk ) + O ε2
où   
 ∆a(k,m ) = a(k,m ) Re ∆α(k,mk )
k α(k,mk )
k  (III.24)
 ∆φ(k,m ) = Im ∆α(k,mk ) .
k α(k,m ) k

III.3.2 Performance des estimateurs


Nous souhaitons à présent exploiter les résultats de la théorie des perturbations pour en déduire
les moments d’ordre un et deux des estimateurs au premier ordre, c’est-à-dire dans le cas où le rapport
signal à bruit est élevé. La section III.3.2.1 présente les résultats obtenus au premier ordre, qui sont
ensuite simplifiés dans la section III.3.2.2 dans un contexte asymptotique.

III.3.2.1 Performance des estimateurs au premier ordre


La proposition suivante exprime la variance des estimateurs zk (ε), δk (ε) et fk (ε) en fonction du
vecteur uk et de la matrice Γ.
Proposition III.3.10. L’estimateur zk (ε) du pôle zk défini dans la proposition III.3.5 est centré au
premier ordre, et sa variance est égale à
σ2
var (zk (ε)) = uk H Γ uk . (III.25)
Mk2 a2(k,Mk −1)
4
La perturbation induite sur l’écart-type ne sera pas présentée dans ce document. En effet, en substituant les
développements limités (III.18) et (III.20) dans l’équation (I.4), les termes d’ordre 0 et 1 s’annulent, et on obtient
σ(ε)2 = N1 O(ε2 ), d’où σ(ε) = √1N O(ε). Ainsi, pour calculer la perturbation induite sur l’écart-type, il faudrait pousser
tous les développements limités à l’ordre 2.
III.3. ETUDE DES PERTURBATIONS ET DE LA PERFORMANCE DES ESTIMATEURS 45

De même, les estimateurs δk (ε) et fk (ε) du facteur d’atténuation δk et de la fréquence fk définis dans
le corollaire III.3.6 sont centrés au premier ordre. De plus, leurs variances respectives sont égales à

σ 2 e−2δk
var(δk (ε)) = uk H Γ uk (III.26)
2Mk2 a2(k,Mk −1)
σ 2 e−2δk
var(fk (ε)) = uk H Γ uk . (III.27)
8π 2 Mk2 a2(k,Mk −1)

En particulier, il existe une analogie remarquable entre les expressions des variances des estimateurs
δk (ε) et fk (ε) et leurs bornes de Cramér-Rao données dans la proposition III.2.1. La proposition III.3.11
exprime ensuite la variance des estimateurs α(ε), a(k,mk ) (ε) et φ(k,mk ) (ε) en fonction des matrices B
et Γ. On notera b(k,mk ) la colonne de B correspondant au pôle zk à l’indice mk , c’est-à-dire la colonne
P
k−1
d’indice mk + Mk′ .
k ′ =0

Proposition III.3.11. L’estimateur α(ε) du vecteur des amplitudes complexes α défini dans la pro-
position III.3.8 est centré au premier ordre, et sa matrice de covariance est égale à

cov (α(ε)) = σ 2 B H Γ B. (III.28)

De même, les estimateurs a(k,mk ) (ε) et φ(k,mk ) (ε) de l’amplitude réelle a(k,mk ) et de la phase φ(k,mk )
définis dans le corollaire III.3.9 sont centrés au premier ordre. De plus, leurs variances respectives sont

σ2 H
var(a(k,mk ) (ε)) = b Γb (III.29)
2 (k,mk ) (k,mk )
σ2 H
var(φ(k,mk ) (ε)) = b Γ b(k,mk ) . (III.30)
2a2(k,mk ) (k,mk )

III.3.2.2 Performances asymptotiques

Les formules des variances données dans la section III.3.2.1 ne sont pas très parlantes, car elles font
intervenir de nombreux intermédiaires de calcul par le biais du vecteur uk . Cependant, nous allons
voir dans cette section que sous certaines hypothèses, ces formules se simplifient. On se replace dans
le contexte de la section III.2.2 : on suppose que le bruit est blanc (Γ = I N ), tous les pôles sont sur le
cercle unité (∀k ∈ {0 . . . K − 1}, δk = 0), et l’horizon d’observation tend vers l’infini (N → +∞).

Proposition III.3.12. Si zk est un pôle simple, les variances des estimateurs δk (ε) et fk (ε) admettent
les développements limités
 
σ2 1
var(δk (ε)) = +O (III.31)
max(n, l) min(n, l) a2(k,0)
2 N4
 
σ2 1
var(fk (ε)) = +O . (III.32)
4π 2 max(n, l)2 min(n, l) a2(k,0) N4
46 CHAPITRE III. PERFORMANCES DE L’ALGORITHME ESPRIT GÉNÉRALISÉ

Elles sont toutes deux minimales pour n = 2l = 23 (N + 1) ou pour l = 2n = 23 (N + 1) (en supposant


N congru à 2 modulo 3), et ces minima ont pour équivalents asymptotiques

27 σ2
var(δk (ε)) ∼
4 N 3 a2(k,0)

27 σ2
var(fk (ε)) ∼ .
4 4π 2 N 3 a2(k,0)

On prêtera attention au fait que les expressions (III.31) et (III.32) ne sont valables que pour un pôle
simple. Si zk est un pôle multiple, ces variances ne s’expriment pas aussi simplement et sont fonction des
amplitudes complexes associées au pôle zk à tous les indices m ∈ {0 . . . Mk − 1} (les valeurs optimales
de n et l sont alors elles-mêmes fonction de ces amplitudes). Rappelons que les bornes de Cramér-
2
Rao données dans la proposition III.2.2 deviennent, pour un pôle simple, CRB{δk } = 6 N 3 σa2 et
(k,0)
2
CRB{fk } = 6 4π2 Nσ3 a2 . Les variances peuvent être alors comparées à ces bornes :
(k,0)

Sous les hypothèses précisées ci-dessus, l’efficacité5 asymptotique des estimateurs de tous les
facteurs d’atténuation et de toutes les fréquences associés à des pôles simples est la même,
indépendante des paramètres du modèle, et égale à 9/8 = 1, 125 si n = 2l ou l = 2n.

On retrouve ainsi les résultats qui avaient été obtenus dans [Hua et Sarkar, 1990] sur la méthode Matrix
Pencil, dans le cas particulier d’une seule sinusoïde complexe. La figure III.1-a représente le rapport
de la borne de Cramér-Rao sur la variance des estimateurs en échelle logarithmique en fonction du
rapport Nn+1 . On vérifie ainsi que le maximum est bien atteint en n = N 3+1 et n = 2(N3+1) . De plus, les
performances s’effondrent quand n devient trop grand ou trop petit.
(a)

0
Efficacité (−dB)

−5

−10

−15
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

(b)

0
Efficacité (−dB)

−5

−10

−15
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Rapport n/(N+1)

Fig. III.1 – Efficacité des estimateurs

(a) Efficacité de l’estimation des fréquences et des facteurs d’atténuation


(b) Efficacité de l’estimation des amplitudes réelles et des phases

5
L’efficacité d’un estimateur est définie comme le rapport de sa variance sur la borne de Cramér-Rao.
III.4. SIMULATIONS NUMÉRIQUES 47

La proposition suivante est l’analogue de la proposition III.3.12 pour les amplitudes réelles et les
phases.

Proposition III.3.13. Si zk est un pôle simple, les variances des estimateurs a(k,0) (ε) et φ(k,0) (ε)
admettent les développements limités
   
σ2 1 N2 1
var(a(k,0) (ε)) = + +O (III.33)
2 N 2 max(n, l)2 min(n, l) N2
2  2   
σ 1 N 1
var(φ(k,0) (ε)) = + +O . (III.34)
2a2(k,0) N 2 max(n, l)2 min(n, l) N2

Elles sont toutes deux minimales pour n = 2l = 23 (N + 1) ou pour l = 2n = 32 (N + 1) (en supposant


N congru à 2 modulo 3), et ces minima ont pour équivalents asymptotiques

35σ 2
var(a(k,0) (ε)) ∼
16N
35σ 2
var(φ(k,0) (ε)) ∼ .
16N a2(k,0)

Là encore, on prêtera attention au fait que les expressions (III.33) et (III.34) ne sont valables que
pour un pôle simple. Rappelons que les
 bornes de2 Cramér-Rao  données 2σdans la proposition III.2.2
2
deviennent, pour un pôle simple, CRB a(k,0) = 2σ N et CRB φ(k,0) = N a2
. Les variances peuvent
(k,0)
être alors comparées à ces bornes :

Sous les hypothèses précisées ci-dessus, l’efficacité asymptotique des estimateurs de toutes les
amplitudes réelles et de toutes les phases associées à des pôles simples est la même, indépen-
dante des paramètres du modèle, et égale à 35/32 = 1, 09375 si n = 2l ou l = 2n.

Elle est encore meilleure que celle des estimateurs δk (ε) et fk (ε). Il est aussi remarquable de constater
que l’optimum est obtenu pour les mêmes valeurs de n et de l que dans le cas précédent. La figure III.1-b
représente le rapport de la borne de Cramér-Rao sur la variance des estimateurs en échelle logarithmique
en fonction du rapport Nn+1 . Là encore, le maximum est bien atteint en n = N 3+1 et n = 2(N3+1) , et les
performances s’effondrent quand n devient trop grand ou trop petit. La similitude entre les courbes
représentées dans les figures III.1-a et III.1-b est remarquable. Cela pourrait s’expliquer par le fait que
l’estimation des amplitudes et des phases repose directement sur l’estimation des fréquences et des
facteurs d’atténuation.
A présent, nous allons illustrer les résultats sur la perturbation des pôles multiples établis dans la
section III.3.1.3.

III.4 Simulations numériques


Dans cette section, la méthode ESPRIT présentée dans la section II.5.3 est appliquée aux signaux
réels. Le modèle de signal réel est présenté dans la section III.4.1. Ensuite la section III.4.2 illustre
un cas de modulation d’amplitude polynomiale, et la section III.4.3 illustre un cas de modulation en
amplitude et en fréquence.
48 CHAPITRE III. PERFORMANCES DE L’ALGORITHME ESPRIT GÉNÉRALISÉ

III.4.1 Modèle de signal réel


Dans cette section le modèle de signal introduit dans la section II.2 est appliqué au cas particulier
de signaux réels. Puisque le polynôme prédicteur a des coefficients réels, ses racines peuvent être
partitionnées en pôles réels d’une part, et paires de pôles complexes conjugués (de même ordre) d’autre
part. Ainsi, en groupant les pôles dont les angles polaires ont la même valeur absolue, l’équation (II.3)
se réécrit sous la forme

P
X −1
s(t) = ap (t) cos(2πfp t) + bp (t) sin(2πfp t) (III.35)
p=0

où P ≤ K est le nombre de fréquences distinctes fp ∈ [0, 12 ], et ∀p ∈ {0, . . . , P − 1}, ap (t) et bp (t)


appartiennent à une classe de fonctions paramétriques. Plus précisément, une fonction g(t) de cette
classe est de la forme
Q−1
X
g(t) = Pq [t] exp(δq t)
q=0

où Q ∈ N∗ est le nombre de pôles de même angle polaire, les facteurs d’atténuation δq ∈ R sont
distincts, et ∀q ∈ {0, . . . , Q − 1}, Pq est un polynôme réel. Alors l’équation (III.35) s’écrit sous la
forme
P
X −1
s(t) = Ap (t) cos (2πfp t + φp (t)) (III.36)
p=0

où l’amplitude variante dans le temps Ap (t) et la phase φp (t) de la pth sinusoïde satisfont les équations

ap (t) = Ap (t) cos(φp (t))
(III.37)
bp (t) = −Ap (t) sin(φp (t))

dont les solutions sont6 ( p


Ap (t) = ap (t)2 +bp (t)2 
bp (t) (III.38)
φp (t) = −2 arctan Ap (t)+ap (t) .

Le modèle de signal dans l’équation (III.36) ressemble à celui de McAulay et Quatieri [Mc Aulay
et Quatieri, 1986]. Cependant, dans [Mc Aulay et Quatieri, 1986] Ap (t) et φp (t) sont des fonctions

non paramétriques telles que Ap (t) et dtp varient lentement et Ap (t) est positive, alors que dans notre
modèle Ap (t) et φp (t) sont des fonctions paramétriques.
Les variations de la fréquence instantanée fpi de la pème sinusoïde peuvent être calculées analyti-
quement, en différentiant (III.37) :

dap db
1 dφp 1 bp (t) − dtp ap (t)
fpi (t) = fp + = fp + dt
. (III.39)
2π dt 2π ap (t)2 + bp (t)2

En conclusion, le modèle de signal PACE comporte des modulations d’amplitude et des modula-
tions de fréquence. En revanche, toutes les types de modulations d’amplitude et de fréquence ne sont
pas nécessairement représentables par le modèle PACE, puisque les équations (III.38) et (III.39) ne
représentent qu’une certaine classe paramétrique de modulations.
III.4. SIMULATIONS NUMÉRIQUES 49

(a) Forme d’onde


1.5

Amplitude
0.5

−0.5

−1
−250 −200 −150 −100 −50 0 50 100 150 200 250
Temps discret (échantillons)

(b) Pôles original (x) et estimés (o)


0.058
Partie imaginaire

0.056

0.054

0.052

0.05

0.99 0.995 1 1.005 1.01


Partie réelle

Fig. III.2 – Modulation d’amplitude polynomiale

(a) Forme d’onde


(b) Pôles original (x) et estimés (o)

III.4.2 Modulation d’amplitude polynomiale


Le signal de test représenté dans la figure III.2-a est une sinusoïde bruitée dont l’amplitude est
modulée polynomialement et dont la fréquence est constante (les lignes pointillées représentent son
enveloppe). Plus précisément, le signal est celui défini dans l’équation (III.35) avec les paramètres
t2
P = 1, f0 = 8.6 × 10−3 , a0 (t) = 25000 − 1 et b0 (t) = 0, plus un bruit blanc additif dont la variance a
été choisie de telle sorte que le RSB est de 20 dB. Les paramètres du modèle complexe correspondant
sont K = 2 et M0 = M1 = 3 (donc r = 6), et la fenêtre d’observation est t ∈ {−250 . . . 250}.
L’algorithme ESPRIT a été appliqué avec les paramètres n = l = 251. Les trois valeurs propres
avec des angles positifs sont représentées dans la figure III.2-b, par des symboles O aux sommets du
triangle. Le véritable pôle multiple z0 = ei2πf0 est représenté par le symbole ∗. Comme cela a été
mentionné dans la section III.3.1.3, la perturbation au premier ordre de z0 est approximativement
homogène et isotrope, de sorte que z0 est proche de la moyenne des trois valeurs propres (représenté
par un symbole +). La variation relative de fréquence entre le véritable pôle et la moyenne des valeurs
propres est 0.48%.

III.4.3 Modulation d’amplitude et de fréquence


Le signal de test représenté dans la figure III.3-a est celui défini dans l’équation (III.35) avec P = 1,
f0 = 8.6 × 10−3 , et 
a0 (t) , (1 + δ0′ t + 12 δ0′ 2 t2 )
b0 (t) , −π ∆f t2 a0 (t)
où δ0′ = 4 × 10−3 , ∆f = 8 × 10−6 , plus un bruit blanc additif dont la variance a été choisie de façon
à ce que le RSB soit de 50 dB7 . Les paramètres correspondants du modèle complexe sont K = 2 et
   
−b (t)
6
Il se trouve que arctan app(t) = φp (t) seulement si φp (t) ∈ − π2 , π2 . En revanche, la formule d’inversion proposée
est valide pour tous φp (t) ∈ ]−π, π[.
7
Puisque l’ordre de multiplicité des pôles est plus grand que dans la section III.4.2, la proposition III.3.4 montre que
les valeurs propres sont plus sensibles aux perturbations. C’est pourquoi on choisit un RSB plus élevé pour obtenir un
résultat similaire.
50 CHAPITRE III. PERFORMANCES DE L’ALGORITHME ESPRIT GÉNÉRALISÉ

(a) Forme d’onde

1.5
1
0.5

Amplitude
0
−0.5
−1
−1.5
−2

−150 −100 −50 0 50 100 150


Temps discret (échantillons)

(b) Pôles original (x) et estimés (o)

Partie imaginaire 0.058

0.056

0.054

0.052

0.05

0.985 0.99 0.995 1 1.005 1.01


Partie réelle

Fig. III.3 – Modulation d’amplitude et de fréquence

(a) Forme d’onde


(b) Pôles original (x) et estimés (o)

M0 = M1 = 5 (donc r = 10), et la fenêtre d’observation est t ∈ {−500 . . . 500}8 .


Les équations (III.38) et (III.39) donnent les modulations d’amplitude et de fréquence correspon-
dantes :  p
 A0 (t) = 1 + π 2 ∆f 2 t4 a0 (t)
∆f t
 f0i (t) = f0 + .
1 + π 2 ∆f 2 t4
En particulier, la fenêtre d’observation de la figure III.3-a montre un accroissement conjugué de l’am-
plitude et de la fréquence.
La méthode ESPRIT a été appliquée avec les paramètres n = l = 501. Les cinq valeurs propres
d’angles polaires positifs sont représentées dans la figure III.3-b, par des symboles O aux sommets
du pentagone. Le véritable pôle multiple z0 = ei2πf0 est représenté par un symbole ∗. Comme cela a
été mentionné dans la section III.3.1.3, la perturbation au premier ordre de z0 est approximativement
homogène et isotrope, si bien que z0 est proche de la moyenne des cinq valeurs propres. En fait, la
variation relative de la fréquence entre le pôle original et la moyenne des valeurs propres est de 0.23%.

III.5 Conclusion
Dans ce chapitre, les bornes de Cramér-Rao pour le modèle PACE ont été calculées analytiquement
dans le cas général, et leurs expressions ont été simplifiées sous l’hypothèse N → +∞ (dans le cas où
le bruit est blanc et où tous les pôles sont sur le cercle unité). Par ailleurs, il a été montré que
les estimateurs des pôles et des amplitudes complexes sont centrés, et leurs variances ont été calculées
sous l’hypothèse RSB→ +∞. Ces variances ont été comparées aux bornes de Cramér-Rao en supposant
conjointement que N → +∞ et RSB→ +∞, et il a été montré que l’efficacité des estimateurs était
voisine de 1.
La théorie des perturbations a montré en particulier que le bruit additif éclate les pôles multiples
en plusieurs valeurs propres simples, formant les sommets d’un polygone régulier. Ce phénomène a été
8
La figure III.3-a est un agrandissement de la partie centrale du signal.
III.5. CONCLUSION 51

observé dans nos simulations numériques, qui ont confirmé que la moyenne des valeurs propres disper-
sées est une bonne approximation du pôle multiple original. Ainsi le modèle de signal PACE conduit
à une interprétation alternative d’un ensemble de pôles estimés appartenant au même voisinage (plu-
sieurs pôles simples peuvent correspondre à une seule sinusoïde modulée). La question de l’application
du modèle PACE aux signaux de musique sera abordée dans la section X.2.4. Nous y montrerons
que les modulations qui apparaissent naturellement dans ce type de signaux sont généralement mieux
représentées avec des pôles simples qu’avec des pôles multiples.
52 CHAPITRE III. PERFORMANCES DE L’ALGORITHME ESPRIT GÉNÉRALISÉ
53

Chapitre IV

Estimation de l’ordre de modélisation

Résumé
Dans le chapitre II, l’ordre du modèle PACE était supposé connu, ce qui n’est pas le
cas dans la pratique. Dans les applications de codage, le signal doit être représenté
avec un nombre minimal de paramètres. Malheureusement, il se trouve qu’appliquer
l’algorithme ESPRIT avec un ordre de modèle sous-estimé biaise l’estimation des
fréquences. Dans ce chapitre est proposée une nouvelle méthode pour sélectionner
un ordre de modélisation approprié, qui minimise ce biais. Cette approche a été ap-
pliquée à des signaux synthétiques et à des signaux de musique, et donne de meilleurs
résultats que les critères classiques. Les développements qui vont suivre ont fait l’ob-
jet d’un article à paraître dans IEEE Transactions on Signal Processing [Badeau
et al., 2005a].
54 CHAPITRE IV. ESTIMATION DE L’ORDRE DE MODÉLISATION

IV.1 Introduction
Ce chapitre montre comment l’application de l’algorithme ESPRIT avec un ordre de modèle erroné
perturbe l’estimation des sinusoïdes. A notre connaissance, aucune analyse des perturbations induites
par un ordre de modélisation erroné n’a été publiée (dans le cas de l’algorithme MUSIC, une étude
a été menée dans [Saarnisaari, 1999]). Par ailleurs, tous les articles analysant les performances de
l’algorithme ESPRIT mentionnés dans la section I.6.2 reposent sur des approximations au premier
ordre. Dans ce chapitre sont présentées des bornes d’erreur pour les pôles estimés, qui sont dérivées
sans approximation et se calculent facilement. De plus, elles sont plus précises que celles présentées
dans [Badeau et al., 2004b]. A partir de ce résultat, une nouvelle méthode de sélection de l’ordre du
modèle est proposée, qui consiste à minimiser la perturbation. Contrairement aux autres méthodes
proposées dans la littérature, qui sélectionnent l’ordre du modèle en analysant les propriétés spectrales
du bruit additif, notre approche se concentre sur le signal lui-même. Bien qu’elle repose sur un modèle
sans bruit, elle s’avère plus performante que les critères classiques, même dans le cas d’un faible RSB.
Le chapitre est organisé de la façon suivante. Dans la section IV.2, la perturbation des pôles induite
par un ordre de modélisation erroné est analysée. Ensuite notre nouvelle méthode de sélection de l’ordre
de modélisation, baptisée méthode ESTimation ERror (ESTER), est introduite dans la section IV.3,
où une implémentation rapide est proposée. Dans la section IV.4, la pertinence de notre critère en
tant que borne d’erreur est examinée, et la performance de la méthode ESTER est comparée à celle
de quelques critères classiques. Enfin, les principales conclusions de ce chapitre sont résumées dans la
section IV.5.

IV.2 Impact d’un ordre de modélisation erroné


On suppose ci-dessous que l’algorithme ESPRIT généralisé présenté dans la section II.5.3 est ap-
pliqué avec un ordre de modélisation p éventuellement erroné, et on observe comment l’estimation des
pôles en est affectée. Dans le but de simplifier les notations, les dépendances temporelles ne seront plus
mentionnées explicitement dans cette section.
Si {w(1), . . . , w(n)} sont les vecteurs singuliers de la matrice de données associés aux valeurs
singulières σ1 ≥ . . . ≥ σn ≥ 0 rangées par ordre décroissant, alors l’espace signal est engendré par
la matrice orthonormée W (r) = [w(1), . . . , w(r)], de dimensions n × r (les n − r dernières valeurs
singulières étant toutes nulles). De même, pour tout p ∈ {1 . . . n} posons W (p) , [w(1), . . . , w(p)] et

Φ(p) , W ↓ (p)† W ↑ (p). (IV.1)

Les pôles estimés sont définis comme les valeurs propres de Φ(p).

IV.2.1 Sur-estimation de l’ordre du modèle


Si p ≥ r, la proposition suivante montre que les K pôles originaux appartiennent à l’ensemble des
valeurs propres de Φ(r).
Proposition IV.2.1. Supposons que r ≤ p < n et que W ↓ (p) est de rang plein. Alors ∀k ∈
{0, . . . , K − 1}, zk est une valeur propre d’ordre Mk de Φ(p).
Démonstration. La décomposition canonique de Jordan de la matrice Φ(r) a été donnée dans l’équa-
tion (I.19) : Φ(r) = G J G−1 . Soit Gk la matrice de dimensions r × Mk extraite de G telle que
Φ(r) Gk = Gk J Mk (zk ) (où J Mk (zk) est le bloc de Jordan de dimension Mk × Mk associé au pôle
Gk
zk ). Considérons la matrice Gk , de dimensions p × Mk . Or W (p) Gk = W (r) Gk . Par
0
IV.2. IMPACT D’UN ORDRE DE MODÉLISATION ERRONÉ 55

conséquent, W ↑ (p) Gk = W ↑ (r) Gk = W ↓ (r) Φ(r) Gk = W ↓ (r) Gk J Mk (zk ) = W ↓ (p) Gk J Mk (zk ).


Puisque W ↓ (p) est de rang plein, en multipliant l’égalité précédente par W ↓ (p)† , on obtient Φ(p) Gk =
Gk J Mk (zk ).

IV.2.2 Sous-estimation de l’ordre du modèle


Si p < r, les valeurs propres de Φ(p) ne correspondent pas aux pôles complexes dans le cas général.
Plus précisément, soit zb une valeur propre de Φ(p). Dans cette section, il est démontré que zb approche
l’une des valeurs propres de Φ(r), et qu’une borne d’erreur peut être facilement calculée. Tout d’abord,
il faut définir le conditionnement supérieur de l’espace signal1 :
σmax (V n Λ)
κ2 = inf n (IV.2)
Λ∈Λ(C)) σmin (V ↓ Λ)

où σmax (.) désigne la plus grande valeur singulière d’une matrice, σmin (.) désigne la plus petite, V n est
la matrice de Pascal-Vandermonde introduite dans la section II.3, et Λ(C) est le groupe multiplicatif des
matrices de la forme diag(Λ0 , . . . , ΛK−1 ), où chaque bloc Λk , de dimension Mk × Mk , est triangulaire
supérieur, Toeplitz et inversible. Ce conditionnement caractérise le signal non bruité lui-même, et ne
dépend pas de p. Il s’agit d’une constante inconnue pour notre problème, qu’il n’est pas utile de calculer.
Elle apparaît dans le théorème suivant, dont la démonstration figure en annexe dans la section A.10,
page 190.

Théorème IV.2.2 (Borne d’erreur a priori2 ). Pour tout zb ∈ C, il existe une valeur propre zk de Φ(r)
pour laquelle
 1 
|zk − zb| ≤ max ∆k (b z ), ∆k (b
z ) Mk (IV.3)

z ) , Mk κ2 σmin (W ↑ (p) − zb W ↓ (p)).


où ∆k (b

Le résultat présenté dans ce théorème est assez fort, car il est en fait valable pour tout zb ∈ C ; il
montre ainsi que pour tout nombre complexe zb, il existe un pôle complexe zk dont la distance à ce
nombre est majorée par la quantité définie dans l’équation (IV.3). Dans le cas particulier où zk est un
pôle simple, on obtient la majoration |zk − zb| ≤ κ2 σmin (W ↑ (p) − zb W ↓ (p)).
Il se trouve que σmin (W ↑ (p) − zb W ↓ (p)) peut être calculée sans connaître la valeur exacte de r.
Le corollaire IV.2.3, qui est également démontré en annexe dans la section A.10 (page 190) et se
déduit du théorème IV.2.2, a une certaine similitude avec le théorème de Bauer-Fike [Horn et Johnson,
1985, pp. 365], [Golub et Van Loan, 1996, pp. 321]. Il donne une borne d’erreur valide pour toutes
les valeurs propres de Φ(p). A nouveau, cette borne peut être calculée sans connaître la valeur exacte
de r. Elle fait apparaître la norme spectrale d’une matrice (ou norme 2), notée k.k2 , définie comme
kM k2 , max kM uk2 = σmax (M ).
kuk2 =1

1
Dans [Badeau et al., 2004b], κ2 était défini comme le conditionnement supérieur de la matrice de Pascal-Vandermonde
(V n )
V , égal à σσmax
n
n . La nouvelle définition de κ2 dans l’équation (IV.2) conduit à de meilleures bornes d’erreur, en
min (V ) ↓
raison de la présence de la borne inférieure.
2
En comparaison, la borne d’erreur a priori présentée dans [Badeau et al., 2004b] était égale à
σmax (V n )
b − zb W ↓ (p) vbk2 ,
kW ↑ (p) v
σmin (V n
↓)

où vb était une vecteur unitaire quelconque. Le conditionnement supérieur κ2 defini dans l’équation (IV.2) est inférieur
(V n )
à σσmax b W ↓ (p)) ≤ kW ↑ (p) vb − zb W ↓ (p) vbk2 pour tout vecteur unitaire vb. Ainsi la borne
n . De plus, σmin (W ↑ (p) − z
min (V )

d’erreur a posteriori dans l’équation (IV.3) est inférieure à celle proposée dans [Badeau et al., 2004b].
56 CHAPITRE IV. ESTIMATION DE L’ORDRE DE MODÉLISATION

Corollaire IV.2.3 (Borne d’erreur a posteriori3 ). Pour chaque valeur propre zb de Φ(p), il existe une
valeur propre zk de Φ(r) pour laquelle
 1

Mk
|zk − zb| ≤ max ∆k , ∆k (IV.4)

où ∆k , Mk κ2 kE(p)k2 et
E(p) = W ↑ (p) − W ↓ (p) Φ(p). (IV.5)

Ce corollaire particularise le résultat du théorème IV.2.2 aux nombres complexes zb qui sont valeurs
propres de Φ(p). Cette hypothèse permet d’obtenir une majoration qui ne dépend plus de zb. Dans le
cas particulier où zk est un pôle simple, on obtient |zk − zb| ≤ κ2 kE(p)k2 .
Remarque. Soit p < n − 1. Nous savons que si p = r, E(p) = 0. Réciproquement, si E(p) = 0, alors les
matrices W ↓ (p) et W ↑ (p) engendrent le même sous-espace, ce qui signifie que la propriété d’invariance
rotationnelle est satisfaite à l’ordre p. Ainsi, p composantes peuvent être extraites du signal observé, et
les pôles complexes correspondants peuvent être estimés à l’aide de l’algorithme ESPRIT. Puisque le
signal ne contient pas plus de r composantes, p devrait normalement être inférieur ou égal à r. Le cas
p < r peut survenir si les paramètres du signal satisfont certaines relations particulières. En pratique,
r est toujours la plus grande valeur de p pour laquelle E(p) = 0.

IV.3 Sélection d’un ordre de modélisation approprié reposant sur l’er-


reur d’estimation
L’intérêt pratique du corollaire IV.2.3 est que kE(p)k2 (qui sera désignée sous le terme de borne
d’erreur a posteriori ) peut être calculée pour tout p ∈ {1, . . . , pmax }, où 1 ≤ pmax < n − 1. Si pmax se
trouve être inférieur à r, la borne d’erreur a posteriori fournit un critère quantitatif pour sélectionner
un ordre de modélisation approprié, tel que la borne d’erreur est faible. Si pmax se trouve être supérieur
à r, alors r est la plus grande valeur de p ∈ {1 . . . pmax } pour laquelle la borne d’erreur a posteriori
1
est nulle. Dans tous les cas, détecter les maxima de la fonction d’erreur inverse J : p 7→ kE(p)k 2 dans
2
l’intervalle {1 . . . pmax } est une approche pertinente pour sélectionner l’ordre du modèle. En présence
de bruit, une façon robuste de déterminer l’ordre de modélisation consiste à sélectionner la plus grande
valeur de p pour laquelle la fonction J(p) est supérieure à un certain seuil, choisi de façon empirique
(typiquement de l’ordre de 100). Des exemples d’une telle fonction sont représentés dans les simulations
numériques (section IV.4). La proposition IV.3.1 montre que les valeurs de la fonction J sont dans
l’intervalle [1, +∞[ (la démonstration figure en annexe dans la section A.10, page 190).

Proposition IV.3.1. Pour tout p ∈ {1, . . . , n}, kE(p)k2 ≤ 1.

Ce critère mesure l’invariance rotationnelle de W (p), puisque par définition la propriété d’invariance
rotationnelle est vérifiée exactement si kE(p)k2 = 0. L’inconvénient de la méthode ESTER est qu’une
implémentation directe est coûteuse.
Remarque. A partir de cette section et jusqu’à la fin de ce document, toutes les complexités seront
exprimées en MACs (une multiplication plus une accumulation).
3
Cette borne d’erreur a posteriori est inférieure à celle proposée dans [Badeau et al., 2004b], en raison de la valeur
inférieure de κ2 .
IV.3. SÉLECTION D’UN ORDRE DE MODÉLISATION APPROPRIÉ REPOSANT SUR
L’ERREUR D’ESTIMATION 57

Tout d’abord, les vecteurs singuliers w(p) doivent être calculés pour tout p ∈ {1 . . . pmax }, ce qui
requiert O(N log2 (N )pmax + np2max ) opérations, par le biais de l’algorithme d’itération orthogonale
présenté dans la section V.2. Ensuite la matrice E(p) doit être calculée pour tout p ∈ {1, . . . , pmax }.
Un tel calcul nécessiterait 3np2 MACs pour chaque p, si bien que la complexité totale serait de np3max
MACs4 . Ce coût doit être comparé à celui des ITC illustrés dans la section IV.4. En particulier, les
complexités des critères AIC, MDL [Wax et Kailath, 1985] et EDC [Zhao et al., 1986a] est linéaire
en pmax . Cependant, contrairement à la méthode ESTER, ces ITC requièrent la SVD complète de la
matrice de données, dont la complexité est O(N 3 ). Par ailleurs, les ITC proposés dans [Zhang et Wong,
1993] pour traiter le cas d’un bruit additif coloré ont également une complexité égale à O(N 3 ). Par
conséquent, les complexités relatives de ESTER et des ITC dépendent de pmax .
Pour rendre la méthode ESTER plus rapide, une implémentation efficace est proposée ici, résumée
dans la table IV.1. Elle nécessite seulement 6np+O(p2 ) MACs pour chaque p, si bien que sa complexité
totale est 3np2max + O(p3max ) (hors calcul des vecteurs singuliers). En particulier, calculer les matrices
E(p) pour tout p ∈ {1 . . . pmax } de cette façon n’est pas plus coûteux que de calculer directement
E(pmax ). Les sections IV.3.1 et IV.3.2 présentent des méthodes rapides pour calculer Φ(p) et E(p)
récursivement.

IV.3.1 Calcul récursif de Φ(p)


Un calcul direct de Φ(p) pour tout p ∈ {1 . . . pmax } à partir de l’équation (IV.1) nécessiterait
2np2 + O(p3 ) MACs pour chaque p, et la complexité totale serait égale à 32 np3max + O(p4max ). Cette
section vise à calculer la matrice Φ(p) de dimension p × p récursivement, dans le but de réduire la
complexité. L’équation (IV.1) se réécrit sous la forme
Φ(p) = Ω(p) Ψ(p) (IV.6)
où Ω(p) et Ψ(p) sont des matrices de dimension p × p :
−1
Ω(p) , W ↓ (p)H W ↓ (p) (IV.7)
H
Ψ(p) , W ↓ (p) W ↑ (p). (IV.8)
La matrice Ω(p) peut être calculée facilement. En effet, puisque la matrice W (p) est orthonormée,
W (p)H W (p) = I p . En particulier, cette équation montre que W ↓ (p)H W ↓ (p) = I p − ν(p) ν(p)H ,
où ν(p) est le vecteur de dimension p tel que ν(p)H est la dernière ligne de W (p). Enfin, le lemme
d’inversion matricielle A.8.1 présenté en annexe (page 182) montre que
1
Ω(p) = I p + 1−kν(p)k2
ν(p) ν(p)H . (IV.9)

De plus, Ψ(p) peut être mise à jour récursivement. En effet, l’équation (IV.8) montre que
 
Ψ(p − 1) ψ r (p)
Ψ(p) = (IV.10)
ψ l (p)H ψlr (p)

où ψ r (p) , W ↓ (p − 1)H w↑ (p), ψ l (p) , W ↑ (p − 1)H w ↓ (p) et ψlr (p) , w↓ (p)H w↑ (p). Le calcul de
Ψ(p) à partir de Ψ(p − 1) requiert seulement 2np MACs.
Enfin, Φ(p) peut être calculée à partir de Ψ(p). En effet, en substituant l’équation (IV.9) dans
l’équation (IV.6) on obtient
1
Φ(p) = Ψ(p) + 1−kν(p)k2
ν(p) ϕ(p)H (IV.11)

4
En pratique pmax est supposé être très inférieur à n.
58 CHAPITRE IV. ESTIMATION DE L’ORDRE DE MODÉLISATION


ϕ(p) , Ψ(p)H ν(p). (IV.12)
Le calcul de Φ(p) à partir de Ψ(p) requiert seulement p2 + O(p) MACs, plus le calcul de ϕ(p). Cette
dernière opération nécessite normalement p2 MACs, mais le lemme IV.3.2 suggère une implémentation
récursive, en seulement O(p) MACs.

Lemme IV.3.2. Soit µ(p) le nombre complexe tel que


 
ν(p − 1)
ν(p) = (IV.13)
µ(p)

Alors ϕ(p) satisfait la récurrence


 
ϕ(p − 1) + µ(p) ψ l (p)
ϕ(p) = (IV.14)
ψ r (p)H ν(p − 1) + µ(p) ψlr (p)∗

Démonstration. L’assertion se démontre en substituant les équations (IV.10) et (IV.13) dans l’équation
(IV.12).

Enfin, le calcul récursif de Φ(p) consiste à calculer Ψ(p) à partir de Ψ(p − 1) en utilisant l’équa-
tion (IV.10), puis à calculer ϕ(p) à partir de ϕ(p − 1) en utilisant l’équation (IV.14), puis à calculer
Φ(p) à partir de Ψ(p) en utilisant l’équation (IV.11). Cette méthode requiert 2np + O(p2 ) MACs à
chaque itération. Par conséquent, son coût total est de np2max + O(p3max ) MACs.

IV.3.2 Calcul récursif de E(p)


Supposons ici que tous les Φ(p) ont été calculés. Un calcul direct de E(p) pour tout p ∈ {1 . . . pmax }
à partir de l’équation (IV.5) nécessiterait np2 MACs pour chaque p, et la complexité totale serait
1 3
3 npmax . Cette section vise à calculer E(p) récursivement, dans le but de réduire la complexité.
En substituant l’équation (IV.11) dans l’équation (IV.5), on montre que

1
E(p) = Ξ(p) − (W ↓ (p) ν(p)) ϕ(p)H (IV.15)
1 − kν(p)k2


Ξ(p) , W ↑ (p) − W ↓ (p) Ψ(p). (IV.16)
Le calcul de E(p) à partir de Ξ(p) nécessite 2np MACs. Ensuite en substituant l’équation (IV.10) dans
l’équation (IV.16), on obtient une récurrence pour la matrice Ξ(p) de dimensions (n − 1) × p :
 
Ξ(p) = Ξ(p − 1) − w↓ (p) ψ l (p)H ξ(p) (IV.17)

où ξ(p) , w↑ (p) − W ↓ (p − 1) ψ r (p) − w↓ (p) ψlr (p). Le calcul de Ξ(p) à partir de Ξ(p − 1) requiert
2np MACs. Enfin, le calcul récursif de E(p) consiste à calculer Ξ(p) à partir de Ξ(p − 1) avec l’équa-
tion (IV.17), puis à calculer E(p) à partir de Ξ(p) avec l’équation (IV.15). Cette méthode requiert
4np MACs à chaque étape. Ainsi son coût global est de 2np2max MACs. Par conséquent, calculer les
matrices Φ(p) et E(p) pour tout p ∈ {1 . . . pmax } n’est pas plus coûteux que de les calculer seulement
pour p = pmax . Dans les deux cas, la complexité totale est de 3np2max + O(p3max ) MACs.
Le pseudo-code complet du calcul de E(p) pour tout p ∈ {1 . . . pmax } est présenté dans la table IV.1.
Le calcul des matrices Ψ(p) et Φ(p) n’est même pas nécessaire.
IV.4. SIMULATIONS NUMÉRIQUES 59

Tab. IV.1 – Calcul récursif de E(p)

Initialisation
Calculer w(p) pour tout p = 1 . . . pmax , ϕ(0) = [], Ξ(0) = []

Pour p = 1 à pmax

Mise à jour de la matrice auxiliaire Ψ(p) Cot
 ψ r (p) = W ↓ (p − 1)H w↑ (p) np

 ψ (p) = W ↑ (p − 1)H w↓ (p) np
 l
 ψlr (p) = w↓ (p)H w↑ (p) n



 Mise à jour de la matrice auxiliaire Ξ(p)

 ξ(p) = w (p) − W (p − 1) ψ (p) − w (p) ψ (p) np
 ↑ ↓ ↓ lr
 Ξ(p) =  Ξ(p − 1) − w (p) ψ (p)H ξ(p) 
r
 ↓ l np



 Calcul de E(p) à partir de Ξ(p) 

 ϕ(p − 1) + µ(p) ψ l (p)
 ϕ(p) = 2p
 ψ r (p)H ν(p − 1) + µ(p) ψlr (p)∗
1 H
E(p) = Ξ(p) − 1−kν(p)k 2 (W ↓ (p) ν(p)) ϕ(p) 2np

IV.4 Simulations numériques


La section IV.4.1 illustre la pertinence des bornes d’erreur dans le cas de pôles simples (mo-
dèle ESM). Ensuite la méthode ESTER est appliquée à des signaux synthétiques (sections IV.4.2
et IV.4.3) et à un signal de musique (section IV.4.4).

IV.4.1 Pertinence des bornes d’erreur a priori et a posteriori

Dans cette section, la pertinence des bornes d’erreur a priori et a posteriori est illustrée. Le signal de
test est une somme de r = 20 exponentielles complexes non amorties de même amplitude αk = 1, dont
les fréquences sont distribuées aléatoirement dans l’intervalle [− 21 , 12 ]. Le conditionnement supérieur
de l’espace signal satisfait 1 ≤ κ2 ≤ 1.05. Les vecteurs singuliers formant les matrices W (p) ont été
obtenus en calculant la SVD d’une matrice de Hankel comprenant n = 512 lignes et l = 512 colonnes,
qui contient les n + l − 1 = 1023 échantillons du signal complet. Pour tout p ∈ {1 . . . pmax = r}, les
valeurs propres zb(p,m) m∈{1...p} de la matrice Φ(p) ont été calculées.
Dans la figure IV.1-a, la ligne continue représente les erreurs sur les valeurs propres obtenues pour
p = 7 < r, c’est-à-dire
 
min |bz(7,m) − zk |
k∈{1...r} m∈{1...7}

triées par ordre croissant. La ligne pointillée représente les bornes d’erreur a priori correspondantes,
c’est-à-dire
 
κ2 σmin W ↑ (7) − zb(7,m) W ↓ (7) m∈{1...7}
60 CHAPITRE IV. ESTIMATION DE L’ORDRE DE MODÉLISATION

La ligne pointillée est au-dessus de la ligne continue (comme prévu), et les variations de la ligne
pointillée suivent celles de la ligne continue, ce qui suggère que la borne d’erreur a priori est pertinente.
(a) Borne d’erreur a priori (p = 7)
0.8

0.6

0.4

Erreur
0.2

0
1 2 3 4 5 6 7
Ordre des valeurs propres

(b) Borne d’erreur a posteriori

1.2

0.8
Erreur maximale

0.6

0.4

0.2

0
5 10 15 20 25
Ordre de modélisation

Fig. IV.1 – Bornes d’erreur a priori et a posteriori

(a) Borne d’erreur a priori vs. erreur sur les valeurs propres à l’ordre p = 7
(b) Borne d’erreur a posteriori vs. erreur maximale sur les valeurs propres comme fonction de p

Dans la figure IV.1-b, la ligne continue représente l’erreur maximale sur les valeurs propres obtenue
pour tous les ordres de modélisation, c’est-à-dire

max min |b
z(p,m) − zk |
m∈{1...p} k∈{1...r}

comme fonction de p. La ligne pointillée représente les bornes d’erreur correspondantes, c’est-à-dire
κ2 kE(p)k2 comme fonction de p. Comme pour la borne d’erreur a priori, la ligne pointillée est au-
dessus de la ligne continue (comme prévu), et que les variations de la ligne pointillée suivent celles de la
ligne continue. Cela suggère que la borne d’erreur a posteriori est un critère pertinent pour caractériser
l’erreur d’estimation des valeurs propres. Ci-dessous, ce critère est utilisé pour déterminer l’ordre de
modélisation, comme cela a été proposé dans la section IV.3.

IV.4.2 Sélection de l’ordre du modèle pour un signal synthétique


Le signal de test est une somme de r = 5 exponentielles complexes non amorties et d’un bruit
complexe coloré. Pour chaque k ∈ {1, . . . , r}, la kème exponentielle est caractérisée par son amplitude
αk et son pôle zk = ei2πfk , où fk ∈ R est sa fréquence. Les valeurs des paramètres sont données
1
dans la table IV.2. Le bruit additif a été obtenu en appliquant le filtre H(z) = 1−0.95 z −1
à un bruit

Tab. IV.2 – Paramètres du signal synthétique

Fréquence 0.1 Hz 0.102 Hz 0.4 Hz 0.7 Hz 0.9 Hz


Amplitude 100 100 10 50 100

blanc gaussien complexe, dont la variance a été choisie de façon à ce que le RSB soit de 40 dB. Le
périodogramme du signal de test ainsi obtenu est représenté dans la figure IV.2-a. Il a été calculé à partir
IV.4. SIMULATIONS NUMÉRIQUES 61

(a) Périodogramme du signal de test


100

Puissance (dB)
50

−50
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Fréquence réduite (Hz)

(b) Valeurs singulières


Valeurs singulières (dB) 90

80

70

60

50

40

30

20
0 5 10 15 20 25
Ordre des valeurs singulières

Fig. IV.2 – Périodogramme et valeurs singulières du signal synthétique

(a) Périodogramme du signal synthétique en dB


(b) Valeurs singulières du signal synthétique triées par ordre décroissant

d’un signal de longueur 255, multiplié par une fenêtre de Blackman, choisie pour sa forte réjection des
lobes secondaires (-57 dB), et complété par des zéros de façon à obtenir 65536 points dans le domaine
fréquentiel. En particulier, les deux exponentielles complexes de plus basses fréquences ne sont pas
résolues par le périodogramme5 .
La méthode ESTER est comparée à plusieurs autres méthodes de sélection de l’ordre de modélisa-
tion, parmi lesquelles trois ITC : les critères AIC [Wax et Kailath, 1985], MDL [Wax et Kailath, 1985],
et EDC [Zhao et al., 1986a] qui est une généralisation
p robuste de AIC et MDL (cf. section I.5.1). Pour
le critère EDC, nous avons choisi C(l) = l ln(ln(l)), pour laquelle nous avons obtenu les meilleurs
résultats. Les valeurs singulières ont été obtenues en calculant la SVD d’une matrice de Hankel compre-
nant n = 128 lignes et l = 128 colonnes, qui contient les n + l − 1 = 255 échantillons du signal complet.
La figure IV.2-b représente les pmax = 25 plus grandes valeurs singulières. Les valeurs singulières ne
présentent pas de décroissance significative au delà de p = 5.
La figure IV.3-a représente les critères AIC (ligne continue), MDL (tirets) et EDC (ligne pointillée),
pour p ∈ {1 . . . pmax }. Aucun d’entre eux n’atteint de minimum pour p = r = 5. Cet échec pourrait
être expliqué par la présence du bruit environnant, dont la densité spectrale de puissance n’est pas
uniforme, contrairement à l’hypothèse de bruit blanc additif sur laquelle ces estimateurs reposent
fondamentalement. Comme on s’y attendait, le critère EDC est plus robuste que les critères AIC et
MDL, mais son minimum est obtenu en p = 8. La figure IV.3-b représente le critère proposé dans [Liavas
et al., 1999] pour détecter la cassure dans la décroissance des valeurs propres. On peut remarquer que
ce critère sélectionne la bonne valeur p = r = 5, mais la valeur p = 3 est presque autant accentuée. La
figure IV.3-c représente les nouveaux ITC proposés dans [Zhang et Wong, 1993] pour traiter le cas d’un
bruit additif coloré6 . Les meilleurs résultats ont été obtenus avec le critère C2 , qui atteint un minimum
en p = 6 ≃ r.
Enfin, la figure IV.3-d représente la fonction d’erreur inverse J for p ∈ {1, . . . , pmax }. Le maximum
5
En fait elles ne sont pas résolues non plus si on utilise une fenêtre rectangulaire, dont la réjection est plus faible,
mais dont le lobe principal est plus étroit que celui de la fenêtre de Blackman.
6
Ces nouveaux critères sont nommés C1 (ligne continue), C2 (tirets), Cm1 (ligne pointillée) et Cm2 (cercles). La valeur
commune des paramètres M1 et M2 définis dans [Zhang et Wong, 1993] a été fixée à n2 − 1.
62 CHAPITRE IV. ESTIMATION DE L’ORDRE DE MODÉLISATION

5 (a) Critères de théorie de l’information pour du bruit blanc


x 10
2

0
5 10 15 20 25
(b) Critère de stabilité
1

0.5

0
5 10 15 20 25
4
x 10 (c) Critères de théorie de l’information pour du bruit coloré
3

0
5 10 15 20 25
4
x 10 (d) Critère ESTER
15

10

5 10 15 20 25
Ordre de modélisation

Fig. IV.3 – Sélection de l’ordre du modèle pour le signal synthétique

(a) Critères AIC, MDL et EDC


(b) Critère de stabilité
(c) Critères C1 , C2 , Cm1 et Cm2
(d) Critère ESTER

global est atteint en p = r = 5, malgré le bruit environnant, qui n’était pas inclus dans le modèle.

IV.4.3 Comparaison statistique des performances


Dans cette section, la méthode ESTER et les méthodes de sélection de l’ordre de modélisation
mentionnées ci-dessus sont appliquées à divers signaux synthétiques. Ces signaux sont composés d’une
somme de sinusoïdes réelles non amorties et d’un bruit coloré. Le nombre de sinusoïdes est uniformé-
ment distribué entre 1 et 10, si bien que l’ordre du modèle r appartient à l’intervalle {2 . . . 20}. Leurs
amplitudes, phases et fréquences sont distribuées aléatoirement dans les intervalles [1, 10], ] − π, π] et
− 12 , 21 respectivement. Le bruit additif est obtenu en filtrant un bruit blanc gaussien par le filtre
passe-haut 1 − 0.5 z −1 (dont la réjection est inférieure à 10 dB).
Comme nous l’avons proposé dans la section IV.3, la robustesse de la méthode ESTER est améliorée
en sélectionnant la plus grande valeur de p pour laquelle le critère J(p) est supérieur à un seuil (ici égal
à un dixième du maximum global de J(p)). Les tables IV.3 et IV.4 présentent les taux d’estimations
exactes de l’ordre r, moyennés sur 10000 réalisations indépendantes, pour diverses valeurs de N et du
RSB (les autres paramètres d’analyse sont n = ⌊N/2⌋ et pmax = 22). Dans la table IV.3, le RSB est
fixé à 20 dB, et l’expérience est réalisée pour N = 125, N = 250 et N = 500. Dans la table IV.4, N
is fixé à 250, et l’expérience est réalisée pour des SNR de 10 dB, 20 dB et 30 dB. Les pourcentages
obtenus ont été arrondis vers l’entier le plus proche, car le nombre de réalisations (10000) garantit un
IV.4. SIMULATIONS NUMÉRIQUES 63

Tab. IV.3 – Comparaison des performances pour diverses valeurs de N


N 125 250 500
AIC 8% 2% 0%
MDL 48 % 61 % 70 %
EDC 38 % 58 % 77 %
Critère de stabilité 47 % 63 % 76 %
C2 35 % 44 % 44 %
ESTER 48 % 63 % 76 %

Tab. IV.4 – Comparaison des performances pour divers RSB


RSB 10 dB 20 dB 30 dB
AIC 3% 2% 2%
MDL 45 % 61 % 65 %
EDC 18 % 58 % 77 %
Critère de stabilité 28 % 63 % 75 %
C2 13 % 44 % 61 %
ESTER 36 % 63 % 76 %

intervalle de confiance de ±1% autour du taux estimé, pour un taux de confiance de 95%.
On peut remarquer que le critère AIC n’est pas suffisamment robuste pour traiter ces données
synthétiques. Par ailleurs, les taux obtenus pour le critère C2 (conçu pour traiter le cas d’un bruit
additif coloré [Zhang et Wong, 1993]) sont toujours inférieurs à ceux de toutes les autres méthodes.
Le critère MDL semble plus robuste que ESTER à des RSB faibles. Cependant, ESTER s’avère plus
performant pour des valeurs élevées de N ou du RSB. Comparé au critère EDC, ESTER présente
des performances similaires pour des valeurs élevées de N ou du RSB, mais s’avère plus robuste à de
faibles valeurs de N ou du RSB. Enfin, ESTER atteint des performances voisines de celles du critère
de stabilité [Liavas et al., 1999] pour toutes les valeurs de N . Il est néanmoins plus robuste à de faibles
RSB. Ainsi, bien que la méthode ESTER repose sur un modèle de signal non bruité, ses performances
ne s’effondrent pas pour de faibles RSB.

IV.4.4 Sélection de l’ordre du modèle pour un signal de musique


Cette section illustre l’application de la méthode ESTER à un signal de musique. L’étude porte sur
une note de piano, le do de la 5ème octave, échantillonné à 11025 Hz, à partir duquel un segment de
255 échantillons (23 ms) a été extrait. Les signaux audio nécessitent souvent un pré-traitement avant
de pouvoir appliquer l’algorithme ESPRIT. Par exemple, les signaux contenant un nombre élevé de
sinusoïdes (typiquement les sons graves) peuvent être d’abord décomposés en plusieurs sous-bandes
(par filtrage et décimation, comme cela est proposé dans [Laroche, 1993]). Dans cet exemple, ce pré-
traitement n’est pas utilisé, puisque la note de piano choisie a peu de composantes sinusoïdales. Par
ailleurs, la puissance des signaux audio décroît lorsque la fréquence augmente. Nous avons ainsi utilisé
un filtre de pré-accentuation obtenu par prédiction linéaire à l’ordre 7 pour compenser cette décrois-
sance.
Le périodogramme du signal de piano filtré est affiché dans la figure IV.4-a. Dans cette figure, seize
pics spectraux émergent clairement du niveau de bruit environnant. Les pmax = 40 plus grandes valeurs
64 CHAPITRE IV. ESTIMATION DE L’ORDRE DE MODÉLISATION

(a) Périodogramme du signal de piano


0

−20

Puissance (dB)
−40

−60

−80

−100

−120
0 2000 4000 6000 8000 10000
Fréquence (Hz)

(b) Valeurs singulières


−10

Valeurs singulières (dB) −20

−30

−40

−50

−60
0 5 10 15 20 25 30 35 40
Ordre des valeurs singulières

Fig. IV.4 – Périodogramme et valeurs singulières du signal de piano

(a) Périodogramme du signal de piano en dB


(b) Valeurs singulières du signal de piano triées par ordre décroissant

singulières de la matrice de données7 sont représentées dans la figure IV.4-b. Ces valeurs singulières
s’effondrent de façon significative au delà de p = 16, ce qui suggère un ordre de modélisation égal à 16.
La figure IV.5-a représente les critères AIC (ligne continue), MDL (tirets) et EDC (ligne poin-
tillée). Seul EDC atteint un minimum en p = 16. Cependant ce minimum n’est pas beaucoup plus
petit que les valeurs voisines. La figure IV.5-b représente le critère de stabilité proposé dans [Liavas
et al., 1999]. Contrairement aux ITC mentionnés ci-dessus, ce critère sélectionne ici la bonne valeur
p = 16. La figure IV.5-c représente les critères ITC proposés dans [Zhang et Wong, 1993], avec les
mêmes paramètres que dans la section IV.4.2. Aucun d’entre eux n’atteint de minimum en p = 16.
La figure IV.5-d représente la fonction d’erreur inverse J pour tout p ∈ {1, . . . , pmax }. Le maximum
global est atteint en p = 16. De plus, les bornes d’erreur obtenues pour des valeurs inférieures de p
sont pertinentes. En effet, des valeurs élevées sont atteintes en p = 4, 6, 12, ce qui correspond en fait
à des petits sauts dans la décroissance des valeurs singulières (représentées dans la figure IV.4-b). Par
conséquent, la méthode ESTER donne l’ordre de modélisation attendu, et de plus les bornes d’erreur
peuvent être utilisées pour quantifier l’adéquation d’un éventuel ordre de modélisation inférieur. En
particulier, les ordres impairs ne sont pas adaptés au signal. En effet, puisque ce signal est à valeurs
réelles et centré, son spectre est à symétrie hermitienne sans composante constante, ce qui sous-tend
un ordre de modélisation pair.

IV.5 Conclusion
Dans ce chapitre, nous avons décrit la perturbation de l’estimation du modèle PACE induite par
un ordre de modélisation erroné, en l’absence de bruit. Si l’ordre du modèle est sur-estimé, les pôles
originaux se trouvent parmi les pôles estimés. Inversement, si l’ordre est sous-estimé, les pôles estimés
peuvent être vus comme des approximations de certains des pôles originaux. Dans ce dernier cas, nous
avons déterminé une borne d’erreur a posteriori, qui peut être calculée sans connaître l’ordre exact du
modèle. A partir de cette observation, nous avons introduit la méthode ESTER, qui sélectionne un
7
Les valeurs singulières ont été obtenues en calculant la SVD d’une matrice de Hankel contenant n = 128 lignes et
l = 128 colonnes, comme dans la section IV.4.2.
IV.5. CONCLUSION 65

4 (a) Critères de théorie de l’information pour du bruit blanc


x 10
15

10

0
5 10 15 20 25 30 35 40
(b) Critère de stabilité
1

0.5

0
5 10 15 20 25 30 35 40
4 (c) Critères de théorie de l’information pour du bruit coloré
x 10
4

0
5 10 15 20 25 30 35 40
(d) Critère ESTER
8000
6000
4000
2000

5 10 15 20 25 30 35 40
Ordre de Modélisation

Fig. IV.5 – Sélection de l’ordre du modèle pour le signal de piano

(a) Critères AIC, MDL et EDC


(b) Critère de stabilité
(c) Critères C1 , C2 , Cm1 et Cm2
(d) Critère ESTER

ordre de modélisation approprié. La détermination de l’ordre de modélisation est une étape essentielle
du processus d’estimation, car elle conditionne toute la suite de l’analyse à haute résolution du signal.
Puisque la méthode initiale était assez coûteuse, nous avons proposé un algorithme rapide pour calculer
récursivement les bornes d’erreur a posteriori. Ensuite, nous avons montré la pertinence de critère en
tant que borne d’erreur, et les performances de la méthode ESTER ont été illustrées sur un signal
synthétique et sur un signal de piano. Nous avons ainsi observé que cette méthode est plus robuste
que les Critères de Théorie de l’Information (ITC). De plus, les bornes d’erreur peuvent être utilisées
pour quantifier l’adéquation d’un éventuel ordre de modélisation inférieur, ce qui offre des perspectives
intéressantes en terme de codage.
66 CHAPITRE IV. ESTIMATION DE L’ORDRE DE MODÉLISATION
67

Chapitre V

Optimisation de l’algorithme d’estimation

Résumé
L’inconvénient principal de la méthode d’estimation basée sur l’algorithme ESPRIT
généralisé (présentée dans le chapitre II) est sa lenteur. Le présent chapitre vise
à optimiser les calculs afin de réduire sa complexité. Toutes les étapes sont ainsi
optimisées, à commencer par l’estimation de l’espace signal, qui constitue l’étape
la plus coûteuse, grâce à l’algorithme d’itération orthogonale (optimisé à l’aide de
produits de convolution rapides). Nous proposons également des méthodes originales
de calcul de la matrice spectrale et d’estimation des amplitudes. Ce chapitre constitue
aussi une introduction aux algorithmes rapides de poursuite des paramètres présentés
dans la deuxième partie.
68 CHAPITRE V. OPTIMISATION DE L’ALGORITHME D’ESTIMATION

V.1 Introduction
Une optimisation des calculs intervenant dans l’algorithme d’estimation introduit dans les sec-
tions II.5 et II.6 est développée dans ce chapitre. Pour cela, il convient dans un premier temps d’analyser
en détail le coût de cette méthode d’estimation. Rappelons qu’elle comprend quatre étapes :
– estimation d’une base de l’espace signal W (t),
– calcul de la matrice spectrale Φ(t),
– calcul des valeurs propres de Φ(t),
– estimation des amplitudes complexes α(t) par la méthode des moindres carrés ordinaires (dans
tout ce chapitre, le bruit additif est supposé blanc ; nous ne nous intéresserons plus à l’estimation
de sa variance).

Remarque. Comme nous l’avons mentionné dans la section IV.3, dans ce document toutes les com-
plexités sont exprimées en MACs (une multiplication plus une accumulation), et sont des fonctions des
paramètres n, l et r. Dans la pratique, les dimensions de la matrice de données sont choisies de façon
à ce que r << min(n, l).

Tout d’abord, l’estimation de l’espace signal peut être faite de deux manières différentes : via la
SVD de la matrice de données X(t), ou via l’EVD de la matrice de covariance empirique C xx (t) 1 .
Cette dernière solution comprend deux étapes :
– le calcul de C xx (t) = X(t) X(t)H requiert ln2 MACs ;
– ensuite, la diagonalisation de C xx (t), via l’algorithme QR symétrique [Golub et Van Loan, 1996,
pp. 421], est de complexité O(n3 ).
Si seul W (t) est requis (i.e. l’espace singulier gauche), le coût de la SVD de X(t) est du même ordre de
grandeur, via l’algorithme Golub-Reinsch [Golub et Van Loan, 1996, pp. 253–254]. Dans la suite ne sera
retenue que la méthode reposant sur l’EVD de C xx (t) qui, comme nous le verrons, offre des possibilités
de simplification intéressantes. L’étape suivante est le calcul de la matrice spectrale Φ(t) par la méthode
des moindres carrés ou des moindres carrés totaux (cf. section II.5.3), dont la complexité est O(nr 2 ).
Ensuite, le calcul des valeurs propres de Φ(t) requiert O(r 3 ) MACs, via l’algorithme QR [Golub et

Van Loan, 1996, pp. 359]. Enfin, le calcul des amplitudes complexes α(t) b = V N x(t) est de complexité
O(N r 2 ).
Il apparaît donc que l’étape limitante est l’estimation de l’espace signal, sur laquelle l’effort d’opti-
misation doit porter prioritairement (section V.2). Les deux idées exploitées dans cette section ont été
originalement proposées par R. Boyer [Boyer et al., 2002]. L’optimisation des autres étapes sera ensuite
abordée dans la section V.3. Enfin, un bilan des diverses optimisations apportées à l’algorithme sera
dressé dans la section V.4.

V.2 Estimation de l’espace signal


Tout d’abord, la diagonalisation complète de la matrice C xx (t) entraîne des calculs superflus,
puisque en réalité seuls les r principaux vecteurs propres sont requis. Il est préférable d’utiliser l’al-
gorithme d’itération orthogonale présenté ci-dessous, qui ne calcule justement que les r principaux
vecteurs propres.

1
Il est également possible de calculer l’EVD de la matrice de données, dans le cas particulier où celle-ci, en plus d’avoir
une structure Hankel, est carrée et réelle, comme cela a été fait dans [Badeau et al., 2002] (cet article est reproduit en
annexe dans le chapitre C).
V.2. ESTIMATION DE L’ESPACE SIGNAL 69

V.2.1 Algorithme d’itération orthogonale


L’algorithme d’itération orthogonale [Golub et Van Loan, 1996] est une méthode itérative qui est
initialisée avec une matrice orthonormée W (t, 0) de dimension n × r, tirée aléatoirement. Théorique-
ment, cette matrice doit vérifier certaines conditions pour que l’algorithme converge, mais dans la
pratique, ces conditions sont vérifiées presque sûrement (i.e. avec probabilité 1). A chaque itération,
l’algorithme calcule une matrice de covariance «compressée», de dimension n × r :

C xy (t, i) , C xx (t) W (t, i − 1).

Cette matrice est ensuite orthonormalisée à l’aide d’une factorisation orthogonale-triangulaire


(QR) :
W (t, i) R(t, i) = C xy (t, i) (V.1)
où W (t, i) est une matrice orthonormée de même dimension n × r, et R(t, i) est une matrice carrée de
dimension r × r, triangulaire supérieure. L’algorithme d’itération orthogonale est résumé ci-dessous :

Tirage aléatoire de W (t, 0)


Itération sur i ≥ 1 jusqu′ à convergence

C xy (t, i) = C xx (t) W (t, i − 1) produit matriciel, n2 r MACs
W (t, i) R(t, i) = C xy (t, i) factorisation QR, nr 2 MACs
Fin itération

Il est démontré dans [Golub et Van Loan, 1996, pp. 410–411] que si les r plus grandes valeurs
propres de C xx (t) sont strictement supérieures aux n − r autres valeurs propres, la matrice W (t, i)
i
λr+1
converge vers W (t), et la vitesse de convergence est exponentielle : λr quand i → +∞. Nous
écrirons ce résultat sous la forme
W (t, ∞) = W (t). (V.2)
De même, R(t, i) converge vers une matrice diagonale contenant les r valeurs propres principales de
C xx (t).
Le coût de la factorisation QR dépend du procédé utilisé. La technique la plus rapide est la méthode
de Gram-Schmidt modifiée [Golub et Van Loan, 1996, pp. 231–232], dont la complexité est nr 2 . Ainsi, la
complexité globale de l’algorithme est O(n2 r) ; il est donc plus rapide que l’algorithme QR symétrique,
qui calcule tous les vecteurs propres en O(n3 ) MACs. Cependant, il nécessite quand même le calcul
préalable de C xx (t), qui requiert ln2 MACs.
Pour éviter ce calcul superflu, posons

Y (t, i) , W (t, i − 1)H X(t). (V.3)

Alors on vérifie que


C xy (t, i) = X(t)Y (t, i)H . (V.4)
On obtient ainsi l’algorithme suivant :

Tirage aléatoire de W (t, 0)


Itération
 sur i ≥ 1 jusqu′ à convergence
Y (t, i) = W (t, i − 1)H X(t) produit matriciel, lnr MACs
 C xy (t, i) = X(t)Y (t, i)H produit matriciel, lnr MACs
W (t, i) R(t, i) = C xy (t, i) factorisation QR nr 2 MACs
Fin itération
70 CHAPITRE V. OPTIMISATION DE L’ALGORITHME D’ESTIMATION

La complexité globale de l’algorithme d’estimation des paramètres est alors réduite à O(lnr) (au
lieu de O(N 3 )), mais l’étape limitante reste le calcul de l’espace signal. Il convient donc de pousser
plus loin les efforts d’optimisation.

V.2.2 Produit matriciel rapide


Cette section vise à réduire la complexité des produits (V.3) et (V.4). On considère un signal à
temps discret v(t), nul hors de l’intervalle {0, . . . , l − 1}, et le vecteur v = [v(l − 1), v(l − 2), . . . , v(0)]T
de dimension l. De même, on considère le signal à temps discret x e, nul hors de l’intervalle {t − l +
1, . . . , t + n − 1}, et dont les échantillons sur cet intervalle sont ceux de x. De par la structure Hankel de
la matrice X(t), il apparaît très clairement que le vecteur X(t) v contient les échantillons aux instants
{t, . . . , t + n − 1} du produit de convolution des signaux x e et v :

    
x(t − l + 1) . . . x(t − 1) x(t) v(l − 1) (e
x ∗ v)(t)
 x(t − l + 2) . . . x(t) x(t + 1)  v(l − 2)   (e
x ∗ v)(t + 1) 
    
 .. .. ..  .. = .. 
 . ... . .  .   . 
x(t − l + n) . . . x(t + n − 2) x(t + n − 1) v(0) (e
x ∗ v)(t + n − 1)
Or il est connu qu’un produit de convolution se calcule de manière rapide par le biais de l’algorithme
FFT (on peut consulter par exemple [Williams et Madisetti, 1999] pour référence). Plus précisément,
soit N ′ la puissance de 2 immédiatement supérieure à N = l + n − 1. Les n coefficients du vecteur
X(t) v sont également les n premiers échantillons du produit de convolution circulaire entre les signaux

x̄ = {x(t), x(t + 1), . . . , x(t + n − 1), 0, . . . , 0, x(t − l + 1), x(t − l + 2), . . . , x(t − 1)}

et v̄ = {v(0), v(1), . . . , v(l − 1), 0, . . . , 0}, de même longueur finie N ′ .


Ce produit de convolution circulaire s’obtient en calculant la FFT inverse du produit des FFT de x̄
et v̄. Or il est connu que la FFT d’un signal de longueur N ′ coûte N ′ log2 (N ′ ) MACs. Comme le calcul
du produit de convolution fait intervenir trois transformations rapides et un produit terme à terme de
deux vecteurs de dimension N , le coût total est 3N ′ log2 (N ′ ) + N ′ MACs. En particulier, si la FFT de
x̄ est précalculée, le coût de ce produit de convolution est réduit à 2N ′ log2 (N ′ ) + N ′ MACs.
Ainsi, dans la deuxième version de l’algorithme d’itération orthogonale proposée dans la sec-
tion V.2.1, le produit X(t)Y (t, i)H peut être calculé en appliquant cette méthode à chaque colonne de
la matrice Y (t, i)H . Si la FFT de x̄ est précalculée, cette opération coûte 2N ′ r log2 (N ′ ) + N ′ r MACs.
La même approche peut être utilisée pour calculer un produit wH X(t), où w est un vecteur colonne
de dimension n ; le coût d’une telle opération serait identique. Ainsi, dans l’algorithme d’itération ortho-
gonale, le produit W (t, i − 1)H X(t) peut être calculé en appliquant cette méthode à chaque colonne de
la matrice W (t, i − 1). Si la FFT de x̄ est précalculée, cette opération coûte encore 2N ′ r log2 (N ′ ) + N ′ r
MACs. L’algorithme faisant intervenir ces produits rapides est résumé ci-dessous :

Tirage aléatoire de W (t, 0)


Itération
 sur i ≥ 1 jusqu′ à convergence
Y (t, i) = W (t, i − 1)H X(t) produit matriciel rapide, 2N r log2 (N ) + N r MACs
 C xy (t, i) = X(t)Y (t, i)H produit matriciel rapide, 2N r log2 (N ) + N r MACs
W (t, i) R(t, i) = C xy (t, i) factorisation QR, nr 2 MACs
Fin itération

Dans ce pseudo-code, les complexités ont été exprimées en fonction de N et non plus de N ′ ,
car un choix approprié des dimensions n et l permet de rendre N ′ voisin de N (ou même égal à
V.3. OPTIMISATION DES AUTRES ÉTAPES 71

N ). La complexité totale de cet algorithme est donc O(N r log2 (N ) + nr 2 ). On peut vérifier que cette
implémentation est plus rapide que celle proposée dans la section V.2 dès lors que 2N log2 (N )+N ≤ ln.
Par exemple, si n = l, on obtient numériquement la condition N ≥ 47 (et n = l ≥ 24).

V.3 Optimisation des autres étapes


Dans la pratique, pour des valeurs usuelles2 des paramètres l, n et r, il se trouve que les complexités
2N r log2 (N ) et nr 2 sont du même ordre de grandeur. Ainsi, afin d’optimiser encore davantage notre
méthode d’estimation, il convient maintenant de s’intéresser aux autres étapes dont la complexité est
en O(nr 2 ), à savoir :
– le calcul de la matrice spectrale (section V.3.1) ;
– l’estimation des amplitudes complexes (section V.3.2).

V.3.1 Calcul de la matrice spectrale


Rappelons que les pôles du signal sont estimés en tant que valeurs propres de la matrice spectrale
(cf. section II.5.3), définie dans l’équation (I.19) :
{zk (t)} = eig(Φ(t)) (V.5)
La méthode des moindres carrés estime la matrice spectrale sous la forme suivante : Φ(t) =
W (t)†↓ W (t)↑ . Si l’on suppose par ailleurs que la matrice W (t)↓ est de rang plein (ce qui est tou-
jours le cas dans la pratique), cette équation se réécrit sous la forme
Φ(t) = Ω(t) Ψ(t) (V.6)
où Ω(t) et Ψ(t) sont des matrices de dimension r × r
−1
Ω(t) , W ↓ (t)H W ↓ (t) (V.7)
H
Ψ(t) , W ↓ (t) W ↑ (t). (V.8)
Or il se trouve que la matrice Ω(t) peut être facilement calculée. En effet, puisque W (t) est
orthonormale, W (t)H W (t) = I r . En particulier, cette équation montre que W ↓ (t)H W ↓ (t) = I r −
ν(t) ν(t)H , où ν(t) est le vecteur de dimension r tel que ν(t)H est la dernière ligne de la matrice W (t).
Ainsi, la matrice W ↓ (t)H W ↓ (t) est simplement une modification de rang 1 de la matrice identité.
Finalement, le lemme d’inversion matricielle A.8.1 présenté en annexe (page 182) montre que
1
Ω(t) = I r + ν(t) ν(t)H .
1 − kν(t)k2
En injectant cette dernière équation dans l’équation (V.6), on obtient finalement
1
Φ(t) = Ψ(t) + 1−||ν(t)||2 ν(t) ϕ(t)H (V.9)

où le vecteur ϕ(t) de dimension r est défini par


ϕ(t) = Ψ(t)H ν(t). (V.10)
Ainsi, la matrice Φ(t) est obtenue par une modification de rang 1 de la matrice Ψ(t). Par cette
méthode, le calcul de la matrice spectrale ne requiert que nr 2 + O(r 2 ) MACs (au lieu de 2nr 2 + O(r 3 )
MACs).
2
Pour traiter des signaux de musique, on choisit typiquement n et l de l’ordre de la centaine et r de l’ordre de la
dizaine (cf. partie III).
72 CHAPITRE V. OPTIMISATION DE L’ALGORITHME D’ESTIMATION

V.3.2 Estimation des amplitudes


L’estimation des amplitudes par la méthode des moindres carrés a été présentée dans la section II.6.
Dans le cas d’un bruit blanc, elle requiert normalement de pseudo-inverser la matrice V N , de dimension
N × r. Ce calcul coûte O(N r 2 ) opérations. Cependant, en tenant compte de la structure particulière
de la matrice Pascal-Vandermonde V N , il est possible d’en réduire la complexité. En effet, puisque
tous les pôles sont distincts, V N est de rang plein donc
 H
−1 H
b
α(t) = VN VN V N x(t). (V.11)

H
Or les coefficients de la matrice V N V N se calculent rapidement. En effet, on vérifie que la colonne
N 1 dm v(z)
de V correspondant au pôle zk et à l’indice m ∈ {0 . . . Mk − 1} est égale au vecteur m! dz m (zk ), où
 T 1 dm v(z)T
v(z) = 1, z, . . . , z N −1 . En particulier, son conjugué hermitien est m! ∗
dz m (zk ). Ainsi le produit
scalaire hermitien entre deux colonnes correspondant respectivement aux pôles zk1 à l’indice m1 et au
pôle zk2 à l’indice m2 est égal à

1 dm1 v(z1 )T ∗ 1 dm2 v(z2 ) 1 1 ∂ m1 +m2 (v(z1 )T v(z2 )) ∗


(zk1 ) (zk2 ) = (zk1 , zk2 ).
m1 ! dz1m1 m2 ! dz2m2 m1 ! m2 ! ∂z1m1 ∂z2m2
1−z1N z2N
Or v(z1 )T v(z2 ) = 1−z1 z2 si z1 z2 6= 1, ou N sinon. Ainsi, le produit scalaire est égal à
 1−zN zN 
∂ m1 +m2 1 2
1−z1 z2
1 1
m1 ! m2 ! m m
∂z1 1 ∂z2 2
(zk∗1 , zk2 ). (V.12)

En effectuant les dérivations dans l’équation (V.12), on obtient ainsi des formules analytiques pour
tous les couples (m1 , m2 ), impliquant des opérations arithmétiques élémentaires faisant intervenir les
1−zk∗ N zk2 N
termes zk1 , zkN1 , zk2 et zkN2 . En particulier, pour m1 = m2 = 0, on obtient 1−zk∗ zk2 .
1
1
H
Une méthode rapide de calcul de la matrice V N V N consiste donc à précalculer ces termes, ce qui
coûte O(r) MACs, puis à calculer chacun des r 2 coefficients de la matrice à l’aide de la formule (V.12),
ce qui donne un coût global de O(r 2 ) MACs.
H
De même, les coefficients du vecteur V N x(t) se calculent rapidement. En effet, le coefficient relatif
au pôle zk et à l’indice m est égal à

1 dm v(z)T 1 dm (v(z)T x(t)) ∗


m! dz m (zk∗ ) x(t) = m! dz m (zk ). (V.13)

NP
−1
Or v(z)T x(t) = x(t + τ ) z τ est un polynôme de degré N − 1 en la variable z. Ainsi, calculer le
τ =0
membre de droite de l’équation (V.13) consiste à évaluer la dérivée d’ordre m de ce polynôme au point
zk∗ . Cette opération coûte N MACs. Comme elle doit être effectuée r fois pour évaluer les r coefficients
H
du vecteur V N x(t), le coût global de ce calcul est N r.
H H
Enfin, la matrice V N V N et le vecteur V N x(t) étant obtenus, il reste à résoudre le système
 H
 H
V N V N α(t)
b = V N x(t).
3
Il s’agit d’un système linéaire symétrique défini positif, dont la solution se calcule en r6 MACs à l’aide
d’algorithmes reposant sur la factorisation de Cholesky [Golub et Van Loan, 1996, §4.2]. Ainsi, le coût
3
global du calcul de α(t)
b est réduit à N r + r6 + O(r 2 ) MACs (au lieu de N r 2 + N r + O(r 3 )).
V.4. CONCLUSION 73

Tab. V.1 – Algorithme d’estimation

Estimation de l′espace signal Complexité


Tirage aléatoire de W (t, 0)
Itération sur i ≥ 1 jusqu′ à convergence
Y (t, i) = W (t, i − 1)H X(t) (V.3) 2N r log2 (N ) + N r
C xy (t, i) = X(t)Y (t, i)H (V.4) 2N r log2 (N ) + N r
W (t, i) R(t, i) = C xy (t, i) (V.1) nr 2
Fin itération
W (t) = W (t, ∞) (V.2)
Calcul de la matrice spectrale
Ψ(t) = W ↓ (t)H W ↑ (t) (V.8) nr 2
H
ϕ(t) = Ψ(t) ν(t) (V.10) r2
1 H
Φ(t) = Ψ(t) + 1−||ν(t)|| 2 ν(t) ϕ(t) (V.9) r 2 + O(r)
Calcul des pôles
{zk (t)} = eig(Φ(t)) (V.5) O(r 3 )
Estimation des amplitudes
 −1 3
b (t) = V nH V n
α V nH x(t) (V.11) N r + r6 + O(r 2 )

Remarque. Dans la pratique, il peut arriver que la matrice V N soit extrêmement mal conditionnée, par
exemple s’il existe au moins deux pôles très proches, ou si un ou plusieurs pôles se trouvent éloignés du
cercle unité, ou encore en présence de pôles multiples si N est grand. Les erreurs numériques peuvent
alors engendrer une estimation erronée des paramètres et une mauvaise représentation du signal. Pour
éviter cela, il est possible de réduire fortement le conditionnement de la matrice V N , en normalisant ses
colonnes. Plus précisément, cela revient à considérer la matrice V ′N = V N ∆−1 , où ∆ est la matrice
diagonale3 contenant  les normes
N
 des colonnes de V . Posons alors α b ′ (t) = ∆ α
b (t) ; cela revient à
′N H ′N ′ ′N H
résoudre le système V V αb (t) = V x(t). Le signal peut alors être reconstruit sous la forme
b ′ (t).
s(t) = V ′N α
b

V.4 Conclusion
Dans ce chapitre a été présentée une méthode rapide d’estimation de l’espace signal reposant sur
l’algorithme d’itération orthogonale et sur la technique de convolution rapide. Les autres étapes de
l’estimation ont également été optimisées en tenant compte des propriétés particulières des matrices
W (t) et V N . L’algorithme complet d’estimation des paramètres ainsi obtenu est présenté dans la
table V.1. Toutes les étapes ont été optimisées. Son coût global est O(N r log2 (N ) + nr 2 ), au lieu de
O(N 3 ) dans le cas d’une implémentation directe. Cependant, le chapitre VI montrera que dans un
contexte adaptatif il est possible de réduire encore davantage la charge de calcul, à condition toutefois
de renoncer à calculer l’espace signal de manière exacte.

3
Dans le cas particulier où r = 2, il est possible de démontrer que la matrice ∆ ainsi définie minimise le conditionne-
ment de V ′N parmi toutes les matrices diagonales.
74 CHAPITRE V. OPTIMISATION DE L’ALGORITHME D’ESTIMATION
75

Deuxième partie

Algorithmes rapides de poursuite des


paramètres
77

Chapitre VI

Etat de l’art des techniques de poursuite


de l’espace signal et des pôles

Résumé
Après avoir traité le cas de signaux à paramètres constants, nous nous intéressons à
l’analyse de signaux dont les paramètres varient au cours du temps (sous l’hypothèse
de blancheur du bruit additif). L’objectif de cette étude est de développer un système
complet permettant de suivre les trajectoires temporelles des sinusoïdes. Une telle
représentation du signal peut être ensuite utilisée pour en modifier par exemple la
durée ou la hauteur, comme cela a été proposé dans [Serra et Smith, 1990].
Un très grand nombre d’algorithmes permettant de suivre les variations temporelles
de l’espace signal ont été proposés dans la littérature. Dans ce chapitre sont men-
tionnés les principaux d’entre eux, parmi lesquels la méthode des puissance itérées
et l’algorithme PAST orthonormé, puis plusieurs critères permettant de caractériser
ces divers algorithmes sont présentés, et enfin leurs performances sont illustrées sur
un signal présentant de brusques variations. Des techniques permettant de suivre la
matrice spectrale et ses valeurs propres sont également évoquées.
CHAPITRE VI. ETAT DE L’ART DES TECHNIQUES DE POURSUITE DE L’ESPACE SIGNAL
78 ET DES PÔLES

VI.1 Introduction
Dans le chapitre V, nous nous sommes concentrés sur l’estimation des paramètres du modèle à partir
d’un segment de signal extrait sur une fenêtre temporelle {t − l + 1, . . . , t + n − 1}. Nous cherchons
maintenant à effectuer cette analyse sur un ensemble de fenêtres décalées les unes par rapport aux
autres de un ou plusieurs échantillons. L’analyse de chaque fenêtre pourra ainsi reposer sur celle de la
précédente.
La première étape de l’estimation consistera à poursuivre l’espace signal (section VI.2). La seconde
portera sur la poursuite des pôles du signal (section VI.3). Finalement, les principales conclusions de
ce chapitre seront résumées dans la section VI.4.

VI.2 Poursuite de l’espace signal


Avant d’évoquer les algorithmes de poursuite de l’espace signal, il nous paraît important d’étudier
les variations temporelles des valeurs et des vecteurs propres de la matrice de corrélation des données,
afin de définir précisément ce que l’on peut attendre de tels algorithmes.

VI.2.1 Étude préliminaire


Il est connu que l’espace signal d’un signal non bruité composé d’une somme de sinusoïdes est
constant au cours du temps. Mais contrairement aux idées reçues, ni les valeurs propres, ni les vecteurs
propres de la matrice Rss (t) (définie dans la section I.4.2.2) ne sont constants. En fait, non seulement
ceux-ci admettent des variations temporelles, mais en plus ces variations présentent des discontinuités
au cours du temps.
Le signal représenté dans la figure VI.1-a est la somme de deux exponentielles complexes non
amorties, de fréquences 0.025 et 0.026 Hertz (Hz), de même amplitude égale à 1 et de même phase
nulle à l’instant initial, non bruitées, contenant 2000 échantillons (seule la partie réelle de ce signal est
représentée). L’analyse à haute résolution est effectuée avec des matrices de données de dimensions n =
l = 20. Pour tout instant t appartenant à l’intervalle {n . . . 1999}, les 2 vecteurs propres principaux et
les 2 valeurs propres principales ont été calculés (les autres valeurs propres étant nulles). Les variations
des deux valeurs propres principales sont représentées dans la figure VI.1-b (les variations de la plus
grande valeur propre sont représentées en trait continu, alors que celles de la seconde valeur propre
sont représentées en pointillés). On peut faire les remarques suivantes :
– quand les interférences entre les deux sinusoïdes sont destructives (instants t = 500 et t = 1500),
les deux valeurs propres sont égales ;
– quand les interférences sont constructives (instants t = 0, t = 1000 et t = 2000), la plus grande
valeur propre est supérieure de 70 decibels (dB) à la suivante ;
– les variations des deux valeurs propres sont irrégulières à l’ordre 1 aux instants t = 500 et
t = 1500 ;
– il semble que les deux valeurs propres sont «permutées» en t = 500 et t = 1500 (deux courbes
régulières sont reconstituées en permutant leurs variations en ces deux instants).
Nous pouvons en tirer les conclusions suivantes :

– la dimension de l’espace signal apparaît plus clairement quand les interférences sont
destructives que quand elles sont constructives ;
– les variations des valeurs propres sont étroitement liées.

Par contre, la figure VI.1-b montre que la moyenne arithmétique des valeurs propres exprimées en dB
VI.2. POURSUITE DE L’ESPACE SIGNAL 79

(autrement dit leur moyenne géométrique) est constante au cours du temps. La proposition suivante
donne un résultat plus général, valable dans le cas du modèle PACE introduit dans le chapitre II.
Proposition VI.2.1. La moyenne géométrique des valeurs propres non nulles de la matrice Rss (t)
varie exponentiellement au cours du temps. Plus précisément, elle est égale à
K−1 t
Q Mk
C |zk | r (VI.1)
k=0

 K−1
 r1
1 lT l∗ nH n Q
où C = l det(V V ) det(V V ) |α(k,Mk −1) |2Mk |zk |2Mk (−l+1) .
k=0

La démonstration de cette proposition est présentée en annexe dans la section B.2, page 194. Dans
le cas particulier où tous les pôles sont sur le cercle unité, l’équation (VI.1) montre que la moyenne
géométrique des valeurs propres est constante, comme on a pu l’observer dans la figure VI.1-b.
(a) Signal synthétique
2

1
Amplitude

−1

−2
0 200 400 600 800 1000 1200 1400 1600 1800 2000
(b) Variations des valeurs propres
50
Valeurs propres (dB)

−50

−100

−150
0 200 400 600 800 1000 1200 1400 1600 1800 2000
(c) Angles polaires des vecteurs propres
100
Angle (degrés)

50

−50

−100
0 200 400 600 800 1000 1200 1400 1600 1800 2000
Temps discret (échantillons)

Fig. VI.1 – Valeurs et vecteurs propres pour un signal contenant deux fréquences (n = l = 20)

(a) Signal synthétique contenant deux fréquences


(b) Variations des deux valeurs propres principales
(c) Angles polaires des deux vecteurs propres principaux dans une base de l’espace signal de dimension deux

La figure VI.1-c représente les variations des deux vecteurs propres principaux. Une base particulière
de l’espace signal a été choisie, constituée des deux vecteurs propres principaux à l’instant t = 1000.
Ensuite, pour chaque instant t, les deux vecteurs propres principaux ont été décomposés dans cette
base et représentés par leur angle polaire. Les variations de l’angle du vecteur propre principal sont
représentées en trait continu, alors que celles du second vecteur propre sont représentées en pointillés.
En particulier, on notera que cet angle est nul en t = 1000 pour le vecteur propre principal, et égal à
±90◦ pour le second vecteur propre (l’angle polaire est défini modulo 180◦ puisque seule la direction
du vecteur importe). Nous pouvons faire les remarques suivantes :
– quand les interférences sont constructives (instants t = 0, t = 1000 et t = 2000), les deux vecteurs
propres principaux sont à peu près stables ;
CHAPITRE VI. ETAT DE L’ART DES TECHNIQUES DE POURSUITE DE L’ESPACE SIGNAL
80 ET DES PÔLES

– leurs variations sont discontinues quand les interférences entre les deux sinusoïdes sont destruc-
tives (instants t = 500 et t = 1500) ;
– il semble que les deux vecteurs propres sont «permutés» en t = 500 et t = 1500 (deux courbes
régulières sont reconstituées en permutant leurs variations en ces deux instants).
Ainsi, comme dans le cas des valeurs propres, les variations de vecteurs propres sont étroitement liées.
Il paraît donc inutile de chercher à suivre les valeurs propres ou les vecteurs propres au cours
du temps. Seul l’espace signal lui-même est stable, et la moyenne géométrique des valeurs propres
correspondantes varie exponentiellement. Cependant, le signal observé n’est pas s(t), mais le signal
bruité x(t). Comme cela a été montré dans la section II.5, les vecteurs propres de Rxx (t) sont les
mêmes que ceux de Rss (t). Par contre, les valeurs propres de cette matrice sont surélevées de σ 2 par
rapport à celles de Rss (t). Ainsi, pour le signal bruité, la propriété d’invariance temporelle de l’espace
signal reste vérifiée, par contre le résultat de la proposition VI.2.1 n’est plus valable. Ainsi, l’étude du
signal doit essentiellement porter sur l’espace signal lui-même et non sur les valeurs propres.

VI.2.2 Méthode des puissances itérées


La méthode des puissances itérées [Hua et al., 1999,Badeau et al., 2005b] est une technique de pour-
suite de l’espace signal dérivée de l’algorithme d’itération orthogonale présenté dans la section V.2.
Rappelons que la deuxième étape de cet algorithme consiste à orthonormaliser la matrice C xy . Dans
la section V.2, cette opération était réalisée par le biais d’une factorisation QR. En fait, il est pos-
sible d’utiliser n’importe quelle méthode d’orthonormalisation. L’intérêt de la factorisation QR est
qu’elle garantit la convergence vers la base des vecteurs propres de la matrice de covariance, alors
que toute autre méthode garantit seulement la convergence vers une base orthonormée de l’espace
signal. Or il a été démontré dans la section VI.2.1 que le suivi des vecteurs propres ne présentait pas
d’intérêt particulier dans un contexte de poursuite. Il est donc possible d’utiliser une autre technique
d’orthonormalisation.
Par ailleurs, dans la section V.2 l’algorithme d’itération orthogonale était initialisé par un tirage
aléatoire de la matrice W (t, 0). Dans un contexte adaptatif, il paraît naturel d’initialiser cet algorithme
avec la base de l’espace signal calculée sur la fenêtre précédente. Cette matrice ayant toutes les chances
d’engendrer un espace plus proche de l’espace signal à l’instant t qu’une matrice tirée aléatoirement,
l’algorithme converge ainsi plus rapidement. En fait, une seule itération suffit dans les cas usuels pour
obtenir une estimation assez précise de l’espace signal (cf. section VI.2.3.3). Afin de réduire la charge
de calculs, nous n’effectuerons donc dans la suite qu’une seule itération par fenêtre d’analyse. Pour
simplifier les notations, l’indice d’itération i ne sera donc plus indiqué dans les développements ci-
dessous, une unique itération étant effectuée à chaque instant t. L’algorithme ainsi obtenu porte le
nom de méthode des puissances itérées. Il est résumé par les deux équations suivantes

C xy (t) = C xx (t) W (t − 1) (VI.2)


W (t) R(t) = C xy (t). (VI.3)

Sa complexité est 4N r log2 (N ) + nr 2 + o(nr 2 ) MACs. L’étape d’orthonormalisation (VI.3) fait


apparaître une matrice R(t) qui n’est plus nécessairement triangulaire. Cependant, elle doit vérifier
R(t)H R(t) = Φ(t), où Φ(t) est la matrice symétrique définie positive Φ(t) = C xy (t)H C xy (t). Ainsi,
R(t)H est une racine carrée matricielle de Φ(t). Elle s’exprime donc comme le produit de l’unique racine
carrée matricielle définie positive de Φ(t), multipliée à droite par une matrice orthonormée arbitraire1 .
1
Si T est une matrice symétrique définie positive, une racine carrée matricielle de T est une matrice S de même
1
dimension telle que S S H = T . Une telle matrice est notée S = T 2 . Il n’existe qu’une seule racine carrée définie positive
VI.2. POURSUITE DE L’ESPACE SIGNAL 81

Si R(t) est symétrique définie positive, il s’agit alors de la méthode des puissances naturelles [Hua
et al., 1999]. Il sera montré dans la section VII.3 que cette dernière méthode engendre une suite de
matrices W (t) qui est stable si l’espace signal est constant au cours du temps, contrairement à la base
des vecteurs propres.
La méthode des puissances itérées permet de suivre rapidement l’espace signal. Cependant, elle ne
conduit pas à une réduction du coût du calcul de la matrice spectrale, de ses valeurs propres et des
amplitudes complexes. Ce calcul sera donc effectué selon la technique proposée dans la section V.3 ; la
complexité globale de l’algorithme d’estimation sera alors de 4N r log2 (N ) + 2nr 2 + o(nr 2 ) opérations.
La méthode des puissances itérées sera appliquée à un signal synthétique dans la section VI.2.3.3 et à
un son de piano dans la section XI.5.1.2.

VI.2.3 Algorithmes adaptatifs de poursuite de l’espace signal


Concernant les techniques de poursuite de l’espace signal, la littérature est particulièrement abon-
dante. En effet, ces méthodes peuvent être appliquées dans plusieurs domaines de traitement du signal,
parmi lesquels l’analyse spectrale (qui nous intéresse ici), ou encore la localisation de sources. Ainsi,
toutes les publications portant sur ce thème s’appuient sur un même formalisme général : on considère
une séquence de vecteurs {x(t)}t∈Z de dimension n, et on souhaite suivre l’espace engendré par les
r principaux vecteurs propres de la matrice de corrélation C xx (t), susceptible de varier au cours du
temps. En localisation de sources, les n éléments du vecteur x(t) sont les échantillons des n signaux ar-
rivant simultanément sur une antenne de capteurs à l’instant t. En analyse spectrale, les n éléments du
vecteur x(t) sont extraits d’un même signal x(t) : x(t) = [x(t), x(t + 1), . . . , x(t + n − 1)]T . Il apparaît
donc que la matrice de corrélation introduite dans l’équation (I.15) (et sur laquelle repose la méthode
des puissances itérées présentée dans la section VI.2.2) est définie sur une fenêtre rectangulaire, à partir
de l vecteurs consécutifs :
Xt
C xx (t) = x(u) x(u)H . (VI.4)
u=t−l+1

Ainsi, en analyse spectrale la matrice de corrélation est structurée, dans la mesure où la matrice
X(t) est de Hankel, alors qu’en localisation de sources, elle ne présente aucune propriété particulière
(autre que la symétrie hermitienne et la positivité). C’est pourquoi la quasi totalité des algorithmes de
poursuite de l’espace signal proposés dans la littérature, qui ont une vocation généraliste, n’exploitent
pas la structure Hankel de la matrice de données. Cependant quelques algorithmes font exception,
comme l’implémentation de la méthode des puissances itérées présentée dans la section VI.2.2 (qui
utilise des transformées de Fourier rapides), ainsi que [Strobach, 1997b, Davila, 2000, Badeau et al.,
2005d]. Ceux-ci ne peuvent donc pas être utilisés en localisation de sources.
Remarque. Dans le cadre de l’analyse spectrale, il est possible de réduire la charge de calculs en ne
déterminant pas l’espace signal à chaque instant, mais seulement à certains instants régulièrement
espacés. Deux approches peuvent être envisagées :
– il est possible d’extraire de la séquence {X(t)}t∈Z une sous-suite de matrices régulièrement
espacées, et lui appliquer l’implémentation de la méthode des puissances itérées présentée dans
la section VI.2.2, seul algorithme de poursuite pouvant être utilisé dans ce contexte ;
– il est également possible d’extraire de la séquence {x(t)}t∈Z une sous-suite de vecteurs réguliè-
rement espacés, et lui appliquer l’un des nombreux algorithmes de poursuite de l’espace signal
proposés dans la littérature. Cependant cela revient à supprimer certaines colonnes dans la ma-

de T . Les autres racines carrées sont obtenues en multipliant à droite cette racine carrée définie positive par une matrice
1
orthonormée arbitraire. La notation S 2 peut désigner n’importe laquelle d’entre elles.
CHAPITRE VI. ETAT DE L’ART DES TECHNIQUES DE POURSUITE DE L’ESPACE SIGNAL
82 ET DES PÔLES

trice X(t), qui perd alors sa structure Hankel. Ainsi, les algorithmes reposant explicitement sur
cette propriété ne peuvent plus être utilisés, comme c’était déjà le cas en localisation de source.
Outre la fenêtre rectangulaire définie dans l’équation (VI.4), d’autres types de fenêtres sont cou-
ramment utilisés dans la littérature :

t
P
Fenêtre exponentielle : la matrice de corrélation est égale à C xx (t) = β t−u x(u) x(u)H , où
u=−∞
0 < β < 1 est le facteur d’oubli. Elle peut être mise à jour selon la récurrence :

C xx (t) = β C xx (t − 1) + x(t) x(t)H . (VI.5)

Fenêtre tronquée : la matrice de corrélation de dimension n × n est estimée sur une fenêtre de
longueur l :
Xt
C xx (t) = β t−u x(u) x(u)H (VI.6)
u=t−l+1

où 0 < β ≤ 1. Le cas β = 1 correspond à une fenêtre rectangulaire, ou fenêtre glissante. Cette matrice
peut être mise à jour à l’aide de la récurrence :

C xx (t) = β C xx (t − 1) + x(t) x(t)H − β l x(t − l) x(t − l)H . (VI.7)

Les algorithmes de poursuite de l’espace signal peuvent être classés selon leur complexité. On
distingue deux grandes classes : les algorithmes de complexité sur-linéaire en n, et ceux de complexité
linéaire en n. Ainsi les algorithmes appartenant à la deuxième classe sont plus rapides que la méthode
des puissances itérées. Ce faible coût est en général obtenu au prix d’une approximation qui engendre
une dégradation des performances du suivi.
La section VI.2.3.1 présente une liste non exhaustive des algorithmes proposés dans la littérature,
dont un comparatif est proposé dans la section VI.2.3.2. Leurs performances sont ensuite illustrées
dans la section VI.2.3.3.

VI.2.3.1 Brève bibliographie


Une méthode de référence en poursuite de sous-espace est l’algorithme de I. Karasalo [Karasalo,
1986], qui approche la SVD de la matrice de données en calculant la SVD d’une matrice plus petite.
Une approche similaire a été développée dans [Real et al., 1999]. L’algorithme Fast Subspace Tra-
cking (FST) présenté dans [Rabideau, 1996] remplace la petite SVD dans [Karasalo, 1986] par des
rotations de Givens, conduisant à un suivi plus rapide. Une autre approche consiste à entrelacer une
mise à jour récursive de la matrice de corrélation ou de la matrice de données avec une ou plusieurs
étapes d’un algorithme standard de SVD. C’est le cas de la méthode de Jacobi [Moonen et al., 1992],
l’itération QR transposée [Dowling et al., 1994], l’itération orthogonale / bi-orthogonale [Strobach,
1996,Strobach, 1997a,Strobach, 1997b,Badeau et al., 2004a], et la méthode des puissances itérées [Hua
et al., 1999]. Certaines techniques de poursuite sont basées sur d’autres décompositions matricielles,
comme la factorisation QR révélatrice de rang [Bischof et Shroff, 1992], la décomposition URV révé-
latrice de rang [Stewart, 1992], et la (bi)-diagonalisation de Lankzos [Xu et al., 1994]. Une approche
conceptuellement différente considère l’estimation de l’espace signal comme un problème d’optimisa-
tion avec ou sans contraintes [Oja, 1989, Xu, 1993, Chen et Amari, 2001, Kung et al., 1994, Mathew
et Reddy, 1995, Fu et Dowling, 1995]. En particulier, il est démontré dans [Xu, 1993, Yang, 1995] que
la méthode classique de Oja [Oja, 1989] peut être vue comme une approximation d’un algorithme de
VI.2. POURSUITE DE L’ESPACE SIGNAL 83

descente de gradient d’une fonction d’erreur quadratique. Un certain nombre de méthodes de poursuite
de sous-espace plus rapides ont été développées en combinant l’approche de descente de gradient avec
l’hypothèse connue sous le nom de projection approximation [Yang, 1995, Miao et Hua, 1998, Douglas,
2000, Abed-Meraim et al., 2000, Badeau et al., 2003a]. D’autres techniques reposent sur un moyennage
des espaces signal et bruit [DeGroat, 1992], sur le principe du maximum de vraisemblance [Chonavel
et al., 2003], sur l’analyse d’opérateurs restreints [MacInnes, 1998], ou sur la théorie des perturba-
tions [Champagne et Liu, 1998]. Un résumé de techniques plus anciennes est proposé dans [Comon et
Golub, 1990].

VI.2.3.2 Critères de comparaison des algorithmes de poursuite


Afin de comparer les nombreux algorithmes cités dans la section VI.2.3.1, plusieurs critères per-
mettant de les caractériser sont listés ci-dessous :
complexité : les algorithmes les plus rapides requièrent seulement O(nr) MACs.
type de fenêtre : certains algorithmes ont été conçus pour des fenêtres exponentielles, d’autres pour
des fenêtres rectangulaires.
orthonormalité de la matrice W (t) : certains algorithmes ne garantissent pas l’orthonormalité de
W (t), ce qui présente un inconvénient pour certains post-traitements qui requièrent une matrice
orthonormée, comme la méthode MUSIC, présentée dans la section IV.4.4. Par ailleurs, cette
hypothèse a été utilisée à plusieurs reprises dans les chapitres précédents.
suivi de la structure propre : certains algorithmes permettent de suivre, outre l’espace signal, les
vecteurs et les valeurs propres de la matrice de covariance. Nous avons expliqué dans la sec-
tion VI.2.1 pourquoi cette propriété n’était pas indispensable.
Dans le tableau VI.1, les algorithmes de poursuite sont caractérisés par les quatre critères proposés
ci-dessus. Ils sont classés par ordre de complexité décroissante. La dernière colonne indique la figure
de la section VI.2.3.3 où leurs performances sont illustrées.

VI.2.3.3 Simulations numériques


Dans cette section sont illustrées les performances de la plupart des algorithmes cités dans le
tableau VI.1. Le signal de test est une somme de r = 4 exponentielles complexes non amorties et
d’un bruit blanc gaussien complexe (tel que le RSB est de 5.7 dB). Les fréquences des exponentielles
varient par paliers selon des trajectoires initialement proposées par P. Strobach dans le contexte de la
localisation de sources [Strobach, 1998]. Leurs variations sont représentées dans la figure VI.3-a. Les
algorithmes de poursuite d’espace signal ont été appliqués avec les paramètres n = 80, ainsi que l = 120
dans le cas d’une fenêtre rectangulaire, et β = 1 − 1l dans le cas d’une fenêtre exponentielle (afin que le
support de celle-ci soit approximativement de même longueur que celui de la fenêtre rectangulaire)3 .
Les fréquences ont ensuite été calculées par la méthode proposée dans la section V.3.1. Les trajectoires
fréquentielles estimées sont représentées dans les figures VI.2 à VI.6. Les lignes pointillées indiquent
les paramètres fréquentiels exacts, alors que les lignes continues indiquent les fréquences estimées. Par
ailleurs, les courbes ont été translatées dans le temps afin de compenser le retard dû à longueur de la
fenêtre d’analyse. Dans chaque figure ont été regroupés des algorithmes aux performances équivalentes,
et les cinq figures sont triées par ordre de performances décroissantes.
La figure VI.2 illustre des algorithmes de complexité élevée. Ainsi les figures VI.2-a et VI.2-b
représentent les trajectoires obtenues en calculant l’espace propre exact de la matrice de corrélation,
2
Cet article est reproduit en annexe dans le chapitre C.
3
Dans le cas de l’algorithme NIC [Miao et Hua, 1998], le paramètre β a été fixé à 0.5.
CHAPITRE VI. ETAT DE L’ART DES TECHNIQUES DE POURSUITE DE L’ESPACE SIGNAL
84 ET DES PÔLES

Tab. VI.1 – Algorithmes de poursuite d’espace signal

Ortho- Struc-
Algorithme Référence Coût Fenêtre norma- ture Figure
lité propre
Bi-Lanczos [Xu et al., 1994] O(n2 r) rectangulaire oui oui
FAST [Real et al., 1999] nlr rectangulaire oui oui VI.6
Jacobi SVD [Moonen et al., 1992] O(n2 ) rectangulaire oui oui
Rank-revealing QR [Bischof et Shroff, 1992] O(n2 ) rectangulaire oui non
URV [Stewart, 1992] 9n2 rectangulaire oui non
CGET2 [Fu et Dowling, 1995] O(nr 2 ) exponentielle oui oui
SHSVD2 [Strobach, 1997b] 2nr 2 rectangulaire oui oui
PROTEUS-1 [Champagne et Liu, 1998] 2nr 2 exponentielle oui oui
SWASVD2 [Badeau et al., 2004a]2 (n + l)r 2 rectangulaire oui oui VI.3
NP2 [Hua et al., 1999] 3
2
nr 2 exponentielle oui non VI.4
Karasalo [Karasalo, 1986] nr 2 exponentielle oui oui VI.4
TQR-SVD [Dowling et al., 1994] nr 2 exponentielle oui oui VI.4
LORAF2 [Strobach, 1996] nr 2 exponentielle oui oui VI.4
Bi-SVD1 [Strobach, 1997a] nr 2 exponentielle oui oui VI.4
OPERA [MacInnes, 1998] nr 2 exponentielle oui oui
SW-OPAST [Badeau et al., 2003a] 15nr rectangulaire oui non VI.3
FST [Rabideau, 1996] 5nr exponentielle oui oui VI.6
SW-PAST [Badeau et al., 2003a] 5nr rectangulaire non non VI.3
ROSA [DeGroat, 1992] 4nr exponentielle non non VI.6
PASTd [Yang, 1995] 4nr exponentielle non oui VI.6
NIC [Miao et Hua, 1998] 4nr exponentielle non non VI.5
Householder PAST [Douglas, 2000] 4nr exponentielle oui non VI.5
OPAST [Abed-Meraim et al., 2000] 4nr exponentielle oui non VI.5
PAST [Yang, 1995] 3nr exponentielle non non VI.5

calculée respectivement sur une fenêtre rectangulaire et sur une fenêtre exponentielle. De même, les
figures VI.2-c et VI.2-d représentent les trajectoires obtenues avec la méthode des puissances itérées
dans chacun des deux cas. Nous pouvons faire deux remarques :

– la fenêtre rectangulaire réagit un peu plus rapidement aux variations du signal que la fenêtre
exponentielle,
– dans chacun des deux cas la méthode des puissances itérées atteint des performances voisines de
celles d’une EVD exacte.

La figure VI.3 illustre des algorithmes à fenêtre rectangulaire, de complexité linéaire en n. Les
performances restent relativement proches de celles observées dans la figure VI.2. Parmi les trois
algorithmes représentés, SW-OPAST donne les meilleurs résultats. Il présente en outre l’avantage
d’avoir une complexité en O(nr). Ensuite, les figures VI.4 et VI.5 représentent des algorithmes à
fenêtre exponentielle, de complexité linéaire en n, qui présentent tous des performances très voisines,
mais nettement dégradées par rapport à la figure VI.3. Les algorithmes illustrés dans la figure VI.5
seront préférés à ceux de la figure VI.4, car ceux-ci présentent une complexité plus faible (O(nr) au
lieu de O(nr 2 )). Ainsi, dans la classe des algorithmes de complexité linéaire en n, ceux qui reposent
sur une fenêtre rectangulaire sont nettement plus performants que ceux qui reposent sur une fenêtre
exponentielle. Enfin, les algorithmes présentés dans la figure VI.6 sont de complexités diverses, mais
ont en commun de converger encore plus lentement que ceux illustrés dans les figures VI.4 et VI.5. Ils
seront donc abandonnés au profit des précédents.
VI.3. POURSUITE DE LA MATRICE SPECTRALE ET DES PÔLES 85

(a) EVD exacte avec fenêtre rectangulaire

Fréquences (Hz)
0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(b) EVD exacte avec fenêtre exponentielle
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(c) Méthode des puissances itérées avec fenêtre rectangulaire
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(d) Méthode des puissances itérées avec fenêtre exponentielle
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)

Fig. VI.2 – Algorithmes de complexité élevée

VI.3 Poursuite de la matrice spectrale et des pôles


Après l’étape de poursuite de l’espace signal, nous nous intéressons aux techniques de suivi de la
matrice spectrale, parfois appelées algorithmes ESPRIT adaptatifs dans la littérature. Ces techniques
sont généralement liées à un algorithme de poursuite de l’espace signal spécifique. Ainsi, la méthode
proposée dans [Moonen et al., 1994] repose sur l’algorithme Jacobi SVD [Moonen et al., 1992], et celle
proposée dans [Liu et al., 1994] est fondée sur la décomposition URV révélatrice de rang [Stewart, 1992].
La complexité de ces méthodes est de l’ordre de n2 opérations à chaque instant. Dans [Strobach, 1998],
d’autres algorithmes ESPRIT adaptatifs ont été proposés pour un usage conjoint avec les algorithmes
de poursuite de l’espace signal baptisés Low Rank Adaptive Filter (LORAF) [Strobach, 1996] et Bi-
iteration SVD (Bi-SVD) [Strobach, 1997a]. En comparaison avec [Moonen et al., 1994] et [Liu et al.,
1994], la complexité de ces algorithmes est réduite à O(nr 2 ) ou O(nr). Cependant nous avons observé
que les algorithmes LORAF3 et Bi-SVD3, de complexité O(nr), ne convergent pas en pratique, si bien
que seul l’algorithme ESPRIT adaptatif de complexité O(nr 2 ) s’avère intéressant. Enfin, nous avons
récemment proposé dans [Badeau et al., 2003b] et [Badeau et al., 2005e] deux nouvelles implémentations
adaptatives de la méthode ESPRIT, de complexité O(nr), qui peuvent s’appuyer par exemple sur les
algorithmes de poursuite de l’espace signal proposés dans [Abed-Meraim et al., 2000,Douglas, 2000]. Il
est important de noter que tous les algorithmes mentionnés ci-dessus calculent la matrice spectrale de
manière exacte, c’est-à-dire sans introduire d’approximation supplémentaire par rapport à l’algorithme
de poursuite de l’espace signal.
Une fois que la matrice spectrale est estimée, ses valeurs propres peuvent être calculées à l’aide
d’une EVD, de complexité O(r 3 ), comme cela a été proposé dans [Liu et al., 1994]. Cependant, il
également possible de poursuivre les valeurs propres. Une première approche proposée dans [Liu et
CHAPITRE VI. ETAT DE L’ART DES TECHNIQUES DE POURSUITE DE L’ESPACE SIGNAL
86 ET DES PÔLES

(a) Fréquences exactes

Fréquences (Hz)
0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(b) SWASVD2
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(c) SW−OPAST
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(d) SW−PAST
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)

Fig. VI.3 – Algorithmes de complexité linéaire O((n + l)r 2 ) ou O(nr) à fenêtre rectangulaire

Champagne, 1996] repose sur la théorie des perturbations mais péche par son manque de robustesse.
Une seconde technique proposée dans [Strobach, 1998] repose sur le théorème «split-Schur», mais
s’avère moins précise et aussi coûteuse qu’une simple EVD. Dans [Badeau et al., 2005e], nous avons
introduit une nouvelle approche permettant de calculer l’EVD de la matrice spectrale récursivement
et de manière exacte. Cette méthode sera approfondie dans la section IX.3.2.

VI.4 Conclusion
L’étude comparative des algorithmes de poursuite proposée dans la section VI.2.3 a montré la su-
périorité de la méthode des puissances itérées en terme d’estimation de l’espace signal. En effet, cette
méthode atteint des performances remarquablement proches de celles obtenues à l’aide d’une EVD. En
revanche, elle reste assez coûteuse. Parmi les algorithmes de plus faible complexité, OPAST semble sor-
tir du lot. En effet, il fait partie des algorithmes les plus rapides. De plus, il garantit l’orthonormalité de
la matrice estimée, et présente l’avantage d’avoir été développé pour les deux types de fenêtres4 . Enfin
et surtout, pour chaque type de fenêtre, aucun algorithme parmi ceux illustrés dans les figures VI.3
à VI.6 n’atteint de meilleures performances que OPAST.
En ce qui concerne les techniques de suivi de la matrice spectrale, nous retiendrons que la plus
rapide d’entre elles a une complexité de l’ordre de nr MACs par itération. Elle présente également
l’avantage de calculer l’EVD de la matrice spectrale de manière récursive [Badeau et al., 2005e].

4
SW-OPAST est une version à fenêtre rectangulaire de OPAST.
VI.4. CONCLUSION 87

(a) NP2
Fréquences (Hz) Fréquences (Hz) Fréquences (Hz) Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(b) Karasalo

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(c) TQR−SVD

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(d) Loraf2

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(e) BiSVD1
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)

Fig. VI.4 – Algorithmes de complexité linéaire O(nr 2 ) à fenêtre exponentielle

(a) NP2
(b) Karasalo
(c) TQR-SVD
(d) Loraf2
(e) BiSVD1
CHAPITRE VI. ETAT DE L’ART DES TECHNIQUES DE POURSUITE DE L’ESPACE SIGNAL
88 ET DES PÔLES

(a) NIC

Fréquences (Hz)
0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(b) OPAST
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(c) Householder PAST
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(d) PAST
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)

Fig. VI.5 – Algorithmes de complexité linéaire O(nr) à fenêtre exponentielle

(a) FAST
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(b) FST
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(c) PASTd
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
(d) ROSA
Fréquences (Hz)

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)

Fig. VI.6 – Algorithmes à convergence lente


89

Chapitre VII

Approximation de la méthode des


puissances itérées

Résumé
Nous proposons dans ce chapitre une implémentation rapide de la méthode des puis-
sances itérées, basée sur une approximation moins restrictive que celle connue sous
le nom de projection approximation. Cet algorithme, baptisé méthode API rapide,
garantit l’orthonormalité de la base de l’espace signal à chaque itération. Il peut
être appliqué à la fois en analyse spectrale et en traitement d’antenne. De plus, ses
performances sont meilleures que celles de nombreux algorithmes de poursuite de
sous-espace liés à la méthode des puissances itérées, tels que les algorithmes Projec-
tion Approximation Subspace Tracking (PAST), Novel Information Criterion (NIC),
fast Natural Power (NP3) et OPAST. Par ailleurs, il est plus rapide que NIC, NP3
et OPAST, et aussi rapide que PAST. La méthode API est conçue à la fois pour
des fenêtres exponentielles et des fenêtres rectangulaires. Les simulations numériques
montrent que les fenêtres rectangulaires offrent une réponse plus rapide à de brusques
variations du signal. Les développements qui vont suivre ont fait l’objet d’un article
pour IEEE Transactions on Signal Processing [Badeau et al., 2005b].
90 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES

VII.1 Introduction
Comme cela a été mentionné dans la section VI.2.3.1, l’estimation de l’espace signal peut être
vue comme un problème d’optimisation avec ou sans contraintes [Oja, 1989, Xu, 1993, Chen et Amari,
2001, Kung et al., 1994, Mathew et Reddy, 1995, Fu et Dowling, 1995], pour lequel l’introduction de
l’hypothèse connue sous le nom de projection approximation conduit à des méthodes rapides de pour-
suite de l’espace signal (voir par exemple les algorithmes PAST [Yang, 1995] et NIC [Miao et Hua,
1998]). Dans [Hua et al., 1999], il est prouvé que ces algorithmes sont étroitement liés à la méthode des
puissances itérées introduite dans la section VI.2.2. Plusieurs implémentations de cette méthode ba-
sées sur des factorisations QR ont été proposées dans [Strobach, 1996], parmi lesquelles les algorithmes
LORAF2 et LORAF3. Cependant, comparés à PAST et NIC, LORAF2 est plus coûteux, et LORAF3
est moins performant. Une autre implémentation rapide de la méthode des puissances itérées, l’algo-
rithme NP3 qui repose sur des modifications matricielles de rang 1, est proposée dans [Hua et al., 1999],
mais nos simulations numériques ont montré que cet algorithme ne converge pas dans de nombreux
cas. Une version orthonormée de l’algorithme PAST, proposée dans [Abed-Meraim et al., 2000], peut
être vue comme une implémentation rapide de la méthode des puissances naturelles et s’avère plus
performante que PAST, NIC et NP3. En comparaison, la récente méthode API [Badeau et al., 2003c],
basée sur la méthode des puissances itérées et sur une nouvelle approximation, a la même complexité
que les algorithmes mentionnés ci-dessus, mais fournit une meilleure estimation de l’espace signal.
Ce chapitre présente plusieurs implémentations rapides de la méthode API. Ces algorithmes pré-
sentent plusieurs avantages :
– ils peuvent être appliqués soit sur une fenêtre exponentielle infinie ou sur une fenêtre tronquée,
– une base orthonormée de l’espace signal est calculée à chaque itération, ce qui est nécessaire pour
certaines méthodes d’estimation paramétrique de type sous-espace, comme MUSIC [Schmidt,
1981],
– ils reposent sur une nouvelle approximation, moins restrictive que celle connue sous le nom
de projection approximation, ce qui permet d’atteindre de meilleurs résultats de poursuite. En
particulier, il est montré que les algorithmes PAST et OPAST peuvent être vus comme des
approximations de la méthode API rapide.
Ce chapitre est organisé de la façon suivante : la section VII.2 présente une formalisation unifiée
pour les diverses formes de fenêtres appliquées aux données. La nouvelle approximation est abordée
dans la section VII.3. Notre méthode API est introduite dans la section VII.4, et une implémentation
rapide de cet algorithme est proposée dans la section VII.5. Dans la section VII.6, il est montré que
PAST et OPAST peuvent être vus comme des approximations de l’algorithme API rapide (FAPI).
Une méthode pour suivre la structure propre dominante de la matrice de corrélation est proposée dans
la section VII.7. Dans la section VII.8, les performances de cette méthode sont comparées à celles de
plusieurs algorithmes classiques, parmi lesquels PAST et OPAST. Les principales conclusions de ce
chapitre sont résumées dans la section VII.9.

VII.2 Fenêtrage des données


Cette section présente une formalisation unifiée pour les diverses fenêtres introduites dans la sec-
tion VI.2.3. Les deux équations (VI.5) et (VI.7) s’écrivent sous la forme

C xx (t) = β C xx (t − 1) + x(t) J x(t)H (VII.1)

où x(t) et J sont définis selon la forme de la fenêtre :


VII.3. L’APPROXIMATION PAR PROJECTION 91

– dans le cas de la fenêtre exponentielle :

J = 1 (VII.2)
x(t) = x(t) (VII.3)

– dans le cas de la fenêtre tronquée :


 
1 0
J = (VII.4)
0 −β l
 
x(t) = x(t) x(t − l) . (VII.5)

Soit q le rang de la mise à jour impliquée dans l’équation (VII.1). Puisque q = 1 dans le cas de la
fenêtre exponentielle et q = 2 dans le cas de la fenêtre tronquée, q caractérise la forme de la fenêtre.
En particulier, x(t) est une matrice de dimensions n × q et J est une matrice de dimension q × q.

VII.3 L’approximation par projection


Nous recherchons maintenant une approximation qui nous permettra de réduire la complexité de
la méthode des puissances itérées introduite dans la section VI.2.2. Supposons que W (t − 1) engendre
exactement le sous-espace propre principal de la matrice C xx (t). L’équation (VI.2) implique alors

C xy (t) = W (t − 1) C yy (t) (VII.6)

où la matrice C yy (t) , W (t − 1)H C xx (t) W (t − 1) peut être vue comme la matrice de corrélation des
vecteurs de données compressés. Dans ce cas, W (t) et W (t − 1) sont deux matrices orthonormées qui
engendrent l’espace image de C xy (t), donc

W (t) = W (t − 1) Θ(t) (VII.7)

où Θ(t) , W (t − 1)H W (t) est une matrice orthonormée de dimension r × r. En substituant l’équa-
tion (VII.6) dans l’équation (VI.3) et en multipliant à gauche par W (t)H , on obtient la décomposition
polaire de R(t)H :
R(t)H = C yy (t) Θ(t) (VII.8)
où C yy (t) est le facteur défini positif et Θ(t) est le facteur orthonormé. A présent supposons que
W (t − 1) engendre approximativement le sous-espace propre principal de C xx (t). Les équations (VII.7)
et (VII.8) deviennent alors des approximations :

W (t) ≃ W (t − 1) Θ(t) (VII.9)


H
R(t) ≃ C yy (t) Θ(t) (VII.10)

où la matrice Θ(t), de dimension r × r, est presque orthonormée.


Par rapport à l’équation (VII.9), l’hypothèse connue sous le nom de projection approximation [Yang,
1995] est équivalente à W (t) ≃ W (t−1) à chaque itération1 . La validité de cette approximation requiert
additionnellement que Θ(t) soit proche de la matrice identité de dimension r × r (notée ici I r ). Dans
ce cas, l’équation (VII.10) montre que R(t)H doit être presque définie positive2 . Par conséquent, le
En fait, la projection approximation dans [Yang, 1995] est définie comme W (t′ )H x(t) ≈ W (t − 1)H x(t) , y(t)
1

∀t ≥ t. Il a été démontré dans [Hua et al., 1999, pp. 301] que cette approximation est équivalente à W (t) ≃ W (t − 1) à
chaque itération.
2
Inversement, si R(t)H est choisie proche de la seule racine carrée définie positive de Φ(t), la décomposition polaire
approchée (VII.10) montre que Θ(t) ≃ I r , si bien que l’équation (VII.9) implique W (t) ≃ W (t − 1).
92 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES

choix d’une racine carrée R(t)H de Φ(t) est restreint (par exemple R(t) ne peut plus être triangulaire
supérieure, comme c’était le cas dans [Strobach, 1996]).
L’implémentation de la méthode des puissances naturelles baptisée NP3 [Hua et al., 1999] repose sur
cette approximation, mais cet algorithme calcule une matrice R(t) qui dévie de la contrainte de struc-
ture définie positive. Par conséquent, la projection approximation n’est pas valable, et la convergence
de cet algorithme n’est pas garantie.
En revanche, les algorithmes présentés dans la section VII.4 ne sont pas confrontés à cette limi-
tation, car ils reposent sur l’approximation moins restrictive (VII.9). De plus, (VII.9) est la meilleure
approximation de W (t) en terme d’erreur quadratique moyenne, puisque la solution du problème de
minimisation
arg min kW (t) − W (t − 1) Θk2F
Θ∈ Cr×r

est Θ(t) = W (t − 1)H W (t) (où W (t − 1) est supposée être orthonormée).

VII.4 Approximation des Puissances Itérées


Il est possible de réduire la complexité de la méthode des puissances itérées en introduisant l’ap-
proximation (VII.9) au temps t − 1 dans l’étape (VI.2). Alors la matrice C xy (t), de dimensions n × r,
se calcule récursivement, comme cela est montré dans la section VII.4.1, et la factorisation (VI.3) peut
être mise à jour, comme cela est montré dans la section VII.4.3. Cette mise à jour rapide nécessite
l’introduction d’une matrice auxiliaire Z(t), de dimension r × r, présentée dans la section VII.4.2.

VII.4.1 Récurrence pour la matrice C xy (t)


Il est démontré dans cette section que la matrice C xy (t) (de dimensions n × r) peut être mise à
jour de la même façon que la matrice C xx (t) (de dimension n × n) dans l’équation (VII.1) :

b (t)H .
C xy (t) = β C xy (t − 1) Θ(t − 1) + x(t) J y (VII.11)

Dans le cas de la fenêtre exponentielle, l’équation (VII.11) fait apparaître une modification de rang
un (x(t) et y
b (t) sont des vecteurs et J est un scalaire), alors que dans le cas de la fenêtre tronquée elle
fait apparaître une modification de rang deux (x(t) et y b(t) sont des matrices contenant deux colonnes
et J est une matrice de dimension 2 × 2).

VII.4.1.1 Fenêtre tronquée


Tout d’abord, l’équation (VI.6) s’écrit sous la forme

C xx (t) = X(t) D X(t)H (VII.12)

où X(t) , [x(t − l + 1), x(t − l + 2), . . . , x(t)] est la matrice de données de dimensions n × l et D est
la matrice diagonale diag(β l−1 , β l−2 , . . . , β, 1) de dimension l × l.
En substituant l’équation (VII.12) dans l’équation (VI.2), on obtient

C xy (t) = X(t) D Y (t)H (VII.13)

où Y (t) , W (t − 1)H X(t) est la matrice de données compressée, de dimensions r × l. A présent


montrons les récurrences pour les matrices X(t) et Y (t). La première est immédiate :
   
x(t − l) X(t) = X(t − 1) x(t) . (VII.14)
VII.4. APPROXIMATION DES PUISSANCES ITÉRÉES 93

Ensuite en multipliant l’équation (VII.14) à gauche par W (t − 1)H , on obtient


   
v(t − l) Y (t) = W (t − 1)H X(t − 1) y(t) (VII.15)

y(t) = W (t − 1)H x(t) (VII.16)


H
v(t − l) = W (t − 1) x(t − l) (VII.17)

sont des vecteurs de données compressés de dimension r. En  appliquant l’approximation


  (VII.9) à
l’instant t − 1 à l’équation (VII.15), on obtient la récurrence v(t − l) Y (t) ≃ V (t − 1) y(t) ,
où V (t − 1) est la matrice de données compressée de dimensions r × l

V (t − 1) , Θ(t − 1)H Y (t − 1).

A partir de maintenant, les définitions exactes de Y (t) et V (t − 1) sont donc remplacées par
h i h i
b
b(t − l) Y (t)
v , b
V (t − 1) y(t) (VII.18)

Vb (t) = Θ(t)H Yb (t) (VII.19)

où le vecteur vb(t − l) de dimension r, défini par la première colonne dans le membre de gauche de
l’équation (VII.18), est une approximation du vecteur v(t − l), et Yb (t) et Vb (t) sont des approximations
de Y (t) et V (t). Les équations (VII.13), (VII.14), (VII.19) et (VII.18) impliquent finalement

C xy (t) = β C xy (t − 1) Θ(t − 1)
(VII.20)
+x(t) y(t)H − β l x(t − l) v
b(t − l)H

Cette récurrence est un cas particulier de l’équation (VII.11), où J et x(t) sont définis dans les
équations (VII.4) et (VII.5) et la matrice de dimension r × q (avec q = 2)
 
b (t) ,
y b(t − l)
y(t) v (VII.21)

est une approximation de


 
y(t) , W (t − 1)H x(t) = y(t) v(t − l) . (VII.22)

VII.4.1.2 Fenêtre exponentielle


En substituant l’équation (VI.5) dans l’équation (VI.2), on obtient

C xy (t) = β C xx (t − 1)W (t − 1) + x(t) y(t)H . (VII.23)

En appliquant l’approximation (VII.9) à l’instant t − 1, l’équation (VII.23) peut être remplacée par
la récurrence suivante :
C xy (t) = β C xy (t − 1) Θ(t − 1) + x(t) y(t)H . (VII.24)
Cette récurrence est un cas particulier de l’équation (VII.11), où J et x(t) sont définis dans les équa-
tions (VII.2) et (VII.3), et la matrice de dimensions r × q (avec q = 1) y b (t) , y(t) est maintenant
H
égale au vecteur y(t) , W (t − 1) x(t) = y(t).
94 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES

VII.4.2 Récurrence pour la matrice Z(t)


Grâce à l’équation (VII.11), la factorisation (VI.3) peut être mise à jour. Ce calcul nécessite l’in-
troduction d’une matrice auxiliaire, notée Z(t). Soit S(t − 1) , (R(t − 1) Θ(t − 1))H . Supposons que
la matrice S(t − 1), de dimension r × r, est inversible. Alors posons

Z(t − 1) , S(t − 1)−1 . (VII.25)

Proposition VII.4.1. La matrice de dimension r × r

S(t) , (R(t) Θ(t))H (VII.26)

est inversible si et seulement si la matrice βJ −1 + y(t)H h(t), de dimension q × q, est inversible, où

h(t) , Z(t − 1) y
b (t). (VII.27)

est de dimension r × q. Dans ce cas, la matrice de dimension r × r

Z(t) , S(t)−1 (VII.28)

satisfait la récurrence

Z(t) = β1 Θ(t)H I r − g(t) y(t)H Z(t − 1) Θ(t)−H (VII.29)

où g(t) est la matrice de dimensions r × q


−1
g(t) , h(t) βJ −1 + y(t)H h(t) . (VII.30)

La démonstration de la proposition VII.4.1 figure dans la section B.3 des annexes, page 194.

VII.4.3 Récurrence pour la matrice W (t)


Ensuite, la proposition VII.4.2 introduit une mise à jour rapide de la base de l’espace signal. Sa
démonstration figure également dans la section B.3 des annexes, page 194.
Proposition VII.4.2. Si la matrice βJ −1 + y(t)H h(t), de dimension q × q, est inversible, W (t)
satisfait la récurrence

W (t) = W (t − 1) + e(t) g(t)H Θ(t) (VII.31)

où e(t) est la matrice de dimensions n × q

e(t) , x(t) − W (t − 1) y(t). (VII.32)

Si β J −1 + y(t)H h(t) est singulière, les matrices Z(t) et W (t) ne peuvent plus être mises à jour
avec les équations (VII.29) et (VII.31). En pratique, nous n’avons jamais rencontré ce cas singulier
dans nos simulations numériques3 .
3
Une solution consiste à calculer W (t) et R(t) en utilisant la SVD ou la factorisation QR de C xy (t). Alors on en
déduit Θ(t) = W (t − 1)H W (t). Le calcul complet requiert O(nr 2 ) opérations ; cette technique doit être utilisée tant que
R(t) ou Θ(t) reste singulière. Quand les deux matrices R(t) et Θ(t) redeviennent inversibles, alors on calcule Z(t), et
l’algorithme peut poursuivre le traitement adaptatif
VII.5. MÉTHODE API RAPIDE 95

Puisque W (t − 1) est orthonormée, e(t) est orthogonal à W (t − 1). De plus, l’orthonormalité de


W (t), associée à l’équation (VII.31), implique
 −1
Θ(t) Θ(t)H = I r + g(t) e(t)H e(t) g(t)H . (VII.33)

Par conséquent, Θ(t) est une racine carrée inverse de la matrice définie positive de dimension r × r

I r + g(t) e(t)H e(t) g(t)H .

Le choix de cette racine carrée inverse n’affecte pas la performance de la poursuite4 . Le pseudo-code
de l’algorithme API à fenêtre exponentielle est présenté dans la table VII.15 , et celui de l’algorithme
API à fenêtre tronquée (TW-API) est présenté dans la table VII.2. La première section de API est
exactement la même que celle de l’algorithme PAST [Yang, 1995] ; elle requiert seulement nr+r 2 +O(r)
opérations par itération, alors que le reste de l’algorithme a une complexité de nr 2 + o(nr 2 ) opérations.
De même, la première section de TW-API est similaire à la version à fenêtre rectangulaire de PAST
[Badeau et al., 2003a] ; elle requiert seulement 2nr + 2r 2 + O(r) opérations, alors que le reste de
l’algorithme a une complexité de (n + l)r 2 + o(nr 2 ) opérations. Les implémentations directes de API et
TW-API présentées dans les tables VII.1 et VII.2 sont d’un intérêt limité, puisque un certain nombre
d’algorithmes plus rapides ont déjà été proposés dans la littérature, dont la complexité est de O(nr)
opérations (parmi lesquels [Yang, 1995,Rabideau, 1996,Miao et Hua, 1998,Douglas, 2000,Abed-Meraim
et al., 2000, Badeau et al., 2003a] sont illustrés dans la section VII.8). Une implémentation plus rapide
de API et TW-API est proposée dans la section VII.5.

VII.5 Méthode API rapide


Dans cette section, une implémentation rapide de la méthode API est proposée, reposant sur un
choix particulier de la matrice Θ(t). Supposons que β J −1 + y(t)H h(t) est inversible, de sorte que Θ(t)
est également inversible. Ci-dessous, la matrice identité de dimension q × q est notée I p .

VII.5.1 Une solution particulière à l’équation (VII.33)


Soit ε(t) une racine carrée de la matrice e(t)H e(t) = x(t)H x(t) − y(t)H y(t) de dimension q × q :

ε(t) ε(t)H = x(t)H x(t) − y(t)H y(t). (VII.35)


4
Soit ΘP (t) la seule racine carrée définie positive. Alors Θ(t) s’écrit sous la forme

Θ(t) = ΘP (t) U (t) (VII.34)

où U (t) est une matrice orthonormée de dimension r × r. En substituant l’équation (VII.34) dans l’équation (VII.31),
on obtient n  o
W (t) = W (t − 1) + e(t) g(t)H ΘP (t) U (t).
Cette dernière équation montre que U (t) n’affecte pas le sous-espace engendré par W (t) ; elle affecte seulement la base
orthonormée particulière W (t) de ce sous-espace. Par conséquent, le choix d’une racine carrée inverse Θ(t) particulière
n’a pas d’impact sur la performance de la poursuite du sous-espace.
5
Les valeurs initiales W (0) et Z(0) doivent être choisies de manière adéquate :
– W (0) devrait être une matrice orthonormée de dimensions n × r,
– Z(0) devrait être une matrice définie positive de dimension r × r.
Les deux matrices peuvent être déterminées à partir d’un bloc  initial de données ou de façon arbitraire. Le moyen le
Ir
plus simple, cependant, est de poser W (0) = et Z(0) = I r . Le choix de ces valeurs initiales affecte le
0(n−r)×r
comportement transitoire mais non les performances en régime stable de l’algorithme.
96 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES

Tab. VII.1 – Algorithme API à fenêtre exponentielle

Initialisation
 : 
Ir
W (0) = , Z(0) = I r
0(n−r)×r
A
 chaque itération faire
Vecteur d’entrée : x(t)
 Section principale de PAST Cot

 y(t) = W (t − 1)H x(t) (VII.16) nr

 h(t) = Z(t − 1) y(t) (VII.27) r2

 h(t)
 g(t) = β+y(t)H h(t) (VII.30) 2r

 Section principale de API

 e(t) = x(t) − W (t − 1) y(t) (VII.32) nr
 − 1

 Θ(t) = I r + ke(t)k2 g(t) g(t)H 2  (VII.33) n + O(r 3 )

 Z(t) = β1 Θ(t)H I r − g(t) y(t)H
 (VII.29) O(r 3 )
 Z(t − 1) Θ(t)−H 
W (t) = W (t − 1) + e(t) g(t)H Θ(t) (VII.31) nr 2 + nr

En substituant l’équation (VII.35) dans l’équation (VII.33) et en appliquant le lemme d’inversion


matricielle A.8.1 (dans la page 182 des annexes), on montre que6

Θ(t) Θ(t)H = I r − g(t) ε(t) ρ(t)−1 ε(t)H g(t)H (VII.36)


où ρ(t) est la matrice définie positive de dimension q × q

ρ(t) = I p + ε(t)H g(t)H g(t) ε(t). (VII.37)

En considérant l’équation (VII.36), on recherche une solution particulière de la forme

Θ(t) = I r − g(t) ε(t) σ(t)−1 ε(t)H g(t)H (VII.38)

où σ(t) est une matrice inversible de dimension q × q. L’intérêt de cette approche est que le pro-
blème d’extraction d’une matrice carrée de dimension r × r dans l’équation (VII.36) est remplacé par
l’extraction d’une racine carrée de dimension q × q. En effet, en substituant l’équation (VII.38) dans
l’équation (VII.36) on obtient une condition suffisante :

σ(t)−1 + σ(t)−H + σ(t)−1 I p − ρ(t) σ(t)−H = ρ(t)−1 .

En multipliant les deux membres de cette dernière équation à gauche par σ(t) et en les multipliant à
droite par σ(t)H , on obtient l’équation7
 H
σ(t) − ρ(t) ρ(t)−1 σ(t) − ρ(t) = I p

Le lemme A.8.1 est appliqué avec C = I r , A = g(t) ε(t), D = I p et B = ε(t)H g(t)H . En particulier, l’inversibilité
6

de Θ(t) est équivalente à celle de ρ(t).


7
Rappelons que ρ(t) est une matrice hermitienne.
VII.5. MÉTHODE API RAPIDE 97

Tab. VII.2 – Algorithme API à fenêtre tronquée (TW-API)

Initialisation
 : 
Ir
W (0) = , Z(0) = I r , X(0) = 0n×l , Vb (0) = 0r×l
0(n−r)×r
A chaque itération faire

Vecteur d’entrée : x(t)
 Section similaire SW − PAST Cot
    
 x(t − l) X(t) = X(t − 1) x(t)
 (VII.14)
 y(t) = W (t − 1)H x(t)
 h i h i (VII.16) nr
 b b (VII.18)
 v b(t − l) Y (t) = V (t − 1) y(t)

 v(t − l) = W (t − 1)H x(t − l) (VII.17) nr
  
 x(t) = x(t) x(t − l) (VII.5)
  
 y (VII.21)
 b (t) =  y(t) v b(t − l) 
 y(t) = y(t) v(t − l) (VII.22)

 h(t) = Z(t − 1) y b(t) (VII.27) 2r 2
 
 −1
 g(t) = h(t) β J −1 + y(t)H h(t) (VII.30) 8r

 Section principale de TW − API

 e(t) = x(t) − W (t − 1) y(t) (VII.32) 2nr
  − 1
 H H
 Θ(t) = I r + g(t) e(t) e(t) g(t)  2
(VII.33) 4n + O(r 3 )
 1 H H
 Z(t) = β Θ(t) I r − g(t) y(t)

 −H (VII.29) O(r 3 )
 Z(t − 1) Θ(t) 
 W (t) = W (t − 1) + e(t) g(t)H Θ(t) (VII.31) nr 2 + 2nr
Vb (t) = Θ(t) Yb (t)
H (VII.19) lr 2

dont la solution est


1H
σ(t) = ρ(t) + ρ(t) 2 . (VII.39)

Même si d’autres choix seraient possibles, à partir de maintenant nous supposons que la racine carrée
de ρ(t) qui est impliquée dans l’équation ci-dessus est la seule racine carrée définie positive. Cette
condition garantit que σ(t) est définie positive, si bien que Θ(t) est hermitienne8 . On définit alors la
matrice définie positive de dimension q × q

τ (t) = ε(t) σ(t)−1 ε(t)H . (VII.40)

En substituant l’équation (VII.40) dans l’équation (VII.38), on obtient

Θ(t) = I r − g(t) τ (t) g(t)H . (VII.41)

8
Plus précisément, Θ(t) est définie positive. En effet, l’équation (VII.39) montre que σ(t) et ρ(t) sont conjointement
diagonalisables, et les valeurs propres de σ(t) sont strictement supérieures à celles de ρ(t). Par conséquent, ρ(t)−1 −σ(t)−1
est une matrice définie positive. Alors en soustrayant l’équation (VII.36) à l’équation (VII.38), on montre que Θ(t) est
définie positive.
98 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES

VII.5.2 Implémentation rapide de la solution particulière


A partir de la mise à jour de rang faible de la matrice Θ(t) dans l’équation (VII.41), on montre
ci-dessous que les matrices Z(t), W (t) et Vb (t) peuvent également être mises à jour efficacement.
Considérons la matrice de dimension q × q

η(t) = I p − g(t)H g(t) τ (t). (VII.42)

Puisque Θ(t) est inversible, le lemme d’inversion matricielle A.8.1 montre que η(t) l’est également9 .
Alors en substituant l’équation (VII.41) dans l’équation (VII.29), on obtient

Z(t) = 1
β Z(t − 1) − g(t) h′ (t)H + ǫ(t) g(t)H (VII.43)

où les matrices h′ (t) et ǫ(t), de dimensions r × q, sont définies par

y ′ (t) = y(t) η(t) + g(t) τ (t) (VII.44)


′ H ′
h (t) = Z(t − 1) y (t) (VII.45)
 H
ǫ(t) = Z(t − 1)g(t) − g(t) h′ (t)H g(t) τ (t) η(t)−1 (VII.46)

Ensuite, en substituant l’équation (VII.41) dans l’équation (VII.31), on montre que

W (t) = W (t − 1) + e′ (t) g(t)H (VII.47)

où e′ (t) est la matrice de dimensions n × q

e′ (t) = e(t) η(t) − W (t − 1) g(t) τ (t). (VII.48)

Par ailleurs, en substituant les équations (VII.32) et (VII.44) dans l’équation (VII.48), on obtient

e′ (t) = x(t) η(t) − W (t − 1) y ′ (t). (VII.49)

Enfin, en substituant l’équation (VII.41) dans l’équation (VII.19), on montre que


H
Vb (t) = Y (t) − g(t) g(t) τ (t) Y (t). (VII.50)

Le pseudo-code de l’algorithme FAPI à fenêtre exponentielle est présenté dans la table VII.3, et ce-
lui de l’algorithmeFAPI à fenêtre tronquée (TW-FAPI) est présenté dans la table VII.4. La complexité
globale de FAPI est de n(3r + 2) + 5r 2 + O(r) MACs par itération10 (alors que les complexités de PAST
[Yang, 1995] et OPAST [Abed-Meraim et al., 2000] sont 3nr + 2r 2 + O(r) et n(4r + 1) + 2r 2 + O(r)
respectivement). La complexité globale de TW-FAPI est de n(6r + 8) + 4lr + O(r 2 ) MACs par ité-
ration11 (alors que les complexités de PAST à fenêtre rectangulaire (SW-PAST) et OPAST à fe-
nêtre rectangulaire (SW-OPAST) [Badeau et al., 2003a] sont respectivement 5nr + 4r 2 + O(r) et
n(15r + 28) + 12r 2 + O(r)). Le terme 4lr dans la complexité de TW-FAPI peut rendre cet algorithme
plus coûteux dans des applications pour lesquelles l est beaucoup plus grand que n. Cependant, dans
le contexte de l’analyse spectrale, il a été démontré que les bornes de Cramér-Rao optimales sont
obtenues pour 21 n ≤ l ≤ 2n (cf. section III.2.2).
Le lemme A.8.1 est appliqué à l’équation (VII.41), avec C = I r , A = g(t) τ (t), D = −I p et B = g(t)H .
9
10
Cette implémentation de FAPI est plus rapide que celle proposée dans [Badeau et al., 2003c], dont le coût global
était égal à n(4r + 2) + 5r 2 + O(r).
11
Cette implémentation de TW-FAPI est aussi plus rapide que celle proposée dans [Badeau et al., 2003d], dont le coût
global était égal à n(8r + 8) + 4lr + O(r 2 ).
VII.6. LIEN AVEC LES ALGORITHMES PAST ET OPAST 99

Tab. VII.3 – Algorithme API rapide à fenêtre exponentielle (FAPI)

Initialisation (cf. table VII.1)


A
 chaque itération faire
Vecteur d’entrée : x(t)
 Section principale de PAST (cf. table VII.1)

 Section principale de FAPI : Cot

 2 2 2
 ε (t) = kx(t)k − ky(t)k (VII.35) n+r
 2
ε (t)
 τ (t) = √ (VII.40) r
 1+ε2 (t)kg(t)k2 + 1+ε2 (t)kg(t)k2

 η(t) = 1 − τ (t) kg(t)k2 (VII.42) 1
 ′
 y (t) = η(t) y(t) + τ (t) g(t)
 ′ (VII.44) 2r
 h (t) = Z(t − 1)H y ′ (t) (VII.45) r2

 ǫ(t) = τ (t) Z(t − 1)g(t) − h′ (t)H g(t) g(t) (VII.46) r 2 + 3r
 η(t) 

 Z(t) = β1 Z(t − 1) − g(t) h′ (t)H + ǫ(t) g(t)H (VII.43) 2r 2
 ′
 e (t) = η(t) x(t) − W (t − 1) y ′ (t) (VII.49) nr + n
W (t) = W (t − 1) + e′ (t) g(t)H (VII.47) nr

VII.6 Lien avec les algorithmes PAST et OPAST


Dans cette section, nous montrons que l’algorithme PAST à fenêtre exponentielle peut être vu
comme une approximation au premier ordre de l’algorithme FAPI. En effet, l’erreur e(t) est la com-
posante de x(t) qui n’appartient pas au sous-espace engendré par W (t − 1). Ainsi, si ce sous-espace
varie lentement, et si le RSB est élevé, e(t) ≃ 0. Si le terme du deuxième ordre ke(t)k2 est négligé
dans la table VII.3, τ (t) = 0, η(t) = 1 et Θ(t) devient la matrice identité de dimension r × r. Alors les
équations (VII.47) et (VII.43) deviennent

W (t) = W (t − 1) + e(t) g(t)H (VII.51)

1 
Z(t) = Z(t − 1) − g(t) h(t)H (VII.52)
β
(en particulier, on montre par récurrence que Z(t) est toujours hermitienne). Par conséquent, cette
approximation au premier ordre de la méthode FAPI est une implémentation exacte de l’algorithme
PAST [Yang, 1995], qui fournit seulement une base presque orthonormée de l’espace signal. Par ailleurs,
un examen approfondi de l’algorithme OPAST présenté dans [Abed-Meraim et al., 2000] montre que
W (t) est mise à jour comme dans l’équation (VII.47) (ce qui garantit l’orthonormalité, contrairement à
l’équation (VII.51)). Cependant, Z(t) est mise à jour comme dans l’équation (VII.52). Par conséquent,
OPAST peut être vu comme un intermédiaire entre PAST et FAPI.

VII.7 Poursuite des valeurs et vecteurs propres principaux de la ma-


trice de corrélation
Dans cette section est proposée une méthode pour suivre la structure propre complète de la matrice
de corrélation. Cette méthode repose sur le résultat suivant :
100 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES

Tab. VII.4 – Algorithme API rapide à fenêtre tronquée (TW-FAPI)

Initialisation (cf. table VII.2)


A
 chaque itération faire
Section similaire SW − PAST (cf. table VII.2)
 Section principale de TW − FAPI Cot
 1

 ε(t) = x(t)H x(t) − y(t)H y(t) 2 (VII.35) 4n + 4r
 
 ρ(t) = I p + ε(t)H g(t)H g(t) ε(t) (VII.37) 4r
  
 1 H −1
 τ (t) = ε(t) ρ(t) + ρ(t) 2
 ε(t)H (VII.40) O(1)

 η(t) = I − g(t)H g(t) τ (t)
 p (VII.42) O(1)
 ′
 y (t) = y(t) η(t) + g(t) τ (t) (VII.44) 8r
 ′
 h (t) = Z(t − 1)H y ′ (t)  (VII.45) 2r 2

 ǫ(t) = Z(t − 1)g(t) − g(t) h′ (t)H g(t)
 H (VII.46) 2r 2 + 12r
 τ (t) η(t)−1

 Z(t) = 1 Z(t − 1) − g(t) h′ (t)H + ǫ(t) g(t)H  (VII.43) 4r 2
 β
 ′
 e (t) = x(t) η(t) − W (t − 1) y ′ (t) (VII.49) 2nr + 4n

 W (t) = W (t − 1) + e′ (t) g(t)H (VII.47) 2nr
H
Vb (t) = Y (t) − g(t) g(t) τ (t) Y (t) (VII.50) 4lr

Proposition VII.7.1. Soient λ1 (t) ≥ . . . ≥ λr (t) > 0 les r valeurs propres de C xx (t) de plus grande
amplitude. Supposons que la matrice orthonormée W (t), de dimensions n × r, engendre le sous-espace
propre principal de C xx (t). Alors λ1 (t), . . . , λr (t) sont aussi les r valeurs propres (ou valeurs singu-
lières) de la matrice définie positive de dimension r × r

Γxx (t) , W (t)H C xx (t)W (t). (VII.53)

Démonstration. Considèrons la matrice diagonale Λ(t) = diag(λ1 (t), . . . , λr (t)) de dimension r × r.


Soit U (t) la matrice orthonormée de dimensions n × r dont les colonnes sont les r vecteurs propres
dominants de C xx (t), de sorte que

U (t)H C xx (t) U (t) = Λ(t). (VII.54)

Puisque U (t) et W (t) sont des matrices orthonormées engendrant le même sous-espace, il existe une
matrice orthonormée O(t) de dimension r × r telle que

U (t) = W (t) O(t). (VII.55)

En substituant les équations (VII.55) et (VII.54) dans l’équation (VII.53), on obtient

Γxx (t) = O(t) Λ(t) O(t)H . (VII.56)

L’équation (VII.56) peut être vue comme l’EVD, ou aussi comme la SVD de la matrice définie positive
Γxx (t), faisant intervenir la base orthonormée O(t).

Par conséquent, λ1 (t), . . . , λr (t) s’obtiennent comme les r valeurs singulières de Γxx (t). De plus,
O(t) s’obtient en calculant la SVD de Γxx (t), et les vecteurs propres dominants de C xx (t) s’obtiennent
VII.8. SIMULATIONS NUMÉRIQUES 101

à l’aide de l’équation (VII.55). Cependant, le calcul de Γxx (t) tel que défini dans l’équation (VII.53)
requiert nlr + lr 2 MACs, ce qui est assez coûteux. Ce calcul peut être évité en introduisant l’approxi-
mation (VII.9) dans l’équation (VII.53) :

Γxx (t) ≃ Θ(t)H W (t − 1)H C xx (t)W (t). (VII.57)

En substituant les équations (VI.2), (VI.3), (VII.26) dans l’équation (VII.57), on obtient

Γxx (t) ≃ S(t). (VII.58)

En substituant les équations (VII.56) et (VII.58) dans l’équation (VII.28), on obtient

Z(t) ≃ O(t) Λ(t)−1 O(t)H .

Considérons une SVD exacte de Z(t) :

b Λ(t)
Z(t) = O(t) b −1 O(t)
b H.

b
où O(t) b H sont des matrices orthonormées de dimension r × r, et les valeurs singulières de la
et O(t)
b −1 sont triées par ordre croissant.
matrice diagonale Λ(t)
Alors la SVD de Γxx (t) peut être remplacée par celle de Z(t) (qui requiert seulement O(r 3 ) opéra-
tions), où les valeurs singulières de Z(t) sont triées par ordre croissant. Ainsi λ1 (t), . . . , λr (t) peuvent
être approchés en inversant ces valeurs singulières. De plus, O(t) peut être approché par le facteur
de gauche dans la SVD de Z(t), et des approximations des vecteurs propres dominants de C xx (t) se
déduisent à l’aide de l’équation (VII.55), qui requiert nr 2 MACs.

VII.8 Simulations numériques


La performance de l’estimation de l’espace signal est analysée dans le contexte de l’analyse spectrale,
en terme de l’angle principal maximal entre le véritable sous-espace propre principal de la matrice
de corrélation C xx (t) (obtenu via une EVD exacte), et le sous-espace estimé de la même matrice de
corrélation (obtenu avec l’algorithme de poursuite). Ce critère d’erreur a été initialement proposé par P.
Comon et G.H. Golub comme mesure de la distance entre des sous-espaces de même dimension [Comon
et Golub, 1990]. Dans la section VII.8.1, les algorithmes FAPI et TW-FAPI sont comparés à d’autres
algorithmes existants. Dans la section VII.8.2, le comportement de la méthode API vis-à-vis du RSB
et des paramètres n et r est analysé.

VII.8.1 Comparaison de FAPI et TW-FAPI avec d’autres algorithmes existants


Dans cette section, le signal de test est celui introduit dans la section VI.2.3.3. Les variations
des fréquences sont représentées dans la figure VII.1-a. Ce signal est traité en utilisant dans la sec-
tion VII.8.1.1 une fenêtre exponentielle dont le facteur d’oubli est β ≈ 0.99, et dans la section VII.8.1.2
une fenêtre rectangulaire de longueur l = 120. Ces paramètres ont été choisis de façon à ce que la lon-
1
gueur effective de la fenêtre soit la même dans les deux cas, c’est-à-dire β = 1−1/l . La section VII.8.1.3
est consacrée à l’orthonormalité de la base de l’espace signal. La table VII.5 caractérise les divers
algorithmes illustrés dans cette section. Elle complète la table VI.1 en détaillant les complexités et en
apportant les algorithmes FAPI, TW-FAPI, SP1 et SW-NIC.
102 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES

Tab. VII.5 – Comparaison des algorithmes de poursuite de sous-espace

Ortho- Struc-
Algorithme Référence Complexité (MACs) norma- ture Figure /
lité propre Fenêtre
FAPI [Badeau et al., 2003c] n(3r + 2) + 5r 2 + O(r) oui non
PAST [Yang, 1995] 3nr + 2r 2 + O(r) non non Fig. VII.1
NIC [Miao et Hua, 1998] 4nr + 2r 2 + O(r) non non exponentielle
OPAST [Abed-Meraim et al., 2000] n(4r + 1) + 2r 2 + O(r) oui non
Karasalo [Karasalo, 1986] nr 2 + n(3r + 2) + O(r 3 ) oui oui
FST [Rabideau, 1996] n(6r + 2) + 12r 2 + O(r) oui oui
Householder PAST [Douglas, 2000] n(4r + 1) + 2r 2 + O(r) oui non Fig. VII.2
LORAF2 [Strobach, 1996] nr 2 + n(3r + 2) + O(r 3 ) oui oui exponentielle
SP1 [Davila, 2000] 4nr 2 + n(4r + 2) + O(r 3 ) oui oui
TW-FAPI [Badeau et al., 2003d] n(6r + 8) + 4lr + O(r 2 ) oui non
SW-PAST [Badeau et al., 2003a] 5nr + 4r 2 + O(r) non non Fig. VII.3
SW-NIC section B.4 6nr + 4r 2 + O(r) non non rectangulaire
SW-OPAST [Badeau et al., 2003a] n(15r + 28) + 12r 2 + O(r) oui non

VII.8.1.1 Cas de la fenêtre exponentielle


La figure VII.1-b représente la trajectoire de l’angle principal maximal d’erreur θFAPI (t), obtenue
avec la méthode FAPI en utilisant les paramètres n = 80 et β ≈ 0.99. Ce résultat est ensuite comparé
à celui obtenu avec l’algorithme PAST : la figure VII.1-c représente le rapport en dB des trajectoires
obtenues avec FAPI et PAST, c’est-à-dire
 
θFAPI (t)
20 log 10 .
θPAST (t)
A l’initialisation, FAPI converge plus rapidement que PAST. De plus, PAST ne fournit pas une base
orthonormée de l’espace signal. La figure VII.1-d représente le rapport en dB des trajectoires obtenues
avec FAPI et l’algorithme NIC12 , qui est une généralisation robuste de PAST [Miao et Hua, 1998].
L’erreur d’estimation de l’espace signal est toujours plus faible avec FAPI. Comme PAST, NIC ne
garantit pas l’orthonormalité de la base de l’espace signal. La figure VII.1-e montre le rapport des
trajectoires obtenues avec FAPI et OPAST. Les deux algorithmes atteignent les mêmes performances,
excepté à l’initialisation, où FAPI converge plus rapidement. En fait, la différence est beaucoup plus
nette avec les versions à fenêtre rectangulaire de ces algorithmes (voir section VII.8.1.2).
Dans la figure VII.2, l’algorithme FAPI est comparé à cinq algorithmes bien connus de poursuite
de l’espace signal :
– l’algorithme de I. Karasalo [Karasalo, 1986],
– l’algorithme FST [Rabideau, 1996],
– le nouvel algorithme PAST utilisant des transformations de Householder, appelé ici Householder
PAST [Douglas, 2000],
– l’algorithme Low-Rank Adaptive Filter (LORAF2) [Strobach, 1997a],
– et l’algorithme Subspace Projection (SP1) [Davila, 2000].
La figure VII.2-a montre que les comportements de FAPI et de l’algorithme de Karasalo sont très
similaires. Ensuite la figure VII.2-b montre que FAPI converge vers l’espace signal beaucoup plus préci-
sément que FST. La figure VII.2-c montre que FAPI et Householder PAST atteignent des performances
identiques, excepté à l’initialisation, où FAPI converge plus rapidement. Enfin, la figure VII.2-d montre
que la même remarque peut être faite à propos de FAPI et LORAF2. Par ailleurs, le coût dominant de
12
Le pas d’apprentissage η est égal à 0.7.
VII.8. SIMULATIONS NUMÉRIQUES 103

(a)
Angle max. (deg) Fréquences (Hz)

0.2

0.1

0
500 1000 1500 2000 2500 3000 3500 4000
(b)

50

0
500 1000 1500 2000 2500 3000 3500 4000
(c)
0
Rapport (dB)

−10
−20
−30
500 1000 1500 2000 2500 3000 3500 4000
(d)
10
Rapport (dB)

0
−10
−20
−30
500 1000 1500 2000 2500 3000 3500 4000
(e)
Rapport (dB)

−5

−10
500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)

Fig. VII.1 – Poursuite de l’espace signal reposant sur une fenêtre exponentielle (1/2)
(a) Fréquences réduites des sinusoïdes
(b) Trajectoire de l’angle principal maximal obtenue avec FAPI
(c) Rapport des trajectoires obtenues avec FAPI et PAST
(d) Rapport des trajectoires obtenues avec FAPI et NIC
(e) Rapport des trajectoires obtenues avec FAPI et OPAST

l’algorithme de Karasalo et de LORAF2 est nr 2 et celui de FST est 6nr, alors que celui de FAPI est
seulement 3nr (voir la table VII.5). Parmi les nombreux algorithmes de poursuite de l’espace signal
que nous avons testés, SP1 est le seul qui ait présenté de meilleures performances que FAPI (voir
figure VII.2-e). Cependant, la table VII.5 montre que SP1 est l’algorithme plus coûteux. Par ailleurs,
il ne se prête qu’à l’analyse spectrale de séries temporelles, et a seulement été conçu pour des fenêtres
exponentielles.

VII.8.1.2 Cas de la fenêtre rectangulaire


La figure VII.3-a représente la trajectoire de l’angle principal maximal d’erreur θTW−FAPI (t), ob-
tenue avec la méthode TW-FAPI en utilisant les paramètres β = 1 (qui fait de la fenêtre tronquée une
fenêtre rectangulaire), n = 80 et l = 120. Cet algorithme converge rapidement après chaque saut de
fréquence. Ce résultat doit être comparé à celui de la figure VII.1-b, obtenu avec la méthode FAPI à
fenêtre exponentielle, pour laquelle la réponse aux sauts de fréquence est plus lente, en raison de la
104 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES

(a)
Rapport (dB)
2

−2
500 1000 1500 2000 2500 3000 3500 4000
(b)
0
Rapport (dB)

−20

−40
500 1000 1500 2000 2500 3000 3500 4000
(c)
5
Rapport (dB)

0
−5
−10
−15
500 1000 1500 2000 2500 3000 3500 4000
(d)
0
Rapport (dB)

−2
−4

500 1000 1500 2000 2500 3000 3500 4000


(e)
40
Rapport (dB)

20

0
500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)

Fig. VII.2 – Poursuite de l’espace signal reposant sur une fenêtre exponentielle (2/2)
(a) Rapport des trajectoires obtenues avec FAPI et Karasalo
(b) Rapport des trajectoires obtenues avec FAPI et FST
(c) Rapport des trajectoires obtenues avec FAPI et Householder PAST
(d) Rapport des trajectoires obtenues avec FAPI et LORAF2
(e) Rapport des trajectoires obtenues avec FAPI et SP1

nature de la fenêtre qui tend à lisser les variations du signal. La figure VII.3-b représente le rapport
en dB des trajectoires obtenues avec TW-FAPI et la version à fenêtre rectangulaire de PAST, appelée
ici SW-PAST [Yang, 1995,Badeau et al., 2003a]. TW-FAPI converge plus rapidement que SW-PAST à
l’initialisation. Notons au passage que PAST et SW-PAST ne fournissent pas une base orthonormée de
l’espace signal. La figure VII.3-c représente le rapport en dB des trajectoires obtenues avec TW-FAPI
et une version à fenêtre rectangulaire de l’algorithme NIC présentée dans la section B.4 des annexes
(page 195), appelée ici NIC à fenêtre rectangulaire (SW-NIC)13 . Enfin, la figure VII.3-d montre le rap-
port en dB des trajectoires obtenues avec TW-FAPI et l’algorithme SW-OPAST [Badeau et al., 2003a].
La trajectoire de l’angle principal maximal d’erreur obtenue avec TW-FAPI est inférieure d’environ 20
dB à celles obtenues avec SW-NIC et SW-OPAST dans les régions où les fréquences sont constantes.

13
SW-NIC est également implémenté avec η = 0.7.
VII.8. SIMULATIONS NUMÉRIQUES 105

(a)

Angle maximal (deg)


80
60
40
20
0
500 1000 1500 2000 2500 3000 3500 4000
(b)

0
Rapport (dB)

−20

−40
500 1000 1500 2000 2500 3000 3500 4000
(c)

0
Rapport (dB)

−20

−40
500 1000 1500 2000 2500 3000 3500 4000
(d)
10
Rapport (dB)

0
−10
−20
−30
500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)

Fig. VII.3 – Poursuite de l’espace signal reposant sur une fenêtre rectangulaire
(a) Trajectoire de l’angle principal maximal obtenue avec TW-FAPI
(b) Rapport des trajectoires obtenues avec TW-FAPI et SW-PAST
(c) Rapport des trajectoires obtenues avec TW-FAPI et SW-NIC
(d) Rapport des trajectoires obtenues avec TW-FAPI et SW-OPAST

VII.8.1.3 Erreur d’orthonormalité

Tab. VII.6 – Erreur maximale d’orthonormalité


Algorithmes Erreur maximale
FAPI, TW-FAPI, OPAST, Householder PAST environ -300 dB
Karasalo, FST, LORAF2 environ -280 dB
SP1, SW-OPAST environ -240 dB
PAST, NIC environ -25 dB
SW-PAST, SW-NIC environ -5 dB

L’orthonormalité de la base de l’espace


 signal W (t) peut être mesurée à l’aide du critère d’erreur
suivant : 20 log 10 kW (t)H W (t) − I r kF . La table VII.6 montre l’erreur maximale d’orthonormalité
atteinte par les algorithmes mentionnés ci-dessus en suivant les variations du signal de test. Nous
avons observé que FAPI, TW-FAPI, OPAST et Householder PAST étaient meilleurs que tous les
autres algorithmes, alors que PAST, NIC, et leurs versions à fenêtre rectangulaire ne garantissent pas
l’orthonormalité de la base de l’espace signal.
106 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES

VII.8.2 Comportement de la méthode API vis-à-vis du RSB et de n et r


A présent, le signal de test est toujours une somme de r = 4 exponentielles complexes plus un bruit
blanc gaussien complexe. Cependant, les fréquences des sinusoïdes sont constantes, égales aux valeurs
initiales données dans la figure VII.1-a.

VII.8.2.1 Influence du RSB


Nous analysons ici l’effet du RSB sur l’estimation de l’espace signal. Dans ce but, la partie bruitée
du signal de test a été synthétisée de façon à ce que le RSB varie linéairement de +30 dB à -30 dB (voit
figure VII.4-a). La figure VII.4-b montre la trajectoire de l’angle principal maximal d’erreur obtenu
avec la méthode FAPI en utilisant les paramètres n = 80 et β ≈ 0.99. La performance de l’estimation
de l’espace signal s’effondre au delà de n ≃ 2600. La figure VII.4-a montre qu’à partir de cet instant
le RSB est inférieur à −10 dB. La figure VII.4-c représente la trajectoire de l’angle principal maximal
d’erreur obtenu avec la méthode TW-FAPI avec les paramètres β = 1, n = 80 et l = 120. De nouveau,
la performance de l’estimation de l’espace signal s’effondre au delà de n ≃ 2600. Bien qu’ils ne soient
pas illustrés ici, nous avons observé que les performances de tous les algorithmes mentionnés ci-dessus
s’effondrent de la même manière au delà de la même limite de RSB (−10 dB).

(a)
40

20
RSB (dB)

−20

−40
0 500 1000 1500 2000 2500 3000 3500 4000
(b)
100
Angle maximal (deg)

50

0
0 500 1000 1500 2000 2500 3000 3500 4000
(c)
100
Angle maximal (deg)

50

0
0 500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)

Fig. VII.4 – Influence du rapport signal à bruit

(a) Rapport signal à bruit en dB


(b) Trajectoire de l’angle principal maximal obtenue avec FAPI
(c) Trajectoire de l’angle principal maximal obtenue avec TW-FAPI

VII.8.2.2 Influence du rapport n/r


Nous nous intéressons ici à l’influence du rapport n/r sur l’estimation de l’espace signal. Le RSB
est constant, égal à 5.7 dB. La figure VII.5-a représente la moyenne de θFAPI (t), comme fonction du
rapport n/r, pour tous n ∈ {r + 1, . . . , 80} (avec β ≈ 0.99). L’estimation de l’espace signal devient
fiable dès que n/r ≥ 7. La figure VII.5-b représente la moyenne de θTW−FAPI (t), comme fonction du
VII.8. SIMULATIONS NUMÉRIQUES 107

rapport n/r, pour tous n ∈ {r +1, . . . , 80} (avec β = 1 et l = 120). De nouveau, l’estimation de l’espace
signal devient fiable dès que n/r ≥ 7. Bien qu’ils ne soient pas illustrés ici, nous avons observé que la
même remarque est valide pour tous les algorithmes mentionnés ci-dessus.

(a)
Angle moyen (deg)

80
60
40
20
0
2 4 6 8 10 12 14 16 18 20
Rapport n/r
(b)
Angle moyen (deg)

80
60
40
20
0
2 4 6 8 10 12 14 16 18 20
Rapport n/r
(c)
Angle moyen (deg)

0.6

0.4

0.2

2 4 6 8 10 12 14 16 18 20
Dimension r du sous−espace
(d)
Angle moyen(deg)

0.6

0.4

0.2

2 4 6 8 10 12 14 16 18 20
Dimension r du sous−espace

Fig. VII.5 – Influence des paramètres n et r

(a) Angle max. moyen obtenu avec FAPI comme fonction de n/r
(b) Angle max. moyen obtenu avec TW-FAPI comme fonction de n/r
(c) Angle max. moyen obtenu avec FAPI comme fonction de r
(d) Angle max. moyen obtenu avec TW-FAPI comme fonction de r

VII.8.2.3 Poursuite d’un sous-espace de mauvaise dimension

Puisque la dimension r de l’espace signal est inconnue dans le cadre de nombreuses applications,
nous étudions dans cette section les performances des algorithmes FAPI et TW-FAPI dans le cas où ils
sont appliqués avec une dimension r erronée. Le RSB est constant, égal à 5.7 dB. Les performances de
l’estimation de l’espace signal sont analysées en terme de l’angle principal maximal entre le véritable
espace signal de dimension 4 et le sous-espace estimé de dimension r.
La figure VII.5-c représente la moyenne de θFAPI (t), comme fonction de r, pour tous r ∈ {1, . . . , 20}
(avec les paramètres β ≈ 0.99 et n = 80). De même, la figure VII.5-d représente la moyenne de
θTW−FAPI (t), comme fonction de r, pour tous r ∈ {1, . . . , 20} (avec les paramètres l = 120 et n = 80).
L’estimation de l’espace signal est fiable dans tous les cas :
– si r = 4, l’angle principal maximal est très faible (comme nous pouvions le supposer),
– si r < 4, l’angle principal maximal reste bas, ce qui signifie que le sous-espace sous-dimensionné
estimé est presque inclus dans le véritable espace signal,
108 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES

– si r > 4, l’angle principal maximal est encore plus bas que dans le cas r = 4, ce qui signifie que
le véritable espace signal est presque inclus dans le sous-espace sur-dimensionné estimé. De plus,
l’angle principal maximal diminue quand la dimension du sous-espace estimé croît.
Nous pouvons en déduire que FAPI et TW-FAPI sont robustes à une dimension r du sous-espace
erronée.

VII.9 Conclusion
Plusieurs implémentations de l’algorithme API, reposant sur une fenêtre exponentielle ou sur une
fenêtre tronquée, ont été présentées dans ce chapitre. Ces algorithmes atteignent une complexité linéaire
et garantissent l’orthonormalité de la base de l’espace signal à chaque itération. Dans le contexte de
l’analyse spectrale, la méthode s’avère robuste à de brusques variations de fréquences, et atteint de
meilleures performances que de nombreux algorithmes de poursuite de sous-espace, à la fois en terme
d’estimation de l’espace signal et de complexité algorithmique.
109

Chapitre VIII

Yet Another Subspace Tracker

Résumé
Nous proposons dans ce chapitre un nouvel algorithme rapide de poursuite de sous-
espace, qui possède la même complexité que OPAST, mais dont les performances
sont voisines de celles de la méthode des puissances itérées présentée dans la sec-
tion VI.2.2. Cet algorithme, baptisé YAST, peut être vu comme une implémentation
optimisée des algorithmes SP1 et SP2 récemment proposés dans [Davila, 2000]. Sa
faible complexité est obtenue en exploitant la structure Hankel de la matrice de
données. Ainsi, contrairement à FAPI, il ne peut être utilisé qu’en analyse spectrale
et non en localisation de sources (cf. section VI.2.3). Ses performances sont illus-
trées sur un signal présentant de brusques variations, et comparées à la méthode des
puissances itérées.
110 CHAPITRE VIII. YET ANOTHER SUBSPACE TRACKER

VIII.1 Introduction
Récemment, un nouvel algorithme de poursuite de l’espace signal, baptisé Subspace Projection (SP),
a été proposé par C.E. Davila [Davila, 2000]. Nous avons observé dans le chapitre VII que cet algo-
rithme présente de meilleures performances que celles de nombreux algorithmes classiques de poursuite
de sous-espace, tels que l’algorithme de Karasalo [Karasalo, 1986], PAST [Yang, 1995], LORAF [Stro-
bach, 1996], FST [Rabideau, 1996], NIC [Miao et Hua, 1998], OPAST [Abed-Meraim et al., 2000]
et FAPI [Badeau et al., 2005b]. Comme dans [Yang, 1995] et [Miao et Hua, 1998], l’estimation de
l’espace signal est considérée comme un problème d’optimisation. Cependant, au lieu d’introduire des
approximations, l’algorithme SP calcule l’espace signal comme la solution exacte de ce problème, qui
est néanmoins restreint à un sous-espace de dimension limitée.
Malheureusement, cet algorithme remarquable ne se prête qu’à l’analyse de séries temporelles, et
présente un coût élevé. Sa complexité globale est O(nr 2 ) (où n est la dimension des vecteurs de données
observés, et r est la dimension de l’espace signal), alors qu’un certain nombre d’algorithmes existants
ne requièrent que O(nr) opérations à chaque instant (c’est le cas de PAST, FST, NIC et OPAST).
Néanmoins, nous avons découvert que cet inconvénient peut être éliminé, et nous proposons dans ce
chapitre un nouvel algorithme, baptisé YAST, qui calcule le même espace signal que l’algorithme SP,
mais requiert seulement O(nr) opérations.
Le chapitre est organisé de la façon suivante. Dans la section VIII.2 est présenté le principe sur
lequel repose l’algorithme YAST. Ensuite, une implémentation rapide de YAST est proposée dans la
section VIII.3. Les performances de cet algorithme sont illustrées dans la section VIII.4. Enfin, les
principales conclusions de ce chapitre sont résumées dans la section VIII.5.

VIII.2 Principe
Il est bien connu qu’une matrice orthonormée W (t) de dimensions n × r engendre le sous-espace
dominant de dimension r de la matrice C xx (t) introduite dans la section I.4.2.2 si et seulement si elle
maximise le critère J , défini comme

J (W (t)) = trace W (t)H C xx (t)W (t) .
En particulier, le maximum de ce critère est égal à la somme des r plus grandes valeurs propres de
C xx (t). Cependant, implémenter cette maximisation parmi toutes les matrices orthonormées est très
coûteux (la complexité est O(n2 r)), et ne conduit pas à une récurrence simple entre W (t) et W (t − 1).

Dans le but de réduire le coût, l’idée introduite dans [Davila, 2000] consiste à limiter cette
recherche à l’espace image de W (t−1), plus quelques directions de recherche additionnelles.
L’algorithme YAST présenté ci-dessous repose sur la même idée.

Cependant cette recherche n’est pas implémentée de la même façon que dans [Davila, 2000]. L’espace
image de la matrice W (t) (de dimension r) est obtenu comme un sous-espace de l’espace de dimension
(r + p + q − 1) (avec p = 1 ou 2, et q = 1 dans le cas de la fenêtre exponentielle, ou 2 dans le cas de la
fenêtre tronquée) engendré par la matrice
V (t) = [W (t − 1), x(t)] (VIII.1)
où la matrice x(t), de dimensions n × (p + q − 1), contient le vecteur x(t) dans tous les cas, le vecteur
x(t − l) dans le cas de la fenêtre tronquée (q = 2), et éventuellement1 le vecteur C xx (t − 1) x(t) (cas
p = 2).
1
Cette dernière direction de recherche a été initialement proposée dans [Davila, 2000].
VIII.3. IMPLÉMENTATION RAPIDE DE YAST 111

Soit W (t) une matrice orthonormée de dimensions n × (r + p + q − 1) engendrant l’espace image


de la matrice V (t). Alors W (t) s’écrit sous la forme

W (t) = W (t) U (t). (VIII.2)

où U (t) est une matrice orthonormée de dimensions (r + p + q − 1) × r. Dans ce cas



J (W (t)) = trace U (t)H C yy (t)U (t) (VIII.3)

où C yy (t) est la matrice de dimension (r + p + q − 1) × (r + p + q − 1)

C yy (t) = W (t)H C xx (t) W (t). (VIII.4)

La recherche exhaustive parmi toutes les matrices orthonormées W (t) de dimensions n × r est ainsi
remplacée par la maximisation de (VIII.3) parmi toutes les matrices orthonormées U (t) de dimensions
(r + p + q − 1) × r. Le résultat de cette maximisation est bien connu : U (t) doit engendrer le sous-
espace dominant de dimension r de la matrice C yy (t). Ainsi il est possible de suivre la matrice W (t)
en calculant
– une base orthonormée W (t) de l’espace image de V (t),
– la matrice C yy (t) = W (t)H C xx (t) W (t),
– une matrice orthonormée U (t) de dimensions (r + p + q − 1) × r engendrant le sous-espace
dominant de dimension r de C yy (t),
– la matrice W (t) = W (t) U (t).
En particulier, U (t) s’obtient en diagonalisant C yy (t). Par conséquent, les colonnes de la matrice
résultante W (t) définie dans l’équation (VIII.2) correspondent aux r vecteurs propres dominants de
C xx (t). Cependant, ce calcul conduit à une complexité globale de O(nr 2 ), comme dans [Davila, 2000].
Dans le but de réduire cette complexité globale à O(nr), on choisit une stratégie différente qui évite
la diagonalisation. Comme cela a été mentionné ci-dessus, U (t) doit être une matrice orthonormée
engendrant le sous-espace dominant de dimension r de la matrice C yy (t). Par conséquent, U (t) s’obtient
comme une base du complémentaire orthogonal du sous-espace dominant de dimension (p + q − 1) de
la matrice Z(t) = C yy (t)−1 . Ainsi, l’algorithme YAST calcule Z(t) et son sous-espace dominant de
dimension (p+q −1), et calcule U (t) comme une base du complémentaire orthogonal de ce sous-espace.
Comme cela sera montré dans la section VIII.3, cet algorithme peut être implémenté efficacement en
mettant à jour l’inverse Z(t) de la matrice de corrélation compressée C yy (t), de dimension r × r :

C yy (t) = W (t)H C xx (t)W (t). (VIII.5)

VIII.3 Implémentation rapide de YAST


Ci-dessous, une implémentation rapide de l’algorithme YAST est proposée, dont le coût global est
seulement de (3p + 4q − 3)nr MACs. Elle se décompose en quatre étapes successives :
– calcul de W (t) (section VIII.3.1),
– calcul de Z(t) (section VIII.3.2),
– mise à jour de W (t) (section VIII.3.3),
– mise à jour de Z(t) (section VIII.3.4).
Cette implémentation est résumée dans la section VIII.3.5.
112 CHAPITRE VIII. YET ANOTHER SUBSPACE TRACKER

VIII.3.1 Calcul de W (t)


La première étape consiste à orthonormaliser la matrice V (t). Considérons la matrice y(t) =
W (t − 1)H x(t) de dimensions r × (p + q − 1), et posons

e(t) = x(t) − W (t − 1) y(t). (VIII.6)

La matrice e(t), de dimensions n × (p + q − 1), est orthogonale à l’espace image de W (t − 1). Soit σ(t)
une racine carrée de la matrice e(t)H e(t), de dimension (p + q − 1) × (p + q − 1) :
1 1
σ(t) = e(t)H e(t) 2 = x(t)H x(t) − y(t)H y(t) 2 . (VIII.7)

Ci-dessous, σ(t) est supposée inversible. En effet, même si σ(t) se trouve être singulière, elle peut
être rendue inversible en supprimant une ou plusieurs colonnes dans x(t) 2 . Alors la matrice
 
W (t) = W (t − 1), e(t) σ(t)−1 (VIII.8)

est orthonormée. En particulier, V (t) s’écrit sous la forme

V (t) = W (t) R(t) (VIII.9)

où R(t) est une matrice inversible de dimension (r + p + q − 1) × (r + p + q − 1) :


 
Ir y(t)
R(t) = . (VIII.10)
0(p+q−1)×r σ(t)

VIII.3.2 Calcul de Z(t)


Comme cela a été mentionné dans la section VIII.2, la matrice Z(t) est définie comme l’inverse
de la matrice C yy (t) de dimension (r + p + q − 1) × (r + p + q − 1) définie dans l’équation (VIII.4).
Par conséquent, calculer Z(t) revient à calculer la matrice C yy (t) (section VIII.3.2.1) et à l’inverser
(section VIII.3.2.2).

VIII.3.2.1 Calcul de C yy (t)


En substituant l’équation (VIII.9) dans l’équation (VIII.4), on obtient

C yy (t) = R(t)−H C yy (t) R(t)−1 (VIII.11)

où C yy (t) est une matrice de dimension (r + p + q − 1) × (r + p + q − 1) :

C yy (t) = V (t)H C xx (t) V (t). (VIII.12)
2
Tout d’abord, le rang de V (t) est égal à celui de e(t) plus r. En effet, on vérifie que
 
  Ir y(t)
V (t) = W (t − 1) e(t) .
0...0 1

Puisque
 la matrice à l’extrême droite de cette équation est inversible, le rang de V (t) est égal à celui de la matrice
W (t − 1) e(t) . De plus, W (t − 1) est orthonormée et e(t) est orthogonal à span(W (t − 1)), donc le rang de V (t)
est égal à celui de e(t) plus r. Par ailleurs, le rang de σ(t) est égal à celui de e(t). Par conséquent, il est égal à celui de
V (t) moins r. Par conséquent, même si σ(t) se trouve être singulière, elle peut être rendue inversible en supprimant une
ou plusieurs colonnes dans x(t), ce qui revient à réduire la dimension (p + q − 1).
Par ailleurs, nous n’avons jamais rencontré ce cas singulier dans nos simulations.
VIII.3. IMPLÉMENTATION RAPIDE DE YAST 113

Soit alors

α(t) = x(t)H x(t) (VIII.13)


H
y(t) = W (t − 1) x(t) (VIII.14)

x (t) = C xx (t − 1) x(t) (VIII.15)
′ H ′
y (t) = W (t − 1) x (t). (VIII.16)

En substituant les équations (VII.1) et (VIII.1) dans l’équation (VIII.12), on obtient


 
′ e yy (t) y ′′ (t)
C
C yy (t) = (VIII.17)
y ′′ (t)H cyy (t)

e yy (t) = β C yy (t − 1) + y(t) J y(t)H


C (VIII.18)
′′ ′
y (t) = β y (t) + y(t) J α(t) (VIII.19)
H ′ H
cyy (t) = β x(t) x (t) + α(t) Jα(t). (VIII.20)

VIII.3.2.2 Inversion de C yy (t)



La matrice C yy (t) s’obtient à partir de C yy (t) à l’aide de l’équation (VIII.11). Ainsi, inverser

C yy (t) nécessite d’inverser C yy (t). Comme cela est montré ci-dessous, cette dernière opération peut

être effectuée en inversant d’abord le coin supérieur gauche de dimension r × r de la matrice C yy (t),
noté C e yy (t).

Inversion de C e yy (t) : Supposons que la matrice C yy (t − 1) est inversible et posons Z(t − 1) =


−1
C yy (t − 1) . Soit
h(t) = Z(t − 1) y(t). (VIII.21)
e yy (t) est inversible si et seulement
En appliquant le lemme A.8.1 à l’équation (VIII.18), on montre que C
−1
si β J + y(t)H h(t) est inversible3 . Dans ce cas, soit
−1
γ(t) = β J −1 + y(t)H h(t) . (VIII.22)

e
Alors Z(t) e yy (t)−1 satisfait
,C

e
Z(t) = 1
Z(t − 1) − h(t) γ(t) h(t)H . (VIII.23)
β

Inversion de C yy (t) : Inverser l’équation (VIII.11) implique



Z(t) = R(t) C yy (t)−1 R(t)H . (VIII.24)

Soit
e y ′′ (t).
h(t) = Z(t) (VIII.25)
3
Le lemme A.8.1 figure dans la section A.8 des annexes (page 182). Il est ici appliqué avec C = β C yy (t−1), A = y(t),
B = y(t)H , et D = J.
114 CHAPITRE VIII. YET ANOTHER SUBSPACE TRACKER


En appliquant le lemme A.8.2 à l’équation (VIII.17), on montre que C yy (t) est inversible si et seulement
si cyy (t) − y ′′ (t)H h(t) est inversible4 . Dans ce cas,
 
′ e
Z(t) + h(t) γ(t)h(t)H −h(t)γ(t)
C yy (t)−1 = (VIII.26)
−γ(t)h(t)H γ(t)

où γ(t) est la matrice définie positive de dimension p × p


−1
γ(t) = cyy (t) − y ′′ (t)H h(t) . (VIII.27)

En substituant les équations (VIII.10) et (VIII.26) dans l’équation (VIII.24), on obtient


" #
e ′ (t)
Z −g(t)
Z(t) = (VIII.28)
−g(t)H γ ′ (t)



h (t) = h(t) − y(t) (VIII.29)
e ′ (t) = Z(t)
Z e ′ ′
+ h (t) γ(t) h (t)H (VIII.30)
′ H
g(t) = h (t) γ(t) σ(t) (VIII.31)
′ H
γ (t) = σ(t) γ(t) σ(t) . (VIII.32)

VIII.3.3 Mise à jour de W (t)


Une fois que la matrice Z(t) a été calculée, la matrice W (t) peut être mise à jour efficacement. Soit
φ(t) une matrice orthonormée de dimensions (r + p + q − 1) × (p + q − 1), dont les colonnes engendrent
le sous-espace dominant de dimension (p + q − 1) de la matrice définie positive Z(t), de dimension
(r + p + q − 1) × (r + p + q − 1). En particulier, il existe une matrice λ(t) définie positive de dimension
(p + q − 1) × (p + q − 1), dont les valeurs propres sont égales aux p + q − 1 plus grandes valeurs propres
de Z(t), telle que
Z(t) φ(t) = φ(t) λ(t). (VIII.33)

Soit ϕ(t) la matrice de dimensions r × (p + q − 1) contenant les r premières colonnes de φ(t), et


z(t) la matrice de dimension (p + q − 1) × (p + q − 1) contenant ses p + q − 1 dernières lignes :
 
φ(t)T = ϕ(t)T , z(t)T . (VIII.34)

La factorisation polaire de z(t) est définie comme

z(t) = ρ(t) θ(t) (VIII.35)

où ρ(t) est définie positive et θ(t) est orthonormal. Soit5

f (t) = ϕ(t) θ(t)H (VIII.36)


′ −1
f (t) = f (t) I + ρ(t) . (VIII.37)
4
Le lemme A.8.2 doit être appliqué avec C = C e yy (t), A = y ′′ (t), B = y ′′ (t)H , et D = cyy (t).
5
Puisque ρ(t) est définie positive, la matrice I + ρ(t), de dimension (p + q − 1) × (p + q − 1), est également définie
positive. En particulier, I + ρ(t) est inversible.
VIII.3. IMPLÉMENTATION RAPIDE DE YAST 115

Alors on vérifie que la matrice de dimensions (r + p + q − 1) × r


" #

I r − f (t) f (t)H
U (t) = (VIII.38)
−f (t)H

est orthonormale et satisfait U (t)H φ(t) = 0. Par conséquent, U (t) est une base orthonormée du sous-
espace mineur de dimension r de la matrice Z(t). En substituant les équations (VIII.8) et (VIII.38)
dans l’équation (VIII.2), on obtient une récurrence pour la matrice W (t) :

W (t) = W (t − 1) − e′ (t) f (t)H (VIII.39)


où e′ (t) = e(t) σ(t)−1 + W (t − 1)f (t).
Finalement, en substituant l’équation (VIII.6) dans cette dernière définition, on obtient

e′ (t) = x(t) σ(t)−1 − W (t − 1)y ′′′ (t) (VIII.40)



y ′′′ (t) = y(t) σ(t)−1 − f (t). (VIII.41)

VIII.3.4 Mise à jour de Z(t)


La matrice auxiliaire Z(t) peut aussi être mise à jour efficacement. En effet, en substituant les
équations (VIII.2) et (VIII.4) dans l’équation (VIII.5), on obtient C yy (t) = U (t)H C yy (t)U (t). Comme
la matrice orthonormée U (t) engendre un sous-espace invariant de Z(t), elle engendre aussi un sous-
espace invariant de son inverse C yy (t). Par conséquent cette dernière équation implique

Z(t) = U (t)H Z(t)U (t). (VIII.42)

En substituant les équations (VIII.37), (VIII.36), et (VIII.34) dans l’équation (VIII.38), on montre que
 
Ir ′
U (t) = ′ − φ(t) θ(t)H f (t)H . (VIII.43)
−f (t)H
Ainsi, en substituant les équations (VIII.43), (VIII.28), (VIII.33) dans l’équation (VIII.42), on
obtient
e ′ (t) + g ′ (t) f ′ (t)H + f ′ (t) g(t)H
Z(t) = Z (VIII.44)
où 

g ′ (t) = g(t) + f (t) γ ′ (t) − θ(t)λ(t)θ(t)H . (VIII.45)

VIII.3.5 Implémentation
Le pseudo-code complet de YAST est présenté dans la table VIII.26 . Dans le cas de la fenêtre
exponentielle, son coût global est 4nr MACs si p = 1, ce qui est inférieur ou égal à celui de FST, NIC
et OPAST, et 7nr si p = 2, ce qui reste un ordre de grandeur plus faible que celui de l’algorithme de
6
Nous avons observé que l’algorithme YAST est sujet à une instabilité numérique s’il est implémente de la façon
proposée ci-dessus. Cela est dû à une perte de symétrie de la matrice Z(t). Pour rendre YAST stable, la symétrie doit
être forcée en calculant
Z(t) + Z(t)H
Z(t) = (VIII.46)
2
à la fin de chaque itération (voir la table VIII.2).
116 CHAPITRE VIII. YET ANOTHER SUBSPACE TRACKER

Karasalo, LORAF et SP. Dans le cas de la fenêtre tronquée, son coût global est 8nr MACs si p = 1,
ce qui est généralement plus faible que celui de TW-FAPI, et 11nr si p = 2, ce qui reste plus faible
que celui de SHSVD2, SWASVD2 et SW-OPAST.
e ′ (t − l) =
Le coût du calcul des vecteurs x′ (t) = C xx (t − 1) x(t), x′′ (t) = C xx (t − 1)2 x(t) et x
2
C xx (t − 1) x(t − l) est réduit de O(n ) à O(n) en utilisant la technique décrite dans [Davila, 2000], qui
exploite la structure Hankel de la matrice de données.

VIII.4 Simulations numériques


Le performance de l’estimation de l’espace signal est analysée comme dans la section VII.8 en terme
d’angle principal maximal entre le sous-espace dominant exact de la matrice de corrélation C xx (t) et le
sous-espace dominant estimé de cette même matrice de corrélation. Le signal de test est celui introduit
dans la section VI.2.3.3. Le tableau VIII.1 caractérise les divers algorithmes de poursuite de l’espace
signal illustrés dans cette section. Il complète le tableau VI.1 par l’ajout de la méthode des puissances
itérées et des algorithmes FAPI, TW-FAPI et YAST.

Tab. VIII.1 – Comparaison des algorithmes de poursuite de l’espace signal

Ortho- Struc-
Algorithme Référence Coût norma- ture Figure /
lité propre Fenêtre
FAPI chapitre VII 3nr oui non
YAST (p = 1 et q = 1) chapitre VIII 4nr oui non Fig. VIII.1
Méthode des puissances itérées section VI.2.2 n2 r + nr 2 oui oui/non7 exponentielle
YAST (p = 2 et q = 1) chapitre VIII 7nr oui non
TW-FAPI chapitre VII 6nr + 4lr oui non
YAST (p = 1 et q = 2) chapitre VIII 8nr oui non Fig. VIII.2
Méthode des puissances itérées section VI.2.2 4N r log2 (N ) + nr 2 oui oui/non rectangulaire
YAST (p = 2 et q = 2) chapitre VIII 11nr oui non

La figure VIII.1-a montre la trajectoire de l’angle principal maximal d’erreur obtenu avec FAPI,
avec les paramètres n = 80 et β ≈ 0.99. Ce résultat doit être comparé à celui obtenu avec l’algorithme
YAST en utilisant les mêmes paramètres (figure VIII.1-b) et p = 1. On observe que YAST converge
beaucoup plus vite que FAPI. Ensuite la figure VIII.1-c montre le résultat obtenu avec la méthode
des puissances itérées avec les mêmes paramètres. La méthode des puissances itérées converge plus
rapidement que YAST. Enfin, la figure VIII.1-d montre le résultat obtenu avec YAST dans le cas
p = 2. La convergence est encore plus rapide que celle de la méthode des puissances itérées.
La figure VIII.2-a montre la trajectoire de l’angle principal maximal d’erreur obtenue avec TW-
FAPI, avec les paramètres n = 80, β = 1 et l = 120 (fenêtre rectangulaire). Ce résultat doit être
comparé à celui obtenu avec l’algorithme YAST à fenêtre tronquée avec les mêmes paramètres (fi-
gure VIII.2-b) et p = 1. On remarque que YAST converge beaucoup plus vite que TW-FAPI. Ensuite
la figure VIII.2-c compare ce résultat à celui obtenu avec la méthode des puissances itérées avec les
mêmes paramètres. La méthode des puissances itérées converge plus rapidement que YAST. Enfin, la
7
La méthode des puissances itérées permet de suivre la structure propre de la matrice de corrélation quand l’étape
d’orthonormalisation est effectuée à l’aide d’une factorisation QR ; l’algorithme prend alors le nom de méthode d’itération
orthogonale. D’autres méthodes d’orthonormalisation ne permettent pas de suivre la structure propre. Par exemple, celle
utilisée dans la méthode des puissances naturelles [Hua et al., 1999] permet en revanche d’obtenir une matrice W (t)
stable au cours du temps (ce qui n’est pas le cas de la base des vecteurs propres, comme cela a été mentionné dans la
section VI.2.1).
VIII.5. CONCLUSION 117

Angle d’erreur (degrés)Angle d’erreur (degrés) Angle d’erreur (degrés) Angle d’erreur (degrés)
(a) FAPI
80
60
40
20
0
500 1000 1500 2000 2500 3000 3500 4000
(b) YAST avec p=1 et q=1
80
60
40
20
0
500 1000 1500 2000 2500 3000 3500 4000
(c) Méthode des puissances itérées

20

10

0
500 1000 1500 2000 2500 3000 3500 4000
(d) YAST avec p=2 et q=1

20

10

0
500 1000 1500 2000 2500 3000 3500 4000
Temps dicret (échantillons)

Fig. VIII.1 – Poursuite de l’espace signal reposant sur une fenêtre exponentielle
(a) FAPI
(b) YAST avec p = 1 et q = 1
(c) Méthode des puissances itérées
(d) YAST avec p = 2 et q = 1

figure VIII.2-d montre le résultat obtenu avec l’algorithme YAST à fenêtre tronquée dans le cas p = 2.
De nouveau, la convergence est encore plus rapide que celle de la méthode des puissances itérées.

VIII.5 Conclusion
Dans ce chapitre, un nouvel algorithme de poursuite de sous-espace a été présenté, dérivé de l’algo-
rithme SP de C.E. Davila. En particulier, la démonstration de sa convergence figure dans [Davila, 2000].
Cet algorithme atteint la complexité linéaire O(nr) et surclasse largement les algorithmes classiques
de poursuite de sous-espace de même complexité. De plus, il garantit l’orthonormalité de la base de
l’espace signal à chaque itération. Cet algorithme peut être modifié pour suivre le sous-espace mineur
de la matrice de corrélation8 .

8
Dans ce cas, la matrice U (t) doit engendrer le sous-espace mineur de dimension r de C yy (t) (au lieu de Z(t)).
118 CHAPITRE VIII. YET ANOTHER SUBSPACE TRACKER

Angle d’erreur (degrés) Angle d’erreur (degrés)Angle d’erreur (degrés)Angle d’erreur (degrés)

(a) TW−FAPI
80
60
40
20
0
500 1000 1500 2000 2500 3000 3500 4000
(b) YAST avec p=1 et q=2
80
60
40
20
0
500 1000 1500 2000 2500 3000 3500 4000
(c) Méthode des puissances itérées
80
60
40
20
0
500 1000 1500 2000 2500 3000 3500 4000
(d) YAST avec p=2 et q=2
10

0
500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)

Fig. VIII.2 – Poursuite de l’espace signal reposant sur une fenêtre rectangulaire
(a) TW-FAPI
(b) YAST avec p = 1 et q = 2
(c) Méthode des puissances itérées
(d) YAST avec p = 2 et q = 2
VIII.5. CONCLUSION 119

Tab. VIII.2 – Pseudo-code de l’algorithme YAST


éq. : MACs :
x(t) ← x(t)
y(t) ← W (t − 1)H x(t) nr
x′ (t) ← x′ (t) = C xx (t − 1) x(t) O(n)
y ′ (t) ← y ′ (t) = W (t − 1)H x′ (t) nr
si q = 2,
x(t) ← [x(t), x(t − l)] 
y(t) ← y(t), W (t − 1)H x(t − l) (q − 1)nr
e ′ (t − l)= C xx (t − 1) x(t
x  − l) (q − 1)O(n)
x′ (t) ← x′ (t), x e ′ (t − l) 
y ′ (t) ← y ′ (t), W (t − 1)H x e ′ (t − l) (q − 1)nr
fin ;
x(t) ← x(t)
y(t) ← y(t)
si p = 2,
x(t) ← [x(t), x′ (t)]
y(t) ← [y(t), y ′ (t)]
x′′ (t) = C xx (t − 1)2 x(t) (p − 1)O(n)
x′ (t) ← [x′ (t), x′′ (t)] 
y ′ (t) ← y ′ (t), W (t − 1)H x′′ (t) (p − 1)nr
fin ;
1
σ(t) = x(t)H x(t) − y(t)H y(t) 2 (VIII.7) (p + q − 1)2 (n + r)
h(t) = Z(t − 1) y(t) (VIII.21) qr2
−1
γ(t) = β J −1 + y(t)H h(t) (VIII.22) q2 r

e
Z(t) = β1 Z(t − 1) − h(t) γ(t) h(t)H (VIII.23) qr2 + q 2 r
α(t) = x(t)H x(t) (VIII.13) (p + q − 1)qn
y ′′ (t) = βy ′ (t) + y(t) J α(t) (VIII.19) (p + q − 1)qr
cyy (t) = βx(t)H x′ (t) + α(t)H J α(t) (VIII.20) (p + q − 1)2 n
h(t) = Z(t) e y ′′ (t) (VIII.25) (p + q − 1)r2
−1
γ(t) = cyy (t) − y ′′ (t)H h(t) (VIII.27) (p + q − 1)2 r

h (t) = h(t) − y(t) (VIII.29)
Ze ′ (t) = Z(t)
e ′
+ h (t) γ(t) h (t)H

(VIII.30) (p + q − 1)r2 + (p + q − 1)2 r

g(t) = h (t) γ(t) σ(t)H (VIII.31) (p + q − 1)2 r
γ (t) = hσ(t) γ(t) σ(t)H

i (VIII.32)
Z(t) = Z e ′ (t), −g(t); −g(t)H , γ ′ (t) (VIII.28)
 
 φ(t),Tλ(t) T= eigs Z(t), p+q−1 (VIII.33) O((p + q − 1)r2 )
ϕ(t) , z(t)  = φ(t)T (VIII.34)
ρ(t), θ(t) = polar (z(t)) (VIII.35)
f (t) = ϕ(t) θ(t)H (VIII.36) (p + q − 1)2 r
′ −1
f (t) = f (t) I + ρ(t) (VIII.37) (p + q − 1)2 r

y ′′′ (t) = y(t) σ(t)−1 − f (t) (VIII.41) (p + q − 1)2 r
e (t) = x(t)σ(t) − W (t − 1)y ′′′ (t)
′ −1
(VIII.40) (p + q − 1)nr + (p + q − 1)2 n
W (t) = W (t − 1) − e′ (t) f (t)H (VIII.39) (p + q − 1)nr
′ 
g ′ (t) = g(t) + f (t) γ ′ (t) − θ(t)λ(t)θ(t)H (VIII.45) (p + q − 1)2 r
Z(t) = Z e ′ (t) + g ′ (t) f ′ (t)H + f ′ (t) g(t)H (VIII.44) 2(p + q − 1)r2
H
r(r+1)
Z(t) = Z(t)+Z(t) 2 (force la symétrie) (VIII.46) 2
Total : (3p + 4q − 3)nr + O(n + r2 )
120 CHAPITRE VIII. YET ANOTHER SUBSPACE TRACKER
121

Chapitre IX

Suivi des pôles et des amplitudes


complexes

Résumé
Reposant sur l’estimation de l’espace signal obtenue par le biais de FAPI et de
YAST, nous proposons dans ce chapitre une nouvelle technique de suivi de la matrice
spectrale, plus rapide que celles évoquées dans la section VI.3. Par ailleurs, nous
proposons également deux approches pour suivre les pôles, la première effectuant
une approximation, et la seconde permettant de les calculer exactement pour un
coût inférieur à celui d’une EVD. La question du suivi des amplitudes est également
évoquée. Les performances de l’algorithme complet de poursuite des paramètres ainsi
obtenu sont illustrées en fin de chapitre.
122 CHAPITRE IX. SUIVI DES PÔLES ET DES AMPLITUDES COMPLEXES

IX.1 Introduction
Les chapitres VII et VIII présentaient des algorithmes de poursuite d’espace signal qui mettent à
jour la matrice W (t) de dimension n × r en lui ajoutant une matrice de rang réduit1 p + q − 1 < r :

W (t) = W (t − 1) + e(t) g(t)H (IX.1)

où e(t) est une matrice de dimension n × (p + q − 1) et g(t) est une matrice de dimension r × (p + q − 1).
Nous visons maintenant à optimiser la suite du traitement en exploitant la structure particulière de
la mise à jour de la matrice W (t) dans l’équation (IX.1). Ainsi un nouvel algorithme ESPRIT adaptatif
est proposé dans la section IX.2, plus rapide que ceux évoqués dans la section VI.3. La section IX.3
est consacrée au suivi des pôles. Les performances des méthodes de suivi de la matrice spectrale et des
pôles sont ensuite illustrées dans la section IX.4. La question du suivi des amplitudes complexes est
évoquée dans la section IX.5. Enfin, la section IX.6 dresse un bilan de l’algorithme complet de suivi
des paramètres du modèle.

IX.2 Suivi de la matrice spectrale


L’expression de la matrice spectrale Φ(t) a été donnée dans la section V.3.1 :

Φ(t) = Ω(t) Ψ(t) (V.6)

où Ω(t) et Ψ(t) sont des matrices de dimension r × r


−1
Ω(t) , W ↓ (t)H W ↓ (t) (V.7)
Ψ(t) , W ↓ (t)H W ↑ (t) (V.8).

En particulier, il a été démontré dans la section V.3.1 que la matrice Ω(t) possédait une expression
simple permettant d’optimiser les calculs. A présent, nous allons montrer que la matrice Ψ(t) peut
être calculée récursivement. Posons

e− (t) = W ↓ (t − 1)H e↑ (t), (IX.2)


H
e+ (t) = W ↑ (t − 1) e↓ (t), (IX.3)

e′+ (t) H
= e+ (t) + g(t) e↑ (t) e↓ (t) . (IX.4)

En substituant les équations (IX.2), (IX.3) et (IX.4) dans l’équation (V.8), on montre que Ψ(t)
satisfait une récursion de rang 2(p + q − 1) :

Ψ(t) = Ψ(t − 1) + e− (t) g(t)H + g(t) e′+ (t)H . (IX.5)

Ainsi, le calcul complet de Φ(t) est réduit à 2(p + q − 1)nr + O(n + r 2 ) MACs (cf. table (IX.1)).
Par ailleurs, on peut extraire de l’équation (IX.1) le résultat suivant :

ν(t) = ν(t − 1) + g(t) e(n−1) (t) (IX.6)

où ν(t) est un vecteur de dimension r contenant le conjugué hermitien de la dernière ligne de W (t)
(cf. section V.3.1), et e(n−1) (t) est un vecteur de dimension p + q − 1 contenant le conjugué hermitien
1
Les vecteurs e(t) et g(t) ne sont pas définis de la même manière dans les chapitres VII et VIII, et ne sont d’ailleurs
pas désignés sous le même nom. Nous optons ici pour une notation unique, qui ne prête pas à ambiguïté avec celles de
ces deux chapitres. Concernant le rang de ces matrices, le chapitre VII correspond au cas p = 1.
IX.3. SUIVI DES PÔLES 123

Tab. IX.1 – Suivi de la matrice spectrale

Complexité
e− (t) = W ↓ (t − 1)H e↑ (t) (IX.2) n(p + q − 1)r
e+ (t) = W ↑ (t − 1)H e↓ (t)  (IX.3) n(p + q − 1)r
e′+ (t) = e+ (t) + g(t) e↑ (t)H e↓ (t) (IX.4) n(p + q − 1)2
Ψ(t) = Ψ(t − 1) + e− (t) g(t) + g(t) e′+ (t)H
H
(IX.5) 2(p + q − 1)r 2
ϕ(t) = Ψ(t)H ν(t) (V.10) r2
Φ(t) = Ψ(t) + 1−||ν1(t)||2 ν(t) ϕ(t)H (V.9) r2

de la dernière ligne de e(t). En substituant les équations (IX.5) et (IX.6) dans l’équation (V.9), on
obtient finalement une récursion pour la matrice spectrale :

Φ(t) = Φ(t − 1) + g(t) e′′+ (t)H + e− (t) g(t)H + ν(t − 1) ∆ϕ(t)H , (IX.7)


1
e′′+ (t) = e′+ (t) + ϕ(t) en−1 (t)H ,
1 − kν(t)k2
ϕ(t) ϕ(t − 1)
∆ϕ(t) = 2
− .
1 − kν(t)k 1 − kν(t − 1)k2

Il s’agit d’une mise à jour de rang 2(p + q − 1) + 1. Dans la suite, l’équation (IX.7) sera écrite sous
une forme plus compacte :
Φ(t) = Φ(t − 1) + a(t) b(t)H (IX.8)

où a(t) et b(t) sont des matrices de dimension r × (2p + 2q − 1).


Cette technique de mise à jour de la matrice spectrale est encore plus rapide que celle qui a été
proposée dans [Badeau et al., 2003b]. On remarquera que le surcoût correspondant au calcul de e′′+ (t)
et ∆ϕ(t) n’est que de O(r) MACs.

IX.3 Suivi des pôles


Comme il a été montré dans la section IX.2, la matrice Φ(t) est mise à jour à l’aide d’une modifica-
tion de rang 2p + 2q − 1 (cf. équation (IX.8)). Pour suivre ses valeurs propres, les techniques évoquées
dans la section VI.3 s’avèrent moins intéressantes qu’une simple EVD. Deux autres approches sont
proposées ci-dessous :
– utiliser un algorithme d’itération othogonale séquentiel (section IX.3.1),
– effectuer une mise à jour exacte (section IX.3.2).

IX.3.1 Algorithme d’itération orthogonale séquentiel avec décalage


Partant sur la même idée que dans la section V.2, il est possible d’utiliser l’algorithme d’itération
orthogonale pour calculer la décomposition de Schur (et en particulier les valeurs propres) de la matrice
Φ(t). Malheureusement, il se trouve que cet algorithme converge très lentement dans la pratique. En
effet, comme il a été mentionné dans la section V.2, la vitesse de convergence pour chaque valeur
z (t) i
propre zk (t) est en k+1
zk (t) (en supposant k < K − 1 et les pôles zk (t) triés par ordre de module
décroissant). Or les pôles du signal se trouvent le plus souvent dans le voisinage du cercle unité et ont
124 CHAPITRE IX. SUIVI DES PÔLES ET DES AMPLITUDES COMPLEXES

par conséquent des modules très proches. Pour contourner cette difficulté, il existe une solution très
simple qui repose sur la technique des décalages [Golub et Van Loan, 1996, pp. 353] : au lieu de calculer
les valeurs propres de la matrice Φ(t), on calcule celles de la matrice Φµ (t) , Φ(t)−µ(t)I r , où µ(t) ∈ C
(il suffit ensuite de rajouter µ(t) à toutes les valeurs propres obtenues). La vitesse de convergence de
z (t)−µ(t) i
l’algorithme est alors k+1
zk (t)−µ(t) et peut être optimisée en choisissant judicieusement2 le décalage
µ(t).
La complexité de cet algorithme d’itération orthogonale avec décalage est O(r 3 ). Contrairement à
ce qui a été fait dans le chapitre VI, il n’est pas possible de réduire cette complexité sans introduire
d’approximation, car la matrice Φ(t) ne possède pas de structure particulière. Il est cependant possible
de réduire les calculs en n’effectuant qu’une seule itération à chaque instant. On obtient ainsi l’algo-
rithme séquentiel présenté dans la table IX.2, dont la complexité est 2r 3 . Cet algorithme approche les
valeurs propres de la matrice Φ(t).

Tab. IX.2 – Itération orthogonale séquentielle avec décalage

Récursion sur t
Φµ (t) = Φµ (t − 1) + a(t) b(t)H − (µ(t) − µ(t − 1))I r (2p + 2q − 1)r 2
Z(t) = Φµ (t) Q(t − 1) r3
Q(t) R(t) = Z(t) r3
{zk (t)}k∈{0...K−1} = diag R(t) + µ(t) r

Remarque. Il existe dans la littérature une alternative à l’algorithme d’itération orthogonale baptisée
itération QR, utilisable dans le cas où l’on ne cherche pas à calculer un sous-ensemble mais la totalité
des valeurs propres (ce qui est le cas ici). Une version séquentielle de cet algorithme s’obtient en
effectuant le changement de variable Φ(t) −→ T (t) = Q(t − 1)H Φ(t) Q(t − 1), de façon similaire
à ce qui est proposé dans [Golub et Van Loan, 1996, pp. 334]. Cependant, cet algorithme n’est pas
intéressant car il s’avère plus coûteux que l’algorithme d’itération orthogonale séquentiel (3r 3 au lieu
de 2r 3 ) et présente exactement les mêmes performances.

Pour réduire davantage la complexité, il serait possible d’envisager d’utiliser une approximation
similaire à celle qui a été introduite dans le chapitre VII, afin d’obtenir un coût en O(r 2 ). Malheu-
reusement, nous avons pu observer que cette méthode ne donne pas les résultats attendus (en fait elle
ne converge pas). En effet, contrairement à la mise à jour de la matrice C xx (t) qui fait intervenir un
vecteur de l’espace signal à l’instant t, la mise à jour de la matrice Φ(t) consiste en un ajustement de
faible amplitude, idéalement nul en l’absence de bruit si les paramètres du signal sont constants. Intro-
duire une approximation à chaque itération amène ainsi à cumuler les erreurs et empêche l’algorithme
de converger.
Un deuxième algorithme de suivi est proposé dans la section suivante. Celui-ci calcule les valeurs
propres exactes de la matrice Φ(t), et ne s’avère pas plus coûteux que l’algorithme d’itération orthogo-
nale séquentiel, qui ne donne que des valeurs approchées. Le premier sera donc logiquement abandonné
au profit du second.

2
Si les pôles sont supposés être au voisinage du cercle unité et avoir des fréquences centrées en 0, µ(t) = 1 paraît être
un choix approprié. En particulier, µ(t) est lui-même sur le cercle unité, et la matrice Φµ (t) est réelle si Φ(t) est réelle.
IX.3. SUIVI DES PÔLES 125

IX.3.2 Mise à jour exacte


Dans cette section est proposée une méthode récursive permettant de calculer les valeurs propres
de la matrice spectrale de manière exacte, en exploitant la structure de la mise à jour dans l’équa-
tion (IX.8) :
Φ(t) = Φ(t − 1) + a(t) b(t)H .
Cette méthode est limitée au cas où la matrice Φ(t) est diagonalisable à chaque instant, ce qui
est toujours le cas dans la pratique (d’ailleurs la méthode d’estimation des pôles multiples proposée
dans le chapitre III tient compte de l’éclatement de ces pôles en valeurs propres simples en présence
de perturbations).
Par souci de simplicité, cette récursion est analysée dans un premier temps dans le cas particulier
où a(t) et b(t) sont des vecteurs de dimension r, qui seront par conséquent notés a(t) et b(t) (sec-
tion IX.3.2.1). Cette étude sera ensuite généralisée au cas où a(t) et b(t) sont des matrices de dimension
r × (2p + 2q − 1) (section IX.3.2.2).

IX.3.2.1 Cas d’une mise à jour de rang un


Considérons la factorisation
Φ(t − 1) = G(t − 1) J (t − 1) G(t − 1)−1
où la matrice de Jordan J (t − 1) est diagonale. Considérons également la mise à jour de rang un
Φ(t) = Φ(t − 1) + a(t) b(t)H . (IX.9)
e
Alors posons Φ(t) = G(t − 1)−1 Φ(t) G(t − 1),
e (t) = G(t − 1)−1 a(t)
a (IX.10)
et
e
b(t) = G(t − 1)H b(t). (IX.11)
Ainsi, l’équation (IX.9) est équivalente à
e
Φ(t) e (t) e
= J (t − 1) + a b(t)H . (IX.12)
e
Nous cherchons à diagonaliser Φ(t) e
sous la forme Φ(t) e J (t) G(t)
= G(t) e −1 . On obtiendra ainsi
e
G(t) = G(t − 1) G(t). (IX.13)
Soient alors g er−1 (t) les vecteurs colonne de la matrice G(t),
e0 (t), . . . , g e de sorte que
 
e
G(t) = g e0 (t), . . . , g
er−1 (t) .
e ′ = G(t)
De même, posons G(t) e −H , et considérons ses vecteurs colonne de sorte que
 ′ 
e ′= g
G(t) e′r−1 (t) .
e0 (t), . . . , g
e′k (t)H g
Les vecteurs ainsi définis vérifient ∀k ∈ {0 . . . r − 1}, g e′k (t)H g
ek (t) = 1 et ∀k 6= k′ , g ek′ (t) = 0.
e
Soit z une valeur propre de Φ(t), g e un vecteur propre à droite associé, et g ′
e un vecteur propre à
gauche. Alors on vérifie que
 
(zI r − J (t − 1)) ge = a e (t) eb(t)H ge (IX.14)
 
(zI r − J(t − 1))∗ g e′ = e b(t) a e′
e (t)H g (IX.15)

Les deux propositions suivantes donnent l’expression des vecteurs propres g e et ge′ , selon que z est
une valeur propre de Φ(t − 1) ou non. Elles sont démontrées en annexe, dans la section B.5.1, page 195.
126 CHAPITRE IX. SUIVI DES PÔLES ET DES AMPLITUDES COMPLEXES

Proposition IX.3.1. Si z n’est pas valeur propre de Φ(t − 1), alors eb(t)H g e (t)H g
e 6= 0 et a e=6 0. De
plus,
 
e ∈ span (zI r − J (t − 1))−1 a
g e (t) (IX.16)
 
e′ ∈ span (zI r − J(t − 1))−1∗ e
g b(t) . (IX.17)

Proposition IX.3.2. Si z est égal à une valeur propre zk (t − 1) de Φ(t − 1), alors au moins l’une des
deux conditions suivantes est vérifiée :
– eak (t) = 0 et

e′
g ∈ span(ek ) (IX.18)

e = ρ1 (zk (t − 1)I r − J (t − 1)) a
g e (t) + ρ2 ek (IX.19)

où ρ1 et ρ2 satisfont la relation
 
ρ1 1 − e e (t) = ρ2 ebk (t)∗
b(t)H (zk (t − 1)I r − J(t − 1))† a (IX.20)

– ebk (t) = 0 et

e ∈ span(ek )
g (IX.21)
′ ∗† e
e
g = ρ1 (zk (t − 1)I r − J(t − 1)) b(t) + ρ2 ek (IX.22)

où ρ1 et ρ2 satisfont la relation
 
ρ1 1 − a e (t)H (zk (t − 1)I r − J (t − 1))∗† e ak (t)∗ .
b(t) = ρ2 e (IX.23)

La proposition suivante détermine les valeurs propres de Φ(t). Elle est également démontrée en
annexe, dans la section B.5.1, page 195.
Proposition IX.3.3. Pour tout k ∈ {0 . . . r − 1}, zk (t − 1) est valeur propre de Φ(t) si et seulement
si le produit ebk (t)∗ e
ak (t) est nul. Les autres valeurs propres de Φ(t) sont les solutions de l’équation

P ebk (t)∗ eak (t)


r−1
1− z−zk (t−1) = 0. (IX.24)
k=0

Pour résoudre l’équation (IX.24), il suffit de remarquer que le membre de gauche devient un po-
Q
r−1
lynôme de degré r quand il est multiplié par (z − zk (t − 1)). L’algorithme de suivi des pôles est
k=0
résumé dans la table (IX.3). Par souci de simplicité, il est supposé dans cette table qu’aucune valeur
propre de Φ(t) n’est exactement valeur propre de Φ(t − 1) (ce qui est toujours le cas dans la pratique).
e
Par contre, la formule utilisée pour calculer la matrice G(t) a été choisie de façon à éviter les problèmes
numériques dans le cas où zk (t) est proche de zk (t − 1). Enfin, la normalisation des colonnes de G(t) e
est indispensable pour assurer la stabilité de l’algorithme.
La complexité globale est 43 r 3 + O(r 2 ) : l’ordre de grandeur, r 3 , est le même que celui d’une
diagonalisation directe de la matrice Φ(t), mais la constante multiplicative est beaucoup plus faible
(cf. [Golub et Van Loan, 1996, pp. 359]).
IX.3. SUIVI DES PÔLES 127

Tab. IX.3 – Algorithme de suivi des pôles (mise à jour de rang 1)

r3
e (t) = G(t − 1)−1 a(t)
a (IX.10) 3 + O(r 2 )
e
b(t) = G(t − 1)H b(t) (IX.11) r2
P ebk (t)∗ eak (t)
r−1
Calculer {zk (t)} en résolvant l′ équation 1 − z−zk (t−1) = 0 (IX.24) O(r 2 )
k=0
e (k′ ,k) (t) = zk (t)−zk (t−1)
∀k′ , k, G zk (t)−zk′ (t−1) ak′ (t)
e (IX.16) 2r 2
e
Normaliser les colonnes de G(t) 2r 2
e
G(t) = G(t − 1) G(t) (IX.13) r3

IX.3.2.2 Généralisation à une mise à jour de rang faible


Considérons de nouveau l’équation (IX.8), Φ(t) = Φ(t − 1) + a(t) b(t)H , où a(t) et b(t) sont des
matrices de dimension r × (2p + 2q − 1). Soit G′ (t − 1) = G(t − 1)−H . Alors posons
e (t) = G′ (t − 1)H a(t)
a (IX.25)

et
e
b(t) = G(t − 1)H b(t). (IX.26)
qui remplacent les équations (IX.10) et (IX.11). Alors l’équation (IX.12) devient
e
Φ(t) e (t) e
= J (t − 1) + a b(t)H .
e
Soit z une valeur propre de Φ(t), e′ un vecteur propre à
e un vecteur propre à droite associé, et g
g
gauche. Alors on vérifie que
 
e = a
(zI r − J (t − 1)) g e (t) eb(t)H ge (IX.27)
 
(zI r − J(t − 1))∗ ge′ = eb(t) a e′
e (t)H g (IX.28)

qui se substituent aux équations (IX.14) et (IX.15).


La proposition suivante donne l’expression des vecteurs propres g e′ dans le cas où z n’est pas
e et g
une valeur propre de Φ(t − 1), et exprime z comme solution d’une équation. Elle est démontrée dans
la section B.5.2.
Proposition IX.3.4. Si z n’est pas valeur propre de Φ(t − 1), alors la matrice

I −e
b(t)H (zI r − J (t − 1))−1 a
e (t)

est singulière et z est solution de l’équation


 
det I − e b(t)H (zI r − J(t − 1))−1 a
e (t) = 0. (IX.29)

e′ s’écrivent sous la forme


e et g
De plus, les vecteurs propres g

e = (zI r − J(t − 1))−1 a


g e (t) v (IX.30)

e′ = (zI r − J(t − 1))−1∗ e


g b(t) v ′ (IX.31)
128 CHAPITRE IX. SUIVI DES PÔLES ET DES AMPLITUDES COMPLEXES


n o
v ∈ ker I − e
b(t)H (zI r − J(t − 1))−1 a
e (t) (IX.32)
 H 

v ∈ ker e H −1
I − b(t) (zI r − J(t − 1)) a e (t) . (IX.33)

L’algorithme est résumé dans la table (IX.4). Sa complexité est 2r 3 + O(r 2 ), indépendamment de
2p + 2q − 1 (à condition toutefois que 2p + 2q − 1 reste très inférieur à r).

Tab. IX.4 – Algorithme de suivi des pôles (mise à jour de rang faible)

e (t) = G′ (t − 1)H a(t)


a (IX.25) (2p + 2q − 1)r 2
eb(t) = G(t − 1)H b(t) (2p + 2q − 1)r 2
  (IX.26)
Calculer {zk (t)} en résolvant l′ équation det I − e e(t) = 0
b(t)H (zI r − J (t − 1))−1 a (IX.29) O(r 2 )
Pour k allant de 1 a r faire r×
φk (t) = I − e n r −oJ (t − 1)) ae (t)
b(t)H (zk (t)I −1
O(1)
Extraire v k (t) de ker φk (t) (IX.32) O(1)
 
ek (t) = diag
g zk (t)−zk (t−1) (t)−zk (t−1)
, . . . , zkzk(t)−z e (t) vk (t)
a (IX.30) (2p + 2q + 1)r
n
zk (t)−z0 (t−1)
o r−1 (t−1)

Extraire v ′k (t) de ker φk (t) H


(IX.33) O(1)
z ∗
e
g ′k (t) = diag k (t)−zk (t−1)
zk (t)−z0 (t−1)
(t)−zk (t−1)
, . . . , z zk(t)−z e
b(t) v ′k (t) (IX.31) (2p + 2q + 1)r
k r−1 (t−1)
Fin pour
e et G
Remettre à l’échelle les colonnes de G(t) e ′ (t) de façon à obtenir G
e ′ (t)H G(t)
e = Ir 4r 2
e
G(t) = G(t − 1) G(t) (IX.13) r3
e ′ (t)
G′ (t) = G′ (t − 1) G (IX.13) r3

IX.4 Simulations numériques


Nous illustrons ici les performances du suivi obtenu avec la technique de suivi de la matrice spectrale
résumée dans la table IX.1 et la technique de suivi des pôles résumée dans la table IX.4. Ces deux
méthodes ont été testées avec les algorithmes de poursuite d’espace signal FAPI, TW-FAPI et YAST,
dont les complexités ont été données dans la table VIII.1. Le signal de test est celui qui a été introduit
dans la section VI.2.3.3. Les paramètres du suivi sont n = 80, l = 120 et β = 1 − 1l .
La figure IX.1 montre les trajectoires fréquentielles obtenues avec les algorithmes FAPI, TW-FAPI
et YAST avec p = 1 et q = 1 (fenêtre exponentielle). La ligne pointillée indique les paramètres
fréquentiels exacts, alors que la ligne continue indique les fréquences estimées. Les performances de
TW-FAPI et YAST sont semblables, et meilleures que celles de FAPI. La figure IX.2 montre les
trajectoires fréquentielles obtenues avec l’algorithme YAST, dans les cas de figure (p = 1, q = 2),
(p = 2, q = 1) et (p = 2, q = 2). Les performances atteintes par ces trois implémentations sont
comparables et meilleures que celles observées dans la figure IX.1. En fait, elles sont voisines de celles
des algorithmes de complexité élevée illustrés dans la figure VI.2.
En conclusion, TW-FAPI et YAST sont meilleurs que FAPI en terme d’estimation des fréquences.
Comme par ailleurs YAST possède une complexité voisine de celle de FAPI dans le cas p = 1 et q = 1,
nous préférerons logiquement YAST à FAPI. De plus, TW-FAPI ne peut rivaliser avec YAST en terme
IX.5. SUIVI DES AMPLITUDES COMPLEXES 129

(a) FAPI
0.3

Fréquences (Hz)
0.2

0.1

0
500 1000 1500 2000 2500 3000 3500 4000
(b) TW−FAPI
0.3
Fréquences (Hz)

0.2

0.1

0
500 1000 1500 2000 2500 3000 3500 4000
(c) YAST avec p=1 et q=1
0.3
Fréquences (Hz)

0.2

0.1

0
500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)

Fig. IX.1 – Suivi des fréquences (1/2)


(a) FAPI
(b) TW-FAPI
(c) YAST avec p=1 et q=1 (fenêtre exponentielle)

de performances que dans le cas p = 1 et q = 1, mais son coût est alors deux fois plus élevé. Nous
préférerons donc également YAST à TW-FAPI.
Cependant, si l’on souhaite réduire la charge de calculs en n’estimant pas l’espace signal à chaque
instant, mais seulement à certains instants régulièrement espacés, il n’est plus possible d’utiliser YAST,
car celui-ci s’appuie sur la structure Hankel de la matrice de données (des explications ont été données
à ce sujet dans la remarque de la section VI.2.3). Dans ce cas FAPI et TW-FAPI constituent le meilleur
choix.

IX.5 Suivi des amplitudes complexes

Dans la section II.6 nous avons défini le vecteur α(t) contenant les amplitudes complexes, dont
se déduisent les amplitudes réelles et les phases correspondantes. Il est immédiat de vérifier que ce
vecteur peut être mis à jour récursivement à l’aide de l’équation α(t) = J (t) α(t − 1). Le suivi de
α(t) par cette méthode requiert ainsi r MACs3 . Malheureusement, si cette technique de poursuite
est peu coûteuse, elle n’est pas du tout robuste aux variations des paramètres, puisque les erreurs
s’accumulent à chaque itération. Dans la pratique, elle devra être abandonnée au profit de la méthode
3
(non adaptative) présentée dans la section V.3.2. Comme cette dernière ne coûte que N r + r6 + O(r 2 )
MACs, elle n’accroît pas la complexité globale de l’algorithme de suivi des paramètres.

3
Dans la pratique, les pôles sont estimés à chaque instant à une permutation près. Il est donc nécessaire de déterminer
préalablement les trajectoires de chaque pôle par un critère de continuité temporelle avant de chercher à suivre les
amplitudes complexes.
130 CHAPITRE IX. SUIVI DES PÔLES ET DES AMPLITUDES COMPLEXES

(a) YAST avec p=1 et q=2


0.3

Fréquences (Hz)
0.2

0.1

0
500 1000 1500 2000 2500 3000 3500 4000
(b) YAST avec p=2 et q=1
Fréquences (Hz) 0.3

0.2

0.1

0
500 1000 1500 2000 2500 3000 3500 4000
(c) YAST avec p=2 et q=2
0.3
Fréquences (Hz)

0.2

0.1

0
500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)

Fig. IX.2 – Suivi des fréquences (2/2)


(a) YAST avec p=1 et q=2 (fenêtre rectangulaire)
(b) YAST avec p=2 et q=1 (fenêtre exponentielle)
(c) YAST avec p=2 et q=2 (fenêtre rectangulaire)

IX.6 Conclusion
Dans ce chapitre a été proposé un nouvel algorithme ESPRIT adaptatif, plus rapide que ceux
mentionnés dans la section VI.3. Les valeurs propres de la matrice spectrale sont obtenues par le biais
d’une EVD, dont la complexité est réduite grâce à un calcul récursif. Enfin, les amplitudes complexes
sont estimées comme dans la section V.3.2.
Le coût de chaque étape de l’algorithme de poursuite des paramètres est résumé ci-dessous :
– poursuite de l’espace signal : 3qnr + 4(q − 1)lr + o(nr) MACs avec FAPI/TW-FAPI, ou (3p +
4q − 3)nr + O(n + r 2 ) MACs avec YAST (cf. table VIII.2),
– calcul de la matrice spectrale : 2(p + q − 1)nr + O(n + r 2 ) MACs (cf. table IX.1),
– suivi des pôles : 2r 3 + O(r 2 ) MACs (cf. table IX.4),
3
– suivi des amplitudes complexes : N r + r6 + O(r 2 ) MACs (cf. section IX.5).
Le coût du traitement complet est donc (q + 4)nr + (4q − 3)N r + 13 3 2
6 r + O(n + r ) MACs avec
FAPI/TW-FAPI, ou (6q + 5p − 5)nr + N r + 13 3 2
6 r + O(n + r ) MACs avec YAST.
Cet algorithme permet ainsi de suivre de manière précise et rapide les trajectoires temporelles des
sinusoïdes. Ce suivi permet d’envisager par exemple des applications de modification de durée ou de
hauteur du signal, que nous avons abordées dans [Badeau et al., 2002, David et al., 2003]4 . D’autres
applications seront présentées dans la troisième partie de ce mémoire.

4
Ces articles sont reproduits en annexe dans le chapitre C.
131

Troisième partie

Application aux signaux de musique


133

Chapitre X

Analyse à haute résolution des signaux de


musique

Résumé
Dans la littérature, les méthodes HR restent marginalement utilisées dans le cadre
de l’analyse spectrale des signaux de musique. Pourtant, certains auteurs ont montré
que le modèle ESM est particulièrement bien adapté à ce type de signaux. En fait,
il permet de représenter bien plus qu’une simple somme de sinusoïdes à modulation
exponentielle. Il n’en reste pas moins que la mise en oeuvre des méthodes HR est
délicate et nécessite de prendre certaines précautions. Nous résumons dans ce chapitre
les problèmes pouvant être rencontrés, et diverses solutions qui ont été proposées pour
y remédier.
134 CHAPITRE X. ANALYSE À HAUTE RÉSOLUTION DES SIGNAUX DE MUSIQUE

X.1 Introduction
Dans la littérature, il est courant de représenter le signal audio comme une somme de sinusoïdes
superposées à un bruit additif [Serra et Smith, 1990]. Le modèle ESM est plus général, car il permet de
représenter des sinusoïdes dont l’amplitude varie exponentiellement dans l’horizon d’analyse. Certains
auteurs se sont intéressés aux avantages apportés par cette extension du modèle. Nous nous efforçons
ici de montrer que les méthodes HR permettent de décrire bien plus qu’une simple modulation expo-
nentielle : elles se prêtent en fait à de nombreux types de modulations couramment rencontrées dans
les signaux de musique.
Cependant, plusieurs problèmes se posent quand on souhaite mettre en oeuvre ces méthodes. Tout
d’abord, le bruit additif n’est généralement pas blanc, ce qui rend le problème d’estimation plus com-
plexe. Par ailleurs, les méthodes HR ont tendance à privilégier dans le signal les partiels de plus forte
énergie, qui ne sont pas toujours les plus importants à l’oreille. Enfin, elles ne permettent en pratique
d’estimer qu’un nombre réduit de composantes sinusoïdales, pouvant être inférieur au nombres d’har-
moniques présents dans un son grave. Plusieurs approches ont été proposées pour pallier ces difficultés.
En particulier, nous montrerons que découper le signal en sous-bandes présente de nombreux avantages.
Le chapitre est organisé de la façon suivante : dans la section X.2, nous tâcherons de mettre en
évidence les apports essentiels des méthodes HR dans le traitement des signaux de musique. Ensuite,
les divers problèmes posés par leur utilisation dans ce contexte seront évoqués dans la section X.3.
Les méthodes proposées dans la littérature pour résoudre ces problèmes seront présentées dans la
section X.4. Enfin, les principales conclusions de ce chapitre seront résumées dans la section X.5.

X.2 Potentiel des méthodes HR pour l’analyse du signal de musique


Par rapport à l’analyse de Fourier, les méthodes HR offrent une résolution spectrale améliorée,
permettant en particulier d’utiliser des fenêtres temporelles courtes, et d’éviter les inconvénients liés au
fenêtrage. Comme nous l’avons mentionné dans l’introduction de ce document, elles ont été appliquées
à différentes fins dans le cadre du traitement des signaux de musique, mais leur utilisation dans ce
domaine reste marginale. Nous visons dans cette section à démontrer que les méthodes HR permettent
en fait de représenter une grande variété de signaux et de modulations d’amplitude et de fréquence. Nous
constaterons en particulier que la présence de pôles hors du cercle unité permet de décrire fidèlement
des signaux d’énergie constante. Trois exemples types de modulations couramment rencontrées dans
les signaux de musique seront abordés : le trémolo (section X.2.1), le vibrato (section X.2.2) et le
glissando (section X.2.3). Dans les trois cas, les résultats sont
 illustrés
 à l’aide d’un signal synthétique,
échantillonné à 1024 Hz, défini sur l’intervalle temporel t ∈ − 12 , 12 de longueur N = 1024 échantillons.
La décomposition en sous-espaces est effectuée en dimension n = 512. Un bruit blanc gaussien complexe
est ajouté au signal de façon à obtenir un rapport signal à bruit de 30 dB. Cette étude se termine
par une discussion sur le modèle PACE et les modulations induites par la présence de pôles multiples
(section X.2.4).

X.2.1 Trémolo
Le trémolo est défini ici comme une modulation périodique de l’amplitude du son. Il se traduit
par une multiplication de la forme d’onde du son original par une fonction périodique. Par exemple, le
fondamental centré à la fréquence f0 s’exprime sous la forme s(t) = z0 t (1+p(t)), où p(t) est une fonction
1
périodique réelle de période ∆f (on suppose ∆f << f0 ), qui prend des valeurs petites devant 1. Cette
fonction se décompose donc comme une somme d’exponentielles complexes de fréquences multiples de
X.2. POTENTIEL DES MÉTHODES HR POUR L’ANALYSE DU SIGNAL DE MUSIQUE 135

∆f . Ainsi, le spectre du signal au voisinage du fondamental est un spectre de raies équidistantes et


centrées en f0 .
Pour illustrer ce résultat, nous synthétisons un signal constitué du seul fondamental, auquel est
appliqué un trémolo sinusoïdal :

s(t) = z0 t (1 + ε cos(2π∆f t)). (X.1)

La figure X.1-a représente la partie réelle du signal bruité obtenu avec les paramètres f0 = 20 Hz,
δ0 = 0 s−1 , ∆f = 2.3 Hz, et ε = 0.2. La variation de l’enveloppe de la sinusoïde est bien visible (phéno-
mène de battements). Nous souhaitons modéliser ce signal à l’aide du modèle ESM. L’équation (X.1)
se réécrit sous la forme
ε i2π(f 0+∆f )t ε i2π(f 0−∆f )t
s(t) = ei2πf 0t + e + e .
2 2

Ainsi, il apparaît que le signal est constitué de r = 3 pôles. La figure X.1-b représente les 10 plus grandes
valeurs propres de la matrice de corrélation de dimension 512 × 512, exprimées en dB et rangées par
ordre décroissant. Celles-ci sont bien quasi-constantes après le point d’abscisse 3, ce qui confirme cet
ordre de modélisation1 . Enfin, la figure X.1-c représente la partie réelle du signal reconstruit.

(a) Signal original

1
Amplitude

0.5
0
−0.5
−1
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)
(b) Valeurs singulières
Valeurs singulières (dB)

60

40

20

0
1 2 3 4 5 6 7 8 9 10
Ordre de valeurs décroissantes
(c) Signal reconstruit

1
Amplitude

0.5
0
−0.5
−1
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)

Fig. X.1 – Tremolo synthétique


(a) partie réelle du signal original
(b) valeurs singulières
(c) partie réelle du signal reconstruit

Les trois pôles estimés sont représentés dans la figure X.2 par des croix. Il sont bien équidistants
sur le cercle unité (tracé en ligne continue) et centrés en f0 . L’intervalle fréquentiel [f0 − ∆f, f0 + ∆f ]
est représenté par un secteur angulaire délimité en pointillés. Enfin, signalons que les trois amplitudes
estimées sur le signal bruité par la méthode des moindres carrés diffèrent des amplitudes théoriques de
moins de 0.4% en moyenne.
1
Pour cette même valeur r = 3, la fonction d’erreur inverse J du critère ESTER culmine à 1.2 × 106 .
136 CHAPITRE X. ANALYSE À HAUTE RÉSOLUTION DES SIGNAUX DE MUSIQUE

0.2

0.18

0.16

0.14

Partie imaginaire
0.12

0.1

0.08

0.06

0.04
0.9 0.92 0.94 0.96 0.98 1 1.02 1.04 1.06 1.08
Partie réelle

Fig. X.2 – Tremolo synthétique : fréquences parcourues et pôles estimés

X.2.2 Vibrato
Le vibrato est défini dans une acception restrictive comme une modulation périodique de la hauteur
du son. Ainsi, tous les harmoniques du son subissent une modulation de même période. Par exemple,
le fondamental centré à la fréquence f0 s’exprime sous la forme s(t) = z0 t ei2πf0 p(t) , où p(t) est une
1
fonction périodique réelle de période ∆f (on suppose ∆f << f0 ), dont la dérivée est de moyenne
nulle et prend des valeurs petites devant 1. Ainsi, la fonction t 7→ ei2πf0 p(t) est elle-même périodique
1
de période ∆f , et se décompose par conséquent comme une somme d’exponentielles complexes de
fréquences multiples de ∆f , de sorte que
+∞
X
s(t) = αk ei2π(f0 +k∆f )t . (X.2)
k=−∞

Ainsi, le spectre du signal au voisinage du fondamental est un spectre de raies équidistantes et centrées
en f0 , comme dans le cas d’un trémolo périodique.
Pour illustrer ce résultat, nous synthétisons un signal constitué du seul fondamental, auquel est
appliqué un vibrato sinusoïdal :
s(t) = z0 t eiβ sin(2π∆f t)
f0
où β = ε ∆f est appelé indice de modulation.
La figure X.3-a représente la partie réelle du signal bruité obtenu avec les paramètres f0 = 20 Hz,
δ0 = 0 s−1 , ∆f = 2.3 Hz, et ε = 0.2 (de sorte que β ≃ 1.74). La variation de la fréquence de la sinusoïde
est bien visible. Nous souhaitons modéliser ce signal à l’aide du modèle ESM. La figure X.3-b représente
les 25 plus grandes valeurs propres de la matrice de corrélation de dimension 512 × 512, exprimées
en dB et rangées par ordre décroissant. Celles-ci sont quasi-constantes après le point d’abscisse 9, ce
qui suggère d’utiliser r = 9 pôles complexes2 . Enfin, la figure X.3-c représente la partie réelle du signal
reconstruit.
Les pôles estimés sont représentés dans la figure X.4 par des croix. Ils sont bien régulièrement
répartis sur le cercle unité (tracé en ligne continue) autour de la fréquence f0 . L’intervalle fréquentiel
[(1 − ε)f0 , (1 + ε)f0 ] est représenté par un secteur angulaire délimité en pointillés. Les pôles nécessaires
pour modéliser correctement le signal s’étendent au-delà de cet intervalle.
Enfin, comme la modulation de fréquence est sinusoïdale, il est connu que les amplitudes αk peuvent
être calculées analytiquement [Chowning, 1973]. En effet, le développement en série de Fourier de la
2
Pour cette même valeur r = 9, la fonction d’erreur inverse J du critère ESTER culmine à 4.0 × 104 .
X.2. POTENTIEL DES MÉTHODES HR POUR L’ANALYSE DU SIGNAL DE MUSIQUE 137

(a) Signal original


1

0.5

Amplitude
0

−0.5

−1
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)
(b) Valeurs singulières
Valeurs singulières (dB) 60

40

20

0
5 10 15 20 25
Ordre de valeurs décroissantes
(c) Signal reconstruit
1

0.5
Amplitude

−0.5

−1
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)

Fig. X.3 – Vibrato synthétique


(a) partie réelle du signal original
(b) valeurs singulières
(c) partie réelle du signal reconstruit

1
fonction t 7→ eiβ sin(2π∆f t) de période ∆f donne

+∞
X
eiβ sin(2π∆f t) = Jk (β) ei2πk∆f t
k=−∞

R 12
où Jk (β) = − 21
ei(β sin(2πu)−2πku) du est une fonction de Bessel de première espèce. Par substitu-
tion dans l’équation (X.2), on obtient αk = Jk (β). Ces valeurs analytiques des amplitudes complexes
peuvent être comparées aux valeurs estimées par la méthode des moindres carrés. La figure X.5-a
représente ainsi le spectre théorique du signal s(t), c’est-à-dire les fréquences f0 + k∆f en abscisse
et les amplitudes Jk (β) en ordonnée. Notons qu’il existe théoriquement une infinité de composantes,
mais la représentation est restreinte à l’intervalle −4 ≤ k ≤ 4, qui contient les 9 composantes les plus
énergétiques. La figure X.5-b représente le spectre estimé du signal bruité observé en utilisant comme
ci-dessus l’ordre de modélisation r = 9. Les fréquences estimées sont représentées en abscisse, et les
amplitudes ak estimées sont représentées en ordonnée. On remarque que le modèle estimé correspond
aux 9 composantes les plus énergétiques du modèle théorique.

X.2.3 Glissando
Le glissando est défini comme une variation monotone de la hauteur du son. A titre d’exemple,
∆f ∆f
nous synthétisons
 1 un  chirp dont la fréquence varie linéairement entre f0 − 2 et f0 + 2 sur l’intervalle
1
temporel t ∈ − 2 , 2 :
t2
s(t) = z0 t ei2π∆f 2 .
La figure X.6-a représente la partie réelle du signal bruité obtenu avec les paramètres f0 = 16 Hz,
δ0 = 0 s−1 et ∆f = 14 Hz2 . La variation de la fréquence de la sinusoïde est bien visible. Nous souhaitons
138 CHAPITRE X. ANALYSE À HAUTE RÉSOLUTION DES SIGNAUX DE MUSIQUE

0.25

0.2

0.15

Partie imaginaire
0.1

0.05

0
0.85 0.9 0.95 1 1.05 1.1 1.15
Partie réelle

Fig. X.4 – Vibrato synthétique : fréquences parcourues et pôles estimés

(a) Fréquences et amplitudes théoriques


0.7

0.6

0.5
Amplitude

0.4

0.3

0.2

0.1

0
10 12 14 16 18 20 22 24 26 28 30

(b) Fréquences et amplitudes estimées


0.7

0.6

0.5
Amplitude

0.4

0.3

0.2

0.1

0
10 12 14 16 18 20 22 24 26 28 30
Fréquence (Hz)

Fig. X.5 – Vibrato synthétique : spectre théorique et spectre estimé


(a) Fréquences et amplitudes théoriques
(b) Fréquences et amplitudes estimées

modéliser ce signal à l’aide du modèle ESM. La figure X.6-b représente les 25 plus grandes valeurs
propres de la matrice de corrélation de dimension 512 × 512, exprimées en dB et rangées par ordre
décroissant. Celles-ci sont quasi-constantes après le point d’abscisse 11, ce qui suggère d’utiliser r = 11
pôles complexes3 . Enfin, la figure X.6-c représente la partie réelle du signal reconstruit.
Les pôles estimés sont représentés dans la figure X.7 par des croix. Ils sont répartis sur une courbe
coupant le cercle unité (tracé en ligne continue) au point de fréquence f0 . Certains d’entre eux sont
assez éloignés du cercle unité, si bien que d’une part un modèle sans amortissement ne permettrait
pas de reconstruire correctement le signal, d’autre part la matrice de Vandermonde V n est très mal
conditionnée (cond(V n ) = 3.63 108 ). C’est pourquoi il est nécessaire de normaliser ses colonnes pour
estimer correctement les amplitudes (cf. section V.3.2). L’intervalle fréquentiel [f0 − ∆f ∆f
2 , f0 + 2 ] est
représenté par un secteur angulaire délimité en pointillés.

3
Pour cette même valeur r = 11, la fonction d’erreur inverse J du critère ESTER culmine à 560.
X.2. POTENTIEL DES MÉTHODES HR POUR L’ANALYSE DU SIGNAL DE MUSIQUE 139

(a) Signal original


1

0.5

Amplitude
0

−0.5

−1
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)
(b) Valeurs singulières
Valeurs singulières (dB) 50
40
30
20
10
0
5 10 15 20 25
Ordre de valeurs décroissantes
(c) Signal reconstruit
1

0.5
Amplitude

−0.5

−1
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)

Fig. X.6 – Chirp synthétique


(a) partie réelle du signal original
(b) valeurs singulières
(c) partie réelle du signal reconstruit

X.2.4 Modulations induites par les pôles multiples


Nous avons examiné dans les sections qui précèdent trois exemples types de modulations d’am-
plitude ou de fréquence couramment rencontrées dans les signaux de musique. Dans les trois cas,
l’algorithme ESPRIT a permis de représenter le signal avec une grande précision, en disposant les
pôles complexes le long d’une courbe, située ou non sur le cercle unité.

Dans le cas des signaux réels, les modulations rencontrées ne correspondent pas exactement
aux modèles mathématiques présentés ci-dessus, mais les pôles ont quand même tendance
à se répartir le long d’une courbe.

A titre d’exemple, la figure X.8 représente le spectrogramme4 d’une voix de soprano originellement
échantillonnée à 44100 Hz, qui a été filtrée passe-bas et décimée d’un facteur 7, de sorte que sa fréquence
d’échantillonnage est de 6300 Hz. Ce signal est caractérisé par un net vibrato / tremolo (les deux types
de modulation étant très souvent associées dans un signal de musique). Il apparaît également que les
trois premiers harmoniques sont les plus énergétiques.
L’algorithme ESPRIT lui a été appliqué en utilisant des vecteurs de dimension n = 512, et un
ordre de modélisation r = 73 (que nous avons choisi de manière empirique). Les pôles estimés sont
représentés dans la figure X.9 par des croix. Ils sont essentiellement regroupés sur le cercle unité en
trois régions, correspondant aux trois premiers harmoniques du signal. Ces régions sont délimitées
par des secteurs angulaires représentés en pointillées, dont les valeurs frontières ont été déterminées de
manière empirique à partir du spectrogramme de la figure X.8. A l’intérieur de chacune de ces régions, la
répartition des pôles estimés est relativement homogène. Nous retrouvons donc le type de modélisation
que nous avons observé dans les sections précédentes sur des signaux synthétiques. Comme nous l’avons
mentionné plus haut, les pôles ont bien tendance à se répartir le long d’une courbe.
4
Ce spectrogramme a été calculé en utilisant des fenêtres de 196 points.
140 CHAPITRE X. ANALYSE À HAUTE RÉSOLUTION DES SIGNAUX DE MUSIQUE

0.2

0.18

0.16

0.14

Partie imaginaire
0.12

0.1

0.08

0.06

0.04

0.02

0.9 0.92 0.94 0.96 0.98 1 1.02 1.04 1.06 1.08 1.1
Partie réelle

Fig. X.7 – Chirp synthétique : fréquences parcourues et pôles estimés

3000

2500

2000
Fréquence (Hz)

1500

1000

500

0
0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)

Fig. X.8 – Vibrato humain : spectrogramme

Nous pouvons alors nous poser la question suivante : le modèle PACE se prête-t-il à la représentation
de tels signaux ? Comme nous l’avons vu dans le chapitre III, les pôles multiples ont tendance à se
retrouver dispersés de façon homogène et isotrope en présence de bruit (ce résultat, valable en première
approximation, a été démontré dans la section III.3.1.3 et illustré dans la section III.4). Ainsi, il est
possible de les identifier en tant que sommets d’un polygone régulier, ce qui ne correspond absolument
pas à la répartition curviligne observée ci-dessus (excepté dans le cas particulier de pôles d’ordre deux).
Les tests que nous avons effectués confirment cet argument : nous avons pu observer qu’à nombre égal
de paramètres, le signal est presque toujours mieux représenté avec des pôles simples qu’avec des
pôles multiples (en terme d’erreur quadratique moyenne). Pour exhiber des cas où l’utilisation de
pôles multiples permet d’atteindre une meilleure précision que le simple modèle ESM, il faut utiliser
des fenêtres très courtes (de l’ordre de 4 ms). Mais même à court terme, le modèle ESM conduit
généralement à une meilleure représentation du signal. Ainsi, dans le cadre du traitement de signaux
de musique, le modèle PACE sera particularisé en modèle ESM.

X.3 Limites des méthodes HR pour l’analyse du signal de musique


Nous nous intéressons maintenant aux difficultés posées par l’application des méthodes HR aux
signaux de musique.
X.3. LIMITES DES MÉTHODES HR POUR L’ANALYSE DU SIGNAL DE MUSIQUE 141

1.2

0.8

Partie imaginaire
0.6

0.4

0.2

0
−0.2 0 0.2 0.4 0.6 0.8 1
Partie réelle

Fig. X.9 – Vibrato humain : fréquences parcourues et pôles estimés

X.3.1 Couleur du bruit


Les méthodes d’estimation proposées dans le chapitre II supposent que le bruit additif est blanc,
ou tout du moins que sa matrice de covariance est connue à un facteur multiplicatif près. Dans un
enregistrement de musique, le bruit n’est jamais blanc, et bien souvent sa densité spectrale de puissance
décroît globalement (parfois rapidement) quand la fréquence augmente. Malheureusement, la matrice
de covariance du bruit est inconnue dans la pratique. En l’absence d’information sur la coloration du
bruit, il est toujours possible d’appliquer l’algorithme ESPRIT en supposant que le bruit est blanc. Nous
nous proposons ici d’illustrer l’impact de cette erreur de modélisation sur l’estimation des sinusoïdes.
La figure X.10-a représente la partie réelle d’un signal composé de deux exponentielles complexes
de même amplitude égale à 1, de même phase à l’instant initial égale à 0, de fréquences f0 = 0.1156
et f1 = 0.1312, et de facteurs d’atténuation δ0 = δ1 = 0. Le signal est de longueur N = 1024,
mais seuls ses n = 512 premiers échantillons sont représentés. Dans la figure X.10-b, un bruit blanc
1
gaussien complexe de variance égale à 2, filtré par le filtre Auto-Régressif (AR) H(z) = 1−0.95z −1 , a
été superposé à ce signal. Le périodogramme du signal bruité est représenté dans la figure X.10-c (ce
périodogramme a été calculé avec une taille de fenêtre égale à la longueur du signal). On reconnaît les
deux pics spectraux aux fréquences f0 et f1 , superposés à la densité spectrale de puissance du bruit
coloré.
Un tel signal ne respecte donc pas l’hypothèse de bruit blanc. Malgré tout, il est toujours possible
de diagonaliser la matrice de corrélation, et ranger ses valeurs propres (et les vecteurs propres associés)
par ordre décroissant. On observe ainsi que la suite des valeurs propres décroît de façon très régulière
et ne présente aucune cassure perceptible. Ainsi, aucun ordre de modélisation ne semble privilégié.
Cependant, en observant les principaux vecteurs propres de cette matrice, on constate qu’ils corres-
pondent à des composantes de bruit basse fréquence, sauf deux d’entre eux. En effet, il apparaît que
le 6ème et le 9ème vecteurs propres, dont les parties réelles sont représentées dans les figures X.11-a
et X.11-b correspondent aux deux exponentielles complexes qui composent le signal (perturbées par le
bruit additif). Ainsi, il est possible d’appliquer l’algorithme ESPRIT (présenté dans la section I.4.2.4)
à l’ordre r = 9. Parmi les 9 pôles estimés, deux correspondent aux fréquences f0 et f1 . La figure X.11-c
représente la partie réelle du signal reconstruit à partir de ces deux pôles.
Le mélange entre composantes de signal et composantes de bruit mis en évidence ci-dessus est un
phénomène classique que nous avons pu observer à plusieurs reprises lors du traitement de signaux de
musique : dans la pratique, le bruit n’est pas blanc, et la frontière entre espace signal et espace bruit
est mal définie. En général, on observe un premier ensemble de vecteurs propres qui décrivent le signal,
puis un deuxième ensemble où se mêlent signal et bruit, puis un troisième ensemble qui ne contient que
142 CHAPITRE X. ANALYSE À HAUTE RÉSOLUTION DES SIGNAUX DE MUSIQUE

(a) Signal non bruité

Amplitude
1
0
−1
−2
0 50 100 150 200 250 300 350 400 450 500
Temps discret (échantillons)
(b) Signal bruité

10
Amplitude
5

−5

−10
0 50 100 150 200 250 300 350 400 450 500
Temps discret (échantillons)
(c) Périodogramme

20
Puissance (dB)

−20

−40
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Fréquence réduite (Hz)

Fig. X.10 – Exponentielles dans un bruit coloré


(a) partie réelle du signal non bruité
(b) partie réelle du signal bruité
(c) périodogramme du signal bruité

du bruit. De plus, en présence d’un bruit coloré, les pôles du signal ne sont pas estimés correctement.
Il s’agit d’un problème fondamental auquel il est nécessaire de trouver une solution.

X.3.2 Importance perceptive relative des composantes sinusoïdales


Dans le contexte du codage audio, on cherche à représenter le signal le plus fidèlement possible
en utilisant un nombre réduit de composantes sinusoïdales. Or les méthodes sous-espace détectent
prioritairement les composantes les plus énergétiques, qui ne sont pas nécessairement les composantes
les plus importantes d’un point de vue perceptif. Il serait donc intéressant de trouver une solution basée
sur des critères psycho-acoustiques permettant de détecter prioritairement les composantes importantes
à l’oreille.

X.3.3 Ordre de modélisation et stabilité numérique


Pour un son grave, de fréquence fondamentale inférieure à 80 Hz, le nombre d’harmoniques dans
la bande 0–10 kHz peut être supérieur à 100. Même si l’on utilise un filtre analytique pour éliminer les
fréquences négatives, la dimension de l’espace signal est alors elle aussi supérieure à 100. Ainsi, pour
obtenir une estimation robuste des harmoniques, il faudrait utiliser des vecteurs de données dont la
dimension est de l’ordre du millier, et donc des matrices de données contenant un nombre de coefficients
de l’ordre du million. Cela s’avère totalement impraticable, non seulement en raison de la complexité
algorithmique, mais surtout pour des raisons de stabilité numérique. En pratique, nous avons observé
que les méthodes sous-espace sont utilisables quand la dimension de l’espace signal n’excède pas r ≃ 25.
Lorsque le nombre de composantes est trop élevé, il est possible de décomposer le problème d’estimation
en plusieurs sous-problèmes d’ordre plus faible, en découpant le signal en sous-bandes (comme cela sera
proposé dans la section X.4.3).
X.4. MISE EN OEUVRE DES MÉTHODES HR 143

(a) 6ème vecteur propre

0.05

Amplitude
0

−0.05
0 50 100 150 200 250 300 350 400 450 500
(b) 9ème vecteur propre

0.05
Amplitude

−0.05
0 50 100 150 200 250 300 350 400 450 500
(c) Signal reconstruit

2
Amplitude

1
0
−1
−2
0 50 100 150 200 250 300 350 400 450 500
Temps discret (échantillons)

Fig. X.11 – Analyse HR dans un bruit coloré


(a) partie réelle du 6ème vecteur propre
(b) partie réelle du 9ème vecteur propre
(c) partie réelle du signal reconstruit

X.4 Mise en oeuvre des méthodes HR


Dans cette section, nous présentons des solutions proposées dans la littérature pour résoudre les
problèmes soulevés dans la section X.3.

X.4.1 Techniques d’estimation du signal dans un bruit coloré


Quand la coloration du bruit est inconnue, l’estimation des paramètres du signal est un problème
mal posé en général. En effet, la matrice de covariance observée peut toujours être interprétée comme
la matrice de covariance du bruit seul en l’absence de signal. Pour rendre le problème identifiable, il est
donc nécessaire d’introduire des hypothèses supplémentaires sur les statistiques du bruit par rapport
au signal. Les techniques d’estimation du signal et/ou du bruit peuvent être classées en deux catégories
dans ce contexte : les approches paramétriques, qui reposent sur un modèle paramétrique de bruit, et
les approches non-paramétriques, qui introduisent des hypothèses plus faibles sur les statistiques du
bruit.
Une méthode de référence pour estimer un signal perturbé par un bruit coloré a été proposée
dans [Le Cadre, 1989]. Il s’agit d’une méthode paramétrique, dans la mesure où le bruit additif est
modélisé comme un processus Auto-Régressif à Moyenne Ajustée (ARMA), et itérative, puisque qu’elle
vise à maximiser la vraisemblance des observations par une méthode de gradient. Le signal et le bruit
sont ainsi estimés conjointement. En pratique, elle consiste à calculer un filtre dont l’action sur le
signal observé a pour effet de blanchir les n − r valeurs propres de la matrice de covariance associées à
l’espace bruit. Malheureusement, cette optimisation s’avère très coûteuse en temps de calcul, et assez
peu robuste [Barthelemy et Willett, 1993]. Plus récemment, une méthode reposant sur le même principe,
mais sur une famille de modèles paramétriques de bruit différents du modèle ARMA a été proposée
dans [Göransson et Ottersten, 1999]. Un choix particulier de paramétrisation consiste à supposer que
le support de la matrice de covariance à structure Toeplitz est limité à une bande centrée sur la
144 CHAPITRE X. ANALYSE À HAUTE RÉSOLUTION DES SIGNAUX DE MUSIQUE

diagonale [Göransson, 1994].


Parmi les méthodes non paramétriques, la technique des variables instrumentales [Viberg et al.,
1995] repose sur l’hypothèse que le bruit n’est corrélé que sur un faible nombre d’échantillons par
rapport au signal. Une autre approche consiste à supposer que le bruit suit une distribution gaussienne,
alors que le signal est non-gaussien [Cardoso et Moulines, 1995]. Puisque les cumulants d’ordre supérieur
à deux sont insensibles aux statistiques gaussiennes, les méthodes d’estimation des paramètres du signal
basées sur les cumulants ne sont théoriquement pas affectées par le bruit. Le problème de cette approche
est qu’en pratique le bruit n’est pas gaussien et perturbe aussi les cumulants d’ordre supérieur à deux.
Une bibliographie plus complète sur les méthodes paramétriques et non paramétriques d’estimation
du signal en présence de bruit coloré est disponible dans [Göransson et Ottersten, 1999]. Nous avons
pu observer qu’aucune de ces méthodes ne s’avère suffisamment robuste dans le cadre du traitement
de signaux audio.

X.4.2 Introduction d’une connaissance psycho-acoustique


Dans le contexte du codage audio, des techniques reposant sur des critères psycho-acoustiques ont
été développées pour ne coder que les composantes les plus importantes à l’oreille. Par exemple, la
technique de codage proposée dans [Hermus et al., 2002] repose sur le modèle perceptif de MPEG1-
Layer1. Le signal est divisé en sous-bandes, et la méthode sous-espace est appliquée à chaque signal de
sous-bande. Les composantes sont estimées de manière itérative, en incrémentant à chaque itération
l’ordre de modélisation dans la sous-bande qui possède le résiduel le plus énergétique par rapport
au seuil de masquage, exactement de la même façon que les bits sont assignés aux différentes sous-
bandes dans MPEG. Une autre approche proposée dans [Jensen et al., 2004] repose sur une mesure de
distorsion perceptive. Elle consiste simplement à introduire une étape de pré-filtrage du signal destinée
à rehausser les composantes perceptivement importantes. Ainsi, la fonction de transfert du filtre de
rehaussement est définie par rapport au seuil de masquage (plus précisément, il s’agit de l’inverse de
la racine carrée du seuil de masquage).
Ces deux approches possèdent chacune leurs inconvénients : la première s’avère coûteuse car l’algo-
rithme complet d’estimation est appliqué à chaque itération. La seconde présente une autre difficulté :
le filtre conçu pour rehausser les composantes importantes à l’oreille a aussi pour effet de modifier la
couleur du bruit additif, mais ne le blanchit pas. Ainsi, l’estimation des paramètres est biaisée et le
signal n’est pas toujours représenté correctement. Enfin, dans les deux cas, le fait de ne coder qu’un
nombre réduit de composantes sinusoïdales implique que les autres composantes, moins importantes
d’un point de vue perceptif, se retrouvent mélangées au bruit. Cela peut poser problème pour des
applications de traitement du signal audio autres que le codage, faisant intervenir le bruit extrait du
signal.
Nous ne retiendrons donc ici de ces approches perceptives que la notion de découpage en sous-
bandes. En effet, un découpage judicieux du spectre permet de «guider» les méthodes HR de façon à
répartir la densité des sinusoïdes détectées en fonction de l’importance perceptive relative des différentes
régions spectrales. Par exemple, une méthode de découpage du signal adaptée à l’échelle Bark a été
proposée dans [Wang et al., 2004], en pré-traitement de la décomposition en sous-espaces.

X.4.3 Découpage en sous-bandes


Ainsi les caractéristiques du système auditif humain peuvent être prises en compte par le biais d’un
découpage adapté du signal en sous-bandes (par exemple selon l’échelle Mel ou selon l’échelle Bark).
Nous allons voir ci-dessous qu’un tel découpage présente également d’autres avantages.
Tout d’abord, le découpage en sous-bandes apporte une solution (partielle) au problème de la non
blancheur du bruit. En effet, dans l’exemple de la section X.3.1, l’estimation des deux sinusoïdes en
X.5. CONCLUSION 145

basses fréquences était essentiellement perturbée par la puissance du bruit en hautes fréquences. Le
découpage en sous-bandes permet justement d’éviter ce genre d’«interférence» entre différentes régions
du spectre, en découplant les problèmes d’estimation dans chaque sous-bande. De plus, il se trouve
qu’un découpage du spectre plus fin en basses fréquences qu’en hautes fréquences est adapté à la forme
particulière de la densité spectrale de puissance du bruit généralement présent dans les signaux audio
(qui est plus coloré en basses fréquences qu’en hautes fréquences).
Par ailleurs, dans la section X.3.3, nous avons noté que les sons composés d’un grand nombre de
sinusoïdes ne peuvent pas être traités directement par les méthodes HR, car dans la pratique il n’est
pas possible d’estimer un espace signal de dimension supérieure à r ≃ 25, à la fois pour des raisons de
complexité et de stabilité numérique. Comme cela a été suggéré dans [Laroche, 1993] et [Hermus et al.,
2000], un découpage du signal en sous-bandes résout ce problème en limitant le nombre de sinusoïdes
présentes dans chaque sous-bande par réjection de la bande atténuée.
Enfin, il est possible d’associer au découpage en sous-bandes une décimation du signal d’un fac-
teur M . Comme cela a été démontré dans [Tkacenko et Vaidyanathan, 2001], la décimation présente
plusieurs avantages :
– Tout d’abord, elle engendre un étirement spectral du même facteur M . Ainsi, non seulement la
résolution spectrale est meilleure, mais le bruit additif est approximativement blanchi.
– De plus, sous certaines hypothèses, le RSB est également amélioré dans chaque sous-bande.
– Enfin, la fréquence d’échantillonnage est alors divisée par M , ce qui réduit globalement la charge
de calculs dans le cadre d’un traitement par blocs puisque la complexité des méthodes sous-
espace est généralement une fonction sur-linéaire du nombre de points traités, et dans le cadre
d’un traitement adaptatif parce que le nombre d’itérations est également réduit.

X.5 Conclusion
Dans ce chapitre, nous avons commencé par montrer le potentiel des méthodes HR dans le cadre
du traitement des signaux de musique. En particulier, nous avons montré que ces méthodes peuvent
représenter une classe de signaux bien plus large qu’une simple somme de sinusoïdes amorties. Puis
nous avons évoqué les difficultés posées par l’application des méthodes HR aux signaux de musique :
– l’estimation est biaisée en raison de la couleur du bruit présent dans le signal audio ;
– l’importance perceptive relative des composantes sinusoïdales n’est pas prise en compte ;
– seuls les sons contenant un nombre limité de sinusoïdes peuvent être traités de façon robuste.
Enfin, nous avons vu que la mise en oeuvre d’un banc de filtres apporte une solution à chacun de ces
trois problèmes :
– l’importance perceptive relative des différentes régions fréquentielles est prise en compte par le
biais d’un découpage adapté du spectre ;
– le bruit est approximativement blanchi dans chaque sous-bande ;
– le nombre de composantes dans chaque sous-bande est réduit par réjection de la bande atténuée.
En outre, la décimation présente d’autres avantages non négligeables :
– la résolution spectrale est améliorée ;
– le rapport signal à bruit est amélioré dans chaque sous-bande ;
– la charge globale de calculs est réduite.
146 CHAPITRE X. ANALYSE À HAUTE RÉSOLUTION DES SIGNAUX DE MUSIQUE
147

Chapitre XI

Système complet d’analyse / synthèse

Résumé
Dans le chapitre précédent, nous avons montré le potentiel des méthodes HR dans
le cadre du traitement des signaux de musique. Néanmoins, la mise en oeuvre de ces
méthodes reste délicate et nécessite de prendre un certain nombre de précautions.
Le présent chapitre a ainsi pour objet de présenter divers pré-traitements permet-
tant d’accroître la robustesse de l’algorithme d’estimation. Ces pré-traitements sont
agencés sous la forme d’un système complet d’analyse / synthèse du signal, pouvant
être utilisé dans le cadre de diverses applications de traitement du signal. Citons par
exemple le codage, ou encore le débruitage et l’extraction de la partie bruitée du
signal. L’extraction du bruit peut avoir plusieurs applications ; nous présenterons à
titre d’exemple un travail mené avec M. Alonso sur l’estimation du rythme musical.
148 CHAPITRE XI. SYSTÈME COMPLET D’ANALYSE / SYNTHÈSE

XI.1 Introduction
Dans ce chapitre, nous présentons un système complet d’analyse / synthèse du signal audio. Ce
système repose sur une décomposition du signal en sous-bandes (les nombreux avantages d’une telle
décomposition en pré-traitement de l’algorithme d’estimation ont été évoqués dans le chapitre X).
Les paramètres du modèle sont ainsi estimés indépendamment dans chaque sous-bande. Il est ensuite
possible de reconstruire un signal pleine bande, en faisant passer les signaux de sous-bandes dans le
banc de filtres de synthèse associé au banc d’analyse.
Signal d’entrée

?
Segmentation
Banc de filtres d’analyse

- Blanchiment - Analyse HR -

Paramètres estimés
?
Pré-accentuation -

- Blanchiment - Analyse HR -

Fig. XI.1 – Système d’analyse du signal

Le système d’analyse complet est résumé dans la figure XI.1 (et le système de synthèse correspon-
dant est présenté dans la figure XI.2). Comme les méthodes de poursuite des paramètres présentées
dans la deuxième partie du mémoire présupposent que l’ordre de modélisation est constant, il est né-
cessaire avant de les appliquer de segmenter le signal en régions que l’on modélisera avec un ordre
constant. Le signal est ensuite filtré par un filtre de pré-accentuation, destiné à rehausser les hautes
fréquences par rapport aux basses fréquences. Enfin, il est découpé en sous-bandes à l’aide du banc de
filtres d’analyse. Ces premières étapes sont détaillées dans la section XI.2. Les signaux de sous-bande
sont ensuite filtrés de façon à blanchir le bruit, ce qui permet d’accroître la robustesse de l’analyse HR
(section XI.3). Enfin, les signaux filtrés sont analysés à l’aide des algorithmes d’estimation présentés
dans les deux premières parties de ce document (les détails pratiques d’implémentation sont donnés
dans la section XI.4). Les divers traitements appliqués à partir de cette modélisation sont présentés
dans la section XI.5. La section XI.6 résume les principaux résultats de ce chapitre.

XI.2 Décomposition du signal en sous-bandes


Dans la section X.4.3 ont été évoqués les divers avantages d’une décomposition du signal en sous-
bandes en pré-traitement de l’analyse HR. Nous nous proposons maintenant d’aborder plus concrète-
ment la mise en oeuvre d’une telle décomposition.

XI.2.1 Pré-accentuation du signal


Afin d’obtenir une bonne estimation des paramètres fréquentiels dans chaque sous-bande, il est
nécessaire d’utiliser des filtres suffisamment réjecteurs pour que la puissance du signal dans la bande
XI.2. DÉCOMPOSITION DU SIGNAL EN SOUS-BANDES 149

Banc de filtres de synthèse


- Synthèse par - Inversion du -
addition-recouvrement blanchiment

- Inversion de la
pré-accentuation

- Synthèse par - Inversion du - ?


addition-recouvrement blanchiment
Signal de sortie
Fig. XI.2 – Système de reconstruction du signal

atténuée ne dépasse jamais le niveau de bruit dans la bande passante. Or la densité spectrale de
puissance des sons émis par de nombreux instruments de musique est une fonction décroissante de la
fréquence. Ainsi, la sélection d’une bande en hautes fréquences nécessiterait d’utiliser un filtre plus
réjecteur qu’en basses fréquences, donc un filtre plus long. Pour éviter cette distinction et pouvoir
appliquer la même réjection en hautes fréquences qu’en basses fréquences, il est préférable d’égaliser
approximativement la puissance du signal en entrée du banc de filtres. Une façon simple mais suffisante
de procéder consiste à appliquer un filtre de pré-accentuation, par exemple de fonction de transfert
H(z) = 1 − 0.98z −1 .

XI.2.2 Découpage uniforme ou non uniforme


Dès que l’on envisage de décomposer le signal en sous-bandes, une première question se pose : est-il
préférable de choisir des bandes de largeur uniforme, ou de largeur non uniforme, comme cela a été
suggéré dans les sections X.4.2 et X.4.3 ?
Deux arguments seraient plutôt en faveur d’un découpage uniforme : d’une part les partiels d’un
son harmonique sont distribués uniformément dans le spectre ; d’autre part les méthodes HR traitent
le spectre de façon homogène, dans la mesure où les performances d’estimation sont invariantes par
une translation de l’ensemble des fréquences (cf. section III.2.1). Un découpage uniforme du spectre
paraîtrait donc plus naturel dans le cadre des méthodes HR.
Cependant, les études psycho-acoustiques seraient plutôt en faveur d’un découpage non-uniforme,
puisqu’il a été montré que l’oreille humaine perçoit la hauteur des sons selon une échelle logarithmique1 .
La nature des signaux de musique conforte cet argument. En effet, les hauteurs des notes de musique de
la gamme tempérée sont également distribuées selon une échelle logarithmique. De plus, la puissance
spectrale de chaque note décroît généralement avec la fréquence. Ainsi, si l’on superpose les partiels
de toutes les notes qui sont jouées au cours d’un morceau, ou simplement si l’on superpose les partiels
des notes qui sont jouées simultanément au cours d’une musique polyphonique, on obtient une densité
d’harmoniques plus forte en basses fréquences qu’en hautes fréquences.
Par ailleurs, les instruments à vent ou à cordes frottées peuvent produire des sons dont la hau-
teur varie au cours du temps, par exemple dans le cas d’un vibrato ou d’un glissando. Or quand
la fréquence fondamentale suit une variation d’amplitude ∆f , l’harmonique d’ordre p correspondant
suit une variation d’amplitude p ∆f . Ainsi, les variations des partiels présentent une amplitude plus
faible en basses fréquences qu’en hautes fréquences, ce qui justifie un découpage fréquentiel plus fin en
1
Loi de Weber-Fechner, valable en première approximation dans un certain domaine de fréquences et de puissances
du signal.
150 CHAPITRE XI. SYSTÈME COMPLET D’ANALYSE / SYNTHÈSE

0–11025 Hz

0–5510 Hz 5510–11025 Hz

0–2760 Hz 2760–5510 Hz

0–1380 Hz 1380–2760 Hz

Tab. XI.1 – Découpage dyadique du spectre en quatre sous-bandes

basses fréquences, et sont plus rapides en hautes fréquences qu’en basses fréquences, ce qui justifie un
découpage temporel plus fin en hautes fréquences.

XI.2.3 Analyse multi-résolution


Ainsi, il paraît souhaitable d’utiliser des bandes de largeurs variables. L’analyse multi-résolution
constitue l’une des techniques les plus couramment utilisées pour obtenir un tel découpage (on peut
consulter par exemple [Vaidyanathan, 1993] pour référence). Il s’agit d’une procédure récursive, consis-
tant à décomposer le signal en deux signaux de sous-bandes (basses fréquences et hautes fréquences),
puis à réitérer la décomposition sur le signal de basses fréquences. Cette approche a été adoptée
dans [Levine et al., 1997] pour l’analyse des signaux audio polyphoniques et large bande. L’intervalle
fréquentiel [0,11025] Hz est ainsi décomposé en quatre sous-bandes, selon la structure binaire présentée
dans la table XI.1. L’avantage de la technique particulière de décomposition proposée dans [Levine
et al., 1997] est l’absence de repliement dans les signaux de sous-bandes (ce qui n’empêche pas les
sous-bandes voisines de se recouvrir partiellement). Cependant, cette technique n’autorise pas une dé-
cimation critique des signaux de sous-bandes, et ne permet pas de reconstruire le signal d’entrée à
partir des signaux de sous-bande.
Par ailleurs, toute technique de découpage en sous-bandes doit respecter deux contraintes pour être
utilisée en conjonction avec l’analyse HR :
– le nombre de fréquences pouvant être détectées dans chaque bande est limité (cf. section X.3.3) ;
ainsi la largeur de bande en hautes fréquences ne doit pas excéder une certaine limite (typique-
ment de l’ordre de 2500 Hz) ;
– la longueur des filtres d’analyse ne doit pas dépasser la durée moyenne de stationnarité du signal
(généralement de l’ordre de 25 ms) ; ainsi la largeur de bande en basses fréquences ne peut pas
être arbitrairement petite.
Ainsi, on préférera abandonner l’approche multi-résolution, qui constitue une technique de décou-
page un peu trop rigide. Par ailleurs, les échelles Mel et Bark, conçues pour imiter le système auditif
humain, ne correspondent pas à un découpage strictement dyadique du spectre, mais constituent plutôt
des intermédiaires entre découpage uniforme et découpage dyadique. Ainsi, dans [Wang et al., 2004]
une structure plus générale qu’une simple décomposition dyadique est utilisée pour se rapprocher de
l’échelle Bark : un arbre de paquets d’ondelettes. Cependant, comme c’est le cas pour toutes les tech-
XI.2. DÉCOMPOSITION DU SIGNAL EN SOUS-BANDES 151

niques multi-résolution, il existe un problème de compromis entre la longueur des filtres d’analyse et
le recouvrement spectral entre sous-bandes voisines. En effet, nous avons pu observer que les filtres
de longueur usuelle conduisent à un très fort recouvrement spectral. Inversement, il est possible de
réduire ce recouvrement en choisissant des filtres appropriés, mais la longueur totale du filtrage dans
les bandes les plus étroites est alors très supérieure à la durée de stationnarité du signal.
Une autre technique de découpage permettant de s’adapter plus finement à n’importe quelle échelle
(Bark, Mel, ou encore Equivalent Rectangular Bands (ERB)), tout en offrant une reconstruction par-
faite, a été proposée dans [Goodwin, 1996]. Cependant les signaux de sous-bande ne peuvent pas être
décimés. Nous opterons finalement pour une technique plus simple, présentée dans la section suivante,
qui est caractérisée par un faible recouvrement spectral entre sous-bandes tout en faisant intervenir
des filtres de longueur raisonnable. Cette approche fournit des signaux de sous-bande maximalement
décimés et offre une certaine liberté dans le découpage du spectre.

XI.2.4 Bancs de filtres en cosinus modulés et découpage non uniforme

(a) Banc de filtres

0
Puissance (dB)

−50

−100

−150

0 0.5 1 1.5 2
Fréquence (Hz) x 10
4

(b) Périodogramme du signal original


0
Puissance (dB)

−20

−40

−60

−80
0 0.5 1 1.5 2
4
(c) Périodogramme du signal redressé x 10
−20
Puissance (dB)

−40

−60

−80
0 0.5 1 1.5 2
4
x 10

Fig. XI.3 – Signal traité et banc de filtres d’analyse


(a) Banc de filtres d’analyse
(b) Périodogramme de la note de musique
(c) Périodogramme du signal redressé

La technique de découpage que nous avons finalement retenue fait intervenir un banc de Filtres en
Cosinus Modulés (CMF). Ce type de banc de filtres a déjà été utilisé en pré-traitement de méthodes
sous-espace dans [Hermus et al., 2002], aboutissant à un découpage uniforme du spectre. Cependant,
il est possible de construire un banc de filtres non uniforme en regroupant des voies adjacentes (c’est-
à-dire en les sommant), comme cela a été proposé dans [Lee et Lee, 1995]. Chaque sous-bande ainsi
obtenue peut alors être décimée d’un facteur égal au nombre total de voies du banc CMF, divisé
par le nombre de voies fusionnées. Par exemple, dans le cas d’un banc CMF contenant 32 voies, une
sous-bande obtenue en fusionnant 4 voies adjacentes peut être décimée d’un facteur 8. Sous certaines
conditions, le banc de filtres ainsi obtenu satisfait trois propriétés essentielles :
– les filtres d’analyse et de synthèse sont passe-tout dans leur bande passante ;
– le banc de filtres d’analyse/synthèse vérifie la condition d’annulation de repliement ;
152 CHAPITRE XI. SYSTÈME COMPLET D’ANALYSE / SYNTHÈSE

(a)
−20
−40
−60
−80
−100
−120
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
(b)

−40
−60
−80
−100
−120
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
(c)
−40
−60
−80
−100
−120
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
(d)
−60
−80
−100
−120
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Fréquence réduite (Hz)

Fig. XI.4 – Périodogrammes des signaux des sous-bandes 0 à 3


(a) Sous-bande 0 (0–690 Hz)
(b) Sous-bande 1 (690–1380 Hz)
(c) Sous-bande 2 (1380–2755 Hz)
(d) Sous-bande 3 (2755–4135 Hz)

– la fonction de distorsion est identique à celle du banc CMF.


De plus, après décimation critique, tous les filtres d’analyse deviennent passe-tout. Ainsi, si le bruit dans
le signal en entrée du banc de filtres est blanc, le bruit dans les signaux de sous-bande est également
blanc, ce qui constitue une propriété souhaitable dans le cadre de l’analyse HR.
La table XI.2 présente un exemple de banc de filtres obtenu par cette méthode. Nous supposons
que le signal en entrée est échantillonné à 44100 Hz, et nous nous basons sur un banc CMF contenant
M = 32 voies, numérotées de 0 à M − 1. Après regroupement des voies, le banc de filtres contient alors
8 sous-bandes non-uniformes. En pratique, la 8ème sous-bande n’est pas traitée par l’analyse HR, car
nous considèrons qu’il n’y a pas ou peu de sinusoïdes au-delà de 11025 Hz.

Sous-bande 0 1 2 3 4 5 6 7
Voies fusionnées 0 1 2–3 4–5 6–7 8–11 12–15 16–31
Intervalle (Hz) 0–690 690–1380 1380–2755 2755–4135 4135–5515 5515–8270 8270–11025 11025–22050
Décimation 32 32 16 16 16 8 8 2

Tab. XI.2 – Structure d’un banc de filtres non-uniforme pour l’analyse de signaux audio

La figure XI.3-a représente les fonctions de transfert des filtres d’analyse obtenus à partir d’un
banc CMF à 32 voies. Nous avons choisi des filtres de longueur 320, car cette longueur permet d’obtenir
une réjection en bande atténuée supérieure à 50 dB. A titre d’exemple, ce banc de filtres est utilisé
pour décomposer une note de musique (A2) jouée par un basson, dont le périodogramme est représenté
XI.3. BLANCHIMENT DU BRUIT 153

dans la figure XI.3-b. Avant d’être injecté dans le banc de filtres, le spectre de ce signal est corrigé à
l’aide du filtre de pré-accentuation proposé dans la section XI.2.1 (figure XI.3-c). Les périodogrammes
des signaux des sous-bandes 0 à 3 sont représentés dans la figure XI.4. En particulier, le banc de filtres
présente un net effet blanchissant sur la densité du bruit dans les signaux de sous-bandes. Finalement,
ce banc de filtres présente tous les avantages que l’on peut attendre d’un découpage en sous-bandes :
– le découpage non uniforme du spectre est adapté à la nature des signaux et à l’oreille humaine ;
– la longueur des filtres d’analyse est de 7 ms, inférieure à la durée typique de stationnarité des
signaux2 ;
– les signaux de sous-bande sont maximalement décimés ;
– les filtres d’analyse sont passe-tout dans leur sous-bande ;
– le recouvrement spectral entre sous-bandes est faible ;
– le signal est reconstruit parfaitement en sortie du banc de filtres.
Il possède néanmoins un inconvénient : les signaux de sous-bande, maximalement décimés, pré-
sentent un (faible) repliement. Ainsi, des fréquences «fantômes» peuvent être détectées dans les sous-
bandes, provenant en réalité de sous-bandes voisines. Pour un certain nombre d’applications, ce phéno-
mène peut être tout simplement ignoré, puisque le repliement est de toute façon éliminé par les filtres
de synthèse, et le signal est reconstruit parfaitement en sortie du banc de filtres. Citons par exemple
les applications de codage, de débruitage, et d’extraction du bruit additif, qui seront présentées dans
la section XI.5.
En revanche, pour des applications qui nécessitent de connaître les valeurs exactes des fréquences,
non pas dans les signaux de sous-bandes, mais dans le signal pleine bande, il n’est pas trivial de
reconnaître les fréquences repliées et d’attribuer les fréquences estimées à la bonne sous-bande. On peut
par exemple penser aux diverses applications d’analyse spectrale, ou de synthèse avec modification
d’échelle temporelle ou fréquentielle. Une solution a été proposée dans [Tkacenko et Vaidyanathan,
2001] pour résoudre cette ambiguïté.

XI.3 Blanchiment du bruit


Comme cela a été mentionné dans la section X.4.3, la décomposition du signal en sous-bandes induit
un effet blanchissant sur le bruit additif. Cependant, il ne s’agit que d’un blanchiment approximatif,
parfois insuffisant pour pouvoir appliquer l’algorithme ESPRIT de manière robuste. Par ailleurs, nous
avons pu observer que les méthodes d’analyse du signal en présence de bruit coloré mentionnées dans
la section X.4.1 sont souvent très complexes, et donnent rarement des résultats satisfaisants sur des
signaux audio. La technique proposée ici est à la fois plus simple et plus robuste. Elle consiste à
estimer la densité spectrale de puissance du bruit pour en déduire un filtre blanchisseur dans chaque
sous-bande.
Une méthode d’estimation de la densité du bruit en présence de sinusoïdes a été proposée dans [von
Sachs, 1994]. Elle consiste à calculer un périodogramme lissé à l’aide d’un noyau insensible aux pics
fréquentiels. Ce périodogramme est obtenu comme la solution d’une équation implicite qui peut être
résolue de manière itérative. Sous certaines hypothèses, il est démontré que cet estimateur est asymp-
totiquement consistant. L’implémentation de cette technique itérative s’avère cependant assez coûteuse
en temps de calcul. Nous proposons ici une technique plus rapide, qui consiste à lisser le périodogramme
non plus par filtrage linéaire, mais à l’aide d’un filtre de rang3 , que l’on peut choisir insensible aux pics
2
Cependant, cette durée reste supérieure à celle des sons transitoires, comme les sons percussifs ou les attaques. Ainsi,
dans le signal reconstruit à partir des paramètres estimés dans chaque sous-bande, les attaques ont tendance a être
adoucies. Inversement, dans le résiduel, il reste des sinusoïdes après chaque attaque, sur une durée voisine de la longueur
des filtres.
3
Les filtres de rang généralisent la notion de filtrage médian : les données sont d’abord triés par ordre de croissant, et
154 CHAPITRE XI. SYSTÈME COMPLET D’ANALYSE / SYNTHÈSE

fréquentiels. Ainsi, le résultat du filtrage sera comparable, mais la résolution itérative d’une équation
implicite aura été évitée.

XI.3.1 Blanchiment d’un processus AR


Supposons dans un premier temps que le signal x(t) soit un processus AR, obtenu en filtrant
1
un bruit blanc de variance σ 2 par un filtre de fonction de transfert H(z) , où tous les zéros de H(z) =
−1 −p
1+a1 z +. . .+ap z sont à l’intérieur du cercle unité. Ainsi, x(t) est un processus stationnaire centré.
Il est connu que les coefficients du filtre H(z) et la variance σ 2 s’estiment par prédiction linéaire [Scharf,
1991], à partir d’un estimateur de la fonction d’autocovariance rx (t) = E [x(u)∗ x(u + t)].
Commençons donc par définir un estimateur de rx (t). Considérons une fenêtre u(t), dont le support
est de longueur finie N (par exemple une fenêtre rectangulaire). Notons x e(t) = x(−t)∗ et ue(t) = u(−t)∗ .
Définissons alors l’estimateur rbx = N1 (e u×x e) ⋆ (u × x). Il s’agit d’un estimateur biaisé car son espérance
est
1
rx (t)] = (e
E [b u ⋆ u)(t) × rx (t).
N
Par exemple, si u(t) est une fenêtre rectangulaire, N1 (e u ⋆ u)(t) est une fenêtre triangulaire (fenêtre
de Bartlett). La fonction rbx (t), définie comme un produit de convolution, a un support de longueur
finie 2N − 1 > N . Comme nous l’avons évoqué dans la section V.2.2, un tel produit de convolution se
calcule de manière rapide par le biais de l’algorithme FFT. Plus précisément, soit N ′ la puissance de 2
immédiatement supérieure à 2N − 1. Alors les 2N − 1 échantillons non nuls de N rbx (t) s’extraient du
produit de convolution circulaire entre les signaux x′ et xe′ , où x′ est un signal de longueur N ′ contenant
les N échantillons non nuls du signal fenêtré u × x complétés par des zéros, et xe′ (t) = x′ (−t)∗ . Ce
produit de convolution circulaire s’obtient en calculant la FFT inverse du carré du module de la FFT
de x′ , qui sera notée X(ei2πf ) (f ∈ N1 ′ Z). Ainsi, rbx (t) s’obtient en calculant la transformée de Fourier
inverse du périodogramme
Rbx (ei2πf ) = 1 |X(ei2πf )|2 . (XI.1)
N
Ainsi l’algorithme d’estimation du filtre blanchisseur se décompose en cinq étapes :
1. multiplication du signal x(t) par la fenêtre u(t) ;
2. prolongation par des zéros et transformée de Fourier directe ;
3. calcul du périodogramme défini dans l’équation (XI.1) ;
4. calcul de rbx (t), obtenue par transformée de Fourier inverse ;
5. estimation du filtre H(z) par prédiction linéaire à partir de rbx (t).
Cette approche présente plusieurs avantages :
1
– l’estimateur du filtre H(z) , obtenu par prédiction linéaire, est causal et stable [Scharf, 1991] (cette
propriété n’aurait pas été garantie par un estimateur non biaisé de rx (t)) ;
– le choix de la fenêtre u(t) est libre, bien que la fenêtre rectangulaire soit communément utilisée
pour cette application.

XI.3.2 Blanchiment d’un signal comportant des sinusoïdes


Supposons maintenant que le signal x(t) soit perturbé par la présence de sinusoïdes qui viennent
s’ajouter au processus AR. Le périodogramme R bx (ei2πf ) est alors perturbé par des pics centrés aux
fréquences de ces sinusoïdes, qui se superposent à la Densité Spectrale de Puissance (DSP) du proces-
sus AR. Il est possible de les éliminer en introduisant une étape de lissage du périodogramme à l’aide
le filtrage consiste à sélectionner la valeur dont l’ordre est égal à un rang prédéterminé.
XI.3. BLANCHIMENT DU BRUIT 155

Largeur du Hauteur du 1er Décroissance des


Fenêtre lobe principal lobe secondaire lobes secondaires
en dB en dB / octave
Rectangulaire 2/N -13 -6
Hamming 4/N -41 -6
Hann 4/N -31 -18
Blackman 6/N -57 -18

Tab. XI.3 – Paramètres des diverses fenêtres

d’un filtre de rang (entre les étapes 3 et 4). Or la forme de ces pics correspond à la transformée de
Fourier de la fenêtre N1 (e
u ⋆u)(t). On constate alors l’importance du choix de la fenêtre u(t) : nous avons
intérêt à choisir une fenêtre dont le lobe principal est le plus étroit possible et les lobes secondaires
le plus bas possible, afin d’éviter qu’ils ne dominent le niveau de bruit. Malheureusement il n’est pas
possible d’optimiser les deux caractéristiques simultanément et il est nécessaire de faire un compromis.
Les caractéristiques des fenêtres les plus couramment utilisées sont rappelées dans le tableau XI.3.
En pratique, cette méthode de blanchiment peut être appliquée à des fenêtres de longueur N = 128
dans chaque sous-bande (ce qui correspond à 23 ms dans les bandes aiguës du banc de filtres introduit
dans la section XI.2.4, ou 93 ms dans les bandes les plus graves). Le signal est multiplié par une fenêtre
de Hann de même longueur, et le périodogramme est calculé sur N ′ = 256 points. Il est ensuite lissé en
appliquant un filtre de rang de longueur q = 51 ≃ N ′ /5 (il s’agit d’un choix empirique). Pour calculer
la valeur du périodogramme lissé en chaque point, les q valeurs extraites sont triées par ordre croissant,
puis celle d’ordre 3q = 17 est sélectionnée (cette valeur a également été choisie de manière empirique).
Pour déterminer les valeurs frontières, le périodogramme est prolongé par périodicité. Enfin, il est
également possible d’introduire une étape de lissage temporel du périodogramme. La fonction rbx (t) est
ensuite obtenue en calculant la transformée de Fourier inverse du périodogramme filtré. Puis le filtre
blanchisseur H(z) est calculé par prédiction linéaire à l’ordre p = 4 (l’ordre choisi est peu élevé de
façon à lisser les variations locales du périodogramme).

(a)

−40
−50
Amplitude (dB)

−60
−70
−80
−90
−100
−110

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45

(b)

−50

−60
Amplitude (dB)

−70

−80

−90

−100

−110

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45


Fréquence réduite (Hz)

Fig. XI.5 – Périodogramme avant et après blanchiment du bruit


(a) Périodogramme original et périodogramme filtré
(b) Périodogramme redressé
156 CHAPITRE XI. SYSTÈME COMPLET D’ANALYSE / SYNTHÈSE

La figure XI.5 représente le résultat du blanchiment sur un segment extrait du signal de la sous-
bande la plus grave du son de basson illustré dans la section XI.2.4. Dans la figure XI.5-a, le pé-
riodogramme original est représenté en trait continus, et le périodogramme filtré en pointillés. Le
périodogramme redressé est représenté dans la figure XI.5-b.

XI.4 Analyse HR des signaux de sous-bandes

Après blanchiment du bruit, les signaux de sous-bande sont prêts pour être analysés à l’aide de
l’algorithme rapide d’estimation présenté dans le chapitre V, ou à l’aide des méthodes adaptatives
introduites dans la deuxième partie du document. On peut extraire du signal des fenêtres de même
longueur N = 128 que celles utilisées pour le blanchiment, ce qui correspond à 23 ms dans les bandes
aiguës du banc de filtres introduit dans la section XI.2.4, ou 93 ms dans les bandes les plus graves.
Cette dernière longueur peut paraître grande par rapport à la durée moyenne de stationnarité des
signaux audio. Cependant il n’est pas absurde d’utiliser des fenêtres longues, car le modèle ESM
permet justement de représenter des signaux non stationnaires.
La valeur de N laisse le choix des dimensions n et l de la matrice X(t) (sous la contrainte N =
n+l−1). Or il a été démontré dans la section III.3.2.2 que les performances de la méthode d’estimation
sont proches de l’optimum quand 31 (N + 1) ≤ n ≤ 32 (N + 1). Dans la pratique, il est préférable de
choisir la valeur n = N/2, qui ne coïncide pas exactement avec l’optimum théorique, mais se trouve
au milieu de la plage de valeurs optimales, ce qui permet de garantir la robustesse de l’estimation.
Enfin, l’ordre de modélisation r doit être choisit dans l’intervalle {0 . . . pmax }, où pmax = N/4 (au
delà de cette valeur, le problème d’estimation des 4r paramètres du modèle ESM est sous-déterminé).
Pour déterminer r, il est possible d’utiliser le critère ESTER introduit dans le chapitre IV. Pour
éviter de sous-estimer l’ordre de modélisation, on sélectionnera la plus grande valeur p pour laquelle
1
la fonction d’erreur inverse J(p) = kE(p)k 2 dépasse un certain seuil, typiquement égal à 100 (comme
2
cela a été suggéré dans la section IV.3). Ce critère peut être rendu encore plus robuste en lissant la
fonction J au cours du temps.
Comme cela a été mis en évidence dans la section VI.2.1 en faisant glisser dans le temps la fenêtre
d’analyse, l’ordre du modèle apparaît plus clairement sur certaines fenêtres temporelles que sur d’autres,
où il aurait tendance à être sous-estimé (cela vaut pour toutes les méthodes de sélection de l’ordre
de modélisation). Or il est préférable de maintenir l’ordre de modélisation constant sur la durée la
plus longue possible. Cela permet d’une part de garantir la régularité temporelle de la représentation
paramétrique, et d’autre part de suivre l’espace signal et les paramètres fréquentiels dans un contexte
adaptatif. C’est pourquoi la première étape du système d’analyse présenté dans la figure XI.1 consiste à
segmenter le signal en régions où l’ordre de modélisation est supposé constant. Cette segmentation peut
être effectuée en détectant les attaques par exemple. Ensuite, l’ordre de modélisation est sélectionné en
appliquant le critère ESTER à différentes fenêtres de même longueur N , et en fusionnant les résultats
obtenus.
Une fois que l’ordre de modélisation est fixé, les paramètres du signal sont estimés à l’aide de
l’algorithme rapide présenté dans le chapitre V. Dans un contexte adaptatif, il est possible de suivre
leurs variations de trois manières différentes :
– si l’on souhaite estimer les paramètres à chaque instant t, la méthode adaptative proposée dans le
chapitre IX, utilisée en conjonction avec l’algorithme YAST (cf. chapitre VIII), permet d’atteindre
les meilleures performances tout en ayant la complexité la plus faible ;
– dans le cas où l’on souhaite davantage réduire la charge de calcul en n’estimant les paramètres
qu’à certains instants régulièrement espacés, deux approches sont possibles :
XI.5. TRAITEMENTS APPLICABLES DANS LES SOUS-BANDES 157

– les meilleurs performances sont atteintes avec l’algorithme de suivi basé sur la méthode des
puissances itérées proposé dans la section VI.2.2 ;
– la complexité la plus faible est atteinte avec la méthode adaptative du chapitre IX, utilisée en
conjonction avec l’algorithme FAPI ou TW-FAPI (cf. chapitre VII).

XI.5 Traitements applicables dans les sous-bandes


Un certain nombre de traitements peuvent être effectués directement sur les signaux de sous-
bandes. Par exemple, dans le cas des applications de codage, il suffit de coder les paramètres du
modèle ESM estimés dans les sous-bandes (la partie bruitée pouvant par exemple être modélisée par
un processus AR [Kahrs et Brandenbourg, 1998]). Les signaux de sous-bandes peuvent ensuite être
resynthétisés à partir de ces paramètres, puis injectés dans le système de reconstruction de la figure XI.2.
Il est également possible d’envisager des opérations de débruitage et d’extraction du bruit, qui
sont complémentaires l’une de l’autre : il s’agit de séparer la partie sinusoïdale du signal de sa partie
bruitée. A ce titre, diverses techniques de séparation sont présentées dans la section XI.5.1. L’extraction
de la partie bruitée du signal peut avoir plusieurs applications, dont l’estimation du tempo musical,
présentée dans la section XI.5.2.

XI.5.1 Débruitage du signal et extraction du bruit


La paramétrisation des signaux de sous-bandes obtenue par l’algorithme d’estimation permet de
séparer très facilement leur partie sinusoïdale de leur partie bruitée. En effet, dans chaque fenêtre
d’analyse, il est possible de resynthétiser la partie sinusoïdale à partir des paramètres estimés ; la
partie bruitée est alors constituée du résiduel, obtenu en soustrayant ce signal de synthèse au signal
original. Une simple technique d’addition-recouvrement permet ensuite de reconstruire les signaux
séparés à partir des segments obtenus sur chaque fenêtre (il est possible d’utiliser par exemple des
fenêtres de Hann avec un recouvrement égal à la moitié ou au quart de la longueur des fenêtres). Les
signaux séparés peuvent enfin être injectés dans le système de reconstruction de la figure XI.2.
Cependant il existe d’autres méthodes de séparation basées sur l’analyse HR. Il s’agit des techniques
dites de subspace filtering [De Moor, 1993,Ephraim et Van Trees, 1995]. Celles-ci présentent un avantage
non négligeable : elles ne nécessitent pas d’estimer les paramètres du modèle, mais uniquement l’espace
signal. Par contre, elles n’éliminent pas complètement le bruit dans la partie sinusoïdale.

XI.5.1.1 Méthodes de subspace filtering


Ces méthodes ont été appliquées avec succès, en particulier dans le cadre du traitement de la pa-
role [Wang et al., 2004,Hermus et Wambacq, 2004]. Sur chaque fenêtre d’analyse, connaissant la matrice
b
observée X(t), il s’agit de définir un estimateur S(t) de la matrice de données S(t), sans aller jusqu’à
b
estimer tous les paramètres du modèle de signal (la matrice de bruit s’obtient alors en soustrayant S(t)
b
à X(t)). Ces méthodes définissent la matrice débruitée S(t) en projetant la matrice observée X(t) sur
son espace signal, et en corrigeant les valeurs singulières correspondantes. Plus précisément, supposons
que les r principales valeurs singulières de la matrice X(t), notées {σ0 , . . . , σr−1 }, sont rangées par
ordre décroissant (les valeurs singulières d’ordre strictement supérieur à r étant toutes supposées égales
à l’écart-type du bruit σ). Supposons de plus que la matrice W (t) de dimensions n × r contient les r
vecteurs singuliers à gauche correspondants. La matrice débruitée est alors définie de la façon suivante :
b
S(t) = W (t) C(t) W (t)H X(t)
où la matrice diagonale C(t) = diag(c(0), . . . , c(r − 1)) contient les facteurs de pondération associés
aux valeurs singulières {σ0 , . . . , σr−1 }. Ces facteurs sont compris dans l’intervalle [0, 1]. Le fait de
158 CHAPITRE XI. SYSTÈME COMPLET D’ANALYSE / SYNTHÈSE

choisir des facteurs strictement plus petits que 1 réduit le niveau de bruit mais distord le signal. Il
s’agit donc de trouver un compromis entre niveau de bruit et distorsion. Finalement, les échantillons
b
du signal débruité peuvent être obtenus en extrayant des éléments de la matrice S(t), ou en moyennant
ses anti-diagonales. Les principales méthodes de subspace filtering sont résumées ci-dessous :
Moindres Carrés (LS) : l’estimateur S(t)b est défini comme la meilleur approximation de rang r de
la matrice X(t). Il est obtenu en tronquant simplement la SVD de la matrice X(t) ; les facteurs
de pondération sont donc tous égaux à 1 : c(q) = 1 ∀q ∈ {0 . . . r − 1}. Cet estimateur produit un
signal qui contient le niveau de bruit le plus haut mais la distorsion la plus faible.
Adaptation des Valeurs Singulières (SVA) : l’estimateur S(t) b est défini en remplaçant les valeurs
singulières de la matrice X(t)
√ par une estimation des valeurs singulières de la matrice S(t) [Huffel,
σq2 −σ2
1993], de sorte que c(q) = σq ∀q ∈ {0 . . . r − 1}.

Variance Minimale (MV) : l’estimateur S(t)b est défini comme la meilleure approximation de la
matrice S(t) pouvant être obtenue en calculant des combinaisons linéaires des colonnes de la
b MV = X(t)M (t), où la matrice M (t), de dimension l × l, minimise l’erreur
matrice X(t) : S(t)
2
quadratique kX(t)M (t) − S(t)k2F . On obtient ainsi [De Moor, 1993] les facteurs c(q) = 1 − σσ2
q
∀q ∈ {0 . . . r − 1}. Cet estimateur produit un signal qui contient le niveau de bruit le plus bas.
Citons également les estimateurs contraints dans le domaine temporel (TDC) et dans le domaine
spectral (SDC) [Ephraim et Van Trees, 1995], qui effectuent un compromis entre niveau de bruit et
distorsion. En pratique, nous préférerons utiliser la méthode des moindres carrés, qui consiste simple-
ment à projeter les données observées sur l’espace signal. Elle présente à la fois l’avantage d’être la
plus simple à implémenter (il n’est pas nécessaire de connaître les vecteurs singuliers mais seulement
une base de l’espace signal) et de ne pas introduire de distorsion.
Notons qu’il est possible de raffiner les méthodes ci-dessus en les implémentant de façon itérative,
comme cela a été proposé dans [Dologlou et al., 1997] pour la méthode des moindres carrés. Chaque
itération comprend alors deux étapes :
– appliquer l’une des méthodes ci-dessus à la matrice X(t) pour en déduire le signal débruité sb(t) ;
– remplacer les coefficients de la matrice X(t) par les échantillons de sb(t).
Cependant, le coût d’une telle approche est souvent prohibitif puisqu’elle requiert plusieurs SVD, et
elle ne converge de toute façon généralement pas vers s(t). Enfin, les diverses méthodes mentionnées
ci-dessus peuvent être implémentées dans un contexte adaptatif en utilisant un algorithme de poursuite
de l’espace signal. Ainsi, une technique de filtrage adaptatif basée sur la méthode des moindres carrés
et l’algorithme de poursuite LORAF a été proposée dans [Strobach, 1996].
Dans la section suivante, la méthode des moindres carrés sera utilisée pour séparer les composantes
signal et bruit du signal.

XI.5.1.2 Simulations numériques

Nous nous proposons ici d’illustrer deux méthodes de séparation :


– celle qui consiste à resynthétiser le signal à partir des paramètres estimés ;
– la technique de subspace filtering par la méthode des moindres carrés, qui consiste simplement à
projeter le signal observé sur l’espace signal.
Le signal traité est une note de piano (fa, 6ème octave), échantillonnée à 44100 Hz. Son spectro-
gramme est représenté dans la figure XI.6-a4 . Dans les deux cas, le signal est décomposé en sous-bandes
4
Le spectrogramme a été calculé en utilisant des fenêtres de Hann de 1024 points. La sous-bande 11025–22050 Hz
n’étant pas traitée par l’algorithme de poursuite, elle n’est pas représentée ici.
XI.5. TRAITEMENTS APPLICABLES DANS LES SOUS-BANDES 159

(a) Signal original

10000

Fréquence (Hz)
5000

0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45
(b) Signal débruité

10000
Fréquence (Hz)

5000

0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
(c) Bruit extrait

10000
Fréquence (Hz)

5000

0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
Temps (secondes)

Fig. XI.6 – Séparation par modélisation paramétrique


(a) Signal original
(b) Signal débruité
(c) Bruit extrait

et analysé à l’aide du système représenté dans la figure XI.2, en utilisant la technique de poursuite de
l’espace signal présentée dans la section VI.2.2.
La figure XI.6-b montre le spectrogramme du signal obtenu en sortie du système de reconstruction,
en resynthétisant les signaux de sous-bandes à partir des paramètres estimés. Les sinusoïdes ont bien
été conservées ; en revanche le bruit a été fortement réduit (cela est visible par la présence des zones
bleues sombres). La figure XI.6-c représente le spectrogramme du résiduel obtenu par cette méthode.
Les sinusoïdes ont été efficacement retirées du signal. A titre de comparaison, la figure XI.7-b montre
le spectrogramme du signal obtenu en sortie du système de synthèse, en projetant les signaux de
sous-bandes sur leur espace signal. Il apparaît que le niveau de bruit a été moins réduit que dans la
figure XI.6-b (les zones de bruits sont moins sombres). Cela confirme que la projection sur l’espace
signal ne retire qu’une partie du bruit. Enfin, la figure XI.7-c montre le spectrogramme du signal obtenu
en projetant les signaux de sous-bande sur l’espace bruit. Le résultat est similaire à celui de la figure
XI.6-c. En conclusion, la méthode basée sur la resynthèse permet de mieux séparer le bruit du signal ;
elle est cependant plus coûteuse en terme de calculs qu’une simple projection sur l’espace signal, qui
ne nécessite pas de déterminer les paramètres du modèle.

XI.5.2 Estimation du rythme musical basée sur l’extraction du bruit


Malgré l’aisance que nous avons à battre la mesure, l’estimation automatique du tempo musical
reste un problème difficile à résoudre. Dans cette section est décrit un algorithme qui détermine le tempo
en terme de Battements Par Minute (BPM), que nous avons publié dans [Alonso et al., 2003a]. Jusqu’à
présent, la plupart des systèmes d’estimation du tempo proposés dans la littérature n’ont été capables
de traiter que des signaux au rythme très marqué [Scheirer, 1998,Laroche, 2001,Goto et Muraoka, 1997].
Certains sont plus généraux, mais sont souvent mis en difficulté par la musique classique orchestrale,
principalement en raison de la faiblesse des attaques et des variations de tempo [Paulus et Klapuri,
2002, Seppänen, 2001].
160 CHAPITRE XI. SYSTÈME COMPLET D’ANALYSE / SYNTHÈSE

(a) Signal original

10000

Fréquence (Hz)
5000

0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45
(b) Signal débruité

10000
Fréquence (Hz)

5000

0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
(c) Bruit extrait

10000
Fréquence (Hz)

5000

0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
Temps (secondes)

Fig. XI.7 – Séparation par filtrage


(a) Signal original
(b) Signal débruité
(c) Bruit extrait

De nombreux algorithmes partagent le même principe. D’abord, le signal est décomposé en sous-
bandes à l’aide d’un banc de filtres [Scheirer, 1998, Paulus et Klapuri, 2002, Seppänen, 2001] ou en
groupant des canaux de sa TFD [Laroche, 2001, Goto et Muraoka, 1997]. Ensuite, il s’agit d’extraire
les attaques dans les sous-bandes. Dans [Scheirer, 1998, Paulus et Klapuri, 2002, Seppänen, 2001], les
attaques sont détectées en calculant l’enveloppe temporelle des signaux de sous-bandes. La dernière
étape consiste à estimer la périodicité des attaques détectées.
Le système proposé vise à traiter une grande variété de genres musicaux. Ses performances ont été
testées sur une base de données annotée manuellement, contenant des extraits de rock, de pop, de jazz,
de musique latine, classique et de chants traditionnels. Le système est décrit dans la section XI.5.2.1.
Les résultats expérimentaux sont résumés dans la section XI.5.2.2, et comparés à d’autres méthodes
existantes. La question de la robustesse de la méthode proposée est également abordée.

XI.5.2.1 Description de l’algorithme


Notre algorithme d’estimation du tempo partage un certain nombre d’éléments avec d’autres sys-
tèmes présentés dans la littérature. La principale différence est que l’estimation est faite à partir de la
partie bruitée du signal, où les attaques sont mises en valeur. Les différentes étapes de cet algorithme
sont présentées ci-dessous :
Vue d’ensemble du système (présentée dans la figure XI.8) : le signal est d’abord décomposé en
douze sous-bandes uniformes à l’aide d’un banc CMF dont le filtre prototype est de longueur 200
et présente une réjection de 80 dB.
Extraction du bruit : la méthode d’extraction du bruit a été présentée dans la section XI.5.1. Elle
repose sur une technique de subspace filtering de type moindres carrés, qui consiste simplement
à projeter les signaux de sous-bandes sur leur espace bruit.
Détection des attaques : les techniques présentées dans [Klapuri, 1999, Meddis et O’Mard, 1997]
XI.5. TRAITEMENTS APPLICABLES DANS LES SOUS-BANDES 161

x(t)

H 0 (z) . . . H 7 (z)

projection . . . projection
sur l’espace sur l’espace
bruit bruit

detection . . . detection
des attaques des attaques

ACF . . . ACF

. . .
Σ
analyse du tempo
SACF

Fig. XI.8 – Vue d’ensemble du système.

permettent de transformer les signaux de sous-bande en trains d’impulsions localisées au niveau


des attaques.
Estimation de la périodicité : la méthode utilisée pour déterminer la périodicité des trains d’im-
pulsion repose sur une technique présentée dans [Meddis et O’Mard, 1997], basée sur la Fonction
d’Auto-Corrélation de Synthèse (SACF).

XI.5.2.2 Résultats expérimentaux


Le système d’estimation du tempo présenté ci-dessus a été testé sur une base de données contenant
54 extraits musicaux provenant d’enregistrements commerciaux. Ces morceaux de musique ont été
choisis pour leur diversité : rythmes variés, large panel d’instruments, voix d’hommes et de femmes,
présence ou non de percussions. Ils ont également été sélectionnés pour représenter une grande variété
de genres musicaux : musique classique (23% de la base de données) ; rock, musique moderne ou musique
pop (33%) ; chants traditionnels (12%) ; musique latine ou cubaine (12%) et jazz (20%). Des passages
de 10 secondes ont été extraits de ces enregistrements et rééchantillonnés à 16 kHz. Enfin, pour chaque
extrait le tempo a été mesuré manuellement par trois musiciens qualifiés, dont les estimations n’ont
jamais différé d’un écart supérieur à 1%. Ainsi, l’estimation fournie par l’algorithme est considérée
comme correcte si elle ne diffère pas de plus de 5% du tempo annoté manuellement.
La table XI.4 résume les résultats obtenus en utilisant notre implémentation des algorithmes de
Scheirer [Scheirer, 1998], Paulus [Paulus et Klapuri, 2002], puis trois méthodes présentées dans [Alonso
et al., 2003b] et enfin notre nouvelle méthode. Bien que la base de données utilisée pour les tests
contient assez peu d’extraits musicaux, les résultats de simulation montrent la supériorité de notre
méthode par rapport aux autres algorithmes mentionnés ci-dessus. Pour l’analyse HR, la longueur de
la fenêtre d’observation a été fixée à 300 échantillons, ce qui correspond approximativement à 19 ms.
3
Notre implémentation de la méthode de Scheirer.
4
Notre implémentation de la méthode de Paulus.
162 CHAPITRE XI. SYSTÈME COMPLET D’ANALYSE / SYNTHÈSE

banc de détection estimation de projection sur taux de


filtres des attaques la périodicité l’espace bruit succès
6 (RII) da/dt filtre en peigne non 76 %3
8 (RII) − YIN non 74 %4
12 (RIF) d ln a/dt SACF non 87 %
8 (RII) ” somme spectrale non 87 %
8 (RII) ” produit spectral non 89 %
12 (RIF) ” SACF oui 96 %

Tab. XI.4 – Performances des algorithmes d’estimation du tempo.

XI.6 Conclusion
Dans ce chapitre, nous avons présenté un système complet d’analyse / synthèse reposant sur une
décomposition en sous-bandes du signal. Nous avons finalement opté pour un banc de filtres non
uniforme construit à partir d’un banc CMF, qui est adapté à la nature des signaux, tout en respectant
les diverses contraintes imposées par la mise en oeuvre des méthodes HR. En complément du banc
de filtres, une technique de blanchiment du bruit additif a été proposée, consistant à éliminer les
sinusoïdes présentes dans le signal, et à modéliser le résiduel par un processus AR. Puis nous avons
présenté diverses applications de ce système d’analyse / synthèse, parmi lesquelles des méthodes de
séparation de la partie sinusoïdale et de la partie bruitée du signal. Deux de ces méthodes ont été
illustrées dans le cas simple d’une note de piano. Nous avons ensuite utilisé l’une d’elles, appartenant
à la famille des techniques de subspace filtering, pour développer un algorithme d’estimation du tempo
musical. Les performances de ce système ont été testées sur une base de 54 morceaux provenant de
divers genres musicaux. Un taux de reconnaissance de 96% a ainsi été atteint.
163

Conclusions et perspectives

Bilan de l’étude
Le travail mené au cours de cette thèse a permis d’apporter un certain nombre de résultats théo-
riques nouveaux. Tout d’abord, la littérature associe généralement aux méthodes à Haute Résolu-
tion (HR) le modèle ESM, qui représente le signal comme une somme de sinusoïdes modulées expo-
nentiellement. En réalité, ce modèle est limité au cas particulier où tous les pôles du signal sont simples.
Nous nous sommes donc interrogés sur ce qu’il advient en présence de pôles multiples. Cela nous a
amené à introduire le modèle Polynomial Amplitude Complex Exponentials (PACE). Nous avons montré
que ce modèle constitue la solution générale des équations de récurrence linéaires homogènes. Il offre en
particulier des perspectives intéressantes en terme de codage, car il fait intervenir moins de paramètres
que le modèle ESM pour un même ordre de modélisation r (la fréquence et le facteur d’atténuation
d’un pôle multiple n’étant codés qu’une seule fois). Pour estimer les paramètres du modèle PACE,
nous avons généralisé toute la construction théorique développée dans le cadre du modèle ESM, qui
conduit à l’algorithme ESPRIT. Notre choix s’est porté sur cet algorithme, car d’une part il est plus
performant que d’autres méthodes HR, comme les méthodes de Prony, de Pisarenko, ou la méthode
MUSIC, d’autre part il peut être aisément optimisé et implémenté de façon adaptative. Nous avons
ainsi défini les matrices de Pascal-Vandermonde qui généralisent les matrices de Vandermonde au cas
de pôles multiples, et nous avons montré que ces matrices satisfont également une propriété d’inva-
riance rotationnelle. Nous avons aussi démontré que toute matrice de Hankel singulière est associée de
manière univoque à un modèle PACE, nous avons proposé une formule de factorisation des matrices
de Hankel, faisant intervenir des matrices de type Pascal-Vandermonde. La propriété d’invariance ro-
tationnelle a ainsi permis de généraliser l’algorithme ESPRIT au modèle PACE. L’algorithme consiste
alors à factoriser la matrice spectrale sous sa forme de Jordan. Une fois que les pôles complexes et
leurs multiplicités sont estimés, les amplitudes complexes peuvent en être déduites par la méthode des
moindres carrés. Pour étudier les performances de ces techniques d’estimation, nous avons calculé ana-
lytiquement les bornes de Cramér-Rao pour le modèle PACE, et nous avons simplifié leurs expressions
en supposant que l’horizon d’observation N → +∞ (dans le cas où le bruit est blanc et où tous les
pôles sont sur le cercle unité). Par ailleurs, nous avons démontré que les estimateurs des pôles et des
amplitudes complexes sont centrés, et nous avons calculé leurs variances sous l’hypothèse RSB→ +∞.
Nous avons enfin comparé ces variances aux bornes de Cramér-Rao en supposant conjointement que
N → +∞ et RSB→ +∞, et nous avons conclu que l’efficacité des estimateurs était voisine de 1. En
utilisant la théorie des perturbations, nous avons démontré en particulier que le bruit additif éclate
les pôles multiples en plusieurs valeurs propres simples, formant les sommets d’un polygone régulier,
et que la moyenne de ces valeurs propres dispersées constitue un bon estimateur du pôle multiple. Ce
phénomène a été mis en évidence dans nos simulations numériques.
Comme l’algorithme ESPRIT présuppose que l’ordre du modèle est connu, nous avons cherché à
étudier la perturbation induite par un ordre de modélisation erroné, en l’absence de bruit. Nous avons
ainsi démontré que si l’ordre du modèle est sur-estimé, les pôles originaux se trouvent parmi les pôles
164 CONCLUSIONS ET PERSPECTIVES

estimés. Inversement, si l’ordre est sous-estimé, les pôles estimés peuvent être vus comme des approxi-
mations de certains des pôles originaux. Dans ce dernier cas, nous avons déterminé une borne d’erreur
a posteriori, qui peut être calculée sans connaître l’ordre exact du modèle. A partir de cette observa-
tion, nous avons introduit la méthode ESTER, qui sélectionne un ordre de modélisation approprié. La
détermination de l’ordre de modélisation est une étape essentielle du processus d’estimation, car elle
conditionne toute la suite de l’analyse à haute résolution du signal. Puisque la méthode initiale était as-
sez coûteuse, nous avons proposé un algorithme rapide pour calculer récursivement les bornes d’erreur a
posteriori. Nous avons montré que la méthode ESTER s’avère plus robuste que les Critères de Théorie
de l’Information (ITC), et que les bornes d’erreur peuvent être utilisées pour quantifier l’adéquation
d’un éventuel ordre de modélisation inférieur, ce qui offre des perspectives intéressantes en terme de
codage. Enfin, comme l’inconvénient majeur de l’algorithme ESPRIT est sa complexité algorithmique
élevée, nous en avons proposé une implémentation rapide. Dans un premier temps l’espace signal est
calculé en utilisant l’algorithme d’itération orthogonale associé à une technique de convolution rapide.
Dans un deuxième temps, la matrice spectrale et les amplitudes complexes sont déterminées en tenant
compte des propriétés particulières de la base de l’espace signal et de la matrice de Vandermonde. Le
coût global de l’algorithme d’estimation est ainsi réduit à O(N r log2 (N ) + nr 2 ), au lieu de O(N 3 ).
Après avoir traité le cas de signaux à paramètres constants, nous nous sommes intéressés à l’ana-
lyse de signaux dont les paramètres varient au cours du temps (sous l’hypothèse de blancheur du bruit
additif). L’objectif de cette étude était de développer un système complet permettant de suivre les
trajectoires temporelles des sinusoïdes. Un très grand nombre d’algorithmes permettant de suivre les
variations temporelles de l’espace signal ont été proposés dans la littérature. Les simulations numériques
que nous avons effectuées ont montré la supériorité de la méthode des puissances itérées en terme d’es-
timation de l’espace signal. En effet, cette méthode atteint des performances remarquablement proches
de celles obtenues à l’aide d’une EVD. En revanche, elle reste assez coûteuse. Nous en avons donc
proposé une version de plus faible complexité, baptisée FAPI, qui repose sur une approximation moins
restrictive que celle connue dans la littérature sous le nom de projection approximation. Nous en avons
proposé plusieurs implémentations, reposant respectivement sur une fenêtre exponentielle et sur une
fenêtre tronquée. Cet algorithme atteint une complexité linéaire et garantit l’orthonormalité de la base
de l’espace signal à chaque itération (ce qui n’est pas toujours le cas des algorithmes publiés dans la
littérature). Dans le contexte de l’analyse spectrale, la méthode s’avère robuste à de brusques varia-
tions de fréquences, et atteint de meilleures performances que de nombreux algorithmes de poursuite de
sous-espace, à la fois en terme d’estimation de l’espace signal et de complexité algorithmique. Nos tra-
vaux les plus récents nous ont ensuite menés à un autre algorithme de poursuite de sous-espace, dérivé
de l’algorithme SP de C.E. Davila, que nous avons baptisé YAST. Cet algorithme atteint également
une complexité linéaire et offre des performances très supérieures à celles des algorithmes classiques de
poursuite de sous-espace de même complexité, dont FAPI. De plus, il garantit lui aussi l’orthonormalité
de la base de l’espace signal à chaque itération. Enfin, nous avons également conçu un troisième algo-
rithme de poursuite de l’espace signal baptisé Sliding Window Adaptive SVD (SWASVD), développé
antérieurement à FAPI et YAST et publié dans la revue IEEE Transactions on Signal Processing [Ba-
deau et al., 2004a], que nous avons choisi de reproduire en annexe dans le chapitre C pour ne pas
surcharger le corps de ce mémoire. A partir de ces divers algorithmes de poursuite, il restait à dé-
velopper une version adaptative de l’algorithme ESPRIT. Nous avons ainsi montré que la structure
particulière de la mise à jour de l’espace signal effectuée par FAPI ou par YAST permet de calculer la
matrice spectrale de manière récursive. Les pôles complexes sont ensuite obtenus en calculant l’EVD de
cette matrice, dont la complexité est réduite grâce à un calcul récursif. Le coût du traitement complet
est ainsi réduit à O(N r + r 3 ) au lieu de O(N 3 ) initialement. L’algorithme obtenu permet de suivre de
manière précise et rapide les trajectoires temporelles des sinusoïdes5 .
5
Les développements de la deuxième partie sont également applicables en traitement d’antenne : la poursuite de
Conclusions et perspectives 165

L’objet de notre travail étant l’analyse spectrale des signaux de musique, nous avons étudié le
potentiel des méthodes HR dans ce domaine. Nous avons ainsi montré que ces méthodes peuvent
représenter une classe de signaux bien plus large qu’une simple somme de sinusoïdes amorties. En effet,
le modèle ESM permet également de décrire différentes modulations d’amplitude ou de fréquence qui
sont familières des musiciens, comme le tremolo, le vibrato et le glissando. Nous avons ainsi pu observer
que le modèle ESM, moins général que le modèle PACE, s’avère néanmoins suffisant pour représenter
ces signaux. Nous avons également évoqué les trois principales difficultés posées par l’application des
méthodes HR aux signaux de musique : tout d’abord, l’estimation est biaisée en raison de la couleur
du bruit présent dans le signal audio. Par ailleurs, l’importance perceptive relative des composantes
sinusoïdales n’est pas prise en compte. Enfin, seuls les sons contenant un nombre limité de sinusoïdes
peuvent être traités de façon robuste. Nous avons vu que la mise en oeuvre d’un banc de filtres en pré-
traitement des méthodes HR apporte une solution à chacun de ces trois problèmes. D’une part, elle a
pour effet de blanchir approximativement le bruit dans chaque sous-bande. D’autre part, l’importance
perceptive relative des différentes régions fréquentielles est prise en compte par le biais d’un découpage
adapté du spectre. Enfin, le nombre de composantes dans chaque sous-bande est réduit par réjection
de la bande atténuée. L’utilisation d’un banc de filtre avec décimation présente également d’autres
avantages non négligeables, comme l’amélioration de la résolution spectrale et du rapport signal à
bruit dans chaque sous-bande, ou encore la réduction de la charge globale de calculs. Nous avons ainsi
développé un système complet d’analyse / synthèse du signal audio reposant sur un banc de filtres non
uniforme conçu à partir d’un banc CMF. L’analyse du signal comprend plusieurs étapes : un filtre de
pré-accentuation est d’abord appliqué au signal afin de rééquilibrer approximativement la puissance
en basses et en hautes fréquences. Le signal rehaussé est ensuite décomposé en sous-bandes. L’effet
blanchissant du banc de filtres n’étant pas toujours suffisant, l’étape suivante consiste à blanchir le
bruit additif dans les sous-bandes par filtrage. Cette opération est effectuée en éliminant les sinusoïdes
présentes dans le signal, et en appliquant une technique de prédiction linéaire au résiduel. Les signaux
de sous-bandes sont alors prêts pour être analysés à l’aide des algorithmes rapides que nous avons
développés. Ce système d’analyse / synthèse est directement utilisable pour des applications de codage
et de séparation des parties déterministe et stochastique du signal, qui ont en commun de pouvoir
être effectuées directement sur les signaux de sous-bandes. Ces principes ont été mis en oeuvre dans le
cadre d’un travail mené avec M. Alonso sur l’estimation du rythme musical [Alonso et al., 2003a]. Les
performances de ce système ont été testées sur une base de 54 morceaux provenant de divers genres
musicaux. Un taux de reconnaissance de 96% a ainsi été atteint.

Perspectives
Deux applications très classiques des modèles sinusoïdaux sont les modifications d’échelle tempo-
relle et d’échelle fréquentielle du signal. Il serait donc intéressant de transposer des techniques exis-
tantes [Mc Aulay et Quatieri, 1986,Serra et Smith, 1990] au modèle ESM et à notre système d’analyse.
Cependant, les modifications d’échelle ne peuvent pas être effectuées en traitant les signaux de sous-
bandes indépendamment les uns des autres. Dans le cas d’une modification d’échelle fréquentielle, il
existe une raison simple à cela : modifier une fréquence détectée dans une sous-bande peut amener à la
déplacer dans une autre sous-bande. Dans le cas d’une modification de l’échelle temporelle, ce problème
ne se pose plus, car le signal est synthétisé sur des fenêtres plus ou moins longues, mais son contenu
fréquentiel n’est pas modifié. Il est cependant nécessaire d’ajuster les phases des sinusoïdes dans chaque
fenêtre, afin d’assurer leur continuité entre fenêtres successives. Or il se trouve que l’élimination en sor-

l’espace signal peut être réalisée à l’aide de l’algorithme FAPI introduit dans le chapitre VII, et le suivi des pôles
complexes peut être effectué à l’aide de l’algorithme présenté dans le chapitre IX.
166 CONCLUSIONS ET PERSPECTIVES

tie du banc de filtres du repliement présent dans les sous-bandes repose fortement sur des interférences
constructives et destructives entre fréquences repliées. Malheureusement, le fait de modifier les phases
des sinusoïdes dans les sous-bandes adjacentes perturbe ces interférences ; le repliement n’est alors plus
correctement éliminé et engendre une gêne auditive. Il apparaît donc que toute modification d’échelle
doit être effectuée sur le signal pleine bande. Il est ainsi nécessaire d’estimer les paramètres fréquentiels
en bande pleine à partir des paramètres déterminés dans les sous-bandes, en distinguant les fréquences
repliées des fréquences réellement présentes dans le signal. Il s’agit d’un problème délicat, pour lequel
une solution a été suggérée dans [Tkacenko et Vaidyanathan, 2001]. On peut également renoncer à
utiliser un banc de filtres à reconstruction parfaite, et utiliser un ensemble de filtres d’analyse dont les
bandes passantes permettent de recouvrir la totalité du spectre. Ainsi les fréquences détectées dans les
bandes de transition peuvent être tout simplement ignorées.
En outre, que l’on cherche à modifier l’échelle temporelle ou l’échelle fréquentielle d’un signal, un
même problème se pose : il est nécessaire d’ajuster les phases des sinusoïdes estimées sur chaque fenêtre
d’analyse, afin de garantir la continuité de celles-ci dans le signal modifié. Cet ajustement est connu
sous le nom de «déroulement de la phase». Le lecteur pourra trouver de nombreuses références à ce
sujet dans la littérature (citons par exemple [Moulines et Laroche, 1995, Serra et Smith, 1990]). Le
déroulement de la phase est lui-même facile à implémenter ; cependant il repose implicitement sur la
connaissance des valeurs successives des paramètres fréquentiels de chaque sinusoïde. Or les algorithmes
adaptatifs présentés dans la deuxième partie du document permettent seulement d’estimer l’ensemble
des pôles complexes à chaque itération, sans pour autant établir de correspondance biunivoque entre
les ensembles de pôles successifs. Il est donc nécessaire de retrouver les trajectoires des partiels à l’aide
d’une méthode ad hoc, comme cela a été proposé dans [Mc Aulay et Quatieri, 1986,Serra et Smith, 1990]
dans le cadre du modèle sinusoïdal. Nous avons commencé à développer une approche similaire pour le
modèle ESM, et quelques résultats préliminaires6 ont été publiés dans [Badeau et al., 2002,David et al.,
2003]. Nous avons ainsi implémenté des techniques de reconstruction des trajectoires de partiels et de
déroulement de la phase. Nous avons également introduit une représentation temps-fréquence du signal
analogue au spectrogramme, que nous avons baptisée High Resolution spectrogram (HR-ogram) [David
et al., 2003]. Grâce à la décomposition du signal en sa partie déterministe et sa partie stochastique, de
nombreux effets peuvent être appliqués au signal audio. Par exemple, le changement de hauteur peut
être appliqué à la partie déterministe seule, en interpolant éventuellement son enveloppe spectrale.
Il est également envisageable de rééquilibrer les puissances respectives des parties déterministe et
stochastique, ou encore d’ajouter ou de retirer du vibrato ou du trémolo aux diverses trajectoires
fréquentielles.
D’autres applications pourraient concerner l’estimation de hauteur ou de hauteurs multiples, ou la
séparation de sources. Les méthodes HR seraient par exemple utilisées pour construire une somme ou un
produit spectral à haute résolution à l’aide des paramètres estimés, en tenant compte d’une éventuelle
inharmonicité. La séparation de sources reviendrait à trier les sinusoïdes en plusieurs classes, chaque
classe correspondant à une source. Parmi les critères de classification qui pourraient être envisagés,
citons l’harmonicité, la régularité de l’enveloppe spectrale des sinusoïdes au sein d’une classe, ou encore
la cohérence de phase entre composantes.
Sur le plan théorique, d’autres développements pourraient compléter ce travail de thèse, comme
l’analyse statistique des performances de ESTER en présence de bruit (en terme de biais, de dispersion
et d’efficacité), ou l’implémentation d’une version adaptative de la méthode de blanchiment proposée
dans la section XI.3.
6
Ces résultats ont été obtenus antérieurement aux travaux présentés dans la troisième partie de ce mémoire, et
ne reposent donc pas sur notre système d’analyse / synthèse (le signal n’est pas décomposé en sous-bandes). Afin de
maintenir la cohérence de cette troisième partie, nous avons préféré reproduire les articles [Badeau et al., 2002] et [David
et al., 2003] en annexe dans le chapitre C.
167

Quatrième partie

Annexes
169

Annexe A

Résultats de la première partie

Résumé
Ce chapitre expose les démonstrations des principaux résultats énoncés dans la pre-
mière partie. Ces résultats concernent la caractérisation du modèle PACE, les pro-
priétés des matrices de Pascal-Vandermonde et des matrices de Hankel singulières, le
calcul des bornes de Cramér-Rao, l’étude des perturbations et enfin la borne d’erreur
relative à un ordre de modélisation erroné.
170 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE

A.1 Introduction
Dans ce chapitre sont démontrés les principaux résultats de la première partie :
– les premiers résultats sur le modèle PACE sont démontrés dans la section A.2 ;
– le déterminant de la matrice Pascal-Vandermonde est calculé dans la section A.3 ;
– le lemme sur la propriété d’invariance rotationnelle des matrices de Pascal généralisées est énoncé
dans la section A.4 ;
– la formule de factorisation de la matrice de données est prouvée dans la section A.5 ;
– le théorème de caractérisation des matrices de Hankel singulières par le modèle PACE est dé-
montré dans la section A.6 ;
– les bornes de Cramér-Rao pour le modèle PACE sont calculées dans la section A.7 ;
– dans la section A.8 sont présentés des lemmes d’inversion matricielle qui sont utilisés dans des
démonstrations ultérieures ;
– les performances de la méthode d’estimation du chapitre II sont étudiées dans la section A.9 ;
– enfin, le théorème portant sur la borne d’erreur à priori relative à un ordre de modélisation erroné
est démontré dans la section A.10.

A.2 Modèle PACE


Le théorème II.2.1 qui caractérise le modèle de signal est démontré ici. La démonstration utilise
des notions introduites dans le chapitre II, qu’il convient de lire préalablement en intégralité.

Démonstration du théorème II.2.1. Tout d’abord, il est immédiat de vérifier que l’ensemble des signaux
qui satisfont la relation (II.2) constitue un espace vectoriel sur C. Ensuite, nous allons montrer que cet
espace vectoriel est de dimension inférieure ou égale à r. En effet,  considérons une famille de r + 1 vec-
teurs {sm (t)}m∈{0,..., r} de cet espace. Les r +1 vecteurs extraits [sm (0), . . . , sm (r − 1)]T m∈{0,..., r} de
dimension r constituent nécessairement une famille liée. Donc il existe des coefficients {λm }m∈{0,..., r}
Pr
tels que le signal y(t) , λm sm (t) est nul sur l’intervalle {0, . . . , r − 1}. En utilisant la récur-
m=0
rence (II.2), on en déduit que y(t) également nul sur l’intervalle [r, +∞[. Enfin, en utilisant la récur-
rence (II.2) et le fait que pr 6= 0, on montre que y(t) est également nul sur l’intervalle ] − ∞, −1]. Par
conséquent, y(t) = 0 ∀t, et la famille {sm (t)}m∈{0,..., r} est liée. Puisque toute famille de r + 1 vecteurs
est liée, l’espace est au plus de dimension r.
A présent, nous allons montrer que tout signal de la forme s(t) = Fmk [t] zk t−mk où mk < Mk
satisfait la relation (II.2). En effet,
r
X r
X
pτ s(t − τ ) = pr−τ Fmk [t − r + τ ] zk t−r+τ −mk . (A.1)
τ =0 τ =0
m
Pk
Or, d’après la proposition II.2.2, Fmk [t − r + τ ] = Fmk −m [t − r] Fm [τ ]. En substituant cette identité
m=0
dans l’équation (A.1), on obtient
r
X mk
X r
X
pτ s(t − τ ) = Fmk −m [t − r] zk (t−r)−(mk −m) pr−τ Fm [τ ] zk τ −m .
τ =0 m=0 τ =0

On obtient ainsi
r
X mk
X 1 (m)
pτ s(t − τ ) = Fmk −m [t − r] zk (t−r)−(mk −m) P (zk ).
m!
τ =0 m=0
A.3. DÉTERMINANT DE LA MATRICE PASCAL-VANDERMONDE 171

Or zk est une racine multiple d’ordre Mk du polynôme P [z], donc toutes ses dérivées mèmes s’annulent
Pr
en zk jusqu’à l’ordre Mk −1. Puisqu’il a été supposé que mk < Mk , on en déduit que pτ s(t−τ ) = 0.
τ =0
Nous avons donc démontré que le signal s(t) = Fmk [t]zk t−mk satisfait la récurrence (II.2).
Finalement, considérons la famille des vecteurs Fmk [t] zk t−mk {k∈{0,..., K−1},m ∈{0,..., M −1}} . La
k k
matrice carrée dont les colonnes sont extraites de ces vecteurs et dont les lignes correspondent aux
instants {0 . . . r − 1} est une matrice Pascal-Vandermonde telle que introduite dans la définition II.3.2.
D’après la proposition II.3.1, elle est inversible, puisque les pôles zk sont distincts deux à deux. Par
conséquent, la famille Fmk [t] zk t−mk {k∈{0,..., K−1},m ∈{0,..., M −1}} est libre. Or elle contient précisé-
k k
ment r vecteurs. En conclusion, l’espace vectoriel des signaux qui satisfont la récurrence (II.2) est
exactement de dimension r, et que cette famille en constitue une base. Donc un signal s(t) satisfait la
récurrence (II.2) si et seulement si il est de la forme (II.3).

Démontrons maintenant l’identité du binôme pour les polynômes Fm [t].

Démonstration de la proposition II.2.2. Nous utilisons une récurrence sur n :


– pour n = 0, F0 [t1 + t2 ] = F0 [t1 ] F0 [t2 ] = 1,
– pour n ≥ 1, supposons que le résultat est vrai à l’ordre n − 1. Alors

Fn [t1 + t2 ]
1
= n (F n−1 [t1 + t2 ]) (t1 + t2 −
 n−1 n + 1)
P
= n1 Fm [t1 ] Fn−1−m [t2 ] ((t1 − m) + (t2 − n + m + 1))
m=0
1 P
n−1
1 P
n−1
= n (Fm [t1 ] (t1 − m)) Fn−1−m [t2 ] + n Fm [t1 ] (Fn−1−m [t2 ] (t2 − n + m + 1))
m=0 m=0
n−1
P n−1
1 1 P
= n ((m + 1) Fm+1 [t1 ]) Fn−1−m [t2 ] + n Fm [t1 ] ((n − m) Fn−m [t2 ])
m=0 m=0
1 Pn
1 P
n
= n m Fm [t1 ] Fn−m [t2 ] + n Fm [t1 ] (n − m) Fn−m [t2 ]
m=0 m=0
P
n
= Fm [t1 ] Fn−m [t2 ]
m=0

Ainsi, le résultat est également vérifié à l’ordre n.

A.3 Déterminant de la matrice Pascal-Vandermonde


Nous calculons ici le déterminant de la matrice Pascal-Vandermonde introduite dans la défini-
tion II.3.2.

Démonstration de la proposition II.3.1. Dans le cas particulier où il existe deux pôles zk1 et zk2 égaux,
la matrice V r possède (au moins) deux colonnes égales, donc son déterminant est nul. Le scalaire
défini dans l’équation (II.3.1) l’étant également, le résultat est vérifié. Les pôles seront donc désormais
supposés distincts deux à deux.
P
K−1
Pour tout k ∈ {0, . . . , K − 1}, posons rk = Mk′ et définissons la matrice carrée de dimension
k ′ =k
rk × rk h i
V k = C rMk k (zk ), . . . , C rMk (K−1) (z(K−1) ) .
172 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE

Notons Dk = det(V k ). En particulier, r0 = r et D0 = D. Par ailleurs, D(K−1) = 1, puisque V(K−1)


est une matrice carrée de dimension (M(K−1) ) × (M(K−1) ), triangulaire inférieure, et dont tous les
éléments diagonaux sont égaux à 1. Enfin, en appliquant récursivement le lemme A.3.1 ci-dessous pour
k allant de K − 2 à 0, on montre par récurrence que ∀k ∈ {0, . . . , K − 2},

Q
K−1
Dk = (zk2 − zk1 )Mk1 Mk2 . (A.2)
k1 ,k2 =k
k1 <k2

En particulier, pour k = 0, on obtient l’équation (II.3.1), puisque D0 = D.


!
K−1
Q M k M k2
Lemme A.3.1. Pour tout k ∈ {0, . . . , K − 2}, Dk = (zk2 − zk ) D(k+1) .
k2 =k+1

K−1
P
Démonstration. Pour tout m ∈ {0, . . . , Mk }, posons r(k,m) = m + Mk′ et définissons la matrice
k ′ =k+1
carrée de dimension r(k,m) × r(k,m)
h r r r(k,m)
i
V (k,m) = C m(k,m) (zk ), C M(k,m)
(k+1)
(z(k+1) ), . . . , C M(K−1) (z(K−1) ) .

Notons D(k,m) = det(V (k,m) ) avec la convention D(k,0) = Dk+1 . En particulier, r(k,0) = r(k+1) et
r(k,Mk ) = rk . De même, D(k,Mk ) = Dk . En appliquant récursivement le lemme A.3.2 ci-dessous pour m
allant de 1 à Mk , on montre par récurrence que ∀m ∈ {0, . . . , Mk },
!
Q
K−1
m (Mk2 )
D(k,m) = (zk2 − zk ) D(k+1) . (A.3)
k2 =k+1

En particulier, pour m = Mk , on obtient l’équation (A.2), puisque D(k,Mk ) = Dk .

Lemme A.3.2. Pour tout k ∈ {0, . . . , K − 2}, pour tout m ∈ {1, . . . , Mk },


!
Q
K−1
D(k,m) = (zk2 − zk )Mk2 D(k,m−1) . (A.4)
k2 =k+1

Démonstration. Pour calculer D(k,m) , on effectue des manipulations sur les lignes de V (k,m) qui ne
modifient pas la valeur de son déterminant. On construit ainsi une matrice V ′(k,m) de même dimension
calculée récursivement :
V ′(k,m) = V (k,m) ;
for i = r(k,m) − 1 : −1 : 1,
V ′(k,m) = V ′(k,m) − zk V ′(k,m) ;
(i,:) (i,:) (i−1,:)
end;

Ainsi, les coefficients de la première colonne de V ′(k,m) vérifient V ′(k,m) = 1 et ∀i > 0,


(0,0)
′ ′
V (k,m) (i,0) = 0. Donc le déterminant de V (k,m) est égal à celui de la matrice extraite V ′′(k,m) ,
A.3. DÉTERMINANT DE LA MATRICE PASCAL-VANDERMONDE 173

V ′(k,m) , de dimension (r(k,m) − 1) × (r(k,m) − 1). Il reste donc à calculer les coeffi-
(1:r(k,m) −1, 1:r(k,m) −1)
cients de cette matrice.
Commençons par les m − 1 premières colonnes, qui s’expriment en fonction du seul pôle zk . Pour
tous i ∈ {0, . . . , r(k,m) − 2} et j ∈ {0, . . . , m − 2},

V ′′(k,m) = V ′(k,m)
(i,j) (i+1,j+1)  
= Fj+1 [i + 1] zk (i+1)−(j+1) − zk Fj+1 [i] zk i−(j+1)
= Fj [i] zk i−j .

Ensuite, pour tout k2 ∈ {k + 1, . . . , K − 1}, considérons les Mk2 colonnes qui s’expriment en
kP
2 −1
fonction du pôle zk2 . Soit j(k,k2 ) , (m − 1) + Mk′ l’indice de la première de ces colonnes. Pour
k ′ =k+1
tous i ∈ {0, . . . , r(k,m) − 2} et j ∈ {0, . . . , Mk2 − 1},

V ′′(k,m) = V ′(k,m)
(i, j+j(k,k2) ) (i+1, j+(1+j(k,k2) )) 
= Fj [i + 1] zk2 (i+1)−j) − zk Fj [i] zk2 i−j)
= Fj−1 [i] zk2 i−(j−1) + Fj [i] zk2 i−j (zk2 − zk ).

Maintenant que les coefficients de la matrice V ′′(k,m) sont connus, nous allons effectuer des opérations
sur ses colonnes qui ne modifient pas son déterminant. Nous construisons ainsi une matrice V ′′′ (k,m) de
même dimension calculée récursivement :

V ′′′ ′′
(k,m) = V (k,m) ;
for k2 = k + 1 : K − 1,
for j = 1 : Mk2 − 1,
1
V ′′′
(k,m) = V ′′′
(k,m) − V ′′′ ;
(:, j+j(k,k2 ) ) (:, j+j(k,k2) ) zk2 − zk (k,m) ((:, (j−1)+j(k,k2 ) )
end;
end;
Il reste à déterminer les coefficients de cette matrice. Pour j ∈ {0 . . . m − 2},

∀i ∈ {0 . . . r(k,m) − 2}, V ′′′


(k,m) = V ′′(k,m) = Fj [i] zk i−j .
(i, j) (i, j)

De même, pour tout k2 ∈ {k + 1, . . . , K − 1}, on démontre par récurrence sur j ∈ {0 . . . Mk2 − 1}


que
∀i ∈ {0 . . . r(k,m) − 2}, V ′′′
(k,m) = Fj [i] zk2 i−j (zk2 − zk ).
(i, j+j(k,k2) )
En résumé, on constate que pour j ∈ {0 . . . m − 2}, V ′′′
(k,m) = V (k,m−1) (:, j) et pour tout k2 ∈
(:, j)
{k + 1 . . . K − 1}, pour tout j ∈ {0 . . . Mk2 − 1},

V ′′′
(k,m) = (zk2 − zk ) V (k,m−1) .
(:, j+j(k,k2) ) (:, j+j(k,k2 ) )

On en déduit que
 
  K−1
Y 
det V ′′′  (zk2 − zk )Mk2  det V (k,m−1) .
(k,m) =
k2 =k+1

Cette dernière équation est équivalente à (A.4).


174 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE

A.4 Propriété d’invariance rotationnelle des matrices de Pascal gé-


néralisées
Le lemme suivant est utilisé pour montrer la propriété d’invariance rotationnelle des matrices de
Pascal-Vandermonde dans la section II.3 (page 29).

Lemme A.4.1 (Propriété d’invariance rotationnelle des matrices de Pascal généralisées). Supposons
que n ≥ 2. Soit C nM (z)↓ la matrice extraite de C nM (z) en supprimant la dernière ligne. De même,
soit C nM (z)↑ la matrice extraite de C nM (z) en supprimant la première ligne. Alors C nM (z)↓ et C nM (z)↑
engendrent le même sous-espace, et

C nM (z)↑ = C nM (z)↓ J M (z). (A.5)

Démonstration. Les coefficients de la matrice C nM (z)↑ sont définis par C nM (z)↑ (i,j) = Fj [i + 1] z (i+1)−j .
De plus, l’équation (II.4) montre que Fj [i + 1] = Fj [i] + F(j−1) [i]. Par conséquent,

C nM (z)↑ (i,j) = z Fj [i] z i−j + Fj−1 [i] z i−(j−1)


= z C nM (z)↓ (i,j) + 1{j≥1} C nM (z)↓ (i,j−1) .

Cette dernière équation s’écrit sous la forme (A.5).

A.5 Factorisation de la matrice de données


Dans cette section, les résultats théoriques présentés dans la section II.5.1 (page 31) sont démontrés.

Démonstration de la proposition II.5.1. Montrons que 1. ⇒ 2. Les coefficients de la matrice S(t)


sont pour tous i ∈ {0 . . . n − 1}, j ∈ {0 . . . l − 1},

S(t)(i,j) = s(t − l + 1 + i + j). (A.6)

En substituant l’équation (II.5) dans l’équation (A.6), on obtient

K−1
X
S(t) = S k (t) (A.7)
k=0

où les coefficients de la matrice S k (t), de dimensions n × l, sont

M
X k −1

S k (t)(i,j) = α(k,m) Fm [t − l + 1 + i + j] zk t−l+1+i+j−m . (A.8)


m=0

Alors la proposition II.2.2 montre que


m
X
Fm [t − l + 1 + i + j] = Fm′ [i + j] Fm−m′ [t − l + 1]. (A.9)
m′ =0
A.6. CARACTÉRISATION DES MATRICES DE HANKEL SINGULIÈRES 175

En substituant les équations (A.9) et (II.16) dans l’équation (A.8), on montre que
M
X k −1

S k (t)(i,j) = β(k,m′ ) (t) Fm′ [i + j] zk i+j−m . (A.10)
m′ =0

En appliquant à nouveau la proposition II.2.2, on obtient


m ′
X
Fm′ [i + j] = Fm′′ [i] Fm′ −m′′ [j]. (A.11)
m′′ =0

Alors en substituant l’équation (A.11) dans l’équation (A.10), on obtient l’équation


M ′
X k −1 m
X
S k (t)(i,j) = β(k,m′ ) (t) C nMk (zk )(i,m′′ ) C lMk (zk )(j,m′ −m′′ )
m′ =0 m′′ =0

qui s’écrit comme un produit de matrices :

S k (t) = C nMk (zk ) H k (t) C lMk (zk )T . (A.12)

En substituant l’équation (A.12) dans l’équation (A.7), on obtient la factorisation (II.13).


Montrons que 2. ⇒ 1. Les développements précédents peuvent être parcourus dans l’ordre inverse
pour montrer que 2. ⇒ 1. Il suffit de montrer que les coefficients α(k,mk ) peuvent être obtenus
à partir des coefficients β(k,m′k ) . En effet, pour tous k ∈ {0 . . . K − 1}, le système linéaire (II.16)
(où m′k ∈ {0 . . . Mk − 1}) s’écrit sous la forme

β k = C k αk

où β k , [β(k,0) , . . . , β(k,Mk −1) ]T , αk , [α(k,0) , . . . , α(k,Mk −1) ]T , et la matrice C k est triangulaire


supérieur et tous ses éléments diagonaux sont égaux à zk t−(l−1) 6= 0. Par conséquent, ce système
est inversible.

Démonstration du corollaire II.5.2. La proposition II.3.1 montre que les deux matrices V n et V l sont
de rang r. Par conséquent, la factorisation (II.13) montre que S(t) est de rang r si et seulement si
la matrice D(t), de dimension r × r, est inversible. Par ailleurs, l’équation (II.14) montre que D(t)
est inversible si et seulement si H k (t) est inversible ∀k ∈ {0 . . . K − 1}. Puisque H k (t) est anti-
triangulaire supérieure avec des coefficients anti-diagonaux égaux à β(k,Mk −1) , H k (t) est inversible si
et seulement si β(k,Mk −1) 6= 0. De plus, l’équation (II.16) montre que ∀k ∈ {0 . . . K − 1}, β(k,Mk −1) =
α(k,Mk −1) zk t−(l−1) . On en déduit que D(t) est inversible si et seulement si α(k,Mk −1) 6= 0 ∀k ∈ {0 . . . K−
1}.

A.6 Caractérisation des matrices de Hankel singulières


Dans cette section est démontré le théorème II.5.3. La démonstration repose sur la proposition
suivante :
Proposition A.6.1. Soit W une matrice de dimension n × r (où n ≥ 2). Soit W ↓ la matrice définie
en supprimant la dernière ligne de W , et W ↑ la matrice définie en supprimant la première ligne de
W . Alors les deux assertions suivantes sont équivalentes :
176 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE

1. W vérifie la propriété d’invariance rotationnelle

W↑ = W↓ J (A.13)

(où la matrice J a été définie dans l’équation (II.8)).


2. W est de la forme
W = VnT (A.14)
où T est une matrice diagonale par blocs
 
T0 0 ... 0
 . .. 
 0 T 1 .. . 
T =  . .

 (A.15)
 .. .
.. .. 
0
0 . . . 0 T (K−1)

où pour tout k ∈ {0 . . . K − 1}, le bloc T k est une matrice de dimension Mk × Mk , triangulaire


supérieure, et à structure Toeplitz.

Démonstration. Montrons que 2. ⇒ 1. L’équation (A.14) induit W ↑ = V n ↑ T . Le théorème II.3.2


implique alors W ↑ = V n ↓ J T . Or il est facile de vérifier que toute matrice T de la forme (A.15)
permute avec la matrice J . Ainsi, W ↑ = V n ↓ T J. Enfin, toujours d’après l’équation (A.14),
W ↓ = V n ↓ T . D’où l’équation (A.13).
Montrons que 1. ⇒ 2. Le résultat est démontré par récurrence sur n ≥ 2 :
– Pour n = 2, W ↓ est une ligne contenant r coefficients. Pour tout k ∈ {0 . . . K −1}, notons T k la
matrice de dimension Mk ×Mk , triangulaire supérieure, et à structure Toeplitz, dont la première
ligne est W ↓ k−1 ! . Ensuite, définissons la matrice T selon l’équation (A.15).
P Pk
Mk : −1+ Mk
k′ =0 k′ =0
Alors on s’assure que l’équation (A.14) est vérifiée.
– Soit n > 2, et supposons que 2. est vérifiée à l’ordre n − 1. Alors W (0:n−2,:) = V n (0:n−2,:) T .
De plus, d’après l’équation (A.13), W (n−1,:) = W (n−2,:) J = V n (n−2,:) T J = V n (n−2,:) J T .
Or l’équation (II.7) implique V n (n−1,:) = V n (n−2,:) J . Donc W (n−1,:) = V n (n−1,:) T , ce qui
implique finalement l’équation (A.14).

Démonstration du théorème II.5.3. Montrons que 1. ⇒ 2. Commençons par remarquer que l’asser-
tion 1. requiert que r < n, puisque les deux matrices S(t)↓ et S(t)↑ n’ont que n−1 lignes. Dans un
premier temps, nous allons démontrer par l’absurde que la matrice de dimension (n − 1) × (l − 1)
extraite dans le coin supérieur droit ou inférieur gauche de S(t), que nous noterons S ′ (t), est
également de rang r (ce qui requiert aussi que r < l, puisque cette matrice ne possède que l − 1
colonnes). Supposons que ce ne soit pas le cas. Alors la matrice S(t)↓ est de rang r, donc elle
contient une matrice extraite inversible de dimension r × r. Mais la matrice S ′ (t) est de rang < r,
donc toutes ses matrices carrées extraites de dimension r × r sont singulières. Par conséquent,
S(t)↓ possède une et une seule matrice extraite inversible de dimension r × r : la matrice extraite
dans le coin supérieur gauche. De même, la matrice S(t)↑ est de rang r, donc elle contient une
matrice extraite inversible de dimension r × r. Mais la matrice S ′ (t) est de rang < r, donc toutes
les matrices carrées extraites de dimension r × r sont singulières. Par conséquent, S(t)↑ possède
une et une seule matrice extraite inversible de dimension r × r : la matrice extraite dans le coin
inférieur droit. Ainsi, les matrices de dimension r × r extraites respectivement dans les coins
A.7. BORNES DE CRAMÉR-RAO 177

supérieur gauche et inférieur droit de S(t), sont toutes deux inversibles et de dimension r × r,
alors que toutes les autres matrices carrées extraites de dimension r × r sont singulières. Par
conséquent, les r premières colonnes de S(t), de même que ses r dernières colonnes, engendrent
l’espace image de cette matrice. Or ces deux familles de r vecteurs, distinctes puisque r < l, ne
peuvent pas engendrer le même espace. En effet, la matrice carrée de dimension r × r extraite
dans le coin supérieur droit est singulière alors que celle extraite dans le coin supérieur gauche
est inversible (ou de même, la matrice carrée de dimension r × r extraite dans le coin inférieur
gauche est singulière alors que celle extraite dans le coin inférieur droit est inversible). Ainsi,
l’hypothèse de départ était fausse. Nous venons donc de démontrer que la matrice S ′ (t) est de
rang r.
Comme la matrice S(t) est de rang r, il existe des matrices A et B, respectivement de dimension
n × r et l × r, toutes deux de rang r, telles que S(t) = A B T . Par conséquent, la matrice S ′ (t),
de rang r, qui peut être extraite de S(t) à la fois dans le coin supérieur droit et dans le coin
inférieur gauche, est simultanément égale à A↓ B T↑ et à A↑ B T↓ . Ainsi,

A↓ B T↑ = A↑ B T↓ . (A.16)
Par conséquent, A↓ et A↑ engendrent le même espace de dimension r. Donc il existe une matrice
inversible Φ, de dimension r × r, telle que A↑ = A↓ Φ. Soit Φ = G J G−1 la décomposition
de Jordan de la matrice Φ (G est une matrice inversible, et J est de la forme (II.8), avec des
pôles non nuls, puisque Φ est inversible). Posons ensuite W , A G. Alors W vérifie l’égalité
W ↑ = W ↓ J . La proposition A.6.1 implique alors W = V n T ′, où la matrice V n a été introduite
dans la définition II.3.2, et où T ′ est de la forme (A.15). Ainsi, A = V n T ′ G−1 . Notons que
cette égalité implique que les pôles de la matrice J sont distincts deux à deux, sinon V n , et
par conséquent A ne seraient pas de rang plein. De même T ′ est inversible, sinon A ne serait
pas de rang plein. En substituant cette dernière égalité dans l’équation (A.16), et en utilisant
le théorème II.3.2, on obtient V n↓ T ′ G−1 B T↑ = V n↓ J T ′ G−1 B T↓ . Comme de plus V n↓ est de
rang plein, on en déduit que la matrice W f , B G−T T ′T P (où P est la matrice de permutation
dont tous les coefficients sont nuls, sauf ceux situés sur l’anti-diagonale, égaux à 1) vérifie l’égalité
f↑ = W
W f ↓ J . La proposition A.6.1 implique alors W f = V l T , où T est de la forme (A.15). Ainsi,
T
B = V l T P T ′−T GT . Par conséquent, S(t) = A B T = V n H V l , où H = P T T = T P . La
proposition II.5.1 et le corollaire II.5.2 permettent alors de conclure.
Montrons que 2. ⇒ 1. Le corollaire II.5.2 et la proposition II.5.1 montrent que la matrice S(t) est
T
de rang r et vérifie S(t) = V n H V l . En particulier, H est inversible. Donc le corollaire II.5.2
T T
permet de conclure que les matrices S(t)↓ = V n↓ H V l et S(t)↑ = V n↑ H V l sont également
de rang r.

A.7 Bornes de Cramér-Rao


Les résultats de la section III.2 (page 36) sont démontrés ici.

A.7.1 Bornes générales pour le modèle PACE


Démontration de la proposition III.2.1. Commençons par calculer la matrice d’information de Fisher
relative au modèle PACE. On part de l’expression donnée dans la proposition I.6.2, qui fait intervenir
les dérivées partielles de la matrice de covariance Rww et du vecteur moyenne s par rapport aux
paramètres du modèle.
178 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE

Les dérivées partielles de la matrice de covariance Rww par rapport aux paramètres du modèle sont
toutes nulles, sauf ∂R
∂σ = 2σΓ. Inversement, la dérivée partielle du vecteur moyenne s par rapport à σ
ww

est nulle. Donc la matrice F (θ) définie dans l’équation I.20, de dimension (1+ 2r + 2K)× (1+ 2r + 2K),
 4N 
σ2 0...0
 0 
 
s’écrit sous la forme F (θ) =  . ′ , où l’expression de la matrice F ′ (θ), de dimension
 . . F (θ) 
0
 σ2

4N 0...0
 0 
 
(2r + 2K) × (2r + 2K), sera précisée ci-dessous. Ainsi on obtient = . F (θ)−1
′ −1  dont
 .. F (θ) 
0
se déduit la borne de Cramér-Rao pour l’écart-type σ. Pour obtenir les bornes relatives aux autres
paramètres, il convient maintenant de calculer et d’inverser la matrice F ′ (θ).
 T
Pour tout z ∈ C, considérons le vecteur v(z) = 1, z, . . . , z N −1 . Les dérivées partielles des
coefficients du vecteur moyenne s par rapport aux autres paramètres du modèle sont
∂st 1 dmk v(zk )
= ei φ(k,mk )
∂a(k,mk ) mk ! dzkmk
∂st 1 dmk v(zk )
= i a(k, mk ) ei φ(k,mk )
∂φ(k,mk ) mk ! dzkmk
Mk
X
∂st 1 dmk v(zk )
= zk mk α(k,mk −1)
∂δk mk ! dzkmk
mk =1
Mk
X
∂st 1 dmk v(zk )
= i 2πzk mk α(k,mk −1) .
∂fk mk =1
mk ! dzkmk

Pour tous les couples de pôles (zk , zk′ ), où (k, k′ ) ∈ {0 . . . K −1}2 , définissons alors la matrice Z (k,k′ )
de dimension (Mk + 1) × (Mk′ + 1), dont les coefficients sont indexés par les indices mk ∈ {0 . . . Mk }
et mk′ ∈ {0 . . . Mk′ } :

1 1 dmk v(zk ) H −1 dmk′ v(zk′ )


Z(k,k′ ,mk ,mk′ ) = Γ .
mk ! mk′ ! dzkmk m
dzk′ k′

Enfin, considèrons la matrice Z de dimension (r + K) × (r + K), définie1 en juxtaposant les blocs


Z (k,k′ ) pour tous k, k′ ∈ {0 . . . K − 1}. Son inverse Z −1 peut à son tour être découpée en K × K blocs
notés Z −1 ′
(k ′ ,k) pour tous k , k ∈ {0 . . . K − 1}, de dimension (Mk + 1) × (Mk + 1). Les coefficients du

bloc Z −1 −1
(k ′ ,k) , indexés par les indices mk ∈ {0 . . . Mk } et mk ∈ {0 . . . Mk }, sont notés Z(k ′ ,k,mk′ ,mk ) .
′ ′

Par ailleurs, pour toute matrice complexe M de dimension d × d, définissons la matrice réelle
R2 (M ), de dimension (2d) × (2d), de la façon suivante :

.. .. .. .
. . . ..
 
· · · Re M (i,j)  − Im M (i,j) ···
R2 (M ) = .
· · · Im M (i,j) Re M (i,j) ···
. .. .. ..
.. . . .
1
Cette définition rejoint celle donnée dans la section III.2.1, page 36.
A.7. BORNES DE CRAMÉR-RAO 179

Alors on vérifie que la matrice F ′ (θ) se décompose en sous-blocs F ′ (θ)(k,k′ ) , où (k, k′ ) ∈ {0, . . . , K −
1}2 ,chaque bloc F ′ (θ)(k,k′ ) , de dimension 2(Mk + 1) × 2(Mk′ + 1), pouvant s’écrire sous la forme

F ′ (θ)(k,k′ ) = 2
σ2 diag(. . . , 1, a(k,mk ) , . . . , 1, 2π)
   
diag . . . e−i φ(k,mk ) . . . , zk ∗
 
 .. 
 .. .. . . 
 . .. 
 . M 
 Pk ′

 · · · Z(k,k′ ,mk ,mk′ ) · · · mk′ α(k′ ,mk′ −1) Z(k,k′ ,mk ,mk′ ) 
 . mk′ =1 

R2  . .  .
.. .. .. .. 
 . 
 
 M
Pk M
Pk Pk M ′ 
 
 ... mk α∗(k,mk −1) Z(k,k′ ,mk ,mk′ ) . . . mk mk′ α∗(k,mk −1) α(k′ ,mk′ −1) Z(k,k′ ,mk ,mk′ ) 
 mk =1 
  mk =1 mk′ =1  
iφ ′
diag . . . e (k ,mk′ ) . . . , zk′

diag(. . . , 1, a(k′ ,mk′ ) , . . . , 1, 2π)

Cette expression se factorise sous la forme suivante :

F ′ (θ)(k,k′ ) = 2
σ2
diag(. . . , 1, a(k,mk ) , . . . , 1, 2π)
   
diag . . . e−i φ(k,mk ) . . . , zk ∗
 
 0 .. 
 . 
 .. 
 I Mk . I Mk ′ mk′ α(k′ ,mk′ −1) 

R2  Z (k,k′ )  .
0 .. 
 . 
 ∗ ∗ 
 · · · mk α(k,mk −1) · · · Mk α(k,Mk −1) 0 ...0 Mk′ α(k′ ,Mk′ −1) 
  
i φ(k′ ,m ′ )
diag . . . e k . . . , zk′

diag(. . . , 1, a(k′ ,mk′ ) , . . . , 1, 2π)

Or on vérifie que l’opérateur R2 peut être permuté avec l’opérateur d’inversion matricielle : ∀M ∈
Cd×d , (R2 (M ))−1 = R2 (M −1 ). Par conséquent, la matrice F ′ (θ) peut aisément être inversée, et son
inverse peut à son tour être décomposée en sous-blocs notés F ′ (θ)−1
(k ′ ,k) :
180 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE

σ2
F ′ (θ)−1
(k ′ ,k) = 2 diag(. . . , 1, 1
a(k′ ,m , . . . , 1, 1
2π )
)
k′

   
−i φ ′ 1
diag . . . e (k ,mk′ ) . . . , zk ′
 
 .. 
 . 0 
 mk′ α(k′ ,m .. 
 −M k′
−1)
I Mk 
 I Mk ′ k′ α(k′ ,M ′ −1)
. 
R2 

k Z −1
k ′ ,k 0

 .
 .. 
 . mk α∗(k,m
1 
k −1)
 0...0 1 ... − Mk α∗(k,M ... Mk α∗(k,M

 Mk′ α(k′ ,M k −1) k −1) 
 k′ −1)   
diag . . . ei φ(k,mk ) . . . , 1
zk ∗

1 1
diag(. . . , 1, a(k,mk ) , . . . , 1, 2π )

En développant l’expression précédente, on obtient finalement


σ2 1 1
F ′ (θ)−1
(k′ ,k) = 2 diag(. . . , 1, a(k′ ,m , . . . , 1, 2π )
)
k′

   
−i φ(k′ ,m ′ ) 1
diag . . . e k ..., zk ′
 
 .. .. . 
 . . .. 
   
 −1
Z(k′ ,k,m ′ ,mk ) .. 
 k
. 
  mk mk′ α(k,mk −1) α(k′ ,mk′ −1) −1
∗  !
 + Z  −1
Z(k′ ,k,m ′ ,Mk ) 
  Mk Mk′ α(k,Mk −1) α(k′ ,Mk′ −1) (k ,k,Mk′ ,Mk ) 
∗ ′

 · · · α(k′ ,m ′ −1) −1 · · · 1 α(k′ ,m ′ −1)k −1 
  m k ′
−M ′ α ′ k
Z(k′ ,k,M ′ ,mk )  M k α ∗ m ′
−M ′ α ′
k k
Z(k′ ,k,M ′ ,Mk ) 
  k (k ,M ′ −1) k  (k,Mk −1)
k (k ,M ′ −1) k 
R2 

 ∗ k
mk α(k,mk −1) −1
 ..
k 

 − Mk α∗ Z(k′ ,k,m ′ ,Mk ) . 
 (k,Mk −1) k

 . . . 
 .. .. .. 
   
 Z(k−1 
 ′ ,k,M ′ ,m ) 
. . . k

 Mk′ α(k′ ,M ′ −1) − mk α(k,mk −1) Z −1 ...
1 k 1 −1

Mk Mk′ α∗ α ′
Z(k′ ,k,M ′ ,Mk ) 
 k ∗ ′
Mk α(k,M −1) (k ,k,Mk′ ,Mk )
(k,Mk −1) (k ,Mk′ −1) k

 k   
diag . . . ei φ(k,mk ) . . . , zk1∗

1 1
diag(. . . , 1, a(k,mk ) , . . . , 1, 2π )

dont les éléments diagonaux donnent les expressions des bornes de Cramér-Rao pour les paramètres
du modèle autres que σ, données dans la proposition III.2.1.

Démontrons maintenant les formules qui ont été données à la suite de la proposition III.2.1.

Démonstration. Il est connu que les coefficients de la matrice inverse Z −1 peuvent être exprimés à l’aide
−1 det(Z/(k,Mk ) )
de déterminants. Plus précisément, Z(k,k,M k ,Mk )
= det(Z) , où Z/(k,Mk ) est la matrice extraite de
Z en supprimant la ligne et la colonne de même indice (k, Mk ). Or2
 
Y
det(Z) =  |zk2 − zk1 |2(Mk1 +1)(Mk2 +1)  D(Γ, {zk′ , Mk′ + 1}k′ ∈{0...K−1} )
k2 >k1
A.7. BORNES DE CRAMÉR-RAO 181

où D est une fonction des variables z0 , . . . , zK−1 à valeurs strictement positives. De même,
 
Y
det(Z/(k,Mk ) ) =  |zk2 − zk1 |2(Mk1 +1{k1 6=k} )(Mk2 +1{k2 6=k} )  D(Γ, {zk′ , Mk′ + 1{k′ 6=k} }k′ ∈{0...K−1} )
k2 >k1

Par conséquent,
−1 F (z0 , . . . , zK−1 )
Z(k,k,M ,M ) = Q
k k |zk′ − zk |2(Mk′ +1)
k ′ 6=k

D(Γ,{zk′ , Mk′ +1{k′ 6=k} }k′ ∈{0...K−1} )


où F (z0 , . . . , zK−1 ) = D(Γ,{zk′ , Mk′ +1}k′ ∈{0...K−1} ) est une fonction continue, à valeurs finies et
strictement positives.

A.7.2 Bornes asymptotiques


Démonstration de la proposition III.2.2. Supposons que Γ = I N et que tous les pôles sont sur le cercle
unité. Dans ce cas, nous allons voir qu’il est possible de calculer des équivalents asymptotiques des
coefficients de la matrice Z −1 lorsque N → +∞. En effet, on vérifie que ∀(k, k′ ) ∈ {0 . . . K − 1}2 ,
∀(mk , mk′ ) ∈ {0 . . . Mk } × {0 . . . Mk′ },
– si k 6= l, Z(k,k′ ,mk ,mk′ ) = O(N mk +mk′ ),
1 mk −mk′
– si k = k′ , Z(k,k′ ,mk ,mk′ ) = mk !(1+mk +mk′ )mk′ ! zk N mk +mk′ +1 + O(N mk +mk′ ).
Définissons la matrice diagonale D telle que ∀(k, k′ ) ∈ {0 . . . K − 1}2 , ∀(mk , mk′ ) ∈ {0 . . . Mk } ×
{0 . . . Mk′ },
– si k 6= k′ , D(k,k′ ,mk ,mk′ ) = 0,
1
– si k = k′ , D(k,k′ ,mk ,mk′ ) = 0 si mk 6= mk′ et D(k,k,mk ,mk ) = zkmk N −mk − 2 sinon.
Considèrons alors la matrice Z e = D ∗ Z D.
e
Alors on vérifie que Z = Z + O( N1 ), où ∀(k, k′ ) ∈ {0 . . . K − 1}2 , ∀(mk , mk′ ) ∈ {0 . . . Mk } ×
{0 . . . Mk′ },
– si k 6= k′ , Z (k,k′ ,mk ,mk′ ) = 0,
– si k = k′ , Z (k,k′ ,mk ,mk′ ) = mk !(1+mk1+m ′ )m ′ ! .
k k
Nous admettrons3 que l’inverse de la matrice Z (k,k′ ,mk ,mk′ ) satisfait
−1
– si k 6= k′ , Z (k′ ,k,mk′ ,mk ) = 0,
−1 (Mk′ +1+mk′ )! (−1)mk′ +mk (Mk +1+mk )!
– si k = k′ , Z (k′ ,k,mk′ ,mk ) = (Mk′ −mk′ )! mk′ !(1+mk′ +mk )mk ! (Mk −mk )! .

En particulier, Z −1 = D −1 Z e −1 D ∗ −1 , où Z
e −1 = Z −1 + O( 1 ).
N
On en déduit que ∀(k, k′ ) ∈ {0 . . . K − 1}2 , ∀(mk , mk′ ) ∈ {0 . . . Mk } × {0 . . . Mk′ },
−1 1
– si k 6= k′ , Z(k ′ ,k,m ′ ,m ) = O( m ′ +mk +2 ),
k k N k
m ′ −mk  
−1 (Mk +1+mk′ )! (−1)mk′ +mk (Mk +1+mk )! zk k 1
– si k = k′ , Z(k ′ ,k,m ′ ,m ) = (Mk −mk′ )! mk′ !(1+mk′ +mk )mk ! (Mk −mk )! N k′m +m +1 + O m +m +2 .
k k k N k′ k

Les formules de la proposition III.2.2 sont obtenues en substituant les valeurs des coefficients de la
matrice Z −1 dans les équations données dans la proposition III.2.1.

2
La preuve de ce résultat est omise en raison de sa complexité. Elle consiste à appliquer à droite et à gauche de la
H
matrice Z = V N Γ−1 V N les opérations que l’on appliquerait aux colonnes de la matrice Pascal-Vandermonde pour
calculer son déterminant.
3
La démonstration de ce résultat est omise en raison de sa complexité.
182 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE

A.8 Lemmes d’inversion matricielle


Le lemme suivant montre comment l’inverse d’une matrice est modifié par l’ajout d’une matrice de
rang faible [Horn et Johnson, 1985, pp. 18-19].

Lemme A.8.1 (Formule d’inversion par ajout d’une matrice de rang faible). Soient r ∈ N et C
des matrices inversibles de dimension r × r. Soient q ∈ N, A une matrice de dimensions r × q, B
une matrice de dimensions q × r, et D une matrice inversible de dimension q × q. Considèrons la
e = C + A D B, de dimension r × r. Alors C
matrice C e est inversible si et seulement si la matrice
e −1 = C −1 − C −1 AΓBC −1 , où
D−1 + B C −1 A, de dimension q × q, est inversible, et dans ce cas C
−1
Γ = D −1 + B C −1 A .

De même, le lemme A.8.2 montre comment l’inverse d’une matrice est modifié par ajout de lignes
et de colonnes.

Lemme A.8.2 (Formule d’inversion par ajout de lignes et de colonnes). Soient r ∈ N et C une matrice
inversible de dimension r × r. Soient p ∈ N, A une matrice de dimensions r × p, B une matrice de
C A
dimensions p × r, et D une matrice de dimension p × p. Considèrons la matrice C = , de
B D
dimension (r + p) × (r + p). Alors C est inversible si et seulement si la matrice D − B C −1 A, de
−1
dimension p × p, est inversible. Dans ce cas, posons Γ = D − B C −1 A . Alors

 
−1 C −1 + C −1 AΓBC −1 −C −1 AΓ
C = . (A.17)
−ΓBC −1 Γ

Démonstration. Si D − B C −1 A est inversible, soit Γ son inverse. Alors on vérifie qu’en multipliant
C à droite ou à gauche par le membre de droite de l’équation (A.17), on obtient la matrice identité
de
 dimension (r + p) × (r + p). Réciproquement, supposons que C est inversible. Puisque la matrice
−C −1 A
, de dimensions r × p, est de rang plein, la matrice
Ip
   
−C −1 A 0
C = ,
Ip D − B C −1 A

de dimensions r × p, est également de rang plein, donc la matrice D − B C −1 A est inversible.

A.9 Performance des estimateurs


On démontre ici les résultats de la section III.3 (page 39).

A.9.1 Perturbation de l’espace signal


Démonstration de la proposition III.3.1. L’existence et l’unicité de la fonction ε 7→ Π(ε) de classe C ∞
est un résultat classique de la théorie des perturbations. Alors on vérifie que la fonction
− 12
W (ε) , Π(ε)W W H Π(ε)W
A.9. PERFORMANCE DES ESTIMATEURS 183

satisfait toutes les propriétés énoncées dans la proposition III.3.1. Il est également clair que toute
fonction de la forme W (ε) Θ(ε) (où ε 7→ Θ(ε) est une fonction de classe C ∞ , à valeurs dans le groupe
des matrices orthonormées Or (C), et prenant la valeur I r en ε = 0) vérifie également ces propriétés.
Enfin, si ε 7→ W ′ (ε) est une autre fonction satisfaisant toutes ces propriétés, alors Π(ε) =
W (ε) W (ε)H = W ′ (ε) W ′ (ε)H . On en déduit que W ′ (ε) = W (ε) Θ(ε), où Θ(ε) , W (ε)H W ′ (ε)
est une fonction de classe C ∞ , à valeurs dans le groupe des matrices orthonormées Or (C) puisque
W (ε) et W ′ (ε) sont deux bases orthonormées du même espace, et prenant la valeur W H W = I r en
ε = 0.
Rappelons ensuite que d’après [Yang, 1995], toute matrice orthonormée W (ε) engendrant l’espace
principal de la matrice X(ε)X(ε)H minimise la fonction

Cn×r → R
J′ : 2
W ′ 7→ X(ε) − W ′ W ′H X(ε) F
.

Par conséquent, la dérivée

dJ ′ ′ H H ′ ′H

′ (W ) = −2X(ε) X(ε) + X(ε) X(ε) W W + W ′ W ′H X(ε) X(ε)H W ′
dW
est nulle en W ′ = W (ε). Soit
W (ε) = W + ε∆′ W + O(ε2 )
le développement limité à l’ordre 1 de la fonction ε 7→ W (ε). Alors

dJ H
  
′ (W (ε)) = ε − I r − W W ∆S S H W + ∆′ W W H S S H W + W N + O(ε2 ) = 0 (A.18)
dW
  
où N , ∆′ W H W W H S S H W + W H S S H W W H ∆′ W + ∆′ W H W .
En particulier, le développement limité à l’ordre 1 de la condition d’orthonormalité W (ε)H W (ε) =
I r montre que W H ∆′ W + ∆′ W H W = 0, ce qui signifie que la matrice A , ∆′ W H W est à antisy-
métrie hermitienne. Ainsi, N = A W H S S H W . L’équation (A.18) implique alors
 −1
∆′ W = I r − W W H ∆S S H W W H S S H W − W A.
−1
En remarquant que S H W W H S S H W = S † W , on en déduit les équations (III.2) et (III.3).

A.9.2 Perturbation de la matrice spectrale


 
Démonstration de la proposition III.3.2. La fonction ε 7→ det W (ε)H ↓ W (ε)↓ est continue. Comme
W ↓ est de rang plein, elle est non nulle en ε = 0. Donc elle reste non nulle dans un voisinage de
0. Par conséquent, W ↓ (ε) est de rang plein dans ce voisinage. De plus, d’après la proposition III.3.1
 −1
la fonction ε 7→ W (ε) est de classe C ∞ . Donc la fonction Φ(ε) = W (ε)H ↓ W (ε)↓ W (ε)H
↓ W (ε)↑
l’est également. On obtient
 ainsi les 
équations (III.4) et (III.5) en calculant le développement limité à
l’ordre 1 de l’égalité W (ε)↓ W (ε)↓ Φ(ε) = W (ε)H
H
↓ W (ε)↑ .

Démonstration du corollaire III.3.3. En multipliant l’équation (III.4) à gauche par G−1 et à droite par
G, on obtient l’équation (III.6), où
∆J = G−1 ∆Φ G. (A.19)
184 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE

En multipliant l’équation (III.5) à gauche par G−1 et à droite par G, on obtient en substituant les
équations (A.19), (I.19) et (I.18)

∆J = −V n↓ † ∆W ↓ G J + J V n↑ † ∆W ↑ G. (A.20)

Finalement, en substituant les équations (III.3) et (I.18) dans l’équation (A.20) et en utilisant le
lemme A.9.1 ci-dessous, on obtient finalement l’équation (III.7).

Lemme A.9.1. La matrice Pascal-Vandermonde V n satisfait les identités suivantes :


h i
V n↓ † 0 − V n† = −v ′(n−1) e′(n−1) H (A.21)
h i
0 V n↑ † − V n† = −v ′0 e′0 H . (A.22)

Démonstration. On démontre l’équation (A.21). Comme la matrice V n↓ est de rang plein, V n↓ † =


 −1
V n↓ H V n↓ V n↓ H . Or V n↓ H V n↓ = Z − v (n−1) v H
(n−1) . En appliquant le lemme d’inversion matri-
cielle A.8.1 à cette dernière égalité et en multipliant à droite par V n↓ H , on obtient

V n↓ † = Z −1 V n↓ H + v′(n−1) v H
(n−1) Z
−1 n H
V↓ . (A.23)

De plus, h   i
V n† = Z −1 V n↓ H 1 − vH
(n−1) Z
−1
v (n−1) v ′(n−1) . (A.24)

En soustrayant l’équation (A.24) à l’équation (A.23) augmentée d’une colonne de zéros, on obtient
finalement l’équation (A.21). L’équation (A.22) peut être dérivée de façon similaire.

A.9.3 Perturbation des pôles


Démonstration de la proposition III.3.4. Le développement fractionnaire (III.8) est obtenu en appli-
quant le théorème 2.1 dans [Moro et al., 1997] à la matrice J(ε) dans l’équation (III.6) (dans le cas
particulier des valeurs propres non dérogatoires). Comme les vecteurs propres à gauche et à droite de
la matrice de Jordan J associés à la valeurs propre zk sont respectivement e P ! et e k−1 ! , ce
k P Ml −1 Ml
l=0 l=0
théorème montre que

(∆zk )Mk = eH P ! ∆J + A′ J − J A′ e k−1 ! ! (A.25)
k
M −1
l
P M = ∆J
l
Pk M −1,k−1
PM .
l=0 l=0 l l
l=0 l=0

L’équation (III.9) est alors obtenue en substituant l’équation (III.7) dans l’équation (A.25).

Démonstration de la proposition III.3.5. Rappelons que la matrice J dans l’équation (III.6) est diago-
nale par blocs de dimensions Mk × Mk . La théorie des perturbations montre que pour tout ε voisin de
0, la matrice J (ε) peut être également diagonalisée par blocs de mêmes dimensions, et que les fonctions
qui à ε associent chacun de ces blocs sont de classe C ∞ . Plus précisément, la fonction qui à ε associe
le bloc de dimension Mk × Mk relatif au pôle zk admet le développement limité à l’ordre 1 :
 
   0
0 I Mk 0 J + ε ∆J + A′ J − J A′  I Mk  + O(ε2 ).
0
A.9. PERFORMANCE DES ESTIMATEURS 185

Il s’agit simplement d’un sous-bloc extrait du développement limité (III.6). Or la somme des valeurs
propres z(k,m) (ε) est justement égale à la trace de ce bloc. Ainsi, la fonction ε 7→ zk (ε) est de classe
C ∞ et admet le développement limité au premier ordre :
1     T 
z(k,m) (ε) = trace 0 I Mk 0 J + ε ∆J + A′ J − JA′ 0 I Mk 0 + O(ε2 )
Mk
De plus, 
   T 
– trace 0 I Mk 0 J 0 I Mk 0 = trace (J Mk (zk )) = Mk zk ,
 
   T 
– trace 0 I Mk 0 ∆J 0 I Mk 0 = trace ∆J  k−1 P Pk k−1 Pk P  ,
M ′: M ′ −1, M ′: M ′ −1
′ k ′ k k k
k′ =0 k′ =0
   T 
k =0 k =0

– trace 0 I Mk 0 (A′ J − J A′ ) 0 I Mk 0 = 0.
On en déduit les équations (III.10) et (III.11).
En substituant l’équation (III.7) dans l’équation (III.11), on obtient

∆zk = 1
Mk trace v′(n−1)  k−1
P Pk  e′
(n−1)
H
∆S S † C nMk (zk ) J Mk (zk )
M ′: M ′ −1
k k
k′ =0 k′ =0 

− J Mk (zk ) v ′0  k−1
P Pk  e′ H ∆S S † C n (zk )
0 Mk
M ′: M ′ −1
k k
 k′ =0 k′ =0

= 1
Mk
e′
(n−1)
H
∆S S † C nMk (zk ) J Mk (zk ) v ′(n−1)  k−1
P Pk 
Mk ′ : Mk′ −1
k′ =0 k′ =0 

− e′0 H ∆S S † C nMk (zk ) J Mk (zk ) v ′0  k−1


P P
k

M ′: M ′ −1
k k
k′ =0 k′ =0


 T ∗ −1
L’équation (III.12) est alors obtenue en remarquant que S † = V l Vl Vl D −1 V n† .

Démonstration du corollaire III.3.6. Le logarithme complexe est un C ∞ -difféomorphisme de C dans


R×] − π, π[, donc les fonctions ε 7→ δk (ε) et ε 7→ fk (ε) sont de classe C ∞ . Un développement limité à
∆zk 
l’ordre 1 donne, en utilisant l’équation (III.10), ln(zk (ε)) = ln(zk ) + ε + O ε2 . On en déduit les
zk
équations (III.17).

A.9.4 Perturbation des amplitudes et des phases


Démonstration du lemme III.3.7. Les coefficients de la matrice V N (ε) sont des puissances des pôles
estimés zk (ε). Puisque ceux-ci sont des fonctions de classe C ∞ de la variable ε, la fonction ε 7→ V N (ε)
est également de classe C ∞ . Par ailleurs, la colonne de V N (ε) relative au pôle zk (ε) à l’indice m < Mk
1 dm v(z) n−1 ]T . Par conséquent, son développement limité à
est égale à m! dz m (zk (ε)), où v(z) = [1, z, . . . , z
l’ordre 1 est
1 dm v(z) 1 dm v(z) 1 dm+1 v(z) dzk (ε)
(zk (ε)) = (zk (0)) + ε (zk (0)) (0) + O(ε2 )
m! dz m m! dz m m! dz m+1 dε
1 dm v(z) 1 dm+1 v(z)
= (zk ) + ε (m + 1)∆zk (zk ) + O(ε2 ).
m! dz m (m + 1)! dz m+1
On en déduit les équations (III.18) et (III.19) colonne par colonne.
186 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE

Démonstration de la proposition III.3.8. Comme les pôles zk sont distincts deux à deux et comme
les fonctions ε 7→ zk (ε) sont continues, elles prennent des valeurs distinctes dans un voisinage de 0.
Ainsi, la matrice Pascal Vandermonde V N (ε) reste de rang plein dans ce voisinage. De plus, d’après le
lemme III.3.7, la fonction ε 7→ V N (ε) est de classe C ∞ , donc la fonction ε 7→ V N (ε)† l’est également.
On en déduit que la fonction ε 7→ α(ε) = V N (ε)† x(ε) est de classe C ∞ au voisinage de 0. De plus, le
développement limité à l’ordre 1 de l’égalité V N (ε) α(ε) = x(ε) donne

V N ∆α + ∆V N α = ∆s.

En substituant l’équation (III.19) dans cette dernière égalité, on obtient


 
N
∆α = V N ∆s − V ∆Z α .

 
A0
 .. 
Or en utilisant l’équation (III.12), un simple jeu de réécriture montre que ∆Z α =  .  ∆s. On
AK−1
en déduit l’équation (III.21).

Démonstration du corollaire III.3.9. On suppose que |α(k,mk ) (0)| = a(k,mk ) 6= 0. Alors comme la fonc-
tion ε 7→ α(k,mk ) (ε) est de classe C ∞ , la fonction ε 7→ a(k,mk ) (ε) = |α(k,mk ) (ε)| est également de classe
C ∞ au voisinage der0. De plus, en substituant la première ligne de l’équation (III.23) dans l’égalité
α(k,mk ) (ε) α(k,mk ) (ε)∗
a(k,mk ) (ε) = a(k,mk ) α(k,mk ) α∗(k,m ) , on obtient son développement limité à l’ordre 1.
k
Par ailleurs, le logarithme complexe est un C ∞ -difféomorphisme de C dans R×] − π, π[, donc la
fonction ε 7→ φ(k,mk ) (ε) est de classe C ∞ . Un développement limité à l’ordre 1 donne, en utilisant
l’équation (III.20),
∆α(k,mk ) 
ln(α(k,mk ) (ε)) = ln(α(k,mk ) ) + ε + O ε2
α(k,mk )

On en déduit le développement limité à l’ordre 1 de la fonction ε 7→ φ(k,mk ) (ε).

A.9.5 Performance des estimateurs au premier ordre


Démonstration de la proposition III.3.10. Comme le signal ∆s(t) est centré, l’équation (III.14) im-
plique E[∆zk ] = 0, donc l’estimateur zk (ε) est centré au premier ordre. De plus, sa variance (toujours
au premier ordre) est var (zk (ε)) = ε2 E[|∆zk |2 ] ; on en déduit l’expression (III.25) en utilisant la
relation (III.14). Par ailleurs, en substituant l’équation (III.14) dans l’équation (III.17), on obtient
  
 ∆δk = 1 uk H ∆s
Mk Re zk α(k,Mk −1)
 
 ∆fk = 1 uk H ∆s
2π Mk Im zk α(k,Mk −1) .

Comme le signal ∆s(t) est centré, en injectant cette dernière équation dans l’équation (III.16) on
montre que les estimateurs δk et fk sont centrés au premier ordre. De plus,
"  2 #
ε2 uk H ∆s
var(δk ) = 2 E Re
Mk zk α(k,Mk −1)
A.9. PERFORMANCE DES ESTIMATEURS 187

au premier ordre. En injectant l’identité remarquable (Re(z))2 = 12 (|z|2 + Re(z 2 )) dans cette dernière
équation, on obtient
!!
σ2 uk H E[∆s ∆sH ]uk uk H E[∆s∆sT ]uk ∗
var(δk ) = + Re
2Mk2 |zk |2 |α(k,Mk −1) |2 zk2 α2(k,M −1)
k
2  −2δ 
σ e k
= uk H Γ uk + 0 .
2Mk2 a(k,Mk −1) 2

On en déduit l’équation (III.26). 


2
 H
2 
De même, var(fk ) = 4π2ε M 2 E Im zk αuk ∆s au premier ordre. Alors l’identité remarquable
k (k,Mk −1)

(Im(z))2 = 21 (|z|2 − Re(z 2 )) conduit à la relation


!!
σ2 uk H E[∆s ∆sH ]uk uk H E[∆s∆sT ]uk ∗
var(fk ) = − Re
8π 2 Mk2 |zk |2 |α(k,Mk −1) |2 zk2 α2(k,Mk −1)
 
σ2 e−2δk H
= uk Γ uk − 0 .
8π 2 Mk2 a(k,Mk −1) 2

On en déduit l’équation (III.27).

Démonstration de la proposition III.3.11. Comme le signal ∆s(t) est centré, l’équation (III.21) im-
plique E[∆α] = 0, donc l’estimateur α(ε) est centré au premier ordre. De plus, sa matrice de covariance
(toujours au premier ordre) est égale à cov (α(ε)) = ε2 E[∆α ∆αH ] ; on en déduit l’expression (III.28)
en utilisant la relation (III.20).
Par ailleurs, en substituant l’équation (III.20) dans l’équation (III.24), on obtient
  
 b(k,mk ) H ∆s

 ∆a(k,mk ) = a(k,mk ) Re α(k,mk )
 H


 b(k,mk ) ∆s
 ∆φ(k,mk ) = Im α .
(k,mk )

Comme le signal ∆s(t) est centré, en injectant cette dernière équation dans l’équation (III.23) on
montre que les estimateurs a(k,mk ) (ε) et φ(k,mk ) (ε) sont centrés au premier ordre. En particulier,
"  2 #
H
b(k,m ) ∆s
var(a(k,mk ) (ε)) = ε2 a2(k,mk ) E Re α
k
au premier ordre. En injectant l’identité remar-
(k,mk )

quable (Re(z))2 = 21 (|z|2 + Re(z 2 )) dans cette dernière équation, on obtient


!!
σ 2 a2(k,mk ) b(k,mk ) H E[∆s ∆sH ]b(k,mk ) b(k,mk ) H E[∆s∆sT ]b(k,mk ) ∗
var(a(k,mk ) (ε)) = + Re
2 |α(k,mk ) |2 α(k,mk ) 2
!
σ 2 a2(k,mk ) 1
= bH Γ b(k,mk ) + 0 .
2 a2(k,mk ) (k,mk )

On en déduit l’équation (III.29). "  2 #


b(k,mk ) H ∆s
De même, var(φ(k,mk ) (ε)) = ε2 E Im α(k,mk ) au premier ordre. Alors l’identité remar-
188 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE

quable (Im(z))2 = 12 (|z|2 − Re(z 2 )) conduit à la relation


!!
σ2 b(k,mk ) H E[∆s ∆sH ]b(k,mk ) b(k,mk ) H E[∆s∆sT ]b(k,mk ) ∗
var(φ(k,mk ) (ε)) = − Re
2 |α(k,mk ) |2 α2(k,mk )
!
σ2 1 H
= b(k,mk ) Γ b(k,mk ) − 0 .
2 a2(k,mk )

On en déduit l’équation (III.30).

A.9.6 Performances asymptotiques


On démontre ici les résultats de la section III.3.2.2 (page 45). Par souci de simplicité, on supposera
que tous les pôles sont simples, bien que le résultat reste vrai dans le cas général. Avant de démontrer
les propositions III.3.12 et III.3.13, on va énoncer un lemme utilisé dans les deux démonstrations.

Lemme A.9.2. Pour tout k ∈ {0 . . . K − 1}, les coefficients du vecteur uk admettent le développement
limité à l’ordre 2
z t−l+τ z t−l+τ 
uk (τ ) = 1τ ≥n−1 k nl − 1τ ≤l−1 k nl + O N13 . (A.26)

Démonstration. La matriceZ −1 introduite dans le corollaire III.3.3 admet le développement asymp-


totique Z −1 = n1 I r + O n12 . Par conséquent, les vecteurs introduits dans ce même corollaire vérifient

 
1
e′0 = e0 + O
n
 
1
e′(n−1) = e(n−1) + O
n
 
1 1
v ′0 = v0 + O
n n2
 
1 1
v ′(n−1) = v (n−1) + O .
n n2

Alors, en substituant les quatre équations ci-dessus dans l’équation (III.13), on obtient
 
zk−t+l l ∗ 1
e′′(0,k) = v (zk ) + O
nl N3
 
zk−t+l−n+1 1
e′′(n−1,k) = l ∗
v (zk ) + O .
nl N3

Enfin, en substituant les deux équations ci-dessus dans l’équation (III.15), on obtient l’expres-
sion (A.26).

Démontrons maintenant les propositions III.3.12 et III.3.13.

Démonstration de la proposition III.3.12. On déduit du lemme A.9.2 que


2 1

uHk uk = n 2 l + O N 4  si n ≥ l
= nl22 + O N14 si n ≤ l
A.9. PERFORMANCE DES ESTIMATEURS 189

Les équations (III.31) et (III.32) sont obtenues en injectant ce résultat dans les équations (III.26)
et (III.27).
Le minimum sous la contrainte n + l = N + 1 est atteint pour n = 2l = 32 (N + 1) ou pour
l = 2n = 23 (N + 1) (en supposant N congru à 2 modulo 3).

† NH
Démonstration de la proposition III.3.13. Puisque V N = 1
NV + O( N12 ), on vérifie que
 
A0  
N† N  ..  N H H 1
V V  . = J U +O .
2 N2
AK−1

où U est la matrice de dimension n × K dont les colonnes sont les vecteurs uk . Par substitution dans
l’équation (III.22), on obtient
 
H 1 H N 1
B = V N − JHUH + O .
N 2 N2

On en déduit que
   
1 H N2 H H H 1
B B = 2V N V N +
H
J U U J − Re V N U J + O . (A.27)
N 4 N2

H
Or on sait que V N V N = N I r + O(1). De plus, on déduit du lemme A.9.2 que
 
H 2 1
U U= Ir + O .
max(n, l)2 min(n, l) N4

Enfin, le lemme A.9.2 montre aussi que


 
H
VN U = v(zk1 )H v k2
(k1 ,k2 )
min(l−1,n−2)
P zkt−l+τ P
n+l−2 zkt−l+τ 
= − zk−τ
1
2
nl + zk−τ
1
2
nl +O 1
N3
τ =0 τ =max(n−1,l)
zkt−l zkt−l 1
 1

= − nl2 min(l,
 n− 1) + nl
2
min(l, n − 1) + O N3
=O N3
si zk1 = zk2
= O N12 sinon.
  
H
On en déduit que Re V N U J = O 1
N2
. Ainsi, l’équation (A.27) est équivalente à

   
H 1 N2 1
B B= + Ir + O
N 2 max(n, l)2 min(n, l) N2

Les équations (III.33) et (III.34) sont obtenues en substituant ce résultat dans les équation (III.29)
et (III.30).
Il apparaît que les éléments diagonaux de cette matrice sont tous égaux à l’ordre 1, et le minimum
de leur valeur commune sous la contrainte n + l = N + 1 est atteint pour n = 2l = 23 (N + 1) ou pour
l = 2n = 23 (N + 1) (en supposant N congru à 2 modulo 3).
190 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE

A.10 Borne d’erreur a priori


Les résultats du chapitre IV sont démontrés ici.

Démonstration du théorème IV.2.2. S’il existe k ∈ {1 . . . r} tel que zb = zk , l’assertion est triviale.
Supposons donc que ∀k ∈ {1 . . . r}, zb 6= zk . Soit v
b un vecteur unitaire quelconque. Soit le résiduel

e(p) , (W ↑ (p) − zb W ↓ (p)) v


b. (A.28)
 
b
v
Puisque W (p) v
b = W (r) , l’équation (A.28) implique
0
 
b
v
e(p) = (W ↑ (r) − zb W ↓ (r)) . (A.29)
0

En substituant les équations (I.18) et (II.7) dans l’équation (A.29), on obtient


 
n −1 b
v
e(p) = V ↓ (J − zb I r ) G . (A.30)
0

Puisque ∀k ∈ {1 . . . r}, zb 6= zk , J − zb I r est inversible. Ainsi, l’équation (A.30) montre que


 
b
v
= G (J − zb I r )−1 V n↓ † e(p). (A.31)
0

Considérons une matrice Λ = diag(Λ0 , . . . , ΛK−1 ) de dimension r×r, diagonale par blocs, dont chaque
bloc Λk est de dimension Mk × Mk , triangulaire supérieur, Toeplitz et inversible. Alors on montre que
la matrice Λ permute avec n’importe quelle matrice de Jordan ayant la même structure que J . Ainsi,
l’équation (A.31) est équivalente à
 
b
v
= G Λ (J − zb I r )−1 Λ−1 V n↓ † e(p). (A.32)
0

En appliquant la norme 2 à l’équation (A.32), on obtient

v k2 ≤ kG Λk2 (J − zb I r )−1
kb Λ−1 V n↓ † ke(p)k2 . (A.33)
2 2

Puisque la matice W (r) est orthonormée et V n Λ = W (r) G Λ, kG Λk2 = kV n Λk2 = σmax (V n Λ).
Puisque V n↓ est de rang plein, les valeurs singulières de Λ−1 V n↓ † sont les inverses de celles de V n↓ Λ, si
bien que Λ−1 V n↓ † = 1
σmin (V n . Finalement, puisque v
b est unitaire, l’équation (A.33) implique
2 ↓ Λ)

1 σmax (V n Λ)
≤ ke(p)k2 . (A.34)
(J − zb I r )−1 σmin (V n↓ Λ)
2

Par ailleurs, la matrice J − zb I r est diagonale par blocs, donc

1 1
= min .
−1
(J − zb I r ) k∈{0...K−1} (J Mk (zk ) − zb I Mk )−1
2 2
A.10. BORNE D’ERREUR A PRIORI 191

Ainsi l’équation (A.34) montre que ∃k ∈ {0 . . . K − 1} tel que

1 σmax (V n Λ)
≤ ke(p)k2 . (A.35)
(J Mk (zk ) − zb I Mk )−1 σmin (V n↓ Λ)
2

De plus, J Mk (zk ) − zb I Mk est la somme de la matrice diagonale (zk − zb) I Mk et de la matrice nilpo-
tente N Mk , qui contient des 1 sur la première sur-diagonale, et des 0 partout ailleurs. En particulier,
N Mk Mk = 0. Par conséquent,
M
X k −1
−1 1 N Mk mk
(J Mk (zk ) − zb I Mk ) = (−1)m .
zk − zb (zk − zb)mk
mk =0

En appliquant la norme 2 aux deux membres de cette équation, on obtient


M
X k −1
−1 1 1
(J Mk (zk ) − zb I Mk ) ≤ .
2 |zk − zb| |zk − zb|mk
mk =0

Si |zk − zb| ≥ 1, cela implique


Mk
|zk − zb| ≤ .
(J Mk (zk ) − zb I Mk )−1
2

Inversement, si |zk − zb| ≤ 1,


  1
Mk
Mk
|zk − zb| ≤   .
−1
(J Mk (zk ) − zb I Mk )
2

Ainsi, dans tous les cas,


 ! 1 
Mk
Mk Mk
|zk − zb| ≤ max  −1 , −1
.
(J Mk (zk )−zb I Mk ) 2
(J Mk (zk )−zb I Mk ) 2

Finalement, en substituant cette dernière équation dans l’équation (A.35), on obtient


 ! 1 
n n Mk
σ max (V Λ) σ max (V Λ)
|zk − zb| ≤ max Mk ke(p)k , Mk ke(p)k . (A.36)
σmin (V n↓ Λ) 2
σmin (V n↓ Λ) 2

L’équation (A.36) est satisfaite pour tous les vecteurs unitaires v


b et toutes les matrices Λ ayant la
structure mentionnée ci-dessus. Par conséquent, l’équation (IV.3) se déduit de l’équation (A.36).

Démonstration du corollaire IV.2.3. Soit zb une valeur propre de Φ(p) et v b un vecteur propre unitaire
associé à zb. Soit e(p) , (W ↑ (p) − zb W ↓ (p)) v
b. Puisque v
b est unitaire, σmin (W ↑ (p) − zb W ↓ (p)) ≤
ke(p)k2 . Par ailleurs,
b,
e(p) = (W ↑ (p) − W ↓ (p) Φ(p)) v
donc ke(p)k2 ≤ kE(p)k2 . Par conséquent,
σmin (W ↑ (p) − zb W ↓ (p)) ≤ kE(p)k2 . (A.37)
Finalement, en substituant l’équation (A.37) dans l’équation (IV.3), on obtient l’équation (IV.4).
192 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE

Démonstration de la proposition IV.3.1. Remarquons que


 
E(p) = W ↑ (p) W ↑ (p)† − W ↓ (p) W ↓ (p)† W ↑ (p).

En appliquant la norme 2, on obtient

kE(p)k2 ≤ dist (W ↑ (p), W ↓ (p)) kW ↑ (p)k2 (A.38)


dist (W ↑ (p), W ↓ (p)) , W ↑ (p) W ↑ (p)† − W ↓ (p) W ↓ (p)†
2
est la distance entre les sous-espaces span(W ↑ (p)) et span(W ↓ (p)), qui satisfait

dist (W ↑ (p), W ↓ (p)) ≤ 1,

comme cela est montré dans [Golub et Van Loan, 1996, pp. 76-77]. Puisque kW ↑ (p)k2 ≤ kW (p)k2 = 1,
le résultat se déduit de l’équation (A.38).
193

Annexe B

Résultats de la deuxième partie

Résumé
Ce chapitre expose les démonstrations des principaux résultats énoncés dans la
deuxième partie. Ces résultats concernent les variations des valeurs propres de la
matrice de corrélation, l’approximation de la méthode des puissances itérées, et la
mise à jour des valeurs propres de la matrice spectrale. Un algorithme de poursuite
de l’espace signal est également présenté : l’algorithme NIC à fenêtre rectangulaire.
194 ANNEXE B. RÉSULTATS DE LA DEUXIÈME PARTIE

B.1 Introduction
Dans ce chapitre sont démontrés les principaux résultats de la deuxième partie :
– la proposition sur la moyenne géométrique des valeurs propres de la matrice de corrélation est
démontrée dans la section B.2 ;
– les principaux résultats sur l’approximation de la méthode des puissances itérées sont prouvés
dans la section B.3 ;
– l’algorithme de poursuite de l’espace signal SW-NIC est présenté dans la section B.4 ;
– enfin, les résultats sur la mise à jour des valeurs propres de la matrice spectrale sont démontrés
dans la section B.5.

B.2 Moyenne géométrique des valeurs propres de Rss (t)


Démonstration de la proposition VI.2.1. Il a été démontré dans la section I.4.2.2 (page 18) que

Rss (t) = V n P (t) V nH (I.13)


1 T ∗
P (t) = D(t) V l V l D(t)H . (I.14)
l
Il est alors facile de vérifier que les valeurs propres non nulles de Rss (t) sont égales à celles de la matrice
P (t) V nH V n . Donc leur produit est égal au déterminant de cette matrice, lui-même égal à
1 T ∗
r
det(V l V l ) det(D(t)H D(t)) det(V nH V n ).
l
Q
K−1
Or on vérifie que det(D(t)H D(t)) = |αk,Mk −1 |2Mk |zk |2Mk (t−l+1) , d’où le résultat.
k=0

B.3 Approximation de la méthode des puissances itérées


Les résultats du chapitre VII dont démontrés ici.

Démonstration de la proposition VII.4.1. En substituant l’équation (VI.3) dans l’équation (VII.11) et


en multipliant à gauche par W (t − 1)H , on obtient

b(t)H .
Θ(t) R(t) = β S(t − 1)H + y(t) J y (B.1)

Ensuite, on utilise le lemme d’inversion matricielle A.8.1 présenté page 182 pour inverser le membre
de droite de cette égalité. L’intérêt de cette approche est que le problème de l’inversion d’une matrice
de dimension r × r est transformé en l’inversion d’une matrice plus petite, de dimension q × q (avec
q = 1 ou 2).
En appliquant le lemme A.8.1 à l’équation (B.1), on montre que la matrice Θ(t) R(t), de dimension
r × r, est inversible si et seulement si la matrice βJ −1 + y(t)H h(t), de dimension q × q, est inversible
(ce qui fournit un moyen rapide de détecter la singularité de R(t) ou Θ(t)). Dans le cas d’inversibilité,
le lemme A.8.1 conduit à l’équation
1 
(Θ(t) R(t))−1 = Z(t − 1)H I r − y(t) g(t)H .
β
Finalement, en multipliant le conjugué hermitien de cette dernière équation à gauche par Θ(t)H , et en
le multipliant à droite par Θ(t)−H , on obtient la récurrence (VII.29).
B.4. ALGORITHME SW-NIC 195

Démonstration de la proposition VII.4.2. En substituant l’équation (VI.3) dans l’équation (VII.11) et


en multipliant à droite par Θ(t), on montre que W (t) satisfait la récurrence

W (t)S(t)H = βW (t − 1)S(t − 1)H + x(t) J y b (t)H Θ(t).

En substituant les équations (B.1) et (VII.32) dans l’équation ci-dessus, on montre que

b(t)H Θ(t).
W (t)S(t)H = W (t − 1)Θ(t)S(t)H + e(t) J y (B.2)

Par ailleurs, en multipliant l’équation (B.1) à gauche par g(t)H , et en remplaçant g(t) par sa
définition dans l’équation (VII.30), on obtient
−H
g(t)H Θ(t)R(t) = βJ −1 + y(t)H h(t)
 
 H  H (B.3)
βS(t − 1)h(t) H
+ y(t) h(t) J y b (t)H .

Alors les équations (VII.27) et (VII.25) montrent que

(βS(t − 1)h(t))H = β y
b (t)H = βJ −1 J y
b(t)H . (B.4)

En substituant l’équation (B.4) dans l’équation (B.3), on obtient

g(t)H Θ(t) R(t) = J y


b (t)H . (B.5)

Finalement, en substituant l’équation (B.5) dans l’équation (B.2) et en multipliant à droite par
S(t)−H = Z(t)H , on obtient l’équation (VII.31).

B.4 Algorithme SW-NIC


Dans la table B.1 est présentée une version à fenêtre rectangulaire de l’algorithme NIC, originelle-
ment conçu pour une fenêtre exponentielle dans [Miao et Hua, 1998]. Cet algorithme est illustré dans
la section VII.8, page 101.

B.5 Mise à jour des pôles


Les résultats de la section IX.3.2 (page 125) sont démontrés ici.

B.5.1 Modification de la structure propre par ajout d’une matrice de rang un


Démonstration de la proposition IX.3.1. La contraposée de la première assertion est une conséquence
immédiate des équations (IX.14) et (IX.15). De plus, si z n’est pas valeur propre de Φ(t − 1), alors
zI r − J(t − 1) est inversible. Alors l’équation (IX.16) est obtenue en multipliant l’équation (IX.14) à
gauche par (zI r − J (t − 1))−1 , et l’équation (IX.17) est obtenue en multipliant l’équation (IX.15) à
gauche par (zI r − J(t − 1))−1∗ .

Démonstration de la proposition IX.3.2. En multipliant l’équation (IX.14) à gauche par eH


k , on obtient
 
eH e
a (t) e
b(t)H
e
g = 0.
k

Donc l’une au moins des deux conditions suivantes est vérifiée :


196 ANNEXE B. RÉSULTATS DE LA DEUXIÈME PARTIE

Tab. B.1 – Algorithme NIC à fenêtre rectangulaire

Initialisation :  
f (0) = W (0) = Ir
W , Z(0) = I r , X(0) = 0n×l , Y (0) = 0r×l
0(n−r)×r
A
 chaque instant faire
Vecteur
 d′ entrée :x(t) 
 x(t − l) X(t) = X(t − 1) x(t) Cobut

 y(t) = W (t − 1) H x(t) nr
    
 y(t −l) Y (t) = Y (t − 1) y(t)

 x(t) =  x(t) x(t − l) 

 y(t) = y(t) y(t − l)


 h(t) = Z(t − 1) y(t) 2r 2
   −1
 1 0
 g(t) = h(t) + y(t)H h(t) 8r
 0 −1

 Z(t) = Z(t − 1) − h(t) g(t)H 2r 2

 e(t) = x(t) − W f (t − 1) y(t) 2nr

 f (t) = Wf (t − 1) + e(t) g(t) H
 W 2nr
f
W (t) = (1 − η) ∗ W (t − 1) + η ∗ W (t) nr

– eH ak (t) = 0. Alors en multipliant l’équation (IX.12) à gauche par eH


e (t) = e
k a k , on obtient
H e H H
ek Φ(t) = ek J (t − 1) = zk (t − 1) ek . Donc ek est un vecteur propre à gauche de Φ(t), e et

e ∈ span(ek ). Notons que l’équation (IX.14) contraint les coefficients de g
g e d’ordre différent de k,
de sorte que ge s’exprime sous la forme (IX.19), où ρ1 , e b(t)H g
e. En injectant l’équation (IX.19)
dans cette dernière équation, on montre en particulier que ρ1 et ρ2 sont contraints par la rela-
tion (IX.20).
– e
b(t)H ge = 0. Alors l’équation (IX.15) montre que J(t − 1) g e = zg e. Comme les valeurs propres
de J (t − 1) sont distinctes et associées aux vecteurs de la base canonique, on en déduit que
e ∈ span(ek ). Donc l’égalité e
g e = 0 implique eH
b(t)H g e e
k b(t) = bk (t) = 0. Notons que l’équa-

tion (IX.15) contraint les coefficients de g
e d’ordre différent de k, de sorte que ge′ s’exprime sous

la forme (IX.22), où ρ1 , ae (t)H g
e . En injectant l’équation (IX.22) dans cette dernière équation,
on montre en particulier que ρ1 et ρ2 sont contraints par la relation (IX.23).

Démonstration de la proposition IX.3.3. Si zk (t − 1) est valeur propre de Φ(t), la proposition IX.3.2


montre que le produit ebk (t)∗ eak (t) est nul. Réciproquement, si le produit ebk (t)∗ e ak (t) est nul, alors
e
soit bk (t) = 0, auquel cas l’équation (IX.12) montre que ek est vecteur propre à droite de Φ(t) e
associé à la valeur propre zk (t − 1), soit e ak (t) = 0, auquel cas l’équation (IX.12) montre que ek
est vecteur propre à gauche de Φ(t) e associé à la valeur propre zk (t − 1). Ainsi, la première as-
sertion est démontrée. Maintenant, soit z une valeur propre de Φ(t) qui n’est pas valeur propre
de Φ(t − 1). En multipliant l’équation (IX.14)
 à gauche par eb(t)H (zI r − J(t − 1))−1 , on obtient
e e= e
b(t)H g b(t)H (zI r − J (t − 1))−1 ae (t) e b(t)H ge . Or la proposition IX.3.1 montre que e b(t)H g
e 6= 0.
On en déduit que
1−e b(t)H (zI r − J (t − 1))−1 ae (t) = 0
B.5. MISE À JOUR DES PÔLES 197

Finalement, cette dernière équation se réécrit sous la forme (IX.24). Réciproquement, en multipliant
Q
r−1
l’équation (IX.24) par le produit (z − zk′ (t − 1)), on obtient
k ′ =0
ebk′ (t)∗ eak′ (t)6=0

 
 
 
 
   
 r−1
Y  r−1
X   r−1
Y 
   
 (z − zk′ (t − 1)) ebk (t)∗ e  (z − zk′ (t − 1))
 − ak (t)  =0
   
 k ′ =0  k=0  ′
k =0 
ebk′ (t)∗ eak′ (t)6=0 ebk (t)∗ e
 e ∗ 
ak (t)6=0  bk′ (t) eak′ (t)6=0 
k ′ 6=k

Il s’agit d’un polynôme en z dont le degré est égal au nombre d’indices k′ ∈ {0 . . . r − 1} tels que
ebk′ (t)∗ e
ak′ (t) 6= 0, dont on sait déjà que toute valeur propre de Φ(t) non valeur propre de Φ(t − 1) est
racine. Donc ce polynôme ne possède pas d’autre racine. Puisque l’on sait par ailleurs que le produit
Q
r−1
(z − zk′ (t − 1)) ne s’annule pas sur l’ensemble de ces racines, on en déduit que l’ensemble
k ′ =0
ebk′ (t)∗ eak′ (t)6=0
des solutions de l’équation (IX.24) est égal à l’ensemble des valeurs propres de Φ(t) non valeurs propres
de Φ(t − 1).

B.5.2 Modification de la structure propre par ajout d’une matrice de rang faible
Démonstration de la proposition IX.3.4. Si z n’est pas valeur propre de Φ(t − 1), alors zI r − J(t − 1)
est inversible. Alors l’équation (IX.30) est obtenue en multipliant l’équation (IX.27) à gauche par
(zI r − J (t − 1))−1 , et en posant
v,e b(t)H g
e (B.6)
Ensuite, en substituant l’équation (IX.30) dans l’équation (B.6), on obtient l’équation (IX.32). Comme
e est non nul, v est nécessairement non nul ; on en déduit donc que la matrice
g

I −e
b(t)H (zI r − J (t − 1))−1 a
e (t)

est singulière, ce dont l’équation (IX.29) est une conséquence immédiate. De la même façon, l’équa-
tion (IX.31) est obtenue en multipliant l’équation (IX.28) à gauche par (zI r − J (t − 1))−1∗ , et en
posant
e (t)H g
v′ , a e′ (B.7)
Ensuite, en substituant l’équation (IX.31) dans l’équation (B.7), on obtient l’équation (IX.33).
198 ANNEXE B. RÉSULTATS DE LA DEUXIÈME PARTIE
199

Annexe C

Articles

Dans cette annexe sont reproduits trois articles, dont le contenu n’a pas été développé dans le corps
de ce document afin d’éviter de le surcharger :
– [Badeau et al., 2002] R. Badeau, R. Boyer, et B. David. EDS parametric modeling and tracking
of audio signals. Dans Proc. of Int. Conf. on Digital Audio Effects DAFx-02, pages 139–144,
Hamburg, septembre 2002.
– [David et al., 2003] B. David, G. Richard, et R. Badeau. An EDS modeling tool for tracking
and modifying musical signals. Dans Proc. of SMAC 03, volume 2, pages 715–718, Stockholm,
Sweden, août 2003.
– [Badeau et al., 2004b] R. Badeau, G. Richard, et B. David. Sliding window adaptive SVD algo-
rithms. IEEE Trans. Signal Processing, 52(1) :1–10, janvier 2004.
200 ANNEXE C. ARTICLES
Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), Hamburg, Germany, September 26-28, 2002

EDS PARAMETRIC MODELING AND TRACKING OF AUDIO SIGNALS

Roland Badeau, Rémy Boyer and Bertrand David

ENST, Département de Traitement du Signal et des Images


46, rue Barrault, 75634 Paris Cedex 13 France
roland.badeau,remy.boyer,bertrand.david@enst.fr

ABSTRACT of robustness results in repeated re-initializations which increase


the computational cost.
Despite the success of parametric modeling in various fields of
digital signal processing, the Fourier analysis remains a prominent Concurrently, subspace-based high resolution methods, despite
tool for many audio applications. This paper aims at demonstrat- their higher computational complexity, prove to be much more re-
ing the usefulness of the Exponentially Damped Sinusoidal (EDS) liable than linear prediction. Therefore, adaptive subspace estima-
model both for analysis/synthesis and tracking purposes. tion may offer interesting outlooks for frequency tracking.
Contents. This paper is organized as follows.
Section 2 introduces the EDS model and presents subspace-
1. INTRODUCTION based high resolution methods for the estimation and tracking of
the model parameters. Some synthesis techniques are proposed
The advantages of this model are on the one hand to overcome the both in a static and an adaptive context, with an application to
Fourier resolution limit related to windowing and on the other hand pitch modification.
to enhance the classical sinusoidal model used in speech and au- Section 3 shows the application of these methods to coding,
dio coding. The main drawbacks of the EDS-based methods con- tracking and re-synthesis of audio signals.
sist in the complexity of the algorithms and in the assumption of Finally, section 4 summarizes the main conclusions of this pa-
non time-varying parameters. In this paper, applications of some per.
recent enhancements of the algorithms to audio signal processing
are presented, in order to both reduce the complexity and track the
parameter variations with time. 2. THEORETICAL BACKGROUND
Modeling context. Recently, many efforts have been made
to achieve a powerful representation of an audio signal as speech The EDS model defines the discrete signal as
or music, for a compression purpose [1, 2]. More specifically, in M
parametric audio coding, it is worthwhile to have compact (sparse)
X
x(t) = am exp(dm t) cos (2πfm t + φm ), t ∈ {0, . . . N −1}
representations of the signal: the model order M (i.e. the number m=1
of elementary components) must be far less than N , the length (1)
of the analysis window in samples. One way to obtain a more where x(t) is the discrete signal observed in the window t ∈
compact representation is to increase the parameter N and keep {0, . . . N − 1}, M is the order of the model, am ∈ R∗+ are the
unchanged the model order. Unfortunately, for large N , the audio amplitudes, dm are the real valued damping factors, fm ∈ [− 12 , 12 [
signal can no longer be considered as a quasi-stationary signal. In are the frequencies and φm ∈ [−π, π[ denote initial phases. Equa-
this case, the basic sinusoidal model [3], which tends to represent tion (1) can equivalently be rewritten with the complex amplitudes
the audio signal as a sum of constant-amplitude components, be- αm = 12 am exp(iφm ) and the complex poles zm = exp(dm +
comes ineffective. Consequently, the EDS model was introduced i2πfm ) as in equation (2):
in the audio modeling context [4, 5]. In this work, we compare the
sinusoidal and EDS models with the same total number of model M 
X 
t ∗ ∗ t
parameters. Note that keeping a satisfactory algorithmic complex- x(t) = αm zm + αm zm . (2)
ity implies setting a maximal bound to the parameter N . m=1
Tracking context. The EDS model relies on the assumption
In section 2.1, EDS-based analysis/synthesis methods are pre-
of non varying signal parameters within the observation window.
sented in a block processing context (with constant model param-
A more realistic modeling of musical signals should include slow
eters). In section 2.2, it will be shown how these methods can be
variations of the parameters. Tracking these time variations would
adapted to track slow variations of these parameters.
have interesting applications, such as:
• evaluating the degree of stationarity of the audio signal,
2.1. Block signal processing
• detecting model breaks, which characterize transient sounds,
The estimation of the model parameters is achieved in two steps:
• developing more realistic synthesis techniques. first the frequencies and damping factors are computed using a
A reference method in frequency tracking is the Sintrack algorithm high resolution (HR) method, from which the amplitudes and ini-
introduced by P. Duvaut [6]. This method relies on a fast linear tial phases are deduced by minimizing a least squares (LS) cri-
prediction technique, which makes it useful for real-time estima- terium. The estimated parameters are then used to re-synthesize
tion and tracking of damped sinusoids in noise. However, its lack the signal.

DAFX-1
Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), Hamburg, Germany, September 26-28, 2002

2.1.2. Estimation of the frequencies and damping factors


Table 1: Orthogonal iteration EVD algorithm

The poles {zm , zm }1≤m≤M can be calculated by exploiting the
rotational invariance property of the signal subspace. More pre-
  cisely, define E ↓ (respectively E ↑ ) the matrix extracted from E
I 2M by deleting the last (respectively the first) row. These matrices sat-
Initialization: US =
0(L−2M )×2M isfy the equation
For n = 1, 2, . . . until convergence iterate: E↑ = E↓ D (5)

A(n) = H U S (n − 1) fast matrix product where
A(n) = U S (n)R(n) skinny QR factorization D = diag(z1 , z2 , . . . , zM , z1∗ , z2∗ , . . . , zM

).

Since the matrices U S and E span the same subspace, there


exist an invertible matrix C such that

U S = E C −1 . (6)
2.1.1. Subspace-based signal analysis
Define the L × L real Hankel data matrix H (with N = 2L − 1) As for E, let U S S
↓ (respectively U ↑ ) be the matrix extracted
S
as form U by deleting the last (respectively the first) row. Then
equations (5) and (6) yield
 
x(0) x(1) . . . x(L − 1)
x(1) x(2) . . . x(L)
US S
 
H = . (3) ↑ = U↓Φ (7)
 
.. .. . .. ..
 . . . 
−1
x(L − 1) x(L) . . . x(N − 1) where Φ = C D C . The Estimation of Signal Parameters via
Rotational Invariance Techniques (ESPRIT) method [9] consists
Suppose that 2M ≤ L. Then this matrix can be decomposed in:
as H = E A E T , where • computing the matrix Φ = U S
† S
U ↑ (where the symbol

† denotes the Moore-Penrose pseudo-inverse; this compu-
A = Diag(α1 , . . . , αM , α1∗ , . . . , αM

) tation requires O(LM 2 ) operations),
and E is the L × 2M Vandermonde matrix • extracting the estimated poles ẑm as the eigenvalues of Φ
(which can be achieved in O(M 3 ) operations).
1 ... 1 1 ... 1 Finally, for m = 1, . . . , M , the mth estimated frequency and
 
 z1 ... zM z1∗ ... ∗
zM  damping factor can be deduced using fˆm = angle(ẑ m)
and dˆm =

E= .. .. .. ..  . (4)
 
.. .. ln |ẑm |.
 . . . . . . 
z1L−1 ... L−1
zM z1∗ L−1 ... ∗ L−1
zM
2.1.3. Estimation of the amplitudes and initial phases
H has a 2M -dimensional range space, spanned by the full- The complex amplitudes {αm }1≤m≤M can be determined by min-
rank matrix E. This range space fully characterizes the signal imizing the LS criterion minα kx − Eαk22 , where
poles, even in presence of an additive white noise [7], and thus
is referred to as the signal subspace. An orthonormal basis U S • x = [x(0), . . . , x(L − 1)]T are the signal samples,
of this space can be obtained from the eigenvalue decomposition ∗ T
• α = [α1 , . . . , αM , α1∗ , . . . , αM ] are complex amplitudes.
(EVD) of H . Indeed, since H is a rank-deficient symmetric real
matrix, there exist a L × 2M orthonormal real matrix U S and a The solution to this criterion is
T
2M × 2M diagonal real matrix Λ such that H = U S Λ U S . α̂ = E † x. (8)
S
The columns of U thus span the signal subspace. In the presence
of an additive white noise, the columns of U S are defined as the Hence, for m = 1, . . . , M , the mth estimated real amplitude
2M -dominant eigenvectors of H (i.e. the eigenvectors associated and initial phase are âm = 2|α̂m | and φ̂m = angle(α̂m ).
to the 2M eigenvalues which have the highest magnitudes). Note that the full computation of E † can be avoided since
These dominant eigenvectors can be computed using the clas- † −1 ST T
equation (6) shows  thatT E = C U where C = U S E.
sical EVD algorithm called orthogonal iteration [8]1 (cf. table 1),
Thus, α̂ = C −1 U S x can be computed in O(LM 2 ) opera-
which involves an auxiliary matrix A. The Hankel structure of the
matrix H can be taken into account to make the algorithm faster by tions.
computing the first-step matrix product using Fast Fourier Trans-
forms, which requires only O(LM log(L)) operations [8]2 . Then 2.1.4. Re-synthesis
the second step can be achieved in O(LM 2 ) operations [8]3 . Since
in practice this algorithm converges in a few iterations, the overall Once the model parameters have been estimated, the signal can
process requires O(LM (M + log(L))) operations. be reconstructed using equation (2). Thus, the estimated signal
sample at time t is
1 Chapter 8, section 2.4. M
2 Chapter X
4, section 7.7.
3 Chapter 5, section 2.
x̂(t) = (x̂m (t) + x̂∗m (t)) (9)
m=1

DAFX-2
Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), Hamburg, Germany, September 26-28, 2002

where x̂m (t) = α̂m ẑmt


is the mth complex damped sinusoid.
Table 2: Sequential iteration EVD algorithm
Note that equation (9) can be implemented in O(LM ) opera-
tions.
In a block processing context, some interpolation techniques
are required in order to force the continuity of the parameters be-
 
I 2M
tween consecutive blocks [10]. Initialization: US =
0(L−2M )×2M
For each time step t iterate:
2.1.5. Pitch-scale modification
H (t) U S (t − 1)

A(t) = fast matrix product
An immediate application of the EDS model is a frequency-scale A(t) = U S (t)R(t) skinny QR factorization
modification of the signal, which just consists in multiplying the
estimated frequencies fˆm by a same factor β. Thus, the frequency
of the mth complex damped sinusoid in the modified signal is

fˆm
s
= β fˆm For example, the orthogonal iteration algorithm of Table 1 can
be adapted to track the dominant eigenvectors of a sliding-window
so that the corresponding pole is matrix
 
s
ẑm = exp(dˆm + i 2π fˆm
s
) x(t − (L − 1)) . . . x(t)
(10)  x(t − (L − 2)) . . . x(t + 1)
ẑm exp(i 2π(β − 1)fˆm )

= H (t) = 
 
(12)
.. . .. .
.. 
 . 
Therefore, equation (9) becomes x(t) . . . x(t + L − 1)
M
X just by replacing the iteration index n in table 1 by the discrete
x̂s (t) = (x̂sm (t) + x̂sm ∗ (t)) (11) time index t [14] (cf. table 2).
m=1 Thus, only one iteration is completed at each time step. Once
the signal subspace basis U S is computed, the standard ESPRIT
where x̂sm (t) = α̂m (ẑm
s t
). method can be applied. However, for the sake of computational
Note that this pitch modification method is no more computa- efficiency, adaptive implementations of ESPRIT have been devel-
tionally demanding than the exact re-synthesis. oped [15], which require O(LM 2 ) or O(LM ) operations at each
time step.
2.2. Adaptive signal processing Finally, the estimation of the amplitudes and initial phases can
be achieved as in section 2.1.3. Equation (8) now becomes
The section transposes the HR methods presented above in an
adaptive context. It will be shown that tracking the slow varia- α̂(t) = E(t)† x(t) (13)
tions of the model parameters leads to a very simple re-synthesis
method. where E(t) is the Vandermonde matrix of the estimated poles at
time t, α̂m (t) and ẑm (t) denote the estimated mth complex am-
plitude and pole at time t, and x(t) = [x(t), . . . , x(t + L − 1)]T .
2.2.1. Model parameters tracking Since this estimation involves the matrix E defined in equa-
The Sintrack method for frequency estimation and tracking [6] tion (4) for a time window [0 . . . L − 1], it must be noted that
consists in a two-steps estimation: the Matrix Pencil HR method α̂m (t) now is the complex amplitude of the mth damped sinusoid
[7] is first applied to obtain the initial parameters, and the tracking at time t.
is then achieved using an adaptive Least Mean Square (LMS) al-
gorithm, the frequencies and damping factors being extracted from 2.2.2. Re-synthesis
the roots of a backward prediction polynomial [11]. When the pre- In an adaptive context, since the complex amplitudes of the damped
diction error exceeds a certain threshold, the algorithm switches sinusoids are estimated at each time step, equation (9) stands with
back to the initialization step. x̂m (t) = α̂m (t). Therefore, the re-synthesis of the signal at each
Although this method has proved to be successful on musical time step just consists in summing the complex amplitudes, which
signals [12], the lack of robustness of the LMS algorithm results in only requires O(M ) operations.
an intensive use of the Matrix Pencil method, which is very time-
consuming.
To avoid this increase of complexity, the prediction polyno- 2.2.3. Pitch scale modification
mial tracking can be replaced by a signal subspace tracking, since Let ϕm (t) be the phase shift between the mth estimated damped
subspace-based HR methods are known to give more reliable es- sinusoid and the mth synthesized damped sinusoid at time t, so
timates of the signal poles than linear prediction. Subspace track- that equation (11) stands with
ing has been intensively studied in the fields of adaptive filtering,
source localization or parameter estimation. A first class of track- x̂sm (t) = x̂m (t) exp(i ϕm (t)) = α̂m (t) exp(i ϕm (t)). (14)
ing algorithms is based on the projection approximation hypothe-
sis [13]; an other one relies on EVD or SVD tracking techniques, Since these sinusoids satisfy the following recurrences
derived from classical EVD or SVD algorithms. • x̂m (t) = x̂m (t − 1) ẑm (t),

DAFX-3
Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), Hamburg, Germany, September 26-28, 2002

• x̂sm (t) = x̂sm (t − 1) ẑm


s
(t),
equations (10) and (14) show that ϕm (t) can be recursively up-
dated using the following scheme:

ϕm (t) = ϕm (t − 1) + 2π(β − 1)fˆm (t). (15)

Then, x̂sm (t) can be computed using equation (14), from which
the synthesized sample x̂s (t) can be deduced using equation (11).
Note that this pitch modification method has the same complexity
as the exact re-synthesis.

3. EXPERIMENTAL RESULTS

This section illustrates first the enhancement of the coding qual-


ity using the EDS rather than a simple sinusoidal model, then the
tracking and re-synthesis of musical signals. The study deals with
two piano tones, C5 and G5, sampled at 11025 Hz.
It is to be noticed that in real audio signal applications, the
data matrix H is never rank-deficient, because of the presence of
noise. Moreover, the rank-truncation order 2M is unknown, and
must be chosen carefully. Indeed, over-estimating M is harmless,
but under-estimating M often generates biases in the estimates of
the frequencies and damping factors. Then, L must be chosen
Figure 2: Fourier spectra : (a) original signal, (b) sinusoidal mod-
much greater than M , in order to enforce the robustness of the
eling with MSIN = 16, (c) EDS modeling with MEDS = 12.
HR method. On the other hand, the higher L is, the more this
method is computationally demanding. Therefore, audio signals
with a high number of sinusoids (typically low-pitched sounds)
modeled signals. Figure 1 shows a strong pre-echo (energy before
may first be decomposed into several sub-band signals (via fil-
the onset) with the sinusoidal model. Moreover, the global varia-
tering/decimating, as proposed in [16]), before applying the HR
tion of the attack is wrongly estimated.
method. In the examples proposed below, this pre-processing is
Thanks to the exponentially time-varying amplitudes, the EDS model
useless, since the chosen piano tones have few sinusoidal compo-
provides a better modeling since it creates a short pre-echo and of-
nents.
fers a good reproduction of the attack.
After several structural considerations, a frequency aspect is in-
3.1. EDS vs sinusoids troduced in the analysis by using the polyphase 32-bands pseudo-
QMF filter-bank of MPEG1-audio [17], which provides a uniform
partition of the frequency axis. After that, a power and a SNR
measure are computed in each sub-band, noted SNRT F .
Figure 3 shows the better SNRT F values of the EDS model.
Note that several sub-bands are not reliable due to their weak power
(see figure 4).

Figure 1: Time-shape waveforms : original signal, sinusoidal


modeling with MSIN = 16 and EDS modeling with MEDS = 12.

This section shows the efficiency of the EDS model in com-


parison with the classical sinusoidal model with an identical total
number of model parameters, i.e. MEDS = 3/4 MSIN . The
test signal is the C5 piano tone. Figures 1 and 2-a,b,c show the Figure 3: SNRT F in dB.
time-shape waveforms and the Fourier spectra of the original and

DAFX-4
Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), Hamburg, Germany, September 26-28, 2002

Figure 6: Frequency tracking of the piano signal.


Figure 4: Power in sub-bands in dB.
this signal are plotted in figure 5). Figure 6 shows the result of the
tracking. The model order and the window length where M = 16
3.2. Adaptive signal processing 2 1−|zm |
2L
and L = 160, and the sinusoids energies (Em = αm 1−|zm |2
)
This section illustrates first the frequency tracking of a musical are represented on a logarithmic scale using gray levels for the
signal composed of two piano tones, then the synthesis method of plot. Since the number of sinusoids is over-estimated, it can be
section 2.1.4. seen that spurious poles are detected in the low frequency band
(below 1000Hz), which actually corresponds to the highest level
3.2.1. Frequency tracking of noise in the original signal.

3.2.2. Re-synthesis and pitch scale modification


The synthesis method proposed in section 2.1.4 gave excellent re-
sults on the piano tones: the synthesized sounds were perceptually
very similar to the original ones.
The hearing sensation is particularly well reproduced at the
attack of both sounds. This may be related to the spurious poles
detection mentioned above. Their number and energy are greater
at the attack, which allows a good representation of the mechanical
noise. It is well known that this impact noise occurring during the
action of the hammer on the strings is of great importance for the
naturalness of the sound.
This method could be directly implemented without any fur-
ther modification. On the opposite, the pitch-scale modification
requires additional work. Indeed, the recursion on the phase shift
between the estimated and the pitch-shifted signal in equation (15)
relies on several implicit assumptions, such as:
• the number of frequencies is constant through time,
• each pole characterizes one single time-varying frequency,
which is present in the whole signal,
• ẑm (t) matches ẑm (t − 1) (ie. the mth frequency trajectory
is known).
In real audio signals, however, the frequencies may appear or
disappear, so that their number changes throw time. Moreover,
Figure 5: Time waveform and spectrogram of the piano signal for spurious frequencies are sometimes detected, and should be elim-
the frequency tracking test. inated. Consequently, tracking the poles trajectories is a difficult
problem.
The parameters tracking method presented in section 2.2.1 has In the literature, several strategies were proposed to track si-
been tested on a piano signal: the C5 tone of figure 1-a is played nusoids in the presence of noise in a block processing context
at time t = 0s, then the G5 is played at time t = 0.36s, while [3, 10, 18]. These methods were designed in association with
the C5 is maintained (the time waveform and the spectrogram of frequency estimators based on the Short Time Fourier Transform

DAFX-5
Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), Hamburg, Germany, September 26-28, 2002

(STFT), but they can easily be adapted to the EDS model and the [11] R. Kumaresan and D.W. Tufts, “Estimating the parameters of
HR methods. exponentially damped sinusoids and pole-zero modeling in
Finally, the pitch-scale modification technique proposed in sec- noise,” IEEE Transactions on Acoustics, Speech, and Signal
tion 2.2.3 in combination with these classical frequency matching Processing, vol. 30, no. 6, 1982.
strategies proved to be successful on the piano tones. [12] B. David, R. Badeau, and G. Richard, “Sintrack analysis for
Note that once the poles trajectories are estimated, the discrim- tracking components of musical signals,” in Proc. of Forum
ination should be made between Acusticum Sevilla 2002, accepted for publication.
• the harmonics (related to the pitch of the sound), [13] K. Abed-Meraim, A. Chkeif, and Y. Hua, “Fast orthonormal
• the remaining poles, which model the signal noise. PAST algorithm,” IEEE Signal Processing Letters, vol. 7,
no. 3, 2000.
A realistic pitch scale modification should change the frequen- [14] P. Strobach, “Square hankel SVD subspace tracking algo-
cies of the first class and leave the second class unchanged. Of rithms,” Signal Processing, vol. 57, no. 1, 1997.
course, the classification of the poles would require additional work.
[15] P. Strobach, “Fast recursive subspace adaptive ESPRIT algo-
rithms,” IEEE Trans. on Signal Proc., vol. 46, no. 9, 1998.
4. CONCLUSIONS
[16] J. Laroche, “The use of the Matrix Pencil method for the
spectrum analysis of musical signals,” Journal of the Acous-
The EDS model is a useful tool for audio signals modeling. It
tical Society of America, vol. 94, no. 4, 1993.
leads to a better representation of signal frames than the undamped
sinusoidal model for a coding purpose. The use of a HR algorithm [17] K. Banderburg and G. Stoll, “ISO-MPEG-1 audio: a generic
achieves an accurate estimation which can be efficiently updated standard for coding of high-quality digital audio,” Journal of
by tracking the signal subspace through time. Moreover, tracking the Acoustical Society of America, vol. 42, 1994.
the model parameters offers very interesting outlooks for signal [18] S. Levine, Audio representations for data compression and
re-synthesis and modification. compressed domain processing, Ph.D. thesis, Stanford Uni-
versity, 1998.
5. REFERENCES

[1] ISO-MPEG, “Call for proposals for new tools for audio cod-
ing,” ISO/IEC JTC1/SC29/WG11 MPEG2001/N3793, 2001.
[2] H. Purnhagen and N. Meine, “HILN-the MPEG-4 parametric
audio coding tools,” in Proc. of IEEE Int. Symposium on
Circuits and Systems, 2000.
[3] R.J. McAulay and T.F. Quatiery, “Speech analysis and syn-
thesis based on a sinusoidal representation,” IEEE Trans. on
Acoustics, Speech, and Signal Proc., vol. 34, no. 4, 1986.
[4] J. Nieuwenhuijse, R. Heusdens, and E.F. Deprettere, “Robust
exponential modeling of audio signal,” in Proc. of IEEE Int.
Conf. on Acoustic, Speech and Signal Proc., May 1998.
[5] R. Boyer, S. Essid, and N. Moreau, “Non-stationary signal
parametric modeling techniques with an application to low
bitrate audio coding,” in Proc. of IEEE Int. Conf. on Signal
Proc., 2002.
[6] Patrick Duvaut, Traitement du signal, Hermes, Paris, 1994.
[7] Y. Hua and T.K. Sarkar, “Matrix pencil method for esti-
mating parameters of exponentially damped/undamped sinu-
soids in noise,” IEEE Trans. on Acoustics, Speech, and Sig-
nal Processing, vol. 38, no. 5, May 1990.
[8] G.H. Golub and C.F. Van Loan, Matrix computations, The
Johns Hopkins University Press, Baltimore and London,
third edition, 1996.
[9] R. Roy and T. Kailath, “ESPRIT–estimation of signal param-
eters via rotational invariance techniques,” IEEE Trans. on
Acoustics, Speech, and Signal Proc., vol. 37, no. 7, 1989.
[10] X. Serra and J. Smith, “Spectral modeling synthesis : a sound
system based on a deterministic plus stochastic decomposi-
tion,” Computer Music Journal, vol. 14, no. 4, 1990.

DAFX-6
Proceedings of the Stockholm Music Acoustics Conference, August 6-9, 2003 (SMAC 03), Stockholm, Sweden

AN EDS MODELLING TOOL FOR TRACKING AND MODIFYING MUSICAL SIGNALS

Bertrand DAVID, Gaël RICHARD and Roland BADEAU

ENST, Department of Signal and Image processing


École Nationale Supérieure des Télécommunications,
46, rue Barrault,
75634 PARIS cedex 13, FRANCE
bedavid,grichard,rbadeau@tsi.enst.fr

ABSTRACT 2. THEORETICAL BACKGROUND

An analysis/synthesis scheme for musical signals is introduced in 2.1. Definitions and model
this paper. It is based on an adaptive subspace analysis and the
Exponentially Damped Sinusoids model. This method leads to a The discrete signal to be analysed and modified is assumed real
new representation, called the HR-ogram, where the signal compo- valued and denoted s(t). It is segmented in overlapping frames
nents are represented as points in the time-frequency plane. These x(t, u) = s(t + ta (u))wa (t) where ta (u) are the analysis marks
points are gathered according to their frequency, phase and ampli- indexed by the non-negative integer u and wa is the analysis win-
tude proximity from an analysis time-instant to the following one. dow assumed of finite length La . The time-instants ta (u) are usu-
This leads to an accurate deterministic/stochastic decomposition ally regularly spaced, i.e. ta (u) = u∆a , u ∈ N, where the inter-
using a projection onto the noise subspace. The whole technique val ∆a is a fixed increment such as ∆a ≤ La . In this paper, wa
allows a separate processing for both components. will always be the rectangular window of length La .
For each frame, an Exponentially Damped Sinusoids model is
used:
1. INTRODUCTION XM
x(t, u) = (bk zkt + b∗k zk∗t ) (1)
Most of the analysis/synthesis schemes designed for musical sounds k=1

found in the literature are based on either a frequency-domain Ak


or a time-domain approach. Both families have evolved into a where bk = exp(jφk ) is the complex amplitude of the k th
2
broad variety of algorithms from their very ancestors: the so-called component (Ak is the amplitude of the corresponding real compo-
phase-vocoder [1] and the OLA (overlap-add) method. These tools nent and φk its initial phase), and zk = exp(−αk + j2πfk ) is its
and their derivatives (Quatieri and Serra techniques [2, 3], syn- complex pole. αk and fk denote its damping factor and frequency,
chronized OLA methods SOLA [4], PSOLA [5] ) are widely used ranging in R for the first one and in [0 1/2] for the other. These
in the context of audio signal processing [6, 7]. parameters are implicit functions of ta (u), not reported in (1) for
The technique described in this paper is mostly related to the lightening purposes. Like the well-known sinusoidal decomposi-
first class of methods: it relies on an Exponentially Damped Si- tions found in [2, 3], the parameters are assumed to vary slowly,
nusoids (EDS) model and takes advantage of the signal decompo- i.e. they are considered constant over the window duration. Any-
sition into a deterministic part and a noise component. The EDS way, it should be noted that, in contrast, the definition of the EDS
modelling allows an accurate representation of each signal frame model includes a possible variation of the components envelopes
in terms of the amplitudes, phases, damping factors and frequen- leading to a more accurate representation for each frame, yielding
cies of the component sine waves while the modifications can be to a residual of lower energy than the one obtained by an undamped
processed separately on both parts (deterministic and stochastic) modelling for the same order M and window length La .
of the signal decomposition.
This work follows earlier ones designed for estimating, track-
ing and modifying musical sounds [8, 9] and rely on the high reso- 2.2. Analysis stage
lution properties of the subspace analysis [10]. The main drawback
of this approach is the computational cost of such algorithms but The estimation of the 4M parameters for each frame x(t) (for sim-
the newest versions have become adaptive and overcome the con- plicity the u-dependency is removed) is performed using a subspace-
straint of computing a Singular Value Decomposition at each time based technique for the frequencies fk and damping factors αk .
step [11]. The bk are jointly estimated by a least squares method. The sub-
The theoretical background presented in section 2 mainly re- space analysis takes into account the particular mathematical struc-
covers from [9], highlighting the relationship with the well-known ture of the model, leading to a high resolution (HR) estimation:
quasi-stationary models [2] and [3] and the applicative context. when the signal is noise-free the limit for separating two close
Section 3 shows analysis results and the modification and synthe- components is only restrained by the limited computational capac-
sis techniques are discussed in section 4. ity.

SMAC-1
Proceedings of the Stockholm Music Acoustics Conference, August 6-9, 2003 (SMAC 03), Stockholm, Sweden

2.2.1. HR method outlines


Table 1: Sequential iteration for subspace tracking
Using the La = 2N − 1 samples of the frame, the square Hankel
structured data matrix H is defined as
  Initialization of the signal subspace matrix
x(0) x(1) . . . x(N − 1)  
 x(1) x(2) . . . x(N )  I2M
U(0) =
H= . (2) 0(N −2M )×2M
 
.. .. . . ..
 . . . . 
x(N − 1) x(N ) . . . x(La − 1) For each analysis time-instant ta (u), u = 1, 2, . . . iterate:
matrix product A(u) = H(u)U(u − 1)
Assuming 2M ≤ N , the symmetric real matrix H is rank-deficient
skinny QR factorization A(u) = U(u)R(u)
of dimension 2M [9]. Its eigendecomposition yields
H = UΛUT (3)
where U is an N × 2M orthonormal real matrix. In presence of
an additive white noise, H becomes full rank and the columns of 3. ANALYSIS RESULTS: HR-OGRAM
U are defined as the 2M dominant eigenvectors, corresponding to
the 2M eigenvalues of highest magnitude. In this section, the capabilities of the algorithm are demonstrated
The signal poles {zk , zk∗ }k=1,...,M are estimated by taking for both synthetic and real data (singing voice). A time-frequency
into account the rotational invariance property of the signal sub- representation is introduced, called the HR-ogram1 which serves
space, which is expressed in terms of a real 2M × 2M matrix Φ the same goals as the spectrogram in Fourier analysis. The HR-
whose eigenvalues are the signal poles: ogram represents the components as points (ta (u), fk (u)) in the
time-frequency plane for each analysis time-instant ta (u). The
U↑ = U↓ Φ (4)
energy ǫk of the k th component is represented in decibels using
where U↑ (resp. U↓ ) is obtained by deleting the first (resp. the gray levels and defined as
last) row of U.
1 − exp(−2αk La )
ǫk = A2k . (7)
2.2.2. Estimation of the complex amplitudes 1 − exp(−2αk )

This estimation of the complex amplitudes {bk , b∗k }k=1,...,M is This definition includes the effect of the damping factor in the
performed for each frame using a Least Squares (LS) method. The graph. This avoids the overvaluing of spurious poles, often re-
N × 2M Vandermonde matrix Z is defined by lated to noise, which can be highly damped and estimated at very
high magnitude values, resulting in a weak component.
1 ... 1 1 ... 1
 
∗ ∗
 z1 ... zM z1 ... zM 
Z= . . . ..  . (5) 3.1. Simulation example
 
. .
 .. .. .. .. .. . 
N −1
z1 N −1
. . . zM ∗N −1
z1 ∗N −1
. . . zM The graphs of figure 1 show the analysis results for a three compo-
nents signal with an additive white noise corresponding to a 27dB
When the frame is noise-free, the column vector signal to noise ratio (SNR). All the components are undamped.
b = [b1 , . . . , bM , b∗1 , . . . , b∗M ]T satisfies the relation
frequency tracking scenario
Zb = x (6) 0.5

where x = [x(0), . . . , x(N − 1)]T . The solution of (6) in the least 0.4

squares sense is b = Z+ b where Z+ denotes the pseudo-inverse


frequency

0.3

of the matrix Z. 0.2

0.1
2.2.3. Subspace tracking
0
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
Since the HR-method relies on the eigenvalue decomposition (EVD)
of the data matrix H, without further modification the estimation analysis results
0.5
of the frequencies and damping factors would require an EVD at
each time step and thus would lead to a high computational cost 0.4

(cf. [9] for more details). However this cost can be reduced by
frequency

0.3
using an adaptive algorithm which avoids the computation of the
0.2
EVD. It is based on an iterative algorithm called Orthogonal It-
eration [12] and uses a two steps procedure which yields the ma- 0.1

trix U when the convergence is reached. For our tracking pur- 0


0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
pose, this algorithm is applied in a sequential way, assuming that time (samples)

it converges much faster than the variations of the signal subspace.


As shown in table 1, it involves two auxiliary matrices A(u) and Figure 1: Analysis results for a synthetic signal
R(u) and an economy size QR factorization since A(u) is of di-
mension N × 2M . 1 standing for High Resolution Spectrogram

SMAC-2
Proceedings of the Stockholm Music Acoustics Conference, August 6-9, 2003 (SMAC 03), Stockholm, Sweden

Two of them present a frequency jump at distinct time-instants 4.1. Deterministic/stochastic decomposition
while the third one is sinusoidally modulated at the period of 2000
samples and with a 0.05 frequency deviation. 4.1.1. Method

The analysis parameters are set as follows: the window length As in most of the analysis schemes, a noise component w(t, u) is
is La = 201, the number of components is overestimated to M = added to the model (1) leading to:
6 and the analysis is performed every ∆a = 25 samples. M
X
The results show clearly the good tracking of the three compo- x(t, u) = (bk zkt + b∗k zk∗t ) + w(t, u). (8)
nents. The convergence of the algorithm is fast enough to handle k=1
the frequency jumps and when they occur for one component the
estimation of the other ones remains stable and accurate. The mod- This component is often expressed as a time-varying filtering of a
ulated component is often represented by a few (2 or 3) poles. The white stochastic process [6] and will be referred to as the stochastic
signal model (1) is indeed not fully respected by the frequency component of the signal while the noise-free EDS model will be
modulated component. The spurious poles corresponding to the referred to as the deterministic component.
additive noise are easily identifiable for they do not aggregate in a A common technique to derive the noise component consists
specific shape and are widely spread in the whole frequency range. in subtracting to x(t, u) the deterministic part, after its estimation.
But this can lead to a significative amount of sinusoidal compo-
nents introduced in w(t, u). In order to avoid this effect, w(t, u)
is obtained by projecting the signal onto the noise subspace. For
3.2. Singing voice subspace tracking the noisy model (8), the matrix H is full rank. The signal subspace
is the space spanned by the eigenvectors associated to the N −2M
This example is a female soprano singing voice, who realizes an up smallest eigenvalues.
and down glissando between C5 and E5 . The signal is recorded at The number M of sinusoids is chosen accordingly to the sta-
the 44100 Hz sampling rate. The analysis provides the HR-ogram bility of the spectral lines of their associated poles. M is first
shown in figure 2, which highlights the spectral lines associated to overestimated and the signal poles zk (u)k=1,...,M and correspond-
the harmonic structure but also the poles related to noise, gathered ing complex amplitudes bk (u) are estimated at the analysis time-
in formant-like shapes. instant ta (u). zm (u + 1) and bm (u + 1) are estimated at the
time-instant ta (u + 1) and distances are computed to measure how
these poles are close in terms of frequency, amplitude and phase.
4

2.5
x 10 analysis results
The corresponding distances df , dA and dφ are thus defined as:

df (k, m) = 4(fk (u) − fm (u + 1))2 (9)


2
dA (k, m) = (Ak (u) − Am (u + 1))2 (10)
(⌊φk (u) + 2πfk (u)∆a ⌋ − ⌊φm (u + 1)⌋)2
dφ (k, m) = (11)
4π 2
1.5
frequency (Hz)

where ⌊φ⌋ denotes the principal determination of φ and the signal


is normalized to a maximum magnitude equal to one. The spectral
lines are formed according to the following steps:
1
1. for each k, mk = argm min d(k, m) is computed
where d(k, m) = dA (k, m) + df (k, m) + dφ (k, m) ,
0.5 2. for each k, the poles zk (u) and zmk (u + 1) are connected
if |fk (u) − fmk (u + 1)|/fk (u) < 1% and dA < −20dB
and dφ < −30dB.
0
0 0.5 1 1.5 2 2.5 3 3.5 The number of components of the deterministic part M̂ < M is
time (s)
defined as the number of poles which have been connected be-
tween ta (u) and ta (u + 1). The stochastic component is obtained
Figure 2: HR-ogram of a soprano singer
by the projection:

w = (I2M̂ − UH
2M̂ U2M̂ )x (12)

where U2M̂ is the subspace matrix whose columns are the 2M̂
4. MODIFICATION AND SYNTHESIS dominant eigenvectors, w = [w(0, u), . . . , w(La − 1, u)]T and
x = [x(0, u), . . . , x(La − 1, u)]T .

Each point of the HR-ogram is well localized both in frequency 4.1.2. Results
and time domains and can be modified individually. However,
in order to achieve a high quality analysis/modification/synthesis Figure 3 shows the spectral lines tracked by the technique de-
the poles related to the sinusoidal components and those related scribed in section 4.1.1, leading to a time-frequency representa-
to noise must be processed separately. Moreover, the EDS model tion of the deterministic component of the preceding singing voice
does not represent accurately the stochastic part of the signal. signal for the time indices ranging between 1s and 1.25s (cf. the

SMAC-3
Proceedings of the Stockholm Music Acoustics Conference, August 6-9, 2003 (SMAC 03), Stockholm, Sweden
4 HRogram of the deterministic component
2
x 10
ration or to modify the ratio between the voiced and the unvoiced
part of the sound.
1.8

1.6 5. CONCLUSIONS
1.4
In this paper an analysis/synthesis scheme has been proposed. It
1.2 uses a High Resolution adaptive method which overcomes the Fourier
frequency (Hz)

resolution limit and achieves an accurate estimation of the sinu-


1
soidal components of the signal . The stochastic part is then de-
0.8
rived by projecting the signal onto the noise subspace. The de-
terministic and stochastic parts can thus be processed separately,
0.6 leading to high quality audio effects.
0.4 Acknowledgements. The authors are very grateful to Nathalie
0.2
Henrich for having provided the musical signals.

0
0 0.05 0.1 0.15 0.2 0.25 6. REFERENCES
time (s)

[1] M. R. Portnoff, “Implementation of the digital phase vocoder


Figure 3: HR-ogram of the deterministic part using the fast fourier transform,” IEEE Trans. Acoust.,
Speech, Signal Processing, vol. ASSP-24, no. 3, pp. 243–
248, Jun 1976.
HR-ogram of figure 2). Besides a few lines related to noise compo- [2] R. J. McAulay and T. F. Quatieri, “Speech analysis/synthesis
nents and easily identifiable because of their short time duration, based on a sinusoidal representation,” IEEE Trans. Acoust.,
the harmonic structure is highlighted and shows clearly the fre- Speech, Signal Processing, vol. ASSP-34, no. 4, pp. 744–
quency modulation due to the glissando produced by the soprano 754, Aug 1986.
singer. The short-term spectra (10ms) of the signal and its stochas-
[3] X. Serra and J. Smith, “Spectral modeling synthesis: A
tic part are represented in figure 4. The sinusoidal part has been
sound analysis/synthesis system based on a deterministic
mostly removed by the projection while the formant-like reinforce-
plus stochastic decomposition,” Computer Music J., vol. 14,
ments around 4000 Hz and 7500 Hz are emphasized.
no. 4, pp. 12–24, Winter 1990.
signal spectrum
[4] S. Roucos and A. M. Wilgus, “High quality time-scale modi-
50 fication of speech,” Proc. IEEE ICASSP-85, Tampa, pp. 493–
0 496, Apr 1985.
[5] E. Moulines and F. Charpentier, “Pitch-synchronous wave-
|X(f)| (dB)

−50
form processing techniques for text-to-speech synthesis us-
−100
ing diphones,” Speech Communication, vol. 9, no. 5/6, pp.
−150 453–467, Dec 1990.
−200
0 0.5 1 1.5 2 2.5
[6] M. Kahrs and K. Brandenbourg, Applications of Digital Sig-
4
x 10 nal Processing to Audio and Acoustics. Dortrecht, Nether-
−100
stochastic component spectrum land: Kluwer Academic Press, 1998.
[7] E. Moulines and J. Laroche, “Non parametric techniques for
−150
pitch-scale and time-scale modification of speech.” Speech
|W(f)| (dB)

Communication, vol. 16, pp. 175–205, Feb 1995.


−200
[8] B. David, R. Badeau, and G. Richard, “Sintrack analysis for
tracking components of musical signals,” in Forum Acus-
ticum, Sevilla, Spain, Sep 2002.
−250
0 0.5 1 1.5 2 2.5
frequency (Hz) 4
x 10
[9] R. Badeau, R. Boyer, and B. David, “EDS parametric model-
ing and tracking of audio signals,” in 5th Int. Conf. on Digital
Audio Effects (DAFx-02), Hamburg, Germany, Sep 2002, pp.
Figure 4: Short-term spectra of x(t, u) and w(t, u)
139–144.
[10] Y. Hua and T. K. Sarkar, “Matrix pencil method for esti-
mating parameters of exponentially damped/undamped sinu-
4.2. Modifications soids in noise,” IEEE Trans. Acoust., Speech, Signal Process-
ing, vol. ASSP-38, no. 5, pp. 814–824, May 1990.
Coming along with the deterministic/stochastic decomposition, many [11] R. Badeau, G. Richard, and B. David, “Sliding window adap-
audio effects can be processed. For example, pitch-shifting can tive SVD algorithms,” IEEE Trans. Signal Processing, to be
be applied only on the deterministic part, eventually taking into published.
account the spectral envelope. An interesting by-product of this
[12] G. Golub and C. V. Loan, Matrix computations, 3rd ed. Bal-
decomposition is the capability of processing each spectral line to
timore and London: Johns Hopkins University Press, 1996.
add or remove vibrato and tremolo, to adjust the pitch or the du-

SMAC-4
IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL. 52, NO. 1, JANUARY 2004 1

Sliding Window Adaptive SVD Algorithms


Roland Badeau, Member, IEEE, Gaël Richard, Member, IEEE, and Bertrand David

Abstract—The singular value decomposition (SVD) is an impor- mation hypothesis [18]–[21]. Other techniques rely on the noise
tant tool for subspace estimation. In adaptive signal processing, we and signal subspace averaging method [22], the maximum like-
are especially interested in tracking the SVD of a recursively up- lihood principle [23], the operator restriction analysis [24], or
dated data matrix. This paper introduces a new tracking technique
that is designed for rectangular sliding window data matrices. This the perturbation theory [25]. A review of former literature can
approach, which is derived from the classical bi-orthogonal itera- be found in [1].
tion SVD algorithm, shows excellent performance in the context of Most of these adaptive techniques are designed for exponen-
frequency estimation. It proves to be very robust to abrupt signal tial forgetting windows. Indeed, this choice tends to smooth the
changes, due to the use of a sliding window. Finally, an ultra-fast signal variations and thus allows a low-complexity update at
tracking algorithm with comparable performance is proposed.
each time step. However, it is only suitable for slowly varying
Index Terms—Sliding window, subspace tracking, SVD. signals. Conversely, a few subspace trackers are based on sliding
windows, which generally require more computations, but offer
I. INTRODUCTION a faster tracking response to sudden signal changes [18], [26].
The tracking of the full SVD in the sliding window case was

S UBSPACE-BASED signal analysis consists of splitting the


observations into a set of desired and a set of disturbing
components, which can be viewed in terms of signal and noise
investigated in [27] and [28].
In this paper, we will focus on the bi-orthogonal iteration
SVD method [29], [30]. This technique has been widely investi-
subspaces. This approach has been widely studied in the fields gated by Strobach, who proposed various subspace tracking al-
of adaptive filtering, source localization, or parameter estima- gorithms designed for exponential forgetting windows [6], [7].
tion [1]. The eigenvalue decomposition (EVD) and the singular In [27], the sliding window case was addressed, but the approach
value decomposition (SVD) are commonly used in subspace was limited to real square Hankel data matrices. The adaptive
estimation. However, they usually lead to computationally de- SVD technique presented in this paper overcomes this limita-
manding algorithms. Therefore, in an adaptive signal processing tion. Our work mainly differs from that presented in [7] by the
context, there is a real need for fast tracking techniques. way the basic sequential bi-iteration SVD algorithm is simpli-
A reference method in subspace tracking is Karasalo’s algo- fied.
rithm [2], which involves the full SVD of a small matrix. More Compared with the above-mentioned subspace tracking
recently, the FST algorithm presented in [3] replaces this SVD methods, our fastest algorithm has the advantage of
by Givens rotations, resulting in a faster tracking. Another ap-
• computing an orthonormal subspace basis at each time
proach consists of interlacing a recursive update of the estimated step, which is required for some subspace-based estima-
covariance matrix or the data matrix with one or a few steps of tion methods, such as MUSIC [31];
a standard SVD or power iteration algorithm. This is the case • relying on a sliding window, which offers a faster tracking
of the Jacobi SVD method [4], the transposed QR-iteration [5], response to abrupt signal variations;
the orthogonal/bi-orthogonal iteration [6], [7], and the power • tracking the full SVD, which may be useful for rank esti-
method [8]. Some tracking techniques are based on other ma- mation and tracking, as in [7] and [28];
trix decompositions, such as the rank-revealing QR factoriza- • relying on an approximation of the data matrix that is
tion [9], the rank-revealing URV decomposition [10], and the less restrictive than the classical projection approximation
Lankzos (bi)-diagonalization [11]. A conceptually different ap- [18], leading to better tracking results.
proach considers the principal subspace estimation as a con-
The paper is organized as follows. In Section II, we recall the
strained or unconstrained optimization problem [12]–[17]. In
principles of the bi-orthogonal iteration approach, from which
particular, it is established in [13] and [18] that the classical Oja
our new sliding window adaptive SVD (SWASVD) algorithm is
method [12] can be viewed as an approximated gradient descent
derived. A fast implementation of SWASVD is then presented
of a mean square error function. A number of faster subspace
in Section III. In Section IV, the capacity of these new tracking
tracking methods have been developed based on the combina-
algorithms to cope with transients is illustrated in the context
tion of the gradient descent approach with a projection approxi-
of frequency estimation. Their performance is compared with
that of some of the most robust and efficient methods found
Manuscript received July 29, 2002; revised February 27, 2003. The associate in the literature. Finally, the main conclusions of this paper are
editor coordinating the review of this paper and approving it for publication was summarized in Section V.
Dr. Rick S. Blum.
The authors are with the Department of Signal and Image Processing,
École Nationale Supérieure des Télécommunications (ENST) (Telecom II. SLIDING WINDOW ADAPTIVE SVD
Paris), Paris, France (e-mail: roland.badeau@enst.fr; gael.richard@enst.fr;
bertrand.david@enst.fr). The bi-orthogonal iteration SVD algorithm is a straightfor-
Digital Object Identifier 10.1109/TSP.2003.820069 ward extension of the classical orthogonal iteration, which com-
1053-587X/04$20.00 © 2004 IEEE
2 IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL. 52, NO. 1, JANUARY 2004

TABLE I TABLE II
BI-ORTHOGONAL ITERATION SVD ALGORITHM SEQUENTIAL BI-ITERATION SVD ALGORITHM

putes the EVD of a square matrix [32, Sect. 8.2.4]. In this sec- are quantified with a multiplicative factor related to the real
tion, it will be shown how this algorithm can be made adaptive floating point operation (flop) count, as obtained with the
and how its computational complexity can be reduced with a Matlab flops command [32, Sect. 1.2.4]. For example, a dot
low-rank approximation of the data matrix. product of -dimensional complex vectors involves flops.
In spite of its robustness, the main drawback of this SVD
A. Bi-Orthogonal Iteration SVD Algorithm tracking algorithm is its high computational complexity (since
The bi-orthogonal iteration algorithm computes the domi- in practice , its dominant cost is ). How-
nant singular values and vectors of a data matrix ever, some simplifications will be brought below, which will re-
(with ). The SVD of is the factor- sult in lower complexity algorithms.
ization , where and
are orthonormal matrices, and is a non-nega- C. Low-Rank Approximation of the Updated Data Matrix
tive diagonal matrix: diag , where In this section, a low-rank approximation of the data matrix
. Thus, the dominant singular values are will be introduced. In array processing, it is well known
, the dominant left singular vectors are the that rank reductions have a noise-cleaning effect. Here, this ap-
first columns of the matrix , and the dominant right singular proximation will result in a faster tracking algorithm.
vectors are the first columns of the matrix . In many signal First, the time-updating structure of the data matrix can ad-
processing applications, is much lower than . vantageously be taken into account. Indeed, it can be noticed
The quasicode of the bi-orthogonal iteration SVD algorithm that
is given in Table I. This algorithm generates two auxiliary ma-
trices and . It can be shown [29], (1)
[30] that the columns of converge to the dominant left
singular vectors, the columns of converge to the dom-
inant right singular vectors, and and both con- Now, consider the compressed data vector
verge to . . According to the definition of (see Table II), (1)
becomes
B. Sequential Bi-Iteration SVD Algorithm
The bi-orthogonal iteration algorithm can simply be adapted (2)
in a tracking context. Suppose the data matrix is updated ac-
cording to the following scheme:
where the symbol denotes uninteresting quantities.
To go further, Strobach [7] introduces the low-rank ap-
proximation
..
. of , which corresponds to the
projection of the rows of onto the subspace spanned by
. Consequently
where is the -dimensional data vector at time .1 The
SVD of can be approximated and updated just by replacing
the iteration index in Table I by the discrete time index .
The sequential bi-iteration algorithm is summarized in where . It can be seen that this
Table II. In the right column, the computational complexities approximation is less restrictive than the classical projection ap-
proximation [18], which implicitely assumes that
1In the context of frequency estimation, the coefficients of x (t) are the suc-
.
0 0
cessive samples of the signal x (t) = [x(t); x(t 1); . . . ; x(t N + 1)] . In
However, we prefer to use the low-rank approximation
the context of direction-of-arrival (DOA) estimation, x(t) is the snapshot vector
received from the N captors. . It
BADEAU et al.: SLIDING WINDOW ADAPTIVE SVD ALGORITHMS 3

corresponds to the projection of the columns of onto the TABLE III


subspace spanned by . Consequently SLIDING WINDOW ADAPTIVE SVD ALGORITHM (SWASVD)

This choice has the advantage of involving more up to date


matrix factors than . Moreover, the explicit computation of
the matrix is avoided.
The substitution of to in (2) yields

(3)

In the same way, it can be noticed that

(4)

(9)
According to the definition of (see Table II), (4) be-
comes
Let be the column vector obtained by transposing the
first row of . Equations (8) and (9) finally yield
(5)
(10)
Taking into account that the sequential bi-iteration SVD algo- Note that the exact computation of and requires
rithm satisfies the equation operations, whereas the approximated matrices (3) and
, a pre-multiplication of both sides of (5) by (10) can be computed in and operations. Therefore,
yields introducing these approximations in the sequential bi-iteration
SVD algorithm leads to the lower complexity algorithm herein
called SWASVD, which is summarized in Table III. Its domi-
nant cost is only . Moreover, it can be seen that for
all , SWASVD requires fewer computations than the
(6) sequential bi-iteration algorithm. From now on, and
will denote the approximated auxiliary matrices.
Then, let . This vector is
III. FAST IMPLEMENTATION OF THE SLIDING WINDOW
orthogonal to span so that can be written as a
ADAPTIVE SVD ALGORITHM
sum of two orthogonal vectors
A major drawback in the SWASVD algorithm is the explicit
(7) computation and QR factorization of the approximated matrices
and . However, these operations can be avoided by
The substitution of to in (5) and (6), respec-
directly updating the QR factorizations.
tively, yields
Since this update is simpler in the case of , the optimiza-
tion of the second iteration will be presented first.

A. Fast Implementation of the Second Iteration


In the second member of (10), the vector is orthogonal
to span . It can be normalized as

(11)
(8)
(in the special case , is forced to be ). Then,
and can be written as the product

(12)
4 IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL. 52, NO. 1, JANUARY 2004

of a orthonormal matrix by the matrix As for , let

(13)
(in the special case , is forced to be ). Finally,
Now, consider the QR factorization of : can be written as the product

(18)
(14)
of a orthonormal matrix by the matrix
where is a square orthonormal matrix,
and is a square upper triangular matrix (it will be (19)
shown below that is also the triangular factor in the QR
factorization of , as defined in Section II). Equations (12)
Now, consider the QR factorization of :
and (14) yield

(20)

(15) where is a square orthonormal matrix,


and is a square upper triangular matrix (it will be
This last equation shows an explicit QR factorization of . shown below that is also the triangular factor in the QR
From (15), can be directly extracted: factorization of , as defined in Section II). Equations (18)
and (20) yield
..
. (16)

Therefore, the QR factorization of can be updated with the (21)


smaller factorization (14) and the product (16).
This last equation shows an explicit QR factorization of the
B. Fast Implementation of the First Iteration matrix . As for , can be directly extracted
The QR factorization of is more difficult to update be- from this factorization:
cause of the row shifting in the updating scheme of the data ma- ..
trix. An elegant but complex way of achieving this update can . (22)
be found in [27]. A simpler solution, which has been inspired
from the considerations of Section III-A, is proposed below. Therefore, the time-consuming direct QR factorization of
Let be the column vector obtained by transposing can be split into the smaller QR factorization (20) and the
the last row of . Consider the orthonormal matrix product (22). Finally, (14), (16), (20), and (22) lead to the fast
obtained by a circular permutation of the rows of implementation of the SWASVD algorithm given in Table IV,2
: herein called SWASVD2. Its dominant cost is only .
Therefore, SWASVD2 is approximately three times faster than
SWASVD. As a comparison, the dominant cost of the exponen-
.. tial forgetting window Bi-SVD1 algorithm presented in [7] is
. at each time step. It can be seen that SWASVD2 requires
a number of additional operations proportional to the sliding
window length. However, this increased computational cost is
Finally, consider the -dimensional vector . compensated by better performance, as shown in Section III-C.
Equation (3) yields
C. Step Toward Linear Complexity
In spite of the various optimizations that were introduced
where . above, the SWASVD2 algorithm is not the fastest subspace
Now, the orthogonal decomposition of given in (7) will x t
2The computation of  ( ) is subject to rounding errors that might affect the

be transposed to . Thus, let . algorithm stability due to a loss of orthogonality among the columns of Q .
Note that the orthogonality can be maintained by repeating one or a few times
It can be noticed that so that the the following operations:
vector is orthogonal to span . Then, can be x t
• projection of  ( ) onto span( Q ) ;
written as a sum of two orthogonal vectors: x t
• renormalization of  ( ).
z t
The same method can be applied to  ( ) in order to maintain the orthogonality
(17) among the columns of Q .
BADEAU et al.: SLIDING WINDOW ADAPTIVE SVD ALGORITHMS 5

(a)
TABLE IV
6
FAST IMPLEMENTATION OF THE SLIDING WINDOW ADAPTIVE SVD
ALGORITHM (SWASVD2) 4

Amplitude
0

-2

-4

-6
500 1000 1500 2000 2500 3000 3500 4000
Discrete time (samples)

(b)
0.25

0.2

Frequencies (Hz)
0.15

0.1

0.05

0
500 1000 1500 2000 2500 3000 3500 4000
Discrete time (samples)

Fig. 1. (a) Test signal. (b) Normalized frequencies of the sinusoids.

discrete signal can be described using a Hankel data ma-


trix . In the exponentially damped sinusoidal (EDS) model
case, it can be shown that span is an -dimensional sub-
space, where is the number of complex sinusoids. The ESPRIT
high-resolution method can be used to estimate the model pa-
tracker that can be found in the literature (for instance, the algo- rameters, among which are the frequencies of the sinusoids [33],
rithms presented in [18]–[21] require only operations). [34].
To reach this minimal complexity, Strobach [7] assumes that
Here, this high-resolution method has been tested in conjunc-
the matrix is close to the
tion with several subspace trackers on a synthetic signal (an ap-
identity matrix (which is the same as the classical projection
plication to real audio signals was proposed in [33], involving
approximation [18], as mentioned in Section II-C). Such an ap-
proximation is not required here since the use of in- the sequential iteration SVD algorithm).
stead of avoids the explicit computation of in The test signal of Fig. 1(a) is a sum of complex sinu-
SWASVD2. soidal sources plus a complex white Gaussian noise. The fre-
Table IV shows that the dominant cost of quencies of the sinusoids vary according to a “jump scenario”
SWASVD2 is due to the use of the full rotation matrices (proposed by Strobach in the context of DOA estimation [35]):
and . These matrices are computed to make and Their values abruptly change at different time instants, between
upper triangular. which they remain constant. Their variations are represented in
In fact, it can be shown that this triangular constraint does Fig. 1(b).
not affect the signal subspace estimation. If and The SWASVD2 algorithm was applied to this signal with
were not triangular, the algorithm would also converge to an matrix dimensions and . As in [35], the
orthonormal matrix spanning the signal subspace (this approach
signal-to-noise (SNR) ratio was fixed to 5.7 dB.
is known as the power method [8]). The triangular constraint is
only required to guarantee the convergence to the dominant Fig. 2(a) shows the frequency tracking result. The dotted
singular vectors. line indicates the true frequency parameters, whereas the solid
Therefore, linear complexity can be reached by simply line indicates the estimated frequencies. It can be noticed that
relaxing this constraint. The exact QR factorization can be re- SWASVD2 robustly tracks abrupt frequency variations.
placed by an “approximated QR factorization,” which involves The performance of the subspace estimation is also analyzed
a “nearly triangular” right factor. This method, herein called in terms of the maximum principal angle between the true dom-
SWASVD3, is presented in the Appendix and requires inant subspace of the data matrix (obtained via an exact singular
operations. Its subspace tracking performance is exactly the value decomposition) and the estimated dominant subspace of
same as that of SWASVD2. Although the convergence to the the same data matrix (obtained with the tracker). This error cri-
singular vectors and values is no longer theoretically guaran- terion was originally proposed by Comon and Golub as a mea-
teed, the algorithm proves to robustly track their variations.
sure of the distance between equidimensional subspaces [1].
Fig. 2(b) shows that the subspace estimation fails on transient
IV. SIMULATION RESULTS
regions but gives excellent results everywhere else. This is not
In this section, the performance of the new tracking algo- surprising since the subspace modeling does not make sense in
rithms is illustrated in the context of frequency estimation. A transient regions.
6 IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL. 52, NO. 1, JANUARY 2004

(a) (a)
0.25 0.25
Estimated frequencies (Hz)

Estimated frequencies (Hz)


0.2 0.2

0.15 0.15

0.1 0.1

0.05 0.05

0 0
0 500 1000 1500 2000 2500 3000 3500 4000 0 500 1000 1500 2000 2500 3000 3500 4000
Discrete time (samples) Discrete time (samples)
(b) (b)
100
Maximum principal angle (degrees)

100

Maximum principal angle (degrees)


80
80

60
60

40
40

20
20

0
0 500 1000 1500 2000 2500 3000 3500 4000 0
0 500 1000 1500 2000 2500 3000 3500 4000
Discrete time (samples)
Discrete time (samples)

Fig. 2. O ((N + L)r ) SWASVD2 algorithm. (a) Frequency tracking. (b)


Fig. 4. O (Nr ) Bi-SVD1 algorithm. (a) Frequency tracking. (b) Maximum
Maximum principal angle trajectory. principal angle trajectory.
(a)
0.25 (a)
0.25
Estimated frequencies (Hz)

0.2
Estimated frequencies (Hz)

0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
0 500 1000 1500 2000 2500 3000 3500 4000
0
Discrete time (samples) 0 500 1000 1500 2000 2500 3000 3500 4000

(b) Discrete time (samples)


100
Maximum principal angle (degrees)

(b)
100
Maximum principal angle (degrees)

80
80
60
60
40
40
20
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
0
Discrete time (samples) 0 500 1000 1500 2000 2500 3000 3500 4000
Discrete time (samples)

Fig. 3. O ((N + L)r ) SWASVD3 algorithm. (a) Frequency tracking. (b)


Maximum principal angle trajectory. Fig. 5. O (NLr ) FAST subspace tracker. (a) Frequency tracking. (b)
Maximum principal angle trajectory.

Fig. 3 shows the result obtained with the ultra-fast SWASVD3


algorithm on the same test signal. It can be noticed that this exponential forgetting window. Note that the Bi-SVD3 sub-
algorithm reaches the same performance as SWASVD2. space tracker, which has also been presented in [7], has a lower
These results have been compared with those obtained with complexity (its dominant cost is ), but it proved to be
some of the most robust subspace trackers found in the literature unstable on this test signal.
[2], [5]–[8], [18]–[20], [27], [28]. Three of them are illustrated Concurrently, the FAST subspace tracker is better than
in Figs. 4–6: Bi-SVD1 in terms of the maximum principal angle error
• the exponential forgetting window Bi-SVD1 algorithm by Fig. 5(b). However, its dominant cost is , and the fre-
Strobach [7]; quency tracking response Fig. 5(a) remains slower than that of
• the FAST algorithm by Real et al. [28], which is a recent SWASVD3. Note that the dominant cost of the approximated
contribution to sliding window SVD subspace tracking; FAST2 algorithm [28] is also .
• our sliding window version of the NIC subspace tracker The novel information criterion (NIC) subspace tracker
by Miao and Hua [19]. was introduced in [19] as a robust generalization of the PAST
Despite the good performance of the Bi-SVD1 algorithm, its algorithm [18]. Fig. 6(a) shows the frequency tracking obtained
convergence is slower than that of SWASVD3 after abrupt with our sliding window version of NIC,4 whose dominant cost
signal variations.3 This may be explained by the use of an is . It can be noticed that this fast subspace tracker is very
stable and converges much faster than Bi-SVD1 and FAST.
3The forgetting factor ' 0:99 was chosen to get an effective window length
equal to L. 4The learning step size  was equal to 0.5.
BADEAU et al.: SLIDING WINDOW ADAPTIVE SVD ALGORITHMS 7

(a)
0.25 A. Fast Approximated QR Factorization
Estimated frequencies (Hz)

0.2 Remember that the first iteration in SWASVD2 relies on the


0.15 low-dimensional QR factorization (20). Generally, this factor-
0.1
ization requires operations. Now, suppose that
is not only upper triangular but also diagonal (in practice, this is
0.05
nearly the case since converges to the diagonal matrix in
0
0 500 1000 1500 2000 2500 3000 3500 4000 the original bi-orthogonal iteration SVD algorithm of Table I).
Discrete time (samples) In this case, is also diagonal and, therefore, upper
(b)
100 triangular so that defined in (19) is an upper triangular
Maximum principal angle (degrees)

80
plus rank one matrix. In particular, it is well known that the QR
factorization of such a matrix can be achieved in compu-
60
tations, using only Givens rotations [32, Sect. 12.5]. There-
40 fore, (20) can be written
20

0
(23)
0 500 1000 1500 2000 2500 3000 3500 4000
Discrete time (samples)
where is a product of Givens rotations, and is
Fig. 6. ( O Nr
) sliding window NIC subspace tracker. (a) Frequency tracking. a upper-triangular matrix (whose last row is equal
(b) Maximum principal angle trajectory. to in this particular case).
In practice, is not diagonal, and this fast QR-factor-
However, this algorithm only converges to an orthonormal ization cannot be achieved. However, since is nearly
matrix spanning the principal subspace. It does not compute diagonal, applying the fast QR-factorization technique as it is
the singular vectors and values of the data matrix (which might with this nondiagonal matrix gives a nearly upper triangular ma-
be important for rank estimation and tracking) and does not trix .
guarantee the orthonormality of the subspace basis at each time This fast approximated QR-factorization is the key step of our
step (which is required for some subspace-based estimation ultra-fast tracking algorithm. Note that (23) is not an approxi-
methods, such as MUSIC [31]). mation but a strict equality.
Finally, SWASVD outperformed all the other subspace
trackers that we have tested on the same test signal (Karasalo’s B. Modification of the First Iteration
algorithm [2], TQR-SVD [5], Loraf [6], Bi-SVD3 [7], NP3 Equation (21) now becomes
[8], PAST [18], OPAST [20], SHSVD [27] and FAST2 [28]).
These results were not presented here to keep the presentation
as concise as possible. (24)

V. CONCLUSIONS A new difficulty arises: can no longer be directly ex-


tracted from this factorization as in (22), since the last row of
This paper introduced new SVD tracking algorithms derived
the nearly upper triangular matrix is generally not equal
from the classical bi-orthogonal iteration method. These algo-
to . Consequently, the dimensions of the second member ma-
rithms have been designed for a sliding window data matrix,
trices in (24) cannot be reduced.
which is a characteristic that distinguishes them from most of
Therefore, it will be necessary to explicitly force this last row
existing subspace tracking techniques. The results obtained on
to be zero. Suppose that there exists a rotation matrix
synthetic signals in the frequency estimation context showed
such that the last row of is equal to . Then, let
their robustness to abrupt signal variations.
We successfully obtained an ultra-fast tracking algorithm
with linear complexity without degrading the excellent perfor-
mance of our subspace tracker. This could be
achieved by means of an approximated fast QR factorization.
Finally, these subspace tracking algorithms may be consid- Now, (22) stands with
ered as the starting point of a real-time frequency tracker, whose
full implementation would additionally require an adaptive ver- (25)
sion of the ESPRIT algorithm.
Such a matrix will be given in section c of the Ap-
APPENDIX pendix.
ULTRA-FAST SWASVD3 ALGORITHM
This Appendix introduces the ultra-fast SWASVD3 tracking C. Choice of an Appropriate Rotation Matrix
algorithm. Since there is no room here for a complete descrip- First, note that if , the last row of is . From
tion, only the main steps will be highlighted, and some details now on, suppose that . A first step toward the obten-
required for a full implementation will be skipped. tion of the rotation matrix will be the computation of
8 IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL. 52, NO. 1, JANUARY 2004

a unitary vector such that . Con- where for , and


sider the -dimensional vector . To make this row equal to , the coefficients
and can be computed recursively as

and the scalar


for down to

Then, a direct calculation shows that the vector

Note that all the are non-negative numbers so that


. Therefore, it can be noticed that was
a necessary condition to guarantee the equality between
satisfies the homogenous equation , and and the last row of (this condition was sufficient
so does the normalized vector5 because of the orthonormality of both row vectors).
Finally, the matrix defined in (25) is expressed as a
product of only Givens rotations. Therefore, can
phase be computed using (22) in only operations (by recursively
applying the Givens rotations). Consequently, the whole first
The phase shift is chosen so that (this choice will iteration is reduced to linear complexity (see Table V).7 , 8
be explained below).
Now, we are looking for a rotation matrix whose D. Modification of the Second Iteration
last row is (so that the last row of is ). Contrary to , it will now be shown that can be
An appropriate choice for is a product of Givens made exactly upper triangular in operations. Indeed, sub-
rotations,6 as defined in (26) (because it would be the classical stituting (19) and (20) into (13) and (14) shows that sat-
way of zeroing the last row of if its first rows had an isfies the recurrence
exact upper-triangular structure).

..
.. .
. (27)

where

..
.. .
.

.. (26)
.

It can be noticed that the first member of (27) is an exact QR


factorization of the second one. Therefore, and
Then, it can be easily shown that the last row of is can be obtained by computing this QR factorization instead of
equal to using (14).
Moreover, is an upper triangular plus rank-one matrix.
It is well known that the QR factorization of such a matrix can
be achieved using only Givens rotations.
6
5Note that w (t) cannot be equal to 0 since either v (t) = 0 or v (t) = 0,
6
which yields (t) = 0. 7Note that the vector R (t 0 1) h (t) can be computed in 4r operations
6Note that these Givens rotations are not real but complex transformations. 0
using simple back substitution, since R (t 1) is triangular.
Their orthonormality is guaranteed if 8The pseudo-code for SWASVD3 in Table V should not be implemented as it
• c (t ) 0; is. An efficient implementation should recursively apply all the Givens rotations
j j j j
• c (t ) + s (t ) = 1 . without storing them in memory.
BADEAU et al.: SLIDING WINDOW ADAPTIVE SVD ALGORITHMS 9

TABLE V only Givens rotations.9 Therefore, the whole QR factoriza-


ULTRA-FAST SLIDING WINDOW ADAPTIVE SVD ALGORITHM (SWASVD3) tion in (27) requires only Givens rotations, i.e.,
operations. Then, the matrix can be computed using (16)
in operations (by recursively applying the Givens rota-
tions). Finally, the whole second iteration is reduced to linear
complexity (see Table V).
It can be seen that the dominant cost of SWASVD3 is
. Although this complexity is linear in , the
multiplicative factor is quite high. Therefore, this algorithm
is less computationally demanding than SWASVD2 only for
high values of (for instance, if is much smaller than ,
SWASVD3 is faster than SWASVD2 for all ; in the
general case, is a sufficient condition).

ACKNOWLEDGMENT
The authors would like to thank their colleague P. Weyer-
Brown for his helpful comments on the English grammar. They
also acknowledge the anonymous reviewers for their construc-
tive comments and corrections.

REFERENCES
[1] P. Comon and G. H. Golub, “Tracking a few extreme singular values and
vectors in signal processing,” Proc. IEEE, vol. 78, pp. 1327–1343, Aug.
1990.
[2] I. Karasalo, “Estimating the covariance matrix by signal subspace aver-
aging,” IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-34,
pp. 8–12, Feb. 1986.
[3] D. J. Rabideau, “Fast, rank adaptive subspace tracking and applications,”
IEEE Trans. Signal Processing, vol. 44, pp. 2229–2244, Sept. 1996.
[4] M. Moonen, P. V. Dooren, and J. Vandewalle, “An SVD updating algo-
rithm for subspace tracking,” SIAM J. Matrix Anal. Appl., vol. 13, no. 4,
pp. 1015–1038, 1992.
[5] E. M. Dowling, L. P. Ammann, and R. D. DeGroat, “A TQR-iteration
based adaptive SVD for real time angle and frequency tracking,” IEEE
Trans. Signal Processing, vol. 42, pp. 914–926, Apr. 1994.
[6] P. Strobach, “Low-rank adaptive filters,” IEEE Trans. Signal Processing,
vol. 44, pp. 2932–2947, Dec. 1996.
[7] , “Bi-iteration SVD subspace tracking algorithms,” IEEE Trans.
Signal Processing, vol. 45, pp. 1222–1240, May 1997.
[8] Y. Hua, Y. Xiang, T. Chen, K. Abed-Meraim, and Y. Miao, “A new look
at the power method for fast subspace tracking,” Digital Signal Pro-
cessing, vol. 9, no. 4, pp. 297–314, Oct. 1999.
[9] C. H. Bischof and G. M. Shroff, “On updating signal subspaces,” IEEE
Now, consider this fast QR factorization: Trans. Signal Processing, vol. 40, pp. 96–105, Jan. 1992.
[10] G. W. Stewart, “An updating algorithm for subspace tracking,” IEEE
Trans. Signal Processing, vol. 40, pp. 1535–1541, June 1992.
[11] G. Xu, H. Zha, G. H. Golub, and T. Kailath, “Fast algorithms for
updating signal subspaces,” IEEE Trans. Circuits Syst., vol. 41, pp.
537–549, Aug. 1994.
Finally, the QR factorization of gives [12] E. Oja, “Neural networks, principal components and subspaces,” Int. J.
Neural Syst., vol. 1, no. 1, pp. 61–68, 1989.
[13] L. Xu, “Least mean square error reconstruction principle for self-orga-
nizing neural nets,” Neural Networks, vol. 6, pp. 627–648, 1993.
.. [14] T. Chen and S. Amari, “Unified stabilization approach to principal and
. minor components extraction algorithms,” Neural Networks, vol. 14, no.
(28) 10, pp. 1377–1387, 2001.

9In particular, G t( ) is the product of G t r


( ) (which contains 2 Givens
rotations) and G t r
( ) (which contains Givens rotations). Consequently, the
and (27) and (16) now stand with QR factorization in (28) can be achieved in two steps.
• QR factorization of the product of an upper triangular matrix and G t
( ).
It can be readily verified that the upper triangular structure can be recur-
(29) sively maintained (each Givens rotation in G t ( ) can be compensated by
a Givens rotation in G t
( )).
• QR factorization of the product of an upper triangular matrix and G t
( ).
It must be noticed that such a product is an upper triangular plus rank one
Since is a product of Givens rotations, it can be matrix. Therefore, the fast QR factorization method presented in [32, Sect.
shown that the QR factorization in (28) can be achieved using r
12.5] can be applied. It involves only 2 Givens rotations.
10 IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL. 52, NO. 1, JANUARY 2004

[15] S. Y. Kung, K. I. Diamantaras, and J. S. Taur, “Adaptive principal com- Roland Badeau (M’02) was born in Marseilles,
ponent extraction (APEX) and applications,” IEEE Trans. Signal Pro- France, on August 28, 1976. He received the State
cessing, vol. 43, pp. 1202–1217, Jan. 1995. Engineering degree from the École Polytechnique,
[16] G. Mathew and V. U. Reddy, “Adaptive estimation of eigensubspace,” Palaiseau, France, in 1999, the State Engineering
IEEE Trans. Signal Processing, vol. 43, pp. 401–411, Feb. 1995. Degree from the École Nationale Supérieure des
[17] Z. Fu and E. M. Dowling, “Conjugate gradient eigenstructure tracking Télécommunications (ENST), Paris, in 2001, and
for adaptive spectral estimation,” IEEE Trans. Signal Processing, vol. the M.Sc. degree in applied mathematics from the
43, pp. 1151–1160, May 1995. École Normale Supérieure (ENS), Cachan, France,
[18] B. Yang, “Projection approximation subspace tracking,” IEEE Trans. in 2001. In 2001, he joined the Department of
Signal Processing, vol. 44, pp. 95–107, Jan. 1995. Signal and Image Processing, ENST, as an Assistant
[19] Y. Miao and Y. Hua, “Fast subspace tracking and neural network learning Professor, where he is also pursuing the Ph.D.
by a novel information criterion,” IEEE Trans. Signal Processing, vol. degree.
46, pp. 1967–1979, July 1998. His research interests include adaptive subspace algorithms and audio signal
[20] K. Abed-Meraim, A. Chkeif, and Y. Hua, “Fast orthonormal PAST al- processing.
gorithm,” IEEE Signal Processing Lett., vol. 7, pp. 60–62, Mar. 2000.
[21] S. C. Douglas, “Numerically-robust adaptive subspace tracking using
householder transformations,” in Proc. IEEE Sensor Array Multichannel Gaël Richard (M’02) received the State Engineering
Signal Process. Workshop, 2000, pp. 499–503. degree from the École Nationale Supérieure des Télé-
[22] R. D. DeGroat, “Noniterative subspace tracking,” IEEE Trans. Signal communications (ENST), Paris, France, in 1990 and
Processing, vol. 40, pp. 571–577, Mar. 1992. the Ph.D. degree from LIMSI-CNRS, University of
[23] C. Riou and T. Chonavel, “Fast adaptive eigenvalue decomposition: Paris-XI, in 1994 in the area of speech synthesis. He
A maximum likelihood approach,” in Proc. IEEE Int. Conf. Acoust., received the Habilitation à Diriger des Recherches
Speech, Signal Process., 1997, pp. 3565–3568. degree from the University of Paris XI in September
[24] C. S. MacInnes, “Fast, accurate subspace tracking using operator restric- 2001.
tion analysis,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., He then spent two years at the CAIP Center, Rut-
1998, pp. 1357–1360. gers University, Piscataway, NJ, in the speech pro-
[25] B. Champagne, “SVD-updating via constrained perturbations with cessing group of Prof. J. Flanagan, where he explored
application to subspace tracking,” Signals, Syst., Comput., vol. 2, pp. innovative approaches for speech production. Between 1997 and 2001, he suc-
1379–1385, 1996. cessively worked for Matra Nortel Communications and for Philips Consumer
[26] R. Badeau, K. Abed-Meraim, G. Richard, and B. David, “Sliding Comunications. In particular, he was the project manager of several large-scale
window orthonormal PAST algorithm,” in Proc. IEEE Int. Conf. European projects in the field of multimodal verification and speech processing.
Acoust., Speech, Signal Process., vol. 5, Apr. 2003, pp. 261–264. He joined the Department of Signal and Image Processing, ENST, as an Asso-
[27] P. Strobach, “Square Hankel SVD subspace tracking algorithms,” Signal ciate Professor in the field of audio and multimedia signals processing. He is
Process., vol. 57, no. 1, pp. 1–18, Feb. 1997. co-author of over 30 papers and inventor in a number of patents, he is also one
[28] E. C. Real, D. W. Tufts, and J. W. Cooley, “Two algorithms for fast of the expert of the European commission in the field of man/machine inter-
approximate subspace tracking,” IEEE Trans Signal Processing, vol. 47, faces.
pp. 1936–1945, July 1999. Dr. Richard is a member of the ISCA.
[29] M. Clint and A. Jennings, “A simultaneous iteration method for the
unsymmetric eigenvalue problem,” J. Inst. Math. Appl., vol. 8, pp.
111–121, 1971.
Bertrand David was born on March 12, 1967, in
[30] G. W. Stewart, Topics in Numerical Analysis, 2nd ed. New York: J. J.
Paris, France. He received the M.Sc. degree from the
H. Miller, 1975, pp. 169–185. University of Paris-Sud, in 1991 and the Agrégation,
[31] R. O. Schmidt, “A signal subspace approach to multiple emitter location a competitive french examination for the recruitment
and spectral estimation,” Ph.D. dissertation, Stanford Univ., Stanford, of teachers, in the field of applied physics, from the
CA, 1981. École Normale Supérieure (ENS), Cachan, France.
[32] G. H. Golub and C. F. V. Loan, Matrix Computations, 3rd He received the Ph.D. degree from the University of
ed. Baltimore, MD: Johns Hopkins Univ. Press, 1996. Paris 6 in 1999 in the field of musical acoustics and
[33] R. Badeau, R. Boyer, and B. David, “EDS parametric modeling and signal processing.
tracking of audio signals,” in Proc. Int. Conf. Digital Audio Effects, Sept. From 1996 to 2001, he was a teacher in a grad-
2002, pp. 139–144. uate school in electrical engineering, computer sci-
[34] R. Roy and T. Kailath, “ESPRIT-estimation of signal parameters via ence, and communication. He is now an Associate Professor with the Depart-
rotational invariance techniques,” IEEE Trans. Acoust., Speech, Signal ment of Signal and Image Processing, École Nationale Supérieure des Télécom-
Processing, vol. 37, pp. 984–995, July 1989. munications (ENST), Paris, France,. His research interests include parametric
[35] P. Strobach, “Fast recursive subspace adaptive ESPRIT algorithms,” methods for the analysis/synthesis of musical signals and parameter extraction
IEEE Trans. Signal Processing, vol. 46, pp. 2413–2430, Sept. 1998. for music description and musical acoustics.
221

Bibliographie

Bibliographie de l’auteur
— Articles de revues —
[Badeau et al., 2004a] R. Badeau, G. Richard, et B. David. Sliding window adaptive SVD algo-
rithms. IEEE Trans. Signal Processing, 52(1) :1–10, janvier 2004. (reproduit en annexe).
[Badeau et al., 2005a] R. Badeau, B. David, et G. Richard. A new perturbation analysis for signal
enumeration in rotational invariance techniques. IEEE Trans. Signal Processing, 2005. (à
paraître).
[Badeau et al., 2005b] R. Badeau, B. David, et G. Richard. Fast Approximated Power Iteration
Subspace Tracking. IEEE Trans. Signal Processing, août 2005. (à paraître).
[Badeau et al., 2005c] R. Badeau, B. David, et G. Richard. High resolution spectral analysis of
mixtures of complex exponentials modulated by polynomials. IEEE Trans. Signal Processing,
2005. (accepté sous réserve de modifications mineures).
— Articles de conférences —
[Alonso et al., 2003a] M. Alonso, R. Badeau, B. David, et G. Richard. Musical tempo estimation
using noise subspace projections. Dans Proc. of WASPAA’03, pages 95–98, New Paltz, NY,
USA, octobre 2003. IEEE.
[Badeau et al., 2002] R. Badeau, R. Boyer, et B. David. EDS parametric modeling and tracking of
audio signals. Dans Proc. of DAFx-02, pages 139–144, Hambourg, Allemagne, septembre 2002.
(reproduit en annexe).
[Badeau et al., 2003a] R. Badeau, K. Abed-Meraim, G. Richard, et B. David. Sliding Window
Orthonormal PAST Algorithm. Dans Proc. of ICASSP’03, volume 5, pages 261–264, Hong
Kong, Chine, avril 2003. IEEE.
[Badeau et al., 2003b] R. Badeau, G. Richard, et B. David. Adaptive ESPRIT algorithm based on
the PAST subspace tracker. Dans Proc. of ICASSP’03, volume 6, pages 229–232, Hong Kong,
Chine, avril 2003. IEEE.
[Badeau et al., 2003c] R. Badeau, G. Richard, et B. David. Approximated power iterations for fast
subspace tracking. Dans Proc. of 7th Int. Symp. on Signal Proc. and its Applications, volume 2,
pages 583–586, Paris, France, juillet 2003.
[Badeau et al., 2003d] R. Badeau, G. Richard, et B. David. Suivi d’espace dominant par la méthode
des puissances itérées. Dans Actes du 19ème colloque GRETSI sur le traitement du signal et
des images, volume 1, pages 137–140, Paris, France, septembre 2003.
[Badeau et al., 2004b] R. Badeau, B. David, et G. Richard. Selecting the modeling order for the
ESPRIT high resolution method : an alternative approach. Dans Proc. of ICASSP’04, volume 2,
pages 1025–1028, Montréal, Québec, Canada, mai 2004. IEEE.
222

[Badeau et al., 2005d] R. Badeau, B. David, et G. Richard. Yet Another Subspace Tracker. Dans
Proc. of ICASSP’05, volume 4, pages 329–332, Philadelphie, PA, USA, mars 2005. IEEE.
[Badeau et al., 2005e] R. Badeau, G. Richard, et B. David. Fast adaptive ESPRIT algorithm. Dans
Proc. of SSP’05, Bordeaux, France, juillet 2005. IEEE. (à paraître).
[David et al., 2002] B. David, R. Badeau, et G. Richard. Sintrack analysis for tracking components
of musical signals. Dans Proc. of the Forum Acusticum Sevilla 2002, Séville, Espagne, septembre
2002.
[David et al., 2003] B. David, G. Richard, et R. Badeau. An EDS modeling tool for tracking and
modifying musical signals. Dans Proc. of SMAC’03, volume 2, pages 715–718, Stockholm, Suède,
août 2003. (reproduit en annexe).

Bibliographie du document
[Abed-Meraim et al., 2000] K. Abed-Meraim, A. Chkeif, et Y. Hua. Fast orthonormal PAST algo-
rithm. IEEE Signal Proc. Letters, 7(3) :60–62, mars 2000.
[Akaike, 1973] H. Akaike. Information theory and an extension of the maximum likelihood prin-
ciple. Dans B. N. Petrov et F. Csaki, éditeurs, Proc. of the 2nd International Symposium on
Information Theory, pages 267–281, Budapest, Hongrie, 1973. Akademia Kiado.
[Alonso et al., 2003b] M. Alonso, B. David, et G. Richard. A Study of Tempo Tracking Algorithms
from Polyphonic Music Signals. Dans Proc. of 4th COST 276 Workshop, France, mars 2003.
[Barabell, 1983] A. J. Barabell. Improving the resolution performance of eigenstructure-based
direction-finding algorithms. Dans Proc. of ICASSP’83, pages 336–339, Boston, MA, USA,
1983. IEEE.
[Barthelemy et Willett, 1993] A. C. Barthelemy et P. K. Willett. Prewhitening of colored noise
fields for detection of threshold sources. Dans Conf. Record of the 27th Asilomar Conf. on
Signals, Systems and Computers, volume 1, pages 243–247, Pacific Grove, CA, USA, novembre
1993.
[Bienvenu et Kopp, 1983] G. Bienvenu et L. Kopp. Optimality of high-resolution array processing
using the eigensystem method. IEEE Trans. Acoust., Speech, Signal Processing, 31(5) :1235–
1245, octobre 1983.
[Bischof et Shroff, 1992] C. H. Bischof et G. M. Shroff. On updating signal subspaces. IEEE Trans.
Signal Processing, 40 :96–105, 1992.
[Bishop et Djuric, 1996] W. B. Bishop et P. M. Djuric. Model order selection of damped sinusoids
in noise by predictive densities. IEEE Trans. Signal Processing, 44(3) :611–619, mars 1996.
[Boley et al., 1997] D. L. Boley, F. T. Luk, et D. Vandevoorde. A General Vandermonde Facto-
rization of a Hankel Matrix. Dans Int’l Lin. Alg. Soc. (ILAS) Symp. on Fast Algorithms for
Control, Signals and Image Processing, Winnipeg, Canada, 1997.
[Boyer et Abed-Meraim, 2004] R. Boyer et K. Abed-Meraim. Audio modeling based on delayed
sinusoids. IEEE Trans. Speech Audio Processing, 12(2) :110–120, mars 2004.
[Boyer et al., 2002] R. Boyer, S. Essid, et N. Moreau. Non-stationary signal parametric modeling
techniques with an application to low bit rate audio coding. Dans Proc. of 6th Int. Conf. on
Signal Processing, volume 1, pages 430–433, Beijing, Chine, août 2002.
[Cardoso et Moulines, 1995] J. F. Cardoso et E. Moulines. Asymptotic performance analysis of
direction-finding algorithms based on fourth-order cumulants. IEEE Trans. Signal Processing,
43 :214–224, janvier 1995.
BIBLIOGRAPHIE 223

[Champagne et Liu, 1998] B. Champagne et Q.-G. Liu. Plane rotation-based EVD updating schemes
for efficient subspace tracking. IEEE Trans. Signal Processing, 46(7) :1886–1900, juillet 1998.
[Chen et Amari, 2001] T. Chen et S. Amari. Unified stabilization approach to principal and minor
components extraction algorithms. Neural Networks, 14(10) :1377–1387, 2001.
[Chonavel et al., 2003] T. Chonavel, B. Champagne, et C. Riou. Fast adaptive eigenvalue decom-
position : a maximum likelihood approach. Signal processing, 83(2) :307–324, février 2003.
[Chowning, 1973] J. M. Chowning. The synthesis of complex audio spectra by means of frequency
modulation. Journal of the Acoustical Society of America, 21(7) :526–534, 1973.
[Comon et Golub, 1990] P. Comon et G. H. Golub. Tracking a few extreme singular values and
vectors in signal processing. Dans Proc. of IEEE, volume 78, pages 1327–1343, août 1990.
[David, 1999] B. David. Caractérisations acoustiques de structures vibrantes par mise en atmosphère
raréfiée. PhD thesis, University of Paris VI, 1999.
[Davila, 2000] C. E. Davila. Efficient, high performance, subspace tracking for time-domain data.
IEEE Trans. Signal Processing, 48(12) :3307–3315, décembre 2000.
[De Moor, 1993] B. De Moor. The singular value decomposition and long and short spaces of noisy
matrices. IEEE Trans. Signal Processing, 41(9) :2826–2838, septembre 1993.
[DeGroat, 1992] R. D. DeGroat. Noniterative subspace tracking. IEEE Trans. Signal Processing,
40(3) :571–577, mars 1992.
[Dologlou et al., 1997] I. Dologlou, S. Van Huffel, et D. Van Ormondt. Improved signal en-
hancement procedures applied to exponential data modeling. IEEE Trans. Signal Processing,
45(3) :799–803, mars 1997.
[Douglas, 2000] S. C. Douglas. Numerically-robust adaptive subspace tracking using Householder
transformations. Dans Proc. of Sensor Array and Multichannel Signal Proc. Workshop, pages
499–503. IEEE, 2000.
[Dowling et al., 1994] E. M. Dowling, L. P. Ammann, et R. D. DeGroat. A TQR-iteration based
adaptive SVD for real time angle and frequency tracking. IEEE Trans. Signal Processing,
42(4) :914–926, avril 1994.
[Duvaut, 1994] P. Duvaut. Traitement du signal. Hermes, Paris, France, 1994.
[Ephraim et Van Trees, 1995] Y. Ephraim et H. L. Van Trees. A signal subspace approach for
speech enhancement. IEEE Trans. Speech Audio Processing, 3(4) :251–266, juillet 1995.
[Eriksson et al., 1993] A. Eriksson, P. Stoica, et T. Soderstrom. Second-order properties of MU-
SIC and ESPRIT estimates of sinusoidal frequencies in high SNR scenarios. IEE Proceedings
on Radar, Sonar and Navigation, 140(4) :266–272, août 1993.
[Fu et Dowling, 1995] Z. Fu et E. M. Dowling. Conjugate gradient eigenstructure tracking for adap-
tive spectral estimation. IEEE Trans. Signal Processing, 43(5) :1151–1160, mai 1995.
[Fuchs, 1992] J. J. Fuchs. Estimation of the number of signals in the presence of unknown correlated
sensor noise. IEEE Trans. Signal Processing, 40(5) :1053–1061, mai 1992.
[Gini et Bordoni, 2003] F. Gini et F. Bordoni. On the behavior of information theoretic criteria for
model order selection of InSAR signals corrupted by multiplicative noise. Signal Processing,
83 :1047–1063, 2003.
[Golub et Van Loan, 1996] G. H. Golub et C. F. Van Loan. Matrix computations. The Johns
Hopkins University Press, Baltimore and London, UK, third édition, 1996.
224

[Goodwin, 1996] M. Goodwin. Nonuniform filterbank design for audio signal modeling. Dans Conf.
Record of the 30th Asilomar Conf. on Signals, Systems and Computers, volume 2, pages 1229–
1233, novembre 1996.
[Goto et Muraoka, 1997] M. Goto et Y. Muraoka. Real-time Rhythm Tracking for Drumless Audio
Signals. Dans Proc. of the IJCAI’97, 1997.
[Graham et al., 1994] R. L. Graham, D. E. Knuth, et O. Patashnik. Concrete Mathematics : A
Foundation for Computer Science. Addison-Wesley, Reading, MA, USA, second édition, 1994.
[Göransson, 1994] B. Göransson. Robust direction estimation in the presence of spatially correlated
noise. Dans Proc. of 7th Workshop on Statistical and Array Processing, pages 157–160, 1994.
[Göransson et Ottersten, 1999] B. Göransson et B. Ottersten. Direction estimation in partially
unknown noise fields. IEEE Trans. Signal Processing, 47(9) :2375–2385, septembre 1999.
[Grouffaud et al., 1996] J. Grouffaud, P. Larzabal, et H. Clergeot. Some properties of ordered
eigenvalues of a Wishart matrix : application in detection test and model order selection. Dans
Proc. of ICASSP’96, volume 5, pages 2465–2468. IEEE, 1996.
[Hermus et al., 2002] K. Hermus, W. Verhelst, et P. Wambacq. Psychoacoustic modeling of audio
with exponentially damped sinusoids. Dans Proc. of ICASSP’02, volume 2, pages 1821–1824.
IEEE, 2002.
[Hermus et al., 2000] K. Hermus, W. Verhelst, P. Wambacq, et P. Lemmerling. Total Least
Squares based subband modelling for scalable speech representations with damped sinusoids.
Dans Proc. of International Conference on Spoken Language Processing, volume 3, pages 1129–
1132, Beijing, Chine, octobre 2000.
[Hermus et Wambacq, 2004] K. Hermus et P. Wambacq. Assessment of signal subspace based speech
enhancement for noise robust speech recognition. Dans Proc. of ICASSP’04, volume 1, pages
945–948. IEEE, mai 2004.
[Horn et Johnson, 1985] R. A. Horn et C. R. Johnson. Matrix analysis. Cambridge University Press,
Cambridge, UK, 1985.
[Hua et Sarkar, 1990] Y. Hua et T. K. Sarkar. Matrix pencil method for estimating parameters
of exponentially damped/undamped sinusoids in noise. IEEE Trans. Acoust., Speech, Signal
Processing, 38(5) :814–824, mai 1990.
[Hua et Sarkar, 1991] Y. Hua et T. K. Sarkar. On SVD for estimating generalized eigenvalues of
singular matrix pencil in noise. IEEE Trans. Signal Processing, 39(4) :892–900, avril 1991.
[Hua et al., 1999] Y. Hua, Y. Xiang, T. Chen, K. Abed-Meraim, et Y. Miao. A new look at the
power method for fast subspace tracking. Digital Signal Processing, octobre 1999.
[Huffel, 1993] S. Van Huffel. Enhanced resolution based on minimum variance estimation and ex-
ponential data modeling. Signal Processing, 33(3) :333–355, septembre 1993.
[Jeanneau et al., 1998] M. Jeanneau, P. Mouyon, et C. Pendaries. Sintrack analysis, application
to detection and estimation of flutter for flexible structures. Dans Proc. of EUSIPCO, pages
789–792, Ile de Rhodes, Grèce, septembre 1998.
[Jensen et al., 2004] J. Jensen, R. Heusdens, et S. H. Jensen. A perceptual subspace approach
for modeling of speech and audio signals with damped sinusoids. IEEE Trans. Speech Audio
Processing, 12(2) :121–132, mars 2004.
[Jensen et al., 1999] J. Jensen, S. H. Jensen, et E. Hansen. Exponential Sinusoidal Modeling of
Transitional Speech Segments. Dans Proc. of ICASSP’99, volume 1, pages 473–476. IEEE,
mars 1999.
BIBLIOGRAPHIE 225

[Kahrs et Brandenbourg, 1998] M. Kahrs et K. Brandenbourg. Applications of Digital Signal Pro-


cessing to Audio and Acoustics. Kluwer Academic Press, Dortrecht, Pays-Bas, 1998.
[Karasalo, 1986] I. Karasalo. Estimating the covariance matrix by signal subspace averaging. IEEE
Trans. Acoust., Speech, Signal Processing, 34 :8–12, février 1986.
[Karjalainen et al., 2003] M. Karjalainen, P. A. A. Esquef, et V. Välimäki. Making of a computer
carillon. Dans Proc. of SMAC’03, volume 1, pages 339–342, Stockholm, Suède, août 2003.
[Kay, 1993] S. M. Kay. Fundamentals of Statistical Signal Processing : Estimation Theory. Prentice-
Hall, Englewood Cliffs, NJ, USA, 1993.
[Keiler et Marchand, 2002] F. Keiler et S. Marchand. Survey on extraction of sinusoids in statio-
nary sounds. Dans Proc. of DAFx-02, pages 51–58, Hambourg, Allemagne, septembre 2002.
[Kincaid et Cheney, 1996] D. Kincaid et W. Cheney. Numerical analysis. Brooks/Cole Publishing,
Pacific Grove, Californie, USA, second édition, 1996.
[Klapuri, 1999] A. Klapuri. Sound Onset Detection by Applying Psychoacoustic Knowledge. Dans
Proc. of ICASSP’99, Arizona, USA, mars 1999.
[Kot et al., 1987] A. Kot, S. Parthasarathy, D. Tufts, et R. Vaccaro. The statistical perfor-
mance of state-variable balancing and Prony’s method in parameter estimation. Dans Proc. of
ICASSP’87, volume 12, pages 1549–1552, avril 1987.
[Kumaresan, 1983] R. Kumaresan. On the zeros of the Linear Prediction-error filter for deterministic
signals. IEEE Trans. Acoust., Speech, Signal Processing, 31(1) :217–220, février 1983.
[Kumaresan et Tufts, 1982] R. Kumaresan et D. W. Tufts. Estimating the parameters of exponen-
tially damped sinusoids and pole-zero modeling in noise. IEEE Trans. Acoust., Speech, Signal
Processing, 30(6) :833–840, décembre 1982.
[Kundu et Mitra, 2000] D. Kundu et A. Mitra. Detecting the number of signals for an undamped
exponential model using cross-validation approach. Signal Processing, 80(3) :525–534, 2000.
[Kung et al., 1983] S. Y. Kung, K. S. Arun, et D. B. Rao. State-space and singular value decomposi-
tion based approximation methods for harmonic retrieval problem. J. of Opt. Soc. of America,
73 :1799–1811, décembre 1983.
[Kung et al., 1994] S. Y. Kung, K. I. Diamantaras, et J. S. Taur. Adaptive principal component
extraction (apex) and applications. IEEE Trans. Signal Processing, 42(5) :1202–1217, mai 1994.
[Lambourg et Chaigne, 1993] C. Lambourg et A. Chaigne. Measurements and modeling of the
admittance matrix at bridge in guitars. Dans Proc. of SMAC’93, pages 449–453, Stockholm,
Suède, juillet 1993.
[Laroche, 1989] J. Laroche. A new analysis / synthesis system of musical signals using Prony’s
method – application to heavily damped percussive sounds. Dans Proc. of ICASSP’89, volume 3,
pages 2053–2056. IEEE, mai 1989.
[Laroche, 1993] J. Laroche. The use of the Matrix Pencil method for the spectrum analysis of musical
signals. Journal of the Acoustical Society of America, 94(4) :1958–1965, octobre 1993.
[Laroche, 2001] J. Laroche. Estimating Tempo, Swing, and Beat Locations in Audio Recordings.
Dans Proc. of WASPAA’01, New York, NY, USA, octobre 2001.
[Le Cadre, 1989] J. P. Le Cadre. Parametric methods for spatial signal processing in the presence of
unknown colored noise fields. IEEE Trans. Acoust., Speech, Signal Processing, 37(7) :965–983,
juillet 1989.
[Lee et Lee, 1995] J-J. Lee et B. G. Lee. A design of nonuniform cosine modulated filter banks. IEEE
Trans. Circuits Syst. II, 42(11) :732–737, novembre 1995.
226

[Levine et al., 1997] S. N. Levine, T. S. Verma, et J. O. Smith. Alias-free multiresolution sinusoidal


modeling for polyphonic, wideband audio. Dans Proc. of WASPAA’97, New Paltz, NY, USA,
octobre 1997. IEEE.
[Li et al., 1997] Y. Li, K. Liu, et J. Razavilar. A parameter estimation scheme for damped sinusoidal
signals based on low-rank Hankel approximation. IEEE Trans. Signal Processing, 45 :481–486,
février 1997.
[Liavas et Regalia, 2001] A. P. Liavas et P. A. Regalia. On the behavior of Information Theoretic
Criteria for model order selection. IEEE Trans. Signal Processing, 49(8) :1689–1695, août 2001.
[Liavas et al., 1999] A. P. Liavas, P. A. Regalia, et J.-P. Delmas. Blind channel approximation :
effective channel order determination. IEEE Trans. Signal Processing, 47(12) :3336–3344, dé-
cembre 1999.
[Liu et al., 1994] K. J. R. Liu, D. P. O’Leary, G. W. Stewart, et Y-J. J. Wu. URV ESPRIT for
tracking time-varying signals. IEEE Trans. Signal Processing, 42(12) :3443–3448, décembre
1994.
[Liu et Champagne, 1996] Q. G. Liu et B. Champagne. An adaptive ESPRIT algorithm based on
perturbation of unsymmetrical matrices. Dans Proc. of 8th EUSIPCO, pages 539–542, Trieste,
Italie, septembre 1996.
[MacInnes, 1998] C. S. MacInnes. Fast, accurate subspace tracking using operator restriction analysis.
Dans Proc. of ICASSP’98, pages 1357–1360. IEEE, 1998.
[Marcos et al., 1998] S. Marcos, J. Sanchez-Araujo, N. Bertaux, P. Larzabal, et P. Forster.
Les Méthodes à haute résolution : traitement d’antenne et analyse spectrale. Chapitres 4 et 5.
Hermès, Paris, France, 1998. Ouvrage collectif sous la direction de S. Marcos.
[Mathew et Reddy, 1995] G. Mathew et V. U. Reddy. Adaptive estimation of eigensubspace. IEEE
Trans. Signal Processing, 43(2) :401–411, février 1995.
[Mc Aulay et Quatieri, 1986] R. J. Mc Aulay et T. F. Quatieri. Speech analysis and synthesis based
on a sinusoidal representation. IEEE Trans. Acoust., Speech, Signal Processing, 34(4) :744–754,
août 1986.
[Meddis et O’Mard, 1997] R. Meddis et L. O’Mard. A Unitary Model of Pitch Perception. JASA,
102, septembre 1997.
[Miao et Hua, 1998] Y. Miao et Y. Hua. Fast subspace tracking and neural network learning by a
novel information criterion. IEEE Trans. Signal Processing, 46(7) :1967–1979, juillet 1998.
[Moonen et al., 1992] M. Moonen, P. Van Dooren, et J. Vandewalle. An SVD updating algorithm
for subspace tracking. SIAM J. Matrix Ana. Appl., 13(4) :1015–1038, 1992.
[Moonen et al., 1994] M. Moonen, F. J. Vanpoucke, et E. F. Deprettere. Parallel and adaptive
high-resolution direction finding. IEEE Trans. Signal Processing, 42(9) :2439–2448, septembre
1994.
[Moro et al., 1997] J. Moro, J. V. Burke, et M. L. Overton. On the Lidskii-Vishik-Lyusternik
perturbation theory for eigenvalues of matrices with arbitrary Jordan structure. SIAM Journal
on Matrix Analysis and Applications, 18(4) :793–817, octobre 1997.
[Moulines et Laroche, 1995] E. Moulines et J. Laroche. Non parametric techniques for pitch-scale
and time-scale modification of speech. Speech Communication, pages 175–205, février 1995.
[Nieuwenhuijse et al., 1998] J. Nieuwenhuijse, R. Heusens, et Ed. F. Deprettere. Robust expo-
nential modeling of audio signals. Dans Proc. of ICASSP’98, volume 6, pages 3581–3584. IEEE,
mai 1998.
BIBLIOGRAPHIE 227

[Oja, 1989] E. Oja. Neural networks, principal components and subspaces. Int. journal of neural
systems, 1(1) :61–68, 1989.
[Paulus et Klapuri, 2002] J. Paulus et A. Klapuri. Measuring The Similarity of Rhythmic Patterns.
Dans Proc. of ISMIR’02, 3rd Int. Conf. on Music Information Retrieval, Paris, France, octobre
2002.
[Pisarenko, 1973] V. F. Pisarenko. The retrieval of harmonics from a covariance function. Geophysical
J. Royal Astron. Soc., 33 :347–366, 1973.
[Rabideau, 1996] D. J. Rabideau. Fast, rank adaptive subspace tracking and applications. IEEE
Trans. Signal Processing, 44(9) :2229–2244, septembre 1996.
[Rao et Zhao, 1993] C. R. Rao et L. C. Zhao. Asymptotic behavior of maximum likelihood estimates
of superimposed exponential signals. IEEE Trans. Signal Processing, 41(3) :1461–1464, mars
1993.
[Real et al., 1999] E. C. Real, D. W. Tufts, et J. W. Cooley. Two algorithms for fast approximate
subspace tracking. IEEE Trans. Signal Processing, 47(7) :1936–1945, juillet 1999.
[Riche de Prony, 1795] G. M. Riche de Prony. Essai expérimental et analytique : sur les lois de la
dilatabilité de fluides élastiques et sur celles de la force expansive de la vapeur de l’eau et de
la vapeur de l’alcool à différentes températures. Journal de l’école polytechnique, 1(22) :24–76,
1795.
[Rissanen, 1978] J. Rissanen. Modeling by shortest data description. Automatica, 14 :465–471, 1978.
[Roman, 1984] S. Roman. The Umbral Calculus. Academic Press, New York, NY, USA, 1984. §1.2 :
The Lower Factorial Polynomial.
[Roy et Kailath, 1987] R. Roy et T. Kailath. Total least squares ESPRIT. Dans Proc. of 21st
Asilomar Conference on Signals, Systems, and Computers, pages 297–301, novembre 1987.
[Roy et al., 1986] R. Roy, A. Paulraj, et T. Kailath. ESPRIT–A subspace rotation approach to
estimation of parameters of cisoids in noise. IEEE Trans. Acoust., Speech, Signal Processing,
34(5) :1340–1342, octobre 1986.
[Saarnisaari, 1999] H. Saarnisaari. Robustness of the MUSIC algorithm to Errors in Estimation the
Dimensions of the Subspaces : Delay Estimation in DS/SS in the Presence of Interference. Dans
Proc. of the Military Communications Conference MILCOM’99, Atlantic City, NJ, USA, 1999.
[Scharf, 1991] L. L. Scharf. Statistical signal processing. Addison Wesley, New York, NY, USA, 1991.
[Scheirer, 1998] E. D. Scheirer. Tempo and Beat Analysis of Acoustic Music Signals. JASA, 103 :588–
601, janvier 1998.
[Schmidt, 1981] R. O. Schmidt. A signal subspace approach to multiple emitter location and spectral
estimation. PhD thesis, Stanford University, Stanford, Californie, USA, novembre 1981.
[Schmidt, 1986] R. O. Schmidt. Multiple emitter location and signal parameter estimation. IEEE
Trans. Antennas Propagat., 34(3) :276–280, mars 1986.
[Schwarz, 1978] G. Schwarz. Estimating the dimension of a model. The Annals of Statistics,
6(2) :461–464, 1978.
[Seppänen, 2001] J. Seppänen. Tatum Grid Analysis of Musical Signals. Dans Proc. of WASPAA’01,
New York, NY, USA, octobre 2001.
[Serra et Smith, 1990] X. Serra et J. Smith. Spectral modeling synthesis : a sound analysis/synthesis
based on a deterministic plus stochastic decomposition. Computer Music Journal, 14(4), 1990.
[Stewart, 1992] G. W. Stewart. An updating algorithm for subspace tracking. IEEE Trans. Signal
Processing, 40 :1535–1541, juin 1992.
228

[Stoica et al., 2000] P. Stoica, H. Li, et J. li. Amplitude estimation of sinusoidal signals : survey,
new results, and an application. IEEE Trans. Signal Processing, 48(2) :338–352, 2000.
[Stoica et Nehorai, 1988] P. Stoica et A. Nehorai. Study of the statistical performance of the
Pisarenko harmonic decomposition method. IEE Proceedings Radar and Signal Processing,
135(2) :161–168, avril 1988.
[Stoica et Söderström, 1991] P. Stoica et T. Söderström. Statistical Analysis of MUSIC and Sub-
space Rotation Estimates of Sinusoidal Frequencies. IEEE Trans. Signal Processing, 39 :1836–
1847, août 1991.
[Strang, 2003] G. Strang. Introduction to Linear Algebra. Wellesley-Cambridge Press, third édition,
2003.
[Strobach, 1996] P. Strobach. Low-rank adaptive filters. IEEE Transactions on Signal Processing,
44(12) :2932–2947, décembre 1996.
[Strobach, 1997a] P. Strobach. Bi-iteration SVD subspace tracking algorithms. IEEE Trans. Signal
Processing, 45(5) :1222–1240, mai 1997.
[Strobach, 1997b] P. Strobach. Square Hankel SVD subspace tracking algorithms. Signal Processing,
57(1) :1–18, février 1997.
[Strobach, 1998] P. Strobach. Fast recursive subspace adaptive ESPRIT algorithms. IEEE Trans.
Signal Processing, 46(9) :2413–2430, septembre 1998.
[Tkacenko et Vaidyanathan, 2001] A. Tkacenko et P. P. Vaidyanathan. The role of filter banks in
sinusoidal frequency estimation. Journal of the Franklin Institute, 338(5) :517–547, août 2001.
[Vaidyanathan, 1993] P. P. Vaidyanathan. Multirate systems and filter banks. Prentice-Hall, Inc.,
Upper Saddle River, NJ, USA, 1993.
[Van der Veen et al., 1993] A-J. Van der Veen, ED. F. Deprettere, et A. L. Swindlehurst. Sub-
space based signal analysis using singular value decomposition. Proc. of IEEE, 81(9) :1277–1308,
septembre 1993.
[Vandevoorde, 1996] D. Vandevoorde. A fast exponential decomposition algorithm and its applica-
tions to structured matrices. PhD thesis, Rensselaer Polytechnic Institute, Troy, NY, USA,
1996.
[Viberg et al., 1995] M. Viberg, P. Stoica, et B. Ottersten. Array processing in correlated noise
fields based on instrumental variables and subspace fitting. IEEE Trans. Signal Processing,
43(5) :1187–1199, mai 1995.
[von Sachs, 1994] R. von Sachs. Peak-insensitive non-parametric spectrum estimation. Journal of
time series analysis, 15 :429–452, 1994.
[Wang et al., 2004] J. F. Wang, C-H. Yang, et K-H. Chang. Subspace tracking for speech enhan-
cement in car noise environments. Dans Proc. of ICASSP’04, volume 2, pages 789–792. IEEE,
mai 2004.
[Wax et Kailath, 1985] M. Wax et T. Kailath. Detection of signals by information theoretic criteria.
IEEE Trans. Acoust., Speech, Signal Processing, 33(2) :387–392, avril 1985.
[Weinreich, 1977] G. Weinreich. Coupled piano strings. Journal of the Acoustical Society of America,
62(6) :1474–1484, 1977.
[Williams et Madisetti, 1999] D. B. Williams et V. K. Madisetti. Fast Fourier Transforms : A
Tutorial Review and a State of the Art, in Digital Signal Processing Handbook. CRC Press
LLC, Boca Raton, Floride, USA, 1999.
BIBLIOGRAPHIE 229

[Xu et al., 1994] G. Xu, H. Zha, G. H. Golub, et T. Kailath. Fast algorithms for updating signal
subspaces. IEEE Trans. Circuits Syst., 41(8) :537–549, août 1994.
[Xu, 1993] L. Xu. Least mean square error reconstruction principle for selg-organizing neural nets.
Neural Networks, 6 :627–648, 1993.
[Yang, 1995] B. Yang. Projection Approximation Subspace Tracking. IEEE Trans. Signal Processing,
44(1) :95–107, janvier 1995.
[Zhang et Wong, 1993] Q. T. Zhang et K. M. Wong. Information theoretic criteria for the determi-
nation of the number of signals in spatially correlated noise. IEEE Trans. Signal Processing,
41(4) :1652–1663, avril 1993.
[Zhao et al., 1986a] L. C. Zhao, P. R. Krishnaiah, et Z. D. Bai. On detection of the number of
signals in presence of white noise. Journal of Multivariate Analysis, 20(1) :1–25, 1986.
[Zhao et al., 1986b] L. C. Zhao, P. R. Krishnaiah, et Z. D. Bai. On detection of the number of signals
when the noise covariance matrix is arbitrary. Journal of Multivariate Analysis, 20(1) :26–49,
1986.
[Zoltawski et Stavrinides, 1989] M. Zoltawski et D. Stavrinides. Sensor array signal processing via
a Procrustes rotations based eigen-analysis of the ESPRIT data pencil. IEEE Trans. Acoust.,
Speech, Signal Processing, 37(6) :832–861, juin 1989.
230

Index

AIC, 20, 61 Ordre de modélisation, 20, 26, 54, 190


Amplitudes, 10, 21, 26, 34, 37, 43, 45, 47
PACE, 26, 36, 48, 177
Bornes de Cramér-Rao, 21, 36, 44, 177 PAST, 82, 99
Perturbations, 23, 39, 54, 182
Conditionnement supérieur, 55 Phases, 10, 21, 26, 34, 37, 43, 45, 47
Polynômes binomiaux, 27, 171
Ecart-type, 10, 21, 26, 34, 37
Projection approximation, 83, 91
EDC, 20, 61
Propriété d’invariance rotationnelle, 19, 29, 56, 174
Espace bruit, 19
Pôles complexes, 10, 14, 26, 31, 41, 44, 54, 125
Espace signal, 19, 33, 39, 55, 68, 78, 90, 110
ESPRIT, 19, 31, 54, 85 Récurrences linéaires, 15, 26
ESTER, 56 Résolution de Fourier, 13

Facteurs d’atténuation, 10, 21, 26, 37, 42, 44, 45 SW-NIC, 104, 195
FAPI, 90, 128
Fenêtre exponentielle, 82, 90 YAST, 110, 128
Fenêtre tronquée, 82, 90
Forme de Jordan, 29, 40, 183
Fréquences, 10, 21, 26, 37, 42, 44, 45

ITC, 20, 61

MAC, 56, 68
Matrice d’information de Fisher, 22, 177
Matrice spectrale, 20, 40, 71, 122
Matrices de Hankel, 17, 31, 70, 175
Matrices de Pascal généralisées, 28, 174
Matrices de Pascal-Vandermonde, 28, 29, 43, 171,
174
Matrices de Vandermonde, 11
Maximum de vraisemblance, 11, 30
MDL, 20, 61
MUSIC, 19
Méthode d’itération orthogonale, 69, 123
Méthode de Pisarenko, 17
Méthode de Prony, 15
Méthode des puissances itérées, 80, 90
Méthode des puissances naturelles, 81
Méthodes HR, 14

OPAST, 82, 99

Vous aimerez peut-être aussi