Académique Documents
Professionnel Documents
Culture Documents
Thèse
présentée pour obtenir le grade de docteur
de l’Ecole Nationale Supérieure des Télécommunications
Spécialité : Signal et Images
Roland BADEAU
Méthodes à haute résolution pour l’estimation
et le suivi de sinusoïdes modulées.
Application aux signaux de musique.
Remerciements
Je remercie avant tout mes directeurs de thèse, Gaël Richard et Bertrand David, qui m’ont apporté
leur compétence scientifique et se sont montrés présents et disponibles pendant toute cette période. Ils
ont su accompagner mon travail tout en m’accordant la liberté d’approfondir les thèmes de recherche
qui me tenaient à coeur.
Je remercie aussi Henri Maître et Yves Grenier, qui m’ont accueilli au sein du département de
Traitement du Signal et des Images (TSI) de l’ENST, dans un environnement très favorable à la
réussite de ces travaux de recherche.
Je remercie également les autres membres du jury de m’avoir fait l’honneur de participer à ma
soutenance : Pierre Comon, président du jury, Sylvie Marcos et Philippe Depalle, rapporteurs, et enfin
Yves Grenier et Karim Abed-Meraim, examinateurs.
L’idée originale d’appliquer les méthodes à haute résolution aux signaux de musique m’a été sug-
gérée par Bertrand David, qui les avait lui-même utilisées dans sa thèse de doctorat pour étudier les
vibrations acoustiques en atmosphère raréfiée. Ces méthodes font partie des compétences développées
au sein du département TSI depuis un certain nombre d’années, en particulier dans les équipes TSAC,
AAO et COD.
Pendant la première période de ma thèse, Rémy Boyer m’a apporté son expérience des méthodes
à haute résolution qu’il avait acquise dans le cadre du codage audio.
Karim Abed-Meraim a également été un interlocuteur privilégié, qui m’a fait partager ses connais-
sances dans le domaine des techniques de poursuite de sous-espace.
Ma collaboration avec Miguel Alonso a conduit au développement d’un algorithme original d’esti-
mation du tempo musical.
Je remercie aussi tous les enseignants-chercheurs du département TSI avec lesquels j’ai échangé
quelques fructueuses conversations, notamment Maurice Charbit et Jacques Prado, sans oublier les
nombreux thésards avec lesquels j’ai pu partager quelques moments de distraction pendant ces trois
années de dur labeur.
Enfin, parvenir au terme de cette aventure aurait été plus difficile sans le soutien bienveillant et
chaleureux de ma famille et de mes proches.
ii
Remerciements i
Acronymes x
Notations xii
Introduction 1
C Articles 199
Bibliographie 221
Index 229
vii
VI.1 Valeurs et vecteurs propres pour un signal contenant deux fréquences (n = l = 20) . 79
VI.2 Algorithmes de complexité élevée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
VI.3 Algorithmes de complexité linéaire O((n + l)r 2 ) ou O(nr) à fenêtre rectangulaire . . 86
VI.4 Algorithmes de complexité linéaire O(nr 2 ) à fenêtre exponentielle . . . . . . . . . . 87
VI.5 Algorithmes de complexité linéaire O(nr) à fenêtre exponentielle . . . . . . . . . . . 88
VI.6 Algorithmes à convergence lente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
VII.1 Poursuite de l’espace signal reposant sur une fenêtre exponentielle (1/2) . . . . . . . 103
VII.2 Poursuite de l’espace signal reposant sur une fenêtre exponentielle (2/2) . . . . . . . 104
VII.3 Poursuite de l’espace signal reposant sur une fenêtre rectangulaire . . . . . . . . . . 105
VII.4 Influence du rapport signal à bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
VII.5 Influence des paramètres n et r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
VIII.1 Poursuite de l’espace signal reposant sur une fenêtre exponentielle . . . . . . . . . . 117
VIII.2 Poursuite de l’espace signal reposant sur une fenêtre rectangulaire . . . . . . . . . . 118
1 Structure du document . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Acronymes
Pour des raisons de lisibilité, la signification d’une abréviation ou d’un acronyme n’est souvent
rappelée qu’à sa première apparition dans le texte d’un chapitre. Par ailleurs, puisque nous utilisons
toujours l’abréviation la plus usuelle, il est fréquent que ce soit le terme anglais qui soit employé.
MKT Modified KT
MUSIC MUltiple SIgnal Classification
NIC Novel Information Criterion
NP3 fast Natural Power
OPAST PAST orthonormé
PACE Polynomial Amplitude Complex Exponentials
PAST Projection Approximation Subspace Tracking
QR orthogonale-triangulaire
SACF Fonction d’Auto-Corrélation de Synthèse
SP Subspace Projection
RSB Rapport Signal à Bruit
SVD Décomposition en Valeurs Singulières
SW-NIC NIC à fenêtre rectangulaire
SW-PAST PAST à fenêtre rectangulaire
SW-OPAST OPAST à fenêtre rectangulaire
SWASVD Sliding Window Adaptive SVD
TAM Toeplitz Approximation Method
TFD Transformée de Fourier Discrète
TLS Total Least Squares
TLS-ESPRIT Total Least Squares ESPRIT
TW-API API à fenêtre tronquée
TW-FAPI FAPI à fenêtre tronquée
YAST Yet Another Subspace Tracker
xiii
Notations
Nous avons regroupé ci-dessous les principales notations employées dans les différents chapitres
du document. Dans la mesure du possible, nous avons tenté de conserver les mêmes notations d’un
chapitre à l’autre.
v vecteur
v(z) vecteur contenant les puissances successives du scalaire z : v(z) = [1, z, z 2 , . . .]T
em vecteur dont tous les échantillons sont nuls, sauf celui d’indice m, égal à 1
M matrice
(.)T transposé
(.)H conjugué hermitien
Re(.) partie réelle
Im(.) partie imaginaire
span(.) espace image d’une matrice
ker(.) noyau d’une matrice
diag(.) matrice diagonale construite à partir d’un vecteur
dim(.) dimension d’un espace vectoriel
rank(.) rang d’une matrice
trace[.] trace d’une matrice
det(.) déterminant d’une matrice carrée
cond(.) conditionnement (rapport de la plus grande sur la plus petite valeur singulière)
c
(.) estimateur d’un paramètre
E[.] espérance mathématique
var(.) variance d’une variable aléatoire
cov(.) matrice de covariance d’un vecteur aléatoire
CRB{.} borne de Cramér-Rao pour un estimateur
Tous les indices désignant des éléments de vecteurs ou de matrices sont numérotés à partir de 0.
xiv NOTATIONS
1
Introduction
Dans le cadre du traitement de la parole et des signaux de musique, la partie tonale d’une grande va-
riété de sons trouve une modélisation efficace comme une somme de sinusoïdes à paramètres lentement
variables. Par exemple, les sons qui produisent une sensation de hauteur bien définie possèdent une
forme d’onde quasi périodique (sur une durée supérieure à quelques dizaines de milisecondes). L’analyse
de Fourier montre que ces signaux sont composés de sinusoïdes satisfaisant une relation d’harmonicité,
ce qui signifie que leurs fréquences sont multiples de la fréquence fondamentale, définie comme l’inverse
de la période. C’est notamment le cas des signaux de parole dits voisés, produits par vibration quasi
périodique des cordes vocales, comme les voyelles. De nombreux instruments à vent ou à corde pro-
duisent également des sons harmoniques ou quasi harmoniques. Cependant, dans un signal de musique
polyphonique, les sons émis simultanément par un ou plusieurs instruments se superposent ; ainsi la
relation d’harmonicité n’est plus vérifiée, mais le signal reste essentiellement constitué de sinusoïdes.
En traitement de la parole, le modèle sinusoïdal a été introduit par McAulay et Quatieri au début
des années 80 pour coder le signal en bande téléphonique [Mc Aulay et Quatieri, 1986]. Ce type de
représentation a également été utilisé en traitement des signaux de musique, notamment à Stanford,
dans le cadre des travaux de X. Serra qui a développé un système complet d’analyse / synthèse [Serra et
Smith, 1990]. Cette approche a également été adoptée pour coder les signaux de musique, notamment
dans le cadre du codeur bas-débit MPEG4-HILN. De telles applications nécessitent de disposer d’ou-
tils performants pour estimer les paramètres du modèle. Il s’agit d’un problème classique d’estimation,
vieux de plus de deux cents ans. Dans ce domaine, la transformation de Fourier est un outil privilégié
en raison de sa robustesse, de la simplicité de sa mise en oeuvre, et de l’existence d’algorithmes rapides
(Fast Fourier Transform (FFT)). Elle présente néanmoins un certain nombre d’inconvénients. Tout
d’abord, sa précision fréquentielle, c’est-à-dire la précision avec laquelle la fréquence d’une sinusoïde
peut être estimée, est limitée par le nombre d’échantillons utilisés pour la calculer. Cette première
limitation peut cependant être contournée en prolongeant le signal utile par une suite de zéros. Ce-
pendant, sa résolution fréquentielle, c’est-à-dire sa capacité à distinguer deux sinusoïdes proches, est
limitée par la durée du signal observé. Malgré ces inconvénients, la transformation de Fourier reste au-
jourd’hui encore l’outil le plus utilisé en analyse spectrale. Elle a donné lieu à de nombreuses méthodes
d’estimation des fréquences des sinusoïdes [Keiler et Marchand, 2002].
gnal audio, malgré leur supériorité en terme de résolution spectrale (en particulier sur des fenêtres
temporelles courtes), elles restent peu utilisées en raison de leur forte complexité algorithmique.
L’origine des méthodes HR remonte aux travaux de Prony publiés en 1795, qui visent à estimer
une somme d’exponentielles par des techniques de prédiction linéaire [Riche de Prony, 1795]. Plus
récemment, cette approche a été approfondie par Pisarenko pour estimer des sinusoïdes [Pisarenko,
1973]. Les fréquences se déduisent alors des racines du polynôme prédicteur. Les méthodes HR modernes
reposent sur les propriétés particulières de la matrice de covariance du signal. Ainsi, l’étude de son
rang permet de séparer l’espace des données en deux sous-espaces, l’espace signal engendré par les
sinusoïdes, et l’espace bruit qui est son complémentaire orthogonal. Les méthodes HR issues de cette
décomposition en sous-espaces sont plus robustes que les techniques de prédiction linéaire. Citons par
exemple la méthode MUltiple SIgnal Classification (MUSIC) [Schmidt, 1986], qui s’appuie sur l’espace
bruit, et les méthodes Matrix Pencil [Hua et Sarkar, 1990] et Estimation of Signal Parameters via
Rotational Invariance Techniques (ESPRIT) [Roy et al., 1986], qui s’appuient sur l’espace signal.
Nous montrerons également dans cette thèse que les méthodes HR permettent de représenter effica-
cement des signaux modulés lentement en fréquence, comme dans le cas d’un trémolo, d’un vibrato ou
d’un glissando. Elles possèdent donc un potentiel intéressant dans le cadre de l’analyse des signaux de
musique. Cependant elles présentent un inconvénient notable : leur complexité algorithmique élevée,
de l’ordre de N 3 , où N est la longueur de l’horizon d’observation1 . D’autre part, elles s’appuient sur
un modèle de signal à paramètres constants, alors que les signaux de musique présentent une certaine
variabilité. Il paraît donc nécessaire de développer des techniques de plus faible complexité permettant
le suivi des paramètres tout en conservant la même résolution spectrale.
en particulier dans un contexte adaptatif. Les bornes de Cramér-Rao pour le modèle PACE sont
calculées analytiquement dans le contexte le plus général (sans approximation asymptotique). Les
performances de l’algorithme ESPRIT généralisé sont ensuite déterminées en terme de biais, de variance
et d’efficacité, grâce à la théorie des perturbations, sous l’hypothèse d’un fort rapport signal à bruit.
Tous ces résultats peuvent être directement particularisés au modèle ESM.
Par ailleurs, l’algorithme ESPRIT, comme toutes les méthodes HR, présuppose que l’ordre de
modélisation est connu, ce qui n’est généralement pas le cas en pratique. Quelle est la perturbation
induite sur les pôles estimés lorsque cet algorithme est appliqué avec un ordre de modélisation er-
roné ? Le travail mené au cours de cette thèse a permis d’apporter une réponse quantitative à cette
question, à partir de laquelle nous avons développé une nouvelle méthode d’estimation de l’ordre du
modèle, plus robuste que les critères généralement utilisés, issus de la théorie de l’information. Cette
méthode d’estimation peut être appliquée au modèle PACE comme au modèle ESM. Enfin, comme la
complexité algorithmique constitue un problème crucial pour la mise en oeuvre des méthodes HR, une
implémentation rapide de l’algorithme ESPRIT est proposée.
Enfin, dans un contexte adaptatif, nous avons cherché à réduire encore davantage le coût de cet
algorithme, en utilisant des techniques de poursuite de l’espace signal. Nous proposons ainsi de nou-
veaux algorithmes de poursuite, qui offrent un meilleur compromis performance / complexité que les
méthodes existantes. L’un d’eux possède la complexité la plus faible et atteint des performances équi-
valentes à celles d’une EVD ou d’une SVD. L’estimation de l’espace signal n’étant que la première
étape de l’algorithme ESPRIT, nous proposons également une implémentation adaptative des étapes
restantes (estimation de la matrice spectrale et de ses valeurs propres), qui permet de déterminer les
paramètres plus rapidement sans aucune perte de performance. Un algorithme complet d’estimation
et de poursuite des paramètres est ainsi obtenu, totalement adaptatif et de faible complexité.
Nous avons ensuite mis en oeuvre cet algorithme dans le cadre de l’analyse spectrale des signaux de
musique. Nous avons pu observer que cette mise en oeuvre est délicate, et qu’il est préférable de pré-
traiter les signaux de façon à ce qu’ils respectent au mieux le modèle de signal, tout en tenant compte
des propriétés du système auditif humain. Un système complet d’analyse / synthèse du signal audio
est ainsi proposé, dont le coeur est l’analyse HR. Ce système peut avoir plusieurs applications, comme
le codage, le débruitage et l’extraction du bruit additif. Une application de ce système développée en
collaboration avec M. Alonso sera présentée à la fin du mémoire : l’estimation du rythme musical.
Le lecteur remarquera sans doute que la partie théorique de ce document repose sur un modèle
de signal à valeurs complexes, alors que le signal audio est à valeurs réelles. Nous avons fait ce choix
pour la simple raison que les résultats théoriques s’expriment de façon plus concise et plus intelli-
gible en complexe qu’en réel. De plus, les résultats pour le modèle réel sont généralement obtenus en
particularisant les résultats pour le modèle complexe2 .
Structure du document
Le document est structuré en quatre parties regroupant chacune plusieurs chapitres. La lecture d’un
chapitre particulier ne requiert généralement pas d’avoir lu l’ensemble des chapitres qui le précèdent.
La table 1 présente un schéma des principales dépendances entre chapitres.
2
En pratique, il serait quand même possible d’appliquer l’algorithme d’estimation en complexe, en filtrant préalable-
ment le signal audio à l’aide d’un filtre analytique. Cela permettrait de réduire la complexité car la dimension de l’espace
signal serait alors divisée par deux ; cependant les calculs matriciels sont quatre fois plus coûteux en complexe qu’en réel.
Introduction 5
Première partie
- Chapitre III
Chapitre II
Deuxième partie
6 - Chapitre IV -Chapitre VII
- Chapitre IX
?
Chapitre X - Chapitre XI
Troisième partie
Première partie
Chapitre I
Résumé
Ce chapitre est consacré à l’estimation des paramètres d’un signal composé d’une
somme de sinusoïdes modulées exponentiellement et perturbées par un bruit additif.
Le principe du maximum de vraisemblance ramène alors l’estimation des amplitudes
et des phases à un problème de moindres carrés simple, alors que l’estimation des
fréquences et des facteurs d’atténuation exige des méthodes plus sophistiquées, dites
à haute résolution, car elles s’affranchissent des limites de l’analyse de Fourier en
terme de résolution spectrale.
10 CHAPITRE I. ÉTAT DE L’ART DES MÉTHODES À HAUTE RÉSOLUTION
I.1 Introduction
L’origine des méthodes HR remonte aux travaux de Prony publiés en 1795, qui visent à estimer
une somme d’exponentielles par des techniques de prédiction linéaire [Riche de Prony, 1795]. Plus
récemment, cette approche a été approfondie par Pisarenko pour estimer des sinusoïdes [Pisarenko,
1973]. En comparaison, les méthodes HR modernes reposent sur les propriétés particulières de la matrice
de covariance du signal. Ainsi, l’étude de son rang permet de séparer l’espace des données en deux
sous-espaces, l’espace signal engendré par les sinusoïdes, et l’espace bruit qui est son complémentaire
orthogonal. Les méthodes HR issues de cette décomposition en sous-espaces sont connues pour être plus
robustes que les techniques de prédiction linéaire. C’est le cas des méthodes MUSIC [Schmidt, 1986] et
root-MUSIC [Barabell, 1983] (qui reposent sur l’espace bruit), de l’algorithme Toeplitz Approximation
Method (TAM) [Kung et al., 1983], ainsi que de l’algorithme ESPRIT [Roy et al., 1986] et de ses
variantes TLS-ESPRIT [Roy et Kailath, 1987] et PRO-ESPRIT [Zoltawski et Stavrinides, 1989] (qui
reposent sur l’espace signal). En fait, toutes ces méthodes d’estimation peuvent être appliquées à un
modèle de signal plus général, le modèle ESM, qui représente le signal comme une somme de sinusoïdes
modulées exponentiellement. Ce modèle est également baptisé Exponentially Damped Sinusoids (EDS)
quand la modulation est décroissante [Nieuwenhuijse et al., 1998]. D’autres techniques d’estimation ont
été spécifiquement développées pour le modèle ESM, telles que l’algorithme de Kumaresan et Tufts
(KT), encore appelé méthode Min-Norm [Kumaresan et Tufts, 1982], et sa version modifiée Modified
KT (MKT) [Li et al., 1997] (de type prédiction linéaire), et la méthode Matrix Pencil [Hua et Sarkar,
1990] (de type sous-espace). Une liste plus complète de ces méthodes peut être consultée dans [Van der
Veen et al., 1993].
Ce chapitre n’a pas vocation à présenter les méthodes HR de façon exhaustive, mais plutôt à
familiariser le lecteur avec les concepts sur lesquels elles reposent. C’est pourquoi seules certaines d’entre
elles sont présentées ici : les méthodes de Prony, de Pisarenko, MUSIC et ESPRIT. Cet exposé débutera
par la définition du modèle de signal (section I.2). Puis la méthode du maximum de vraisemblance, qui
permet d’établir un lien avec la transformation de Fourier, sera présentée dans la section I.3. Ensuite
les méthodes à haute résolution pour estimer les pôles complexes seront introduites dans la section I.4,
et des techniques d’estimation des autres paramètres du modèle seront présentées dans la section I.5.
La section I.6 sera consacrée à l’analyse des performances des méthodes HR. Enfin, les résultats de ce
chapitre seront résumés dans la section I.7.
P
K−1
s(t) = αk zk t (I.1)
k=0
En outre, le signal observé x(t) peut être modélisé comme la somme du signal déterministe s(t)
défini ci-dessus et d’un bruit blanc gaussien complexe centré w(t) de variance σ 2 . Rappelons qu’un
bruit blanc gaussien complexe centré est une suite de variables aléatoires i.i.d à valeurs complexes, de
|w|2
densité de probabilité p(w) = 1
πσ2
e− σ2 . On obtient ainsi la relation
Le signal est observé sur des fenêtres temporelles de longueur N ≥ K. Ainsi, pour tout t ∈ Z, on
considère la fenêtre temporelle {t − l + 1 . . . t + n − 1}, où les entiers n et l sont tels que N = n + l − 1,
et on définit le vecteur s(t) = [s(t − l + 1), . . . , s(t + n − 1)]T , de dimension N . Pour tout z ∈ C, posons
K−1
P
v(z) = [1, z, . . . , z N −1 ]T . Or s(t) = αk zkt−l+1 v(zk ). Cette égalité peut être réécrite sous la forme
k=0
d’un produit : s(t) = V N J t−l+1 α, où α = [α0 , . . . , αK−1 ]T est un vecteur de
dimension K, J =
N
diag(z0 , . . . , z(K−1) ) est une matrice diagonale de dimension K × K, et V = v(z0 ), . . . , v(z(K−1) )
est une matrice de Vandermonde de dimensions N × K :
1 1 ... 1
z0 z1 ... zK−1
N
V = .. .. .. .. .
. . . .
z0 N −1 z1 N −1 . . . zK−1 N −1
Définissons alors le vecteur d’amplitudes à l’instant t, α(t) = J t−l+1 α, de sorte que s(t) = V N α(t). Il
est connu que la matrice de Vandermonde carrée V K extraite des K premières lignes de V N (rappelons
que N ≥ K) a pour déterminant [Horn et Johnson, 1985, pp. 29]
Q
det(V K ) = (zk2 − zk1 ). (I.3)
0≤k1 <k2 ≤K−1
Ainsi, la matrice V N est de rang plein si et seulement si tous les pôles sont distincts. La relation
s(t) = V N α(t) montre donc que pour chaque instant t le vecteur s(t) vit dans l’espace image de la
matrice V N , de dimension inférieure ou égale à K dans le cas général, et égale à K si tous les pôles
sont distincts.
Soit w(t) = [w(t − l + 1), . . . , w(t + n − 1)]T le vecteur contenant les échantillons du bruit additif.
Il s’agit d’un vecteur aléatoire gaussien centré, dont la matrice de covariance est Rww = σ 2 I N . Notons
enfin x(t) = [x(t − l + 1), . . . , x(t + n − 1)]T le vecteur de données observées. Ce vecteur vérifie donc
x(t) = s(t) + w(t). Le modèle étant posé, l’analyse du signal s(t) va consister à estimer les paramètres
σ 2 , z0 ,. . . , z(K−1) et α(t). Une technique classique d’estimation paramétrique, la méthode du maximum
de vraisemblance, est appliquée à ce modèle dans la prochaine section.
1 2
σ2 = N x(t) − V N α(t) . (I.4)
Il apparaît que σ 2 est estimé en calculant la puissance du résiduel obtenu en soustrayant les exponen-
tielles du signal observé.
La matrice V N est de rang plein, puisqu’il a été supposé dans la section I.2 que les pôles sont
H
distincts deux à deux. Ainsi, la matrice V N V N est inversible. Pour minimiser g par rapport au
couple (z0 . . . zK−1 , α(t)), il suffit d’utiliser la décomposition
H
−1 H
g(z0 . . . zK−1 , α(t)) = x(t)H x(t) − x(t)H V N V N V N V N x(t)
−1 H −1
H H H H H
+ α(t) − V N V N V N x(t) VN VN α(t) − V N V N V N x(t) .
Le dernier terme de cette équation est toujours positif, et peut être rendu nul en posant
−1
H H
α(t) = V N V N V N x(t). (I.5)
Il apparaît que le vecteur des amplitudes complexes α(t) est estimé de la même façon qu’en utilisant
la méthode des moindres carrés ordinaire.
La fonction g est donc minimale quand le K-uplet (z0 . . . zK−1 ) maximise la fonction J définie par
−1
H H
J (z0 , . . . , z(K−1) ) = x(t)H V N V N V N V N x(t). (I.6)
Comme ce problème d’optimisation ne possède pas de solution analytique dans le cas général, il doit
être résolu numériquement. En résumé, le principe du maximum de vraisemblance conduit à estimer
les paramètres du modèle en trois étapes :
I.3. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE 13
les pôles complexes sont obtenus en effectuant la maximisation de la fonction J (équation (I.6)),
les amplitudes complexes sont obtenues en calculant le membre de droite de l’équation (I.5),
l’écart-type est alors donné par l’équation (I.4).
Malheureusement, il se trouve que la première étape de cette méthode d’estimation, qui requiert
l’optimisation d’une fonction de K variables complexes, est difficile à implémenter, car la fonction à
maximiser possède de nombreux maxima locaux. De plus, elle s’avère extrêmement coûteuse en temps
de calcul. C’est pourquoi on utilise généralement des méthodes plus fiables et plus rapides pour estimer
les pôles complexes. Néanmoins, une fois les pôles estimés, le principe du maximum de vraisemblance
peut être utilisé pour déterminer les amplitudes complexes et l’écart-type du bruit.
1
N >> .
min |fk2 − fk1 |
k1 6=k2
H
La matrice V N V N est une matrice hermitienne définie positive de dimension K × K, dont les
n o NP
−1
H
coefficients peuvent être calculés analytiquement : V N V N = (zk∗1 zk2 )τ . On obtient alors
(k1 , k2 ) τ =0
n o
H sin(πN (fk2 −fk1 ))
1
N VN VN = eiπ(N −1)(fk2 −fk1 ) N sin(π(fk2 −fk1 )) si k1 6= k2
n (k ,
o 1 2 k )
1 H
N VN VN = 1 si k1 = k2 = k
(k, k)
14 CHAPITRE I. ÉTAT DE L’ART DES MÉTHODES À HAUTE RÉSOLUTION
1 H
Ainsi, quand N >> , 1VN VN
min |fk2 −fk1 | N
= IK + O 1
N , donc
k1 6=k2
−1
NH N 1 1
V V = IK + O .
N N2
K−1
X
1 NH
2 1 b k) + O 1
J (z0 , . . . , zK−1 ) = V x(t) +O = R(z .
N N2 N2
k=0
1 H
De même, l’équation (I.5) se simplifie en α(t) = N V N x(t) + O 1
N2
, d’où
1 1
αk (t) = X(ei2πfk ) + O .
N N2
P
K−1
Enfin, l’équation (I.4) se simplifie en σ2 = 1
kx(t)k2 − b
R(ei2πf k ) +O 1
.
N N2
k=0
On observe ainsi la limite de l’analyse de Fourier en terme de résolution spectrale : les paramètres
sont estimés correctement à condition que la longueur de la fenêtre observée soit suffisamment grande
devant l’inverse du plus petit écart fréquentiel entre deux pôles voisins. C’est de cette limite que les
méthodes HR présentées dans la section I.4 permettent de s’affranchir. Ainsi, les méthodes HR sont
capables de distinguer deux sinusoïdes proches, que l’analyse de Fourier ne permet pas de discerner
(un exemple sera donné dans la section IV.4.2). Dans les applications, les méthodes HR pourront
être utilisées avec des fenêtres plus courtes que celles que l’on utilise habituellement avec l’analyse de
Fourier.
P
K
pτ s(t − τ ) = 0 (I.7)
τ =0
P
K−1
pour tout t ∈ Z si et seulement si il existe des scalaires α0 , . . . , αK−1 ∈ C tels que s(t) = αk zk t .
k=0
récurrence linéaires [Riche de Prony, 1795]. Cette méthode était originellement destinée à estimer
des exponentielles réelles non bruitées ; cependant nous l’appliquons ici à l’estimation d’exponentielles
complexes bruitées. La méthode de Prony consiste à déterminer dans un premier temps le polynôme
P [z] à l’aide de techniques de prédiction linéaire, puis à extraire les racines de ce polynôme. On définit
l’erreur de prédiction
XK
ε(t) , pτ x(t − τ ). (I.8)
τ =0
En particulier, en substituant les équations (I.2) et (I.7) dans l’équation (I.8), on obtient ε(t) =
P
K
pτ w(t − τ ). L’erreur de prédiction caractérise donc uniquement le bruit qui se superpose au signal.
τ =0
Plaçons-nous dans le cas particulier n = K + 1, et supposons que l ≥ K + 1. Ainsi, le signal est observé
sur la fenêtre {t − l + 1 . . . t + K}. En appliquant l’équation (I.8) aux instants {t − l + K + 1, t − l +
K + 2, . . . , t + K}, on obtient le système d’équations
p0 x(t − l + K + 1) + p1 x(t − l + K) + ... + pK x(t − l + 1) = ε(t − l + K + 1)
p0 x(t − l + K + 2) + p1 x(t − l + K + 1) + . . . + pK x(t − l + 2) = ε(t − l + K + 2)
.. .. .. ..
. + . + ... + . = .
p0 x(t + K) + p1 x(t + K − 1) + ... + pK x(t) = ε(t + K)
(I.9)
H
Posons alors p = pK , p(K−1) , . . . , p0 , ε(t) = [ε(t − l + K + 1), ε(t − l + K + 2), . . . , ε(t + K)]H
I.4. MÉTHODES À HAUTE RÉSOLUTION 17
et
x(t − l + 1) ··· x(t − 1) x(t)
x(t − l + 2) ··· x(t) x(t + 1)
X(t) = .. .. .. (I.10)
. ··· . .
x(t − l + K + 1) · · · x(t + K − 1) x(t + K)
de sorte que le système d’équations (I.9) peut être condensé sous la forme pH X(t) = ε(t)H .
La méthode de Prony consiste à minimiser la puissance de l’erreur de prédiction 1l kεk2 par rapport
à p, sous la contrainte p0 = 1. Or il est possible d’écrire 1l kεk2 = pH Rb xx (t) p, où la matrice R
b xx (t) =
1 H
l X(t) X(t) est de dimension (K + 1) × (K + 1). Comme la matrice X(t) possède K + 1 lignes et
l ≥ K + 1 colonnes, on peut supposer que la matrice R b xx (t) est inversible. La solution de ce problème
d’optimisation est alors
1 b xx (t)−1 e1
p= R
H b −1
e Rxx (t) e1
1
La méthode de Pisarenko est une variante de la méthode de Prony. Elle consiste à minimiser la
puissance de l’erreur de prédiction 1l kεk2 = pH R b xx (t) p sous la contrainte que le vecteur p soit de
norme 1. La solution de ce problème d’optimisation est le vecteur propre de la matrice R b xx (t) associé
à la plus petite valeur propre.
Ainsi la méthode de Pisarenko [Pisarenko, 1973] consiste à
– calculer et diagonaliser Rb xx (t) ;
– déterminer p comme le vecteur propre associé à la plus petite valeur propre ;
– extraire les racines du polynôme P [z].
Les méthodes de Prony et de Pisarenko constituent les plus anciennes méthodes HR. Comme nous
le montrerons dans la section I.6.2, elles s’avèrent peu robustes en pratique, c’est pourquoi les méthodes
de type sous-espace, proposées plus récemment, leur sont généralement préférées.
Hankel :
s(t − l + 1) · · · s(t − 1) s(t)
s(t − l + 2) · · · s(t) s(t + 1)
S(t) = .. .. .. . (I.11)
. ··· . .
s(t − l + n) · · · s(t + n − 2) s(t + n − 1)
La proposition suivante, démontrée dans [Hua et Sarkar, 1990], caractérise le modèle de signal.
Proposition I.4.2 (Factorisation de la matrice de données). Les assertions suivantes sont équiva-
lentes :
1. Le signal s(t) satisfait le modèle défini dans l’équation (I.1) sur l’intervalle {t−l+1, . . . , t+n−1} ;
2. La matrice S(t) définie dans l’équation (I.11) peut être factorisée sous la forme
T
S(t) = V n D(t) V l (I.12)
Cette proposition montre que la matrice S(t) est de rang inférieur ou égal à K. Plus précisément,
elle est de rang K si et seulement si n ≥ K, l ≥ K, tous les pôles zk sont distincts et non nuls, et
toutes les amplitudes αk sont non nulles. Dans ce cas, son espace image est engendré par la matrice
V n . La structure singulière de la matrice de données induit une structure équivalente pour la matrice
de corrélation, définie ci-dessous.
où
1 T ∗
P (t) =D(t) V l V l D(t)H (I.14)
l
est une matrice symétrique définie positive. Ainsi, l’équation (I.13) montre que sous les mêmes hypo-
thèses que pour S(t), la matrice Rss (t) est de rang K. Son espace image, appelé espace signal dans la
littérature, est engendré par la matrice V n . En particulier, les K valeurs propres de Rss (t) associées
à cet espace sont strictement positives, alors que les n − K autres sont nulles.
On définit ensuite la matrice X(t) à partir des échantillons du signal bruité x(t), de la même
manière que la matrice S(t) dans l’équation (I.11), et on considère la matrice de corrélation
Posons alors Rb xx (t) = 1 C xx (t) (comme dans la section I.4.1.2). Puisque le bruit additif w(t) est blanc
l
b xx (t)] vérifie Rxx (t) = Rss (t) + σ 2 I n . Cette dernière
et centré, de variance σ 2 , la matrice Rxx (t) = E[R
équation montre que tous les vecteurs propres de la matrice Rss (t) sont également vecteurs propres
de Rxx (t), et que les valeurs propres correspondantes de Rxx (t) sont égales à celles de Rss (t) plus σ 2 .
Par conséquent, l’espace signal est également l’espace principal de dimension K de la matrice Rxx (t),
I.4. MÉTHODES À HAUTE RÉSOLUTION 19
c’est-à-dire l’espace propre de Rxx (t) associé aux K plus grandes valeurs propres, toutes strictement
supérieures à σ 2 . Les n − K valeurs propres associées au complémentaire orthogonal de l’espace signal,
appelé espace bruit, sont toutes égales à σ 2 . Il est possible d’estimer l’espace signal et l’espace bruit en
calculant l’ EVD de la matrice R b xx (t), ou encore la SVD de X(t). En juxtaposant les K principaux
vecteurs propres ou singuliers de l’une de ces matrices, on obtient ainsi une matrice W (t) de dimensions
n × K engendrant l’espace signal, et en juxtaposant les n − K autres vecteurs, on obtient une matrice
W ⊥ (t) de dimensions n × (n − K) engendrant l’espace bruit.
L’idée qui consiste à décomposer l’espace des données en deux sous-espaces (signal et bruit) est à
l’origine de plusieurs méthodes à haute résolution, parmi lesquelles la méthode MUSIC, présentée dans
la section I.4.2.3, et la méthode ESPRIT, présentée dans la section I.4.2.4.
La méthode MUSIC, développée par R. O. Schmidt [Schmidt, 1981], repose sur la remarque sui-
vante : les pôles {zk }k=0...K−1 sont les uniques solutions de l’équation
où v(z) = [1, z, , . . . , z n −1]T . En effet, z est solution si et seulement si v(z) ∈ span(W (t)) = span(V n ).
Donc tout pôle zk est solution, et il ne peut y en avoir d’autre car dans le cas contraire l’espace signal
serait de dimension strictement plus grande que K. Ainsi, la méthode root-MUSIC [Barabell, 1983]
consiste à
– calculer et diagonaliser la matrice R b xx (t) ;
– en déduire une base de l’espace bruit W ⊥ (t) ;
– extraire les racines de l’équation (I.16).
Dans le cas particulier où l’espace bruit est de dimension 1, elle est équivalente à la méthode de
Pisarenko présentée dans la section I.4.1.3.
Dans la pratique, les signaux réels ne correspondent pas rigoureusement au modèle, et l’équa-
tion (I.16) n’est pas rigoureusement vérifiée. C’est pourquoi la méthode spectral-MUSIC [Schmidt,
1986] consiste plutôt à rechercher les K pics les plus élevés de la fonction S(z) b = kW H1v(z)k2 .
⊥
La méthode ESPRIT [Roy et al., 1986] s’appuie sur une propriété particulière de l’espace signal :
l’invariance rotationnelle. Soit V n↓ la matrice de dimensions (n − 1)× K qui contient les n − 1 premières
lignes de V n , et V n↑ la matrice de dimensions (n − 1) × K qui contient les n − 1 dernières lignes de
V n . De même, soit W (t)↓ la matrice de dimensions (n − 1) × K qui contient les n − 1 premières lignes
de W (t), et W (t)↑ la matrice de dimensions (n − 1) × K qui contient les n − 1 dernières lignes de
W (t). Alors on vérifie que
V n↑ = V n↓ J (I.17)
où J = diag(z0 , . . . , z(K−1) ). Or les colonnes de V n et celles de W (t) constituent deux bases d’un même
espace vectoriel de dimension K. Ainsi, il existe une matrice inversible G(t) de dimension K × K telle
que
V n = W (t) G(t) (I.18)
20 CHAPITRE I. ÉTAT DE L’ART DES MÉTHODES À HAUTE RÉSOLUTION
où G(t) est définie comme la matrice de passage de la première base à la seconde. En substituant
l’équation (I.18) dans l’équation (I.17), on montre que
En particulier, les valeurs propres de Φ(t) sont les pôles {zk }k=0...K−1 .
Finalement, l’algorithme ESPRIT se décompose en quatre étapes :
b xx (t) ;
– calculer et diagonaliser la matrice R
– en déduire une base de l’espace signal W (t) ;
– extraire de W (t) les matrices W (t)↓ et W (t)↑ ;
– estimer la matrice spectrale Φ(t) en utilisant la méthode des moindres carrés (Least Squares
(LS))1 ou des moindres carrés totaux (Total Least Squares (TLS)) 2 .
– diagonaliser Φ(t) et en déduire les pôles estimés.
Des études théoriques et expérimentales ont montré que la méthode ESPRIT est la plus performante
des méthodes HR présentées ci-dessus (cf. section I.6.2).
Parmi toutes ces méthodes, nous présentons ici les plus classiques, à savoir les trois principaux
critères ITC : AIC, MDL et EDC (qui est une généralisation robuste de AIC et MDL). Ces méthodes
consistent à minimiser une fonction de coût composée d’un premier terme commun et d’un second
terme qui constitue un facteur de pénalisation :
! n−p
1
Qn σq2
ITC(p) = −(n − p) l ln + p (2n − p) C(l)
q=p+1
1 Pn σq2
n−p
q=p+1
Définition I.6.1 (Modèle statistique régulier). Soit un modèle statistique dominé par une mesure µ et
paramétré par θ ∈ Θ, où Θ est une partie ouverte de Rq . Notons x la variable vectorielle de dimension
N . La paramétrisation est dite régulière si les conditions suivantes sont vérifiées :
1. la densité de probabilité p(x; θ) est continûment dérivable, µ-presque partout, par rapport à θ.
2. la matrice d’information de Fisher
Z
F (θ) , l(x; θ) l(x; θ)T p(x; θ) dx
H
définie à partir de la fonction de score l(x; θ) , ∇θ ln p(x; θ) 1p(x; θ)>0 est définie positive pour
toute valeur du paramètre θ et continue par rapport à θ.
Théorème I.6.1 (Borne de Cramér-Rao). Soit un modèle statistique régulier paramétré par θ ∈ Θ.
b un estimateur non biaisé de θ (∀θ ∈ Θ, Eθ [θ]
Soit θ b = θ). Alors la matrice de dispersion D(θ, θ)
b ,
T
Eθ θ b−θ θ b−θ b − F (θ)−1 est positive.
est telle que la matrice D(θ, θ)
b
En particulier, les éléments diagonaux de la matrice D(θ, θ)−F (θ)−1 sont positifs. Par conséquent,
b sont supérieures aux éléments diagonaux de la matrice F (θ)−1 . Ainsi
les variances des coefficients de θ
les bornes d’estimation de Cramér-Rao pour l’ensemble des paramètres scalaires s’obtiennent en trois
étapes :
– calcul de la matrice d’information de Fisher ;
– inversion de cette matrice ;
– extraction des éléments diagonaux.
Comme cela a été mentionné dans la section I.3.1, le vecteur x(t) contenant les N échantillons
du signal observé est un vecteur aléatoire gaussien d’espérance s(t) et de matrice de covariance Rww .
Ci-dessous, la dépendance de s(t) et de Rww par rapport aux paramètres du modèle sera mentionnée
explicitement. En revanche, pour simplifier les notations, nous omettrons la dépendance de s(t) par
rapport au temps (qui ne prête pas ici à ambiguïté).
Il est connu que la matrice d’information de Fisher d’un vecteur aléatoire gaussien s’exprime simple-
ment en fonction des paramètres du modèle, comme le montre la proposition suivante [Kay, 1993, pp.
525].
Proposition I.6.2 (Matrice d’information de Fisher pour une densité gaussienne). Pour une famille
de lois de probabilité gaussiennes complexes de matrice de covariance Rww (θ) et de moyenne s(θ),
où 1 N ×N ) et s ∈ C 1 (Θ, CN ), les coefficients de la matrice d’information de Fisher
Rww ∈ C (Θ, C
F (i,j) (θ) 1≤i, j≤k sont donnés par la formule de Bangs-Slepian étendue :
−1 ∂Rww (θ) −1 ∂Rww (θ) H
F (i,j) (θ) = trace Rww ∂θi Rww ∂θj + 2Re ∂s(θ)
∂θi R−1
ww
∂s(θ)
∂θj . (I.20)
En appliquant la formule (I.20) au modèle ESM, on obtient une expression analytique de la matrice
d’information de Fisher. On en déduit le théorème suivant, démontré dans [Hua et Sarkar, 1990] :
Proposition I.6.3. Les bornes de Cramér-Rao pour les paramètres (φk , δk , fk ) sont indépendantes de
ak′ pour tout k′ 6= k, mais proportionnelles à a12 . La borne pour le paramètre ak est indépendante de
k
tous les ak′ . Enfin, les bornes pour tous les paramètres sont indépendantes de toutes les phases φk′ , et
sont inchangées par une translation de l’ensemble des fréquences fk′ .
I.6. PERFORMANCES DES ESTIMATEURS 23
En outre, les bornes de Cramér-Rao peuvent être calculées analytiquement sous certaines hypo-
thèses, comme cela a été fait dans [Rao et Zhao, 1993].
Proposition I.6.4. Supposons que tous les facteurs d’atténuation sont nuls, et faisons tendre N vers
+∞. Alors les bornes de Cramér-Rao pour les paramètres du modèle ESM admettent les développements
limités au premier ordre suivants :
σ2
– CRB{σ} = 4N + O N12 ;
2
– CRB{fk } = 4π26σ N 3 a2k
+ O N14 ;
2
– CRB{ak } = 2σN + O 1
N ;
2
2σ2
– CRB{φk } = N a2 + O N12 .
k
On remarque en particulier que les bornes de Cramér-Rao relatives aux fréquences fk sont de l’ordre
de N13 , ce qui est peu courant en estimation paramétrique. Par ailleurs, il est connu que le principe du
maximum de vraisemblance fournit des estimateurs asymptotiquement efficaces [Kay, 1993]. Ainsi, les
variances des estimateurs donnés dans la section I.3.1 sont asymptotiquement équivalentes aux bornes
de Cramér-Rao données dans la proposition I.6.4. Le cas des méthodes HR est abordé ci-dessous.
Les performances d’un estimateur sont généralement exprimées en terme de biais et de variance. Il
est également possible de mesurer son efficacité, définie comme le rapport de sa variance sur la borne
de Cramér-Rao. En particulier, un estimateur est dit efficace si son efficacité est égale à 1.
Dans le cas des méthodes HR, il s’avère malheureusement impossible de calculer analytiquement
biais et variance, car l’extraction des racines d’un polynôme, ou des valeurs propres d’une matrice,
induit une relation complexe entre les statistiques du signal et celles des estimateurs. Cependant, des
résultats asymptotiques ont pu être obtenus grâce à la théorie des perturbations. Ces résultats reposent
soit sur l’hypothèse N → +∞ (dans le cas où tous les pôles sont sur le cercle unité), soit sur l’hypothèse
d’un fort Rapport Signal à Bruit (RSB) (RSB→ +∞). Sous chacune de ces deux hypothèses, il a été
démontré que toutes les méthodes HR présentées dans ce chapitre sont non biaisées. De plus, sous
l’hypothèse N → +∞, les variances des méthodes de Prony et Pisarenko ont été calculées dans [Stoica
et Nehorai, 1988], et celles de MUSIC et ESPRIT dans [Stoica et Söderström, 1991]. Sous l’hypothèse
RSB→ +∞, la variance de la méthode de Prony a été calculée dans [Kot et al., 1987], celle de MUSIC
dans [Eriksson et al., 1993], et celle de ESPRIT dans [Hua et Sarkar, 1991, Eriksson et al., 1993].
Les développements mathématiques proposés dans tous ces articles sont assez complexes, et sont
fortement liés à la méthode d’estimation considérée, c’est pourquoi ils ne sont pas reproduits dans le
cadre de ce document. Seuls les principaux résultats sont résumés ici. Tout d’abord, il a été démontré
dans [Kot et al., 1987, Stoica et Nehorai, 1988] que les méthodes de Prony et de Pisarenko sont très
inefficaces, au sens statistique du terme : leurs variances sont largement supérieures aux bornes de
Cramér-Rao. De plus, elles augmentent plus vite que les bornes de Cramér-Rao quand le RSB décroit.
En revanche les méthodes MUSIC et ESPRIT ont une efficacité asymptotique proche de 1. Plus pré-
cisément, il a été démontré dans [Stoica et Söderström, 1991, Eriksson et al., 1993] (dans le cadre de
sinusoïdes non modulées) que ces deux méthodes atteignent des performances presque identiques, mais
que ESPRIT est légèrement meilleur que MUSIC. L’étude menée dans [Hua et Sarkar, 1991] (dans le
cas plus général de sinusoïdes modulées exponentiellement) va dans le même sens : ESPRIT s’avère
moins sensible au bruit que MUSIC.
24 CHAPITRE I. ÉTAT DE L’ART DES MÉTHODES À HAUTE RÉSOLUTION
I.7 Conclusion
Dans ce chapitre, nous avons montré que l’estimation des fréquences et des facteurs d’atténuation
par la méthode du maximum de vraisemblance conduit à un problème d’optimisation difficile. Quand
tous les pôles du signal sont sur le cercle unité, elle peut être approchée par la détection des K
principaux pics du périodogramme. Ce résultat n’est valable que lorsque la longueur de la fenêtre
d’observation est suffisamment grande devant l’inverse du plus petit écart fréquentiel entre pôles voisins.
L’intérêt principal des méthodes HR est qu’elles s’affranchissent de cette limite de l’analyse de Fourier
en terme de résolution spectrale. Les premières méthodes de cette famille, proposées par Prony et
Pisarenko, reposent sur les équations de récurrence linéaire qui caractérisent le modèle de signal. En
revanche les techniques plus modernes, parmi lesquelles les méthodes MUSIC et ESPRIT, s’appuient
sur la décomposition de l’espace des données en deux sous-espaces propres de la matrice de covariance,
appelés espace signal et espace bruit. L’étude statistique de ces diverses techniques d’estimation a
montré que la méthode ESPRIT est la plus performante. Les amplitudes et les phases des exponentielles
complexes peuvent ensuite être estimées par la méthode des moindres carrés. L’algorithme ESPRIT et
la méthode des moindres carrés sont illustrés dans la section X.2, où ils sont appliqués à des signaux
synthétiques et à un signal de musique. On y montre en particulier que le modèle ESM permet aussi
de représenter des signaux modulés en amplitude et en fréquence.
Le prochain chapitre présente une généralisation du modèle de signal et de l’algorithme ESPRIT.
25
Chapitre II
Résumé
Dans ce chapitre sont présentés des résultats de nos travaux de recherche qui généra-
lisent un certain nombre de concepts introduits dans le chapitre I. Une extension du
modèle ESM est ainsi proposée, qui représente le signal comme une somme d’expo-
nentielles complexes à modulation d’amplitude polynomiale. Il s’agit du modèle de
signal le plus général pouvant être traité par les méthodes HR. Ce modèle correspond
à la présence de pôles multiples. Deux techniques d’estimation sont présentées : la
méthode du maximum de vraisemblance et l’algorithme ESPRIT généralisé. Cette
dernière méthode repose sur la propriété d’invariance rotationnelle des matrices de
Pascal-Vandermonde, qui constituent une généralisation des matrices de Vander-
monde au cas de pôles multiples. Des techniques d’estimation des amplitudes et de
l’écart-type du bruit sont également proposées. Les développements qui vont suivre
ont fait l’objet d’un article à paraître dans IEEE Transactions on Signal Proces-
sing [Badeau et al., 2005c].
26 CHAPITRE II. ESTIMATION DES PARAMÈTRES DANS LE CAS DE PÔLES MULTIPLES
II.1 Introduction
Dans la littérature, le modèle ESM est généralement considéré comme le modèle de signal le plus
général pouvant s’inscrire dans le cadre des méthodes HR. Pourtant, il se trouve que ce modèle est
restreint aux signaux qui contiennent seulement des pôles simples. En revanche, le modèle PACE
introduit ci-dessous englobe le cas de pôles multiples. Il décrit une classe de signaux plus générale,
incluant des modulations d’amplitude et de fréquence, et conduit à une interprétation alternative des
fréquences estimées par les méthodes HR. Par ailleurs, le modèle PACE comprend moins de paramètres
pour un même ordre de modélisation, ce qui est particulièrement intéressant pour des applications de
codage. Une méthode complète d’estimation est proposée ci-dessous, reposant soit sur des techniques
de prédiction linéaire, soit sur l’algorithme ESPRIT.
Ce chapitre est organisé de la façon suivante : la section II.2 présente la solution générale des
équations de récurrence linaires et homogènes, et une paramétrisation complète du modèle PACE est
proposée. Les matrices de Pascal-Vandermonde associées à ce modèle sont ensuite introduites dans la
section II.3, et la méthode du maximum de vraisemblance est présentée dans la section II.4. Dans la
section II.5, l’algorithme ESPRIT est généralisé au modèle PACE. Des techniques permettant d’estimer
les amplitudes, les phases et l’écart-type du bruit sont présentées dans la section II.6. Enfin, le résumé
des principales conclusions obtenues clôturera ce chapitre dans la section II.7.
K−1
Y r
X
P [z] = p0 (z − zk )Mk = pr−τ z τ . (II.1)
k=0 τ =0
P
r
pτ s(t − τ ) = 0 (II.2)
τ =0
P
K−1
s(t) = αk [t] zk t (II.3)
k=0
1
Les coefficients pr−τ s’écrivent comme des fonctions des racines zk . En particulier, pr = p0
Q (−z )
K−1
k
Mk
.
k=0
II.2. LE MODÈLE POLYNOMIAL AMPLITUDE COMPLEX EXPONENTIALS 27
Exemple. Considérons le polynôme P [z] = (z − z0 )2 = z 2 − 2z0 z + z02 . Alors on vérifie que tous les
signaux complexes satisfaisant la récurrence s(t) − 2z0 s(t − 1) + z02 s(t − 2) = 0 sont de la forme
s(t) = (α0 + α1 t) z0 t où α0 , α1 ∈ C.
Ce théorème est démontré dans la section A.2 (une autre démonstration peut également être trouvée
dans [Kincaid et Cheney, 1996, pp. 33]). Le modèle de signal dans l’équation (II.3) sera désigné sous
le terme de modèle PACE. Ce modèle peut associer plusieurs pôles simples à une fréquence unique
(comme pour le modèle ESM), ainsi que des pôles multiples (contrairement au modèle ESM).
Définition II.2.1 (Polynômes binomiaux). Pour tout m ∈ Z, le polynôme binomial d’ordre m est le
polynôme
0 si m < 0
1 si m = 0
Fm [t] = m−1
1 Q
m! (t − m′ ) si m > 0
m′ =0
La famille {Fm [t]}m≥0 est une base de C[t] puisque le degré de Fm [t] est m quel que soit m ≥ 0.
De plus, ces polynômes satisfont pour tout m ∈ Z la récurrence
Cette propriété est un simple corollaire de l’identité du binôme [Roman, 1984,Graham et al., 1994],
plus générale :
Ce résultat est démontré par récurrence sur m dans la section A.2. Il sera utilisé à plusieurs reprises
dans les démonstrations de l’annexe A.
P MP
K−1 k −1
s(t) = α(k,m) Fm [t] zk t−m (II.5)
k=0 m=0
28 CHAPITRE II. ESTIMATION DES PARAMÈTRES DANS LE CAS DE PÔLES MULTIPLES
est une amplitude complexe. L’introduction volontaire du décalage temporel t − m est destinée à
simplifier les développements suivants.
Par ailleurs, le signal observé x(t) peut être modélisé comme la somme du signal déterministe s(t)
défini dans l’équation (II.5), et d’un bruit blanc ou coloré w(t) de variance σ 2 : x(t) = s(t) + w(t).
Par conséquent, les paramètres du modèle complet sont :
– les ordres K, {Mk }k∈{0...K−1} ,
– les K pôles complexes zk ,
– les r amplitudes complexes α(k,m) ,
– l’écart-type σ du bruit additif.
Les méthodes HR basées sur la prédiction linéaire, telles que [Riche de Prony, 1795, Pisarenko,
1973,Kumaresan et Tufts, 1982], peuvent être utilisées directement pour estimer les paramètres K, Mk
et zk , qui sont complètement caractérisés par le polynôme prédicteur. Cependant des techniques plus
robustes seront présentées dans la suite de ce chapitre.
Exemple. Si M = 3 et N = 5,
1 0 0
z 1 0
C 53 (z) =
z2 2z 1 .
z3 3 z2 3z
z4 4 z3 6 z2
Une matrice de Pascal-Vandermonde est obtenue en juxtaposant plusieurs matrices de Pascal géné-
ralisées. La définition suivante généralise ainsi la structure de Vandermonde [Horn et Johnson, 1985, pp.
29]. Elle figure également dans [Boley et al., 1997].
2
Une matrice de Pascal triangulaire inférieure est une matrice de Pascal généralisée carrée pour laquelle z = 1.
3
Si z = 0, on définit C N N
M (0)(i,i) = 1 ∀i, et ∀i 6= j, C M (0)(i,j) = 0.
II.3. LES MATRICES DE PASCAL-VANDERMONDE 29
Exemple. Si K = 2, M0 = 3, M1 = 2 et N = r = 5,
1 0 0 1 0
z0 1 0 z1 1
2
V5= z0 2 z0 1 z1 2 2 z1 .
z0 3 3 z0 2 3 z0 z1 3 3 z1 2
z0 4 4 z0 3 6 z0 2 z1 4 4 z1 3
La proposition suivante généralise un résultat classique sur le déterminant des matrices de Van-
dermonde [Horn et Johnson, 1985, pp. 29], dont l’expression a été donnée dans l’équation (I.3). Sa
démonstration figure en annexe dans la section A.3, page 171.
Q
K−1
det(V r ) = (zk2 − zk1 )Mk1 Mk2
k1 , k2 = 0
k1 < k2
Exemple. La matrice V 5 définie dans l’exemple ci-dessus a pour déterminant det(V 5 ) = (z1 − z0 )6 .
La propriété d’invariance rotationnelle des matrices de Vandermonde rappelée dans l’équation (I.17)
est généralisée ci-dessous aux matrices de Pascal-Vandermonde.
Le théorème II.3.2 est un corollaire du lemme A.4.1, présenté dans l’annexe A.4, page 174. Il est
intéressant de constater dans le théorème II.3.2 que l’équation (II.7) fait apparaître une matrice de
Jordan4 J , qui caractérise les pôles zk et leurs multiplicités Mk .
Les matrices de Pascal-Vandermonde apparaissent dans la section suivante, portant sur la méthode
du maximum de vraisemblance, mais leur propriété d’invariance rotationnelle ne sera explicitement
utilisée que dans la section II.5.3, dans le cadre de l’algorithme ESPRIT généralisé.
La maximisation de la log-vraisemblance par rapport au triplet (σ 2 , z0 . . . zK−1 , α(t)) peut être ef-
fectuée en minimisant d’abord g par rapport au couple (z0 . . . zK−1 , α(t)), puis en maximisant L par
rapport à σ. On obtient ainsi σ 2 = N1 g(z0 . . . zK−1 , α(t)), ou encore
1 1 2
σ2 = N Γ− 2 x(t) − V N α(t) . (II.9)
1
où Γ− 2 est l’unique matrice définie positive dont le carré est égal à Γ−1 . Elle a pour effet de blanchir
le bruit additif. Il apparaît donc que σ 2 est estimé comme la puissance du résiduel blanchi.
La matrice V N est de rang plein, puisque les pôles sont distincts deux à deux (proposition II.3.1).
H
Ainsi, la matrice V N Γ−1 V N est inversible. Pour minimiser g par rapport au couple (z0 . . . zK−1 ,
4
Voir [Horn et Johnson, 1985, pp. 121–142] pour une définition de la décomposition canonique de Jordan.
II.5. GÉNÉRALISATION DE L’ALGORITHME ESPRIT 31
Le dernier terme de cette équation est toujours positif, et peut être rendu nul en posant
−1
H H
α(t) = V N Γ−1 V N V N Γ−1 x(t). (II.10)
Le vecteur des amplitudes complexes α(t) est ainsi estimé de la même façon qu’en utilisant la méthode
des moindres carrés pondérés.
La fonction g est donc maximale pour
−1
H −1 N N H −1 N N H −1
(z0 . . . zK−1 ) = argmax x(t) Γ V V Γ V V Γ x(t) . (II.11)
Une factorisation de la matrice de Hankel est proposée ci-dessous5 . La proposition II.5.1 est une
généralisation de la proposition I.4.2 au cas de pôles multiples.
5
Une telle factorisation a déjà été établie par Vandevoorde et Boley dans [Vandevoorde, 1996, Boley et al., 1997].
Cependant, les développements présentés ici reposent sur des concepts différents. De plus, ils conduisent à une formulation
explicite du facteur diagonal par blocs D(t) (voir la proposition II.5.1).
32 CHAPITRE II. ESTIMATION DES PARAMÈTRES DANS LE CAS DE PÔLES MULTIPLES
Proposition II.5.1 (Factorisation de la matrice de données). Les assertions suivantes sont équiva-
lentes :
1. Le signal s(t) satisfait le modèle défini dans l’équation (II.5) sur l’intervalle {t−l+1, . . . , t+n−1}.
2. La matrice de Hankel S(t) de dimensions n × l définie dans l’équation (II.12) peut être factorisée
sous la forme
T
S(t) = V n D(t) V l (II.13)
dont le kème bloc H k (t) est une matrice de Hankel anti-triangulaire supérieure de dimension
Mk × Mk et de la forme
β(k,0) (t) β(k,1) (t) · · · β(k,Mk −1) (t)
. .
β(k,1) (t) .. .. 0
H k (t) =
.. ..
(II.15)
. .
. .. .. .
β(k,Mk −1) (t) 0 ··· 0
De plus, la relation entre les coefficients β(.,.) et les coefficients α(.,.) définis dans l’équation (II.6) est
la suivante :
M
X k −1
′
β(k,m′ ) (t) = α(k,m) Fm−m′ [t − l + 1]zk t−l+1−(m−m ) (II.16)
m=m′
La démonstration de la proposition II.5.1 est présentée dans l’annexe A.5, page 174. Cette propo-
sition montre l’équivalence entre le modèle PACE et la factorisation de la matrice de Hankel donnée
dans l’équation (II.13). Elle montre aussi que la matrice S(t) est de rang inférieur ou égal à r.
Remarque. Pour tout k ∈ {0 . . . K − 1}, H k (t) peut être factorisée sous la forme
T
H k (t) = J Mk (zk )(t−l+1) H ′k (t) = H ′k (t) J Mk (zk )(t−l+1)
où H ′k (t) est définie de la même façon que H k (t) dans l’équation (II.15), en remplaçant tous les β(k,m)
par α(k,m) .
La démonstration du corollaire suivant figure dans l’annexe A.5, page 174. L’équation (II.17) signifie
que ∀k ∈ {0, . . . , K − 1}, le polynôme αk [t] dans l’équation (II.3) est de degré Mk − 1.
Corollaire II.5.2 (Rang de la matrice de données). Une matrice de Hankel S(t) de dimensions n × l
et de la forme (II.12), où s(t) est le signal défini dans l’équation (II.5), est de rang r si et seulement
si n ≥ r, l ≥ r, tous les pôles zk sont distincts et non nuls, et
Enfin, le théorème suivant caractérise les matrices de Hankel singulières : celles-ci sont étroitement
liées au modèle PACE.
Théorème II.5.3 (Équivalence entre la structure de Hankel singulière et le modèle de signal). Soient
n ≥ 2, l ≥ 2, et r un entier tel que r < n et r < l. On considère un signal discret s(t) et la matrice
S(t) définie dans l’équation (II.12) à partir des échantillons de s(t). Soit S(t)↓ la matrice extraite de
S(t) en supprimant la dernière ligne. De même, soit S(t)↑ la matrice extraite de S(t) en supprimant
la première ligne. Les assertions suivantes sont équivalentes :
1. La matrice S(t) est de rang r, et les matrices extraites S(t)↓ et S(t)↑ sont aussi de rang r.
2. Le signal s(t) s’écrit sous la forme (II.5) sur l’intervalle [t−l+1 . . . t+n−1], et ∀k ∈ {0 . . . K −1},
α(k,Mk −1) 6= 0.
La démonstration de ce théorème est assez complexe et figure en annexe dans la section A.6,
page 175.
′
Ainsi, en calculant l’EVD de R b (t) ou la SVD de X ′ (t), on peut extraire une matrice W ′ (t) de
xx
1
dimension n × r engendrant le même espace que la matrice Γ− 2 V n . Une base orthonormée W (t) de
1
l’espace signal est alors obtenue en orthonormalisant la matrice Γ 2 W ′ (t).
L’algorithme ESPRIT généralisé présenté ci-dessous estime les pôles complexes à partir de la ma-
trice W (t).
il existe une matrice inversible G(t) de dimension r × r telle que V n = W (t) G(t). On obtient ainsi
par substitution W (t)↑ = W (t)↓ Φ(t), où la matrice spectrale Φ(t) est définie par sa décomposition
canonique de Jordan : Φ(t) = G(t) J G(t)−1 . En particulier, chaque pôle zk est valeur propre de Φ(t)
de multiplicité Mk .
Ainsi l’algorithme ESPRIT généralisé comprend les étapes suivantes :
– estimation d’une base W (t) de l’espace signal,
– estimation de la matrice spectrale Φ(t), par la méthode des moindres carrés (LS) ou des moindres
carrés totaux (TLS),
– calcul de la décomposition canonique de Jordan de cette matrice, à partir de laquelle les pôles et
leurs multiplicités sont extraits.
Dans un contexte bruité, la matrice spectrale estimée ne possède pas de valeurs propres multiples en
pratique. Ce problème sera discuté dans la section III.3. Pour estimer la matrice spectrale, plusieurs
auteurs ont observé que la méthode des moindres carrés totaux, qui est plus coûteuse que la méthode
des moindres carrés, améliore de façon négligeable la performance de l’estimation [Van der Veen et al.,
1993]. Comme la méthode des moindres carrés peut être implémentée efficacement (cf. chapitre V),
elle sera utilisée dans les développements à venir.
II.7 Conclusion
Dans ce chapitre, le modèle de signal PACE a été introduit comme la solution générale des équa-
tions de récurrence linéaires homogènes. Il permet ainsi de représenter des pôles simples ou multiples,
contrairement au modèle ESM qui est restreint au cas de pôles simples uniquement. Il offre en par-
ticulier des perspectives intéressantes en terme de codage, car il fait intervenir moins de paramètres
que le modèle ESM pour un même ordre de modélisation r (la fréquence et le facteur d’atténuation
d’un pôle multiple n’étant codés qu’une seule fois). Comme dans le cas du modèle ESM, la méthode
du maximum de vraisemblance s’avère difficile à implémenter et très coûteuse en temps de calcul. Afin
de mettre en oeuvre des méthodes de type sous-espace telles que celles présentées dans le chapitre I,
une formule de factorisation des matrices de Hankel a été proposée, faisant intervenir des matrices
de type Pascal-Vandermonde. Reposant sur la propriété d’invariance rotationnelle de ces matrices,
l’algorithme ESPRIT a été généralisé au modèle PACE et consiste à factoriser la matrice spectrale
sous sa forme de Jordan. Les amplitudes complexes sont ensuite estimées par la méthode des moindres
carrés. Les performances de ces diverses techniques d’estimation seront étudiées dans le chapitre III.
En particulier, le modèle PACE et l’algorithme ESPRIT seront illustrés dans la section III.4.
35
Chapitre III
Résumé
Dans ce chapitre, les bornes de Cramér-Rao pour le modèle PACE sont calculées
analytiquement dans le cas général, et simplifiées dans un contexte asymptotique.
Il s’agit d’un résultat nouveau, qui approfondit et généralise des études menées an-
térieurement sur le modèle ESM (cf. section I.6). Les performances des estimateurs
introduits dans le chapitre II sont ensuite comparées à ces bornes, en étudiant les
perturbations induites par le bruit additif au premier ordre. Nous démontrons en
particulier que la présence de bruit engendre un éclatement des pôles multiples en
plusieurs pôles simples, dispersés de façon homogène et isotrope en première approxi-
mation. Nous démontrons aussi que dans un contexte asymptotique les estimateurs
du chapitre II sont proches de l’efficacité, ce qui généralise un résultat présenté
dans [Hua et Sarkar, 1990] dans le cas particulier d’un signal constitué d’un unique
pôle simple. Des simulations numériques sont proposées pour illustrer les résultats
obtenus, dans le cas de signaux réels modulés en amplitude et en fréquence.
36 CHAPITRE III. PERFORMANCES DE L’ALGORITHME ESPRIT GÉNÉRALISÉ
III.1 Introduction
Dans la section I.6 ont été présentées les bornes de Cramér-Rao pour le modèle ESM, et les perfor-
mances des principales méthodes HR relativement à ces bornes. Ce chapitre porte sur le modèle PACE
et sur l’algorithme ESPRIT généralisé introduits dans le chapitre II.
Cet exposé débutera par l’étude des bornes de Cramér-Rao pour le modèle PACE (section III.2). Le
cas général sera abordé dans la section III.2.1, et des équivalents asymptotiques seront proposés dans
la section III.2.2. Dans la section III.3, les performances des estimateurs introduits dans le chapitre II
seront comparées aux bornes de Cramér-Rao ; pour cela il sera nécessaire d’étudier préalablement les
perturbations induites par le bruit additif (section III.3.1) dont se déduisent le biais et la variance des
estimateurs au premier ordre (section III.3.2). Un résultat remarquable sur la perturbation des pôles
multiples présenté dans la section III.3.1 sera ensuite illustré dans la section III.4. Enfin, les principales
conclusions de ce chapitre seront exposées dans la section III.5.
X MX
K−1 k −1
dans la section A.7.1, page 177), dont se déduisent les bornes données dans la proposition III.2.1
ci-dessous. Avant de l’énoncer, il est nécessaire d’introduire quelques notations.
Considérons la matrice Pascal-Vandermonde V N , de dimension N × (r + K), construite en juxtapo-
sant les matrices de Pascal généralisées C NMk +1 (zk ) pour tous k ∈ {0 . . . K − 1}. Définissons ensuite la
H
matrice Z = V N Γ−1 V N , de dimension (r+K)×(r+K). Cette matrice est constituée de K ×K blocs
H −1
Z (k,k′ ) = C N
Mk +1 (zk ) Γ CN
Mk′ +1 (zk ′ ). Chaque bloc Z (k,k ′ ) est de dimension (Mk + 1) × (Mk ′ + 1) et
ses éléments sont notés Z(k,k′ ,mk ,mk′ ) , où mk ∈ {0 . . . Mk } et mk′ ∈ {0 . . . Mk′ }. De même, la matrice
inverse Z −1 sera découpée en K × K blocs Z −1 (k ′ ,k) , de dimension Mk × Mk , dont les éléments seront
′
−1
notés Z(k ′ ,k,m ′ ,m ) .
k
k
Par ailleurs, il sera supposé ici que ∀k ∈ {0, K − 1}, ∀mk ∈ {0 . . . Mk − 1}, ak,mk 6= 0.
Proposition III.2.1 (Bornes de Cramér-Rao pour le modèle PACE). La borne de Cramér-Rao pour
σ2
l’écart-type du bruit est CRB {σ} = 4N . De plus, pour tout k ∈ {0 . . . K − 1},
σ 2 e−2δk
CRB {δk } = Z −1
2Mk2 a2(k,Mk −1) (k,k,Mk ,Mk )
σ 2 e−2δk
CRB {fk } = Z −1
8π 2 Mk2 a2(k,Mk −1) (k,k,Mk ,Mk )
σ 2 −1
CRB a(k,0) = Z
2 (k,k,0,0)
σ2
CRB φ(k,0) = Z −1
2a2(k,0) (k,k,0,0)
où F (z0 , . . . , zK−1 ) est une fonction continue, à valeurs finies et strictement positives (la démonstration
de ce résultat est présentée en annexe, dans la section A.7.1, page 177). Ces formules montrent la
divergence des bornes de Cramér-Rao quand deux pôles deviennent arbitrairement proches.
Dans un contexte asymptotique, les expressions des bornes de Cramér-Rao données dans la propo-
sition III.2.1 se simplifient, comme le montre la section suivante.
Proposition III.2.2 (Bornes de Cramér-Rao asymptotiques). Dans le cas particulier où le bruit est
blanc et où tous les pôles sont sur le cercle unité, le rapport signal à bruit de la composante s(k,mk ) (t),
1 P |s
N−1
(k,mk ) (t)|
2
N a2(k,m N 2mk
t=0 k)
défini par SNR(k,mk ) = σ2
, a pour équivalent asymptotique SNR(k,mk ) ∼ (2mk +1) mk !2 σ2
.
Lorsque N vers +∞, on obtient pour tout k ∈ {0 . . . K − 1}
σ2 (2Mk + 1)!2
CRB {δk } ∼
N 2Mk +1 a2(k,Mk −1) 2Mk2 (2Mk + 1)Mk !2
1 (2Mk + 1)!2
∼
N 3 SNR(k,Mk −1) 2(4Mk2 − 1)Mk !4
σ2 (2Mk + 1)!2
CRB {fk } ∼
N 2Mk +1 a2(k,Mk −1) 8π 2 Mk2 (2Mk + 1)Mk !2
1 (2Mk + 1)!2
∼
N 3 SNR(k,Mk −1) 8π 2 (4Mk2 − 1)Mk !4
1 (Mk + 1 + mk )!2
∼ .
N SNR(k,mk ) 2(2mk + 1)2 (mk !)4 (Mk − mk )!2
La proposition III.2.2 est démontrée en annexe, dans la section A.7.2, page 181. Ces formules
appellent les commentaires suivants :
– les bornes en δk et fk sont inversement proportionnelles au produit de N 3 et du rapport signal
à bruit de la composante s(k,Mk −1) (résultat déjà connu dans le cas du modèle ESM),
– ces bornes croissent rapidement avec l’ordre du pôle zk . Plus précisément, on vérifie que
quand Mk → +∞. Ainsi l’estimation d’un pôle est d’autant plus difficile que celui-ci est d’ordre
élevé.
Dans le cas de pôles simples, les formules données dans la proposition III.2.2 se simplifient de la
façon suivante :
6 σ2 6
CRB {δk } ∼ 3 2 ∼ 3
N a(k,0) N SNR(k,0)
6 σ2 6
CRB {fk } ∼ 2 3 2 ∼ 2 3
4π N a(k,0) 4π N SNR(k,0)
2 σ2
CRB a(k,0) ∼
N
2 σ2 2
CRB φ(k,0) ∼ ∼ .
N a2(k,0) N SNR(k,0)
La section III.3 vise à déterminer les biais et variances des estimateurs introduits dans le chapitre II
afin de les comparer aux bornes de Cramér-Rao exprimées dans les propositions III.2.1 et III.2.2.
Proposition III.3.1 (Perturbation de l’espace signal). Soit ∆S ∈ Cn×l . Pour tout ε ∈ R, soit
Alors il existe une fonction ε 7→ Π(ε) définie dans un voisinage de ε = 0 et à valeurs dans Cn×n ,
de classe C ∞ , telle que Π(0) = W W H , et qui à tout ε associe le projecteur sur l’espace engendré par
les r principaux vecteurs propres de X(ε) X(ε)H .
D’autre part il existe une infinité 1 de fonctions ε 7→ W (ε) définies dans un voisinage de ε = 0 et
à valeurs dans Cn×r , de classe C ∞ , telles que W (0) = W et W (ε) W (ε)H = Π(ε).
Chacune des fonctions ε 7→ W (ε) admet un développement limité à l’ordre 1
L’équation (III.3) montre que ∆W est orthogonal à span(W ). En revanche, le terme W A dans
l’équation (III.2) appartient à cet espace.
Proposition III.3.2 (Perturbation de la matrice spectrale). Supposons que la matrice W ↓ est de rang
plein, et posons Φ(ε) , W (ε)†↓ W (ε)↑ (en particulier, Φ(0) = Φ). Alors au voisinage de ε = 0, W ↓ (ε)
est aussi de rang plein et la fonction ε 7→ Φ(ε) est de classe C ∞ sur ce voisinage.
De plus, la fonction ε 7→ Φ(ε) admet le développement limité à l’ordre 1 :
∆Φ = −W †↓ ∆W ↓ Φ + Φ W †↑ ∆W ↑ . (III.5)
Corollaire III.3.3 (Perturbation de la matrice de Jordan). Posons J (ε) = G−1 Φ(ε)G. La fonction
ε 7→ J(ε) est de classe C ∞ au voisinage de ε = 0, et admet le développement limité
Toutes ces fonctions s’obtiennent en multipliant l’une d’entre elles à droite par une fonction de classe C ∞ , à valeurs
1
Z−1 v(n−1) −1
où Z = V nH V n , les vecteurs v ′(n−1) = 1−vH Z −1
v
et v ′0 = 1−vZH Zv−1
0
v0
sont de dimension r, et
(n−1) (n−1) 0
n −1
les vecteurs e′(n−1) = e(n−1) − V Z v (n−1) et e′0 = e0 − V n Z −1 v 0 sont de dimension n.
Proposition III.3.4 (Perturbation fractionnaire). Soit zk une valeur propre non dérogatoire2 d’ordre
Mk ∈ N∗ de la matrice Φ de dimension r × r. Supposons que le coefficient de la matrice ∆J situé à
P
k P
k−1
l’intersection de la ligne d’indice Mk′ − 1 et de la colonne d’indice Mk′ soit non nul. Alors il
k ′ =0 k ′ =0
existe ε0 > 0 tel que pour tout ε < ε0 , il existe exactement Mk valeurs propres de la matrice Φ(ε),
notées z(k,m) (ε) m∈{0...M −1} , qui admettent le développement fractionnaire au premier ordre
k
1 m 2
i2π M
z(k,m) (ε) = zk + ε Mk
∆zk e k + O ε Mk (III.8)
Si Mk > 1, la perturbation au premier ordre du pôle zk dans l’équation (III.8) est homogène
et isotrope, si bien que les Mk valeurs propres perturbées constituent les sommets d’un
polygone régulier d’ordre Mk dans le plan complexe.
Il apparaît de plus que les pôles multiples sont plus sensibles aux perturbations que les pôles
1
simples, dans la mesure où le terme du premier ordre dans l’équation (III.8) est ε Mk > ε (en supposant
que ε < 1). Il est en fait possible de contourner ce problème en ne considérant plus les valeurs propres
z(k,m) (ε) comme Mk estimateurs distincts du même pôle zk , mais en construisant un estimateur unique
2
Consulter e.g. [Moro et al., 1997] pour une définition des valeurs propres non dérogatoires. Puisque les pôles sont
distincts, toutes les valeurs propres de la forme de Jordan définie dans l’équation (II.8) sont non dérogatoires.
42 CHAPITRE III. PERFORMANCES DE L’ALGORITHME ESPRIT GÉNÉRALISÉ
de ce pôle en moyennant les z(k,m) (ε). En effet, puisque la somme des racines Mkèmes de l’unité est nulle,
l’équation (III.8) implique
1 X
Mk −1 2
zk (ε) , z(k,m) (ε) = zk + O ε Mk .
Mk
m=0
Il apparaît donc que l’estimateur zk (ε) est meilleur que chacun des z(k,m) (ε) puisque l’erreur d’estima-
tion est plus faible d’un ordre de grandeur au moins. La proposition suivante montre que zk (ε) admet
en fait un développement en séries entières.
MP
k −1
1
Proposition III.3.5 (Perturbation entière). Posons zk (ε) = Mk z(k,m) (ε) ∀k ∈ {0 . . . K − 1}.
m=0
Alors la fonction ε 7→ zk (ε) est de classe C ∞ et admet le développement limité au premier ordre
zk (ε) = zk + ε∆zk + O ε2 (III.10)
Le corollaire suivant montre comment la perturbation des pôles se répercute sur les fréquences et
les facteurs d’atténuation.
III.3. ETUDE DES PERTURBATIONS ET DE LA PERFORMANCE DES ESTIMATEURS 43
Corollaire III.3.6 (Perturbation des fréquences et des facteurs d’atténuation). Posons δk (ε) =
1
Re (ln(zk (ε))) et fk (ε) = 2π Im (ln(zk (ε))) (en particulier, δk (0) = δk et fk (0) = fk )3 . Alors les fonc-
tions ε 7→ δk (ε) et ε 7→ fk (ε) sont de classe C ∞ et admettent le développement limité au premier
ordre :
δk (ε) = δk + ε ∆δk + O ε2
(III.16)
fk (ε) = fk + ε ∆fk + O ε2
où
∆δk = Re ∆zk
zk (III.17)
∆fk = 1
Im ∆zk
.
2π zk
N
∆V N = V ∆Z (III.19)
N
où V est la matrice Pascal-Vandermonde de dimensions N × (r + K) obtenue en juxtaposant les
matrices de Pascal généralisées C NMk +1 (zk ), et ∆Z = diag(∆Z 0 , . . . , ∆Z K−1 ) est une matrice de
0...0
dimension (r + K) × r dont les blocs diagonaux ∆Z k = ∆zk sont de dimension
diag(1, 2, . . . , Mk )
(Mk + 1) × Mk .
On suppose ici que toutes les fréquences sont comprises entre − 12 et 21 , et la notation ln(.) désigne la détermination
3
∆α = B H ∆s (III.21)
où la matrice
A0
† N ..
B H = V N I N − V . , (III.22)
AK−1
de dimensions r × N , est définie à partir des matrices Ak , de dimensions (Mk + 1) × N et de rang 1 :
T
1 α(k,0) 2 α(k,1) Mk − 1 α(k,Mk −2)
Ak = 0, , ,..., , 1 uHk .
Mk α(k,Mk −1) Mk α(k,Mk −1) Mk α(k,Mk −1)
Le corollaire suivant montre comment la perturbation des amplitudes complexes se répercute sur
les amplitudes réelles et les phases4 .
Corollaire III.3.9 (Perturbation des amplitudes et des phases). Soient a(k,mk ) (ε) = |α(k,mk ) (ε)|
1
et φ(k,mk ) (ε) = 2π Im ln(α(k,mk ) (ε)) (on retrouve a(k,mk ) (0) = a(k,mk ) et φ(k,mk ) (0) = φ(k,mk ) ). Si
a(k,mk ) 6= 0, alors les fonctions ε 7→ a(k,mk ) (ε) et ε 7→ φ(k,mk ) (ε) sont de classe C ∞ et admettent le
développement limité à l’ordre 1 :
a(k,mk ) (ε) = a(k,mk ) + ε ∆a(k,mk ) + O ε2
(III.23)
φ(k,mk ) (ε) = φ(k,mk ) + ε ∆φ(k,mk ) + O ε2
où
∆a(k,m ) = a(k,m ) Re ∆α(k,mk )
k α(k,mk )
k (III.24)
∆φ(k,m ) = Im ∆α(k,mk ) .
k α(k,m ) k
De même, les estimateurs δk (ε) et fk (ε) du facteur d’atténuation δk et de la fréquence fk définis dans
le corollaire III.3.6 sont centrés au premier ordre. De plus, leurs variances respectives sont égales à
σ 2 e−2δk
var(δk (ε)) = uk H Γ uk (III.26)
2Mk2 a2(k,Mk −1)
σ 2 e−2δk
var(fk (ε)) = uk H Γ uk . (III.27)
8π 2 Mk2 a2(k,Mk −1)
En particulier, il existe une analogie remarquable entre les expressions des variances des estimateurs
δk (ε) et fk (ε) et leurs bornes de Cramér-Rao données dans la proposition III.2.1. La proposition III.3.11
exprime ensuite la variance des estimateurs α(ε), a(k,mk ) (ε) et φ(k,mk ) (ε) en fonction des matrices B
et Γ. On notera b(k,mk ) la colonne de B correspondant au pôle zk à l’indice mk , c’est-à-dire la colonne
P
k−1
d’indice mk + Mk′ .
k ′ =0
Proposition III.3.11. L’estimateur α(ε) du vecteur des amplitudes complexes α défini dans la pro-
position III.3.8 est centré au premier ordre, et sa matrice de covariance est égale à
De même, les estimateurs a(k,mk ) (ε) et φ(k,mk ) (ε) de l’amplitude réelle a(k,mk ) et de la phase φ(k,mk )
définis dans le corollaire III.3.9 sont centrés au premier ordre. De plus, leurs variances respectives sont
σ2 H
var(a(k,mk ) (ε)) = b Γb (III.29)
2 (k,mk ) (k,mk )
σ2 H
var(φ(k,mk ) (ε)) = b Γ b(k,mk ) . (III.30)
2a2(k,mk ) (k,mk )
Les formules des variances données dans la section III.3.2.1 ne sont pas très parlantes, car elles font
intervenir de nombreux intermédiaires de calcul par le biais du vecteur uk . Cependant, nous allons
voir dans cette section que sous certaines hypothèses, ces formules se simplifient. On se replace dans
le contexte de la section III.2.2 : on suppose que le bruit est blanc (Γ = I N ), tous les pôles sont sur le
cercle unité (∀k ∈ {0 . . . K − 1}, δk = 0), et l’horizon d’observation tend vers l’infini (N → +∞).
Proposition III.3.12. Si zk est un pôle simple, les variances des estimateurs δk (ε) et fk (ε) admettent
les développements limités
σ2 1
var(δk (ε)) = +O (III.31)
max(n, l) min(n, l) a2(k,0)
2 N4
σ2 1
var(fk (ε)) = +O . (III.32)
4π 2 max(n, l)2 min(n, l) a2(k,0) N4
46 CHAPITRE III. PERFORMANCES DE L’ALGORITHME ESPRIT GÉNÉRALISÉ
27 σ2
var(δk (ε)) ∼
4 N 3 a2(k,0)
27 σ2
var(fk (ε)) ∼ .
4 4π 2 N 3 a2(k,0)
On prêtera attention au fait que les expressions (III.31) et (III.32) ne sont valables que pour un pôle
simple. Si zk est un pôle multiple, ces variances ne s’expriment pas aussi simplement et sont fonction des
amplitudes complexes associées au pôle zk à tous les indices m ∈ {0 . . . Mk − 1} (les valeurs optimales
de n et l sont alors elles-mêmes fonction de ces amplitudes). Rappelons que les bornes de Cramér-
2
Rao données dans la proposition III.2.2 deviennent, pour un pôle simple, CRB{δk } = 6 N 3 σa2 et
(k,0)
2
CRB{fk } = 6 4π2 Nσ3 a2 . Les variances peuvent être alors comparées à ces bornes :
(k,0)
Sous les hypothèses précisées ci-dessus, l’efficacité5 asymptotique des estimateurs de tous les
facteurs d’atténuation et de toutes les fréquences associés à des pôles simples est la même,
indépendante des paramètres du modèle, et égale à 9/8 = 1, 125 si n = 2l ou l = 2n.
On retrouve ainsi les résultats qui avaient été obtenus dans [Hua et Sarkar, 1990] sur la méthode Matrix
Pencil, dans le cas particulier d’une seule sinusoïde complexe. La figure III.1-a représente le rapport
de la borne de Cramér-Rao sur la variance des estimateurs en échelle logarithmique en fonction du
rapport Nn+1 . On vérifie ainsi que le maximum est bien atteint en n = N 3+1 et n = 2(N3+1) . De plus, les
performances s’effondrent quand n devient trop grand ou trop petit.
(a)
0
Efficacité (−dB)
−5
−10
−15
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
(b)
0
Efficacité (−dB)
−5
−10
−15
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Rapport n/(N+1)
5
L’efficacité d’un estimateur est définie comme le rapport de sa variance sur la borne de Cramér-Rao.
III.4. SIMULATIONS NUMÉRIQUES 47
La proposition suivante est l’analogue de la proposition III.3.12 pour les amplitudes réelles et les
phases.
Proposition III.3.13. Si zk est un pôle simple, les variances des estimateurs a(k,0) (ε) et φ(k,0) (ε)
admettent les développements limités
σ2 1 N2 1
var(a(k,0) (ε)) = + +O (III.33)
2 N 2 max(n, l)2 min(n, l) N2
2 2
σ 1 N 1
var(φ(k,0) (ε)) = + +O . (III.34)
2a2(k,0) N 2 max(n, l)2 min(n, l) N2
35σ 2
var(a(k,0) (ε)) ∼
16N
35σ 2
var(φ(k,0) (ε)) ∼ .
16N a2(k,0)
Là encore, on prêtera attention au fait que les expressions (III.33) et (III.34) ne sont valables que
pour un pôle simple. Rappelons que les
bornes de2 Cramér-Rao données 2σdans la proposition III.2.2
2
deviennent, pour un pôle simple, CRB a(k,0) = 2σ N et CRB φ(k,0) = N a2
. Les variances peuvent
(k,0)
être alors comparées à ces bornes :
Sous les hypothèses précisées ci-dessus, l’efficacité asymptotique des estimateurs de toutes les
amplitudes réelles et de toutes les phases associées à des pôles simples est la même, indépen-
dante des paramètres du modèle, et égale à 35/32 = 1, 09375 si n = 2l ou l = 2n.
Elle est encore meilleure que celle des estimateurs δk (ε) et fk (ε). Il est aussi remarquable de constater
que l’optimum est obtenu pour les mêmes valeurs de n et de l que dans le cas précédent. La figure III.1-b
représente le rapport de la borne de Cramér-Rao sur la variance des estimateurs en échelle logarithmique
en fonction du rapport Nn+1 . Là encore, le maximum est bien atteint en n = N 3+1 et n = 2(N3+1) , et les
performances s’effondrent quand n devient trop grand ou trop petit. La similitude entre les courbes
représentées dans les figures III.1-a et III.1-b est remarquable. Cela pourrait s’expliquer par le fait que
l’estimation des amplitudes et des phases repose directement sur l’estimation des fréquences et des
facteurs d’atténuation.
A présent, nous allons illustrer les résultats sur la perturbation des pôles multiples établis dans la
section III.3.1.3.
P
X −1
s(t) = ap (t) cos(2πfp t) + bp (t) sin(2πfp t) (III.35)
p=0
où Q ∈ N∗ est le nombre de pôles de même angle polaire, les facteurs d’atténuation δq ∈ R sont
distincts, et ∀q ∈ {0, . . . , Q − 1}, Pq est un polynôme réel. Alors l’équation (III.35) s’écrit sous la
forme
P
X −1
s(t) = Ap (t) cos (2πfp t + φp (t)) (III.36)
p=0
où l’amplitude variante dans le temps Ap (t) et la phase φp (t) de la pth sinusoïde satisfont les équations
ap (t) = Ap (t) cos(φp (t))
(III.37)
bp (t) = −Ap (t) sin(φp (t))
Le modèle de signal dans l’équation (III.36) ressemble à celui de McAulay et Quatieri [Mc Aulay
et Quatieri, 1986]. Cependant, dans [Mc Aulay et Quatieri, 1986] Ap (t) et φp (t) sont des fonctions
dφ
non paramétriques telles que Ap (t) et dtp varient lentement et Ap (t) est positive, alors que dans notre
modèle Ap (t) et φp (t) sont des fonctions paramétriques.
Les variations de la fréquence instantanée fpi de la pème sinusoïde peuvent être calculées analyti-
quement, en différentiant (III.37) :
dap db
1 dφp 1 bp (t) − dtp ap (t)
fpi (t) = fp + = fp + dt
. (III.39)
2π dt 2π ap (t)2 + bp (t)2
En conclusion, le modèle de signal PACE comporte des modulations d’amplitude et des modula-
tions de fréquence. En revanche, toutes les types de modulations d’amplitude et de fréquence ne sont
pas nécessairement représentables par le modèle PACE, puisque les équations (III.38) et (III.39) ne
représentent qu’une certaine classe paramétrique de modulations.
III.4. SIMULATIONS NUMÉRIQUES 49
Amplitude
0.5
−0.5
−1
−250 −200 −150 −100 −50 0 50 100 150 200 250
Temps discret (échantillons)
0.056
0.054
0.052
0.05
1.5
1
0.5
Amplitude
0
−0.5
−1
−1.5
−2
0.056
0.054
0.052
0.05
III.5 Conclusion
Dans ce chapitre, les bornes de Cramér-Rao pour le modèle PACE ont été calculées analytiquement
dans le cas général, et leurs expressions ont été simplifiées sous l’hypothèse N → +∞ (dans le cas où
le bruit est blanc et où tous les pôles sont sur le cercle unité). Par ailleurs, il a été montré que
les estimateurs des pôles et des amplitudes complexes sont centrés, et leurs variances ont été calculées
sous l’hypothèse RSB→ +∞. Ces variances ont été comparées aux bornes de Cramér-Rao en supposant
conjointement que N → +∞ et RSB→ +∞, et il a été montré que l’efficacité des estimateurs était
voisine de 1.
La théorie des perturbations a montré en particulier que le bruit additif éclate les pôles multiples
en plusieurs valeurs propres simples, formant les sommets d’un polygone régulier. Ce phénomène a été
8
La figure III.3-a est un agrandissement de la partie centrale du signal.
III.5. CONCLUSION 51
observé dans nos simulations numériques, qui ont confirmé que la moyenne des valeurs propres disper-
sées est une bonne approximation du pôle multiple original. Ainsi le modèle de signal PACE conduit
à une interprétation alternative d’un ensemble de pôles estimés appartenant au même voisinage (plu-
sieurs pôles simples peuvent correspondre à une seule sinusoïde modulée). La question de l’application
du modèle PACE aux signaux de musique sera abordée dans la section X.2.4. Nous y montrerons
que les modulations qui apparaissent naturellement dans ce type de signaux sont généralement mieux
représentées avec des pôles simples qu’avec des pôles multiples.
52 CHAPITRE III. PERFORMANCES DE L’ALGORITHME ESPRIT GÉNÉRALISÉ
53
Chapitre IV
Résumé
Dans le chapitre II, l’ordre du modèle PACE était supposé connu, ce qui n’est pas le
cas dans la pratique. Dans les applications de codage, le signal doit être représenté
avec un nombre minimal de paramètres. Malheureusement, il se trouve qu’appliquer
l’algorithme ESPRIT avec un ordre de modèle sous-estimé biaise l’estimation des
fréquences. Dans ce chapitre est proposée une nouvelle méthode pour sélectionner
un ordre de modélisation approprié, qui minimise ce biais. Cette approche a été ap-
pliquée à des signaux synthétiques et à des signaux de musique, et donne de meilleurs
résultats que les critères classiques. Les développements qui vont suivre ont fait l’ob-
jet d’un article à paraître dans IEEE Transactions on Signal Processing [Badeau
et al., 2005a].
54 CHAPITRE IV. ESTIMATION DE L’ORDRE DE MODÉLISATION
IV.1 Introduction
Ce chapitre montre comment l’application de l’algorithme ESPRIT avec un ordre de modèle erroné
perturbe l’estimation des sinusoïdes. A notre connaissance, aucune analyse des perturbations induites
par un ordre de modélisation erroné n’a été publiée (dans le cas de l’algorithme MUSIC, une étude
a été menée dans [Saarnisaari, 1999]). Par ailleurs, tous les articles analysant les performances de
l’algorithme ESPRIT mentionnés dans la section I.6.2 reposent sur des approximations au premier
ordre. Dans ce chapitre sont présentées des bornes d’erreur pour les pôles estimés, qui sont dérivées
sans approximation et se calculent facilement. De plus, elles sont plus précises que celles présentées
dans [Badeau et al., 2004b]. A partir de ce résultat, une nouvelle méthode de sélection de l’ordre du
modèle est proposée, qui consiste à minimiser la perturbation. Contrairement aux autres méthodes
proposées dans la littérature, qui sélectionnent l’ordre du modèle en analysant les propriétés spectrales
du bruit additif, notre approche se concentre sur le signal lui-même. Bien qu’elle repose sur un modèle
sans bruit, elle s’avère plus performante que les critères classiques, même dans le cas d’un faible RSB.
Le chapitre est organisé de la façon suivante. Dans la section IV.2, la perturbation des pôles induite
par un ordre de modélisation erroné est analysée. Ensuite notre nouvelle méthode de sélection de l’ordre
de modélisation, baptisée méthode ESTimation ERror (ESTER), est introduite dans la section IV.3,
où une implémentation rapide est proposée. Dans la section IV.4, la pertinence de notre critère en
tant que borne d’erreur est examinée, et la performance de la méthode ESTER est comparée à celle
de quelques critères classiques. Enfin, les principales conclusions de ce chapitre sont résumées dans la
section IV.5.
Les pôles estimés sont définis comme les valeurs propres de Φ(p).
où σmax (.) désigne la plus grande valeur singulière d’une matrice, σmin (.) désigne la plus petite, V n est
la matrice de Pascal-Vandermonde introduite dans la section II.3, et Λ(C) est le groupe multiplicatif des
matrices de la forme diag(Λ0 , . . . , ΛK−1 ), où chaque bloc Λk , de dimension Mk × Mk , est triangulaire
supérieur, Toeplitz et inversible. Ce conditionnement caractérise le signal non bruité lui-même, et ne
dépend pas de p. Il s’agit d’une constante inconnue pour notre problème, qu’il n’est pas utile de calculer.
Elle apparaît dans le théorème suivant, dont la démonstration figure en annexe dans la section A.10,
page 190.
Théorème IV.2.2 (Borne d’erreur a priori2 ). Pour tout zb ∈ C, il existe une valeur propre zk de Φ(r)
pour laquelle
1
|zk − zb| ≤ max ∆k (b z ), ∆k (b
z ) Mk (IV.3)
Le résultat présenté dans ce théorème est assez fort, car il est en fait valable pour tout zb ∈ C ; il
montre ainsi que pour tout nombre complexe zb, il existe un pôle complexe zk dont la distance à ce
nombre est majorée par la quantité définie dans l’équation (IV.3). Dans le cas particulier où zk est un
pôle simple, on obtient la majoration |zk − zb| ≤ κ2 σmin (W ↑ (p) − zb W ↓ (p)).
Il se trouve que σmin (W ↑ (p) − zb W ↓ (p)) peut être calculée sans connaître la valeur exacte de r.
Le corollaire IV.2.3, qui est également démontré en annexe dans la section A.10 (page 190) et se
déduit du théorème IV.2.2, a une certaine similitude avec le théorème de Bauer-Fike [Horn et Johnson,
1985, pp. 365], [Golub et Van Loan, 1996, pp. 321]. Il donne une borne d’erreur valide pour toutes
les valeurs propres de Φ(p). A nouveau, cette borne peut être calculée sans connaître la valeur exacte
de r. Elle fait apparaître la norme spectrale d’une matrice (ou norme 2), notée k.k2 , définie comme
kM k2 , max kM uk2 = σmax (M ).
kuk2 =1
1
Dans [Badeau et al., 2004b], κ2 était défini comme le conditionnement supérieur de la matrice de Pascal-Vandermonde
(V n )
V , égal à σσmax
n
n . La nouvelle définition de κ2 dans l’équation (IV.2) conduit à de meilleures bornes d’erreur, en
min (V ) ↓
raison de la présence de la borne inférieure.
2
En comparaison, la borne d’erreur a priori présentée dans [Badeau et al., 2004b] était égale à
σmax (V n )
b − zb W ↓ (p) vbk2 ,
kW ↑ (p) v
σmin (V n
↓)
où vb était une vecteur unitaire quelconque. Le conditionnement supérieur κ2 defini dans l’équation (IV.2) est inférieur
(V n )
à σσmax b W ↓ (p)) ≤ kW ↑ (p) vb − zb W ↓ (p) vbk2 pour tout vecteur unitaire vb. Ainsi la borne
n . De plus, σmin (W ↑ (p) − z
min (V )
↓
d’erreur a posteriori dans l’équation (IV.3) est inférieure à celle proposée dans [Badeau et al., 2004b].
56 CHAPITRE IV. ESTIMATION DE L’ORDRE DE MODÉLISATION
Corollaire IV.2.3 (Borne d’erreur a posteriori3 ). Pour chaque valeur propre zb de Φ(p), il existe une
valeur propre zk de Φ(r) pour laquelle
1
Mk
|zk − zb| ≤ max ∆k , ∆k (IV.4)
où ∆k , Mk κ2 kE(p)k2 et
E(p) = W ↑ (p) − W ↓ (p) Φ(p). (IV.5)
Ce corollaire particularise le résultat du théorème IV.2.2 aux nombres complexes zb qui sont valeurs
propres de Φ(p). Cette hypothèse permet d’obtenir une majoration qui ne dépend plus de zb. Dans le
cas particulier où zk est un pôle simple, on obtient |zk − zb| ≤ κ2 kE(p)k2 .
Remarque. Soit p < n − 1. Nous savons que si p = r, E(p) = 0. Réciproquement, si E(p) = 0, alors les
matrices W ↓ (p) et W ↑ (p) engendrent le même sous-espace, ce qui signifie que la propriété d’invariance
rotationnelle est satisfaite à l’ordre p. Ainsi, p composantes peuvent être extraites du signal observé, et
les pôles complexes correspondants peuvent être estimés à l’aide de l’algorithme ESPRIT. Puisque le
signal ne contient pas plus de r composantes, p devrait normalement être inférieur ou égal à r. Le cas
p < r peut survenir si les paramètres du signal satisfont certaines relations particulières. En pratique,
r est toujours la plus grande valeur de p pour laquelle E(p) = 0.
Ce critère mesure l’invariance rotationnelle de W (p), puisque par définition la propriété d’invariance
rotationnelle est vérifiée exactement si kE(p)k2 = 0. L’inconvénient de la méthode ESTER est qu’une
implémentation directe est coûteuse.
Remarque. A partir de cette section et jusqu’à la fin de ce document, toutes les complexités seront
exprimées en MACs (une multiplication plus une accumulation).
3
Cette borne d’erreur a posteriori est inférieure à celle proposée dans [Badeau et al., 2004b], en raison de la valeur
inférieure de κ2 .
IV.3. SÉLECTION D’UN ORDRE DE MODÉLISATION APPROPRIÉ REPOSANT SUR
L’ERREUR D’ESTIMATION 57
Tout d’abord, les vecteurs singuliers w(p) doivent être calculés pour tout p ∈ {1 . . . pmax }, ce qui
requiert O(N log2 (N )pmax + np2max ) opérations, par le biais de l’algorithme d’itération orthogonale
présenté dans la section V.2. Ensuite la matrice E(p) doit être calculée pour tout p ∈ {1, . . . , pmax }.
Un tel calcul nécessiterait 3np2 MACs pour chaque p, si bien que la complexité totale serait de np3max
MACs4 . Ce coût doit être comparé à celui des ITC illustrés dans la section IV.4. En particulier, les
complexités des critères AIC, MDL [Wax et Kailath, 1985] et EDC [Zhao et al., 1986a] est linéaire
en pmax . Cependant, contrairement à la méthode ESTER, ces ITC requièrent la SVD complète de la
matrice de données, dont la complexité est O(N 3 ). Par ailleurs, les ITC proposés dans [Zhang et Wong,
1993] pour traiter le cas d’un bruit additif coloré ont également une complexité égale à O(N 3 ). Par
conséquent, les complexités relatives de ESTER et des ITC dépendent de pmax .
Pour rendre la méthode ESTER plus rapide, une implémentation efficace est proposée ici, résumée
dans la table IV.1. Elle nécessite seulement 6np+O(p2 ) MACs pour chaque p, si bien que sa complexité
totale est 3np2max + O(p3max ) (hors calcul des vecteurs singuliers). En particulier, calculer les matrices
E(p) pour tout p ∈ {1 . . . pmax } de cette façon n’est pas plus coûteux que de calculer directement
E(pmax ). Les sections IV.3.1 et IV.3.2 présentent des méthodes rapides pour calculer Φ(p) et E(p)
récursivement.
De plus, Ψ(p) peut être mise à jour récursivement. En effet, l’équation (IV.8) montre que
Ψ(p − 1) ψ r (p)
Ψ(p) = (IV.10)
ψ l (p)H ψlr (p)
où ψ r (p) , W ↓ (p − 1)H w↑ (p), ψ l (p) , W ↑ (p − 1)H w ↓ (p) et ψlr (p) , w↓ (p)H w↑ (p). Le calcul de
Ψ(p) à partir de Ψ(p − 1) requiert seulement 2np MACs.
Enfin, Φ(p) peut être calculée à partir de Ψ(p). En effet, en substituant l’équation (IV.9) dans
l’équation (IV.6) on obtient
1
Φ(p) = Ψ(p) + 1−kν(p)k2
ν(p) ϕ(p)H (IV.11)
4
En pratique pmax est supposé être très inférieur à n.
58 CHAPITRE IV. ESTIMATION DE L’ORDRE DE MODÉLISATION
où
ϕ(p) , Ψ(p)H ν(p). (IV.12)
Le calcul de Φ(p) à partir de Ψ(p) requiert seulement p2 + O(p) MACs, plus le calcul de ϕ(p). Cette
dernière opération nécessite normalement p2 MACs, mais le lemme IV.3.2 suggère une implémentation
récursive, en seulement O(p) MACs.
Démonstration. L’assertion se démontre en substituant les équations (IV.10) et (IV.13) dans l’équation
(IV.12).
Enfin, le calcul récursif de Φ(p) consiste à calculer Ψ(p) à partir de Ψ(p − 1) en utilisant l’équa-
tion (IV.10), puis à calculer ϕ(p) à partir de ϕ(p − 1) en utilisant l’équation (IV.14), puis à calculer
Φ(p) à partir de Ψ(p) en utilisant l’équation (IV.11). Cette méthode requiert 2np + O(p2 ) MACs à
chaque itération. Par conséquent, son coût total est de np2max + O(p3max ) MACs.
1
E(p) = Ξ(p) − (W ↓ (p) ν(p)) ϕ(p)H (IV.15)
1 − kν(p)k2
où
Ξ(p) , W ↑ (p) − W ↓ (p) Ψ(p). (IV.16)
Le calcul de E(p) à partir de Ξ(p) nécessite 2np MACs. Ensuite en substituant l’équation (IV.10) dans
l’équation (IV.16), on obtient une récurrence pour la matrice Ξ(p) de dimensions (n − 1) × p :
Ξ(p) = Ξ(p − 1) − w↓ (p) ψ l (p)H ξ(p) (IV.17)
où ξ(p) , w↑ (p) − W ↓ (p − 1) ψ r (p) − w↓ (p) ψlr (p). Le calcul de Ξ(p) à partir de Ξ(p − 1) requiert
2np MACs. Enfin, le calcul récursif de E(p) consiste à calculer Ξ(p) à partir de Ξ(p − 1) avec l’équa-
tion (IV.17), puis à calculer E(p) à partir de Ξ(p) avec l’équation (IV.15). Cette méthode requiert
4np MACs à chaque étape. Ainsi son coût global est de 2np2max MACs. Par conséquent, calculer les
matrices Φ(p) et E(p) pour tout p ∈ {1 . . . pmax } n’est pas plus coûteux que de les calculer seulement
pour p = pmax . Dans les deux cas, la complexité totale est de 3np2max + O(p3max ) MACs.
Le pseudo-code complet du calcul de E(p) pour tout p ∈ {1 . . . pmax } est présenté dans la table IV.1.
Le calcul des matrices Ψ(p) et Φ(p) n’est même pas nécessaire.
IV.4. SIMULATIONS NUMÉRIQUES 59
Initialisation
Calculer w(p) pour tout p = 1 . . . pmax , ϕ(0) = [], Ξ(0) = []
Pour p = 1 à pmax
Mise à jour de la matrice auxiliaire Ψ(p) Cot
ψ r (p) = W ↓ (p − 1)H w↑ (p) np
ψ (p) = W ↑ (p − 1)H w↓ (p) np
l
ψlr (p) = w↓ (p)H w↑ (p) n
Mise à jour de la matrice auxiliaire Ξ(p)
ξ(p) = w (p) − W (p − 1) ψ (p) − w (p) ψ (p) np
↑ ↓ ↓ lr
Ξ(p) = Ξ(p − 1) − w (p) ψ (p)H ξ(p)
r
↓ l np
Calcul de E(p) à partir de Ξ(p)
ϕ(p − 1) + µ(p) ψ l (p)
ϕ(p) = 2p
ψ r (p)H ν(p − 1) + µ(p) ψlr (p)∗
1 H
E(p) = Ξ(p) − 1−kν(p)k 2 (W ↓ (p) ν(p)) ϕ(p) 2np
Dans cette section, la pertinence des bornes d’erreur a priori et a posteriori est illustrée. Le signal de
test est une somme de r = 20 exponentielles complexes non amorties de même amplitude αk = 1, dont
les fréquences sont distribuées aléatoirement dans l’intervalle [− 21 , 12 ]. Le conditionnement supérieur
de l’espace signal satisfait 1 ≤ κ2 ≤ 1.05. Les vecteurs singuliers formant les matrices W (p) ont été
obtenus en calculant la SVD d’une matrice de Hankel comprenant n = 512 lignes et l = 512 colonnes,
qui contient les n + l − 1 = 1023 échantillons du signal complet. Pour tout p ∈ {1 . . . pmax = r}, les
valeurs propres zb(p,m) m∈{1...p} de la matrice Φ(p) ont été calculées.
Dans la figure IV.1-a, la ligne continue représente les erreurs sur les valeurs propres obtenues pour
p = 7 < r, c’est-à-dire
min |bz(7,m) − zk |
k∈{1...r} m∈{1...7}
triées par ordre croissant. La ligne pointillée représente les bornes d’erreur a priori correspondantes,
c’est-à-dire
κ2 σmin W ↑ (7) − zb(7,m) W ↓ (7) m∈{1...7}
60 CHAPITRE IV. ESTIMATION DE L’ORDRE DE MODÉLISATION
La ligne pointillée est au-dessus de la ligne continue (comme prévu), et les variations de la ligne
pointillée suivent celles de la ligne continue, ce qui suggère que la borne d’erreur a priori est pertinente.
(a) Borne d’erreur a priori (p = 7)
0.8
0.6
0.4
Erreur
0.2
0
1 2 3 4 5 6 7
Ordre des valeurs propres
1.2
0.8
Erreur maximale
0.6
0.4
0.2
0
5 10 15 20 25
Ordre de modélisation
(a) Borne d’erreur a priori vs. erreur sur les valeurs propres à l’ordre p = 7
(b) Borne d’erreur a posteriori vs. erreur maximale sur les valeurs propres comme fonction de p
Dans la figure IV.1-b, la ligne continue représente l’erreur maximale sur les valeurs propres obtenue
pour tous les ordres de modélisation, c’est-à-dire
max min |b
z(p,m) − zk |
m∈{1...p} k∈{1...r}
comme fonction de p. La ligne pointillée représente les bornes d’erreur correspondantes, c’est-à-dire
κ2 kE(p)k2 comme fonction de p. Comme pour la borne d’erreur a priori, la ligne pointillée est au-
dessus de la ligne continue (comme prévu), et que les variations de la ligne pointillée suivent celles de la
ligne continue. Cela suggère que la borne d’erreur a posteriori est un critère pertinent pour caractériser
l’erreur d’estimation des valeurs propres. Ci-dessous, ce critère est utilisé pour déterminer l’ordre de
modélisation, comme cela a été proposé dans la section IV.3.
blanc gaussien complexe, dont la variance a été choisie de façon à ce que le RSB soit de 40 dB. Le
périodogramme du signal de test ainsi obtenu est représenté dans la figure IV.2-a. Il a été calculé à partir
IV.4. SIMULATIONS NUMÉRIQUES 61
Puissance (dB)
50
−50
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Fréquence réduite (Hz)
80
70
60
50
40
30
20
0 5 10 15 20 25
Ordre des valeurs singulières
d’un signal de longueur 255, multiplié par une fenêtre de Blackman, choisie pour sa forte réjection des
lobes secondaires (-57 dB), et complété par des zéros de façon à obtenir 65536 points dans le domaine
fréquentiel. En particulier, les deux exponentielles complexes de plus basses fréquences ne sont pas
résolues par le périodogramme5 .
La méthode ESTER est comparée à plusieurs autres méthodes de sélection de l’ordre de modélisa-
tion, parmi lesquelles trois ITC : les critères AIC [Wax et Kailath, 1985], MDL [Wax et Kailath, 1985],
et EDC [Zhao et al., 1986a] qui est une généralisation
p robuste de AIC et MDL (cf. section I.5.1). Pour
le critère EDC, nous avons choisi C(l) = l ln(ln(l)), pour laquelle nous avons obtenu les meilleurs
résultats. Les valeurs singulières ont été obtenues en calculant la SVD d’une matrice de Hankel compre-
nant n = 128 lignes et l = 128 colonnes, qui contient les n + l − 1 = 255 échantillons du signal complet.
La figure IV.2-b représente les pmax = 25 plus grandes valeurs singulières. Les valeurs singulières ne
présentent pas de décroissance significative au delà de p = 5.
La figure IV.3-a représente les critères AIC (ligne continue), MDL (tirets) et EDC (ligne pointillée),
pour p ∈ {1 . . . pmax }. Aucun d’entre eux n’atteint de minimum pour p = r = 5. Cet échec pourrait
être expliqué par la présence du bruit environnant, dont la densité spectrale de puissance n’est pas
uniforme, contrairement à l’hypothèse de bruit blanc additif sur laquelle ces estimateurs reposent
fondamentalement. Comme on s’y attendait, le critère EDC est plus robuste que les critères AIC et
MDL, mais son minimum est obtenu en p = 8. La figure IV.3-b représente le critère proposé dans [Liavas
et al., 1999] pour détecter la cassure dans la décroissance des valeurs propres. On peut remarquer que
ce critère sélectionne la bonne valeur p = r = 5, mais la valeur p = 3 est presque autant accentuée. La
figure IV.3-c représente les nouveaux ITC proposés dans [Zhang et Wong, 1993] pour traiter le cas d’un
bruit additif coloré6 . Les meilleurs résultats ont été obtenus avec le critère C2 , qui atteint un minimum
en p = 6 ≃ r.
Enfin, la figure IV.3-d représente la fonction d’erreur inverse J for p ∈ {1, . . . , pmax }. Le maximum
5
En fait elles ne sont pas résolues non plus si on utilise une fenêtre rectangulaire, dont la réjection est plus faible,
mais dont le lobe principal est plus étroit que celui de la fenêtre de Blackman.
6
Ces nouveaux critères sont nommés C1 (ligne continue), C2 (tirets), Cm1 (ligne pointillée) et Cm2 (cercles). La valeur
commune des paramètres M1 et M2 définis dans [Zhang et Wong, 1993] a été fixée à n2 − 1.
62 CHAPITRE IV. ESTIMATION DE L’ORDRE DE MODÉLISATION
0
5 10 15 20 25
(b) Critère de stabilité
1
0.5
0
5 10 15 20 25
4
x 10 (c) Critères de théorie de l’information pour du bruit coloré
3
0
5 10 15 20 25
4
x 10 (d) Critère ESTER
15
10
5 10 15 20 25
Ordre de modélisation
global est atteint en p = r = 5, malgré le bruit environnant, qui n’était pas inclus dans le modèle.
intervalle de confiance de ±1% autour du taux estimé, pour un taux de confiance de 95%.
On peut remarquer que le critère AIC n’est pas suffisamment robuste pour traiter ces données
synthétiques. Par ailleurs, les taux obtenus pour le critère C2 (conçu pour traiter le cas d’un bruit
additif coloré [Zhang et Wong, 1993]) sont toujours inférieurs à ceux de toutes les autres méthodes.
Le critère MDL semble plus robuste que ESTER à des RSB faibles. Cependant, ESTER s’avère plus
performant pour des valeurs élevées de N ou du RSB. Comparé au critère EDC, ESTER présente
des performances similaires pour des valeurs élevées de N ou du RSB, mais s’avère plus robuste à de
faibles valeurs de N ou du RSB. Enfin, ESTER atteint des performances voisines de celles du critère
de stabilité [Liavas et al., 1999] pour toutes les valeurs de N . Il est néanmoins plus robuste à de faibles
RSB. Ainsi, bien que la méthode ESTER repose sur un modèle de signal non bruité, ses performances
ne s’effondrent pas pour de faibles RSB.
−20
Puissance (dB)
−40
−60
−80
−100
−120
0 2000 4000 6000 8000 10000
Fréquence (Hz)
−30
−40
−50
−60
0 5 10 15 20 25 30 35 40
Ordre des valeurs singulières
singulières de la matrice de données7 sont représentées dans la figure IV.4-b. Ces valeurs singulières
s’effondrent de façon significative au delà de p = 16, ce qui suggère un ordre de modélisation égal à 16.
La figure IV.5-a représente les critères AIC (ligne continue), MDL (tirets) et EDC (ligne poin-
tillée). Seul EDC atteint un minimum en p = 16. Cependant ce minimum n’est pas beaucoup plus
petit que les valeurs voisines. La figure IV.5-b représente le critère de stabilité proposé dans [Liavas
et al., 1999]. Contrairement aux ITC mentionnés ci-dessus, ce critère sélectionne ici la bonne valeur
p = 16. La figure IV.5-c représente les critères ITC proposés dans [Zhang et Wong, 1993], avec les
mêmes paramètres que dans la section IV.4.2. Aucun d’entre eux n’atteint de minimum en p = 16.
La figure IV.5-d représente la fonction d’erreur inverse J pour tout p ∈ {1, . . . , pmax }. Le maximum
global est atteint en p = 16. De plus, les bornes d’erreur obtenues pour des valeurs inférieures de p
sont pertinentes. En effet, des valeurs élevées sont atteintes en p = 4, 6, 12, ce qui correspond en fait
à des petits sauts dans la décroissance des valeurs singulières (représentées dans la figure IV.4-b). Par
conséquent, la méthode ESTER donne l’ordre de modélisation attendu, et de plus les bornes d’erreur
peuvent être utilisées pour quantifier l’adéquation d’un éventuel ordre de modélisation inférieur. En
particulier, les ordres impairs ne sont pas adaptés au signal. En effet, puisque ce signal est à valeurs
réelles et centré, son spectre est à symétrie hermitienne sans composante constante, ce qui sous-tend
un ordre de modélisation pair.
IV.5 Conclusion
Dans ce chapitre, nous avons décrit la perturbation de l’estimation du modèle PACE induite par
un ordre de modélisation erroné, en l’absence de bruit. Si l’ordre du modèle est sur-estimé, les pôles
originaux se trouvent parmi les pôles estimés. Inversement, si l’ordre est sous-estimé, les pôles estimés
peuvent être vus comme des approximations de certains des pôles originaux. Dans ce dernier cas, nous
avons déterminé une borne d’erreur a posteriori, qui peut être calculée sans connaître l’ordre exact du
modèle. A partir de cette observation, nous avons introduit la méthode ESTER, qui sélectionne un
7
Les valeurs singulières ont été obtenues en calculant la SVD d’une matrice de Hankel contenant n = 128 lignes et
l = 128 colonnes, comme dans la section IV.4.2.
IV.5. CONCLUSION 65
10
0
5 10 15 20 25 30 35 40
(b) Critère de stabilité
1
0.5
0
5 10 15 20 25 30 35 40
4 (c) Critères de théorie de l’information pour du bruit coloré
x 10
4
0
5 10 15 20 25 30 35 40
(d) Critère ESTER
8000
6000
4000
2000
5 10 15 20 25 30 35 40
Ordre de Modélisation
ordre de modélisation approprié. La détermination de l’ordre de modélisation est une étape essentielle
du processus d’estimation, car elle conditionne toute la suite de l’analyse à haute résolution du signal.
Puisque la méthode initiale était assez coûteuse, nous avons proposé un algorithme rapide pour calculer
récursivement les bornes d’erreur a posteriori. Ensuite, nous avons montré la pertinence de critère en
tant que borne d’erreur, et les performances de la méthode ESTER ont été illustrées sur un signal
synthétique et sur un signal de piano. Nous avons ainsi observé que cette méthode est plus robuste
que les Critères de Théorie de l’Information (ITC). De plus, les bornes d’erreur peuvent être utilisées
pour quantifier l’adéquation d’un éventuel ordre de modélisation inférieur, ce qui offre des perspectives
intéressantes en terme de codage.
66 CHAPITRE IV. ESTIMATION DE L’ORDRE DE MODÉLISATION
67
Chapitre V
Résumé
L’inconvénient principal de la méthode d’estimation basée sur l’algorithme ESPRIT
généralisé (présentée dans le chapitre II) est sa lenteur. Le présent chapitre vise
à optimiser les calculs afin de réduire sa complexité. Toutes les étapes sont ainsi
optimisées, à commencer par l’estimation de l’espace signal, qui constitue l’étape
la plus coûteuse, grâce à l’algorithme d’itération orthogonale (optimisé à l’aide de
produits de convolution rapides). Nous proposons également des méthodes originales
de calcul de la matrice spectrale et d’estimation des amplitudes. Ce chapitre constitue
aussi une introduction aux algorithmes rapides de poursuite des paramètres présentés
dans la deuxième partie.
68 CHAPITRE V. OPTIMISATION DE L’ALGORITHME D’ESTIMATION
V.1 Introduction
Une optimisation des calculs intervenant dans l’algorithme d’estimation introduit dans les sec-
tions II.5 et II.6 est développée dans ce chapitre. Pour cela, il convient dans un premier temps d’analyser
en détail le coût de cette méthode d’estimation. Rappelons qu’elle comprend quatre étapes :
– estimation d’une base de l’espace signal W (t),
– calcul de la matrice spectrale Φ(t),
– calcul des valeurs propres de Φ(t),
– estimation des amplitudes complexes α(t) par la méthode des moindres carrés ordinaires (dans
tout ce chapitre, le bruit additif est supposé blanc ; nous ne nous intéresserons plus à l’estimation
de sa variance).
Remarque. Comme nous l’avons mentionné dans la section IV.3, dans ce document toutes les com-
plexités sont exprimées en MACs (une multiplication plus une accumulation), et sont des fonctions des
paramètres n, l et r. Dans la pratique, les dimensions de la matrice de données sont choisies de façon
à ce que r << min(n, l).
Tout d’abord, l’estimation de l’espace signal peut être faite de deux manières différentes : via la
SVD de la matrice de données X(t), ou via l’EVD de la matrice de covariance empirique C xx (t) 1 .
Cette dernière solution comprend deux étapes :
– le calcul de C xx (t) = X(t) X(t)H requiert ln2 MACs ;
– ensuite, la diagonalisation de C xx (t), via l’algorithme QR symétrique [Golub et Van Loan, 1996,
pp. 421], est de complexité O(n3 ).
Si seul W (t) est requis (i.e. l’espace singulier gauche), le coût de la SVD de X(t) est du même ordre de
grandeur, via l’algorithme Golub-Reinsch [Golub et Van Loan, 1996, pp. 253–254]. Dans la suite ne sera
retenue que la méthode reposant sur l’EVD de C xx (t) qui, comme nous le verrons, offre des possibilités
de simplification intéressantes. L’étape suivante est le calcul de la matrice spectrale Φ(t) par la méthode
des moindres carrés ou des moindres carrés totaux (cf. section II.5.3), dont la complexité est O(nr 2 ).
Ensuite, le calcul des valeurs propres de Φ(t) requiert O(r 3 ) MACs, via l’algorithme QR [Golub et
†
Van Loan, 1996, pp. 359]. Enfin, le calcul des amplitudes complexes α(t) b = V N x(t) est de complexité
O(N r 2 ).
Il apparaît donc que l’étape limitante est l’estimation de l’espace signal, sur laquelle l’effort d’opti-
misation doit porter prioritairement (section V.2). Les deux idées exploitées dans cette section ont été
originalement proposées par R. Boyer [Boyer et al., 2002]. L’optimisation des autres étapes sera ensuite
abordée dans la section V.3. Enfin, un bilan des diverses optimisations apportées à l’algorithme sera
dressé dans la section V.4.
1
Il est également possible de calculer l’EVD de la matrice de données, dans le cas particulier où celle-ci, en plus d’avoir
une structure Hankel, est carrée et réelle, comme cela a été fait dans [Badeau et al., 2002] (cet article est reproduit en
annexe dans le chapitre C).
V.2. ESTIMATION DE L’ESPACE SIGNAL 69
Il est démontré dans [Golub et Van Loan, 1996, pp. 410–411] que si les r plus grandes valeurs
propres de C xx (t) sont strictement supérieures aux n − r autres valeurs propres, la matrice W (t, i)
i
λr+1
converge vers W (t), et la vitesse de convergence est exponentielle : λr quand i → +∞. Nous
écrirons ce résultat sous la forme
W (t, ∞) = W (t). (V.2)
De même, R(t, i) converge vers une matrice diagonale contenant les r valeurs propres principales de
C xx (t).
Le coût de la factorisation QR dépend du procédé utilisé. La technique la plus rapide est la méthode
de Gram-Schmidt modifiée [Golub et Van Loan, 1996, pp. 231–232], dont la complexité est nr 2 . Ainsi, la
complexité globale de l’algorithme est O(n2 r) ; il est donc plus rapide que l’algorithme QR symétrique,
qui calcule tous les vecteurs propres en O(n3 ) MACs. Cependant, il nécessite quand même le calcul
préalable de C xx (t), qui requiert ln2 MACs.
Pour éviter ce calcul superflu, posons
La complexité globale de l’algorithme d’estimation des paramètres est alors réduite à O(lnr) (au
lieu de O(N 3 )), mais l’étape limitante reste le calcul de l’espace signal. Il convient donc de pousser
plus loin les efforts d’optimisation.
x(t − l + 1) . . . x(t − 1) x(t) v(l − 1) (e
x ∗ v)(t)
x(t − l + 2) . . . x(t) x(t + 1) v(l − 2) (e
x ∗ v)(t + 1)
.. .. .. .. = ..
. ... . . . .
x(t − l + n) . . . x(t + n − 2) x(t + n − 1) v(0) (e
x ∗ v)(t + n − 1)
Or il est connu qu’un produit de convolution se calcule de manière rapide par le biais de l’algorithme
FFT (on peut consulter par exemple [Williams et Madisetti, 1999] pour référence). Plus précisément,
soit N ′ la puissance de 2 immédiatement supérieure à N = l + n − 1. Les n coefficients du vecteur
X(t) v sont également les n premiers échantillons du produit de convolution circulaire entre les signaux
x̄ = {x(t), x(t + 1), . . . , x(t + n − 1), 0, . . . , 0, x(t − l + 1), x(t − l + 2), . . . , x(t − 1)}
Dans ce pseudo-code, les complexités ont été exprimées en fonction de N et non plus de N ′ ,
car un choix approprié des dimensions n et l permet de rendre N ′ voisin de N (ou même égal à
V.3. OPTIMISATION DES AUTRES ÉTAPES 71
N ). La complexité totale de cet algorithme est donc O(N r log2 (N ) + nr 2 ). On peut vérifier que cette
implémentation est plus rapide que celle proposée dans la section V.2 dès lors que 2N log2 (N )+N ≤ ln.
Par exemple, si n = l, on obtient numériquement la condition N ≥ 47 (et n = l ≥ 24).
H
Or les coefficients de la matrice V N V N se calculent rapidement. En effet, on vérifie que la colonne
N 1 dm v(z)
de V correspondant au pôle zk et à l’indice m ∈ {0 . . . Mk − 1} est égale au vecteur m! dz m (zk ), où
T 1 dm v(z)T
v(z) = 1, z, . . . , z N −1 . En particulier, son conjugué hermitien est m! ∗
dz m (zk ). Ainsi le produit
scalaire hermitien entre deux colonnes correspondant respectivement aux pôles zk1 à l’indice m1 et au
pôle zk2 à l’indice m2 est égal à
En effectuant les dérivations dans l’équation (V.12), on obtient ainsi des formules analytiques pour
tous les couples (m1 , m2 ), impliquant des opérations arithmétiques élémentaires faisant intervenir les
1−zk∗ N zk2 N
termes zk1 , zkN1 , zk2 et zkN2 . En particulier, pour m1 = m2 = 0, on obtient 1−zk∗ zk2 .
1
1
H
Une méthode rapide de calcul de la matrice V N V N consiste donc à précalculer ces termes, ce qui
coûte O(r) MACs, puis à calculer chacun des r 2 coefficients de la matrice à l’aide de la formule (V.12),
ce qui donne un coût global de O(r 2 ) MACs.
H
De même, les coefficients du vecteur V N x(t) se calculent rapidement. En effet, le coefficient relatif
au pôle zk et à l’indice m est égal à
NP
−1
Or v(z)T x(t) = x(t + τ ) z τ est un polynôme de degré N − 1 en la variable z. Ainsi, calculer le
τ =0
membre de droite de l’équation (V.13) consiste à évaluer la dérivée d’ordre m de ce polynôme au point
zk∗ . Cette opération coûte N MACs. Comme elle doit être effectuée r fois pour évaluer les r coefficients
H
du vecteur V N x(t), le coût global de ce calcul est N r.
H H
Enfin, la matrice V N V N et le vecteur V N x(t) étant obtenus, il reste à résoudre le système
H
H
V N V N α(t)
b = V N x(t).
3
Il s’agit d’un système linéaire symétrique défini positif, dont la solution se calcule en r6 MACs à l’aide
d’algorithmes reposant sur la factorisation de Cholesky [Golub et Van Loan, 1996, §4.2]. Ainsi, le coût
3
global du calcul de α(t)
b est réduit à N r + r6 + O(r 2 ) MACs (au lieu de N r 2 + N r + O(r 3 )).
V.4. CONCLUSION 73
Remarque. Dans la pratique, il peut arriver que la matrice V N soit extrêmement mal conditionnée, par
exemple s’il existe au moins deux pôles très proches, ou si un ou plusieurs pôles se trouvent éloignés du
cercle unité, ou encore en présence de pôles multiples si N est grand. Les erreurs numériques peuvent
alors engendrer une estimation erronée des paramètres et une mauvaise représentation du signal. Pour
éviter cela, il est possible de réduire fortement le conditionnement de la matrice V N , en normalisant ses
colonnes. Plus précisément, cela revient à considérer la matrice V ′N = V N ∆−1 , où ∆ est la matrice
diagonale3 contenant les normes
N
des colonnes de V . Posons alors α b ′ (t) = ∆ α
b (t) ; cela revient à
′N H ′N ′ ′N H
résoudre le système V V αb (t) = V x(t). Le signal peut alors être reconstruit sous la forme
b ′ (t).
s(t) = V ′N α
b
V.4 Conclusion
Dans ce chapitre a été présentée une méthode rapide d’estimation de l’espace signal reposant sur
l’algorithme d’itération orthogonale et sur la technique de convolution rapide. Les autres étapes de
l’estimation ont également été optimisées en tenant compte des propriétés particulières des matrices
W (t) et V N . L’algorithme complet d’estimation des paramètres ainsi obtenu est présenté dans la
table V.1. Toutes les étapes ont été optimisées. Son coût global est O(N r log2 (N ) + nr 2 ), au lieu de
O(N 3 ) dans le cas d’une implémentation directe. Cependant, le chapitre VI montrera que dans un
contexte adaptatif il est possible de réduire encore davantage la charge de calcul, à condition toutefois
de renoncer à calculer l’espace signal de manière exacte.
3
Dans le cas particulier où r = 2, il est possible de démontrer que la matrice ∆ ainsi définie minimise le conditionne-
ment de V ′N parmi toutes les matrices diagonales.
74 CHAPITRE V. OPTIMISATION DE L’ALGORITHME D’ESTIMATION
75
Deuxième partie
Chapitre VI
Résumé
Après avoir traité le cas de signaux à paramètres constants, nous nous intéressons à
l’analyse de signaux dont les paramètres varient au cours du temps (sous l’hypothèse
de blancheur du bruit additif). L’objectif de cette étude est de développer un système
complet permettant de suivre les trajectoires temporelles des sinusoïdes. Une telle
représentation du signal peut être ensuite utilisée pour en modifier par exemple la
durée ou la hauteur, comme cela a été proposé dans [Serra et Smith, 1990].
Un très grand nombre d’algorithmes permettant de suivre les variations temporelles
de l’espace signal ont été proposés dans la littérature. Dans ce chapitre sont men-
tionnés les principaux d’entre eux, parmi lesquels la méthode des puissance itérées
et l’algorithme PAST orthonormé, puis plusieurs critères permettant de caractériser
ces divers algorithmes sont présentés, et enfin leurs performances sont illustrées sur
un signal présentant de brusques variations. Des techniques permettant de suivre la
matrice spectrale et ses valeurs propres sont également évoquées.
CHAPITRE VI. ETAT DE L’ART DES TECHNIQUES DE POURSUITE DE L’ESPACE SIGNAL
78 ET DES PÔLES
VI.1 Introduction
Dans le chapitre V, nous nous sommes concentrés sur l’estimation des paramètres du modèle à partir
d’un segment de signal extrait sur une fenêtre temporelle {t − l + 1, . . . , t + n − 1}. Nous cherchons
maintenant à effectuer cette analyse sur un ensemble de fenêtres décalées les unes par rapport aux
autres de un ou plusieurs échantillons. L’analyse de chaque fenêtre pourra ainsi reposer sur celle de la
précédente.
La première étape de l’estimation consistera à poursuivre l’espace signal (section VI.2). La seconde
portera sur la poursuite des pôles du signal (section VI.3). Finalement, les principales conclusions de
ce chapitre seront résumées dans la section VI.4.
– la dimension de l’espace signal apparaît plus clairement quand les interférences sont
destructives que quand elles sont constructives ;
– les variations des valeurs propres sont étroitement liées.
Par contre, la figure VI.1-b montre que la moyenne arithmétique des valeurs propres exprimées en dB
VI.2. POURSUITE DE L’ESPACE SIGNAL 79
(autrement dit leur moyenne géométrique) est constante au cours du temps. La proposition suivante
donne un résultat plus général, valable dans le cas du modèle PACE introduit dans le chapitre II.
Proposition VI.2.1. La moyenne géométrique des valeurs propres non nulles de la matrice Rss (t)
varie exponentiellement au cours du temps. Plus précisément, elle est égale à
K−1 t
Q Mk
C |zk | r (VI.1)
k=0
K−1
r1
1 lT l∗ nH n Q
où C = l det(V V ) det(V V ) |α(k,Mk −1) |2Mk |zk |2Mk (−l+1) .
k=0
La démonstration de cette proposition est présentée en annexe dans la section B.2, page 194. Dans
le cas particulier où tous les pôles sont sur le cercle unité, l’équation (VI.1) montre que la moyenne
géométrique des valeurs propres est constante, comme on a pu l’observer dans la figure VI.1-b.
(a) Signal synthétique
2
1
Amplitude
−1
−2
0 200 400 600 800 1000 1200 1400 1600 1800 2000
(b) Variations des valeurs propres
50
Valeurs propres (dB)
−50
−100
−150
0 200 400 600 800 1000 1200 1400 1600 1800 2000
(c) Angles polaires des vecteurs propres
100
Angle (degrés)
50
−50
−100
0 200 400 600 800 1000 1200 1400 1600 1800 2000
Temps discret (échantillons)
Fig. VI.1 – Valeurs et vecteurs propres pour un signal contenant deux fréquences (n = l = 20)
La figure VI.1-c représente les variations des deux vecteurs propres principaux. Une base particulière
de l’espace signal a été choisie, constituée des deux vecteurs propres principaux à l’instant t = 1000.
Ensuite, pour chaque instant t, les deux vecteurs propres principaux ont été décomposés dans cette
base et représentés par leur angle polaire. Les variations de l’angle du vecteur propre principal sont
représentées en trait continu, alors que celles du second vecteur propre sont représentées en pointillés.
En particulier, on notera que cet angle est nul en t = 1000 pour le vecteur propre principal, et égal à
±90◦ pour le second vecteur propre (l’angle polaire est défini modulo 180◦ puisque seule la direction
du vecteur importe). Nous pouvons faire les remarques suivantes :
– quand les interférences sont constructives (instants t = 0, t = 1000 et t = 2000), les deux vecteurs
propres principaux sont à peu près stables ;
CHAPITRE VI. ETAT DE L’ART DES TECHNIQUES DE POURSUITE DE L’ESPACE SIGNAL
80 ET DES PÔLES
– leurs variations sont discontinues quand les interférences entre les deux sinusoïdes sont destruc-
tives (instants t = 500 et t = 1500) ;
– il semble que les deux vecteurs propres sont «permutés» en t = 500 et t = 1500 (deux courbes
régulières sont reconstituées en permutant leurs variations en ces deux instants).
Ainsi, comme dans le cas des valeurs propres, les variations de vecteurs propres sont étroitement liées.
Il paraît donc inutile de chercher à suivre les valeurs propres ou les vecteurs propres au cours
du temps. Seul l’espace signal lui-même est stable, et la moyenne géométrique des valeurs propres
correspondantes varie exponentiellement. Cependant, le signal observé n’est pas s(t), mais le signal
bruité x(t). Comme cela a été montré dans la section II.5, les vecteurs propres de Rxx (t) sont les
mêmes que ceux de Rss (t). Par contre, les valeurs propres de cette matrice sont surélevées de σ 2 par
rapport à celles de Rss (t). Ainsi, pour le signal bruité, la propriété d’invariance temporelle de l’espace
signal reste vérifiée, par contre le résultat de la proposition VI.2.1 n’est plus valable. Ainsi, l’étude du
signal doit essentiellement porter sur l’espace signal lui-même et non sur les valeurs propres.
Si R(t) est symétrique définie positive, il s’agit alors de la méthode des puissances naturelles [Hua
et al., 1999]. Il sera montré dans la section VII.3 que cette dernière méthode engendre une suite de
matrices W (t) qui est stable si l’espace signal est constant au cours du temps, contrairement à la base
des vecteurs propres.
La méthode des puissances itérées permet de suivre rapidement l’espace signal. Cependant, elle ne
conduit pas à une réduction du coût du calcul de la matrice spectrale, de ses valeurs propres et des
amplitudes complexes. Ce calcul sera donc effectué selon la technique proposée dans la section V.3 ; la
complexité globale de l’algorithme d’estimation sera alors de 4N r log2 (N ) + 2nr 2 + o(nr 2 ) opérations.
La méthode des puissances itérées sera appliquée à un signal synthétique dans la section VI.2.3.3 et à
un son de piano dans la section XI.5.1.2.
Ainsi, en analyse spectrale la matrice de corrélation est structurée, dans la mesure où la matrice
X(t) est de Hankel, alors qu’en localisation de sources, elle ne présente aucune propriété particulière
(autre que la symétrie hermitienne et la positivité). C’est pourquoi la quasi totalité des algorithmes de
poursuite de l’espace signal proposés dans la littérature, qui ont une vocation généraliste, n’exploitent
pas la structure Hankel de la matrice de données. Cependant quelques algorithmes font exception,
comme l’implémentation de la méthode des puissances itérées présentée dans la section VI.2.2 (qui
utilise des transformées de Fourier rapides), ainsi que [Strobach, 1997b, Davila, 2000, Badeau et al.,
2005d]. Ceux-ci ne peuvent donc pas être utilisés en localisation de sources.
Remarque. Dans le cadre de l’analyse spectrale, il est possible de réduire la charge de calculs en ne
déterminant pas l’espace signal à chaque instant, mais seulement à certains instants régulièrement
espacés. Deux approches peuvent être envisagées :
– il est possible d’extraire de la séquence {X(t)}t∈Z une sous-suite de matrices régulièrement
espacées, et lui appliquer l’implémentation de la méthode des puissances itérées présentée dans
la section VI.2.2, seul algorithme de poursuite pouvant être utilisé dans ce contexte ;
– il est également possible d’extraire de la séquence {x(t)}t∈Z une sous-suite de vecteurs réguliè-
rement espacés, et lui appliquer l’un des nombreux algorithmes de poursuite de l’espace signal
proposés dans la littérature. Cependant cela revient à supprimer certaines colonnes dans la ma-
de T . Les autres racines carrées sont obtenues en multipliant à droite cette racine carrée définie positive par une matrice
1
orthonormée arbitraire. La notation S 2 peut désigner n’importe laquelle d’entre elles.
CHAPITRE VI. ETAT DE L’ART DES TECHNIQUES DE POURSUITE DE L’ESPACE SIGNAL
82 ET DES PÔLES
trice X(t), qui perd alors sa structure Hankel. Ainsi, les algorithmes reposant explicitement sur
cette propriété ne peuvent plus être utilisés, comme c’était déjà le cas en localisation de source.
Outre la fenêtre rectangulaire définie dans l’équation (VI.4), d’autres types de fenêtres sont cou-
ramment utilisés dans la littérature :
t
P
Fenêtre exponentielle : la matrice de corrélation est égale à C xx (t) = β t−u x(u) x(u)H , où
u=−∞
0 < β < 1 est le facteur d’oubli. Elle peut être mise à jour selon la récurrence :
Fenêtre tronquée : la matrice de corrélation de dimension n × n est estimée sur une fenêtre de
longueur l :
Xt
C xx (t) = β t−u x(u) x(u)H (VI.6)
u=t−l+1
où 0 < β ≤ 1. Le cas β = 1 correspond à une fenêtre rectangulaire, ou fenêtre glissante. Cette matrice
peut être mise à jour à l’aide de la récurrence :
Les algorithmes de poursuite de l’espace signal peuvent être classés selon leur complexité. On
distingue deux grandes classes : les algorithmes de complexité sur-linéaire en n, et ceux de complexité
linéaire en n. Ainsi les algorithmes appartenant à la deuxième classe sont plus rapides que la méthode
des puissances itérées. Ce faible coût est en général obtenu au prix d’une approximation qui engendre
une dégradation des performances du suivi.
La section VI.2.3.1 présente une liste non exhaustive des algorithmes proposés dans la littérature,
dont un comparatif est proposé dans la section VI.2.3.2. Leurs performances sont ensuite illustrées
dans la section VI.2.3.3.
descente de gradient d’une fonction d’erreur quadratique. Un certain nombre de méthodes de poursuite
de sous-espace plus rapides ont été développées en combinant l’approche de descente de gradient avec
l’hypothèse connue sous le nom de projection approximation [Yang, 1995, Miao et Hua, 1998, Douglas,
2000, Abed-Meraim et al., 2000, Badeau et al., 2003a]. D’autres techniques reposent sur un moyennage
des espaces signal et bruit [DeGroat, 1992], sur le principe du maximum de vraisemblance [Chonavel
et al., 2003], sur l’analyse d’opérateurs restreints [MacInnes, 1998], ou sur la théorie des perturba-
tions [Champagne et Liu, 1998]. Un résumé de techniques plus anciennes est proposé dans [Comon et
Golub, 1990].
Ortho- Struc-
Algorithme Référence Coût Fenêtre norma- ture Figure
lité propre
Bi-Lanczos [Xu et al., 1994] O(n2 r) rectangulaire oui oui
FAST [Real et al., 1999] nlr rectangulaire oui oui VI.6
Jacobi SVD [Moonen et al., 1992] O(n2 ) rectangulaire oui oui
Rank-revealing QR [Bischof et Shroff, 1992] O(n2 ) rectangulaire oui non
URV [Stewart, 1992] 9n2 rectangulaire oui non
CGET2 [Fu et Dowling, 1995] O(nr 2 ) exponentielle oui oui
SHSVD2 [Strobach, 1997b] 2nr 2 rectangulaire oui oui
PROTEUS-1 [Champagne et Liu, 1998] 2nr 2 exponentielle oui oui
SWASVD2 [Badeau et al., 2004a]2 (n + l)r 2 rectangulaire oui oui VI.3
NP2 [Hua et al., 1999] 3
2
nr 2 exponentielle oui non VI.4
Karasalo [Karasalo, 1986] nr 2 exponentielle oui oui VI.4
TQR-SVD [Dowling et al., 1994] nr 2 exponentielle oui oui VI.4
LORAF2 [Strobach, 1996] nr 2 exponentielle oui oui VI.4
Bi-SVD1 [Strobach, 1997a] nr 2 exponentielle oui oui VI.4
OPERA [MacInnes, 1998] nr 2 exponentielle oui oui
SW-OPAST [Badeau et al., 2003a] 15nr rectangulaire oui non VI.3
FST [Rabideau, 1996] 5nr exponentielle oui oui VI.6
SW-PAST [Badeau et al., 2003a] 5nr rectangulaire non non VI.3
ROSA [DeGroat, 1992] 4nr exponentielle non non VI.6
PASTd [Yang, 1995] 4nr exponentielle non oui VI.6
NIC [Miao et Hua, 1998] 4nr exponentielle non non VI.5
Householder PAST [Douglas, 2000] 4nr exponentielle oui non VI.5
OPAST [Abed-Meraim et al., 2000] 4nr exponentielle oui non VI.5
PAST [Yang, 1995] 3nr exponentielle non non VI.5
calculée respectivement sur une fenêtre rectangulaire et sur une fenêtre exponentielle. De même, les
figures VI.2-c et VI.2-d représentent les trajectoires obtenues avec la méthode des puissances itérées
dans chacun des deux cas. Nous pouvons faire deux remarques :
– la fenêtre rectangulaire réagit un peu plus rapidement aux variations du signal que la fenêtre
exponentielle,
– dans chacun des deux cas la méthode des puissances itérées atteint des performances voisines de
celles d’une EVD exacte.
La figure VI.3 illustre des algorithmes à fenêtre rectangulaire, de complexité linéaire en n. Les
performances restent relativement proches de celles observées dans la figure VI.2. Parmi les trois
algorithmes représentés, SW-OPAST donne les meilleurs résultats. Il présente en outre l’avantage
d’avoir une complexité en O(nr). Ensuite, les figures VI.4 et VI.5 représentent des algorithmes à
fenêtre exponentielle, de complexité linéaire en n, qui présentent tous des performances très voisines,
mais nettement dégradées par rapport à la figure VI.3. Les algorithmes illustrés dans la figure VI.5
seront préférés à ceux de la figure VI.4, car ceux-ci présentent une complexité plus faible (O(nr) au
lieu de O(nr 2 )). Ainsi, dans la classe des algorithmes de complexité linéaire en n, ceux qui reposent
sur une fenêtre rectangulaire sont nettement plus performants que ceux qui reposent sur une fenêtre
exponentielle. Enfin, les algorithmes présentés dans la figure VI.6 sont de complexités diverses, mais
ont en commun de converger encore plus lentement que ceux illustrés dans les figures VI.4 et VI.5. Ils
seront donc abandonnés au profit des précédents.
VI.3. POURSUITE DE LA MATRICE SPECTRALE ET DES PÔLES 85
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(b) EVD exacte avec fenêtre exponentielle
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(c) Méthode des puissances itérées avec fenêtre rectangulaire
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(d) Méthode des puissances itérées avec fenêtre exponentielle
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(b) SWASVD2
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(c) SW−OPAST
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(d) SW−PAST
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)
Fig. VI.3 – Algorithmes de complexité linéaire O((n + l)r 2 ) ou O(nr) à fenêtre rectangulaire
Champagne, 1996] repose sur la théorie des perturbations mais péche par son manque de robustesse.
Une seconde technique proposée dans [Strobach, 1998] repose sur le théorème «split-Schur», mais
s’avère moins précise et aussi coûteuse qu’une simple EVD. Dans [Badeau et al., 2005e], nous avons
introduit une nouvelle approche permettant de calculer l’EVD de la matrice spectrale récursivement
et de manière exacte. Cette méthode sera approfondie dans la section IX.3.2.
VI.4 Conclusion
L’étude comparative des algorithmes de poursuite proposée dans la section VI.2.3 a montré la su-
périorité de la méthode des puissances itérées en terme d’estimation de l’espace signal. En effet, cette
méthode atteint des performances remarquablement proches de celles obtenues à l’aide d’une EVD. En
revanche, elle reste assez coûteuse. Parmi les algorithmes de plus faible complexité, OPAST semble sor-
tir du lot. En effet, il fait partie des algorithmes les plus rapides. De plus, il garantit l’orthonormalité de
la matrice estimée, et présente l’avantage d’avoir été développé pour les deux types de fenêtres4 . Enfin
et surtout, pour chaque type de fenêtre, aucun algorithme parmi ceux illustrés dans les figures VI.3
à VI.6 n’atteint de meilleures performances que OPAST.
En ce qui concerne les techniques de suivi de la matrice spectrale, nous retiendrons que la plus
rapide d’entre elles a une complexité de l’ordre de nr MACs par itération. Elle présente également
l’avantage de calculer l’EVD de la matrice spectrale de manière récursive [Badeau et al., 2005e].
4
SW-OPAST est une version à fenêtre rectangulaire de OPAST.
VI.4. CONCLUSION 87
(a) NP2
Fréquences (Hz) Fréquences (Hz) Fréquences (Hz) Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(b) Karasalo
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(c) TQR−SVD
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(d) Loraf2
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(e) BiSVD1
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)
(a) NP2
(b) Karasalo
(c) TQR-SVD
(d) Loraf2
(e) BiSVD1
CHAPITRE VI. ETAT DE L’ART DES TECHNIQUES DE POURSUITE DE L’ESPACE SIGNAL
88 ET DES PÔLES
(a) NIC
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(b) OPAST
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(c) Householder PAST
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(d) PAST
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)
(a) FAST
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(b) FST
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(c) PASTd
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
(d) ROSA
Fréquences (Hz)
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)
Chapitre VII
Résumé
Nous proposons dans ce chapitre une implémentation rapide de la méthode des puis-
sances itérées, basée sur une approximation moins restrictive que celle connue sous
le nom de projection approximation. Cet algorithme, baptisé méthode API rapide,
garantit l’orthonormalité de la base de l’espace signal à chaque itération. Il peut
être appliqué à la fois en analyse spectrale et en traitement d’antenne. De plus, ses
performances sont meilleures que celles de nombreux algorithmes de poursuite de
sous-espace liés à la méthode des puissances itérées, tels que les algorithmes Projec-
tion Approximation Subspace Tracking (PAST), Novel Information Criterion (NIC),
fast Natural Power (NP3) et OPAST. Par ailleurs, il est plus rapide que NIC, NP3
et OPAST, et aussi rapide que PAST. La méthode API est conçue à la fois pour
des fenêtres exponentielles et des fenêtres rectangulaires. Les simulations numériques
montrent que les fenêtres rectangulaires offrent une réponse plus rapide à de brusques
variations du signal. Les développements qui vont suivre ont fait l’objet d’un article
pour IEEE Transactions on Signal Processing [Badeau et al., 2005b].
90 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES
VII.1 Introduction
Comme cela a été mentionné dans la section VI.2.3.1, l’estimation de l’espace signal peut être
vue comme un problème d’optimisation avec ou sans contraintes [Oja, 1989, Xu, 1993, Chen et Amari,
2001, Kung et al., 1994, Mathew et Reddy, 1995, Fu et Dowling, 1995], pour lequel l’introduction de
l’hypothèse connue sous le nom de projection approximation conduit à des méthodes rapides de pour-
suite de l’espace signal (voir par exemple les algorithmes PAST [Yang, 1995] et NIC [Miao et Hua,
1998]). Dans [Hua et al., 1999], il est prouvé que ces algorithmes sont étroitement liés à la méthode des
puissances itérées introduite dans la section VI.2.2. Plusieurs implémentations de cette méthode ba-
sées sur des factorisations QR ont été proposées dans [Strobach, 1996], parmi lesquelles les algorithmes
LORAF2 et LORAF3. Cependant, comparés à PAST et NIC, LORAF2 est plus coûteux, et LORAF3
est moins performant. Une autre implémentation rapide de la méthode des puissances itérées, l’algo-
rithme NP3 qui repose sur des modifications matricielles de rang 1, est proposée dans [Hua et al., 1999],
mais nos simulations numériques ont montré que cet algorithme ne converge pas dans de nombreux
cas. Une version orthonormée de l’algorithme PAST, proposée dans [Abed-Meraim et al., 2000], peut
être vue comme une implémentation rapide de la méthode des puissances naturelles et s’avère plus
performante que PAST, NIC et NP3. En comparaison, la récente méthode API [Badeau et al., 2003c],
basée sur la méthode des puissances itérées et sur une nouvelle approximation, a la même complexité
que les algorithmes mentionnés ci-dessus, mais fournit une meilleure estimation de l’espace signal.
Ce chapitre présente plusieurs implémentations rapides de la méthode API. Ces algorithmes pré-
sentent plusieurs avantages :
– ils peuvent être appliqués soit sur une fenêtre exponentielle infinie ou sur une fenêtre tronquée,
– une base orthonormée de l’espace signal est calculée à chaque itération, ce qui est nécessaire pour
certaines méthodes d’estimation paramétrique de type sous-espace, comme MUSIC [Schmidt,
1981],
– ils reposent sur une nouvelle approximation, moins restrictive que celle connue sous le nom
de projection approximation, ce qui permet d’atteindre de meilleurs résultats de poursuite. En
particulier, il est montré que les algorithmes PAST et OPAST peuvent être vus comme des
approximations de la méthode API rapide.
Ce chapitre est organisé de la façon suivante : la section VII.2 présente une formalisation unifiée
pour les diverses formes de fenêtres appliquées aux données. La nouvelle approximation est abordée
dans la section VII.3. Notre méthode API est introduite dans la section VII.4, et une implémentation
rapide de cet algorithme est proposée dans la section VII.5. Dans la section VII.6, il est montré que
PAST et OPAST peuvent être vus comme des approximations de l’algorithme API rapide (FAPI).
Une méthode pour suivre la structure propre dominante de la matrice de corrélation est proposée dans
la section VII.7. Dans la section VII.8, les performances de cette méthode sont comparées à celles de
plusieurs algorithmes classiques, parmi lesquels PAST et OPAST. Les principales conclusions de ce
chapitre sont résumées dans la section VII.9.
J = 1 (VII.2)
x(t) = x(t) (VII.3)
Soit q le rang de la mise à jour impliquée dans l’équation (VII.1). Puisque q = 1 dans le cas de la
fenêtre exponentielle et q = 2 dans le cas de la fenêtre tronquée, q caractérise la forme de la fenêtre.
En particulier, x(t) est une matrice de dimensions n × q et J est une matrice de dimension q × q.
où la matrice C yy (t) , W (t − 1)H C xx (t) W (t − 1) peut être vue comme la matrice de corrélation des
vecteurs de données compressés. Dans ce cas, W (t) et W (t − 1) sont deux matrices orthonormées qui
engendrent l’espace image de C xy (t), donc
où Θ(t) , W (t − 1)H W (t) est une matrice orthonormée de dimension r × r. En substituant l’équa-
tion (VII.6) dans l’équation (VI.3) et en multipliant à gauche par W (t)H , on obtient la décomposition
polaire de R(t)H :
R(t)H = C yy (t) Θ(t) (VII.8)
où C yy (t) est le facteur défini positif et Θ(t) est le facteur orthonormé. A présent supposons que
W (t − 1) engendre approximativement le sous-espace propre principal de C xx (t). Les équations (VII.7)
et (VII.8) deviennent alors des approximations :
choix d’une racine carrée R(t)H de Φ(t) est restreint (par exemple R(t) ne peut plus être triangulaire
supérieure, comme c’était le cas dans [Strobach, 1996]).
L’implémentation de la méthode des puissances naturelles baptisée NP3 [Hua et al., 1999] repose sur
cette approximation, mais cet algorithme calcule une matrice R(t) qui dévie de la contrainte de struc-
ture définie positive. Par conséquent, la projection approximation n’est pas valable, et la convergence
de cet algorithme n’est pas garantie.
En revanche, les algorithmes présentés dans la section VII.4 ne sont pas confrontés à cette limi-
tation, car ils reposent sur l’approximation moins restrictive (VII.9). De plus, (VII.9) est la meilleure
approximation de W (t) en terme d’erreur quadratique moyenne, puisque la solution du problème de
minimisation
arg min kW (t) − W (t − 1) Θk2F
Θ∈ Cr×r
b (t)H .
C xy (t) = β C xy (t − 1) Θ(t − 1) + x(t) J y (VII.11)
Dans le cas de la fenêtre exponentielle, l’équation (VII.11) fait apparaître une modification de rang
un (x(t) et y
b (t) sont des vecteurs et J est un scalaire), alors que dans le cas de la fenêtre tronquée elle
fait apparaître une modification de rang deux (x(t) et y b(t) sont des matrices contenant deux colonnes
et J est une matrice de dimension 2 × 2).
où X(t) , [x(t − l + 1), x(t − l + 2), . . . , x(t)] est la matrice de données de dimensions n × l et D est
la matrice diagonale diag(β l−1 , β l−2 , . . . , β, 1) de dimension l × l.
En substituant l’équation (VII.12) dans l’équation (VI.2), on obtient
où
A partir de maintenant, les définitions exactes de Y (t) et V (t − 1) sont donc remplacées par
h i h i
b
b(t − l) Y (t)
v , b
V (t − 1) y(t) (VII.18)
où le vecteur vb(t − l) de dimension r, défini par la première colonne dans le membre de gauche de
l’équation (VII.18), est une approximation du vecteur v(t − l), et Yb (t) et Vb (t) sont des approximations
de Y (t) et V (t). Les équations (VII.13), (VII.14), (VII.19) et (VII.18) impliquent finalement
C xy (t) = β C xy (t − 1) Θ(t − 1)
(VII.20)
+x(t) y(t)H − β l x(t − l) v
b(t − l)H
Cette récurrence est un cas particulier de l’équation (VII.11), où J et x(t) sont définis dans les
équations (VII.4) et (VII.5) et la matrice de dimension r × q (avec q = 2)
b (t) ,
y b(t − l)
y(t) v (VII.21)
En appliquant l’approximation (VII.9) à l’instant t − 1, l’équation (VII.23) peut être remplacée par
la récurrence suivante :
C xy (t) = β C xy (t − 1) Θ(t − 1) + x(t) y(t)H . (VII.24)
Cette récurrence est un cas particulier de l’équation (VII.11), où J et x(t) sont définis dans les équa-
tions (VII.2) et (VII.3), et la matrice de dimensions r × q (avec q = 1) y b (t) , y(t) est maintenant
H
égale au vecteur y(t) , W (t − 1) x(t) = y(t).
94 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES
h(t) , Z(t − 1) y
b (t). (VII.27)
satisfait la récurrence
Z(t) = β1 Θ(t)H I r − g(t) y(t)H Z(t − 1) Θ(t)−H (VII.29)
La démonstration de la proposition VII.4.1 figure dans la section B.3 des annexes, page 194.
Si β J −1 + y(t)H h(t) est singulière, les matrices Z(t) et W (t) ne peuvent plus être mises à jour
avec les équations (VII.29) et (VII.31). En pratique, nous n’avons jamais rencontré ce cas singulier
dans nos simulations numériques3 .
3
Une solution consiste à calculer W (t) et R(t) en utilisant la SVD ou la factorisation QR de C xy (t). Alors on en
déduit Θ(t) = W (t − 1)H W (t). Le calcul complet requiert O(nr 2 ) opérations ; cette technique doit être utilisée tant que
R(t) ou Θ(t) reste singulière. Quand les deux matrices R(t) et Θ(t) redeviennent inversibles, alors on calcule Z(t), et
l’algorithme peut poursuivre le traitement adaptatif
VII.5. MÉTHODE API RAPIDE 95
Par conséquent, Θ(t) est une racine carrée inverse de la matrice définie positive de dimension r × r
I r + g(t) e(t)H e(t) g(t)H .
Le choix de cette racine carrée inverse n’affecte pas la performance de la poursuite4 . Le pseudo-code
de l’algorithme API à fenêtre exponentielle est présenté dans la table VII.15 , et celui de l’algorithme
API à fenêtre tronquée (TW-API) est présenté dans la table VII.2. La première section de API est
exactement la même que celle de l’algorithme PAST [Yang, 1995] ; elle requiert seulement nr+r 2 +O(r)
opérations par itération, alors que le reste de l’algorithme a une complexité de nr 2 + o(nr 2 ) opérations.
De même, la première section de TW-API est similaire à la version à fenêtre rectangulaire de PAST
[Badeau et al., 2003a] ; elle requiert seulement 2nr + 2r 2 + O(r) opérations, alors que le reste de
l’algorithme a une complexité de (n + l)r 2 + o(nr 2 ) opérations. Les implémentations directes de API et
TW-API présentées dans les tables VII.1 et VII.2 sont d’un intérêt limité, puisque un certain nombre
d’algorithmes plus rapides ont déjà été proposés dans la littérature, dont la complexité est de O(nr)
opérations (parmi lesquels [Yang, 1995,Rabideau, 1996,Miao et Hua, 1998,Douglas, 2000,Abed-Meraim
et al., 2000, Badeau et al., 2003a] sont illustrés dans la section VII.8). Une implémentation plus rapide
de API et TW-API est proposée dans la section VII.5.
où U (t) est une matrice orthonormée de dimension r × r. En substituant l’équation (VII.34) dans l’équation (VII.31),
on obtient n o
W (t) = W (t − 1) + e(t) g(t)H ΘP (t) U (t).
Cette dernière équation montre que U (t) n’affecte pas le sous-espace engendré par W (t) ; elle affecte seulement la base
orthonormée particulière W (t) de ce sous-espace. Par conséquent, le choix d’une racine carrée inverse Θ(t) particulière
n’a pas d’impact sur la performance de la poursuite du sous-espace.
5
Les valeurs initiales W (0) et Z(0) doivent être choisies de manière adéquate :
– W (0) devrait être une matrice orthonormée de dimensions n × r,
– Z(0) devrait être une matrice définie positive de dimension r × r.
Les deux matrices peuvent être déterminées à partir d’un bloc initial de données ou de façon arbitraire. Le moyen le
Ir
plus simple, cependant, est de poser W (0) = et Z(0) = I r . Le choix de ces valeurs initiales affecte le
0(n−r)×r
comportement transitoire mais non les performances en régime stable de l’algorithme.
96 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES
Initialisation
:
Ir
W (0) = , Z(0) = I r
0(n−r)×r
A
chaque itération faire
Vecteur d’entrée : x(t)
Section principale de PAST Cot
y(t) = W (t − 1)H x(t) (VII.16) nr
h(t) = Z(t − 1) y(t) (VII.27) r2
h(t)
g(t) = β+y(t)H h(t) (VII.30) 2r
Section principale de API
e(t) = x(t) − W (t − 1) y(t) (VII.32) nr
− 1
Θ(t) = I r + ke(t)k2 g(t) g(t)H 2 (VII.33) n + O(r 3 )
Z(t) = β1 Θ(t)H I r − g(t) y(t)H
(VII.29) O(r 3 )
Z(t − 1) Θ(t)−H
W (t) = W (t − 1) + e(t) g(t)H Θ(t) (VII.31) nr 2 + nr
où σ(t) est une matrice inversible de dimension q × q. L’intérêt de cette approche est que le pro-
blème d’extraction d’une matrice carrée de dimension r × r dans l’équation (VII.36) est remplacé par
l’extraction d’une racine carrée de dimension q × q. En effet, en substituant l’équation (VII.38) dans
l’équation (VII.36) on obtient une condition suffisante :
σ(t)−1 + σ(t)−H + σ(t)−1 I p − ρ(t) σ(t)−H = ρ(t)−1 .
En multipliant les deux membres de cette dernière équation à gauche par σ(t) et en les multipliant à
droite par σ(t)H , on obtient l’équation7
H
σ(t) − ρ(t) ρ(t)−1 σ(t) − ρ(t) = I p
Le lemme A.8.1 est appliqué avec C = I r , A = g(t) ε(t), D = I p et B = ε(t)H g(t)H . En particulier, l’inversibilité
6
Initialisation
:
Ir
W (0) = , Z(0) = I r , X(0) = 0n×l , Vb (0) = 0r×l
0(n−r)×r
A chaque itération faire
Vecteur d’entrée : x(t)
Section similaire SW − PAST Cot
x(t − l) X(t) = X(t − 1) x(t)
(VII.14)
y(t) = W (t − 1)H x(t)
h i h i (VII.16) nr
b b (VII.18)
v b(t − l) Y (t) = V (t − 1) y(t)
v(t − l) = W (t − 1)H x(t − l) (VII.17) nr
x(t) = x(t) x(t − l) (VII.5)
y (VII.21)
b (t) = y(t) v b(t − l)
y(t) = y(t) v(t − l) (VII.22)
h(t) = Z(t − 1) y b(t) (VII.27) 2r 2
−1
g(t) = h(t) β J −1 + y(t)H h(t) (VII.30) 8r
Section principale de TW − API
e(t) = x(t) − W (t − 1) y(t) (VII.32) 2nr
− 1
H H
Θ(t) = I r + g(t) e(t) e(t) g(t) 2
(VII.33) 4n + O(r 3 )
1 H H
Z(t) = β Θ(t) I r − g(t) y(t)
−H (VII.29) O(r 3 )
Z(t − 1) Θ(t)
W (t) = W (t − 1) + e(t) g(t)H Θ(t) (VII.31) nr 2 + 2nr
Vb (t) = Θ(t) Yb (t)
H (VII.19) lr 2
Même si d’autres choix seraient possibles, à partir de maintenant nous supposons que la racine carrée
de ρ(t) qui est impliquée dans l’équation ci-dessus est la seule racine carrée définie positive. Cette
condition garantit que σ(t) est définie positive, si bien que Θ(t) est hermitienne8 . On définit alors la
matrice définie positive de dimension q × q
8
Plus précisément, Θ(t) est définie positive. En effet, l’équation (VII.39) montre que σ(t) et ρ(t) sont conjointement
diagonalisables, et les valeurs propres de σ(t) sont strictement supérieures à celles de ρ(t). Par conséquent, ρ(t)−1 −σ(t)−1
est une matrice définie positive. Alors en soustrayant l’équation (VII.36) à l’équation (VII.38), on montre que Θ(t) est
définie positive.
98 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES
Puisque Θ(t) est inversible, le lemme d’inversion matricielle A.8.1 montre que η(t) l’est également9 .
Alors en substituant l’équation (VII.41) dans l’équation (VII.29), on obtient
Z(t) = 1
β Z(t − 1) − g(t) h′ (t)H + ǫ(t) g(t)H (VII.43)
Par ailleurs, en substituant les équations (VII.32) et (VII.44) dans l’équation (VII.48), on obtient
Le pseudo-code de l’algorithme FAPI à fenêtre exponentielle est présenté dans la table VII.3, et ce-
lui de l’algorithmeFAPI à fenêtre tronquée (TW-FAPI) est présenté dans la table VII.4. La complexité
globale de FAPI est de n(3r + 2) + 5r 2 + O(r) MACs par itération10 (alors que les complexités de PAST
[Yang, 1995] et OPAST [Abed-Meraim et al., 2000] sont 3nr + 2r 2 + O(r) et n(4r + 1) + 2r 2 + O(r)
respectivement). La complexité globale de TW-FAPI est de n(6r + 8) + 4lr + O(r 2 ) MACs par ité-
ration11 (alors que les complexités de PAST à fenêtre rectangulaire (SW-PAST) et OPAST à fe-
nêtre rectangulaire (SW-OPAST) [Badeau et al., 2003a] sont respectivement 5nr + 4r 2 + O(r) et
n(15r + 28) + 12r 2 + O(r)). Le terme 4lr dans la complexité de TW-FAPI peut rendre cet algorithme
plus coûteux dans des applications pour lesquelles l est beaucoup plus grand que n. Cependant, dans
le contexte de l’analyse spectrale, il a été démontré que les bornes de Cramér-Rao optimales sont
obtenues pour 21 n ≤ l ≤ 2n (cf. section III.2.2).
Le lemme A.8.1 est appliqué à l’équation (VII.41), avec C = I r , A = g(t) τ (t), D = −I p et B = g(t)H .
9
10
Cette implémentation de FAPI est plus rapide que celle proposée dans [Badeau et al., 2003c], dont le coût global
était égal à n(4r + 2) + 5r 2 + O(r).
11
Cette implémentation de TW-FAPI est aussi plus rapide que celle proposée dans [Badeau et al., 2003d], dont le coût
global était égal à n(8r + 8) + 4lr + O(r 2 ).
VII.6. LIEN AVEC LES ALGORITHMES PAST ET OPAST 99
1
Z(t) = Z(t − 1) − g(t) h(t)H (VII.52)
β
(en particulier, on montre par récurrence que Z(t) est toujours hermitienne). Par conséquent, cette
approximation au premier ordre de la méthode FAPI est une implémentation exacte de l’algorithme
PAST [Yang, 1995], qui fournit seulement une base presque orthonormée de l’espace signal. Par ailleurs,
un examen approfondi de l’algorithme OPAST présenté dans [Abed-Meraim et al., 2000] montre que
W (t) est mise à jour comme dans l’équation (VII.47) (ce qui garantit l’orthonormalité, contrairement à
l’équation (VII.51)). Cependant, Z(t) est mise à jour comme dans l’équation (VII.52). Par conséquent,
OPAST peut être vu comme un intermédiaire entre PAST et FAPI.
Proposition VII.7.1. Soient λ1 (t) ≥ . . . ≥ λr (t) > 0 les r valeurs propres de C xx (t) de plus grande
amplitude. Supposons que la matrice orthonormée W (t), de dimensions n × r, engendre le sous-espace
propre principal de C xx (t). Alors λ1 (t), . . . , λr (t) sont aussi les r valeurs propres (ou valeurs singu-
lières) de la matrice définie positive de dimension r × r
Puisque U (t) et W (t) sont des matrices orthonormées engendrant le même sous-espace, il existe une
matrice orthonormée O(t) de dimension r × r telle que
L’équation (VII.56) peut être vue comme l’EVD, ou aussi comme la SVD de la matrice définie positive
Γxx (t), faisant intervenir la base orthonormée O(t).
Par conséquent, λ1 (t), . . . , λr (t) s’obtiennent comme les r valeurs singulières de Γxx (t). De plus,
O(t) s’obtient en calculant la SVD de Γxx (t), et les vecteurs propres dominants de C xx (t) s’obtiennent
VII.8. SIMULATIONS NUMÉRIQUES 101
à l’aide de l’équation (VII.55). Cependant, le calcul de Γxx (t) tel que défini dans l’équation (VII.53)
requiert nlr + lr 2 MACs, ce qui est assez coûteux. Ce calcul peut être évité en introduisant l’approxi-
mation (VII.9) dans l’équation (VII.53) :
En substituant les équations (VI.2), (VI.3), (VII.26) dans l’équation (VII.57), on obtient
b Λ(t)
Z(t) = O(t) b −1 O(t)
b H.
b
où O(t) b H sont des matrices orthonormées de dimension r × r, et les valeurs singulières de la
et O(t)
b −1 sont triées par ordre croissant.
matrice diagonale Λ(t)
Alors la SVD de Γxx (t) peut être remplacée par celle de Z(t) (qui requiert seulement O(r 3 ) opéra-
tions), où les valeurs singulières de Z(t) sont triées par ordre croissant. Ainsi λ1 (t), . . . , λr (t) peuvent
être approchés en inversant ces valeurs singulières. De plus, O(t) peut être approché par le facteur
de gauche dans la SVD de Z(t), et des approximations des vecteurs propres dominants de C xx (t) se
déduisent à l’aide de l’équation (VII.55), qui requiert nr 2 MACs.
Ortho- Struc-
Algorithme Référence Complexité (MACs) norma- ture Figure /
lité propre Fenêtre
FAPI [Badeau et al., 2003c] n(3r + 2) + 5r 2 + O(r) oui non
PAST [Yang, 1995] 3nr + 2r 2 + O(r) non non Fig. VII.1
NIC [Miao et Hua, 1998] 4nr + 2r 2 + O(r) non non exponentielle
OPAST [Abed-Meraim et al., 2000] n(4r + 1) + 2r 2 + O(r) oui non
Karasalo [Karasalo, 1986] nr 2 + n(3r + 2) + O(r 3 ) oui oui
FST [Rabideau, 1996] n(6r + 2) + 12r 2 + O(r) oui oui
Householder PAST [Douglas, 2000] n(4r + 1) + 2r 2 + O(r) oui non Fig. VII.2
LORAF2 [Strobach, 1996] nr 2 + n(3r + 2) + O(r 3 ) oui oui exponentielle
SP1 [Davila, 2000] 4nr 2 + n(4r + 2) + O(r 3 ) oui oui
TW-FAPI [Badeau et al., 2003d] n(6r + 8) + 4lr + O(r 2 ) oui non
SW-PAST [Badeau et al., 2003a] 5nr + 4r 2 + O(r) non non Fig. VII.3
SW-NIC section B.4 6nr + 4r 2 + O(r) non non rectangulaire
SW-OPAST [Badeau et al., 2003a] n(15r + 28) + 12r 2 + O(r) oui non
(a)
Angle max. (deg) Fréquences (Hz)
0.2
0.1
0
500 1000 1500 2000 2500 3000 3500 4000
(b)
50
0
500 1000 1500 2000 2500 3000 3500 4000
(c)
0
Rapport (dB)
−10
−20
−30
500 1000 1500 2000 2500 3000 3500 4000
(d)
10
Rapport (dB)
0
−10
−20
−30
500 1000 1500 2000 2500 3000 3500 4000
(e)
Rapport (dB)
−5
−10
500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)
Fig. VII.1 – Poursuite de l’espace signal reposant sur une fenêtre exponentielle (1/2)
(a) Fréquences réduites des sinusoïdes
(b) Trajectoire de l’angle principal maximal obtenue avec FAPI
(c) Rapport des trajectoires obtenues avec FAPI et PAST
(d) Rapport des trajectoires obtenues avec FAPI et NIC
(e) Rapport des trajectoires obtenues avec FAPI et OPAST
l’algorithme de Karasalo et de LORAF2 est nr 2 et celui de FST est 6nr, alors que celui de FAPI est
seulement 3nr (voir la table VII.5). Parmi les nombreux algorithmes de poursuite de l’espace signal
que nous avons testés, SP1 est le seul qui ait présenté de meilleures performances que FAPI (voir
figure VII.2-e). Cependant, la table VII.5 montre que SP1 est l’algorithme plus coûteux. Par ailleurs,
il ne se prête qu’à l’analyse spectrale de séries temporelles, et a seulement été conçu pour des fenêtres
exponentielles.
(a)
Rapport (dB)
2
−2
500 1000 1500 2000 2500 3000 3500 4000
(b)
0
Rapport (dB)
−20
−40
500 1000 1500 2000 2500 3000 3500 4000
(c)
5
Rapport (dB)
0
−5
−10
−15
500 1000 1500 2000 2500 3000 3500 4000
(d)
0
Rapport (dB)
−2
−4
20
0
500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)
Fig. VII.2 – Poursuite de l’espace signal reposant sur une fenêtre exponentielle (2/2)
(a) Rapport des trajectoires obtenues avec FAPI et Karasalo
(b) Rapport des trajectoires obtenues avec FAPI et FST
(c) Rapport des trajectoires obtenues avec FAPI et Householder PAST
(d) Rapport des trajectoires obtenues avec FAPI et LORAF2
(e) Rapport des trajectoires obtenues avec FAPI et SP1
nature de la fenêtre qui tend à lisser les variations du signal. La figure VII.3-b représente le rapport
en dB des trajectoires obtenues avec TW-FAPI et la version à fenêtre rectangulaire de PAST, appelée
ici SW-PAST [Yang, 1995,Badeau et al., 2003a]. TW-FAPI converge plus rapidement que SW-PAST à
l’initialisation. Notons au passage que PAST et SW-PAST ne fournissent pas une base orthonormée de
l’espace signal. La figure VII.3-c représente le rapport en dB des trajectoires obtenues avec TW-FAPI
et une version à fenêtre rectangulaire de l’algorithme NIC présentée dans la section B.4 des annexes
(page 195), appelée ici NIC à fenêtre rectangulaire (SW-NIC)13 . Enfin, la figure VII.3-d montre le rap-
port en dB des trajectoires obtenues avec TW-FAPI et l’algorithme SW-OPAST [Badeau et al., 2003a].
La trajectoire de l’angle principal maximal d’erreur obtenue avec TW-FAPI est inférieure d’environ 20
dB à celles obtenues avec SW-NIC et SW-OPAST dans les régions où les fréquences sont constantes.
13
SW-NIC est également implémenté avec η = 0.7.
VII.8. SIMULATIONS NUMÉRIQUES 105
(a)
0
Rapport (dB)
−20
−40
500 1000 1500 2000 2500 3000 3500 4000
(c)
0
Rapport (dB)
−20
−40
500 1000 1500 2000 2500 3000 3500 4000
(d)
10
Rapport (dB)
0
−10
−20
−30
500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)
Fig. VII.3 – Poursuite de l’espace signal reposant sur une fenêtre rectangulaire
(a) Trajectoire de l’angle principal maximal obtenue avec TW-FAPI
(b) Rapport des trajectoires obtenues avec TW-FAPI et SW-PAST
(c) Rapport des trajectoires obtenues avec TW-FAPI et SW-NIC
(d) Rapport des trajectoires obtenues avec TW-FAPI et SW-OPAST
(a)
40
20
RSB (dB)
−20
−40
0 500 1000 1500 2000 2500 3000 3500 4000
(b)
100
Angle maximal (deg)
50
0
0 500 1000 1500 2000 2500 3000 3500 4000
(c)
100
Angle maximal (deg)
50
0
0 500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)
rapport n/r, pour tous n ∈ {r +1, . . . , 80} (avec β = 1 et l = 120). De nouveau, l’estimation de l’espace
signal devient fiable dès que n/r ≥ 7. Bien qu’ils ne soient pas illustrés ici, nous avons observé que la
même remarque est valide pour tous les algorithmes mentionnés ci-dessus.
(a)
Angle moyen (deg)
80
60
40
20
0
2 4 6 8 10 12 14 16 18 20
Rapport n/r
(b)
Angle moyen (deg)
80
60
40
20
0
2 4 6 8 10 12 14 16 18 20
Rapport n/r
(c)
Angle moyen (deg)
0.6
0.4
0.2
2 4 6 8 10 12 14 16 18 20
Dimension r du sous−espace
(d)
Angle moyen(deg)
0.6
0.4
0.2
2 4 6 8 10 12 14 16 18 20
Dimension r du sous−espace
(a) Angle max. moyen obtenu avec FAPI comme fonction de n/r
(b) Angle max. moyen obtenu avec TW-FAPI comme fonction de n/r
(c) Angle max. moyen obtenu avec FAPI comme fonction de r
(d) Angle max. moyen obtenu avec TW-FAPI comme fonction de r
Puisque la dimension r de l’espace signal est inconnue dans le cadre de nombreuses applications,
nous étudions dans cette section les performances des algorithmes FAPI et TW-FAPI dans le cas où ils
sont appliqués avec une dimension r erronée. Le RSB est constant, égal à 5.7 dB. Les performances de
l’estimation de l’espace signal sont analysées en terme de l’angle principal maximal entre le véritable
espace signal de dimension 4 et le sous-espace estimé de dimension r.
La figure VII.5-c représente la moyenne de θFAPI (t), comme fonction de r, pour tous r ∈ {1, . . . , 20}
(avec les paramètres β ≈ 0.99 et n = 80). De même, la figure VII.5-d représente la moyenne de
θTW−FAPI (t), comme fonction de r, pour tous r ∈ {1, . . . , 20} (avec les paramètres l = 120 et n = 80).
L’estimation de l’espace signal est fiable dans tous les cas :
– si r = 4, l’angle principal maximal est très faible (comme nous pouvions le supposer),
– si r < 4, l’angle principal maximal reste bas, ce qui signifie que le sous-espace sous-dimensionné
estimé est presque inclus dans le véritable espace signal,
108 CHAPITRE VII. APPROXIMATION DE LA MÉTHODE DES PUISSANCES ITÉRÉES
– si r > 4, l’angle principal maximal est encore plus bas que dans le cas r = 4, ce qui signifie que
le véritable espace signal est presque inclus dans le sous-espace sur-dimensionné estimé. De plus,
l’angle principal maximal diminue quand la dimension du sous-espace estimé croît.
Nous pouvons en déduire que FAPI et TW-FAPI sont robustes à une dimension r du sous-espace
erronée.
VII.9 Conclusion
Plusieurs implémentations de l’algorithme API, reposant sur une fenêtre exponentielle ou sur une
fenêtre tronquée, ont été présentées dans ce chapitre. Ces algorithmes atteignent une complexité linéaire
et garantissent l’orthonormalité de la base de l’espace signal à chaque itération. Dans le contexte de
l’analyse spectrale, la méthode s’avère robuste à de brusques variations de fréquences, et atteint de
meilleures performances que de nombreux algorithmes de poursuite de sous-espace, à la fois en terme
d’estimation de l’espace signal et de complexité algorithmique.
109
Chapitre VIII
Résumé
Nous proposons dans ce chapitre un nouvel algorithme rapide de poursuite de sous-
espace, qui possède la même complexité que OPAST, mais dont les performances
sont voisines de celles de la méthode des puissances itérées présentée dans la sec-
tion VI.2.2. Cet algorithme, baptisé YAST, peut être vu comme une implémentation
optimisée des algorithmes SP1 et SP2 récemment proposés dans [Davila, 2000]. Sa
faible complexité est obtenue en exploitant la structure Hankel de la matrice de
données. Ainsi, contrairement à FAPI, il ne peut être utilisé qu’en analyse spectrale
et non en localisation de sources (cf. section VI.2.3). Ses performances sont illus-
trées sur un signal présentant de brusques variations, et comparées à la méthode des
puissances itérées.
110 CHAPITRE VIII. YET ANOTHER SUBSPACE TRACKER
VIII.1 Introduction
Récemment, un nouvel algorithme de poursuite de l’espace signal, baptisé Subspace Projection (SP),
a été proposé par C.E. Davila [Davila, 2000]. Nous avons observé dans le chapitre VII que cet algo-
rithme présente de meilleures performances que celles de nombreux algorithmes classiques de poursuite
de sous-espace, tels que l’algorithme de Karasalo [Karasalo, 1986], PAST [Yang, 1995], LORAF [Stro-
bach, 1996], FST [Rabideau, 1996], NIC [Miao et Hua, 1998], OPAST [Abed-Meraim et al., 2000]
et FAPI [Badeau et al., 2005b]. Comme dans [Yang, 1995] et [Miao et Hua, 1998], l’estimation de
l’espace signal est considérée comme un problème d’optimisation. Cependant, au lieu d’introduire des
approximations, l’algorithme SP calcule l’espace signal comme la solution exacte de ce problème, qui
est néanmoins restreint à un sous-espace de dimension limitée.
Malheureusement, cet algorithme remarquable ne se prête qu’à l’analyse de séries temporelles, et
présente un coût élevé. Sa complexité globale est O(nr 2 ) (où n est la dimension des vecteurs de données
observés, et r est la dimension de l’espace signal), alors qu’un certain nombre d’algorithmes existants
ne requièrent que O(nr) opérations à chaque instant (c’est le cas de PAST, FST, NIC et OPAST).
Néanmoins, nous avons découvert que cet inconvénient peut être éliminé, et nous proposons dans ce
chapitre un nouvel algorithme, baptisé YAST, qui calcule le même espace signal que l’algorithme SP,
mais requiert seulement O(nr) opérations.
Le chapitre est organisé de la façon suivante. Dans la section VIII.2 est présenté le principe sur
lequel repose l’algorithme YAST. Ensuite, une implémentation rapide de YAST est proposée dans la
section VIII.3. Les performances de cet algorithme sont illustrées dans la section VIII.4. Enfin, les
principales conclusions de ce chapitre sont résumées dans la section VIII.5.
VIII.2 Principe
Il est bien connu qu’une matrice orthonormée W (t) de dimensions n × r engendre le sous-espace
dominant de dimension r de la matrice C xx (t) introduite dans la section I.4.2.2 si et seulement si elle
maximise le critère J , défini comme
J (W (t)) = trace W (t)H C xx (t)W (t) .
En particulier, le maximum de ce critère est égal à la somme des r plus grandes valeurs propres de
C xx (t). Cependant, implémenter cette maximisation parmi toutes les matrices orthonormées est très
coûteux (la complexité est O(n2 r)), et ne conduit pas à une récurrence simple entre W (t) et W (t − 1).
Dans le but de réduire le coût, l’idée introduite dans [Davila, 2000] consiste à limiter cette
recherche à l’espace image de W (t−1), plus quelques directions de recherche additionnelles.
L’algorithme YAST présenté ci-dessous repose sur la même idée.
Cependant cette recherche n’est pas implémentée de la même façon que dans [Davila, 2000]. L’espace
image de la matrice W (t) (de dimension r) est obtenu comme un sous-espace de l’espace de dimension
(r + p + q − 1) (avec p = 1 ou 2, et q = 1 dans le cas de la fenêtre exponentielle, ou 2 dans le cas de la
fenêtre tronquée) engendré par la matrice
V (t) = [W (t − 1), x(t)] (VIII.1)
où la matrice x(t), de dimensions n × (p + q − 1), contient le vecteur x(t) dans tous les cas, le vecteur
x(t − l) dans le cas de la fenêtre tronquée (q = 2), et éventuellement1 le vecteur C xx (t − 1) x(t) (cas
p = 2).
1
Cette dernière direction de recherche a été initialement proposée dans [Davila, 2000].
VIII.3. IMPLÉMENTATION RAPIDE DE YAST 111
La recherche exhaustive parmi toutes les matrices orthonormées W (t) de dimensions n × r est ainsi
remplacée par la maximisation de (VIII.3) parmi toutes les matrices orthonormées U (t) de dimensions
(r + p + q − 1) × r. Le résultat de cette maximisation est bien connu : U (t) doit engendrer le sous-
espace dominant de dimension r de la matrice C yy (t). Ainsi il est possible de suivre la matrice W (t)
en calculant
– une base orthonormée W (t) de l’espace image de V (t),
– la matrice C yy (t) = W (t)H C xx (t) W (t),
– une matrice orthonormée U (t) de dimensions (r + p + q − 1) × r engendrant le sous-espace
dominant de dimension r de C yy (t),
– la matrice W (t) = W (t) U (t).
En particulier, U (t) s’obtient en diagonalisant C yy (t). Par conséquent, les colonnes de la matrice
résultante W (t) définie dans l’équation (VIII.2) correspondent aux r vecteurs propres dominants de
C xx (t). Cependant, ce calcul conduit à une complexité globale de O(nr 2 ), comme dans [Davila, 2000].
Dans le but de réduire cette complexité globale à O(nr), on choisit une stratégie différente qui évite
la diagonalisation. Comme cela a été mentionné ci-dessus, U (t) doit être une matrice orthonormée
engendrant le sous-espace dominant de dimension r de la matrice C yy (t). Par conséquent, U (t) s’obtient
comme une base du complémentaire orthogonal du sous-espace dominant de dimension (p + q − 1) de
la matrice Z(t) = C yy (t)−1 . Ainsi, l’algorithme YAST calcule Z(t) et son sous-espace dominant de
dimension (p+q −1), et calcule U (t) comme une base du complémentaire orthogonal de ce sous-espace.
Comme cela sera montré dans la section VIII.3, cet algorithme peut être implémenté efficacement en
mettant à jour l’inverse Z(t) de la matrice de corrélation compressée C yy (t), de dimension r × r :
La matrice e(t), de dimensions n × (p + q − 1), est orthogonale à l’espace image de W (t − 1). Soit σ(t)
une racine carrée de la matrice e(t)H e(t), de dimension (p + q − 1) × (p + q − 1) :
1 1
σ(t) = e(t)H e(t) 2 = x(t)H x(t) − y(t)H y(t) 2 . (VIII.7)
Ci-dessous, σ(t) est supposée inversible. En effet, même si σ(t) se trouve être singulière, elle peut
être rendue inversible en supprimant une ou plusieurs colonnes dans x(t) 2 . Alors la matrice
W (t) = W (t − 1), e(t) σ(t)−1 (VIII.8)
Puisque
la matrice à l’extrême droite de cette équation est inversible, le rang de V (t) est égal à celui de la matrice
W (t − 1) e(t) . De plus, W (t − 1) est orthonormée et e(t) est orthogonal à span(W (t − 1)), donc le rang de V (t)
est égal à celui de e(t) plus r. Par ailleurs, le rang de σ(t) est égal à celui de e(t). Par conséquent, il est égal à celui de
V (t) moins r. Par conséquent, même si σ(t) se trouve être singulière, elle peut être rendue inversible en supprimant une
ou plusieurs colonnes dans x(t), ce qui revient à réduire la dimension (p + q − 1).
Par ailleurs, nous n’avons jamais rencontré ce cas singulier dans nos simulations.
VIII.3. IMPLÉMENTATION RAPIDE DE YAST 113
Soit alors
où
e
Alors Z(t) e yy (t)−1 satisfait
,C
e
Z(t) = 1
Z(t − 1) − h(t) γ(t) h(t)H . (VIII.23)
β
Soit
e y ′′ (t).
h(t) = Z(t) (VIII.25)
3
Le lemme A.8.1 figure dans la section A.8 des annexes (page 182). Il est ici appliqué avec C = β C yy (t−1), A = y(t),
B = y(t)H , et D = J.
114 CHAPITRE VIII. YET ANOTHER SUBSPACE TRACKER
′
En appliquant le lemme A.8.2 à l’équation (VIII.17), on montre que C yy (t) est inversible si et seulement
si cyy (t) − y ′′ (t)H h(t) est inversible4 . Dans ce cas,
′ e
Z(t) + h(t) γ(t)h(t)H −h(t)γ(t)
C yy (t)−1 = (VIII.26)
−γ(t)h(t)H γ(t)
où
′
h (t) = h(t) − y(t) (VIII.29)
e ′ (t) = Z(t)
Z e ′ ′
+ h (t) γ(t) h (t)H (VIII.30)
′ H
g(t) = h (t) γ(t) σ(t) (VIII.31)
′ H
γ (t) = σ(t) γ(t) σ(t) . (VIII.32)
est orthonormale et satisfait U (t)H φ(t) = 0. Par conséquent, U (t) est une base orthonormée du sous-
espace mineur de dimension r de la matrice Z(t). En substituant les équations (VIII.8) et (VIII.38)
dans l’équation (VIII.2), on obtient une récurrence pour la matrice W (t) :
′
où e′ (t) = e(t) σ(t)−1 + W (t − 1)f (t).
Finalement, en substituant l’équation (VIII.6) dans cette dernière définition, on obtient
où
′
y ′′′ (t) = y(t) σ(t)−1 − f (t). (VIII.41)
En substituant les équations (VIII.37), (VIII.36), et (VIII.34) dans l’équation (VIII.38), on montre que
Ir ′
U (t) = ′ − φ(t) θ(t)H f (t)H . (VIII.43)
−f (t)H
Ainsi, en substituant les équations (VIII.43), (VIII.28), (VIII.33) dans l’équation (VIII.42), on
obtient
e ′ (t) + g ′ (t) f ′ (t)H + f ′ (t) g(t)H
Z(t) = Z (VIII.44)
où
′
g ′ (t) = g(t) + f (t) γ ′ (t) − θ(t)λ(t)θ(t)H . (VIII.45)
VIII.3.5 Implémentation
Le pseudo-code complet de YAST est présenté dans la table VIII.26 . Dans le cas de la fenêtre
exponentielle, son coût global est 4nr MACs si p = 1, ce qui est inférieur ou égal à celui de FST, NIC
et OPAST, et 7nr si p = 2, ce qui reste un ordre de grandeur plus faible que celui de l’algorithme de
6
Nous avons observé que l’algorithme YAST est sujet à une instabilité numérique s’il est implémente de la façon
proposée ci-dessus. Cela est dû à une perte de symétrie de la matrice Z(t). Pour rendre YAST stable, la symétrie doit
être forcée en calculant
Z(t) + Z(t)H
Z(t) = (VIII.46)
2
à la fin de chaque itération (voir la table VIII.2).
116 CHAPITRE VIII. YET ANOTHER SUBSPACE TRACKER
Karasalo, LORAF et SP. Dans le cas de la fenêtre tronquée, son coût global est 8nr MACs si p = 1,
ce qui est généralement plus faible que celui de TW-FAPI, et 11nr si p = 2, ce qui reste plus faible
que celui de SHSVD2, SWASVD2 et SW-OPAST.
e ′ (t − l) =
Le coût du calcul des vecteurs x′ (t) = C xx (t − 1) x(t), x′′ (t) = C xx (t − 1)2 x(t) et x
2
C xx (t − 1) x(t − l) est réduit de O(n ) à O(n) en utilisant la technique décrite dans [Davila, 2000], qui
exploite la structure Hankel de la matrice de données.
Ortho- Struc-
Algorithme Référence Coût norma- ture Figure /
lité propre Fenêtre
FAPI chapitre VII 3nr oui non
YAST (p = 1 et q = 1) chapitre VIII 4nr oui non Fig. VIII.1
Méthode des puissances itérées section VI.2.2 n2 r + nr 2 oui oui/non7 exponentielle
YAST (p = 2 et q = 1) chapitre VIII 7nr oui non
TW-FAPI chapitre VII 6nr + 4lr oui non
YAST (p = 1 et q = 2) chapitre VIII 8nr oui non Fig. VIII.2
Méthode des puissances itérées section VI.2.2 4N r log2 (N ) + nr 2 oui oui/non rectangulaire
YAST (p = 2 et q = 2) chapitre VIII 11nr oui non
La figure VIII.1-a montre la trajectoire de l’angle principal maximal d’erreur obtenu avec FAPI,
avec les paramètres n = 80 et β ≈ 0.99. Ce résultat doit être comparé à celui obtenu avec l’algorithme
YAST en utilisant les mêmes paramètres (figure VIII.1-b) et p = 1. On observe que YAST converge
beaucoup plus vite que FAPI. Ensuite la figure VIII.1-c montre le résultat obtenu avec la méthode
des puissances itérées avec les mêmes paramètres. La méthode des puissances itérées converge plus
rapidement que YAST. Enfin, la figure VIII.1-d montre le résultat obtenu avec YAST dans le cas
p = 2. La convergence est encore plus rapide que celle de la méthode des puissances itérées.
La figure VIII.2-a montre la trajectoire de l’angle principal maximal d’erreur obtenue avec TW-
FAPI, avec les paramètres n = 80, β = 1 et l = 120 (fenêtre rectangulaire). Ce résultat doit être
comparé à celui obtenu avec l’algorithme YAST à fenêtre tronquée avec les mêmes paramètres (fi-
gure VIII.2-b) et p = 1. On remarque que YAST converge beaucoup plus vite que TW-FAPI. Ensuite
la figure VIII.2-c compare ce résultat à celui obtenu avec la méthode des puissances itérées avec les
mêmes paramètres. La méthode des puissances itérées converge plus rapidement que YAST. Enfin, la
7
La méthode des puissances itérées permet de suivre la structure propre de la matrice de corrélation quand l’étape
d’orthonormalisation est effectuée à l’aide d’une factorisation QR ; l’algorithme prend alors le nom de méthode d’itération
orthogonale. D’autres méthodes d’orthonormalisation ne permettent pas de suivre la structure propre. Par exemple, celle
utilisée dans la méthode des puissances naturelles [Hua et al., 1999] permet en revanche d’obtenir une matrice W (t)
stable au cours du temps (ce qui n’est pas le cas de la base des vecteurs propres, comme cela a été mentionné dans la
section VI.2.1).
VIII.5. CONCLUSION 117
Angle d’erreur (degrés)Angle d’erreur (degrés) Angle d’erreur (degrés) Angle d’erreur (degrés)
(a) FAPI
80
60
40
20
0
500 1000 1500 2000 2500 3000 3500 4000
(b) YAST avec p=1 et q=1
80
60
40
20
0
500 1000 1500 2000 2500 3000 3500 4000
(c) Méthode des puissances itérées
20
10
0
500 1000 1500 2000 2500 3000 3500 4000
(d) YAST avec p=2 et q=1
20
10
0
500 1000 1500 2000 2500 3000 3500 4000
Temps dicret (échantillons)
Fig. VIII.1 – Poursuite de l’espace signal reposant sur une fenêtre exponentielle
(a) FAPI
(b) YAST avec p = 1 et q = 1
(c) Méthode des puissances itérées
(d) YAST avec p = 2 et q = 1
figure VIII.2-d montre le résultat obtenu avec l’algorithme YAST à fenêtre tronquée dans le cas p = 2.
De nouveau, la convergence est encore plus rapide que celle de la méthode des puissances itérées.
VIII.5 Conclusion
Dans ce chapitre, un nouvel algorithme de poursuite de sous-espace a été présenté, dérivé de l’algo-
rithme SP de C.E. Davila. En particulier, la démonstration de sa convergence figure dans [Davila, 2000].
Cet algorithme atteint la complexité linéaire O(nr) et surclasse largement les algorithmes classiques
de poursuite de sous-espace de même complexité. De plus, il garantit l’orthonormalité de la base de
l’espace signal à chaque itération. Cet algorithme peut être modifié pour suivre le sous-espace mineur
de la matrice de corrélation8 .
8
Dans ce cas, la matrice U (t) doit engendrer le sous-espace mineur de dimension r de C yy (t) (au lieu de Z(t)).
118 CHAPITRE VIII. YET ANOTHER SUBSPACE TRACKER
Angle d’erreur (degrés) Angle d’erreur (degrés)Angle d’erreur (degrés)Angle d’erreur (degrés)
(a) TW−FAPI
80
60
40
20
0
500 1000 1500 2000 2500 3000 3500 4000
(b) YAST avec p=1 et q=2
80
60
40
20
0
500 1000 1500 2000 2500 3000 3500 4000
(c) Méthode des puissances itérées
80
60
40
20
0
500 1000 1500 2000 2500 3000 3500 4000
(d) YAST avec p=2 et q=2
10
0
500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)
Fig. VIII.2 – Poursuite de l’espace signal reposant sur une fenêtre rectangulaire
(a) TW-FAPI
(b) YAST avec p = 1 et q = 2
(c) Méthode des puissances itérées
(d) YAST avec p = 2 et q = 2
VIII.5. CONCLUSION 119
Chapitre IX
Résumé
Reposant sur l’estimation de l’espace signal obtenue par le biais de FAPI et de
YAST, nous proposons dans ce chapitre une nouvelle technique de suivi de la matrice
spectrale, plus rapide que celles évoquées dans la section VI.3. Par ailleurs, nous
proposons également deux approches pour suivre les pôles, la première effectuant
une approximation, et la seconde permettant de les calculer exactement pour un
coût inférieur à celui d’une EVD. La question du suivi des amplitudes est également
évoquée. Les performances de l’algorithme complet de poursuite des paramètres ainsi
obtenu sont illustrées en fin de chapitre.
122 CHAPITRE IX. SUIVI DES PÔLES ET DES AMPLITUDES COMPLEXES
IX.1 Introduction
Les chapitres VII et VIII présentaient des algorithmes de poursuite d’espace signal qui mettent à
jour la matrice W (t) de dimension n × r en lui ajoutant une matrice de rang réduit1 p + q − 1 < r :
où e(t) est une matrice de dimension n × (p + q − 1) et g(t) est une matrice de dimension r × (p + q − 1).
Nous visons maintenant à optimiser la suite du traitement en exploitant la structure particulière de
la mise à jour de la matrice W (t) dans l’équation (IX.1). Ainsi un nouvel algorithme ESPRIT adaptatif
est proposé dans la section IX.2, plus rapide que ceux évoqués dans la section VI.3. La section IX.3
est consacrée au suivi des pôles. Les performances des méthodes de suivi de la matrice spectrale et des
pôles sont ensuite illustrées dans la section IX.4. La question du suivi des amplitudes complexes est
évoquée dans la section IX.5. Enfin, la section IX.6 dresse un bilan de l’algorithme complet de suivi
des paramètres du modèle.
En particulier, il a été démontré dans la section V.3.1 que la matrice Ω(t) possédait une expression
simple permettant d’optimiser les calculs. A présent, nous allons montrer que la matrice Ψ(t) peut
être calculée récursivement. Posons
En substituant les équations (IX.2), (IX.3) et (IX.4) dans l’équation (V.8), on montre que Ψ(t)
satisfait une récursion de rang 2(p + q − 1) :
Ainsi, le calcul complet de Φ(t) est réduit à 2(p + q − 1)nr + O(n + r 2 ) MACs (cf. table (IX.1)).
Par ailleurs, on peut extraire de l’équation (IX.1) le résultat suivant :
où ν(t) est un vecteur de dimension r contenant le conjugué hermitien de la dernière ligne de W (t)
(cf. section V.3.1), et e(n−1) (t) est un vecteur de dimension p + q − 1 contenant le conjugué hermitien
1
Les vecteurs e(t) et g(t) ne sont pas définis de la même manière dans les chapitres VII et VIII, et ne sont d’ailleurs
pas désignés sous le même nom. Nous optons ici pour une notation unique, qui ne prête pas à ambiguïté avec celles de
ces deux chapitres. Concernant le rang de ces matrices, le chapitre VII correspond au cas p = 1.
IX.3. SUIVI DES PÔLES 123
Complexité
e− (t) = W ↓ (t − 1)H e↑ (t) (IX.2) n(p + q − 1)r
e+ (t) = W ↑ (t − 1)H e↓ (t) (IX.3) n(p + q − 1)r
e′+ (t) = e+ (t) + g(t) e↑ (t)H e↓ (t) (IX.4) n(p + q − 1)2
Ψ(t) = Ψ(t − 1) + e− (t) g(t) + g(t) e′+ (t)H
H
(IX.5) 2(p + q − 1)r 2
ϕ(t) = Ψ(t)H ν(t) (V.10) r2
Φ(t) = Ψ(t) + 1−||ν1(t)||2 ν(t) ϕ(t)H (V.9) r2
de la dernière ligne de e(t). En substituant les équations (IX.5) et (IX.6) dans l’équation (V.9), on
obtient finalement une récursion pour la matrice spectrale :
Φ(t) = Φ(t − 1) + g(t) e′′+ (t)H + e− (t) g(t)H + ν(t − 1) ∆ϕ(t)H , (IX.7)
où
1
e′′+ (t) = e′+ (t) + ϕ(t) en−1 (t)H ,
1 − kν(t)k2
ϕ(t) ϕ(t − 1)
∆ϕ(t) = 2
− .
1 − kν(t)k 1 − kν(t − 1)k2
Il s’agit d’une mise à jour de rang 2(p + q − 1) + 1. Dans la suite, l’équation (IX.7) sera écrite sous
une forme plus compacte :
Φ(t) = Φ(t − 1) + a(t) b(t)H (IX.8)
par conséquent des modules très proches. Pour contourner cette difficulté, il existe une solution très
simple qui repose sur la technique des décalages [Golub et Van Loan, 1996, pp. 353] : au lieu de calculer
les valeurs propres de la matrice Φ(t), on calcule celles de la matrice Φµ (t) , Φ(t)−µ(t)I r , où µ(t) ∈ C
(il suffit ensuite de rajouter µ(t) à toutes les valeurs propres obtenues). La vitesse de convergence de
z (t)−µ(t) i
l’algorithme est alors k+1
zk (t)−µ(t) et peut être optimisée en choisissant judicieusement2 le décalage
µ(t).
La complexité de cet algorithme d’itération orthogonale avec décalage est O(r 3 ). Contrairement à
ce qui a été fait dans le chapitre VI, il n’est pas possible de réduire cette complexité sans introduire
d’approximation, car la matrice Φ(t) ne possède pas de structure particulière. Il est cependant possible
de réduire les calculs en n’effectuant qu’une seule itération à chaque instant. On obtient ainsi l’algo-
rithme séquentiel présenté dans la table IX.2, dont la complexité est 2r 3 . Cet algorithme approche les
valeurs propres de la matrice Φ(t).
Récursion sur t
Φµ (t) = Φµ (t − 1) + a(t) b(t)H − (µ(t) − µ(t − 1))I r (2p + 2q − 1)r 2
Z(t) = Φµ (t) Q(t − 1) r3
Q(t) R(t) = Z(t) r3
{zk (t)}k∈{0...K−1} = diag R(t) + µ(t) r
Remarque. Il existe dans la littérature une alternative à l’algorithme d’itération orthogonale baptisée
itération QR, utilisable dans le cas où l’on ne cherche pas à calculer un sous-ensemble mais la totalité
des valeurs propres (ce qui est le cas ici). Une version séquentielle de cet algorithme s’obtient en
effectuant le changement de variable Φ(t) −→ T (t) = Q(t − 1)H Φ(t) Q(t − 1), de façon similaire
à ce qui est proposé dans [Golub et Van Loan, 1996, pp. 334]. Cependant, cet algorithme n’est pas
intéressant car il s’avère plus coûteux que l’algorithme d’itération orthogonale séquentiel (3r 3 au lieu
de 2r 3 ) et présente exactement les mêmes performances.
Pour réduire davantage la complexité, il serait possible d’envisager d’utiliser une approximation
similaire à celle qui a été introduite dans le chapitre VII, afin d’obtenir un coût en O(r 2 ). Malheu-
reusement, nous avons pu observer que cette méthode ne donne pas les résultats attendus (en fait elle
ne converge pas). En effet, contrairement à la mise à jour de la matrice C xx (t) qui fait intervenir un
vecteur de l’espace signal à l’instant t, la mise à jour de la matrice Φ(t) consiste en un ajustement de
faible amplitude, idéalement nul en l’absence de bruit si les paramètres du signal sont constants. Intro-
duire une approximation à chaque itération amène ainsi à cumuler les erreurs et empêche l’algorithme
de converger.
Un deuxième algorithme de suivi est proposé dans la section suivante. Celui-ci calcule les valeurs
propres exactes de la matrice Φ(t), et ne s’avère pas plus coûteux que l’algorithme d’itération orthogo-
nale séquentiel, qui ne donne que des valeurs approchées. Le premier sera donc logiquement abandonné
au profit du second.
2
Si les pôles sont supposés être au voisinage du cercle unité et avoir des fréquences centrées en 0, µ(t) = 1 paraît être
un choix approprié. En particulier, µ(t) est lui-même sur le cercle unité, et la matrice Φµ (t) est réelle si Φ(t) est réelle.
IX.3. SUIVI DES PÔLES 125
Les deux propositions suivantes donnent l’expression des vecteurs propres g e et ge′ , selon que z est
une valeur propre de Φ(t − 1) ou non. Elles sont démontrées en annexe, dans la section B.5.1, page 195.
126 CHAPITRE IX. SUIVI DES PÔLES ET DES AMPLITUDES COMPLEXES
Proposition IX.3.1. Si z n’est pas valeur propre de Φ(t − 1), alors eb(t)H g e (t)H g
e 6= 0 et a e=6 0. De
plus,
e ∈ span (zI r − J (t − 1))−1 a
g e (t) (IX.16)
e′ ∈ span (zI r − J(t − 1))−1∗ e
g b(t) . (IX.17)
Proposition IX.3.2. Si z est égal à une valeur propre zk (t − 1) de Φ(t − 1), alors au moins l’une des
deux conditions suivantes est vérifiée :
– eak (t) = 0 et
e′
g ∈ span(ek ) (IX.18)
†
e = ρ1 (zk (t − 1)I r − J (t − 1)) a
g e (t) + ρ2 ek (IX.19)
où ρ1 et ρ2 satisfont la relation
ρ1 1 − e e (t) = ρ2 ebk (t)∗
b(t)H (zk (t − 1)I r − J(t − 1))† a (IX.20)
– ebk (t) = 0 et
e ∈ span(ek )
g (IX.21)
′ ∗† e
e
g = ρ1 (zk (t − 1)I r − J(t − 1)) b(t) + ρ2 ek (IX.22)
où ρ1 et ρ2 satisfont la relation
ρ1 1 − a e (t)H (zk (t − 1)I r − J (t − 1))∗† e ak (t)∗ .
b(t) = ρ2 e (IX.23)
La proposition suivante détermine les valeurs propres de Φ(t). Elle est également démontrée en
annexe, dans la section B.5.1, page 195.
Proposition IX.3.3. Pour tout k ∈ {0 . . . r − 1}, zk (t − 1) est valeur propre de Φ(t) si et seulement
si le produit ebk (t)∗ e
ak (t) est nul. Les autres valeurs propres de Φ(t) sont les solutions de l’équation
Pour résoudre l’équation (IX.24), il suffit de remarquer que le membre de gauche devient un po-
Q
r−1
lynôme de degré r quand il est multiplié par (z − zk (t − 1)). L’algorithme de suivi des pôles est
k=0
résumé dans la table (IX.3). Par souci de simplicité, il est supposé dans cette table qu’aucune valeur
propre de Φ(t) n’est exactement valeur propre de Φ(t − 1) (ce qui est toujours le cas dans la pratique).
e
Par contre, la formule utilisée pour calculer la matrice G(t) a été choisie de façon à éviter les problèmes
numériques dans le cas où zk (t) est proche de zk (t − 1). Enfin, la normalisation des colonnes de G(t) e
est indispensable pour assurer la stabilité de l’algorithme.
La complexité globale est 43 r 3 + O(r 2 ) : l’ordre de grandeur, r 3 , est le même que celui d’une
diagonalisation directe de la matrice Φ(t), mais la constante multiplicative est beaucoup plus faible
(cf. [Golub et Van Loan, 1996, pp. 359]).
IX.3. SUIVI DES PÔLES 127
r3
e (t) = G(t − 1)−1 a(t)
a (IX.10) 3 + O(r 2 )
e
b(t) = G(t − 1)H b(t) (IX.11) r2
P ebk (t)∗ eak (t)
r−1
Calculer {zk (t)} en résolvant l′ équation 1 − z−zk (t−1) = 0 (IX.24) O(r 2 )
k=0
e (k′ ,k) (t) = zk (t)−zk (t−1)
∀k′ , k, G zk (t)−zk′ (t−1) ak′ (t)
e (IX.16) 2r 2
e
Normaliser les colonnes de G(t) 2r 2
e
G(t) = G(t − 1) G(t) (IX.13) r3
et
e
b(t) = G(t − 1)H b(t). (IX.26)
qui remplacent les équations (IX.10) et (IX.11). Alors l’équation (IX.12) devient
e
Φ(t) e (t) e
= J (t − 1) + a b(t)H .
e
Soit z une valeur propre de Φ(t), e′ un vecteur propre à
e un vecteur propre à droite associé, et g
g
gauche. Alors on vérifie que
e = a
(zI r − J (t − 1)) g e (t) eb(t)H ge (IX.27)
(zI r − J(t − 1))∗ ge′ = eb(t) a e′
e (t)H g (IX.28)
I −e
b(t)H (zI r − J (t − 1))−1 a
e (t)
où
n o
v ∈ ker I − e
b(t)H (zI r − J(t − 1))−1 a
e (t) (IX.32)
H
′
v ∈ ker e H −1
I − b(t) (zI r − J(t − 1)) a e (t) . (IX.33)
L’algorithme est résumé dans la table (IX.4). Sa complexité est 2r 3 + O(r 2 ), indépendamment de
2p + 2q − 1 (à condition toutefois que 2p + 2q − 1 reste très inférieur à r).
Tab. IX.4 – Algorithme de suivi des pôles (mise à jour de rang faible)
(a) FAPI
0.3
Fréquences (Hz)
0.2
0.1
0
500 1000 1500 2000 2500 3000 3500 4000
(b) TW−FAPI
0.3
Fréquences (Hz)
0.2
0.1
0
500 1000 1500 2000 2500 3000 3500 4000
(c) YAST avec p=1 et q=1
0.3
Fréquences (Hz)
0.2
0.1
0
500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)
de performances que dans le cas p = 1 et q = 1, mais son coût est alors deux fois plus élevé. Nous
préférerons donc également YAST à TW-FAPI.
Cependant, si l’on souhaite réduire la charge de calculs en n’estimant pas l’espace signal à chaque
instant, mais seulement à certains instants régulièrement espacés, il n’est plus possible d’utiliser YAST,
car celui-ci s’appuie sur la structure Hankel de la matrice de données (des explications ont été données
à ce sujet dans la remarque de la section VI.2.3). Dans ce cas FAPI et TW-FAPI constituent le meilleur
choix.
Dans la section II.6 nous avons défini le vecteur α(t) contenant les amplitudes complexes, dont
se déduisent les amplitudes réelles et les phases correspondantes. Il est immédiat de vérifier que ce
vecteur peut être mis à jour récursivement à l’aide de l’équation α(t) = J (t) α(t − 1). Le suivi de
α(t) par cette méthode requiert ainsi r MACs3 . Malheureusement, si cette technique de poursuite
est peu coûteuse, elle n’est pas du tout robuste aux variations des paramètres, puisque les erreurs
s’accumulent à chaque itération. Dans la pratique, elle devra être abandonnée au profit de la méthode
3
(non adaptative) présentée dans la section V.3.2. Comme cette dernière ne coûte que N r + r6 + O(r 2 )
MACs, elle n’accroît pas la complexité globale de l’algorithme de suivi des paramètres.
3
Dans la pratique, les pôles sont estimés à chaque instant à une permutation près. Il est donc nécessaire de déterminer
préalablement les trajectoires de chaque pôle par un critère de continuité temporelle avant de chercher à suivre les
amplitudes complexes.
130 CHAPITRE IX. SUIVI DES PÔLES ET DES AMPLITUDES COMPLEXES
Fréquences (Hz)
0.2
0.1
0
500 1000 1500 2000 2500 3000 3500 4000
(b) YAST avec p=2 et q=1
Fréquences (Hz) 0.3
0.2
0.1
0
500 1000 1500 2000 2500 3000 3500 4000
(c) YAST avec p=2 et q=2
0.3
Fréquences (Hz)
0.2
0.1
0
500 1000 1500 2000 2500 3000 3500 4000
Temps discret (échantillons)
IX.6 Conclusion
Dans ce chapitre a été proposé un nouvel algorithme ESPRIT adaptatif, plus rapide que ceux
mentionnés dans la section VI.3. Les valeurs propres de la matrice spectrale sont obtenues par le biais
d’une EVD, dont la complexité est réduite grâce à un calcul récursif. Enfin, les amplitudes complexes
sont estimées comme dans la section V.3.2.
Le coût de chaque étape de l’algorithme de poursuite des paramètres est résumé ci-dessous :
– poursuite de l’espace signal : 3qnr + 4(q − 1)lr + o(nr) MACs avec FAPI/TW-FAPI, ou (3p +
4q − 3)nr + O(n + r 2 ) MACs avec YAST (cf. table VIII.2),
– calcul de la matrice spectrale : 2(p + q − 1)nr + O(n + r 2 ) MACs (cf. table IX.1),
– suivi des pôles : 2r 3 + O(r 2 ) MACs (cf. table IX.4),
3
– suivi des amplitudes complexes : N r + r6 + O(r 2 ) MACs (cf. section IX.5).
Le coût du traitement complet est donc (q + 4)nr + (4q − 3)N r + 13 3 2
6 r + O(n + r ) MACs avec
FAPI/TW-FAPI, ou (6q + 5p − 5)nr + N r + 13 3 2
6 r + O(n + r ) MACs avec YAST.
Cet algorithme permet ainsi de suivre de manière précise et rapide les trajectoires temporelles des
sinusoïdes. Ce suivi permet d’envisager par exemple des applications de modification de durée ou de
hauteur du signal, que nous avons abordées dans [Badeau et al., 2002, David et al., 2003]4 . D’autres
applications seront présentées dans la troisième partie de ce mémoire.
4
Ces articles sont reproduits en annexe dans le chapitre C.
131
Troisième partie
Chapitre X
Résumé
Dans la littérature, les méthodes HR restent marginalement utilisées dans le cadre
de l’analyse spectrale des signaux de musique. Pourtant, certains auteurs ont montré
que le modèle ESM est particulièrement bien adapté à ce type de signaux. En fait,
il permet de représenter bien plus qu’une simple somme de sinusoïdes à modulation
exponentielle. Il n’en reste pas moins que la mise en oeuvre des méthodes HR est
délicate et nécessite de prendre certaines précautions. Nous résumons dans ce chapitre
les problèmes pouvant être rencontrés, et diverses solutions qui ont été proposées pour
y remédier.
134 CHAPITRE X. ANALYSE À HAUTE RÉSOLUTION DES SIGNAUX DE MUSIQUE
X.1 Introduction
Dans la littérature, il est courant de représenter le signal audio comme une somme de sinusoïdes
superposées à un bruit additif [Serra et Smith, 1990]. Le modèle ESM est plus général, car il permet de
représenter des sinusoïdes dont l’amplitude varie exponentiellement dans l’horizon d’analyse. Certains
auteurs se sont intéressés aux avantages apportés par cette extension du modèle. Nous nous efforçons
ici de montrer que les méthodes HR permettent de décrire bien plus qu’une simple modulation expo-
nentielle : elles se prêtent en fait à de nombreux types de modulations couramment rencontrées dans
les signaux de musique.
Cependant, plusieurs problèmes se posent quand on souhaite mettre en oeuvre ces méthodes. Tout
d’abord, le bruit additif n’est généralement pas blanc, ce qui rend le problème d’estimation plus com-
plexe. Par ailleurs, les méthodes HR ont tendance à privilégier dans le signal les partiels de plus forte
énergie, qui ne sont pas toujours les plus importants à l’oreille. Enfin, elles ne permettent en pratique
d’estimer qu’un nombre réduit de composantes sinusoïdales, pouvant être inférieur au nombres d’har-
moniques présents dans un son grave. Plusieurs approches ont été proposées pour pallier ces difficultés.
En particulier, nous montrerons que découper le signal en sous-bandes présente de nombreux avantages.
Le chapitre est organisé de la façon suivante : dans la section X.2, nous tâcherons de mettre en
évidence les apports essentiels des méthodes HR dans le traitement des signaux de musique. Ensuite,
les divers problèmes posés par leur utilisation dans ce contexte seront évoqués dans la section X.3.
Les méthodes proposées dans la littérature pour résoudre ces problèmes seront présentées dans la
section X.4. Enfin, les principales conclusions de ce chapitre seront résumées dans la section X.5.
X.2.1 Trémolo
Le trémolo est défini ici comme une modulation périodique de l’amplitude du son. Il se traduit
par une multiplication de la forme d’onde du son original par une fonction périodique. Par exemple, le
fondamental centré à la fréquence f0 s’exprime sous la forme s(t) = z0 t (1+p(t)), où p(t) est une fonction
1
périodique réelle de période ∆f (on suppose ∆f << f0 ), qui prend des valeurs petites devant 1. Cette
fonction se décompose donc comme une somme d’exponentielles complexes de fréquences multiples de
X.2. POTENTIEL DES MÉTHODES HR POUR L’ANALYSE DU SIGNAL DE MUSIQUE 135
La figure X.1-a représente la partie réelle du signal bruité obtenu avec les paramètres f0 = 20 Hz,
δ0 = 0 s−1 , ∆f = 2.3 Hz, et ε = 0.2. La variation de l’enveloppe de la sinusoïde est bien visible (phéno-
mène de battements). Nous souhaitons modéliser ce signal à l’aide du modèle ESM. L’équation (X.1)
se réécrit sous la forme
ε i2π(f 0+∆f )t ε i2π(f 0−∆f )t
s(t) = ei2πf 0t + e + e .
2 2
Ainsi, il apparaît que le signal est constitué de r = 3 pôles. La figure X.1-b représente les 10 plus grandes
valeurs propres de la matrice de corrélation de dimension 512 × 512, exprimées en dB et rangées par
ordre décroissant. Celles-ci sont bien quasi-constantes après le point d’abscisse 3, ce qui confirme cet
ordre de modélisation1 . Enfin, la figure X.1-c représente la partie réelle du signal reconstruit.
1
Amplitude
0.5
0
−0.5
−1
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)
(b) Valeurs singulières
Valeurs singulières (dB)
60
40
20
0
1 2 3 4 5 6 7 8 9 10
Ordre de valeurs décroissantes
(c) Signal reconstruit
1
Amplitude
0.5
0
−0.5
−1
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)
Les trois pôles estimés sont représentés dans la figure X.2 par des croix. Il sont bien équidistants
sur le cercle unité (tracé en ligne continue) et centrés en f0 . L’intervalle fréquentiel [f0 − ∆f, f0 + ∆f ]
est représenté par un secteur angulaire délimité en pointillés. Enfin, signalons que les trois amplitudes
estimées sur le signal bruité par la méthode des moindres carrés diffèrent des amplitudes théoriques de
moins de 0.4% en moyenne.
1
Pour cette même valeur r = 3, la fonction d’erreur inverse J du critère ESTER culmine à 1.2 × 106 .
136 CHAPITRE X. ANALYSE À HAUTE RÉSOLUTION DES SIGNAUX DE MUSIQUE
0.2
0.18
0.16
0.14
Partie imaginaire
0.12
0.1
0.08
0.06
0.04
0.9 0.92 0.94 0.96 0.98 1 1.02 1.04 1.06 1.08
Partie réelle
X.2.2 Vibrato
Le vibrato est défini dans une acception restrictive comme une modulation périodique de la hauteur
du son. Ainsi, tous les harmoniques du son subissent une modulation de même période. Par exemple,
le fondamental centré à la fréquence f0 s’exprime sous la forme s(t) = z0 t ei2πf0 p(t) , où p(t) est une
1
fonction périodique réelle de période ∆f (on suppose ∆f << f0 ), dont la dérivée est de moyenne
nulle et prend des valeurs petites devant 1. Ainsi, la fonction t 7→ ei2πf0 p(t) est elle-même périodique
1
de période ∆f , et se décompose par conséquent comme une somme d’exponentielles complexes de
fréquences multiples de ∆f , de sorte que
+∞
X
s(t) = αk ei2π(f0 +k∆f )t . (X.2)
k=−∞
Ainsi, le spectre du signal au voisinage du fondamental est un spectre de raies équidistantes et centrées
en f0 , comme dans le cas d’un trémolo périodique.
Pour illustrer ce résultat, nous synthétisons un signal constitué du seul fondamental, auquel est
appliqué un vibrato sinusoïdal :
s(t) = z0 t eiβ sin(2π∆f t)
f0
où β = ε ∆f est appelé indice de modulation.
La figure X.3-a représente la partie réelle du signal bruité obtenu avec les paramètres f0 = 20 Hz,
δ0 = 0 s−1 , ∆f = 2.3 Hz, et ε = 0.2 (de sorte que β ≃ 1.74). La variation de la fréquence de la sinusoïde
est bien visible. Nous souhaitons modéliser ce signal à l’aide du modèle ESM. La figure X.3-b représente
les 25 plus grandes valeurs propres de la matrice de corrélation de dimension 512 × 512, exprimées
en dB et rangées par ordre décroissant. Celles-ci sont quasi-constantes après le point d’abscisse 9, ce
qui suggère d’utiliser r = 9 pôles complexes2 . Enfin, la figure X.3-c représente la partie réelle du signal
reconstruit.
Les pôles estimés sont représentés dans la figure X.4 par des croix. Ils sont bien régulièrement
répartis sur le cercle unité (tracé en ligne continue) autour de la fréquence f0 . L’intervalle fréquentiel
[(1 − ε)f0 , (1 + ε)f0 ] est représenté par un secteur angulaire délimité en pointillés. Les pôles nécessaires
pour modéliser correctement le signal s’étendent au-delà de cet intervalle.
Enfin, comme la modulation de fréquence est sinusoïdale, il est connu que les amplitudes αk peuvent
être calculées analytiquement [Chowning, 1973]. En effet, le développement en série de Fourier de la
2
Pour cette même valeur r = 9, la fonction d’erreur inverse J du critère ESTER culmine à 4.0 × 104 .
X.2. POTENTIEL DES MÉTHODES HR POUR L’ANALYSE DU SIGNAL DE MUSIQUE 137
0.5
Amplitude
0
−0.5
−1
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)
(b) Valeurs singulières
Valeurs singulières (dB) 60
40
20
0
5 10 15 20 25
Ordre de valeurs décroissantes
(c) Signal reconstruit
1
0.5
Amplitude
−0.5
−1
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)
1
fonction t 7→ eiβ sin(2π∆f t) de période ∆f donne
+∞
X
eiβ sin(2π∆f t) = Jk (β) ei2πk∆f t
k=−∞
R 12
où Jk (β) = − 21
ei(β sin(2πu)−2πku) du est une fonction de Bessel de première espèce. Par substitu-
tion dans l’équation (X.2), on obtient αk = Jk (β). Ces valeurs analytiques des amplitudes complexes
peuvent être comparées aux valeurs estimées par la méthode des moindres carrés. La figure X.5-a
représente ainsi le spectre théorique du signal s(t), c’est-à-dire les fréquences f0 + k∆f en abscisse
et les amplitudes Jk (β) en ordonnée. Notons qu’il existe théoriquement une infinité de composantes,
mais la représentation est restreinte à l’intervalle −4 ≤ k ≤ 4, qui contient les 9 composantes les plus
énergétiques. La figure X.5-b représente le spectre estimé du signal bruité observé en utilisant comme
ci-dessus l’ordre de modélisation r = 9. Les fréquences estimées sont représentées en abscisse, et les
amplitudes ak estimées sont représentées en ordonnée. On remarque que le modèle estimé correspond
aux 9 composantes les plus énergétiques du modèle théorique.
X.2.3 Glissando
Le glissando est défini comme une variation monotone de la hauteur du son. A titre d’exemple,
∆f ∆f
nous synthétisons
1 un chirp dont la fréquence varie linéairement entre f0 − 2 et f0 + 2 sur l’intervalle
1
temporel t ∈ − 2 , 2 :
t2
s(t) = z0 t ei2π∆f 2 .
La figure X.6-a représente la partie réelle du signal bruité obtenu avec les paramètres f0 = 16 Hz,
δ0 = 0 s−1 et ∆f = 14 Hz2 . La variation de la fréquence de la sinusoïde est bien visible. Nous souhaitons
138 CHAPITRE X. ANALYSE À HAUTE RÉSOLUTION DES SIGNAUX DE MUSIQUE
0.25
0.2
0.15
Partie imaginaire
0.1
0.05
0
0.85 0.9 0.95 1 1.05 1.1 1.15
Partie réelle
0.6
0.5
Amplitude
0.4
0.3
0.2
0.1
0
10 12 14 16 18 20 22 24 26 28 30
0.6
0.5
Amplitude
0.4
0.3
0.2
0.1
0
10 12 14 16 18 20 22 24 26 28 30
Fréquence (Hz)
modéliser ce signal à l’aide du modèle ESM. La figure X.6-b représente les 25 plus grandes valeurs
propres de la matrice de corrélation de dimension 512 × 512, exprimées en dB et rangées par ordre
décroissant. Celles-ci sont quasi-constantes après le point d’abscisse 11, ce qui suggère d’utiliser r = 11
pôles complexes3 . Enfin, la figure X.6-c représente la partie réelle du signal reconstruit.
Les pôles estimés sont représentés dans la figure X.7 par des croix. Ils sont répartis sur une courbe
coupant le cercle unité (tracé en ligne continue) au point de fréquence f0 . Certains d’entre eux sont
assez éloignés du cercle unité, si bien que d’une part un modèle sans amortissement ne permettrait
pas de reconstruire correctement le signal, d’autre part la matrice de Vandermonde V n est très mal
conditionnée (cond(V n ) = 3.63 108 ). C’est pourquoi il est nécessaire de normaliser ses colonnes pour
estimer correctement les amplitudes (cf. section V.3.2). L’intervalle fréquentiel [f0 − ∆f ∆f
2 , f0 + 2 ] est
représenté par un secteur angulaire délimité en pointillés.
3
Pour cette même valeur r = 11, la fonction d’erreur inverse J du critère ESTER culmine à 560.
X.2. POTENTIEL DES MÉTHODES HR POUR L’ANALYSE DU SIGNAL DE MUSIQUE 139
0.5
Amplitude
0
−0.5
−1
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)
(b) Valeurs singulières
Valeurs singulières (dB) 50
40
30
20
10
0
5 10 15 20 25
Ordre de valeurs décroissantes
(c) Signal reconstruit
1
0.5
Amplitude
−0.5
−1
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)
Dans le cas des signaux réels, les modulations rencontrées ne correspondent pas exactement
aux modèles mathématiques présentés ci-dessus, mais les pôles ont quand même tendance
à se répartir le long d’une courbe.
A titre d’exemple, la figure X.8 représente le spectrogramme4 d’une voix de soprano originellement
échantillonnée à 44100 Hz, qui a été filtrée passe-bas et décimée d’un facteur 7, de sorte que sa fréquence
d’échantillonnage est de 6300 Hz. Ce signal est caractérisé par un net vibrato / tremolo (les deux types
de modulation étant très souvent associées dans un signal de musique). Il apparaît également que les
trois premiers harmoniques sont les plus énergétiques.
L’algorithme ESPRIT lui a été appliqué en utilisant des vecteurs de dimension n = 512, et un
ordre de modélisation r = 73 (que nous avons choisi de manière empirique). Les pôles estimés sont
représentés dans la figure X.9 par des croix. Ils sont essentiellement regroupés sur le cercle unité en
trois régions, correspondant aux trois premiers harmoniques du signal. Ces régions sont délimitées
par des secteurs angulaires représentés en pointillées, dont les valeurs frontières ont été déterminées de
manière empirique à partir du spectrogramme de la figure X.8. A l’intérieur de chacune de ces régions, la
répartition des pôles estimés est relativement homogène. Nous retrouvons donc le type de modélisation
que nous avons observé dans les sections précédentes sur des signaux synthétiques. Comme nous l’avons
mentionné plus haut, les pôles ont bien tendance à se répartir le long d’une courbe.
4
Ce spectrogramme a été calculé en utilisant des fenêtres de 196 points.
140 CHAPITRE X. ANALYSE À HAUTE RÉSOLUTION DES SIGNAUX DE MUSIQUE
0.2
0.18
0.16
0.14
Partie imaginaire
0.12
0.1
0.08
0.06
0.04
0.02
0.9 0.92 0.94 0.96 0.98 1 1.02 1.04 1.06 1.08 1.1
Partie réelle
3000
2500
2000
Fréquence (Hz)
1500
1000
500
0
0 0.1 0.2 0.3 0.4 0.5
Temps (secondes)
Nous pouvons alors nous poser la question suivante : le modèle PACE se prête-t-il à la représentation
de tels signaux ? Comme nous l’avons vu dans le chapitre III, les pôles multiples ont tendance à se
retrouver dispersés de façon homogène et isotrope en présence de bruit (ce résultat, valable en première
approximation, a été démontré dans la section III.3.1.3 et illustré dans la section III.4). Ainsi, il est
possible de les identifier en tant que sommets d’un polygone régulier, ce qui ne correspond absolument
pas à la répartition curviligne observée ci-dessus (excepté dans le cas particulier de pôles d’ordre deux).
Les tests que nous avons effectués confirment cet argument : nous avons pu observer qu’à nombre égal
de paramètres, le signal est presque toujours mieux représenté avec des pôles simples qu’avec des
pôles multiples (en terme d’erreur quadratique moyenne). Pour exhiber des cas où l’utilisation de
pôles multiples permet d’atteindre une meilleure précision que le simple modèle ESM, il faut utiliser
des fenêtres très courtes (de l’ordre de 4 ms). Mais même à court terme, le modèle ESM conduit
généralement à une meilleure représentation du signal. Ainsi, dans le cadre du traitement de signaux
de musique, le modèle PACE sera particularisé en modèle ESM.
1.2
0.8
Partie imaginaire
0.6
0.4
0.2
0
−0.2 0 0.2 0.4 0.6 0.8 1
Partie réelle
Amplitude
1
0
−1
−2
0 50 100 150 200 250 300 350 400 450 500
Temps discret (échantillons)
(b) Signal bruité
10
Amplitude
5
−5
−10
0 50 100 150 200 250 300 350 400 450 500
Temps discret (échantillons)
(c) Périodogramme
20
Puissance (dB)
−20
−40
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Fréquence réduite (Hz)
du bruit. De plus, en présence d’un bruit coloré, les pôles du signal ne sont pas estimés correctement.
Il s’agit d’un problème fondamental auquel il est nécessaire de trouver une solution.
0.05
Amplitude
0
−0.05
0 50 100 150 200 250 300 350 400 450 500
(b) 9ème vecteur propre
0.05
Amplitude
−0.05
0 50 100 150 200 250 300 350 400 450 500
(c) Signal reconstruit
2
Amplitude
1
0
−1
−2
0 50 100 150 200 250 300 350 400 450 500
Temps discret (échantillons)
basses fréquences était essentiellement perturbée par la puissance du bruit en hautes fréquences. Le
découpage en sous-bandes permet justement d’éviter ce genre d’«interférence» entre différentes régions
du spectre, en découplant les problèmes d’estimation dans chaque sous-bande. De plus, il se trouve
qu’un découpage du spectre plus fin en basses fréquences qu’en hautes fréquences est adapté à la forme
particulière de la densité spectrale de puissance du bruit généralement présent dans les signaux audio
(qui est plus coloré en basses fréquences qu’en hautes fréquences).
Par ailleurs, dans la section X.3.3, nous avons noté que les sons composés d’un grand nombre de
sinusoïdes ne peuvent pas être traités directement par les méthodes HR, car dans la pratique il n’est
pas possible d’estimer un espace signal de dimension supérieure à r ≃ 25, à la fois pour des raisons de
complexité et de stabilité numérique. Comme cela a été suggéré dans [Laroche, 1993] et [Hermus et al.,
2000], un découpage du signal en sous-bandes résout ce problème en limitant le nombre de sinusoïdes
présentes dans chaque sous-bande par réjection de la bande atténuée.
Enfin, il est possible d’associer au découpage en sous-bandes une décimation du signal d’un fac-
teur M . Comme cela a été démontré dans [Tkacenko et Vaidyanathan, 2001], la décimation présente
plusieurs avantages :
– Tout d’abord, elle engendre un étirement spectral du même facteur M . Ainsi, non seulement la
résolution spectrale est meilleure, mais le bruit additif est approximativement blanchi.
– De plus, sous certaines hypothèses, le RSB est également amélioré dans chaque sous-bande.
– Enfin, la fréquence d’échantillonnage est alors divisée par M , ce qui réduit globalement la charge
de calculs dans le cadre d’un traitement par blocs puisque la complexité des méthodes sous-
espace est généralement une fonction sur-linéaire du nombre de points traités, et dans le cadre
d’un traitement adaptatif parce que le nombre d’itérations est également réduit.
X.5 Conclusion
Dans ce chapitre, nous avons commencé par montrer le potentiel des méthodes HR dans le cadre
du traitement des signaux de musique. En particulier, nous avons montré que ces méthodes peuvent
représenter une classe de signaux bien plus large qu’une simple somme de sinusoïdes amorties. Puis
nous avons évoqué les difficultés posées par l’application des méthodes HR aux signaux de musique :
– l’estimation est biaisée en raison de la couleur du bruit présent dans le signal audio ;
– l’importance perceptive relative des composantes sinusoïdales n’est pas prise en compte ;
– seuls les sons contenant un nombre limité de sinusoïdes peuvent être traités de façon robuste.
Enfin, nous avons vu que la mise en oeuvre d’un banc de filtres apporte une solution à chacun de ces
trois problèmes :
– l’importance perceptive relative des différentes régions fréquentielles est prise en compte par le
biais d’un découpage adapté du spectre ;
– le bruit est approximativement blanchi dans chaque sous-bande ;
– le nombre de composantes dans chaque sous-bande est réduit par réjection de la bande atténuée.
En outre, la décimation présente d’autres avantages non négligeables :
– la résolution spectrale est améliorée ;
– le rapport signal à bruit est amélioré dans chaque sous-bande ;
– la charge globale de calculs est réduite.
146 CHAPITRE X. ANALYSE À HAUTE RÉSOLUTION DES SIGNAUX DE MUSIQUE
147
Chapitre XI
Résumé
Dans le chapitre précédent, nous avons montré le potentiel des méthodes HR dans
le cadre du traitement des signaux de musique. Néanmoins, la mise en oeuvre de ces
méthodes reste délicate et nécessite de prendre un certain nombre de précautions.
Le présent chapitre a ainsi pour objet de présenter divers pré-traitements permet-
tant d’accroître la robustesse de l’algorithme d’estimation. Ces pré-traitements sont
agencés sous la forme d’un système complet d’analyse / synthèse du signal, pouvant
être utilisé dans le cadre de diverses applications de traitement du signal. Citons par
exemple le codage, ou encore le débruitage et l’extraction de la partie bruitée du
signal. L’extraction du bruit peut avoir plusieurs applications ; nous présenterons à
titre d’exemple un travail mené avec M. Alonso sur l’estimation du rythme musical.
148 CHAPITRE XI. SYSTÈME COMPLET D’ANALYSE / SYNTHÈSE
XI.1 Introduction
Dans ce chapitre, nous présentons un système complet d’analyse / synthèse du signal audio. Ce
système repose sur une décomposition du signal en sous-bandes (les nombreux avantages d’une telle
décomposition en pré-traitement de l’algorithme d’estimation ont été évoqués dans le chapitre X).
Les paramètres du modèle sont ainsi estimés indépendamment dans chaque sous-bande. Il est ensuite
possible de reconstruire un signal pleine bande, en faisant passer les signaux de sous-bandes dans le
banc de filtres de synthèse associé au banc d’analyse.
Signal d’entrée
?
Segmentation
Banc de filtres d’analyse
- Blanchiment - Analyse HR -
Paramètres estimés
?
Pré-accentuation -
- Blanchiment - Analyse HR -
Le système d’analyse complet est résumé dans la figure XI.1 (et le système de synthèse correspon-
dant est présenté dans la figure XI.2). Comme les méthodes de poursuite des paramètres présentées
dans la deuxième partie du mémoire présupposent que l’ordre de modélisation est constant, il est né-
cessaire avant de les appliquer de segmenter le signal en régions que l’on modélisera avec un ordre
constant. Le signal est ensuite filtré par un filtre de pré-accentuation, destiné à rehausser les hautes
fréquences par rapport aux basses fréquences. Enfin, il est découpé en sous-bandes à l’aide du banc de
filtres d’analyse. Ces premières étapes sont détaillées dans la section XI.2. Les signaux de sous-bande
sont ensuite filtrés de façon à blanchir le bruit, ce qui permet d’accroître la robustesse de l’analyse HR
(section XI.3). Enfin, les signaux filtrés sont analysés à l’aide des algorithmes d’estimation présentés
dans les deux premières parties de ce document (les détails pratiques d’implémentation sont donnés
dans la section XI.4). Les divers traitements appliqués à partir de cette modélisation sont présentés
dans la section XI.5. La section XI.6 résume les principaux résultats de ce chapitre.
- Inversion de la
pré-accentuation
atténuée ne dépasse jamais le niveau de bruit dans la bande passante. Or la densité spectrale de
puissance des sons émis par de nombreux instruments de musique est une fonction décroissante de la
fréquence. Ainsi, la sélection d’une bande en hautes fréquences nécessiterait d’utiliser un filtre plus
réjecteur qu’en basses fréquences, donc un filtre plus long. Pour éviter cette distinction et pouvoir
appliquer la même réjection en hautes fréquences qu’en basses fréquences, il est préférable d’égaliser
approximativement la puissance du signal en entrée du banc de filtres. Une façon simple mais suffisante
de procéder consiste à appliquer un filtre de pré-accentuation, par exemple de fonction de transfert
H(z) = 1 − 0.98z −1 .
0–11025 Hz
0–5510 Hz 5510–11025 Hz
0–2760 Hz 2760–5510 Hz
0–1380 Hz 1380–2760 Hz
basses fréquences, et sont plus rapides en hautes fréquences qu’en basses fréquences, ce qui justifie un
découpage temporel plus fin en hautes fréquences.
niques multi-résolution, il existe un problème de compromis entre la longueur des filtres d’analyse et
le recouvrement spectral entre sous-bandes voisines. En effet, nous avons pu observer que les filtres
de longueur usuelle conduisent à un très fort recouvrement spectral. Inversement, il est possible de
réduire ce recouvrement en choisissant des filtres appropriés, mais la longueur totale du filtrage dans
les bandes les plus étroites est alors très supérieure à la durée de stationnarité du signal.
Une autre technique de découpage permettant de s’adapter plus finement à n’importe quelle échelle
(Bark, Mel, ou encore Equivalent Rectangular Bands (ERB)), tout en offrant une reconstruction par-
faite, a été proposée dans [Goodwin, 1996]. Cependant les signaux de sous-bande ne peuvent pas être
décimés. Nous opterons finalement pour une technique plus simple, présentée dans la section suivante,
qui est caractérisée par un faible recouvrement spectral entre sous-bandes tout en faisant intervenir
des filtres de longueur raisonnable. Cette approche fournit des signaux de sous-bande maximalement
décimés et offre une certaine liberté dans le découpage du spectre.
0
Puissance (dB)
−50
−100
−150
0 0.5 1 1.5 2
Fréquence (Hz) x 10
4
−20
−40
−60
−80
0 0.5 1 1.5 2
4
(c) Périodogramme du signal redressé x 10
−20
Puissance (dB)
−40
−60
−80
0 0.5 1 1.5 2
4
x 10
La technique de découpage que nous avons finalement retenue fait intervenir un banc de Filtres en
Cosinus Modulés (CMF). Ce type de banc de filtres a déjà été utilisé en pré-traitement de méthodes
sous-espace dans [Hermus et al., 2002], aboutissant à un découpage uniforme du spectre. Cependant,
il est possible de construire un banc de filtres non uniforme en regroupant des voies adjacentes (c’est-
à-dire en les sommant), comme cela a été proposé dans [Lee et Lee, 1995]. Chaque sous-bande ainsi
obtenue peut alors être décimée d’un facteur égal au nombre total de voies du banc CMF, divisé
par le nombre de voies fusionnées. Par exemple, dans le cas d’un banc CMF contenant 32 voies, une
sous-bande obtenue en fusionnant 4 voies adjacentes peut être décimée d’un facteur 8. Sous certaines
conditions, le banc de filtres ainsi obtenu satisfait trois propriétés essentielles :
– les filtres d’analyse et de synthèse sont passe-tout dans leur bande passante ;
– le banc de filtres d’analyse/synthèse vérifie la condition d’annulation de repliement ;
152 CHAPITRE XI. SYSTÈME COMPLET D’ANALYSE / SYNTHÈSE
(a)
−20
−40
−60
−80
−100
−120
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
(b)
−40
−60
−80
−100
−120
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
(c)
−40
−60
−80
−100
−120
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
(d)
−60
−80
−100
−120
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Fréquence réduite (Hz)
Sous-bande 0 1 2 3 4 5 6 7
Voies fusionnées 0 1 2–3 4–5 6–7 8–11 12–15 16–31
Intervalle (Hz) 0–690 690–1380 1380–2755 2755–4135 4135–5515 5515–8270 8270–11025 11025–22050
Décimation 32 32 16 16 16 8 8 2
Tab. XI.2 – Structure d’un banc de filtres non-uniforme pour l’analyse de signaux audio
La figure XI.3-a représente les fonctions de transfert des filtres d’analyse obtenus à partir d’un
banc CMF à 32 voies. Nous avons choisi des filtres de longueur 320, car cette longueur permet d’obtenir
une réjection en bande atténuée supérieure à 50 dB. A titre d’exemple, ce banc de filtres est utilisé
pour décomposer une note de musique (A2) jouée par un basson, dont le périodogramme est représenté
XI.3. BLANCHIMENT DU BRUIT 153
dans la figure XI.3-b. Avant d’être injecté dans le banc de filtres, le spectre de ce signal est corrigé à
l’aide du filtre de pré-accentuation proposé dans la section XI.2.1 (figure XI.3-c). Les périodogrammes
des signaux des sous-bandes 0 à 3 sont représentés dans la figure XI.4. En particulier, le banc de filtres
présente un net effet blanchissant sur la densité du bruit dans les signaux de sous-bandes. Finalement,
ce banc de filtres présente tous les avantages que l’on peut attendre d’un découpage en sous-bandes :
– le découpage non uniforme du spectre est adapté à la nature des signaux et à l’oreille humaine ;
– la longueur des filtres d’analyse est de 7 ms, inférieure à la durée typique de stationnarité des
signaux2 ;
– les signaux de sous-bande sont maximalement décimés ;
– les filtres d’analyse sont passe-tout dans leur sous-bande ;
– le recouvrement spectral entre sous-bandes est faible ;
– le signal est reconstruit parfaitement en sortie du banc de filtres.
Il possède néanmoins un inconvénient : les signaux de sous-bande, maximalement décimés, pré-
sentent un (faible) repliement. Ainsi, des fréquences «fantômes» peuvent être détectées dans les sous-
bandes, provenant en réalité de sous-bandes voisines. Pour un certain nombre d’applications, ce phéno-
mène peut être tout simplement ignoré, puisque le repliement est de toute façon éliminé par les filtres
de synthèse, et le signal est reconstruit parfaitement en sortie du banc de filtres. Citons par exemple
les applications de codage, de débruitage, et d’extraction du bruit additif, qui seront présentées dans
la section XI.5.
En revanche, pour des applications qui nécessitent de connaître les valeurs exactes des fréquences,
non pas dans les signaux de sous-bandes, mais dans le signal pleine bande, il n’est pas trivial de
reconnaître les fréquences repliées et d’attribuer les fréquences estimées à la bonne sous-bande. On peut
par exemple penser aux diverses applications d’analyse spectrale, ou de synthèse avec modification
d’échelle temporelle ou fréquentielle. Une solution a été proposée dans [Tkacenko et Vaidyanathan,
2001] pour résoudre cette ambiguïté.
fréquentiels. Ainsi, le résultat du filtrage sera comparable, mais la résolution itérative d’une équation
implicite aura été évitée.
d’un filtre de rang (entre les étapes 3 et 4). Or la forme de ces pics correspond à la transformée de
Fourier de la fenêtre N1 (e
u ⋆u)(t). On constate alors l’importance du choix de la fenêtre u(t) : nous avons
intérêt à choisir une fenêtre dont le lobe principal est le plus étroit possible et les lobes secondaires
le plus bas possible, afin d’éviter qu’ils ne dominent le niveau de bruit. Malheureusement il n’est pas
possible d’optimiser les deux caractéristiques simultanément et il est nécessaire de faire un compromis.
Les caractéristiques des fenêtres les plus couramment utilisées sont rappelées dans le tableau XI.3.
En pratique, cette méthode de blanchiment peut être appliquée à des fenêtres de longueur N = 128
dans chaque sous-bande (ce qui correspond à 23 ms dans les bandes aiguës du banc de filtres introduit
dans la section XI.2.4, ou 93 ms dans les bandes les plus graves). Le signal est multiplié par une fenêtre
de Hann de même longueur, et le périodogramme est calculé sur N ′ = 256 points. Il est ensuite lissé en
appliquant un filtre de rang de longueur q = 51 ≃ N ′ /5 (il s’agit d’un choix empirique). Pour calculer
la valeur du périodogramme lissé en chaque point, les q valeurs extraites sont triées par ordre croissant,
puis celle d’ordre 3q = 17 est sélectionnée (cette valeur a également été choisie de manière empirique).
Pour déterminer les valeurs frontières, le périodogramme est prolongé par périodicité. Enfin, il est
également possible d’introduire une étape de lissage temporel du périodogramme. La fonction rbx (t) est
ensuite obtenue en calculant la transformée de Fourier inverse du périodogramme filtré. Puis le filtre
blanchisseur H(z) est calculé par prédiction linéaire à l’ordre p = 4 (l’ordre choisi est peu élevé de
façon à lisser les variations locales du périodogramme).
(a)
−40
−50
Amplitude (dB)
−60
−70
−80
−90
−100
−110
(b)
−50
−60
Amplitude (dB)
−70
−80
−90
−100
−110
La figure XI.5 représente le résultat du blanchiment sur un segment extrait du signal de la sous-
bande la plus grave du son de basson illustré dans la section XI.2.4. Dans la figure XI.5-a, le pé-
riodogramme original est représenté en trait continus, et le périodogramme filtré en pointillés. Le
périodogramme redressé est représenté dans la figure XI.5-b.
Après blanchiment du bruit, les signaux de sous-bande sont prêts pour être analysés à l’aide de
l’algorithme rapide d’estimation présenté dans le chapitre V, ou à l’aide des méthodes adaptatives
introduites dans la deuxième partie du document. On peut extraire du signal des fenêtres de même
longueur N = 128 que celles utilisées pour le blanchiment, ce qui correspond à 23 ms dans les bandes
aiguës du banc de filtres introduit dans la section XI.2.4, ou 93 ms dans les bandes les plus graves.
Cette dernière longueur peut paraître grande par rapport à la durée moyenne de stationnarité des
signaux audio. Cependant il n’est pas absurde d’utiliser des fenêtres longues, car le modèle ESM
permet justement de représenter des signaux non stationnaires.
La valeur de N laisse le choix des dimensions n et l de la matrice X(t) (sous la contrainte N =
n+l−1). Or il a été démontré dans la section III.3.2.2 que les performances de la méthode d’estimation
sont proches de l’optimum quand 31 (N + 1) ≤ n ≤ 32 (N + 1). Dans la pratique, il est préférable de
choisir la valeur n = N/2, qui ne coïncide pas exactement avec l’optimum théorique, mais se trouve
au milieu de la plage de valeurs optimales, ce qui permet de garantir la robustesse de l’estimation.
Enfin, l’ordre de modélisation r doit être choisit dans l’intervalle {0 . . . pmax }, où pmax = N/4 (au
delà de cette valeur, le problème d’estimation des 4r paramètres du modèle ESM est sous-déterminé).
Pour déterminer r, il est possible d’utiliser le critère ESTER introduit dans le chapitre IV. Pour
éviter de sous-estimer l’ordre de modélisation, on sélectionnera la plus grande valeur p pour laquelle
1
la fonction d’erreur inverse J(p) = kE(p)k 2 dépasse un certain seuil, typiquement égal à 100 (comme
2
cela a été suggéré dans la section IV.3). Ce critère peut être rendu encore plus robuste en lissant la
fonction J au cours du temps.
Comme cela a été mis en évidence dans la section VI.2.1 en faisant glisser dans le temps la fenêtre
d’analyse, l’ordre du modèle apparaît plus clairement sur certaines fenêtres temporelles que sur d’autres,
où il aurait tendance à être sous-estimé (cela vaut pour toutes les méthodes de sélection de l’ordre
de modélisation). Or il est préférable de maintenir l’ordre de modélisation constant sur la durée la
plus longue possible. Cela permet d’une part de garantir la régularité temporelle de la représentation
paramétrique, et d’autre part de suivre l’espace signal et les paramètres fréquentiels dans un contexte
adaptatif. C’est pourquoi la première étape du système d’analyse présenté dans la figure XI.1 consiste à
segmenter le signal en régions où l’ordre de modélisation est supposé constant. Cette segmentation peut
être effectuée en détectant les attaques par exemple. Ensuite, l’ordre de modélisation est sélectionné en
appliquant le critère ESTER à différentes fenêtres de même longueur N , et en fusionnant les résultats
obtenus.
Une fois que l’ordre de modélisation est fixé, les paramètres du signal sont estimés à l’aide de
l’algorithme rapide présenté dans le chapitre V. Dans un contexte adaptatif, il est possible de suivre
leurs variations de trois manières différentes :
– si l’on souhaite estimer les paramètres à chaque instant t, la méthode adaptative proposée dans le
chapitre IX, utilisée en conjonction avec l’algorithme YAST (cf. chapitre VIII), permet d’atteindre
les meilleures performances tout en ayant la complexité la plus faible ;
– dans le cas où l’on souhaite davantage réduire la charge de calcul en n’estimant les paramètres
qu’à certains instants régulièrement espacés, deux approches sont possibles :
XI.5. TRAITEMENTS APPLICABLES DANS LES SOUS-BANDES 157
– les meilleurs performances sont atteintes avec l’algorithme de suivi basé sur la méthode des
puissances itérées proposé dans la section VI.2.2 ;
– la complexité la plus faible est atteinte avec la méthode adaptative du chapitre IX, utilisée en
conjonction avec l’algorithme FAPI ou TW-FAPI (cf. chapitre VII).
choisir des facteurs strictement plus petits que 1 réduit le niveau de bruit mais distord le signal. Il
s’agit donc de trouver un compromis entre niveau de bruit et distorsion. Finalement, les échantillons
b
du signal débruité peuvent être obtenus en extrayant des éléments de la matrice S(t), ou en moyennant
ses anti-diagonales. Les principales méthodes de subspace filtering sont résumées ci-dessous :
Moindres Carrés (LS) : l’estimateur S(t)b est défini comme la meilleur approximation de rang r de
la matrice X(t). Il est obtenu en tronquant simplement la SVD de la matrice X(t) ; les facteurs
de pondération sont donc tous égaux à 1 : c(q) = 1 ∀q ∈ {0 . . . r − 1}. Cet estimateur produit un
signal qui contient le niveau de bruit le plus haut mais la distorsion la plus faible.
Adaptation des Valeurs Singulières (SVA) : l’estimateur S(t) b est défini en remplaçant les valeurs
singulières de la matrice X(t)
√ par une estimation des valeurs singulières de la matrice S(t) [Huffel,
σq2 −σ2
1993], de sorte que c(q) = σq ∀q ∈ {0 . . . r − 1}.
Variance Minimale (MV) : l’estimateur S(t)b est défini comme la meilleure approximation de la
matrice S(t) pouvant être obtenue en calculant des combinaisons linéaires des colonnes de la
b MV = X(t)M (t), où la matrice M (t), de dimension l × l, minimise l’erreur
matrice X(t) : S(t)
2
quadratique kX(t)M (t) − S(t)k2F . On obtient ainsi [De Moor, 1993] les facteurs c(q) = 1 − σσ2
q
∀q ∈ {0 . . . r − 1}. Cet estimateur produit un signal qui contient le niveau de bruit le plus bas.
Citons également les estimateurs contraints dans le domaine temporel (TDC) et dans le domaine
spectral (SDC) [Ephraim et Van Trees, 1995], qui effectuent un compromis entre niveau de bruit et
distorsion. En pratique, nous préférerons utiliser la méthode des moindres carrés, qui consiste simple-
ment à projeter les données observées sur l’espace signal. Elle présente à la fois l’avantage d’être la
plus simple à implémenter (il n’est pas nécessaire de connaître les vecteurs singuliers mais seulement
une base de l’espace signal) et de ne pas introduire de distorsion.
Notons qu’il est possible de raffiner les méthodes ci-dessus en les implémentant de façon itérative,
comme cela a été proposé dans [Dologlou et al., 1997] pour la méthode des moindres carrés. Chaque
itération comprend alors deux étapes :
– appliquer l’une des méthodes ci-dessus à la matrice X(t) pour en déduire le signal débruité sb(t) ;
– remplacer les coefficients de la matrice X(t) par les échantillons de sb(t).
Cependant, le coût d’une telle approche est souvent prohibitif puisqu’elle requiert plusieurs SVD, et
elle ne converge de toute façon généralement pas vers s(t). Enfin, les diverses méthodes mentionnées
ci-dessus peuvent être implémentées dans un contexte adaptatif en utilisant un algorithme de poursuite
de l’espace signal. Ainsi, une technique de filtrage adaptatif basée sur la méthode des moindres carrés
et l’algorithme de poursuite LORAF a été proposée dans [Strobach, 1996].
Dans la section suivante, la méthode des moindres carrés sera utilisée pour séparer les composantes
signal et bruit du signal.
10000
Fréquence (Hz)
5000
0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45
(b) Signal débruité
10000
Fréquence (Hz)
5000
0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
(c) Bruit extrait
10000
Fréquence (Hz)
5000
0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
Temps (secondes)
et analysé à l’aide du système représenté dans la figure XI.2, en utilisant la technique de poursuite de
l’espace signal présentée dans la section VI.2.2.
La figure XI.6-b montre le spectrogramme du signal obtenu en sortie du système de reconstruction,
en resynthétisant les signaux de sous-bandes à partir des paramètres estimés. Les sinusoïdes ont bien
été conservées ; en revanche le bruit a été fortement réduit (cela est visible par la présence des zones
bleues sombres). La figure XI.6-c représente le spectrogramme du résiduel obtenu par cette méthode.
Les sinusoïdes ont été efficacement retirées du signal. A titre de comparaison, la figure XI.7-b montre
le spectrogramme du signal obtenu en sortie du système de synthèse, en projetant les signaux de
sous-bandes sur leur espace signal. Il apparaît que le niveau de bruit a été moins réduit que dans la
figure XI.6-b (les zones de bruits sont moins sombres). Cela confirme que la projection sur l’espace
signal ne retire qu’une partie du bruit. Enfin, la figure XI.7-c montre le spectrogramme du signal obtenu
en projetant les signaux de sous-bande sur l’espace bruit. Le résultat est similaire à celui de la figure
XI.6-c. En conclusion, la méthode basée sur la resynthèse permet de mieux séparer le bruit du signal ;
elle est cependant plus coûteuse en terme de calculs qu’une simple projection sur l’espace signal, qui
ne nécessite pas de déterminer les paramètres du modèle.
10000
Fréquence (Hz)
5000
0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45
(b) Signal débruité
10000
Fréquence (Hz)
5000
0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
(c) Bruit extrait
10000
Fréquence (Hz)
5000
0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
Temps (secondes)
De nombreux algorithmes partagent le même principe. D’abord, le signal est décomposé en sous-
bandes à l’aide d’un banc de filtres [Scheirer, 1998, Paulus et Klapuri, 2002, Seppänen, 2001] ou en
groupant des canaux de sa TFD [Laroche, 2001, Goto et Muraoka, 1997]. Ensuite, il s’agit d’extraire
les attaques dans les sous-bandes. Dans [Scheirer, 1998, Paulus et Klapuri, 2002, Seppänen, 2001], les
attaques sont détectées en calculant l’enveloppe temporelle des signaux de sous-bandes. La dernière
étape consiste à estimer la périodicité des attaques détectées.
Le système proposé vise à traiter une grande variété de genres musicaux. Ses performances ont été
testées sur une base de données annotée manuellement, contenant des extraits de rock, de pop, de jazz,
de musique latine, classique et de chants traditionnels. Le système est décrit dans la section XI.5.2.1.
Les résultats expérimentaux sont résumés dans la section XI.5.2.2, et comparés à d’autres méthodes
existantes. La question de la robustesse de la méthode proposée est également abordée.
x(t)
H 0 (z) . . . H 7 (z)
projection . . . projection
sur l’espace sur l’espace
bruit bruit
detection . . . detection
des attaques des attaques
ACF . . . ACF
. . .
Σ
analyse du tempo
SACF
XI.6 Conclusion
Dans ce chapitre, nous avons présenté un système complet d’analyse / synthèse reposant sur une
décomposition en sous-bandes du signal. Nous avons finalement opté pour un banc de filtres non
uniforme construit à partir d’un banc CMF, qui est adapté à la nature des signaux, tout en respectant
les diverses contraintes imposées par la mise en oeuvre des méthodes HR. En complément du banc
de filtres, une technique de blanchiment du bruit additif a été proposée, consistant à éliminer les
sinusoïdes présentes dans le signal, et à modéliser le résiduel par un processus AR. Puis nous avons
présenté diverses applications de ce système d’analyse / synthèse, parmi lesquelles des méthodes de
séparation de la partie sinusoïdale et de la partie bruitée du signal. Deux de ces méthodes ont été
illustrées dans le cas simple d’une note de piano. Nous avons ensuite utilisé l’une d’elles, appartenant
à la famille des techniques de subspace filtering, pour développer un algorithme d’estimation du tempo
musical. Les performances de ce système ont été testées sur une base de 54 morceaux provenant de
divers genres musicaux. Un taux de reconnaissance de 96% a ainsi été atteint.
163
Conclusions et perspectives
Bilan de l’étude
Le travail mené au cours de cette thèse a permis d’apporter un certain nombre de résultats théo-
riques nouveaux. Tout d’abord, la littérature associe généralement aux méthodes à Haute Résolu-
tion (HR) le modèle ESM, qui représente le signal comme une somme de sinusoïdes modulées expo-
nentiellement. En réalité, ce modèle est limité au cas particulier où tous les pôles du signal sont simples.
Nous nous sommes donc interrogés sur ce qu’il advient en présence de pôles multiples. Cela nous a
amené à introduire le modèle Polynomial Amplitude Complex Exponentials (PACE). Nous avons montré
que ce modèle constitue la solution générale des équations de récurrence linéaires homogènes. Il offre en
particulier des perspectives intéressantes en terme de codage, car il fait intervenir moins de paramètres
que le modèle ESM pour un même ordre de modélisation r (la fréquence et le facteur d’atténuation
d’un pôle multiple n’étant codés qu’une seule fois). Pour estimer les paramètres du modèle PACE,
nous avons généralisé toute la construction théorique développée dans le cadre du modèle ESM, qui
conduit à l’algorithme ESPRIT. Notre choix s’est porté sur cet algorithme, car d’une part il est plus
performant que d’autres méthodes HR, comme les méthodes de Prony, de Pisarenko, ou la méthode
MUSIC, d’autre part il peut être aisément optimisé et implémenté de façon adaptative. Nous avons
ainsi défini les matrices de Pascal-Vandermonde qui généralisent les matrices de Vandermonde au cas
de pôles multiples, et nous avons montré que ces matrices satisfont également une propriété d’inva-
riance rotationnelle. Nous avons aussi démontré que toute matrice de Hankel singulière est associée de
manière univoque à un modèle PACE, nous avons proposé une formule de factorisation des matrices
de Hankel, faisant intervenir des matrices de type Pascal-Vandermonde. La propriété d’invariance ro-
tationnelle a ainsi permis de généraliser l’algorithme ESPRIT au modèle PACE. L’algorithme consiste
alors à factoriser la matrice spectrale sous sa forme de Jordan. Une fois que les pôles complexes et
leurs multiplicités sont estimés, les amplitudes complexes peuvent en être déduites par la méthode des
moindres carrés. Pour étudier les performances de ces techniques d’estimation, nous avons calculé ana-
lytiquement les bornes de Cramér-Rao pour le modèle PACE, et nous avons simplifié leurs expressions
en supposant que l’horizon d’observation N → +∞ (dans le cas où le bruit est blanc et où tous les
pôles sont sur le cercle unité). Par ailleurs, nous avons démontré que les estimateurs des pôles et des
amplitudes complexes sont centrés, et nous avons calculé leurs variances sous l’hypothèse RSB→ +∞.
Nous avons enfin comparé ces variances aux bornes de Cramér-Rao en supposant conjointement que
N → +∞ et RSB→ +∞, et nous avons conclu que l’efficacité des estimateurs était voisine de 1. En
utilisant la théorie des perturbations, nous avons démontré en particulier que le bruit additif éclate
les pôles multiples en plusieurs valeurs propres simples, formant les sommets d’un polygone régulier,
et que la moyenne de ces valeurs propres dispersées constitue un bon estimateur du pôle multiple. Ce
phénomène a été mis en évidence dans nos simulations numériques.
Comme l’algorithme ESPRIT présuppose que l’ordre du modèle est connu, nous avons cherché à
étudier la perturbation induite par un ordre de modélisation erroné, en l’absence de bruit. Nous avons
ainsi démontré que si l’ordre du modèle est sur-estimé, les pôles originaux se trouvent parmi les pôles
164 CONCLUSIONS ET PERSPECTIVES
estimés. Inversement, si l’ordre est sous-estimé, les pôles estimés peuvent être vus comme des approxi-
mations de certains des pôles originaux. Dans ce dernier cas, nous avons déterminé une borne d’erreur
a posteriori, qui peut être calculée sans connaître l’ordre exact du modèle. A partir de cette observa-
tion, nous avons introduit la méthode ESTER, qui sélectionne un ordre de modélisation approprié. La
détermination de l’ordre de modélisation est une étape essentielle du processus d’estimation, car elle
conditionne toute la suite de l’analyse à haute résolution du signal. Puisque la méthode initiale était as-
sez coûteuse, nous avons proposé un algorithme rapide pour calculer récursivement les bornes d’erreur a
posteriori. Nous avons montré que la méthode ESTER s’avère plus robuste que les Critères de Théorie
de l’Information (ITC), et que les bornes d’erreur peuvent être utilisées pour quantifier l’adéquation
d’un éventuel ordre de modélisation inférieur, ce qui offre des perspectives intéressantes en terme de
codage. Enfin, comme l’inconvénient majeur de l’algorithme ESPRIT est sa complexité algorithmique
élevée, nous en avons proposé une implémentation rapide. Dans un premier temps l’espace signal est
calculé en utilisant l’algorithme d’itération orthogonale associé à une technique de convolution rapide.
Dans un deuxième temps, la matrice spectrale et les amplitudes complexes sont déterminées en tenant
compte des propriétés particulières de la base de l’espace signal et de la matrice de Vandermonde. Le
coût global de l’algorithme d’estimation est ainsi réduit à O(N r log2 (N ) + nr 2 ), au lieu de O(N 3 ).
Après avoir traité le cas de signaux à paramètres constants, nous nous sommes intéressés à l’ana-
lyse de signaux dont les paramètres varient au cours du temps (sous l’hypothèse de blancheur du bruit
additif). L’objectif de cette étude était de développer un système complet permettant de suivre les
trajectoires temporelles des sinusoïdes. Un très grand nombre d’algorithmes permettant de suivre les
variations temporelles de l’espace signal ont été proposés dans la littérature. Les simulations numériques
que nous avons effectuées ont montré la supériorité de la méthode des puissances itérées en terme d’es-
timation de l’espace signal. En effet, cette méthode atteint des performances remarquablement proches
de celles obtenues à l’aide d’une EVD. En revanche, elle reste assez coûteuse. Nous en avons donc
proposé une version de plus faible complexité, baptisée FAPI, qui repose sur une approximation moins
restrictive que celle connue dans la littérature sous le nom de projection approximation. Nous en avons
proposé plusieurs implémentations, reposant respectivement sur une fenêtre exponentielle et sur une
fenêtre tronquée. Cet algorithme atteint une complexité linéaire et garantit l’orthonormalité de la base
de l’espace signal à chaque itération (ce qui n’est pas toujours le cas des algorithmes publiés dans la
littérature). Dans le contexte de l’analyse spectrale, la méthode s’avère robuste à de brusques varia-
tions de fréquences, et atteint de meilleures performances que de nombreux algorithmes de poursuite de
sous-espace, à la fois en terme d’estimation de l’espace signal et de complexité algorithmique. Nos tra-
vaux les plus récents nous ont ensuite menés à un autre algorithme de poursuite de sous-espace, dérivé
de l’algorithme SP de C.E. Davila, que nous avons baptisé YAST. Cet algorithme atteint également
une complexité linéaire et offre des performances très supérieures à celles des algorithmes classiques de
poursuite de sous-espace de même complexité, dont FAPI. De plus, il garantit lui aussi l’orthonormalité
de la base de l’espace signal à chaque itération. Enfin, nous avons également conçu un troisième algo-
rithme de poursuite de l’espace signal baptisé Sliding Window Adaptive SVD (SWASVD), développé
antérieurement à FAPI et YAST et publié dans la revue IEEE Transactions on Signal Processing [Ba-
deau et al., 2004a], que nous avons choisi de reproduire en annexe dans le chapitre C pour ne pas
surcharger le corps de ce mémoire. A partir de ces divers algorithmes de poursuite, il restait à dé-
velopper une version adaptative de l’algorithme ESPRIT. Nous avons ainsi montré que la structure
particulière de la mise à jour de l’espace signal effectuée par FAPI ou par YAST permet de calculer la
matrice spectrale de manière récursive. Les pôles complexes sont ensuite obtenus en calculant l’EVD de
cette matrice, dont la complexité est réduite grâce à un calcul récursif. Le coût du traitement complet
est ainsi réduit à O(N r + r 3 ) au lieu de O(N 3 ) initialement. L’algorithme obtenu permet de suivre de
manière précise et rapide les trajectoires temporelles des sinusoïdes5 .
5
Les développements de la deuxième partie sont également applicables en traitement d’antenne : la poursuite de
Conclusions et perspectives 165
L’objet de notre travail étant l’analyse spectrale des signaux de musique, nous avons étudié le
potentiel des méthodes HR dans ce domaine. Nous avons ainsi montré que ces méthodes peuvent
représenter une classe de signaux bien plus large qu’une simple somme de sinusoïdes amorties. En effet,
le modèle ESM permet également de décrire différentes modulations d’amplitude ou de fréquence qui
sont familières des musiciens, comme le tremolo, le vibrato et le glissando. Nous avons ainsi pu observer
que le modèle ESM, moins général que le modèle PACE, s’avère néanmoins suffisant pour représenter
ces signaux. Nous avons également évoqué les trois principales difficultés posées par l’application des
méthodes HR aux signaux de musique : tout d’abord, l’estimation est biaisée en raison de la couleur
du bruit présent dans le signal audio. Par ailleurs, l’importance perceptive relative des composantes
sinusoïdales n’est pas prise en compte. Enfin, seuls les sons contenant un nombre limité de sinusoïdes
peuvent être traités de façon robuste. Nous avons vu que la mise en oeuvre d’un banc de filtres en pré-
traitement des méthodes HR apporte une solution à chacun de ces trois problèmes. D’une part, elle a
pour effet de blanchir approximativement le bruit dans chaque sous-bande. D’autre part, l’importance
perceptive relative des différentes régions fréquentielles est prise en compte par le biais d’un découpage
adapté du spectre. Enfin, le nombre de composantes dans chaque sous-bande est réduit par réjection
de la bande atténuée. L’utilisation d’un banc de filtre avec décimation présente également d’autres
avantages non négligeables, comme l’amélioration de la résolution spectrale et du rapport signal à
bruit dans chaque sous-bande, ou encore la réduction de la charge globale de calculs. Nous avons ainsi
développé un système complet d’analyse / synthèse du signal audio reposant sur un banc de filtres non
uniforme conçu à partir d’un banc CMF. L’analyse du signal comprend plusieurs étapes : un filtre de
pré-accentuation est d’abord appliqué au signal afin de rééquilibrer approximativement la puissance
en basses et en hautes fréquences. Le signal rehaussé est ensuite décomposé en sous-bandes. L’effet
blanchissant du banc de filtres n’étant pas toujours suffisant, l’étape suivante consiste à blanchir le
bruit additif dans les sous-bandes par filtrage. Cette opération est effectuée en éliminant les sinusoïdes
présentes dans le signal, et en appliquant une technique de prédiction linéaire au résiduel. Les signaux
de sous-bandes sont alors prêts pour être analysés à l’aide des algorithmes rapides que nous avons
développés. Ce système d’analyse / synthèse est directement utilisable pour des applications de codage
et de séparation des parties déterministe et stochastique du signal, qui ont en commun de pouvoir
être effectuées directement sur les signaux de sous-bandes. Ces principes ont été mis en oeuvre dans le
cadre d’un travail mené avec M. Alonso sur l’estimation du rythme musical [Alonso et al., 2003a]. Les
performances de ce système ont été testées sur une base de 54 morceaux provenant de divers genres
musicaux. Un taux de reconnaissance de 96% a ainsi été atteint.
Perspectives
Deux applications très classiques des modèles sinusoïdaux sont les modifications d’échelle tempo-
relle et d’échelle fréquentielle du signal. Il serait donc intéressant de transposer des techniques exis-
tantes [Mc Aulay et Quatieri, 1986,Serra et Smith, 1990] au modèle ESM et à notre système d’analyse.
Cependant, les modifications d’échelle ne peuvent pas être effectuées en traitant les signaux de sous-
bandes indépendamment les uns des autres. Dans le cas d’une modification d’échelle fréquentielle, il
existe une raison simple à cela : modifier une fréquence détectée dans une sous-bande peut amener à la
déplacer dans une autre sous-bande. Dans le cas d’une modification de l’échelle temporelle, ce problème
ne se pose plus, car le signal est synthétisé sur des fenêtres plus ou moins longues, mais son contenu
fréquentiel n’est pas modifié. Il est cependant nécessaire d’ajuster les phases des sinusoïdes dans chaque
fenêtre, afin d’assurer leur continuité entre fenêtres successives. Or il se trouve que l’élimination en sor-
l’espace signal peut être réalisée à l’aide de l’algorithme FAPI introduit dans le chapitre VII, et le suivi des pôles
complexes peut être effectué à l’aide de l’algorithme présenté dans le chapitre IX.
166 CONCLUSIONS ET PERSPECTIVES
tie du banc de filtres du repliement présent dans les sous-bandes repose fortement sur des interférences
constructives et destructives entre fréquences repliées. Malheureusement, le fait de modifier les phases
des sinusoïdes dans les sous-bandes adjacentes perturbe ces interférences ; le repliement n’est alors plus
correctement éliminé et engendre une gêne auditive. Il apparaît donc que toute modification d’échelle
doit être effectuée sur le signal pleine bande. Il est ainsi nécessaire d’estimer les paramètres fréquentiels
en bande pleine à partir des paramètres déterminés dans les sous-bandes, en distinguant les fréquences
repliées des fréquences réellement présentes dans le signal. Il s’agit d’un problème délicat, pour lequel
une solution a été suggérée dans [Tkacenko et Vaidyanathan, 2001]. On peut également renoncer à
utiliser un banc de filtres à reconstruction parfaite, et utiliser un ensemble de filtres d’analyse dont les
bandes passantes permettent de recouvrir la totalité du spectre. Ainsi les fréquences détectées dans les
bandes de transition peuvent être tout simplement ignorées.
En outre, que l’on cherche à modifier l’échelle temporelle ou l’échelle fréquentielle d’un signal, un
même problème se pose : il est nécessaire d’ajuster les phases des sinusoïdes estimées sur chaque fenêtre
d’analyse, afin de garantir la continuité de celles-ci dans le signal modifié. Cet ajustement est connu
sous le nom de «déroulement de la phase». Le lecteur pourra trouver de nombreuses références à ce
sujet dans la littérature (citons par exemple [Moulines et Laroche, 1995, Serra et Smith, 1990]). Le
déroulement de la phase est lui-même facile à implémenter ; cependant il repose implicitement sur la
connaissance des valeurs successives des paramètres fréquentiels de chaque sinusoïde. Or les algorithmes
adaptatifs présentés dans la deuxième partie du document permettent seulement d’estimer l’ensemble
des pôles complexes à chaque itération, sans pour autant établir de correspondance biunivoque entre
les ensembles de pôles successifs. Il est donc nécessaire de retrouver les trajectoires des partiels à l’aide
d’une méthode ad hoc, comme cela a été proposé dans [Mc Aulay et Quatieri, 1986,Serra et Smith, 1990]
dans le cadre du modèle sinusoïdal. Nous avons commencé à développer une approche similaire pour le
modèle ESM, et quelques résultats préliminaires6 ont été publiés dans [Badeau et al., 2002,David et al.,
2003]. Nous avons ainsi implémenté des techniques de reconstruction des trajectoires de partiels et de
déroulement de la phase. Nous avons également introduit une représentation temps-fréquence du signal
analogue au spectrogramme, que nous avons baptisée High Resolution spectrogram (HR-ogram) [David
et al., 2003]. Grâce à la décomposition du signal en sa partie déterministe et sa partie stochastique, de
nombreux effets peuvent être appliqués au signal audio. Par exemple, le changement de hauteur peut
être appliqué à la partie déterministe seule, en interpolant éventuellement son enveloppe spectrale.
Il est également envisageable de rééquilibrer les puissances respectives des parties déterministe et
stochastique, ou encore d’ajouter ou de retirer du vibrato ou du trémolo aux diverses trajectoires
fréquentielles.
D’autres applications pourraient concerner l’estimation de hauteur ou de hauteurs multiples, ou la
séparation de sources. Les méthodes HR seraient par exemple utilisées pour construire une somme ou un
produit spectral à haute résolution à l’aide des paramètres estimés, en tenant compte d’une éventuelle
inharmonicité. La séparation de sources reviendrait à trier les sinusoïdes en plusieurs classes, chaque
classe correspondant à une source. Parmi les critères de classification qui pourraient être envisagés,
citons l’harmonicité, la régularité de l’enveloppe spectrale des sinusoïdes au sein d’une classe, ou encore
la cohérence de phase entre composantes.
Sur le plan théorique, d’autres développements pourraient compléter ce travail de thèse, comme
l’analyse statistique des performances de ESTER en présence de bruit (en terme de biais, de dispersion
et d’efficacité), ou l’implémentation d’une version adaptative de la méthode de blanchiment proposée
dans la section XI.3.
6
Ces résultats ont été obtenus antérieurement aux travaux présentés dans la troisième partie de ce mémoire, et
ne reposent donc pas sur notre système d’analyse / synthèse (le signal n’est pas décomposé en sous-bandes). Afin de
maintenir la cohérence de cette troisième partie, nous avons préféré reproduire les articles [Badeau et al., 2002] et [David
et al., 2003] en annexe dans le chapitre C.
167
Quatrième partie
Annexes
169
Annexe A
Résumé
Ce chapitre expose les démonstrations des principaux résultats énoncés dans la pre-
mière partie. Ces résultats concernent la caractérisation du modèle PACE, les pro-
priétés des matrices de Pascal-Vandermonde et des matrices de Hankel singulières, le
calcul des bornes de Cramér-Rao, l’étude des perturbations et enfin la borne d’erreur
relative à un ordre de modélisation erroné.
170 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE
A.1 Introduction
Dans ce chapitre sont démontrés les principaux résultats de la première partie :
– les premiers résultats sur le modèle PACE sont démontrés dans la section A.2 ;
– le déterminant de la matrice Pascal-Vandermonde est calculé dans la section A.3 ;
– le lemme sur la propriété d’invariance rotationnelle des matrices de Pascal généralisées est énoncé
dans la section A.4 ;
– la formule de factorisation de la matrice de données est prouvée dans la section A.5 ;
– le théorème de caractérisation des matrices de Hankel singulières par le modèle PACE est dé-
montré dans la section A.6 ;
– les bornes de Cramér-Rao pour le modèle PACE sont calculées dans la section A.7 ;
– dans la section A.8 sont présentés des lemmes d’inversion matricielle qui sont utilisés dans des
démonstrations ultérieures ;
– les performances de la méthode d’estimation du chapitre II sont étudiées dans la section A.9 ;
– enfin, le théorème portant sur la borne d’erreur à priori relative à un ordre de modélisation erroné
est démontré dans la section A.10.
Démonstration du théorème II.2.1. Tout d’abord, il est immédiat de vérifier que l’ensemble des signaux
qui satisfont la relation (II.2) constitue un espace vectoriel sur C. Ensuite, nous allons montrer que cet
espace vectoriel est de dimension inférieure ou égale à r. En effet, considérons une famille de r + 1 vec-
teurs {sm (t)}m∈{0,..., r} de cet espace. Les r +1 vecteurs extraits [sm (0), . . . , sm (r − 1)]T m∈{0,..., r} de
dimension r constituent nécessairement une famille liée. Donc il existe des coefficients {λm }m∈{0,..., r}
Pr
tels que le signal y(t) , λm sm (t) est nul sur l’intervalle {0, . . . , r − 1}. En utilisant la récur-
m=0
rence (II.2), on en déduit que y(t) également nul sur l’intervalle [r, +∞[. Enfin, en utilisant la récur-
rence (II.2) et le fait que pr 6= 0, on montre que y(t) est également nul sur l’intervalle ] − ∞, −1]. Par
conséquent, y(t) = 0 ∀t, et la famille {sm (t)}m∈{0,..., r} est liée. Puisque toute famille de r + 1 vecteurs
est liée, l’espace est au plus de dimension r.
A présent, nous allons montrer que tout signal de la forme s(t) = Fmk [t] zk t−mk où mk < Mk
satisfait la relation (II.2). En effet,
r
X r
X
pτ s(t − τ ) = pr−τ Fmk [t − r + τ ] zk t−r+τ −mk . (A.1)
τ =0 τ =0
m
Pk
Or, d’après la proposition II.2.2, Fmk [t − r + τ ] = Fmk −m [t − r] Fm [τ ]. En substituant cette identité
m=0
dans l’équation (A.1), on obtient
r
X mk
X r
X
pτ s(t − τ ) = Fmk −m [t − r] zk (t−r)−(mk −m) pr−τ Fm [τ ] zk τ −m .
τ =0 m=0 τ =0
On obtient ainsi
r
X mk
X 1 (m)
pτ s(t − τ ) = Fmk −m [t − r] zk (t−r)−(mk −m) P (zk ).
m!
τ =0 m=0
A.3. DÉTERMINANT DE LA MATRICE PASCAL-VANDERMONDE 171
Or zk est une racine multiple d’ordre Mk du polynôme P [z], donc toutes ses dérivées mèmes s’annulent
Pr
en zk jusqu’à l’ordre Mk −1. Puisqu’il a été supposé que mk < Mk , on en déduit que pτ s(t−τ ) = 0.
τ =0
Nous avons donc démontré que le signal s(t) = Fmk [t]zk t−mk satisfait la récurrence (II.2).
Finalement, considérons la famille des vecteurs Fmk [t] zk t−mk {k∈{0,..., K−1},m ∈{0,..., M −1}} . La
k k
matrice carrée dont les colonnes sont extraites de ces vecteurs et dont les lignes correspondent aux
instants {0 . . . r − 1} est une matrice Pascal-Vandermonde telle que introduite dans la définition II.3.2.
D’après la proposition II.3.1, elle est inversible, puisque les pôles zk sont distincts deux à deux. Par
conséquent, la famille Fmk [t] zk t−mk {k∈{0,..., K−1},m ∈{0,..., M −1}} est libre. Or elle contient précisé-
k k
ment r vecteurs. En conclusion, l’espace vectoriel des signaux qui satisfont la récurrence (II.2) est
exactement de dimension r, et que cette famille en constitue une base. Donc un signal s(t) satisfait la
récurrence (II.2) si et seulement si il est de la forme (II.3).
Fn [t1 + t2 ]
1
= n (F n−1 [t1 + t2 ]) (t1 + t2 −
n−1 n + 1)
P
= n1 Fm [t1 ] Fn−1−m [t2 ] ((t1 − m) + (t2 − n + m + 1))
m=0
1 P
n−1
1 P
n−1
= n (Fm [t1 ] (t1 − m)) Fn−1−m [t2 ] + n Fm [t1 ] (Fn−1−m [t2 ] (t2 − n + m + 1))
m=0 m=0
n−1
P n−1
1 1 P
= n ((m + 1) Fm+1 [t1 ]) Fn−1−m [t2 ] + n Fm [t1 ] ((n − m) Fn−m [t2 ])
m=0 m=0
1 Pn
1 P
n
= n m Fm [t1 ] Fn−m [t2 ] + n Fm [t1 ] (n − m) Fn−m [t2 ]
m=0 m=0
P
n
= Fm [t1 ] Fn−m [t2 ]
m=0
Démonstration de la proposition II.3.1. Dans le cas particulier où il existe deux pôles zk1 et zk2 égaux,
la matrice V r possède (au moins) deux colonnes égales, donc son déterminant est nul. Le scalaire
défini dans l’équation (II.3.1) l’étant également, le résultat est vérifié. Les pôles seront donc désormais
supposés distincts deux à deux.
P
K−1
Pour tout k ∈ {0, . . . , K − 1}, posons rk = Mk′ et définissons la matrice carrée de dimension
k ′ =k
rk × rk h i
V k = C rMk k (zk ), . . . , C rMk (K−1) (z(K−1) ) .
172 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE
Q
K−1
Dk = (zk2 − zk1 )Mk1 Mk2 . (A.2)
k1 ,k2 =k
k1 <k2
K−1
P
Démonstration. Pour tout m ∈ {0, . . . , Mk }, posons r(k,m) = m + Mk′ et définissons la matrice
k ′ =k+1
carrée de dimension r(k,m) × r(k,m)
h r r r(k,m)
i
V (k,m) = C m(k,m) (zk ), C M(k,m)
(k+1)
(z(k+1) ), . . . , C M(K−1) (z(K−1) ) .
Notons D(k,m) = det(V (k,m) ) avec la convention D(k,0) = Dk+1 . En particulier, r(k,0) = r(k+1) et
r(k,Mk ) = rk . De même, D(k,Mk ) = Dk . En appliquant récursivement le lemme A.3.2 ci-dessous pour m
allant de 1 à Mk , on montre par récurrence que ∀m ∈ {0, . . . , Mk },
!
Q
K−1
m (Mk2 )
D(k,m) = (zk2 − zk ) D(k+1) . (A.3)
k2 =k+1
Démonstration. Pour calculer D(k,m) , on effectue des manipulations sur les lignes de V (k,m) qui ne
modifient pas la valeur de son déterminant. On construit ainsi une matrice V ′(k,m) de même dimension
calculée récursivement :
V ′(k,m) = V (k,m) ;
for i = r(k,m) − 1 : −1 : 1,
V ′(k,m) = V ′(k,m) − zk V ′(k,m) ;
(i,:) (i,:) (i−1,:)
end;
V ′(k,m) , de dimension (r(k,m) − 1) × (r(k,m) − 1). Il reste donc à calculer les coeffi-
(1:r(k,m) −1, 1:r(k,m) −1)
cients de cette matrice.
Commençons par les m − 1 premières colonnes, qui s’expriment en fonction du seul pôle zk . Pour
tous i ∈ {0, . . . , r(k,m) − 2} et j ∈ {0, . . . , m − 2},
V ′′(k,m) = V ′(k,m)
(i,j) (i+1,j+1)
= Fj+1 [i + 1] zk (i+1)−(j+1) − zk Fj+1 [i] zk i−(j+1)
= Fj [i] zk i−j .
Ensuite, pour tout k2 ∈ {k + 1, . . . , K − 1}, considérons les Mk2 colonnes qui s’expriment en
kP
2 −1
fonction du pôle zk2 . Soit j(k,k2 ) , (m − 1) + Mk′ l’indice de la première de ces colonnes. Pour
k ′ =k+1
tous i ∈ {0, . . . , r(k,m) − 2} et j ∈ {0, . . . , Mk2 − 1},
V ′′(k,m) = V ′(k,m)
(i, j+j(k,k2) ) (i+1, j+(1+j(k,k2) ))
= Fj [i + 1] zk2 (i+1)−j) − zk Fj [i] zk2 i−j)
= Fj−1 [i] zk2 i−(j−1) + Fj [i] zk2 i−j (zk2 − zk ).
Maintenant que les coefficients de la matrice V ′′(k,m) sont connus, nous allons effectuer des opérations
sur ses colonnes qui ne modifient pas son déterminant. Nous construisons ainsi une matrice V ′′′ (k,m) de
même dimension calculée récursivement :
V ′′′ ′′
(k,m) = V (k,m) ;
for k2 = k + 1 : K − 1,
for j = 1 : Mk2 − 1,
1
V ′′′
(k,m) = V ′′′
(k,m) − V ′′′ ;
(:, j+j(k,k2 ) ) (:, j+j(k,k2) ) zk2 − zk (k,m) ((:, (j−1)+j(k,k2 ) )
end;
end;
Il reste à déterminer les coefficients de cette matrice. Pour j ∈ {0 . . . m − 2},
V ′′′
(k,m) = (zk2 − zk ) V (k,m−1) .
(:, j+j(k,k2) ) (:, j+j(k,k2 ) )
On en déduit que
K−1
Y
det V ′′′ (zk2 − zk )Mk2 det V (k,m−1) .
(k,m) =
k2 =k+1
Lemme A.4.1 (Propriété d’invariance rotationnelle des matrices de Pascal généralisées). Supposons
que n ≥ 2. Soit C nM (z)↓ la matrice extraite de C nM (z) en supprimant la dernière ligne. De même,
soit C nM (z)↑ la matrice extraite de C nM (z) en supprimant la première ligne. Alors C nM (z)↓ et C nM (z)↑
engendrent le même sous-espace, et
Démonstration. Les coefficients de la matrice C nM (z)↑ sont définis par C nM (z)↑ (i,j) = Fj [i + 1] z (i+1)−j .
De plus, l’équation (II.4) montre que Fj [i + 1] = Fj [i] + F(j−1) [i]. Par conséquent,
K−1
X
S(t) = S k (t) (A.7)
k=0
M
X k −1
En substituant les équations (A.9) et (II.16) dans l’équation (A.8), on montre que
M
X k −1
′
S k (t)(i,j) = β(k,m′ ) (t) Fm′ [i + j] zk i+j−m . (A.10)
m′ =0
β k = C k αk
Démonstration du corollaire II.5.2. La proposition II.3.1 montre que les deux matrices V n et V l sont
de rang r. Par conséquent, la factorisation (II.13) montre que S(t) est de rang r si et seulement si
la matrice D(t), de dimension r × r, est inversible. Par ailleurs, l’équation (II.14) montre que D(t)
est inversible si et seulement si H k (t) est inversible ∀k ∈ {0 . . . K − 1}. Puisque H k (t) est anti-
triangulaire supérieure avec des coefficients anti-diagonaux égaux à β(k,Mk −1) , H k (t) est inversible si
et seulement si β(k,Mk −1) 6= 0. De plus, l’équation (II.16) montre que ∀k ∈ {0 . . . K − 1}, β(k,Mk −1) =
α(k,Mk −1) zk t−(l−1) . On en déduit que D(t) est inversible si et seulement si α(k,Mk −1) 6= 0 ∀k ∈ {0 . . . K−
1}.
W↑ = W↓ J (A.13)
Démonstration du théorème II.5.3. Montrons que 1. ⇒ 2. Commençons par remarquer que l’asser-
tion 1. requiert que r < n, puisque les deux matrices S(t)↓ et S(t)↑ n’ont que n−1 lignes. Dans un
premier temps, nous allons démontrer par l’absurde que la matrice de dimension (n − 1) × (l − 1)
extraite dans le coin supérieur droit ou inférieur gauche de S(t), que nous noterons S ′ (t), est
également de rang r (ce qui requiert aussi que r < l, puisque cette matrice ne possède que l − 1
colonnes). Supposons que ce ne soit pas le cas. Alors la matrice S(t)↓ est de rang r, donc elle
contient une matrice extraite inversible de dimension r × r. Mais la matrice S ′ (t) est de rang < r,
donc toutes ses matrices carrées extraites de dimension r × r sont singulières. Par conséquent,
S(t)↓ possède une et une seule matrice extraite inversible de dimension r × r : la matrice extraite
dans le coin supérieur gauche. De même, la matrice S(t)↑ est de rang r, donc elle contient une
matrice extraite inversible de dimension r × r. Mais la matrice S ′ (t) est de rang < r, donc toutes
les matrices carrées extraites de dimension r × r sont singulières. Par conséquent, S(t)↑ possède
une et une seule matrice extraite inversible de dimension r × r : la matrice extraite dans le coin
inférieur droit. Ainsi, les matrices de dimension r × r extraites respectivement dans les coins
A.7. BORNES DE CRAMÉR-RAO 177
supérieur gauche et inférieur droit de S(t), sont toutes deux inversibles et de dimension r × r,
alors que toutes les autres matrices carrées extraites de dimension r × r sont singulières. Par
conséquent, les r premières colonnes de S(t), de même que ses r dernières colonnes, engendrent
l’espace image de cette matrice. Or ces deux familles de r vecteurs, distinctes puisque r < l, ne
peuvent pas engendrer le même espace. En effet, la matrice carrée de dimension r × r extraite
dans le coin supérieur droit est singulière alors que celle extraite dans le coin supérieur gauche
est inversible (ou de même, la matrice carrée de dimension r × r extraite dans le coin inférieur
gauche est singulière alors que celle extraite dans le coin inférieur droit est inversible). Ainsi,
l’hypothèse de départ était fausse. Nous venons donc de démontrer que la matrice S ′ (t) est de
rang r.
Comme la matrice S(t) est de rang r, il existe des matrices A et B, respectivement de dimension
n × r et l × r, toutes deux de rang r, telles que S(t) = A B T . Par conséquent, la matrice S ′ (t),
de rang r, qui peut être extraite de S(t) à la fois dans le coin supérieur droit et dans le coin
inférieur gauche, est simultanément égale à A↓ B T↑ et à A↑ B T↓ . Ainsi,
A↓ B T↑ = A↑ B T↓ . (A.16)
Par conséquent, A↓ et A↑ engendrent le même espace de dimension r. Donc il existe une matrice
inversible Φ, de dimension r × r, telle que A↑ = A↓ Φ. Soit Φ = G J G−1 la décomposition
de Jordan de la matrice Φ (G est une matrice inversible, et J est de la forme (II.8), avec des
pôles non nuls, puisque Φ est inversible). Posons ensuite W , A G. Alors W vérifie l’égalité
W ↑ = W ↓ J . La proposition A.6.1 implique alors W = V n T ′, où la matrice V n a été introduite
dans la définition II.3.2, et où T ′ est de la forme (A.15). Ainsi, A = V n T ′ G−1 . Notons que
cette égalité implique que les pôles de la matrice J sont distincts deux à deux, sinon V n , et
par conséquent A ne seraient pas de rang plein. De même T ′ est inversible, sinon A ne serait
pas de rang plein. En substituant cette dernière égalité dans l’équation (A.16), et en utilisant
le théorème II.3.2, on obtient V n↓ T ′ G−1 B T↑ = V n↓ J T ′ G−1 B T↓ . Comme de plus V n↓ est de
rang plein, on en déduit que la matrice W f , B G−T T ′T P (où P est la matrice de permutation
dont tous les coefficients sont nuls, sauf ceux situés sur l’anti-diagonale, égaux à 1) vérifie l’égalité
f↑ = W
W f ↓ J . La proposition A.6.1 implique alors W f = V l T , où T est de la forme (A.15). Ainsi,
T
B = V l T P T ′−T GT . Par conséquent, S(t) = A B T = V n H V l , où H = P T T = T P . La
proposition II.5.1 et le corollaire II.5.2 permettent alors de conclure.
Montrons que 2. ⇒ 1. Le corollaire II.5.2 et la proposition II.5.1 montrent que la matrice S(t) est
T
de rang r et vérifie S(t) = V n H V l . En particulier, H est inversible. Donc le corollaire II.5.2
T T
permet de conclure que les matrices S(t)↓ = V n↓ H V l et S(t)↑ = V n↑ H V l sont également
de rang r.
Les dérivées partielles de la matrice de covariance Rww par rapport aux paramètres du modèle sont
toutes nulles, sauf ∂R
∂σ = 2σΓ. Inversement, la dérivée partielle du vecteur moyenne s par rapport à σ
ww
est nulle. Donc la matrice F (θ) définie dans l’équation I.20, de dimension (1+ 2r + 2K)× (1+ 2r + 2K),
4N
σ2 0...0
0
s’écrit sous la forme F (θ) = . ′ , où l’expression de la matrice F ′ (θ), de dimension
. . F (θ)
0
σ2
4N 0...0
0
(2r + 2K) × (2r + 2K), sera précisée ci-dessous. Ainsi on obtient = . F (θ)−1
′ −1 dont
.. F (θ)
0
se déduit la borne de Cramér-Rao pour l’écart-type σ. Pour obtenir les bornes relatives aux autres
paramètres, il convient maintenant de calculer et d’inverser la matrice F ′ (θ).
T
Pour tout z ∈ C, considérons le vecteur v(z) = 1, z, . . . , z N −1 . Les dérivées partielles des
coefficients du vecteur moyenne s par rapport aux autres paramètres du modèle sont
∂st 1 dmk v(zk )
= ei φ(k,mk )
∂a(k,mk ) mk ! dzkmk
∂st 1 dmk v(zk )
= i a(k, mk ) ei φ(k,mk )
∂φ(k,mk ) mk ! dzkmk
Mk
X
∂st 1 dmk v(zk )
= zk mk α(k,mk −1)
∂δk mk ! dzkmk
mk =1
Mk
X
∂st 1 dmk v(zk )
= i 2πzk mk α(k,mk −1) .
∂fk mk =1
mk ! dzkmk
Pour tous les couples de pôles (zk , zk′ ), où (k, k′ ) ∈ {0 . . . K −1}2 , définissons alors la matrice Z (k,k′ )
de dimension (Mk + 1) × (Mk′ + 1), dont les coefficients sont indexés par les indices mk ∈ {0 . . . Mk }
et mk′ ∈ {0 . . . Mk′ } :
bloc Z −1 −1
(k ′ ,k) , indexés par les indices mk ∈ {0 . . . Mk } et mk ∈ {0 . . . Mk }, sont notés Z(k ′ ,k,mk′ ,mk ) .
′ ′
Par ailleurs, pour toute matrice complexe M de dimension d × d, définissons la matrice réelle
R2 (M ), de dimension (2d) × (2d), de la façon suivante :
.. .. .. .
. . . ..
· · · Re M (i,j) − Im M (i,j) ···
R2 (M ) = .
· · · Im M (i,j) Re M (i,j) ···
. .. .. ..
.. . . .
1
Cette définition rejoint celle donnée dans la section III.2.1, page 36.
A.7. BORNES DE CRAMÉR-RAO 179
Alors on vérifie que la matrice F ′ (θ) se décompose en sous-blocs F ′ (θ)(k,k′ ) , où (k, k′ ) ∈ {0, . . . , K −
1}2 ,chaque bloc F ′ (θ)(k,k′ ) , de dimension 2(Mk + 1) × 2(Mk′ + 1), pouvant s’écrire sous la forme
F ′ (θ)(k,k′ ) = 2
σ2 diag(. . . , 1, a(k,mk ) , . . . , 1, 2π)
diag . . . e−i φ(k,mk ) . . . , zk ∗
..
.. .. . .
. ..
. M
Pk ′
· · · Z(k,k′ ,mk ,mk′ ) · · · mk′ α(k′ ,mk′ −1) Z(k,k′ ,mk ,mk′ )
. mk′ =1
R2 . . .
.. .. .. ..
.
M
Pk M
Pk Pk M ′
... mk α∗(k,mk −1) Z(k,k′ ,mk ,mk′ ) . . . mk mk′ α∗(k,mk −1) α(k′ ,mk′ −1) Z(k,k′ ,mk ,mk′ )
mk =1
mk =1 mk′ =1
iφ ′
diag . . . e (k ,mk′ ) . . . , zk′
F ′ (θ)(k,k′ ) = 2
σ2
diag(. . . , 1, a(k,mk ) , . . . , 1, 2π)
diag . . . e−i φ(k,mk ) . . . , zk ∗
0 ..
.
..
I Mk . I Mk ′ mk′ α(k′ ,mk′ −1)
R2 Z (k,k′ ) .
0 ..
.
∗ ∗
· · · mk α(k,mk −1) · · · Mk α(k,Mk −1) 0 ...0 Mk′ α(k′ ,Mk′ −1)
i φ(k′ ,m ′ )
diag . . . e k . . . , zk′
Or on vérifie que l’opérateur R2 peut être permuté avec l’opérateur d’inversion matricielle : ∀M ∈
Cd×d , (R2 (M ))−1 = R2 (M −1 ). Par conséquent, la matrice F ′ (θ) peut aisément être inversée, et son
inverse peut à son tour être décomposée en sous-blocs notés F ′ (θ)−1
(k ′ ,k) :
180 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE
σ2
F ′ (θ)−1
(k ′ ,k) = 2 diag(. . . , 1, 1
a(k′ ,m , . . . , 1, 1
2π )
)
k′
−i φ ′ 1
diag . . . e (k ,mk′ ) . . . , zk ′
..
. 0
mk′ α(k′ ,m ..
−M k′
−1)
I Mk
I Mk ′ k′ α(k′ ,M ′ −1)
.
R2
k Z −1
k ′ ,k 0
.
..
. mk α∗(k,m
1
k −1)
0...0 1 ... − Mk α∗(k,M ... Mk α∗(k,M
Mk′ α(k′ ,M k −1) k −1)
k′ −1)
diag . . . ei φ(k,mk ) . . . , 1
zk ∗
1 1
diag(. . . , 1, a(k,mk ) , . . . , 1, 2π )
−i φ(k′ ,m ′ ) 1
diag . . . e k ..., zk ′
.. .. .
. . ..
−1
Z(k′ ,k,m ′ ,mk ) ..
k
.
mk mk′ α(k,mk −1) α(k′ ,mk′ −1) −1
∗ !
+ Z −1
Z(k′ ,k,m ′ ,Mk )
Mk Mk′ α(k,Mk −1) α(k′ ,Mk′ −1) (k ,k,Mk′ ,Mk )
∗ ′
· · · α(k′ ,m ′ −1) −1 · · · 1 α(k′ ,m ′ −1)k −1
m k ′
−M ′ α ′ k
Z(k′ ,k,M ′ ,mk ) M k α ∗ m ′
−M ′ α ′
k k
Z(k′ ,k,M ′ ,Mk )
k (k ,M ′ −1) k (k,Mk −1)
k (k ,M ′ −1) k
R2
∗ k
mk α(k,mk −1) −1
..
k
− Mk α∗ Z(k′ ,k,m ′ ,Mk ) .
(k,Mk −1) k
. . .
.. .. ..
Z(k−1
′ ,k,M ′ ,m )
. . . k
Mk′ α(k′ ,M ′ −1) − mk α(k,mk −1) Z −1 ...
1 k 1 −1
∗
Mk Mk′ α∗ α ′
Z(k′ ,k,M ′ ,Mk )
k ∗ ′
Mk α(k,M −1) (k ,k,Mk′ ,Mk )
(k,Mk −1) (k ,Mk′ −1) k
k
diag . . . ei φ(k,mk ) . . . , zk1∗
1 1
diag(. . . , 1, a(k,mk ) , . . . , 1, 2π )
dont les éléments diagonaux donnent les expressions des bornes de Cramér-Rao pour les paramètres
du modèle autres que σ, données dans la proposition III.2.1.
Démontrons maintenant les formules qui ont été données à la suite de la proposition III.2.1.
Démonstration. Il est connu que les coefficients de la matrice inverse Z −1 peuvent être exprimés à l’aide
−1 det(Z/(k,Mk ) )
de déterminants. Plus précisément, Z(k,k,M k ,Mk )
= det(Z) , où Z/(k,Mk ) est la matrice extraite de
Z en supprimant la ligne et la colonne de même indice (k, Mk ). Or2
Y
det(Z) = |zk2 − zk1 |2(Mk1 +1)(Mk2 +1) D(Γ, {zk′ , Mk′ + 1}k′ ∈{0...K−1} )
k2 >k1
A.7. BORNES DE CRAMÉR-RAO 181
où D est une fonction des variables z0 , . . . , zK−1 à valeurs strictement positives. De même,
Y
det(Z/(k,Mk ) ) = |zk2 − zk1 |2(Mk1 +1{k1 6=k} )(Mk2 +1{k2 6=k} ) D(Γ, {zk′ , Mk′ + 1{k′ 6=k} }k′ ∈{0...K−1} )
k2 >k1
Par conséquent,
−1 F (z0 , . . . , zK−1 )
Z(k,k,M ,M ) = Q
k k |zk′ − zk |2(Mk′ +1)
k ′ 6=k
En particulier, Z −1 = D −1 Z e −1 D ∗ −1 , où Z
e −1 = Z −1 + O( 1 ).
N
On en déduit que ∀(k, k′ ) ∈ {0 . . . K − 1}2 , ∀(mk , mk′ ) ∈ {0 . . . Mk } × {0 . . . Mk′ },
−1 1
– si k 6= k′ , Z(k ′ ,k,m ′ ,m ) = O( m ′ +mk +2 ),
k k N k
m ′ −mk
−1 (Mk +1+mk′ )! (−1)mk′ +mk (Mk +1+mk )! zk k 1
– si k = k′ , Z(k ′ ,k,m ′ ,m ) = (Mk −mk′ )! mk′ !(1+mk′ +mk )mk ! (Mk −mk )! N k′m +m +1 + O m +m +2 .
k k k N k′ k
Les formules de la proposition III.2.2 sont obtenues en substituant les valeurs des coefficients de la
matrice Z −1 dans les équations données dans la proposition III.2.1.
2
La preuve de ce résultat est omise en raison de sa complexité. Elle consiste à appliquer à droite et à gauche de la
H
matrice Z = V N Γ−1 V N les opérations que l’on appliquerait aux colonnes de la matrice Pascal-Vandermonde pour
calculer son déterminant.
3
La démonstration de ce résultat est omise en raison de sa complexité.
182 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE
Lemme A.8.1 (Formule d’inversion par ajout d’une matrice de rang faible). Soient r ∈ N et C
des matrices inversibles de dimension r × r. Soient q ∈ N, A une matrice de dimensions r × q, B
une matrice de dimensions q × r, et D une matrice inversible de dimension q × q. Considèrons la
e = C + A D B, de dimension r × r. Alors C
matrice C e est inversible si et seulement si la matrice
e −1 = C −1 − C −1 AΓBC −1 , où
D−1 + B C −1 A, de dimension q × q, est inversible, et dans ce cas C
−1
Γ = D −1 + B C −1 A .
De même, le lemme A.8.2 montre comment l’inverse d’une matrice est modifié par ajout de lignes
et de colonnes.
Lemme A.8.2 (Formule d’inversion par ajout de lignes et de colonnes). Soient r ∈ N et C une matrice
inversible de dimension r × r. Soient p ∈ N, A une matrice de dimensions r × p, B une matrice de
C A
dimensions p × r, et D une matrice de dimension p × p. Considèrons la matrice C = , de
B D
dimension (r + p) × (r + p). Alors C est inversible si et seulement si la matrice D − B C −1 A, de
−1
dimension p × p, est inversible. Dans ce cas, posons Γ = D − B C −1 A . Alors
−1 C −1 + C −1 AΓBC −1 −C −1 AΓ
C = . (A.17)
−ΓBC −1 Γ
Démonstration. Si D − B C −1 A est inversible, soit Γ son inverse. Alors on vérifie qu’en multipliant
C à droite ou à gauche par le membre de droite de l’équation (A.17), on obtient la matrice identité
de
dimension (r + p) × (r + p). Réciproquement, supposons que C est inversible. Puisque la matrice
−C −1 A
, de dimensions r × p, est de rang plein, la matrice
Ip
−C −1 A 0
C = ,
Ip D − B C −1 A
satisfait toutes les propriétés énoncées dans la proposition III.3.1. Il est également clair que toute
fonction de la forme W (ε) Θ(ε) (où ε 7→ Θ(ε) est une fonction de classe C ∞ , à valeurs dans le groupe
des matrices orthonormées Or (C), et prenant la valeur I r en ε = 0) vérifie également ces propriétés.
Enfin, si ε 7→ W ′ (ε) est une autre fonction satisfaisant toutes ces propriétés, alors Π(ε) =
W (ε) W (ε)H = W ′ (ε) W ′ (ε)H . On en déduit que W ′ (ε) = W (ε) Θ(ε), où Θ(ε) , W (ε)H W ′ (ε)
est une fonction de classe C ∞ , à valeurs dans le groupe des matrices orthonormées Or (C) puisque
W (ε) et W ′ (ε) sont deux bases orthonormées du même espace, et prenant la valeur W H W = I r en
ε = 0.
Rappelons ensuite que d’après [Yang, 1995], toute matrice orthonormée W (ε) engendrant l’espace
principal de la matrice X(ε)X(ε)H minimise la fonction
Cn×r → R
J′ : 2
W ′ 7→ X(ε) − W ′ W ′H X(ε) F
.
dJ ′ ′ H H ′ ′H
′ (W ) = −2X(ε) X(ε) + X(ε) X(ε) W W + W ′ W ′H X(ε) X(ε)H W ′
dW
est nulle en W ′ = W (ε). Soit
W (ε) = W + ε∆′ W + O(ε2 )
le développement limité à l’ordre 1 de la fonction ε 7→ W (ε). Alors
dJ H
′ (W (ε)) = ε − I r − W W ∆S S H W + ∆′ W W H S S H W + W N + O(ε2 ) = 0 (A.18)
dW
où N , ∆′ W H W W H S S H W + W H S S H W W H ∆′ W + ∆′ W H W .
En particulier, le développement limité à l’ordre 1 de la condition d’orthonormalité W (ε)H W (ε) =
I r montre que W H ∆′ W + ∆′ W H W = 0, ce qui signifie que la matrice A , ∆′ W H W est à antisy-
métrie hermitienne. Ainsi, N = A W H S S H W . L’équation (A.18) implique alors
−1
∆′ W = I r − W W H ∆S S H W W H S S H W − W A.
−1
En remarquant que S H W W H S S H W = S † W , on en déduit les équations (III.2) et (III.3).
Démonstration du corollaire III.3.3. En multipliant l’équation (III.4) à gauche par G−1 et à droite par
G, on obtient l’équation (III.6), où
∆J = G−1 ∆Φ G. (A.19)
184 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE
En multipliant l’équation (III.5) à gauche par G−1 et à droite par G, on obtient en substituant les
équations (A.19), (I.19) et (I.18)
∆J = −V n↓ † ∆W ↓ G J + J V n↑ † ∆W ↑ G. (A.20)
Finalement, en substituant les équations (III.3) et (I.18) dans l’équation (A.20) et en utilisant le
lemme A.9.1 ci-dessous, on obtient finalement l’équation (III.7).
V n↓ † = Z −1 V n↓ H + v′(n−1) v H
(n−1) Z
−1 n H
V↓ . (A.23)
De plus, h i
V n† = Z −1 V n↓ H 1 − vH
(n−1) Z
−1
v (n−1) v ′(n−1) . (A.24)
En soustrayant l’équation (A.24) à l’équation (A.23) augmentée d’une colonne de zéros, on obtient
finalement l’équation (A.21). L’équation (A.22) peut être dérivée de façon similaire.
L’équation (III.9) est alors obtenue en substituant l’équation (III.7) dans l’équation (A.25).
Démonstration de la proposition III.3.5. Rappelons que la matrice J dans l’équation (III.6) est diago-
nale par blocs de dimensions Mk × Mk . La théorie des perturbations montre que pour tout ε voisin de
0, la matrice J (ε) peut être également diagonalisée par blocs de mêmes dimensions, et que les fonctions
qui à ε associent chacun de ces blocs sont de classe C ∞ . Plus précisément, la fonction qui à ε associe
le bloc de dimension Mk × Mk relatif au pôle zk admet le développement limité à l’ordre 1 :
0
0 I Mk 0 J + ε ∆J + A′ J − J A′ I Mk + O(ε2 ).
0
A.9. PERFORMANCE DES ESTIMATEURS 185
Il s’agit simplement d’un sous-bloc extrait du développement limité (III.6). Or la somme des valeurs
propres z(k,m) (ε) est justement égale à la trace de ce bloc. Ainsi, la fonction ε 7→ zk (ε) est de classe
C ∞ et admet le développement limité au premier ordre :
1 T
z(k,m) (ε) = trace 0 I Mk 0 J + ε ∆J + A′ J − JA′ 0 I Mk 0 + O(ε2 )
Mk
De plus,
T
– trace 0 I Mk 0 J 0 I Mk 0 = trace (J Mk (zk )) = Mk zk ,
T
– trace 0 I Mk 0 ∆J 0 I Mk 0 = trace ∆J k−1 P Pk k−1 Pk P ,
M ′: M ′ −1, M ′: M ′ −1
′ k ′ k k k
k′ =0 k′ =0
T
k =0 k =0
– trace 0 I Mk 0 (A′ J − J A′ ) 0 I Mk 0 = 0.
On en déduit les équations (III.10) et (III.11).
En substituant l’équation (III.7) dans l’équation (III.11), on obtient
∆zk = 1
Mk trace v′(n−1) k−1
P Pk e′
(n−1)
H
∆S S † C nMk (zk ) J Mk (zk )
M ′: M ′ −1
k k
k′ =0 k′ =0
− J Mk (zk ) v ′0 k−1
P Pk e′ H ∆S S † C n (zk )
0 Mk
M ′: M ′ −1
k k
k′ =0 k′ =0
= 1
Mk
e′
(n−1)
H
∆S S † C nMk (zk ) J Mk (zk ) v ′(n−1) k−1
P Pk
Mk ′ : Mk′ −1
k′ =0 k′ =0
∗
T ∗ −1
L’équation (III.12) est alors obtenue en remarquant que S † = V l Vl Vl D −1 V n† .
Démonstration de la proposition III.3.8. Comme les pôles zk sont distincts deux à deux et comme
les fonctions ε 7→ zk (ε) sont continues, elles prennent des valeurs distinctes dans un voisinage de 0.
Ainsi, la matrice Pascal Vandermonde V N (ε) reste de rang plein dans ce voisinage. De plus, d’après le
lemme III.3.7, la fonction ε 7→ V N (ε) est de classe C ∞ , donc la fonction ε 7→ V N (ε)† l’est également.
On en déduit que la fonction ε 7→ α(ε) = V N (ε)† x(ε) est de classe C ∞ au voisinage de 0. De plus, le
développement limité à l’ordre 1 de l’égalité V N (ε) α(ε) = x(ε) donne
V N ∆α + ∆V N α = ∆s.
†
N
∆α = V N ∆s − V ∆Z α .
A0
..
Or en utilisant l’équation (III.12), un simple jeu de réécriture montre que ∆Z α = . ∆s. On
AK−1
en déduit l’équation (III.21).
Démonstration du corollaire III.3.9. On suppose que |α(k,mk ) (0)| = a(k,mk ) 6= 0. Alors comme la fonc-
tion ε 7→ α(k,mk ) (ε) est de classe C ∞ , la fonction ε 7→ a(k,mk ) (ε) = |α(k,mk ) (ε)| est également de classe
C ∞ au voisinage der0. De plus, en substituant la première ligne de l’équation (III.23) dans l’égalité
α(k,mk ) (ε) α(k,mk ) (ε)∗
a(k,mk ) (ε) = a(k,mk ) α(k,mk ) α∗(k,m ) , on obtient son développement limité à l’ordre 1.
k
Par ailleurs, le logarithme complexe est un C ∞ -difféomorphisme de C dans R×] − π, π[, donc la
fonction ε 7→ φ(k,mk ) (ε) est de classe C ∞ . Un développement limité à l’ordre 1 donne, en utilisant
l’équation (III.20),
∆α(k,mk )
ln(α(k,mk ) (ε)) = ln(α(k,mk ) ) + ε + O ε2
α(k,mk )
Comme le signal ∆s(t) est centré, en injectant cette dernière équation dans l’équation (III.16) on
montre que les estimateurs δk et fk sont centrés au premier ordre. De plus,
" 2 #
ε2 uk H ∆s
var(δk ) = 2 E Re
Mk zk α(k,Mk −1)
A.9. PERFORMANCE DES ESTIMATEURS 187
au premier ordre. En injectant l’identité remarquable (Re(z))2 = 12 (|z|2 + Re(z 2 )) dans cette dernière
équation, on obtient
!!
σ2 uk H E[∆s ∆sH ]uk uk H E[∆s∆sT ]uk ∗
var(δk ) = + Re
2Mk2 |zk |2 |α(k,Mk −1) |2 zk2 α2(k,M −1)
k
2 −2δ
σ e k
= uk H Γ uk + 0 .
2Mk2 a(k,Mk −1) 2
Démonstration de la proposition III.3.11. Comme le signal ∆s(t) est centré, l’équation (III.21) im-
plique E[∆α] = 0, donc l’estimateur α(ε) est centré au premier ordre. De plus, sa matrice de covariance
(toujours au premier ordre) est égale à cov (α(ε)) = ε2 E[∆α ∆αH ] ; on en déduit l’expression (III.28)
en utilisant la relation (III.20).
Par ailleurs, en substituant l’équation (III.20) dans l’équation (III.24), on obtient
b(k,mk ) H ∆s
∆a(k,mk ) = a(k,mk ) Re α(k,mk )
H
b(k,mk ) ∆s
∆φ(k,mk ) = Im α .
(k,mk )
Comme le signal ∆s(t) est centré, en injectant cette dernière équation dans l’équation (III.23) on
montre que les estimateurs a(k,mk ) (ε) et φ(k,mk ) (ε) sont centrés au premier ordre. En particulier,
" 2 #
H
b(k,m ) ∆s
var(a(k,mk ) (ε)) = ε2 a2(k,mk ) E Re α
k
au premier ordre. En injectant l’identité remar-
(k,mk )
Lemme A.9.2. Pour tout k ∈ {0 . . . K − 1}, les coefficients du vecteur uk admettent le développement
limité à l’ordre 2
z t−l+τ z t−l+τ
uk (τ ) = 1τ ≥n−1 k nl − 1τ ≤l−1 k nl + O N13 . (A.26)
1
e′0 = e0 + O
n
1
e′(n−1) = e(n−1) + O
n
1 1
v ′0 = v0 + O
n n2
1 1
v ′(n−1) = v (n−1) + O .
n n2
Alors, en substituant les quatre équations ci-dessus dans l’équation (III.13), on obtient
zk−t+l l ∗ 1
e′′(0,k) = v (zk ) + O
nl N3
zk−t+l−n+1 1
e′′(n−1,k) = l ∗
v (zk ) + O .
nl N3
Enfin, en substituant les deux équations ci-dessus dans l’équation (III.15), on obtient l’expres-
sion (A.26).
Les équations (III.31) et (III.32) sont obtenues en injectant ce résultat dans les équations (III.26)
et (III.27).
Le minimum sous la contrainte n + l = N + 1 est atteint pour n = 2l = 32 (N + 1) ou pour
l = 2n = 23 (N + 1) (en supposant N congru à 2 modulo 3).
† NH
Démonstration de la proposition III.3.13. Puisque V N = 1
NV + O( N12 ), on vérifie que
A0
N† N .. N H H 1
V V . = J U +O .
2 N2
AK−1
où U est la matrice de dimension n × K dont les colonnes sont les vecteurs uk . Par substitution dans
l’équation (III.22), on obtient
H 1 H N 1
B = V N − JHUH + O .
N 2 N2
On en déduit que
1 H N2 H H H 1
B B = 2V N V N +
H
J U U J − Re V N U J + O . (A.27)
N 4 N2
H
Or on sait que V N V N = N I r + O(1). De plus, on déduit du lemme A.9.2 que
H 2 1
U U= Ir + O .
max(n, l)2 min(n, l) N4
H 1 N2 1
B B= + Ir + O
N 2 max(n, l)2 min(n, l) N2
Les équations (III.33) et (III.34) sont obtenues en substituant ce résultat dans les équation (III.29)
et (III.30).
Il apparaît que les éléments diagonaux de cette matrice sont tous égaux à l’ordre 1, et le minimum
de leur valeur commune sous la contrainte n + l = N + 1 est atteint pour n = 2l = 23 (N + 1) ou pour
l = 2n = 23 (N + 1) (en supposant N congru à 2 modulo 3).
190 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE
Démonstration du théorème IV.2.2. S’il existe k ∈ {1 . . . r} tel que zb = zk , l’assertion est triviale.
Supposons donc que ∀k ∈ {1 . . . r}, zb 6= zk . Soit v
b un vecteur unitaire quelconque. Soit le résiduel
Considérons une matrice Λ = diag(Λ0 , . . . , ΛK−1 ) de dimension r×r, diagonale par blocs, dont chaque
bloc Λk est de dimension Mk × Mk , triangulaire supérieur, Toeplitz et inversible. Alors on montre que
la matrice Λ permute avec n’importe quelle matrice de Jordan ayant la même structure que J . Ainsi,
l’équation (A.31) est équivalente à
b
v
= G Λ (J − zb I r )−1 Λ−1 V n↓ † e(p). (A.32)
0
v k2 ≤ kG Λk2 (J − zb I r )−1
kb Λ−1 V n↓ † ke(p)k2 . (A.33)
2 2
Puisque la matice W (r) est orthonormée et V n Λ = W (r) G Λ, kG Λk2 = kV n Λk2 = σmax (V n Λ).
Puisque V n↓ est de rang plein, les valeurs singulières de Λ−1 V n↓ † sont les inverses de celles de V n↓ Λ, si
bien que Λ−1 V n↓ † = 1
σmin (V n . Finalement, puisque v
b est unitaire, l’équation (A.33) implique
2 ↓ Λ)
1 σmax (V n Λ)
≤ ke(p)k2 . (A.34)
(J − zb I r )−1 σmin (V n↓ Λ)
2
1 1
= min .
−1
(J − zb I r ) k∈{0...K−1} (J Mk (zk ) − zb I Mk )−1
2 2
A.10. BORNE D’ERREUR A PRIORI 191
1 σmax (V n Λ)
≤ ke(p)k2 . (A.35)
(J Mk (zk ) − zb I Mk )−1 σmin (V n↓ Λ)
2
De plus, J Mk (zk ) − zb I Mk est la somme de la matrice diagonale (zk − zb) I Mk et de la matrice nilpo-
tente N Mk , qui contient des 1 sur la première sur-diagonale, et des 0 partout ailleurs. En particulier,
N Mk Mk = 0. Par conséquent,
M
X k −1
−1 1 N Mk mk
(J Mk (zk ) − zb I Mk ) = (−1)m .
zk − zb (zk − zb)mk
mk =0
Démonstration du corollaire IV.2.3. Soit zb une valeur propre de Φ(p) et v b un vecteur propre unitaire
associé à zb. Soit e(p) , (W ↑ (p) − zb W ↓ (p)) v
b. Puisque v
b est unitaire, σmin (W ↑ (p) − zb W ↓ (p)) ≤
ke(p)k2 . Par ailleurs,
b,
e(p) = (W ↑ (p) − W ↓ (p) Φ(p)) v
donc ke(p)k2 ≤ kE(p)k2 . Par conséquent,
σmin (W ↑ (p) − zb W ↓ (p)) ≤ kE(p)k2 . (A.37)
Finalement, en substituant l’équation (A.37) dans l’équation (IV.3), on obtient l’équation (IV.4).
192 ANNEXE A. RÉSULTATS DE LA PREMIÈRE PARTIE
où
dist (W ↑ (p), W ↓ (p)) , W ↑ (p) W ↑ (p)† − W ↓ (p) W ↓ (p)†
2
est la distance entre les sous-espaces span(W ↑ (p)) et span(W ↓ (p)), qui satisfait
comme cela est montré dans [Golub et Van Loan, 1996, pp. 76-77]. Puisque kW ↑ (p)k2 ≤ kW (p)k2 = 1,
le résultat se déduit de l’équation (A.38).
193
Annexe B
Résumé
Ce chapitre expose les démonstrations des principaux résultats énoncés dans la
deuxième partie. Ces résultats concernent les variations des valeurs propres de la
matrice de corrélation, l’approximation de la méthode des puissances itérées, et la
mise à jour des valeurs propres de la matrice spectrale. Un algorithme de poursuite
de l’espace signal est également présenté : l’algorithme NIC à fenêtre rectangulaire.
194 ANNEXE B. RÉSULTATS DE LA DEUXIÈME PARTIE
B.1 Introduction
Dans ce chapitre sont démontrés les principaux résultats de la deuxième partie :
– la proposition sur la moyenne géométrique des valeurs propres de la matrice de corrélation est
démontrée dans la section B.2 ;
– les principaux résultats sur l’approximation de la méthode des puissances itérées sont prouvés
dans la section B.3 ;
– l’algorithme de poursuite de l’espace signal SW-NIC est présenté dans la section B.4 ;
– enfin, les résultats sur la mise à jour des valeurs propres de la matrice spectrale sont démontrés
dans la section B.5.
où
1 T ∗
P (t) = D(t) V l V l D(t)H . (I.14)
l
Il est alors facile de vérifier que les valeurs propres non nulles de Rss (t) sont égales à celles de la matrice
P (t) V nH V n . Donc leur produit est égal au déterminant de cette matrice, lui-même égal à
1 T ∗
r
det(V l V l ) det(D(t)H D(t)) det(V nH V n ).
l
Q
K−1
Or on vérifie que det(D(t)H D(t)) = |αk,Mk −1 |2Mk |zk |2Mk (t−l+1) , d’où le résultat.
k=0
b(t)H .
Θ(t) R(t) = β S(t − 1)H + y(t) J y (B.1)
Ensuite, on utilise le lemme d’inversion matricielle A.8.1 présenté page 182 pour inverser le membre
de droite de cette égalité. L’intérêt de cette approche est que le problème de l’inversion d’une matrice
de dimension r × r est transformé en l’inversion d’une matrice plus petite, de dimension q × q (avec
q = 1 ou 2).
En appliquant le lemme A.8.1 à l’équation (B.1), on montre que la matrice Θ(t) R(t), de dimension
r × r, est inversible si et seulement si la matrice βJ −1 + y(t)H h(t), de dimension q × q, est inversible
(ce qui fournit un moyen rapide de détecter la singularité de R(t) ou Θ(t)). Dans le cas d’inversibilité,
le lemme A.8.1 conduit à l’équation
1
(Θ(t) R(t))−1 = Z(t − 1)H I r − y(t) g(t)H .
β
Finalement, en multipliant le conjugué hermitien de cette dernière équation à gauche par Θ(t)H , et en
le multipliant à droite par Θ(t)−H , on obtient la récurrence (VII.29).
B.4. ALGORITHME SW-NIC 195
En substituant les équations (B.1) et (VII.32) dans l’équation ci-dessus, on montre que
b(t)H Θ(t).
W (t)S(t)H = W (t − 1)Θ(t)S(t)H + e(t) J y (B.2)
Par ailleurs, en multipliant l’équation (B.1) à gauche par g(t)H , et en remplaçant g(t) par sa
définition dans l’équation (VII.30), on obtient
−H
g(t)H Θ(t)R(t) = βJ −1 + y(t)H h(t)
H H (B.3)
βS(t − 1)h(t) H
+ y(t) h(t) J y b (t)H .
(βS(t − 1)h(t))H = β y
b (t)H = βJ −1 J y
b(t)H . (B.4)
Finalement, en substituant l’équation (B.5) dans l’équation (B.2) et en multipliant à droite par
S(t)−H = Z(t)H , on obtient l’équation (VII.31).
Initialisation :
f (0) = W (0) = Ir
W , Z(0) = I r , X(0) = 0n×l , Y (0) = 0r×l
0(n−r)×r
A
chaque instant faire
Vecteur
d′ entrée :x(t)
x(t − l) X(t) = X(t − 1) x(t) Cobut
y(t) = W (t − 1) H x(t) nr
y(t −l) Y (t) = Y (t − 1) y(t)
x(t) = x(t) x(t − l)
y(t) = y(t) y(t − l)
h(t) = Z(t − 1) y(t) 2r 2
−1
1 0
g(t) = h(t) + y(t)H h(t) 8r
0 −1
Z(t) = Z(t − 1) − h(t) g(t)H 2r 2
e(t) = x(t) − W f (t − 1) y(t) 2nr
f (t) = Wf (t − 1) + e(t) g(t) H
W 2nr
f
W (t) = (1 − η) ∗ W (t − 1) + η ∗ W (t) nr
Finalement, cette dernière équation se réécrit sous la forme (IX.24). Réciproquement, en multipliant
Q
r−1
l’équation (IX.24) par le produit (z − zk′ (t − 1)), on obtient
k ′ =0
ebk′ (t)∗ eak′ (t)6=0
r−1
Y r−1
X r−1
Y
(z − zk′ (t − 1)) ebk (t)∗ e (z − zk′ (t − 1))
− ak (t) =0
k ′ =0 k=0 ′
k =0
ebk′ (t)∗ eak′ (t)6=0 ebk (t)∗ e
e ∗
ak (t)6=0 bk′ (t) eak′ (t)6=0
k ′ 6=k
Il s’agit d’un polynôme en z dont le degré est égal au nombre d’indices k′ ∈ {0 . . . r − 1} tels que
ebk′ (t)∗ e
ak′ (t) 6= 0, dont on sait déjà que toute valeur propre de Φ(t) non valeur propre de Φ(t − 1) est
racine. Donc ce polynôme ne possède pas d’autre racine. Puisque l’on sait par ailleurs que le produit
Q
r−1
(z − zk′ (t − 1)) ne s’annule pas sur l’ensemble de ces racines, on en déduit que l’ensemble
k ′ =0
ebk′ (t)∗ eak′ (t)6=0
des solutions de l’équation (IX.24) est égal à l’ensemble des valeurs propres de Φ(t) non valeurs propres
de Φ(t − 1).
B.5.2 Modification de la structure propre par ajout d’une matrice de rang faible
Démonstration de la proposition IX.3.4. Si z n’est pas valeur propre de Φ(t − 1), alors zI r − J(t − 1)
est inversible. Alors l’équation (IX.30) est obtenue en multipliant l’équation (IX.27) à gauche par
(zI r − J (t − 1))−1 , et en posant
v,e b(t)H g
e (B.6)
Ensuite, en substituant l’équation (IX.30) dans l’équation (B.6), on obtient l’équation (IX.32). Comme
e est non nul, v est nécessairement non nul ; on en déduit donc que la matrice
g
I −e
b(t)H (zI r − J (t − 1))−1 a
e (t)
est singulière, ce dont l’équation (IX.29) est une conséquence immédiate. De la même façon, l’équa-
tion (IX.31) est obtenue en multipliant l’équation (IX.28) à gauche par (zI r − J (t − 1))−1∗ , et en
posant
e (t)H g
v′ , a e′ (B.7)
Ensuite, en substituant l’équation (IX.31) dans l’équation (B.7), on obtient l’équation (IX.33).
198 ANNEXE B. RÉSULTATS DE LA DEUXIÈME PARTIE
199
Annexe C
Articles
Dans cette annexe sont reproduits trois articles, dont le contenu n’a pas été développé dans le corps
de ce document afin d’éviter de le surcharger :
– [Badeau et al., 2002] R. Badeau, R. Boyer, et B. David. EDS parametric modeling and tracking
of audio signals. Dans Proc. of Int. Conf. on Digital Audio Effects DAFx-02, pages 139–144,
Hamburg, septembre 2002.
– [David et al., 2003] B. David, G. Richard, et R. Badeau. An EDS modeling tool for tracking
and modifying musical signals. Dans Proc. of SMAC 03, volume 2, pages 715–718, Stockholm,
Sweden, août 2003.
– [Badeau et al., 2004b] R. Badeau, G. Richard, et B. David. Sliding window adaptive SVD algo-
rithms. IEEE Trans. Signal Processing, 52(1) :1–10, janvier 2004.
200 ANNEXE C. ARTICLES
Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), Hamburg, Germany, September 26-28, 2002
DAFX-1
Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), Hamburg, Germany, September 26-28, 2002
U S = E C −1 . (6)
2.1.1. Subspace-based signal analysis
Define the L × L real Hankel data matrix H (with N = 2L − 1) As for E, let U S S
↓ (respectively U ↑ ) be the matrix extracted
S
as form U by deleting the last (respectively the first) row. Then
equations (5) and (6) yield
x(0) x(1) . . . x(L − 1)
x(1) x(2) . . . x(L)
US S
H = . (3) ↑ = U↓Φ (7)
.. .. . .. ..
. . .
−1
x(L − 1) x(L) . . . x(N − 1) where Φ = C D C . The Estimation of Signal Parameters via
Rotational Invariance Techniques (ESPRIT) method [9] consists
Suppose that 2M ≤ L. Then this matrix can be decomposed in:
as H = E A E T , where • computing the matrix Φ = U S
† S
U ↑ (where the symbol
↓
† denotes the Moore-Penrose pseudo-inverse; this compu-
A = Diag(α1 , . . . , αM , α1∗ , . . . , αM
∗
) tation requires O(LM 2 ) operations),
and E is the L × 2M Vandermonde matrix • extracting the estimated poles ẑm as the eigenvalues of Φ
(which can be achieved in O(M 3 ) operations).
1 ... 1 1 ... 1 Finally, for m = 1, . . . , M , the mth estimated frequency and
z1 ... zM z1∗ ... ∗
zM damping factor can be deduced using fˆm = angle(ẑ m)
and dˆm =
2π
E= .. .. .. .. . (4)
.. .. ln |ẑm |.
. . . . . .
z1L−1 ... L−1
zM z1∗ L−1 ... ∗ L−1
zM
2.1.3. Estimation of the amplitudes and initial phases
H has a 2M -dimensional range space, spanned by the full- The complex amplitudes {αm }1≤m≤M can be determined by min-
rank matrix E. This range space fully characterizes the signal imizing the LS criterion minα kx − Eαk22 , where
poles, even in presence of an additive white noise [7], and thus
is referred to as the signal subspace. An orthonormal basis U S • x = [x(0), . . . , x(L − 1)]T are the signal samples,
of this space can be obtained from the eigenvalue decomposition ∗ T
• α = [α1 , . . . , αM , α1∗ , . . . , αM ] are complex amplitudes.
(EVD) of H . Indeed, since H is a rank-deficient symmetric real
matrix, there exist a L × 2M orthonormal real matrix U S and a The solution to this criterion is
T
2M × 2M diagonal real matrix Λ such that H = U S Λ U S . α̂ = E † x. (8)
S
The columns of U thus span the signal subspace. In the presence
of an additive white noise, the columns of U S are defined as the Hence, for m = 1, . . . , M , the mth estimated real amplitude
2M -dominant eigenvectors of H (i.e. the eigenvectors associated and initial phase are âm = 2|α̂m | and φ̂m = angle(α̂m ).
to the 2M eigenvalues which have the highest magnitudes). Note that the full computation of E † can be avoided since
These dominant eigenvectors can be computed using the clas- † −1 ST T
equation (6) shows thatT E = C U where C = U S E.
sical EVD algorithm called orthogonal iteration [8]1 (cf. table 1),
Thus, α̂ = C −1 U S x can be computed in O(LM 2 ) opera-
which involves an auxiliary matrix A. The Hankel structure of the
matrix H can be taken into account to make the algorithm faster by tions.
computing the first-step matrix product using Fast Fourier Trans-
forms, which requires only O(LM log(L)) operations [8]2 . Then 2.1.4. Re-synthesis
the second step can be achieved in O(LM 2 ) operations [8]3 . Since
in practice this algorithm converges in a few iterations, the overall Once the model parameters have been estimated, the signal can
process requires O(LM (M + log(L))) operations. be reconstructed using equation (2). Thus, the estimated signal
sample at time t is
1 Chapter 8, section 2.4. M
2 Chapter X
4, section 7.7.
3 Chapter 5, section 2.
x̂(t) = (x̂m (t) + x̂∗m (t)) (9)
m=1
DAFX-2
Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), Hamburg, Germany, September 26-28, 2002
fˆm
s
= β fˆm For example, the orthogonal iteration algorithm of Table 1 can
be adapted to track the dominant eigenvectors of a sliding-window
so that the corresponding pole is matrix
s
ẑm = exp(dˆm + i 2π fˆm
s
) x(t − (L − 1)) . . . x(t)
(10) x(t − (L − 2)) . . . x(t + 1)
ẑm exp(i 2π(β − 1)fˆm )
= H (t) =
(12)
.. . .. .
..
.
Therefore, equation (9) becomes x(t) . . . x(t + L − 1)
M
X just by replacing the iteration index n in table 1 by the discrete
x̂s (t) = (x̂sm (t) + x̂sm ∗ (t)) (11) time index t [14] (cf. table 2).
m=1 Thus, only one iteration is completed at each time step. Once
the signal subspace basis U S is computed, the standard ESPRIT
where x̂sm (t) = α̂m (ẑm
s t
). method can be applied. However, for the sake of computational
Note that this pitch modification method is no more computa- efficiency, adaptive implementations of ESPRIT have been devel-
tionally demanding than the exact re-synthesis. oped [15], which require O(LM 2 ) or O(LM ) operations at each
time step.
2.2. Adaptive signal processing Finally, the estimation of the amplitudes and initial phases can
be achieved as in section 2.1.3. Equation (8) now becomes
The section transposes the HR methods presented above in an
adaptive context. It will be shown that tracking the slow varia- α̂(t) = E(t)† x(t) (13)
tions of the model parameters leads to a very simple re-synthesis
method. where E(t) is the Vandermonde matrix of the estimated poles at
time t, α̂m (t) and ẑm (t) denote the estimated mth complex am-
plitude and pole at time t, and x(t) = [x(t), . . . , x(t + L − 1)]T .
2.2.1. Model parameters tracking Since this estimation involves the matrix E defined in equa-
The Sintrack method for frequency estimation and tracking [6] tion (4) for a time window [0 . . . L − 1], it must be noted that
consists in a two-steps estimation: the Matrix Pencil HR method α̂m (t) now is the complex amplitude of the mth damped sinusoid
[7] is first applied to obtain the initial parameters, and the tracking at time t.
is then achieved using an adaptive Least Mean Square (LMS) al-
gorithm, the frequencies and damping factors being extracted from 2.2.2. Re-synthesis
the roots of a backward prediction polynomial [11]. When the pre- In an adaptive context, since the complex amplitudes of the damped
diction error exceeds a certain threshold, the algorithm switches sinusoids are estimated at each time step, equation (9) stands with
back to the initialization step. x̂m (t) = α̂m (t). Therefore, the re-synthesis of the signal at each
Although this method has proved to be successful on musical time step just consists in summing the complex amplitudes, which
signals [12], the lack of robustness of the LMS algorithm results in only requires O(M ) operations.
an intensive use of the Matrix Pencil method, which is very time-
consuming.
To avoid this increase of complexity, the prediction polyno- 2.2.3. Pitch scale modification
mial tracking can be replaced by a signal subspace tracking, since Let ϕm (t) be the phase shift between the mth estimated damped
subspace-based HR methods are known to give more reliable es- sinusoid and the mth synthesized damped sinusoid at time t, so
timates of the signal poles than linear prediction. Subspace track- that equation (11) stands with
ing has been intensively studied in the fields of adaptive filtering,
source localization or parameter estimation. A first class of track- x̂sm (t) = x̂m (t) exp(i ϕm (t)) = α̂m (t) exp(i ϕm (t)). (14)
ing algorithms is based on the projection approximation hypothe-
sis [13]; an other one relies on EVD or SVD tracking techniques, Since these sinusoids satisfy the following recurrences
derived from classical EVD or SVD algorithms. • x̂m (t) = x̂m (t − 1) ẑm (t),
DAFX-3
Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), Hamburg, Germany, September 26-28, 2002
Then, x̂sm (t) can be computed using equation (14), from which
the synthesized sample x̂s (t) can be deduced using equation (11).
Note that this pitch modification method has the same complexity
as the exact re-synthesis.
3. EXPERIMENTAL RESULTS
DAFX-4
Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), Hamburg, Germany, September 26-28, 2002
DAFX-5
Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), Hamburg, Germany, September 26-28, 2002
(STFT), but they can easily be adapted to the EDS model and the [11] R. Kumaresan and D.W. Tufts, “Estimating the parameters of
HR methods. exponentially damped sinusoids and pole-zero modeling in
Finally, the pitch-scale modification technique proposed in sec- noise,” IEEE Transactions on Acoustics, Speech, and Signal
tion 2.2.3 in combination with these classical frequency matching Processing, vol. 30, no. 6, 1982.
strategies proved to be successful on the piano tones. [12] B. David, R. Badeau, and G. Richard, “Sintrack analysis for
Note that once the poles trajectories are estimated, the discrim- tracking components of musical signals,” in Proc. of Forum
ination should be made between Acusticum Sevilla 2002, accepted for publication.
• the harmonics (related to the pitch of the sound), [13] K. Abed-Meraim, A. Chkeif, and Y. Hua, “Fast orthonormal
• the remaining poles, which model the signal noise. PAST algorithm,” IEEE Signal Processing Letters, vol. 7,
no. 3, 2000.
A realistic pitch scale modification should change the frequen- [14] P. Strobach, “Square hankel SVD subspace tracking algo-
cies of the first class and leave the second class unchanged. Of rithms,” Signal Processing, vol. 57, no. 1, 1997.
course, the classification of the poles would require additional work.
[15] P. Strobach, “Fast recursive subspace adaptive ESPRIT algo-
rithms,” IEEE Trans. on Signal Proc., vol. 46, no. 9, 1998.
4. CONCLUSIONS
[16] J. Laroche, “The use of the Matrix Pencil method for the
spectrum analysis of musical signals,” Journal of the Acous-
The EDS model is a useful tool for audio signals modeling. It
tical Society of America, vol. 94, no. 4, 1993.
leads to a better representation of signal frames than the undamped
sinusoidal model for a coding purpose. The use of a HR algorithm [17] K. Banderburg and G. Stoll, “ISO-MPEG-1 audio: a generic
achieves an accurate estimation which can be efficiently updated standard for coding of high-quality digital audio,” Journal of
by tracking the signal subspace through time. Moreover, tracking the Acoustical Society of America, vol. 42, 1994.
the model parameters offers very interesting outlooks for signal [18] S. Levine, Audio representations for data compression and
re-synthesis and modification. compressed domain processing, Ph.D. thesis, Stanford Uni-
versity, 1998.
5. REFERENCES
[1] ISO-MPEG, “Call for proposals for new tools for audio cod-
ing,” ISO/IEC JTC1/SC29/WG11 MPEG2001/N3793, 2001.
[2] H. Purnhagen and N. Meine, “HILN-the MPEG-4 parametric
audio coding tools,” in Proc. of IEEE Int. Symposium on
Circuits and Systems, 2000.
[3] R.J. McAulay and T.F. Quatiery, “Speech analysis and syn-
thesis based on a sinusoidal representation,” IEEE Trans. on
Acoustics, Speech, and Signal Proc., vol. 34, no. 4, 1986.
[4] J. Nieuwenhuijse, R. Heusdens, and E.F. Deprettere, “Robust
exponential modeling of audio signal,” in Proc. of IEEE Int.
Conf. on Acoustic, Speech and Signal Proc., May 1998.
[5] R. Boyer, S. Essid, and N. Moreau, “Non-stationary signal
parametric modeling techniques with an application to low
bitrate audio coding,” in Proc. of IEEE Int. Conf. on Signal
Proc., 2002.
[6] Patrick Duvaut, Traitement du signal, Hermes, Paris, 1994.
[7] Y. Hua and T.K. Sarkar, “Matrix pencil method for esti-
mating parameters of exponentially damped/undamped sinu-
soids in noise,” IEEE Trans. on Acoustics, Speech, and Sig-
nal Processing, vol. 38, no. 5, May 1990.
[8] G.H. Golub and C.F. Van Loan, Matrix computations, The
Johns Hopkins University Press, Baltimore and London,
third edition, 1996.
[9] R. Roy and T. Kailath, “ESPRIT–estimation of signal param-
eters via rotational invariance techniques,” IEEE Trans. on
Acoustics, Speech, and Signal Proc., vol. 37, no. 7, 1989.
[10] X. Serra and J. Smith, “Spectral modeling synthesis : a sound
system based on a deterministic plus stochastic decomposi-
tion,” Computer Music Journal, vol. 14, no. 4, 1990.
DAFX-6
Proceedings of the Stockholm Music Acoustics Conference, August 6-9, 2003 (SMAC 03), Stockholm, Sweden
An analysis/synthesis scheme for musical signals is introduced in 2.1. Definitions and model
this paper. It is based on an adaptive subspace analysis and the
Exponentially Damped Sinusoids model. This method leads to a The discrete signal to be analysed and modified is assumed real
new representation, called the HR-ogram, where the signal compo- valued and denoted s(t). It is segmented in overlapping frames
nents are represented as points in the time-frequency plane. These x(t, u) = s(t + ta (u))wa (t) where ta (u) are the analysis marks
points are gathered according to their frequency, phase and ampli- indexed by the non-negative integer u and wa is the analysis win-
tude proximity from an analysis time-instant to the following one. dow assumed of finite length La . The time-instants ta (u) are usu-
This leads to an accurate deterministic/stochastic decomposition ally regularly spaced, i.e. ta (u) = u∆a , u ∈ N, where the inter-
using a projection onto the noise subspace. The whole technique val ∆a is a fixed increment such as ∆a ≤ La . In this paper, wa
allows a separate processing for both components. will always be the rectangular window of length La .
For each frame, an Exponentially Damped Sinusoids model is
used:
1. INTRODUCTION XM
x(t, u) = (bk zkt + b∗k zk∗t ) (1)
Most of the analysis/synthesis schemes designed for musical sounds k=1
SMAC-1
Proceedings of the Stockholm Music Acoustics Conference, August 6-9, 2003 (SMAC 03), Stockholm, Sweden
This estimation of the complex amplitudes {bk , b∗k }k=1,...,M is This definition includes the effect of the damping factor in the
performed for each frame using a Least Squares (LS) method. The graph. This avoids the overvaluing of spurious poles, often re-
N × 2M Vandermonde matrix Z is defined by lated to noise, which can be highly damped and estimated at very
high magnitude values, resulting in a weak component.
1 ... 1 1 ... 1
∗ ∗
z1 ... zM z1 ... zM
Z= . . . .. . (5) 3.1. Simulation example
. .
.. .. .. .. .. .
N −1
z1 N −1
. . . zM ∗N −1
z1 ∗N −1
. . . zM The graphs of figure 1 show the analysis results for a three compo-
nents signal with an additive white noise corresponding to a 27dB
When the frame is noise-free, the column vector signal to noise ratio (SNR). All the components are undamped.
b = [b1 , . . . , bM , b∗1 , . . . , b∗M ]T satisfies the relation
frequency tracking scenario
Zb = x (6) 0.5
where x = [x(0), . . . , x(N − 1)]T . The solution of (6) in the least 0.4
0.3
0.1
2.2.3. Subspace tracking
0
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
Since the HR-method relies on the eigenvalue decomposition (EVD)
of the data matrix H, without further modification the estimation analysis results
0.5
of the frequencies and damping factors would require an EVD at
each time step and thus would lead to a high computational cost 0.4
(cf. [9] for more details). However this cost can be reduced by
frequency
0.3
using an adaptive algorithm which avoids the computation of the
0.2
EVD. It is based on an iterative algorithm called Orthogonal It-
eration [12] and uses a two steps procedure which yields the ma- 0.1
SMAC-2
Proceedings of the Stockholm Music Acoustics Conference, August 6-9, 2003 (SMAC 03), Stockholm, Sweden
Two of them present a frequency jump at distinct time-instants 4.1. Deterministic/stochastic decomposition
while the third one is sinusoidally modulated at the period of 2000
samples and with a 0.05 frequency deviation. 4.1.1. Method
The analysis parameters are set as follows: the window length As in most of the analysis schemes, a noise component w(t, u) is
is La = 201, the number of components is overestimated to M = added to the model (1) leading to:
6 and the analysis is performed every ∆a = 25 samples. M
X
The results show clearly the good tracking of the three compo- x(t, u) = (bk zkt + b∗k zk∗t ) + w(t, u). (8)
nents. The convergence of the algorithm is fast enough to handle k=1
the frequency jumps and when they occur for one component the
estimation of the other ones remains stable and accurate. The mod- This component is often expressed as a time-varying filtering of a
ulated component is often represented by a few (2 or 3) poles. The white stochastic process [6] and will be referred to as the stochastic
signal model (1) is indeed not fully respected by the frequency component of the signal while the noise-free EDS model will be
modulated component. The spurious poles corresponding to the referred to as the deterministic component.
additive noise are easily identifiable for they do not aggregate in a A common technique to derive the noise component consists
specific shape and are widely spread in the whole frequency range. in subtracting to x(t, u) the deterministic part, after its estimation.
But this can lead to a significative amount of sinusoidal compo-
nents introduced in w(t, u). In order to avoid this effect, w(t, u)
is obtained by projecting the signal onto the noise subspace. For
3.2. Singing voice subspace tracking the noisy model (8), the matrix H is full rank. The signal subspace
is the space spanned by the eigenvectors associated to the N −2M
This example is a female soprano singing voice, who realizes an up smallest eigenvalues.
and down glissando between C5 and E5 . The signal is recorded at The number M of sinusoids is chosen accordingly to the sta-
the 44100 Hz sampling rate. The analysis provides the HR-ogram bility of the spectral lines of their associated poles. M is first
shown in figure 2, which highlights the spectral lines associated to overestimated and the signal poles zk (u)k=1,...,M and correspond-
the harmonic structure but also the poles related to noise, gathered ing complex amplitudes bk (u) are estimated at the analysis time-
in formant-like shapes. instant ta (u). zm (u + 1) and bm (u + 1) are estimated at the
time-instant ta (u + 1) and distances are computed to measure how
these poles are close in terms of frequency, amplitude and phase.
4
2.5
x 10 analysis results
The corresponding distances df , dA and dφ are thus defined as:
w = (I2M̂ − UH
2M̂ U2M̂ )x (12)
where U2M̂ is the subspace matrix whose columns are the 2M̂
4. MODIFICATION AND SYNTHESIS dominant eigenvectors, w = [w(0, u), . . . , w(La − 1, u)]T and
x = [x(0, u), . . . , x(La − 1, u)]T .
Each point of the HR-ogram is well localized both in frequency 4.1.2. Results
and time domains and can be modified individually. However,
in order to achieve a high quality analysis/modification/synthesis Figure 3 shows the spectral lines tracked by the technique de-
the poles related to the sinusoidal components and those related scribed in section 4.1.1, leading to a time-frequency representa-
to noise must be processed separately. Moreover, the EDS model tion of the deterministic component of the preceding singing voice
does not represent accurately the stochastic part of the signal. signal for the time indices ranging between 1s and 1.25s (cf. the
SMAC-3
Proceedings of the Stockholm Music Acoustics Conference, August 6-9, 2003 (SMAC 03), Stockholm, Sweden
4 HRogram of the deterministic component
2
x 10
ration or to modify the ratio between the voiced and the unvoiced
part of the sound.
1.8
1.6 5. CONCLUSIONS
1.4
In this paper an analysis/synthesis scheme has been proposed. It
1.2 uses a High Resolution adaptive method which overcomes the Fourier
frequency (Hz)
0
0 0.05 0.1 0.15 0.2 0.25 6. REFERENCES
time (s)
−50
form processing techniques for text-to-speech synthesis us-
−100
ing diphones,” Speech Communication, vol. 9, no. 5/6, pp.
−150 453–467, Dec 1990.
−200
0 0.5 1 1.5 2 2.5
[6] M. Kahrs and K. Brandenbourg, Applications of Digital Sig-
4
x 10 nal Processing to Audio and Acoustics. Dortrecht, Nether-
−100
stochastic component spectrum land: Kluwer Academic Press, 1998.
[7] E. Moulines and J. Laroche, “Non parametric techniques for
−150
pitch-scale and time-scale modification of speech.” Speech
|W(f)| (dB)
SMAC-4
IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL. 52, NO. 1, JANUARY 2004 1
Abstract—The singular value decomposition (SVD) is an impor- mation hypothesis [18]–[21]. Other techniques rely on the noise
tant tool for subspace estimation. In adaptive signal processing, we and signal subspace averaging method [22], the maximum like-
are especially interested in tracking the SVD of a recursively up- lihood principle [23], the operator restriction analysis [24], or
dated data matrix. This paper introduces a new tracking technique
that is designed for rectangular sliding window data matrices. This the perturbation theory [25]. A review of former literature can
approach, which is derived from the classical bi-orthogonal itera- be found in [1].
tion SVD algorithm, shows excellent performance in the context of Most of these adaptive techniques are designed for exponen-
frequency estimation. It proves to be very robust to abrupt signal tial forgetting windows. Indeed, this choice tends to smooth the
changes, due to the use of a sliding window. Finally, an ultra-fast signal variations and thus allows a low-complexity update at
tracking algorithm with comparable performance is proposed.
each time step. However, it is only suitable for slowly varying
Index Terms—Sliding window, subspace tracking, SVD. signals. Conversely, a few subspace trackers are based on sliding
windows, which generally require more computations, but offer
I. INTRODUCTION a faster tracking response to sudden signal changes [18], [26].
The tracking of the full SVD in the sliding window case was
TABLE I TABLE II
BI-ORTHOGONAL ITERATION SVD ALGORITHM SEQUENTIAL BI-ITERATION SVD ALGORITHM
putes the EVD of a square matrix [32, Sect. 8.2.4]. In this sec- are quantified with a multiplicative factor related to the real
tion, it will be shown how this algorithm can be made adaptive floating point operation (flop) count, as obtained with the
and how its computational complexity can be reduced with a Matlab flops command [32, Sect. 1.2.4]. For example, a dot
low-rank approximation of the data matrix. product of -dimensional complex vectors involves flops.
In spite of its robustness, the main drawback of this SVD
A. Bi-Orthogonal Iteration SVD Algorithm tracking algorithm is its high computational complexity (since
The bi-orthogonal iteration algorithm computes the domi- in practice , its dominant cost is ). How-
nant singular values and vectors of a data matrix ever, some simplifications will be brought below, which will re-
(with ). The SVD of is the factor- sult in lower complexity algorithms.
ization , where and
are orthonormal matrices, and is a non-nega- C. Low-Rank Approximation of the Updated Data Matrix
tive diagonal matrix: diag , where In this section, a low-rank approximation of the data matrix
. Thus, the dominant singular values are will be introduced. In array processing, it is well known
, the dominant left singular vectors are the that rank reductions have a noise-cleaning effect. Here, this ap-
first columns of the matrix , and the dominant right singular proximation will result in a faster tracking algorithm.
vectors are the first columns of the matrix . In many signal First, the time-updating structure of the data matrix can ad-
processing applications, is much lower than . vantageously be taken into account. Indeed, it can be noticed
The quasicode of the bi-orthogonal iteration SVD algorithm that
is given in Table I. This algorithm generates two auxiliary ma-
trices and . It can be shown [29], (1)
[30] that the columns of converge to the dominant left
singular vectors, the columns of converge to the dom-
inant right singular vectors, and and both con- Now, consider the compressed data vector
verge to . . According to the definition of (see Table II), (1)
becomes
B. Sequential Bi-Iteration SVD Algorithm
The bi-orthogonal iteration algorithm can simply be adapted (2)
in a tracking context. Suppose the data matrix is updated ac-
cording to the following scheme:
where the symbol denotes uninteresting quantities.
To go further, Strobach [7] introduces the low-rank ap-
proximation
..
. of , which corresponds to the
projection of the rows of onto the subspace spanned by
. Consequently
where is the -dimensional data vector at time .1 The
SVD of can be approximated and updated just by replacing
the iteration index in Table I by the discrete time index .
The sequential bi-iteration algorithm is summarized in where . It can be seen that this
Table II. In the right column, the computational complexities approximation is less restrictive than the classical projection ap-
proximation [18], which implicitely assumes that
1In the context of frequency estimation, the coefficients of x (t) are the suc-
.
0 0
cessive samples of the signal x (t) = [x(t); x(t 1); . . . ; x(t N + 1)] . In
However, we prefer to use the low-rank approximation
the context of direction-of-arrival (DOA) estimation, x(t) is the snapshot vector
received from the N captors. . It
BADEAU et al.: SLIDING WINDOW ADAPTIVE SVD ALGORITHMS 3
(3)
(4)
(9)
According to the definition of (see Table II), (4) be-
comes
Let be the column vector obtained by transposing the
first row of . Equations (8) and (9) finally yield
(5)
(10)
Taking into account that the sequential bi-iteration SVD algo- Note that the exact computation of and requires
rithm satisfies the equation operations, whereas the approximated matrices (3) and
, a pre-multiplication of both sides of (5) by (10) can be computed in and operations. Therefore,
yields introducing these approximations in the sequential bi-iteration
SVD algorithm leads to the lower complexity algorithm herein
called SWASVD, which is summarized in Table III. Its domi-
nant cost is only . Moreover, it can be seen that for
all , SWASVD requires fewer computations than the
(6) sequential bi-iteration algorithm. From now on, and
will denote the approximated auxiliary matrices.
Then, let . This vector is
III. FAST IMPLEMENTATION OF THE SLIDING WINDOW
orthogonal to span so that can be written as a
ADAPTIVE SVD ALGORITHM
sum of two orthogonal vectors
A major drawback in the SWASVD algorithm is the explicit
(7) computation and QR factorization of the approximated matrices
and . However, these operations can be avoided by
The substitution of to in (5) and (6), respec-
directly updating the QR factorizations.
tively, yields
Since this update is simpler in the case of , the optimiza-
tion of the second iteration will be presented first.
(11)
(8)
(in the special case , is forced to be ). Then,
and can be written as the product
(12)
4 IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL. 52, NO. 1, JANUARY 2004
(13)
(in the special case , is forced to be ). Finally,
Now, consider the QR factorization of : can be written as the product
(18)
(14)
of a orthonormal matrix by the matrix
where is a square orthonormal matrix,
and is a square upper triangular matrix (it will be (19)
shown below that is also the triangular factor in the QR
factorization of , as defined in Section II). Equations (12)
Now, consider the QR factorization of :
and (14) yield
(20)
be transposed to . Thus, let . algorithm stability due to a loss of orthogonality among the columns of Q .
Note that the orthogonality can be maintained by repeating one or a few times
It can be noticed that so that the the following operations:
vector is orthogonal to span . Then, can be x t
• projection of ( ) onto span( Q ) ;
written as a sum of two orthogonal vectors: x t
• renormalization of ( ).
z t
The same method can be applied to ( ) in order to maintain the orthogonality
(17) among the columns of Q .
BADEAU et al.: SLIDING WINDOW ADAPTIVE SVD ALGORITHMS 5
(a)
TABLE IV
6
FAST IMPLEMENTATION OF THE SLIDING WINDOW ADAPTIVE SVD
ALGORITHM (SWASVD2) 4
Amplitude
0
-2
-4
-6
500 1000 1500 2000 2500 3000 3500 4000
Discrete time (samples)
(b)
0.25
0.2
Frequencies (Hz)
0.15
0.1
0.05
0
500 1000 1500 2000 2500 3000 3500 4000
Discrete time (samples)
(a) (a)
0.25 0.25
Estimated frequencies (Hz)
0.15 0.15
0.1 0.1
0.05 0.05
0 0
0 500 1000 1500 2000 2500 3000 3500 4000 0 500 1000 1500 2000 2500 3000 3500 4000
Discrete time (samples) Discrete time (samples)
(b) (b)
100
Maximum principal angle (degrees)
100
60
60
40
40
20
20
0
0 500 1000 1500 2000 2500 3000 3500 4000 0
0 500 1000 1500 2000 2500 3000 3500 4000
Discrete time (samples)
Discrete time (samples)
0.2
Estimated frequencies (Hz)
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
0 500 1000 1500 2000 2500 3000 3500 4000
0
Discrete time (samples) 0 500 1000 1500 2000 2500 3000 3500 4000
(b)
100
Maximum principal angle (degrees)
80
80
60
60
40
40
20
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
0
Discrete time (samples) 0 500 1000 1500 2000 2500 3000 3500 4000
Discrete time (samples)
(a)
0.25 A. Fast Approximated QR Factorization
Estimated frequencies (Hz)
80
plus rank one matrix. In particular, it is well known that the QR
factorization of such a matrix can be achieved in compu-
60
tations, using only Givens rotations [32, Sect. 12.5]. There-
40 fore, (20) can be written
20
0
(23)
0 500 1000 1500 2000 2500 3000 3500 4000
Discrete time (samples)
where is a product of Givens rotations, and is
Fig. 6. ( O Nr
) sliding window NIC subspace tracker. (a) Frequency tracking. a upper-triangular matrix (whose last row is equal
(b) Maximum principal angle trajectory. to in this particular case).
In practice, is not diagonal, and this fast QR-factor-
However, this algorithm only converges to an orthonormal ization cannot be achieved. However, since is nearly
matrix spanning the principal subspace. It does not compute diagonal, applying the fast QR-factorization technique as it is
the singular vectors and values of the data matrix (which might with this nondiagonal matrix gives a nearly upper triangular ma-
be important for rank estimation and tracking) and does not trix .
guarantee the orthonormality of the subspace basis at each time This fast approximated QR-factorization is the key step of our
step (which is required for some subspace-based estimation ultra-fast tracking algorithm. Note that (23) is not an approxi-
methods, such as MUSIC [31]). mation but a strict equality.
Finally, SWASVD outperformed all the other subspace
trackers that we have tested on the same test signal (Karasalo’s B. Modification of the First Iteration
algorithm [2], TQR-SVD [5], Loraf [6], Bi-SVD3 [7], NP3 Equation (21) now becomes
[8], PAST [18], OPAST [20], SHSVD [27] and FAST2 [28]).
These results were not presented here to keep the presentation
as concise as possible. (24)
..
.. .
. (27)
where
..
.. .
.
.. (26)
.
ACKNOWLEDGMENT
The authors would like to thank their colleague P. Weyer-
Brown for his helpful comments on the English grammar. They
also acknowledge the anonymous reviewers for their construc-
tive comments and corrections.
REFERENCES
[1] P. Comon and G. H. Golub, “Tracking a few extreme singular values and
vectors in signal processing,” Proc. IEEE, vol. 78, pp. 1327–1343, Aug.
1990.
[2] I. Karasalo, “Estimating the covariance matrix by signal subspace aver-
aging,” IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-34,
pp. 8–12, Feb. 1986.
[3] D. J. Rabideau, “Fast, rank adaptive subspace tracking and applications,”
IEEE Trans. Signal Processing, vol. 44, pp. 2229–2244, Sept. 1996.
[4] M. Moonen, P. V. Dooren, and J. Vandewalle, “An SVD updating algo-
rithm for subspace tracking,” SIAM J. Matrix Anal. Appl., vol. 13, no. 4,
pp. 1015–1038, 1992.
[5] E. M. Dowling, L. P. Ammann, and R. D. DeGroat, “A TQR-iteration
based adaptive SVD for real time angle and frequency tracking,” IEEE
Trans. Signal Processing, vol. 42, pp. 914–926, Apr. 1994.
[6] P. Strobach, “Low-rank adaptive filters,” IEEE Trans. Signal Processing,
vol. 44, pp. 2932–2947, Dec. 1996.
[7] , “Bi-iteration SVD subspace tracking algorithms,” IEEE Trans.
Signal Processing, vol. 45, pp. 1222–1240, May 1997.
[8] Y. Hua, Y. Xiang, T. Chen, K. Abed-Meraim, and Y. Miao, “A new look
at the power method for fast subspace tracking,” Digital Signal Pro-
cessing, vol. 9, no. 4, pp. 297–314, Oct. 1999.
[9] C. H. Bischof and G. M. Shroff, “On updating signal subspaces,” IEEE
Now, consider this fast QR factorization: Trans. Signal Processing, vol. 40, pp. 96–105, Jan. 1992.
[10] G. W. Stewart, “An updating algorithm for subspace tracking,” IEEE
Trans. Signal Processing, vol. 40, pp. 1535–1541, June 1992.
[11] G. Xu, H. Zha, G. H. Golub, and T. Kailath, “Fast algorithms for
updating signal subspaces,” IEEE Trans. Circuits Syst., vol. 41, pp.
537–549, Aug. 1994.
Finally, the QR factorization of gives [12] E. Oja, “Neural networks, principal components and subspaces,” Int. J.
Neural Syst., vol. 1, no. 1, pp. 61–68, 1989.
[13] L. Xu, “Least mean square error reconstruction principle for self-orga-
nizing neural nets,” Neural Networks, vol. 6, pp. 627–648, 1993.
.. [14] T. Chen and S. Amari, “Unified stabilization approach to principal and
. minor components extraction algorithms,” Neural Networks, vol. 14, no.
(28) 10, pp. 1377–1387, 2001.
[15] S. Y. Kung, K. I. Diamantaras, and J. S. Taur, “Adaptive principal com- Roland Badeau (M’02) was born in Marseilles,
ponent extraction (APEX) and applications,” IEEE Trans. Signal Pro- France, on August 28, 1976. He received the State
cessing, vol. 43, pp. 1202–1217, Jan. 1995. Engineering degree from the École Polytechnique,
[16] G. Mathew and V. U. Reddy, “Adaptive estimation of eigensubspace,” Palaiseau, France, in 1999, the State Engineering
IEEE Trans. Signal Processing, vol. 43, pp. 401–411, Feb. 1995. Degree from the École Nationale Supérieure des
[17] Z. Fu and E. M. Dowling, “Conjugate gradient eigenstructure tracking Télécommunications (ENST), Paris, in 2001, and
for adaptive spectral estimation,” IEEE Trans. Signal Processing, vol. the M.Sc. degree in applied mathematics from the
43, pp. 1151–1160, May 1995. École Normale Supérieure (ENS), Cachan, France,
[18] B. Yang, “Projection approximation subspace tracking,” IEEE Trans. in 2001. In 2001, he joined the Department of
Signal Processing, vol. 44, pp. 95–107, Jan. 1995. Signal and Image Processing, ENST, as an Assistant
[19] Y. Miao and Y. Hua, “Fast subspace tracking and neural network learning Professor, where he is also pursuing the Ph.D.
by a novel information criterion,” IEEE Trans. Signal Processing, vol. degree.
46, pp. 1967–1979, July 1998. His research interests include adaptive subspace algorithms and audio signal
[20] K. Abed-Meraim, A. Chkeif, and Y. Hua, “Fast orthonormal PAST al- processing.
gorithm,” IEEE Signal Processing Lett., vol. 7, pp. 60–62, Mar. 2000.
[21] S. C. Douglas, “Numerically-robust adaptive subspace tracking using
householder transformations,” in Proc. IEEE Sensor Array Multichannel Gaël Richard (M’02) received the State Engineering
Signal Process. Workshop, 2000, pp. 499–503. degree from the École Nationale Supérieure des Télé-
[22] R. D. DeGroat, “Noniterative subspace tracking,” IEEE Trans. Signal communications (ENST), Paris, France, in 1990 and
Processing, vol. 40, pp. 571–577, Mar. 1992. the Ph.D. degree from LIMSI-CNRS, University of
[23] C. Riou and T. Chonavel, “Fast adaptive eigenvalue decomposition: Paris-XI, in 1994 in the area of speech synthesis. He
A maximum likelihood approach,” in Proc. IEEE Int. Conf. Acoust., received the Habilitation à Diriger des Recherches
Speech, Signal Process., 1997, pp. 3565–3568. degree from the University of Paris XI in September
[24] C. S. MacInnes, “Fast, accurate subspace tracking using operator restric- 2001.
tion analysis,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., He then spent two years at the CAIP Center, Rut-
1998, pp. 1357–1360. gers University, Piscataway, NJ, in the speech pro-
[25] B. Champagne, “SVD-updating via constrained perturbations with cessing group of Prof. J. Flanagan, where he explored
application to subspace tracking,” Signals, Syst., Comput., vol. 2, pp. innovative approaches for speech production. Between 1997 and 2001, he suc-
1379–1385, 1996. cessively worked for Matra Nortel Communications and for Philips Consumer
[26] R. Badeau, K. Abed-Meraim, G. Richard, and B. David, “Sliding Comunications. In particular, he was the project manager of several large-scale
window orthonormal PAST algorithm,” in Proc. IEEE Int. Conf. European projects in the field of multimodal verification and speech processing.
Acoust., Speech, Signal Process., vol. 5, Apr. 2003, pp. 261–264. He joined the Department of Signal and Image Processing, ENST, as an Asso-
[27] P. Strobach, “Square Hankel SVD subspace tracking algorithms,” Signal ciate Professor in the field of audio and multimedia signals processing. He is
Process., vol. 57, no. 1, pp. 1–18, Feb. 1997. co-author of over 30 papers and inventor in a number of patents, he is also one
[28] E. C. Real, D. W. Tufts, and J. W. Cooley, “Two algorithms for fast of the expert of the European commission in the field of man/machine inter-
approximate subspace tracking,” IEEE Trans Signal Processing, vol. 47, faces.
pp. 1936–1945, July 1999. Dr. Richard is a member of the ISCA.
[29] M. Clint and A. Jennings, “A simultaneous iteration method for the
unsymmetric eigenvalue problem,” J. Inst. Math. Appl., vol. 8, pp.
111–121, 1971.
Bertrand David was born on March 12, 1967, in
[30] G. W. Stewart, Topics in Numerical Analysis, 2nd ed. New York: J. J.
Paris, France. He received the M.Sc. degree from the
H. Miller, 1975, pp. 169–185. University of Paris-Sud, in 1991 and the Agrégation,
[31] R. O. Schmidt, “A signal subspace approach to multiple emitter location a competitive french examination for the recruitment
and spectral estimation,” Ph.D. dissertation, Stanford Univ., Stanford, of teachers, in the field of applied physics, from the
CA, 1981. École Normale Supérieure (ENS), Cachan, France.
[32] G. H. Golub and C. F. V. Loan, Matrix Computations, 3rd He received the Ph.D. degree from the University of
ed. Baltimore, MD: Johns Hopkins Univ. Press, 1996. Paris 6 in 1999 in the field of musical acoustics and
[33] R. Badeau, R. Boyer, and B. David, “EDS parametric modeling and signal processing.
tracking of audio signals,” in Proc. Int. Conf. Digital Audio Effects, Sept. From 1996 to 2001, he was a teacher in a grad-
2002, pp. 139–144. uate school in electrical engineering, computer sci-
[34] R. Roy and T. Kailath, “ESPRIT-estimation of signal parameters via ence, and communication. He is now an Associate Professor with the Depart-
rotational invariance techniques,” IEEE Trans. Acoust., Speech, Signal ment of Signal and Image Processing, École Nationale Supérieure des Télécom-
Processing, vol. 37, pp. 984–995, July 1989. munications (ENST), Paris, France,. His research interests include parametric
[35] P. Strobach, “Fast recursive subspace adaptive ESPRIT algorithms,” methods for the analysis/synthesis of musical signals and parameter extraction
IEEE Trans. Signal Processing, vol. 46, pp. 2413–2430, Sept. 1998. for music description and musical acoustics.
221
Bibliographie
Bibliographie de l’auteur
— Articles de revues —
[Badeau et al., 2004a] R. Badeau, G. Richard, et B. David. Sliding window adaptive SVD algo-
rithms. IEEE Trans. Signal Processing, 52(1) :1–10, janvier 2004. (reproduit en annexe).
[Badeau et al., 2005a] R. Badeau, B. David, et G. Richard. A new perturbation analysis for signal
enumeration in rotational invariance techniques. IEEE Trans. Signal Processing, 2005. (à
paraître).
[Badeau et al., 2005b] R. Badeau, B. David, et G. Richard. Fast Approximated Power Iteration
Subspace Tracking. IEEE Trans. Signal Processing, août 2005. (à paraître).
[Badeau et al., 2005c] R. Badeau, B. David, et G. Richard. High resolution spectral analysis of
mixtures of complex exponentials modulated by polynomials. IEEE Trans. Signal Processing,
2005. (accepté sous réserve de modifications mineures).
— Articles de conférences —
[Alonso et al., 2003a] M. Alonso, R. Badeau, B. David, et G. Richard. Musical tempo estimation
using noise subspace projections. Dans Proc. of WASPAA’03, pages 95–98, New Paltz, NY,
USA, octobre 2003. IEEE.
[Badeau et al., 2002] R. Badeau, R. Boyer, et B. David. EDS parametric modeling and tracking of
audio signals. Dans Proc. of DAFx-02, pages 139–144, Hambourg, Allemagne, septembre 2002.
(reproduit en annexe).
[Badeau et al., 2003a] R. Badeau, K. Abed-Meraim, G. Richard, et B. David. Sliding Window
Orthonormal PAST Algorithm. Dans Proc. of ICASSP’03, volume 5, pages 261–264, Hong
Kong, Chine, avril 2003. IEEE.
[Badeau et al., 2003b] R. Badeau, G. Richard, et B. David. Adaptive ESPRIT algorithm based on
the PAST subspace tracker. Dans Proc. of ICASSP’03, volume 6, pages 229–232, Hong Kong,
Chine, avril 2003. IEEE.
[Badeau et al., 2003c] R. Badeau, G. Richard, et B. David. Approximated power iterations for fast
subspace tracking. Dans Proc. of 7th Int. Symp. on Signal Proc. and its Applications, volume 2,
pages 583–586, Paris, France, juillet 2003.
[Badeau et al., 2003d] R. Badeau, G. Richard, et B. David. Suivi d’espace dominant par la méthode
des puissances itérées. Dans Actes du 19ème colloque GRETSI sur le traitement du signal et
des images, volume 1, pages 137–140, Paris, France, septembre 2003.
[Badeau et al., 2004b] R. Badeau, B. David, et G. Richard. Selecting the modeling order for the
ESPRIT high resolution method : an alternative approach. Dans Proc. of ICASSP’04, volume 2,
pages 1025–1028, Montréal, Québec, Canada, mai 2004. IEEE.
222
[Badeau et al., 2005d] R. Badeau, B. David, et G. Richard. Yet Another Subspace Tracker. Dans
Proc. of ICASSP’05, volume 4, pages 329–332, Philadelphie, PA, USA, mars 2005. IEEE.
[Badeau et al., 2005e] R. Badeau, G. Richard, et B. David. Fast adaptive ESPRIT algorithm. Dans
Proc. of SSP’05, Bordeaux, France, juillet 2005. IEEE. (à paraître).
[David et al., 2002] B. David, R. Badeau, et G. Richard. Sintrack analysis for tracking components
of musical signals. Dans Proc. of the Forum Acusticum Sevilla 2002, Séville, Espagne, septembre
2002.
[David et al., 2003] B. David, G. Richard, et R. Badeau. An EDS modeling tool for tracking and
modifying musical signals. Dans Proc. of SMAC’03, volume 2, pages 715–718, Stockholm, Suède,
août 2003. (reproduit en annexe).
Bibliographie du document
[Abed-Meraim et al., 2000] K. Abed-Meraim, A. Chkeif, et Y. Hua. Fast orthonormal PAST algo-
rithm. IEEE Signal Proc. Letters, 7(3) :60–62, mars 2000.
[Akaike, 1973] H. Akaike. Information theory and an extension of the maximum likelihood prin-
ciple. Dans B. N. Petrov et F. Csaki, éditeurs, Proc. of the 2nd International Symposium on
Information Theory, pages 267–281, Budapest, Hongrie, 1973. Akademia Kiado.
[Alonso et al., 2003b] M. Alonso, B. David, et G. Richard. A Study of Tempo Tracking Algorithms
from Polyphonic Music Signals. Dans Proc. of 4th COST 276 Workshop, France, mars 2003.
[Barabell, 1983] A. J. Barabell. Improving the resolution performance of eigenstructure-based
direction-finding algorithms. Dans Proc. of ICASSP’83, pages 336–339, Boston, MA, USA,
1983. IEEE.
[Barthelemy et Willett, 1993] A. C. Barthelemy et P. K. Willett. Prewhitening of colored noise
fields for detection of threshold sources. Dans Conf. Record of the 27th Asilomar Conf. on
Signals, Systems and Computers, volume 1, pages 243–247, Pacific Grove, CA, USA, novembre
1993.
[Bienvenu et Kopp, 1983] G. Bienvenu et L. Kopp. Optimality of high-resolution array processing
using the eigensystem method. IEEE Trans. Acoust., Speech, Signal Processing, 31(5) :1235–
1245, octobre 1983.
[Bischof et Shroff, 1992] C. H. Bischof et G. M. Shroff. On updating signal subspaces. IEEE Trans.
Signal Processing, 40 :96–105, 1992.
[Bishop et Djuric, 1996] W. B. Bishop et P. M. Djuric. Model order selection of damped sinusoids
in noise by predictive densities. IEEE Trans. Signal Processing, 44(3) :611–619, mars 1996.
[Boley et al., 1997] D. L. Boley, F. T. Luk, et D. Vandevoorde. A General Vandermonde Facto-
rization of a Hankel Matrix. Dans Int’l Lin. Alg. Soc. (ILAS) Symp. on Fast Algorithms for
Control, Signals and Image Processing, Winnipeg, Canada, 1997.
[Boyer et Abed-Meraim, 2004] R. Boyer et K. Abed-Meraim. Audio modeling based on delayed
sinusoids. IEEE Trans. Speech Audio Processing, 12(2) :110–120, mars 2004.
[Boyer et al., 2002] R. Boyer, S. Essid, et N. Moreau. Non-stationary signal parametric modeling
techniques with an application to low bit rate audio coding. Dans Proc. of 6th Int. Conf. on
Signal Processing, volume 1, pages 430–433, Beijing, Chine, août 2002.
[Cardoso et Moulines, 1995] J. F. Cardoso et E. Moulines. Asymptotic performance analysis of
direction-finding algorithms based on fourth-order cumulants. IEEE Trans. Signal Processing,
43 :214–224, janvier 1995.
BIBLIOGRAPHIE 223
[Champagne et Liu, 1998] B. Champagne et Q.-G. Liu. Plane rotation-based EVD updating schemes
for efficient subspace tracking. IEEE Trans. Signal Processing, 46(7) :1886–1900, juillet 1998.
[Chen et Amari, 2001] T. Chen et S. Amari. Unified stabilization approach to principal and minor
components extraction algorithms. Neural Networks, 14(10) :1377–1387, 2001.
[Chonavel et al., 2003] T. Chonavel, B. Champagne, et C. Riou. Fast adaptive eigenvalue decom-
position : a maximum likelihood approach. Signal processing, 83(2) :307–324, février 2003.
[Chowning, 1973] J. M. Chowning. The synthesis of complex audio spectra by means of frequency
modulation. Journal of the Acoustical Society of America, 21(7) :526–534, 1973.
[Comon et Golub, 1990] P. Comon et G. H. Golub. Tracking a few extreme singular values and
vectors in signal processing. Dans Proc. of IEEE, volume 78, pages 1327–1343, août 1990.
[David, 1999] B. David. Caractérisations acoustiques de structures vibrantes par mise en atmosphère
raréfiée. PhD thesis, University of Paris VI, 1999.
[Davila, 2000] C. E. Davila. Efficient, high performance, subspace tracking for time-domain data.
IEEE Trans. Signal Processing, 48(12) :3307–3315, décembre 2000.
[De Moor, 1993] B. De Moor. The singular value decomposition and long and short spaces of noisy
matrices. IEEE Trans. Signal Processing, 41(9) :2826–2838, septembre 1993.
[DeGroat, 1992] R. D. DeGroat. Noniterative subspace tracking. IEEE Trans. Signal Processing,
40(3) :571–577, mars 1992.
[Dologlou et al., 1997] I. Dologlou, S. Van Huffel, et D. Van Ormondt. Improved signal en-
hancement procedures applied to exponential data modeling. IEEE Trans. Signal Processing,
45(3) :799–803, mars 1997.
[Douglas, 2000] S. C. Douglas. Numerically-robust adaptive subspace tracking using Householder
transformations. Dans Proc. of Sensor Array and Multichannel Signal Proc. Workshop, pages
499–503. IEEE, 2000.
[Dowling et al., 1994] E. M. Dowling, L. P. Ammann, et R. D. DeGroat. A TQR-iteration based
adaptive SVD for real time angle and frequency tracking. IEEE Trans. Signal Processing,
42(4) :914–926, avril 1994.
[Duvaut, 1994] P. Duvaut. Traitement du signal. Hermes, Paris, France, 1994.
[Ephraim et Van Trees, 1995] Y. Ephraim et H. L. Van Trees. A signal subspace approach for
speech enhancement. IEEE Trans. Speech Audio Processing, 3(4) :251–266, juillet 1995.
[Eriksson et al., 1993] A. Eriksson, P. Stoica, et T. Soderstrom. Second-order properties of MU-
SIC and ESPRIT estimates of sinusoidal frequencies in high SNR scenarios. IEE Proceedings
on Radar, Sonar and Navigation, 140(4) :266–272, août 1993.
[Fu et Dowling, 1995] Z. Fu et E. M. Dowling. Conjugate gradient eigenstructure tracking for adap-
tive spectral estimation. IEEE Trans. Signal Processing, 43(5) :1151–1160, mai 1995.
[Fuchs, 1992] J. J. Fuchs. Estimation of the number of signals in the presence of unknown correlated
sensor noise. IEEE Trans. Signal Processing, 40(5) :1053–1061, mai 1992.
[Gini et Bordoni, 2003] F. Gini et F. Bordoni. On the behavior of information theoretic criteria for
model order selection of InSAR signals corrupted by multiplicative noise. Signal Processing,
83 :1047–1063, 2003.
[Golub et Van Loan, 1996] G. H. Golub et C. F. Van Loan. Matrix computations. The Johns
Hopkins University Press, Baltimore and London, UK, third édition, 1996.
224
[Goodwin, 1996] M. Goodwin. Nonuniform filterbank design for audio signal modeling. Dans Conf.
Record of the 30th Asilomar Conf. on Signals, Systems and Computers, volume 2, pages 1229–
1233, novembre 1996.
[Goto et Muraoka, 1997] M. Goto et Y. Muraoka. Real-time Rhythm Tracking for Drumless Audio
Signals. Dans Proc. of the IJCAI’97, 1997.
[Graham et al., 1994] R. L. Graham, D. E. Knuth, et O. Patashnik. Concrete Mathematics : A
Foundation for Computer Science. Addison-Wesley, Reading, MA, USA, second édition, 1994.
[Göransson, 1994] B. Göransson. Robust direction estimation in the presence of spatially correlated
noise. Dans Proc. of 7th Workshop on Statistical and Array Processing, pages 157–160, 1994.
[Göransson et Ottersten, 1999] B. Göransson et B. Ottersten. Direction estimation in partially
unknown noise fields. IEEE Trans. Signal Processing, 47(9) :2375–2385, septembre 1999.
[Grouffaud et al., 1996] J. Grouffaud, P. Larzabal, et H. Clergeot. Some properties of ordered
eigenvalues of a Wishart matrix : application in detection test and model order selection. Dans
Proc. of ICASSP’96, volume 5, pages 2465–2468. IEEE, 1996.
[Hermus et al., 2002] K. Hermus, W. Verhelst, et P. Wambacq. Psychoacoustic modeling of audio
with exponentially damped sinusoids. Dans Proc. of ICASSP’02, volume 2, pages 1821–1824.
IEEE, 2002.
[Hermus et al., 2000] K. Hermus, W. Verhelst, P. Wambacq, et P. Lemmerling. Total Least
Squares based subband modelling for scalable speech representations with damped sinusoids.
Dans Proc. of International Conference on Spoken Language Processing, volume 3, pages 1129–
1132, Beijing, Chine, octobre 2000.
[Hermus et Wambacq, 2004] K. Hermus et P. Wambacq. Assessment of signal subspace based speech
enhancement for noise robust speech recognition. Dans Proc. of ICASSP’04, volume 1, pages
945–948. IEEE, mai 2004.
[Horn et Johnson, 1985] R. A. Horn et C. R. Johnson. Matrix analysis. Cambridge University Press,
Cambridge, UK, 1985.
[Hua et Sarkar, 1990] Y. Hua et T. K. Sarkar. Matrix pencil method for estimating parameters
of exponentially damped/undamped sinusoids in noise. IEEE Trans. Acoust., Speech, Signal
Processing, 38(5) :814–824, mai 1990.
[Hua et Sarkar, 1991] Y. Hua et T. K. Sarkar. On SVD for estimating generalized eigenvalues of
singular matrix pencil in noise. IEEE Trans. Signal Processing, 39(4) :892–900, avril 1991.
[Hua et al., 1999] Y. Hua, Y. Xiang, T. Chen, K. Abed-Meraim, et Y. Miao. A new look at the
power method for fast subspace tracking. Digital Signal Processing, octobre 1999.
[Huffel, 1993] S. Van Huffel. Enhanced resolution based on minimum variance estimation and ex-
ponential data modeling. Signal Processing, 33(3) :333–355, septembre 1993.
[Jeanneau et al., 1998] M. Jeanneau, P. Mouyon, et C. Pendaries. Sintrack analysis, application
to detection and estimation of flutter for flexible structures. Dans Proc. of EUSIPCO, pages
789–792, Ile de Rhodes, Grèce, septembre 1998.
[Jensen et al., 2004] J. Jensen, R. Heusdens, et S. H. Jensen. A perceptual subspace approach
for modeling of speech and audio signals with damped sinusoids. IEEE Trans. Speech Audio
Processing, 12(2) :121–132, mars 2004.
[Jensen et al., 1999] J. Jensen, S. H. Jensen, et E. Hansen. Exponential Sinusoidal Modeling of
Transitional Speech Segments. Dans Proc. of ICASSP’99, volume 1, pages 473–476. IEEE,
mars 1999.
BIBLIOGRAPHIE 225
[Oja, 1989] E. Oja. Neural networks, principal components and subspaces. Int. journal of neural
systems, 1(1) :61–68, 1989.
[Paulus et Klapuri, 2002] J. Paulus et A. Klapuri. Measuring The Similarity of Rhythmic Patterns.
Dans Proc. of ISMIR’02, 3rd Int. Conf. on Music Information Retrieval, Paris, France, octobre
2002.
[Pisarenko, 1973] V. F. Pisarenko. The retrieval of harmonics from a covariance function. Geophysical
J. Royal Astron. Soc., 33 :347–366, 1973.
[Rabideau, 1996] D. J. Rabideau. Fast, rank adaptive subspace tracking and applications. IEEE
Trans. Signal Processing, 44(9) :2229–2244, septembre 1996.
[Rao et Zhao, 1993] C. R. Rao et L. C. Zhao. Asymptotic behavior of maximum likelihood estimates
of superimposed exponential signals. IEEE Trans. Signal Processing, 41(3) :1461–1464, mars
1993.
[Real et al., 1999] E. C. Real, D. W. Tufts, et J. W. Cooley. Two algorithms for fast approximate
subspace tracking. IEEE Trans. Signal Processing, 47(7) :1936–1945, juillet 1999.
[Riche de Prony, 1795] G. M. Riche de Prony. Essai expérimental et analytique : sur les lois de la
dilatabilité de fluides élastiques et sur celles de la force expansive de la vapeur de l’eau et de
la vapeur de l’alcool à différentes températures. Journal de l’école polytechnique, 1(22) :24–76,
1795.
[Rissanen, 1978] J. Rissanen. Modeling by shortest data description. Automatica, 14 :465–471, 1978.
[Roman, 1984] S. Roman. The Umbral Calculus. Academic Press, New York, NY, USA, 1984. §1.2 :
The Lower Factorial Polynomial.
[Roy et Kailath, 1987] R. Roy et T. Kailath. Total least squares ESPRIT. Dans Proc. of 21st
Asilomar Conference on Signals, Systems, and Computers, pages 297–301, novembre 1987.
[Roy et al., 1986] R. Roy, A. Paulraj, et T. Kailath. ESPRIT–A subspace rotation approach to
estimation of parameters of cisoids in noise. IEEE Trans. Acoust., Speech, Signal Processing,
34(5) :1340–1342, octobre 1986.
[Saarnisaari, 1999] H. Saarnisaari. Robustness of the MUSIC algorithm to Errors in Estimation the
Dimensions of the Subspaces : Delay Estimation in DS/SS in the Presence of Interference. Dans
Proc. of the Military Communications Conference MILCOM’99, Atlantic City, NJ, USA, 1999.
[Scharf, 1991] L. L. Scharf. Statistical signal processing. Addison Wesley, New York, NY, USA, 1991.
[Scheirer, 1998] E. D. Scheirer. Tempo and Beat Analysis of Acoustic Music Signals. JASA, 103 :588–
601, janvier 1998.
[Schmidt, 1981] R. O. Schmidt. A signal subspace approach to multiple emitter location and spectral
estimation. PhD thesis, Stanford University, Stanford, Californie, USA, novembre 1981.
[Schmidt, 1986] R. O. Schmidt. Multiple emitter location and signal parameter estimation. IEEE
Trans. Antennas Propagat., 34(3) :276–280, mars 1986.
[Schwarz, 1978] G. Schwarz. Estimating the dimension of a model. The Annals of Statistics,
6(2) :461–464, 1978.
[Seppänen, 2001] J. Seppänen. Tatum Grid Analysis of Musical Signals. Dans Proc. of WASPAA’01,
New York, NY, USA, octobre 2001.
[Serra et Smith, 1990] X. Serra et J. Smith. Spectral modeling synthesis : a sound analysis/synthesis
based on a deterministic plus stochastic decomposition. Computer Music Journal, 14(4), 1990.
[Stewart, 1992] G. W. Stewart. An updating algorithm for subspace tracking. IEEE Trans. Signal
Processing, 40 :1535–1541, juin 1992.
228
[Stoica et al., 2000] P. Stoica, H. Li, et J. li. Amplitude estimation of sinusoidal signals : survey,
new results, and an application. IEEE Trans. Signal Processing, 48(2) :338–352, 2000.
[Stoica et Nehorai, 1988] P. Stoica et A. Nehorai. Study of the statistical performance of the
Pisarenko harmonic decomposition method. IEE Proceedings Radar and Signal Processing,
135(2) :161–168, avril 1988.
[Stoica et Söderström, 1991] P. Stoica et T. Söderström. Statistical Analysis of MUSIC and Sub-
space Rotation Estimates of Sinusoidal Frequencies. IEEE Trans. Signal Processing, 39 :1836–
1847, août 1991.
[Strang, 2003] G. Strang. Introduction to Linear Algebra. Wellesley-Cambridge Press, third édition,
2003.
[Strobach, 1996] P. Strobach. Low-rank adaptive filters. IEEE Transactions on Signal Processing,
44(12) :2932–2947, décembre 1996.
[Strobach, 1997a] P. Strobach. Bi-iteration SVD subspace tracking algorithms. IEEE Trans. Signal
Processing, 45(5) :1222–1240, mai 1997.
[Strobach, 1997b] P. Strobach. Square Hankel SVD subspace tracking algorithms. Signal Processing,
57(1) :1–18, février 1997.
[Strobach, 1998] P. Strobach. Fast recursive subspace adaptive ESPRIT algorithms. IEEE Trans.
Signal Processing, 46(9) :2413–2430, septembre 1998.
[Tkacenko et Vaidyanathan, 2001] A. Tkacenko et P. P. Vaidyanathan. The role of filter banks in
sinusoidal frequency estimation. Journal of the Franklin Institute, 338(5) :517–547, août 2001.
[Vaidyanathan, 1993] P. P. Vaidyanathan. Multirate systems and filter banks. Prentice-Hall, Inc.,
Upper Saddle River, NJ, USA, 1993.
[Van der Veen et al., 1993] A-J. Van der Veen, ED. F. Deprettere, et A. L. Swindlehurst. Sub-
space based signal analysis using singular value decomposition. Proc. of IEEE, 81(9) :1277–1308,
septembre 1993.
[Vandevoorde, 1996] D. Vandevoorde. A fast exponential decomposition algorithm and its applica-
tions to structured matrices. PhD thesis, Rensselaer Polytechnic Institute, Troy, NY, USA,
1996.
[Viberg et al., 1995] M. Viberg, P. Stoica, et B. Ottersten. Array processing in correlated noise
fields based on instrumental variables and subspace fitting. IEEE Trans. Signal Processing,
43(5) :1187–1199, mai 1995.
[von Sachs, 1994] R. von Sachs. Peak-insensitive non-parametric spectrum estimation. Journal of
time series analysis, 15 :429–452, 1994.
[Wang et al., 2004] J. F. Wang, C-H. Yang, et K-H. Chang. Subspace tracking for speech enhan-
cement in car noise environments. Dans Proc. of ICASSP’04, volume 2, pages 789–792. IEEE,
mai 2004.
[Wax et Kailath, 1985] M. Wax et T. Kailath. Detection of signals by information theoretic criteria.
IEEE Trans. Acoust., Speech, Signal Processing, 33(2) :387–392, avril 1985.
[Weinreich, 1977] G. Weinreich. Coupled piano strings. Journal of the Acoustical Society of America,
62(6) :1474–1484, 1977.
[Williams et Madisetti, 1999] D. B. Williams et V. K. Madisetti. Fast Fourier Transforms : A
Tutorial Review and a State of the Art, in Digital Signal Processing Handbook. CRC Press
LLC, Boca Raton, Floride, USA, 1999.
BIBLIOGRAPHIE 229
[Xu et al., 1994] G. Xu, H. Zha, G. H. Golub, et T. Kailath. Fast algorithms for updating signal
subspaces. IEEE Trans. Circuits Syst., 41(8) :537–549, août 1994.
[Xu, 1993] L. Xu. Least mean square error reconstruction principle for selg-organizing neural nets.
Neural Networks, 6 :627–648, 1993.
[Yang, 1995] B. Yang. Projection Approximation Subspace Tracking. IEEE Trans. Signal Processing,
44(1) :95–107, janvier 1995.
[Zhang et Wong, 1993] Q. T. Zhang et K. M. Wong. Information theoretic criteria for the determi-
nation of the number of signals in spatially correlated noise. IEEE Trans. Signal Processing,
41(4) :1652–1663, avril 1993.
[Zhao et al., 1986a] L. C. Zhao, P. R. Krishnaiah, et Z. D. Bai. On detection of the number of
signals in presence of white noise. Journal of Multivariate Analysis, 20(1) :1–25, 1986.
[Zhao et al., 1986b] L. C. Zhao, P. R. Krishnaiah, et Z. D. Bai. On detection of the number of signals
when the noise covariance matrix is arbitrary. Journal of Multivariate Analysis, 20(1) :26–49,
1986.
[Zoltawski et Stavrinides, 1989] M. Zoltawski et D. Stavrinides. Sensor array signal processing via
a Procrustes rotations based eigen-analysis of the ESPRIT data pencil. IEEE Trans. Acoust.,
Speech, Signal Processing, 37(6) :832–861, juin 1989.
230
Index
Facteurs d’atténuation, 10, 21, 26, 37, 42, 44, 45 SW-NIC, 104, 195
FAPI, 90, 128
Fenêtre exponentielle, 82, 90 YAST, 110, 128
Fenêtre tronquée, 82, 90
Forme de Jordan, 29, 40, 183
Fréquences, 10, 21, 26, 37, 42, 44, 45
ITC, 20, 61
MAC, 56, 68
Matrice d’information de Fisher, 22, 177
Matrice spectrale, 20, 40, 71, 122
Matrices de Hankel, 17, 31, 70, 175
Matrices de Pascal généralisées, 28, 174
Matrices de Pascal-Vandermonde, 28, 29, 43, 171,
174
Matrices de Vandermonde, 11
Maximum de vraisemblance, 11, 30
MDL, 20, 61
MUSIC, 19
Méthode d’itération orthogonale, 69, 123
Méthode de Pisarenko, 17
Méthode de Prony, 15
Méthode des puissances itérées, 80, 90
Méthode des puissances naturelles, 81
Méthodes HR, 14
OPAST, 82, 99