Vous êtes sur la page 1sur 15

538

PP. 538-552

Synthèse sur la réduction conjointe de bruit et d’écho pour les systèmes mains-libres

Christophe BEAUGEANT*, Régine LE BOUQUIN JEANNÈS**, Pascal SCALART*, Gérard FAUCON**

Résumé

Les télécommunications modernes s’éprennent de liberté et, dans ce paysage, les systèmes mains-libres proposent aux abonnés de converser de manière plus naturelle, sans avoir à tenir un combiné. Ce nouvel usage entraîne des problèmes jusqu’alors négligeables en téléphonie classique : la superposition de bruit et d’écho, souvent très énergétiques, sur le signal de parole. Afin de pallier ces problèmes et de fournir une qualité suffisante aux télécommunications, une réduction conjointe des perturbations, bruit et écho, est nécessaire. Cet article présente une synthèse des solutions retenues pour cette double réduction dans le cadre d’une prise de son mono-capteur et bi-capteurs.

Mots clés : Téléphone, Annuleur d'écho, Réduction bruit, Poste téléphonique mains libres, Article synthèse, Qualité sonore, Filtrage optimal.

AN OVERVIEW ON NOISE AND ECHO REDUCTION IN HANDS-FREE APPLICATIONS

Abstract

In the context of modern telecommunications, hands- free systems allow to talk in a more natural way, without handling a telephone. This leads to new problems which were negligible in classical telephony: the superposition of energetic noise and echo on the speech signal. To solve these problems and to provide a sufficient speech quality, a joint reduction of these perturbations is nee- ded. This paper presents a synthesis of solutions retained to achieve this reduction in the context of mono-channel and two-channel observations.

Key words : Telephone, Echo canceller, Noise reduction, Hands- free telephone set, Review, Sound quality, Optimal filtering.

Sommaire

I. La double problématique des systèmes de prise de son mains-libres

II.

Notations

III.

Techniques de débruitage et d’annulation d’écho

IV.

Méthodes combinées pour la prise de son mono- capteur

V.

Méthodes combinées pour la prise de son bicapteurs

VI.

Introduction de propriétés psychoacoustiques

VII.

Conclusion

Bibliographie (58 réf.)

L’essor récent des télécommunications et plus parti- culièrement des communications mobiles rend d’actua- lité les problèmes inhérents à la prise de son. Le nombre important d’articles traitant de la réduction de bruit et/ou du contrôle de l’écho durant ces dix dernières années témoigne de l’activité scientifique autour du problème de l’amélioration de la qualité des signaux de parole qui res- tent encore le support principal des télécommunications. Une grande majorité des articles ne considère cependant que l’un des deux problèmes, l’annulation d’écho ou bien la réduction de bruit. Des études plus récentes ten- tent de combiner ces deux approches afin de proposer des solutions couplant débruitage et annulation d’écho. Cet article propose une synthèse bibliographique de ces dif- férentes solutions.

I. LA DOUBLE PROBLÉMATIQUE DES SYSTÈMES DE PRISE DE SON MAINS-LIBRES

Par leurs aspects pratiques et la diminution des contraintes pour l’utilisateur, les systèmes de prise de son mains-libres se sont imposés dans un certain nombre d’applications téléphoniques. Parmi celles-ci, on peut citer la téléconférence, l’audioconférence sur postes téléphoniques, l’ensemble des applications mains-libres pour les services multimédias ou encore les combinés mains-libres pour les services de radiotéléphonie mobile, notamment à l’intérieur des véhicules. Tous ces

C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

systèmes ont pour point commun de proposer une prise de son et une restitution du son éloignées du ou des uti- lisateurs, ce qui présente l’avantage de libérer les locu- teurs de la contrainte de tenir un combiné téléphonique dans la main.

L’utilisation de ces terminaux à prise de son mains- libres rend certes le combiné téléphonique « classique » obsolète mais fait apparaître de nouveaux problèmes jusqu’alors négligeables grâce à la prise de son rappro- chée inhérente aux combinés : la réverbération, l’in- fluence du bruit et de l’écho. De par son importance, seule la réduction du bruit et de l’écho fera l’objet de notre étude.

Le terme bruit ambiant désigne l’ensemble des ondes sonores, hormis celles émises par le ou les locuteurs et par le haut-parleur du système mains-libres, se superpo- sant au signal utile que l’on veut transmettre.

Le terme écho, quant à lui, représente la réémission du signal vers l’émetteur. Il est le résultat de différents couplages, c’est-à-dire de différentes interactions entre deux phénomènes physiques tout au long de la chaîne de transmission de la parole. On distingue généralement trois types de couplage (Fig. 1) : le couplage électrique dû aux interactions au niveau du réseau (passage de deux fils à quatre fils), le couplage solido-porté occasionné par les interactions mécaniques (vibrations) qui peuvent exister entre haut-parleur et microphone(s) (propagation du son au sein d’un combiné), enfin le couplage acoustique résultant quant à lui des interactions acoustiques (propa- gation du son dans la salle locale) entre haut-parleur et microphone(s). En raison des spécificités du phénomène d’écho électrique [ERD 81], nous nous intéresserons par la suite uniquement à l’écho engendré par un phénomène de couplage mécanique et acoustique.

par un phénomène de couplage mécanique et acoustique. 5 3 9 ces perturbations. En fait, dans

539

ces perturbations. En fait, dans de nombreuses applica- tions de télécommunications mains-libres, une améliora- tion de la qualité des sons captés est une nécessité. Cette amélioration passe par une réduction des deux perturba- tions que sont l’écho et le bruit.

Face à la double problématique, présence d’écho et présence de bruit, la solution première fut historiquement de traiter indépendamment ces deux perturbations. On trouve ainsi une littérature abondante concernant d’une part la réduction de bruit (ou débruitage) [LIM 83] et d’autre part l’annulation d’écho [HÄN 92, HÄN 94, NAY 94]. Plus récemment, les chercheurs se sont intéres- sés à résoudre globalement les deux problèmes – débrui- tage et annulation d’écho – en proposant des solutions ayant pour but de réduire de pair les deux types de per- turbations. Après un bref aperçu des techniques de débruitage et d’annulation d’écho acoustique, briques de base des solutions combinées, nous nous intéresserons aux articles proposant des solutions de réduction conjointe de bruit et d’écho.

II. NOTATIONS

Afin de conserver une homogénéité dans l’article, il convient de préciser un certain nombre de notations qui permettent de symboliser mathématiquement la situation de la prise de son mains-libres. Le schéma de la figure 2 résume ces notations.

Le schéma de la figure 2 résume ces notations. F IG . 2. — Notations. Notations.

FIG. 2. — Notations. Notations.

FIG. 1. — Différents couplages. Coupling effects.

La présence d’écho et de bruit peut s’avérer très gênante pour le locuteur distant : fatigue et difficulté de compréhension à cause du bruit, effet déroutant d’en- tendre sa propre voix retardée par retour de l’écho (retard dû au temps de propagation à travers le réseau). De même, les performances des systèmes de reconnaissance vocale (applications multimédias, dialogue avec un véhi- cule « intelligent ») ou celles des codeurs de parole (cas typique du GSM) placés en aval d’un microphone d’un système mains-libres sont diminuées par la présence de

Comme nous l’avons déjà introduit dans le para- graphe précédent, nous nommerons locuteur distant la personne se situant « à l’autre bout du fil », c’est-à-dire se trouvant en conversation avec le système mains-libres. On peut éventuellement remplacer ce locuteur par un ser- vice de reconnaissance vocale, mais le terme locuteur dis- tant sera conservé dans tous les cas de figure. Le terme locuteur local (ou proche) désignera la personne (éven- tuellement les personnes) utilisant le terminal mains- libres. Pour un système de prise de son monocapteur, les signaux captés par le microphone du système mains- libres sont :

540 C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

– la parole prononcée par le locuteur local, appelée par la suite signal utile et notée comme étant le signal temporel s(t);

– l’écho, noté e(t), issu du couplage solido-acous- tique entre le haut-parleur et le microphone du ter- minal. Le couplage s’exprime en introduisant la réponse impulsionnelle r(t) entre haut-parleur et microphone de telle sorte que le signal d’écho reçu sur le microphone est issu du produit de convolu- tion entre le signal présent sur le haut-parleur z(t) et r(t), soit :

(1)

– le bruit, noté b(t), correspondant à l’ensemble des sources sonores captées par le microphone en dehors du signal utile et de l’écho. On désigne par le terme perturbation, p(t), l’ensemble des signaux, autres que le signal utile, captés par le microphone : p(t) = e(t) + b(t). Finalement le signal microphonique x(t) s’écrit comme la somme des termes décrits jusqu’à présent :

(2)

e(t) = r(t) * z(t) ;

x(t) = s(t) + p(t)

= s(t) + e(t) + b(t)

.

Le bruit dû à l’environnement est supposé indépen- dant des signaux de parole, qu’il s’agisse du signal utile émis par le locuteur local ou du signal provenant du haut-parleur dû au locuteur distant. Le signal utile et l’écho sont, du reste, également supposés indépendants entre eux. Tout au long de cet article, nous présenterons les dif- férentes solutions sous l’hypothèse de stationnarité des signaux et des phénomènes physiques. Cette notion – par ailleurs assez intuitive lorsqu’il s’agit de signaux de parole et difficile à vérifier en pratique – constitue un concept théorique permettant de définir les filtres opti- maux en vue d’une réduction conjointe de bruit et d’écho. En pratique, les filtres du domaine fréquentiel sont implémentés suivant le principe de l’atténuation spec- trale à court terme, décrit en détail dans [LIM 79]. Le pas- sage entre domaine temporel/domaine fréquentiel et inversement (analyse/synthèse) est réalisé par TFCT/TFCTI (transformée de Fourier à court terme et TFCT inverse)

dont l’analyse complète peut être trouvée en [CRO 83]. Cette technique utilise la propriété de stationnarité locale des signaux de parole sur la durée d’une trame d’analyse de l’ordre de 20 à 60 ms. Ainsi l’hypothèse de stationna- rité supposée par la suite nous place dans un contexte théorique qui, dans la pratique, se vérifie sur les trames d’analyse successives. Par ailleurs et de manière générale, on convient dans cet article des notations suivantes :

– pour un signal temporel u(t) stationnaire, on notera U(f) sa transformée de Fourier ;

– l’estimation d’une grandeur v (qu’elle soit tempo- relle ou fréquentielle) sera notée vˆ ;

– la densité interspectrale entre deux grandeurs u(t) et v(t) sera notée γ uv (f) ;

– la notation E[ ] désignera l’espérance mathématique; – dans le cas d’une prise de son bicapteurs, les nota- tions seront similaires à celles introduites jusqu’à présent et seront indicées par 1 et 2. Ainsi on aura x i (t)= s i (t) + e i (t) + b i (t), i {1,2} avec x i (t), s i (t), e i (t) et b i (t) respectivement le signal micropho- nique, le signal utile, l’écho et le bruit capté par le microphone i (l’indice i sera de même appliqué aux notations des transformées de Fourier et aux diffé- rents estimateurs). Les signaux de parole provien- nent de la même source et sont très corrélés, tandis que les bruits sont supposés décorrélés pour une distance entre microphones suffisante (environ 40 cm). Introduisons dès à présent deux termes utilisés par la suite le mode double parole (mode DP) qui correspond à la présence simultanée de la parole locale et de l’écho (les locuteurs proche et lointain parlent simultanément) et le mode simple parole (mode SP) qui correspond à la présence de l’écho seul. Dans chacun des modes, la pré- sence de bruit est sous-entendue.

III. TECHNIQUES DE DÉBRUITAGE ET D’ANNULATION D’ÉCHO

Les deux paragraphes suivants proposent un aperçu de techniques de débruitage (§III.1) et d’annulation d’écho (§III.2). Ces descriptions ne s’attachent qu’aux solutions pouvant être reprises dans les méthodes combinant annula- tion d’écho et débruitage décrites par la suite (§IV et V). Il ne s’agit donc pas d’une revue exhaustive mais simplement de notions nécessaires à la compréhension de cet article.

III.1. Les principes de débruitage

La plupart des techniques de débruitage mono-capteur consistent à réaliser un filtrage dans le domaine fréquen- tiel du signal microphonique x(t) = s(t) + b(t) (e(t) = 0 dans ce paragraphe). Le filtrage atténue l’amplitude de chaque composante spectrale du signal bruité en fonction de l’es- timation du rapport signal à bruit de cette composante. Les méthodes diffèrent en fonction de l’atténuation requise et de la méthode d’estimation du niveau de bruit et du niveau de parole sur chaque composante spectrale. Ces techniques supposent que bruit et signal utile sont décorrélés sur la durée de la trame d’analyse, que le signal de parole utile est intermittent et que l’oreille humaine est insensible à la phase du signal [WAN 82]. Ces techniques peuvent être classées en trois types :

– la soustraction spectrale de puissance [LIM 79] consiste à soustraire une estimée de la densité spectrale de puissance du bruit à la densité spec- trale du signal microphonique;

C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

541

– la soustraction spectrale d’amplitude [BOL 79, KUS 89] consiste à soustraire à l’amplitude de X(f)

l’estimée de l’amplitude de la composante spectrale

ˆ

du bruit B(f). – la mise en œuvre directe de la solution de Wiener par un filtrage en boucle ouverte du signal micro- phonique consiste à minimiser l’erreur quadratique moyenne (EQM) [VAS 96]. Il est à noter que ces trois techniques de débruitage sont souvent accompagnées d’une surestimation de la puissance du bruit [BER 79] afin d’obtenir en sortie de traitement un niveau de bruit résiduel le plus faible pos- sible. D’autres auteurs effectuent une soustraction spec- trale non linéaire où le facteur de surestimation dépend du rapport signal-à-bruit à chaque fréquence [LOC 92, MOK 92, VAN 89]. Citons également la méthode proposée par [EPH 84] qui est un estimateur d’amplitude des com- posantes fréquentielles du signal de parole.

Ces techniques de débruitage nécessitent l’estimation de densités spectrales de puissance du bruit, du signal utile, ou de rapports de densités spectrales. Les algo- rithmes proposés dans la littérature diffèrent par la manière d’estimer ces densités spectrales. Ce dernier point dépasse le cadre de notre article.

III.2. Les principes de l’annulation d’écho

Les techniques usuelles d’annulation d’écho sont principalement basées sur l’identification du canal acous- tique r(t). Ce filtre est généralement modélisé par un filtre à réponse impulsionnelle finie (RIF) de longueur L, r opt (t). Cette modélisation linéaire peut se justifier par le fait que le canal est, en première approximation, com- posé essentiellement de retards et d’atténuations. La lon- gueur L nécessaire à la modélisation sera d’autant plus importante que le support temporel utile de la réponse impulsionnelle sera long. Dans la pratique, ce support temporel peut varier de quelques dizaines de milli- secondes (habitacle d’un véhicule) à plusieurs centaines de millisecondes (salle de conférence) (Fig. 3).

centaines de millisecondes (salle de conférence) (Fig. 3). F IG . 3. — Principe de l’annulation

FIG. 3. — Principe de l’annulation d’écho par identification du canal.

Principle of echo cancellation by channel identification.

L’algorithme d’annulation d’écho va permettre l’esti-

mation du filtre r opt (t) par le vecteur de taille L r

l’aide d’un critère basé sur l’erreur d’estimation a priori. Cette erreur d’estimation, appelée écho résiduel, s’écrit, pour chaque échantillon t :

_ L (t) à

(3)

δe(t) = x(t) _r L T (t) _z L (t),

_z L (t) =[z(t),z(t 1),…,z(t L + 1)] T représente les L der- niers échantillons du signal haut-parleur. La mise à jour du filtre à chaque instant est effectuée par une contre- réaction de l’erreur d’estimation proportionnellement au gain d’adaptation noté _c L (t) et suivant l’équation :

r L (t + 1) =_r L (t)_c L (t)δe(t).

Les différents algorithmes d’annulation d’écho se distinguent par le calcul du gain _c L (t). Ainsi, on peut classer les algorithmes de la manière suivante :

– les algorithmes dérivés du gradient stochastique (LMS : least mean squares) [WID 85] pour lesquels le critère d’optimisation correspond à une minimisa- tion de l’erreur quadratique. Les versions par blocs [CLA 81] minimisent le critère d’erreur sur un bloc d’échantillons. Les versions fréquentielles MDF (multidelay filter) et GMDF (generalized MDF) [PRA 94] sont issues du passage dans le domaine des fréquences des versions par blocs des algo- rithmes de gradient stochastique [SOO 90]; – les algorithmes de moindres carrés récursifs (RLS :

recursive least squares) sont basés sur une minimi- sation du critère des moindres carrés à oubli expo- nentiel donné par [HAY 91] :

(4)

(5)

t

J(_r L (t)) =

i=

0 [λ t i (x(i)_r L T (i) _z L (i)) 2 ],

λ∈]0,1[ est un facteur d’oubli exponentiel. Les versions rapides de ces algorithmes, FRLS (fast RLS) et FTF (fast transversal filter), sont dérivées du RLS par introduction de prédicteurs avant et arrière dans le calcul de _c L (t) [PET 92] ; – les algorithmes de projection affine (APA : affine projection algorithm) [OZE 84] sont basés sur une projection non plus colinéaire au vecteur d’obser- vation du signal haut-parleur z L (t) comme c’est le cas pour les algorithmes de type LMS mais sur une projection orthogonale à l’intersection de plusieurs hyperplans Πt (hyperplan défini comme l’ensemble des vecteurs v(t) tels que v(t) T z L (t) = x(t)).

III.3. Contrôle de l’écho

Nous avons vu que les techniques usuelles d’annula- tion d’écho acoustique reposent sur la mise en œuvre d’un filtre à réponse impulsionnelle finie de longueur L. En phase asymptotique, les coefficients du filtre adaptatif convergent généralement vers ceux du filtre de Wiener à

542 C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

L coefficients qui minimisent la valeur moyenne de la puissance de l’erreur de filtrage. Étant donné les contraintes de coût imposées par les lois du marché, le nombre de coefficients L est nécessairement limité à une valeur compatible avec les caractéristiques (mémoires, calculs) imposées par le processeur cible. En consé- quence, il subsistera dans la majeure partie des applica- tions un écho résiduel dont les caractéristiques peuvent parfois conduire à son audibilité. Il est donc impératif d’insérer dans la chaîne de transmission un dispositif lut- tant contre cet effet ce qui conduit classiquement aux techniques de variation de gains [GIL 88]. Le principe général de ces techniques consiste à déterminer la voie active (émission ou réception) puis à appliquer une valeur d’atténuation sur la voie passive. Le contrôle de l’atténuation s’avère très délicat puisqu’il doit répondre à un double objectif : réduire suffisam- ment l’écho résiduel tout en minimisant les effets intro- duits sur la parole locale et le bruit de fond. Cette fonction joue donc un rôle très critique au sein d’un dis- positif complet d’annulation d’écho et conditionne, dans nombre de cas, la qualité vocale de celui-ci au même titre que les propriétés de convergence de l’algorithme adaptatif. Les approches présentées jusqu’à présent proposent des solutions spécifiques à une situation donnée : réduc- tion de bruit ou annulation d’écho. Dans la probléma- tique de réduction conjointe de ces deux perturbations, les solutions retenues utilisent ces solutions comme « briques de base », mais une réduction conjointe amène un certain nombre de réflexions, ne serait-ce que sur l’ordre dans lequel doivent se réaliser les deux opéra- tions. Les sections suivantes présentent ces réflexions et les solutions pratiques qui en découlent.

IV. MÉTHODES COMBINÉES POUR LA PRISE DE SON MONOCAPTEUR

Cette partie a trait aux techniques développées dans le cas où seuls un microphone et un haut-parleur sont disponibles. Deux situations sont considérées, celle où le filtrage est appliqué aux deux observations (microphone et haut-parleur) et celle où le filtrage est appliqué à l’ob- servation microphonique.

IV.1. Filtrage appliqué aux deux observations

IV.1.1. Filtre optimal

Soit le vecteur y (t) constitué des observations x(t) et

z(t) :

(6)

_

y (t) = [x(t) z(t)] T ,

_

si l’on suppose que l’estimateur sˆ(t) de s(t) est une fonc- tion linéaire de y (t), l’erreur quadratique moyenne, dans

_

le domaine fréquentiel, s’écrit :

(7)

E{S(f) S (f)2 }=E{S(f)W_ T (f)_Y(f)2 }

W_ (f) est le filtre appliqué aux deux observations. Minimiser cette erreur par rapport à W_ (f) conduit à l’esti- mateur [FED 89] :

(8)

S (f)=[Γ 1 (f)⋅Γ y s (f)] Y (f)

ˆ

ˆ

yy

(f) désigne la

matrice de densité spectrale de puissance du vecteur y (t)

indique le transposé conjugué. Γ

yy

_

et Γ s (f) est le vecteur de densité interspectrale de puis-

y

sance entre y (t) et s(t). Après substitution, il vient :

_

(9)

(f)=

ˆ

S

γ xx (f) γ xz (f) γ zx (f) γ zz (f)

1

xs (f)

γ

0

X(f)

Z(f)

.

Après simplification, l’équation Eq. 9 se réduit à [AYA 95] :

(10)

ˆ

S (f)=

X(f) Z(f)

γ

x

z

γ

zz

f

(

)

ss (f)bb (f)

γ

f

(

)

ss (f)

γ

.

La formule (10) traduit l’ordre dans lequel les deux opérations réalisées se succèdent : il s’agit tout d’abord d’une étape d’annulation d’écho réalisant l’identifica- tion du canal (calcul du rapport γ xz (f) / γ zz (f )) suivie d’une étape de réduction de bruit réalisée par un filtre de Wiener. Insistons sur le fait que le filtre optimal s’écrit comme une mise en cascade ordonnée des deux filtres optimaux relatifs à chacune des opérations. Dans le cas d’un annuleur d’écho optimal, l’écho est complè- tement supprimé par le premier filtrage, laissant inchan- gés le signal utile et le bruit. La sortie de l’annuleur d’écho (défini par la suite par l’abréviation AEC) est idéalement s(t) + b(t). La deuxième étape consiste à réduire le bruit par le filtre de Wiener de gain

γ ss (f)/(γ ss (f)bb (f)).

IV.1.2. Structure en cascade dérivée du filtre optimal

L’une des premières structures apparaissant dans la littérature correspond naturellement à l’implémentation du filtre optimal pour lequel l’AEC précède le filtre de réduction de bruit (Fig. 4) [AYA 95, GUE 96, DRE 97]. Cette structure a été évaluée en utilisant différents filtres. Par exemple, l’identification du canal a été réali- sée en considérant l’algorithme NLMS (normalized LMS) et l’algorithme SDAPA2 (2 nd order soft decision APA) dans [SCA 96] ainsi que l’algorithme GMDF dans [FAU 95]. Quant à l’algorithme de réduction de bruit, il est souvent dérivé de l’estimateur proposé dans [EPH 84], [AKB 96]. La mise en œuvre de l’AEC (longueur du filtre, désa- justement) conduit à la présence d’un écho résiduel à sa sortie. L’estimateur donné à l’équation Eq. 10 ne peut donc être obtenu. Aussi d’autres structures ont-elles été étudiées.

C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

543

ET D ’ ÉCHO POUR LES SYSTÈMES MAINS - LIBRES 5 4 3 F IG .
ET D ’ ÉCHO POUR LES SYSTÈMES MAINS - LIBRES 5 4 3 F IG .

FIG. 4. — Structure en cascade dérivée du filtre optimal. Cascaded structure derived from optimal filtering.

FIG. 6. — Structure en cascade avec prétraitement. Cascaded structure with preprocessing.

IV.1.3. Structure « duale » du filtre optimal

Il apparaît dans la structure présentée figure 4 que le système d’annulation d’écho est perturbé par la présence continuelle du bruit et celle intermittente du signal utile. Aussi, afin de minimiser l’influence du bruit sur l’AEC, a- t-il été proposé de placer un réducteur de bruit, noté G, en amont de ce système [FAU 95, GUE 96] (Fig. 5). Si l’opération de réduction de bruit permet d’améliorer le rapport signal à bruit, elle peut introduire des distorsions non linéaires sur l’écho ce qui perturbe l’opération d’identification. Une recopie du filtre G sur la branche d’identification a pour objectif de réduire cette perturba- tion potentielle [BEN 96]. Les algorithmes utilisés ici sont ceux présentés dans la section précédente.

ici sont ceux présentés dans la section précédente. F IG . 5. — Structure « duale

FIG. 5. — Structure « duale » du filtre optimal. “Dual” structure of optimal filtering.

IV.1.4. Structure incluant un prétraitement

La structure présentée en IV.1.3 permet de réduire l’in- fluence du bruit sur l’AEC. Si l’on s’en réfère à [FAU 95], malgré la distorsion apportée par le filtre G, une étude expérimentale a montré qu’il était préférable de suivre

cette procédure pour obtenir une estimée plus précise de l’écho. Ainsi, dans la structure schématisée figure 6, l’in- fluence du bruit est initialement amoindrie par l’introduc- tion d’un filtre de prétraitement, dénommé G 1 . L’écho estimé, ê(t), est alors soustrait de l’observation x(t) pour donner la grandeur v(t) = s(t) + b(t) + e(t) ê(t). Un second filtre de réduction de bruit, G 2 , est ensuite appliqué au signal v(t) pour donner l’estimée finale. Il s’agit en fait d’une structure effectuant une annulation d’écho suivie d’une réduction de bruit comme en IV.1.2. mais incluant un prétraitement de réduction de bruit.

IV.1.5. Structure dite « parallèle »

Cette structure reprend l’ordonnancement imposé par le filtre optimal. La dénomination « parallèle » donnée dans [AYA 95] s’explique par le fait que, pour déterminer le filtre réducteur de bruit, l’analyse se fait à partir de l’observation microphonique et non du signal issu de l’AEC (Fig. 7). Les filtres d’annulation d’écho et de réduction de bruit sont ainsi estimés à partir de la voie

réduction de bruit sont ainsi estimés à partir de la voie F IG . 7. —

FIG. 7. — Structure parallèle. Parallel structure.

544 C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

microphonique. Cette structure a été proposée afin de réduire les distorsions introduites sur le signal utile par le réducteur de bruit lorsqu’il est calculé à partir de la sortie de l’AEC. En termes de performances, la structure dérivée du filtre optimal (§IV.1.2) conduit à une bonne annulation d’écho en mode SP tandis que la structure parallèle améliore le gain sur le rapport signal à perturba- tion en mode DP [LEB 96a].

IV.1.6. Amélioration de l’adaptation de l’AEC

Le bruit présent à la sortie de l’annuleur d’écho per- turbe l’adaptation de ce dernier. Dans [CAP 96], il est pro- posé d’effectuer une réduction de bruit symbolisée par G 1 à la sortie de l’AEC pour réduire l’influence du bruit sur l’adaptation de l’annuleur d’écho (Fig. 8). Un second filtre noté G 2 permet d’obtenir une structure comparable à la structure dérivée du filtre optimal. Pour l’annulation d’écho, l’algorithme MDFO (multi-delay frequency domain algorithm with overlap) est utilisé et traite les blocs d’échantillons d’entrée avec un recouvrement supérieur à la moitié de la taille de la FFT (fast Fourier transform) afin d’améliorer les performances et de réduire le délai. L’algorithme NSS (non-linear spectral subtraction) est utilisé pour réduire le bruit [LOC 92].

subtraction) est utilisé pour réduire le bruit [ LOC 92]. F IG . 8. — Réduction

FIG. 8. — Réduction de bruit pour l’adaptation de l’AEC. Noise reduction for AEC adaptation.

IV.2. Filtrage appliqué à l’observation microphonique

Précédemment, le filtrage optimal était appliqué aux deux observations, microphone et haut-parleur. Les solu- tions présentées maintenant conduisent à l’estimation d’un filtre qui, appliqué au seul signal microphonique, réduit de manière globale l’ensemble des composantes constituant la perturbation. L’information provenant du haut-parleur reste utile pour calculer le filtrage.

IV.2.1. Filtre optimal

L’erreur quadratique moyenne dans le domaine fré- quentiel s’écrit

(11)

E{ S(f) S (f) 2 }=E{ S(f)W(f)X(f) 2 }

ˆ

W(f) est le filtre appliqué à l’observation micropho- nique. Minimiser cette erreur par rapport à W(f) conduit à :

(12)

ˆ

S (f)=[γ 1 (f)⋅γ xs (f)] * X(f)

xx

où * représente l’opération de conjugaison. Le filtre W(f) peut s’écrire

(13)

γ

ss

( )

f

avec RSP(f) = .

γ

p

p

( )

f

γ

sx

f

(

)

W(f) = ,

γ

x

x

f

(

)

RS P f)

(

= 1+ R S P (f)

Différentes expressions du filtre peuvent être données qui font apparaître les densités spectrales de différents signaux conduisant à l’écriture de W(f) sous la forme d’un seul filtre ou de plusieurs filtres en cascade.

IV.2.2. Mises en œuvre du filtre optimal

Les expressions suivantes ont été proposées dans [BEA 98a] :

1

1 + [RSE(f)] 1 + [RSB(f)] 1

1

1 + [RSB(f)] 1 [1 + REB(f)]

f

(14)

W(f) =

(15)

W(f) =

γ

ss

f

(

)

,

.

γ

ss

(

)

γ

ee

f

(

)

RSE(f) = , RSB(f) = , REB(f) = .

γ

e

e

f

(

)

γ

b

b

f

(

)

γ

b

b

f

(

)

Par opposition, d’autres travaux [AYA 97 b] réalisent W(f) par la mise en cascade de plusieurs filtres, l’un rela- tif à la réduction de bruit, l’autre à la réduction de l’écho. Ainsi, le filtre W(f) peut se mettre sous la forme :

(16)

RD E( f) W(f) = 1+ RD E (f)

RS B f)

(

1+ R S B (f) ,

qui peut encore s’écrire :

(17)

RS B f)

(

W(f) = [1 MSC xz (f)]

1+ R S B (f)

γ (s+b)(s+b) (f)

ee (f)

γ

γ xz (f) 2

γ

RDE(f) =

xx (f)γ zz (f)

désigne le carré du module de la fonction de cohérence entre les voies d’émission et de réception. Le calcul de la fonction de transfert du filtre se ramène alors au problème de l’estimation des différents rapports entre densités spectrales des différents signaux. Ces estimateurs conduisent en pratique à des comporte- ments différents du filtre W(f) en raison des propriétés des estimateurs des paramètres RSE(f), RSB(f), REB(f), RDE(f) et MSC xz (f). En [BEA 98a, AYA 97b], il est proposé d’estimer la densité spectrale de puissance du signal utile en utilisant une approche à « décisions dirigées », initialement intro-

et MSC xz (f) =

C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

545

duite dans [EPH 84]. La densité spectrale de puissance du signal d’écho est estimée suivant :

(18)

γ

x

z

(

)

f 2

γ ee (f)= .

γ

z

z

f

(

)

Cette technique de filtrage de l’observation micro- phonique ouvre de très vastes perspectives. En effet, l’estimation classique du signal d’écho par identifica- tion adaptative du canal entre le haut-parleur et le microphone fournit une information trop riche par rap- port à son utilisation finale dans la mise en œuvre du traitement global. En effet, ce dernier ne nécessite, dans ce cas particulier, qu’une estimation de la densité spec- trale du signal perturbateur. De telles perspectives sont intéressantes car elles conduisent à terme à supprimer le dispositif d’annulation adaptative de l’écho, inhérent aux solutions classiques présentées dans la section III.2, et permettent d’envisa- ger le développement de futurs systèmes à moindres coûts. Cet aspect semble particulièrement important dans le contexte des radiocommunications avec les mobiles GSM (global system for mobile) où les contraintes de coût jouent un rôle primordial dans le développement des futurs terminaux mains-libres et des nouveaux services mobiles.

IV.3. Annulation d’écho et post-filtrage

Si l’on se réfère au filtre optimal appliqué aux deux observations (section IV.1), nous avons vu que celui-ci considérait le cas idéal où l’écho est complètement sup- primé en sortie du premier étage d’AEC. En pratique, un écho résiduel subsiste, et il est nécessaire de modifier le second étage (initialement un filtre de réduction de bruit) afin de réduire à la fois l’influence du bruit et celle de l’écho résiduel. Plusieurs auteurs ont proposé d’utiliser, pour ce second étage, les filtres décrits à la section IV.2. On peut distinguer deux classes suivant que le filtrage du second étage est implémenté en boucle fermée ou en boucle ouverte.

IV.3.1. Estimation du post-filtre en boucle fermée

Dans l’approche développée en [MAR 95b], le second étage est implémenté suivant une structure en boucle fermée. Tout d’abord, un nouveau signal w(t) (Fig. 9) est créé par pondération du signal microphonique et de la sortie y(t) de l’AEC :

(19)

w(t) = a(t)x(t) + (1 a(t))y(t)

a(t) est un coefficient adaptatif dans la gamme [0,1]. Ce signal sert de référence à un filtrage adaptatif de type NLMS (normalized LMS) dont la voie principale est la sor- tie de l’AEC retardée de D échantillons pour obtenir des

de l’ AEC retardée de D échantillons pour obtenir des F IG . 9. — Annulation

FIG. 9. — Annulation d’écho et post-filtrage en boucle fermée. AEC followed by a closed-loop post-filter.

composantes de bruit décorrélées. Ce filtre G, implanté dans le domaine temporel, est recopié dans un second filtre qui est appliqué à la sortie de l’AEC pour obtenir le signal estimé. L’intérêt de cette solution repose sur la faible dimension du second étage. Une analyse dans le domaine fréquentiel a été proposée dans [TUR 98] où il est montré que le gain du post-filtre optimal s’écrit :

RDE(f) + β[β + a (1 −β)] G(f) = RDE(f) + [β+ a (1 − β)] 2

(20)

β représente l’atténuation scalaire du signal d’écho telle que :

(21)

et RDE(f) est le rapport défini en IV.2.2. Il est alors possible de connaître l’atténuation appor- tée par le filtre en fonction du rapport RDE(f) et ce, pour différentes valeurs du facteur de mélange a(t) et de l’atté- nuation β. Le post-filtre apporte une atténuation maxi- male pour a(t) = 1 et pour la situation d’écho seul. Dans ce cas, pour RDE(f) << β, l’atténuation apportée par le post-filtre est égale à celle obtenue par l’annuleur. Pour RDE(f) >> 1, ce qui correspond à des séquences de parole locale seule, le gain du filtre est proche de 1, ce qui signi- fie que le post-filtrage ne modifie pas le signal utile. En mode DP, le choix d’une valeur intermédiaire pour le facteur de mélange, par exemple a(t) = 0,3, permet de réduire l’atténuation du post-filtre et ainsi de limiter la distorsion apportée au signal de parole local. Cette étude asymptotique montre l’importance du choix du facteur d’adaptation en fonction des conditions. Une règle d’adaptation est ainsi proposée en [MAR 95b] où le fac- teur de mélange dépend d’un autre facteur mesurant l’ac- tivité vocale du locuteur proche et du locuteur distant. En pratique, la vitesse de convergence et l’erreur d’identifi- cation du post-filtre sont déterminées par son pas d’adap- tation. La non-stationnarité et la corrélation des signaux de parole ne permettent pas de retrouver l’atténuation maximale. Les simulations effectuées dans [MAR 95b]

e(t) ê(t) = β e(t)

546 C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

démontrent néanmoins l’intérêt de ce système combiné qui permet de réduire d’un tiers le nombre de coefficients de l’AEC pour une même atténuation d’écho. (Fig. 9)

IV.3.2. Estimation du post-filtre en boucle ouverte

Dans l’approche développée par [TUR 98, GUS 98b], le second étage opère en boucle ouverte sur la sortie de l’annuleur d’écho, il est constitué du filtre G b,δe implanté dans le domaine fréquentiel conformément à l’équation Eq. 13 où la perturbation est ici composée de la somme du bruit et de l’écho résiduel. Son but est de pallier les mauvaises performances de l’AEC et de réduire le bruit (Fig. 10).

performances de l’ AEC et de réduire le bruit (Fig. 10). F IG . 10. —

FIG. 10. — Annulation d’écho et post-filtre en boucle ouverte. Echo cancelling followed by an open-loop post-filter.

Les performances d’un tel dispositif dépendent du rapport de l’énergie de l’écho résiduel à celle du bruit ambiant et donc de l’application envisagée. Si l’on consi- dère le cas où il subsiste en sortie de l’AEC un écho rési- duel très énergétique par rapport au bruit ambiant ( δe(t) >> b(t) ) [TUR 98] (ce qui est typiquement le cas de la téléconférence), le filtre G b,δe peut être considéré comme une généralisation dans le domaine fréquentiel du principe de la variation de gain exposé en section III.3 [TUR 97a]. Pour une longueur L de la réponse impulsion- nelle de couplage r opt (t), l’association AEC/post-filtre considère la décomposition suivante :

(22)

r opt (t)=r dir (t)+r res (t)

r dir (t) désigne les N premiers coefficients de r opt (t) (N<L), et r res (t) les (L N) derniers. Le premier étage (AEC) a pour but d’identifier r dir (t) tandis que le post-filtre G b,δe réduit l’écho résiduel e res (t)=z(t) * r res (t). Lorsque N << L, cette solution permet de diminuer la complexité en proposant un filtre d’AEC court par rapport à l’utilisa- tion d’un filtre unique de taille L cherchant à identifier r opt (t). Dans le contexte de la téléconférence [BEA 98a], cette solution permet de réduire de 3/4 la longueur de l’AEC. Lorsque le bruit ambiant n’est plus négligeable (ce qui est notamment le cas de la téléphonie mobile), le

filtre G b,δe de la figure 10 réduit à la fois bruit et écho résiduel [GUS 98a, BEA 98b, GUS 99]. Cette double réduc- tion est réalisée à partir de l’analyse exposée en sec- tion IV.2. Une étude comparative de plusieurs techniques est présentée dans [BEA 98b] et montre que les perfor- mances de l’association AEC/post-filtre sont meilleures en comparaison de celles données par les filtres issus des relations Eq. 10 et Eq. 13.

IV.4. Choix d’une solution particulière

Il est relativement difficile de trouver dans la litté- rature des analyses comparatives des performances des différentes solutions présentées. Néanmoins, il semble logique de sélectionner un algorithme particu- lier en fonction de ses performances intrinsèques et des contraintes en temps réel de l’application envisa- gée (complexité algorithmique, retard introduit par le traitement). Mesurer et quantifier la qualité vocale du signal dis- ponible en sortie de traitement demeure relativement difficile. L’impression subjective globale résulte d’un compromis entre réduction du signal perturbateur et distorsions introduites sur le signal de parole. Nous donnons tout d’abord quelques résultats subjectifs rela- tifs aux méthodes que nous avons nous-mêmes déve- loppées. Nous avons seulement conduit un test de type CCR (comparison category rating). Un test de type ACR (absolute category rating) ne nous aurait pas permis de comparer les notes obtenues à celles trouvées dans la littérature, les bases de données étant différentes. Nos tests de type CCR sont effectués sur une base de données couvrant une large gamme de situations réelles, incluant des modes de simple parole et de double parole de même que des situations faiblement et fortement bruitées [BEA 99]. Le test de type CCR consiste à faire écouter une série de paires de signaux sonores A-B, et pour lequel l’échelle de dégradation comporte 7 valeurs discrètes, allant de 3 à –3 (3 correspond à une qualité du deuxième signal bien meilleure par rapport au pre- mier tandis qu’une valeur de –3 correspond à une qua- lité très inférieure). La structure d’annulation d’écho et post-filtre (§IV.3.2), pour laquelle de simples tests informels indiquent de bonnes performances, a été prise comme signal de référence. Les notes moyennes rela- tives par rapport à cette structure sont les suivantes :

structure cascade dérivée du filtre optimal (§IV.1.2) :

–0,33 ; structure duale du filtre optimal (§IV.1.3) :

–0,25 ; structure en cascade avec prétraitement (§IV.1.4) : –0,15 ; filtrage appliqué à l’observation microphonique (§IV.2.2) : –0,2. Si l’on se réfère à ces résultats et à ceux présentés dans [BEA 99] (mesures objectives et tests subjectifs), nous pouvons constater que, sur l’ensemble des condi- tions envisagées, la structure associant annulation d’écho

C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

547

TABLEAU I. — Complexité relative des différentes structures dans le cas monovoie (Mul : opérateur de multiplication réelle, Add : opérateur d’addition réelle) (Cmplx 0 : complexité de la solution du paragraphe IV.1.2 prise comme référence).

Relative complexity of the different one-channel techniques. Complexité algorithmique Structure cascade dérivée du
Relative complexity of the different one-channel techniques.
Complexité algorithmique
Structure cascade dérivée du filtre optimal (§IV.1.2)
Cmplx 0 = Cmplx[AEC] + Cmplx[G] + Cmplx[2 FFT, 1 IFFT]
Structure « duale » du filtre optimal (§IV.1.3)
Cmplx 0 + (2 + N FFT ) Mul
Structure en cascade avec prétraitement (§IV.1.4)
Cmplx 0 + (2 + N FFT ) Mul + (2 + N FFT ) Add + Cmplx[G]
Structure Parallèle (§IV.1.5)
Cmplx 0
Réduction de bruit pour adaptation AEC (§IV.1.6)
Cmplx 0 + (2 + N FFT ) Mul + Cmplx[G]
Filtrage appliqué à l’observation microphonique (§IV.2)
Cmplx[W] + Cmplx[2 FFT, 1 IFFT]
AEC et post-filtrage en boucle ouverte (§IV.3.2)
Cmplx 0 – Cmplx[G] + Cmplx[G b,δe ]

et post-filtre (§IV.3.2) permet d’obtenir une meilleure qualité vocale que les solutions données en IV.1 et IV.2. La double réduction d’écho (obtenue par l’annuleur d’écho adaptatif mais aussi par le post-filtre) permet d’ob- tenir une bonne atténuation de l’écho même en conditions bruitées ce qui permet, dans ce cas, de pallier les difficul- tés de convergence du filtre adaptatif d’annulation d’écho. Si une préférence pour la solution associant annula- tion d’écho et post-filtre (§IV.3.2) est claire, l’application directe d’un filtre optimal appliqué à l’observation microphonique seule (§IV.2.2) est loin d’être dépourvue d’intérêt. En conditions bruitées, cette solution est tou- jours préférée aux solutions en cascade (§IV.1). Toute- fois, les performances de la solution du paragraphe IV.2.2 sont, dans de nombreuses conditions de bruit et d’écho, équivalentes à celles de l’algorithme donné au §IV.3.2 tant que le rapport de puissance entre écho et bruit reste inférieur à 5 dB. D’autre part, la complexité des différentes solutions doit également être prise en compte. Considérons comme structure de référence la solution en cascade dérivée du filtre optimal (§IV.1.2) pour laquelle annulation d’écho et réduction de bruit sont réalisées dans le domaine fré- quentiel (solution à complexité réduite référencée par Cmplx 0 dans la table I). Par rapport à cette solution de référence, il est immédiat de constater que les structures duales (§IV.1.3), avec prétraitement (§IV.1.4), ou avec réduction de bruit pour l’adaptation de l’AEC (§IV.1.6) possèdent une complexité plus importante liée à l’inser- tion d’un second filtre de réduction de bruit. Comparer dans l’absolu les différentes solutions algorithmiques présentées dans cette section demeure relativement difficile compte tenu des choix spécifiques d’implémentation qui peuvent être effectués. À titre d’exemple, afin d’analyser l’intérêt des solutions réali- sant un filtrage direct de l’observation microphonique, comparons la complexité algorithmique des deux solu- tions suivantes : la structure en cascade dérivée du filtre optimal (§IV.1.2) et le filtrage appliqué à l’observation microphonique (§IV.2.2). En ce qui concerne la première

solution, nous considérons que l’annulation d’écho acoustique est réalisée à partir de l’algorithme GMDFα comportant L = 512 coefficients. Cet algorithme néces- site environ α[(8K + 12)b + 2K 13] opérations lorsque la procédure d’adaptation est effectuée sous contrainte [MOU 95]. La complexité de calcul des FFT à N FFT = 256 points est évaluée à partir de l’algorithme réel split-radix. Les paramètres de l’algorithme sont les suivants : facteur de recouvrement α égal à 4, taille de bloc N =2 b = 128 échantillons, décomposition de la réponse impulsionnelle en K blocs : K = L / N = 4. D’autre part, le filtre de réduction de bruit correspond à un filtre de Wiener implémenté en boucle ouverte dans le domaine fréquen- tiel. Nous considérons que le recouvrement entre trames successives est de 50 % et que la taille de la FFT (et de la FFT inverse) est égale au double de la longueur du bloc N de l’algorithme GMDFα. Pour la seconde solution, nous considérons le filtre optimal donné par la relation Eq. 17 pour lequel la mise œuvre nécessite également un recou- vrement de 50 % entre trames successives. Dans le domaine fréquentiel, nous supposons que les estimations des densités spectrales de puissance sont effectuées sur (1 + N FFT /2) points en raison de la symétrie hermitienne des signaux réels. Afin de produire N FFT /2 échantillons en sortie de traitement, cet algorithme nécessite approxi- mativement 21[1 + N FFT /2] + 3Cmplx(FFT) opérations réelles. Les complexités de la structure en cascade (§IV.1.2) et celle de l’annulation d’écho suivie d’un post- filtrage (§IV.3.2) sont pratiquement équivalentes et nécessitent environ 18 fois plus d’opérations que la structure décrite en section IV.2.2.

V. MÉTHODES COMBINÉES POUR LA PRISE DE SON BICAPTEURS

Nous traitons maintenant le cas où deux microphones et un haut-parleur sont disponibles. On suppose que le

548 C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

signal à estimer est le signal présent sur la première voie, c’est-à-dire s 1 (t). Comme précédemment pour la prise de son monocapteur, deux situations sont envisagées, celle où le filtrage est appliqué aux trois observations, et celle où il est appliqué aux deux observations microphoniques.

Comme dans le cas d’un seul microphone, on dis- tingue deux opérations, l’annulation d’écho suivie d’une réduction de bruit. La structure donnée dans [LEB 96b, AYA 97a] correspond à l’implémentation de ce filtre opti- mal où l’annulation d’écho est réalisée par l’algorithme GMDF tandis que la réduction de bruit est la technique PSI (preprocessing + signal identification). Celle-ci com- prend trois étapes, la première effectue sur chaque voie un filtrage de Wiener prenant en compte l’incertitude sur la présence du signal appliqué sur chaque voie. La seconde étape consiste à identifier le signal présent sur la voie 1 à partir de la voie 2 pour donner une autre estimée de s 1 (t). Finalement, dans une troisième étape, on effec- tue la demi-somme des deux estimées de s 1 (t) et le signal temporel est obtenu par transformée de Fourier inverse et recouvrement [AKB 95]. Comme dans le cas monovoie, le système d’annula- tion d’écho est perturbé par la présence du bruit. En reprenant la démarche développée pour le cas mono- voie, dans [LEB 96b] un réducteur de bruit est placé sur chacune des observations en amont de la structure pré- cédente (Fig. 11). Malgré la distorsion apportée par le filtre réducteur de bruit, une étude expérimentale

montre que l’écho est mieux estimé, l’influence du bruit étant réduite par l’introduction du prétraitement.

Chaque écho estimé est soustrait de l’observation cor-

respondante. Le réducteur de bruit vectoriel est appli-

qué aux deux nouvelles grandeurs obtenues. Dans le

prétraitement effectuant la réduction de bruit sur chaque observation, un compromis doit être trouvé entre distor-

sion et réduction de bruit ; un filtrage de Wiener avec

. prise en compte de l’incertitude sur la présence du signal est calculé, et la réduction de bruit est rendue

V.1. Filtrage appliqué aux trois observations

Soit le vecteur y x 2 (t) et z(t) :

y

ˆ

_ (t) constitué des observations x 1 (t),

(23)

L’erreur quadratique moyenne dans le domaine fré- quentiel s’écrit :

_ (t)=[x 1 (t) x 2 (t) z(t)] T .

E{ S 1 (f)S 1 (f) 2 }=E{ S 1 (f)W_ T (f)Y (f) 2 }.

(24)

En minimisant cette erreur par rapport au filtre W_ (f), on obtient l’estimateur :

(25)

S 1 (f)=[Γ 1 (f) Γ s 1 (f)] _Y(f)].

ˆ

yy

y

_

Il vient alors [LEB 96b]

γ x 1 x 1 (f) γ x 2 x 1 (f)

zx 1 (f)

γ

γ x 1 x 2 (f) γ x 2 x 2 (f)

γ zx 2 (f)

γ x 1 z (f) γ x 2 z (f)

γ zz (f)

1

γ

γ

x 1 s 1 (f)

x 2 s 1 (f)

ˆ

(26) S 1 (f)=

0

X

1 (f)

2 (f)

X

Z(f)

Après simplification, et en rappelant que les bruits sont supposés décorrélés, cette équation devient :

 

ˆ

(27)

S 1 (f)=

X

γ

x

1

z

f

(

)

1 (f) Z(f)

γ

z

z

f

(

)

f)

s 1 s 1 (

γ

γ 2 b 2 (f)

b

f

( )

+

γ

x

2

z

f

(

)

z

z

f

(

)

X 2 (f) Z(f)

γ

s 1 s 2 (

γ

f) γ 1 b 1 (f)

b

f

( )

(28) (f) = γ s 1 s 1 (f) γ b 2 b 2 (f)s 2 s 2 (f) γ b 1 b 1 (f)b 1 b 1 (f) γ b 2 b 2 (f).

L’équation Eq. 27 correspond à une annulation d’écho sur chaque voie suivie d’une réduction de bruit effectuée par un filtre de Wiener vectoriel. En effet, la sortie de chaque annuleur d’écho idéal ne contient que les signaux issus du locuteur proche et les bruits ambiants, les échos étant complètement supprimés. Le système réducteur de bruit a idéalement pour entrées :

s 1 (t) +b 1 (t) et s 2 (t) +b 2 (t) et estime s 1 (t) à partir de ces deux entrées. Le filtre de Wiener vectoriel pour la réduc- tion de bruit, H_ (f), est donné par :

(29)

H_ (f) =

s 1 s 1 (

γ

f) γ 2 b 2 (f)

b

f)

s 1 s 2 (

γ

γ 1 b 1 (f)

b

,

f

( )

f

( )

.

1 b 1 ( f ) b , ∆ f ( ) ∆ f ( )

FIG. 11. — Traitement bi-voies avec prétraitement. Two-channel processing with preprocessing.

C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

plus ou moins sévère en élevant le filtrage à une puis- sance donnée.

549

de l’annuleur d’écho correspondant sont mélangées comme dans l’équation Eq. 19 pour fournir deux signaux g 1 (t) et g 2 (t). Chacun de ces signaux sert de référence à un filtrage adaptatif de type NLMS dont la voie principale est la sortie de l’annuleur d’écho de l’autre voie retardée de D échantillons. On obtient ainsi deux filtres G 1 et G 2 . Une recopie de ces filtres permet d’appliquer à la demi-somme des sorties d’annuleur d’écho un filtre G égal à (G 1 +G 2 )/2. La principale différence par rapport à la struc- ture donnée en monovoie est que les filtres G 1 et G 2 utili- sent une voie de référence et une voie principale prises sur deux voies différentes. Les paroles locales sont fortement corrélées et sont transmises par ces filtres sans modifica- tion. Une compensation de délai est nécessaire si le locu- teur local n’est pas dans une position symétrique par rapport aux microphones. Cette compensation (non mon- trée sur la figure 12), rendue adaptative pour tenir compte des mouvements du locuteur, est réalisée au moyen d’un estimateur d’intercorrélation adaptatif.

V.2. Filtrage appliqué aux deux observations microphoniques

En considérant le cas où les observations à filtrer sont les 2 voies microphoniques, [AYA 97a, AYA 97b], on écrit :

(30)

L’estimateur sˆ 1 (t) de s 1 (t), minimisant l’erreur qua- dratique dans le domaine fréquentiel, est donné par

_ (t)=[x 1 (t) x 2 (t)] T .

y

(31)

ˆ

E{ S 1 (f)S 1 (f) 2 }=E{ S 1 (f)W_ T (f)Y (f) 2 }.

L’estimateur optimal reste donné par Eq. 5, soit :

(32)

ˆ

S

1 (f)=

γ x 1 x 1 (f) γ x 2 x 1 (f)

γ x 1 x 2 (f) γ x 2 x 2 (f)

1

γ

γ

x 1 s (f)

x 2 s (f)

X

X

1 (f)

2 (f)

ou encore :

(33)

ˆ

S 1 (f)=

 

 

γ

x

x

f

(

)

X 1 (f) X 2 (f)

γ

x

x

2

2

f

(

)

1

2

γ

s

1

s

1

f

(

)

γ

x

1

x

1

f

(

)

γ

x

x

f

(

)

MSC x 1 x 2 (f) X 1 (f) X 2 (f)

γ

x

x

2

2

f

(

)

1

2

γ

s

1

x

2

f

(

)

γ

x x

1

2

f

(

)

1

1 MS C x 1 x 2 (f)

MSC x 1 x 2 (f) est le module carré de la cohérence entre x 1 (t) et x 2 (t). Le principe de cette approche est identique à celui donné dans le cas monovoie en IV.2.2. La complexité est d’autant plus réduite que l’on se trouve en bivoies. En termes d’appréciation, il est plus difficile de don- ner des résultats objectifs sur la qualité de la parole puis- que le signal à estimer est s 1 (t) et que toute influence de s 2 (t) sur la sortie finale n’est pas obligatoirement préjudi- ciable à l’écoute. Des tests subjectifs montrent l’intérêt de l’approche du filtre appliqué aux observations micropho- niques qui donne des résultats comparables à celle où le filtre est appliqué aux trois observations [AYA 97b], et ce pour une complexité réduite. Nous retrouvons ainsi les mêmes conclusions que pour la prise de son monocapteur.

V.3. Annulation d’écho et post-filtrage

Le concept donné en IV.3.1 est repris dans [MAR 95a, MAR 95b, MAR 95c] pour l’appliquer au cas bi-voies. Une annulation d’écho est effectuée sur chacune des voies (Fig. 12). Chaque observation microphonique et la sortie

(Fig. 12). Chaque observation microphonique et la sortie F IG . 12. — Annulation d’écho et

FIG. 12. — Annulation d’écho et post-filtrage en bi-voies. Two-channel echo canceller and post-filter.

VI. INTRODUCTION DE PROPRIÉTÉS PSYCHOACOUSTIQUES

La connaissance du fonctionnement de l’oreille et des relations entre les sensations auditives et les stimuli acous- tiques constituent l’une des clés du problème de la prise du son et de sa restitution. En effet, dans tout système où le signal de parole représente le message essentiel à trans- mettre, l’oreille de l’abonné constitue le récepteur d’infor- mations. Il est judicieux d’en connaître les caractéristiques afin d’optimiser le traitement du signal vocal et générer un message fidèle et agréable à écouter. Ce souci peut se

550 C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

matérialiser par la prise en compte de contraintes liées aux propriétés de l’oreille humaine dans les traitements de réduction de bruit et d’annulation d’écho. Le domaine de la psychoacoustique fait intervenir la notion d’effet de masque, c’est-à-dire le fait qu’un son peut rendre un autre son partiellement ou complètement inaudible. Dans le domaine fréquentiel, ce concept cor- respond à la notion de masquage simultané [ZWI 67]. Lorsque le signal utile masque la (ou les) perturbation(s), le traitement de réduction de bruit et/ou d’annulation d’écho devient inutile. Ne pas effectuer le traitement per- met de limiter les dégradations apportées au signal utile. L’exploitation de cette propriété constitue l’essentiel de l’apport de la psychoacoustique dans les traitements pré- sentés précédemment. Une notion importante concerne la courbe de mas- quage du signal utile, Masc(f), qui permet de déterminer le niveau à partir duquel les composantes fréquentielles du signal perturbateur peuvent être considérées comme audibles (composantes non masquées) ou inaudibles (composantes masquées). En supposant connue dans un premier temps la courbe de masquage, Masc(f), le prin- cipe général du filtrage sous contraintes psychoacous- tiques peut alors s’exprimer comme suit :

(34)

S 1 (f)=

ˆ

X(f)

si γ pp (f) Masc(f)

W(f)X(f)

sinon

.

Cette dernière relation exprime simplement le fait qu’il n’est pas nécessaire d’appliquer le filtre de réduc- tion des perturbations W(f) lorsque la densité spectrale de puissance du signal perturbateur γ pp (f) est inférieure au seuil de masquage Masc(f). La pertinence d’une telle procédure est liée à la vali- dité du modèle utilisé pour estimer le seuil de masquage. Les différentes méthodes proposées dans la littérature pour calculer celui-ci ont principalement pour applica- tions le codage de parole et la réduction de bruit [ISO 92, AKB 95, TSO 93]. Par rapport à ces travaux, la réduction de bruit et d’écho fait intervenir la propriété originale de masquage d’un signal de parole (l’écho acoustique) par un autre signal de parole (la parole locale). Le calcul de Masc(f) doit donc être modifié par rapport aux techniques classiques qui considèrent uniquement le masquage du bruit par un signal de parole [JOH 88, ISO 92]. Une solu- tion proposée dans [TUR 97b, TUR 97c] consiste à utiliser une technique dite « hybride » qui permet d’optimiser le calcul du seuil de masquage, notamment dans les basses fréquences où les distorsions se révèlent les plus audibles.

VII. CONCLUSION

Le bruit et l’écho constituent des phénomènes inhé- rents au développement de terminaux mains-libres. Cet article présente une synthèse des activités de recherche menées sur le problème de la réduction conjointe de ces deux signaux perturbateurs pour une prise de son de type

monocapteur ou bicapteurs. Les solutions algorithmiques présentées se répartissent en deux familles principales suivant que le filtre optimal est évalué à partir des signaux microphoniques seuls, ou bien à partir de l’en- semble des signaux d’observation (i.e. voie haut-parleur comprise). La première famille d’algorithmes offre l’avantage de proposer des solutions dont la complexité arithmétique est fortement réduite, mais au prix de dis- torsions introduites sur la parole à transmettre. Privilégier l’une ou l’autre de ces approches demeure difficile d’autant plus qu’elles ne sont que très rarement comparées dans la littérature. En réalité, un tel choix doit émaner d’un compromis complexe entre les contraintes liées à l’environnement acoustique du terminal, celles liées au coût et celles relevant de la qualité vocale. Pour des applications où la qualité vocale est à privilégier, il est préférable de s’orienter vers des solutions où le filtre est appliqué à l’ensemble des signaux d’observation. Par contre, lorsque les contraintes de coût prévalent, les tech- niques à base du filtrage des voies microphoniques seules sont plus appropriées. Même si les prévisions actuelles conduisent à miser en faveur de la transmission de données, il ne fait aucun doute que le message vocal continuera à jouer à l’avenir un rôle prédominant dans les usages de notre société. À ce titre, l’amélioration de la qualité vocale demeure une

préoccupation majeure, d’autant plus qu’elle constitue un outil de différentiation dans un contexte concurrentiel tel que celui des télécommunications. Afin de maîtriser cette qualité vocale, plusieurs travaux se sont récemment orientés vers la recherche d’une solution optimisée à une problématique plus large. Dans le domaine des termi- naux mobiles pour les réseaux cellulaires, ceci conduit par exemple à optimiser globalement traitements de réduction de bruit et opérations de codage de source [MAR 99, MAL 99], soit donc à ne plus considérer ces deux problèmes comme indépendants. Améliorer la qualité de la parole sous-entend la possi- bilité de mesurer cette qualité. Dans ce domaine, les mesures objectives et les méthodologies d’évaluation res- tent peu nombreuses et souvent peu adaptées à l’évalua- tion des traitements de la parole. Ainsi, la gêne engendrée par le bruit et l’écho est réelle, les techniques de réduction de ces perturbations existent mais il est difficile de préciser la correspondance entre perception et filtrage. Afin de pou- voir réellement comparer les techniques entre elles, d’har- moniser les résultats et de juger de la qualité vocale d’un système, une réflexion importante reste à mener.

Manuscrit reçu le 28 juillet 1999 accepté le 27 mars 2000

RÉFÉRENCES

[AKB 95] AKBARI (A.), Rehaussement de la parole en ambiance bruitée, Application aux télécommunications mains- libres, Thèse de l’Université de Rennes 1, (1995).

C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

551

[AKB 96] AKBARI (A.), LE BOUQUIN-JEANNES (R.), FAUCON (G.). Speech enhancement using a Wiener filtering under signal presence uncertainty, Proc. EUSIPCO, Trieste, Italy, (1996), pp. 971-974. [AYA 95] AYAD (B.), FAUCON (G.), Acoustic echo and noise can- celling for hands-free communication systems, Interna-

[GUS 99]

algorithm, Proc. EUSIPCO, Rhodes, Greece, (1998), pp. 961-964. GUSTAFSSON (S.), JAX (P.), KAMPHAUSEN (A.), VARY (P.), A postfilter for echo and noise reduction avoiding the problem of musical tones, Proc. ICASSP, Phoenix, Uni- ted States, (1999), n° 1281.

tional Workshop on Acoustic Echo Control, Roros, Nor-

[HÄN 92]

way, (1995), pp. 48-51. [AYA 97a] AYAD (B.), LE BOUQUIN-JEANNES (R.), FAUCON (G.), Acoustic echo and noise reduction : a novel approach. International Workshop on Acoustic Echo Control, Lon- don, United Kingdom, (1997), pp. 168-171. [AYA 97b] AYAD (B.), Systèmes combinés d’annulation d’écho acoustique et de réduction de bruit pour les terminaux mains-libres, Thèse de l’Université de Rennes 1, (1997).

HÄNSLER (E.), The hands-free telephone problem : an annotated bibliography update, Signal Processing, (1992), 27, pp. 259-271. HÄNSLER (E.), The hands-free telephone problem : an

[HÄN 94]

annotated bibliography update, Ann. Télécommunic., (1994), 49, n° 7-8, pp. 360-367. [HAY 91] HAYKIN (S.). Adaptive filter theory, Second Edition, Prentice-Hall, Englewood Cliffs, New Jersey, (1991). [ISO 92] ISO, projet de norme internationale ISO 11172-3 MPEG

Areas in Communication, (1988), 6, n° 2, pp. 314-323.

[LEB 96a]

[BEA 98a]

BEAUGEANT (C.), TURBIN (V.), SCALART (P.), GILLOIRE

audio, London, United Kingdom (1992).

[BEA 98b]

(A.), New optimal filtering approaches for hands-free telecommunication terminals, Signal Processing, (1998), 64, pp. 33-47. BEAUGEANT (C.), SCALART (P.), Combined systems for

[JOH 88] JOHNSTON (J.D.), Transform coding of audio signals using perceptual noise criteria, IEEE Journal on Selected

[KUS 89] KUSHNER (W.M.), The effect of subtractive-type speech

[BEA 99]

noise reduction and echo cancellation, Proc. EUSIPCO, (1998), Rhodes, Greece, pp. 957-960. BEAUGEANT (C.), Réduction de bruit et annulation

enhancement, noise reduction algorithms on parameter estimation for improved recognition and coding in high noise environments, Proc. ICASSP, San Diego, United

d’écho pour les systèmes mobiles, Thèse de l’Université de Rennes 1, (1999).

States, (1989), pp. 211-214.

[BEN 96]

BENAMAR (A.), Étude et implémentation de la fonction de contrôle de l’écho acoustique pour la radiotéléphonie mains-libres, Thèse de l’Université de Paris-Sud, Orsay,

LE BOUQUIN-JEANNES (R.), FAUCON (G.), AYAD (B.), How to improve acoustic echo and noise cancelling using a single talk detector, Speech Communication, (1996), 20, pp. 191-202.

(1996).

[LEB 96b]

LE BOUQUIN-JEANNES (R.), FAUCON (G.), AYAD (B.), A

[BER 79]

BEROUTI (M.), SCHWARTZ (R.), MAKHOUL (J.), Enhance-

1109-1121.

two-microphone approach for speech enhancement in

[BOL 79]

ment of speech corrupted by acoustic noise, Proc. ICASSP, (1979), Washington, United States, pp. 208-211. BOLL (S.F), Evaluation of two input speech dereverbera-

hands-free communications, International Conference on Communication Technology, Beijing, China, (1996), pp. 424-427.

tion techniques. IEEE Trans. ASSP, (1979), 27, n° 2,

[LIM 79]

LIM (J.S), OPPENHEIM (A.V.), Enhancement and band-

[CAP 96]

pp. 113-120. CAPMAN (F.), BOUDY (J.), LOCKWOOD (P.), Acoustic

width compression of noisy speech, Proceedings of the IEEE, (1979), 67, pp. 1586-1604.

echo cancellation and noise reduction in the frequency

[LIM 83]

LIM (J.S.), Speech enhancement, Prentice-Hall, Signal

[CLA 81]

domain : a global optimization, Proc. EUSIPCO, Trieste, Italy, (1996), pp. 29-32. CLARK (G.A.), MITRA (S.K.), PARKER (S.R.), Block

Processing series Alan V. Oppenheim, series Editor, Prentice-Hall, Inc., Englewood Cliffs, New Jersey 07632 (1983).

[CRO 83]

implementation of adaptive digital filters, IEEE Trans. ASSP, (1981), 29, n° 3, pp. 744-752. CROCHIÈRE (R.E.), RABINER (L.R.), Multirate digital

[LOC 92] LOCKWOOD (P.), BOUDY (J.), Experiments with a nonli- near spectral subtractor (NSS), hidden Markov models and the projection, for robust speech recognition in cars,

[DRE 97]

signal processing, Prentice Hall (1983). DREISEITEL (P.), PUDER (H.), À combination of noise

Speech Communication, (1992), 11, n° 2-3, pp. 215-228. [MAL 99] MALAH (D.), COX (R.V.), ACCARDI (A.J.), Tracking

[EPH 84]

reduction and improved echo cancellation, International Workshop on Acoustic Echo Control, London, United Kingdom, (1997), pp. 180-183. EPHRAIM (Y.), MALAH (D.), Speech enhancement using a

speech-presence uncertainty to improve speech enhan- cement in non-stationnary noise environments, Proc. ICASSP, Phoenix, United States, (1999), #1761. [MAR 95a] MARTIN (R.), Combined acoustic echo cancellation,

minimum mean square error short-time spectral ampli- tude estimator, IEEE Trans. ASSP, (1984), 32, n° 6, pp.

spectral echo shaping, and noise reduction, Internatio- nal Workshop on Acoustic Echo Control, Roros, Nor- way, (1995), pp. 48-51.

[ERD 81]

ERDREICH (M.), Echo and its control in telecommunica- tion networks, Commutation and transmission, (1981), 3 e année, 4.

[MAR 95b]

MARTIN (R.), ALTENHÖNER (J.), Coupled adaptive filters for acoustic echo control and noise reduction, Proc. ICASSP, Detroit, United States, (1995), pp. 3043-3046.

[FAU 95]

FAUCON (G.), LE BOUQUIN-JEANNES (R.), Joint system for acoustic echo cancellation and noise reduction, Proc. EUROSPEECH, Madrid, Spain, (1995), pp. 1525-1528.

[MAR 95c]

MARTIN (R.) Design and optimization of a two micro- phone speech enhancement system, Proc. Eurospeech, Madrid, Spain, (1995), pp. 2009-2012.

[FED 89]

FEDER (M.), OPPENHEIM (A.V.), WEINSTEIN (E.), Maxi- mum likelihood noise cancellation using the EM algo- rithm, IEEE Trans. ASSP, (1989), 37, n° 2, pp. 204-216.

[MAR 99] MARTIN (R.), COX (R.V.), New speech enhancement techniques for low bit rate speech coding, IEEE Work- shop on Speech Coding, Porvoo, Finland, (1999),

[GIL 88] GILLOIRE (A.), ZURCHER (J.F.), Achieving the control of

[GUS 98a]

 

pp.165-167.

the acoustic echo in audio terminals, Proc. EUSIPCO,

[MOK 92]

MOKBEL (C.), BARBIER (L.), CHOLLET (G.), Adapting a

(1988), pp. 491-494. [GUE 96] GUELOU (Y.), BENAMAR (A.), SCALART (P.), Analysis of two structures for combined acoustic echo cancellation and noise reduction, Proc. ICASSP, Atlanta, United

[MOU 95]

HMM speech recognizer to noisy environments, Work- shop on Speech Processing in Adverse Conditions, Cannes, (1992), pp. 211-214. MOULINES (E.), AIT AMRANE (O.), GRENIER (Y.), The

States, (1996), pp. 637-640.

generalized multidelay adaptive filter : structure and convergence analysis, IEEE Trans. on Signal

[GUS 98b]

GUSTAFSSON (S.), MARTIN (R.), VARY (P.), Combined acoustic echo control and noise reduction for hands-free telephony, Signal Processing, (1998), 64, pp. 21-32. GUSTAFSSON (S.), JAX (P.), Combined residual echo and noise reduction : a novel psychoacoustically motivated

Processing, 43, n° 1, (1995), pp. 14-28. [NAY 94] NAYLOR (P.), ALCAZAR (J.), BOUDY (J.), GRENIER (Y.), Enhancement of hands-free telecommunications, Ann. Télécommunic., (1994), 49, n° 7-8, pp. 373-379.

552 C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES

[OZE 84] OZEKI (K.), UMEDA (T.), An adaptive algorithm using an orthogonal projection to an affine subspace and its pro- perties, Electronics and Communications in Japan, (1984), 67-A, n° 5, pp. 19-25. [PET 92] PÉTILLON (T.), Réduction de la complexité des algo- rithmes des moindres carrés rapides. Applications à l’annulation d’écho acoustique pour les radiomobiles, Thèse de l’Université de Rennes 1 (1992).

[PRA 94]

PRADO (J.), MOULINES (E.), Frequency-domain adaptive

[SCA 96]

filtering with application to acoustic echo cancellation, Ann. Télécommunic. (1994), 49, 7-8, pp. 414-428. SCALART (P.), BENAMAR (A.), A system for speech

[SOO 90]

enhancement in the context of hands-free radiotele- phony with combined noise reduction and acoustic echo cancellation, Speech Communication, (1996), 20, n° 3- 4, pp. 203-214. SOO (J.S.), PANG (K.K.), Multidelay block frequency domain adaptive filter, IEEE Trans. ASSP, (1990), 38, n° 2, pp. 373-376.

[TSO 93]

TSOUKALAS (D.), PARASKEVAS (M.), MOURJOPOULOS (J.),

[TUR 97a]

Speech enhancement using psychoacoustic criteria, Proc. ICASSP, Minneapolis, United States, (1993), pp. 359-362. TURBIN (V.), GILLOIRE (A.), SCALART (P.), Comparison

[TUR 97b]

of three post-filtering algorithms for residual acoustic echo reduction, Proc. ICASSP, Munich, Germany, (1997), pp. 307-310. TURBIN (V.), BEAUGEANT (C.), GILLOIRE (A.), Scalart (P.), Intérêt de la prise en compte de propriétés auditives

en annulation d’écho et débruitage, Gretsi, Grenoble, France, (1997), pp. 1245-1248.

TURBIN (V.), GILLOIRE (A.), SCALART (P.), BEAUGEANT

(C.), Using psychoacoustic criteria in acoustic echo can- cellation algorithms, International Workshop on Acous- tic Echo Control, London, United Kingdom, (1997), pp. 53-56. [TUR 98] TURBIN (V.), Combinaison du filtrage adaptatif et du fil- trage optimal pour réaliser l’annulation de l’écho acous- tique dans un contexte de téléconférence, Thèse de l’Université de Rennes 1, (1998). [VAS 96] VASEGHI (S.V.), Advanced signal processing and digital noise reduction, Wiley Teubner Communications (1996). [VAN 89] VAN COMPERNOLLE (D.), Noise adaptation in a hidden Markov model speech recognition system, Computer Speech and Language, (1989), 3, pp. 151-167. [WAN 82] WANG (D.L.), LIM (J.S.), The unimportance of phase in speech enhancement, IEEE Trans. on ASSP (1982), 30 (4), pp. 679-681

[TUR 97c]

[WID 85]

WIDROW (B.), STEARNS (S.), Adaptive signal processing.

[ZWI 67]

Prentice-Hall (1985). ZWICKER (R.), FELDKELLER (R.), Das Ohr als Narichte- nempfänger ou Psychoacoustique. L’oreille récepteur d’information, Hirzler Verlag, Stuttgart, Allemagne (1967), Trad. française par Christelle Sorin, éditions Masson (1981).