Vous êtes sur la page 1sur 6
SETIT 2009 5 t h International Conference: S ciences of E lectronic, T echnologies of

SETIT 2009

5 th International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 22-26, 2009 – TUNISIA

S ciences of E lectronic, T echnologies of I nformation and T elecommunications March 22-26, 2009

Comparaison des différents Algorithmes de Débruitage du Signal de Parole pour les Aides Auditives Binaurales

Fathi KALLEL * , Dhouha DAOUD * , Amira DERBEL * , Mohamed GHORBEL * et Ahmed BEN HAMIDA *

* Laboratoire d’Electronique et des Technologies de l’Information (LETI), ENIS, Sfax, TUNISIE

kfathi@olfac.univ-lyon1.fr

dhouha8184@yahoo.fr

amiraderbel06@yahoo.com

mohamed_ghorbel2001@yahoo.com

Ahmed.Benhamida@enis.rnu.tn

Résumé: Dans ce papier, différentes techniques de débruitage du signal de parole basées sur les méthodes de la soustraction spectrale, du filtrage adaptatif de Wiener et de la transformée en ondelettes sont présentées. Une étude comparative de ces différents algorithmes en termes du taux d’améliorations du SNR et de conservation de la différence du temps interaural (ITD) est effectuée. En effet, une amélioration du SNR implique une meilleure intelligibilité de la parole, d’autre part, une conservation de l’ITD permet une meilleure audition binaurale et par suite une meilleure localisation spatiale des sources de parole et de bruit. Les résultats trouvés montrent bien que la méthode de débruitage par la transformée en ondelettes est la méthode la plus efficace en terme d’amélioration du SNR et en terme de la conservation de la différence de temps interaurale. Mots clés : Appareillage binaural, filtre de Wiener, soustraction spectrale, transformée en ondelettes.

INTRODUCTION

La surdité ou bien le dysfonctionnement du système auditif est un handicap qui peut être parfois grave pour l’être humain. Trois types de surdité sont ainsi distingués: les surdités de transmission, les surdités de perception et les surdités mixtes rassemblant les deux premières [THO 04]. La surdité de transmission qui touche l’oreille externe ou moyenne est due à une atteinte du conduit auditif, du tympan ou des osselets. Elle apparaît lorsqu’il y a entrave au passage des ondes sonores. Ce type de surdité peut être remédié grâce à un appareillage médical : La prothèse auditive.

D’autre part, on se trouve toujours dans un environnement bruité, et par la suite la perception de la parole diminue considérablement et la localisation spatiale des sources de parole et de bruit devient moins précise. D’où on a besoin d’un traitement spécifique qui améliore la qualité de la perception de la parole en diminuant le niveau de bruit et qui assure une localisation meilleure des sources [FAS 99].

Devant ces contraintes, un traitement spécifique du signal de parole est nécessaire afin d’offrir au malentendant une meilleure qualité de la parole et une

meilleure localisation des sources. Ceci peut être assuré par un appareillage binaural: Aide auditive binaurale.

En effet, plusieurs techniques de débruitage du signal de parole tels que la méthode de la soustraction spectrale, le filtrage adaptatif de Wiener et la transformée en ondelettes sont développées et le choix entre ces techniques de rehaussement dépend des données disponibles et des caractéristiques du signal porteurs de l’information. Ceci nous paraît difficile dans le cas de la parole qui est considérée comme un signal non stationnaire ayant des allures inattendues avec des lentes variations en basses fréquences et des variations brusques en hautes fréquences [MEA 97].

Dans ce papier, on commence par présenter le principe de l’appareillage binaural. Dans le deuxième paragraphe on présente le principe de trois algorithmes de débruitage du signal de parole: La méthode de la soustraction spectrale, la méthode de filtrage de Wiener et la méthode de transformée en ondelettes. Enfin, on présente les résultats de la mise en œuvre et de comparaison de ces différentes en termes de qualité du signal et de conservation de la différence interaurale.

- 1

-

SETIT2009

1. Appareillage binaural

1.1. Synoptique de l’appareillage binaural

Afin de bénéficier d’une audition binaurale, deux aides auditives sont utilisées: l’une au niveau de l’oreille droite et l’autre au niveau de l’oreille gauche. Ces deux aides auditives sont pilotées par deux processeurs de traitement qui sont en communication permanente et qui assurent le traitement du signal de parole provenant des différents microphones intégrés dans les deux aides auditives [VIS 04].

La figure suivante montre le principe de traitement du signal de parole pour une aide auditive binaurale.

du signal de parole pour une aide auditive binaurale. Traitement droit Traitement gauche Figure 1. Synoptique
du signal de parole pour une aide auditive binaurale. Traitement droit Traitement gauche Figure 1. Synoptique
Traitement droit Traitement gauche
Traitement droit
Traitement gauche

Figure 1.

Synoptique de l’appareillage binaural

Ce type d’appareillage permet d’améliorer la qualité des sons, l’intelligibilité dans le bruit et la sensation de sonie. Pour permettre aux algorithmes de traitement du signal d’exploiter l’ensemble des caractéristiques des ondes sonores parvenant à chacune des oreilles, un traitement de signal multi-sources tel que la distance entre deux oreilles sera considéré égale à d= 20cm pourrait améliorer et optimiser les performances obtenues par des sujets portant des aides auditives.

1.2. Différence de temps interaurale

L’ITD est un indice binaural significatif pour la perception spatiale des sons puisqu’il permet de savoir localiser la source en fonction de la différence de marche du signal. Ce paramètre est considéré primordial dans notre étude qui vise à étudier un algorithme de débruitage pour une prothèse binaurale, d’où la nécessitée d’étudier l’effet des différentes algorithmes sur cet indice binaural [GUI 02].

Physiquement, des erreurs sur l'ITD de l'ordre de 30 microsecondes sont perceptibles [VIS 04], donc un modèle générique basé sur une moyenne de l'ITD d'un grand nombre d'individus ne peut convenir à tout le monde (les amplitudes de variation de l'ITD atteignant quelques millisecondes).

La diffraction du son dans l’air implique que l’ITD soit plus élevé en basses fréquences qu’en hautes fréquences. La limite basse fréquence est donnée par l’équation suivante :

ITD=1.5*d *cos(θ) / C

(1)

Avec « θ » l’angle d’incidence (en rad), « d » la distance interaural (en m) et « C » est la célérité du son dans l’air (en m/s). La limite est pour environ 1500 Hz:

en dessous, l’ITD vaut environ −0.38 ms, au-dessus

- 2 -

environ −0.26 ms [MOU 06].

Si le signal est dans la direction d’intérêt, ça veut dire que la différence de marche entre les deux microphones est nulle

= d.cos(θ)=0

entre les deux microphones est nulle ∆ = d.cos( θ )=0 θ = ∏ /2 Le

θ = /2

Le délai induit par cette différence de marche est

 

d

donc définie par σ = τ.cos(θ) (en s) avec

=

 

c

En pratique, l’ITD sera calculée par la fonction d’autocorrélation du signal reçu par les deux prothèses. Cette fonction est définie la formule suivante :

Cette fonction est définie la formule suivante : (2) Le maximum de ressemblance entre ces deux

(2)

Le maximum de ressemblance entre ces deux signaux correspond au maximum de C x,x (r). Si notre signal est noyé dans un bruit, cette méthode peut nous aider à connaître la puissance de bruit où il n’y a pas d’information utile: cette quantité correspond au minimum des puissances entre les deux voies pendant cette différence de marche.

2. Algorithmes pour le débruitage du signal de parole

Il existe différents algorithmes de débruitage du signal de parole. Ici, on s’intéresse aux trois méthodes suivantes : La méthode de la soustraction spectrale, la méthode de filtrage de Wiener et la méthode de transformée en ondelettes [DON 00].

2.1. Technique basée sur la soustraction spectrale

Le principe de base de cette méthode est de soustraire l’amplitude du spectre de bruit à partir de celui de la parole bruité [BOL 79]. Une estimation du signal de bruit est mesurée durant les périodes de silences (durant l’activité de non parole dans le signal).

Le schéma du code implémenté à base de la soustraction spectrale n’utilise aucune détection d’activité de parole pour estimer le bruit, qui est supposé être stationnaire, et son spectre est estimé par la 1 ère trame de l’entrée [THI 01]. On suppose aussi que le signal de parole et le bruit sont additifs et non corrélés.

de parole et le bruit sont additifs et non corrélés. Figure 2. Synoptique de débruitage par

Figure 2.

Synoptique de débruitage par Soustraction Spectrale

SETIT2009

Cela pose évidemment le problème de la détection des zones de silence et de parole. Une erreur dans cette détection entraîne forcément une erreur dans l’estimation du spectre du bruit.

2.2. Technique de rehaussement basée sur le filtrage adaptatif de Wiener

Un filtrage est rendu adaptatif en traitement de parole si ses paramètres, les coefficients, sont modifiés selon un critère donné, dès qu’une nouvelle valeur du signal devient disponible. Ces modifications doivent suivre l’évolution des systèmes dans leur environnement aussi rapidement que possible [COH 02].

Si on dispose d’une entrée y(n) ainsi que de la réponse désirée (référence) d(n) et l’erreur e(n), qui est la différence entre d(n) et la sortie du filtre Ŝ(n), sert à contrôler (adapter) les valeurs des coefficients du filtre.

contrôler (adapter) les valeurs des coefficients du filtre. Figure 3. Principe d’un filtre adaptatif En pratique,

Figure 3.

Principe d’un filtre adaptatif

En pratique, il s’agit de trouver le filtre linéaire stationnaire qui donne la meilleure approximation de Ŝ(n) à partir de y(n). Le signal et le bruit sont deux processus aléatoires stationnaires [NAJ 98].

sont deux processus aléatoires stationnaires [NAJ 98]. Figure 4. Diagramme de réduction du bruit proposé Le

Figure 4.

Diagramme de réduction du bruit proposé

Le signal bruité est filtré ainsi que l’enveloppe est détectée après un redressement « double alternance » (pour avoir la valeur absolue) et un filtrage passe bas (200Hz). Puis, l’enveloppe bruitée est multipliée par une fonction spécifique de pondération entre 0 et 1 selon la valeur du SNR estimé (figure 4). Alors les deux composants majoritaires dans l’algorithme proposé sont :

Le calcul de la fonction de pondération qui dépend de l’estimation de la SNR

- 3 -

Estimation de la SNR (Signal to Noise Ratio) [OPP 79].

2.3. Technique de rehaussement basée sur la décomposition en ondelettes

L’idée de la transformée en ondelettes est de pouvoir faire varier les largeurs en temps et en fréquences d’une fonction tout en la translatant le long du signal et elle permet aussi de mesurer les variations dans le temps des composantes fréquentielles (spectrales) d’un signal (Figure 5) [MAL 99].

La transformée en ondelettes d’une fonction f en un point (t,w) du plan temps-fréquences ne dépend donc que des valeurs de représentation temporelle f(t) et représentation fréquentielle F(w) dans le rectangle de Heisenberg [AUG 96] centré en (t,w).

dans le rectangle de Heisenberg [AUG 96] centré en ( t,w ). Figure 5. La transformée

Figure 5.

La

transformée en ondelettes

résolution

temps-fréquences

de

la

Pour avoir un signal débruité, on le transforme en ondelettes, puis on élimine à toutes les résolutions, les coefficients supérieurs à un certain seuil déterminé par différentes manières [MIS 96].

les

coefficients restants (figure 6) [COI 98].

Ensuite,

on

reconstruit

le

signal

avec

(figure 6) [COI 98]. Ensuite, on reconstruit le signal avec Figure 6. Synoptique utilisé pour le

Figure 6.

Synoptique utilisé pour le débruitage par transformée en ondelettes

3. Protocole expérimental

Tout un processus expérimental permet l’enregistrement des scènes sonores pour avoir des scènes en tenant comptes des conditions de l’audition binaurale qui est très proche de l’audition naturelle (liste de Lafon). L’enregistrement se fait dans la salle audiométrique parfaitement isolé de l’hôpital Edouard Herriot à Lyon-France. La figure suivante montre le

SETIT2009

protocole expérimental utilisé pour l’enregistrement.

protocole expérimental utilisé pour l’enregistrement. Figure 7. Protocole expérimental 4. Comparaison entre les

Figure 7.

Protocole expérimental

4. Comparaison entre les différents algorithmes de débruitage

On considère un signal de parole extrait de la liste de Lafon (séquence en rouge), puis on lui ajoute un bruit afin d’avoir une valeur du SNR= -5dB. La figure 7 montre les signaux résultats (en bleu) obtenus respectivement par application des algorithmes de débruitage basé sur la méthode de la soustraction spectrale, le filtrage adaptatif de Wiener et le débruitage par transformée en ondelettes.

de Wiener et le débruitage par transformée en ondelettes. Figure 8. Comparaison des algorithmes pour un

Figure 8.

Comparaison

des

algorithmes

pour

un

SNR=-5db

Puisque l’amélioration ne se fait pas de la même manière pour tous les algorithmes explorés, l’utilisation des métriques d’évaluation entre eux est indispensable pour distinguer la plus adaptable à toutes les conditions dans lesquelles se trouve le malentendant

4.1. Les métriques d’évaluation

4.1.1. Erreur quadratique moyenne Cette fonction s’écrit sous la forme suivante :

EQM =

2
2

Où s(n) est le signal original généré par la liste Lafon enregistrée à l’aide de deux microphones dans des conditions qui s’approche de l’audition réelle

[BLA 83]. Ces microphones sont intégrés dans les conduits auditifs de la tête artificielle (figure 7). Ŝ(n) est le signal estimé après l’algorithme de débruitage.

une

meilleure semblance entre les deux signaux.

Un

minimum

de

cette

fonction

montre

EQM

Comparaison entre les différents algorithmes x 10 -3 5 S.spectrale 4.5 F.Wiener T.ondelette 4 3.5
Comparaison entre les différents algorithmes
x 10 -3
5
S.spectrale
4.5
F.Wiener
T.ondelette
4
3.5
3
2.5
2
1.5
1
0.5
0
-20
-15
-10
-5
0
5
10
15
20

SNR(db)

Figure 9.

Comparaison de l’EQM

4.1.2. Evaluation du SNR

Le rapport signal sur bruit calculé de la façon suivante :

du signal bruité est

SNR=10. Log (P s /P b )

Avec P s

=

bruité est SNR=10. Log (P s /P b ) Avec P s = s 2 (n)

s 2 (n) =

puissance du signal original

) Avec P s = s 2 (n) = puissance du signal original |S (f)| 2

|S

(f)| 2 :

La

2 (n) = puissance du signal original |S (f)| 2 : La P b = b
2 (n) = puissance du signal original |S (f)| 2 : La P b = b

P b = b 2 (n) = B (f) | 2 : La puissance

de bruit.

Cette métrique permet d’obtenir l’évolution de rapport signal sur bruit du signal débruité (SNR final) en fonction de celui du signal bruité (SNR initial).

Cette évolution n’est pas linéaire pour tous les signaux bruités, donc le pourcentage d’amélioration est un facteur nécessaire pour savoir si un tel algorithme est performant ou non.

Comparaison entre les différents algorithmes

25 S.spectrale F.Wiener 20 T.ondelette 15 10 5 0 -5 -10 -20 -15 -10 -5
25
S.spectrale
F.Wiener
20
T.ondelette
15
10
5
0
-5
-10
-20
-15
-10
-5
0
5
10
15
20
SNR final(db)

SNR initial(db)

Figure 10. Evolution du SNR final en fonction du SNR initial

4.1.3. Pourcentage d’amélioration de la SNR Si on suppose que l’information est très claire dans un bruit tel que le SNR=40dB

Donc le pourcentage d’amélioration s’écrit sous

- 4 -

SETIT2009

cette forme :

Amélioration(%)=

SETIT2009 cette forme : Amélioration(%)= * 100 Comparaison entre les différents algorithmes 100 S.spectrale F.Wiener
SETIT2009 cette forme : Amélioration(%)= * 100 Comparaison entre les différents algorithmes 100 S.spectrale F.Wiener

* 100

Comparaison entre les différents algorithmes

100 S.spectrale F.Wiener T.ondelette 50 0 -50 -20 -15 -10 -5 0 5 10 15
100
S.spectrale
F.Wiener
T.ondelette
50
0
-50
-20
-15
-10
-5
0
5
10
15
20
Amelioration de la SNR (%)

SNR initial(db)

Figure 11. Comparaison de l’Amélioration en (%)

4.1.4. Distance Logarithmique Spectrale Cette fonction permet de calculer la moyenne de la distance logarithmique spectrale entre le signal débruité et le signal bruité généré avec un SNR bien défini.On peut écrire donc que :

LSD=

avec un SNR bien défini.On peut écrire donc que : LSD= P s = ŝ 2

P s =

SNR bien défini.On peut écrire donc que : LSD= P s = ŝ 2 (n) =

ŝ 2 (n) =

peut écrire donc que : LSD= P s = ŝ 2 (n) = | Ŝ (f)|

|Ŝ (f)| 2 : la puissance

estimée de la moyenne du signal débruité

: la puissance estimée de la moyenne du signal débruité la puissance de la moyenne de
: la puissance estimée de la moyenne du signal débruité la puissance de la moyenne de

la

puissance de la moyenne de signal bruité.

Le calcul de cette quantité se fait après la composition du signal d’entrée sur des trames de courtes durées chevauchées entre elles par des fenêtres de durée égale à 8ms (N=128). Cette composition permet d’avoir un quasi stationnarité du signal, caractéristiques inchangées suivant cette durée, est imposé aussi par les algorithmes de traitement.

Et

P y

y 2 (n) =

|Y

(f)|

2 :

=

LSD

Comparaison entre les différents algorithmes 12 S.spectrale F.Wiener T.ondelette 10 8 6 4 2 0
Comparaison entre les différents algorithmes
12
S.spectrale
F.Wiener
T.ondelette
10
8
6
4
2
0
-20
-15
-10
-5
0
5
10
15
20

SNR(db)

Figure 12. Comparaison de la distance LSD

2.1. Observations

Après évaluation, on constate que dans les deux figures 8 et 9 le débruitage par transformée en ondelettes possède la meilleure amélioration du SNR.

La figure 10 montre que l’EQM varie entre les valeurs 0.0045 et 0.0005, c'est-à-dire que les différents types d’algorithmes permettent de minimiser l’erreur quadratique moyenne.

Dans une telle application, en diminuant la valeur du SNR initial entraîne une augmentation de la puissance du signal bruité P y . Dans ce cas, un meilleur rehaussement du signal nécessite une diminution de la puissance du signal débruité P s ainsi qu’une diminution de la distance LSD : ceci est interprété dans la figure 11 pour les différentes méthodes de débruitage.

En fixant le

SNR initial (Py fixe), la figure 11

montre que l’algorithme de rehaussement par transformée en ondelettes est la plus efficace

puisqu’elle possède le minimum de LSD.

la plus efficace puisqu’elle possède le minimum de LSD. Figure 13. Influence de l’algorithme de débruitage
la plus efficace puisqu’elle possède le minimum de LSD. Figure 13. Influence de l’algorithme de débruitage
la plus efficace puisqu’elle possède le minimum de LSD. Figure 13. Influence de l’algorithme de débruitage

Figure 13. Influence de l’algorithme de débruitage sur l’ITD

Si on s’intéresse maintenant à évaluer la capacité du malentendant à localiser la source du son après la phase de rehaussement, ceci s’explique par la conservation de l’ITD du signal bruité avec celui rehaussé. La figure 12 montre la variation de l’ITD pour différents SNR avant

- 5 -

SETIT2009

(courbe bleu) et après (courbe verte) l’application de l’algorithme de débruitage respectivement par la méthode de la soustraction spectrale, le filtrage adaptatif de Wiener et le débruitage par la transformée en ondelettes.

On remarque que la différence interaurale du signal débruité par la méthode du débruitage par la transformée en ondelettes est la plus proche de celle du signal bruité sauf dans le cas où SNR très faible. On peut dire alors qu’il s’agit vraiment d’une meilleure localisation du signal reçu après rehaussement.

5. Conclusion

Dans cet article, nous avons étudié et validé trois différentes méthodes de rehaussement du signal de parole pour la réhabilitation de la surdité par les aides auditives.

Une étude comparative a été réalisée et à montré la supériorité de l’algorithme de débruitage à base de la transformée en ondelettes en termes d’amélioration du SNR et de conservation de la différence de temps interaurale. Ceci à pour but d’établir le meilleur choix de l’algorithme qui sera utilisé dans des travaux futurs d’implémentation sur DSP dans une finalité de validation du débruitage sur une plateforme temps réel.

A l’issue de cet article, nous soulignerons simplement qu’un travail important reste à faire pour s’assurer de la compatibilité des algorithmes proposés en prenant également en compte les modules de traitement du signal standards d’une prothèse auditive binaurale. Les interactions entre les différentes étapes du traitement peuvent produire une modification du retard interaural et par conséquence perdre la possibilité de localiser la source. D’autre part, il faut s’assurer que, du point de vue du malentendant, la qualité sonore finale est acceptable et exempte de tout défaut gênant.

BIBLIOGRAPHIE

[AUG 96] Auger F., P. Flandrin, P. Gonçalvès and

O. Lemoine, Time-frequency toolboxfor use with Matlab Tutorial, CNRS (France), Rice University (USA),1995-

1996.

[BLA 83] J. Blauert, Spatial Hearing: the psychophysics of Human Sound Localization, MIT Press, 1983.

Boll S.F., Suppression of acoustic noise in speech

using spectral subtraction, IEEE Trans. Acoust., Speech, Signal Processing, 27:113–120, 1979.

[COH 02] Cohen I., and Berdugo B., Noise estimation by minima controlled recursive averaging for robustspeech enhancement, IEEE Signal Process, Lett. 9, 12–15, 2002.

[COI 98] Coifman R. and Wickerhauser M., Experiments with Adapted Wavelet De-Noising for Medical Signals and Images. In Metin Akay editor, Time-Frequency and Wavelets in Biomedical Engineering, pp. 323-346, 1998.

[DON 00] Donoho, Denoising by soft thresholding. IEEE Transaction, 2000.

[BOL 79]

- 6 -

[FAS 99] H. Fastl, E. Zwicker, Psychoacoustics, Springer Verlag, 2nd. Ed. Edition, 1999.

[GUI 02] Guillaume LeNost.partie1, Modélisation de fonctions de transfert acoustiques de têtes humaines (HRTF) et application à l'individualisation de la synthèse binaurale, 2002.

[MAL 99] Mallat S. A wavelet tour of signal processing, Academic Press, 1999.

Mead C. Killion, Chapitre Hearing Aid

Transducers, John Wiley & Sons, Encyclopedia of

[MEA

97]

Acoustics, volume 4, 1979–1991, 1997.

[MIS 96] M.Misit, Y.Misit, G. opperhein and J.M.Poggi, Threshold selective using Stein’s Unbiased Risk Estimate, 12 Mars 96.

S. Marchand, A Source

Localisation/Separation/Respatialisation System Based

[MOU

06]

Mouba

and

on Unsupervised Classification of interaural Cues, Proceedings of the Digital Audio Effects Conference,Montreal, Quebec, Canada, 2006

[NAJ 98] Najim. M , Filtrage optimal, Edition 1998.

[OPP 79] Oppenheim J.S. Lim. Enhancement and bandwidth compression of noisy speech. Proc. IEEE, Dec. 1979.

[THI 01] Thiemann, Acoustic Noise Suppression for Speech Signals using Auditory Masking Effects, Master's thesis, McGill University, Montreal, 2001.

[THO 04] Thomas F., Traitement Numérique du Signal

acoustique pour une Aide aux Malentendants, thèse,

2004.

[VIS 04] Viste H. Binaural Localization and separation techniques, PhD thesis, Ecole Polytechnique Fédérale de Lausanne, 2004.