Vous êtes sur la page 1sur 9

Réduction du bruit en parole continue utilisant une analyse multi-

bandes

Novlene Zoglami 1 , Zied Lachiri 1 , 2 et Noureddine Ellouze 1

1
Ecole Nationale des Ingénieurs de Tunis,
Département Génie Electrique ENIT, unité Signal, Image et Reconnaissance de formes.
BP.37, Le Belvédère, 1002, Tunis.
Novlene_zoglami@yahoo.fr,N.ellouze@enit.rnu.tn

2
Institut National des Sciences Appliquées et de Technologies,
Département Instrumentation et Mesures INSAT,BP 676 centre urbain cedex.
zied.lachiri@enit.rnu.tn

Résumé Dans cet article, nous proposons une nouvelle méthode de réduction du bruit en
parole continue basée sur une analyse multi-bandes dont la largeur est non-uniforme. Nous
proposons d’implémenter la soustraction spectrale classique et la technique de suppression
d’Ephraim et Malah sur un banc de filtres gammatone ayant des répartitions fréquentielles
non-linéaires en échelle BARK et en échelle ERB. Les tests d’évaluation objectifs par la
mesure du rapport signal sur bruit et les tests subjectifs par la mesure de l’indice de qualité
PESQ sur des phrases bruitées à postériori par 8 types de bruits ont montré que la méthode
proposée assure un traitement adéquat du signal et une amélioration nette de la qualité et de
l’intelligibilité du signal de parole obtenu après traitement.

Mots clés Modèle auditif, Banc de filtres gammatone, soustraction spectrale, soustraction
spectrale au sens d’Ephraim et Malah, Réduction du bruit.

1 Introduction
La dégradation d’un signal vocal par un bruit d’environnement engendre des problèmes perceptifs
ennuyants pour l’oreille humaine et détériore les performances des systèmes de communication
homme machine. La réduction du bruit en parole continue constitue un des problèmes majeurs, qui
a donné naissance à un grand besoin de développer des algorithmes capables d’éliminer les signaux
indésirables dégradant le signal vocal et dont l’objectif essentiel est d’améliorer l’aspect perceptuel
et l’intelligibilité du signal vocal. Actuellement, les méthodes d’amélioration de la qualité vocale,
en particulier les techniques d’atténuation spectrale, intègrent des hypothèses sur le signal utile et le
bruit. Ces techniques sont associées à un compromis entre une distorsion introduite dans le signal
qu’on cherche à minimiser et un effet de réduction du bruit qu’on cherche à maximiser et ce à
travers l’estimation spectrale ponctuelle du signal à résolution prédéfinie. Ces techniques souffrent
de l’apparition d’artefacts audibles traduisant la perception du bruit résiduel introduit lors du
2 N. Zoghlami, Z.Lachiri et N. Ellouze

processus de soustraction. Dans le but de réduire ce bruit, l’exploitation de l’estimation spectrale


moyennée du signal, utilisée dans la règle de la soustraction spectrale au sens d’Ephraim et Malah
[10], avec une connaissance à priori du comportement du bruit, permet de masquer le bruit
résiduel. D’un autre coté, d’autres méthodes [1,4] exploitent les propriétés du système auditif, en
particulier le masquage auditif, afin de résoudre le problème de la réduction du bruit sans créer de
distorsions audibles au niveau du signal utile. L’objet de cet article est d’implémenter la technique
de soustraction spectrale et celle au sens d’Ephraim et Malah selon une analyse multi-bandes par
banc de filtres suivant une résolution fréquentielle non-linéaire conforme à celle de l’oreille
humaine, à savoir l’échelle ERB et l’échelle BARK. La section 2, présente un aperçu sur les
techniques d’atténuation spectrale. La section 3, développe la méthode proposée basée sur l’analyse
multi-bandes, alors que la section 4 expose les tests d’évaluation objectifs basés sur la mesure du
rapport signal sur bruit et ceux subjectifs basés sur la mesure de l’indice de qualité PESQ.

2 Les techniques d’atténuation spectrales


Ces techniques constituent une famille d’algorithmes de référence pour la réduction du bruit en
parole continue, opérant dans le domaine fréquentiel au moyen de modifications spectrales. L’idée
de base est d’atténuer plus ou moins fortement les composantes spectrales du signal dégradé en
fonction de l’estimation du niveau du bruit L’ensemble des caractéristiques de telles méthodes est
géré, en premier temps, par la nature de la transformation elle même qui permet une interprétation
spectrale du signal analysé, et dans un deuxième temps, par une règle de suppression qui repose sur
un mécanisme permettant de décider de l’atténuation à apporter à chaque canal fréquentiel qui
s’effectue à partir d’une estimation de la densité spectrale du bruit et une estimation locale du
signal.

2.1 La soustraction Spectrale

La soustraction spectrale [6] vise à obtenir une estimation spectrale du signal utile dégradé par un
bruit additif. L’idée de base est d’atténuer plus ou moins fortement les composantes spectrales du
signal dégradé en fonction de l’estimation du niveau du bruit en adoptant les hypothèses sur les
signaux de parole et le bruit. La technique consiste à effectuer une décomposition spectrale
uniforme du signal bruité (1) par le biais d‘une fenêtre d‘analyse suivie d’une transformée de
Fourier.
y ( n)  x ( n)  b( n) (1)
Avec x(n) le signal propre et b(n) le bruit additif.
Dans chaque trame, la règle de suppression appropriée à la soustraction spectrale est appliquée sur
les spectres du bruit estimé Bˆ ( f ) pendant les moments du silence et du signal bruité Y ( f ) pour
donner une estimation du spectre du signal utile Xˆ ( f )
:
2 2
Xˆ ( f )  Y ( f )  Bˆ ( f )
2
(2)
Comme il a été prouvé que la phase du signal n’a pas d’influence sur la perception, le signal utile
estimé est obtenu par l’application de la transformée de Fourier inverse en utilisant la phase du
signal bruité pour trouver le signal temporel estimé xˆ (n) :
xˆ ( n )  TFDI ( Xˆ ( f ) exp( j (Y ( f ))) (3)
Réduction du bruit en parole continue utilisant une analyse multi-bandes 3

Avec Xˆ ( f ) le spectre d’amplitude du signal rehaussé et  (Y ( f )) la phase du signal bruité.

2.2 La soustraction spectrale au sens d’Ephraim et Malah

Cette technique [10], proposée par Ephraim et Malah, est basée sur une estimation bayesienne du
spectre d’amplitude du signal débruité au sens des moindres carrés, elle évalue l’atténuation
spectrale courante en se basant sur la précédente. L’estimation du spectre d’amplitude du signal
débruité est donnée par la relation suivante :
X ( f )  G ( f ). Y ( f )
(4)
Avec G ( f ) est le gain donné par :
 1 R priori R priori
G( f )  ( )( ). M .[(1  R post )( )]
2 1  R post 1  R priori 1  R priori
(5)
Et M ( ) est donné par :
  
M ( )  exp(  )[( 1   ) I 0 ( )   . I 1 ( )]
2 2 2 (6)
I 0 et I1 sont respectivement les fonctions de Bessel modifiées d’ordre 0 et 1.
Le niveau relatif local à posteriori définit la valeur mesurée à la miéme fenêtre :
2
Y ( f , m)
R post ( f , m) 
Bˆ ( f , m)
(7)
Le rapport signal sur bruit à priori est donné par :
2
Y ( f , m  1)
R priori ( f ,m)  (1   )[ R post ( f , m)  1]  
Bˆ ( f , m)
(8)
Avec  un paramètre compris entre 0 et 1, Y ( f , m) est le spectre de puissance de la fenêtre
2

précédente et R post ( f , m) est le niveau relatif local à posteriori.


La règle de suppression d’Ephraim et Malah fournit un moyen simple de contrôle du niveau du
bruit résiduel, malgré que pour les signaux fortement bruités cette réduction est limitée par la
distorsion du signal.

3 Réduction du bruit par atténuation spectrale multi-bandes

3.1 L’analyse multi-bandes

Les méthodes d’atténuation spectrale se fondent sur le principe d’atténuer le spectre du signal
observé, en procédant avec une analyse spectrale basée sur la transformée de Fourier à court terme,
le signal est donc analysé suivant une échelle linéaire et uniforme en fréquence. Cependant, l’étude
locale des signaux bruités exigeant une analyse plus fine ne peut pas être robuste selon une échelle
uniforme, en particulier, lorsqu’il s’agit d’effectuer une analyse précise dans les bandes
fréquentielles où le bruit est dominant. En se penchant sur les lois psychoacoustiques [5], on a pu
4 N. Zoghlami, Z.Lachiri et N. Ellouze

confirmer que le système auditif ne perçoit pas les signaux suivant une échelle uniforme. En effet,
l’oreille humaine effectue une analyse plus précise des fréquences graves que des bandes
fréquentielles hautes, ce qui implique que l’analyse du signal perçu est effectuée à l’aide d’une
série de filtres auditifs passe-bande qui se recouvrent continûment tout au long de la plage des
fréquences audibles, ce qui donne au système auditif, la capacité de distinguer un signal utile dans
un environnement bruité. En effet, lors de la détection d’un signal, on suppose que l’oreille, en
particulier, la membrane basilaire, utilise la sortie d’un filtre auditif dont la fréquence centrale est
proche de celle du signal.
Ces constatations nous amène à mettre en œuvre une méthode de débruitage basée sur une analyse
par bandes dont la largeur est non uniforme. Dés lors, et dans le contexte de la réduction du bruit en
parole continue, il est particulièrement intéressant d’étudier la possibilité de procéder à l’analyse du
signal en employant les lois de la psychoacoustique associées à une modification spectrale. Il est
donc intéressant de procéder à l’implémentation des techniques classiques d’atténuation spectrale, à
partir d’une analyse en banc de filtres dont le but d’assurer un traitement adéquat du signal.

3.2 Modélisation des filtres auditifs

La mesure rigoureuse du gabarit fréquentiel des filtres auditifs est une tache assez difficile, outre la
non linéarité des mécanismes auditifs, les filtres auditifs sont définis pour toute fréquence audible
et leur largeur augmente avec la fréquence tout en étant dépendante de l’intensité du stimulus [6].
De ce fait la manière la plus simple pour modéliser la sélectivité fréquentielle de la membrane
basilaire est d’effectuer une analyse utilisant un banc de filtres, le modèle le plus simple et le plus
réaliste est celui du banc de filtres gammatone [9] dont la réponse impulsionnelle s’approche des
résultats observés en physiologie [7].
3.2.1 Banc de filtres gammatone
La réponse impulsionnelle du filtre auditif est représentée par une fonction gammatone définie dans
le domaine temporel par l’expression suivante :
g (t )  At n 1 exp( 2bB ( f c )t ) cos( 2f c t   )
(9)
Où A est un paramètre de normalisation d’amplitude, n est l’ordre du filtre, fc est la fréquence
centrale du filtre, B est la largeur des bandes passantes des filtres et bB(fc) un paramètre définissant
l’enveloppe du filtre.
3.2.2 Choix de l’échelle fréquentielle
Les bandes passantes du banc de filtres, supposés être idéaux, doivent être disjointes mais leur
union doit couvrir la bande utile du signal. La largeur de ces bandes peut être uniforme, ou non
uniforme, elle suit dans ce cas, les caractéristiques des bandes critiques, à savoir une répartition en
échelle Bark et la formule qui permet de convertir une fréquence f en Hertz en sa valeur en Bark
est :
f
b ( f )  13 arctg ( 0.00076 f )  3 .5 arctg [( )2 ] (10)
7500
Ou alors une répartition en échelle ERB, qui définit des largeurs plus fines pour les basses
fréquences. La relation entre la fréquence centrale f en Hz et l’ERB est donnée par :
24,4 log(4,37)
ERB ( f )  1 (11)
1000
Réduction du bruit en parole continue utilisant une analyse multi-bandes 5

3.3 Application des techniques d’atténuation spectrale sur l’analyse multi-bandes

La méthode d’analyse/synthèse (Figure1) du signal vocal proposée repose sur une décomposition
non-uniforme du signal bruité en sous-bandes. Chaque sous-signal yk(n) subit une transformation
spectrale suivant la règle de suppression choisie (k est le nombre des sous signaux).
3.3.1 Décomposition en banc de filtres
Le banc de filtres d’analyse utilise des filtres de type gammatone d’ordre 4. La largeur des bandes
passantes de ces filtres est définie selon trois répartitions fréquentielles différentes, soit l’échelle
Bark soit l’échelle ERB, ou l’échelle linéaire. Le signal observé est ainsi décomposé en sous
signaux qui sont par la suite traités séparément.

y1(n) x1(n)
Règle de suppression
Décomposition en banc de filtres

du bruit

Synthèse du signal
Estimation du bruit

Signal bruité Signal débruité


yk(n) xk(n)
y(n) Règle de suppression x(n)
du bruit

Estimation du bruit

Figure 1 : Diagramme de la réduction du bruit utilisant une analyse multi-bandes.

3.3.2 Estimation du bruit


Le problème de la réduction du bruit en parole devient de plus en plus difficile, dés qu’il
n’y a aucune référence valable pour estimer le bruit. Dans ce cas, le bruit est estimé
utilisant les propriétés du signal dégradé, comme la stationnarité et le contenu spectral, ou
alors durant les moments du silence, où la parole est absente. En l’absence de
connaissance à priori sur la densité spectrale du bruit, l’estimation du bruit utilisée dans ce
travail est une estimation continue [3] basée sur la méthode de MCRA (Minimum
Controled Recursive Averaging) qui consiste à chercher la moyenne des anciennes
valeurs du spectre de puissance du signal bruité, à l’aide d’un paramètre de lissage ajusté
par la probabilité de présence de la parole obtenue à partir du rapport entre le spectre de
puissance du signal et son minimum local.

3.3.3 Débruitage et synthèse du signal


Les méthodes de rehaussement utilisées sont la soustraction spectrale de puissance classique et la
règle de suppression d’Ephraim et Malah. Le gain spectral associé à chaque technique est calculé à
partir de la puissance estimée de chaque sous-bande selon une analyse à court-terme et un
découpage des signaux des sous bandes en trames, avec recouvrement et fenêtrage temporel des
blocs. La reconstitution s’effectue selon la méthode d’addition recouvrement de chaque sous bande
du signal. A la fin, l’étage de synthèse par banc de filtres concerne la reconstruction du signal
rehaussé à partir de la sommation des sous- bandes traitées du signal.
6 N. Zoghlami, Z.Lachiri et N. Ellouze

4 Résultats et Evaluation

4.1 La base des signaux

Les signaux de tests sont échantillonnés à une cadence de 8 KHz. Ces signaux sont corrompus par
8 différents bruits d’environnement réels á différents rapports signal sur bruit variant entre 0 et 15
dB avec un pas de 5 dB. Cette base comprend 30 phrases (en anglais) prononcées par trois hommes
et trois femmes.

4.2 Protocole d’évaluation

Lors de cette étude, nous avons cherché à améliorer les performances des méthodes classique de
débruitage par transformée de Fourier. Pour couvrir la bande utile, la décomposition en banc de
filtres selon l’échelle Bark utilise 18 filtres, et celle selon l’échelle ERB utilise 27 filtres, l’échelle
linéaire utilise 40 filtres. Les mesures objectives sont reliées à des mesures mathématiques entre le
signal original et le signal traité afin d’évaluer la technique de rehaussement. L’évaluation porte sur
la mesure du rapport signal sur bruit RSB, en particulier sur l’augmentation de cette valeur. Or une
telle mesure ne renseigne pas nécessairement sur la qualité subjective réelle du rehaussement
apporté, nous avons renforcé cette évaluation par des mesures de l’indice de qualité PESQ [5,8]. Le
protocole d’évaluation consiste à comparer la méthode d’atténuation spectrale multi-bandes
proposée, à savoir la soustraction spectrale appliquée sur un banc de filtres gammatone à échelle
linéaire et sur un banc de filtres à échelle BARK et à échelle ERB au processus de soustraction
spectrale classique (SS), et de comparer la règle de suppression d’Ephraim et Malah appliquée sur
un banc de filtres gammatone à échelle linéaire et sur un banc de filtres à échelle BARK et à
l’échelle ERB par rapport à la soustraction spectrale au celle au sens d’Ephraim et Malah (EM)
usuelle.
Les résultats des tests sont illustrés dans les tableau1, 2, 3 et 4, l’analyse de ces tests montre que
l’approche en banc de filtres s’avère prometteuse dans le domaine du rehaussement de la parole.
Outre les résultats qualitatifs et quantitatifs, la réduction du bruit est nettement considérable. Dans
la majorité des cas, le RSB a été amélioré, ce qui prouve la qualité de la soustraction spectrale et de
la règle de suppression d’Ephraim et Malah à réduire le bruit de font et la possibilité d’adapter ces
deux techniques à une structure en banc de filtres. Néanmoins, le meilleur gain est donné par
l’approche qui intègre l’analyse en banc de filtres à répartition fréquentielle en ERB. En effet, nous
avons enregistré pour un signal dégradé par le bruit train à 10 dB une valeur de 16,66 dB par
rapport à une valeur de 8,10 dB donnée par la soustraction spectrale classique. Ainsi que pour la
dégradation par un bruit babble (foule) à 15dB qui a fourni un rapport signal sur bruit de 30,88 dB,
contre une valeur de11,69 dB fournie par la soustraction spectrale classique.
Cependant, si la mesure du rapport signal sur bruit est un bon indicateur de la quantité du bruit
soustraite du signal corrompu, elle demeure peu représentative du point de vue psychoacoustique,
au contraire de la mesure de l’indice de qualité PESQ qui peut fournir une évaluation subjective.
Parallèlement à la mesure du RSB, nous avons enregistré les valeurs données par PESQ et ceux
pour les différents algorithmes étudiés (Tableau3 et tableau 4). Nous constatons que la valeur de
PESQ augmente au fur et à mesure que le rapport signal sur bruit à l’entrée augmente. Par ailleurs
les meilleurs résultats sont fournis par l’analyse multi-bandes selon l’échelle ERB en association
avec les deux techniques de rehaussement : la soustraction spectrale classique et la soustraction
spectrale au sens d’Ephraim et Malah.
Réduction du bruit en parole continue utilisant une analyse multi-bandes 7

Tableau 1 : Mesure du RSB pour la méthode proposée et la technique de soustraction spectrale (SS).

RSB SS Echelle Echelle chelle RSB= SS Echelle Echelle Echelle


=0dB linéaire Bark ERB 10dB linéaire Bark ERB
babble 1,66 1,81 2,51 2,53 babble 7,61 8,86 11,97 15,95
car 2,78 2,61 3,88 4,14 car 8,71 10,00 12,54 16,89
airport 1,62 1,81 2,04 2,07 airport 7,06 8,61 10,74 14,03
street 1,87 1,92 2,28 2,36 street 7,48 8,33 10,70 14,41
retaurant 1,37 1,63 1,58 1,06 retaurant 6,68 8,04 9,37 11,98
train 2,40 2,16 2,55 2,84 train 8,10 8,82 11,65 16,66
station 2,10 2,14 2,45 2,74 station 7,92 9,25 11,73 16,31
exhibition 1,74 1,49 1,89 2,24 exhibition 7,50 7,99 10,54 14,57
RSB SS Echelle Echelle Echelle RSB= SS Echelle Echelle Echelle
=5dB linéaire Bark ERB 15dB linéaire Bark ERB
babble 3,93 4,43 3,70 4,06 babble 11,01 13,25 21,48 30,88
car 5,24 5,27 8,96 10,51 car 11,69 13,91 22,77 41,97
airport 3,83 4,34 5,02 5,54 airport 10,98 13,51 18,98 33,28
street 4,01 4,12 5,18 5,79 street 10,80 12,94 18,28 32,67
retaurant 3,36 3,84 4,10 4,48 retaurant 10,62 13,05 17,77 29,07
train 4,71 4,17 6,21 7,12 train 11,14 12,87 18,94 34,83
station 4,42 5,13 5,78 7,09 station 11,26 13,58 18,70 32,72
exhibition 3,86 3,50 4,85 5,73 exhibition 10,79 12,40 18,21 32,88
Tableau 2 : Mesure du RSB pour la méthode proposée et la technique d’Ephraim et Malah (EM).

RSB EM Echelle Echelle Echelle RSB= EM Echelle Echelle Echelle


=0dB linéaire Bark ERB 10dB linéaire Bark ERB
babble 1,53 1,80 1,55 2.54 babble 10,39 9,88 8,04 11,25
car 1,99 2,32 2,10 2,34 car 11,44 11,03 8,98 12,93
airport 1,45 1,73 1,51 1,57 airport 10,26 9,75 8,26 11,11
street 1,57 1,71 1,60 1,70 street 10,11 9,05 7,85 10,69
retaurant 1,29 1,55 1,29 1,38 retaurant 9,33 9,11 7,52 9,82
train 1,77 1,84 1,65 1,95 train 12,35 10,47 8,60 12,71
station 1,53 1,64 1,64 1,77 station 11,05 8,69 8,69 12,27
exhibition 1,45 1,42 1,39 1,58 exhibition 10,43 9,23 7,81 10,89
RSB EM Echelle Echelle Echelle RSB= EM Echelle Echelle Echelle
=5dB linéaire Bark ERB 15dB linéaire Bark ERB
babble 4,04 4,50 3,66 4,39 babble 27,35 17,86 14,33 26,36
car 4,90 5,41 4,61 5,75 car 30,68 19,78 15,42 31,08
airport 3,74 4,27 3,76 4,12 airport 28,87 18,46 14,82 27,58
street 3,68 3,81 3,60 4,11 street 29,70 18,42 14,30 27,31
retaurant 3,61 3,99 3,36 3,67 retaurant 26,27 17,23 14,08 25,12
train 4,69 4,41 4,10 5,11 train 31,00 18,46 14,49 28,62
station 4,22 4,22 4,22 4,87 station 27,48 14,59 14,59 27,31
exhibition 3,99 3,80 3,59 4,23 exhibition 27,78 18,11 14,17 27,26

Ceci prouve que la soustraction spectrale multi-bandes améliore les résultats pour tous les types de
bruits et à différents rapports signal sur bruit. Les mêmes constatations sont valables, si nous
associons la règle de suppression d’Ephraim et Malah avec une analyse en banc de filtres répartis
selon l’échelle ERB, en considérant que cette technique donne comme même des résultats
meilleurs, surtout en termes de réduction du bruit résiduel.
8 N. Zoghlami, Z.Lachiri et N. Ellouze

Tableau 3 : Mesure de PESQ pour la méthode proposée et la technique de soustraction spectrale (SS).

RSB Echelle Echelle Echelle RSB= Echelle Echelle Echelle


SS SS
=0dB linéaire Bark ERB 10dB linéaire Bark ERB
babble 1,78 1,79 1,90 1.93 babble 2,40 2,10 2,48 2.51
car 1,83 1,84 1,82 1.81 car 2,46 2,12 2,27 2.33
airport 1,79 1,82 1,83 1.84 airport 2,42 2,11 2,53 2.55
street 1,73 1,75 1,81 1.86 street 2,40 2,08 2,48 2.51
retaurant 1,71 1,71 1,79 1.82 retaurant 2,43 2,08 2,50 2.52
train 1,77 1,78 1,83 1.88 train 2,36 2,06 2,45 2.60
station 1,81 1,83 1,86 1.87 station 2,45 2,18 2,57 2.48
exhibition 1,69 1,68 1,71 1.74 exhibition 2,35 2,04 2,46 2.49
RSB Echelle Echelle Echelle RSB= SS Echelle Echelle Echelle
SS 15dB linéaire Bark ERB
=5dB linéaire Bark ERB
babble 2,10 2,10 2,15 2.17 babble 2,73 2,71 2,68 2.69
car 2,12 2,12 2,20 2.24 car 2,73 2,70 2,88 2.88
airport 2,11 2,11 2,18 2.21 airport 2,70 2,68 2,87 2.89
street 2,07 2,08 2,15 2.18 street 2,65 2,63 2,78 2.81
retaurant 2,07 2,08 2,12 2.14 retaurant 2,68 2,67 2,81 2.83
train 2,05 2,06 2,12 2.27 train 2,67 2,65 2,84 2.88
station 2,17 2,18 2,24 2.16 station 2,72 2,71 2,86 2.86
exhibition 2,03 2,04 2,12 2.15 exhibition 2,64 2,62 2,80 2.83

Tableau 4 : Mesure de PESQ pour la méthode proposée et la technique d’Ephraim et Malah (EM).

RSB = Echelle Echelle Echelle RSB= Echelle Echelle Echelle


EM EM
0dB linéaire Bark ERB 10dB linéaire Bark ERB
babble 1,82 1,84 1,78 1,84 babble 2,45 2,47 2,45 2,47
car 1,81 1,85 1,81 1,85 car 2,43 2,47 2,44 2,47
airport 1,81 1,82 1,80 1,80 airport 2,46 2,48 2,46 2,48
street 1,70 1,75 1,70 1,75 street 2,38 2,44 2,39 2,48
retaurant 1,77 1,78 1,74 1,78 retaurant 2,48 2,49 2,48 2,49
train 1,80 1,84 1,80 1,82 train 2,35 2,37 2,34 2,38
station 1,79 1,83 1,79 1,80 station 2,44 2,48 2,47 2,50
exhibition 1,68 1,71 1,67 1,71 exhibition 2,37 2,38 2,36 2,396
RSB = Echelle Echelle Echelle RSB= Echelle Echelle Echelle
EM EM
5dB linéaire Bark ERB 15dB linéaire Bark ERB
babble 2,15 2,15 2,12 2,16 babble 2,79 2,79 2,78 2,81
car 2,09 2,13 2,09 2,13 car 2,77 2,80 2,78 2,81
airport 2,13 2,17 2,14 2,16 airport 2,79 2,80 2,78 2,81
street 2.02 2,13 2,05 2,08 street 2,66 2,74 2,69 2,72
retaurant 2,10 2,12 2,09 2.11 retaurant 2,76 2,77 2,74 2,77
train 2,05 2,08 2,03 2,07 train 2,70 2,73 2,71 2,75
station 2,14 2,18 2,14 2,18 station 2,76 2,79 2,78 2,80
exhibition 2,04 2,06 2,036 2,06 exhibition 2,70 2,72 2,71 2,74

Une amélioration du score PESQ est aussi observée suite à l’introduction de l’analyse multi-
bandes basée sur l’échelle BARK, avec une légère différence par rapport à l’utilisation de l’échelle
ERB. L’analyse multi-bandes a contribuée d’une manière significative au rehaussement du signal
traité et à l’amélioration de la qualité vocale et ce à différents rapport signal sur bruit et
pratiquement pour tous les types de bruit. En effet la décomposition en banc de filtre a donné le
meilleure résultat objectif et subjectif par rapport aux méthodes de débruitage par transformée de
Fourier.
Réduction du bruit en parole continue utilisant une analyse multi-bandes 9

5 Conclusion
Dans cet article, nous avons proposé une nouvelle technique de réduction du bruit qui consiste à
intégrer une analyse en banc de filtres au processus de suppression du bruit. Nous avons, constaté
que l’utilisation d’une résolution fréquentielle suivant le comportement en bandes critiques, en
particulier l’échelle ERB, a permis d’obtenir, du point de vue perceptif et de qualité vocale, des
résultats meilleurs que ceux fournis par la soustraction spectrale. Néanmoins, le bruit résiduel peut
persister, dans ce cas, l’utilisation de la règle de suppression d’Ephraim et Malah en association
avec une analyse en banc de filtres peut améliorer la qualité et l’intelligibilité du signal vocal
rehaussé.

6 Références
[1] D. E. Tsoukalas, J. N. Mourjopoulos, and G. Kokkinakis. Speech enhancement based on audible
noise suppression, IEEE Trans. Speech and Audio Processing, vol. 5, pp. 497 514, Nov. 1997.
[2] E. Zwicker et R.Feldtkeller. Psychoacoustique- L’oreille récepteur d’information, Collection
Technique et scientifique des télécommunications, Masson,, 1981.
[3] I. Cohen, and B. Berdugo. Noise estimation by minima controlled recursive averaging for
robust speech enhancement, IEEE Signal Proc. Letters, vol. 9, no. 1, pp. 12-15, January 2002.
[4] N. Virag. Single channel speech enhancement based on masking properties of the human auditory
system, IEEE Trans. Speech and Audio Processing, vol. 7, pp. 126 137, Mar. 1999.
[5] P. Loizou, 2007. Speech Enhancement: Theory and Practice. CRC Press, Boca Raton, FL.
[6] S. F. Boll. A spectral subtraction algorithm for suppression of acoustic noise in speech, in Proc.
IEEE Int. Conf. on Acoustics, Speech, Signal Processing, Washington, DC, pp. 200-203, Apr. 1979.
[7] S. Malcolm. An efficient implemetation of the Patterson-Holdsworth, auditory filterbank, Apple
Computer Technical Report, Perception group-Advenced Technology group, 1993.
[8] TU. ITU-T P.862. Perceptual evaluation of speech quality (PESQ), an objective method for end-to-
end speech quality assessment of narrow-band telephone networks and speech codec, Geneva:
International Telecommunication Union, 2001.
[9] V. Hohmann. Frequency analysis and synthesis using a Gammatone filterbank, Acta Acustica
united with Acustica, 88(3), 433-442. (2002).
[10] Y. Ephraim, and D. Malah. Speech enhancement using a minimum mean-square error short-time
spectral amplitude estimator, IEEE transaction on acoustics speech and signal processing, vol.assp-
33,no 2, December 1985.

Vous aimerez peut-être aussi