Chapitre 3 Simulations Et Résultats

Chapitre 3
Simulations et résultats
e dernier chapitre va nous permettre de mesurer l’intérêt des techniques de débruitage de

C la parole étudiées. Diverses mesures objectives et subjectives existent pour évaluer les
performances d’une technique de débruitage. Il n’est d’ailleurs pas toujours simple d’en définir la
pertinence exacte vis-à-vis de l’oreille humaine.
De manière idéale, il n’y a pas meilleure mesure que celle faite par l’auditeur que ce soit
du point de vue qualité (souffle, bruit, naturel de la voix, clarté, …) ou de l’intelligibilité
(compréhension effective de mots ou de phrases). Malheureusement ces mesures prêtent aussi à
caution de par la spécificité auditive de chacun. Des résultats moyennés peuvent cependant être
considérés comme proches de la réalité.
Un système de traitement agissant sur onde temporelle de parole et restituant une onde
traitée permet d’utiliser un nombre important de mesures objectives, simples et largement utilisées.
La plus connue reste évidemment le rapport signal sur bruit qui permet de mesurer la distorsion
d’un signal par rapport à l’original.
39
CHAPITRE 3 : SIMULATIONS ET RESULTATS
3.1 Méthodes du test

Pour estimer la qualité du signal délivré par les algorithmes de rehaussement de la parole décrits
dans le chapitre précédant, on dispose de deux types de critères : objectif et subjectif. Les uns
s’appuient exclusivement sur des mesures physiques du signal, et les autres prennent en compte
des avis humains, basés sur des écoutes. La qualité d’un signal est difficile à évaluer de manière
systématique car nous ne connaissant pas encore de relations mathématiques susceptibles de
simuler le système auditif humain. Aussi est-il préférable d’utiliser conjointement les critères
objectifs et subjectifs.
3.1.1 Rapport signal sur bruit
Le critère objectif le plus couramment utilisé est le rapport signal sur bruit RSB (En anglais SNR :
Signal to Noise Ratio). Il est défini comme le rapport entre la puissance du signal original et la
puissance du signal d’erreur. Ce dernier représente la différence entre le signal propre sn et le
signal bruité ou rehaussé s n . L’unité utilisée est le décibel (dB). L’expression du RSB ou le
~
SNR est donnée par :
 n  N 1

  s 2  n 
RSB  10  log10  n  N 1 n 0  (3.1)
   s  n   s  n 2 
 n 0 
N représente le nombre d’échantillons considérés pour le calcul. Dans le cas où N est égal à la
quantité d’échantillons représentant le signal complet, nous parlons de rapport signal/bruit global.
Il caractérise la qualité du signal bruité ou rehaussé dans son ensemble.
Quand on détermine le RSB global, on calcul la puissance globale des deux signaux, propre
et bruité (ou rehaussé), sans tenir compte de la répartition mutuelle des énergies dans le domaine
du temps. De ce fait, on peut rencontrer des zones de faibles énergies dans lesquelles la différence
entre le signal propre et le signal bruité (ou rehaussé) est importante par rapport au signal propre.
La faible valeur des énergies respectives des deux signaux n’affecte pas le rapport signal/bruit,
cependant la dégradation du signal est audible. Pour pallier cet inconvénient, on définit le rapport
signal/bruit segmental (RSBseg) 1. Il est défini comme étant la moyenne arithmétique des rapports
1 En anglais : Segmental Signal to Noise Ratio

40
signal/bruit (en dB) calculés sur des intervalles de durée fixe. Il prend davantage en compte les
zones de faible énergie du signal que le rapport signal à bruit global. Il est défini par la relation :
 iN  N 1

 S  n
2
1 L 1 
 
RSBseg  10  log10  iN  N 1 n iN  (3.2)
L i 0

  S  n  Sˆ  n  
2

 n iN 
où L est la quantité d’intervalles pris en compte et N le nombre d’échantillons de chaque intervalle.
Il ne faut surtout pas considérer ces mesures comme des critères suffisamment
représentatifs de la qualité d’un système de rehaussement de la parole. Elles utilisent des relations
mathématiques qui ne tiennent pas compte des propriétés de l’audition humaine. Néanmoins des
tests d’écoute ont ainsi montré qu’une amélioration du rapport signal/bruit entraînait
nécessairement un accroissement de la qualité du signal synthétisé sur le plan de perception
auditive. De toute manière ces mesures de RSB doivent être accompagnées par des techniques de
mesure subjective de la qualité.
3.1.2 LLR (Log Likelihood Ratio)
La mesure LLR  Log likelihood Ratio [23,24] se base essentiellement sur la modélisation
autorégressive de la parole. Plus précisément sur le fait que l’échantillon présent d’un signal vocal
peut être prédit à partir des échantillons passés [2] :
P
x(n)   ai x(n  i )  e(n) (3.3)
i 1
où ai désigne les coefficients de prédiction linéaire, e( n) est l’erreur de prédiction et P est

l’ordre de prédicteur.
La mesure LLR peut être vue comme une distance entre les vecteurs de coefficients de
prédiction linéaire du signal propre et ceux du signal traité, elle est calculée comme suit :
a R a 
LLR  log  y x y  (3.4)
 a x R xa x 
où a x (resp. a y ) désigne le vecteur de coefficients de prédiction linéaire du signal propre (resp.
du signal traité) et R x représente la matrice d’autocorrélation du signal propre.
41
3.1.3 PESQ (Perceptual Evaluation of Speech Quality)
Plusieurs méthodes de mesure de la qualité existent, la plus principalement utilisée est la note
moyenne d’opinion (En anglais MOS : Mean Opinion Score). Le test MOS propose à l’auditeur
cinq niveaux d’appréciation possibles {1 : Mauvais ; 2 : Médiocre ; 3 : Passable ; 4 : Bon ; 5 :
Passable). Le moyennage du score sur un nombre important d’auditeurs, donne une note entre 1 et
5 de l’agrément d’écoute.
Les valeurs de MOS sont fiables car elles sont basées sur la perception humaine. Un grand
nombre d’auditeurs est requis, de sorte qu'une évaluation raisonnable puisse être faite. Ceci peut
être long (demande beaucoup de temps) et cher. Par conséquent, diverses mesures objectives ont
été développées et ont comme but de renvoyer la même valeur que celle du test MOS. Parmi eux,
on trouve le PESQ (Perceptual Evaluation of Speech Quality) normalisé par ITU-T (Union
Internationale des Télécommunications – Secteur Télécommunications) en Février 2001. Il est
adopté comme la recommandation ITU-T P.862 [25]. Il a été montré que le PESQ peut fournir des
résultats fortement corrélés avec les évaluations subjectives du test MOS.
Pour évaluer la qualité d’un signal traité par un réducteur de bruit en utilisant le PESQ,
deux entrées sont exigées : le signal traité ou signal à tester, et un signal de référence (ie. signal
original). La méthode de test est de prendre le signal de parole bruité et on le transmettre à travers
le système PESQ et on le compare avec le signal de parole original, comme illustre la figure 3.1.
Référence
PESQ MOS
Réducteur
de Bruit Signal bruité
traité
Bruit
Figure 3.1 : Système PESQ pour l’évaluation des performances d’un réducteur de bruit.
3.2 Base de données

Les tests, dans ce travail, ont été réalisés sur cinq (5) fichiers de parole prononcés en langue
anglaise. Ils sont choisis parmi les trente phrases de la base de données NOIZEUS.
42
Cette fameuse base des signaux bruités conçu au niveau de l’université de Texas à Dallas
par le laboratoire dirigé par Philipos C. Loizou afin de faciliter la comparaison des algorithmes de
réduction de bruit. Cette base contient 30 phrases sélectionnées de la base IEEE de façon qu'elles
inclure toutes les phonèmes dans la langue anglaise américaine, et sont enregistrées avec une
fréquence d’échantillonnage de 25 kHz et après un sous-échantillonnage, cette fréquence devient
8 kHz.
Les bruits réels qui ont été ajoutés par Loizou et al. aux signaux de parole propre sont les
suivants : bruit enregistré dans une voiture (noté : Car), bruit enregistré dans une restaurant (noté :
Restaurant), bruit de bavardage (noté : Babble).
Les bruits sont ajoutés aux signaux de parole propre à 4 niveaux de RSB, à savoir : 0 dB,
5 dB, 10 dB, 15 dB.
3.3 Résultats des tests

Les figures 3.2, 3.3 et 3.4 illustrent des exemples de formes d’ondes des signaux propres, bruités
et rehaussés de la 5ème phrase de la base NOIZEUS pour un bruit « Car » de la même base.
Les performances des différentes méthodes étudiées de débruitage de la parole en termes

de rapport signal sur bruit global et segmental sont données par les tableaux 3.1, 3.2 et 3.3 pour
trois genres de bruit à 4 niveaux. Dans ces tableaux, noter que la ligne « Signal bruité » donne la
qualité de la parole bruitée avant l’application du réducteur de bruit ainsi que les lignes « Berouti
», « Wiener Itératif (N=2) » , « Wiener Itératif (N=4) », et « Wiener avec estimation du SNR »
exposent les performances des méthodes de débruitage suivantes : la méthode de soustraction
spectrale de Berouti, le débruitage par filtrage de Wiener avec deux (2) itérations, le débruitage
par filtrage de Wiener avec quatre (4) itérations et le débruitage par filtrage de Wiener avec
estimation du RSB respectivement.
43
4
x 10 Signal propre
1
0.5
0
-0.5
-1
0 0.5 1 1.5 2
temps (s)
4
x 10 Signal bruité
1
0.5
0
-0.5
-1
0 0.5 1 1.5 2
temps (s)
4
x 10 Signal rehaussé
1
0.5
0
-0.5
-1
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
temps (s)
Figure 3.2 : Formes d’ondes du signal propre, du signal bruité par un bruit « Car » (RSB = 0 dB)
et du signal rehaussé par la méthode de soustraction spectrale de Berouti.
44
4
x 10 Signal propre
1
0.5
0
-0.5
-1
0 0.5 1 1.5 2
temps (s)
4
x 10 Signal bruité
1
0.5
0
-0.5
-1
0 0.5 1 1.5 2
temps (s)
Signal rehaussé
10000
5000
-5000
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

temps (s)
et du signal rehaussé par la méthode de filtrage itératif de Wiener avec 2 itérations.
45
4
x 10 Signal propre
1
0.5
0
-0.5
-1
0 0.5 1 1.5 2
temps (s)
4
x 10 Signal bruité
1
0.5
0
-0.5
-1
0 0.5 1 1.5 2
temps (s)
4
x 10 Signal rehaussé
1
0.5
0
-0.5
-1
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
temps (s)
et du signal rehaussé par la méthode de filtrage de Wiener avec estimation du RSB.
46
Tableau 3.1 : Performances des algorithmes de rehaussement de bruit en termes du rapport

signal à bruit global et segmental pour un bruit « Babble » de la base « NOIZEUS ».
Rapport Signal Rapport Signal

Critère d’évaluation
à Bruit Global à Bruit Segmental
Niveau du bruit 0 dB 5 dB 10 dB 15 dB 0 dB 5 dB 10 dB 15 dB
Signal bruité -0.61 4.39 9.39 14.40 -4.74 -1.89 0.97 4.20
Berouti 3.60 7.69 12.60 16.95 -2.19 0.68 3.66 6.88
Wiener itératif
-2.58 -2.75 -2.82 -2.98 -4.29 -4.35 -4.04 -4.19
(N=2) (*)
Wiener itératif
-1.95 -2.35 -2.59 -2.92 -3.91 -4.03 -3.82 -3.99
(N=4)
Wiener avec
2.85 6.80 11.47 15.14 -3.25 -0.59 2.44 4.92
estimation du RSB
(*)
N : Nombre d’itérations

signal à bruit global et segmental pour un bruit « Car » de la base « NOIZEUS ».

Signal bruité -0.61 4.39 9.40 14.39 -4.93 -2.36 0.74 3.82
Berouti 4.64 9.56 13.42 18.03 -1.35 1.46 4.38 7.48
Wiener itératif
-2.41 -2.78 -2.91 -3.01 -4.14 -4.40 -4.16 -4.04
(N=2) (*)
Wiener itératif
-1.87 -2.44 -2.71 -2.93 -3.66 -4.02 -3.85 -3.87
(N=4)
Wiener avec
5.26 9.34 12.59 16.51 -2.12 0.27 2.80 5.68
estimation du RSB
(*)
47

signal à bruit global et segmental pour un bruit « Restaurant » de la base « NOIZEUS ».

Signal bruité -0.61 4.39 9.39 14.39 -5.11 -2.06 1.30 4.66
Berouti 1.49 6.86 11.51 16.43 -2.62 0.30 3.88 6.87
Wiener itératif
-2.90 -3.04 -2.87 -3.02 -4.21 -4.44 -3.81 -4.29
(N=2) (*)
Wiener itératif
-2.44 -2.71 -2.69 -2.93 -3.96 -4.18 -3.69 -4.14
(N=4)
Wiener avec
1.28 5.70 10.51 14.72 -3.04 -1.12 2.40 4.94
estimation du RSB
(*)
Les performances obtenues en termes de rapport signal sur bruit segmental montrent la
supériorité de la méthode de Berouti par rapport aux autres.
Il est connu que le rapport signal sur bruit segmental n’a pas une forte corrélation avec les
mesures subjectives. Il est préférable d’utiliser d’autres critères objectifs afin de bien conclure sur
la méthode la plus performante.
Une comparaison des performances pour différents types de bruits entre les différentes
méthodes étudiées est donné par les figures 3.5, 3.6 et 3.7, en termes de PESQ et par les figures
3.8, 3.9 et 3.10 en termes de la mesure LLR.
48
2.8
2.6
2.4
2.2
PESQ
1.8
1.6
Signal bruité
Débruitage par Berouti
Débruitage par Wiener (2 itér.)
1.4
Débruitage par Wiener (Estim. RSB)
0 5 10 15
Niveau du bruit (dB)
Figure 3.5 : Performances des algorithmes de rehaussement de bruit en termes du PESQ pour
un bruit « Babble » de la base « NOIZEUS ».
49
2.8
2.6
2.4
2.2
PESQ
1.8
1.6
Signal bruité
1.4
0 5 10 15
un bruit « Car » de la base « NOIZEUS ».
50
2.8
2.6
2.4
2.2
2
PESQ
1.8
1.6
1.4
1.2 Signal bruité

1 Débruitage par Wiener (4 itér.)
0.8
0 5 10 15
un bruit « Restaurant » de la base « NOIZEUS ».
51
1.8
1.6
1.4
Signal bruité
LLR
1.2 Débruitage par Berouti

1 Débruitage par Wiener (Estim. RSB)
0.8
0.6
0.4
0 5 10 15
Figure 3.8 : Performances des algorithmes de rehaussement de bruit en termes du LLR pour un
bruit « Babble » de la base « NOIZEUS ».
52
1.8
1.6
1.4
Signal bruité
1.2 Débruitage par Wiener (2 itér.)
LLR
0.8
0.6
0.4
0.2
0 5 10 15
bruit « Car » de la base « NOIZEUS ».
53
1.8
1.6
1.4
Signal bruité
LLR
1.2 Débruitage par Berouti

1 Débruitage par Wiener (Estim. RSB)
0.8
0.6
0.4
0 5 10 15
bruit « Restaurant » de la base « NOIZEUS ».
54
Les résultats trouvés en termes de PESQ montrent l’efficacité de la méthode de soustraction

spectrale de Berouti ainsi la méthode de débruitage par filtrage de Wiener avec estimation du RSB
avec supériorité de cette dernière pour certains genres et niveaux de bruits. La technique de
débruitage par filtrage itératif de Wiener est considérée comme la plus mauvaise par rapport aux
autres.
Les performances en termes de la mesure LLR confirme également la prééminence de la

méthode de débruitage par filtrage de Wiener avec estimation du RSB.
3.4 Conclusion
La méthode de débruitage par filtrage de Wiener avec estimation du RSB offre une nette
amélioration par rapport à la méthode conventionnelle de soustraction spectrale de puissance de
Berouti. Le temps d’exécution montre que la complexité de calcul de cette méthode est minime
que les autres méthodes étudiées.
55

Chapitre 3 Simulations Et Résultats

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 3 Simulations Et Résultats

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 3

e dernier chapitre va nous permettre de mesurer l’intérêt des techniques de débruitage de

3.1 Méthodes du test

3.1.1 Rapport signal sur bruit

SNR est donnée par :

1 En anglais : Segmental Signal to Noise Ratio

où L est la quantité d’intervalles pris en compte et N le nombre d’échantillons de chaque intervalle.

3.1.2 LLR (Log Likelihood Ratio)

où ai désigne les coefficients de prédiction linéaire, e( n) est l’erreur de prédiction et P est

où a x (resp. a y ) désigne le vecteur de coefficients de prédiction linéaire du signal propre (resp.

du signal traité) et R x représente la matrice d’autocorrélation du signal propre.

3.1.3 PESQ (Perceptual Evaluation of Speech Quality)

3.2 Base de données

3.3 Résultats des tests

Les performances des différentes méthodes étudiées de débruitage de la parole en termes

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

Tableau 3.1 : Performances des algorithmes de rehaussement de bruit en termes du rapport

Rapport Signal Rapport Signal

Berouti 3.60 7.69 12.60 16.95 -2.19 0.68 3.66 6.88

Tableau 3.2 : Performances des algorithmes de rehaussement de bruit en termes du rapport

Rapport Signal Rapport Signal

Berouti 4.64 9.56 13.42 18.03 -1.35 1.46 4.38 7.48

Tableau 3.3 : Performances des algorithmes de rehaussement de bruit en termes du rapport

Rapport Signal Rapport Signal

Berouti 1.49 6.86 11.51 16.43 -2.62 0.30 3.88 6.87

1.2 Signal bruité

1.2 Débruitage par Berouti

1.2 Débruitage par Berouti

Les résultats trouvés en termes de PESQ montrent l’efficacité de la méthode de soustraction

Les performances en termes de la mesure LLR confirme également la prééminence de la

Vous aimerez peut-être aussi