Vous êtes sur la page 1sur 193

Thèse

présentée à

l’Ecole Nationale Supérieure des


Télécommunications de Bretagne
EN HABILITATION CONJOINTE AVEC L’UNIVERSITÉ
DE BRETAGNE SUD
EN COTUTELLE AVEC L’UNIVERSITÉ
MOHAMED-V-AGDAL DE RABAT
pour obtenir

le grade de : Docteur de Télécom Bretagne

mention : Traitement du Signal et Télécommunications

par

Asmaa Amehraye

Débruitage perceptuel de la parole


Soutenue le 15 mai 2009 devant la commission d’Examen :
Composition du Jury :

Président : Jacques FROMENT, Professeur à l’UBS, Vannes


Rapporteurs : Régine LE BOUQUIN JEANNÈS, professeur à l’Université de Rennes1
Yves LAPRIE, directeur de recherche au CNRS, Nancy
Examinateurs : Driss ABOUTAJDINE, professeur à l’Université MohammedV-Agdal
Ahmed TAMTAOUI, professeur à l’INPT, Rabat
Samir SAOUDI, professeur à Télécom Bretagne, Brest
Invités : Dominique PASTOR, professeur à Télécom Bretagne, Brest
Christophe BEAUGEANT, ingénieur de recherche, INFINEON
À la mémoire de mon père
Remerciements

Je tiens d’abord à remercier Dominique PASTOR pour avoir encadré cette thèse
et pour m’avoir encouragée, motivée et conseillée tout au long de mes années de thèse
sans oublier les heures de discussions fructueuses au téléphones lors des périodes de
thèse passées au Maroc.
Je remercie également le professeur Driss Aboutajdine qui as cru en mes
compétences jusqu’au bout et m’a proposé cette thèse en cotutelle pour la première
fois entre l’Université MohamedV-Agdal et Télécom Bretagne.
Je remercie vivement les professeurs Régine LE BOUQUIN JEANNÈS et Yves
LAPRIE pour avoir accepté de rapporter cette thèse. Merci pour toutes vos remarques
et questions qui ont permis de mettre plus en valeur ce document de synthèse.
Mes remerciements vont également aux membres de mon jury : M. Jacques FRO-
MENT qui a accepté de présider la soutenance, M. Ahmed TAMTAOUI et M. Chris-
tophe BEUAGEANT pour l’intérêt qu’ils ont porté à mes travaux et finalement le
professeur Samir SAOUDI pour avoir accepté de diriger cette thèse et la mener à
terme surtout administrativement.
Je garde un souvenir chaleureux de l’équipe des permanents et des thésards du
département Signal et Communications pour leur esprit de famille. Je les remercie
pour tous les bons moments passés ensemble.
Un grand merci à tous les volontaires (permanents, thésards et stagiaires), des
différents départements de Télécom Bretagne, qui se sont pris la peine de passer une
heure et demi de tests d’écoute afin que je puisse reproduire une analyse subjective de
mes algorithmes.
Merci à tout ceux que j’ai connu de l’ensemble du personnel administratif et tech-
nique de TELECOM Bretagne pour leur gentillesse, disponibilité et efficacité.
Une pensée profonde et affectueuse à ma chère mama qui m’a toujours soutenu et
fait confiance, sans elle et feu mon père, je n’aurais jamais pu partir loin de mon pays
et faire cette thèse. Merci infiniment pour vos prières.
Mes vives remerciements à mes soeurs et à mon frère pour leur solidarité, leur
encouragements, leur patience et leur amour. Sachez que votre soutien est bien plus
puissant que vous ne l’imaginez.
A mon rayon de soleil qui a éclairé le ciel gris de la Bretagne, qui m’a encouragée,
soutenue et motivée sans cesse pour arriver au bout de cette thèse, un grand merci
pour tout.
Résumé

Depuis une dizaine d’année, l’investigation des méthodes de débruitage de la parole


a permis d’atteindre des résultats spectaculaires. Cependant, certaines problématiques
et questions restent ouvertes. Une de ces problématiques est de parvenir à un compromis
entre la réduction du bruit, la distorsion du signal et le bruit résiduel et musical. L’essor
des méthodes basées sur des notions perceptuelles, essentiellement le phénomène de
masquage fréquentiel, a suscité beaucoup d’intérêt ces dernières décennies. L’objectif
de base des filtres perceptuels est de réduire le bruit sans apporter plus de distorsion
sur le signal de parole. L’une des façons d’éviter des distorsions superflues est alors
d’opérer uniquement dans les fréquences où le bruit est perceptuellement significatif.
Cependant, en procédant ainsi, le bruit initialement inaudible, et par conséquent non
pris en compte par le débruitage perceptuel, risque de devenir audible et gênant si
les masquants de ce bruit sont filtrés. C’est ce que l’on nomme dans cette thèse, le
phénomène MAN (Maskee to Audible Noise).
Les contributions majeures de cette thèse sont en premier lieu, de mettre en évidence
ce phénomène qui, à notre connaissance, n’a jamais encore été décrit et de montrer ses
effets secondaires. Ensuite, nous proposons une approche élémentaire pour remédier
au phénomène MAN grâce à un double filtrage atténuant le bruit dans toutes les
fréquences pour éviter la production de ce phénomène. Nous proposons une deuxième
approche basée sur un filtre optimal, dit anti-MAN, au sens d’un critère sélectif par
zone de fréquence. A travers ce critère, nous définissons la zone du phénomène MAN
et pouvons ainsi atténuer le bruit y contribuant.
Des évaluations comparatives sur des critères objectifs et subjectifs de qualité sont
présentées pour plusieurs types de bruit et de rapport signal à bruit. Les résultats ont
révélé la supériorité des méthodes proposées dans ce travail par rapport à des méthodes
perceptuelles récentes ne considérant pas le phénomène MAN.
Dans la suite expérimentale de ce travail, nous avons conçu deux systèmes de re-
connaissance de la parole avec HTK (Hidden Markov Models) ; l’un est basé sur des
monophones et l’autre sur des triphones. La phase d’apprentissage de ces deux systèmes
s’est déroulée en absence du bruit ; ceci nous a permis d’évaluer l’impact du débruitage
sur les performances de ces systèmes en présence de bruit. Les résultats montrent que
les méthodes qui se distinguent par rapport à des critères objectifs et même subjectifs
ne sont pas forcément celles qui rendent les systèmes de reconnaissance plus robustes.
Ces derniers sont généralement plus sensibles aux distorsions vu que le destinataire
final est une machine.
Mots clés : Débruitage perceptuel, psychoacoustique, filtrage de Wiener, mas-
quage fréquentiel, bruit musical, distorsion du signal, phénomène MAN, tests subjectifs
et objectifs, reconnaissance de la parole.
Abstract

Speech enhancement has been extensively investigated in the last years giving rise
to spectacular results. However, some problems and questions remain open. One of
these problems is to reach a compromise between noise reduction, signal distorsion
and residual musical noise. The development of methods based on perceptual notions,
mainly on the masking phenomenon, gained a lot of interest these last decades. The
basic objective of perceptual filters is to reduce noise without introducing much signal
distorsion. One way to avoid superfluous distorsion is then to operate only in frequencies
where noise is perceptually significant. However, by so processing, the initially inaudible
noise, and as such not taken into account by the perceptual denoising, can become
audible and annoying if its maskers are filtered. This is what we call in this thesis the
MAN phenomenon (Maskee to Audible Noise).
The main contributions of this thesis are the following ones. We begin by illustrating
the MAN phenomenon, which, to our knowledge, has never been presented before.
We show the side effects of this phenomenon. Then, we propose a basic approach to
correct the MAN phenomenon thanks to a double filtering that attenuates noise in all
frequencies to avoid the production of this phenomenon.
We propose a second approach based on an optimal filter called anti-MAN filter.
It is frequency selective. In this criterion, we define the MAN phenomenon location to
attenuate the noise contributing to it.
Comparative evaluation based on objective and subjective criteria is introduced
for several noise types and several signal to noise conditions. Results revealed the
superiority of the proposed methods in comparison with recently perceptual methods
not taking the phenomenon MAN into account.
We also conceived two speech recognition systems with HTK (Hidden Markov Mo-
dels Tollkit) : the first one is based on monophones and the other one on triphones. The
training of these two systems was performed in the absence of noise ; this allowed us to
assess the impact of the enhancement on the speech recognition system performance
in presence of noise. Results show that the best methods regarding objective and even
subjective criteria are not necessarily those that return the more robust recognition
systems. The latters are in general more sensitive to distorsions.
key words : Perceptual enhancement, psycho-acoustic, Wiener filtering, frequency
masking, musical noise, signal distorsion, MAN phenomenon, subjective and objective
tests, speech recognition.
Table des matières

Résumé v

Acronymes xiii

Notations xv

Liste des tableaux xvii

Liste des figures xix

1 Introduction générale 1
1.1 Présentation du problème . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Contexte, motivations et objectifs . . . . . . . . . . . . . . . . . . . . . 2
1.3 Plan du document . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Généralités sur le signal de parole 5


2.1 La parole et le bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Production du signal de parole . . . . . . . . . . . . . . . . . . . 5
2.1.2 Perception de la parole . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.3 Analyse et paramétrisation de la parole . . . . . . . . . . . . . . 6
2.1.4 Nature et caractéristiques du bruit . . . . . . . . . . . . . . . . 9
2.1.5 Qu’est ce qu’un bruit musical . . . . . . . . . . . . . . . . . . . 9
2.2 Notions de psychoacoustique . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Quelques définitions en psychoacoustique . . . . . . . . . . . . . 11
2.2.2 Modèle de Johnston pour le calcul de la courbe de masquage . . 17
2.2.3 Modèle ISO/MPEG-1 pour le calcul de la courbe de masquage 19
2.2.4 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
x TABLE DES MATIÈRES

3 Évaluation de la qualité et de l’intelligibilité de la parole 25


3.1 Qualité et intelligibilité de la parole . . . . . . . . . . . . . . . . . . . . 25
3.2 Critères subjectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.1 Analyse et présentation des résultats . . . . . . . . . . . . . . . 28
3.2.2 Analyse statistique par t-test et ANOVA . . . . . . . . . . . . . 29
3.3 Critères objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 SNR segmental (segSNR) . . . . . . . . . . . . . . . . . . . . . 33
3.3.2 Mesure d’Itakura Saito . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.3 Distance cepstrale . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.4 BSD et MBSD . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.5 PSQM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.6 PESQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4 État de l’art du débruitage mono-capteur de la parole 37


4.1 Soustraction spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1.2 Paramétrisation . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.3 Amélioration psychoacoustique . . . . . . . . . . . . . . . . . . 41
4.2 Filtrage de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.2 Amélioration psychoacoustique . . . . . . . . . . . . . . . . . . 44
4.3 MMSE et MMSE-LSA . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.2 Améliorations de l’approche Decision-Directed . . . . . . . . . . 48
4.4 Méthodes à sous-espace signal . . . . . . . . . . . . . . . . . . . . . . . 50
4.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.4.2 Amélioration psychoacoustique . . . . . . . . . . . . . . . . . . 55
4.5 Réducteurs perceptuels du bruit audible . . . . . . . . . . . . . . . . . 55
4.5.1 Approches et limitations . . . . . . . . . . . . . . . . . . . . . . 55
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5 Estimation du bruit 63
5.1 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2 Estimateur de la borne essentielle (Essentiel Supremum Estimate) . . . 66
5.2.1 Cas du bruit blanc . . . . . . . . . . . . . . . . . . . . . . . . . 66
TABLE DES MATIÈRES xi

5.2.2 Cas du bruit coloré . . . . . . . . . . . . . . . . . . . . . . . . . 70


5.3 Simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

6 Estimation de la courbe de masquage 77


6.1 Estimation à partir d’un signal débruité . . . . . . . . . . . . . . . . . 79
6.2 Ajustement de la courbe de masquage . . . . . . . . . . . . . . . . . . . 81
6.2.1 Proposition de Virag . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2.2 Proposition de Tuffy . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2.3 Proposition de Ben Aicha . . . . . . . . . . . . . . . . . . . . . 83
6.3 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.3.1 Première proposition . . . . . . . . . . . . . . . . . . . . . . . . 84
6.3.2 Deuxième proposition . . . . . . . . . . . . . . . . . . . . . . . . 89
6.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

7 Débruitage perceptuel de la parole - limitations et contributions 95


7.1 Le phénomène MAN (Maskee to Audible Noise) . . . . . . . . . . . . . 96
7.1.1 Illustration du phénomène MAN . . . . . . . . . . . . . . . . . . 96
7.2 Double filtrage pour éviter le phénomène MAN . . . . . . . . . . . . . 99
7.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2.2 Etude asymptotique du double filtrage . . . . . . . . . . . . . . 100
7.2.3 Lissage fréquentiel . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.2.4 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . 101
7.3 Filtre optimal anti-MAN . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.3.1 Critère anti-MAN . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.3.2 Dérivation du filtre perceptuel anti-MAN . . . . . . . . . . . . . 107
7.3.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . 108
7.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

8 Reconnaissance de la parole 117


8.1 Reconnaissance à bord des véhicules . . . . . . . . . . . . . . . . . . . 117
8.2 Principe de la reconnaissance vocale . . . . . . . . . . . . . . . . . . . 119
8.3 Reconnaissance de la parole en milieu bruité - Etat de l’art . . . . . . . 122
8.3.1 Paramétrage résistant au bruit . . . . . . . . . . . . . . . . . . . 123
8.3.2 Débruitage en amont . . . . . . . . . . . . . . . . . . . . . . . . 125
8.3.3 Compensation du bruit . . . . . . . . . . . . . . . . . . . . . . . 125
8.3.4 Reconnaissance audio-visuelle . . . . . . . . . . . . . . . . . . . 127
xii TABLE DES MATIÈRES

8.4 Construction d’un système de reconnaissance de la parole sous HTK . . 128


8.5 Analyse des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
8.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

9 Conclusion générale 139


9.1 Résultats principaux et apports . . . . . . . . . . . . . . . . . . . . . . 139
9.2 Perspectives de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . 140

A Echelle de notation de la norme P-835 143

B Filtre de Wiener 145

C Tables statistiques 147


C.1 Distribution de la loi de Student . . . . . . . . . . . . . . . . . . . . . 147
C.2 Distribution de la loi de Fisher . . . . . . . . . . . . . . . . . . . . . . 148

D Un Système de reconnaissance de la parole sous HTK 149


D.0.1 Avec monophone . . . . . . . . . . . . . . . . . . . . . . . . . . 149
D.0.2 Avec triphone . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

Bibliographie 159
Acronymes

ACR Absolute Category Rating


AI Articulation index
AM Amplitude Modulation
ANOVA Analyse Of VAriance
AR Auto Régressif
AMPF Ant-Man Perceptual Filtering
BMB Bruit Masquant Bruit
BMT Bruit Masquant une Tonale
BSD Bark Spectral Distortion
CCR Comparison Category Rating
C-ESE Complex Essentiel Supremum Estimate
CM Courbe de Masquage
CMN Cepstral Mean Normalization
CMOS Comparison Mean Opinion Score
CVN Cepstral Variance Normalization
DAV Détecteur d’Activité Vocale
DCT Discret Cosine Transform
DCR Degradation Category Rating
DF Double Filtring
DMOS Degradation Mean Opinion Score
DRT Diagnostic Rhyme Test
DSP Densité Spectrale de Puissance
EQM Erreur Quadratique Moyenne
FFT Fast Fourier Transform
FM Frequency Modulation
GMM Gaussian Mixture Model
HMM Hidden Markov Model
HOS High Order Statistics
HTK Hidden Markov Model Toolkit
IFFT Inverse Fast Fourier Transform
IMCRA Improved Minima Controlled Recursive Averaging
IS itakura saito
xiv ACRONYMES

ISO International Standards Organisation


LDA Linear Discriminant Analysis
LFER Low band to Full band Energy Ratio
LLR Likelihood Linear Regression
LPC Linear Predictive Coding
LRT Likelihood Ratio Test
MAP Maximum A Posteriori
MBSD Modified Bark Spectral Distortion
MFCC Mel Frequency Cepstral Coefficients
MCRA Minima Controlled Recursive Averaging
MLLR Maximum Likelihood Linear Regression
MMSE Minimum Mean Square Error
MPEG Moving Picture Experts Group
MOS Mean Opinion Score
NSNR Noisy Signal to Noise Ratio
PAQM Perceptual Audio Quality Measure
PCA Principal Component Analysis
PESQ Perceptual Evaluation of Speech Quality
PLP Perceptually Linear Predictive
PMC Parallel Model Combination
PSQM Perceptual Speech Quality Measure
PWPT Perceptual Wavelet Packet Transform
RAP Reconnaissance Automatique de la Parole
RASTA RelAtive SpecTrAl
segSNR segmental SNR
SF Spreading Function
SFM Spectral Flatness Measure
SII Speech Intelligibility Index
SKR Skewness to Kurtosis Ratio
SNR Signal to Noise Ratio
SMC Short-time Modified Coherence
SSA Soustraction Spectrale d’Amplitude
SSP Soustraction Spectrale de Puissance
STI Speech Transmission Index
STSA Short-Term Spectral Amplitude
TEO Teager Energy Operator
TFD Transformée de Fourier Discrèt
TMB Tonale Masquant Buit
Notations

s(t) Signal de parole


y(t) Signal de parole bruité
b(t) Bruit additif
S(ν) Transformée de Fourier Discrète du signal de parole à la fréquence ν
Y (ν) Transformée de Fourier Discrète du signal de parole bruité à la fréquence ν
B(ν) Transformée de Fourier Discrète du bruit à la fréquence ν
|S(ν)| Amplitude du signal de parole à la fréquence ν
|Y (ν)| Amplitude du signal de parole bruité à la fréquence ν
|B(ν)| Amplitude du bruit à la fréquence ν
γ(ν) Densité spectrale de puissance du bruit à la fréquence ν
δ(ν) Densité spectrale de puissance du signal de parole à la fréquence ν
σ 2 (ν) Variance du bruit à la fréquence ν
T (ν) Courbe de masquage du signal de parole propre
T y (ν) Courbe de masquage du signal de parole bruité
T b (ν) Courbe de masquage du bruit
Liste des tableaux

2.1 Différentes classes du bruit . . . . . . . . . . . . . . . . . . . . . . . . . 9


2.2 Bandes critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1 Échelle MOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27


3.2 Échelle CMOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3 Échelle DMOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4 Exemple : Rendement de machines . . . . . . . . . . . . . . . . . . . . 31
3.5 Classification des critères d’évaluation objective les plus communément
utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5.1 Algorithme C-ESE dans le cas du bruit blanc . . . . . . . . . . . . . . 71

7.1 La moyenne des scores MOS pour les auditeurs d’origine anglaise . . . 106
7.2 La moyenne des scores MOS pour les auditeurs de différentes nationalités106
7.3 La moyenne des scores MOS selon les échelles SIG, BACK et OVRL
pour les méthodes DF et AMPF dans les cas du bruit de voiture et du
bruit de conversation selon un rapport signal à bruit de 5 dB et 10 dB . 110

8.1 Performance des systèmes de reconnaissance à base de monophones et


triphones sur la base de test et la base de développement du corpus
TIdigits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
8.2 Taux de reconnaissance des signaux bruités à différents rapport signal à
bruit (système à base de monophones) . . . . . . . . . . . . . . . . . . 130
8.3 Taux de reconnaissance des signaux bruités à différents rapport signal à
bruit (système à base de triphones) . . . . . . . . . . . . . . . . . . . . 130

A.1 Echelle d’évaluation du signal vocal . . . . . . . . . . . . . . . . . . . . 143


A.2 Echelle d’évaluation du bruit de fond . . . . . . . . . . . . . . . . . . . 143
A.3 Echelle d’évaluation de la qualité globale . . . . . . . . . . . . . . . . . 143

D.1 Dictionnaire de la base TIdigits . . . . . . . . . . . . . . . . . . . . . . 150


xviii LISTE DES TABLEAUX

D.2 Grammaire de la base TIdigits . . . . . . . . . . . . . . . . . . . . . . . 150


D.3 Fichier de configuration pour la phase de l’analyse acoustique . . . . . 151
D.4 Fichiers de transcription en mots et phonèmes . . . . . . . . . . . . . . 151
D.5 Fichier prototype d’initialisation . . . . . . . . . . . . . . . . . . . . . . 152
Liste des figures

1.1 Cadre générale de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1 Modèle simple de production de la parole . . . . . . . . . . . . . . . . . 6


2.2 Détermination de la fréqeunce fondamentale par cepstre . . . . . . . . . 8
2.3 Chaı̂ne de calcul des coefficients MFCC . . . . . . . . . . . . . . . . . . 8
2.4 Spectre d’amplitude en 3D, à travers 20 trames, d’un échantillon de
signal de parole : (a) Signal propre (b) Signal débruité par filtrage de
Wiener avec une nette présence de bruit musical . . . . . . . . . . . . 11
2.5 Seuil d’audition absolu . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 Courbes d’isosonie de Fletcher et Munson . . . . . . . . . . . . . . . . 13
2.7 Effet de masquage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.8 Masquage fréquentiel : (a) Tonale Masquant un Bruit (b) Bruit Mas-
quant une Tonale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.9 Masquage temporel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.10 Maximums locaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.11 Composantes tonales et non tonales . . . . . . . . . . . . . . . . . . . . 21
2.12 Seuil de masquage global . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.1 Résultats d’ANOVA correspondant à l’exemple du rendement de trois


machines à cinq ouvriers chacune . . . . . . . . . . . . . . . . . . . . . 31

4.1 Modèle de débruitage utilisé dans ce document . . . . . . . . . . . . . . 37


4.2 Parties transitoires de la parole . . . . . . . . . . . . . . . . . . . . . . 49
4.3 Débruitage à sous-espace signal . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Distorsion et bruit résiduel en fonction du RSB a priori ξ . . . . . . . . 58
4.5 Distorsion, bruit résiduel et courbe de masquage . . . . . . . . . . . . . 59
4.6 Distorsion, bruit residuel et courbe de masquage : intersection entre la
courbe de masquage et l’erreur quadratique moyenne . . . . . . . . . . 59
xx LISTE DES FIGURES

5.1 Spectrogramme d’un signal bruité par un bruit de conversation (Babble)


à 5dB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2 C-ESE appliqué à toutes les trames par canal de fréquence donné dans
le cas d’un bruit coloré . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3 Évolution du MSE par trame pour un signal de parole donné . . . . . 73
5.4 MSE correspondant à chaque estimateur dans le cas du bruit blanc gaus-
sien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.5 MSE correspondant à chaque estimateur dans le cas du bruit Babble . 74
5.6 MSE correspondant à chaque estimateur dans le cas du bruit de voiture
(Volvo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.7 segSNR moyen correspondant à chaque estimateur dans le cas du bruit
blanc gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.8 segSNR moyen correspondant à chaque estimateur dans le cas du bruit
Babble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.9 segSNR moyen correspondant à chaque estimateur dans le cas du bruit
de voiture (Volvo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

6.1 Estimation de la Courbe de Masquage CM vs Densité Spectrale de puis-


sance d’un bruit blanc gaussien BBG : (a) Sous-estimation (b) Sur-
estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2 Estimation de la Courbe de Masquage (CM) par filtrage de Wiener et
soustraction spectrale (SSP) sur deux exemples de trames : l’une est
voisée et l’autre est non voisée. . . . . . . . . . . . . . . . . . . . . . . 80
6.3 Correction de l’estimation de la Courbe de Masquage CM par la méthode
Ben Aicha avec un indice de tonalité constant sur toutes les fréquences 85
6.4 Correction de l’estimation de la Courbe de Masquage CM par la méthode
Udrea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.5 Modification de la correction de l’estimation de la Courbe de Masquage
CM par la méthode Udrea améliorée dans le cas du filtrage par Wiener 88
6.6 Exemple de comparaison entre la densité spectrale issue du modèle AR
et celle par périodogramme . . . . . . . . . . . . . . . . . . . . . . . . 90
6.7 Estimation de la courbe de masquage CM par densité spectrale issue du
modèle AR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.8 Estimation de la courbe de masquage CM par densité spectrale issue du
modèle AR appliqué au signal débruité par Wiener . . . . . . . . . . . 93
6.9 Correction de l’estimation de la Courbe de Masquage CM en fonction
du NSNR et du SSNR . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

7.1 Maskee to audible noise phenomenon description . . . . . . . . . . . . . 97


7.2 Atténuation spectrale du signal implique une atténuation de sa courbe
de masquage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
LISTE DES FIGURES xxi

7.3 Apparition du phénomène MAN après filtrage du bruit audible uniquement 98


7.4 Principe du double filtrage DF pour une trame k donnée . . . . . . . . 99
7.5 Impact du paramètre q . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.6 Effet du lissage sur la fonction du gain du débruitage . . . . . . . . . . 101
7.7 Comparaison en terme de moyenne de MBSD dans le cas de parole
bruitée par un bruit blanc, un bruit de conversation et un bruit de
voiture respectivement . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.8 Comparaison en terme de moyenne de SSNR dans le cas de parole bruitée
par un bruit blanc, un bruit de conversation et un bruit de voiture
respectivement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7.9 Comparaison en terme de moyenne de PESQ dans le cas de parole bruitée
par un bruit blanc, un bruit de conversation et un bruit de voiture
respectivement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.10 Disparition du phénomène MAN après filtrage AMPF . . . . . . . . . . 109
7.11 Comparaison en terme de MBSD, PESQ et SSNR dans le cas du bruit
blanc (en supposant connaı̂tre la variance du bruit . . . . . . . . . . . . 111
7.12 Comparaison en terme de MBSD, PESQ et SSNR dans le cas du bruit
babble (en supposant connaı̂tre la variance du bruit) . . . . . . . . . . 112
7.13 Comparaison en terme de MBSD, PESQ et SSNR dans le cas du bruit
car (en supposant connaı̂tre la variance du bruit) . . . . . . . . . . . . 113
7.14 Comparaison en terme de MBSD, PESQ et SSNR dans le cas du bruit
blanc gaussien (DAV G729) . . . . . . . . . . . . . . . . . . . . . . . . 114
7.15 Comparaison en terme de MBSD, PESQ et SSNR dans le cas du bruit
babble (DAV G729) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7.16 Comparaison en terme de MBSD, PESQ et SSNR dans le cas du bruit
car (DAV G729) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

8.1 Architecure d’un système de reconnaissance de la parole par HMM . . . 119


8.2 Exemple de structure à 5 états d’un HMM. Les états q2 , q3 et q4 sont
émetteurs alors que l’état initial q1 et l’état final q5 ne génèrent pas
d’observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
8.3 Architecture des systèmes de Reconnaissance Automatique de la Parole
robustes au bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
8.4 Taux de reconnaissance par monophones sur des signaux bruités par un
bruit blanc et débruités par différentes méthodes en supposant connaı̂tre
la variance du bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
8.5 Taux de reconnaissance par monophones sur des signaux bruités par un
bruit de conversation et débruités par différentes méthodes en supposant
connaı̂tre la variance du bruit . . . . . . . . . . . . . . . . . . . . . . . 132
xxii LISTE DES FIGURES

8.6 Taux de reconnaissance par monophones sur des signaux bruités par
un bruit de voiture et débruités par différentes méthodes en supposant
connaı̂tre la variance du bruit . . . . . . . . . . . . . . . . . . . . . . . 133
8.7 Taux de reconnaissance par monophones sur des signaux bruités par un
bruit blanc et débruités par différentes méthodes en estimant la variance
du bruit pendant les pauses fournies par le DAV G729 . . . . . . . . . . 133
8.8 Taux de reconnaissance par monophones sur des signaux bruités par un
bruit de conversation et débruités par différentes méthodes en estimant
la variance du bruit pendant les pauses fournies par le DAV G729 . . . 134
8.9 Taux de reconnaissance par monophones sur des signaux bruités par un
bruit de voiture et débruités par différentes méthodes en estimant la
variance du bruit pendant les pauses fournies par le DAV G729 . . . . . 134
8.10 Taux de reconnaissance par triphones sur des signaux bruités par un
bruit blanc et débruités par différentes méthodes en supposant connaı̂tre
la variance du bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.11 Taux de reconnaissance par triphones sur des signaux bruités par un
bruit de conversation et débruités par différentes méthodes en supposant
connaı̂tre la variance du bruit . . . . . . . . . . . . . . . . . . . . . . . 135
8.12 Taux de reconnaissance par triphones sur des signaux bruités par un
bruit de voiture et débruités par différentes méthodes en supposant
connaı̂tre la variance du bruit . . . . . . . . . . . . . . . . . . . . . . . 136
8.13 Taux de reconnaissance par triphones sur des signaux bruités par un
bruit blanc et débruités par différentes méthodes en estimant la variance
du bruit pendant les pauses fournies par le DAV G729 . . . . . . . . . . 136
8.14 Taux de reconnaissance par triphones sur des signaux bruités par un
bruit de conversation et débruités par différentes méthodes en estimant
la variance du bruit pendant les pauses fournies par le DAV G729 . . . 137
8.15 Taux de reconnaissance par triphones sur des signaux bruités par un
bruit de voiture et débruités par différentes méthodes en estimant la
variance du bruit pendant les pauses fournies par le DAV G729 . . . . . 137

D.1 Fixation du modèle de silence Sp . . . . . . . . . . . . . . . . . . . . . 154


1
CHAPITRE
Introduction générale

1.1 Présentation du problème

Le problème de débruitage de la parole n’est pas récent. Cependant, il constitue


toujours un champ d’étude vaste et encore riche d’idées. L’objectif est de restaurer un
signal utile à partir d’observations corrompues par un bruit souvent considéré additif.
Cette hypothèse est souvent utilisée, à la fois pour sa simplicité, mais aussi car elle
permet de modéliser un grand nombre de situations pratiques. Le signal observé est
donc considéré comme la somme du signal de parole et du bruit ambiant. Ce modèle
omet tout bruit convolutif, électrique ou de quantification.
Les méthodes classiques, comme la soustraction spectrale ou le filtrage de Wiener,
réussissent à réduire le bruit additif, mais en contrepartie, introduisent un bruit résiduel
(bruit musical) gênant pour la perception humaine. Le besoin de réduire ce type de
bruit tout en préservant l’intelligibilité de la parole a poussé les chercheurs à proposer
d’autres solutions à ce problème, mais aussi à réduire certaines limitations des systèmes
mono-capteur de débruitage de la parole (estimation du bruit, détection de l’activité
vocale...).
Ces premières tentatives ont apporté des améliorations sur la procédure classique
de soustraction spectrale afin d’éviter ses effets indésirables et d’améliorer ainsi l’in-
telligibilité de la parole. Mais par la suite, vu les progrès du traitement du signal,
de nouvelles solutions ont été proposées, par exemple, l’emploi des ondelettes et les
méthodes à sous-espace signal.
En codage de la parole, des progrès ont été réalisés en exploitant les propriétés de la
perception auditive de l’être humain à travers le phénomène de masquage. Les travaux
en débruitage de la parole ont commencé récemment à suivre cette tendance qui semble
fructueuse. Le phénomène de masquage prouve la non objectivité de l’interprétation
des sons par notre cerveau. En effet, l’existence physique d’un son ne garantit pas sa
perception auditive par notre cerveau. Ceci est dû à la possibilité qu’il soit masqué
par la présence d’un autre son plus puissant. Il est donc possible de conserver un bruit
tant que celui-ci reste inaudible. Il existe deux variétés de masquage : fréquentiel et
temporel. Dans le cadre des applications audio, notamment le débruitage, le phénomène
le plus exploité est le masquage fréquentiel. Le masquage temporel est quant à lui
rarement utilisé car difficile à modéliser et à exploiter ; en plus il est de faible influence
par rapport au masquage fréquentiel. La modélisation du phénomène de masquage
2 CHAPITRE 1 : Introduction générale

Figure 1.1 — Cadre générale de la thèse

fréquentiel est faite par le calcul de la courbe de masquage qui représente les points
de pression acoustique nécessaires pour qu’un son test soit perçu en présence d’un son
masquant.
L’intérêt s’est porté aussi sur l’amélioration des mesures de qualité de la parole en
vue d’une évaluation plus objective s’approchant au mieux du jugement de l’auditeur.
Bien que les tests subjectifs soient plus décisifs et traduisent l’opinion des sujets hu-
mains, leur coûteuse mise en œuvre a nécessité le développement d’autres critères. Les
plus usuels sont ceux évaluant la qualité de la parole débruitée en terme de distorsion
de forme en comparaison avec le signal de parole de référence. Certes, ce type de me-
sure délivre une information sur les performances du débruiteur, mais ne garantit pas
d’obtenir une qualité perçue qui peut satisfaire l’auditeur, d’où la proposition de me-
sures objectives de qualité se basant sur des notions de psychoacoustique pour simuler
la perception humaine sans avoir besoin d’effectuer des tests subjectifs.
L’axe psychoacoustique semble prometteur et ses bénéfices sont évidents sur les
systèmes de débruitage de la parole. La combinaison des deux constitue de nos jours
un champ d’étude qui peut encore évoluer si l’on arrive à surmonter certaines difficultés
en relation avec le calcul de la courbe de masquage et l’estimation du bruit.

1.2 Contexte, motivations et objectifs


Le cadre générale de cette est résumé dans la figure 1.1. On se place dans la situation
d’un seul canal de réception (système monocapteur) où l’observé est un signal de parole
bruité additivement. Les algorithmes de débruitage traités sont non-paramétriques du
fait qu’ils n’exigent pas de connaissances a priori sur les signaux observés, contraire-
ment aux méthodes paramétriques dont l’information a priori est souvent encapsulée
dans la fonction de densité de probabilité, pdf (attribution d’une pdf à cause de la
nature aléatoire des données). L’intérêt de se placer dans le cas des systèmes mono-
capteurs vient du fait que les applications visées sont l’amélioration de l’intelligibilité
Section 1.3 : Plan du document 3

audio et la reconnaissance automatique de la parole pour la téléphonie mobile et la


téléphonie mains-libres à bord des véhicules. Pour ce type d’applications, on dispose
souvent d’un seul système de restitution pour des raisons de conception comme pour
des raisons de coût.
Partant du principe que les bénéfices d’introduire des notions de psychoacoustique
dans les systèmes de débruitage de la parole sont prometteurs, notre intérêt s’est donc
porté sur des algorithmes tenant compte de ces notions. Le but est de concevoir un
algorithme de débruitage perceptuel de la parole qui soit performant.
Nos travaux sont complétés par une étude de l’impact du débruitage, comme étape
de pré-traitement, sur les performances des systèmes de Reconnaissance Automatique
de la Parole (RAP) en présence du bruit et à différents rapports signal à bruit.
Enfin, de nombreux tests subjectifs sont réalisés, dans diverses conditions de bruit
et de rapport signal à bruit, pour évaluer plus précisément la qualité des débruiteurs
étudiés. Compte-tenu de cet avant propos du document, comment ce dernier est-il
organisé ?

1.3 Plan du document


Le premier chapitre tient lieu d’introduction générale pour le reste du document.
Ce chapitre permet notamment de situer les problèmes abordés par rapport au cadre
plus général et de présenter l’organisation des chapitres de ce document.
Dans le deuxième chapitre nous abordons des généralités sur le signal de parole,
le bruit et les notions de psychoacoustique. La mise en place de ces notions permet
de mieux suivre les autres chapitres et d’avoir une idée sur les subtilités qui accom-
pagnent le signal, de sa production à sa perception. Ce deuxième chapitre se conclut
par une description du phénomène de masquage et du choix du modèle permettant de
le modéliser parmi deux systèmes présentés.
Le chapitre 3 donne les définitions des critères d’évaluation de la qualité et de l’intel-
ligibilité de la parole. Ces deux notions sont ici différenciées alors qu’elles sont souvent,
et malheureusement, confondues. Un signal peut donc être de mauvaise qualité, tout
en ayant une bonne intelligibilité, ou l’inverse.
Le chapitre 4 constitue une présentation, surtout bibliographique, des techniques
classiques et plus sophistiquées de réduction de bruit de fond fonctionnant selon le
principe d’atténuation spectrale à court-terme. L’étude bibliographique menée nous
a permis d’extraire les points clés de chaque méthode et de décrire les améliorations
apportées au fil des années. Nous allons également aborder le fait qu’en adoptant
un filtrage linéaire, on est obligé de faire un compromis entre réduction du bruit et
distorsion du signal, la réduction simultanée des deux étant impossible à atteindre.
Les chapitres sont en rapport avec des problèmes d’estimation concernant le bruit et
la courbe de masquage. Ces deux éléments sont indispensables à l’emploi des méthodes
de débruitage perceptuel. Dans le chapitre 5, nous résumons les principales méthodes
usuelles de l’estimation du bruit. Nous concluons le chapitre par la présentation d’un
algorithme d’estimation de la variance du bruit, que nous avons eu l’occasion d’étudier
4 CHAPITRE 1 : Introduction générale

de près et qui ne requiert aucun a priori sur les distributions des signaux à part des
hypothèses statistiques et de parcimonie sur les signaux. Quant au chapitre 6, nous
le consacrons à l’estimation de la courbe de masquage. Il nous a permis de parcourir
les quelques travaux peu nombreux sur la correction de l’estimation de la courbe de
masquage et de présenter deux approches constituant notre contribution par rapport
à cette partie.
Le chapitre 7 constitue la contribution majeure de cette thèse. Nous le commençons
en décrivant les limitations des approches perceptuelles qui traitent uniquement le bruit
audible. Ensuite, nous décrivons et illustrons un phénomène dénommé MAN (Maskee to
Audible Noise), nous montrons ses effets secondaires et nous enchaı̂nons en proposant
deux solutions donnant lieu à deux filtrages peceptuels dont l’un est optimal. Nous
évaluons l’apport des méthodes proposées par rapport à d’autres et nous concluons par
présenter et analyser les résultats obtenus.
Le dernier chapitre, avant la conclusion générale, concerne l’application du
débruitage à la reconnaissance automatique de la parole en présence du bruit. Nous
présentons le principe de fonctionnement des systèmes de reconnaissance de la parole
et nous décrivons les différentes classes de méthodes destinées à rendre ces systèmes
robustes au bruit. Le débruitage de la parole en fait partie, raison pour laquelle nous
avons conçu deux systèmes de références, qui vont nous permettre de voir l’influence
du débruitage sur les performances de ces systèmes en présence du bruit.
Enfin, ce mémoire s’achève par un chapitre de conclusion des principaux apports et
résultats et traçant à la fin les perspectives de recherche liées au débruitage perceptuel
et à la reconnaissance automatique de la parole.
2
CHAPITRE
Généralités sur le signal
de parole

2.1 La parole et le bruit


Notre environnement est souvent bruité, les applications audio se trouvent ainsi
confrontées au bruit ambiant. Ce chapitre résume les principales caractéristiques de la
parole et du bruit : pour la parole, de sa production à sa modélisation ; pour le bruit,
on citera les caractéristiques temporelles et spectrales de certains types de bruits liés
aux applications de téléphonie mobile et de téléphonie mains libres à bord de véhicules.

2.1.1 Production du signal de parole


Le signal de parole est le résultat de l’excitation du conduit vocal par un train d’im-
pulsions ou un bruit donnant lieu respectivement aux sons voisés et non voisés figure
2.1 [Rabiner 07]. Dans le cas des sons voisés, l’excitation est une vibration périodique
des cordes vocales suite à la pression exercée par l’air provenant de l’appareil respira-
toire. Ce mouvement vibratoire correspond à une succession de cycles d’ouverture et de
fermeture de la glotte. Le nombre de ces cycles par seconde correspond à la fréquence
fondamentale F0 . Quant au signaux non-voisés, l’air passe librement à travers la glotte
(du moins pas dans tout le conduit vocal) sans provoquer de vibration des cordes
vocales.

2.1.2 Perception de la parole


Le signal de parole est un vecteur acoustique porteur d’informations d’une grande
complexité, variabilité et redondance. Les caractéristiques de ce signal sont appelées
traits acoustiques. Chaque trait acoustique a une signification sur le plan perceptuel.
Le premier trait est la fréquence fondamentale, fréquence de vibration des cordes
vocales. Ses variations définissent le pitch qui constitue la perception de la hauteur
(où les sons s’ordonnent de grave à aigu). Seuls les sons quasi-périodiques (voisés)
engendrent une sensation de hauteur tonale bien définie.
Le deuxième trait est le spectre fréquentiel dont dépend principalement le
timbre de la voix. Le timbre est une caractéristique permettant d’identifier une per-
6 CHAPITRE 2 : Généralités sur le signal de parole

Figure 2.1 — Modèle simple de production de la parole

sonne à la simple écoute de sa voix. Le timbre dépend de la corrélation entre la fréquence


fondamentale et les harmoniques qui sont les multiples de cette fréquence.
Le dernier trait acoustique est l’énergie correspondant à l’intensité sonore. Elle est
habituellement plus forte pour les segments voisés de la parole que pour les segments
non voisés.

2.1.3 Analyse et paramétrisation de la parole

Le signal de parole est un processus aléatoire non-stationnaire à long terme, mais


il est considéré comme stationnaire dans des fenêtres temporelles d’analyse de l’ordre
de 20 à 30ms. Cette propriété de stationnarité à court terme permet donc une analyse
et modélisation progressive du signal de parole accompagnée, bien sûr, d’un chevau-
chement de fenêtres pour permettre une continuité temporelle des caractéristiques de
l’analyse et du modèle.

Analyse LPC : Dans l’analyse par prédiction linéaire LPC, le conduit vocal est
modélisé par une fonction de transfert qui suit un modèle autorégressif. Cette analyse
est fort utilisée dans le codage de parole dans le but de réduire la redondance du signal
vocal, ou pour extraire des paramètres pertinents pour la reconnaissance de parole
[Young 06]. L’estimation des coefficients de la fonction de transfert du conduit vocal
est faite en supposant connaı̂tre le signal d’excitation. Pour les sons non voisés, le signal
d’excitation est un bruit blanc de moyenne nulle et de variance unité. Pour les sons
voisés, cette excitation est une suite d’impulsions d’amplitude unité. La fonction de
transfert du conduit vocal dans le domaine Z est donnée par

S(z) G
H(z) = = (2.1)
U(z) 1 − A(z)
Section 2.1 : La parole et le bruit 7

p
X
où A(z) = ak z −k est le prédicteur linéaire, ak sont les coefficients de prédiction,
k=1
S(z) est le signal de parole produit en sortie, U(z) est le signal d’excitation et G est un
gain. Le signal de parole s(n) à la sortie du modèle est donc représenté par la somme
d’une combinaison linéaire des échantillons précédents et de la fonction d’excitation,
tel que
p
X
s(n) = ak s(n − k) + Gu(n). (2.2)
k=1

Le modèle de prédiction exploite le fait que les échantillons successifs du signal de


parole sont corrélés ; d’où l’intérêt de ce modèle dans le codage de la parole dans le
sens où il permet de représenter la parole juste par ses paramètres pertinents, sans
redondance. Signalons également que les coefficients sont choisis de façon à minimiser
l’erreur quadratique de prédiction sur chaque segment de la fenêtre d’analyse.

Cepstre : Le cepstre est basé sur une connaissance du modèle de production de la


parole. Comme nous l’avons vu dans la section précédente, une modélisation du signal
de parole consiste à définir ce signal comme le résultat de la convolution de la fonction
de transfert du conduit vocal (filtre) par un signal d’excitation (source). Le but du
cepstre est de séparer ces deux contributions (source et filtre) par application de la
déconvolution à travers une transformée en cosinus discret. Le processus de calcul du
cepstre est le suivant où s, u et h le signal de parole, le signal d’excitation (source) et
la fonction de transfet du conduit vocal (filtre),

s=u∗h (2.3)

TFD(s) = UH (2.4)
Le logarithme de l’amplitude transforme le produit de la TFD en somme. On obtient
alors :
log |S(ν)| = log |U| + log |H| (2.5)
Par transformation en cosinus discret (DCT), on obtient le cepstre. L’expression du
cepstre réel est donc :
c = DCT(log(TFD(s))). (2.6)
L’espace fréquentiel de représentation du cepstre est équivalent à un espace temporel.
A partir du cepstre (Fig. 2.2), il est possible de définir la fréquence fondamentale de la
source u en détectant les pics périodiques (harmoniques) au-delà d’un certain nombre
N de coefficients. En effet, les N premiers points du cepstre contiennent l’information
la plus pertinente sur le spectre et permettent d’obtenir un spectre lissé, débarrassé des
harmoniques dûs à la contribution de la source. Cependant, déterminer la fréquence
fondamentale d’un signal de parole reste encore un problème difficile. En effet, les
algorithmes classiques manquent de robustesse quand le bruit est présent, quand la
fréquence fondamentale change rapidement ou quand la valeur de celle-ci n’est pas
assez élevée.
8 CHAPITRE 2 : Généralités sur le signal de parole

Signal temporel
0.1
Amplitude

0.05
0
−0.05
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14
Temps (s)
50
Puissance (dB)

Spectre
0

−50

−100
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Fréquence (Hz)
400
Cepstre
Fréquence fondamentale
Amplitude

200

0
0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02
Quéfrence (s)

Figure 2.2 — Détermination de la fréqeunce fondamentale par cepstre

L’analyse cepstrale est basée sur un calcul de coefficients dits coefficients cepstraux
de Mel, soit en abrégé MFCC (Mel Frequency Cepstral Coefficients). Le calcul est en ef-
fet basé sur une échelle de Mel. Cette échelle se rapproche de la perception fréquentielle
de l’oreille. L’idée est de moyenner le spectre dans des bandes de fréquence correspon-
dant grossièrement au filtrage effectué par la membrane basilaire. L’échelle Mel est
approchée par un banc de 15 à 24 filtres triangulaires espacés linéairement jusqu’à
1 KHz, puis espacés logarithmiquement jusqu’aux fréquences maximales. Elle a été
conçue de telle façon que 1000 Hz correspondent à 1000mels. La formule de conversion

Fenêtrage
Banc de filtres Log| . | Transformée en MFCC
s(n) + FFT
Mel cosinus Discrét
pré−accentuation

Figure 2.3 — Chaı̂ne de calcul des coefficients MFCC

du hertz en mel la plus utilisée est la suivante :


fHz
mel = 2595 log10 (1 + ). (2.7)
700
La procédure de calcul pas à pas des MFCC est la suivante (voir la figure 2.3) :
– Découpage en trame (stationnarité), chevauchement (éviter les transitions
brusques de trame en trame).
Section 2.1 : La parole et le bruit 9

– Pré-accentuation (pour donner plus d’énergie et renforcer la contribution des


hautes fréquences) avec un filtre passe-haut de la forme 1 − 0.9z −1 puis fenêtrage
de Hanning (pour la continuité aux bords).
– Calcul de la TFD sur chaque trame.
– Filtrage par un banc de filtres triangulaires répartis le long de l’échelle de Mel.
– Calcul du logarithme du module de l’énergie en sortie du banc de filtres.
– Application de la Transformée en Cosinus Discrète inverse (joue le rôle d’une
TFD inverse).
– Seuls les premiers coefficients sont conservés. Par exemple, dans la reconnaissance
de la parole par HTK (Chapitre 7), on utilise les 12 premiers coefficients. Le
premier coefficient c0 représente l’énergie mais peut être remplacé par le log de
l’énergie moyenne des échantillons.

2.1.4 Nature et caractéristiques du bruit


On appelle bruit tout signal nuisible qui se superpose au signal utile en un point
quelconque d’une chaı̂ne de mesure ou d’un système de transmission. Il constitue donc
une gêne dans la compréhension du signal utile, qui est dans notre cas, la parole. En
physique, en acoustique et en traitement du signal, bien que le bruit soit, par nature,
aléatoire, il possède certaines caractéristiques statistiques, spectrales ou spatiales. Le
tableau 2.1, extrait de [Virag 99], représente les différentes classes auxquelles un bruit
peut appartenir.

Propriétés Types
Structure Continu/Impulsif/Périodique
Type d’interaction Additif/Multiplicatif/Convolutif
Comportement temporel Stationnaire/Non-stationnaire
Bande de fréquence étroit/large
Dépendance Corrélé/ Décorrélé
Propriétés statistiques Dépendant/Indépendant
Propriétés spatiales Cohérent/Incohérent

Tableau 2.1 — Différentes classes du bruit

Comme notre but est essentiellement le débruitage et la reconnaissance de la pa-


role pour des applications de téléphonie mobile et de téléphonie mains libres à bord
de véhicules, on se limite dans notre étude aux bruits additifs, stationnaires ou non
stationnaires, et décorrélés avec la parole (indépendance au sens statistique), tels que
le bruit de conversation appelé Babble, le bruit de voiture appelé (car) et le bruit blanc
gaussien (ce dernier est souvent utilisé mais peu réaliste).

2.1.5 Qu’est ce qu’un bruit musical


Le bruit musical est un bruit résiduel perceptuellement gênant qui apparaı̂t suite au
débruitage de la parole par des algorithmes d’atténuation spectrale à court terme tels
que la soustraction spectrale ou le filtrage de Wiener. Le spectre du bruit musical est
10 CHAPITRE 2 : Généralités sur le signal de parole

particulièrement tonal, d’où le caractère musical. Son énergie moyenne est plus faible
que celle du bruit initial, mais sa dispersion en fréquence est plus grande, ce qui le
rend plus gênant que le bruit de départ du point de vue perception. Parmi les raisons
d’apparition de ce type de bruit [Loizou 07, Cappe 94], on cite :
– Le traitement non linéaire des composantes négatives du signal débruité,
– L’estimée non précise de la densité spectrale de bruit,
– L’estimation basée sur des périodogrammes,
– La variabilité de la fonction de gain appliquée au signal bruité,
– La variance des estimateurs locaux de la densité spectrale des signaux...
Soient respectivement yk (t), sk (t) et bk (t), t = 0, 1, . . . , N − 1, le signal bruité, le
signal propre et le bruit dans la k ème trame. On a donc, yk (t) = sk (t) + bk (t). Les
Transformées de Fourier Discrètes (TFDs) de ces signaux sont respectivement notées
Yk (ν), Sk (ν) et Bk (ν), ν = 0, 1, . . . , N − 1 et nous avons Yk (ν) = Sk (ν) + Bk (ν). Ces
notations seront conservées tout au long de ce manuscrit.
Pour un problème de débruitage linéaire classique où l’on cherche un estimateur
Hk (ν) tel que Sbk (ν) = Hk (ν)Yk (ν), l’erreur dûe à ce filtrage est la suivante :

ek (ν) = Sk (ν) − Sbk (ν)


= (Hk (ν) − 1)Sk (ν) + Hk (ν)Bk (ν). (2.8)

L’expression (Hk (ν) − 1)Sk (ν) représente la distorsion du signal tandis que
Hk (ν)Bk (ν) désigne le bruit résiduel contenant le bruit musical. Dans le cas où
0 ≤ Hk (ν) ≤ 1, il est généralement très difficile de réduire le bruit musical sans
apporter de distorsion sur le signal. Le besoin d’un compromis entre la distorsion et
le bruit musical s’avère donc le meilleur moyen pour augmenter les performances en
qualité et intelligibilité. Pour illustrer le bruit musical, on a choisi de représenter le
spectre d’amplitude, le long de plusieurs trames, d’un échantillon de signal de parole
auquel on a ajouté un bruit blanc gaussien à 5 dB. Ce signal bruité est par la suite
débruité par un filtrage de Wiener classique afin d’obtenir une estimée du signal propre
de départ. La figure 2.4, décrit, donc, la distribution aléatoire des pics spectraux du
bruit musical en sortie du filtre de Wiener.
Le chapitre IV présentera une synthèse des méthodes visant à traiter ce type de
bruit pour améliorer les performances du débruitage de la parole.

2.2 Notions de psychoacoustique


La psychoacoustique est l’étude de la perception des sons. Elle rassemble et décrit
les relations qui existent entre le phénomène acoustique physique, sa perception par
notre oreille et la description que l’on en fait. L’oreille humaine perçoit un son pur dans
l’intervalle de 20 Hz à 20 kHz ; cet intervalle est variable selon les individus et décroı̂t
avec l’âge. Il existe un seuil d’audition absolu en dessous duquel l’oreille ne perçoit pas
de son (figure 2.5). Ce seuil caractérise l’énergie dont a besoin un son pur pour être
perçu par l’oreille en silence absolu. Il existe également un seuil traduisant la limite
supérieure de la perception de l’oreille. Il est connu sous le nom de seuil de douleur
Section 2.2 : Notions de psychoacoustique 11

1.5

Amplitude
1

0.5

0
40
4000
30 3000
2000
1000
Numéro de la trame 20 0
Fréquence(Hz)

1.5
Amplitude

0.5

0
40
4000
30 3000
2000
1000
Numéro de la trame 20 0
Fréquence(Hz)

Figure 2.4 — Spectre d’amplitude en 3D, à travers 20 trames, d’un échantillon de


signal de parole : (a) Signal propre (b) Signal débruité par filtrage de Wiener avec
une nette présence de bruit musical

car des douleurs aiguës de l’oreille apparaissent à ce niveau. Il se situe à environ 130
dB. Expérimentalement, on s’arrête à 90 dB, car là d’ores et déjà les dégradations de
l’audition apparaissent [Zwicker 81].

2.2.1 Quelques définitions en psychoacoustique


Afin de mieux comprendre le fonctionnement interne de notre système auditif, il
est important de rappeler les définitions de certaines notions qui sont souvent sujet
d’ambiguı̈té.

Son pur, son complexe : Un son pur, désigné dans le jargon de la psychoacoustique
par le terme de tonale, génère une pression acoustique sinusoı̈dale dans le temps. Le
niveau acoustique de ce son est représenté sur une échelle logarithmique. Il a l’allure
d’une seule raie en fréquence. Un son pur est rarement rencontré dans la nature. Les
sons les plus fréquents sont complexes. Un son complexe est généré par une combinaison
12 CHAPITRE 2 : Généralités sur le signal de parole

Niveaux (dB)

Seuil de douleur
120
100
80
60 Aire d’audition
40
20
0

Seuil d’audition absolu Fréquences (Hz)

20 1000 20000

Figure 2.5 — Seuil d’audition absolu

de sons purs. Son spectre est donc formé de plusieurs raies.

Sonie (Loudness) : La sonie est la perception de l’intensité sonore. C’est donc une
impression subjective où les sons s’ordonnent sur une échelle de faible à fort, de même
que dans la tonie (mesure de hauteur équivalente à la fréquence) les sons s’ordonnent
dans une échelle d’aigu, grave ou médium. La sonie est caractérisée par des lignes
isosoniques (Fig. 2.6), le lieu des points de même sonie. Pour mesurer la sonie d’un
son pur, on maintient constantes sa fréquence et sa durée. Par définition, à un son de
niveau acoustique 40 dB, de fréquence 1 kHz et de durée 1 s, on attribue arbitrairement
une sone, qui est l’unité de la sonie. On a alors 1 sone = 40 phones . La sonie varie
en proportion logarithmique avec l’échelle en phones (l’échelle des décibels dB). Une
augmentation de 10 dB correspond à une augmentation de 2 sones. Ainsi, pour basculer
de l’échelle de sone d’indice s à l’échelle de phone d’indice p, on a :
p−40
s=2 10 . (2.9)

Niveau d’intensité sonore : L’oreille n’a pas une sensibilité à l’intensité sonore
identique à toutes les fréquences. En effet, des sons d’intensité sonore égale n’ont pas la
même intensité perçue (sonie) selon qu’ils sont de fréquence basse, moyenne ou haute.
Ainsi, soient trois sons de même intensité sonore 40 dB et de fréquences 100Hz, 1kHz et
10kHz. Les sons de basse et haute fréquence seront plus faiblement perçus par rapport
au son de fréquence moyenne (autour de 1 kHz). Par définition, le niveau d’intensité
sonore, ayant pour unité le phone, indique le niveau de pression acoustique d’un son
pur de 1 KHz qui provoque la même sensation d’intensité sonore que le son test.
Exemple : Un son pur de fréquence 500Hz et qui est ressenti comme étant aussi fort
qu’un son pur de 1 kHz ayant un niveau de 50 dB a donc un niveau d’intensité sonore
égale à 50 dB (les courbes d’isosonie (2.6) que nous décrivons maintenant).

Courbes d’isosonie : Les courbes d’isosonie représentent les courbes d’égale in-
tensité sonore perçue (isosonique, c’est-à-dire ayant la même sonie). Deux sons purs
Section 2.2 : Notions de psychoacoustique 13

de fréquences différentes seront d’égale sonie si leurs niveaux en dB se placent sur la


même courbe d’isosonie. A 1 kHz, il y a correspondance entre dB et phone (figure 2.6).
Ces courbes décrivent comment les sons graves (basses fréquences) demandent à être
entendus à un niveau sonore plus élevé que les sons aigus (hautes fréquences) pour être
perçus avec la même intensité. On observe que, globalement, l’oreille perd une grande
partie de sa sensibilité dans les basses fréquences.

Figure 2.6 — Courbes d’isosonie de Fletcher et Munson

Bandes critiques : Du point de vue du traitement de signal, l’oreille interne est


modélisée par un banc de filtres passe-bande se chevauchant fortement. Ils ont une
bande passante croissante avec la fréquence (bancs de filtres à Q constant). Les bandes
critiques sont une façon de représenter ces filtres. Les bandes critiques montrent que
notre oreille fonctionne de façon sélective en fonction des fréquences. La largeur d’une
bande critique, quelle que soit sa fréquence centrale, est appelée un Bark. Jusqu’à 1
kHz, cette largeur de bande est linéaire et est égale à 100 Hz. Au-delà de 1 kHz, elle
varie dans une proportion logarithmique avec la fréquence.
La notion de bande critique est d’une importance primordiale en psychoacoustique.
Une bande critique représente aussi l’écart minimal pour que deux fréquences soient
perceptuellement discriminées. La puissance perçue par l’oreille dans une bande critique
est égale à la somme de toutes les puissances des composantes dans cette bande de
fréquences. Si cette somme est supérieure au seuil d’audition absolu, le signal compris
dans la bande considérée est audible, sinon il est inaudible. Dans l’échelle des Barks,
un accroissement de 1 Bark correspond à une augmentation en fréquence de 1 bande
critique (tableau 2.2). La relation Bark/Hertz (2.10) est quasi-linéaire jusqu’à 500 Hz ;
su-delà, elle est quasi-logarithmique.
14 CHAPITRE 2 : Généralités sur le signal de parole

j 2
z(j) = 13 arctan(0.00076.j) + 3.5 arctan[( )] (2.10)
7500
avec j la fréquence en kHz.

Bandes Fréquence(Hz) Bandes Fréquence(Hz)


Critiques Basse Haute Largeur Critiques Basse Haute Largeur
0 0 100 100 13 2000 2320 320
1 100 200 100 14 2320 2700 380
2 200 300 100 15 2700 3150 450
3 300 400 100 16 3150 3700 550
4 400 510 110 17 3700 4400 700
5 510 630 120 18 4400 5300 900
6 630 770 140 19 5300 6400 1100
7 770 920 150 20 6400 7700 1300
8 920 1080 160 21 7700 9500 1800
9 1080 1270 190 22 9500 12000 2500
10 1270 1480 210 23 12000 15500 3500
11 1480 1720 240 24 15500 22050 6550
12 1720 2000 280

Tableau 2.2 — Bandes critiques

L’effet de Masquage : Le cerveau humain n’interprète pas le son de manière objec-


tive. Il existe un phénomène important à considérer : l’effet de masquage. Le masquage
est un phénomène psychoacoustique auquel tout le monde est soumis : un son peut en
cacher un autre partiellement ou entièrement. Le masquage peut intervenir sous deux
formes, fréquentielle et temporelle. Dans le cadre des applications audio, notamment
le débruitage, le phénomène le plus exploité est le masquage fréquentiel (figure 2.7).
Le masquage temporel est quant à lui rarement utilisé car difficile à modéliser et à
exploiter, en plus il est de faible influence par rapport au masquage fréquentiel.

Masquage fréquentiel : L’effet de masquage fréquentiel se produit lorsqu’un son


a un volume plus important qu’un autre. Plutôt que d’entendre parfaitement les deux
sons à des volumes différents, on entend bien le plus fort, mais le plus faible devient
difficile à distinguer car il est masqué par l’autre. Il existe trois types de masquage
fréquentiel [Painter 00] :
TMB (Tonale Masquant un Bruit) : Une tonale au centre d’une bande critique va
masquer tout bruit présent dans la même bande et d’intensité plus faible 2.8 (a).
Le terme SMR (Signal to Mask Ratio) représente la différence de niveau entre le
masquant et le masqué.

BMT (Bruit Masquant une Tonale) : La largeur spectrale du bruit à bande


étroite, présent dans la figure 2.8 (b) est celle d’un bande critique. Il va masquer
toute tonale présente dans la même bande critique dont l’intensité est plus faible
Section 2.2 : Notions de psychoacoustique 15

Figure 2.7 — Effet de masquage

que la sienne.

BMB (Bruit Masquant un Bruit) : Le BMB est difficile à modéliser à cause de


l’influence du rapport de phase entre les deux bruits [Painter 00].

Masquage temporel : Les phénomènes de masquage apparaissent dans le domaine


temporel lors de fortes variations du signal, les signaux transitoires créant des zones
de pré- et de post-masquage importantes. Ainsi l’oreille ne perçoit pas les sons faibles
précédant ou suivant immédiatement un son de forte intensité. Le post-masquage ap-
paraı̂t quand l’oreille a été stimulée par un son pur très fort à une certaine fréquence ;
après cessation du son, il y a une perte de sensibilité autour de cette fréquence : environ
10 dB de perte qui disparaissent au bout de quelques centaines de millisecondes. Ceci
traduit la persistance de l’effet masquant d’un son sur un autre. La durée effective
du pré-masquage temporel est brève, de l’ordre de 5 ms, contrairement au masquage
postérieur qui persiste plus de 100 ms (figure 2.9). Le phénomène de masquage temporel
est difficile à modéliser et donc peu utilisé dans les applications audio.
16 CHAPITRE 2 : Généralités sur le signal de parole

dB
(a)

Tonale masquante

Bruit masqué

Bande critique Freq. (Hz)

(b)
dB

Bruit masquant

Tonale masquée

Bande critique Freq. (Hz)

Figure 2.8 — Masquage fréquentiel : (a) Tonale Masquant un Bruit (b) Bruit Mas-
quant une Tonale

Figure 2.9 — Masquage temporel

Courbe de masquage : C’est la courbe obtenue en enregistrant les pressions acous-


tiques nécessaires pour qu’un son test devienne audible en présence d’un son masquant.
Pour chaque type de masquant, on obtient une courbe de masquage spécifique. Il existe
deux méthodes, très souvent utilisées, de calcul de cette courbe. Elles seront présentées
Section 2.2 : Notions de psychoacoustique 17

et comparées dans les sections suivantes.

2.2.2 Modèle de Johnston pour le calcul de la courbe de mas-


quage
Le modèle de Jonhston [Johnston 88] pour le calcul de la courbe de masquage
constitue la base sur laquelle se fondent la majorité des applications visant à modéliser
le phénomène de masquage fréquentiel pour tirer profit de l’aspect perceptuel. Dans
le codage audio, cette courbe indique la quantité maximale du bruit de quantification
inaudible que peut introduire le processus de codage sans affecter la qualité perçue. De
même, en débruitage de la parole, cette courbe indique la quantité maximale de bruit
qui peut affecter la parole sans être audible. Une autre définition consiste à dire que
la courbe de masquage est une variation du seuil d’audition en fonction de la nature
du signal (tonale ou bruit). Les principales étapes de calcul de cette courbe, dans le
domaine spectral, sont les suivantes :

1. Calcul du spectre en Bark (par bande critique).


2. Application de la fonction d’étalement sur le spectre en Bark.
3. Calcul du seuil de masquage global.
4. Comparaison de ce seuil avec le seuil d’audition absolu.

Nous détaillons maintenant ces étapes.

Le spectre en Bark : Soit sk une trame d’indice k du signal de parole dans le


domaine temporel (avec les notations déjà introduites). Le passage dans le domaine
fréquentiel est effectué par la Transformée de Fourier Discrète (TFD).

Sk (ν) = T F D(sk ). (2.11)

Le spectre instantané de puissance Pk (ν) est donné par :

Pk (ν) = Re2 {Sk (ν)} + Im


2
{Sk (ν)} . (2.12)

Pour simuler le fonctionnement de notre oreille, la notion de bande critique est incon-
tournable. Comme définie précédemment, une bande critique est la plage de fréquences
qui doit séparer deux fréquences de même intensité pour qu’elles soient perçues in-
dividuellement. Le spectre en Bark Bi est la sommation de toutes les énergies Pk (ν)
appartenant à la plage de fréquence définissant une bande critique i.

hi
X
Bi = Pk (ν) (2.13)
ν=bi

où bi et hi sont les fréquences basse et haute de la bande critique i.


18 CHAPITRE 2 : Généralités sur le signal de parole

Application de la fonction d’étalement au spectre en Bark : La fonction


d’étalement (Spreading Function) SF(i, j) est introduite pour modéliser l’étalement de
l’effet de masquage à une bande critique i sur les autres bandes j.
q
SFi,j = 15.81 + 7.5 ((i − j) + 0.474) − 17.5 1 + ((i − j) + 0.474)2 . (2.14)

La convolution de cette fonction avec le spectre en Bark donne lieu au spectre en Bark
étalé Ci .
Ci = Si ∗ Bi . (2.15)

Calcul du seuil de masquage global : D’abord, on part du principe que l’effet


de masquage est supposé linéaire, d’où l’obtention du seuil global par addition de
tous les seuils individuels (issus de tonales ou de bruit). Ensuite, il est à signaler que
l’effet de masquage dépend de la nature spectrale du signal. En effet, une tonale et
un bruit ont des capacités de masquage différentes (le bruit est le meilleur masquant).
Par conséquent, la distinction entre eux donne lieu à deux types de seuils de masquage :

Tonale Masquant Bruit(TMB) : estimé à (14.5 + i) dB au dessous de Ci .


Bruit Masquant Tonale(BMT) : estimé à 5.5 dB au dessous de Ci.

Pour décider entre ces deux seuils, on a recours à la mesure de la platitude du spectre
qui est définie par le rapport entre la moyenne géométrique et la moyenne arithmétique
du spectre en Bark du signal sur l’ensemble des bandes critiques N :
 
Gm
SFMdB = 10 log10 (2.16)
Am
Q PN
où Gm = N i=1 Bi et Am = N
1
i=1 Bi . Quand la mesure de la platitude du spectre
SFMdB est grande, le spectre est de puissance à peu près constante sur toutes les
fréquences (similarité avec le bruit blanc). Le spectre est dit dans ce cas plat ou lissé.
A l’inverse, quand la mesure SFMdB est petite, la puissance est relativement concentrée
dans des petites bandes de fréquences (similarité avec un mélange de sinusoı̈des). Le
spectre est ainsi hérissé.
Cette mesure nous permet donc de classer les signaux en signal tonal ou bruit
suivant un calcul de l’indice de tonalité α,
 
SFMdB
α = min ,1 . (2.17)
SFMdBmax

où SFMdBmax = −60 dB [Johnston 88], indique que le signal est d’une nature très
tonale et 0 ≤ α ≤ 1.
L’indice de tonalité est donc une mesure permettant de montrer si certaines tonales
ressortent du signal. En effet, plus le coefficient de tonalité est proche de 0, plus le
signal est assimilé à du bruit. A l’inverse, plus le coefficient de tonalité est proche de
1, plus le signal est à composantes tonales majoritaires.
– Si SFMdB = 0, alors α = 0. Il s’agit d’un bruit.
Section 2.2 : Notions de psychoacoustique 19

– Si SFMdB = −60 dB, alors α = 1. Il s’agit d’un signal de nature tonale.

L’indice de tonalité est une mesure qui peut être utilisée comme un détecteur d’ac-
tivité vocale ou plutôt, comme un classificateur parole/bruit dont les performances
sont satisfaisantes par rapport à des classificateurs à base d’entropie ou employant
la variance de l’énergie normalisée. Ceci a été montré dans un travail [Manohar 06]
comparant les trois types de détecteurs parole/bruit pour des fins de débruitage de la
parole dans des environnements à bruits non-stationnaires.
L’indice α est alors utilisé pour introduire les deux seuils TMB et BMT via le seuil
de correction Oi ci dessous :

Oi (dB) = α (14.5 + i) + 5.5 (1 − α) . (2.18)

Ensuite, on soustrait Oi du spectre en Bark étalé Ci (exprimé en décibel) pour aboutir


au seuil de masquage global Ti .
Oi
Ti = 1010 log10 (Ci )−( 10 ) . (2.19)

Comparaison avec le seuil d’audition absolu : L’étape finale consiste à com-


parer le seuil de masquage Ti avec le seuil d’audition absolu Ui . Dans chaque bande
critique i, les composantes au-dessous du seuil d’audition absolu sont substituées par
ce dernier ; on considère ainsi la valeur maximale Eq. (2.20) :

Ti = max{Ti , Ui }. (2.20)

2.2.3 Modèle ISO/MPEG-1 pour le calcul de la courbe de


masquage
Le modèle psychoacoustique de la couche 1 de la norme MPEG-1(ISO/IEC 11172-3)
est aussi conçu initialement pour déterminer la quantité maximale de bruit de quanti-
fication inaudible que peut introduire le processus de codage audio.
Les étapes clés du calcul de la courbe de masquage selon ce standard (initialement
détaillées dans [Painter 00]) sont brièvement résumées dans cette sous-section. Les prin-
cipales étapes du calcul de cette courbe sont illustrées à l’aide de figures produites à
partir d’une même trame d’un signal de référence. Après segmentation en trames d’in-
dice k et d’échantillons ν = 0, 1, . . . , N − 1, la première étape consiste à normaliser
le signal de parole Eq. (2.21) et à calculer le spectre de puissance du signal normalisé
Pk (ν) en l’exprimant en dB Eq. (2.22) :
sk (t)
xk (t) = (2.21)
2b−1 N
où N est la taille de la TFD et b est le nombre de bits par échantillon ;
N
X −1
2πνt
Pk (ν) = PN + 10 log10 | w(t)xk (t)e−i( N
)
|2 (2.22)
t=0
20 CHAPITRE 2 : Généralités sur le signal de parole


où PN = 90, 302 dB est le terme de normalisation en dB et w(t) = 0.5 1 − cos( 2πt
N
)
est la fenêtre de Hanning.

Identification des composantes tonales et non tonales : Les composantes


tonales sont définies comme les maximums locaux du spectre de puissance Pk (ν) (Fig.
2.10). En effet, la composante Pk (ν) est une tonale si elle est supérieure à ses voisines
immédiates (ν ± 1) (maximum local) et si elle est supérieure de 7 dB par rapport à
ses autres voisines écartées d’elle avec une distance ∆ν . L’ensemble ST des maximums
locaux est ainsi défini par :

ST = Pk (ν) : Pk (ν) > Pk (ν ± 1) et Pk (ν) > Pk (ν ± ∆ν ) + 7dB} (2.23)

avec 
 2 2 < ν < 63 (0, 17 − 5, 5kHz)
∆ν ∈ [2, 3] 63 ≤ ν < 127 (5, 5 − 11kHz) (2.24)

[2, 6] 127 ≤ ν ≥ 256 (11 − 20kHz).

Maximums locaux
100

90

80

70

60
dB

50

40

30

20

10

0
0 50 100 150 200 250
Fréquence (Hz)

Figure 2.10 — Maximums locaux

Pour chaque pic appartenant à l’ensemble ST , on combine les trois composantes


spectrales adjacentes pour former une seule tonale masquant PT M (ν) .

1
X
PT M (ν) = 10 log10 100.1Pk (ν+j) . (2.25)
j=−1

Une fois les tonales déterminées, les composantes non tonales ou le bruit masquant
PBM (ν) sont identifiés par bande critique. Ils font partie des composantes spectrales
Pk (ν) qui n’appartiennent pas au voisinage ±∆ν des tonales. Le principe repose sur le
fait qu’une énergie de la bande critique qui n’est pas associée à une tonale masquante
Section 2.2 : Notions de psychoacoustique 21

est, par défaut, considérée comme un bruit masquant (Fig. 2.11).


hi
!1/(bi −hi +1)
X Y
0.1Pk (j)
PBM (ν) = 10 log10 10 avec ν = j (2.26)
j j=bi

où les Pk (j) sont différentes des PT M (ν, ν ± 1, ν ± ∆ν ), ν est la moyenne géométrique
des fréquences d’une bande critique (Eq. (2.26)) et bi et hi sont respectivement la
fréquence la plus basse et la fréquence la plus haute de chaque bande critique. À partir
de l’équation (2.26), on obtient ainsi une seule composante de bruit masquant qui
associe toutes les énergies des composantes spectrales d’une bande critique n’ayant pas
donné lieu à une composante tonale.
Composantes Tonales et non−Tonales
100

90

80

70

60
dB

50

40

30

20 Tonales
non−Tonales
10

0
0 50 100 150 200 250
Fréquence (Hz)

Figure 2.11 — Composantes tonales et non tonales

Décimation des masquants : Pendant cette étape, le nombre de masquants


définis par les deux équations (2.26) et (2.25) est réduit selon deux critères :
– Les tonales et les bruits masquants qui se situent au-dessous du seuil d’audition
absolu Ta (ν) sont éliminés. On retient seulement les masquants vérifiant
PT M , PBM (ν) ≥ Ta (ν). (2.27)
– Si deux masquants sont très proches (moins d’1/2 Bark), on ne retient que le
masquant le plus puissant.

Seuils de masquage individuels : Un masquant relève le seuil d’audibilité au


voisinage de sa fréquence centrale j. Il masque ainsi les sons d’intensité plus faible, situés
à des fréquences i adjacentes. C’est l’étalement de l’effet de masquage. L’expression du
seuil de masquage issu d’une tonale masquante à une fréquence j est donnée par :
TT M (i, j) = PT M (j) + E(i, j) − 0.275z(j) − 6.025 (2.28)
22 CHAPITRE 2 : Généralités sur le signal de parole

où z(j) est la fréquence en Bark et j la fréquence en Hz. Le terme E(i, j) exprime
l’étalement de l’effet de masquage de la fréquence j sur la fréquence i.


 17∆z − 0.4PT M (j) + 11, −3 ≤ ∆z < −1

(0.4PT M (j) + 6)∆z , −1 ≤ ∆z < 0
E(i, j) = (2.29)

 −17∆z , 0 ≤ ∆z < 1

(0.15PT M (j) − 17)∆z − 0.15PT M (j), −1 ≤ ∆z < 8

avec ∆z = z(i) − z(j).

En ce qui concerne les bruits masquants, le seuil individuel est exprimé ainsi :

TBM (i, j) = PBM (j) + SF (i, j) − 0.175z(j) − 2.025 (2.30)

où SF (i, j) a la même expression que (2.29) en remplaçant juste PT M (j) par PBM (j).

Seuil de masquage global : À cette étape, on additionne les seuils de masquage


individuels pour former un seuil de masquage global pour chaque canal de fréquence i.

L M
!
X X
T (i) = 10 log10 100.1Ta (i) + 100.1TT M (i,l) + 100.1TBM (i,m) (2.31)
l=1 m=1

où L et M sont respectivement le nombre de tonales et de bruits masquants identifiés


dans les étapes précédentes. Il est à noter que le seuil d’audition absolu Ta à la fréquence
i intervient dans cette équation.

Seuil de masquage global


90

85

80

75

70
dB

65

60

55

50

45

40
0 50 100 150 200 250
Fréquence (Hz)

Figure 2.12 — Seuil de masquage global


Section 2.3 : Conclusion 23

2.2.4 Choix du modèle


En passant en revue les différentes étapes de construction de la courbe de mas-
quage selon les deux modèles MPEG et Johnston, on s’aperçoit qu’il existe certaines
différences de calcul qui sont largement liées au caractère tonal et non tonal du signal.
Quand il s’agit du calcul du seuil de correction Oi où interviennent les seuils in-
dividuels traduisant les deux types de masquage TMB et BMT, les deux modèles se
distinguent. Dans le modèle de Johnston, on soustrait (14.5 + i) (Eq. 2.18) de l’énergie
du masquant de type tonal alors que dans le modèle MPEG on extrait plutôt une va-
leur de 0.275i + 6.025 (Eq. 2.28). De même, pour un masquant de type bruit dans le
premier modèle, on extrait une valeur constante de l’ordre de 5.5 (Eq. 2.18), alors que,
dans le modèle MPEG, on extrait une valeur dépendant de la bande critique et qui est
de l’ordre de 0.175i + 2.025 (Eq. 2.30).
L’indice de tonalité dans le modèle de Johnston (Eq. 2.17) est global puisqu’il est
constant pour toute la trame alors que, dans le modèle MPEG, l’identification des
composantes tonales et non tonales est un processus sélectif en fréquence (Eq. 2.23) et
(Eq. 2.24).
L’étalement de l’effet de masquage dans le modèle de Johnston dépend uniquement
de la bande critique (Eq. 2.16) alors que, dans le modèle MPEG, il dépend, en plus
de la bande critique, de la nature du masquant, tonale ou bruit (Eq. 2.29). De par ces
différences, le modèle MPEG est plus précis certes, mais aussi plus complexe en terme
de calculs (il introduit plus de détails et de paramètres) que le modèle de Johnston.
Dans [Beaugeant 98] et [Faucheur 07], un modèle hybride est proposé qui profite de la
simplicité du second modèle et de la précision du premier dans le but de concevoir un
modèle plus performant. Dans le cadre de cette thèse, pour les raisons citées au dessus
et comme dans plusieurs travaux, même récents, le choix s’est porté plutôt sur le modèle
de Johnston qui reste simple, moins coûteux et suffisant pour nos applications.

2.3 Conclusion
Du fait que notre environnement est bruyant, la parole et le bruit sont donc deux
signaux qui coı̈ncident souvent. Dans ce chapitre, les propriétés et caractéristiques de
chacun d’eux ont été rappelées afin de mieux les traiter dans le cadre de cette thèse.
On a aussi défini et décrit le comportement du bruit musical. A cet effet, plus de détails
seront donnés ultérieurement pour décrire les méthodes de débruitage dont l’objectif
est de réduire ce type de bruit perceptuellement très gênant. En parlant de perception
de la parole, on a présenté quelques définitions de psychoacoustique indispensables pour
mieux comprendre le débruitage employant des notions perceptuelles. Le phénomène de
masquage est le point clé dans ce type d’approches. Pour modéliser ce phénomène, on
cherche à calculer une courbe de masquage correspondant à chaque signal en question.
Les deux modèles de calcul de la courbe de masquage présentés sont tous les deux
intéressants, mais présentent des différences surtout du point de vue coût de calcul. Le
choix entre les deux dépend surtout de l’application. Par exemple, si l’on procède à une
analyse faisant la distinction entre tonale et non tonale, il est plus intéressant d’utiliser
24 CHAPITRE 2 : Généralités sur le signal de parole

le modèle MPEG [Aicha 06]. Dans le cadre de cette thèse, on a utilisé le modèle de
Johnston qui présente une simplicité de calcul tout en donnant lieu à une courbe de
masquage aussi précise que celle de MPEG.
3
CHAPITRE
Évaluation de la qualité
et de l’intelligibilité de
la parole

L’évaluation subjective de la qualité de la parole est une étape indispensable dans


tout processus de traitement, automatisé ou non. Elle permet de tenir compte du
jugement humain à travers des essais d’écoute de laboratoire par plusieurs auditeurs.
Des méthodes statistiques sont ensuite mises en œuvre pour classer les différentes
opinions avec un intervalle de confiance de largeur minimale. L’évaluation de la qualité
subjective est coûteuse en termes de temps et de ressources. Cette difficulté a donné lieu
au développement d’autres métriques objectives de qualité qui, bien que moins précises,
sont beaucoup plus pratiques et moins coûteuses. La corrélation entre les mesures
objectives et les mesures subjectives est utilisée comme un critère de performance de
ces nouvelles métriques. Plus le critère objectif est corrélé avec les mesures subjectives,
plus il constitue une bonne mesure pouvant, plus ou moins, remplacer le jugement
humain.
Dans de ce chapitre, on fera donc le point sur les caractéristiques et les inconvénients
des tests subjectifs et objectifs afin de pouvoir justifier nos choix par la suite.

3.1 Qualité et intelligibilité de la parole


L’intelligibilité de la parole correspond à la capacité de comprendre un mes-
sage linguistique contenu dans un signal de parole [Virole 01]. L’intelligibilité est donc
une mesure objective définie par le nombre de mots prononcés correctement identifiés
[Hu 07] par l’auditeur. Chaque mesure d’intelligibilité est une interaction entre le locu-
teur, l’environnement de transmission et l’auditeur. Le meilleur moyen de juger l’intel-
ligibilité est d’effectuer des tests d’écoute avec des sujets, dont la capacité d’écoute est
normale, en utilisant par exemple la méthode du test de rime DRT (Diagnostic Rhyme
Test)[Bunieti 97] ; celui-ci permet d’évaluer la transparence du message reçu à travers
une mesure du degré de dégradation des caractéristiques élémentaires des consonnes
lorsque celles-ci se trouvent au début de mots [Bunieti 97], [Quackenbush 88]. Une ver-
sion plus générale du test DRT a permis de tester tout aussi bien les voyelles que les
consonnes et ce quelle que soit leur position dans un mot [Fairbanks 58]. Il existe ce-
CHAPITRE 3 :
26 Évaluation de la qualité et de l’intelligibilité de la parole

pendant des moyens objectifs qui permettent d’estimer l’intelligibilité de la parole et


qui sont largement utilisés dans la littérature, à savoir le test STI (Speech Transmission
Index) [IEC-Standard.60268-16 98], le test SII (Speech Intelligibility Index) [ANSI 89]
et le test AI (Articulation Index) [S3.5 69].
La qualité d’un signal de parole permet de prendre en compte la présence d’agents
extérieurs “perturbateurs” (environnement bruyant, distorsions,. . . ). La clarté du mes-
sage peut en effet être affectée par ce bruit environnemental, ce qui nuit au confort
d’écoute. C’est donc une mesure subjective liée à l’aspect agréable de l’écoute du si-
gnal de parole par l’auditeur. Cependant, même après le débruitage, la qualité de la
parole n’est pas totalement restituée ; elle est même parfois encore plus dégradée. Les
éléments fondamentaux qui influent sur la qualité de la parole après débruitage sont les
distorsions du signal et le bruit résiduel communément appelé bruit musical. Les tests
de jugement de la qualité par des auditeurs sont les seuls moyens d’évaluation valables
et sûrs d’un système de débruitage de la parole. Mais comme pour l’intelligibilité, il
existe des critères objectifs d’évaluation de la qualité tels que le PESQ, MBSD, etc. Ces
critères ont un caractère perceptuel justement parce qu’ils sont fondés sur des notions
psychoacoustiques pour simuler notre perception vis-à-vis du signal de parole. Plus de
détails sur ces différents critères feront partie des sections à venir.
Pour conclure, l’intelligibilité est donc une notion à ne pas confondre avec la qualité
de la parole. Une amélioration de la qualité de la parole n’implique pas une amélioration
en terme d’intelligibilité. Dans les environnements bruyants, améliorer l’intelligibilité
de la parole s’avère une tâche plus difficile qu’améliorer la qualité de la parole.

3.2 Critères subjectifs


Les mesures de qualité subjective les plus fréquemment utilisées sont le MOS (Mean
Opinion Score), le DMOS (Degradation Mean Opinion Score) et le CMOS (Comparison
Mean Opinion Score) [Keagy 00].
Le MOS est le résultat de l’analyse par catégories absolues ACR (Absolute Category
Rating) dans laquelle un groupe d’auditeurs écoute un ensemble de fichiers audio et les
évalue indépendamment, un à un, selon une échelle de notation sur la qualité perçue
(tableau 3.1). Le CMOS est le résultat de l’analyse par catégories de comparaisons
CCR (Comparison Category Rating) dans laquelle on fournit à un groupe d’auditeurs
des signaux par paires. L’auditeur compare les deux signaux de chaque paire en terme
de qualité en précisant lequel est le meilleur et évalue la différence selon une échelle de
notation bien définie (tableau 3.2).
Quant au DMOS, il résulte de l’analyse par catégories de dégradations DCR (Degra-
dation Category Rating) dans laquelle on fournit à un groupe d’auditeurs des paires de
signaux pour comparer cette fois-ci la qualité en terme de dégradation. Contrairement
au CMOS, les auditeurs savent a priori que la qualité du second signal est moins bonne
que celle du premier. Ils doivent donc indiquer à quel point le second est justement
moins bon suivant l’échelle de DMOS (tableau 3.3).
D’une manière générale, lors de ces trois types de tests, les plus communément
Section 3.2 : Critères subjectifs 27

utilisés surtout pour évaluer les codeurs de parole, la qualité du signal de parole dépend
de la personne qui la juge et l’évalue. Sa façon de percevoir met en jeu l’expérience
passée, l’environnement dans lequel elle s’est déroulée, son humeur et ses attentes.
Ainsi, afin de diminuer l’effet subjectif sur l’évaluation de la qualité vocale, les notes
des participants pour une condition de test donnée sont moyennées pour obtenir la
note moyenne d’opinion.
Dans ce qui suit et comme il est d’usage, on désigne par MOS, comme terme général,
les trois tests subjectifs déjà définis sauf précision. Par définition donc, le MOS est un
sondage auprès d’un échantillon de personnes représentatives du reste de la population.
Lors de ce sondage, les auditeurs sont invités à écouter et à juger. Le jugement se fait
à travers l’attribution d’une note sanctionnant la qualité perçue du signal de parole
qu’ils ont écouté. La moyenne des notes attribuées constitue donc le MOS. L’avantage
du MOS est qu’il quantifie la qualité perçue par les auditeurs participant aux tests.
C’est donc une évaluation réelle, fiable et correcte de la qualité des signaux mis en jeu.
Cependant, ce test est souvent écarté du fait qu’il requiert :
• Un grand nombre d’auditeurs
• Un équipement audio adapté
• Une formation des auditeurs à la bonne façon d’attribuer des notes pour que celles-ci
soient exploitables
• Une collecte d’informations et des traitements statistiques pour réduire l’aléa.
En outre, le MOS n’est pas standardisé et le processus de test ne peut pas être
complètement automatisé.

Score MOS Qualité MOS


5 Excellent
4 Bon
3 Passable
2 Mauvais
1 Médiocre

Tableau 3.1 — Échelle MOS

Score CMOS Qualité du second comparé au premier


3 Bien meilleure
2 Meilleure
1 Légèrement meilleure
0 A peu près équivalente
-1 Un peu moins bonne
-2 Moins bonne
-3 Nettement médiocre

Tableau 3.2 — Échelle CMOS


CHAPITRE 3 :
28 Évaluation de la qualité et de l’intelligibilité de la parole

Score MOS Qualité MOS


5 Dépourvu de dégradation
4 Dégradation audible mais pas gênante
3 Dégradation un peu gênante
2 Dégradation gênante
1 Dégradation très gênante

Tableau 3.3 — Échelle DMOS

3.2.1 Analyse et présentation des résultats


Dans la recommandation UIT-T P.835 [P.835 03] dédiée aux algorithmes de sup-
pression de bruit, la distinction est faite entre qualité de la parole et qualité du bruit
de fond avant d’attribuer une dernière note à la qualité globale (Annexe A). Les au-
diteurs sont alors invités à donner trois notes pour chaque séquence de test. Celle-ci
est composée de trois phrases séparées par des phases de silence de durées suffisantes
pour permettre à l’auditeur d’attribuer une note. Pour l’évaluation du signal vocal,
l’auditeur se concentre uniquement sur le signal vocal. Pour l’évaluation du bruit de
fond, il se concentre uniquement sur le bruit de fond. Pour l’évaluation de la qualité
globale, il donne ses appréciations en fonction du tout. Seules les notes relatives au
critère de qualité globale seront utilisées pour l’évaluation finale. Les autres critères
vont juste permettre d’analyser la façon d’attribuer les notes par les auditeurs et de
vérifier la cohérence. Il est à signaler aussi qu’avant le calcul de la moyenne des notes
sur l’ensemble des sujets (auditeurs), une étude des notes individuelles est indispen-
sable afin d’écarter les sujets dont les notes sont aberrantes, d’où la question suivante :
quel critère utiliser pour décider qu’un résultat est aberrant ?
Soient uijk la note d’évaluation de l’échantillon k par l’observateur i dans la condi-
tion de test j et N le nombre d’observateurs. La quantité uijk présente des variations
dûes aux différences dans le jugement entre les N sujets. La moyenne des notes ou le
MOS est le premier calcul à effectuer pour analyser les résultats du test subjectif :
N
1 X
Ūjk = uijk . (3.1)
N i=1

Pour évaluer la fiabilité des résultats, on associe à chaque MOS un intervalle de


confiance à 95% des notes moyennes de chaque échantillon. Cet intervalle, calculé à
partir de l’écart type empirique δjk et de la note moyenne Ūjk , est donné par :

[Ūjk − ∆jk , Ūjk + ∆jk ] (3.2)

où v
u N
δjk uX (uijk − Ūjk )2
∆jk = 1.96 √ et δjk =t .
N i=1
(N − 1)

Selon la norme ITU-R 500-10 [ITU-R.500-10 02], il est possible de rejeter un


observateur qui n’a pas fait le test correctement (faute d’attention, de mauvaise
compréhension,. . . ). Le critère est basé sur le calcul du kurtosis qui permet d’éliminer
Section 3.2 : Critères subjectifs 29

les notes non cohérentes. On définit pour cette raison les paramètres suivants : β2jk ,
m4 et m2 , qui sont le kurtosis et les moments empiriques d’ordre 4 et 2 tels que :

m4
PN
β2jk = (m2 )2
et mℓ = i=1 (uijk − Ūjk )ℓ , ℓ = 2, 4.
Selon cette recommandation, si 2 ≤ β2jk ≤ 4, la distribution des notes par présentation
est considérée comme normale. On calcule ainsi Li et Ri , deux compteurs associés à l’
observateur i, le test j et l’échantillon k tel que,
Li = Ri = 0 ;
Pour j = 1, 2, . . . , J et k = 1, 2, . . . , K
Si 2 ≤ β2jk ≤ 4, alors :
Si uijk ≥ Ūjk + 2δjk , alors Ri = Ri + 1
Si uijk ≤ Ūjk − 2δjk , alors Li = Li + 1
Sinon √
Si uijk ≥ Ūjk + 20δjk , alors Ri = Ri + 1

Si uijk ≤ Ūjk − 20δjk , alors Li = Li + 1
FinSi
FinPour.
où J et K sont respectivement le nombre total de conditions de tests et le nombre
total d’échantillons. À partir de Li et Ri , les relations suivantes permettent de rejeter
l’auditeur dont les résultats sont aberrants où J × K est le nombre total de notes
Li +Ri Li −Ri
attribuées par chaque utilisateur. Alors, si J×K > 0.05 et Li +Ri < 0.3, les notes du
Li +Ri
sujet i doivent être supprimées. A signaler que le rapport prend en compte les
J×K
Li −Ri
écarts importants par rapport à la moyenne et le rapport Li +Ri modélise les écarts
autour de la moyenne. Après l’élimination des sujets dont les notes ne pourraient pas
conduire à des estimations cohérentes, on passe à une analyse statistique plus poussée
des résultats et qui s’avère indispensable pour une présentation plus significative des
notes MOS. Cette analyse statistique est effectuée par le test de Student t-test et
l’analyse de la variance ANOVA. On présente les deux dans la section suivante.

3.2.2 Analyse statistique par t-test et ANOVA


Le but de l’analyse statistique, postérieure aux tests subjectifs, est de pouvoir tirer
des conclusions ayant une signification statistique. L’hypothèse de départ est que les
notes sont conçues à partir de distributions gaussiennes de moyennes différentes ν1 et
ν2 et de variances identiques. Pour étudier la validité de cette hypothèse, on définit les
deux hypothèses de test suivantes :
H0 : ν1 = ν2
H1 : ν1 6= ν2 .
Et la question qui se pose est : va-t-on accepter ou rejeter l’hypothèse H0 ? Pour
tester les deux hypothèses, on fait appel au test statistique t désigné souvent dans la
littérature par le terme t-test.
CHAPITRE 3 :
30 Évaluation de la qualité et de l’intelligibilité de la parole

t-test ou test de Student : C’est un test paramétrique qui repose sur des com-
paraisons de moyennes issues de deux échantillons indépendants (deux algorithmes de
test ou deux groupes par exemple). Il s’applique à tout test statistique dont la dis-
tribution est de type Student quand l’hypothèse nulle est vraie. Une variable T suit
une distribution de Student ou une loi de Student si elle est définie par le quotient
entre une variable aléatoire Z centrée et réduite et une variable U indépendante de Z
et distribuée suivant la loi du χ2 , tel que
Z
T =p (3.3)
U/k

k est le degré de liberté de la loi de Student. Le t-test est calculé ainsi,


ν1 − ν2
t= (3.4)
sν1 −ν2
avec s
s21 s2
sν1 −ν2 = + 2
n1 n2
où s2i et ni sont respectivement la variance et le nombre d’échantillons (nombre de
participants par groupe) du groupe i et t est la valeur critique du test de Student.
La valeur de t est, physiquement, un rapport entre la différence des moyennes
des groupes (numérateur) et la dispersion ou la variabilité des notes entre groupes
(dénominateur). A partir de la valeur de t, on décide de retenir ou de rejeter l’hy-
pothèse H0 , mais, avant, on se fixe un certain seuil de confiance α qui est la probabilité
de rejeter l’hypothèse H0 alors qu’elle est vraie. On choisit souvent α = 0.05. Autre-
ment dit, avec cette valeur de α, on rejette correctement H0 avec une probabilité de
0.95. On détermine aussi le degré de liberté qui est égal à (n1 + n2 − 2). Donc, suivant
la valeur de α et le degré de liberté, on obtient une certaine valeur critique issue de
la table de la loi de Student (Annexe D). Si la valeur de t qu’on vient de calculer est
supérieure à cette valeur critique, on rejette H0 et on considère que les moyennes des
deux échantillons sont différentes.
Dans le cas où on veut comparer plus de deux groupes, il devient nécessaire d’utiliser
une ANOVA adaptée, contrairement à l’idée intuitive consistant à mettre en place
plusieurs t-tests. L’inconvénient de procéder ainsi est d’augmenter la probabilité de
rejeter par erreur au moins une hypothèse H0 au fur et à mesure que le nombre de
t-tests augmente [Loizou 07].

ANOVA : L’analyse de variance ANOVA est une généralisation du t-test à plus de


deux groupes. Les deux hypothèses de tests sont alors :

H0 : ν1 = ν2 = ... = νM
H1 : Au moins une seule moyenne diffère des autres.

On compare la variance inter-groupe à la variance intra-groupe. La variance intra-


groupe est la variance à l’intérieur de chaque groupe et la variance inter-groupe reflète
Section 3.2 : Critères subjectifs 31

les variances entre groupes. Techniquement, l’ANOVA est un test unilatéral ; on cherche
seulement à savoir si la variance inter-groupe est plus grande que la variance intra-
groupe en calculant la statistique de Fisher :
variance inter-groupe
F = . (3.5)
variance intra-groupe
Cette statistique a une distribution F de degré de liberté (dl1 , dl2 ) tel que dl1 = M − 1
et dl2 = M(n − 1), avec M le nombre de populations ou de groupes et n est le nombre
d’échantillons par groupe. La valeur critique du test de statistique F issue de la table de
Fisher (Annexe D) dépend des degrés de liberté dl1 et dl2 ainsi que du paramètre α. On
compare cette valeur critique avec la valeur expérimentale obtenue par l’équation (3.5).
Si la valeur expérimentale est supérieure à la valeur critique, on rejette l’hypothèse H0
tout en concluant qu’au moins une des moyennes νi diffère des autres. Dans le cas
contraire, on accepte l’hypothèse H0 et on conclut que les moyennes de toutes les
populations sont égales.
Soit l’exemple suivant où on essaie de voir si trois machines (M = 3) ont un rende-
ment différent. On attribue 5 ouvriers (n = 5) par machine et on se fixe α = 0.05. Un
calcul d’ANOVA (sous Matlab) sur les rendements illustrés par le tableau 3.4 donne
lieu au résultat donné par la figure (3.1). Pour l’exemple précédent, on aboutit à une

Machine 1 Machine 2 Machine 3


25.4000 23.4000 20.0000
26.3100 21.8000 22.2000
24.1000 23.5000 19.7500
23.7400 22.7500 20.6000
25.1000 21.6000 20.4000

Tableau 3.4 — Exemple : Rendement de machines

26

25

24
Values

23

22

21

20

1 2 3
Column Number

Figure 3.1 — Résultats d’ANOVA correspondant à l’exemple du rendement de trois


machines à cinq ouvriers chacune

valeur de F supérieure à la valeur critique issue de la table de la loi de Fisher (Annexe


CHAPITRE 3 :
32 Évaluation de la qualité et de l’intelligibilité de la parole

D) et ce pour une valeur de α = 0.05. La décision prise est donc de rejeter l’hypothèse
H0 ce qui signifie qu’au moins une des moyennes νi diffère des autres.
Si l’hypothèse d’égalité des moyennes est rejetée, ANOVA ne fournit pas d’analyse
des raisons de ce rejet. La statistique a été amenée à développer un grand nombre
de tests consécutifs à une ANOVA ayant rejeté l’hypothèse nulle. Ils sont destinés à
analyser les raisons ayant induit ce rejet. Ces tests sont qualifiés de a posteriori ou post
hoc. Le test post hoc le plus connu est appelé LSD (Least Significant Difference), plus
de détails sur ce test sont donnés dans [Loizou 07].

3.3 Critères objectifs

Les mesures objectives de qualité des signaux vocaux les plus communément uti-
lisées sont citées et classées dans le tableau 3.5.

Mesures dans le domaine Mesures dans le domaine Mesures dans le domaine


temporel fréquentiel perceptuel
SNR IS BSD, MBSD
segSNR CD PSQM
WSS PESQ
LLR

Tableau 3.5 — Classification des critères d’évaluation objective les plus com-
munément utilisés

Les critères temporels et fréquentiels se basent essentiellement sur l’évaluation de


la qualité en terme de comparaison de distorsion de formes entre signal de référence
et signal débruité, sans tenir compte de l’aspect perceptif. Certes, c’est une condition
nécessaire mais non suffisante dans la mesure où deux signaux pratiquement de même
forme peuvent être perçus différemment [Wang 92], d’où l’intérêt d’introduire le fac-
teur psychoacoustique pour tout système ayant pour objectif de conserver la qualité
de la parole. Diverses mesures objectives perceptuelles sont élaborées conduisant à de
bonnes corrélations avec la perception humaine. Elles sont essentiellement dédiées au
codage de la parole, mais trouvent leur application en débruitage de la parole([Hu 04],
[Ma 04], [Hu 07],. . . ). À part le fait qu’elles donnent une meilleure corrélation avec la
qualité vocale, leur application en débruitage n’a pas été justifiée jusqu’à présent. En
guise d’illustration, citons la mesure de la qualité de la parole perçue (PSQM) (Per-
ceptual Speech Quality Measure) [P.861 98] et sa version améliorée PESQ(Perceptual
Evaluation of Speech Quality) [P862 00],le BSD (Bark Spectral Distortion)[Wang 92]
et sa version améliorée, MBSD (Modified Bark Spectral Distortion) [Yang 97]. Dans
la suite, nous donnons, à titre d’exemple, plus de détails sur ces différentes mesures.
Il en existe évidemment d’autres, comme le WSS et le LLR qui sont bien décrits dans
[Loizou 07].
Section 3.3 : Critères objectifs 33

3.3.1 SNR segmental (segSNR)


Le SNR (Signal to Noise Ratio) segmental segSNR est la mesure de qualité objective
la plus utilisée dans le domaine temporel. Il définit la moyenne des SNRs issus de
plusieurs segments de courte durée (15 à 20 ms) :
M −1 PmN +N −1 2
10 X s (i)
SNRseg = log10 PmN +Ni=mN
−1
(3.6)
M m=0 i=mN (s(i) − ŝ(i)))2

où s(i), ŝ(i), N et M sont respectivement le signal de référence, le signal débruité, la


longueur d’un segment et le nombre total de segments.
Le SNR segmental souffre de deux limitations : d’abord si le signal de parole contient
des segments de silence, ce qui est très probable, le s(i) sera nul et n’importe quelle
quantité de bruit entraı̂nera un SNR en dB négatif pour ce segment ; du coup le SNR
total sera biaisé par cette quantité. Ce problème peut être résolu partiellement en
choisissant un seuil d’énergie au delà duquel le SNR segmental sera calculé. Ensuite, il
faut nécessairement que les deux signaux comparés soient alignés temporellement car
ce critère est très sensible aux déphasages.

3.3.2 Mesure d’Itakura Saito


La mesure d’Itakura Saito repose sur l’analyse LPC. Son expression fait intervenir
le modèle tout pôle du signal de référence s et celui du signal testé y. Soient P (ω),
P̂ (ω) les densités spectrales de puissance du modèle AR du signal de référence et du
signal de test. La distance d’Itakura Saito est donnée par :
Z π" #
1 P (ω) P (ω)
dIS (P (ω), P̂ (ω)) = − log − 1 dω (3.7)
2π −π P̂ (ω) P̂ (ω)

3.3.3 Distance cepstrale


La distance cepstrale est principalement utile pour représenter la distribution de
l’erreur au cours du temps. Les coefficients cepstraux c(i) peuvent être caluclués à partir
des coefficients de prédiction linéaire a(i) à l’aide de la relation suivante [Tohkura 87] :

c(1) = −a(1) (3.8)


i−1 
X 
k
c(i) = −a(i) − 1− c(i − k)a(k), 1 ≤ i ≤ p. (3.9)
k=1
i

Considérons les coefficients cepstraux ct (i) et cr (i) calculés respectivement sur les
trames d’indice i du signal-test à évaluer et de la référence. La distance cepstrale d’ordre
2 entre ces deux signaux est donnée par [Kobatake 94] :
p
X
dcep = (ct (i) − cr (i))2 (3.10)
i=1
CHAPITRE 3 :
34 Évaluation de la qualité et de l’intelligibilité de la parole

où p est l’ordre des coefficients LPC. Suite à cette écriture, la distance cepstrale
est tout simplement la distance euclidienne entre les coefficients cepstraux générés
récursivement à partir de l’analyse LPC.

3.3.4 BSD et MBSD


La mesure BSD (Bark Spectral Distortion) [Wang 92] est parmi les premiers critères
à avoir incorporé des notions en relation avec notre système d’audition dans l’évaluation
de la qualité de la parole [Wang 97]. Le BSD a pour objectif de mesurer la distorsion
entre le signal de référence et celui codé, dans le domaine de Bark. La sensation de
force sonore connue sous le nom de sonie est mise en jeu pour calculer cette distorsion.
En effet, la distorsion totale est la moyenne de la distance euclidienne entre la sonie du
signal de référence et celle du signal débruité.
Le MBSD (Modified Bark Spectral Distortion) [Yang 99] introduit le seuil de mas-
quage du bruit pour calculer la distorsion dans le BSD ; l’idée est de ne tenir compte que
de la distorsion audible. Effectivement, tout ce qui est au-dessous du seuil de masquage
du bruit est imperceptible à l’oreille humaine. Par conséquent, la distorsion totale est
la moyenne de la différence entre les sonies du signal de référence et du signal débruité
pondérée par un paramètre s’annulant lorsque la distorsion est inaudible.

3.3.5 PSQM
Le PSQM (Perceptual Speech Quality Measure) est une version typique aux signaux
de parole décrite par la norme P.861 [P.861 98]. Elle constitue donc un cas particulier du
critère PAQM (Perceptual Audio Quality Measure) [Beerendes 92] dédié aux signaux
audio en général. L’intérêt de concevoir une mesure uniquement pour la parole revient
aux différences de caractéristiques existant entre la parole et la musique. Le PSQM
exploite à son tour les propriétés de la perception auditive humaine pour évaluer la
qualité de la parole. La moyenne de la différence en sonie, désignée dans la norme par
le terme bruit perturbateur, constitue la note PSQM attribuée à la qualité du signal
codé.

3.3.6 PESQ
Le PESQ (Perceptual Evaluation of Speech Quality) est l’évaluation de la qualité
vocale perçue désignée dans la norme P.862 [P862 00] comme moyen adapté aux codecs
vocaux et aux mesures de bout en bout. De ce fait, d’autres facteurs supplémentaires
sont pris en considération pour mieux simuler les conditions réelles, à savoir le temps
de propagation, les distorsions dûes aux erreurs de transmission, les pertes de pa-
quets. . . Néanmoins, il existe bel et bien d’autres facteurs techniques et applications
[P862 00] pour lesquels la méthode d’évaluation PESQ n’a pas été encore validée à ce
jour, notamment les artefacts causés par les algorithmes de réduction de bruit ainsi
que les dégradations liées à l’interaction bidirectionnelle lors de la transmission comme
par exemple l’effet d’écho.
Section 3.4 : Conclusion 35

Très schématiquement, ce critère se base sur un calcul de distance perceptuelle


(différence audible entre la représentation perceptuelle du signal de référence et celle
du signal de test) suivie d’un modèle cognitif qui permet de prendre en compte le fait
qu’une dégradation n’a pas le même impact selon qu’elle est additive ou soustractive, ou
selon son contexte (segment de parole ou non) et sa distribution (localisée ou non). La
note d’évaluation PESQ finale est une combinaison linéaire de la valeur de perturbation
moyenne et de la valeur de perturbation asymétrique moyenne.
Le PESQ permet d’évaluer la qualité d’écoute dans de nombreuses conditions de
dégradation (perte de paquets, distorsion dûe au codage et bruit ambiant du côté
émission...), aboutissant à une corrélation proche des notes subjectives.
Pour les applications de débruitage de la parole, ce critère crée un désaccord au
sein de la communauté de recherche bien qu’il soit très utilisé. Dans certains travaux
[Hu 06], [Rix 01] et [Grundlehner 05], on dit que la corrélation de ce critère avec la
qualité globale n’est importante que dans le cas de la transmission de la parole par
le biais de réseaux de communication. D’autres travaux, tel que [Hu 08], confirment,
par le biais d’études expérimentales et de calculs de corrélation dans le contexte de
débruitage de la parole, que ce critère est le plus corrélé parmi six autres mesures
objectives, avec un facteur de corrélation de 0.89.
Du fait que ce critère est largement utilisé dans le domaine, nous avons choisi de
le conserver comme critère d’évaluation de nos algorithmes bien qu’il donne parfois
des résultats incohérents avec ce que nous attendons en nous basant sur des critères
d’écoute et sur d’autres critères objectifs.

3.4 Conclusion
Les mesures objectives de qualité qui reposent sur des notions de psychoacoustique
permettent de prévoir les notes de qualité de perception qu’attribueraient au signal testé
les sujets participant à un essai d’écoute subjective. Elles permettent d’automatiser le
processus d’évaluation de la qualité et se prêtent plus à une éventuelle application en
temps réel. Elles sont donc indispensables pour les systèmes où l’homme fait partie
intégrante du processus de réception. Cependant, leur corrélation insuffisante avec les
résultats des tests subjectifs limite encore leur substitution complète aux méthodes
subjectives.
Il existe d’autres mesures de qualité qui ne requièrent pas de disposer d’un si-
gnal de référence. Elles sont de deux types, paramétriques et non-paramétriques,
et elles ont pour objectif d’évaluer en continu la qualité de la parole dans les
réseaux de télécommunications (voix sur IP, téléphone mobile,. . . ). Les mesures non-
paramétriques, dites basées sur le signal, comparent ce dernier avec un signal artificiel
issu d’une base de référence (codebook). Les mesures paramétriques telles que ITU-
T P.563 [Malfait 06] et le modèle E [G.107 03] sont basées sur des mesures physiques
(délai, écho, bruit,...) du système à évaluer et exploitent les propriétés du conduit vocal
pour déterminer la distorsion.
Pour la phase d’évaluation, notre choix s’est porté sur les mesures PESQ, MBSD
CHAPITRE 3 :
36 Évaluation de la qualité et de l’intelligibilité de la parole

comme mesures perceptuelles en raison de leur bonne corrélation avec les tests subjectifs
et le segSNR pour une évaluation du rapport signal à bruit des débruiteurs. Nous
avons également opté pour la recommandation UIT-T P.835 [P.835 03] pour les tests
subjectifs du fait qu’elle est spécialement dédiée aux applications d’annulation du bruit.
4
CHAPITRE
État de l’art du
débruitage
mono-capteur de la
parole

L’oreille humaine a des capacités impressionnantes pour reconnaı̂tre et distinguer


la parole du bruit. Mais, pour le bien être de l’auditeur et dans le souci de limiter sa
fatigue, on cherche à améliorer la qualité de l’écoute à travers le débruitage de la parole
(pour des applications telles que la téléphonie mobile et la téléphonie mains-libres). On
peut aussi utiliser des systèmes de débruitage pour des applications où la cible n’est pas
humaine telles que la reconnaissance et la synthèse vocale, le codage de la parole, etc.
Les systèmes dédiés à ces dernières applications sont très affectés par la qualité de la
parole et leurs performances peuvent être médiocres en présence du bruit notamment
lorsqu’il y a eu apprentissage en milieu non bruité. Plusieurs méthodes de débruitage de
la parole ont été proposées dans la littérature pour répondre aux besoins des utilisateurs
et des applications dédiées à la parole. On fera une étude succincte de certaines d’entre
elles présentant à chaque fois le principe, les limitations et les améliorations apportées.
Tout au long de ce chapitre, on considère le problème de débruitage schématisé par la
figure 4.1, les notations en découlant auront ainsi la même signification dans toute la
suite.

s(t) y(t) Système sb(t)


de débruitage
b(t)

Figure 4.1 — Modèle de débruitage utilisé dans ce document

Soit y(t) un signal de parole bruité et échantillonné. Ce signal est divisé en trames
successives, d’indice k, qui comportent le même nombre d’échantillons noté N. Ce
nombre d’échantillons est choisi de manière à ce que la durée d’une trame soit de l’ordre
de 20 à 30 ms. On construit ainsi des trames où la parole est supposée stationnaire.
À partir du modèle yk (t) = sk (t) + bk (t), on cherche à restituer le signal propre sk (t)
CHAPITRE 4 :
38 État de l’art du débruitage mono-capteur de la parole

à partir du signal observé yk (t), t = 0, 1, . . . , N − 1. Les Transformées de Fourier


Discrètes (TFD) de ces signaux sont respectivement notées Yk (ν), Sk (ν) et Bk (ν),
ν = 0, 1, . . . , N − 1 et nous avons donc Yk (ν) = Sk (ν) + Bk (ν). Cette dernière notation
est justifiée sous l’hypothèse de la non-corrélation entre le bruit et le signal. Pour alléger
les notations, on se contentera d’écrire par exemple S(ν) au lieu de Sk (ν) en supposant
toujours que les traitements sont faits trame par trame et en considérant une trame
quelconque du signal.

4.1 Soustraction spectrale

4.1.1 Principe
La soustraction spectrale est la méthode de débruitage la plus ancienne. Elle est
introduite dans [Boll 79]. Elle opère dans le domaine fréquentiel et a pour principe de
soustraire une estimée du bruit à partir du signal observé. Le bruit est supposé additif,
stationnaire ou légèrement variant ce qui nous permet de l’estimer pendant les périodes
de silence. Il existe deux versions de base de la soustraction spectrale se différenciant
l’une de l’autre par l’utilisation soit de la puissance soit de l’amplitude. Si

b
|S(ν)| b
= |Y (ν)| − |B(ν)|, (4.1)

il s’agit de la soustraction spectrale d’amplitude (SSA). Si, par contre, le bruit estimé
est donné par son spectre de puissance, on aura la soustraction spectrale de puissance
(SSP) :
b
|S(ν)| 2 b
= |Y (ν)|2 − |B(ν)| 2
. (4.2)
Vu que le second terme de l’équation (4.2) peut être négatif, on peut le rendre positif
en changeant de signe ou bien en l’annulant comme dans l’équation (4.3). Ceci fait
partie des premières améliorations apportées à la soustraction spectrale :

b
|Y (ν)|2 − |B(ν)| 2 b
si |Y (ν)|2 > |B(ν)| 2
b 2
|S(ν)| = (4.3)
0 sinon.

Le passage dans le domaine temporel est réalisé par la transformée de Fourrier


inverse en gardant la phase du signal bruité. On se permet de procéder ainsi, d’une
part, parce que notre oreille est peu sensible aux variations de la phase et, d’autre part,
parce qu’une estimation de la phase est une tâche très compliquée.
h i
b
s(t) = IFFT |S(ν)|.e
b i×arg Y (ν)
(4.4)

Les algorithmes de soustraction spectrale peuvent être étudiés sous un autre angle,
celui du filtrage du signal observé en se basant toujours sur une estimation du bruit.
La suppression devient donc une multiplication par un gain G(ν) comme ci-dessous :

b
|S(ν)| = G(ν).|Y (ν)|, 0 ≤ G(ν) ≤ 1. (4.5)
Section 4.1 : Soustraction spectrale 39

Pour la SSP, G est donné par :


( q
b 2
1− |B(ν)| b
si |Y (ν)|2 > |B(ν)| 2
G(ν) = |Y (ν)|2 (4.6)
0 sinon.

4.1.2 Paramétrisation
La soustraction spectrale est largement étudiée dans la littérature vu sa simplicité,
mais elle reste limitée par les artefacts qu’elle génère en sortie, à savoir la distorsion
du signal et le bruit musical. Les tentatives de réduction de celui-ci ont amené les
chercheurs à s’investir sur l’expression adéquate qui peut être le compromis entre la
quantité du bruit musical et la distorsion du signal. Ainsi, pour donner plus de souplesse
à la soustraction spectrale, plusieurs améliorations ont été apportées à cette technique.
L’objectif de cette section est de décrire les plus connues.

Proposition de Berouti : Berouti [Berouti 79] a constaté qu’après soustraction


spectrale le bruit résiduel est constitué de deux types de pics : pics larges perçus
comme étant un bruit large bande et pics étroits perçus comme étant des tonales. Il
qualifie le bruit musical comme étant l’ensemble des crêtes du 2ème type. Pour réduire
ce bruit, il propose de paramétrer la soustraction spectrale par deux facteurs, le premier
pour soustraire une sur-estimation du bruit et le second pour éviter que le résultat de
la soustraction dépasse un seuil de tolérance fonction de l’estimée de la puissance du
bruit. On obtient l’expression suivante :
(  
|Y (ν)| 2
− α| b
B(ν)| 2
si |Y (ν)| 2
− α| b
B(ν)| 2 b
> β|B(ν)| 2
b
|S(ν)| 2
=
b
β|B(ν)| 2
ailleurs .

b
L’introduction de la quantité β|B(ν)| 2
, au lieu d’un zéro (comme dans l’équation (4.6)),
permet d’ajouter un bruit large bande qui, selon Berouti, va masquer les composantes
tonales voisines de même amplitude (ou d’amplitudes comparables). Les paramètres
α et β ont pour objectif de trouver un compromis entre la quantité du bruit résiduel,
celle du bruit musical et finalement la distorsion du signal. Ajuster convenablement ces
deux paramètres est une tâche qui influe beaucoup sur la qualité des résultats.
Les expériences [Berouti 79] ont montré que le paramètre α dépend du RSB seg-
mental, noté segSNR, selon l’équation,

segSNR
α = α0 − (4.7)
s

avec s = 20 3
pour α0 = 4. Pour une plage de segSNR variant de −5 dB à 5 dB, α0
est compris entre 3 et 6. Le paramètre β est très sensible au niveau de bruit. Pour de
très hauts niveaux de bruit (−5 dB), le paramètre β doit être compris dans l’intervalle
0.02 ≤ β ≤ 0.06. Pour des niveaux bas du bruit (0 dB ou 5 dB), il vaut mieux choisir
β tel que 0.005 ≤ β ≤ 0.02.
CHAPITRE 4 :
40 État de l’art du débruitage mono-capteur de la parole

Proposition de Boll : Le travail de Boll [Boll 79] repose également sur la soustrac-
tion spectrale, mais sa contribution apparaı̂t comme un facteur complémentaire. Le but
n’est donc pas de paramètrer la soustraction spectrale pour améliorer les performances,
mais plutôt d’étudier l’erreur qu’elle génère afin de réduire les artefacts au moyen de
quatre méthodes :
1. Moyenne d’amplitude :

b
S(ν) = [|Y (ν)| − µ(ν)]ei×arg Y (ν) (4.8)

où µ(ν) = E[|B(ν)|] est la moyenne du bruit calculée pendant les silences. Le filtre
équivalent est de la forme
µ(ν)
H(ν) = 1 − . (4.9)
|Y (ν)|
Soit ǫ(ν) l’erreur spectrale due au processus de soustraction. On a
b
ǫ(ν) = S(ν) − S(ν) = B(ν) − µ(ν)ei×arg Y (ν) (4.10)

où ǫ(ν) dépend à la fois de B(ν) et de sa moyenne µ(ν). Pour réduire ǫ(ν) il
faut que B(ν) P≃ µ(ν). Si on introduit la moyenne de l’amplitude du signal bruité
1 N −1
|Y (ν)| = N ν=0 |Y (ν)| dans l’équation (4.8), on obtient une nouvelle estimée
notée Sbm (ν) :
Sbm (ν) = [|Y (ν)| − µ(ν)]ei×arg Y (ν) . (4.11)
L’expression de l’erreur devient :

ǫ(ν) = S(ν) − Sbm (ν) ≃ µ(ν) − |B(ν)| (4.12)


PN −1
où |B(ν)| = N1 ν=0 |B(ν)|. En procédant ainsi, aussi longtemps qu’on moyenne,
l’erreur se réduit, mais l’hypothèse de la non-stationnarité de la parole ne reste
plus valable, d’où la limitation de la méthode.
2. Rectification de l’estimateur : Cette méthode consiste à remplacer les valeurs
b
négatives de S(ν) par zéro. La nouvelle expression de H(ν) modélisant cette
contrainte est :
H(ν) + |H(ν)|
H R (ν) = (4.13)
2
b
et S(ν) = H R (ν)Y (ν).
3. Réduction du bruit résiduel : Cette étape est résumée par l’équation suivante
(
|Sbk (ν)| si Sbk (ν) ≥ max |B R (ν)|
|Sbk (ν)| = (4.14)
min |Sbj (ν)|, j = k − 1, k, k + 1 si Sbk (ν) < max |B R (ν)|

avec k l’indice de la trame, Sbk (ν) = HkR (ν).Yk (ν) où HR est donné par l’équation
(4.13), max |B R (ν)| est le maximum du bruit résiduel (B R (ν) = |B(ν)|−µ(ν)) me-
suré pendant les instants de silence et l’indice j désigne le numéro de la trame. La
réduction du bruit résiduel s’effectue ainsi en sélectionnant le minimum de l’am-
plitude estimée durant 3 trames adjacentes si l’amplitude dans la trame courante
j est inférieure au niveau du maximum du bruit résiduel B R (ν).
Section 4.1 : Soustraction spectrale 41

4. Atténuation additionnelle durant les silences : De manière empirique, Boll pro-


pose un seuil de détection d’activité vocale dont la formule est donnée ci-dessous :
" Z #
π b
1 S(ν)
τ = 20 log10 dν . (4.15)
2π −π µ(ν)

Si τ < −12dB, il n’y a pas d’activité vocale. À ce moment-là, au lieu de supprimer


complètement le bruit, il propose de l’atténuer. Il justifie cette alternative par
l’effet désirable de ce bruit comme moyen de rendre moins perceptible le bruit non
masqué pendant l’activité vocale. La formule d’atténuation est donnée par :

b
|S(ν)| si τ ≥ −12 dB
b
|S(ν)| = (4.16)
cB(ν) si τ < −12 dB

où 20 log10 c = −30 dB.

Proposition de Virag : Dans [Virag 99], Virag a combiné la méthode de Berouti


[Berouti 79] avec la généralisation de Lim [Lim 79] pour aboutir à une expression de
soustraction spectrale plus généralisée et permettant une flexibilité dans le choix des
paramètres. L’intérêt est d’assurer un compromis entre réduction du bruit et distorsion
du signal. Le gain Gk (ν) de la soustraction spectrale généralisée est donné par
   η1 η2  η1

 1 − α |B(ν)|
si |B(ν)| 1
< α+β
 |Y (ν)|
! |Y (ν)|
G(ν) =  η1 η2 (4.17)

 β |B(ν)|
sinon.
 |Y (ν)|

où α est un facteur de sur-soustraction (α > 1). Le spectre du signal bruité est diminué
plus que nécessaire ce qui entraı̂ne une diminution du bruit résiduel certes, mais aug-
mente en contrepartie la distorsion du signal. Le paramètre β, tel que 0 ≤ β << 1,
est un facteur qui permet d’introduire un bruit de fond léger pour masquer le bruit
résiduel.

Remarques :
1. Le choix de α et β est plus critique que celui de ηi , i = {1, 2}.
2. Si η1 = η2 = 1, il s’agit d’une soustraction spectrale d’amplitude.
3. Si η1 = 2, η2 = 0.5, il s’agit d’une soustraction spectrale de puissance.
4. Si η1 = 2, η2 = 1, il s’agit du filtrage de Wiener.

4.1.3 Amélioration psychoacoustique


La soustraction spectrale, malgré sa simplicité, ses capacités à réduire le bruit additif
et les améliorations qui lui ont été apportées (du point de vue paramétrisation contrôlée
par le rapport signal à bruit), reste une méthode limitée par l’apparition des distorsions
et du bruit musical au niveau du signal estimé. Au fil du temps, d’autres améliorations
CHAPITRE 4 :
42 État de l’art du débruitage mono-capteur de la parole

ont été étudiées dans plusieurs travaux [Virag 99, Udrea 08, Bhatnagar 02]. Elles sont
basées sur des notions psychoacoustiques. Nous décrivons ici la contribution de Virag
[Virag 99] qui a suscité beaucoup d’intérêt dans le domaine. Elle consiste à rendre le
bruit musical perceptuellement moins gênant en exploitant le phénomène de masquage.
On rappelle que ce dernier est modélisé par le calcul du seuil de masquage du signal
trame par trame et que tout bruit au-dessous de ce seuil est imperceptible à l’oreille
humaine. Les deux étapes clé de sa méthode sont :
– Le calcul du seuil de masquage du bruit par la procédure de Johnston à partir
d’une estimée du signal de parole issue de la soustraction spectrale classique. Elle
corrige cette courbe vu la différence qu’elle présente par rapport à la courbe de
masquage du signal propre. Cette différence est plus significative pour les bandes
critiques au delà de 15 (c’est-à-dire aux hautes fréquences). La correction proposée
est empirique et consiste à diminuer le seuil de masquage pour tenir compte de
l’effet tonal du bruit musical. En effet, la nature tonale du bruit musical semblable
à celle de la parole influence la précision de calcul du seuil de masquage de manière
à augmenter son niveau normal. La correction proposée ne peut être fiable que si
l’on arrive à localiser le bruit musical ou du moins l’estimer afin de contrôler le
niveau de diminution ou d’augmentation de cette courbe estimée. Plus de détails
sur l’estimation et la correction de la courbe de masquage seront donnés dans le
chapitre 5.
– Elle généralise les méthodes de soustraction spectrale selon une formule unique
(Eq. 4.17) et adapte les paramètres en fonction du seuil de masquage. Si le seuil
de masquage est au-dessus du bruit résiduel, ce dernier sera automatiquement
masqué. Il est inutile de le réduire pour éviter toute distorsion du signal de la
parole et les paramètres sont maintenus à leur minimum. Sinon, le bruit sera
perceptible et doit être réduit en augmentant les paramètres de soustraction.
Dans [Virag 99], l’adaptation des paramètres est régie par les deux formules ci
dessous :
α(ν) = Fα [αmin , αmax , T (ν)] (4.18)
β(ν) = Fβ [βmin, βmax , T (ν)] (4.19)
où T (ν) est le seuil de masquage, Fα et Fβ sont deux fonctions non linéaires
permettant une réduction maximale (resp. minimale) du bruit résiduel pour des
valeurs minimales (resp. maximales) de la courbe de masquage :

Fα = αmax si T (ν) = Tmin (ν) (4.20)


Fα = αmin si T (ν) = Tmax (ν). (4.21)

De même pour Fβ .

Fβ = βmax si T (ν) = Tmin (ν) (4.22)


Fβ = βmin si T (ν) = Tmax (ν). (4.23)

Pour les valeurs Tmin (ν) < T (ν) < Tmax (ν), Virag [Virag 99] suggère d’effectuer
une interpolation dépendante de la valeur de T (ν). Après des expériences avec
différents types de bruit et pour des valeurs de η = η1 = 2 ;η2 = η11 = 0.5, les
valeurs de α et β, ci-dessous, se sont avérées les plus appropriées dans le sens où
Section 4.2 : Filtrage de Wiener 43

elles permettent le meilleur compromis possible entre la quantité du bruit résiduel


et la distorsion du signal.
αmin = 1 ; αmax = 6 ; βmin = 0 ; βmax = 0.02.
Le fait de se baser sur la courbe de masquage, au lieu du rapport signal à bruit pour
ajuster les paramètres de la soustraction spectrale, permet d’introduire un effet de
lissage qui limite l’apparition du bruit musical. La limitation de la méthode reste le
caractère empirique et non précis de la correction de la courbe de masquage. Ceci
pourrait limiter les performances de la méthode en cas de mauvaise estimation de la
courbe de masquage dont dépend largement le processus d’ajustement des paramètres
α et β.

4.2 Filtrage de Wiener


4.2.1 Principe
Le filtre de Wiener est parmi les méthodes de débruitage classiques les plus uti-
lisées dans la littérature. C’est l’estimateur W (ν) qui minimise l’Erreur Quadratique
Moyenne (EQM) entre le signal d’entrée et celui en sortie Eq.(4.24) :
h i
b 2
E[|ǫ(ν)|2 ] = E S(ν) − S(ν) (4.24)
h 2 i
= E S(ν) − W (ν)Y (ν) . (4.25)

L’expression du filtre est donnée par


 
W (ν) = argmin E |S(ν) − W (ν)Y (ν)|2 . (4.26)

D’après le théorème de projection, il y a une seule solution à (4.26). Elle est donnée
par le principe d’orthogonalité via l’équation :
 
E ǫ(ν)Y (ν)+ = 0. (4.27)

où Y (ν)+ ets le transposé conjugué de Y (ν). Tout calcul fait (Annexe B), on aboutit
à l’expression du filtre de Wiener suivante :

δ(ν)
W (ν) = (4.28)
δ(ν) + γ(ν)

où δ(ν) et γ(ν) sont respectivement les densités spectrales de puissance du signal de
parole et du bruit. Dans le problème de débruitage de la parole mono-capteur, on ne
dispose que du signal observé alors que l’expression (4.28) fait intervenir des quantités
a priori. L’une des façons d’estimer la densité spectrale de puissance du signal de parole
est de procéder à un calcul itératif du filtre de Wiener basée sur une modélisation LPC
du signal de parole. La mise à jour de la densité spectrale de puissance est faite à
chaque itération et déduite à partir des coefficients AR. Une des limitations de cette
méthode, comme pour tout processus itératif, est de choisir le moment où il est pertinent
CHAPITRE 4 :
44 État de l’art du débruitage mono-capteur de la parole

d’arrêter les itérations (la convergence est alors supposée atteinte), sans parler des coûts
de calculs qui sont très élevés. D’un autre point de vue, pour éviter le passage par
l’estimation de la densité spectrale de puissance du signal, on peut exprimer l’équation
(4.28) en terme de rapport signal à bruit a priori (Eq. 4.29) ce qui nous conduit à
un problème d’estimation du rapport signal à bruit (Eq. 4.30) au lieu de la densité
spectrale de puissance :
ξ(ν)
W (ν) = , (4.29)
1 + ξ(ν)
E[|S(ν)|2 ] δ(ν)
ξ(ν) = 2
= . (4.30)
E[|B(ν)| ] γ(ν)
Comme pour la soustraction spectrale, l’une des améliorations apportées au filtrage
de Wiener [Lim 79] est la paramétrisation de sa fonction de gain afin de la rendre plus
flexible selon l’équation (4.31) :
 δ(ν) β
W (ν) = . (4.31)
δ(ν) + αγ(ν)

Cette même équation, ré-écrite différemment en fonction du rapport signal à bruit


(4.32), montre que le paramètre β affecte l’atténuation, et ainsi les distorsions, unique-
ment pour les rapports signal à bruit faibles :
 ξ(ν) β
W (ν) = . (4.32)
α + ξ(ν)

Quant au paramètre α, il offre plus de flexibilité puisqu’il peut influencer l’atténuation


pour les faibles et forts rapports signal à bruit [Loizou 07].
La paramétrisation ainsi que la version du filtrage de Wiener itératif ne parviennent
pas à éviter complètement le problème du bruit musical. On verra dans la section sui-
vante les améliorations apportées de type perceptuel et leur impact sur les performances
du débruitage de la parole. À noter également qu’on verra par la suite que plusieurs
autres critères d’optimisation aboutissent à un filtrage de Wiener mais sous d’autres
contraintes.

4.2.2 Amélioration psychoacoustique


Dans [Lin 02], on propose de décomposer le signal de parole observé en bandes cri-
tiques selon un banc de filtres afin de simuler le comportement non linéaire en fréquence
de notre système d’audition. Ensuite, on exprime l’erreur quadratique moyenne par
bande critique et on se donne le critère suivant :
h i
2 2
Jj = (Kj − 1) δj + µKj max γj − ηTj , 0 (4.33)

où δj ne désigne pas la densité spectrale de puissance du signal de parole dans un canal
de fréquence ν mais plutôt dans la bande critique j (idem pour γj la densité spectrale de
puissance du bruit) ; Kj , Tj sont respectivement le filtre de Wiener modifié à déterminer
Section 4.3 : MMSE et MMSE-LSA 45

et la courbe de masquage à la bande critique j ; η est un paramètre permettant d’ajouter


un autre degré de liberté à la conception du filtre minimisant le critère Jj . Ce dernier
apporte une modification au critère ordinaire des moindres carrés de par l’introduction
du terme de la courbe de masquage lui apportant ainsi une contrainte supplémentaire.
En outre, le bruit est pondéré, dans le critère, uniquement par la quantité audible. Il
s’agit d’une hypothèse simple, mais elle est certainement plus précise, du point de vue
perception, que l’hypothèse habituelle. En résolvant l’équation
dJj
= 0, (4.34)
dKj

on obtient un filtrage de Wiener perceptuel du bruit audible (Eq. 4.35)

δ
Kj = j . (4.35)
δj + max γj − Tj , 0

D’après cette équation, on remarque que le gain Kj décroı̂t à mesure que le bruit est
supérieur à la courbe de masquage, mais ce gain reste inférieur au gain du filtrage
optimal de Wiener (Eq. 4.28) ainsi qu’à celui du filtrage de Wiener généralisé (Eq.
4.31).
Dans un autre travail [Beaugeant 98], les auteurs proposent de pondérer le filtre de
Wiener perceptuellement sans affecter l’expression du filtre optimal. En effet, le but
est d’appliquer le filtrage de Wiener uniquement dans les fréquences où le bruit est
audible.
(
δ(ν)
δ(ν)+γ(ν)
si γ(ν) > T (ν)
Hk (ν) = (4.36)
1 ailleurs.

Dans le chapitre suivant, on verra en détails notre contribution dans l’amélioration


du filtrage de Wiener. Des résultats expérimentaux de différentes méthodes seront
également présentés.

4.3 MMSE et MMSE-LSA


4.3.1 Principe
La particularité de cette règle provient du fait que la valeur de l’atténuation spec-
trale dépend essentiellement des valeurs du spectre à court terme mesurées dans les
trames précédant la trame courante.
La règle de suppression d’Ephraim et Malah [Ephraim 84] est fondée sur une esti-
mation bayesienne du spectre à court terme dans le sens des moindres carrés, d’où l’ap-
pellation d’estimateur de l’amplitude spectrale à court terme au sens de l’erreur qua-
dratique moyenne MMSE-STSA (Minimum Mean Square Error-Short-Term Spectral
Amplitude). Elle est une des méthodes les plus populaires donnant des résultats satis-
faisants aussi bien du point de vue réduction de bruit que vis-à-vis du bruit musical.
CHAPITRE 4 :
46 État de l’art du débruitage mono-capteur de la parole

La fonction du gain de cette règle (tel que Ŝ(ν) = G(ν).Y (ν)), dans la trame k et à la
fréquence ν, est donnée par :
√ s h  ξb (ν) i
π 1 ξbk (ν) k
Gk (ν) = F χk (ν) (4.37)
2 χk (ν) 1 + ξbk (ν) 1 + ξbk (ν)

où ξbk (ν) est l’estimée du rapport signal à bruit a priori dans la trame k donnée par
l’Eq. (4.39) et F est une fonction définie par :
 −x h x  x i
F (x) = exp (1 + x)I0 + xI1 (4.38)
2 2 2
où I0 (.) et I1 (.) sont respectivement les fonctions de Bessel modifiées d’ordre 0 et 1 et
l’expression de ξbk (ν) est la suivante :

ξbk (ν) = (1 − α)h( χk (ν) − 1 ) + α |Gk−1(ν)Yk−1 (ν)|2 /γk (ν) . (4.39)


| {z } | {z }
RSB instantané RSB passé

Dans l’expression (4.39), χk (ν) est l’estimée de E[|Yk (ν)|2 ]/γk (ν), le Rapport Signal à
Bruit a posteriori. Afin d’éviter d’éventuelles valeurs négatives de χk (ν), la fonction
h permet de considérer seulement la partie positive : h(x) = x si x ≥ 0 et h(x) = 0
ailleurs. Cet estimateur (4.39) est récursif et s’avère performant du fait qu’il apporte
des améliorations sur la qualité du signal débruité. Il permet de réduire le bruit musical
et les distorsions du signal de par ses propriétés de lissage fréquentiel. Cet estimateur
est connu sous le nom de Directed-Decision. On s’aperçoit, à partir de (4.39) et (4.37),
que l’estimateur Gk (ν) dépend essentiellement des valeurs du spectre à court terme
mesurées dans les trames précédentes. Effectivement, l’estimée ξk (ν) prend en compte
la trame bruitée courante avec un poids de (1 − α) et la trame débruitée précédente
avec un poids de α (sachant que 0 ≤ α ≤ 1).
Dans [Cappe 94], une analyse asymptotique du gain Gk (ν) en fonction de ξk (ν)
montre que, pour des valeurs de ξk (ν) très petites, on applique une forte atténuation.
Dans ce cas de figure, le comportement de Gk (ν) en fonction de (χk (ν) − 1), en
fixant la valeur de ξk (ν), montre que pour des valeurs petites de ξk (ν) l’influence
de (χk (ν) − 1) devient importante. Cette influence est même contre intuitive puisque
des fortes atténuations sont appliquées quand (χk (ν) − 1) est grand, alors que la lo-
gique veut plutôt qu’on débruite plus quand le rapport signal à bruit est faible. Dans
[Cappe 94], l’auteur indique que cette contre intuition est utile pour le traitement de
segments de parole de faible énergie. Dans une comparaison entre le filtre de Wiener
et l’estimateur MMSE-STSA [Ephraim 84], les auteurs constatent que :
– l’erreur quadratique moyenne de l’estimateur MMSE-STSA ne peut pas dépasser
1
1 alors que pour le filtre de Wiener, elle peut même atteindre la valeur 1−π/4 .
– l’estimateur MMSE-LSA et le filtre de Wiener sont peu sensibles à des petites va-
riations dans l’estimation de ξk (ν). Ils tolèrent en l’occurrence une sur-estimation
de cette grandeur plutôt qu’une sous-estimation. Une sur-estimation de ξk (ν) im-
plique même une atténuation de l’erreur quadratique moyenne dans le cas du
filtre de Wiener. Ceci est dû au fait que le filtre de Wiener n’est pas optimal au
sens du MMSE quand il emploie l’expression (4.39).
Section 4.3 : MMSE et MMSE-LSA 47

– en utilisant l’expression (4.39) avec une valeur de α égale à 0.98, le filtre de


Wiener introduit moins de bruit résiduel que l’estimateur MMSE-STSA, sachant
que le bruit résiduel est de nature moins colorée et moins gênant que le bruit
musical pour les deux estimateurs. L’estimateur MMSE-STSA introduit moins
de distorsion que le filtre Wiener.

La réduction du bruit musical est fortement liée à l’expression du RSB a priori (4.39),
qui constitue d’ailleurs l’originalité du travail présenté dans [Ephraim 84]. Analysant
cette expression : 
– Si χk (ν) − 1 ≤ 0, alors ξk (ν) correspond à une version lissée du rapport signal à
bruit a posteriori. Ceci implique que la variance du RSB a priori est plus petite
que celle du RSB a posteriori. Puisque Gk (ν) dépend essentiellement de ξk (ν),
l’atténuation appliquée au signal bruité ne changera pas brusquement d’une trame
à l’autre, d’où la réduction de l’apparition du bruit musical.
– Si χk (ν) − 1 > 0, alors ξk (ν) est une version lissée et retardée d’une trame du
RSB a posteriori.
– Quand α diminue, les distorsions diminuent et le bruit musical augmente et
vice-versa. Sachant que si α diminue, le poids de h(χk (ν) − 1) augmente, on peut
donc conclure que le bruit musical est très sensible à ce terme.

L’inconvénient de cette expression est la sur-atténuation au moment des transitoires


dans le cas de l’apparition d’une composante de parole à faible niveau [Cappe 94], d’où
une des améliorations proposées dans la section 4.3.2.
Dans une autre version de leurs estimateurs [Ephraim 84], les auteurs tiennent
compte d’un autre facteur déterminant, il s’agit en l’occurrence de la probabilité de
présence du signal. L’expression du nouvel estimateur qui tient compte de cette pro-
babilité est !
Λk (ν)
Hk (ν) = Gk (ν) (4.40)
Λk (ν) + 1
avec Λk (ν), le rapport de vraisemblance généralisé, dont l’expression est
! !
1 − qk (ν) exp(vk (ν))
Λk (ν) =
qk (ν) 1 + ξk (ν)

où qk (ν) est la probabilité d’absence du signal dans la composante spectrale ν et à la


trame k et !
ξk (ν)
vk (ν) = χk (ν). (4.41)
1 + ξk (ν)
Cet estimateur donne de meilleures performances par rapport à l’estimateur MMSE-
STSA qui ne considère pas cette probabilité [Ephraim 84]. Les auteurs de [Ephraim 84]
ont également proposé un autre estimateur, nommé MMSE-LSA, basé cette fois-ci sur
le critère de la minimisation de l’erreur quadratique moyenne appliquée au logarithme :
n 2 o
E log Sk − log Sbk . (4.42)
CHAPITRE 4 :
48 État de l’art du débruitage mono-capteur de la parole

Ce critère s’approche plus de l’échelle subjective en relation avec la perception humaine,


d’où son intérêt. L’expression de l’estimateur MMSE-LSA qui dépend également du
RSB a priori ξk (ν) est la suivante :
! ( Z )
∞ −t
ξ k (ν) 1 e
GLSA
k (ν) = exp dt (4.43)
ξk (ν) + 1 2 vk (ν) t

où vk (ν) est donnée par l’équation (4.41). L’intégrale dans l’expression (4.43) est ap-
pelée intégrale exponentielle ; elle est approximée numériquement par
Z ∞ −t
e e−x X k!
dt ≈ .
x t x k xk

Une comparaison entre l’estimateur MMSE-STSA et l’estimateur MMSE-LSA


[Loizou 07] montre que GLSA k (ν) est souvent inférieur de 3 dB par rapport à Gk (ν)
pour des mêmes valeurs de χk (ν) et ξk (ν). Il permet donc une grande atténuation et
réduit le bruit résiduel sans pour autant introduire plus de distorsion.

4.3.2 Améliorations de l’approche Decision-Directed


Dans des travaux plus récents, en cherchant à analyser l’estimateur du RSB a
priori selon l’approche Decision-Directed (Eq. 4.39), diverses conclusions ont été tirées
menant à plusieurs améliorations de cette technique, citons par exemple [Cappe 94],
[Plapous 07] et [Azirani 96]. Comme on va comparer l’estimateur d’Ephraim et Ma-
lah avec d’autres estimateurs qui visent à l’améliorer, on notera dorénavant ξkDD (ν)
l’estimateur du RSB a priori selon la méthode Decision-Directed et ξek (ν) toute autre
amélioration.
Il est à noter qu’on introduit plus de bruit musical lorsque le gain de débruitage
dépend du RSB a posteriori [Cappe 94]. La qualité est alors mauvaise même s’il y a
peu de distorsions du signal. Le RSB a priori (Eq. 4.39) d’Ephraim et Malah, pour
des valeurs de α proches de 1, réduit le bruit musical et résiduel en général, mais aux
dépens d’une réduction de l’intelligibilité liée au lissage des transitions du signal de
parole (la figure 4.2 met en évidence les transitions du signal marquant le passage du
silence à la parole ou vise-versa). En plus, le fait de favoriser les trames précédentes
introduit un retard qui, du point de vue de la perception, est perçu comme un effet
de réverbération [Plapous 07]. Le délai dans l’estimation de ξkDD (ν) induit tantôt une
sous-estimation du Rapport Signal à Bruit instantané tantôt une sur-estimation selon
la nature de la trame passée (k − 1) (parole ou silence).
Dans [Plapous 07], pour remédier à ce problème qui se pose surtout pour les parties
transitoires de la parole, les auteurs proposent un autre estimateur qui fonctionne en
deux étapes :

Etape I :
ξkDD (ν)
GDD
k (ν) = . (4.44)
ξkDD (ν) + 1
Section 4.3 : MMSE et MMSE-LSA 49

Parole

Silence Silence

Onset Offset

Figure 4.2 — Parties transitoires de la parole

Etape II :

ξek (ν) = ξk+1


DD
(ν) (4.45)
|GDD (ν)Yk (ν)|2
= α′ k + (1 − α′ )h(χk+1 (ν) − 1) (4.46)
γk (ν)
|GDD
k (ν)Yk (ν)|
2
≈ . (4.47)
γk (ν)

Le paramètre α′ joue le même rôle que α mais son inconvénient est de se baser
sur une information future χk+1 (ν) dont on ne dispose pas. Par approximation et dans
le but d’éviter des retards inutiles, les auteurs dans [Plapous 07] fixent la valeur de
α′ à 1, d’où l’expression 4.47. Le nouvel estimateur ξek (ν) a l’avantage de garder les
propriétés de ξkDD (ν) quand le rapport signal à bruit instantané est inférieur à 0 dB
et ainsi permet de réduire le bruit musical. Pour un rapport signal à bruit instantané
supérieur à 0 dB, ξek (ν) coı̈ncide avec ce dernier contrairement à ξkDD (ν) qui introduit
un retard.
Une autre amélioration [Cappe 94] consiste à seuiller la valeur minimale du RSB a
priori ξkDD (ν) à une valeur ξkmin (ν) = 15 dB (Eq. 4.48) afin de permettre de réduire le
bruit musical de faible énergie ce qui donne lieu à l’estimateur
n o
e DD min
ξk (ν) = max ξk (ν), ξk (ν) . (4.48)

Dans [Martin 03], forcer le terme χk (ν) − 1 à être positif introduit à son tour un
biais dans l’estimation du RSB a priori. La fonction h est donc omise dans la nouvelle
estimation (Eq. 4.49) :
n |G (ν)Y (ν)|2 o
k−1 k−1
ξek (ν) = max α + (1 − α)(χk (ν) − 1), ξkmin (ν) (4.49)
γk (ν)

Dans le cas où α ≈ 1 dans l’expression de ξkDD (ν), on a

|Gk−1 (ν)Yk−1 (ν)|2 |Sbk−1 (ν)|2


ξkDD (ν) ≈ = . (4.50)
γk (ν) γk (ν)

Dans [Erkelens 07], l’auteur explique qu’un biais est introduit suite à l’emploi du terme
|Sbk−1 (ν)|2
γk (ν)
dans l’équation (4.39). L’espérance au carré de l’amplitude est utilisée au lieu
de l’espérance du carré de l’amplitude ce qui introduit un biais dans l’estimation de
CHAPITRE 4 :
50 État de l’art du débruitage mono-capteur de la parole

ξ DD (ν) surtout pour ξ DD (ν) << 1. La correction qu’il propose permet d’introduire
un facteur correctif de l’ordre de π4 ce qui donne lieu à l’expression du RSB a priori
suivante :
n π |G (ν)Y (ν)|2 o
k−1 k−1
ξek (ν) = max α + (1 − α)(χk (ν) − 1), ξkmin (ν) . (4.51)
4 γk (ν)
L’introduction du facteur π4 implique une sur-estimation du RSB a priori dont les
conséquences sont moins graves que celle provenant d’une sous-estimation [Ephraim 84]
de cette quantité.
Les autres améliorations apportées à l’estimateur ξkDD (ν) sont en relation avec le
paramètre α. En effet, quand α ≈ 1, l’approximation (Eq. 4.50) introduit un retard non
négligeable (de l’ordre d’une trame) pour les portions du signal correspondant à une
apparition brusque de la parole. Ceci introduit des atténuations indésirables de ce type
de composantes de signal de parole. Si l’on diminue α, en plus de l’apparition du bruit
musical, le même problème de délai se pose pour le cas des transitions parole/silence
(Offset sur la figure 4.2) [Cappe 94], d’où la suggestion d’adapter ce paramètre en
fonction du rapport signal à bruit. Dans [Beaugeant 99], les auteurs proposent d’ajuster
le paramètre α selon l’équation (4.52) :

ξkDD (ν)
α = αmax − λ (4.52)
ξkDD (ν) + 1

où λ > 1. Quand ξkDD (ν) est faible, on a α qui tend vers αmax . Dans ce cas, le bruit
musical diminue si αmax ≈ 1. Quand ξkDD (ν) est fort, α tend vers αmax − λ. La valeur
petite de α implique une adaptation rapide (réduction du délai) et une réduction des
distorsions. Dans [Beaugeant 99], des tests expérimentaux ont révélé que des valeurs
de αmax = 0.98 et λ = 0.06 donnent de meilleurs résultats.

4.4 Méthodes à sous-espace signal


4.4.1 Principe
L’une des approches de débruitage de la parole qui a suscité beaucoup d’intérêt
est le filtrage à sous-espace signal. Dans cette approche, on développe un estimateur
linéaire non paramétrique, du signal de parole propre, obtenu par décomposition du
signal observé en deux sous-espaces orthogonaux : le sous-espace signal et le sous-
espace bruit. La décomposition est achevée soit par valeurs singulières SVD ou par
valeurs propres EVD. Le principe des méthodes à sous-espace signal, décrit dans cette
section, se fera premièrement en supposant que le bruit est additif, blanc et décorrélé
de la parole, deuxièmement, en raisonnant par rapport à une décomposition en valeurs
propres. Pour plus de détails sur l’utilisation des valeurs singulières dans ce genre
d’application le lecteur peut se référer à [Loizou 07]. La réduction du bruit par cette
approche est obtenue par annulation des composantes du sous-espace bruit en premier
lieu et en supprimant la contribution du bruit dans le sous-espace signal en second
(figure 4.3).
Section 4.4 : Méthodes à sous-espace signal 51

Figure 4.3 — Débruitage à sous-espace signal

La première étape est simple dans le cas où le bruit est blanc (on verra par la suite
ce qui se passe dans le cas où le bruit est coloré). La deuxième étape est indispensable
contrairement à la troisième qui est souvent omise pour éviter les distorsions puisque,
dans l’espace signal, le bruit et le signal interfèrent.
Comment peut on décomposer un vecteur de Rn en deux composantes orthogonales ?
Soient y, s et b les vecteurs correspondant respectivement au signal bruité, au signal
propre et au bruit, tels que :
     
y1 s1 b1
 y2   s2   b2 
     
y= .. , s =  .. , b =  .. 
 .   .   . 
yq sq bq

on a
y = s + b. (4.53)

Soit Ry , Rs et Rb , les matrices d’autocorrélation de y, s et b. Sous l’hypothèse que la


parole est décorrélée du bruit, on écrit :

Ry = Rs + Rb . (4.54)

La décomposition en valeurs propres EVD de ces matrices d’autocorrélation donne


CHAPITRE 4 :
52 État de l’art du débruitage mono-capteur de la parole

lieu aux équations suivantes :

Rs = UΛs U T (4.55)
Rb = U(σ 2 I)U T (4.56)
Ry = U(Λs + σ 2 I)U T , (4.57)

Λs est la matrice diagonale contenant les valeurs propres λs de Rs ; U est une matrice
orthonormale en colonnes ; σ 2 est la variance du bruit et I est la matrice identité.
D’après les équations (4.55), (4.56) et (4.57), on remarque que les vecteurs propres
du bruit sont identiques aux vecteurs propres du signal de parole grâce à l’hypothèse
de bruit blanc. Ces vecteurs propres peuvent donc êtres calculés à partir de Ry (c-à-d
à partir du signal observé). En supposant le sous-espace signal de dimension p avec
p < q, la matrice d’autocorrélation Ry possède ainsi p valeurs propres λs non nulles si
λs > σ 2 . Dans ce cas, le bruit peut être séparé de la parole et Ry peut être réécrite en
supposant que les vecteurs propres sont en ordre décroissant :
     
  Λs 0 2 Ip 0  T
Ry = Up Uq−p +σ Up Uq−p . (4.58)
0 0 0 Iq−p

Indifféremment du critère d’optimisation, le débruitage de la parole est obtenu :


– en annulant les composantes du signal bruité dans le sous-espace bruit (de di-
mension q − p).
– en atténuant les valeurs propres du sous-espace signal (de dimension p).

Mathématiquement, le débruitage se ramène à un filtrage F tel que bs = Fy, où F =


Up Gp UpT , avec Gp une matrice (p × p) diagonale contenant les facteurs de pondération
gi appliqués aux p premières valeurs propres de Ry , tel que
p
X
F= gi ui uTi (4.59)
i=1

est une sommation de filtrages intermédiaires appliqués sur chaque vecteur propre où
gi est le ième élément diagonal de G. La suppression de la contribution du bruit dans
le sous-espace signal se fait selon un critère dont l’objectif est de trouver les éléments
de la matrice G. Dans la littérature, plusieurs critères ont fait l’objet de travaux. Ils
sont de trois classes : temporels, fréquentiels et perceptuels [Ephraim 95], [Jabloun 03],
[Hermus 07], [Hu 06]. Ils sont tous basés sur la minimisation de la distorsion du signal
en contraignant le bruit résiduel à être au dessous d’un certain seuil (la courbe de
masquage dans le cas des estimateurs perceptuels).

Estimateur dans le domaine temporel : Le critère d’estimation dans le domaine


temporel s’écrit sous forme d’un problème d’optimisation (minimisation de l’énergie de
la distorsion du signal) sous contrainte (seuil maximal du bruit résiduel).

min ε2s
G (4.60)
sous contrainte que ε2b ≤ qσ 2 ,
Section 4.4 : Méthodes à sous-espace signal 53

où ε2s désigne la distorsion du signal, σ 2 la variance du bruit et q contrôle le niveau


admissible du bruit résiduel (0 < q < 1). Ce problème est résolu par la méthode du
Lagrangien en résolvant l’équation

dL(G, µ) d ε2s + µ(ε2b − qσ 2 )
= =0 (4.61)
dG dG
où µ est le multiplicateur de Lagrange. Tout calcul fait, on aboutit à l’expression du
filtre optimal G suivante
Rs Rs
Gopt = = (4.62)
Rs + µRb Rs + µσb2 I
En utilisant la décomposition en valeurs propres des matrices d’autocorrélation Rs et
Rb , le filtre G (Eq. 4.62) peut être simplifié par
 
Gµ 0
Gopt = U UT (4.63)
0 0
où
Gµ = Λs (Λs + µσb2 I)−1 . (4.64)

Estimateur dans le domaine spectral : Cet estimateur est une généralisation de


celui du domaine temporel, de telle façon à minimiser l’énergie de la distorsion du signal
en gardant un certain niveau du bruit résiduel cette fois-ci pour chaque composante
1
spectrale. Soit uTk ǫ2b la k ı̈¿ 2 e composante spectrale du bruit résiduel. L’estimateur H
qu’on cherche peut accepter cette fois-ci des valeurs d’entrée qui sont complexes. Le
critère, dans le domaine spectral, s’écrit ainsi :

min ǫ2s
H

E|uTk ǫ2b | ≤ αk σ 2 k = 1, 2, ...p
sous contrainte que (4.65)
E|uTk ǫ2b | = 0 k = p + 1, ...q.
L’énergie du signal dans le sous-espace bruit est nulle pour tout composante spectrale k,
tel que p + 1 < k < q. La solution de ce problème est aussi donnée par le multiplicateur
de Lagrange qui débouche sur l’estimateur optimal H satisfaisant l’équation suivante :
HRs + σ 2 (UΛµ U T )H − Rs = 0 (4.66)
tel que Λµ = diag(µ1 , µ2 , ...µp ) est la matrice diagonale des multiplicateurs de Lagrange.
En utilisant la décomposition en valeurs propres de Rs (Eq. 4.55) et en l’injectant dans
(4.66) , on obtient :

(I − U T HU)Λ − σw
2
Λµ U T HU = 0.

En posant Q = U T HU et en supposant que cette matrice est diagonale, le filtre opti-


mal a la même expression que celui du domaine temporel H = UQU T . Les éléments
diagonaux de Q ont alors la forme
(
λy (k)
λ (k)+σ 2 k = 1, ...p
qk = s b µk (4.67)
0 k = p + 1, ...q.
CHAPITRE 4 :
54 État de l’art du débruitage mono-capteur de la parole

L’hypothèse de départ pour le développement des méthodes à sous-espace signal


est de supposer que le bruit est blanc. Dans ce cas, la matrice de variance du bruit
est diagonale de forme σb2 I et les vecteurs propres du signal bruité sont identiques à
ceux du signal propre et du bruit. La relation reliant ensuite les valeurs propres de ces
signaux est
Λy (k) = Λs (k) + Λb (k), k = 1, 2, ...q (4.68)
Λy (k) = Λs (k) + σb (k), k = 1, 2, ...q. (4.69)

Extension des méthodes à sous-espace signal au cas du bruit coloré : Dans


le cas du bruit coloré, la matrice d’autocorrélation du bruit n’est pas diagonale et
Λy (k) 6= Λs (k) + Λb (k), k = 1, 2, ...q. Dans la littérature, il n’existe pas de méthode
permettant de déduire les valeurs propres du signal de parole à partir d’une version
de celui-ci entachée par un bruit coloré. La solution courante est de passer par un
blanchissement du signal observé afin de se ramener au cas du bruit blanc et suivre
ainsi les étapes décrites dans la section précédente.
On commence par estimer la matrice d’autocorrélation du bruit Rb pendant les
instants d’absence d’activité vocale. Ensuite, on factorise cette matrice Rbb , supposée
symétrique et positive, suivant une factorisation de Cholesky [Hermus 07], tel que
Rbb = RRT . On utilise la matrice R−1 pour blanchir le signal bruité selon les équations
suivantes
R−1 y = R−1 s + R−1 b (4.70)
ȳ = s̄ + b̄. (4.71)

Le bruit b̄ est de variance σb2 . En calculant les matrices d’autocorrélation des signaux
ȳ, s̄ et b̄, on obtient Rȳ = Rs̄ + I, avec Rs̄ = RRs RT . L’étape finale consiste à faire
l’inverse du blanchiment pour retrouver la bonne estimation du signal de parole. Soit
H̄ l’estimateur obtenu par un des problèmes d’optimisation déjà mentionnés, on a
ensuite :
b̄s = H̄ ȳ (4.72)
bs = Rb̄s. (4.73)

Limitation des méthodes à sous-espace signal : Les méthodes de débruitage


de la parole à sous-espace signal évitent certains problèmes (par exemple la variance
des estimateurs mauvaise locaux de la densité spectral des signaux) accompagnant, par
exemple, les méthodes à soustraction spectrale et qui provoquent l’apparition du bruit
musical, mais introduisent à leur tour ce type d’artefacts à cause d’autres limitations
de nature différente, à savoir
– Le changement brusque de l’estimation de l’ordre du modèle.
– La confusion entre vecteurs propres du sous-espace signal et ceux du sous-espace
bruit (subspace swapping, [Klein 02]).
– La qualité de l’estimation de l’autocorrélation Rs affecte directement la précision
de calcul des valeurs et vecteurs propres. Les petites valeurs propres ne sont pas
forcément celles représentant le bruit blanc.
Section 4.5 : Réducteurs perceptuels du bruit audible 55


En outre, le débruitage à sous-espace signal est très coûteux en terme de calcul à
cause du calcul des matrices d’autocorrélation et surtout à cause de leur décomposition
en valeurs propres. Les deux opérations qui sont répétées pour chaque trame du signal.

4.4.2 Amélioration psychoacoustique


L’introduction de notions psychoacoustiques dans les méthodes à sous-espace a
suscité beaucoup d’attention. Le but est d’atténuer les imperfections avec un minimum
de distorsions en se basant sur le phénomène de masquage et sur le fait que le bruit
est inaudible tant qu’il est au dessous de la courbe de masquage.
Les modèles de calcul de la courbe de masquage existants (Johnston ou MPEG, voir
sections 2.2.2 et 2.2.3) sont élaborés dans le domaine fréquentiel. La difficulté qui peut
donc accompagner l’utilisation des améliorations de type perceptuel est l’adaptation de
cette courbe dans l’espace propre. Dans [Jabloun 03], [You 05], les auteurs proposent un
modèle de transformation du domaine de Fourier au domaine propre afin de remédier à
ce problème. Une fois que la courbe de masquage est bien adaptée au domaine propre,
on applique les critères d’optimisation (4.60) ou (4.65) de façon à remplacer les seuils
d’admissibilité du bruit résiduel en le contraignant, cette fois-ci, à être au-dessous de
la courbe de masquage T , ce qui signifie qu’on le force à être inaudible.

4.5 Réducteurs perceptuels du bruit audible


4.5.1 Approches et limitations
Tsoukalas [Tsoukalas 97] est parmi les premiers à avoir incorporé les notions de
psychoacoustique pour améliorer les performances du débruitage de la parole. Il a mis
en place la notion de quantité de bruit audible qui est la différence entre le spectre
du signal bruité audible (Eq. 4.74) et le spectre du signal de parole propre audible
(Eq. 4.75), voir (Eq. 4.76). Il a conçu un signal non linéaire (Eq. 4.77) basé sur une
estimation spectrale dite sparse (une composante spectrale par bande critique BC).
Cette estimée représente le minimum spectral du signal de parole propre par bande
critique. Des expériences expérimentales l’ont amené à conclure que ce minimum Smin (i)
a une distribution de probabilité de type Rayleigh dans la majorité des bandes critiques.
Le filtre non linéaire proposé est aussi basé sur le seuil de masquage. Ce dernier est
obtenu via un débruitage itératif par le biais du signal estimé de l’équation (4.77). Les
itérations permettent d’affiner l’estimation du signal propre et ainsi celle de la courbe
de masquage ;
n o
Ay (ν) = max |Y (ν)|2 , T (ν) , (4.74)
n o
As (ν) = max |S(ν)|2 , T (ν) , (4.75)

Ab (ν) = Ay (ν) − As (ν), (4.76)


CHAPITRE 4 :
56 État de l’art du débruitage mono-capteur de la parole

b Y φ(ν) (ν)
S(ν) = . (4.77)
aφ(ν) (ν) + Y φ(ν) (ν)
Le paramètre φ(ν) représente le seuil minimal au-dessous duquel une forte suppres-
sion de bruit est produite. Le paramètre a(ν) contrôle le taux de suppression donné par
Y (ν)
a(ν)
. Tsoukalas suggère d’adapter a(ν) pour une valeur fixe de φ(ν). Les tests objectifs
ont révélé que l’algorithme n’est pas beaucoup influencé par le choix du paramètre
φ(ν) et qu’une valeur de φ(ν) = 1, pour toutes les bandes critiques, donne les meilleurs
résultats. Les tests d’intelligibilité ont montré, à leur tour, que l’algorithme basé sur
le minimum spectral ainsi que celui basé sur la courbe de masquage augmentent aussi
bien l’un que l’autre le taux d’intelligibilité avec 20% pour le premier et 13% pour le
second.
Dans les travaux [Virag 99, Tsoukalas 97, Gustafsson 98], l’incorporation des no-
tions psychoacoustiques, pour concevoir ou ajuster les filtres perceptuels proposés, se
fait de manière heuristique. Dans [Hu 04], la conception du débruiteur est ramenée à
un problème d’optimisation (minimisation) sous contrainte (courbe de masquage). Soit
ε l’erreur d’estimation dûe au filtrage linéaire H(ν)
e
ε(ν) = S(ν) − S(ν)
= (1 − H(ν))S(ν) − H(ν)B(ν). (4.78)

La quantité εs (ν) = (1 − H(ν))S(ν) représente la distorsion du signal et εb (ν) =


H(ν)B(ν) représente le bruit résiduel. Le spectre d’énergie de ces deux quantités est
donné par :    
ε2s (ν) = E (1 − H(ν))2 S(ν)2 = (1 − H(ν))2 E S(ν)2 (4.79)
2
 2 2
 2
 2

εb (ν) = E H(ν) S(ν) = H(ν) E B(ν) . (4.80)
Le problème d’optimisation (4.81) consiste à réduire les distorsions ε2s sous contrainte
que le bruit résiduel ε2b ne dépasse pas un certain seuil, noté à ce stade par α :

min ε2s (ν)


H (4.81)
sous contrainte que ε2b (ν) ≤ α(ν)

C’est un problème convexe dont la solution est facilement obtenue par la méthode du
multiplicateur de Lagrange en posant
N
X 
J(H, µ1 , µ2 , ...µN ) = ε2s (ν) + µ(ν) ε2b (ν) − α(ν) .
ν=1

dJ
En résolvant l’équation dH
= 0, on aboutit au filtre linéaire (4.82) pour le problème
(4.81) :
δ(ν)
H(ν) = (4.82)
δ(ν) + µ(ν)γ(ν)
qui peut s’écrire également sous l’expression
ξ(ν)
H(ν) = ,
ξ(ν) + µ(ν)
Section 4.5 : Réducteurs perceptuels du bruit audible 57

δ(ν)
où ξ(ν) = γ(ν) est le rapport signal à bruit a priori. Le filtre H(ν) se ramène à un
simple filtrage de Wiener quand µ(ν) = 1. Le paramètre µ(ν) contrôle le rapport entre
l’atténuation spectrale et le rapport signal à bruit. Quand µ(ν) >> 1, les atténuations
augmentent pour un RSB faible. Ces atténuations sont faibles quand ce paramètre
devient très petit. Ce paramètre doit être soigneusement choisi pour éviter d’introduire
trop de distorsions du signal. Dans [Hu 04], ce choix est fait en exploitant la courbe
de masquage T (ν). Ainsi, dans le problème précédent (4.81), au lieu d’un seuil α
quelconque en contraignant le bruit résiduel à être au dessous de la courbe de masquage
T (ν), on aboutit à l’expression du filtre perceptuel optimal suivant :
1
Hopt (ν) = q . (4.83)
γ(ν)
1 + max T (ν)
− 1, 0

Dans [Gustafsson 98] et [Lee 04], les auteurs ont abouti à la même fonction de gain avec
un problème de minimisation sous contrainte qui est plus simple, en contraignant l’er-
reur entre le bruit résiduel H 2 (ν)γ(ν) et le niveau de bruit résiduel qualifié souhaitable
η 2 γ(ν) à être au-dessous de la courbe de masquage (Eq. 4.84) ;

γ(ν)(H 2 (ν) − η 2 ) ≤ T (ν). (4.84)

Aucune contrainte n’est faite sur la distorsion du signal. Quand η > 0 cela signifie qu’on
souhaite garder un certain niveau de bruit résiduel qui va permettre de lisser le spectre
après filtrage ce qui donne lieu à un bruit résiduel plus stationnaire. La résolution de
l’équation (4.84) avec une condition supplémentaire H(ν) ≤ 1 donne lieu au filtre
s
n T (ν) o
H(ν) = min + η2, 1 . (4.85)
γ(ν)

Pour des objectifs audio [Lee 04], on se fixe η = 1 alors que dans le cas de la reconnais-
sance de la parole une valeur de η = 0.05 s’est avérée plus convenable pour diminuer
les distorsions.
Si nous revenons sur l’expression de l’erreur de filtrage (4.78), nous en déduisons
que la distorsion du signal se produit inévitablement quand on supprime le bruit.
D’ailleurs, plus nous supprimons le bruit, plus nous atténuons le signal de parole et
introduisons des distorsions. Le compromis entre suppression et atténuation doit être
optimisé selon un certain critère. Sans faire intervenir des notions psychoacoustiques,
la qualité du débruitage reste contrôlée uniquement par l’erreur totale ε2 (ν) (Eq. 4.78).
La minimisation de cette erreur donne lieu aux filtres optimaux Wiener ou MMSE.
Dans [Gustafsson 98] et [Yanpu 02], une étude géométrique de l’erreur de filtrage
ε(ν) permet d’illustrer l’impact des distorsions sur le bruit résiduel et vice-versa en
fonction du rapport signal à bruit a priori ξ(ν) (Fig. 4.4). Dans cette figure, pour
ξ(ν) = 1, le filtre optimal minimisant ε2 (ν) coı̈ncide avec l’intersection de ε2b (ν) et
ε2s (ν), c’est-à-dire ε2b (ν) = ε2s (ν). Dans le cas où ξ(ν) < 1, le filtre optimal donne lieu à
une minimisation du bruit résiduel au dépens de la distorsion du signal ε2b (ν) < ε2s (ν).
Dans le cas où ξ(ν) > 1, le filtre optimal donne lieu à une minimisation de la distorsion
du signal au dépens du bruit résiduel ε2b (ν) > ε2s (ν). En conclusion, on s’aperçoit que le
CHAPITRE 4 :
58 État de l’art du débruitage mono-capteur de la parole

ξ=1

ǫ2 ǫ2b
ǫ2s
T

G
0 Gopt 1

ξk < 1 ξk > 1

ǫ2b
ǫ2 ǫ2

ǫ2s
ǫ2b
ǫ2s
G G
0 Gopt 0 Gopt

Figure 4.4 — Distorsion et bruit résiduel en fonction du RSB a priori ξ

filtrage optimal minimisant l’erreur quadratique moyenne ε2 (ν) ne peut pas contrôler
séparément les quantités ε2b et ε2s . Aussi, les améliorations apportées dans la littérature
visent à injecter des informations supplémentaires perceptuelles afin d’ajouter plus
de flexibilité à ces deux quantités et ainsi améliorer les performances. L’information
souvent exploitée est la courbe de masquage parce qu’elle modélise le phénomène de
masquage qui se produit au niveau de notre système d’audition et dont l’impact est
très déterminant. Dans la figure 4.5, on présente le premier cas de figure qui peut
se présenter : ε2 > Tk quel que soit ν. Il n’y a donc pas d’intersection entre l’erreur
totale ε2 et la courbe de masquage Tk . Cela signifie que, quel que soit le gain G(ν), il
est impossible de contraindre cette erreur à être au-dessous de T (ν) et la rendre ainsi
Section 4.5 : Réducteurs perceptuels du bruit audible 59

ξ=1

ǫ2 ǫ2b
ǫ2s
T

H
0 Gopt 1

Figure 4.5 — Distorsion, bruit résiduel et courbe de masquage

ξ=1

ǫ2
ǫ2s ǫ2b T

H
0 G1 Gopt G2 1

Figure 4.6 — Distorsion, bruit residuel et courbe de masquage : intersection entre


la courbe de masquage et l’erreur quadratique moyenne

inaudible.
Dans le cas où il y a intersection, on se donne simplement la contrainte d’avoir
ε2 < Tk sans imposer le minimum. Ce qui permet de jouer sur la distorsion et le bruit
résiduel tout en restant au dessous du seuil de maquage Tk . L’intersection entre le seuil
de masquage et ε2 donne lieu à deux filtres différents G1 et G2 ) représentant les points
d’intersection gauche et droit respectivement [Gustafsson 98].
p
δ(ν) ± δ(ν)T (ν) − γ(ν)δ(ν) + T (ν)γ(ν)
G1,2 (ν) = . (4.86)
γ(ν) + δ(ν)
CHAPITRE 4 :
60 État de l’art du débruitage mono-capteur de la parole

Si on privilégie les distorsion du signal et qu’on veut en avoir le minimum possible, on


choisi un filtre G qui tend vers G1 . Si on veut obtenir moins de bruit résiduel, on prend
un G qui tend vers G2 .
Généralement, on prend G(ν) ≤ 1, alors que, dans l’équation (4.86), on peut se
retrouver face à des valeurs de G supérieures à 1, d’où la contrainte supplémentaire
suivante
n o
G = min Gi (ν), 1 , pour i ∈ 1, 2.

Pour un G tel que G1 ≤ G ≤ G2 , l’erreur ε2 est au dessous de la courbe de masquage


T (ν). Elle est donc inaudible. En priorité, on choisit G2 comme solution puisqu’elle
nous garantit le niveau de distorsion le plus faible.
Chen [Qijun 06] introduit la notion de probabilité pour optimiser son filtrage per-
ceptuel. Il s’agit de la probabilité de masquage du bruit qui est une originalité de son
travail bien que l’idée fut déjà présente dans le travail d’Azirani [Azirani 95]. En ef-
fet, les auteurs se différencient uniquement dans l’expression de cette probabilité. Si
Azirani considère un modèle simple où la probabilité de masquage du bruit est égale
à un quand le bruit est audible et est égale à zéro dans le cas inverse, Chen établit
une expression de cette probabilité qui est une fonction de la courbe de masquage (Eq.
4.87). Il part de l’hypothèse que l’amplitude du bruit a une fonction de densité de
probabilité de type Rayleigh :
T (ν)
p(ν) = 1 − e γ(ν) . (4.87)
Pour la conception de son estimateur, Azirani considère S(ν) b = E[S(ν)|Y (ν)]
comme l’estimation du signal de parole sachant l’observation au sens de la minimi-
sation de l’erreur quadratique moyenne. En développant cette espérance conditionnelle
de façon à introduire une condition sur l’hypothèse binaire (4.89) de l’état du bruit
(masqué ou non masqué), on aboutit à l’estimateur suivant :
     
b
S(ν) = E S(ν)|Y (ν), H0 p H0 |Y (ν) + E S(ν)|Y (ν), H1 p H1 |Y (ν) (4.88)
avec
H0 : bruit masqué (4.89)
H1 : bruit non masqué
 
et p Hk |Y (ν) est la probabilité que le signal de parole soit dans l’état Hk sachant
que le signal observé (bruité) est Y (ν). Dans l’état H0 , le bruit est considéré inaudible.
Aucun traitement ne sera envisagé pour éviter les distorsions hsuperflues. Le spectrei du
signal se ramène ainsi au spectre du signal bruité c’est-à-dire E S(ν)|Y (ν), H0 = Y (ν).
En tenant compte de cette modification, l’équation 4.88 se ramène à
h i
b
S(ν) = Y (ν)p(ν) + (1 − p(ν))E S(ν)|Y (ν), H1 (4.90)
    h i
avec p(ν) = p H0 |T (ν), γ(ν) = 1 − p H1 |Y (ν) . Pour le calcul de E S(ν)|Y (ν), H1
dans l’équation (4.90), c’est-à-dire dans le cas où le bruit est audible (état H1 ), l’auteur
utilise l’estimateur MMSE-LSA d’Ehpraim et Malah (voir l’équation (4.40) de la section
4.3).
Section 4.6 : Conclusion 61

4.6 Conclusion
Dans de ce chapitre, nous avons présenté l’ensemble des techniques de réduction
de bruit les plus répandues dans la littérature. Les méthodes découlant de chaque
technique ont chacune leur intérêt et les améliorations qui leur ont été apportées au fil
du temps sont justifiées.
En résumant les difficultés, on s’aperçoit que toutes les techniques ont un point
commun, c’est la recherche d’un compromis entre bruit résiduel et distorsion du signal.
L’apport de l’aspect perceptuel dans les algorithmes de débruitage de la parole
est très prometteur. Les résultats montrent une nette amélioration par rapport aux
méthodes traditionnelles.
Un autre point de vue important est la complexité des algorithmes, Par exemple, les
méthodes à sous-espace signal, bien que performantes restent pénalisées par la charge
de calcul importante qu’elles demandent.
Enfin, compte tenu du niveau de complexité, les méthodes basées sur le filtrage de
Wiener restent très séduisantes du point de vue de leur simplicité et de leur flexibilité
par rapport aux améliorations (surtout perceptuelles) qui peuvent leur être apportées.
Nous aurons l’occasion de revenir sur cette technique au chapitre 6, notamment pour
présenter nos contributions sur ce sujet.
5
CHAPITRE
Estimation du bruit

5.1 État de l’art


La plupart des algorithmes de réduction du bruit qui opèrent dans le domaine
spectral nécessitent une estimation précise de la densité spectrale de puissance du
bruit pour restituer une bonne estimée du signal de parole. C’est le cas surtout des
systèmes monocapteur. Les méthodes classiques sont basées sur un détecteur d’activité
vocale. L’idée est que les périodes de pause correspondent à la présence de bruit seul.
On limite ainsi la mise à jour de l’estimation du bruit en faisant une moyenne sur
ces périodes. Certes, les performances de ces méthodes sont satisfaisantes quand il
s’agit de bruits stationnaires et quand le rapport signal à bruit (SNR) est élevé mais
deviennent modestes dans les situations inverses ou alors quand il y a de la respiration.
Cependant, même si cette hypothèse peut être critique, elle est souvent utilisée. En
outre, ces méthodes requièrent généralement un bon détecteur d’activité vocale.
Des techniques alternatives et plus sophistiquées ont donc été élaborées pour pallier
ces problèmes. Pour commencer, l’une des techniques de base est le suivi des statistiques
minimales (MS, Minimum Statistics) proposé par Martin dans [Martin 94]. Cette tech-
nique ne requiert pas la présence d’un détecteur d’activité vocale et permet d’estimer
même les bruits non stationnaires. Le suivi du minimum spectral dans chaque bande
de fréquence s’effectue après une première opération de lissage, de premier ordre, du
périodogramme du signal bruité |Yk (ν)|2 Eq. 5.1.
Pk (ν) = αPk−1(ν) + (1 − α)|Yk (ν)|2 (5.1)
où k est l’indice de la trame. Par convention, la première trame est considérée comme
une trame de silence : P1 (ν) = |Y1 (ν)|2 . L’estimée de la densité spectrale de puis-
sance du bruit b γk (ν) à la trame k est obtenue par sélection du minimum Pkmin (ν) du
périodogramme lissé Pk (ν) dans une fenêtre de L canaux de fréquences. Après un pre-
mier travail [Martin 94] où α était considéré comme une constante, dans une version
plus récente [Martin 01], ce paramètre de lissage devient dépendant du temps et de la
fréquence pour éviter des estimées avec une très grande variance. Alors, dans le cas où
α dépend à la fois de la fréquence et du temps, l’expression (5.1) devient :
Pk (ν) = αk (ν)Pk−1 (ν) + (1 − αk (ν))|Yk (ν)|2 (5.2)
Quand la parole est absente, on cherche Pk (ν) ≈ γk (ν) selon un problème d’optimisa-
tion qui consiste à trouver α minimisant l’erreur quadratique moyenne conditionnelle
64 CHAPITRE 5 : Estimation du bruit

suivante : h 2 i
E Pk (ν) − γk (ν) |Pk−1(ν) . (5.3)
La solution de ce problème nous amène à l’expression de α optimal suivante :
1
αkopt (ν) = Pk−1 (ν) 2 (5.4)
1+ γk (ν)
−1
2
où Pγk−1 (ν)
k (ν)
est une version lissée du rapport signal à bruit a posteriori χk (ν) = |Yk−1 (ν)|
γk (ν)
et 0 < αopt (ν) < 1 . Côté pratique, pour calculer αkopt (ν), on remplace γk (ν) par sa
valeur estimée dans la trame précédente b γk−1(ν). On limite également α à une valeur
maximale αmax = 0.96.
Puisqu’on se sert de l’information sur la trame précédente, l’estimée de la densité
spectrale du bruit présente un certain retard. Pour le compenser, un facteur de cor-
rection αc (ν) dont les valeurs sont choisies empiriquement plus grandes que 0.7 est
introduit dans l’Eq. (5.5) :

αc (ν) = 0.7αc (ν − 1) + 0.3 max(b


αc (ν), 0.7) (5.5)

avec
1
α
bc (ν) = P PN −1 2 . (5.6)
N −1 2 −1
1+ ν=0 P k−1 (ν)/ ν=0 |Y k (ν)|
tous détails sur la dérivation de l’équation (5.6) sont présentés dans [Martin 01].
Pour conclure, le paramètre de lissage final α
bk (ν) est la multiplication du paramètre
opt
de lissage optimal αk (ν) par le facteur de correction αc (ν) et une pondération par la
valeur maximale αmax de α, ce qui donne lieu à l’équation suivante :
αmax αc (ν)
α
bk (ν) = Pk−1 (ν) 2 (5.7)
1+ γ
bk (ν)
−1

De cette façon, le paramètre de lissage α


bk (ν) devient sous-optimal, mais les différences
par rapport au cas optimal sont en moyenne très petites.
Le minimum d’un ensemble de variables aléatoires est inférieur à leurs moyennes, d’où
le biais dans l’estimation de la variance du bruit par la technique de suivi du minimum
et ainsi le besoin de compenser ce biais afin d’améliorer l’estimation. Effectivement,
cette compensation sera assurée par la multiplication de l’estimée issue du minimum
de l’Eq. (5.1), c’est-à-dire Pkmin(ν), par l’inverse de la moyenne du minimum de L
séquences de variables aléatoires qui sont dans notre cas les estimations de la densité
spectrale de puissance, Pk (ν) où k ∈ {k, k − 1, ..., k − L + 1}. L’estimateur de la densité
spectrale de puissance après compensation du biais a donc comme expression :
Pkmin (ν)
bk2 (ν) =
γ . (5.8)
E[Pkmin(ν)]|γk2 (ν)=1

La méthode ainsi présentée par Martin [Martin 01] fournit une bonne estimée de
bruit, mais son inconvénient majeur est le délai de l’estimation qui, dans le pire cas,
Section 5.1 : État de l’art 65

atteint 2L. Une amélioration, apportée à cette méthode dans [Martin 01], consiste à
diviser le segment de recherche de longueur L en U fenêtres de V échantillons tel que :
L = U × V . De cette façon, le retard maximum est, cette fois-ci, de l’ordre de L + V
c’est-à-dire qu’on effectue une mise à jour du bruit dès la première fenêtre (de taille V )
du deuxième segment(de taille L), d’où L + V . Pour une fréquence d’échantillonnage
de 8 kHz, les valeurs de U = 8 et V = 12 se sont avérées les plus adéquates [Martin 01].
Cette amélioration accélère un peu le processus du suivi du minimum pour procéder à
une meilleure estimée dans le cas où la puissance du bruit augmente brusquement.
Dans un autre travail, Cohen [Cohen 02] a proposé un algorithme (MCRA, Minima
Controlled Recursive Averaging) basé sur la moyenne récursive des trames précedentes
du signal bruité. Cette moyenne est contrôlée par un paramètre de lissage dépendant
de la fréquence et dont la mise à jour est fonction de la probabilité de présence de la
parole dans chaque canal de fréquence. Les limitations de cette méthode résident dans
les retards que présente l’estimation par rapport aux changements brusques du niveau
de bruit. Soit
Pk (ν) = α̃k (ν)Pk−1 (ν) + (1 − α̃k (ν))|Yk (ν)|2 (5.9)
où, cette fois-ci, α̃k (ν) est donné par

α̃k (ν) = αk (ν) + (1 − αk (ν))pk (ν) (5.10)

et pk (ν) est la probabilité de présence du signal de parole dont l’expression est donnée
par,
n qk (ν)  o−1
pk (ν) = 1 + 1 + ξk (ν) exp − vk (ν) (5.11)
1 − qk (ν)
où ξk (ν) est le rapport signal à bruit a priori, qk (ν) = P(Hk0 (ν)) est la probabilité a
priori d’absence du signal de parole (Hk1(ν) et Hk0 (ν) sont respectivement l’hypothèse
de présence et d’absence du signal de parole) et vk (ν) = χk (ν)ξk (ν)/(1 + ξk (ν)) tel que
χk (ν) est le rapport signal à bruit a posteriori.
Dans une version de l’algorithme (IMCRA, Improved Minima Controlled Recursive
Averaging) [Cohen 03], l’auteur apporte des amélioration à l’ancienne version qui sont
en relation avec le biais introduit par le calul de la probabilité de présence de la parole
(voir équations (5.9, 5.10 et 5.11). Pour compenser ce biais quand la parole est absente,
le périodogramme lissé est pondéré par un facteur β dépendant de la probabilité a priori
de l’absence du signal de parole qk (ν) = P(Hk0 (ν)). Pour calculer cette probabilité
dont dépend aussi le lissage du périodogramme (Eq. 5.9) à travers le paramètre de
lissage de l’équation (5.10). Son estimateur qbk (ν) requiert deux itérations de lissage
temps-fréquence et de suivi de minimum, la première itération pour mettre au point
un détecteur d’activité vocale dans chaque canal de fréquence et l’autre pour éliminer
les composantes puissantes du signal en présence de la parole pour faciliter le suivi du
minimum.
Vu que la probabilité d’absence du signal de parole est aussi basée sur une connais-
sance du minimum local, le retard de calcul en découlant est à peu près du même
ordre de grandeur que dans la version précédente surtout dans le cas où le bruit est
important, mais cette méthode donne de meilleurs performances que la version d’avant.
66 CHAPITRE 5 : Estimation du bruit

Dans un autre travail, Rangachari [Rangachari 04] propose une méthode qui permet
une mise à jour plus rapide, par rapport aux autres méthodes déjà citées, de l’estimée
du bruit dans chaque trame. Cette estimée est basée sur un détecteur d’activité vocale.
Lors des pauses, le coefficient de lissage est constant. La présence de parole est définie
par le rapport entre le signal bruité et son minimum local. Cette méthode parvient
rapidement à s’adapter à un changement brusque du niveau de bruit. Deux modofi-
cations ont été apportées à cette méthode dans [Rangachari 06]. Premièrement, plus
besoin d’un DAV explicite. Deuxièmement, l’estimation de la probabilité de présence de
parole (Eq. 5.12) exploite, cette fois-ci, la corrélation entre les composantes spectrales
de puissance adjacentes :

pk (ν) = αkp (ν) + (1 − αkp (ν))Ik (ν). (5.12)

Si Pk (ν)/Pkmin (ν) > δ(ν), on pose Ik (ν) = 1, ce qui revient à considérer que la parole
est présente ; sinon, on pose Ik (ν) = 0 ce qui signifie que la parole est absente. Le
seuil δ(ν) dépend de la fréquence (contrairement à [Cohen 02] et [Cohen 03] où ce seuil
est fixé pour toutes les fréquences) et est déterminé expérimentalement. L’algorithme
proposé effectue une mise à jour de l’estimée du bruit dans chaque trame en utilisant
un facteur de lissage temps-fréquence calculé à partir de la probabilité de présence de
la parole.
Dans le contexte de la reconnaissance de la parole, des algorithmes d’estimation
récursive du bruit non stationnaire ont été proposés dans le domaine cepstral. Ils em-
ploient les GMM (Gaussian Mixture Model) pour modéliser le bruit [Deng 03]. Les
paramètres du bruit sont considérés comme déterministes et sont donc obtenus par
approches stochastiques itératives. L’estimation récursive emploie un facteur d’oubli
pour un compromis entre la précision de l’estimation et la rapidité avec laquelle les
changements brusques du bruit sont pris en compte.
Dans la section suivante, on présente un estimateur de bruit dont l’idée repose sur la
notion de parcimonie où un signal utile peut êre représenté par un nombre relativement
faible de valeurs d’amplitudes signficativement grandes.

5.2 Estimateur de la borne essentielle (Essentiel


Supremum Estimate)
5.2.1 Cas du bruit blanc
Dans de nombreuses applications, extraire une information sur le signal à partir des
observations exige la connaissance au préalable de l’écart type du bruit (dans le cas
du bruit blanc gaussien) ou du spectre de bruit en général (traitement du signal radar,
débruitage de la parole,. . . ). L’approche [Pastor 07a], [Pastor 07b] décrite dans cette
section est basée sur les statistiques que l’ont peut calculer à partir des signaux ob-
servés additivement corrompus par un bruit blanc gaussien. Ces signaux sont supposés
indépendants et de dimension d. Leurs amplitudes sont supérieures à une amplitude
minimale et leurs probabilités de présence appartiennent à [0, 1[ . On suppose qu’on
Section 5.2 : Estimateur de la borne essentielle (Essentiel Supremum Estimate) 67

ignore les distributions de probabilité de ces signaux et qu’aucune connaissance a priori


sur le bruit n’est supposée à l’avance.
Soient ε = (εk )k∈N une suite de variables aléatoires à valeurs dans {0, 1}, S =
(Sk )k∈N une suite de vecteurs aléatoires de dimension d et X = (Xk )k∈N une suite de
vecteurs aléatoires indépendants de dimension d, identiquement distribués et tels que
Xk ∼ N(0, σ02 ) pour tout entier naturel k. Soit ℓ∞ (N, Lν (Ω, Rd )) l’ensemble des suites
S = (Sk )k∈N de vecteurs aléatoires de dimension d telles que S ∈ Lν (Ω, Rd )) pour tout
k ∈ N et supk∈ E [[] kSk kν ] < ∞.
Soit Y = εS + X où Y = (Yk )k∈N . Soient les hypothèses suivantes :
(H1) pour tout k ∈ N, εk , Sk et Xk sont indépendants ;
(H2) les vecteurs aléatoires Yk sont indépendants ;
(H3) pour tout k ∈ N, l’ensemble des probabilités P ({εk = 1}) est borné par p = 1/2
et les variables aléatoires εk , k ∈ N sont indépendantes ;
(H4) il existe ν ∈ [0, ∞] tel que S ∈ ℓ∞ (N, Lν (Ω, Rd )).
Soit r et s, deux nombres réels positifs tels que 0 ≤ s < r ≤ ν/2. Pour tout entier
naturel m et tout couple (σ, T ) de nombres réels positifs ou nuls, définissons la variable
aléatoire ∆m (σ, T ), tel que
m
X
kY k r
I(kY k ≤ σT )
k k
k=1 Υ r (T )
∆m (σ, T ) = m −σ r−s
(5.13)
X Υ s (T )
kYk ks I(kYk k ≤ σT )

k=1

où
R x I(kY k k ≤ σT ) est une fonction indicatrice de l’événement kYk k ≤ σT et Υq (x) =
q+d−1 −t2 /2
0
t e dt (d’après un calcul analytique présenté en détail dans [Pastor 07a]).
La variable aléatoire ∆m (σ, T ) représente physiquement un écart énergétique
sélectif qui tient compte uniquement des normes kYk kr inférieures à un certain seuil
σT . On élimine ainsi les portions où la paroles est présente. La quantité σ r−s Υ r (T )
Υs (T )
est calculée analytiquement et représente un niveau moyen énergétique auquel va
tendre le rapport à gauche dans l’équation (5.13) quand le nombre d’observations m
et l’amplitude des signaux sont suffisamment grands.
Le spectrogramme d’un signal de parole, c’est à dire la représentation temps-
fréquence de ce signal obtenue par Transformée de Fourier à court-terme, est une
représentation parcimonieuse du signal de parole dans le sens où seules quelques va-
leurs complexes parmi celles fournies par le calcul du spectrogramme ont des modules
significativement grands par rapport aux autres. Dans l’exemple d’un spectrogramme
de signal bruité (figure 5.1) , on voit bien que le bruit est plus présent que la parle
alors que la parole est d’énergie plus élevée. Le but de l’algorithme est d’estimer le
bruit dans les trous contenant alors que du bruit.
Selon ces hypothèses, σ0 est l’unique réel positif σ tel que, pour tout β0 ∈ (0, 1],


lim lim sup ∆m (σ, T ) = 0 (5.14)
a(S)→∞ m ∞
68 CHAPITRE 5 : Estimation du bruit

Figure 5.1 — Spectrogramme d’un signal bruité par un bruit de conversation


(Babble) à 5dB

où
a(S) = sup{α ∈ [0, ∞] : ∀k ∈ N, kSk k ≥ α}. (5.15)
est l’amplitude minimale des kSk k.
L’idée de ce théorème est de dire que l’écart type du bruit est le seul réel positif
pour lequel la convergence (5.14) est vérifiée lorsque le nombre d’observations m et
l’amplitude minimale a(S) des signaux utiles tendent vers l’infini. Cette convergence
peut s’expliquer en développant le rapport à gauche dans l’équation (5.13).
Selon la loi des grands nombres et quand m → ∞, on a
m
1 X
kYk kr I(kYk k ≤ σT ) ≈ E(kYk kr I(kYk k ≤ σT )). (5.16)
m k=1

On a alors,

E [kYk kr I(kYk k ≤ σT )] = E [kYk kr I(kYk k ≤ σT )] P (εk = 0)


+ E [kYk kr I(kYk k ≤ σT )] P (εk = 1) (5.17)
r
= E [kXk k I(kXk k ≤ σT )] P (εk = 0)
+ E [kSk + Xk kr I(kSk + Xk k ≤ σT )] P (εk = 1). (5.18)

Si kSk + Xk k ≤ σT , alors kSk + Xk kr ≤ σ r T r , de plus, E(I(A)) = P(A). On obtient


alors,

E [kYk kr I(kYk k ≤ σT )] ≤ E [kXk kr I(kXk k ≤ σT )] P (εk = 0)


+ σ r T r E [I(k(Sk + Xk )k ≤ σT )] P (εk = 1) (5.19)
≤ E [kXk kr I(kXk k ≤ σT )] P (εk = 0)
+ σ r T r P [kSk + Xk k ≤ σT ] P(εk = 1) (5.20)

On peut alors montrer que si T = T (ρ) avec ρ = a(S) σ


est bien choisi (Lemme,
[Pastor 07a]),
lim σ r T r P [kSk + Xk k ≤ σT ] = 0 (5.21)
ρ→∞
Section 5.2 : Estimateur de la borne essentielle (Essentiel Supremum Estimate) 69

m
X
On a alors, 1
m
kYk kr I(kYk k ≤ σT ) ≤ p E [kXk kr I(kXk k ≤ σT )] où p = P (εk = 0).
k=1
En fait, la théorie nous montre que cette inégalité est pratiquement une égalité de sorte
que nous avons
m
1 X
kYk kr I(kYk k ≤ σT ) ≈ p E [kXk kr I(kXk k ≤ σT )] (5.22)
m
k=1

où P[εk = 0] = p. La représentation heuristique (5.22) est justifiée lorsque l’amplitude


des signaux Sk est suffisamment grande et que le seuil σT est bien choisi.
En suivant ces même étapes, cette fois-ci, pour le calcul de la quantité
m
X
1
m
kYk ks I(kYk k ≤ σT ), on obtient,
k=1
m
1 X
kYk ks I(kYk k ≤ σT ) ≈ p E [kXk ks I(kXk k ≤ σT )] . (5.23)
m k=1

Ainsi,
m
X
kYk kr I(kYk k ≤ σT )
k=1 E [kXk kr I(kXk k ≤ σT )]
m ≈ . (5.24)
X E [kXk ks I(kXk k ≤ σT )]
s
kYk k I(kYk k ≤ σT )
k=1

E[kXk kr I(kXk k≤σT )]


Un calcul élémentaire, présenté dans [Pastor 07b] montre que E[kXk ks I(kXk k≤σT )]
vaut
σ r−s Υ r (T )
Υs (T )
. Ainsi,
m
X
kYk kr I(kYk k ≤ σT )
k=1 Υr (T )
m ≈ σ r−s . (5.25)
X Υs (T )
s
kYk k I(kYk k ≤ σT ))
k=1

Les signaux Sk sont souvent à énergies E[|Sk |2 ] finies, on a alors ν = 2 (cf. (H4)).
En plus, du moment où on a l’inégalité 0 ≤ s < r ≤ 1, en choisissant r = 1 et s = 0
dans l’équation (5.13), l’algorithme de la borne essentielle estime l’écart type du bruit
σ0 par un minimum local du coût ∆m . Cette estimée, σ̃0 , est appelée estimée de la
borne essentielle.
Le calcul de la borne essentielle σ̃0 exige de connaı̂tre une borne inférieure de
l’amplitude des signaux, celle-ci n’est pas toujours connue. Dans sa première ver-
sion [Pastor 07a], l’algorithme exigeait une connaissance de l’amplitude minimale
des signaux. Dans sa version actuelle [Pastor 07b], l’algorithme s’affranchit de cette
contrainte en supposant a(S) = 0 qui est une borne inférieure triviale pour les normes
des signaux bi-dimensionnels dont la représentation est statistiquement parcimonieuse.
70 CHAPITRE 5 : Estimation du bruit

 √
Puisque T = T a(S)σ
= T (0) = 2 (voir justification dans [Pastor 02]), ceci donne lieu
à une autre estimée σ
b0 par un minimum local de l’équation (5.26).
m
X √
kY kI(kY k ≤ σ 2)
k k √
Υ1 ( 2)
sup = k=1 m −σ √ . (5.26)
ℓ∈{1,...,L} X √ Υ0 ( 2)
I(kYk k ≤ σ 2)

k=1

L’algorithme est cette fois-ci appelé C-ESE, par référence à une estimée dans le cas
complexe de la borne essentielle. On gardera en dernier lieu une estimée C-ESE qui est
meilleure que les autres et qu’on note ici σ0∗ tel que
v
uX
u m √
u kY k k 2
I(kY k k ≤ σ
b 2)
u
u
σ0∗ = η u k=1 m . (5.27)
u X √
t I(kY k ≤ σ b 2)
k
k=1

La justification théorique de σ0∗ est un problème qui reste ouvert. D’après [Pastor 07b],

η est choisi proche de 1 et sa valeur est ajustée selon l’application. Une valeur de 2
s’avère meilleure pour le cas de signaux de parole bruités par un bruit blanc gaussien
dont on cherche l’écart type. Un résumé des principales étapes de l’algorithme C-ESE
est décrit dans le tableau 5.1.

5.2.2 Cas du bruit coloré


Dans le cas du bruit coloré Xk (ν) ∼ N(0, Nγ(ν)), l’adaptation de l’algorithme C-
ESE est basée sur deux hypothèses, à savoir que le bruit est stationnaire au sens large
durant l’observation du signal de parole et que le signal et le bruit sont indépendants.
Le but de l’algorithme est d’estimer cette fois-ci la densité spectrale de puissance du
bruit que l’on note ici γ tel que :
E[|Xk (ν)|2 ]
γ(ν) = . (5.28)
N
Le point essentiel est de dire que la représentation temps-fréquence (spectrogramme)
d’un signal de parole est une représentation parcimonieuse dans le sens où seules
quelques valeurs complexes ont des modules significativement grands par rapport aux
autres.
Pour un canal de fréquence ν fixe, la suite des valeurs Xk (ν) est une suite de
variables aléatoires décorrélées, de même variance et gaussiennes. Ce qui revient à dire
que le bruit par harmonique ν est blanc spatialement, c’est-à-dire sur une bande de
fréquence donnée.
L’algorithme C-ESE pour le cas du bruit coloré consiste alors à calculer une estimée
du bruit sur chaque canal de fréquence ν en appliquant un simple C-ESE sur les
coefficients temps-fréquence calculés dans ce canal.
Section 5.2 : Estimateur de la borne essentielle (Essentiel Supremum Estimate) 71

Soit y(t), t = 0, ..., T − 1 un signal bruité, ν = 2, r = 1 et s = 0


1. Découpage de y(t) en trames non chevauchantes de N échantillons,
puis passage au domaine fréquentiel par transformée de Fourier
discrète (TFD).
2. Tous les vecteurs sont rassemblés dans une matrice N/2∗K (la moitié
du spectre est dûe à la symétrie hermitienne de la TFD) où K est le
nombre de trames.
3. Permutation des vecteurs de la matrice afin de garantir l’indépendance
entre échantillons puis concaténation de tous les vecteurs en un seul
vecteur ligne.
4. Découpage de ce vecteur ligne en segments de m observations.
5. Calcul de la racine carrée de la sommation des échantillons du
carrée
pPm de la norme de chaque segment de taille m, c’est-à-dire
2
k=1 |Yk (ν| .
6. Tri des normes par ordre croissant : on obtient alors la séquence Y[k] ,
k = 1, ..., m.
7. Calcul de l’intervalle [σmin , σmax ] de recherche√du minimum local fσ0√de
l’expression (5.26) tel que : σmin = kY[kmin] k/ 2 et σmax = kY[m] k/ 2
p m
où kmin = m(1/2 − h), h = 1/ 4m(1 − Q) et Q ≤ 1 − 4(m/2−1) 2 , avec

comme valeur typique Q = 0.95. Les justifications théoriques de ces


choix sont présentées dans [Pastor 07a].
8. Recherche du minimum local fσ0 de (5.26) dans l’intervalle [σmin , σmax ]
par la fonction MATLAB, fminbnd.m.
9. Enfin, calcul de σ
b0 l’estimée de σ0 tel que :
v
uX m

u 2
u |Y k | I(|Y k | ≤ σ
f 0 2)
u
u k=1
b0 = η u
σ m
u X √
t I(|Y | ≤ f σ 2)
k 0
k=1
√ √
où η = 2 et I(|Yk | ≤ f
σ0 2) est la fonction indicatrice√ des segments
σ0 2.
d’indice k pour des normes inférieures ou égales à f

Tableau 5.1 — Algorithme C-ESE dans le cas du bruit blanc

Quant à la programmation, dans le cas d’un signal de parole bruité par un bruit
coloré, on découpe ce dernier en une suite de trames de N échantillons chacune. Puis,
chaque trame subit une Transformation de Fourier Discrète. Le résultat est stocké dans
une matrice complexe dont l’indice de ligne indique le numéro de la trame et l’indice
de colonne désigne le rang k de l’harmonique. Ensuite, nous appliquons l’algorithme C-
ESE pour chaque harmonique sur toutes les trames simultanément (voir schéma de la
figure 5.2) en considérant uniquement la moitié de la matrice, étant donnée la symétrie
72 CHAPITRE 5 : Estimation du bruit

C−ESE Y1 (1) Y2 (1) . . . . YK (1) σ0∗ (1)

C−ESE Y1 (2) Y2 (2) . . . . YK (2) σ0∗ (2)


. . .
. . .
. . .
. . .
. . .
. . .

C−ESE Y1 (N − 1) Y2 (N − 1) . . . . YK (N − 1) σ0∗ (N − 1)

Figure 5.2 — C-ESE appliqué à toutes les trames par canal de fréquence donné
dans le cas d’un bruit coloré

hermitienne de la TFD. Nous obtenons ainsi une estimée du spectre du bruit coloré γb
telle que :    
γb(1) σ0∗ (1)
 γb(2)  1 
∗ 
   σ0 (2) 
 .. =  .. . (5.29)
 .  N . 
γb(N − 1) σ0∗ (N − 1)

5.3 Simulations
Nous présentons ici quelques résultats de simulations pour illustrer le comportement
et les performances de chacune des méthodes suivantes : IMCRA [Cohen 03], MCRA2
[Rangachari 06], MS [Martin 01] et C-ESE [Pastor 07b]. Pour cela, nous considérons
un ensemble de 100 fichiers de parole choisis aléatoirement dans la base TIdigits et
bruités successivement par un bruit blanc gaussien généré par matlab et sauvegardé en
mémoire, un bruit Babble et un bruit de voiture (Volvo) de la base Noisex. Les signaux
de parole bruités sont ensuite décomposés en trames successives non chevauchantes et
de longueur N = 256 pour le cas de l’évaluation par l’algorithme C-ESE. Elles sont che-
vauchantes à 50%, fenêtrées par Hanning et de même taille pour le cas des algorithmes
IMCRA, MCRA2 et MS. Chaque méthode est ainsi mise dans ses meilleures condi-
tions de fonctionnement afin de la tester objectivement. Les méthodes sont comparées
en premier lieu par un critère objectif, qui est en l’occurrence l’erreur quadratique
moyenne normalisée MSE (Mean Square Error) [Rangachari 06], dont l’expression est
la suivante : 2
L−1 PN −1
1 X ν=0 σ bk2 (ν) − σk2 (ν)
MSE = PN −1 2 (5.30)
L k=0 ν=0 (σk (ν)) 2

bk2 (ν) et σk2 (ν) sont respectivement le


où L est le nombre total de trames du signal, σ
spectre de puissance du bruit estimé par chaque méthode et la valeur empirique de
ce spectre. Une méthode d’estimation du bruit est d’autant meilleure que le MSE
Section 5.3 : Simulations 73

s’approche de 0 et vice-versa. D’après l’équation (5.30), on effectue une moyenne sur


toutes les trames du fait que le MSE n’est pas constant et varie d’une trame à l’autre,
ce qui est illustré par la figure 5.3 où nous nous contentons de donner les résultats pour
2 méthodes. D’après cette figure, on constate qu’effectivement le MSE change d’une

2.5
IMCRA
MCRA2

2
MSE par trame

1.5

0.5

0
0 10 20 30 40 50 60 70 80 90 100
Numéro de trame

Figure 5.3 — Évolution du MSE par trame pour un signal de parole donné

trame à l’autre et qu’en faisant la moyenne on pourrait avoir une meilleure idée des
performances d’un algorithme. D’après cette même figure, on remarque que le MSE
correspondant aux premières trames s’approche plus de 0 ceci est du au fait que ces
trames correspondent à des moments de silence où seul le bruit est présent. Pour la
suite des évaluations des méthodes, on considère la moyenne du MSE présenté dans
l’équation (5.30).
D’après les tableaux 5.4, 5.5 et 5.6, l’algorithme C-ESE se distingue nettement
des autres méthodes avec des valeurs de MSE presque négligeables. Ceci montre que
l’algorithme est performant mais cette mesure objective reste insuffisante parce que
trop sensible aux valeurs aberrantes. En plus, elle ne fait pas la distinction entre sur-
estimation et sous-estimation du bruit [Rangachari 04].
Pour compléter notre analyse, nous avons utilisé une deuxième mesure objective,
le rapport signal à bruit segmental segSNR calculé en sortie d’un filtrage de Wiener
ajusté par une estimation de bruit provenant des quatre méthodes à comparer. Les
résultats sont présentés dans les tableaux 5.7, 5.8 et 5.9. D’après ces tableaux, le C-ESE
continue de donner de meilleurs résultats en cohérence avec la première évaluation par
MSE pour le cas du bruit blanc et du bruit Babble. Pour le cas du bruit de voiture c’est
l’algorithme du suivi de minimum MS de Martin qui donne les meilleures performances.
74 CHAPITRE 5 : Estimation du bruit

0.25
MS
IMCRA
MCRA2
0.2 C−ESE

0.15
MSE

0.1

0.05

0
0 5 10
SNR (dB)

Figure 5.4 — MSE correspondant à chaque estimateur dans le cas du bruit blanc
gaussien
1.8
MS
1.6 IMCRA
MCRA2
1.4 C−ESE

1.2

1
MSE

0.8

0.6

0.4

0.2

0
0 5 10
SNR (dB)

Figure 5.5 — MSE correspondant à chaque estimateur dans le cas du bruit Babble
10
MS
9 IMCRA
MCRA2
8 C−ESE
7

6
MSE

0
0 5 10
SNR (dB)

Figure 5.6 — MSE correspondant à chaque estimateur dans le cas du bruit de


voiture (Volvo)
Section 5.3 : Simulations 75

3.5
MS
3 IMCRA
MCRA2
2.5 C−ESE
segSNR (dB) 2

1.5

0.5

−0.5

−1

−1.5
0 5 10
SNR (dB)

Figure 5.7 — segSNR moyen correspondant à chaque estimateur dans le cas du


bruit blanc gaussien
2
MS
IMCRA
1 MCRA2
C−ESE

0
segSNR (dB)

−1

−2

−3

−4
0 5 10
SNR (dB)

Figure 5.8 — segSNR moyen correspondant à chaque estimateur dans le cas du


bruit Babble
3
MS
IMCRA
2 MCRA2
C−ESE

1
segSNR(dB)

−1

−2

−3

−4
0 5 10
SNR (dB)

Figure 5.9 — segSNR moyen correspondant à chaque estimateur dans le cas du


bruit de voiture (Volvo)
76 CHAPITRE 5 : Estimation du bruit

5.4 Conclusion
Dans ce chapitre, nous avons présenté un aperçu de quelques méthodes usuelles
d’estimation du spectre de bruit. Ces méthodes sont essentiellement basées sur le suivi
du minimum du spectre du signal observé. Si elles ne requièrent pas un détecteur
d’activité vocale explicite, elles sont tout de même basées sur la probabilité de présence
de la parole. Cette information permet de changer le comportement des algorithmes
en fonction du résultat de la détection. Le calcul de cette probabilité est soit basé sur
un détecteur d’activité vocale moins sophistiqué (par seuillage), soit sur le suivi du
minimum lui même. Ce dernier est d’autant plus précis qu’il est considéré sur plusieurs
segments. L’inconvénient majeur de ce type de méthode est l’introduction de retard
d’estimation dont la conséquence immédiate est la lenteur d’adaptation de l’estimation
face aux changements brusques de l’énergie des bruits non-stationnaires.
Nous avons également présenté l’algorithme C-ESE dont le principe est différent : il
n’a besoin d’aucun a priori. Il est simplement conçu à base d’hypothèses statistiques et
de parcimonie des signaux. L’estimation de bruit par C-ESE donne lieu à une estimée
du spectre qui est précise du point de vue du critère de l’erreur quadratique moyenne
MSE. Cette estimée, injectée dans un système de débruitage de la parole par filtrage de
Wiener, permet d’augmenter le rapport signal à bruit segmental par rapport aux autres
méthodes évaluées. Cependant, cette estimation reste limitée pour plusieurs raisons.
Premièrement, l’algorithme C-ESE ne fonctionne pas en temps réel. Deuxièmement,
certains de ces paramètres sont ajustés de façon complètement heuristique et le champ
est encore ouvert pour toute justification théorique à ce propos. Enfin, cet algorithme
est moins rapide que les autres méthodes, ce qui est dû au fait qu’il traite toutes les
trames du signal simultanément au lieu de donner une estimation au fur et à mesure
de l’arrivée des trames.
De part sa précision, cet algorithme reste prometteur. Il serait même très intéressant
d’étudier la possibilité de le combiner avec des méthodes heuristiques décrites dans ce
chapitre afin de réduire la part d’empirisme de ces méthodes. On peut penser notam-
ment à la méthode de Martin qui recherche un minimum statistique qui pourrait être
remplacé par une estimée issue du C-ESE.
Lors de ces travaux de thèse, nous n’avons pas pu tester toutes les méthodes d’es-
timation du spectre de bruit, décrites auparavant, dans un système de débruitage. La
partie évalutaion des débruiteurs s’est principalement basée sur un estimateur de bruit
provenant d’une moyenne sur les instants de pauses fournis en sortie du détecteur
d’activité vocale du standard G729. A signaler par contre, qu’on a testé l’estimateur
C-ESE pour des fins de débruitage et que les résultats sont présentés dans l’article
[Pastor 07b]. Dans la suite de nos travaux et comme perspective à court terme, il se-
rait donc intéressant de compléter l’étude en étudiant également le gain (en MBSD et
SSNR) apporté par les autres méthodes d’estimations du spectre de bruit déjà évalués.
6
CHAPITRE
Estimation de la courbe
de masquage

Parmi les problématiques liées au débruitage perceptuel, et qui peuvent réduire ses
performances, on trouve l’estimation de la courbe de masquage (CM). À partir du
moment où cette courbe n’a de signification précise que si elle est calculée en se basant
sur le signal de parole propre, la difficulté est donc présente puisqu’on ne dispose pas
de cet a priori.
Jusqu’à quel point la précision de calcul de la courbe de masquage peut-elle influen-
cer les performances du débruitage de la parole ?
L’influence d’une mauvaise estimation de cette courbe peut être illustrée par deux
cas limites, à savoir une sur-estimation ou une sous-estimation de la courbe de masquage
réelle (Fig. 6.1). Partant du principe que le débruitage perceptuel traite essentiellement
(uniquement, dans plusieurs travaux) le bruit audible, une sur-estimation de la courbe
de masquage va laisser passer beaucoup de bruit considéré ainsi inaudible, ce qui va
introduire beaucoup de bruit résiduel. Une sous-estimation va entraı̂ner par contre des
distorsions superflues. Les deux cas ont des conséquences non négligeables.
Dans la littérature, peu de travaux ont abordé l’amélioration de l’estimation de
la courbe de masquage. L’intérêt s’est porté plus sur l’estimation du bruit malgré
le fait que les deux problèmes ont pratiquement le même niveau d’influence sur les
performances du débruitage perceptuel.
Dans cette partie, nous allons donner un aperçu sur quelques méthodes de la
littérature. Ensuite, nous allons proposer deux méthodes : la première est basée sur
le calcul de la courbe de masquage à partir de la densité spectrale de puissance issue
d’une modélisation Auto Régressive (AR) et la deuxième sur une correction consis-
tant à soustraire le bruit résiduel, non pas du signal de parole, mais de la courbe de
masquage et ce, en se basant sur l’évolution de deux paramètres influents, à savoir le
segSNR (Segmental Signal to Noise Ratio) et le NSNR (Noisy Signal to Noise Ratio).
On note que les figures illustrant les méthodes implémentées en plus de celles qu’on
a proposées correspondent au même signal de parole issu de la base Timit, échantillonné
à 8 kHz et corrompu par un bruit blanc à 5 dB.
78 CHAPITRE 6 : Estimation de la courbe de masquage

(a)
70

65

60
Spectre de puissance (dB)

55

50

45

40

35

30
CM réelle
25 CM estimée
DSP du BBG à 5dB
20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence (Hz)

(b)

70

60
Spectre de puissance (dB)

50

40

30

20
CM réelle
10 CM estimée
DSP du BBG à 5dB

0 500 1000 1500 2000 2500 3000 3500


Fréquence (Hz)

Figure 6.1 — Estimation de la Courbe de Masquage CM vs Densité Spectrale de


puissance d’un bruit blanc gaussien BBG : (a) Sous-estimation (b) Sur-estimation
Section 6.1 : Estimation à partir d’un signal débruité 79

6.1 Estimation à partir d’un signal débruité

L’estimation de la courbe de masquage à partir d’un signal de parole débruité


par une soustraction spectrale simple constitue la méthode la plus adoptée dans la
littérature. Cependant, cette estimation n’est guère optimale, du fait qu’elle est biaisée
par la présence du bruit musical accompagnant toujours la soustraction spectrale. A
cause de son caractère tonal, ce bruit introduit une sur-estimation de cette courbe
surtout pour les hautes fréquences. Cette méthode a été adoptée dans divers travaux,
d’un côté pour éviter l’introduction de distorsion et, de l’autre, pour éviter d’estimer
la courbe à partir d’un débruiteur sophistiqué et coûteux sachant qu’une complexité, a
priori non négligeable, est déjà introduite par le processus de génération de la courbe
de masquage, que ce soit par le modèle MPEG ou celui de Johnston (Chapitre 2).
L’autre alternative, qui nous semble plus intéressante, consiste à employer le filtrage
de Wiener basé sur l’estimation du rapport signal à bruit a priori d’Ephraim et Malah
(4.39). Ce filtrage est préférable du fait qu’il introduit moins de bruit musical et pas
plus de distorsion ni de coût de calcul qu’une simple soustraction spectrale.
Sur un échantillon de parole de la base Timit, sous-échantillonné à 8kHz et corrompu
par un bruit blanc gaussien à 5 dB, comparons la courbe de masquage estimée à partir
de la sortie du filtre de Wiener et celle calculée par la soustraction spectrale de puissance
proposée par Berouti [Berouti 79]. A partir des observations effectuées sur plusieurs
trames, on constate que la soustraction spectrale a tendance à surestimer la courbe de
masquage réelle alors que le filtre de Wiener la sous-estime (sur la figure 6.2, on illustre
l’exemple sur une trame donnée). Se basant sur cette remarque et sur le fait qu’une
sous-estimation peut entraı̂ner des distorsions au niveau du signal de parole, on peut
envisager de privilégier l’estimation issue de la soustraction spectrale, sauf que celle-ci
a tendance à changer la forme de la courbe de masquage réelle. Quant à la courbe
provenant du filtre de Wiener, elle épouse souvent la forme de la courbe réelle avec
une légère sous-estimation. Notre conclusion finale consiste à dire qu’une estimation
par le filtre de Wiener accompagnée d’une bonne estimation du bruit peut donner de
meilleures performances puisque cette mesure supplémentaire nous évitera d’introduire
des distorsions. Tandis qu’une estimation issue de la soustraction spectrale, même avec
une bonne estimation du bruit, le débruitage perceptuel ne peut éviter l’introduction
du bruit résiduel puisqu’il est basé sur une courbe de masquage laissant passer une
quantité non négligeable de bruit a priori audible.
Dans [Tsoukalas 97], l’auteur propose d’effectuer un processus itératif de débruitage
du bruit audible, permettant d’affiner de mieux en mieux l’estimation de la courbe de
masquage. La procédure est coûteuse mais aboutit à des estimations de la courbe de
masquage plus ou moins satisfaisantes. Quant à l’idée présentée dans [Sarikaya 99],
elle consiste à exploiter un corpus d’apprentissage comportant des paires de vecteurs.
Le premier vecteur représente la courbe de masquage d’un signal propre et le second
vecteur représente la courbe de masquage du signal bruité lui correspondant (l’auteur
a utilisé un bruit donné et un SNR de 5 dB). Ce corpus d’apprentissage est supposé
flexible dans le sens où l’algorithme envisage une structure d’arbre dépendant du type
de bruit et du phonème de parole. À partir d’un signal observé, évidemment bruité,
l’auteur calcule la courbe de masquage et recherche son équivalent parmi toutes les
80 CHAPITRE 6 : Estimation de la courbe de masquage

10000
Amplitude

5000

−5000
0 50 100 150 200 250 300
80
Spectre de puissance (dB)

CM, SSP
CM, Wiener
60
CM réelle

40

20

0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)

2000

1000
Amplitude

−1000

−2000
0 50 100 150 200 250 300

60
Spectre de puissance (dB)

CM, SSP
50 CM, Wiener
CM réelle
40

30

20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)

Figure 6.2 — Estimation de la Courbe de Masquage (CM) par filtrage de Wiener et


soustraction spectrale (SSP) sur deux exemples de trames : l’une est voisée et l’autre
est non voisée.
Section 6.2 : Ajustement de la courbe de masquage 81

courbes des signaux bruités constituant le corpus d’apprentissage. Une fois le choix
effectué (suite à une minimisation de la distance entre la courbe de masquage du signal
bruité en entrée et celles appartenant au corpus d’apprentissage une à une), il exploite la
courbe de masquage du signal propre représentant le deuxième vecteur correspondant à
son choix. La méthode est prometteuse mais nous la considérons limitée par la nécessité
de connaı̂tre le bruit a priori et soulève ainsi exactement les mêmes difficultés que nous
pouvons relever au niveau des systèmes de reconnaissance de la parole envisageant de
bruiter les références [Mokbel 92].

6.2 Ajustement de la courbe de masquage


6.2.1 Proposition de Virag
Dans [Virag 99], l’estimation de la courbe de masquage est effectuée à partir d’une
estimée du signal de parole issue de la soustraction spectrale classique. L’auteur suggère
par la suite de corriger cette courbe vu la différence qu’elle présente par rapport à la
courbe de masquage du signal propre surtout pour les bandes critiques au delà de la
15ème (hautes fréquences). La correction proposée est empirique et consiste à diminuer
le seuil de masquage pour tenir compte de l’effet tonal du bruit musical. En effet, la
nature tonale du bruit musical semblable à celle de la parole affecte le calcul du seuil de
masquage en augmentant la valeur de celui-ci plus qu’il ne devrait l’être. Mais une chose
est certaine, cette correction ne peut être fiable que si l’on arrive à localiser ou estimer
le bruit résiduel, afin de repérer les bandes critiques concernées par la procédure de
correction ou de diminution du seuil de masquage. Mais de combien faut-il le diminuer ?
Pour répondre à une telle question, il faudrait estimer le bruit résiduel. Cette solution
a fait l’objet du travail d’Udrea [Udrea 08] que nous avons complété et amélioré (voir
section 6.3.1).

6.2.2 Proposition de Tuffy


Dans [Tuffy 99], l’auteur propose une méthode originale pour estimer la courbe de
masquage du signal propre. Cette courbe ne sera pas calculée à partir d’une estimée
du signal propre. Le problème est ainsi contourné de manière à éviter tout passage par
l’estimée du signal de parole qu’elle soit issue d’une soustraction spectrale ou de tout
autre débruiteur.
En espérant disposer d’un bon estimateur du bruit, Tuffy propose d’exploiter la
courbe de masquage calculée à partir du signal bruité et celle calculée à partir du bruit
pour générer la courbe de masquage du signal propre. Il étudie la relation entre ces deux
courbes, dans chaque bande critique, pour pouvoir en extraire les paramètres conve-
nables qui servent à paramétrer la soustraction spectrale d’énergie des deux courbes
(au lieu de celle du spectre de puissance des deux signaux) selon la formule suivante :
(
bs = Ey − ηEb̂ si Ey − ηEb̂ > U,
E (6.1)
U ailleurs,
82 CHAPITRE 6 : Estimation de la courbe de masquage

où Ebs , Ey , E sont respectivement l’énergie du signal estimé, l’énergie du signal de



parole bruité et l’énergie du bruit dans le domaine fréquentiel. Ces grandeurs converties
en dB donneraient lieu aux courbes de masquages Tb(ν), T y (ν) et T b (ν) ; η et T h sont
le facteur de pondération et le seuil d’audition absolu. En se basant sur l’observation
du tracé des deux courbes T y (ν) et T b (ν), quatre intervalles d’études, dépendants du
rapport signal bruité à bruit NSNR (Eq. 6.2),
PN 2
ν=1 |Yk (ν)|
NSNR = 10 log10 PN , (6.2)
b 2
ν=1 |Bk (ν)|

se présentent :

1- NSNR = 0 dB
2- −1 ≤ NSNR ≤ 1 dB
3- 1 < NSNR ≤ 3 dB
4- |NSNR| > 3 dB.

NSNR = 0 dB : Ce cas se présente quand Ey = Eb̂ , c’est-à-dire lorsqu’il n’y a pas


d’activité vocale, mais uniquement du bruit de fond. Pour soustraire complètement ce
bruit, l’auteur pose η = 1 dans l’équation (6.1) . Afin d’éviter que la valeur de la courbe
de masquage estimée soit au dessous du seuil d’audition absolu U, il considère, dans
chaque bande critique, le maximum entre la valeur de E bs et celle de U .
−1 ≤ NSNR ≤ 1 dB : Ce second cas, où on exclut la situation NSNR = 0, se présente
quand il y a une quantité significative du signal de parole. Expérimentalement, l’auteur
fixe la valeur de η à 0.8 puisqu’elle donne de meilleurs résultats.
1 < NSNR ≤ 3 dB : Dans ce troisième intervalle, la limite supérieure de l’intervalle
d’étude (c’est-à-dire 3 dB) implique que l’énergie d’un des seuils est équivalente au
double de l’autre. Afin de déterminer quel seuil offre le plus d’énergie, on effectue
une simple soustraction d’énergie entre les deux (c’est-à-dire en posant η = 1). Une
différence de 3 dB signifie que l’énergie du signal bruité est le double de celle du bruit,
alors qu’une différence de −3 dB implique le cas inverse, c’est-à-dire que l’énergie du
bruit est le double de l’énergie du signal bruité. Une normalisation s’impose dans les
deux cas, selon l’équation
Ey
Enorm = (6.3)
ηEb̂
où Enorm est l’énergie normalisée et η ∈ {0.5, 2}. Ensuite, afin de mettre plus en
valeur la contribution de la courbe de masquage du signal bruité, il réduit le paramètre
pondérant l’énergie du bruit d’un facteur de 2. La valeur du paramètre η est donc
obtenue comme suit,
Enorm
η= . (6.4)
2
|NSNR| > 3 dB : Ce dernier intervalle d’étude concerne les SNRs supérieurs à 3 dB
en valeur absolue. Ce cas se produit quand on a une différence forte entre les deux
courbes de masquage, justifiée dans le cas de NSNR positif par la domination de la
parole et dans le cas inverse par la domination du bruit. La contribution du bruit dans
Section 6.2 : Ajustement de la courbe de masquage 83

ce cas est difficile à gérer. Néanmoins, il est toujours possible d’approcher l’allure de
la courbe de masquage du signal propre rien qu’en utilisant une valeur η constante
pour toutes les bandes critiques. Ceci permet d’éviter une amplification d’une portion
du spectre par rapport aux autres portions et ainsi un effet perceptuel désagréable.
Expérimentalement également, l’auteur trouve qu’il est plus approprié de réduire le
niveau de la courbe du signal bruité d’un facteur de α = 4 pour NSNR > 3 dB et de
α = 3 pour NSNR < −3 dB. L’effet de l’énergie du bruit est ainsi réduit.

6.2.3 Proposition de Ben Aicha


Dans [Aicha 07], les auteurs exploitent la tonalité de la bande critique pour détecter
le bruit musical, surtout pour les hautes fréquences, et ne pas en tenir compte dans le
calcul de la courbe de masquage. Dans un travail précédent, les auteurs constatent que
le bruit musical est surtout présent et gênant au delà de 1kHz. Comme ils travaillent
avec des signaux sous-échantillonnés à 8kHz, les auteurs se focalisent sur les bandes
critiques de 9 à 18. Afin de détecter les tonales du bruit musical présentes dans un
signal débruité par Wiener Sbk , ils utilisent un signal de référence Sek . Ce signal est une
version légèrement débruitée du signal observé de façon à ne pas introduire ni du bruit
musical ni des distorsions du signal. Ils subdivisent les signaux Sbk et Sek en bandes
critiques. Puis, ils calculent leurs coefficients de tonalité, αbj et αej respectivement, selon
l’équation (6.5),  
SFMdB
α = min ,1 (6.5)
SFMdBmax
où nous rappellons que SFMdB est la mesure de la platitude du spectre (voir le chapitre
2 pour plus de détails). Ensuite, à partir de la comparaison entre ∆αj = αbj − αej et un
seuil ζ choisi expérimentalement, les auteurs concluent sur la présence ou non (fonction
indicatrice Mj dans l’Eq. 6.8) du bruit musical. Si le bruit musical est présent dans
la bande critique j, l’indice de tonalité de cette bande αbj est remplacé par l’indice de
tonalité du signal de référence αej (Eq. 6.7) dans le calcul du seuil de correction Oj dans
l’équation (6.6).

Oj = αj (14.5 + j) + (1 − αj )5.5 dB (6.6)



αbj si Mj = 1,
αj = (6.7)
αej si Mj = 0,

1 si αbj − αej ≥ ζ,
Mj = (6.8)
0 ailleurs.

La raison pour laquelle les auteurs se basent sur un signal de référence (signal
légèrement débruité) pour détecter le bruit musical au lieu du signal observé est que ce
dernier induit des fausses détections. Dans un signal bruité, surtout à des SNRs faibles,
certaines tonales de la parole peuvent être masquées par le bruit. Elles apparaı̂tront
suite au débruitage ce qui va entraı̂ner une augmentation du niveau de tonalité de
la bande critique en question, non pas à cause de la présence du bruit musical mais
plutôt par la présence du signal utile. Pour aboutir à un débruitage n’introduisant pas
84 CHAPITRE 6 : Estimation de la courbe de masquage

de bruit musical ni de distorsion du signal, les auteurs introduisent une correction au


niveau du filtrage de Wiener Wk , tel que :


ck = Wk + γ si Wk + γ ≤ 1
W (6.9)
1 sinon.

où γ est fixé expérimentalement. Cette méthode est prometteuse dans le sens où elle
s’affranchit des erreurs d’estimation du signal de parole propre pour estimer la courbe
de masquage. Cependant, elle reste très influencée par la nature du débruitage donnant
lieu au signal de référence sur lequel est basée la détection des tonales du bruit musical.
Dans cette thèse, dans un but purement démonstratif et expérimental, nous avons
implémenté le principe de l’idée, mais en gardant un indice de tonalité constant sur
toutes les bandes critiques d’une trame donnée. L’adaptation ou la correction de cet
indice, pour neutraliser l’effet du bruit musical, se fait par la suite comme décrit aupa-
ravant, c’est-à-dire selon l’équation (6.7).
Les raisons pour lesquelles nous n’avons pas fait varier cet indice par bande critique
sont premièrement liées aux coûts de calcul qu’on reproche aussi au modèle MPEG.
Deuxièmement, nous avons adopté tout au long de ce mémoire le modèle de Johnston
dont l’estimation de l’indice de tonalité est calculée à partir de la mesure de la platitude
du spectre (Spectral Flatness Measure) sur toute la trame (voir les équations 2.16 et
6.5 section 2.2.2). L’indice de tonalité, de ce modèle, est considéré global dans le sens
où il est constant pour toutes les bandes critiques.
La figure 6.3 illustre l’estimation de la courbe de masquage obtenue par cette
procédure sur une trame de parole donnée. On constate qu’effectivement la méthode
améliore la précision de l’estimation pour les hautes fréquences en considérant un signal
de parole en sortie du filtrage de Wiener.

6.3 Contribution

6.3.1 Première proposition

À partir du signal débruité, la variance du bruit résiduel R(ν) dans une trame
donnée et à la fréquence ν peut être estimée pendant les périodes d’absence d’activité
vocale. Dans [Udrea 08] ainsi que [Boll 79], l’estimation du bruit résiduel est obtenue
en faisant la soustraction entre l’énergie instantanée du bruit et la moyenne de cette
énergie sur une trame de silence. Dans [Udrea 08], cette procédure est répétée pour L
trames de silence. Le bruit résiduel dans ce cas représente le maximum des différences
entre trames (Eq. 6.10).

n 1 X N o
b 2 b 2
R(ν) = max |B(ν)| − |B(ν)| . (6.10)
L N ν=1
Section 6.3 : Contribution 85

Amplitude 10000

5000

−5000
0 50 100 150 200 250 300
Spectre de puissance (dB)

80
CM wiener
60 CM Aicha wiener
CM clean
40

20

0
0 500 1000 1500 2000 2500 3000 3500 4000
fréquences (Hz)

2000

1000
Amplitude

−1000

−2000
0 50 100 150 200 250 300
60
Spectre de puissance (dB)

CM wiener
CM Aicha wiener
50
CM clean

40

30

20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (dB)

Figure 6.3 — Correction de l’estimation de la Courbe de Masquage CM par la


méthode Ben Aicha avec un indice de tonalité constant sur toutes les fréquences

Cette estimation du bruit résiduel est ensuite convertie en spectre en Bark comme suit :

hj
X
Rj = R(ν) (6.11)
ν=bj

où bj et hj sont respectivement la fréquence basse et haute de la bande critique j.


L’auteur propose par la suite d’atténuer la courbe de masquage, pour les bandes de
fréquences supérieures à la 12ème , en soustrayant Rj en dB du seuil de correction Oj
86 CHAPITRE 6 : Estimation de la courbe de masquage

(voir Eq. 2.18 de la section 2.2.2 ) selon l’équation (6.12) :


“O ” “R ”
j
10 log10 (Cj )− − 10j
Tj = 10 10
. (6.12)

où Cj est le spectre en Bark étalé (voir équation 2.15).

10000
Amplitude

5000

−5000
0 50 100 150 200 250 300
Spectre de puissance (dB)

80
CM,SSP
60 CM,wiener
CM,sspec Udrea
40 CM, wiener Udrea
CM, clean
20

0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)

2000

1000
Amplitude

−1000

−2000
0 50 100 150 200 250 300
Spectre de puissance (dB)

60
CM,SSP
CM,wiener
40 CM,SSP (Udrea)
CM,wiener (Udrea)
20 CM, clean

0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)

Figure 6.4 — Correction de l’estimation de la Courbe de Masquage CM par la


méthode Udrea

D’après la figure (6.4), on constate que la correction proposée par Udrea, consistant
à baisser la courbe de masquage d’un niveau équivalent au bruit résiduel, apporte
une amélioration pour l’estimation issue de la soustraction spectrale. Elle biaise par
contre l’estimation qui provient du filtrage de Wiener. Vu que le filtrage de Wiener
Section 6.3 : Contribution 87

apporte moins de bruit musical que la soustraction spectrale, la courbe de masquage a


tendance à être sous-estimée. Ceci nous amène à vouloir plutôt augmenter le niveau de
la courbe provenant du filtrage de Wiener afin de le rapprocher au plus de la courbe
idéale. La figure 6.5 illustre l’apport de cette modification sur l’estimation de la courbe
de masquage issue du filtrage de Wiener. L’augmentation du niveau de la courbe de
masquage est obtenue, contre intuitivement, par ajout de“ la”quantité
“ ”
du bruit résiduel
Oj Rj
10 log10 (Cj )− +
Rj dans l’équation (6.12), c’est-à-dire Tj = 10 10 10
).
En outre, plusieurs observations du comportement de la courbe de masquage nous
ont amené à conclure que la correction de l’estimation de cette courbe ne dépend pas
uniquement des bandes critiques et ainsi des fréquences, mais également du rapport
signal bruité à bruit NSNR (Eq. 6.2) et du rapport signal à bruit segmental segSNR
(Eq. 6.13) :

PN
|Sk (ν)|2
segSNR = 10 log10 PNν=1 (6.13)
bk (ν)|2
|B
ν=1

où |Sk (ν)|2 est estimé en sortie du filtre de Wiener.


Ces constatations font l’objet de notre suite d’améliorations apportées à la
méthode d’Udrea. En effet, en observant le comportement de la courbe de masquage
en fonction des paramètres segSNR et NSNR, nous avons extrait 4 situations distinctes :

1er cas : NSNR < 0 dB et segSNR < 0 dB

si NSNR < 0 dB, alors l’énergie du signal bruité est inférieure à l’énergie du bruit.
si segSNR < 0 dB, alors l’énergie du signal est inférieure à l’énergie du bruit.

Ce cas se présente quand le signal de parole est non voisé et à faible énergie ou quand
il n’y a pas d’activité vocale.

2ème cas : NSNR > 0 dB et segSNR > 0 dB

si NSNR > 0 dB, alors l’énergie du signal bruité est supérieure à l’énergie du bruit.
si segSNR > 0 dB, alors l’énergie du signal est supérieure à l’énergie du bruit.

Ce cas se présente quand le signal de parole est voisé et que le bruit est à faible énergie.

3ème cas : NSNR > 0 dB et segSNR < 0 dB


Avec le même raisonnement, ce cas se présente quand le bruit est à forte énergie et
que le signal de parole est voisé, mais de faible énergie.

4ème cas : NSNR < 0 dB et segSNR > 0 dB


Ce dernier cas se présente quand le bruit est à forte énergie et que le signal de parole
est non voisé et de faible énergie.
88 CHAPITRE 6 : Estimation de la courbe de masquage

10000

5000
Amplitude

−5000
0 50 100 150 200 250 300
Spectre de puissance (dB)

80
CM,SSP
60 CM,wiener
CM,wiener corrigee
40 CM,sspec corrigee
CM, clean
20

0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréqences (Hz)

2000

1000
Amplitude

−1000

−2000
0 50 100 150 200 250 300
Spectre de puissance (dB)

60
CM,SSP
50 CM,wiener
CM,wiener corrigé
40 CM,sspec (Udrea)
CM, clean
30

20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)

Figure 6.5 — Modification de la correction de l’estimation de la Courbe de Mas-


quage CM par la méthode Udrea améliorée dans le cas du filtrage par Wiener

Ainsi, en fonction de ces quatres situations, nous proposons de corriger la courbe


de masquage selon la procédure suivante (voir Fig. 6.9 pour les illustrations) : Quand
le segSNR et le NSNR sont tous les deux négatifs (1er cas) ou quand nous sommes face
au 3ème cas, nous procèdons à une augmentation du niveau de la courbe de masquage
pour toutes les bandes critiques. En effet, la courbe de masquage est sous-estimée (avant
notre correction) pour toutes les fréquences dans le 1er et 3ème cas. Cela signifie qu’une
importante atténuation a été apportée au signal de parole suite au filtrage linéaire par
Wiener. Ce filtrage a donc des coefficients de petites valeurs (proches de 0) pour deux
raisons : soit le bruit est de forte énergie, soit il a été sur-estimé. La sur-estimation du
Section 6.3 : Contribution 89

bruit peut effectivement dans certains cas se produire pour les segments de parole non
voisés. Ces derniers ont un comportement et une ressemblance avec le bruit qui fait
en sorte que le détecteur d’activité vocale peut provoquer une fausse détection et que
l’estimation du bruit en dépendant soit biaisée.
Quand le segSNR et le NSNR sont tous les deux positifs (2ème cas) ou quand on
est face au 4ème cas, on augmente uniquement les hautes fréquences (bandes critiques
au delà de la 9ème pour le 2ème cas et au delà de la 7ème pour le 4ème cas). Comme
on peut le remarquer à partir de la figure 6.9, la courbe de masquage (avant notre
correction) est souvent légèrement sous-estimée pour les hautes fréquences ceci est dû
à l’atténuation inhérente des composantes du signal de parole après le filtrage linéaire
du signal bruité.
Cette procédure de correction est complètement heuristique dans le sens où elle
est basée sur plusieurs observations du comportement de la courbe de masquage vis
à vis du changement des valeurs du segSNR et du NSNR. Ces observations ont été
effectuées suite à plusieurs expériences menées sur différents signaux, différents types
de bruit et de rapports signal à bruit. Dans la figure (6.9), on présente le résultat de la
correction proposée mettant en avant des exemples de trames de parole correspondant
aux différents cas cités plus haut. L’expérience présentée concerne un échantillon de
parole de la base Timit sous-échantillonné à 8 kHz et corrompu par un bruit blanc à
5 dB.
D’après ces expérimentations, nous constatons que la méthode proposée apporte
une amélioration significative par rapport aux autres méthodes basées sur l’idée de la
correction de la courbe de masquage uniquement pour les hautes fréquences.

6.3.2 Deuxième proposition


Un signal aléatoire AutoRégressif (AR) s(n) est le résultat du filtrage d’un bruit
blanc b(n) de moyenne nulle et de variance σ 2 par un filtre tout pôle. Dans ce type
de modélisation (Eq. 6.14), nommé LPC (Linear Predictive Coding), le signal s(n) est
supposé être prédictible en fonction d’un certain nombre de ses valeurs antérieures.
C’est le cas du signal de parole, par exemple :
p
X
s(n) = b(n) + ak s(n − k). (6.14)
k=1

Le bruit b(n) représente l’erreur de prédiction, p est l’ordre du modèle et les coefficients
(ak )k=1...p sont les paramètres du modèle permettant d’estimer la densité spectrale de
puissance du signal s(n) selon l’équation (6.15) :
σ 2 (ν)
γ(ν) = p 2 . (6.15)
X
1 − ak exp{−i2πνk}
k=1

Dans la figure 6.6, on compare la densité spectrale du signal de parole calculée par
l’équation (6.15) et celle estimée à partir d’un périodogramme. On constate que l’esti-
90 CHAPITRE 6 : Estimation de la courbe de masquage

mation à base des coefficients LPC est lissée et peut donc atténuer l’effet indésirable
du bruit.

1
DSP par périodogramme
0.9 DSP du modèle AR

0.8

0.7
DSP normalisée

0.6

0.5

0.4

0.3

0.2

0.1

0
0 20 40 60 80 100 120 140
Echantillons

Figure 6.6 — Exemple de comparaison entre la densité spectrale issue du modèle


AR et celle par périodogramme

Nous avons calculé, dans un premier temps, la courbe de masquage issue du signal
de parole propre et la courbe de masquage calculée à partir de la densité spectrale
de puissance provenant du modèle AR (Eq. 6.15) appliquée directement au signal de
parole propre. Sur deux types de trames du signal données, la figure (6.7) illustre les
deux courbes et montre ainsi que la modélisation LPC du signal en absence du bruit
donne lieu à une courbe de masquage qui épouse parfaitement l’allure de la courbe
ordinaire.
L’estimation des coefficients LPC à partir d’un signal bruité est très sensible au
bruit, d’où l’intérêt de passer d’abord par un filtrage (Wiener par exemple) pour
atténuer le bruit additif avant de calculer la densité spectrale à partir des coefficients
AR. Nous calculons ensuite la courbe de masquage à partir de cette densité spectrale
du signal débruité que nous comparons avec la courbe de masquage du signal propre.
La figure 6.8 présente l’exemple de deux types de trames (les mêmes conservées tout au
long de ce chapitre pour des comparaisons cohérentes entre les différentes méthodes)
avec les deux méthodes de calcul de la courbe de masquage. Nous constatons, d’après
cette figure, que l’estimation de la courbe de masquage à partir d’une modélisation LPC
du signal de parole n’est pas très différente de celle provenant du filtrage par Wiener.
Elle est meilleure seulement. La proposition est ainsi prometteuse. Dans le chapitre
7, nous allons voir qu’il existe une méthode plus robuste pour calculer les coefficients
LPC en présence du bruit et ce en procédant dans le domaine de l’autocorrélation.
Cette technique est nommée SMC (Short-time Modified Coherence) et pourrait être
intéressante à appliquer ici à des fins d’estimation de la courbe de masquage. Par faute
de temps, nous n’avons pas pu implémenter et étudier cette méthode que nous avons
gardée comme perspective à court terme de ce chapitre.
Section 6.4 : Conclusion 91

6.4 Conclusion
Dans ce chapitre, nous avons évoqué l’impact d’une mauvaise estimation de la
courbe de masquage sur les performances des débruiteurs perceptuels. Cette influence
dépend de deux cas limites, liés souvent aux problèmes d’estimations, à savoir la sur-
estimation et la sous-estimation. Nous avons présenté les quelques méthodes d’état de
l’art visant à affiner l’estimation de la courbe de masquage. Elles opèrent différemment
mais se rejoignent sur l’idée d’apporter une modification plutôt aux hautes fréquences.
Il est vrai que le bruit résiduel est plus gênant dans les hautes fréquences car dans les
basses fréquences il est souvent masquée par la parole dont l’énergie est plus importante,
mais cela reste valable du côté perception. L’ajustement de la courbe de masquage, à
notre sens, devrait être également envisagé pour les basses fréquences, car un biais
d’estimation pour ces fréquences, surtout une sous-estimation, devient préjudiciable et
peut introduire beaucoup de distorsions du signal après débruitage.
Dans ce chapitre, nous avons proposé une méthode de correction guidée par la valeur
de deux paramètres qui sont le rapport signal bruité à bruit NSNR et le rapport signal
à bruit segmental segSNR. La méthode peut ainsi opérer sur toutes les fréquences ou
simplement sur quelques-unes. On a également présenté une deuxième méthode basée
sur l’estimation de la densité spectrale de puissance (DSP) du signal de parole à partir
d’une modélisation LPC. De par sa structure lissée, cette DSP peut réduire l’effet du
bruit résiduel à la sortie du filtre de Wiener qui biaise généralement l’estimation de la
courbe de masquage. La deuxième méthode, qui apporte une légère amélioration, reste
prometteuse surtout si l’on utilise d’autres variantes de l’analyse LPC connues pour
leur robustesse face au bruit, telle que la SMC souvent employée dans le domaine de
la reconnaissance de la parole et dont le principe sera donné au chapitre 7.
92 CHAPITRE 6 : Estimation de la courbe de masquage

10000

5000

−5000
0 50 100 150 200 250 300

80
CM, dsp AR
CM clean
60
dB

40

20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence en Hz

2000

1000

−1000

−2000
0 50 100 150 200 250 300

60
CM, dsp AR
CM clean
50
dB

40

30
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence en Hz

Figure 6.7 — Estimation de la courbe de masquage CM par densité spectrale issue


du modèle AR
Section 6.4 : Conclusion 93

10000

5000

−5000
0 50 100 150 200 250 300

80
CM dsp AR wiener
60 CM wiener
CM clean
dB

40

20

0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence en Hz

2000

1000

−1000

−2000
0 50 100 150 200 250 300

60
CM dsp AR wiener
CM wiener
40 CM clean
dB

20

0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence en Hz

Figure 6.8 — Estimation de la courbe de masquage CM par densité spectrale issue


du modèle AR appliqué au signal débruité par Wiener
94 CHAPITRE 6 : Estimation de la courbe de masquage

NSNR =−3.9252dB SSNR =−9.3718dB


2000

1000

−1000

−2000
0 50 100 150 200 250 300

60
CM wiener
50 CM (segSNR et NSNR)
CM clean
dB

40

30

20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)

Nb Trame: 112 NSNR =6.4992dB SSNR =6.6851dB


10000

5000

−5000
0 50 100 150 200 250 300

80
CM wiener
60 CM (segSNR et NSNR)
CM clean
dB

40

20

0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)

Nb Trame: 54 NSNR =2.228dB SSNR =−1.5268dB


5000

−5000
0 50 100 150 200 250 300

80
CM wiener
60 CM (segSNR et NSNR)
CM clean
dB

40

20

0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)

Nb Trame: 53 NSNR =−0.017473dB SSNR =2.0297dB


5000

−5000
0 50 100 150 200 250 300

80
CM wiener
60 CM (segSNR et NSNR)
CM clean
dB

40

20

0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)

Figure 6.9 — Correction de l’estimation de la Courbe de Masquage CM en fonction


du NSNR et du SSNR
7
CHAPITRE
Débruitage perceptuel
de la parole -
limitations et
contributions

Comme mentionné précédemment, le phénomène de masquage est l’effet de la non


sélectivité en fréquence de notre système auditif. Il se produit quand un son puissant
crée une distorsion locale du seuil d’audition absolu en augmentant son niveau, rendant
ainsi inaudibles les sons plus faibles qui autrement auraient été audibles.
Le phénomène de masquage se manifeste différemment en fonction de la fréquence
du masquant et celle du masqué. Il est accentué quand les deux fréquences coı̈ncident
et s’affaiblit quand les deux fréquences s’éloignent l’une de l’autre.
L’objectif du débruitage perceptuel est de réduire le bruit sans apporter plus de
distorsion sur le signal de parole. L’une des façons d’éviter des distorsions superflues
est d’opérer uniquement dans les fréquences où le bruit est perceptuellement significatif.
Cependant, en procédant ainsi, le bruit initialement inaudible, et par conséquent non
pris en compte par le débruitage perceptuel, risque de devenir audible et gênant si
les masquants de ce bruit sont filtrés. C’est ce que l’on nomme dans cette thèse le
phénomène MAN (Maskee to Audible Noise) [Amehraye 08b].
Le but de ce chapitre est d’illustrer ce phénomène, qui à notre connaissance, n’a
jamais été décrit auparavant, de montrer ses effets secondaires et de proposer deux
approches pour y remédier. La première consiste à appliquer un double filtrage dans le
but d’éviter l’apparition du phénomène MAN. La seconde méthode consiste à employer
un filtrage optimal sélectif par zone de fréquence et minimisant un critère global tenant
compte du phénomène MAN. Ce filtre optimal permet de définir la zone du phénomène
MAN et d’atténuer le bruit y contribuant.
CHAPITRE 7 :
96 Débruitage perceptuel de la parole - limitations et contributions

7.1 Le phénomène MAN (Maskee to Audible


Noise)
Le phénomène de masquage est inhérent à notre système d’audition. Il est fortement
dépendant de la nature du son et ainsi du signal. Lors du débruitage perceptuel, on
conçoit les filtres en se basant sur la courbe de masquage du signal propre dont on
ne dispose pas en réalité. On utilise ainsi une estimation de cette courbe qui n’est pas
forcément précise (voir chapitre III).
Mais, le vrai problème n’est pas là. Lorsqu’on évalue la qualité du signal débruité,
que ce soit par des critères objectifs ou subjectifs, ce qui compte en dernier c’est
le signal débruité lui même. Du point de vue perceptif, ce signal possède sa propre
courbe de masquage. En effet, quand on débruite le signal, on atténue forcément le
signal de parole. L’atténuation, certes, dépend du gain du filtre linéaire, mais elle reste
non négligeable en général. Qui dit atténuation du signal de parole dit atténuation de
sa courbe de masquage (voir figure 7.3) .
Le fait de percevoir le bruit résiduel (bruit musical en particulier), après filtrage,
prouve que le signal débruité n’a pas pu le masquer. Ce bruit est donc situé au dessus
de la courbe de masquage du signal débruité.
Par cette analyse, en mettant en évidence le problème d’atténuation de la courbe
de masquage, nous introduisons un phénomène qui est une conséquence immédiate de
cette atténuation. Il s’agit du bruit qui, masqué au départ, peut ne plus l’être après
débruitage, d’une part, parce qu’il est situé au dessus du seuil d’audition absolu et
d’autre part parce que le niveau d’atténuation de la courbe de masquage lui permet
de se dégager du spectre atténué et de devenir audible, engendrant ainsi une partie
du bruit musical. Ce phénomène, nous l’avons baptisé, dans cette thèse, le phénomène
MAN (Maskee to Audible Noise ).

7.1.1 Illustration du phénomène MAN


Afin d’illustrer expérimentalement le phénomène MAN (figure 7.1), on suppose
qu’un masquant est présent à la fréquence f0 de sorte que la courbe de masquage
résultante est au-dessus du seuil d’audition absolu au voisinage de cette fréquence.
Elle masque ainsi le bruit adjacent et moins puissant qui est présent à la fréquence f2 ,
tandis que la deuxième composante de bruit à la fréquence f1 reste audible du fait que
son niveau acoustique est suffisamment élevé pour être perçue en présence du signal
masquant.
Supposant maintenant qu’on procède à un filtrage perceptuel classique consistant à
traiter uniquement le bruit audible, ce filtrage va réduire le bruit à la fréquence f1 , ce
qui va entraı̂ner une atténuation du signal à cette fréquence et ainsi une atténuation de
sa courbe de masquage dans ce voisinage. Il s’ensuit que le bruit masqué à la fréquence
f2 devient audible. Ce phénomène peut se produire quand l’énergie d’une composante
de bruit masquée est comprise entre la courbe de masquage et le seuil d’audition
absolu T ⋆ , à condition que son masquant soit atténué. C’est donc un phénomène qui
Section 7.1 : Le phénomène MAN (Maskee to Audible Noise) 97

dB zone MAN
120
100 masquant
80 courbe
de masquage
60
40
bruit audible Avant filtrage
20
0 masqué
Seuil d’audition
absolu Fréquences (Hz)
f0 f1 f2
dB
120
100
80
courbe masquant
de masquage
60
40 Après filtrage
bruit audible
20
0
Seuil d’audition
absolu masqué Fréquences (Hz)

f0 f1 f2

Figure 7.1 — Maskee to audible noise phenomenon description

55

50

45
Puissance du signal (dB)

40

35

30

25

20 CM avant attenuation
CM après atténuation
15
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)

Figure 7.2 — Atténuation spectrale du signal implique une atténuation de sa courbe


de masquage

peut se produire fréquemment et dont la conséquence immédiate est l’apparition de


tonales isolées et dispersées accentuant la perception du bruit musical. L’autre effet en
découlant est le masquage de certaines composantes du signal de parole dont l’énergie
est faible à cause de certaines de ces tonales de bruit plus puissantes, ce qui peut induire
des distorsions du signal.
Pour illustrer l’effet d’une atténuation spectrale sur la courbe de masquage d’un
signal, la figure 7.2 présente une comparaison entre la courbe de masquage (CM) d’un
signal avant atténuation et celle du même signal, mais après avoir subi une atténuation,
dans le domaine fréquentiel, par un facteur β = 1/2 pour toutes les fréquences (juste
à titre d’exemple). Cette deuxième courbe est notée “CM après atténuation” dans la
figure 7.2. Sur cette figure, on constate que la deuxième courbe de masquage est une
translation de la première avec un facteur de −6.02 dB (ce qui est normal puisque
CHAPITRE 7 :
98 Débruitage perceptuel de la parole - limitations et contributions

80
Bruit initial
Bruit residuel
60 T (ν)
Puissance du signal (dB)

Tb(ν)
T ⋆(ν)
40

20

−20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)

50 Bruit initial
Bruit residuel
45 T (ν)
Tb(ν)
puissance du signal (dB)

40

35

30

25

20

15
800 900 1000 1100 1200 1300 1400 1500 1600 1700
Fréquences (Hz)

Figure 7.3 — Apparition du phénomène MAN après filtrage du bruit audible uni-
quement

20 log10 ( X2 ) = −20 log10 2 + 20 log10 X = −6 + 20 log10 X). On s’attendait peut être à


une translation de −3 dB mais cela prouve encore que les transformations qui donnent
lieu à la courbe de maquage ne sont pas linéaires. Trouver donc une expression ou
une méthode adéquate pour déduire le niveau de la nouvelle courbe de masquage en
connaissant celui de l’attenuation du signal n’est, a priori, pas une tâche facile.
Dans l’exemple de la figure 7.3, on suppose connaı̂tre la courbe de masquage T (ν)
du signal propre (un échantillon de la base Timit) et la densité spectrale du bruit
γ(ν) (un bruit de voiture de la base Noisex à 5 dB ) et T⋆ (ν) est le seuil d’audition
Section 7.2 : Double filtrage pour éviter le phénomène MAN 99

absolu. On effectue le débruitage du signal bruité par un filtrage perceptuel qui traite
uniquement le bruit audible (Eq. 4.35 adaptée au domaine de Fourier, voir Eq. 7.1 ).
Sur cette figure, en analysant le bruit résiduel, on constate que certaines compo-
santes du bruit additif, qui n’étaient pas audibles au départ, se retrouvent maintenant
au-dessus de la courbe de masquage Tb(ν) du signal débruité. Elles seront ainsi audibles
après débruitage. Si ce phénomène se produit répétitivement dans chaque trame, plu-
sieurs tonales de bruit, éparpiées en fréquences, vont ainsi apparaı̂tre et contribueront
à la perception du bruit musical.

7.2 Double filtrage pour éviter le phénomène MAN

Wiener ek ( )
S Estimation de la courbe
yk (t) = sk (t) + nk (t) Wk ( ) de masquage
Tk ( )
Hk ( )
Yk ( ) Réducteur de bruit Filtrage perceptuel
TFD
Fk ( ) Gk ( )

k ( ) bk ( )
S
DAV

Estimation du bruit TFD 1

s^(t)

Figure 7.4 — Principe du double filtrage DF pour une trame k donnée

7.2.1 Principe
Dans le but d’éviter l’apparition du phénomène MAN, pour les raisons citées
précédemment, notre première suggestion [Amehraye 08a] consiste à appliquer un
double filtrage dont le synoptique est décrit par la figure 7.4. Ce synoptique permet
d’améliorer le réducteur de bruit F (ν) grâce à une pondération perceptuelle à travers
un second filtrage G(ν).
La figure 7.4 pourrait certainement être envisagée pour plusieurs types de réducteurs
de bruit non perceptuels (Wiener, soustraction spectrale,...) suivis d’une pondération
de type perceptuel. Dans notre cas, nous avons considéré le filtre de Wiener (Eq. 4.29)
comme réducteur de bruit (Fk (ν) = Wk (ν)) de par ses performances reconnues. Nous
avons opté pour l’adaptation du filtre perceptuel de l’équation (4.35) au domaine de
Fourier, ce qui donne lieu à l’équation suivante

|Sek (ν)|2
Gk (ν) =  (7.1)
|Sek (ν)|2 + max γk (ν) − Tk (ν), 0
CHAPITRE 7 :
100 Débruitage perceptuel de la parole - limitations et contributions

où |Sek (ν)| est l’amplitude du signal restitué à la sortie du filtrage de Wiener, Tk (ν) est
la courbe de masquage estimée et γk (ν) est la densité spectrale de puissance du bruit.
L’intérêt de l’approche du double filtrage est d’atténuer d’abord toutes les com-
posantes du bruit, même celles initialement inaudibles, par le biais du réducteur de
bruit, d’appliquer ensuite un filtrage perceptuel qui agira en accentuant le débruitage
dans les fréquences où le bruit est perceptuellement significatif. En procédant ainsi, on
limite l’apparition du phénomène MAN. Le double filtrage DF résultant a donc pour
expression
HkDF (ν) = Wk (ν)Gk (ν) (7.2)

7.2.2 Etude asymptotique du double filtrage


Nous analysons maintenant les propriétés du double filtrage proposé dans l’Eq. (7.2)
en utilisant le fait que Wk et Gk sont compris entre 0 et 1.
Si γk (ν) < Tk (ν), ce qui signifie que le bruit est inaudible, nous avons Gk (ν) = 1.
Seul le filtre de Wiener est activé pour deux raisons : premièrement pour favoriser le
gain en rapport signal à bruit et deuxièmement pour réduire le risque que les portions
de bruit inaudibles deviennent audibles lorsque les masquants ont disparu, c’est-à-dire
pour éviter le phénomène MAN.
Si γk (ν) ≪ Tk (ν), ce qui signifie un très bon rapport signal à bruit avant débruitage,
on a Gk (ν) = 1. Très peu de distorsion est introduite et Wk (ν) ≈ 1 .
Si γk (ν) > Tk (ν), on profite à la fois de la capacité du filtre de Wiener à réduire
le bruit et de l’effet du facteur perceptuel pondérant pour traiter le bruit audible et
améliorer la qualité du signal débruité par réduction du bruit musical.
Si γk (ν) ≫ Tk (ν), on a ξk (ν) ≪ 1. De fait, Wk (ν)Gk (ν) tend plus rapidement vers 0
que Wk (ν). Le double filtrage DF proposé accentue donc le débruitage quand le bruit
est perceptuellement gênant.

7.2.3 Lissage fréquentiel


D’après l’équation (7.1), on constate que le gain Gk (ν) peut présenter des dis-
continuités dûes au traitement sélectif en fréquence, ce qui peut introduire des effets
perceptuels désagréables dans le signal débruité. Un lissage devient donc indispensable.
Le lissage en fréquence est obtenu par l’intermédiaire d’une fonction de pondération
(par exemple la fenêtre de Hanning élevée à une puissance donnée). Il doit préserver le
caractère local du signal et il s’effectue aux dépens de la résolution fréquentielle.
Pour toute méthode perceptuelle évoquée et testée dans ce chapitre, on applique au
filtre Hk un lissage fréquentiel par corrélogramme lissé, avant de procéder au débruitage.
Ce lissage est le résultat de la convolution circulaire entre la suite de valeurs Hk (ν),
ν = 0, 1, . . . , N − 1, et une fenêtre de pondération dont les valeurs C(ν) pour ν =
0, 1, . . . , N − 1,Psont réelles telles que C(N − ν) = C(ν) et vérifient la condition de
N −1
normalisation k=0 C(ν) = 1. La fenêtre que l’on a choisie est la version normalisée
Section 7.2 : Double filtrage pour éviter le phénomène MAN 101

d’une puissance de la fenêtre de Hanning, à savoir :


(0.5 + 0.5 cos(2πν/N))q
C(ν) = PN −1 , (7.3)
(0.5 + 0.5 cos(2πν/N)) q
ν=0

pour ν = 0, 1, . . . , N − 1. Cette convolution s’obtient comme TFD du produit des


TFDs inverses des suites Hk (ν) et C(ν), ν = 0, 1, . . . , N − 1. Le choix de la puissance
q est guidé par le souci de diminuer le nombre de pics vus par la fenêtre glissante.
On cherche alors à réduire la durée de celle-ci en augmentant la valeur du paramètre
q (figure 7.5). Un exemple de l’effet du lissage, par le biais de la fonction Ck (ν), est

0.04
q = 30
0.035
q = 20
0.03 q = 16
0.025
q = 10
C (ν )

0.02

0.015
q=4
0.01
q=1
0.005

0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence (Hz)

Figure 7.5 — Impact du paramètre q

illustré par la figure (7.6).

0.9

0.8 H (ν)
k
0.7

0.6

0.5 H (ν)*C(ν)
k

0.4

0.3

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000
Freq (Hz)

Figure 7.6 — Effet du lissage sur la fonction du gain du débruitage

7.2.4 Résultats expérimentaux


L’étude expérimentale est menée sur 250 fichiers de parole de la base TIdigits sous-
échantillonnés à 8 kHz. Les signaux de parole sont bruités additivement par trois types
de bruit : un bruit blanc gaussien généré sous Matlab, un bruit de conversation (Babble)
CHAPITRE 7 :
102 Débruitage perceptuel de la parole - limitations et contributions

et un bruit de voiture de la base Noisex. On procède par trames de longueur N = 256,


avec un recouvrement de 50%. Chaque trame est pondérée par la fenêtre de Hanning et
transformée dans le domaine spectral par le biais de la transformée de Fourier discrète
TFD. Comme indiqué précédemment, on estime la courbe de masquage selon le modèle
de Johnston (voir section 2.2) et à partir de la sortie du filtre de Wiener. Quant à la
densité spectrale de puissance du bruit γ, elle est estimée pendant les instants de pause
fournis par le détecteur d’activité vocale du standard G729 [G.729 96].
A ce stade, on compare cinq méthodes déjà décrites auparavant, à savoir (A) (Eq.
7.1), (B) (Eq. 4.36), (C) (Eq. 4.85), le filtrage de Wiener standard (Eq. 4.29) et le
Double filtrage DF (Eq. 7.2). Le corrélogramme lissé utilisé est ajusté avec q = 20 dans
l’Eq. (7.3).
Les performances de ces méthodes sont évaluées via trois critères objectifs : le rap-
port signal à bruit segmental SSNR (Segmental Signal to Noise Ratio) et deux critères
perceptuels, le MBSD (Modified Bark Spectral Distortion) et le PESQ (Perceptual
Evaluation of Speech Quality).
Les deux critères MBSD et SSNR montrent bien l’apport de la méthode proposée
par rapport aux autres méthodes testées, ce qui montre la capacité du double filtrage
à réduire le bruit et les distorsions. Cependant, quand il s’agit du critère PESQ, la
méthode est moins bonne. Afin de mieux évaluer les performances de DF, on a mis
en place des tests subjectifs en se plaçant dans le cas où le spectre du bruit est connu
afin d’éviter tout biais introduit par une mauvaise estimation du bruit. Le protocole
choisi est celui de la norme [P.835 03] décrite au chapitre 3. Rappelons juste que dans
ce protocole, chaque sujet attribue une note, allant de 1 à 5, sur la qualité de la parole
seule (SIG), le bruit de fond seul (BACK) et enfin sur la qualité globale (OVRL).
On a sollicité 24 volontaires dont 8 qui sont d’origine anglaise. On s’est limité au cas
du bruit de conversation et du bruit de voiture et à deux conditions de bruit, à savoir
5 dB et 10 dB et ce pour 10 phrases choisies aléatoirement dans la base de données
TIdigits. Malgré tout, le nombre total d’échantillons de parole reste assez important,
raison pour laquelle on a organisé 3 séances par volontaire. Pendant chaque séance,
d’au plus une demi-heure, le participant écoute 100 signaux d’une durée maximum de
4 secondes chacun.
D’après les tableaux 7.1 et 7.2, le double filtrage DF se comporte généralement
mieux que les autres méthodes. Néanmoins, pour plus de rigueur et de fiabilité, les
tests subjectifs ont été complétés par une analyse de la variance (ANOVA) sur les
scores obtenus avec un choix d’un niveau de confiance α = 0, 05.
Ainsi, par rapport à l’échelle BACK, l’algorithme DF apporte moins de distorsion
de bruit (valeurs élevées de BACK) selon des scores statistiquement significatifs (p-
value< 0.05). Ceci rejoint le fait que le double filtrage DF vise à réduire le bruit
résiduel en évitant le phénomène MAN.
Quand il s’agit par contre de la distorsion du signal (échelle SIG) et dans le cas du
bruit de voiture, les résultats ne sont pas statistiquement différents, ce qui implique que
les méthodes sont statistiquement aussi performantes les unes que les autres (p-value
> 0.05). En revanche, dans le cas du bruit de conversation, les auditeurs préfèrent
statistiquement les signaux bruités (p-value < 0, 05).
Section 7.2 : Double filtrage pour éviter le phénomène MAN 103

0.9
Wiener
0.8
(A)
(B)
(C)
0.7 DF
0.6
MBSD

0.5

0.4

0.3

0.2

0.1

0
−5 0 5 10 15 20
SNR (dB)

1
Wiener
0.9 (A)
(B)
0.8 (C)
DF
0.7

0.6
MBSD

0.5

0.4

0.3

0.2

0.1

0
−5 0 5 10 15 20
SNR (dB)

0.35
Wiener
(A)
0.3 (B)
(C)
DF
0.25

0.2
MBSD

0.15

0.1

0.05

0
−5 0 5 10 15 20
SNR (dB)

Figure 7.7 — Comparaison en terme de moyenne de MBSD dans le cas de parole


bruitée par un bruit blanc, un bruit de conversation et un bruit de voiture respecti-
vement

Le fait que le débruitage par DF ne se distingue pas statistiquement des autres


méthodes, en ce qui concerne la qualité du signal, peut découler du fait que le filtrage
de Wiener dégrade la qualité de la parole que même une pondération perceptuelle en
amont ne peut corriger, même si elle réussit à diminuer le bruit résiduel.
CHAPITRE 7 :
104 Débruitage perceptuel de la parole - limitations et contributions

10
Wiener
(A)
8 (B)
(C)
6 DF

4
SSNR

−2

−4
−5 0 5 10 15 20
SNR (dB)

10
Wiener
(A)
(B)
(C)
DF
5
SSNR

−5
−5 0 5 10 15 20
SNR (dB)

14
Wiener
12 (A)
(B)
10 (C)
DF
8

6
SSNR

−2

−4
−5 0 5 10 15 20
SNR (dB)

Figure 7.8 — Comparaison en terme de moyenne de SSNR dans le cas de parole


bruitée par un bruit blanc, un bruit de conversation et un bruit de voiture respecti-
vement

Maintenant, quant à la qualité globale (OVRL), DF se comporte statistiquement


mieux dans toutes les situations, sauf pour le bruit de conversation à 5 dB où les
auditeurs préfèrent statistiquement le filtrage de Wiener.
Compte-tenu des résultats objectifs et subjectifs, on s’aperçoit que le phénomène
MAN a un impact significatif sur les performances du débruitage perceptuel de la parole
Section 7.2 : Double filtrage pour éviter le phénomène MAN 105

3.2
Wiener
3 (A)
(B)
2.8 (C)
DF
PESQ 2.6

2.4

2.2

1.8

1.6

1.4
−5 0 5 10 15 20
SNR (dB)

3.5
Wiener
(A)
(B)
3 (C)
DF

2.5
PESQ

1.5

1
−5 0 5 10 15 20
SNR (dB)

4.2
Wiener
4 (A)
(B)
3.8 (C)
DF
3.6

3.4
PESQ

3.2

2.8

2.6

2.4

2.2
−5 0 5 10 15 20
SNR (dB)

Figure 7.9 — Comparaison en terme de moyenne de PESQ dans le cas de parole


bruitée par un bruit blanc, un bruit de conversation et un bruit de voiture respecti-
vement

du moment où le double filtrage DF apporte une amélioration notable en évitant la


production de ce phénomène. Cependant, l’inconvénient de ce filtrage est d’opérer sur
toutes les fréquences, ce qui induit des distorsions, au niveau du signal restitué, qui
ne peuvent pas être compensées par la pondération perceptuelle, d’où une deuxième
proposition qui fera l’objet de la section suivante.
CHAPITRE 7 :
106 Débruitage perceptuel de la parole - limitations et contributions

bruit de voiture Signaux bruités Wiener (A) (B) DF p-value


SIG 4.53 4.5 4.53 4.39 4.61 0.54
5dB BACK 2.44 3.96 3.90 3.96 4.54 3.2E-8
OVRL 3.09 4.28 3.88 3.85 4.39 0.0028
SIG 4.66 4.64 4.61 4.64 4.64 0.99
10dB BACK 2.99 4.59 4.33 4.26 4.65 3.1E-7
OVRL 3.46 4.38 4.28 4.18 4.40 0.024
bruit de conversation Signaux bruités Wiener (A) (B) DF p-value
SIG 3.96 3.08 2.31 2.31 3.01 0.0002
5dB BACK 1.41 3.33 2.88 2.79 3.88 0.0001
OVRL 2.09 2.70 1.99 1.81 2.71 0.0111
SIG 4.19 3.85 2.94 2.89 3.78 0.0006
10dB BACK 1.73 3.68 3.20 3.38 4.26 6.7E-7
OVRL 2.35 3.26 2.46 2.44 3.45 0.0001

Tableau 7.1 — La moyenne des scores MOS pour les auditeurs d’origine anglaise

bruit de voiture Signaux bruités Wiener (A) (B) DF p-value


SIG 4.43 4.42 4.35 4.23 4.46 0.67
5dB BACK 2.52 4.49 3.83 3.84 4.63 0
OVRL 3.32 4.29 3.88 3.82 4.41 5.3E-10
SIG 4.40 4.47 4.30 4.42 4.49 0.82
10dB BACK 2.78 4.50 4.18 4.20 4.54 0
OVRL 3.41 4.30 4.08 4.22 4.37 3.6E-10
bruit de conversation Signaux bruités Wiener (A) (B) DF p-value
SIG 4.13 2.98 2.26 2.26 2.94 3.4E-13
5dB BACK 1.87 3.49 3.29 3.23 3.78 7.8E-8
OVRL 2.65 2.86 2.11 2.16 2.79 1.7E-5
SIG 4.39 3.54 2.91 2.86 3.51 4.8E-12
10dB BACK 2.08 3.83 3.42 3.52 3.98 2.9E-10
OVRL 2.92 3.24 2.63 2.61 3.34 0.0001

Tableau 7.2 — La moyenne des scores MOS pour les auditeurs de différentes natio-
nalités

7.3 Filtre optimal anti-MAN

7.3.1 Critère anti-MAN


Au lieu d’éviter le phénomène MAN en agissant sur toutes les fréquences pour
réduire tout type de bruit, nous adoptons une autre solution visant à corriger le
phénomène MAN dans la zone MAN. L’idée est de procéder au traitement du si-
gnal bruité en fonction de la valeur du spectre de bruit γ(ν). Nous considérons alors
différemment les trois intervalles de bruit suivants :
n o
Zone audible : A = ν : T (ν) < γ(ν)
n o

Zone MAN : M = ν : T (ν) < γ(ν) ≤ T (ν)
n o
Zone absolument inaudible : I = ν : γ(ν) ≤ T (ν)

où T ⋆ (ν) et T (ν) sont respectivement le seuil d’audition absolu et la courbe de masquage
du signal. Le bruit appartenant à la zone M est typiquement candidat au phénomène
MAN.
Section 7.3 : Filtre optimal anti-MAN 107

Soit le gain h(ν) à la fréquence ν. Ce gain est appliqué individuellement sur chaque
fréquence ν selon la formule S(ν)b = h(ν)Y (ν). Soit J(ν) l’erreur quadratique moyenne
b
entre le signal propre S(ν) et le signal débruité S(ν),

h 2 i h 2 i
b
J(ν) = E S(ν) − S(ν) = E S(ν) − h(ν)Y (ν) (7.4)
2
= 1 − h(ν) δ(ν) + h(ν)2 γ(ν) (7.5)

où δ(ν) et γ(ν) sont respectivement la densité spectrale de puissance de la parole et


celle du bruit. Vu l’importance du phénomène MAN et le besoin de limiter les dis-
torsions du signal, la qualité de ce dernier sera évaluée différemment selon les 3 zones
définies précédemment, mais toujours en se basant sur le critère de l’erreur quadra-
tique moyenne J(ν). Nous proposons ainsi de concevoir le filtre h(ν) qui minimise
simultanément les critères suivants :
 2 
 2
 h(ν) − 1 δ(ν) + h (ν) γ(ν) − T (ν) , si ν ∈ A
¯ = 2
J(ν) h(ν) − 1 δ(ν) + h(ν)2 γ(ν) , si ν ∈ M (7.6)

 2
h(ν) − 1 δ(ν) , si ν ∈ I

Le critère global J¯(ν), comme le montre l’équation 7.6, est un critère sélectif en
fréquence. D’après cette équation, nous constatons que, quand le bruit est initiale-
ment audible (zone A), nous considérons uniquement la quantité du bruit audible
(γ(ν) − T (ν)) dans l’expression du MSE 7.5. L’atténuation du signal bruité dépendra
ainsi de cette quantité.
Dans la zone M, le bruit est initialement masqué mais risque de devenir audible
si ses masquants sont atténués d’où l’intérêt de l’atténuer aussi. Son atténuation n’a
guère besoin d’être contrôlée par un critère psychoacoustique, raison pour laquelle le
critère J(ν) n’est pas pénalisé.
Dans la zone I, le bruit est dit absolument inaudible, d’une part parce qu’il est
au-dessous du seuil d’audition absolu et, d’autre part, parce que ce seuil est constant,
c’est-à-dire qu’il ne sera pas atténué suite au filtrage. Il n’y a donc aucune raison
d’atténuer davantage ce bruit. Au contraire, ne pas l’atténuer va éviter d’introduire
¯
des distorsions inutiles du signal de parole. Le critère J(ν), dans cette zone, se ramène
à une minimisation du terme de distorsion du signal uniquement.

7.3.2 Dérivation du filtre perceptuel anti-MAN


L’équation 7.6 représente un problème de programmation convexe dont la solution
est obtenue par résolution de l’équation
¯
dJ(ν)
=0 (7.7)
dh(ν)
Le filtre optimal h(ν) [Amehraye 09], nommé dorénavant AMPF (Anti-MAN Percep-
tual Filter) est solution de l’équation (7.7) et de la forme
CHAPITRE 7 :
108 Débruitage perceptuel de la parole - limitations et contributions

 (a)
 h (ν) , si T (ν) < γ(ν)
h(ν) = h(m) (ν) , si I(ν) < γ(ν) ≤ T (ν) (7.8)

1 , si γ(ν) ≤ T (ν)
où h(a) (ν) et h(m) (ν) sont les filtres optimaux au sens de la minimisation du critère
¯
J(ν) par zone de fréquence. Leurs expressions sont respectivement données par

δ(ν)
h(a) (ν) = (7.9)
δ(ν) + γ(ν) − T (ν)
δ(ν)
h(m) (ν) = (7.10)
δ(ν) + γ(ν)

Dans l’équation 7.9, on retrouve l’expression du filtrage de l’équation (7.1). Ce filtrage


va nous permettre de traiter uniquement le bruit audible, puisqu’il opère dans la zone
A. Dans la zone M, puisque notre but est d’atténuer le bruit pour qu’il n’apparaisse pas
brusquement suite au filtrage des voisins masquants et audibles, le filtrage de Wiener
s’avère un premier choix nous garantissant la minimisation simultanée du bruit et des
distorsions. Dans la zone I où le bruit est absolument inaudible, il n’y aura donc aucun
traitement dans cette zone. Aucune distorsion ne sera donc introduite.
Dans la figure 7.10, on illustre le phénomène MAN avant et après le filtrage avec le
débruiteur anti-MAN proposé (Eq. 7.8 ). Grâce au zoom sur la figure, on constate que
les portions du bruit résiduel qui étaient au-dessus de la courbe de masquage du signal
débruité par un filtrage perceptuel traitant uniquement le bruit audible tel que celui de
l’équation 7.1, sont maintenant au dessous de cette courbe et seront donc inaudibles.

7.3.3 Résultats expérimentaux


Dans la suite des expériences menées dans la section 7.2.4, l’objectif de cette section
est de montrer l’apport du filtre AMPF à travers plusieurs expérimentations. Dans la
première, on considère un échantillon de parole de la base TIdigit auquel on ajoute un
bruit de voiture de la base Noisex à un rapport signal à bruit de −5 dB. La courbe
de masquage T (ν) est calculée directement à partir du signal de parole propre suivant
le modèle de Johnston et la densité spectrale de bruit γ(ν) est supposée connue afin
d’évaluer les performances du filtre optimal sans introduire de biais d’estimation. On
débruite le signal avec le filtrage perceptuel (A) (7.1), traitant uniquement le bruit
audible, puis on trace la courbe du bruit résiduel et la courbe de masquage Te(A) (ν)
issue du signal débruité. Ensuite, on débruite le même signal bruité de départ avec le
filtrage AMPF et on trace les mêmes courbes (le bruit résiduel et la courbe de masquage
Teampf (ν)) que précédemment, mais provenant de ce second filtrage.
Dans la figure 7.10, le tracé de toutes les courbes déjà citées donne lieu à une
comparaison assez intéressante. En effet, cette figure montre à la fois l’atténuation de
la courbe de masquage suite à l’atténuation du signal de parole après filtrage (A),
l’apparition du phénomène MAN dans certaines fréquences suite à ces atténuations
Section 7.3 : Filtre optimal anti-MAN 109

Phénomène MAN
Puissance du signal (dB)

Bruit initial T (ν) T ⋆ (ν)


Bruit résiduel à (A) Te (ν)
(A)

Bruit résiduel à AMPF Teampf (ν)

Fréquence (Hz)

Figure 7.10 — Disparition du phénomène MAN après filtrage AMPF

et enfin la disparition du phénomène MAN suite au filtrage optimal AMPF : aucune


composante de bruit initialement masquée par T (ν) ne devient audible après le filtrage
AMPF. A signaler que dans cette figure, T ⋆ (ν) se refère au seuil d’audition absolu et
le bruit initial désigne la densité spectrale du bruit additif à −5 dB.
La deuxième partie des expériences est menée sur 250 fichiers de la base TIdigits
suivant le même protocole que celui de la section 7.2.4. A ce stade, on évalue les
performances du débruitage avec le filtre AMPF en comparaison avec tous les filtres
évalués dans la section 7.2.4 selon les mêmes critères objectifs MBSD, PESQ et SSNR.
Les résultats sont présentés dans les figures 7.11, 7.12, 7.13 dans le cas où la densité
spectrale de bruit est supposée connue et dans les figures 7.14, 7.15, 7.16 dans le cas
où la densité spectrale du bruit est estimée pendant les instants de pauses fournis par
le détecteur d’activité vocale du standard G729.
Quand le bruit est estimé à partir du détecteur d’activité vocale du standard G729,
les performances du filtrage AMPF sont légèrement inférieures à celles de DF.
Dans le cas où la densité spectrale du bruit est supposée connue, le filtrage per-
ceptuel AMPF est meilleur que les autres méthodes, quel que soit le critère objectif
et dans toutes les conditions de bruit et de rapport signal à bruit. A ce niveau, nous
avons mis en place une suite des tests d’écoute selon la norme P835, afin d’évaluer les
performances du filtrage AMPF en comparaison avec DF en terme de critères subjec-
tifs. Nous nous sommes limités à la comparaison des méthodes AMPF et DF pour deux
raisons. Premièrement, le double filtrage DF est meilleur que les autres méthodes déjà
évaluées puisqu’il se distingue d’elles statistiquement. Deuxièmement, pour diminuer
la charge des tests et rendre plus facile la tâche des volontaires. Nous avons, tout de
CHAPITRE 7 :
110 Débruitage perceptuel de la parole - limitations et contributions

même, conservé le même protocole de test pour garder une certaine compatibilité et
continuité des tests. La moyenne des scores MOS obtenus (voir tableau 7.3) montre
que le filtrage DF est mieux noté par les utilisateurs, mais cette supériorité n’est statis-
tiquement pas significative, ce qui nous laisse conclure que du point de vue perception
les deux algorithmes sont équivalents et meilleurs que les autres méthodes.

bruit de voiture DF AMPF


SIG 4.35 4.24
5dB BACK 4.08 3.86
OVRL 4.01 3.89
SIG 4.37 4.37
10dB BACK 4.21 4.03
OVRL 4.12 4.02
bruit de conversation DF AMPF
SIG 2.81 2.654
5dB BACK 3.22 2.554
OVRL 2.56 2.27
SIG 3.46 3.49
10dB BACK 3.51 3.03
OVRL 3.23 2.99
Tableau 7.3 — La moyenne des scores MOS selon les échelles SIG, BACK et OVRL
pour les méthodes DF et AMPF dans les cas du bruit de voiture et du bruit de
conversation selon un rapport signal à bruit de 5 dB et 10 dB

7.4 Conclusion
Dans ce chapitre, nous avons mis expérimentalement en évidence l’effet MAN (Mas-
kee to Audible Noise). Ce phénomène se manifeste par la perception, après débruitage,
de certaines composantes de bruit initialement inaudibles. Ceci est dû à l’atténuation
du signal de parole suite au filtrage linéaire du bruit additif et, par conséquent, à
l’atténuation de la courbe de masquage du signal restitué. Nous avons proposé deux
méthodes pour réduire son influence sur les performances du débruitage. L’une consiste
à appliquer un double filtrage réduisant toutes les fréquences du bruit et dont le prin-
cipal inconvénient est d’apporter quelques distorsions superflues. L’autre est basée sur
un filtrage optimal sélectif en fréquence et minimisant un critère global tenant compte
du phénomène MAN.
Sur la base de critère objectifs et subjectifs, les résultats expérimentaux obtenus
ont montré la supériorité des deux méthodes proposées par rapport à des méthodes
perceptuelles récentes ne considérant pas le phénomène MAN. Quel sera donc l’apport
de ces méthodes et du débruitage en général sur les performances d’un système de
reconnaissance de la parole en milieu bruité ? Cette question est traitée au chapitre
suivant.
Section 7.4 : Conclusion 111

0.25
Wiener
(A)
(B)
0.2 (C)
DF
AMPF
0.15
MBSD

0.1

0.05

0
−5 0 5 10 15 20
SNR (dB)

3.2
Wiener
3 (A)
(B)
2.8 (C)
DF
2.6 AMPF
PESQ

2.4

2.2

1.8

1.6

1.4
−5 0 5 10 15 20
SNR dB)

10
Wiener
(A)
8 (B)
(C)
DF
6
AMPF
SSNR

−2
−5 0 5 10 15 20
SNR (dB)

Figure 7.11 — Comparaison en terme de MBSD, PESQ et SSNR dans le cas du


bruit blanc (en supposant connaı̂tre la variance du bruit
CHAPITRE 7 :
112 Débruitage perceptuel de la parole - limitations et contributions

0.06
Wiener
(A)
0.055 (B)
(C)
0.05 DF
AMPF
0.045
MBSD

0.04

0.035

0.03

0.025

0.02
−5 0 5 10 15 20
SNR (dB)

4
Wiener
(A)
(B)
3.5 (C)
DF
AMPF
3
PESQ

2.5

1.5
−5 0 5 10 15 20
SNR (dB)

14
Wiener
12 (A)
(B)
(C)
10
DF
AMPF
8
SSNR

−2
−5 0 5 10 15 20
SNR (dB)

Figure 7.12 — Comparaison en terme de MBSD, PESQ et SSNR dans le cas du


bruit babble (en supposant connaı̂tre la variance du bruit)
Section 7.4 : Conclusion 113

0.03
Wiener
(A)
(B)
0.025 (C)
DF
AMPF

0.02
MBSD

0.015

0.01

0.005
−5 0 5 10 15 20
SNR (dB)

4.6
Wiener
(A)
4.4
(B)
(C)
4.2 DF
AMPF
4
PESQ

3.8

3.6

3.4

3.2
−5 0 5 10 15 20
SNR (dB)

20
Wiener
(A)
(B)
15 (C)
DF
AMPF
10
SSNR

−5
−5 0 5 10 15 20
SNR(dB)

Figure 7.13 — Comparaison en terme de MBSD, PESQ et SSNR dans le cas du


bruit car (en supposant connaı̂tre la variance du bruit)
CHAPITRE 7 :
114 Débruitage perceptuel de la parole - limitations et contributions

0.9
Wiener
0.8
(A)
(B)
(C)
0.7 DF
AMPF
0.6
MBSD

0.5

0.4

0.3

0.2

0.1

0
−5 0 5 10 15 20
SNR (dB)

3.2
Wiener
3 (A)
(B)
2.8 (C)
DF
2.6 AMPF
PESQ

2.4

2.2

1.8

1.6

1.4
−5 0 5 10 15 20
SNR (dB)

10
Wiener
(A)
8
(B)
(C)
6 DF
AMPF
4
SSNR

−2

−4
−5 0 5 10 15 20
SNR (dB)

Figure 7.14 — Comparaison en terme de MBSD, PESQ et SSNR dans le cas du


bruit blanc gaussien (DAV G729)
Section 7.4 : Conclusion 115

1
Wiener
0.9 (A)
(B)
0.8 (C)
DF
0.7 AMPF

0.6
MBSD

0.5

0.4

0.3

0.2

0.1

0
−5 0 5 10 15 20
SNR (dB)

3.5
Wiener
(A)
(B)
replacemen 3 (C)
DF
AMPF
2.5
PESQ

1.5

1
−5 0 5 10 15 20
SNR (dB)

10
Wiener
(A)
(B)
(C)
DF
5 AMPF
SSNR

−5
−5 0 5 10 15 20
SNR (dB)

Figure 7.15 — Comparaison en terme de MBSD, PESQ et SSNR dans le cas du


bruit babble (DAV G729)
CHAPITRE 7 :
116 Débruitage perceptuel de la parole - limitations et contributions

0.35
Wiener
(A)
0.3 (B)
(C)
DF
0.25 AMPF

0.2
MBSD

0.15

0.1

0.05

0
−5 0 5 10 15 20
SNR (dB)

4.2
Wiener
4 (A)
(B)
3.8 (C)
3.6
DF
AMPF
3.4
PESQ

3.2

2.8

2.6

2.4

2.2
−5 0 5 10 15 20
SNR (dB)

14
Wiener
12 (A)
(B)
10 (C)
DF
8 AMPF

6
SSNR

−2

−4
−5 0 5 10 15 20
SNR (dB)

Figure 7.16 — Comparaison en terme de MBSD, PESQ et SSNR dans le cas du


bruit car (DAV G729)
8
CHAPITRE
Reconnaissance de la
parole

Nous consacrons ce chapitre à la reconnaissance automatique de la parole en


présentant le principe de fonctionnement des systèmes de reconnaissance automatique
de la parole ainsi que les différentes classes de méthodes destinées à rendre ces systèmes
robustes au bruit. Notre contribution concerne la conception de deux systèmes de recon-
naissance de la parole sous HTK, l’un est contextuel (triphones) et l’autre non (mono-
phones). Le but est d’étudier l’impact du débruitage de la parole, comme prétraitement,
et surtout le débruitage perceptuel, sur les performances des systèmes de reconnais-
sance. La phase de conception des deux systèmes a été détaillée à des fins pédagogiques
et va permettre de reprendre facilement les étapes franchies et de mettre en évidence
certaines difficultés qui peuvent être rencontrées.

8.1 Reconnaissance à bord des véhicules


Avec le progrès de la microélectronique et de l’électronique embarquée, le marché de
l’automobile a connu une évolution impressionnante de la technologie mains-libres. Des
kits multi-usages “ornent” les tableaux de bord et offrent plus de flexibilité pour une
interaction homme-machine plus transparente. L’intérêt majeur de la reconnaissance
de la parole à bord des véhicules est d’éviter la distraction du conducteur lors de la
conduite et d’assurer sa sécurité. C’est aussi une façon d’offrir plus de confort et plus
de services télématiques au conducteur.
Les systèmes de reconnaissance embarqués sont confrontés à deux types de
problèmes liés à des aspects pratiques et théoriques. Tout d’abord, ces systèmes sont
perturbés par la présence du bruit ambiant à l’intérieur du véhicule (moteur, roues,
radio, conversations...). Ils sont aussi limités par la complexité intrinsèque du signal
de parole (redondance, effets de coarticulation en parole continue, grande variabilité
intra et inter-locuteurs,...). En effet, ces systèmes nécessitent que la parole modélisée
soit la plus naturelle possible afin de mieux reconnaı̂tre ce qui est prononcé par les
locuteurs (conducteurs). L’idéal, donc, est que ces derniers ne soient pas obligés de
marquer trop de silences ni de parler d’une façon monotone pour faciliter la tâche du
système de reconnaissance. En pratique, la mise en øeuvre de tels systèmes exige une
interface homme-machine fiable, facile à manipuler, la plus indépendante et la moins
118 CHAPITRE 8 : Reconnaissance de la parole

contraignante possible pour l’utilisateur.


Un aperçu historique dans ce domaine montre que cette technologie est en pleine
évolution. En 1999, Mercedez Benz fut le premier fabriquant de voiture dans le monde à
employer la technologie de reconnaissance vocale à bord de ses véhicules. Le système est
appelé Linguatronic et il est destiné uniquement au service de téléphonie mains-libres.
Quant à BMW7, le protocole de reconnaissance employé est simple et comprend une
série de commandes indépendantes du locuteur et de la langue. Ces commandes font
partie d’un dictionnaire fixe et sont passées via l’interface téléphonique. Ce système
est résistant au bruit environnemental grâce à l’emploi d’algorithmes de réduction de
bruit. Les services offerts sont la téléphonie, la navigation et la sténographie. En outre,
l’utilisateur peut créer un annuaire téléphonique de plus de 40 numéros. Par ailleurs,
et avec sept ans d’expérience dans les solutions mains-libres pour les véhicules, le
constructeur français Parrot met en vente un kit avancé équipé de technologie bluetooth
offrant le service de téléphonie et de PDA (Personnal Digital Assistant). Il est le premier
à incorporer un service d’affichage, via un écran LCD, facilitant la navigation dans les
diverses options du menu.
Honda est le premier fabriquant de voiture à équiper ses véhicules d’ un système de
navigation employant une reconnaissance vocale avancée ainsi qu’une synthèse vocale.
Ce système a la possibilité d’identifier les rues et les villes des USA. Le conducteur
peut donc communiquer tous les noms au système et recevoir des indications vocales
pour les différentes destinations. Ce système est le fruit de la collaboration entre IBM
et Honda Motor Company, il constitue donc une plate-forme conversationnelle reliant
les avantages des deux technologies : IBM Embeded ViaVoice et VoiceBox Navigator.
Microsoft Windows s’est lancé aussi dans ce domaine et a mis en place une plate-
forme à commande vocale composée de deux interfaces ; l’interface utilisateur SUI
(Speech User Interface) et l’interface de programmation SAPI (Speech Application
Programming Interface). Grâce à ces deux interfaces, le conducteur peut interagir sim-
plement avec son dispositif embarqué en parlant de manière naturelle. Il a à son service
la navigation assistée, le rappel de rendez-vous, la recherche de numéros de téléphone
et d’adresses professionnelles, sans oublier le téléphone et le système multimédia. Ce
système embarqué a l’avantage de suspendre les interactions vocales en conditions de
conduites difficiles.
Récemment, le système de reconnaissance vocale de Siemens VDO peut reconnaı̂tre
70000 noms de villes et de rues d’Allemagne. Le traitement s’effectue en douze langues
incluant le chinois et le japonais. Ils ont aussi développé une interface homme-machine,
pour des tâches plus complexes, permettant un dialogue entre le conducteur et le
système de reconnaissance. Ils envisagent d’autres améliorations par introduction de la
reconnaissance d’images pour la lecture des mouvements des lèvres.
Le constructeur Freescale (précédemment Motorola Semi-conducteurs), leader mon-
dial dans la conception et la production de semi-conducteurs embarqués pour les
marchés de l’automobile, ambitionne des véhicules conviviaux et personnalisables à
souhait.
Les solutions offertes jusqu’à maintenant sont diverses et le champ est encore ouvert
à d’autres améliorations. Certaines recherches étudient même la possibilité d’améliorer
Section 8.2 : Principe de la reconnaissance vocale 119

l’interaction entre le conducteur et la voiture en mettant l’accent sur le contrôle


d’émotions [Jones 05]. La première idée qui vient à l’esprit est le suivi du mouvement
du visage, des gestes et du langage corporel via le traitement d’image. Cependant, la
technique retenue est la reconnaissance d’émotions à travers le traitement du signal
de parole, d’abord, parce que ce signal est riche en informations et il a été démontré
que la plupart des émotions sont associées à des propriétés acoustiques de la voix
tels que la fréquence fondamentale. En second lieu, les caméras vidéo et les détecteurs
biométriques ne sont pas adaptés pour le moment en tant que normes dans les véhicules.

8.2 Principe de la reconnaissance vocale


Soit Ω un dictionnaire d’éléments finis, constitué d’un ensemble de mots. Une phrase
est une série de mots W = (ω1 , ω2 ...) tel que ωi ∈ Ω. Cette phrase n’a un sens que si
elle suit une certaine grammaire Σ. Avec ces outils, on définit l’ensemble E des W ∈ Ω
qui obéissent à la grammaire Σ. Cet espace définit la parole comme étant une fonction
f définie sur l’ensemble E et associant à un signal acoustique s la séquence de mots W
tel que s = f (W ). L’objectif de la reconnaissance vocale est de trouver la séquence de
mot W = (ω1 , ω2 , ...), dans le dictionnaire Ω suivant une certaine grammaires décrites
dans Σ, qui ont produit un signal acoustique donné s.

Figure 8.1 — Architecure d’un système de reconnaissance de la parole par HMM

Trouver la séquence de mots prononcés, c’est-à-dire réaliser une transcription,


nécessite le passage par diverses étapes intermédiaires, les principales étant présentées
dans la figure (8.1).
Tout d’abord, on transforme le signal de parole, donné en entrée du système, en
paramètres compacts et pertinents. Il s’agit de la phase de paramétrisation donnant
lieu aux vecteurs acoustiques. Les techniques de paramétrisation les plus courantes
sont :
1. L’analyse par prédiction linéaire qui permet de représenter le signal de parole par
les coefficients de codage prédictif linéaire LPC ou par des coefficients de prédiction
à base de notions psychoacoustiques PLP.
120 CHAPITRE 8 : Reconnaissance de la parole

2. L’analyse spectrale où l’on calcule les énergies à la sortie d’un banc de filtres
couvrant toute la bande de fréquences du signal.
3. L’analyse cepstrale où les paramètres sont calculés par la transformée en cosinus
inverse sur le logarithme de la distribution spectrale de l’énergie. Ces paramètres
sont appelés coefficients MFCC. Ils sont les plus souvent utilisés en raison de leur
robustesse.
Les vecteurs acoustiques en sortie de la paramétrisation vont servir d’observations dans
les Modèles de Markov cachés HMM (Hidden Markov Model). Dans la littérature, ces
derniers sont les plus utilisés dans le processus de la modélisation acoustique. Leur
but est de trouver la meilleure séquence de mots sous contrainte d’un lexique qui
définit les mots reconnaissables et d’une grammaire qui détermine les séquences de
mots valables ou, du moins, les plus probables.
Un HMM est un ensemble de nœuds (ou états) et de transitions (ou arcs) les reliant.
Le chemin emprunté par un processus aléatoire, modélisé par un HMM, est inconnu
du fait que les états parcourus ne sont pas directement observables, d’où l’appella-
tion modèle de Markov caché. La structure d’un HMM (Fig. 8.2) est définie par trois
paramètres principaux :
1. La matrice des probabilités d’émission des observations définissant l’ensemble
des lois d’émission, B = (bi (ot )) où bi (ot ) est la distribution de probabilité d’être
dans l’état qi et d’émettre l’observation oi . Ces distributions sont souvent de type
gaussien ou des combinaisons de gaussiennes.
2. La matrice des probabilités de transition, A = (aij ) où aij est la probabilité
de passer de l’état qi à l’état qj .
3. La matrice de la distribution initiale des états, π = (πi ) où πi est la probabilité
d’être dans l’état qi à l’instant initial.

a22 a33 a44

q1 q2 q3 q4 q5
a12 a23 a34 a45

a24
o2 o3 o4

Processus externe (observable)

Processus interne (inobservable)

Figure 8.2 — Exemple de structure à 5 états d’un HMM. Les états q2 , q3 et q4 sont
émetteurs alors que l’état initial q1 et l’état final q5 ne génèrent pas d’observations
Section 8.2 : Principe de la reconnaissance vocale 121

Avec ces outils, la conception d’un système HMM doit répondre aux questions consti-
tuant les trois problématiques du processus de reconnaissance de la parole.
Etant donné la séquence d’observations O = (o1 , o2 , ..., oT ) et un HMM φ = (A, B, π) :
1. Comment calculer P (O | φ), la probabilité de la séquence d’observations, étant
donné le modèle HMM φ ? (modélisation acoustique).
2. Quelle est la séquence d’états Q = (q1 , q2 , ..., qT ) qui est la plus vraisemblable
étant donné la séquence d’observations O ? Ce problème correspond au processus
de décodage ou de reconnaissance.
3. Comment ajuster les paramètres du modèle HMM φ pour maximiser la probabilité
P (O | φ) ? Ce problème correspond au processus d’apprentissage.
La reconnaissance de la parole à base des HMMs est une modélisation stochastique
dont l’objectif est de trouver, parmi toutes les séquences de mots W possibles, la
séquence de mots Wc la plus probable connaissant les observés O (Eq. 8.1).

c = arg max P (W | O)
W (8.1)
W

La probabilité P (W | O) est une probabilité dont le calcul repose sur une modélisation
du canal acoustique qu’on ne peut pas calculer directement [Halton 06]. Cependant,
une réécriture ou simplification probabiliste, telle une décision bayesienne, permet de
décomposer cette probabilité en l’exprimant autrement. En effet, grâce à la formule
de Bayes1 appliquée à la probabilité P (W | O) (Eq. 8.2), on exprime le problème,
cette fois-ci, comme une recherche de la suite de mots W maximisant la probabilité
a priori P (W ) de leur apparition dans la langue (modélisation linguistique) et que
les paramètres acoustiques observés correspondent à cette suite de mots (modélisation
acoustique), P (O | W ). La formule finale (Eq. 8.3) ne fait pas intervenir P (O), la
probabilité d’occurrence de la chaı̂ne acoustique O, car elle est indépendante de W et
reste constante quand W varie.

P (O, W ) P (W )P (O | W )
arg max P (W | O) = arg max = arg max (8.2)
W W P (O) W P (O)
= arg max P (W )P (O | W ) (8.3)
W

L’approche stochastique permet ainsi d’intégrer les niveaux acoustiques et linguistiques


dans un seul processus de décision. Ce processus consiste à chercher le chemin opti-
mal correspondant à la séquence d’état la plus probable au sens de la probabilité de
vraisemblance de la séquence d’observations. Ceci est effectué généralement par l’algo-
rithme de Viterbi 2 qui délivre également la probabilité de vraisemblance sur le meilleur
chemin.
On parle souvent de mot comme unité acoustique ou modèle phonétique, mais
en réalité, on utilise fréquemment des unités plus courtes telles que les monophones
basés sur un seul phonème, par exemple [a], les diphones considérant un phonème
1
P (A | B) = PP(A,B)
(B)
2
détail de cet algorithme dans le livre d’HTK
122 CHAPITRE 8 : Reconnaissance de la parole

précédé ou suivi d’un autre, par exemple [a]+[b] et les triphones qui tiennent compte
des phonèmes avant et après, comme [c]-[a]+[b]. Les diphones et triphones sont dits
modèles phonétiques contextuels.

8.3 Reconnaissance de la parole en milieu bruité -


Etat de l’art
La Reconnaissance Automatique de la Parole doit faire face à de nombreux
problèmes. Au rang de ceux qui limitent son application et ses performances se trouve
le problème du bruit auquel sont soumis les systèmes de Reconnaissance Automatique
de la Parole développés en laboratoire. En environnement de laboratoire, et au cours
de la phase d’apprentissage, les contraintes de bruit sont souvent considérées comme
inexistantes. Cependant, le bruit fait partie intégrante des environnements réels ou de
test. Cette différence entre conditions d’apprentissage et de test explique en partie le
manque de performance et les problèmes de mise en œuvre. Les algorithmes utilisés
pour augmenter la robustesse des systèmes de reconnaissance de la parole en milieu
bruité peuvent être généralement classés en deux groupes principaux. Le premier groupe
d’algorithmes se concentre sur la migration des données observées pour qu’elles soient
plus proches de l’état initial d’apprentissage. Ceci est réalisé par compensation du si-
gnal de parole ou des paramètres qui en sont extraits ou par intégration d’attributs
visuels. Ainsi, la paramétrisation robuste ou résistante au bruit, le débruitage de la
parole et la reconnaissance audiovisuelle sont les méthodes de l’état de l’art apparte-
nant à cette première catégorie. Le débruitage de la parole vise à supprimer le bruit du
signal observé, la paramétrisation robuste ne fait pas de transformation sur le signal
mais utilise plutôt des paramètres résistant au bruit et la reconnaissance audio-visuelle
qui, comme son nom l’indique, fusionne les paramètres audio avec des attributs visuels
de façon à rapprocher l’environnement de test de celui d’apprentissage.
La deuxième catégorie, quant à elle, suppose déjà que le signal et les paramètres
sont sensibles au bruit et se focalise ainsi sur l’adaptation des modèles acoustiques
d’apprentissage pour qu’ils soient plus proches des modèles acoustiques de test. Les
méthodes s’inscrivant dans cette catégorie sont dédiées à la compensation du bruit
appelée aussi adaptation des modèles (HMM par exemple).
Ainsi, pour une présentation plus structurée (Fig. 8.3), on suivra une classification
qui mettra en valeur chacune des sous-classes suivantes :
– Paramétrage résistant au bruit
– Débruitage en amont
– Compensation du bruit
– Reconnaissance audio-visuelle
Les techniques découlant de chacune des sous-classes citées plus haut constituent
aujourd’hui les méthodes de l’état de l’art de la Reconnaissance Automatique de la
Parole en milieu bruité. Elles sont nombreuses et sont plus ou moins bien adaptées au
traitement d’un signal de parole corrompu par un bruit additif ou convolutif.
Section 8.3 : Reconnaissance de la parole en milieu bruité - Etat de l’art 123

Environnement d’apprentissage (absence du bruit)

Environnement de test (présence du bruit)


Système de RAP initial

Système de RAP avec


débruitage en amont
Signal Paramètres Modèles
Système de RAP avec
paramétrisation
robuste

Débruitage du signal Paramètres robustes Compensation ou Système de RAP avec


de parole au bruit adaptation des modèles compensation des modèles

ou

Fusion entre paramètres


audio et vidéo

Figure 8.3 — Architecture des systèmes de Reconnaissance Automatique de la Pa-


role robustes au bruit

8.3.1 Paramétrage résistant au bruit

L’objectif de ce type de méthode est de trouver des paramètres adéquats qui ne


soient pas trop influencés par l’environnement acoustique. On considère, à ce pro-
pos, que le système de Reconnaissance Automatique de la Parole est indépendant
des conditions de bruit. L’avantage de ces méthodes est qu’elles ne requièrent aucune
connaissance a priori ni hypothèse sur le bruit. Cette technique conduit à l’utilisation
de mesures de distances, de similarités et à l’extraction d’indices acoustiques dont la
résistance au bruit est connue et prouvée [Gong 95]. Les coefficients MFCC sont par
exemple plus résistants au bruit que les coefficients LPC.
Les systèmes de Reconnaissance Automatique de la Parole classiques sont basés sur
les statistiques du second ordre. Les performances dans de tels systèmes sont appau-
vries en présence du bruit dans le signal à analyser. Dans [Moreno 95] est présenté
une nouvelle méthode de reconnaissance basée sur les statistiques d’ordre supérieur à
deux HOS (Higher Order Statistics). Elle est plus avantageuse que les méthodes d’au-
tocorrélation dans des environnements à SNR faible. Les HOS sont nuls pour les bruits
gaussiens (blanc et coloré) ce qui permet de séparer la parole du bruit. Toujours dans
le but de chercher les paramètres les moins influencés par l’environnement acoustique
une méthode inspirée de la robustesse de la paramétrisation auditive est le sujet de
[J.Chen 01]. Elle utilise une information de la fréquence dominante moins influencée
par la présence du bruit par rapport à l’énergie. Le calcul de cette fréquence est effectué
à partir du spectre à court terme de la parole.
La technique d’analyse par prédiction linéaire perceptive PLP, développée dans
[Hermansky 90], modélise un spectre auditif par un modèle tout pôle. Elle diffère de
124 CHAPITRE 8 : Reconnaissance de la parole

l’analyse standard LPC par une intégration en bandes critiques du spectre de puissance,
suivie d’une préaccentuation par des courbes d’isosonie, d’une conversion d’intensité
en sonie et finalement d’une modélisation tout pôle [Junqua 90]. Ses performances, en
présence du bruit, sont médiocres, d’où l’apparition de la RASTA (RelAtive Spec-
TrAl) [Hermansky 94] qui dérive de l’analyse PLP et dont le but est d’améliorer la
robustesse du système de reconnaissance en milieu bruité. En effet, après avoir effectué
la transformée de Fourier discrète à court terme, on calcule le spectre d’amplitude en
bandes critiques, on applique le logarithme pour récupérer l’enveloppe spectrale du
signal comme pour une analyse cepstrale. On effectue ensuite un filtre passe bande qui
a pour conséquence de supprimer les composantes constantes ou lentes du signal et on
réalise une compression de l’amplitude par l’application d’une racine cubique. Enfin,
on calcule les coefficients selon la méthode LPC classique.
La présence du bruit dégrade la qualité de l’estimation LPC [Lim 78], et les per-
formances des systèmes de Reconnaissance Automatique de la Parole utilisant cette
paramétrisation chutent rapidement lorsque le SNR diminue. Dans [Mansour 88], on
utilise la corrélation entre les segments adjacents du signal pour améliorer la robustesse
au bruit. On montre que l’autocorrélation d’un signal de parole obtenu par modélisation
1
tout pôle est elle même un signal auto-régressif dont la fonction de transfert est A(z) 2

[Mokbel 92] [Mansour 88]. De ce fait, il est possible d’utiliser l’autocorrélation pour
estimer A(z) et les coefficients LPC, ak z −k . L’intérêt de passer par l’autocorrélation
est de permettre d’isoler une partie de la contribution du bruit. Pour des bruits à den-
sité spectrale plate, par exemple le bruit blanc, on élimine de l’analyse les premiers
coefficients qui sont les plus entachés par le bruit. On obtient ainsi des coefficients de
prédiction non bruités. Pour résumer, au lieu d’effectuer une modélisation tout pôle du
signal temporel, l’autocorrélation du signal est d’abord calculée, suivie d’une compres-
sion en racine carrée dans le domaine spectral, avant d’effectuer une analyse LPC. Ces
opérations définissent la nouvelle paramétrisation SMC [Mansour 88]. Sur une tâche
de reconnaissance d’une quarantaine de mots isolés en parole propre, la SMC conduit
à l’obtention de résultats équivalents à ceux de la LPC. Par contre, en reconnaissance
de parole bruitée, la SMC s’avère plus efficace que la LPC [Mansour 88].
Pour trouver une transformation linéaire de l’espace paramètre qui minimise les
variances intra-classes, tout en maximisant les variances inter-classes, on a recours
à l’analyse linéaire discriminante LDA. Celle-ci permet de compresser l’information
et de la rendre plus discriminante. Dans [Siohan 94], la LDA permet d’obtenir un
paramétrage efficace pour la reconnaissance de la parole dans le bruit. Les performances
de la LDA sont meilleures que celles obtenues en utilisant différentes approches de
compensation de modèles et de transformation d’espace appliquées sur un paramétrage
cepstral. Par contre, la nature du bruit conditionne très fortement la robustesse des
paramètres issus de la LDA face aux variations du rapport signal à bruit.
Les modulations d’amplitude et de fréquence AM-FM décrivent le signal de parole
comme la somme de différents signaux représentant les fréquences formantiques, mo-
dulés en fréquence et en amplitude. Ces signaux tentent de modéliser certains aspects
du signal acoustique qui ne sont pas capturés par le modèle (source-filtre) de pro-
duction de la parole le plus communément utilisé [Dimitriadis 98]. Les paramètres de
modulation AM-FM ont deux avantages majeurs par rapport aux paramètres MFCC.
Section 8.3 : Reconnaissance de la parole en milieu bruité - Etat de l’art 125

Premièrement, ils peuvent modéliser la nature dynamique de la parole et ses fluctua-


tions rapides. Deuxièmement, ils sont relativement résistants au bruit et donc apportent
de meilleurs résultats, en particulier pour la Reconnaissance Automatique de la Parole
en présence du bruit. De meilleures performances sont notées dans le cas du bruit blanc
par rapport au bruit convolutif [Dimitriadis 98]. Les résultats sont encore meilleurs
quand les paramètres de modulation sont combinés avec les paramètres MFCC.
Deux autres méthodes intéressantes sont la normalisation de la moyenne cepstrale
CMN [Liu 93a] et la normalisation de la variance cepstrale CVN [Molau 01]. Ces
deux traitements s’appliquent aux coefficients cepstraux avant le calcul des dérivées.
La CMN est l’estimation de la moyenne des vecteurs cepstraux sur une fenêtre et la
soustraction de cette moyenne de chaque vecteur cepstral [Nadeu 97, Liu 93b]. Après
avoir fait la CMN, on applique la CVN qui consiste à diviser les vecteurs par leur
écart-type estimé sur la même fenêtre.
Comme on vient de le voir, il existe une multitude de paramétrisations robustes, les
unes améliorant les autres. Les performances, bien qu’assez limitées, restent promet-
teuses.

8.3.2 Débruitage en amont


Les techniques de débruitage en amont des systèmes de reconnaissance de la pa-
role font en sorte que ces systèmes n’aient pas à s’adapter aux nouvelles conditions
acoustiques. Leur avantage est donc de garder les systèmes intacts.
Ces techniques consistent à transformer le signal de parole bruité en un signal moins
bruité qui est le plus proche possible, en terme de qualité ou d’intelligibilité, d’un signal
de parole propre. Le débruitage comme prétraitement a pour objectif d’atteindre une
amélioration qualitative du signal d’entrée. Le bruit est ainsi réduit avant que le signal
de parole ne soit traité par le système de reconnaissance. Cette réduction peut se faire
dans le domaine spectral ou dans le domaine cepstral, par soustraction ou filtrage du
signal original. Un état de l’art de ces méthodes est présenté dans le chapitre 4.
Certains travaux ont montré que, pour une reconnaissance en milieu bruité par un
système entraı̂né en environnement non bruité, l’ajout du bruit aux références (classé en
catégorie compensation de bruit qu’on verra dans la section suivante) est plus approprié
que le débruitage des signaux de test. Dans [Mokbel 92], l’auteur donne une justification
théorique et expérimentale de la supériorité des techniques de bruitage par rapport aux
techniques de débruitage. Cette justification n’est valable que pour les méthodes de
débruitage utilisant des estimateurs non optimaux au sens du Maximum a posteriori.
En outre, il faudrait bien garantir que le bruit rencontré en environment opérationnel
est de même nature que celui qui a servi à bruiter les références.

8.3.3 Compensation du bruit


Une troisième technique consiste à transformer les modèles de référence de la pa-
role de l’environnement d’apprentissage en des modèles qui tiennent compte du bruit
de l’environnement réel. Cette technique permet une adaptation ou compensation des
126 CHAPITRE 8 : Reconnaissance de la parole

modèles au bruit, appelée aussi bruitage des références [Mokbel 92]. Contrairement
à ce qui est fait par les techniques de débruitage du signal, dans cette catégorie de
techniques, le bruit n’est pas amoindri et sera donc présent lors de l’étape de recon-
naissance puisqu’il est considéré comme une partie du signal à traiter. En effet, les
signaux bruités sont utilisés pour adapter les paramètres des modèles de la parole,
telles que la moyenne et la variance, de façon à compenser les différences entre la base
d’apprentissage et la base de test.
La combinaison parallèle de modèles PMC initialement mis au point dans
[Young 92] et affinée par la suite dans [Gales 96] ne repose pas sur les données de parole
bruitée mais utilise plutôt les observations du bruit pour estimer les modèles dans le
nouvel environnement. Les nouveaux modèles de la parole sont alors une combinaison
entre les modèles initiaux et un modèle du bruit estimé à partir des observations de ce
dernier. Les modèles ainsi obtenus sont dits corrompus par du bruit. La reconnaissance
de la parole basée sur cette technique donne de bons résultats sur des digits isolés
[Gales 96]. Une utilisation de modèles de 2 à 4 états pour les bruits non stationnaires
améliore les résultats. Le seul inconvénient de cette méthode est qu’elle est coûteuse
du fait que chaque modèle doit être compensé.
Le maximum a posteriori MAP [Lee 91, Gauvain 94] et le maximum de vraisem-
blance de régression linéaire MLLR [Leggetter 95] sont des techniques employées pour
réestimer les modèles acoustiques afin de mieux représenter l’environnement de test à
partir des données disponibles. Ils étaient initialement conçus pour à fins d’adaptation
aux locuteurs. Mais qui dit adaptation au locuteur dit adaptation à l’environnement.
Dans le MAP, l’adaptation des modèles se base sur l’information a priori des modèles
de signaux propres lors de l’apprentissage et sur l’information a posteriori des obser-
vations bruitées. Ainsi, seules les observations ayant un grandde vraisemblance seront
utilisées pour l’adaptation. Quant au MLLR, on adapte la moyenne des gaussiennes
des modèles en la multipliant par une matrice issue du maximum de vraisemblance
[Gong 95]. L’avantage du MLLR en comparaison avec le MAP est qu’il permet une
bonne adaptation même si on ne dispose que de peu de données. Il a par contre un
mauvais comportement asymptotique dû à une saturation rapide du gain en perfor-
mance avec l’augmentation de la quantité de données. Dans ce dernier cas, c’est le
MAP qui l’emporte. On peut ainsi imaginer qu’une combinaison des deux apporte de
meilleurs résultats.
Une méthode simple et directe fondée sur les modèles est l’inclusion de toutes
les conditions de bruit de l’environnement de test dans le corpus d’apprentissage
[Furui 01]. En ce sens, la modélisation statistique sera en mesure de simuler toutes
les variabilités possibles, dans les vecteurs de paramètres, en raison du bruit externe.
Expérimentalement, il est démontré que le système de reconnaissance devient plus ro-
buste dans les environnements bruyants. Toutefois, cette méthode n’est pas réaliste
dans le sens où il est impossible d’inclure tous les types de bruit dans la phase d’ap-
prentissage des modèles. Une légère variante de cette approche consiste à inclure un
ensemble représentatif de différents bruits dans le corpus d’apprentissage et de faire
en sorte que les modèles statistiques soient généralisés au bruit invisible. Cette tech-
nique améliore les systèmes de Reconnaissance Automatique de la Parole, même si les
dégradations sont sévères, en comparaison avec les techniques d’adaptation des modèles
Section 8.3 : Reconnaissance de la parole en milieu bruité - Etat de l’art 127

en fonction du type de bruit.


Les approches fondées sur les modèles statistiques, en particulier les techniques
d’adaptation, sont coûteuses en terme de calcul. Certaines ont besoin d’une exigence,
irréaliste, d’une grande quantité de données transcrites pour l’adaptation au cours de
la procédure de reconnaissance.

8.3.4 Reconnaissance audio-visuelle


La conception d’un système de reconnaissance audiovisuel fait appel à des pa-
ramètres acoustiques obtenus à partir d’un signal de parole, et des paramètres visuels,
obtenus à partir de capture d’image faciale et typiquement labiale (mouvement des
lèvres). Cette technique s’inspire de notre comportement quotidien. En effet, on emploie
inconsciemment l’information visuelle afin de comprendre la parole, particulièrement
dans des environnements bruyants, mais également en absence de bruit. La reconnais-
sance audiovisuelle repose donc sur l’idée que la parole est un moyen audiovisuel de
communication. Le message vocal est d’autant plus intelligible quand on est en face
du locuteur, plus particulièrement en présence du bruit, l’information visuelle restant
intacte par le bruit acoustique.
Un système de reconnaissance audiovisuelle est donc un système multimodal. Il
résulte de la fusion ou combinaison des deux systèmes audio et vidéo. En littérature, on
distingue deux types de fusion : la fusion d’attributs ou de paramètres et la fusion
de décisions ou de scores.
En plus de la stratégie d’intégration entre données audio et visuelles, les systèmes de
reconnaissance audiovisuelle se distinguent également par le dispositif et la technique
de capture de l’image employée : suivre la zone de la bouche ou globalement certains
attributs faciaux.
Dans les systèmes de reconnaissance audiovisuelle, mis à part le problème de
l’intégration des deux sources d’informations, le problème principal est la représentation
de l’information visuelle qui doit être pertinente et de faible dimension pour ensuite
faciliter la modélisation statistique. Il existe trois types principaux d’attributs visuels
largement employés dans la reconnaissance de la parole [Potamianos 04] :
1. Attributs d’apparence qui sont extraits des pixels de la région d’intérêt. Les moyens
les plus utilisés sont l’analyse en composantes principales PCA, l’analyse linéaire
discriminante LDA, la transformée en cosinus discrète DCT.
2. Attributs de forme qui sont extraits du contour des lèvres (hauteur, surface, lar-
geur...). Des attributs plus complexes peuvent être déduits des contours des lèvres,
par exemple par des modèles de formes actifs.
3. Attributs de la combinaison des deux (apparence et forme).

Les attributs de forme ont l’inconvénient d’exiger un suivi précis des lèvres, ils sont donc
sensibles à l’image (qualité, résolution,...). La fusion d’attributs peut être effectuée par
simple concaténation des attributs audio et visuels ou par une concaténation précédée
d’une discrimination des paramètres pertinents sans a priori (LDA par exemple). L’in-
convénient de l’approche de fusion de paramètres, en général, est le fait qu’elle ne peut
128 CHAPITRE 8 : Reconnaissance de la parole

pas modéliser explicitement la fiabilité de chaque modèle de paramètre (audio et vidéo)


ainsi que la grande dimension des vecteurs de paramètres.
Dans le cas de la fusion de décisions, prises indépendamment sur les informations
audio d’une part et visuelles d’autre part, des modèles (HMM par exemple) différents
sont appris pour les canaux audio et vidéo. Leurs sorties (logarithme de vraisemblance)
sont ensuite combinées selon un poids approprié (en fonction de la fiabilité). Il existe
trois façons différentes de combiner les vraisemblances individuelles des modèles audio
et vidéo [Potamianos 04] :
1. Intégration précoce où les vraisemblances sont combinées au niveau des états en
forçant la synchronisation des deux flux de données. Ceci conduit à des modèles
HMM multi-flux.
2. Intégration tardive, qui demande deux HMMs. La reconnaissance finale est obtenue
en sélectionnant le mot selon la méthode des n-meilleurs parmi les sorties des HMM
audio et vidéo.
3. Intégration intermédiaire utilisant des modèles qui forcent la synchronisation aux
limites des phonèmes ou des mots. En effet, bien que les données audio et visuelles
soient corrélées, elles ne sont pas synchrones et l’activité visuelle précède souvent
le signal sonore. Combiner les vraisemblances à un niveau plus élevé que la trame,
comme le phonème ou encore le mot permet de remédier à cette asynchronie
[Tomlinson 96, Dupont 00].
Généralement, les performances de la reconnaissance audiovisuelle avec fusion de
décisions sont meilleures que celles basées sur la fusion d’attributs [Potamianos 04].

8.4 Construction d’un système de reconnaissance


de la parole sous HTK
Initialement, les algorithmes de débruitage étudiés dans cette thèse sont essentiel-
lement dédiés à des applications audio où le destinataire est purement humain. Le but
n’est donc pas le même avec la reconnaissance de la parole. En effet, si l’oreille hu-
maine peut tolérer certaines distorsions, la machine reste plus sensible et les systèmes
de reconnaissance de la parole doivent être très robustes afin de garder une certaine
souplesse face aux différents agents extérieurs nuisibles (bruit, effet Lombard, stress,...).
Maintenant, pour étudier l’impact du débruitage perceptuel sur les performances d’un
système de reconnaissance de la parole en présence du bruit, nous avons développé,
dans le cadre de cette thèse, deux systèmes opérationnels, indépendants du locuteur et
fondés sur les modèles de Markov cachés. Nous les avons conçus à partir de la plate-
forme HTK (Hidden Markov ToolKit) de l’Université de Cambridge et sur la base de
données de parole TIdigits. La boı̂te à outils HTK est efficace, flexible (liberté du choix
des options et possibilité d’ajout d’autres modules) et complète dans le sens où elle
fournit une documentation très détaillée (le livre HTK [Young 06] est une encyclopédie
dans le domaine). Le premier système est basé sur des monophones et l’autre sur les
triphones. L’intérêt est d’étudier l’impact de la nature de l’unité phonétique sur les per-
formances de la reconnaissance de la parole. Le choix de la base de données s’est porté
Section 8.5 : Analyse des résultats 129

sur le corpus TIdigits à vocabulaire assez simple. TIdigits pour Texas Instruments
digits est parmi les premières bases de données de parole destinées à des applications
de traitement de la parole. Conçue initialement à des fins d’évaluation des algorithmes
de reconnaissance de la parole indépendante du locuteur, elle contient 77 séquences de
digits connectés prononcées par 326 locuteurs dont 114 femmes, 111 hommes, 51 filles
et 50 garçons.
En annexe D, on présente les étapes de conception des deux systèmes accompagnées
d’illustrations et de commentaires.

8.5 Analyse des résultats


L’évaluation des performances de nos systèmes de reconnaissance conçus sur le
corpus de parole TIdigits est d’abord effectuée sur la base de test. Cette dernière base
contient, bien évidemment, les signaux de parole qui n’ont pas fait partie du processus
d’apprentissage. Ces signaux sont également propres. Les résultats sont présentés dans
le tableau 8.1.

Monophones Triphones
Base de test (Acc%) 99.51 99.47
99.05 99.23
Base de développement (Acc%)
S= 66, I= 67 S= 84, I= 83

Tableau 8.1 — Performance des systèmes de reconnaissance à base de monophones


et triphones sur la base de test et la base de développement du corpus TIdigits

D’après ce tableau, nos deux systèmes basés sur une paramétrisation de type MFCC,
sur une modélisation statistique de type HMM et sur une transcription avec et sans
contexte, donnent de très bons résultats pour des fichiers de parole propres. Les per-
formances du système à base de triphones ne se distinguent pas nettement des perfor-
mances du système à base de monophones, ceci peut être expliqué par le fait que les
prononciations de la base de données TIdigits sont presque parfaites et les enregistre-
ments ne modélisent pas les effet de coarticulation, Lombard, stress, sans pour autant
oublier de signaler que cette base de parole reste trop petite.
Dans le reste de la partie expérimentale, nous considérons 250 fichiers de parole
choisis aléatoirement dans la base de test du corpus TIdigits, bruités additivement
par trois types de bruit (bruit blanc, bruit de conversation et bruit de voiture) à
différents rapports signal à bruit. Ils sont par la suite débruités par les différentes
méthodes déjà évaluées par des critères objectifs et subjectifs. Nous calculons les taux
de reconnaissance sur ces fichiers bruités puis débruités en considérant les deux systèmes
de reconnaissances conçus. Les résultats de la reconnaissance sur les fichiers bruités sont
présentés dans les tableaux 8.2 et 8.3 et ceux issus du débruitage sont présentés sur les
figures 8.4 à 8.15.
Les tableaux 8.2 et 8.3 donnent une idée sur la détérioration des performances des
systèmes de reconnaissance, en présence du bruit, quand ces systèmes sont conçus à
130 CHAPITRE 8 : Reconnaissance de la parole

Bruit blanc
Input SNR (dB) -5 0 5 10 15 20
%Acc 35.51 39.99 54.98 72.48 81.18 88.19
Bruit de voiture
Input SNR (dB) -5 0 5 10 15 20
%Acc 91.06 97.16 98.77 98.89 99.20 99.51
Bruit de conversation
Input SNR (dB) -5 0 5 10 15 20
%Acc 38.19 48.65 57.81 69.07 83.50 94.58

Tableau 8.2 — Taux de reconnaissance des signaux bruités à différents rapport


signal à bruit (système à base de monophones)

Bruit blanc
Input SNR (dB) -5 0 5 10 15 20
%Acc 35.57 41.65 61.00 77.21 86.78 92.63
Bruit de voiture
Input SNR (dB) -5 0 5 10 15 20
%Acc 88.10 96.73 98.52 99.32 99.20 99.51
Bruit de conversation
Input SNR (dB) -5 0 5 10 15 20
%Acc 38.19 47.23 56.33 70.60 85.51 96.89

Tableau 8.3 — Taux de reconnaissance des signaux bruités à différents rapport


signal à bruit (système à base de triphones)

base d’apprentissage dans un environnement non bruyant.


D’après les résultats des figures 8.4 à 8.15, dans le cas où la variance du bruit
est supposée connue, le filtrage optimal AMPF apporte un gain significatif pour les
rapports signal à bruit faibles, mais, généralement, la méthode de débruitage perceptuel
(C) (Eq. 4.85) se distingue dans la majorité des cas, avec estimation du bruit incluse, en
surpassant toutes les autres méthodes évaluées. Cependant, avec des critères objectifs
et même subjectifs (des tests d’écoute), cette méthode ne s’est pas avérée la meilleure.
Nous en concluons que les systèmes de débruitage doivent s’adapter en fonction de leur
objectif final : application audio ou application de reconnaissance vocale. Les conditions
de l’un ne sont pas forcément celles de l’autre.
Les taux de reconnaissance obtenus ne représente en réalité qu’une estimation des
performances du système de reconnaissance évalué. La fiabilité et la confiance qu’on
peut accorder à ces taux dépend de l’analyse statistique faite en amont. A partir de N,
le nombre de tests réalisés équivalent au nombre d’unités acoustiques à reconnaı̂tre (les
mots dans notre cas) et de P , le taux de reconnaissance obtenu (Accuracy%), Montacié
et Chollet [Montacié 87] modélisent les réussites par une distribution binomiale et
définissent ainsi l’intervalle de confiance à zx du taux de reconnaissance [P-,P+] par :
Section 8.6 : Conclusion 131

q
zx2
P+ N
± zx P (1−P
N
)
+ zx2
4N 2
P± = zx2
(8.4)
1+ N

Cela signifie qu’il y a x% de chance que le taux réel (exact) se trouve dans cet
intervalle. Dans les figures 8.4 à 8.15, chaque résultat est accompagné de son intervalle
de confiance calculé à partir de l’équation 8.4. Ces intervalles sont très petits pour
toutes les situations expériementées sauf pour le cas du bruit de voiture pour une
variance de bruit connue (figures 8.6 et 8.12 ). Dans ce dernier cas, les résultats peuvent
être considérés statistiquement comparables du fait que les intervalles de confiance
accompagnant les mesures sont très larges.

8.6 Conclusion
Dans ce chapitre, nous avons étudié de près les systèmes de reconnaissance de la
parole en parcourant leur principe et les mesures de précautions prises pour les rendre
robustes face au bruit. Nous avons conçu deux systèmes (avec monophones et triphones)
sans condition de bruit, qui nous ont permis d’évaluer l’impact du débruitage sur les
performances de ces systèmes en présence du bruit. Les méthodes de débruitage qui se
distinguent par rapport à des critères objectifs et même subjectifs ne sont pas forcément
celles qui rendent les systèmes de reconnaissance plus robustes au bruit, ce qui rejoint
l’idée du premier chapitre où qualité et intelligibilité de la parole ont été différenciées.
Ceci est sans doute à cause de leur sensibilité face aux distorsions du signal plus qu’au
bruit de fond ou même au bruit musical. Néanmoins, l’apport du débruitage reste net,
surtout celui des méthodes perceptuelles par rapport aux méthodes usuelles. Comme
perspective de ce chapitre, il serait vraisemblablement judicieux de paramétrer les
algorithmes de débruitage perceptuel de façon à se donner un certain degré de liberté
pour ajuster les valeurs de ces paramètres de manière à réduire les types de distorsions
qui peuvent être destructives au système de reconnaissance de la parole.
132 CHAPITRE 8 : Reconnaissance de la parole

100
Wiener
(B)
(A)
90 (C)
DF
AMPF

80

70
Acurracy(%)

60

50

40

30
−5 0 5 10 15 20
SNR (dB)

Figure 8.4 — Taux de reconnaissance par monophones sur des signaux bruités
par un bruit blanc et débruités par différentes méthodes en supposant connaı̂tre la
variance du bruit

110
Wiener
(B)
(A)
100 (C)
DF
AMPF

90

80
Acurracy (%)

70

60

50

40
−5 0 5 10 15 20
SNR (dB)

Figure 8.5 — Taux de reconnaissance par monophones sur des signaux bruités par
un bruit de conversation et débruités par différentes méthodes en supposant connaı̂tre
la variance du bruit
Section 8.6 : Conclusion 133

101

100

99

98
Accuracy (%)

97

96

95
Wiener
(B)
94 (A)
(C)
DF
AMPF
93
−5 0 5 10 15 20
SNR (dB)

Figure 8.6 — Taux de reconnaissance par monophones sur des signaux bruités par
un bruit de voiture et débruités par différentes méthodes en supposant connaı̂tre la
variance du bruit

100
Wiener
(B)
(A)
(C)
90 DF
AMPF

80
Accuracy (%)

70

60

50

40
−5 0 5 10 15 20
SNR (dB)

Figure 8.7 — Taux de reconnaissance par monophones sur des signaux bruités par
un bruit blanc et débruités par différentes méthodes en estimant la variance du bruit
pendant les pauses fournies par le DAV G729
134 CHAPITRE 8 : Reconnaissance de la parole

100
Wiener
(B)
(A)
90 (C)
DF
AMPF

80

70
Accuracy (%)

60

50

40

30
−5 0 5 10 15 20
SNR (dB)

Figure 8.8 — Taux de reconnaissance par monophones sur des signaux bruités par
un bruit de conversation et débruités par différentes méthodes en estimant la variance
du bruit pendant les pauses fournies par le DAV G729

100

95

90

85
Accuracy (%)

80

75

70
Wiener
(B)
(A)
65 (C)
DF
AMPF
60
−5 0 5 10 15 20
SNR (dB)

Figure 8.9 — Taux de reconnaissance par monophones sur des signaux bruités par
un bruit de voiture et débruités par différentes méthodes en estimant la variance du
bruit pendant les pauses fournies par le DAV G729
Section 8.6 : Conclusion 135

100
Wiener
(B)
(A)
90 (C)
DF
AMPF

80

70
Accuracy (%)

60

50

40

30
−5 0 5 10 15 20
SNR (dB)

Figure 8.10 — Taux de reconnaissance par triphones sur des signaux bruités par un
bruit blanc et débruités par différentes méthodes en supposant connaı̂tre la variance
du bruit

110

100

90

80
Accuracy (%)

70

60

Wiener
(B)
50 (A)
(C)
DF
AMPF
40
−5 0 5 10 15 20
SNR (dB)

Figure 8.11 — Taux de reconnaissance par triphones sur des signaux bruités par
un bruit de conversation et débruités par différentes méthodes en supposant connaı̂tre
la variance du bruit
136 CHAPITRE 8 : Reconnaissance de la parole

101
Wiener
(B)
(A)
100 (C)
DF
AMPF

99

98
Accuracy (%)

97

96

95

94
−5 0 5 10 15 20
SNR (dB)

Figure 8.12 — Taux de reconnaissance par triphones sur des signaux bruités par
un bruit de voiture et débruités par différentes méthodes en supposant connaı̂tre la
variance du bruit

100
Wiener
(B)
(A)
90 (C)
DF
AMPF

80

70
Accuracy (%)

60

50

40

30
−5 0 5 10 15 20
SNR (dB)

Figure 8.13 — Taux de reconnaissance par triphones sur des signaux bruités par
un bruit blanc et débruités par différentes méthodes en estimant la variance du bruit
pendant les pauses fournies par le DAV G729
Section 8.6 : Conclusion 137

100
Wiener
(B)
(A)
(C)
90 DF
AMPF

80
Accuracy (%)

70

60

50

40
−5 0 5 10 15 20
SNR (dB)

Figure 8.14 — Taux de reconnaissance par triphones sur des signaux bruités par
un bruit de conversation et débruités par différentes méthodes en estimant la variance
du bruit pendant les pauses fournies par le DAV G729

100

95

90

85
Accuracy (%)

80

75

70
Wiener
(B)
65 (A)
(C)
DF
AMPF
60
−5 0 5 10 15 20
SNR (dB)

Figure 8.15 — Taux de reconnaissance par triphones sur des signaux bruités par
un bruit de voiture et débruités par différentes méthodes en estimant la variance du
bruit pendant les pauses fournies par le DAV G729
9
CHAPITRE
Conclusion générale

Ce rapport de thèse a présenté notre travail de recherche. Nous le concluons en


résumant les résultats principaux et les apports avant de proposer quelques perspec-
tives.

9.1 Résultats principaux et apports


Le problème traité dans cette thèse concerne l’estimation d’un signal perturbé par
un bruit additif lorsqu’on dispose d’une seule observation. L’estimation est accom-
plie par filtrage linéaire de l’observation en supposant que le signal et le bruit sont
décorrélés. Nous avons étudié des méthodes dites perceptuelles dans le sens où elles
sont conçues à base de notions psychoacoustiques. Ces méthodes ont l’avantage de tirer
profit des caractéristiques de notre système d’audition et principalement du phénomène
de masquage fréquentiel pour rendre plus agréable la perception des signaux restitués.
Toutefois, comme tout problème de débruitage, les méthodes perceptuelles sont
aussi influencées par l’estimation du bruit auquel s’ajoute également un autre problème,
à savoir l’estimation de la courbe de masquage.
Nous avons ainsi présenté l’algorithme C-ESE dédié à l’estimation de la variance
du bruit et dont le principe est différent des méthodes usuelles dans ce domaine : il n’a
besoin d’aucun a priori. Il est simplement conçu à base d’hypothèses statistiques et de
parcimonie des signaux. Notre apport a été d’appliquer cet estimateur, à la base conçu
pour diverses applications tels que les signaux radar, à la parole et de le comparer à
des méthodes récentes d’estimation du bruit.
Nous avons évoqué, par la suite, l’impact d’une mauvaise estimation de la courbe
de masquage sur les performances des débruiteurs perceptuels. Cette influence dépend
de deux cas limites, liés souvent aux problèmes d’estimation, à savoir la sur-estimation
et la sous-estimation, une sur-estimation conduisant à beaucoup de bruit résiduel et
une sous-estimation entraı̂nant des distorsions superflues du signal.
Nous avons jugé important d’envisager un ajustement de la courbe de masquage
pour les basses fréquences autant que pour les hautes fréquences, car un biais d’esti-
mation pour les basses fréquences, surtout une sous-estimation, devient préjudiciable
pour le signal de parole et peut ainsi introduire beaucoup de distorsions du signal après
débruitage. Nous avons ainsi proposé une méthode de correction guidée par la valeur de
140 CHAPITRE 9 : Conclusion générale

deux paramètres qui sont le rapport signal bruité à bruit (NSNR) et le rapport signal
à bruit segmental (segSNR). Cette méthode peut opérer sur toutes les fréquences ou
simplement sur quelques unes ; tout dépend essentiellement des paramètres segSNR et
NSNR. On a également proposé une deuxième méthode basée sur l’estimation de la
densité spectrale de puissance (DSP) du signal de parole à partir d’une modélisation
LPC (Linear Predictive Coding). De par sa structure lissée, cette DSP peut réduire
l’effet du bruit résiduel à la sortie de Wiener qui biaise généralement l’estimation de la
courbe de masquage. La deuxième méthode, qui apporte une légère amélioration, reste
prometteuse surtout si l’on utilise d’autres variantes de l’analyse LPC connues pour
leur robustesse au bruit, telle que la SMC (Short-time Modified Coherence) souvent
employée dans le domaine de la reconnaissance de la parole comme paramétrisation
robuste au bruit et qui consiste à calculer les coefficients de prédiction dans le domaine
de l’autocorrélation.
Dans la suite de nos contributions, nous avons étudié et mis en évidence un
phénomène nommé MAN (Maskee to Audible Noise). Ce phénomène se manifeste
par la perception, après débruitage, de certaines composantes de bruit initialement
inaudibles. Il se produit à cause de l’atténuation de la courbe de masquage du signal
restitué, en comparaison de celle du signal d’origine ; cette atténuation est consécutive
de l’atténuation du signal de parole suite au filtrage du bruit additif. Nous avons pro-
posé deux méthodes pour réduire l’influence de ce phénomène sur les performances du
débruitage perceptuel. L’une consiste à appliquer un double filtrage réduisant toutes
les fréquences du bruit et dont le principal inconvénient est d’apporter quelques distor-
sions superflues. L’autre est basée sur un filtrage optimal sélectif par zone de fréquence
du bruit et minimisant un critère global tenant compte du phénomène MAN.
Nous avons mis en place une étude expérimentale afin d’évaluer les algorithmes
proposés, premièrement, par le biais de trois critères objectifs (MBSD, PESQ et seg-
SNR) qui se sont révélés parfois incohérents laissant ainsi la question ouverte sur la
fiabilité de ces critères, deuxièmement, en organisant des tests d’écoute, selon la norme
P-835, en sollicitant la participation de plusieurs volontaires d’origine anglaise ou de
nationalités différentes. Enfin, nous avons conçu deux systèmes de reconnaissance de
la parole à base de monophones et de triphones qui nous ont permis d’étudier l’im-
pact du débruitage sur les performances des systèmes de reconnaissance en présence
de bruit. Notre conclusion à ce propos est que les méthodes de débruitage qui se
distinguent sur des critères objectifs et même subjectifs ne sont pas forcément celles
qui rendent les systèmes de reconnaissance plus robustes au bruit. Cette constata-
tion rejoint l’idée du premier chapitre où qualité et intelligibilité de la parole ont été
différenciées. Néanmoins, l’apport du débruitage sur les performances de ces systèmes
est avéré, surtout celui des méthodes perceptuelles par rapport aux méthodes usuelles.

9.2 Perspectives de recherche


Le filtrage optimal proposé, au sens du critère que nous avons défini au chapitre 7,
constitue une première approche pour réduire le phénomène MAN. Cependant, comme
perspective de ce travail, il serait intéressant d’étudier un autre filtrage optimal conçu
Section 9.2 : Perspectives de recherche 141

sur la base d’un critère prenant en compte, cette fois-ci, la courbe de masquage après
débruitage afin de rendre tout type de bruit résiduel inaudible après le débruitage.
Dans l’optique de l’évolution de la courbe de masquage au cours du débruitage, il
serait intéressant d’étudier une estimation adaptative de cette courbe. L’étude d’une
relation récursive de cette courbe entre trames peut être envisagée comme objectif à
court terme. Pour donner du poids et de l’efficacité à cet évolution adaptative, il serait
plus raisonnable d’avoir au départ une estimation précise de la courbe de masquage
réelle (du signal propre). A ce sujet, nous suggérons (chapitre 6) d’implémenter la
paramétrisation SMC (Short-time Modified Coherence). Celle-ci, en milieu bruyant,
s’avère plus puissante que la modélisation LPC (Linear Predictive Coding). Son point
fort est de se baser sur la corrélation des segments adjacents du signal pour améliorer
la robustesse au bruit.
Comme suite de ce travail, il est aussi d’une grande importance d’étudier la faisabi-
lité d’un système complet basé sur le meilleur estimateur de bruit étudié, la meilleure
estimation de la courbe de masquage et le meilleur débruiteur perceptuel, tout ceci
dans le but de chercher à atteindre des performances maximales. Cet objectif n’est pas
aussi trivial qu’on pourrait l’imaginer.
Pour l’estimation du bruit, il serait très intéressant d’étudier la possibilité de combi-
ner l’algorithme C-ESE avec des méthodes heuristiques décrites dans le chapitre 5 afin
de réduire la part d’empirisme de ces méthodes. On peut penser, à titre d’exemple, à la
méthode de Martin qui recherche un minimum statistique qui pourrait être remplacé
par une estimée issue du C-ESE.
Il serait intéressant d’inclure le phénomène MAN dans les autres débruiteurs per-
ceptuels, qui ne traitent que le bruit audible.
Finalement, il peut être pertinent d’envisager de paramétrer les débruiteurs percep-
tuels afin de leur donner plus de souplesse et de diminuer les distorsions qu’ils peuvent
apporter. On pourrait ainsi les adapter aux contraintes des systèmes de reconnaissance
très sensibles aux distorsions.
A
ANNEXE
Echelle de notation de
la norme P-835

Le signal vocal dans cet échantillon était


5− Dépourvu de distorsion
4− Légèrement distordu
3− Quelque peu distordu
2− Assez distordu
1− Très distordu

Tableau A.1 — Echelle d’évaluation du signal vocal

Le bruit de fond dans cet échantillon était


5− Imperceptible
4− Légèrement imperceptible
3− Perceptible mais non gênant
2− Quelque peu gênant
1− Très gênant

Tableau A.2 — Echelle d’évaluation du bruit de fond

L’ échantillon vocal global était


5− Excellent
4− Bon
3− Passable
2− Médiocre
1− Mauvais

Tableau A.3 — Echelle d’évaluation de la qualité globale


B
ANNEXE
Filtre de Wiener

Le but de cet annexe est de calculer le filtre de Wiener seulement à partir du


théorème de projection au lieu d’utiliser la dérivée comme dans la plupart des travaux.
En effet, d’après le théorème de projection, il y a une seule solution à (4.26). Cette
solution est donnée par le principe d’orthogonalité via l’équation :
 
E ε(ν)Y (ν)+ = 0 (B.0)

b
où Y (ν)+ désigne le transposé conjugué de Y (ν) et ε(ν) = S(ν) − S(ν), on a donc :
 
E ε(ν)Y (ν)+ = 0
h  i
E S(ν) − W (ν)Y (ν) Y (ν)+ = 0
 
E S(ν)Y (ν)+
W (ν) =   (B.0)
E Y (ν)Y (ν)+
 
Avec E Y (ν)Y (ν)+ supposée définie, positive et inversible. Pour le problème de
débruitage de la parole, auquel on s’intéresse ici, le bruit est supposé additif et décorrélé
du signal de parole, d’où :
   
E S(ν)Y (ν)+ = E S(ν) S(ν) + B(ν) (B.1)
   
= E S(ν)S(ν) + E S(ν)B(ν) (B.2)
 
= E S(ν)S(ν) (B.3)
 2 
= E S(ν) (B.4)

La nouvelle expression de W (ν) est :


 2 
E S(ν)
W (ν) =  2  (B.4)
E Y (ν)

qui peut aussi être noté ainsi :


 2 
E S(ν)
W (ν) =  2   2  (B.4)
E S(ν) + E B(ν)
146 ANNEXE B : Filtre de Wiener

 2   2 
En choisissant les notations suivantes : E S(ν) = δ(ν) ; E B(ν) = γ(ν), l’ex-
pression finale de Wiener faisant intervenir les densités spectrales de puissance du bruit
et du signal est la suivante :
δ(ν)
W (ν) = (B.4)
δ(ν) + γ(ν)
C
ANNEXE
Tables statistiques

C.1 Distribution de la loi de Student


148 ANNEXE C : Tables statistiques

C.2 Distribution de la loi de Fisher


D
ANNEXE
Un Système de
reconnaissance de la
parole sous HTK

Cette annexe a pour objectif de présenter les étapes de la conception d’un système
de reconnaissance de la parole à petit vocabulaire en utilisant l’outil HTK.

D.0.1 Avec monophone


A ce stade, on conçoit notre système en se basant sur des unités acoustiques de type
monophone. On commence par définir les ressources nécessaires dont on aura besoin
par la suite. On définit, alors, le modèle de langage, appelé aussi lexique ou grammaire
(table D.2), qui décrit l’enchaı̂nement des mots dans les phrases. Ensuite, on construit
le réseau de mots (wdnet) et le dictionnaire (table D.1 ) respectivement, grâce aux
outils HTK HParse (ligne de Commande D.0.1) et HDMan (ligne de Commande D.0.1) .
Pour la base de données TIdigits, qui est une base de chiffres en anglais, le vocabulaire
est assez limité, d’où la facilité de définir le dictionnaire et la grammaire (tableaux D.1
et D.2).
HParse grammaire wdnet (D.0)
HDMan − m − w wlist − n monophones1 − g global.ded − l dlog dict
(D.0)
VoxForgeDict names
avec wlist la liste des mots (constituant la base de données TIdigits) ordonnés par
ordre alphabétique qui vont être transcrits en phonèmes et sauvegardés dans le dic-
tionnaire dict par la commande HDMan. La transcription en phonèmes de chaque mot
requiert un dictionnaire de référence représentant dans notre cas la langue anglaise.
Pour cela, on a utilisé le dictionnaire réduit et très pratique VoxForgeDict 1 en rem-
placement de beep proposé par HTK et qui nous donne des erreurs de compilation.
Le fichier dlog contient toutes les statistiques de la phase de construction du dic-
tionnaire, notamment des erreurs s’il y en a. La liste des monophones (monophones1)
renvoyée par HDMan et définissant le lexique de la base TIdigits est la suivante :

f ; k ; n ; r ;s ;t ;v ;w ;z ;sil ;ah ;ao ;ax ;ay ;eh ;ey ;ih ;iy ;ow ;th ;uw
1
http ://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/Lexicon/VoxForge.tgz
150 ANNEXE D : Un Système de reconnaissance de la parole sous HTK

soit un total de 21 phonèmes. Une fois qu’on a défini le dictionnaire, la grammaire

eight ey t sil
five f ay v sp
four f ao r sp
nine n ay n sp
oh ow sp
one w ah n sp
seven s eh v ax n sp
sil
six s ih k s sp
three th r iy sp
two t uw sp
zero z ih r ow sp

Tableau D.1 — Dictionnaire de la base TIdigits

$digit = one|two|three|four|five|six|seven|eight|nine|zero|oh ;
(sil <$digit> sil)

Tableau D.2 — Grammaire de la base TIdigits

et la liste des phonèmes, on passe à la description des modèles de Markov cachés. On


construit un modèle HMM pour chaque unité acoustique. La topologie HMM choisie
est de type gauche-droit à 5 états dont les transitions autorisées sont décrites dans la
figure (8.2) et initialisées dans la matrice de transition. La moyenne est initialisée à 0
et la variance à 1 (voir fichier prototype d’initialisation tableau (D.5)). Ces paramètres
du modèle HMM seront réestimés par la suite lors de la phase d’apprentissage.
Le fichier de configuration config permet de définir les paramètres indispensables
pour la phase de l’analyse acoustique. Le choix s’est porté sur les 12 premiers coefficients
MFCC excepté le coefficient c0 qui est substitué par le logarithme de l’énergie du signal,
d’où le terme -E dans le fichier de configuration. Pour chaque coefficient plus l’énergie,
on attribue une dérivée première (13 dérivées premières au total) ainsi qu’une dérivée
seconde (13 dérivées secondes) pour prendre en compte la dynamique du signal. En
somme, on obtient un vecteur acoustique de 39 coefficients correspondant à chaque
trame du signal. Ces coefficients sont extraits des fichiers wav et sur des fenêtres de
25ms grâce à l’outil HCopy en se servant du fichier de configuration comme paramètre
d’entrée selon la commande (D.0.1).

HCopy − T 1 − C config − S liste train.scp (D.0)


151

SOURCEFORMAT = WAV------> Format des signaux en entrée de la


phase d’analyse acoustique
TARGETKIND = MFCC-E-D-A ------> Type de paramétrisation utilisé
WINDOWSIZE = 250000.0 ------> Durée de la trame (25ms)
TARGETRATE = 100000.0 ------> Périodicité de la trame
PREEMCOEF = 0.97 ------> Coefficient de pré-accentuation
NUMCHANS = 26 ------> Nombre de canaux du banc de filtres Mel
NUMCEPS = 12 ------>Nombre de coefficients cepstraux MFCC
CEPLIFTER = 22 ------>Coefficient de lissage

Tableau D.3 — Fichier de configuration pour la phase de l’analyse acoustique

mots.mlf phones.mlf
# !MLF !# # !MLF !#
"*/Z2273A.lab" "*/Z2273A.lab"
zero sil
two z
two ih
two r
seven ow
three t
. uw
"*/547A.lab" s
five eh
four v
seven ax
... ...etc
Tableau D.4 — Fichiers de transcription en mots et phonèmes

Une étape indispensable, également, concerne la transcription de chaque signal ap-


partenant à la base d’apprentissage. D’habitude, les bases de données de parole sont
accompagnées de leur transcription. Cependant, avec la base TIdigits, ce n’est pas le
cas. Heureusement,dans notre cas, la transcription n’est pas compliquée, parce que les
signaux .wav de cette base portent chacun un nom qui correspond à la phrase pro-
noncée par un certain locuteur. Le résultat de la transcription est sauvegardé dans le
fichier mot.mlf illustré par le tableau (D.4). À partir de ce dernier fichier, on génère
une transcription, cette fois-ci, au niveau du phonème à travers l’outil HTK HLEd selon
la ligne de commande (D.0.1).

HLEd − l ′ ∗′ −d dict − i monophones1.mlf mkphones0.led mots.mlf (D.0)


152 ANNEXE D : Un Système de reconnaissance de la parole sous HTK

~o <VecSize> 39 <MFCC E D A>


~h "proto"
<BeginHMM>
<NumStates> 5------> Nombre d’états HMM
<State> 2 <NumMixes> 1 ------> Nombre de gaussiennes
<Stream> 1
<Mixture> 1 1.0000
<Mean> 39
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
<Variance> 39
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
<State> 3 <NumMixes> 1
<Stream> 1
<Mixture> 1 1.0000
<Mean> 39
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
<Variance> 39
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
<State> 4 <NumMixes> 1
<Stream> 1
<Mixture> 1 1.0000
<Mean> 39
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
<Variance> 39
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
<TransP> 5 ¯
0.000e+0 1.000e+0 0.000e+0 0.000e+0 0.000e+0 ¯
0.000e+0 4.000e-1 3.000e-1 3.000e+1 0.000e+0 ¯
0.000e+0 0.000e+0 6.000e-1 4.000e-1 0.000e+0 ¯------> Matrice
0.000e+0 0.000e+0 0.000e+0 6.000e-1 4.000e-1 ¯ de transition
0.000e+0 0.000e+0 0.000e+0 0.000e+0 0.000e+0 entre les états
<EndHMM>

Tableau D.5 — Fichier prototype d’initialisation

où mkphones0.led est un script permettant de remplacer chaque mot par la pronon-
ciation lui correspondant dans le dictionnaire et d’insérer un silence au début et à la
fin de chaque expression.

Apprentissage : La phase d’apprentissage permet de constituer la base de données


des modèles de référence du système. La qualité de cette modélisation conditionne en
grande partie les résultats du système de reconnaissance de la parole. L’apprentissage
est réalisé sous HTK en deux étapes majeures : l’initialisation et la ré-estimation. Pour
cette raison, deux outils sont souvent sollicités : HCompV et HERest. La phase d’initia-
lisation des modèles HMM par l’outil HCompV (ligne de commande D.0.1) permet de
mettre à jour la moyenne et la variance qui valent, avant cette étape,respectivement,
0 et 1 . Cette mise à jour est réalisée sur l’ensemble des données du corpus d’appren-
153

tissage permettant d’aboutir, à la fin, à des valeurs globales qui seront clonées pour
chaque état des modèles HMM.

HCompV − T 1 − C config − f 0.01 − m − S liste train − M hmm0 proto


(D.0)
Suite à cette commande, on obtient dans le répertoire hmm0 un nouveau fichier prototype
contenant des valeurs globales de la moyenne et de la variance. On copie le contenu de
ce fichier autant de fois qu’on a de phonèmes et on stocke le résultat du clonage dans
un fichier macro nommé modèles.mmf. Tous les phonèmes seront ainsi initialisés aux
mêmes valeurs de moyenne et de variance. Par ailleurs, l’option -f de la commande
(D.0.1) permet de générer un fichier vFloor contenant la variance seuil qui est une
fraction de la variance globale estimée. L’intérêt de ce seuil est de fixer une limite à
la variance lors des étapes d’estimation afin d’éviter des valeurs aberrantes. A noter
également que la mise à jour des variances est effectuée par défaut avec la commande
HCompV, tandis que pour réestimer la moyenne, l’option -m devient indispensable.
Par la suite, le raffinement des modèles HMM consiste à réestimer leurs paramètres
(moyenne et variance) suivant l’algorithme de Baum Welch 2 grâce à l’outil HERest
(commande D.0.2) et selon trois itérations. Les modèles ainsi estimés seront sauvegardés
dans le répertoire hmm3 (réestimation des modèles HMM contenu dans le répertoire hmmi
et sauvegarde dans le répertoire hmmi+1 à chaque itération i).

HERest − C config − I phones0.mlf − t 250.0 150.0 1000.0 − S liste train


−H hmm0/macros − H hmm0/modeles0.mmf − M hmm1 monophones0
(D.0)
A ce niveau, on ne considère pas encore le modèle de pause “sp”. Le fichier modeles0
est ainsi une version restreinte de modeles1 dans le sens où on en enlève le phonème
“sp”. D’un autre côté le fichier macros est une version de vFloor à laquelle on a ajouté
l’entête, ~o <MFCC E D A> <VecSize> 39, définissant le type de paramétrisation et la
taille du vecteur MFCC. L’ajout du modèle de silence “sp” aux autres modèles HMMs
est réalisé différemment. La procédure consiste à l’attacher à l’état central (état 3) du
modèle de silence “sil”(Fig. (D.1)).
En pratique, on va copier l’état 3 du modèle HMM du phonème “sil” et on va
l’attribuer à l’état 2 du modèle de pause “sp”. Celui-ci ne possède que 3 états dont le
premier et le dernier ne sont pas émetteurs. On initialise la matrice de transition de ce
modèle à des valeurs aléatoires qui seront réestimées par la suite. A signaler que lors
de cette étape et grâce à l’outil HHEd, on ajoute, exclusivement au modèle de silence
“sil”, une probabilité de transition de l’état 4 à l’état 2 (voir fichier sil.hed) .

Le contenu du fichier sil.hed est :


AT 2 4 0.2 sil.transP
AT 4 2 0.2 sil.transP
AT 1 3 0.3 sp.transP
TI silst sil.state[3],sp.state[2]

2
détail de cet algorithme dans le livre d’HTK
154 ANNEXE D : Un Système de reconnaissance de la parole sous HTK

silence

1 2 3 4 5

Etat partagé

1 2 3

Sp

Figure D.1 — Fixation du modèle de silence Sp

HHEd − H hmm4/macros − H hmm4/modeles0.mmf − M hmm5 sil.hed monophones1


(D.0)
La commande (D.0.1) permet d’attacher le modèle de pause “sp” au modèle de silence
“sil” selon la figure D.1. Suite à cette commande, on a généré un autre fichier modeles0
dans le répertoire hmm5. Les modèles contenus dans ce fichier seront réestimés suite
à deux itérations de l’algorithme de Baum Welch représenté par l’outil HERest exacte-
ment comme lors de l’étape (D.0.2). Les derniers paramètres estimés, à ce stade, sont
sauvegardés dans le répertoire hmm7.
Il s’avère que, parfois, il existe diverses façons de prononcer le même mot. Afin
de rendre robuste le système de reconnaissance de la parole face à cette diversité, il
peut être intéressant de tenir compte de toutes ces variantes de prononciation. Ceci
est possible par l’intermédiaire d’un alignement de la base d’apprentissage qui permet
d’analyser toutes les prononciations décrites dans le dictionnaire du langage dict 3 et
de choisir la plus adéquate ou la plus proche en comparaison avec le signal acoustique
contrairement à l’étape (D.0.1), où la génération de la transcription en phonèmes par
HLEd prend juste en compte la première prononciation rencontrée lors du parcours du
dictionnaire. Cette étape nous permet également d’insérer le modèle de pause dans
le nouveau fichier de transcription aligned.mlf. L’alignement est accompli par la
commande (D.0.1) où .

HVite − l ´ ∗ ´ − o SWT − b sil − C config − a − H hmm7/macros


−H hmm7/modeles0.mmf − i aligned.mlf − m − t 250.0 − y lab
−I mots.mlf − S liste train dict monophones1
(D.0)
Deux itérations de l’algorithme de Baum Welch permettent de réestimer les modèles
tout en prenant en considération ces dernières améliorations. Les derniers paramètres
estimés sont sauvegardés dans le répertoire hmm9. Ainsi s’achève la phase d’apprentis-
sage des modèles HMM avec une seule gaussienne.

3
Le dictionnaire doit être classé par ordre alphabétique croissant (minuscule avant majuscule).
155

Amélioration des modèles : Les modèles obtenus peuvent être améliorés par uti-
lisation de densités de probabilités d’émission multi-gaussiennes au lieu de se contenter
d’une simple loi normale à matrice diagonale. Cela permet d’éviter certaines hypothèses
grossières sur la forme de la densité si le nombre de gaussiennes est suffisant. En effet, le
choix du nombre optimal de gaussiennes est un problème difficile. En pratique, la seule
recommandation donnée est l’augmentation incrémentale et progressive du nombre de
gaussiennes jusqu’à atteindre le nombre voulu. Une commande d’HTK HHEd (D.0.1)
réalise l’augmentation du nombre de gaussiennes via le script mkmu3.hed, où on aug-
mente progressivement le nombre de gaussiennes (1, 2, 4, 8, 12, 16). Chaque augmenta-
tion de gaussienne est suivie de deux réestimations des modèles avec HERest HERest.
Suite à cette procédure les modèles sont de plus en plus précis. Le seul inconvénient
est la charge des calculs qui augmente à son tour. Les derniers modèles estimés sont
sauvegardés dans le répertoire hmm30.

HHEd − B − H hmm9/macros − H hmm9/modeles0.mmf − M hmm10


(D.0)
mkmu3.hed monophones1

D.0.2 Avec triphone


Le premier système conçu est basé sur une modélisation par monophones, les
modèles sont ainsi hors contexte. Or, un système plus robuste de reconnaissance de
la parole continue devrait au moins envisager les effets de la co-articulation et de la vi-
tesse d’élocution qui peuvent limiter son efficacité. On a souvent tendance à considérer
que la production de la parole est parfaite et on oublie que le débit de la parole peut
s’accélérer et que les organes phonatoires ne peuvent pas suivre car ils sont limités
dans leur déplacement. Tout ceci provoque une certaine influence mutuelle suivant ou
précédant les sons produits qui altère leurs formes en fonction du contexte gauche ou
droit. D’où l’intérêt des modèles contextuels (diphones, triphones,...). Ceux-ci prennent
en compte la source de variabilité du signal de parole permettant ainsi une meilleure
modélisation, un gain significatif en précision de la transcription et ainsi de meilleures
performances [Halton 06]. Le seul inconvénient de telles approches est l’augmentation
de la charge de calcul vu le très grand nombre de modèles contextuels existants. Suite
à ces remarques, l’étape prochaine consiste à élaborer un système de reconnaissance
de la parole dit contextuel car basé sur des triphones (contextes gauche et droit d’un
phonème).

Conversion de la transcription : On commence par convertir les transcriptions


de phonèmes alignés aligned.mlf, à l’étape (D.0.1), en transcription par triphones
avec l’outil HLEd selon la ligne de commande (D.0.2).

HLEd − n triphones1 − l ´ ∗ ´ − i wintri.mlf mktri.led aligned.mlf


mkmu3.hed monophones1
(D.0)
où mktri.led contient les lignes suivantes :
WB sp
WB sil
156 ANNEXE D : Un Système de reconnaissance de la parole sous HTK

TC
Pour créer le fichier mktri.hed, on utilise le script perl maketrihed tel que,

perl maketrihed monophones1 triphones1 (D.0)

Ensuite, on réestime en deux itérations la moyenne et la variance des modèles avec


l’algorithme Baum Welch toujours via l’outil HERest.

HERest − C config − I wintri.mlf − t 250.0 150.0 1000.0 − s stats − S


liste train − H hmm11 tri/macros − H hmm11 tri/modeles0.mmf
−M hmm12 tri triphones1
(D.0)
Le résultat de ces deux itérations est sauvegardé dans le répertoire hmm13 tri.
Ensuite, comme pour la reconnaissance par monophones, on va procéder à l’augmen-
tation progressive des gaussiennes jusqu’à en atteindre 16. Chaque augmentation sera
suivie d’une phase de réestimation des modèles par l’algorithme de Baum Welch. Après
toutes ces étapes, les derniers modèles affinés, attribués à la phase de reconnaissance,
sont dans le répertoire hmm45 tri

Reconnaissance : Le processus de décodage consiste à comparer l’image de l’unité


à identifier avec celles de la base de référence. Le module de décodage de la parole,
HVite, utilise l’algorithme de Viterbi pour trouver la séquence d’états la plus probable
correspondant aux paramètres observés et en déduire les unités acoustiques corres-
pondantes. Le décodage est réalisé par l’algorithme de Viterbi sous la contrainte d’un
réseau syntaxique et éventuellement d’un modèle de langage.
Nous allons tester, en premier lieu, les performances de nos systèmes de recon-
naissances (à base de monophones et de triphones) sur les sous-bases de test et de
développement de la base TIdigits. A noter que la base de développement nous a per-
mis d’ajuster le paramètre p utilisé par la commande HVite dans (D.0.2) et (D.0.2).
Ce paramètre est d’autant plus optimal que le nombre de suppressions S et à peu près
égal au nombre d’insertions I (voir tableau 8.1).
Pour les monophones :

HVite − H hmm39/macros − H hmm39/modeles0.mlf − S liste test − l ′ ∗′


−i resultats test mono.mlf − w wdnet − p − 51 − s5.0dictmonophones
(D.0)
Enfin, les résultats du décodage sont évalués par alignement dynamique avec les données
de référence via l’outil HResults.

HResults − I mots test.mlf monophones1 resultats test mono.mlf (D.0)

Nous obtenons, pour cet exemple, le résultat suivant


Ces résultats fournissent les taux de reconnaissance des mots corrects %Corr ainsi que
la précision de la reconnaissance de ces mots %Acc. La précision tient compte également
des insertions contrairement à %Corr. Lors de nos évaluations, nous tiendrons compte
157

=============== HTK Results Analysis ================


Date : Sat Sept 25 16 :54 :30 2008
Ref : mots test.mlf
Rec : resultats test mono.mlf
------------------------ Overall Results ---------------------------
SENT : %Correct=97.76 [H=8505, S=195, N=8700]
WORD : %Corr=99.66, Acc=99.51 [H=45828, D=67, S=88, I=69, N=45983]
==============================================

que de %Acc, mais, par abus de langage, nous le noterons taux de reconnaissance.

Pour les triphones :

HVite − C confighvite hmm45 tri/macros − H 45 tri/modeles0.mlf − S


liste test − l ′ ∗′ −i resultats test tri.mlf − w wdnet − p − 57 − s
5.0 dict tiedlist
(D.0)
Après exécution de HResults,

HResults − I mots test.mlf tiedlist resultats test tri.mlf (D.0)

on obtient,

=============== HTK Results Analysis ================


Date : Sat Sept 25 16 :59 :30 2008
Ref : mots test.mlf
Rec : resultats test tri.mlf
------------------------ Overall Results ---------------------------
SENT : %Correct=97.51 [H=8505, S=195, N=8700]
WORD : %Corr=99.69, Acc=99.47 [H=45840, D=63, S=80, I=100, N=45983]
==============================================

La configuration supplémentaire confighvite permet à HTK d’adapter le dictionnaire


dict et le réseau de mot wdnet avec les modèles HMM des triphones. Le fichier de
configuration confighvite contiendra uniquement deux paramètres FORCECXTEXP et
ALLOWXWRDEXP, le premier mis à T (True) et le second à F (False).

HResults − I mots test.mlf tiedlist resultats test tri.mlf (D.0)


Mes Publications

Articles de revue :

A. Amehraye, D. Pastor, Ahmed Tamtaoui et Driss. Aboutajdine , From maskee


to audible noise in perceptual speech enhancement, International Journal of Signal
processing (IJSP), 2009.

D. Pastor, A. Amehraye, Algorithms and applications for estimating the standard


deviation of AWGN when observations are not signal-free, Journal of Computers
(JCP), 2007.

Conférences nationales et internationales :

A. Amehraye, D. Pastor et A. Tamtaoui, Perceptual improvement of Wiener


filtering, ICASSP’08, Las Vegas, USA, 2008.

A. Amehraye, D. Pastor et A. Tamtaoui, Amélioration psychoacoustique du filtrage


de Wiener, Gretsi’07, Troyes, France, 2007.

A. Amehraye, D. Pastor et S. Ben Jebara, On the application of recent results


in statistical decision and estimation theory to perceptual filtering of noisy speech
signals, International Symposium on Control, Communications, and Signal Processing
(ISCCSP), Marrakech, Maroc, 2006.

A. Amehraye and D. Pastor, Speech enhancement and psychoacoustics, European


Mathematical Psychology group : 37ème meeting, 11-13 septembre, Brest, France, 2006.

D. Pastor et A. Amehraye, From non-parametric statistics to speech denoising, 3nd


International Symposium On Image/Video Communications (ISIVC’06), Tunisie, 2006.

F. Brugger, L. Zouari, H. Bredin, A. Amehraye, G. Chollet, D. Pastor et Y. Ni,


Reconnaissance audiovisuelle de la parole par VMike, Journées d’Étude sur la Parole
(JEP), Dinard, France, 2006.
Bibliographie

[Aicha 06] A. Ben Aicha & S. Ben Jebara. Utilisation de la courbe


de masquage pour la détection des tonales musicales ar-
tificielles dans un signal de parole débruité par approche
spectrales. In Proc. of ISIVC, volume I, 2006.
[Aicha 07] A. Ben Aicha & S. Ben Jebara. Perceptual musical
noise reduction using critical bands tonality coefficients
and masking thresholds. In Proc. of INTERSPEECH,
Antwerp, Belgium, pages 822–825, 2007.
[Amehraye 08a] A. Amehraye, D. Pastor & A. Tamtaoui. Perceptual im-
provement of Wiener filtering. In Proc. of ICASSP, Las
Vegas, USA, pages 2081–2084, 2008.
[Amehraye 08b] A. Amehraye, D. Pastor, A. Tamtaoui & D. Aboutajdine.
From maskee to audible noise in perceptual speech enhan-
cement. International Journal of Signal Processing, vol. 5,
no. 2, pages 93–96, 2008.
[Amehraye 09] A. Amehraye, L. Fillatre, D. Pastor & D. Aboutajdine.
A perceptual filter for unmasked noise prevention. to be
submitted to Speech Communications, 2009.
[ANSI 89] ANSI. Method for Measuring the Intelligibility of Speech
over Communication Systems. 1989.
[Azirani 95] A. Akbari Azirani, R. Le Bouquin-Jeannes & G. Fau-
con. Optimizing Speech Enhancement by exploiting mas-
king properties of the human earusing a Wiener filtering
under signal presence uncertainty. In Proc. of ICASSP,
volume 1, pages 800–803, 1995.
[Azirani 96] A. Akbari Azirani, R. Le Bouquin-Jeannes & G. Faucon.
Speech Enhancement using a Wiener filtering under signal
presence uncertainty. In Proceedings of the European Si-
gnal Processing Conference, EUSIPCO, volume 2, pages
971–974, 1996.
[Beaugeant 98] C. Beaugeant, V. Turbin, P. Scalart & A. Gilloire. New
optimal filtering approaches for hands-free telecommuni-
162 BIBLIOGRAPHIE

cation terminals. Signal Processing, vol. 64, pages 33–


47(15), Jan 1998.
[Beaugeant 99] C. Beaugeant & P. Scalart. Noise reduction using per-
ceptual spectral change. In 6th European Conference on
Speech Communication and Technology, EUROSPEECH
99, pages 2543–2546, Hungary, sep 1999.
[Beerendes 92] J. Beerendes & J. Stemerdink. A perceptual audio quality
measurement based on a psychoacoustic sound represen-
tation. J. Audio Eng. Soc, vol. 40, pages 963–972, 1992.
[Berouti 79] M. Berouti, R. Schwartz & J. Makhoul. Enhancement of
speech corrupted by acoustic noise. In Proc. of ICASSP,
volume I, pages 208–211, 1979.
[Bhatnagar 02] M. Bhatnagar. A modified spectral subtraction method
combined with perceptual weighting for speech enhance-
ment. phd thesis at UT-Dallas, 2002.
[Boll 79] S. Boll. Suppression of acoustic noise in speech using spec-
tral subtraction. IEEE Trans. Acoust., Speech, Signal Pro-
cessing, vol. 27, pages 113–120, 1979.
[Bunieti 97] L. Bunieti. Traitement automatique de la parole en mi-
lieu bruité : étude de modèles connexionnistes statiques et
dynamiques. Université Henri Poincaré - Nancy 1, 1997.
[Cappe 94] O. Cappe. Elimination of the musical noise phenome-
non with the Ephraim and Malah noise suppressor. IEEE
Trans. on Speech and Audio Processing, vol. 2(2), pages
345–349, Avr 1994.
[Cohen 02] I. Cohen. Noise estimation by minima controlled recursive
averaging for robust speech enhancement. IEEE Signal
Process. Lett, vol. 9, pages 12–15, Jan 2002.
[Cohen 03] I. Cohen. Noise spectrum estimation in adverse environ-
ments :improved minima controlled recursive averaging.
IEEE Trans. Speech Audio Process, vol. 11, pages 466–
475, Sept 2003.
[Deng 03] L. Deng, J. Droppo & A. Acero. Recursive estimation of
nonstationary noise using iterative stochastic approxima-
tion for robust speech recognition. IEEE Trans. Speech
Audio Processing, vol. 11, pages 568–580, Nov 2003.
[Dimitriadis 98] D. Dimitriadis & P. Maragos. Robust AM-FM Features for
Speech Recognition. IEEE Signal procesing letters, vol. 24,
pages 267–285, Jul 1998.
[Dupont 00] S. Dupont & J. Luettin. Audio-visual speech modeling for
continuous speech recognition. IEEE Trans. on Multime-
dia, vol. 2(3), pages 141–151, Sept 2000.
BIBLIOGRAPHIE 163

[Ephraim 84] Y. Ephraim & D. Malah. Speech enhancement using a mi-


nimum mean square error short-time spectral amplitude
estimator. IEEE Trans. Acoust., Speech, Signal Proces-
sing, vol. ASSP-32, pages 1109–1121, Dec 1984.
[Ephraim 95] Y. Ephraim & H.L. Van Trees. A signal subspace approach
for speech enhancement. IEEE Trans. Speech and Audio
Processing, vol. 3, pages 251–266, 1995.
[Erkelens 07] J. Erkelens, J. Jensen & R. Heusdens. A data-driven ap-
proach to optimizing spectral speech enhancement methods
for various error criteria. Speech Commun., vol. 49, no. 7-
8, pages 530–541, 2007.
[Fairbanks 58] G. Fairbanks. Test of phonetic differentiation : the rhyme
test. Journal of the Acoustical Society of America, vol. 30,
pages 596–600, 1958.
[Faucheur 07] N. Le Faucheur & V. gautier turbin. Method for measu-
ring an audio signal perceived quality degraded by a noise
presence. Brevet, vol. ASSP-32, pages 1109–1121, Jun
2007.
[Furui 01] S. Furui. Digital speech processing, synthesis, and recog-
nition. Second Edition, Marcel Dekker Inc., New York.,
2001.
[G.107 03] UIT-T G.107. Le modèle E : modèle de calcul utilisé pour
la planification de la transmission. 2003.
[G.729 96] IUT-T Rec. G.729. Coding of speech at 8 kbit/s using
conjugate structure algebraic-Code-Excited Linear Predic-
tion (CS-ACELP). 1996.
[Gales 96] M. Gales & S. Young. Cepstral parameter compensation
for HMM recognition. In Ph. D. Dissertation, ECE De-
partment, CMU, 1996.
[Gauvain 94] J. Gauvain & C. Lee. Maximum a posteriori estimation
for multivariate Gaussian mixture observations of Markov
chains. IEEE Trans. Speech Audio Process, vol. 2(2),
pages 291–298, 1994.
[Gong 95] Y. Gong. Speech recognition in noisy environments : a
survey. Speech communications, vol. 16, pages 261–291,
Apr 1995.
[Grundlehner 05] B. Grundlehner, J. Lecoq, R. Balan & J. Rosca. Perfor-
mance assessement method for speech enhancement sys-
tems. In Proc. IEEE BENELUX/DSP Valley signal pro-
cessing symposium, 2005.
[Gustafsson 98] S. Gustafsson, P. Jax & P. Vary. A novel psychoacousti-
cally motivated audio enhancement algorithm preserving
background noise characteristics. In Proc. of the IEEE
ICASSP’98, Seattle, pages 397–400, 1998.
164 BIBLIOGRAPHIE

[Halton 06] J. Halton, C. Cerisara, D. Fohr, Y. Laprie & K. Smaili.


Reconnaissance automatique de la parole : Du signal à
son interprétation. Dunod, 2006.
[Hermansky 90] H. Hermansky. Perceptual linear predictive (PLP) ana-
lysis of speech. The Journal of the Acoustical Society of
America, vol. 87, pages 1738–1752, Apr 1990.
[Hermansky 94] H. Hermansky & N. Morgan. RASTA processing of speech.
IEEE Trans. Speech Audio Process, vol. 2, pages 578–589,
1994.
[Hermus 07] Kris Hermus, Patrick Wambacq & Hugo Van hamme. A
review of signal subspace speech enhancement and its ap-
plication to noise robust speech recognition. EURASIP
J. Appl. Signal Process., vol. 2007, no. 1, pages 195–195,
2007.
[Hu 04] Y. Hu & P. Loizou. Incorporating a psychoacoustic model
in frequency domain speech enhancement. IEEE Signal
Processing Letters, vol. 11(2), pages 270–273, Feb 2004.
[Hu 06] Y. Hu & P. Loizou. Evaluation of objective Measures for
speech enhancement. in Proc. Interspeech, pages 1447–
1450, 2006.
[Hu 07] Y. Hu & P. Loizou. A comparative intelligibility study of
speech enhancement algorithms. IEEE Signal Processing
Letters, vol. 4, pages 561–564, Apr 2007.
[Hu 08] Y. Hu & P. Loizou. Evaluation of objective quality Mea-
sures for speech enhancement. Evaluation of objective
Measures for speech enhancement, vol. 16, pages 229–238,
Jan 2008.
[IEC-Standard.60268-16 98] IEC-Standard.60268-16. Sound system equipment- Part
16 : Objective rating of speech intelligibility by speech
transmission index. 1998.
[ITU-R.500-10 02] ITU-R.500-10. Methodology for the subjective assessment
of the quality of television picture. 2002.
[Jabloun 03] F. Jabloun & B. Champagne. Incorporating the hu-
man,lebouquin hearing properties in the signal subspace
approach for speech enhancement. IEEE Trans. Speech
and Audio Processing, vol. 11, pages 700–708, 2003.
[J.Chen 01] J.Chen, K.K. Paliwal & S.Nakamura. Subtraction of ad-
ditive noise from corrupted speech for robust speech recog-
nition. In Proc. Acoustical Society of Japan (ASJ) Confe-
rence, Tsukuba, Japan,, volume I, pages 63–64, 2001.
[Johnston 88] J. D. Johnston. Transform coding of audio signals using
perceptual noise criteria. IEEE Jour. Selected Areas Com-
mun, vol. 6, pages 314–323, 1988.
BIBLIOGRAPHIE 165

[Jones 05] C. Jones & I. Jonsson. Automatic recognition of affec-


tive cues in the speech of car drivers to allow appropriate
responses. In Proceedings of the OZCHI 2005, Canberra,
Australia, pages 21–25, Nov 2005.
[Junqua 90] J. Junqua. Utilisation d’un modèle d’audition et de
connaissances phonétiques en reconnaissance automatique
de la parole. Traitement du signal, vol. 7, pages 275–284,
1990.
[Keagy 00] S. Keagy. Integrating voice and data networks : Practical
solutions for the new world of packetized voice over data
networks. Cisco Press, 2000.
[Klein 02] M. Klein & P. Kabal. Signal subspace speech enhancement
with perceptual post-filtering. In Proc. IEEE Int. Conf.
Acoustics, Speech, Signal Processing (Orlando, FL), vo-
lume I, pages 537–540, 2002.
[Kobatake 94] H. Kobatake & S.Matsunoo. Degraded word recogni-
tion based on segmental signal-to-noise ratio weighting.
In Proc. ICASSP’04, Adelaide, SA, Australia, volume I,
pages 425–428, 1994.
[Lee 91] C. Lee, C. Lin & B. Juang. Study on speaker adaptation
of the parameters of continuous density hidden Markov
models. IEEE Trans. Signal Processing, vol. 39(4), pages
806–814, Dec 1991.
[Lee 04] T. Lee & Kaisheng Yao. Speech enhancement by perceptual
filter with sequential noise parameter estimation. In Proc.
of ICASSP, volume I, pages 693–696, 2004.
[Leggetter 95] C. Leggetter & P. Woodland. Maximum likelihood linear
regression for speaker adaptation of continuous density
HMMs. Comput. Speech Lang, vol. 9, pages 171–185,
1995.
[Lim 78] J. Lim & A. Oppeenheim. All-pole modeling of degra-
ded speech. IEEE Trans. Acoust. Speech, Signal Process,
vol. 26, pages 197–210, Jun 1978.
[Lim 79] J. Lim & A. Oppenheim. Enhancement and bandwidth
compression of noisy speech. Proceedings of the IEEE,
vol. 67, pages 1586–1604, Dec 1979.
[Lin 02] L. Lin, W. H. Holmes & E. Ambikairajah. Speech denoi-
sing using perceptual modification of Wiener filtering. IEE
Electronic Letters, vol. 38, pages 1486–1487, Nov 2002.
[Liu 93a] F. Liu, Stern R., Huang X. & Acero A. Efficient Cepstral
Normalization for Robust Speech Recognition. In Procee-
dings of ARPA Speech and Natural Language Workshop,
pages 69–74, 1993.
166 BIBLIOGRAPHIE

[Liu 93b] F. Liu, R. Stern, X. Huang & R. Acero. Efficient Cepstral


Normalization for Robust Speech Recognition. In Procee-
dings of ARPA Speech and Natural Language Workshop,
pages 69–74. Morgan Kaufmann, 1993.
[Loizou 07] P. Loizou. Speech enhancement : Theory and practice.
CRC ; 1 edition, 2007.
[Ma 04] N. Ma, M. Bouchard & R. A. Goubran. Perceptual Kal-
man filtering for speech enhancement in colored noise.
In Proc. ICASSP’04, Montreal, Canada, volume 4, pages
1045–1048, 2004.
[Malfait 06] L. Malfait, J. Berger & M. Kastner. P.563 - The ITU-
T Standard for Single-Ended Speech Quality Assessment.
IEEE Trans on Audio, Speech, and Language Processing,
vol. 14, pages 1924–1934, Nov 2006.
[Manohar 06] K. Manohar & P. Rao. Speech enhancement in nonstatio-
nary noise environments using noise properties. Speech
communication, vol. 48, pages 96–109, Jan 2006.
[Mansour 88] D. Mansour & B. Juang. The short time modified cohe-
rence representation and its application for noisy speech
recognition. In Proc. of ICASSP88, pages 525–528, New
York, USA, Apr 1988.
[Martin 94] R. Martin. Spectral Subtration Based on Minimum Sta-
tistics. In Proc. Eur. Signal Processing Conf, pages 1182–
1185, 1994.
[Martin 01] R. Martin. Noise Power Spectral Density estimation Ba-
sed on Optimal Smoothing and Minimum Statistics. IEEE
Trans. on Speech and Audio Processing, vol. 9, pages 504–
512, Jul 2001.
[Martin 03] R. Martin. Statistical Methods for the Enhancement of
Noisy Speech. In iwaenc03, pages 1–6, kyoto, sep 2003.
[Mokbel 92] C. Mokbel. Reconnaissance de la parole dans le bruit :
bruitage/débruitage. phd thesis at TELECOM Paris,
1992.
[Molau 01] S. Molau, M. Pitz, R. Schluter & H. Ney. Computing mel-
frequency cepstral coefficients on the power spectrum. In
InProc IEEE Intl. Conf. Acoust., Speech, Signal Proc.,
2001.
[Montacié 87] C. Montacié & G. Chollet. Systèmes de référence pour
l’évaluation d’applications et la caractérisation de bases
de données en reconnaissance automatique de la parole.
In Actes des 16e JEP, volume I, 1987.
[Moreno 95] A. Moreno, S. Tortola, J. Vidal & J.A.R. Fonollosa. New
HOS-based parameter estimation methods for speech re-
BIBLIOGRAPHIE 167

cognition in noisy environments. In Proc. ICASSP’95,


Detroit, MI, USA, volume I, 1995.
[Nadeu 97] C. Nadeu, P. Leal & B. Juang. Filtering time sequences
of spectral parameters for speech recognition. Speech com-
munications, vol. 22, pages 315–332, Sept 1997.
[P.835 03] UIT-T P.835. Subjective test methodology for evaluating
speech communication systems that include noise suppres-
sion algorithm. 2003.
[P.861 98] UIT-T P.861. Objective quality measurement of telephone-
band (300-3400 Hz) speech codecs. 1998.
[P862 00] UIT-T P862. Perceptual evaluation of speech quality
(PESQ), an objective method for end-to-end speech quality
assessment of narrowband telephone networks and speech
codecs. 2000.
[Painter 00] T. Painter & A. Spanias. Perceptual coding of digital au-
dio. Proceedings of the IEEE, vol. 88, pages 451–515, Avr
2000.
[Pastor 02] D. Pastor, R. Gay & B. Groenenboom. A Sharp Upper-
Bound for the Probability of Error of the Likelihood Ratio
Test for Detecting Signals in White Gaussian Noise. IEEE
Transactions on Information Theory, vol. 48, pages 228–
238, 2002.
[Pastor 07a] D. Pastor. A theoritical result for processing signals tht
have unknown distributions and priors in white gaussian
noise. Computational statistics and data analysis, vol. 52,
pages 3167–3186, Oct 2007.
[Pastor 07b] D. Pastor & A. Amehraye. Algorithms and applications
for estimating the standard deviation of AWGN when ob-
servation are not signal-free. Journal of computers, vol. 2,
Sep 2007.
[Plapous 07] C. Plapous, C. Marro & P. Scalart. Improved Signal-to-
Noise Ratio Estimation or Speech enhancement. IEEE
Trans. Audio., Speech, and Language Processing, vol. 15,
pages 1753–1765, August 2007.
[Potamianos 04] G. Potamianos, C. Neti, J. Luettin, & I. Matthews. Audio-
visual automatic speech recognition : an overview. MIT
Press, Issues in audio-visual speech processing (G. Bailly,
E. Vatikiotis-Bateson, and P. Perrier,eds, 2004.
[Qijun 06] D. Qijun & C. Yanpu B. Zhengzhong. Optimizing Speech
Enhancement Based on Noise Masked Probability. In In-
ternational conference on signal processing, pages 1–4,
2006.
168 BIBLIOGRAPHIE

[Quackenbush 88] S. R. Quackenbush, T. P. Barnwell III & M. A. Clements.


Objective Measures of Speech Quality. Englewood Cliffs,
NJ : Prentice-Hall. 1988.
[Rabiner 07] Lawrence R. Rabiner & Ronald W. Schafer. Introduction
to digital speech processing. Now Publishers Inc., Hano-
ver, MA, USA, 2007.
[Rangachari 04] S. Rangachari, P. Loizou & Y. Hu. A noise estimation
algorithm with rapid adaptation for highly nonstationary
environments. In Proc. IEEE Internat. Conf. on Acoust.
Speech Signal Process, volume 1, pages 305–308, 2004.
[Rangachari 06] S. Rangachari & P. Loizou. A noise-estimation algorithm
for highly non-stationary environments. In Speech Com-
munication, volume 48, pages 220–231, 2006.
[Rix 01] A. Rix, J. Beerends, M. Hollier & A. Hekstra. Percep-
tual evaluation of speech quality (pesq)-a new method for
speech quality assessement of telephone networks and co-
decs. In Proc. ICASSP’04, Adelaide, SA, Australia, vo-
lume I, pages 749–752, 2001.
[S3.5 69] ANSI. S3.5. American National Standard Methods for
Calculation of the Articulation Index. 1969.
[Sarikaya 99] R. Sarikaya & J. Hansen. Auditory Masking Threshold
Estimation for Broadband Noise Sources with Application
to Speech Enhancement. In EUROSPEECH’99 : Inter.
Conf. On Speech Communication and Technology, Buda-
pest, Hungary, volume 6, pages 2571–2574, Sept 1999.
[Siohan 94] O. Siohan, Y. Gong & J.-P. Haton. A comparison of three
noisy speech recognition approaches. In Proc. Int. Conf.
on Spoken Language Processing, ICSLP’94, Yokohama,
Japan, volume 3, pages 1031–1034, 1994.
[Tohkura 87] Y. Tohkura. A Weighted Cepstral Distance Measure for
Speech Recognition. IEEE Trans. Acoust., Speech & Signal
Process., vol. ASSP-35, pages 1414–1422, 1987.
[Tomlinson 96] M. J. Tomlinson, M. J. Russell & N. M. Brooke. Integra-
tion of audio and visual information to provide highly ro-
bust speech recgnition. In InProc IEEE Intl. Conf. Acoust.,
Speech, Signal Proc., 1996.
[Tsoukalas 97] D. Tsoukalas, J. Mourjopoulos & G. Kokkinakis. Speech
enhancement based on audible noise suppression. IEEE
Trans. on Speech and audio processing, vol. 5, pages 497–
514, 1997.
[Tuffy 99] M. Tuffy & D. Laurenson. Estimating clean speech thre-
sholds for perceptual based speechenhancement. In 1999
IEEE Workshop on Applications of Signal Processing to
Audio and Acoustics, volume I, pages 17–130, Oct 1999.
[Udrea 08] R. Udrea, N. Vizireanu & S. Ciochina. An improved spec-
tral subtraction method for speech enhancement using a
perceptual weighting filter. IEEE Trans. on Multimedia,
vol. 18, pages 581–587, Jul 2008.
[Virag 99] N. Virag. Single channel speech enhancement based on
masking properties of the human auditory system. IEEE
Trans. Speech and Audio Processing, vol. 7, pages 126–
137, 1999.
[Virole 01] B. Virole. Psychologie de la surdité. 2ème Edition, De
Boeck Université., 2001.
[Wang 92] S. Wang, A. Sekey & A. Gersho. An objective measure for
predicting subjective quality of speech coders. IEEE J. on
Select. Areas in Commun., vol. SAC-10, pages 819–829,
Sept 1992.
[Wang 97] S. Wang, A. Sekey & A.Gersho. Modified bark spectral
distortion measure which uses noise masking threshold.
IEEE Speech Coding Workshop, vol. SAC-10, 1997.
[Yang 97] W. Yang, M. Dixon & R Yantorno. Modified bark spectral
distortion measure which uses noise masking threshold. In
IEEE Speech coding Workshop, pages 55–56, 1997.
[Yang 99] W. Yang, M. Dixon & R Yantorno. Enhanced modified
Bark spectral distorsion (EMBSD) :An objective speech
quality measure based on audible distorsion and cognition
model. Phd thesis, Temple University Graduate Board,
May 1999.
[Yanpu 02] C. Yanpu, Z. Jun, T. Wei & G. Yue. Speech Enhancement
Analysis based on Audible Distortion Criteria. In Interna-
tional Conference on Communication Technology, ICCT
’06, volume 1, pages 448–451, 2002.
[You 05] C. You, S. Koh & S. Rahardja. Subspace speech enhan-
cement for audible noise reduction. In Proc. of ICASSP,
volume 11, pages 145–148, 2005.
[Young 92] S. J. Young. Cepstral Mean Compensation for HMM
recognition in noise. In ESCA Workshop Proceedings
of Speech Processing in Adverse Conditions, Cannes-
Mandelieu, pages 123–126, 1992.
[Young 06] Young & all. The htk book (for htk version 3.4). Cam-
bridge University Engineering Department, 2006.
[Zwicker 81] E. Zwicker & R. Feldtkeller. Psychoacoustique : l’oreille,
récepteur d’information. Masson, 1981.