Vous êtes sur la page 1sur 159

Nd'ordre : 2794

THSE

prsente

DEVANT L'UNIVERSIT DE RENNES 1

pour obtenir

le grade de : DOCTEUR DE L'UNIVERSIT DE RENNES 1

Mention : Traitement du Signal

PAR

Gal MAH


quipe d'accueil : France Tlcom R&D, Labo Interactions par la Parole et le Son, Lannion

cole Doctorale : Mathmatiques, Informatique, Signal, lectronique et Tlcommunications

Composante universitaire : Structure et Proprits de la Matire




Correction centralise
des distorsions spectrales de la parole
sur les rseaux tlphoniques






SOUTENUE LE 19 dcembre 2002 devant la commission d'Examen :

M. Grard FAUCON
Mme Madeleine BONNET
M. Phillip A. REGALIA
M. Jean-Marc BOUCHER
M. Andr GILLOIRE
Mme Rgine LE BOUQUIN-JEANNS
Prsident
Rapporteur
Rapporteur
Directeur
Examinateur
Examinateur

Remerciements
Mes remerciements s'adressent en premier lieu Andr Gilloire, qui a encadr cette thse. Son
enthousiasme et ses comptences, ainsi que la confiance et l'autonomie qu'il a m'a accordes
dans l'orientation et la ralisation de ces travaux de thse, ont t des atouts prcieux.
Je tiens remercier Jean-Marc Boucher, directeur de cette thse, pour lattention qu'il a
porte au droulement de celle-ci malgr la centaine de kilomtres entre Brest et Lannion.
Merci Madeleine Bonnet et Phillip Regalia pour l'intrt dont ils ont tmoign pour ces
travaux en acceptant d'en tre les rapporteurs.
Merci Grard Faucon et Rgine Le Bouquin-Jeanns pour leur participation
lvaluation de cette thse.
Ces travaux de thse ont bnfici du cadre du laboratoire Interactions par la Parole et le
Son de France Tlcom R&D : merci Jean-Pierre Petit, responsable de ce laboratoire, pour son
accueil, ainsi qu' Dominique Massaloux, qui m'a accueilli au sein de son quipe et soutenu dans
mes travaux.
Je suis profondment reconnaissant aux collgues des laboratoires IPS et EQS des conseils
et coups de main divers qu'ils m'ont apports. Merci notamment Claude Marro et Pascal Scalart
pour leurs lumires en traitement du signal, Alain Le Guyader pour les longues et
enrichissantes discussions sur le masquage du bruit, Ltitia Gros pour son aide prcieuse dans
la prparation et l'analyse des tests subjectifs (les sciences "molles" sont parfois bien coriaces),
Martine Apperry pour la mise en uvre de ces tests, Delphine Charlet pour ses conseils sur la
classification et Alain Curti, dont la matrise du DSP aura rendu moins terrible la confrontation
de ces algorithmes la ralit du rseau tlphonique. Merci enfin Janine, qui sait effacer d'un
sourire tous les tracas administratifs.
Merci celles et ceux qui ont consacr un peu de leur temps et de leurs oreilles
l'valuation subjective de mes algorithmes, malgr un emploi du temps parfois charg.
Ce mmoire doit beaucoup l'il vigilant et expert de mes relecteurs : merci Andr,
Claude, Emmanuelle et Ltitia d'avoir fait de ce document leur livre de chevet.
Merci enfin toutes celles et tous ceux, prsents physiquement ou lectroniquement, qui
m'ont accompagn dans et hors de la thse durant ces trois ans.
Remerciements


Rsum
Ces travaux ont pour objet la correction des distorsions spectrales subies par la parole sur les
rseaux tlphoniques, en premier lieu le rseau fixe (terrestre) dans sa partie analogique. Ces
distorsions sont dues aux fonctions de transfert des terminaux tlphoniques en mission et en
rception, et aux lignes tlphoniques analogiques correspondantes. Le but est de restaurer, en
aveugle, un "timbre" le plus proche possible de la voix originale du locuteur, au moyen d'un
traitement du signal centralis dans un quipement du rseau.
Nous proposons un algorithme d'galisation spectrale aveugle consistant aligner, sur une
bande de frquences limite (200-3150 Hz), le spectre long terme du signal trait sur un spectre
de rfrence (spectre de la recommandation P.50 de l'UIT-T). Des valuations subjectives
mettent en vidence une restauration satisfaisante du timbre original des locuteurs, dans la limite
de la bande d'galisation choisie.
Il apparat toutefois que la quantification en loi A des chantillons de sortie de l'galiseur
induit un bruit gnant en rception. Deux approches sont donc proposes pour masquer
perceptivement ce bruit par un reformage spectral. L'une est fonde sur la rinjection l'entre
du quantificateur de l'erreur de quantification filtre. L'autre explore selon un algorithme de type
Viterbi les squences temporelles des niveaux de quantification possibles, de manire
maximiser un critre probabiliste de masquage du bruit. Une valuation subjective montre
finalement d'une part que le bruit non reform est prfr au bruit reform, plus sporadique mais
plus "rauque", d'autre part qu'une voix dont le timbre a t corrig, au prix de ce bruit de
quantification, est prfre la mme voix en rception d'une liaison tlphonique sans
correction de timbre (et non bruite).
Afin d'amliorer l'adquation du spectre de rfrence de l'galiseur aux diffrents
locuteurs, une classification des locuteurs selon leur spectre, en deux ou quatre classes, est
tudie, et des critres de classement robustes aux distorsions de la liaison tlphonique sont
dfinis. Cette classification permet d'utiliser non plus un spectre de rfrence unique, mais un
spectre de rfrence par classe. Il en rsulte une rduction de la distorsion spectrale induite par
l'galiseur, ce qui se traduit, pour certains locuteurs, par une amlioration significative de la
correction de timbre.
Rsum


Abstract
The aim of this thesis is to compensate for spectral distortions of voice on telephone networks,
particularly on the analog parts of the terrestrial network. These distortions are generated by the
non-flat transfer functions of the sending and receiving terminals and of the corresponding
analog lines. Our purpose is to restore a "timbre" as close as possible to the original voice of the
speaker, using a blind equalizer centralized in the network.
We propose a spectral equalization algorithm, which consists in matching the long-term
spectrum of the processed signal to a reference spectrum (spectrum of the ITU-T
Recommendation P.50) in a limited frequency bandwidth (200-3150 Hz). Subjective evaluations
show a satisfying restoration of the timbre of the speakers, within the limits of the chosen
equalization band.
The A-law quantization of the output samples of the equalizer induces however a
disturbing noise at the reception end. Two methods are proposed to mask this noise, using a
perceptual spectral shaping. The first one is based on the feed-back of the filtered quantization
error to the input of the quantizer. The second one explores the temporal sequences of the
possible quantization levels, in order to maximize a probabilistic criterion of noise masking,
using a Viterbi-like algorithm. A subjective evaluation finally shows on the one hand that the
non-reshaped noise is preferred to the reshaped noise, on the other hand that voices with a
corrected timbre, even with quantization noise, are preferred to the same voices at the output of a
telephone link without timbre correction (and without noise).
In order to make the reference spectrum more appropriate to the various speakers' voices,
we define two or four classes of speakers, based on their long-term spectra. Classification criteria
robust to telephone link distortions are defined. This classification allows using one reference
spectrum for each class, instead of the same reference spectrum for the whole population. This
leads to a decrease of the spectral distortion induced by the equalizer and, as a consequence, to a
significant improvement of the timbre correction for a part of the speakers, in a perceptual point
of view.
Abstract




Table des matires
INTRODUCTION........................................................................................................... 1

CHAPITRE I CONTEXTE ET OBJECTIFS...................................................................3
I.1. Sources de dgradation du timbre de la parole sur les rseaux tlphoniques............... 3
I.1.1. Rseau Tlphonique Commut (RTC, ie rseau filaire classique)................................. 3
I.1.2. Rseau Numrique Intgration de Services (RNIS) et rseau mobile GSM................. 6
I.2. Objectifs de la correction de timbre.................................................................................... 7

CHAPITRE II GALISATION SPECTRALE AVEUGLE...............................................9
II.1. tat de l'art .......................................................................................................................... 9
II.1.1. galisation fixe ............................................................................................................... 9
II.1.2. galisation adaptative..................................................................................................... 9
II.2. L'galisation adapte : principes et mise en uvre........................................................ 13
II.2.1. Approche retenue.......................................................................................................... 13
II.2.2. Principes........................................................................................................................ 14
II.2.3. Bande de frquences d'galisation ................................................................................ 17
II.2.4. Ncessit d'une pr-galisation..................................................................................... 17
II.2.5. Mise en uvre............................................................................................................... 19
II.2.6. Mise en uvre en temps rel ........................................................................................ 22
II.3. Simulations et rsultats..................................................................................................... 25
II.3.1. Conditions exprimentales............................................................................................ 25
II.3.2. Outils d'valuation ........................................................................................................ 26
II.3.3. Rapidit de convergence de l'galiseur ......................................................................... 27
II.3.4. Distorsion spectrale finale ............................................................................................ 29
II.3.5 Limite de l'galisation : le bruit de quantification ......................................................... 33
II.3.6. valuation subjective.................................................................................................... 38
II.3.7. Validation de la version temps rel............................................................................... 52
II.4. Conclusion.......................................................................................................................... 53

Table des matires

CHAPITRE III GALISATION ET BRUIT DE QUANTIFICATION :
APPROCHES PERCEPTIVES.................................................................................... 55
III.1. Principes du masquage du bruit et application au codage...........................................55
III.1.1. Le masquage frquentiel du bruit .................................................................................55
III.1.2. Calcul du seuil de masquage : mthode de Johnston ...................................................56
III.1.3. Application au masquage du bruit de quantification....................................................58
III.2. Mthode de rinjection de l'erreur de quantification...................................................60
III.2.1. Principe.........................................................................................................................60
III.2.2. Structure du filtre de boucle .........................................................................................61
III.2.2. Rsultats .......................................................................................................................62
III.3. Mthode probabiliste .......................................................................................................64
III.3.1. Principes .......................................................................................................................64
III.3.2. Mise en uvre ..............................................................................................................65
III.3.3. Rsultats .......................................................................................................................68
III.3.4. Influence des paramtres de l'algorithme .....................................................................69
III.4. Comparaison des deux mthodes....................................................................................75
III.4.1. Complexit ...................................................................................................................75
III.4.2. Performances de masquage ..........................................................................................75
III.5. valuation de la perception conjointe du bruit et du timbre.......................................76
III.5.1. Objectifs et mthode.....................................................................................................76
III.5.2. Plan de test ...................................................................................................................78
III.5.3. Rsultats .......................................................................................................................79
III.6. Conclusion.........................................................................................................................85

CHAPITRE IV GALISATION DIFFERENCIEE PAR CLASSES DE LOCUTEURS. 87
IV.1. Classification des locuteurs..............................................................................................87
IV.1.1. Corpus..........................................................................................................................87
IV.1.2. Dfinition de l'individu : le cepstre partiel...................................................................88
IV.1.3. Classification hirarchique ascendante [Lebart, 2000a] ..............................................88
IV.1.4. Algorithme de classification ........................................................................................90
IV.1.5. Agrgation selon le critre du saut minimal ................................................................90
IV.1.6. Agrgation selon le critre de Ward gnralis ...........................................................91
IV.1.7. Consolidation de la partition........................................................................................92
IV.2. Classement des locuteurs .................................................................................................94
IV.2.1. Stratgie de classement ................................................................................................94
IV.2.2. Calcul des fonctions linaires discriminantes ..............................................................95
IV.2.3. Affectation d'une nouvelle observation .......................................................................96
IV.2.4. Application au classement en deux classes hommes / femmes ...................................97
IV.2.5. Application au classement en quatre classes..............................................................103
Table des matires

IV.3. galisation adapte multirfrences ............................................................................ 106
IV.3.1. Mise en uvre dans le domaine des cepstres partiels ............................................... 106
IV.3.2. Application la classification hommes / femmes..................................................... 107
IV.3.3. Application la classification en quatre classes ....................................................... 112
IV.4. Conclusion ...................................................................................................................... 117
CONCLUSION...........................................................................................................119
Annexe A : Consignes du test d'valuation de l'galiseur .................................. 121
Annexe B : Rsultats des Tukey tests du chapitre II ........................................... 125
Annexe C : Principes du masquage frquentiel ................................................... 127
Annexe D : Consignes du test de comparaison par paires................................. 131
Annexe E : Consignes du test de comparaison de dgradations .......................133
annexe F : valuation du bruit de quantification ................................................. 135
Annexe G : Significativit de l'cart entre deux pourcentages............................137
annexe H : Construction d'une chelle de Thurstone ......................................... 139
Annexe J : Calcul des fonctions linaires discriminantes...................................141
Rfrences bibliographiques................................................................................. 145

Table des matires


1
Introduction
De nombreuses mthodes ont t dveloppes jusqu' prsent pour corriger les dgradations les
plus critiques de la parole tlphonique : bruit [Davis, 2002], cho [Gritton, 1984][Naylor, 1994]
et, dans une moindre mesure, niveaux non optimaux [Mah, 1998].
L'cho lectrique [Gritton, 1984], provenant de la dsadaptation d'impdance des jonctions
2 fils - 4 fils des liaisons tlphoniques filaires, devient perceptible sur les liaisons longue
distance, lorsque le dlai de propagation aller-retour dpasse 30 ms. L'cho acoustique
[Gilloire, 1994] rsulte de la transmission acoustique du signal de rception du haut-parleur vers
le microphone : transmission solidoporte par la coque du terminal, notamment lorsque le
microphone et le haut-parleur sont proches, transmission arienne lors de l'utilisation du
tlphone en mode mains libres.
Au-del du bruit de codage, peu perceptible sur les liaisons classiques, le bruit peru dans
une communication tlphonique rsulte principalement de l'utilisation du terminal d'mission
dans des conditions dgrades : mode main-libres et / ou milieu ambiant bruyant, notamment
dans le cas de terminaux mobiles.
Des spcifications strictes sur les quipements garantissaient autrefois un niveau sonore
satisfaisant pour toutes les communications [UIT-T/G.121, 1993]. Le nouveau contexte de
drgulation rend toutefois plus dlicat le contrle du niveau de manire rglementaire. La
multiplication des rseaux et l'interconnexion entre rseaux d'oprateurs concurrents, ainsi que la
diversit croissante des types de terminaux tlphoniques, conduisent ainsi une augmentation
de la disparit des niveaux de parole sur les rseaux. A cette diversit des matriels s'ajoute celle
du niveau de la voix des locuteurs l'mission, qu'elle soit d'origine physiologique ou qu'elle
rsulte de la varit des conditions d'mission : environnement calme ou bruyant, combin
classique ou mode mains-libres sont autant de sources de disparit de niveaux. Ainsi est apparue
la ncessit d'un contrle automatique de niveau.
Ces trois types de dgradation (cho, bruit et niveaux non optimaux) font l'objet de
traitements correctifs pour deux raisons. D'une part, ces dgradations peuvent perturber le
fonctionnement des quipements du rseau : le bruit et l'cho, modifiant les proprits du signal
de parole, altrent le fonctionnement des codeurs et dcodeurs utilisant ces proprits ; les
disparits de niveau empchent d'exploiter correctement la dynamique des quipements. D'autre
part, ces dgradations peuvent nuire de manire critique la qualit de la communication
[Gilloire, 1994], rendant la parole inaudible, sature (selon le niveau), ou incomprhensible
(bruit et / ou cho).
Le timbre de la parole tlphonique est galement dgrad, du fait des distorsions
spectrales introduites par les parties analogiques des liaisons : outre la limitation de la bande
passante qui prive la voix de ses harmoniques d'ordre lev et de ses basses frquences, la voix
manque de prsence et semble parfois touffe. Cette dgradation est cependant peu traite, sans
doute parce qu'elle est moins critique que les prcdentes. L'altration du timbre ne perturbe pas
le fonctionnement des quipements, ne nuit pas l'intelligibilit de la communication et peut
mme tre un moyen de l'amliorer. Il en est ainsi du dbruitage, qui procde une attnuation
du signal dans les bandes de frquences o le signal parasite est trop fort.
Introduction

2
La correction du timbre de la parole tlphonique apparat donc comme un traitement "de
confort". Ceci implique d'une part que son action ne doit pas entraver celle des traitements
prioritaires que sont le dbruitage et l'annulation d'cho. D'autre part, elle doit amliorer la
qualit vocale de manire sensible, sans ajouter de dfauts tels qu'une modification du niveau ou
des bruits supplmentaires.
Une premire approche visant associer un algorithme de correction de timbre une
fonction de correction de niveau a t propose dans [Mah, 1998]. Dans ce travail prliminaire,
nous avons montr que les deux traitements peuvent cohabiter sans que l'action de l'un ne
perturbe celle de l'autre. Une tude de la combinaison de cet algorithme avec un traitement de
rduction du bruit [Lano, 1999] a donn lieu des premiers rsultats encourageants sur la
capacit des deux traitements conjuguer leurs effets de manire satisfaisante.
Au cours des travaux de thse dcrits dans le prsent mmoire, nous nous sommes
essentiellement attachs tudier en profondeur et sous ses principaux aspects le problme de la
correction des distorsions spectrales subies par le signal de parole sur un rseau tlphonique.
Cette correction vise, par un dispositif centralis dans le rseau, restaurer le timbre de la voix
peru en rception d'une liaison tlphonique.
Le mmoire est organis comme suit. Les types de distorsions spectrales corriger sont
recenss dans le chapitre I, ce qui permet de prciser les objectifs que nous assignons notre
tude de la correction de timbre. Compte tenu de ces distorsions, un algorithme d'galisation
spectrale est propos dans le chapitre II et valu la fois par des mesures objectives et
subjectivement, l'aune de l'objectif de restauration du timbre de la voix originale. L'algorithme
prsent dans le chapitre II se rvlant efficace mais source d'artefacts audibles (bruit de
quantification) et mal adapt la diversit des locuteurs, nous avons consacr une part
importante de notre tude au traitement de ces dfauts ; les travaux correspondants sont dcrits
dans les chapitres III et IV. Dans le chapitre III, nous proposons une approche perceptive du
bruit induit par l'galisation, et tentons de remdier ce bruit en le masquant. Les travaux
prsents dans le chapitre IV visent affiner la correction de timbre en effectuant une correction
diffrencie par classes de locuteurs.
Les complments utiles la comprhension de l'expos figurent dans les annexes du
mmoire.

3
Chapitre I

Contexte et objectifs
Ce chapitre tudie la nature et la place dans le rseau des distorsions spectrales l'origine des
dgradations du timbre de la parole sur les rseaux tlphoniques, ce qui permet de prciser les
objectifs que nous assignons notre tude de la correction de timbre.
I.1. Sources de dgradation du timbre de la parole sur les rseaux
tlphoniques
I.1.1. Rseau Tlphonique Commut (RTC, ie rseau filaire classique)
La Figure 1.1 prsente une liaison RTC schmatise : chaque correspondant est reli par une
ligne analogique (paire torsade) au central tlphonique le plus proche, et la liaison entre les
centraux emprunte un rseau entirement numrique. Nous considrerons que la transmission
numrique est sans erreur et que les distorsions spectrales proviennent uniquement des lments
de transmission analogique du signal de parole en bande de base. Dans ces conditions, le spectre
de la voix est affect par deux types de distorsions.

Terminal
metteur
Ligne
dabonn
Rseau
numrique
Ligne
dabonn
Terminal
rcepteur
Codage MIC :
analogique

loi A
Parole
mise
Parole
reue
transmission analogique en bande de base
t
r
a
n
s
m
i
s
s
i
o
n

n
u
m

r
i
q
u
e

Dcodage MIC :
loi A

analogique
transmission analogique en bande de base

Figure 1.1 : Liaison tlphonique schmatise sur le RTC
Chapitre I

4
Le premier type de distorsion est le filtrage passe-bande des terminaux et des points d'accs la
partie numrique du rseau. Les caractristiques typiques de ce filtrage sont dcrites par l'UIT-T
sous le nom de "systme de rfrence intermdiaire" (SRI) [UIT-T/P.48, 1988], systme dont la
rponse nominale en frquence et le gabarit sont reprsents sur la Figure 1.2 pour la partie
mission et sur la Figure 1.3 pour la partie rception. Nous appellerons respectivement, selon la
terminologie de l'UIT-T, "systme metteur" et "systme rcepteur" les parties mission et
rception du SRI.
Ces caractristiques frquentielles, issues de mesures ralises dans les annes 70, tendent
cependant devenir obsoltes. D'une part, elles refltent les liaisons longue distance
intgralement analogiques qui existaient alors. Dans le cadre du multiplexage analogique, limiter
la bande passante la fois dans les hautes et les basses frquences permettait d'accrotre la
capacit des porteuses. Ds lors que le signal est transmis sous forme numrique, une aussi forte
attnuation des basses frquences perd son intrt. D'autre part, une partie des terminaux de
l'poque utilisaient encore des microphones charbon, peu efficaces dans les basses frquences ;
les terminaux actuels attnuent moins fortement celles-ci.
C'est pourquoi l'UIT-T prconise depuis 1996 d'utiliser un SRI "modifi"
[UIT-T/P.830, 1996], dont la caractristique nominale est reprsente sur la Figure 1.4 pour la
partie mission, et sur la Figure 1.5 pour la partie rception. Entre 200 et 3400 Hz, la tolrance
est de 2,5 dB ; en dessous de 200 Hz, la dcroissance de la caractristique du systme global
doit tre d'au moins 15 dB par octave.
La seconde distorsion affectant le spectre de la voix est l'attnuation des lignes d'abonn.
Dans un modle simple de la ligne analogique locale [Cadoret, 1983], on considre que celle-ci
introduit un affaiblissement du signal dont la valeur en dB dpend de sa longueur et est
proportionnelle la racine carre de la frquence. Laffaiblissement est de 3 dB 800 Hz pour
une ligne moyenne (environ 2 km), de 9,5 dB 800 Hz pour les lignes les plus longues (jusqu'
10 km). Selon ce modle, laffaiblissement dune ligne, reprsent sur la Figure 1.6, a pour
expression :
A f A Hz
f
dB dB
( ) ( ). = 800
800
(1.1)

100 1000
-40
-35
-30
-25
-20
-15
-10
-5
0
5
10
Frquences (Hz)
E
f
f
i
c
a
c
i
t


l
'

m
i
s
s
i
o
n

(
d
B
)

4000

Figure 1.2 : Gabarit (pointills) et caractristique
nominale (trait plein) du SRI en mission

100 1000
-30
-25
-20
-15
-10
-5
0
5
10
15
20
Frquences (Hz)
E
f
f
i
c
a
c
i
t


l
a

r

c
e
p
t
i
o
n

(
d
B
)

4000

Figure 1.3 : Gabarit (pointills) et caractristique
nominale (trait plein) du SRI en rception

Contexte et objectifs

5

100 1000
-40
-35
-30
-25
-20
-15
-10
-5
0
5
10
Frquences (Hz)
E
f
f
i
c
a
c
i
t


l
'

m
i
s
s
i
o
n

(
d
B
)


Figure 1.4 : Rponse frquentielle en mission
du SRI modifi

100 1000
-30
-25
-20
-15
-10
-5
0
5
10
15
20
Frquences (Hz)
E
f
f
i
c
a
c
i
t


l
a

r

c
e
p
t
i
o
n

(
d
B
)


Figure 1.5 : Rponse frquentielle en rception
du SRI modifi

10
2
10
3
-20
-15
-10
-5
0
5
Frequences (Hz)
G
a
i
n

(
d
B
)

courte
moyenne
longue

Figure 1.6 : Rponses en frquence des lignes d'abonns selon leur longueur
A ces distorsions s'ajoute le filtrage anti-repliement du codeur MIC. Nous considrerons un
filtrage selon le gabarit des cofidec utiliss sur le rseau France Tlcom [National
Semiconductor, 1994], reprsent sur la Figure 1.7. C'est un filtre passe-bande 200-3400 Hz avec
une rponse presque plate sur la bande passante. La coupure des basses frquences vise
liminer la composante continue du signal et les signaux parasites 50 Hz rsultant de
l'alimentation lectrique.

100 1000
-15
-10
-5
0
5
Frquences (Hz)
G
a
i
n

(
d
B
)


Figure 1.7 : Gabarit du filtre anti-repliement du codeur MI C
Chapitre I

6
Au final, la voix subit une distorsion spectrale telle que reprsente sur la Figure 1.8 pour les
diffrentes combinaisons de trois types de ligne analogique en mission et en rception (soit
6 distorsions), sous l'hypothse d'quipements respectant la caractristique nominale du SRI
modifi. La voix apparat ainsi touffe si une des lignes analogiques est longue et souffre dans
tous les cas d'un manque de "prsence" d l'affaiblissement des composantes basse frquence.

100 1000
-30
-25
-20
-15
-10
-5
0
5
10
15
20
Frquences (Hz)
G
a
i
n

(
d
B
)


Figure 1.8 : Distorsions spectrales subies par la parole sur le RTC avec un SRI moyen et diffrentes
combinaisons de lignes analogiques
I.1.2. Rseau Numrique Intgration de Services (RNIS) et rseau mobile GSM
Dans le RNIS et le rseau GSM, le signal est numris ds le terminal. Les seules parties
analogiques sont les transducteurs en mission et en rception associs leurs chanes
d'amplification et de conditionnement respectives. L'UIT-T a dfini des gabarits d'efficacit en
frquence l'mission (Figure 1.9) et la rception (Figure 1.10), valables la fois pour les
tlphones numriques filaires [UIT-T/P.310, 2000] et les terminaux numriques mobiles ou
sans fil [UIT-T/P.313, 2000]. Ces gabarits, bien que moins contraignants que ceux du SRI, sont
toutefois peu respects par les constructeurs, comme l'ont montr les mesures de l'Observatoire
des Mobiles de France Tlcom R&D.


Figure 1.9 : Gabarit l'mission
pour les terminaux numriques

Figure 1.10 : Gabarit la rception
pour les terminaux numriques
Nous considrerons que la transmission numrique est sans erreur et n'introduit pas de distorsion
spectrale. La partie numrique de la liaison n'est toutefois pas exempte de distorsion pour les
rseaux GSM : le codage et le dcodage modifient lgrement l'enveloppe spectrale du signal.
Contexte et objectifs



7
Cette altration est reprsente sur la Figure 1.11 pour un bruit rose cod puis dcod en mode
EFR (Enhanced Full Rate) [Com. int., 2002].
L'effet de ces filtrages sur le timbre est principalement un affaiblissement des composantes
basse frquence, moins marqu cependant que dans le cas du RTC.

100 1000
-5
-4.5
-4
-3.5
-3
-2.5
-2
-1.5
-1
-0.5
0
Frquences (Hz)
G
a
i
n

(
d
B
)


Figure 1.11 : Distorsion spectrale introduite par le codage-dcodage GSM en mode EFR
I.2. Objectifs de la correction de timbre
Prcisons que, par la suite, nous utiliserons le terme de "timbre" sans aborder toute la
richesse contenue dans cette notion. Au vu des distorsions prsentes ci-dessus, il s'agira
essentiellement de corriger ces modifications de l'enveloppe spectrale du signal, de manire
amliorer le naturel et la prsence de la voix. L'objectif est que le timbre de la voix en
rception soit le plus proche possible de celui de la voix mise.
Les traitements sont raliss "en aveugle", c'est--dire qu'a priori aucune information sur le
signal original, sur le locuteur ou sur les caractristiques exactes des quipements l'origine des
distorsions spectrales n'est disponible. La seule hypothse est la connaissance du type de liaison :
nous nous plaons essentiellement dans le cas d'une liaison empruntant uniquement le RTC, pour
lequel les distorsions sont les plus fortes, et, partant, la correction la plus intressante.
La correction de timbre sera centralise dans le rseau, c'est--dire effectue au cur du
rseau numrique indiqu sur la Figure 1.1. L'intrt d'une telle position est multiple :
- elle permet une allocation dynamique des ressources de calcul aux communications, ce
qui est plus conomique qu'un traitement ddi chaque liaison ;
- elle est dj utilise par les annuleurs d'cho lectrique [UIT-T/G.168, 1999] et les autres
dispositifs de rehaussement de la parole [UIT-T/G.VED, 2002], ce qui permet de limiter
les besoins matriels de l'implantation ;
- pour un oprateur, elle permet de matriser la qualit du service fourni. La conception des
terminaux chappe en effet largement au contrle des oprateurs (si ce n'est par le biais
des normalisations qui imposent des spcifications plancher), alors qu'elle influe sur la
qualit perue par les abonns. Effectuer les traitements dans le rseau permet
Chapitre I

8
l'oprateur d'offrir la qualit vocale souhaite indpendamment des choix techniques des
constructeurs de terminaux. Les amliorations de qualit peuvent ainsi tre dployes trs
rapidement vers le public le plus large, n'tant pas soumises la vitesse de
renouvellement des terminaux.
Il est souhaitable que les traitements soient compatibles avec les traitements des dgradations de
la parole existants dbruitage, annulation d'cho, correction de niveau. Une premire approche
du problme, dans le cadre d'un projet de France Tlcom R&D de plate-forme centralise
combinant les diffrents traitements correctifs de la parole, a fait apparatre que la rsolution du
problme de la correction du timbre en aveugle ncessite en soi une exploration approfondie.
Cela nous a conduit l'tudier isolment, sans toutefois perdre de vue la ncessaire liaison avec
les autres traitements des dgradations. Cette approche justifie une fois de plus le choix
prioritaire de l'hypothse d'une liaison sur le RTC : ce rseau tant le moins sujet des
utilisations dans des conditions dgrades, les traitements autres que la correction de timbre sont
gnralement inutiles, laissant le champ libre un traitement exclusivement tourn vers la
restauration du timbre original des locuteurs.

9
Chapitre II

galisation spectrale aveugle
Aprs une tude des dispositifs d'galisation existants visant corriger les distorsions spectrales
voques au chapitre I, le prsent chapitre propose une nouvelle mthode d'galisation spectrale
aveugle, l'galisation adapte. Nous avons tudi cette mthode par simulations et nous l'avons
value par des mesures objectives de distorsion spectrale, par des tests subjectifs formels et par
une mise en uvre en temps rel.
II.1. tat de l'art
La compensation des distorsions spectrales introduites dans le signal de parole par les divers
lments de la liaison tlphonique est ralise par des dispositifs base d'galisation. Celle-ci
peut tre fixe ou s'adapter en fonction des conditions de transmission.
II.1.1. galisation fixe
Des dispositifs d'galisation centralise ont t proposs dans [Bowker, 1993] et [Ho, 1993]. Ces
galiseurs sont des filtres fixes qui amplifient les basses frquences attnues par l'metteur.
Bowker propose par exemple un gain de 10 15 dB sur la bande 100-300 Hz [Bowker, 1993].
Ces dispositifs, tels qu'ils sont mis en uvre, prsentent plusieurs inconvnients :
L'galiseur ne compense que le filtrage de l'metteur, de sorte qu' la rception, les
composantes basse-frquence restent fortement affaiblies par le filtrage de rception
modlis par le SRI.
La non-adaptabilit de l'galisation ne peut pas permettre une correction satisfaisante dans
tous les cas. Si les conditions relles de transmission sont trop diffrentes de celles corriges
par le dispositif, celui-ci peut amplifier insuffisamment, ou au contraire exagrment, les
composantes basse frquence. D'autre part, l'galiseur laisse subsister d'ventuelles autres
altrations du timbre dues des modifications des parties moyennes et hautes frquences du
spectre de la voix par la liaison analogique.
II.1.2. galisation adaptative
D'autres dispositifs permettent d'galiser le signal de parole de manire adaptative, pour
amliorer soit la qualit vocale, soit les performances de systmes de reconnaissance
Chapitre II

10
automatique de la parole. Le principe gnral de ces galiseurs est de rapprocher le spectre de la
parole traite d'un spectre de rfrence.
Blanchiment reformage
Le dispositif dcrit dans [De Jaco, 1997] vise corriger la rponse frquentielle non idale d'un
transducteur de tlphone mobile. L'galiseur est dcrit comme tant plac entre le convertisseur
analogique-numrique et le codeur CELP, mais peut tre situ aussi bien dans le rseau que dans
le terminal. L'une des mthodes consiste blanchir le signal puis le reformer spectralement selon
un spectre cible pr-dfini.
Les coefficients du filtre blanchisseur sont actualiss chaque trame selon la procdure
suivante. La premire tape est le calcul de "coefficients d'autocorrlation long terme" R
LT
:
( ) ( ) ( ) ( )
LT LT
, 1, 1 , R n i R n i R n i = + , (2.1)
avec R
LT
(n,i) i
me
coefficient d'autocorrlation long terme la n
me
trame, R(n,i) i
me
coefficient
d'autocorrlation ( court terme) spcifique la n
me
trame, et constante de lissage fixe par
exemple 0,995, ce qui correspond une constante de temps de 10 s pour une frquence
d'chantillonnage de 8 kHz. De ces coefficients sont dduits, selon l'algorithme de Levinson, les
"coefficients LPC long terme", qui sont les coefficients du filtre blanchisseur. C'est donc le
spectre long terme du signal qui est blanchi par ce premier filtre.
la sortie de ce filtre, le signal est filtr par un filtre fixe qui lui imprime les
caractristiques spectrales long terme "idales", i.e. celles qu'il aurait la sortie d'un
transducteur ayant la rponse frquentielle "idale". Ces deux filtres sont complts par un gain
multiplicatif gal au rapport entre les nergies long terme de l'entre du blanchisseur et de la
sortie du deuxime filtre.
L'intrt de cette mthode est d'exploiter les coefficients d'autocorrlation ( court terme),
qui sont dj calculs dans le codeur. Cet intrt disparat dans notre cas, o la mthode devra
tre gnralisable tous types de rseaux et adapte de prfrence au RTC.
Adaptation du niveau par sous-bande
Une autre mthode consiste diviser le signal en sous-bandes et, pour chaque sous-bande,
appliquer un gain multiplicatif de manire atteindre une nergie cible, ce qui revient
considrer le spectre de rfrence comme une distribution d'nergies de sous-bande.
Dans la ralisation prsente dans [De Jaco, 1997], le signal est filtr par un banc de filtres.
On calcule l'nergie long terme E
i
de chaque i
me
sortie de celui-ci par un lissage de l'nergie
court terme s
i
du signal de sous-bande, selon l'quation (2.2) :
( ) ( ) ( ) ( )
2
1 1
i i i
E n E n s n = + , (2.2)
o est une constante de lissage correspondant une constante de temps de 10 s. Le gain
appliquer dans la sous-bande est alors dfini comme le rapport entre l'nergie cible de la sous-
bande et l'nergie long terme ainsi calcule.
Dans le cadre de l'amlioration de la robustesse des systmes de reconnaissance vocale,
une autre ralisation a t tudie par C. Mokbel et al [Mokbel, 1996]. Les performances de la
reconnaissance de la parole travers le rseau tlphonique sont en effet sensiblement dgrades
galisation spectrale aveugle

11
par le filtrage de la ligne tlphonique, ce qui a conduit au dveloppement de plusieurs
techniques de compensation de l'effet de celle-ci. L'une de ces mthodes est l'galisation
adaptative aveugle dans le domaine spectral.
La reconnaissance de parole utilise typiquement les coefficients cepstraux calculs selon
lchelle des frquences MEL, les Mel Frequency Cepstral Coefficients (MFCC). Ceux-ci sont
obtenus selon les tapes suivantes :
- transforme de Fourier rapide de la trame courante du signal ;
- regroupement des raies spectrales en 24 bandes critiques [Zwicker, 1981] rparties
selon une chelle perceptuelle de frquences MEL et calcul de l'nergie V
y
(i) de
chaque i
me
bande critique ;
- transforme de Fourier inverse du logarithme du vecteur V
y
.
L'effet convolutif de la liaison tlphonique se traduit par une translation des vecteurs cepstraux.
Cette translation, variable suivant les appels, rduit la capacit de discrimination dans lespace
cepstral.
Lgalisation adaptative est ralise dans le domaine spectral suivant le schma de la
Figure 2.1. Lnergie V
y
(i) de chaque bande critique i est multiplie par un gain adaptatif W(i)
pour donner lnergie de bande critique galise V
n
(i). Le gain est adapt selon l'algorithme du
gradient stochastique, par minimisation de l'erreur quadratique moyenne, l'erreur E(i) tant
dfinie comme la diffrence entre V
n
(i) et une nergie de rfrence R(i) dfinie pour chaque
sous-bande.




















Figure 2.1 : galisation aveugle dans le domaine spectral
W (1)
V
n
(1)
V
n
(D)
V
y
(1)
Existant dans le systme
de reconnaissance
FFT
V
y
(D)
Banc de
filtres
W (D)
y(n)
Adaptation
selon :

E(i)
=R(i) V
n
(i)
R(f) rfrence gale au
spectre long terme
Chapitre II

12
Diffrents algorithmes du gradient stochastique ont t valus [Mauuary, 1996] pour la mise en
uvre de ladaptation. Le plus performant, permettant une convergence la mme vitesse sur
toutes les sous-bandes, est lalgorithme du gradient normalis, qui scrit, pour chaque sous-
bande i :
( ) ( )
( )
( )
( )
1 n n n
y
R i
W i W i W i
V i

+
| |
= +
|
|
\ .
(2.3)
o n est l'indice de trame et est le pas d'adaptation.
Quelques prcautions doivent tre prises pour assurer la convergence :
- l'nergie du spectre de rfrence doit tre module par celle de la trame, de manire
respecter les variations naturelles du niveau court terme de la parole ;
- le pas dadaptation choisi doit tre assez grand pour permettre une convergence rapide et
assez petit pour ne pas perturber les variations locales du spectre lies au son prononc.
Le filtre adaptatif converge en 2 s environ et permet une nette amlioration des performances en
reconnaissance de la parole [Mokbel, 1996].
Soustraction cepstrale
La dviation des MFCC peut tre galement corrige par la mthode de soustraction
cepstrale [Mokbel, 1993, 1996]. Si lon pose s(t) le signal de parole original, n(t) le bruit de fond
lmission, h(t) la fonction de transfert du canal tlphonique (considr comme stationnaire),
p(t) celle du filtre de praccentuation qui prcde le sytme de reconnaissance et y(t) le signal
reu, on a :
( ) ( ) ( ) ( ) ( ) ( ) y t s t n t h t p t = + . (2.4)
Le filtre de praccentuation est un filtre RIF passe-haut d'ordre 1 compensant la pente de
-6 dB / octave du spectre moyen de la parole. En notant x(t) le signal original praccentu :
( ) ( ) ( ) x t s t p t = , (2.5)
l'quation (2.4) s'exprime :
( ) ( ) ( ) ( ) ( ) ( ) y t x t n t p t h t = + . (2.6)
Le rapport signal bruit tant suppos lev, on nglige l'influence du bruit. En appelant C
x
, C
h

et C
y
les cepstres respectifs de x, h et y, l'quation (2.6) se traduit dans le domaine cepstral par :
( ) ( ) ( )
y x h
C C C = + . (2.7)
Sur la Figure 2.2, les vecteurs acoustiques de trois appels diffrents ont t projets sur le plan
des deux premiers coefficients cesptraux, de mme que les cepstres moyens de ces appels
[Mokbel, 1993]. Il apparat que la translation des vecteurs cepstraux de chaque appel correspond
au vecteur du cepstre moyen de l'appel. Cette exprience montre que le cepstre moyen du signal
reu praccentu constitue une bonne estimation du cepstre du canal.
galisation spectrale aveugle

13
Ce rsultat est lorigine de la mthode de soustraction cepstrale : en notant
x
() le
cepstre estim du signal de parole original praccentu et ( )
y
C la moyenne temporelle de C
y
,
( ) ( ) ( )

x y y
C C C = . (2.8)

Figure 2.2 : Projection des vecteurs acoustiques de trois appels diffrents et des cepstres moyens de
ces appels sur le plan des deux premiers coefficients cepstraux [Mokbel, 1993]
Cette mthode simple permet une nette amlioration des performances en reconnaissance de la
parole. Les rsultats exprimentaux sont mme lgrement suprieurs ceux de l'galisation
adaptative. Elle est cependant considre comme une mthode off-line , puisque 2 4
secondes de parole sont ncessaires pour estimer le cepstre du canal. Il est noter que les
performances en reconnaissance sont meilleures quand :
- le cepstre du canal est estim uniquement sur de la parole (sans quune estimation sur un
mlange parole+silence ne soit rdhibitoire) ;
- on soustrait au cepstre uniquement les 6 premiers coefficients cepstraux moyens, les
coefficients dindice lev tant dpendants du locuteur.
II.2. L'galisation adapte : principes et mise en uvre
II.2.1. Approche retenue
Dans l'optique de l'association de l'galiseur un dispositif de rduction de bruit, il peut tre
avantageux de privilgier une mthode calculant l'galiseur dans le domaine frquentiel, puisque
la rponse frquentielle des dbruiteurs que nous envisageons d'utiliser (mthode d'Ephram et
Mallat notamment [Capp, 1994]) est calcule partir des transformes de Fourier des trames
successives de signal.
Chapitre II

14
A cet gard, nous ne retenons pas la mthode de blanchiment-reformage : l'utilisation des
coefficients d'autocorrlation dans le calcul du filtre blanchisseur, avantageuse dans le cas d'un
codeur CELP (qui utilise ces coefficients pour le calcul des coefficients LPC), perd son intrt
dans le cas d'un codeur MIC, o ces coefficients devraient tre calculs spcialement pour
l'galisation.
De mme, la correction du gain par sous-bande en utilisant les sorties temporelles d'un
banc de filtres, envisageable dans le cas d'un galiseur isol, n'est pas retenue. Si une correction
par sous-bande doit tre applique, le regroupement des raies spectrales du signal, qui sont
ventuellement dj disponibles si l'on ralise un dbruitage conjoint, est a priori plus
avantageux en termes de complexit.
La mthode d'galisation adaptative aveugle dans le domaine spectral pourrait tre utilise.
Son application est cependant dlicate : la modulation du spectre de rfrence par l'nergie de
trame et le choix du pas d'adaptation ncessitent un rglage fin, sous peine de dgrader
sensiblement l'galisation.
Au vu des bons rsultats et de la simplicit de la mthode de soustraction cepstrale, c'est
finalement de cette mthode que nous nous sommes inspirs, en en transposant le principe dans
le domaine frquentiel.
II.2.2. Principes
La chane de traitement envisage dans la mthode de soustraction cepstrale en reconnaissance
vocale est reprsente sur la Figure 2.3. Selon cette mthode, le cepstre du canal h peut tre
estim par :
( ) ( )

h r
C C = , (2.9)
o ( ) r C est la moyenne temporelle du cepstre du signal r reu par le systme de reconnaissance
(aprs pr-accentuation). Dans le domaine frquentiel, ce rsultat se traduit par :
( ) ( )
g
2
2

H f R f = (2.10)
o est la rponse frquentielle estime du canal et |R(f)|
2
est le spectre court terme de r,
g

dsignant pour une variable a sa moyenne temporelle gomtrique.
Dans le cas o aucun filtre de pr-accentuation ne serait utilis, l'estimation du canal
devrait se fonder sur la sortie r' du canal. L'quation (2.10) deviendrait alors :
( ) ( ) ( )
g
2
2 2

' H f P f R f = , (2.11)
o P(f) est la rponse frquentielle du filtre de pr-accentuation p et |R'(f)|
2
est le spectre court
terme de r'.



galisation spectrale aveugle

15





Figure 2.3 : Reconnaissance vocale en rception d'une liaison tlphonique
Gnralisons cette mthode une liaison tlphonique complte telle que reprsente sur la
Figure 1.1 et, de manire plus schmatique, sur la Figure 2.4. La rponse frquentielle globale
G(f) du canal analogique (systme d'mission, systme de rception et lignes analogiques) peut
ainsi tre estime par :
( ) ( ) ( )
g
2
2 2

G f P f Y f = , (2.12)
avec |Y(f)|
2
le spectre court terme du signal de rception y.





Figure 2.4 : Filtrages d'une liaison tlphonique et place de l'galiseur
Ce rsultat peut galement tre trouv simplement de la manire suivante :

2 2 2
( ) ( ) ( ) Y f G f S f = , (2.13)
o |S(f)| est le spectre court terme du signal mis s. Si le canal analogique est suppos invariant
dans le temps,
( ) ( )
(g) (g)
2 2 2
( ) Y f G f S f = , (2.14)
la moyenne temporelle pouvant tre soit arithmtique soit gomtrique. Sous l'hypothse
( )
( )
(g)
2
2
1
S f
P f
, (2.15)
on retrouve bien le rsultat (2.12). Le spectre moyen original du locuteur courant n'tant pas
connu, une approximation de ce type est ncessaire. Cette approximation par l'inverse de la
rponse du filtre de pr-accentuation est toutefois trs grossire. Pour limiter l'erreur de
l'approximation de la moyenne du spectre du signal d'mission, nous approcherons celle-ci par le
spectre moyen de la parole dfini par l'UIT [UIT-T/P.50, 1998]. Ce spectre moyen a t calcul
partir de mesures sur un grand nombre d'chantillons de parole prononcs par diffrents
locuteurs dans 20 langues.
Nous appellerons ce spectre spectre de rfrence et le noterons
ref
(f). Par ailleurs, nous
appellerons dsormais spectre long terme d'un signal de parole x, not
x
(f), la moyenne

Canal
analogique
d'mission
Position
prvue pour
l'galiseur
Canal
analogique
de rception
Signal mis
s
x
Signal reu
y
Canal
h
Filtre de
pr-accentuation
p
Systme de
reconnaissance
vocale
Signal mis
s r' r
Chapitre II

16
temporelle (arithmtique) de son spectre court terme |X(f)|
2
. Ainsi, la rponse frquentielle de
l'galiseur compensant le canal analogique G est dfinie par :

ref
( )
| ( ) |
( )
y
f
EQ f
f

= (2.16)
Cette formule est valable pour un galiseur plac en rception, aprs le transducteur lectro-
acoustique, ce qui d'une part est irraliste et d'autre part ne correspond pas au cas de figure
envisag ici, o l'galiseur doit tre centralis dans le rseau comme indiqu sur la Figure 2.5. La
grandeur
y
est donc en fait le spectre long terme du signal de rception s'il n'y avait pas
d'galiseur dans le rseau. Cette valeur n'tant pas directement accessible, on l'exprime en
fonction de
x
, spectre long terme de l'entre x de l'galiseur :
( ) ( ) ( ) ( )
2 2
_ _
y x
f L RX f S RX f f = , (2.17)
avec L_RX la rponse frquentielle de la ligne de rception et S_RX la rponse frquentielle du
systme de rception. Ainsi,

ref
( ) 1
| ( ) |
_ ( ). _ ( ) ( )
x
f
EQ f
S RX f L RX f f

= . (2.18)


Terminal
metteur
Ligne
dabonn
galiseur
Ligne
dabonn
Terminal
rcepteur
Codage MIC :
analogique

loi A Parole
mise
Parole
reue
transmission analogique en bande de base
r

s
e
a
u

n
u
m

r
i
q
u
e

Dcodage MIC :
loi A

analogique
transmission analogique en bande de base
loi A linaire
linaire loi A

Figure 2.5 : Position de l'galiseur dans le rseau
galisation spectrale aveugle

17
Les grandeurs L_RX et S_RX sont inconnues a priori. On peut les remplacer par des valeurs
moyennes, auquel cas on perd cependant l'avantage du caractre adaptatif de l'galiseur. On peut
aussi imaginer que, l'galiseur tant destin amliorer le confort d'coute de l'abonn de
rception, les caractristiques de sa ligne et de son terminal ont t pralablement mesures, de
sorte que dans ce cas L_RX et S_RX sont connues. L'galisation n'est donc aveugle que pour la
partie de la liaison en amont de l'galiseur. Quelle que soit la solution retenue, nous ferons
dsormais l'hypothse d'une ligne de rception moyenne et d'un systme de rception
respectant la caractristique nominale du SRI modifi.
Nous appellerons cet galiseur galiseur adapt, en ce qu'il s'adapte automatiquement au
canal de transmission. L'adaptation tant fonde sur la simple estimation de la moyenne du
spectre du signal trait, nous utilisons ce terme plutt que le qualificatif "adaptatif", qui dsigne
habituellement une correction utilisant une boucle de contrle rtroactif.
II.2.3. Bande de frquences d'galisation
L'attnuation des composantes du signal en dehors de la bande 200-3400 Hz par le systme
d'mission et par le filtre anti-repliement du codeur MIC est telle que le rapport signal bruit de
quantification est faible pour ces composantes. Ainsi, la mthode de rehaussement prsente
n'est pas envisageable en de de 200 Hz et au-del de 3400 Hz : elle conduirait une
amplification du bruit haute et basse frquence.
Par ailleurs, comme la pente de la caractristique des systmes d'mission et de rception
peut tre forte entre 200 et 300 Hz ainsi qu'entre 3150 et 3400 Hz, la rponse frquentielle de
l'galiseur devra a priori avoir une pente raide dans ces bandes. De manire limiter le nombre
de coefficients du filtre, nous ne chercherons pas compenser l'attnuation de 3150 3400 Hz,
bande de frquence dont la restauration est moins critique, d'un point de vue perceptif, que celle
des basses frquences.
Au final, l'galiseur corrigera les distorsions spectrales du canal analogique sur la bande
[F
c
-3150 Hz], avec F
c
une frquence de coupure basse comprise entre 200 et 300 Hz, dont le
choix sera discut dans la section II.2.5.
II.2.4. Ncessit d'une pr-galisation
Dans l'expos des principes de l'galiseur adapt, nous avons fait l'hypothse que, pour tous les
locuteurs, le spectre long terme du signal original est identique au spectre moyen dfini par
l'UIT. En ralit, l'allure gnrale du spectre long terme d'un signal de parole pour un locuteur
quelconque est proche de celle du spectre de rfrence, mais elle est bien moins lisse. La rponse
frquentielle de l'galiseur adapt comportera donc une erreur correspondant l'cart entre ces
deux spectres exprims en dB. La Figure 2.6 reprsente cette erreur pour un locuteur masculin et
une locutrice. Pour chaque locuteur, le spectre long terme a t calcul comme la moyenne, sur
un texte lu d'une dure totale d'activit vocale de 20 s environ, des spectres de puissance des
trames successives d'activit vocale, chaque trame reprsentant 32 ms et recouvrant la prcdente
de 50 %.
Une telle erreur spectrale se traduit par une nette dgradation du timbre (effet de tonneau).
Toutefois, l'allure gnrale de la courbe d'erreur est plate. Par consquent, en lissant fortement
la rponse frquentielle de l'galiseur donne par l'quation (2.18), il doit tre possible
d'obtenir une courbe d'erreur spectrale presque plate, correspondant une distorsion non
Chapitre II

18
perceptible. Ce lissage correspond la limitation de la soustraction cepstrale aux premiers
coefficients dans [Mokbel, 1993].

100 1000
10
20
30
40
50
60
70
Frquences (Hz)
(
d
B
)


100 1000
10
20
30
40
50
60
70
Frquences (Hz)

Figure 2.6 : Spectres long terme d'un locuteur ( gauche, trait plein) et d'une locutrice ( droite,
trait plein) vs spectre moyen UI T (tirets). Erreur d'approximation du spectre du locuteur par le
spectre moyen de l'UI T (pointills)
Le lissage est cependant contradictoire avec la raideur du filtre ncessaire la compensation des
distorsions de la liaison tlphonique. La Figure 2.7 reprsente la rponse frquentielle, sur la
bande 200-3150 Hz, que devrait avoir un galiseur corrigeant sur la bande 200-3150 Hz une
liaison tlphonique moyenne. Nous dfinissons comme "moyenne" une liaison dont la partie
analogique est compose de systmes d'mission et de rception conformes aux caractristiques
nominales du SRI modifi [UIT-T/P.830, 1996], ainsi que de deux lignes d'abonn moyennes
(cf. Figure 1.6). Un lissage assez fort pour attnuer des fluctuations telles que celles de la
Figure 2.6 est incompatible avec la raideur de la rponse frquentielle de la Figure 2.7 dans les
basses frquences.

100 1000
-4
-2
0
2
4
6
8
10
12
14
Frquences (Hz)
A
m
p
l
i
t
u
d
e

(
d
B
)


Figure 2.7 : Rponse frquentielle idale d'un galiseur adapt une liaison tlphonique moyenne
Cette contradiction est rsolue de la manire suivante. L'UIT ayant dfini un gabarit dont la
largeur nexcde pas 5 dB sur la bande 200-3150 Hz, le filtrage SRI est approximativement
connu sur cette bande, en admettant que les terminaux respectent ce gabarit. D'autre part, la
rponse en frquence des lignes analogiques fluctue autour de celle d'une ligne moyenne. Par
galisation spectrale aveugle

19
consquent, il nest pas ncessaire de compenser le filtrage du canal analogique entirement par
une galisation aveugle : nous proposons donc d'effectuer d'abord une pr-galisation fixe
inversant la fois les caractristiques nominales du SRI modifi et celles de deux lignes
d'abonn moyennes, puis de complter lgalisation de manire adapte selon les principes
dcrits dans la section II.2.2. Le rle de l'galiseur adapt consiste ainsi corriger la
dsadaptation entre le pr-galiseur fixe et les conditions relles de transmission, ce qui
implique une rponse en frquence adoucie, compatible avec le lissage voqu ci-dessus.
Notons que les quations (2.16) (2.18) restent valables, en notant x la sortie du pr-galiseur.
Nous dsignerons dsormais sous le terme galiseur (respectivement galisation) la
combinaison du pr-galiseur et de l'galiseur adapt (respectivement de la pr-galisation
et de l'galisation adapte).
II.2.5. Mise en uvre
Le fonctionnement de la double structure pr-galiseur / galiseur adapt que nous proposons est
dcrit ci-aprs et schmatis sur la Figure 2.9.
Pr-galiseur
Le pr-galiseur est un filtre fixe, dont la rponse frquentielle, sur la bande [F
c
-3150 Hz], est
l'inverse de la rponse globale de la partie analogique du canal moyen dfini en II.2.4. La raideur
de la rponse frquentielle de ce filtre implique une rponse impulsionnelle longue ; c'est
pourquoi, de manire limiter le retard introduit par le traitement, le pr-galiseur est ralis
sous forme d'un filtre RII d'ordre 20 par la mthode de Yule-Walker. La Figure 2.8 reprsente la
rponse frquentielle du pr-galiseur pour trois valeurs de F
c
. La dispersion des retards de
groupe est infrieure 2 ms, de sorte que la distorsion de phase rsultante n'est pas perceptible.

100 1000
-5
0
5
10
15
Frquences (Hz)
G
a
i
n

(
d
B
)

Fc = 200 Hz
Fc = 250 Hz
Fc = 300 Hz

Figure 2.8 : Rponse frquentielle du pr-galiseur pour diffrentes F
c
galiseur adapt
La sortie x du pr-galiseur est analyse par trames de 32 ms, avec un recouvrement inter-trames
de 50 %. L'galiseur adapt est un filtre RIF dont les coefficients sont adapts chaque trame
d'activit vocale selon l'quation (2.18), comme dcrit ci-aprs et reprsent sur la Figure 2.9.
Chapitre II

20
D'aprs [Mokbel, 1993], 2 4 secondes d'activit vocale sont ncessaires pour estimer le
canal. Par consquent, le spectre long terme de x,
x
, est d'abord calcul ( partir de l'instant
initial de fonctionnement) sur une fentre temporelle croissant de 0 4 s d'activit vocale, puis
ajust rcursivement chaque trame d'activit vocale, ce qui se traduit par la formule gnrique
suivante :
( ) ( ) ( ) ( ) ( ) ( )
2
, , 1 , 1
x x
f n n X f n n f n = + , (2.19)
o
x
(f,n) est le spectre long terme de x la n
me
trame d'activit vocale, X(f,n) la transforme
de Fourier de la n
me
trame d'activit vocale, et (n) est dfini par l'quation (2.20). En notant N
le nombre de trames dans 4 s,
( )
( )
1
min ,
n
n N
= . (2.20)
La rponse frquentielle de l'galiseur est alors calcule selon l'quation (2.18) pour les
frquences comprises entre F
c
et 3150 Hz. Comme le pr-galiseur n'effectue aucune
compensation de l'affaiblissement introduit par la liaison en dehors de cette bande, appliquer
l'quation (2.18) en de de F
c
et au del de 3150 Hz reviendrait faire raliser cette
compensation par l'galiseur adapt, avec des valeurs de |EQ| trs leves en dehors de ces
limites, alors que nous avons choisi de restreindre l'galisation la bande F
c
-3150 Hz. C'est
pourquoi les valeurs de |EQ| hors de cette bande de frquences sont calcules par extrapolation
linaire de la valeur en dB de |EQ|
[Fc-3150 Hz]
, note EQ
dB
par la suite, de la manire suivante. Pour
chaque indice de frquence k, l'approximation linaire de EQ
dB
s'exprime par :
( )
1 2 dB
~
EQ k a a k = + (2.21)
Les coefficients a
1
et a
2
sont choisis de manire minimiser l'erreur quadratique de
l'approximation sur l'intervalle F
c
-3150 Hz, dfinie par
( ) ( )
2
1
2
dB dB
~ k
k k
e EQ k EQ k
=
| |
| =
|
\ .

(2.22)
o k
1
et k
2
sont les indices de frquence correspondant respectivement F
c
et 3150 Hz. Les
coefficients a
1
et a
2
sont donc dfinis par :

( )
( )
2 2
1 1
2 2 2
1 1 1
1
2 1 dB
1
2 2
dB
1
k k
k k k k
k k k
k k k k k k
k k k EQ k
a
a
k k kEQ k

= =
= = =
| | | |
+
| |
| |
| |
=
|
| |
\ .
| |
| |
\ . \ .


(2.23)
Les valeurs de |EQ|, en dB, hors de la bande Fc-3150 Hz, sont alors calcules partir de la
formule (2.21).
La caractristique en frquence ainsi obtenue doit tre lisse. Comme le filtrage doit tre
ralis dans le domaine temporel, le moyen le plus simple est de multiplier par une fentre troite
la rponse impulsionnelle correspondante. Celle-ci est obtenue par une IFFT de |EQ| suivie d'une
galisation spectrale aveugle

21
symtrisation, de manire obtenir un filtre causal phase linaire. La fentre utilise est
typiquement une fentre de Hamming de longueur 15 centre sur le pic de la rponse
impulsionnelle.



























Figure 2.9 : Schma de principe de l'galiseur adapt
Pr-galiseur
DAV
0 5 10 15
0
0.2
0.4
0.6
0.8
1
Fentre de pondration
(Hamming, 256 points)
FFT
| . |
2
Moyenne
(q. 2.19)

Extrapolation
hors de Fc-3150 Hz
ref
( )
_ ( ). _ ( )
f
S RX f L RX f

Symtrisation
Filtre RIF
(galiseur
adapt)
IFFT
10
2
10
3
50
60
70
80
90
100
110
Frquences (Hz)
( d
B
)

Spectre long-terme de x
10
2
10
3
-10
-5
0
5
10
15
Frquences (Hz)
( d
B
)

Rponse frquentielle
de l'galiseur avant lissage
0 5 10 15
-0.5
0
0.5
1
1.5
2

Rponse impulsionnelle
0 50 100 150 200 250
-0.5
0
0.5
1
1.5
2

0 5 10 15
0
0.2
0.4
0.6
0.8
1
Fentre de troncature
(Hamming, 15 points)

x(n)
activation
/ dsactivation
X(f)
|X(f)|
2

x
(f)
eq(n)
Signal galis

(actualisation des coefficients


de l'galiseur adapt
uniquement si DAV=1)
Chapitre II

22
II.2.6. Mise en uvre en temps rel
Nous prsentons ici l'implantation en temps rel de l'galiseur dcrit ci-dessus dans le cadre
d'une plate-forme exprimentale de traitements de la parole centraliss dans le rseau
tlphonique, "Mainate" (Machine A Intgrer de Nouveaux Algorithmes de Traitement du signal
en Exploitation). Cette plate-forme, dveloppe France Tlcom R&D, intgre divers
traitements : correction de niveau, correction de timbre, rduction de bruit et annulation d'cho.
Architecture matrielle
Comme illustr sur la Figure 2.10, la plate-forme est installe sur un PC reli par une liaison
RNIS 30 voies l'autocommutateur exprimental du laboratoire, lui-mme reli celui du site
lannionnais de France Tlcom R&D. L'tablissement d'une communication utilisant les
fonctionnalits de Mainate se fait en appelant la plate-forme, qui tablit alors entre l'appelant et
le correspondant demand une liaison passant par elle. Les traitements sont effectus par le
processeur de traitement du signal (DSP).






















Figure 2.10 : Architecture matrielle de la plate-forme "Mainate"
Intgration algorithmique des traitements
Au moment de l'intgration de la fonction de correction de timbre la plate-forme, seule la
fonction de rduction de bruit tait implante. Nous avons donc tudi la combinaison du
dbruitage et de l'galisation. La fonction de rduction de bruit est implante sous forme d'un
filtre RIF 65 coefficients, dont la rponse frquentielle est calcule selon les principes du
filtrage de Wiener [Scalart, 2001]. La rponse impulsionnelle est calcule partir de cette
rponse frquentielle selon la mme mthode que celle utilise pour notre galiseur adapt
Contrleur
Carte de gestion des
communications
Contrleur DSP
DSP
pipe
bus
Liaison RNIS
30 voies
Autocommutateur
du laboratoire
Autocommutateur
du site
Lignes
analogiques
PC
galisation spectrale aveugle

23
(TFD inverse, symtrisation de la rponse impulsionnelle obtenue, puis troncature par une
fentre de longueur 65 centre sur le pic de la rponse impulsionnelle).
La premire combinaison tudie a t une mise en cascade du pr-galiseur, de l'galiseur
adapt et du filtre de dbruitage, selon le schma de la Figure 2.11.




Figure 2.11 : Premire combinaison de traitements
Le signal en rception d'une liaison simule avec cette combinaison de traitements au centre du
rseau est affect de "clics", qui correspondent des discontinuits de la forme d'onde lors de
changements de trame d'analyse dans l'algorithme de dbruitage. Ces discontinuits apparaissent
galement lorsque l'galiseur n'est pas prsent, mais elles sont moins marques et non
perceptibles.
Elles s'expliquent par ce que la rponse du filtre de dbruitage varie assez rapidement d'une
trame la suivante. Si l'on applique un son pur les gains successifs du dbruiteur la frquence
de ce son, les discontinuits sont d'autant plus perceptibles que le son est grave. Or le pr-
galiseur suramplifie les composantes basse frquence de la parole, de manire compenser de
manire anticipe leur attnuation en rception. Cette prdominance des composantes basse
frquence dans le signal l'entre du dbruiteur explique les discontinuits perceptibles.
Ce phnomne est vit en plaant le dbruiteur avant le pr-galiseur. Ainsi, les
discontinuits sont mme lisses par l'effet passe-bas du pr-galiseur.
Nous souhaitons par ailleurs que l'galiseur adapt et le dbruiteur soient accols, en vue
d'un traitement combin. Nous plaons donc le pr-galiseur aprs l'galiseur adapt, comme
indiqu sur la Figure 2.12. L'quation (2.18) devient alors :

ref
( ) 1
| ( ) |
_ ( ). _ ( ). _ ( ) ( )
x
f
EQ f
PRE EQ f S RX f L RX f f

= , (2.24)
o PRE_EQ est la rponse frquentielle du pr-galiseur et
x
est le spectre long terme de
l'entre x du dispositif.
Le dbruiteur et l'galiseur adapt utilisent les mmes fonctions d'analyse du signal et de
construction de la rponse impulsionnelle du filtre. Par consquent, nous proposons de les
combiner en un filtre unique selon le schma de la Figure 2.13. Le signal est analys par trames
de 32 ms se recouvrant de 50 %. A chaque trame,
- si une activit vocale est dtecte (DAV = 1), la rponse impulsionnelle de l'galiseur
adapt eq est actualise selon la procdure dcrite dans la section II.2.5 ;
-
la rponse impulsionnelle du dbruiteur deb est calcule selon la mthode dcrite dans
[Scalart, 2001], la densit spectrale du bruit
b
tant actualise si aucune activit vocale
n'est dtecte (DAV = 0).

Les rponses eq et deb sont alors convolues pour obtenir les coefficients du filtre de dbruitage
et d'galisation adapte. Il est noter que selon cette procdure, l'galiseur adapt et le dbruiteur
Pr-galiseur Egaliseur adapt Dbruiteur
Chapitre II

24
sont calculs indpendamment l'un de l'autre et qu'aucun ne perturbe le fonctionnement de
l'autre : leurs effets respectifs sont simplement superposs.




Figure 2.12 : Combinaison de traitements vitant les discontinuits du signal







































Figure 2.13 : Schma de principe de l'galisation combine au dbruitage
Pr-galiseur
DAV
Fentre de pondration
FFT
| . |
2
Moyenne
(q. 2.16)

Extrapolation
hors de Fc-3150 Hz
ref
( )
_ ( ). _ ( ). _ ( )
f
PRE EQ f S RX f L RX f

Symtrisation
Filtre RIF
(galisation
adapte
et dbruitage)
IFFT
Fentre de troncature
(Hamming, 15 points)
x(n)
X(f)
|X(f)|
2

x
(f)
eq(n)
Signal galis
et dbruit

Si DAV = 0, actualisation de la
densit spectrale de puissance
du bruit
b
(f)
Si DAV = 1, actualisation des
coefficients de l'galiseur
adapt (eq)
IFFT
Symtrisation
Fentre de troncature
(Hamming, 65 points)
deb(n)
Calcul de la
rponse
frquentielle
du dbruiteur
[Scalart, 2001]
*
|DEB(f)|
|EQ(f)|
Estimation
de la densit
spectrale
de puissance
du bruit

b
(f)
Pr-galiseur Egaliseur adapt Dbruiteur
galisation spectrale aveugle

25
II.3. Simulations et rsultats
II.3.1. Conditions exprimentales
Les signaux d'mission utiliss proviennent d'enregistrements raliss France Tlcom R&D en
studio, dans les mmes conditions d'enregistrement que celles du corpus utilis par l'UIT pour
tablir le spectre moyen de la parole [UIT-T/P.50, 1998]. Nous disposons d'un corpus de 34
locuteurs (17 hommes et 17 femmes), prononant le mme texte, reprsentant une vingtaine de
secondes d'activit vocale : "La bise et le soleil se disputaient, chacun assurant quil tait le plus
fort, quand ils virent un voyageur savancer envelopp dans son manteau. Ils tombrent
daccord que celui qui arriverait le premier lui faire enlever son manteau serait le plus fort.
Alors la bise se mit souffler de toutes ses forces ; mais plus elle soufflait, plus le voyageur
serrait son manteau autour de lui, et la fin la bise renona le lui faire enlever."
Nous considrons une liaison RTC telle que reprsente sur la Figure 2.5. Le systme
d'mission, le systme de rception et les lignes d'abonns sont simuls par des filtres RIF
raliss selon la mthode du fentrage partir de leurs rponses frquentielles respectives. Six
conditions de transmission sont simules, correspondant aux combinaisons suivantes :
Nous utilisons deux systmes d'mission. Le premier respecte la caractristique nominale du
SRI modifi [UIT-T/P.830, 1996]. Le second a une rponse en frquence, reprsente sur la
Figure 2.14, qui respecte le masque de la partie mission du SRI modifi, mais diffre de la
caractristique nominale de celui-ci. Cette rponse a t choisie arbitrairement de manire
tester un cart de la caractristique relle du systme d'mission par rapport la
caractristique nominale prise comme rfrence.
Trois types de lignes analogiques d'mission sont tests : trs courte, moyenne et
longue (rponse frquentielle sur la Figure 1.6).

100 1000
-35
-30
-25
-20
-15
-10
-5
0
5
Frquences (Hz)
E
f
f
i
c
a
c
i
t


l
'

m
i
s
s
i
o
n

(
d
B
)


Figure 2.14 : Rponse frquentielle du systme d'mission simul (trait plein)
et caractristique nominale de celui du SRI modifi (pointills)
La ligne analogique de rception et le systme de rception sont choisis respectivement moyenne
(voir Figure. 1.6) et conforme la caractristique nominale en rception du SRI modifi,
reprsente sur la Figure 1.5. Le choix de ces lments importe peu, puisque la caractristique de
la liaison en aval de l'galiseur est suppose connue dans l'algorithme d'galisation adapte.
Chapitre II

26
La liaison numrique tant considre comme transparente, nous en simulons uniquement
les interfaces avec les liaisons analogiques et avec le dispositif d'galisation. Le filtre anti-
repliement du codeur MIC est simul par deux filtres de Butterworth d'ordre 6 un passe-bas et
un passe-haut en cascade, dont la rponse frquentielle globale respecte le gabarit de la
figure 1.7. Nous considrons ici un codage MIC en loi A [UIT-T/G.711, 1988]. Les traitements
tant raliss sur des valeurs linaires, l'galiseur est prcd d'une conversion des chantillons
loi A en valeurs linaires. De mme, les chantillons traits sont convertis en loi A aprs
l'galisation, puis reconvertis en valeurs linaires pour simuler le dcodage MIC (voir
Figure 2.5).
Les caractristiques en frquence de ces six liaisons simules sont reprsentes sur la
Figure 2.15.

100
1000
-15
-10
-5
0
5
10
Frquences (Hz)
G
a
i
n

(
d
B
)


Figure 2.15 : Caractristiques spectrales des liaisons simules
Le dispositif d'galisation est compos du pr-galiseur et de l'galiseur dcrits dans la
section II.2. La frquence de coupure F
c
est fixe 200 Hz. Afin d'valuer la fois le dispositif
complet d'galisation et l'apport de l'galiseur adapt, nous considrerons les trois conditions
suivantes d'galisation : aucun traitement ; pr-galiseur seul ; galisation complte.
II.3.2. Outils d'valuation
L'objectif tant de corriger les distorsions spectrales introduites par le canal analogique, les
performances de l'galisation peuvent tre values par la donne de la caractristique
frquentielle de la liaison galise. Ainsi, l'galisation sera d'autant meilleure que celle-ci sera
constante sur l'espace des frquences le plus large possible. En tenant compte de la ncessaire
limitation de la bande d'galisation (200-3150 Hz), une autre mthode d'valuation consiste
comparer la rponse frquentielle de l'galiseur aprs convergence avec celle de l'galiseur idal,
que nous dfinirons comme celui dont la rponse frquentielle est l'inverse de celle du canal
analogique sur la bande d'galisation considre, 200-3150 Hz. Dans les simulations, l'galiseur
idal est constitu du mme pr-galiseur et d'un filtre compltant celui-ci de telle sorte que la
rponse frquentielle des deux en cascade soit celle souhaite. Nous appellerons ce filtre
galiseur adapt idal. L'galisation sera ainsi d'autant meilleure que la diffrence, en dB, entre
la rponse frquentielle de l'galiseur adapt et celle de l'galiseur adapt idal sera constante sur
l'espace des frquences et au cours du temps.
galisation spectrale aveugle

27
Cette proximit de forme entre l'galiseur adapt et l'galiseur idal adapt ncessite d'tre
quantifie, afin de comparer aisment les performances de l'galiseur selon les conditions
d'utilisation. C'est pourquoi nous introduisons une deuxime mesure : l'erreur cepstrale, ou
distance cepstrale entre ces rponses frquentielles [Faucon, 1993]. Celle-ci est dfinie par :

20
2
eq eq_id
1
( )
i i
i
e C C
=
=

, (2.25)
o C
i
eq
et C
i
eq_id
dsignent les i
mes
coefficients cepstraux de l'galiseur adapt et de l'galiseur
adapt idal, respectivement. Les premiers coefficients cepstraux, C
0
eq
et C
0
eq_id
, ne sont pas pris
en compte dans le calcul de la distance, de sorte que celle-ci reflte uniquement la diffrence de
forme des deux rponses frquentielles, mais pas leur diffrence de niveau ventuelle. Ainsi,
une diffrence entre les rponses frquentielles uniforme sur l'espace des frquences
correspondra une distance cepstrale nulle. D'autre part, la distance est calcule uniquement
partir des 20 premiers coefficients cepstraux, parce que les suivants sont a priori ngligeables, au
vu du lissage des rponses frquentielles considres.
L'erreur cepstrale est calcule chaque actualisation de l'galiseur adapt, soit toutes les
16 ms. Son volution permet d'valuer la rapidit de convergence de l'galiseur : celle-ci a lieu
lorsque l'erreur cepstrale a atteint une valeur minimale autour de laquelle elle varie peu.
Ni la constance de l'erreur spectrale sur l'espace des frquences ni la valeur de l'erreur
cepstrale ne permettent toutefois d'valuer l'atteinte de l'objectif de restauration du timbre de la
voix originale (ne serait-ce que limite la bande F
c
-3150 Hz), mme s'ils en donnent une
image. L'erreur spectrale peut ne pas tre exactement constante, ou l'erreur cepstrale ne pas tre
nulle, sans que cette diffrence soit perceptible. Reste dterminer jusqu' quel point. On peut
imaginer que la perceptibilit de la distorsion spectrale correspond un seuil d'erreur cepstrale.
D'aprs les coutes informelles ralises, ce seuil serait autour de 0,2. Cependant, aucun test
formel n'a t men pour tablir ce seuil de manire rigoureuse. En outre, une mme erreur
cepstrale peuvent correspondre des distorsions spectrales de formes varies et diversement
localises dans l'espace des frquences. Il parat hasardeux de fixer la perceptibilit de ces
distorsions en fonction d'une seule variable scalaire. Enfin, l'erreur cepstrale dfinie par la
formule (2.25) permet d'valuer la correction des distorsions spectrales sur la bande Fc-3150 Hz
mais ne permet pas d'valuer l'galiseur en termes de restauration du timbre original.
Au final, eu gard l'imperfection des mesures objectives, la restauration du timbre de la
parole originale sera value par des tests subjectifs (section II.3.6). Cette restauration sera
value d'une part par comparaison du signal de rception celui d'mission, d'autre part en
tenant compte de la ncessaire limitation de la bande d'galisation : il s'agira alors de comparer le
signal de rception aprs galisation adapte au signal de rception obtenu avec un galiseur
idal.
II.3.3. Rapidit de convergence de l'galiseur
La simulation ayant t ralise pour les 34 locuteurs dans les 6 conditions de transmission
envisages, la Figure 2.16 prsente, pour une des liaisons test, l'volution de l'erreur cepstrale au
cours des 21 premires secondes de parole active. L'galiseur n'tant pas actualis pendant les
moments d'inactivit vocale, ces derniers, non pertinents du point de vue de la variation de
l'erreur cepstrale, ont t supprims. La liaison test considre ici est celle comportant un
Chapitre II

28
systme d'mission diffrent de la caractristique nominale de [UIT-T/P.830, 1996] et une ligne
analogique longue l'mission.


temps (s)
e
r
r
e
u
r

c
e
p
s
t
r
a
l
e

0 2 4 6 8 10 12 14 16 18 20
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
Erreur cepstrale avec pr-galiseur seul
22 locuteurs / 34
(a)

0 2 4 6 8 10 12 14 16 18 20
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
temps (s)
e
r
r
e
u
r

c
e
p
s
t
r
a
l
e

Erreur cepstrale avec pr-galiseur seul
3 locuteurs / 34
(b)

0 2 4 6 8 10 12 14 16 18 20
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
temps (s)
e
r
r
e
u
r

c
e
p
s
t
r
a
l
e

Erreur cepstrale avec pr-galiseur seul
5 locuteurs / 34
(c)

0 2 4 6 8 10 12 14 16 18 20
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
temps (s)
e
r
r
e
u
r

c
e
p
s
t
r
a
l
e

Erreur cepstrale avec pr-galiseur seul
4 locuteurs / 34
(d)
Figure 2.16 : Evolution de l'erreur cepstrale
au cours des 21 premires secondes de parole, pour 34 locuteurs.
Pour 22 des 34 locuteurs tests, la convergence de l'galiseur, marque par l'atteinte d'un niveau
minimal d'erreur cepstrale, est ralise en 2 5 secondes. L'volution de l'erreur cepstrale pour
ces locuteurs est reprsente par une srie d'histogrammes sur la Figure 2.16(a). Chaque n
ime
ligne verticale reprsente l'histogramme des erreurs cepstrales la n
me
trame d'activit vocale,
un pixel de coordonnes (n,e) tant d'autant plus sombre que le nombre de locuteurs ayant une
erreur cepstrale autour de e la n
me
trame est important.
Pour 8 autres locuteurs, la convergence est plus lente, l'erreur minimale tant atteinte en
10 secondes environ. Pour 3 d'entre eux, celle-ci est proche de 0,1 comme dans le premier
groupe : les trajectoires des erreurs de ces locuteurs sont reprsentes sur la Figure 2.16(b).
L'erreur cepstrale des 5 autres locuteurs, reprsente sur la Figure 2.16(c), converge vers une
valeur plus leve (0,2).
Enfin, pour 4 locuteurs (Figure 2.16(d)), l'volution de l'erreur cepstrale est plus atypique,
avec une premire dcroissance rapide (moins de 3 secondes), suivie d'un comportement assez
irrgulier. Ce phnomne s'explique par des variations brusques du spectre long terme, que l'on
peut percevoir comme des modifications du timbre au cours de l'locution.
galisation spectrale aveugle

29
En moins de 3 secondes d'activit vocale, pour tous les locuteurs, l'erreur cepstrale est
infrieure celle obtenue avec le pr-galiseur seul, reprsente par une ligne horizontale
l'ordonne 0.4.
Les rsultats obtenus avec les autres liaisons sont trs proches, comme l'illustre la
Figure 2.17, reprsentant l'volution de l'erreur cepstrale pour 4 des locuteurs test et pour les 6
liaisons test. Les locuteurs ont t choisis de la manire suivante :
- H1 : locuteur masculin, erreur cepstrale finale forte ;
- H2 : locuteur masculin, erreur cepstrale finale faible ;
- F1 : locutrice, erreur cepstrale finale faible ;
- F2 : locutrice, erreur cepstrale finale forte.

0 2 4 6 8 10 12 14 16 18 20
0
0.1
0.2
0.3
0.4
0.5
temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

Locuteur H1


0 2 4 6 8 10 12 14 16 18 20
0
0.1
0.2
0.3
0.4
0.5
temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

Locuteur H2


0 2 4 6 8 10 12 14 16 18 20
0
0.1
0.2
0.3
0.4
0.5
temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

Locutrice F1


0 2 4 6 8 10 12 14 16 18 20
0
0.1
0.2
0.3
0.4
0.5
temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

Locutrice F2

Figure 2.17 : Evolution de l'erreur cepstrale
au cours des 21 premires secondes de parole, pour 4 locuteurs et 6 liaisons.
II.3.4. Distorsion spectrale finale
La Figure 2.18 prsente, pour les mmes locuteurs, la rponse frquentielle de l'galiseur adapt
(trait plein) compare celle de l'galiseur adapt idal (pointills), aprs 10 s d'activit vocale,
c'est--dire aprs la convergence, pour 3 des 6 liaisons test :
- liaison 1 : systme d'mission ayant la caractristique nominale du SRI modifi
[UIT-T/P.830, 1996] et ligne d'mission trs courte ;
Chapitre II

30
- liaison 2 : systme d'mission ayant la caractristique nominale du SRI modifi et ligne
d'mission moyenne ;
- liaison 3 : systme d'mission diffrent de la caractristique nominale du SRI modifi
mais respectant le masque (voir Figure 2.14) et ligne d'mission longue.
Ces trois liaisons correspondent aux distorsions mdianes et extrmales de la Figure 2.15,
reprsentes en trait plein.
La diffrence, en dB, entre la rponse frquentielle de l'galiseur adapt et celle de
l'galiseur adapt idal correspond, sur la bande d'galisation 200-3150 Hz, la distorsion
spectrale entre le signal de rception et le signal mis. L'amplitude des variations de cette
diffrence sur l'espace des frquences n'excde pas 3 dB pour H2 et F1, reprsentatifs des deux
tiers des locuteurs du corpus, quelle que soit la liaison. Pour les quatre locuteurs, la distorsion
spectrale aprs galisation dpend trs peu de la liaison.
Cette rponse frquentielle de l'galiseur adapt se traduit par les distorsions spectrales
entre le signal original et le signal de rception reprsentes sur la Figure 2.19 pour les mmes
locuteurs et les mmes liaisons.
Pour H2 et F1, quelle que soit la liaison, la caractristique frquentielle de la liaison
galise est nettement plus plate que celles de la liaison sans traitement ou simplement pr-
galise, et ce sur une bande de frquence plus large. La seule exception est videmment la
liaison 2, pour laquelle le pr-galiseur correspond l'galiseur idal. Subjectivement, le signal
de rception de la liaison ainsi galise a un timbre trs proche de celui du signal galis par
l'galiseur idal. Pour H2, la diffrence avec le signal original est nettement perceptible, puisque
la voix de ce locuteur masculin possde des composantes en de de 200 Hz, qui ne sont pas
restaures. En revanche, le signal de rception galis est perceptivement proche de l'original
pour F1, dont le pitch moyen est suprieur 200 Hz.
Pour H1 et F2, la rponse frquentielle de la liaison galise prsente des variations
importantes, jusqu' 9 dB, sur la bande 200-3150 Hz. Cela se traduit par une voix plus touffe
que la voix mise ou que celle en rception de la mme liaison galise par l'galiseur idal. A
cette distorsion s'ajoute la non-restauration des composantes basses-frquences, trs sensible
pour H1.
Au vu de ces rsultats, l'galisation atteint donc son but pour la majorit des locuteurs : le
canal analogique est compens sur la bande 200-3150 Hz avec une erreur infrieure 3 dB dans
l'estimation de la rponse frquentielle, et le timbre de la voix est restaur au moins pour la voix
restreinte la bande 200-3150 Hz. Ces premires conclusions seront valides dans la
section II.3.6 par des tests subjectifs formels, qui permettront en outre de prciser dans quelle
mesure l'galisation choue pour des locuteurs tels que H1 et F2.
galisation spectrale aveugle

31



100 1000
-8
-6
-4
-2
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur H1, liaison 1


100 1000
-8
-6
-4
-2
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur H1, liaison 2

100 1000
-8
-6
-4
-2
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur H1, liaison 3

100 1000
-8
-6
-4
-2
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur H2, liaison 1


100 1000
-8
-6
-4
-2
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur H2, liaison 2

100 1000
-8
-6
-4
-2
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur H2, liaison 3

100 1000
-8
-6
-4
-2
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur F1, liaison 1


100 1000
-8
-6
-4
-2
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur F1, liaison 2

100 1000
-8
-6
-4
-2
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur F1, liaison 3

100 1000
-8
-6
-4
-2
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur F2, liaison 1


100 1000
-8
-6
-4
-2
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur F2, liaison 2

100 1000
-8
-6
-4
-2
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur F2, liaison 3

Figure 2.18 : Rponses frquentielles de l'galiseur adapt (trait plein)
et de l'galiseur adapt idal (pointills), diffrence entre les deux (tirets)
Chapitre II

32



100 1000
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur H1, liaison 1


100 1000
-6
-4
-2
0
2
4
6
Frquences (Hz)
(
d
B
)

Locuteur H1, liaison 2

100 1000
-12
-10
-8
-6
-4
-2
0
Frquences (Hz)
(
d
B
)

Locuteur H1, liaison 3

100 1000
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur H2, liaison 1


100 1000
-6
-4
-2
0
2
4
6
Frquences (Hz)
(
d
B
)

Locuteur H2, liaison 2

100 1000
-12
-10
-8
-6
-4
-2
0
Frquences (Hz)
(
d
B
)

Locuteur H2, liaison 3

100 1000
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur F1, liaison 1


100 1000
-6
-4
-2
0
2
4
6
Frquences (Hz)
(
d
B
)

Locuteur F1, liaison 2

100 1000
-12
-10
-8
-6
-4
-2
0
Frquences (Hz)
(
d
B
)

Locuteur F1, liaison 3

100 1000
0
2
4
6
8
10
12
Frquences (Hz)
(
d
B
)

Locuteur F2, liaison 1


100 1000
-6
-4
-2
0
2
4
6
Frquences (Hz)
(
d
B
)

Locuteur F2, liaison 2

100 1000
-12
-10
-8
-6
-4
-2
0
Frquences (Hz)
(
d
B
)

Locuteur F2, liaison 3

Figure 2.19 : Pour 3 liaisons et 4 locuteurs, rponse frquentielle de la liaison
- sans traitement (trait pais gris)
- galise (trait plein noir)
- galise par l'galiseur idal (pointills)
- pr-galise (tirets)
Remarque : pour la liaison 2, les signaux pr-galis et galis idalement sont les mmes
galisation spectrale aveugle

33
II.3.5 Limite de l'galisation : le bruit de quantification
Lors des simulations et de la validation en temps rel du systme propos, nous avons observ
l'coute que le signal en rception de la liaison galise est affect d'un bruit blanc, de niveau
irrgulier et souvent suprieur celui du bruit de quantification du signal de rception de la
mme liaison sans galiseur. Recherchant la cause de ce bruit en excs, nous avons tudi le
rapport signal bruit des signaux galiss dans diffrentes conditions. Prenant en compte le
caractre irrgulier du bruit additif observ, nous dfinissons le RSB instantan d'une trame de
parole bruite comme le rapport entre l'nergie de la trame de signal de parole et celle de la
trame de bruit correspondante, ces trames ayant une dure de 32 ms et un recouvrement inter-
trames de 50 %. La Figure 2.20 reprsente l'volution du RSB instantan du signal de rception
pour une phrase de 1,7 secondes ("A-t-il eu froid cette nuit ?") transmise par une liaison
moyenne, dans deux cas : sans galiseur et avec un galiseur corrigeant parfaitement la liaison
sur la bande 200-3150 Hz. Ces mesures confirment le rsultat subjectif : le RSB en rception est
dgrad par l'galisation, de manire irrgulire.

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
0
5
10
15
20
25
30
35
40
45
temps (s)
R
S
B

i
n
s
t
a
n
t
a
n


(
d
B
)

avec
galiseur
sans
galiseur

Figure 2.20 : RSB instantan de rception sur une liaison RTC avec ou sans galiseur
Le RSB instantan a t calcul dans les mmes conditions de liaison avec un corpus de 10
locuteurs (5 hommes et 5 femmes) prononant 10 phrases phontiquement
quilibres [Combescure, 1981], reprsentant pour chaque locuteur 22,6 secondes d'activit
vocale en moyenne. Les rsultats se traduisent par la rpartition des dgradations de RSB
indique sur la Figure 2.21 : les valeurs correspondent l'cart entre les RSB de rception d'une
liaison galise (avec F
c
= 200 Hz) et ceux d'une liaison non galise.
Une premire explication est que, dans la liaison avec galiseur, le signal subit deux
quantifications en loi A : celle du codeur MIC et celle la sortie de l'galiseur, celui-ci traitant
les signaux dans un format linaire. Ceci est illustr par le schma de liaison de la Figure 2.22,
o l'on a modlis par une addition de bruit blanc :
- la mise en cascade du codeur MIC, de la liaison numrique et du convertisseur
loi A format linaire (bruit q
0
) ;
- la mise en cascade de la conversion format linaire loi A, de la liaison numrique et
du dcodage MIC (bruit q
1
).
Chapitre II

34

-10 -5 0 5 10 15
0
0.05
0.1
0.15
0.2
0.25
Dgradation du RSB (dB)
F
r

q
u
e
n
c
e


Figure 2.21 : Distribution des dgradations du RSB de rception dues l'galisation


























Figure 2.22 : Bruits de quantification sur une liaison RTC avec ou sans galiseur
Cette double addition de bruit de quantification ne suffit cependant pas expliquer les
dgradations de RSB observes : seule, elle ne justifierait qu'une dgradation constante de 3 dB.
Comme l'galiseur est plac avant le systme de rception dont il corrige l'attnuation des
composantes basse frquence, il suramplifie celles-ci. La Figure 2.23 reprsente, pour diffrentes
valeurs de F
c
, la rponse globale en frquence du filtrage appliqu la parole entre l'extrmit
Systme
d'mission
Ligne
analogique
galiseur
Ligne
analogique
Systme
de rception
Ligne
analogique
Systme
de rception
s
x
q
0
(bruit du codeur MIC)
q
1

(bruit de
quantification
linaire loi A)
y y
eg
A
B
C
2
C
1
sans
galisation
avec
galisation
galisation spectrale aveugle

35
"mission" de la liaison et la sortie de l'galiseur, c'est dire juste avant la deuxime conversion
en loi A (point B sur la Figure 2.22). Les composantes frquentielles du signal de sortie de
l'galiseur sont ainsi d'autant plus dsquilibres que F
c
est faible et que le spectre originel du
phonme prononc est riche dans la bande 200-300 Hz. Or le quantificateur en loi A
superpose au signal un bruit blanc avec un RSB de 38,16 dB dans le meilleur des cas. Selon
les phonmes prononcs, du fait de la prdominance des basses frquences, le niveau de ce
bruit de quantification peut tre proche de celui des composantes hautes et moyennes
frquences. Ainsi, aprs attnuation des composantes basses frquences la rception, le
RSB est dgrad, et ce d'autant plus que F
c
est basse.

100 1000
0
2
4
6
8
10
12
14
16
Frquences (Hz)
G
a
i
n

(
d
B
)

Fc = 200 Hz
Fc = 250 Hz
Fc = 300 Hz

Figure 2.23 : Filtrage appliqu la parole entre l'extrmit "mission" de la liaison et la sortie de l'galiseur
Examinons plus en dtail ce phnomne sur deux phonmes de la phrase prcdente, le [Y] de
"nuit" et le [a] de "froid", pour expliquer la variabilit de la dgradation du RSB. Les Figure 2.24
et Figure 2.25 reprsentent, pour ces deux phonmes respectivement, les enveloppes spectrales
du signal de parole et des bruits en trois points successifs de la liaison schmatise sur la
Figure 2.22 : aprs le codage MIC (A) ; aprs l'galiseur le cas chant (B) ; en rception pour
une liaison avec ou sans galiseur (respectivement C1 et C2). Les bruits q
0
et q
1
rsultent
respectivement du codeur MIC et de la quantification en loi A la sortie de l'galiseur. Pour la
Figure 2.24 (phonme [Y]), les enveloppes spectrales ont t calcules sur une trame o
l'galiseur dgrade le RSB instantan en rception de 5,5 dB. La dgradation est de 2,5 dB
seulement pour la trame de calcul des enveloppes spectrales de la Figure 2.25 (phonme [a]). De
manire pouvoir comparer le niveau des bruits de quantification dans les cas avec et sans
galiseur, le gain de l'galiseur a t ajust de telle manire que l'nergie de chaque trame en
rception soit la mme qu'en rception de la liaison sans galiseur.
Le phonme [Y] possde un premier formant vers 200 Hz, attnu par le systme
d'mission. Aprs suramplification de la bande 200-300 Hz par l'galiseur, les composantes en
dessous de 300 Hz sont donc trs nergtiques (B). Elles dterminent le niveau du bruit de
quantification du convertisseur linaire-loi A (q
1
), qui est alors nettement suprieur celui du
bruit du codeur MIC (q
0
) et dpasse le deuxime formant. A la rception (C
1
), l'nergie cumule
des deux bruits est suprieure de 5 dB environ celle du bruit blanc de la liaison sans
traitement (C
2
).
Le premier formant de [a] est situ vers 600 Hz. Ainsi la suramplification des basses
frquences par l'galiseur (B) ne modifie-t-elle pas notablement l'quilibre des composantes
Chapitre II

36
frquentielles. Le niveau du bruit du convertisseur linaire-loi A (q
1
) est donc proche de celui du
codeur MIC (q
0
). A la rception (C
1
), l'nergie cumule des deux bruits est proche de celle du
bruit blanc de la liaison sans traitement (C
2
).

100 1000
0
10
20
30
40
50
60
Avant l'galiseur (A)
100 1000
0
10
20
30
40
50
60
Aprs l'galiseur (B)
100 1000
10
20
30
40
50
60
70
Rception, avec traitement (C1)
100 1000
10
20
30
40
50
60
70
Rception, sans traitement (C2)
signal original
signal

bruit q0
signal
bruit q0
bruit q1
bruit q0
signal
bruit q0
bruit q1
signal
q0 + q1

Figure 2.24 : Enveloppe spectrale de [Y] et des bruits associs en diffrents points de la liaison
Une manire de traiter cette amplification du bruit de quantification due l'galisation peut tre
d'augmenter F
c
. L'effet de cette augmentation est illustr sur la Figure 2.26, qui reprsente, pour
la mme phrase que prcdemment, la diffrence entre le RSB instantan de rception d'une
liaison avec galisation sur F
c
-3150 Hz et celui d'une liaison sans galisation, pour deux valeurs
de F
c
. L'augmentation de F
c
permet d'viter les dgradations de RSB les plus fortes. Les basses
frquences tant une part importante du timbre peru, l'inconvnient de cette solution est que le
timbre n'est plus aussi bien restaur. Il faut donc trouver un compromis entre restauration du
timbre et niveau du bruit ou agir sur le convertisseur linaire-loi A pour rduire le bruit de
quantification F
c
constant. Cette deuxime solution fera l'objet du chapitre III.
galisation spectrale aveugle

37

100 1000
10
20
30
40
50
60
70
Avant l'galiseur (A)
100 1000
10
20
30
40
50
60
70
Aprs l'galiseur (B)
100 1000
20
30
40
50
60
70
80
Rception, avec traitement (C1)
100 1000
20
30
40
50
60
70
80
Rception, sans traitement (C2)
signal original
signal
bruit q0
signal
bruit q0
bruit q0
bruit q0
bruit q1
bruit q1
signal signal
q0 + q1

Figure 2.25 : Enveloppe spectrale de [a] et des bruits associs en diffrents points de la liaison

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
temps (s)
D

g
r
a
d
a
t
i
o
n

d
u

R
S
B

(
d
B
)

F
c
= 250
F
c
= 200

Figure 2.26 : Dgradation du RSB pour Fc =200 et 250 Hz
Chapitre II

38
II.3.6. valuation subjective
Objectifs
L'objectif du traitement tant que le "timbre" de la voix en rception soit le plus proche possible
de celui de la voix originale mise, l'atteinte de cet objectif sera value, pour diffrents types de
liaisons tlphoniques et diffrents locuteurs, en demandant des auditeurs de noter la proximit
de timbre entre le signal de rception galis et le signal original. Une telle note aurait peu de
sens seule, notamment si l'auditeur peroit une nette diffrence de timbre entre les deux signaux.
C'est pourquoi la mme comparaison doit tre effectue entre le signal original et le signal de
rception non trait, ainsi qu'entre ce dernier et le signal de rception galis.
Par ailleurs, l'valuation doit tenir compte de la ncessaire limitation de l'galisation la
bande 200-3150 Hz. Il convient donc de comparer le signal de rception galis avec le signal de
rception trait par l'galiseur idal prcdemment voqu. Si aucune diffrence n'est perceptible
entre les deux, cela signifie que l'galiseur adapt corrige au mieux le timbre dans les limites
imposes par la restriction de la bande.
Enfin, il est intressant d'valuer l'apport de la partie adapte de l'galiseur. Pour ce faire,
les mmes comparaisons doivent tre effectues en remplaant le signal de rception galis par
le signal de rception de la mme liaison dans laquelle l'galiseur adapt aurait t supprim (le
pr-galiseur seul subsistant).
Application de la mthode MUSHRA [UIT-R/BS.1534, 1996]
Cette valuation ncessite typiquement un test de comparaison par paires. Cependant, eu gard
au nombre de comparaisons effectuer, cette mthode conduirait un test d'une dure
inacceptable si l'on souhaite valuer les performances de l'galiseur pour diffrents locuteurs et
diffrentes conditions de transmission. C'est pourquoi nous nous inspirons d'une mthode plus
simple, rcemment normalise l'UIT, la mthode "multi stimuli avec rfrence et repre
cachs" (MUSHRA, MUlti Stimuli test with Hidden Reference and Anchor)
[UIT-R/BS.1534, 1996].
La mthode MUSHRA a t conue pour valuer des codecs audio de qualit
intermdiaire, i.e. introduisant des dgradations moyennes ou fortes. Elle s'applique typiquement
aux systmes tels que la diffusion sur l'Internet, la radio mondiale numrique (DRM, digital
radio mondiale) ou la radiodiffusion numrique par satellite, pour lesquels des sons de moindre
qualit sont invitables ou acceptables.
La mthode consiste prsenter simultanment au sujet un signal de rfrence et des
signaux tests, qu'il peut couter librement, et demander de noter, par comparaison la
rfrence, la qualit des signaux tests, sur une chelle continue de 0 100, divise en 5
intervalles de mme longueur tiquets "mauvais" (0 20), "mdiocre" (20 40), "assez
bon" (40 60), "bon" (60 80) et "excellent" (80 100). Les signaux tests comprennent la fois
les signaux tests (par exemple les signaux issus des diffrents codecs que l'on souhaite valuer),
le signal de rfrence ("rfrence cache") et un signal repre ("repre cach" ou "point
d'ancrage"). Ce signal repre correspond un niveau de qualit audio bien connu (par exemple
le signal de rfrence filtr par un passe-bas de frquence de coupure 3500 Hz), ce qui offre une
base de comparaison des notes attribues aux signaux tests.
Dans le cas de dgradations fortes ou moyennes, si l'on comparait uniquement chaque
signal test la rfrence, deux signaux ayant des niveaux de dgradation assez proches
galisation spectrale aveugle

39
risqueraient d'obtenir la mme note alors que le sujet aurait trouv l'un meilleur que l'autre s'il
avait compar ces deux signaux tests entre eux. Pour surmonter cette difficult, l'auditeur, dans le
test MUSHRA, peut commuter volont entre la rfrence et tous les signaux test. Ainsi, le test
est quivalent un test complet de comparaison par paires, tout en tant moins long, l'auditeur
adoptant une stratgie intelligente de notation : gnralement, les participants estiment d'abord
grossirement la qualit de chaque signal test, puis affinent la note en comparant les chantillons
de qualit proche. La mthode MUSHRA permet ainsi d'obtenir une rsolution leve des notes.
Le test doit comporter une phase de familiarisation, au cours de laquelle les sujets
apprennent utiliser l'interface de test et peuvent couter les diffrentes dgradations qui
affecteront les signaux tests. Cette phase de familiarisation permet de fiabiliser les rsultats.
La norme [UIT-R/BS.1534, 1996] recommande d'utiliser des signaux de dure infrieure
20 secondes, et de ne pas prsenter plus de 15 signaux tests (rfrence et repre cachs inclus) au
cours de chaque squence de test.
Les sujets sont choisis de prfrence expriments, c'est--dire ayant l'habitude d'couter
des sons de manire critique. Il est possible de les prslectionner i.e. d'liminer des sujets
insuffisamment expriments ou inaptes auditivement ainsi que de les post-slectionner i.e.
de rejeter les sujets dont les rsultats sont incohrents soit entre eux soit avec ceux du groupe.
Une vingtaine de sujets suffit obtenir des rsultats fiables ; il est conseill d'en retenir plus si
les sujets sont peu expriments.
Bien que la mthode MUSHRA ait t conue pour tester des codecs audio, elle nous a
paru, par ses principes, tre adapte l'valuation mener. La rfrence est le signal original
(dans la bande 0-4000 Hz) et les signaux tester, dans chaque squence, sont les signaux de
rception :
- sans traitement (TRANSP) ;
- galis selon l'algorithme propos (EG) ;
- seulement pr-galis (i.e. galisation fixe corrigeant des conditions moyennes de
transmission) (PRE) ;
- galis avec l'galiseur idal (i.e. galiseur corrigeant parfaitement la liaison sur la
bande Fc-3150 Hz) (ID).
L'chelle de notation est adapte notre cas de la manire suivante : comme il ne s'agit pas de
noter la qualit du signal connaissant la rfrence, mais la proximit de timbre entre chaque
signal test et la rfrence, c'est celle-ci qui est note sur une chelle de 0 100, avec les
apprciations suivantes :
- timbre identique : 100 ;
- timbre trs proche : 80 100 ;
- timbre assez proche : 60 80 ;
- timbre moyennement proche : 40 60 ;
- timbre assez diffrent : 20 40 ;
- timbre trs diffrent : 0 20.
Ainsi, si la note de EG est nettement suprieure celle de TRANSP, l'galisation corrige le
timbre. Si la note de EG est suprieure celle de PRE, on en dduit que la partie adapte de
l'galisation amliore la correction. Si la note de EG est proche de 100, la correction est parfaite.
Enfin, si les notes de EG et ID sont proches, l'galiseur adapt corrige au mieux le timbre sur la
bande F
c
-3150 Hz.
Chapitre II

40
Les signaux tests comprendront la fois les signaux tester et la rfrence. Cependant, il
ne nous est pas possible d'introduire de repre cach : ce test tant le premier du genre, nous ne
disposons pas de signal repre dont la note serait connue. Cela ne remet pas en cause la validit
de l'utilisation de la mthode MUSHRA, puisque l'introduction d'un repre cach n'a qu'un rle
de comparaison des systmes tests un repre connu, et ne sert en aucun cas un rajustement
des notes. La rfrence constitue alors le seul repre cach.
Plan de test
Nous souhaitons valuer l'galiseur, avec F
c
= 200 Hz, pour diffrentes combinaisons de liaisons
et de locuteurs. La rponse frquentielle de l'galiseur dpendant uniquement du spectre long
terme du locuteur, la phrase prononce a peu d'influence sur le fonctionnement de l'galiseur une
fois que la convergence est atteinte. Par consquent, la liaison galise sera simule sur tout le
texte "la bise et le soleil", mais seule la dernire phrase, prononce aprs 13 16 secondes
d'activit vocale selon les locuteurs (donc aprs convergence de l'galiseur), sera prsente aux
auditeurs : "Alors la bise se mit souffler de toutes ses forces; mais plus elle soufflait, plus le
voyageur serrait son manteau autour de lui, et la fin la bise renona le lui faire enlever."
(10 s environ)
Un minimum de 4 locuteurs est ncessaire. Nous choisissons d'une part H2 et F1, qui
correspondent aux performances typiques de l'galiseur en terme d'erreur cepstrale aprs
convergence (25 locuteurs sur 34, voir Figure 2.16 (a) et (b)), d'autre part H1 et F2, qui
correspondent aux performances les plus basses. L'volution de l'erreur cepstrale au cours de la
phrase test est reprsente pour ces quatre locuteurs sur la Figure 2.27. Le choix de F2 est certes
particulier, eu gard la brusque variation d'erreur cepstrale au milieu de la phrase. Cette
locutrice a cependant t choisie comme reprsentante des locuteurs forte erreur cepstrale,
d'une part parce que nous pensons que la partie la plus dgrade de la phrase sera dterminante
dans le jugement des auditeurs, d'autre part parce que F2 est la seule locutrice du corpus
prsentant la fois une forte erreur cepstrale et une voix assez agrable.


0 1 2 3 4 5 6 7 8 9 10
0
0.05
0.1
0.15
0.2
0.25
0.3
temps (s)
e
r
r
e
u
r

c
e
p
s
t
r
a
l
e

H1
H2
F2
F1

Figure 2.27 : Erreur cepstrale de l'galiseur sur la phrase test pour les quatre locuteurs choisis
galisation spectrale aveugle

41
Il a t souhait d'valuer l'galiseur sur les combinaisons suivantes d'lments de liaisons
tlphoniques, la partie mission de la liaison tant sur le RTC (voir Figure 2.30) :
- les 2 types de terminaux d'mission voqus dans la section II.3.1 ;
- 3 types de lignes analogiques d'mission (trs courte / moyenne / longue) ;
- 3 types de liaison en rception : liaison RTC moyenne / liaison RNIS / liaison GSM
avec codage EFR. Dans le cas de la liaison GSM, l'galiseur est suppos plac au
niveau du transcodage MIC-EFR.
Il n'est pourtant pas envisageable de tester ces 18 conditions de liaison, qui, combines aux 4
locuteurs tester, conduiraient 72 squences MUSHRA. L'exprience montre qu'une squence
telle que celle envisage (5 signaux tests de 10 s) reprsente environ 5 mn de test. Comme le test
ne peut excder 1 h (pour ne pas fatiguer les sujets), il est impratif de rduire 12, et si possible
moins, le nombre de squences. Le nombre de locuteurs ne pouvant tre plus restreint, nous
avons rduit le nombre de liaisons en comparant leurs signaux de rception respectifs, galiss
d'une part, sans traitement d'autre part, de la manire suivante.
Les simulations correspondant aux 18 liaisons ont t ralises pour les 4 locuteurs tests. Pour
les liaisons RNIS et GSM, l'expression de la rponse frquentielle de l'galiseur adapt donne
par l'quation (2.18) est remplace respectivement par :

ref
( ) 1
| ( ) |
_ ( ) ( )
x
f
EQ f
RNIS RX f f

= . (2.26)

ref
( ) 1
| ( ) |
_ ( ). ( ) ( )
x
f
EQ f
GSM RX f EFR f f

= . (2.27)
o RNIS_RX est l'efficacit en rception suppose connue du terminal RNIS, GSM_RX dsigne
l'efficacit en rception suppose connue du mobile et EFR est la modification d'enveloppe
spectrale du codage EFR (voir Figure 1.11). Les caractristiques frquentielles du terminal RNIS
et du mobile simuls sont choisies de manire arbitraire dans le gabarit dfini par
[UIT-T/P.310, 2000] et [UIT-T/P.313, 2000] (cf. Figure 1.10) et reprsents sur les Figures 2.28
et 2.29 respectivement.

100 1000
-20
-18
-16
-14
-12
-10
-8
-6
-4
-2
0
Frquences (Hz)
G
a
i
n

(
d
B
)


Figure 2.28 : Efficacit en rception
du terminal RNI S simul

100 1000
-15
-10
-5
0
5
Frquences (Hz)
G
a
i
n

(
d
B
)


Figure 2.29 : Efficacit en rception
du terminal GSM simul
42




































Figure 2.30 : Liaisons tlphoniques initialement envisages pour le test
Comme le montrent les rsultats de la section II.3.4, la distorsion spectrale finale aprs
galisation est peu sensible, dans le cas de la liaison RTC, aux caractristiques des terminaux et
des lignes d'mission (sauf caractristiques trs loignes des caractristiques moyennes). Les
tests informels effectus ne rvlent pas de diffrence de timbre perceptible entre les signaux de
rception galiss correspondants. Si la rception RTC est remplace par une rception RNIS ou
mobile, le rsultat est identique, puisque la partie rception de la liaison n'a aucune influence sur
l'adaptation de l'galiseur. La seule diffrence de timbre, clairement perceptible uniquement pour
les locutrices, est la coloration propre au codage EFR (sonorit robotique). Mis part cet aspect,
on peut donc prdire que les notes de EG seront peu diffrentes d'une liaison l'autre.
Les diffrences entre les liaisons rsident principalement entre les signaux de rception
sans traitement. La Figure 2.31 reprsente les modifications d'enveloppe spectrale correspondant
Parole mise
Systme d'mission
Caractristique nominale
de [UIT-T/P.830, 1996]
Systme d'mission
Caractristique nominale
de [UIT-T/P.830, 1996]
Ligne d'abonn
trs courte
Ligne d'abonn
moyenne
Ligne d'abonn
longue
MIC
loi A linaire
galisation
linaire loi A linaire loi A Codage EFR
Ligne d'abonn
moyenne
loi A analogique
Systme
de rception
loi A analogique
Transducteur
Dcodage EFR
Transducteur
R
T
C
,

t
r
a
n
s
m
i
s
s
i
o
n

a
n
a
l
o
g
i
q
u
e

e
n

b
a
n
d
e

d
e

b
a
s
e

R
T
C
,

t
r
a
n
s
m
i
s
s
i
o
n

n
u
m

r
i
q
u
e

e
n

l
o
i

A

R
T
C
,

t
r
a
n
s
m
i
s
s
i
o
n

n
u
m

r
i
q
u
e

e
n

l
o
i

A

R
T
C
,

t
r
a
n
s
m
.


a
n
a
l
o
g
i
q
u
e

e
n

b
a
n
d
e

d
e

b
a
s
e

R
N
I
S
,

t
r
a
n
s
m
i
s
s
i
o
n

n
u
m

r
i
q
u
e

e
n

l
o
i

A

T
e
r
m
i
n
a
l

R
N
I
S

R

s
e
a
u

G
S
M

T
e
r
m
i
n
a
l

G
S
M

Parole reue Parole reue Parole reue
galisation spectrale aveugle

43
aux 18 liaisons envisages. En termes perceptifs, ces filtrages correspondent un continuum de
timbres du plus clair au plus sourd, avec peu de diffrence entre deux plus proches voisins. On se
restreint donc aux liaisons extrmales, les plus dmonstratives. A cela s'ajoute une deuxime
dimension dans la variation du timbre : avec ou sans la coloration du codage EFR. Ainsi, selon
ces deux dimensions, il reste 4 liaisons envisageables :
- 2 liaisons entirement fixes (RTC ou RNIS) : sourd / clair ;
- 2 liaisons RTC-GSM : sourd / clair.

100 1000
-35
-30
-25
-20
-15
-10
-5
0
5
10
15
Frquences (Hz)
G
a
i
n

(
d
B
)


Figure 2.31 : Distorsions spectrales introduites par les 18 liaisons.
En gras, celles des trois liaisons retenues dans le plan de test
Ce nombre de conditions doit tre encore rduit, et peut l'tre selon la simplification suivante.
Les coutes informelles font apparatre que l'effet de la coloration GSM est nettement moins
perceptible que le choix d'une liaison "sourde" ou "claire", et quasiment imperceptible pour les
locuteurs masculins. Le codage EFR n'a par ailleurs pas d'influence sur le fonctionnement de
l'algorithme, puisqu'il a lieu aprs l'galisation dans le cas d'une communication fixe vers mobile.
Le seul effet qu'il peut avoir est de modifier lgrement la perception de l'amlioration introduite
par la correction de timbre. Par consquent, il ne nous apparat pas ncessaire de tester pour le
GSM les 2 conditions "sourd" et "clair". Les ventuelles variations des rsultats entre les
conditions "liaison fixe sourde" et "liaison RTC-GSM sourde" seront extrapolables au passage
"liaison fixe claire" "liaison RTC-GSM claire". On se contentera donc des conditions
suivantes : "liaison fixe sourde", "liaison fixe claire" et "liaison RTC-GSM sourde", cette
dernire condition tant teste uniquement pour les locutrices. On a ainsi rduit 10 le
nombre de conditions (liaison, locuteur), ce qui reprsente 50 mn de test.
Nous valuons au final les performances de l'galiseur dans les conditions suivantes :
- pour les 4 locuteurs, liaison RTC intgrale comprenant un systme d'mission
respectant la caractristique nominale de [UIT-T/P.830, 1996], une ligne d'mission
analogique longue, une ligne de rception analogique moyenne et un systme de
rception analogique respectant la caractristique nominale de [UIT-T/P.830, 1996]
(liaison 1) ;
- pour les 4 locuteurs, liaison RTC-RNIS comprenant un systme d'mission analogique
respectant la caractristique nominale de [UIT-T/P.830, 1996], une ligne d'mission
Chapitre II

44
analogique trs courte, et une liaison de rception RNIS avec un terminal respectant la
caractristique en frquence de la Figure 2.28 (liaison 2) ;
- pour les 2 locutrices, liaison RTC-GSM comprenant un systme d'mission respectant
la caractristique nominale de [UIT-T/P.830, 1996], une ligne d'mission analogique
longue et une liaison de rception GSM avec un codage EFR et un terminal mobile
respectant la caractristique en frquence de la Figure 2.29 (liaison 3).
Les distorsions spectrales introduites par ces trois liaisons sont reprsentes en gras sur la
Figure 2.31.
Dans chacune de ces conditions, le sujet compare, sur la phrase test, le timbre des signaux
TRANSP, PRE, EG et ID celui du signal original, et attribue chacun une note de proximit de
timbre avec l'original, entre 0 (timbre trs diffrent) et 100 (timbre identique).
Dans le cas des liaisons RTC et RNIS, le signal de rception galis est affect d'un fort
bruit de quantification. Mme si l'on prcise au sujet de noter uniquement la proximit de timbre
avec l'original, la prsence de ce bruit risque de perturber le jugement de l'auditeur. C'est
pourquoi, de manire s'assurer d'valuer uniquement la capacit de l'galiseur restaurer le
timbre original, les signaux tests sont obtenus en supprimant la quantification en loi A qui suit
l'galiseur dans la liaison simule. Il ne s'agit pas de ngliger les limites relles de l'galiseur,
mais d'isoler la question du timbre pour l'valuer indpendamment des autres dgradations du
signal, le traitement conjoint du timbre et du bruit faisant l'objet de travaux et d'valuations
ultrieurs dcrits dans le chapitre III.
La norme [UIT-R/BS.1534, 1996] recommande d'utiliser des sujets expriments. Compte
tenu des difficults trouver 20 sujets experts, nous avons constitu un panel intermdiaire : 24
sujets ont particip l'exprience, dont :
- 13 experts, i.e. auditeurs ayant l'habitude d'couter des sons de manire critique ;
- 11 nafs habitus utiliser des interfaces informatiques.
Les sujets sont placs seuls dans une pice calme devant une interface graphique sur ordinateur,
telle que reprsente sur la Figure 2.32 (logiciel CRC-SEAQ, du Communication Research
Center, Ottawa). L'chelle "excellent" "bad" n'tant pas modifiable, il est prcis chaque
sujet ( la fois oralement et dans les consignes crites) de ne pas en tenir compte et de se rfrer
l'chelle de proximit de timbre prcdemment voque. Le PC est quip d'une carte son
haute qualit Digigram VX222, dont le niveau, initialement une valeur "confortable", est
ajustable pour ceux qui le dsirent. L'coute se fait en binaural sur casque ferm
Sony MDR CD1000. Il s'agit de conditions d'coute plus discriminantes et plus sensibles que
l'coute tlphonique habituelle. Dix squences sont prsentes au sujet, correspondant la
phrase "Alors la bise " prononce dans les 10 conditions (liaison, locuteur) retenues.
Le bouton REF correspond la rfrence (signal original), les boutons A, B, C, D, E aux
fichiers tests (ORI, ID, EG, PRE et TRANSP), selon un ordre alatoire mais identique pour tous
les sujets. Au-dessus de chaque bouton se trouve un curseur permettant de juger sur une chelle
continue la proximit de timbre avec l'original. L'auditeur indique sa note en dplaant le curseur
avec la souris. Le fichier not est celui couramment slectionn (en cliquant sur le bouton) et
affich en rouge.
On peut couter la phrase en boucle (bouton boucle) et commuter entre les diffrents
fichiers comme on le dsire en cliquant sur les boutons REF, A, B, ... On peut galement
slectionner des parties du signal l'aide des curseurs du bas et effectuer l'valuation en ayant
galisation spectrale aveugle

45
isol ces parties. Cette prsentation de l'interface permet au sujet non seulement d'valuer les
signaux tester par rapport la rfrence, mais aussi de les comparer entre eux. Une fois les
fichiers nots, le sujet appuie sur la touche "Next Trial" : le logiciel demande alors la
confirmation des votes et passe la squence suivante.
Le test est prcd de la lecture des consignes reproduites dans l'annexe A, accompagnes
de quelques indications orales. La dure totale du test, incluant la lecture des consignes et la
phase d'apprentissage, est de 50 mn en moyenne.

Figure 2.32 : I nterface du logiciel CRC-SEAQ utilise pour les tests
Rsultats
Les Figures 2.33 2.36 reprsentent, pour les quatre locuteurs et les trois liaisons test, les
rsultats des tests subjectifs, en regard avec les distorsions spectrales correspondantes. Pour H1,
H2 et F1, la distorsion de la liaison galise varie peu au cours de la phrase, l'instar de l'erreur
cepstrale correspondante (voir Figure 2.27). Pour F2, la distorsion de la liaison galise est
reprsente en double, chaque reprsentation correspondant un niveau d'erreur cepstrale
(environ 0,1 dans la premire moiti de la phrase, environ 0,2 dans la deuxime). Pour chaque
liaison et chaque locuteur sont reprsentes les notes moyennes des 5 signaux tests, ainsi que les
intervalles de confiance 95 % associs. Pour une note moyenne , l'intervalle de confiance
95 % est dfini par :

0,05 0,05
; I u t u t
N N
(
= +
(

, (2.28)
o t
0,05
est le quantile de la loi gaussienne normale associ la probabilit de 95 %, est
l'estime de l'cart-type de la note et N est le nombre de sujets. La probabilit que la note
moyenne relle (celle que l'on obtiendrait avec un nombre de sujets infini) soit dans cet intervalle
est de 95 %.
Chapitre II

46

100 1000
-12
-10
-8
-6
-4
-2
0
Frquences (Hz)
(
d
B
)

TRANSP
PRE
EG
ID
Liaison 1
Locuteur H1

ORI ID EG PRE TRANSP
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Liaison 1
Locuteur H1
Moyenne globale
Moyenne experts
Moyenne naifs

100 1000
-14
-12
-10
-8
-6
-4
-2
Frquences (Hz)
(
d
B
)

TRANSP
PRE
EG
ID
Liaison 2
Locuteur H1

ORI ID EG PRE TRANSP
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Liaison 2
Locuteur H1
Moyenne globale
Moyenne experts
Moyenne naifs

Figure 2.33 : Pour le locuteur H1 et les liaisons 1 et 2,
- gauche, distorsion de la liaison sans traitement (trait pais gris) ; galise (trait fin noir);
galise par l'galiseur idal (pointills) ; seulement pr-galise (tirets )
- droite, notes de leurs signaux de rception respectifs
Pour toutes les liaisons et tous les locuteurs, la note de EG est significativement suprieure
celle de TRANSP, ce qui confirme l'efficacit de la correction de distorsion spectrale
indique par les rsultats objectifs.
En revanche, pour les locuteurs masculins, les diffrences objectives entre EG, ID et PRE
ne se retrouvent pas dans les notes moyennes. Les auditeurs jugent certes meilleure la correction
apporte par l'galiseur idal, mais l'amlioration est trs faible et les intervalles de confiance de
ID, EG et PRE se recouvrent largement. Par ailleurs, la note moyenne de EG est quasiment
identique celle de PRE, alors que, selon les courbes de distorsion spectrale, l'galiseur adapt
devrait apporter une nette amlioration du timbre pour le locuteur H2.
Les notes de la locutrice F1 sont un peu plus conformes aux rsultats objectifs. Aux bonnes
performances de l'galiseur correspondent des notes moyennes trs proches de celles de
l'galiseur idal, tandis que le filtrage passe-bas introduit par le pr-galiseur seul dans les
liaisons 1 et 3 se traduit par des notes infrieures, avec cependant un recouvrement de 50 % entre
les intervalles de confiance. La note de PRE est proche de celles de ID et EG pour la liaison 2, ce
qui s'explique par une distorsion spectrale moins prononce que pour les liaisons 1 et 3.
Les notes de la locutrice F2 sont, de manire plus nette, conformes ce que les courbes de
distorsion spectrale laissaient prvoir. La hirarchie des notes correspond celle des
dsquilibres spectraux introduits par les diffrents galiseurs, en supposant que des carts de 3

galisation spectrale aveugle

47

100 1000
-12
-10
-8
-6
-4
-2
0
Frquences (Hz)
(
d
B
)

TRANSP
PRE
EG
ID
Liaison 1
Locuteur H2

ORI ID EG PRE TRANSP
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Liaison 1
Locuteur H2
Moyenne globale
Moyenne experts
Moyenne naifs

100 1000
-14
-12
-10
-8
-6
-4
-2
Frquences (Hz)
(
d
B
)

TRANSP
PRE
EG
ID
Liaison 2
Locuteur H2

ORI ID EG PRE TRANSP
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Liaison 2
Locuteur H2
Moyenne globale
Moyenne experts
Moyenne naifs

Figure 2.34 : Pour le locuteur H2 et les liaisons 1 et 2,
- gauche, distorsion de la liaison sans traitement (trait pais gris) ; galise (trait fin noir) ;
galise par l'galiseur idal (pointills) ; seulement pr-galise (tirets )
- droite, notes de leurs signaux de rception respectifs
4 dB ne sont pas perceptibles : ID>EG>PRE pour les liaisons 1 et 3 ; IDPRE>EG pour la
liaison 2.
La comparaison entre les rsultats de la liaison 3 et ceux de la liaison 1 pour les locutrices
conforte partiellement les choix effectus dans la prparation du plan de test. La hirarchie des
notes de ID, EQ et PRE est conserve, avec une dgradation globale des notes pour la liaison 3
qui peut s'expliquer par l'altration du timbre par le codage EFR. La note attribue TRANSP ne
subit pas cette dgradation, notamment pour F2, ce qui s'explique par ce que les transducteurs
GSM simuls attnuent un peu moins que le SRI modifi les composantes basse frquence, part
importante du timbre peru.
Notons que les rsultats diffrent peu entre les auditeurs experts et nafs : dans chaque
squence, soit les notes moyennes des deux groupes d'auditeurs sont trs proches, soit elles
diffrent du mme nombre de points pour tous les signaux tests, la notation des experts tant
gnralement plus svre. Le choix d'intgrer des auditeurs nafs altre donc assez peu la fiabilit
des rsultats.
Ces rsultats mettent en vidence la correction du timbre introduite par l'galiseur, mais
sont globalement trs proches pour les trois galiseurs, malgr les distorsions trs fortes
introduites dans certains cas par l'galiseur (non idal) ou le pr-galiseur seul, et
indpendamment de la variabilit des performances de l'galiseur selon le locuteur. Une premire

Chapitre II

48

100 1000
-12
-10
-8
-6
-4
-2
0
Frquences (Hz)
(
d
B
)

TRANSP
PRE
EG
ID
Liaison 1
Locuteur F1

ORI ID EG PRE TRANSP
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Liaison 1
Locuteur F1
Moyenne globale
Moyenne experts
Moyenne naifs

100 1000
-14
-12
-10
-8
-6
-4
-2
Frquences (Hz)
(
d
B
)

TRANSP
PRE
EG
ID
Liaison 2
Locuteur F1

ORI ID EG PRE TRANSP
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Liaison 2
Locuteur F1
Moyenne globale
Moyenne experts
Moyenne naifs

100 1000
-24
-22
-20
-18
-16
-14
-12
Frquences (Hz)
(
d
B
)

TRANSP
PRE
EG
ID
Liaison 3
Locuteur F1

ORI ID EG PRE TRANSP
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Liaison 3
Locuteur F1
Moyenne globale
Moyenne experts
Moyenne naifs

Figure 2.35 : Pour la locutrice F1 et les trois types de liaisons,
- gauche, distorsion de la liaison sans traitement (trait pais gris) ; galise (trait fin noir) ;
galise par l'galiseur idal (pointills) ; pr-galise seulement (tirets )
- droite, notes de leurs signaux de rception respectifs
conclusion pourrait tre que notre galiseur rapproche certes le timbre de celui du signal original,
puisque la note de EG est toujours nettement suprieure celle de TRANSP, mais est
inutilement complexe, puisqu'un filtre fixe corrigeant une liaison moyenne obtient des rsultats
subjectifs moyens trs proches pour la plupart des locuteurs. Les analyses complmentaires qui
suivent permettent cependant de nuancer cette conclusion.

galisation spectrale aveugle

49

100 1000
-12
-10
-8
-6
-4
-2
0
Frquences (Hz)
(
d
B
)

TRANSP PRE
EG
ID
Liaison 1
Locuteur F2

ORI ID EG PRE TRANSP
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Liaison 1
Locuteur F2
Moyenne globale
Moyenne experts
Moyenne naifs

100 1000
-14
-12
-10
-8
-6
-4
-2
Frquences (Hz)
(
d
B
)

TRANSP
PRE
EG
ID
Liaison 2
Locuteur F2

ORI ID EG PRE TRANSP
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Liaison 2
Locuteur F2
Moyenne globale
Moyenne experts
Moyenne naifs

100 1000
-24
-22
-20
-18
-16
-14
-12
Frquences (Hz)
(
d
B
)

TRANSP
PRE
EG
ID
Liaison 3
Locuteur F2

ORI ID EG PRE TRANSP
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Liaison 3
Locuteur F2
Moyenne globale
Moyenne experts
Moyenne naifs

Figure 2.36 : Pour la locutrice F2 et les trois types de liaisons,
- gauche, distorsion de la liaison sans traitement (trait pais gris) ; galise (trait fin noir) ;
galise par l'galiseur idal (pointills) ; pr-galise seulement (tirets )
- droite, notes de leurs signaux de rception respectifs
Une analyse de variance (ANOVA) est effectue pour chaque liaison sparment. Pour chaque
ANOVA, on considre le facteur Traitement 5 niveaux (ORI, ID, EG, PRE, TRANSP) ainsi
que le facteur Locuteur 4 niveaux (H1, H2, F1 et F2) pour les liaisons 1 et 2 et 2 niveaux (F1,
F2) pour la liaison 3.
La Figure 2.37 reprsente, pour les liaisons 1 3, les notes moyennes de chaque traitement
(ORI, ID, EG, PRE, TRANSP) tous locuteurs confondus, ainsi que les intervalles de confiance
associs. Un test de Tukey [Tukey, 1953] effectu sur le facteur Traitement uniquement (i.e.
tous locuteurs confondus) permet de mesurer le caractre significatif des diffrences de notes
Chapitre II

50
entre ID, EG et PRE. Ce test montre que pour les liaisons 1 et 3, la diffrence entre ID et EG
n'est pas significative (indice de significativit p = 0,26 , nettement suprieur au seuil de
significativit 0,05), alors qu'elle est significative entre ID et PRE ainsi qu'entre EG et PRE
(p<0,05). Les rsultats dtaills figurent dans l'annexe B. En d'autres termes, EG est jug, en
moyenne sur l'ensemble des sujets et des locuteurs, comme mme "distance" de l'original
que ID, PRE tant quant lui jug plus loign.

ORI ID EG PRE TRANSP
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Liaison 1

ORI ID EG PRE TRANSP
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Liaison 2

ORI ID EG PRE TRANSP
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Liaison 3

Figure 2.37 : Notes moyennes des signaux test sur tous locuteurs et intervalles de confiance associs
Toutefois, le mme test ralis locuteur par locuteur ne fait apparatre ce rsultat que pour la
locutrice F1 dans la liaison 3. Pour cette locutrice avec les liaisons 1 et 2, le test n'indique pas de
diffrence significative entre ID, EG et PRE, malgr la forte distorsion spectrale introduite par le
pr-galiseur seul dans le cas de la liaison 1. De mme, pour les deux locuteurs masculins,
aucune diffrence significative entre ID, EG et PRE n'est rvle par le test, indpendamment
des distorsions spectrales plus ou moins fortes des signaux. Exception faite des conditions
(F1, liaison 3), le test ne donne de rsultats conformes aux rsultats objectifs que pour la
locutrice F2 (comme dans la prcdente analyse des rsultats) : EG, ID et PRE sont jugs
significativement diffrents pour les liaisons 1 et 3, tandis que pour la liaison 2, ID et EG sont
jugs quivalents entre eux et significativement diffrents de PRE.
L'importance des composantes basses frquences dans le jugement des auditeurs permet
d'expliquer ces rsultats. Les locuteurs H1, H2, F1 et F2 ont des pitchs moyens respectifs de
120 Hz, 160 Hz, 210 Hz et 240 Hz. Le fait que les rsultats subjectifs de F2, et, dans une
moindre mesure, de F1, soient les plus conformes aux rsultats objectifs est significatif de cette
influence de la restauration des composantes basses frquences. Pour les locuteurs masculins, la
faible discrimination du test subjectif entre EG, ID et PRE peut s'expliquer par la limitation de
galisation spectrale aveugle

51
l'galisation la bande 200-3150 Hz. La non-restauration des composantes en de de 200 Hz
introduit une telle diffrence de timbre avec l'original que les diffrences entre les notes
moyennes de EG, ID et PRE sont comprimes.
Nous nous proposons de prciser cet effet en exploitant diffremment les rsultats du test.
Pour chaque auditeur, on calcule d'une part la diffrence
ID-EG
entre la note de EG et celle de
ID, d'autre part la diffrence
ID-PRE
entre la note de PRE et celle de ID. La Figure 2.38
reprsente, pour le locuteur H2 et la liaison 1, les distributions de
ID-EG
et
ID-PRE
. Ces
distributions font apparatre une nette sparation entre EG et PRE, qui ne pourrait pas tre mise
en vidence par une analyse de la variance, les deux classes tant concentriques. Ainsi, en
moyenne,
ID-EG
et
ID-PRE
sont gaux, mais cette moyenne cache le fait que la majorit des
auditeurs jugent EG nettement plus proche de ID que PRE (cart infrieur 5), ce qui est
conforme au rsultat objectif observ. La diffrence de timbre entre ORI d'une part et PRE, EG
et ID d'autre part est telle que les auditeurs sont incapables de juger avec certitude si PRE est
plus ou moins loign de ORI que ID et EG : sur les 24 auditeurs, 10 rpondent "moins", 14
rpondent "plus".

-40 -30 -20 -10 0 10 20 30 40
0
5
10
15
F
r

q
u
e
n
c
e

EG
-40 -30 -20 -10 0 10 20 30 40
0
5
10
15
Diffrence de note avec ID
F
r

q
u
e
n
c
e

PRE

Figure 2.38 : Distribution des diffrences de notes entre EG et I D d'une part, entre PRE et I D
d'autre part, pour le locuteur H
2
avec la liaison 1.
La comparaison de PRE et EG ID doit donc se faire non seulement par comparaison des
moyennes de
ID-EG
et
ID-PRE
, mais aussi par comparaison des variances de ces valeurs. Les
moyennes et carts-types de
ID-EG
et
ID-PRE
sont reprsents pour les dix combinaisons de
liaisons et de locuteurs sur la Figure 2.39. Pour les liaisons 1 et 2 et les locuteurs H1, H2 et F1,
les moyennes de
ID-EG
et
ID-PRE
sont trs proches, indpendamment des distorsions spectrales
observes. Mais dans le cas des locuteurs H2 et F1, pour lesquels les rsultats objectifs indiquent
une plus grande proximit entre EG et ID qu'entre PRE et ID, l'cart-type de
ID-EG
est deux fois
plus faible celle de
ID-PRE
. Cela signifie que la proximit des notes subjectives observe en
moyenne entre ID et EG a une probabilit nettement plus forte que celle entre ID et PRE.
Pour le locuteur H1, aux mauvaises performances objectives de l'galiseur correspond une
variance de
ID-EG
similaire celle de
ID-PRE
avec la liaison 1, infrieure avec la liaison 2.
Si cette analyse des rsultats ne permet de conclure, pour H2 et F1, une plus grande
proximit entre ID et EG qu'entre ID et PRE qu'en termes de probabilit, cette faiblesse du
rsultat tient principalement la consigne donne aux auditeurs. Le test ne pouvant comporter
Chapitre II

52
qu'une rfrence, il n'tait pas demand ceux-ci de noter EG et PRE par rapport ID mais par
rapport ORI.

H1 H2 F1 F2 H1 H2 F1 F2 F1 F2
-50
-40
-30
-20
-10
0
10
Locuteurs
D
i
f
f

r
e
n
c
e

d
e

n
o
t
e

a
v
e
c

I
D

Liaison 1 Liaison 2 Liaison 3
Egaliseur
Pr-galiseur seul

Figure 2.39 : Pour les dix combinaisons liaison-locuteur, moyennes et carts-types des diffrences entre EG et
I D d'une part, entre PRE et I D d'autre part.
Bilan du test
La limitation de la bande d'galisation dans les basses frquences rduit la capacit de
l'galiseur restaurer le timbre peru : les notes attribues ID et EG sont proches de 50
seulement pour les trois premiers locuteurs, contre 20 environ pour TRANSP. Pour les
locutrices pitch lev, comme F2, les notes de ID et EG sont plus leves, mais celles de
TRANSP le sont d'autant. Cependant, dans cette limite, les rsultats tmoignent d'une part
de l'atteinte de l'objectif de distorsion nulle sur la bande d'galisation, d'autre part de la
supriorit de l'galiseur propos sur un filtre fixe compensant une liaison moyenne.
II.3.7. Validation de la version temps rel
La fonction de correction de timbre implante sur la plate-forme Mainate a t valide de
manire informelle lors de dmonstrations. L'exprience consistait tablir une communication
au cours de laquelle l'utilisateur pouvait commuter volont entre diffrents modes de
fonctionnement de Mainate sans traitement ; dbruitage seul ; dbruitage et correction de
timbre en appuyant sur les touches de son tlphone, de manire comparer les effets
correspondants. Les utilisateurs ont ainsi observ la restauration du timbre de la voix originale,
aussi bien en ambiance bruite que non bruite, sur des liaisons fixes ou mobiles, le timbre tant
jug gnralement "plus naturel" lorsque la correction de timbre tait active.
galisation spectrale aveugle

53
II.4. Conclusion
A partir d'un principe simple, aligner le spectre long terme du signal de parole trait sur le
spectre moyen de la parole dfini par l'UIT-T, nous avons conu et implant en temps rel un
galiseur qui corrige le filtrage d'une liaison tlphonique sur la bande 200-3400 Hz de manire
trs satisfaisante pour la plupart des locuteurs. Subjectivement, la limitation de la bande de
frquences d'galisation ne permet pas de restaurer pleinement le timbre original des locuteurs,
mais le signal en rception d'une liaison galise s'en approche nettement plus que celui de la
mme liaison sans galiseur. D'autre part, pour les trois quarts des locuteurs, l'amplitude de la
distorsion spectrale entre le signal original et le signal en rception de la liaison galise n'excde
pas 3 4 dB sur la bande d'galisation. Cette faible erreur spectrale se traduit subjectivement par
un timbre trs proche de celui qu'on obtiendrait avec un galiseur corrigeant parfaitement la
liaison tlphonique sur cette bande. L'objectif d'une distorsion nulle sur la bande d'galisation
est donc atteint.
Cependant, la restauration des composantes basse frquence de la parole par l'galiseur
amplifie le bruit de quantification peru en rception, de manire particulirement gnante pour
certains locuteurs. C'est pourquoi nous nous attacherons, dans le chapitre III, rduire
perceptuellement ce bruit et dterminer si une galisation "bruyante" est prfrable l'absence
d'galisation.
D'autre part, pour une minorit de locuteurs, les performances de l'galiseur restent en de
de celles d'un galiseur assurant une distorsion nulle sur la bande 200-3150 Hz. Ces locuteurs
tant ceux dont le spectre long terme s'loigne le plus du spectre de rfrence sur lequel se
fonde l'galisation, nous tenterons de remdier cette limitation des performances dans le
chapitre IV, en adaptant l'galiseur la varit des spectres des locuteurs.
Chapitre II

54

55
Chapitre III

galisation et bruit de quantification :
approches perceptives
Nous avons montr au chapitre II comment la restauration des composantes basse frquence de
la parole par l'galiseur peut amplifier sensiblement le bruit peru en rception, bruit rsultant de
la quantification en loi A des chantillons de sortie de l'galiseur. Dans ce chapitre, nous
tudions la possibilit de rduire perceptivement ce bruit, en utilisant les proprits de masquage
frquentiel de la parole. Nous proposons pour cela deux mthodes de reformage spectral du bruit
de quantification, l'une fonde sur un filtrage de l'erreur de quantification, l'autre consistant
trouver une quantification optimale selon une approche probabiliste. Enfin, nous valuons par
des tests formels la perception subjective du bruit, selon qu'il est reform ou non. Cette
valuation est mene en tenant compte de la problmatique de la correction de timbre tudie
plus spcifiquement au chapitre II.
De manire tudier le bruit de quantification indpendamment des erreurs d'estimation de
la rponse frquentielle de l'galiseur, nous nous placerons dans le cas d'une liaison fixe
moyenne telle que dfinie au chapitre II, corrige par un galiseur compensant parfaitement la
distorsion spectrale subie par la parole sur la bande 200-3150 Hz.
III.1. Principes du masquage du bruit et application au codage
III.1.1. Le masquage frquentiel du bruit
Lorsqu'un bruit et un signal de parole sont prsents simultanment, le bruit peut tre inaudible,
selon ses caractristiques spectrales, celles du signal de parole et le caractre harmonique de ce
dernier. Les principes de ce phnomne, appel masquage frquentiel, sont prciss en annexe C.
Une modlisation des proprits de masquage de la parole selon ces principes permet de
calculer, pour chaque trame de signal de parole, un seuil de masquage, tel que le bruit est
inaudible si son spectre est en dessous de ce seuil. Parmi les mthodes existantes, nous avons
retenu celle de Johnston [Johnston, 1988], pour sa simplicit de mise en uvre. Comme nous le
verrons dans les sections suivantes, l'objet de ce chapitre est plus de chercher une mthode de
reformage spectral du bruit en fonction d'une courbe de masquage donne que de rechercher la
courbe de masquage la plus prcise.
Chapitre III

56
III.1.2. Calcul du seuil de masquage : mthode de Johnston
Le masque est calcul selon les tapes suivantes :
- Analyse en bandes critiques
- Convolution du spectre en Bark par la fonction d'talement
- Soustraction d'un seuil de correction
- Normalisation du seuil de masquage
- Comparaison au seuil d'audition absolu
- Conversion du masque dans le domaine frquentiel
Analyse en bandes critiques
A l'instar du mcanisme de perception auditive, le spectre du signal est divis en bandes
critiques, et l'nergie du signal est calcule dans chaque bande critique, de manire obtenir le
spectre discret sur une chelle en Bark de 1 18 (pour un signal chantillonn 8 kHz). Ainsi, si
l'on note X la transforme de Fourier discrte du signal et B la densit spectrale sur l'chelle des
Bark,
( ) ( )
2
i
k b
B i X k

=

(3.1)
o k dsigne le k
me
indice de frquence et b
i
la i
me
bande critique.
Convolution du spectre en Bark par la fonction d'talement
Cette deuxime tape permet de tenir compte de l'talement d'une excitation dans une bande
critique sur les bandes critiques proches. La distribution de cette excitation autour de la bande
critique considre, reprsente sur la Figure 3.1, est appele fonction d'talement. Une
expression analytique de cette fonction est donne dans [Schroeder, 1979] :
( ) ( ) ( ) ( )
2
E
10.log 15, 81 7, 5. 0, 474 17, 5. 1 0, 474 f i i i = + + + + , (3.2)
o i est le numro de bande critique.


-10 -8 -6 -4 -2 0 2 4 6 8 10
-250
-200
-150
-100
-50
0
Bark
d
B


Figure 3.1 : Fonction d'talement [Schroeder, 1979]
galisation et bruit de quantification : approches perceptives

57
L'excitation globale du signal est considre comme l'addition des excitations provoques dans
chaque bande critique, ce qui se traduit par la convolution du spectre en Bark par la fonction
d'talement :
( ) ( ) ( )
E
E i B i f i = (3.3)
Le rsultat de cette convolution est appel spectre tal.
Soustraction d'un seuil de correction
La courbe de masquage correspond au spectre tal un cart prs, qui dpend de la nature du
signal. Dans ce modle, pour une tonale masquant un bruit, le masque est situ 14,5 + i dB sous
le spectre tal, avec i la frquence en Bark. Pour un bruit masquant une tonale, l'cart est de
5,5 dB quelle que soit la frquence. Il est en effet plus facile de masquer une tonale par un bruit
que l'inverse.
La parole tant constitue schmatiquement d'harmoniques et de bruit, c'est une
combinaison de ces seuils de correction qui sera applique, dpendant de l'harmonicit du signal.
A cet effet, on calcule une mesure de platitude spectrale (spectral flatness measure, SFM),
dfinie comme le rapport entre la moyenne gomtrique et la moyenne arithmtique du spectre
de puissance du signal. La valeur en dB de cette mesure, SFM
dB
, est alors utilise pour calculer
un coefficient de tonalit :

dB
dBmax
min ,1
SFM
SFM


=


, (3.4)
o SFM
dBmax
vaut -60 dB et correspond par convention la mesure de platitude spectrale d'un
signal tonal pur. SFM vaut 0 dB pour un bruit blanc. Pour les signaux de parole, SFM est
compris entre 20 et 30 dB. Le seuil de correction de masquage pour chaque bande critique est
alors dfini par :
( ) ( ) ( ) . 14, 5 1 .5, 5 O i i = + + . (3.5)
et le seuil de masquage vaut :
( ) ( ) ( ) M i E i O i = . (3.6)
Normalisation du seuil de masquage
La fonction d'talement accrot l'nergie estime dans chaque bande critique. C'est pourquoi le
seuil de masquage doit tre normalis par l'nergie de la fonction d'talement.
Comparaison au seuil d'audition absolu
Le masque normalis est compar au seuil d'audition absolu : pour chaque bande critique, le
niveau final du masque est gal la plus grande des valeurs entre le masque normalis et le seuil
d'audition.
Chapitre III

58
Conversion du masque dans le domaine frquentiel
Le masque dfini par la srie de ses niveaux dans les bandes critiques est converti dans le
domaine frquentiel : pour toute frquence f, si f i,
( ) ( ) M f M i = . (3.7)
III.1.3. Application au masquage du bruit de quantification
La Figure 3.2 rappelle la structure de la liaison en aval de l'galiseur et du quantificateur en loi A
qui la suit. Nous souhaitons reformer le spectre du bruit de quantification, de manire ce qu'il
soit sous la courbe de masquage de la parole. Celle-ci sera calcule, chaque trame, selon la
mthode de Johnston, avec les adaptations suivantes.
D'une part, le signal tant trait dans le rseau, il est difficile de connatre le niveau absolu
de rception. Par consquent, l'tape de comparaison du masque au seuil d'audition absolu est
supprime.


Egaliseur
Ligne
dabonn
L_RX
Terminal
Rcepteur
S_RX
x * l_rx * s_rx
+
b * l_rx * s_rx
Rseau numrique
Dcodage MIC
loi A

analogique
Transmission analogique en bande de base
Quantificateur
en loi A
x x + b

Figure 3.2 : Schma de la liaison en aval de l'galiseur
D'autre part, comme c'est le bruit peru la rception qui doit tre subjectivement rduit, nous ne
calculerons pas le seuil de masquage du signal de sortie de l'galiseur (signal quantifier), mais
celui du signal de rception. Si l'on note x le signal de sortie de l'galiseur, dans l'quation (3.1),
|X| est remplac par |X||S_RX||L_RX| (voir Figure 3.2). La densit spectrale du bruit de
quantification reu devra tre de la forme :
( ) ( ) ( ) ( ) ( )
R 2
. Masque _ _
b
f L RX f S RX f X f = , (3.8)
avec
2
un facteur infrieur 1, de telle sorte que le spectre du bruit de quantification reu soit
sous la courbe de masquage. Par ailleurs,
( ) ( ) ( ) ( )
2 2
R
_ _
b b
f L RX f S RX f f = , (3.9)
o
b
est la densit spectrale du bruit de quantification b.
galisation et bruit de quantification : approches perceptives

59
Ainsi, le bruit de quantification reform b devra avoir pour densit spectrale :
( )
( ) ( ) ( ) ( )
( ) ( )
( )
2 2
Masque 2 2
Masque _ _
_ _
b
L RX f S RX f X f
f f
L RX f S RX f
= = , (3.10)
avec :
( )
( ) ( ) ( ) ( )
( ) ( )
Masque 2 2
Masque _ _
_ _
L RX f S RX f X f
f
L RX f S RX f
= . (3.11)
Les dispositifs usuels de reformage spectral du bruit de quantification dans le domaine temporel
ont typiquement la structure reprsente sur la Figure 3.3 [Boite, 1987][ Makhoul, 1979], o A(z)
est le polynme prdicteur du signal s un ordre donn.








Figure 3.3 : Reformage du bruit de quantification d'un codeur temporel
De cette structure se dduit la relation suivante :
( ) ( ) ( ) ( ) R z S z B z Q z = + (3.12)
Dans [Boite, 1987] et [Makhoul, 1979], il n'est pas fait explicitement rfrence au masquage,
mais l'objectif est de reformer le spectre du bruit selon une forme proche de celle du spectre du
signal, de manire le rendre moins perceptible. A cet effet sont tudis diffrents filtres B.
[Makhoul, 1979] montre que le choix de B = 1 permet de minimiser le rapport signal
bruit, mais observe que le bruit blanc ainsi obtenu reste trs perceptible dans les hautes
frquences. Choisir B(z)=1/A(z), c'est--dire supprimer la boucle de reformage du bruit de
quantification, conduit un bruit de spectre parallle celui du signal, de niveau lev, et peru
comme trop "rugueux". L'optimum perceptuel est atteint en donnant au bruit un spectre de forme
intermdiaire entre le spectre du signal et celui du bruit blanc. Le filtre B appropri est une
approximation tout zro de 1/A, d'ordre 2. [Boite, 1987] propose une solution proche, avec
B(z) = A(z)/A(z), o est compris ente 0,8 et 0,9.
Plus qu'un reformage du bruit, ces dispositifs ralisent un blanchiment du signal (par le
filtre A), dont le spectre est reform en rception. Dans notre cas, il n'est pas envisageable
d'introduire un filtre en rception, de sorte que ces mthodes ne sont pas applicables. Nous
proposons de reformer le bruit de quantification sans changer le systme de rception, sans
blanchir le signal, simplement en utilisant diffremment la quantification en loi A aprs
l'galisation. La section III.2 prsente une mthode utilisant un filtrage rcursif de l'erreur de
quantification. Nous prsentons dans la section III.3 une deuxime mthode, fonde sur une
approche probabiliste.
A(z) Quantificateur
( )
1
A z s
q
r
+
A(z) B(z) - 1
Systme de
transmission
Chapitre III

60
III.2. Mthode de rinjection de l'erreur de quantification
III.2.1. Principe
Nous reprenons la structure propose par [Boite, 1987] et [ Makhoul, 1979], en remplaant A(z)
par 1 (la prdiction sur le signal est supprime). Il s'agit, selon le schma de la Figure 3.4,
d'injecter l'entre du quantificateur l'erreur de quantification filtre, de telle sorte que le
bruit de quantification final soit masqu.









Figure 3.4 : Reformage du bruit de quantification par rinjection de l'erreur
D'aprs la Figure 3.4, en notant s% le signal quantifi en loi A et q l'erreur de quantification,
( ) ( ) (1 ( )) ( ) S z S z D z Q z = + +
%
. (3.13)
Le bruit de quantification reform a donc pour densit spectrale de puissance :

2 2
( ) | 1 ( ) |
b q
f D f = + , (3.14)
o
q
2
dsigne la variance de q. D'aprs l'quation (3.10), le reformage spectral du bruit de
quantification doit se traduire par :

2 2 2
Masque
| 1 ( ) | ( )
q
D f f + = , (3.15)
avec
2
le rapport entre la densit spectrale de puissance du bruit et le seuil de masquage, que l'on
souhaite infrieur 1. Nous remplaons cette condition par la condition suffisante :
( ) ( )
2 2
2 2
1
q
D z H z + = , (3.16)
avec H un filtre dont la rponse frquentielle correspond la courbe de masquage. Cette galit
est vrifie ds lors que :
( ) ( ) 1
q
D z H z

= (3.17)
_
q
s
+
D
linaire loi A
s%
galisation et bruit de quantification : approches perceptives

61
Comme la boucle doit contenir un retard, d(0) = 0. Ainsi, est compltement dtermin par :

( ) 0
q
h

= (3.18)
et D est dfini par :
( )
( )
( )
1
0
H z
D z
h
= (3.19)
III.2.2. Structure du filtre de boucle
La dfinition de la structure du filtre doit tre guide par la ncessit de stabilit de la boucle de
rtroaction. Le masque changeant chaque trame de signal, nous cherchons une dfinition
gnrique du filtre qui garantisse cette stabilit. L'tude de la stabilit selon le lieu des ples ne
peut tre ralise qu'en contournant l'opration de quantification, c'est--dire en considrant s%
non pas comme la sortie du quantificateur, mais comme l'entre de l'additionneur dont est issu q :
( ) ( ) ( ) ( ) ( ) ( )
Q z S z S z D z Q z = +
%
(3.20)
Ainsi,
( )
( ) ( )
( )
( )
( )
( ) ( ) ( )
0
1
S z S z h
Q z S z S z
D z H z

= =


+

%
%
(3.21)
Le systme sera donc stable si 1/H est stable. Si nous construisons par l'algorithme de
Levinson un modle AR {(a
i
)
1ip
;} correspondant l'inverse de la courbe de masquage, le
filtre H, dont la rponse frquentielle doit suivre la courbe de masquage, peut tre choisi tel que :
( )
1
1
p
i
i
i
a z
H z

=
+
=

, (3.22)
de sorte que :
( ) ( ) ( ) ( )
1
1
1
p
i
i
i
Q z S z S z
a z

=
=
+

%
(3.23)
Le modle AR tant stable par construction, on est assur de la stabilit de la boucle. D est alors
un filtre RIF dfini, d'aprs (3.17), par :
( )
1
p
i
i
i
D z a z

=
=

(3.24)
La structure propose est reprsente sur la Figure 3.5.
Chapitre III

62
L'ordre de modlisation AR de l'inverse du masque doit tre choisi assez grand pour
approcher avec suffisamment de prcision celui-ci, sans atteindre des valeurs qui mettraient en
pril la stabilit des algorithmes de calcul du modle en prcision finie. Un ordre de 20 permet
d'approcher le masque avec une erreur infrieure 3 dB, tout en permettant un calcul en virgule
fixe selon l'algorithme de Schr [Proakis, 1996], avec une prcision de 20 bit aprs la virgule.
















Figure 3.5 : Structure de la boucle de rtroaction
III.2.2. Rsultats
Cette mthode est simule sur des doubles phrases phontiquement quilibres
[Combescure, 1981] prononces par quatre locuteurs (masculins) et quatre locutrices. La
Figure 3.6 reprsente, pour deux trames particulires du signal de rception d'une des locutrices,
le spectre du bruit de quantification reu, avec et sans reformage, compar la courbe de
masquage du signal ainsi qu' la modlisation MA (filtre H) du masque attnu dans les basses
frquences. Dans les deux cas, le spectre du bruit reform suit comme prvu la forme du modle
du masque. Pour la premire trame, le bruit reform est bien sous le masque, tandis que le bruit
non reform (blanc) est au-dessus du seuil de masquage entre 1000 et 2000 Hz. En revanche, le
masquage choue pour la seconde trame. L'observation de ces courbes pour les trames
successives des signaux de rception des diffrents locuteurs montre que le spectre du bruit suit
toujours la forme fixe, mais que le niveau du bruit par rapport au masque est extrmement
variable, rsultat de l'absence de contrle du paramtre dans l'algorithme. C'est pour cette
raison que nous avons choisi d'attnuer les sommets du masque. Le dpassement d'un seuil de
masquage lev dans les basses frquences se traduisait en effet par un bruit "rauque" trs
gnant. Lorsque le spectre du bruit est dfini partir d'un masque dont les maxima ont t
attnus, le bruit est certes masqu moins facilement. Mais dans les cas o le masquage choue
que les maxima aient t attnus ou non, ce bruit non masqu est moins dsagrable si la forme
de son spectre est celle du masque dont les maxima ont t attnus.
Nous pouvons valuer de manire objective la capacit de masquage de notre mthode par
l'observation de la valeur , qui reprsente l'cart entre le spectre du bruit reform et la courbe de
masquage. Cette valeur est reprsente en dB sur la Figure 3.7 pour quatre locuteurs
(deux hommes : H1 et H2 ; deux femmes : F1 et F2) prononant chacun une double phrase. Les
zones de stabilit de correspondent aux pauses entre les phrases. Idalement, devrait rester
_
q
s
+
linaire loi A
s%
z
-1
z
-1
a
1
a
p
galisation et bruit de quantification : approches perceptives

63
infrieur 0 dB pour que le bruit de quantification reform soit masqu. Il apparat que le bruit
dpasse occasionnellement le seuil de masquage, avec une frquence qui dpend des locuteurs :
sur lensemble des locuteurs tests, le masquage choue plus frquemment pour les locutrices.

100 1000
0
10
20
30
40
50
60
70
80
90
100
Trame 1
Frquences (Hz)
A
m
p
l
i
t
u
d
e

(
d
B
)

Masque
Masque attnu
Modle MA
Bruit non reform
Bruit reform

100 1000
0
10
20
30
40
50
60
70
80
90
100
Frquences (Hz)
A
m
p
l
i
t
u
d
e

(
d
B
)

Masque
Masque attnu
Modle MA
Bruit non reform
Bruit reform
Trame 2

Figure 3.6 : Pour deux trames de signal, comparaison du bruit de quantification au masque
Subjectivement, cette irrgularit du masquage se traduit par un bruit "rauque" apparaissant plus
ou moins frquemment selon les locuteurs. Ce bruit est moins souvent audible que le bruit de
quantification non reform, mais est plus dsagrable. La prfrence des auditeurs pour l'un ou
l'autre sera value dans la section III.5. Notons que ce bruit apparat sur les mmes phonmes
que ceux pour lesquels le bruit non reform est le plus audible.

0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20


(
d
B
)
Locuteur H1
0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20


(
d
B
)
Locuteur H2
0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20


(
d
B
)
Locutrice F1
0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20
Temps (s)


(
d
B
)
Locutrice F2

Figure 3.7 : Ecart entre le spectre du bruit reform et le modle du masque
Chapitre III

64
III.3. Mthode probabiliste
III.3.1. Principes
Au lieu de quantifier chaque chantillon par le niveau de quantification le plus proche,
nous proposons une mthode originale [Mah, 2002] consistant quantifier globalement
une squence d'chantillons, a priori infinie, de manire ce que le spectre du bruit de
quantification respecte la condition de masquage dfinie par l'quation (3.10). Cette
quantification est effectue selon une approche probabiliste : il s'agit de chercher la
squence d'chantillons quantifis la plus probable connaissant le spectre que doit avoir le
bruit de quantification. La quantification devant tre effectue en temps rel avec un retard et
une taille mmoire limits, nous verrons plus loin comment effectuer une quantification au fil de
l'eau tout en conservant cette approche globale. Nous appellerons chemin une squence
d'chantillons quantifis, niveau de quantification une des 256 valeurs de sortie d'un codeur
MIC, et valeur quantifie les valeurs linaires, en entier sign cod sur 16 bit, correspondant
ces niveaux de quantification.
Pour chaque squence de quantification des instants 0 n, note C(0n), la probabilit de
ce chemin peut s'exprimer par :
( ) ( ) ( ) ( ) ( ) ( )
0... 0... 1 ( ) | 0... 1 P C n P C n P Q n C n = (3.25)
avec Q(n) la valeur quantifie l'instant n. On progresse ainsi de proche en proche : connaissant
la probabilit de chaque chemin l'instant n-1, on en dduit, pour chaque valeur de
quantification Q(n) possible l'instant n, les probabilits respectives des chemins composs des
chemins prcdents concatns aux diffrents Q(n).
Si nous considrons la quantification comme l'ajout d'un bruit b ayant le spectre souhait,
la probabilit conditionnelle de quantifier un chantillon x(n) par une valeur quantifie Q
k
est
dfinie par :

( ) ( )
( ) ( )
1
( ) | 0... 1 ,spectre de
( ) ( ) | 0... 1 ,spectre de
k
k k
P Q n Q C n b
P S x n b n S C n b
+
=
= < + <
(3.26)
o S
k
et S
k+1
sont les seuils infrieur et suprieur associs Q
k
.
Le spectre de b peut tre dfini par un modle ARMA :
( ) ( ) ( ) ( )
1 1
p q
i j
i j
b n w n a b n i d w n j
= =
= +

(3.27)
avec w bruit blanc centr de variance
2
, p et q les ordres de modlisation AR et MA,
respectivement. Ainsi, connaissant C(0n-1), x(n)+b(n) est une variable alatoire de mme
distribution que w(n) autour de la valeur moyenne :
( ) ( ) ( )
1 1
p q
i j
i j
x n a b n i d w n j
= =
+

(3.28)
galisation et bruit de quantification : approches perceptives

65
Connaissant la densit de probabilit de w, on peut donc calculer la probabilit (3.26), et
dterminer, selon l'quation (3.25), la probabilit de toute squence quantifie connaissant le
spectre souhait pour le bruit de quantification.
Il n'est pas possible en pratique de calculer les probabilits de tous les chemins passant par
les 256 valeurs de quantification : cela supposerait, pour N chantillons, de considrer 256
N

chemins. On slectionne donc les chemins possibles selon un algorithme de type Viterbi.
En notant l'opration de concatnation entre deux chemins, pour toute suite C(n+1N)
du chemin C(0n),
( ) ( ) ( ) ( ) ( ) ( )
0... ( 1... ) 0... ( 1... ) | 0... P C n C n N P C n P C n N C n + = + o (3.29)
Or, d'aprs ce qui prcde (notamment les quations (3.26) et (3.28)), le deuxime facteur du
membre de droite de l'quation (3.29) ne dpend que des chantillons x(i) et des valeurs
quantifies Q(i) postrieurs l'instant n-L, avec L = max(p,q). Par consquent, pour tous les
chemins finissant par le mme sous-chemin C(n-L+1n), ce facteur est le mme. On ne garde
donc, l'instant n, pour chaque sous-chemin C(n-L+1n), que le chemin de plus forte
probabilit P(C(0n)) finissant par ce sous-chemin. L'algorithme ncessite ainsi, dans une
premire approche, de mmoriser et actualiser chaque chantillon 256
L
chemins, avec les
probabilits et bruits correspondants.
III.3.2. Mise en uvre
Modlisation du bruit de quantification
D'aprs l'quation (3.10), la densit spectrale de puissance du bruit doit tre proportionnelle
celle de
Masque
:
( ) ( )
2
0 Masque b
f f = , (3.30)
o
Masque
est la courbe de masquage du signal de rception divise par la rponse frquentielle
de la partie de la liaison en aval du quantificateur. Par consquent,
Masque
est approche par un
modle ARMA, qui sera celui du bruit au facteur
0
prs. L'ordre de modlisation doit tre le
plus faible possible, de manire limiter la complexit de l'algorithme de recherche du chemin
optimal. D'aprs nos observations, pour les phonmes les plus critiques en terme de bruit de
quantification,
Masque
a une pente descendante et possde deux maxima locaux. Par consquent,
un modle ARMA d'ordres p = 5 et q = 4 permet de modliser ce masque avec un bon
compromis prcision-complexit.
L'algorithme propos prsente l'inconvnient de ne pas chercher le bruit de variance
minimale connaissant sa forme spectrale, mais le bruit le plus probable, pour une forme spectrale
et une variance fixes. La variance doit donc tre fixe, quelques dB sous celle du modle
ARMA du masque. Nous choisissons une marge de 5 dB, ie : 20log(
0
) = -5 dB.
Enfin, les calculs mis en uvre ncessitent de connatre le type de distribution de w. Ce
bruit n'ayant pas la ralit physique d'un bruit de quantification et ne constituant qu'un paramtre
de l'algorithme, nous sommes libres de choisir sa distribution. Nous choisissons pour w une
distribution gaussienne.
Chapitre III

66
Ainsi, la probabilit de l'quation (3.26) s'crit :

( ) ( )
( ) ( )
1
2
1 1
2
( ) | 0... 1 ,
( )
1
exp d
2 2
k
k
k b
p q
i C j C S
i j
S
P Q n Q C n
q x n a b n i d w n j
q


+
= =
=



+



=

(3.31)
avec w
C
et b
C
les bruits w et b associs au chemin C. Cette probabilit est illustre sur la
Figure 3.8. L'observation des valeurs effectives de w pour une squence quantifie montre bien,
a posteriori, que ce bruit prsente une distribution gaussienne pour chaque trame de signal.
Simplifications
En tenant compte de la forte dcroissance de la densit de probabilit gaussienne autour de sa
moyenne, on peut simplifier la recherche des chemins, en termes de mmoire et de nombre de
calculs de probabilits. Pour un chemin donn C(0n-1), nous ne considrerons pas les 256
terminaisons possibles Q(n), mais uniquement K valeurs quantifies autour du centre de la
gaussienne, comme indiqu pour un chemin sur la Figure 3.8, pour K = 4, valeur que nous
utiliserons dans les simulations. On remplace ainsi le treillis 256 tats par un arbre dont chaque
nud donne naissance K branches.














Figure 3.8 : Terminaisons d'un chemin
Par ailleurs, le calcul de l'intgrale de l'quation (3.31) peut tre simplifi en approchant la
densit de probabilit sur chaque intervalle [S
k
;S
k+1
] par sa valeur en Q
k
:

( ) ( )
( ) ( )
2
1 1
1
2
( ) | 0... 1 ,
( )
exp
2 2
k b
p q
k i C j C
i j
k k
P Q n Q C n
Q x n a b n i d w n j
S S


= =
+
=



+



=





(3.32)
n n-3 n-2 n-1
Q
k
Q
k+1
S
k+2
Q
k-1
S
k+1
S
k
S
k-1
Probabilit
de quantifier x(n) par Q
k

(quation 3.31)
galisation et bruit de quantification : approches perceptives

67
Dlai de dcision
Dans les algorithmes de Viterbi utiliss en communications numriques pour dcoder les codes
convolutifs, les chemins conservs convergent, en remontant le temps de quelques chantillons,
vers un mme chemin. En d'autres termes, tous les chemins C(0n) possdent le mme sous-
chemin C(0n-M). Pour un code de rendement 1/2, par exemple, il est tabli empiriquement que
M vaut 5 6 fois la longueur de contrainte du code [Glavieux, 1996]. Un tel fonctionnement
permettrait, dans notre cas, d'attribuer chaque chantillon une valeur de quantification unique
avec un retard M.
L'exprience montre qu'il n'en est pas ainsi : des groupes de chemins aux origines
distinctes peuvent survivre longtemps, comme l'illustre la Figure 3.9. Cela peut s'expliquer par la
non-stationnarit du signal de parole : du fait du changement de modle ARMA chaque trame,
un chemin qui aurait dpri avec un modle constant peut reprendre de la vigueur si le nouveau
modle lui est favorable. L'application de l'algorithme sur une phrase complte montre certes une
convergence vers un chemin de quantification unique aprs cessation de l'activit vocale, mais il
n'est videmment pas envisageable, dans une application en temps rel, d'imposer un tel dlai de
dcision dans la quantification.















Figure 3.9 : Persistance de chemins de quantification multiples
Pour limiter le retard d l'algorithme de quantification, le dlai de dcision M est donc fix de
manire arbitraire, et l'arbre des chemins est lagu de la manire suivante. A chaque instant n,
on ne conserve que les chemins passant par la valeur de quantification Q(n-M) qui appartenait,
lorsque n-M tait l'instant discret courant, au chemin de plus forte probabilit. Cette valeur est
alors choisie comme valeur de quantification de x(n-M). Dans une premire approche, nous
fixons M 128, ce qui correspond un dlai de dcision de 16 ms.
Rduction du nombre de chemins
Malgr toutes les simplifications introduites dans l'algorithme, le nombre de chemins conserver
en mmoire dpasse rapidement la capacit des machines utilises pour les simulations. Nous
avons donc introduit une simplification supplmentaire, source de sous-optimalit dans la
slection du meilleur chemin, mais ncessaire : chaque chantillon, parmi tous les chemins
conservs selon la procdure dcrite ci-dessus, seuls les N plus probables sont conservs. Nous
choisissons ici N = 500.
N
i
v
e
a
u
x

d
e

q
u
a
n
t
i
f
i
c
a
t
i
o
n

Instants d'chantillonnage
Chapitre III

68
Algorithme
Chaque chemin est reprsent par le vecteur de ses M dernires valeurs quantifies. A chaque
vecteur chemin correspondent le vecteur de ses probabilits successives et les vecteurs des p
(respectivement q) derniers chantillons du bruit b (respectivement w) associ. L'algorithme se
droule selon les tapes suivantes :
Pour chaque chantillon x(n),
1) Si changement de trame, calcul du modle ARMA {(a
i
)
1 i 5
; (b
j
)
1 j 4
;
masque
} approchant le
masque de la nouvelle trame et, b tant dfini par l'quation (3.27), dtermination de la
variance de w :

2 2 2
0 masque
= (3.33)
2) Le 1
er
lment de tous les chemins conservs est le mme : Q(n-M) prend cette valeur.
3) Dcalage des vecteurs chemins et probabilits.
4) Pour chaque chemin,
Dfinition du centre de la densit de probabilit de x(n)+b(n), selon (3.28).
Construction des K nouveaux chemins en compltant le chemin par les K valeurs
de quantification autour de ce centre.
Calcul des probabilits de ces chemins, selon (3.31) (ou (3.32))
Calcul des nouveaux chantillons des bruits associs ces chemins :
( ) ( ) ( ) b n Q n x n = (3.34)
( ) ( ) ( )
0 1
p q
i j
i j
w n a b n i d w n j
= =
=

(3.35)
5) Ordonnancement des nouveaux chemins selon leur dernier niveau de quantification. Ainsi,
les chemins sont toujours classs selon le dernier niveau, puis l'avant-dernier, etc.
6) Pour chaque sous-chemin (Q(n-L+1)Q(n)), slection du chemin de plus forte probabilit se
finissant par ces valeurs et limination des autres.
7) limination des vecteurs chemins dont la 1
re
valeur Q(n-M+1) n'appartenait pas, lorsqu'elle
tait valeur courante, au chemin de plus forte probabilit.
8) Slection, parmi ces chemins, des N chemins les plus probables.
III.3.3. Rsultats
Cette mthode est simule sur les mmes doubles phrases phontiquement quilibres que
prcdemment. La Figure 3.10 reprsente, pour les deux mmes trames du signal de rception
que celles considres sur la Figure 3.6, le spectre du bruit de quantification reu, avec et sans
reformage, compar la courbe de masquage du signal ainsi qu' la modlisation ARMA du
masque attnu dans les basses frquences. De manire gnrale, les rsultats sont similaires
galisation et bruit de quantification : approches perceptives

69
ceux de la mthode de rinjection du bruit de quantification : le spectre du bruit reform suit bien
la forme du modle du masque mais son niveau par rapport au masque est trs variable. Ainsi, la
variance
2
du modle du bruit n'est pas respecte, l'algorithme fixant celle-ci de manire non
contrle, comme dans la mthode prcdente.

100 1000
0
10
20
30
40
50
60
70
80
90
100
Frquences (Hz)
A
m
p
l
i
t
u
d
e

(
d
B
)

Masque
Masque attnu
Modle ARMA
Bruit non reform
Bruit reform
Trame 1

100 1000
0
10
20
30
40
50
60
70
80
90
100
Frquences (Hz)
A
m
p
l
i
t
u
d
e

(
d
B
)

Masque
Masque attnu
Modle ARMA
Bruit non reform
Bruit reform
Trame 2

Figure 3.10 : Pour deux trames de signal, comparaison du bruit de quantification au masque
La capacit de masquage de cet algorithme peut tre value par la valeur de l'quation (3.10),
finalement diffrente du paramtre
0
(constante de 5 dB) initialement impos. En reprenant les
notations de la section prcdente, pour chaque trame de signal,

masque
C
w

= ,
avec w
C
le bruit w associ au chemin retenu, calcul selon l'quation (3.35).
Cette valeur est reprsente en dB sur la Figure 3.11 pour les quatre mmes doubles
phrases que celles de la Figure 3.7, en parallle avec la valeur obtenue par la mthode de
rinjection du bruit. Selon cette mesure, les performances des deux mthodes sont donc assez
proches. Notons toutefois que sur les parties les plus critiques, savoir les pics de , la mthode
probabiliste limite le dpassement du seuil de masquage (voir notamment la locutrice F1). La
mthode de rinjection n'est meilleure que pour les valeurs les plus faible de , ce qui ne prsente
pas d'intrt puisque ces valeurs correspondent dans les deux cas un bruit masqu.
Subjectivement, le mme bruit "rauque" apparat lorsque le masquage choue. Par ailleurs,
pour certains locuteurs, les signaux sont affects d'un lger bruit musical haute frquence.
III.3.4. Influence des paramtres de l'algorithme
Les rsultats qui prcdent ont t obtenus avec les valeurs de paramtres et les simplifications
de l'algorithme proposes dans la section III.3.2, dont le choix peut tre source de sous-
optimalit :
- limitation du nombre de chemins conservs 500 ;
- prise de dcision avec un dlai de 16 ms ;
- calcul simplifi de l'intgrale ;
Chapitre III

70
- limitation du nombre de terminaisons d'un chemin 4 ;
- choix de
0
= 5 dB.
Nous examinons l'effet du choix de ces paramtres sur la capacit de masquage de l'algorithme,
mesure par la valeur . Compte-tenu de la lenteur de l'algorithme, cette tude a t effectue
uniquement pour les locutrices, pour lesquelles le dpassement du seuil de masquage est le plus
sensible. Nous en prsentons graphiquement les rsultats pour la locutrice F1, sur la premire
phrase de la double phrase traite prcdemment. Les rsultats sont similaires pour la
locutrice F2.

0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20


(
d
B
)

Locuteur H1
0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20


(
d
B
)

Locuteur H2
0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20


(
d
B
)

Locutrice F1
0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20
Temps (s)


(
d
B
)

Locutrice F2
Mthode probabi liste
Mthode de rinjection du bruit

Figure 3.11 : Ecart entre le spectre du bruit reform et le modle du masque
Effet du nombre maximum de chemins N
La limitation du nombre maximum de chemins N est a priori, avec celle du dlai de dcision, la
principale source de sous-optimalit, le choix des autres paramtres ne constituant que des
approximations (calcul de l'intgrale, nombre de terminaisons d'un chemin) ou ne semblant pas
avoir d'influence sur (choix de
0
).
La Figure 3.12 prsente l'volution de selon que N est fix 500 ou 1000, ainsi que la
diffrence entre la valeur pour N = 1000 et la valeur pour N = 500. Globalement, cette
diffrence fluctue autour de zro, mais prsente des chutes dans les parties critiques, c'est--dire
pour les fortes valeurs de . L'augmentation de N permet donc d'amliorer le masquage, mais
cette amlioration, obtenue au prix d'un doublement de la complexit de l'algorithme, reste
galisation et bruit de quantification : approches perceptives

71
limite moins de 4 dB, ce qui maintient le bruit trs au dessus du seuil de masquage dans les
parties les plus bruites. Subjectivement, l'amlioration est imperceptible.

0 0.5 1 1.5 2 2.5 3
-30
-20
-10
0
10
20


(
d
B
)

N = 1000
N = 500
0 0.5 1 1.5 2 2.5 3
-4
-3
-2
-1
0
1
2
3
Temps (s)

1
0
0
0

5
0
0

(
d
B
)


Figure 3.12 : pour N = 500 ou 1000 ; cart entre les valeurs de pour ces deux valeurs de N
Effet du dlai de dcision
La Figure 3.13 prsente les pourcentages d'abandons l'tape 7 de l'algorithme, selon que le
dlai de dcision d est fix 16 ou 32 ms. Mme avec un dlai de 16 ms, les abandons restent
peu frquents et isols. L'volution de dans ces deux cas, ainsi que la diffrence entre pour
d = 32 ms et pour d = 16 ms, sont illustrs sur la Figure 3.14. L'allongement du dlai permet de
rduire lgrement la valeur de lors des plus forts dpassements du seuil de masquage, mais
reste lev dans ces parties du signal. Par ailleurs, ces 32 ms de retard de dcision s'ajoutent aux
16 ms de retard dues l'analyse du signal par trames (trames de 32 ms se recouvrant 50 %). Il
en rsulte un retard inacceptable pour une communication tlphonique.
Les mmes rsultats sont illustrs sur les Figures 3.15 et 3.16 pour d = 16 ou 8 ms. La
rduction du dlai de dcision induit de nombreux abandons de chemins l'tape 7 de
l'algorithme, mais cela n'affecte pas les performances de l'algorithme : lorsque > 0 avec
d = 16 ms (bruit non masqu), la valeur de pour d = 8 ms n'augmente pas, voire diminue.
Pour ces trois valeurs du dlai de dcision, 8, 16 et 32 ms, les coutes informelles ne font
apparatre aucune diffrence entre les signaux traits.

0 0.5 1 1.5 2 2.5 3
0
20
40
60
80
100
A
b
a
n
d
o
n
s

(
%
)

Dlai = 16ms
0 0.5 1 1.5 2 2.5 3
0
20
40
60
80
100
Temps (s)
A
b
a
n
d
o
n
s

(
%
)

Dlai = 32ms

Figure 3.13 : Pourcentages de chemins abandonns l'tape 7 de l'algorithme
Chapitre III

72

0 0.5 1 1.5 2 2.5 3
-30
-20
-10
0
10
20


(
d
B
)

d = 16ms
d = 32ms
0 0.5 1 1.5 2 2.5 3
-4
-3
-2
-1
0
1
2
3
Temps (s)

3
2
m
s

1
6
m
s

(
d
B
)


Figure 3.14 : pour d = 16 ou 32 ms ; cart entre les valeurs de pour ces deux valeurs de d

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3
0
20
40
60
80
100
A
b
a
n
d
o
n
s

(
%
)

Dlai = 16ms
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3
0
20
40
60
80
100
Temps (s)
A
b
a
n
d
o
n
s

(
%
)

Dlai = 8ms

Figure 3.15 : Pourcentages de chemins abandonns l'tape 7 de l'algorithme

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3
-30
-20
-10
0
10
20


(
d
B
)

d = 16ms
d = 8ms
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3
-4
-2
0
2
4
6
Temps (s)

8
m
s

1
6
m
s

(
d
B
)


Figure 3.16 : pour d = 16 ou 8 ms ; cart entre les valeurs de pour ces deux valeurs de d
Effet du calcul approch de l'intgrale
Le calcul de l'intgrale (3.31) selon la mthode des trapzes, avec un pas de 1 (pour une
dynamique maximale de 2
16
), plutt que selon la formule simplifie (3.32) ne permet pas de
galisation et bruit de quantification : approches perceptives

73
rduire la valeur de . Celle-ci est mme le plus souvent suprieure, y compris dans les zones de
dpassement du masque.
Effet du nombre de terminaisons des chemins
La Figure 3.17 prsente l'volution de selon que le nombre de terminaisons K de chaque
chemin est fix 4 ou 8, ainsi que la diffrence entre la valeur pour K = 8 et la valeur pour
K = 4. L'augmentation de K permet de rduire dans les parties critiques, mais cette amlioration
est limite et subjectivement imperceptible.

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3
-30
-20
-10
0
10
20


(
d
B
)

K = 4
K = 8
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3
-4
-2
0
2
Temps (s)

K
=
8

K
=
4

(
d
B
)


Figure 3.17 : pour K = 4 ou 8 ; cart entre les valeurs de pour ces deux valeurs de K
Effet de
0

Nous avons observ que la valeur effective de est apparemment indpendante du paramtre
0

fix dans l'algorithme. La Figure 3.18 reprsente la valeur obtenue en fixant
0
10 dB,
compare celle obtenue prcdemment avec
0
= -5 dB. Il ne rsulte de cet abaissement de
0

aucune amlioration du masquage dans les parties les plus critiques du signal. Les seules parties
o est nettement rduit (jusqu' 6 dB) sont celles o tait dj faible.
Ces rsultats peuvent s'expliquer de la manire suivante. L'algorithme cherche le chemin le
plus probable connaissant une variance de bruit donne. S'il existe des chemins tels que la
variance du bruit correspond = -10 dB, ces derniers seront slectionns si l'on a fix
0

-10 dB et ne le seront pas ncessairement si l'on a fix
0
5 dB, puisqu'il existera a fortiori des
chemins dont le bruit a une variance correspondant = 5 dB. Ainsi les valeurs de seront-
elles plus faibles dans ces cas pour
0
= 10 dB. En revanche, s'il n'existe pas de chemin tel que
la variance du bruit corresponde une valeur ngative (en dB) de , fixer
0
5 dB ou 10 dB
changera peu la variance effective du chemin choisi : le chemin "le plus probable connaissant
0
"
sera choisi et sera dans les deux cas peu probable.
La Figure 3.19 reprsente la valeur obtenue en fixant
0
0 dB, compare celle obtenue
avec
0
= -5 dB. Comme prcdemment, l'abaissement de
0
rduit la valeur de uniquement
dans les zones o celle-ci tait dj faible. Dans les zones de dpassement du seuil de masquage
( > 0 dB), la valeur de est plus faible pour
0
= 0 dB. Il peut donc tre nfaste de fixer une
valeur de
0
trop faible. S'il n'existe pas de chemin respectant cette valeur, l'algorithme choisit le
chemin le plus probable parmi des chemins de faible probabilit, ce qui peut conduire un choix
sous-optimal en termes de variance du bruit associ.
Chapitre III

74
A l'coute, aucune diffrence n'est perceptible entre les signaux de rception correspondant
ces trois valeurs de
0
.

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3
-30
-20
-10
0
10
20


(
d
B
)

0 = -5 dB
0 = -10 dB
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3
-6
-4
-2
0
2
Temps (s)


-
1
0
d
B

-
5
d
B

(
d
B
)


Figure 3.18 : pour
0
= -5 ou -10 dB ; cart entre les valeurs de pour ces deux valeurs de
0


0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3
-30
-20
-10
0
10
20


(
d
B
)

0 = -5 dB
0 = 0 dB
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3
-4
-2
0
2
4
6
Temps (s)


0
d
B

-
5
d
B

(
d
B
)


Figure 3.19 : pour
0
= -5 ou 0 dB ; cart entre les valeurs de pour ces deux valeurs de
0

Conclusion
Au vu des rsultats qui prcdent, l'algorithme propos est peu sensible aux variations de ses
paramtres. Retenons toutefois que l'augmentation du nombre de chemins maximal N est
susceptible de rduire les valeurs les plus leves de (mais augmente d'autant la complexit) et
qu'il est prfrable de ne pas chercher donner
0
une valeur trop faible.
galisation et bruit de quantification : approches perceptives

75
III.4. Comparaison des deux mthodes
III.4.1. Complexit
La mthode de rinjection du bruit de quantification prsente l'avantage d'tre peu complexe.
Elle ncessite de calculer chaque trame le seuil de masquage et le modle AR de l'inverse de
celui-ci, et met en uvre un filtre 20 coefficients.
La mthode probabiliste est en revanche d'une complexit qui peut tre rdhibitoire pour
une application en temps rel. Outre le calcul du masque et de son modle ARMA chaque
trame, cette mthode implique, chaque chantillon, de :
- calculer la probabilit de chacun des KN nouveaux chemins, soit 2000 probabilits
avec les valeurs proposes ;
- rordonner 1 fois (tape 5) et slectionner 3 fois (tapes 6, 7 et 8) les diffrents
chemins conservs, ainsi que les probabilits et les squences de bruit associes, ces
valeurs tant stockes dans des matrices de dimensions respectives NM, NM,
N5 (pour b) et N4 (pour w). La valeur est un facteur gal K la premire
slection et dcroissant au fil des slections suivantes.
III.4.2. Performances de masquage
Nous ne considrerons ici que la performance objective mesure par la valeur . D'un point de
vue perceptif, le bruit "rauque" occasionnel est le mme pour les deux mthodes, mais la
mthode probabiliste est, en l'tat actuel de son tude, disqualifie par le lger bruit musical
haute frquence qu'elle induit pour certaines locutrices, et dont nous ne sommes jusqu' prsent
pas parvenus trouver l'origine.
La mthode de rinjection du bruit est a priori sous-optimale, dans la mesure o la
minimisation de , c'est--dire la maximisation de h(0) d'aprs l'quation (3.18), est contrainte
par la stabilit de la boucle. De fait, dans l'algorithme propos, n'est pas contrl, h(0) tant
entirement dtermin par la variance du modle AR de l'inverse du masque.
La mthode probabiliste n'est pas limite par cette contrainte, ce qui permet a priori
d'atteindre la valeur de la plus faible possible. La dfinition du critre de recherche du chemin
optimal de quantification nous carte cependant de cette potentialit. L'algorithme ne cherche en
effet pas la minimisation de la variance du bruit connaissant la forme de son spectre, mais le
chemin de probabilit maximale sachant un spectre donn de bruit. La difficult rside dans le
choix de la variance de ce bruit (i.e. du paramtre
0
). Comme nous l'avons vu, fixer une variance
trs faible est illusoire et conduit un bruit qui est certes le plus probable, mais sans tre pour
autant trs probable, ce bruit tant au final d'une variance suprieure ce qu'elle aurait pu tre en
fixant une valeur de
0
plus grande.
Les rsultats de la section III.3.4 ont montr que pour les plus hautes valeurs de ,
correspondant un dpassement du seuil de masquage, le dpassement est moins fort avec la
mthode probabiliste. On pourrait objecter que la modlisation du masque n'est pas la mme, de
sorte que les valeurs de ne sont pas tout fait comparables. Il n'est cependant pas envisageable
d'utiliser un modle MA d'ordre 20 pour la mthode probabiliste, pour des raisons de complexit.
D'autre part, l'utilisation, dans la mthode de rinjection du bruit, d'un filtre de boucle RII
Chapitre III

76
correspondant au modle ARMA d'ordres 5 et 4 peut conduire des dysfonctionnements : pour
certains locuteurs, la sortie du dispositif reste bloque une valeur constante. Nous nous
proposons de comparer exprimentalement les deux mthodes sur la mme base, en nous
affranchissant des difficults lies la modlisation de la courbe de masquage.
Nous considrons un signal stationnaire x rsultant du filtrage d'un bruit blanc w de
variance
w
2
= 2000
2
par un filtre RIF d'ordre 2 ayant un zro double valant 0,99. Les
chantillons de x sont dfinis par :
( ) ( ) ( ) ( )
1 2
1 2 x n w n a w n a w n = + + . (3.36)
Pour simplifier la modlisation de la courbe de masquage, nous utilisons la mthode d'injection
de bruit de Paillard [Paillard, 1992], selon laquelle le spectre du bruit maximum injectable est
celui du signal attnu de 13 dB. Ainsi, la courbe de masquage peut tre modlise par H tel
que :
( ) ( )
13
1 2
20
1 2
10 1
w
H z a z a z


= + + . (3.37)
Pour la mthode de rinjection du bruit, le filtre de boucle est dfini comme indiqu dans la
section III.2.2. Pour la mthode probabiliste, le bruit b est dfini par :
( ) ( ) ( ) ( ) ( )
0 1 2
' ' 1 ' 2
w
b n w n a w n a w n = + + , (3.38)
avec w' un bruit blanc de variance 1 et
0
une constante dont la valeur en dB est infrieure 13.
La mthode de rinjection du bruit conduit une valeur de de 30 dB environ. La
limitation 2 de l'ordre du modle du masque permet de simuler la mthode probabiliste de
manire optimale, c'est--dire sans limination de chemins l'tape 8. Si l'on fixe
0
-35 dB, la
valeur finale de est infrieure de 1 2 dB (selon les trames considres) celle obtenue avec la
mthode de rinjection du bruit. Ainsi, en fixant convenablement la valeur de
0
, la mthode
probabiliste se rvle plus performante.
III.5. valuation de la perception conjointe du bruit et du timbre
III.5.1. Objectifs et mthode
Les deux mthodes de reformage du bruit proposes dans les sections prcdentes conduisent
un bruit de quantification quivalent la fois en termes de spectre et de niveau. Lors des coutes
informelles ralises, il n'apparat pas de diffrence entre les deux bruits, si ce n'est la prsence,
pour certains locuteurs, d'un lger sifflement dans les hautes frquences si l'on utilise la mthode
probabiliste. Ce sifflement est suffisamment audible pour qu'une comparaison des deux
mthodes par des tests formels soit sans objet. Nous valuerons donc uniquement le bruit
reform par la premire mthode (rinjection de l'erreur filtre l'entre du quantificateur).
Le reformage sera valu par comparaison des signaux en rception d'une liaison galise
sans et avec reformage du bruit de quantification. Ce bruit tant li l'galisation, ces deux
galisation et bruit de quantification : approches perceptives

77
signaux doivent galement tre compars au signal en rception de la mme liaison sans
galiseur, afin de dterminer si une voix au timbre corrig mais affecte d'un bruit de
quantification, reform ou non, est prfrable la voix tlphonique habituelle. Ainsi seront
valus conjointement l'intrt du reformage spectral du bruit de quantification et l'intrt
de l'galisation compte-tenu du bruit qu'elle induit.
Afin d'allger les notations, nous notons dsormais, pour une liaison et un signal donns :
- O le signal original ;
- A le signal en rception de la liaison non galise ;
- B le signal en rception de la liaison galise, sans reformage du bruit ;
- C le signal en rception de la liaison galise, avec reformage du bruit selon la premire
mthode.
Dans le cas o la voix originale du locuteur n'est pas connue de l'auditeur, l'intrt de
l'galisation n'est pas de rapprocher le timbre de la voix en rception du timbre original du
locuteur, mais simplement de lui donner un caractre plus "naturel". La voix originale n'a pas
tre prsente aux auditeurs, qui jugent A, B et C en fonction du "naturel" du timbre et de la gne
due au bruit. Un test de comparaison par paires [Bonnet, 1986] suffit donc, dans lequel chaque
auditeur donne, pour chaque paire de {A,B,C}, sa prfrence pour l'un ou l'autre des deux
lments.
Dans le cas o la voix originale du locuteur est connue de l'auditeur, la question rsoudre
est "quel signal, entre A, B et C, l'auditeur prfre-t-il, connaissant la voix originale O ?". La
difficult mettre en uvre un test permettant de rpondre cette question tient la condition
"connaissant la voix originale". Il est en effet peu raliste d'envisager un test o tous les auditeurs
connatraient la voix originale de chaque locuteur test. Cette condition doit donc tre simule. Il
s'agit alors d'effectuer un test de comparaison de dgradations par paire, c'est--dire de comparer
la dgradation de X par rapport O la dgradation de Y par rapport O, avec {X,Y} une paire
de {A,B,C}.
Cette mthode se heurte cependant au problme de mmoire du sujet si l'on prsente la
squence OX OY : aprs avoir cout OY, ne risque-t-on pas d'avoir dj oubli OX ? C'est
pourquoi nous proposons de prsenter la squence OX OY OX. Ainsi, l'auditeur :
- effectue un premier jugement sur la dgradation de X par rapport O lors de la premire
prsentation de OX ;
- juge la dgradation de Y par rapport O lors de la prsentation de OY ;
- effectue une premire comparaison entre les deux dgradations, peu sre car le souvenir
de OX s'est estomp.
La deuxime prsentation de OX permet alors de conforter ou modifier son jugement. La
squence est galement prsente dans l'ordre OY OX OY au cours du test, afin d'annuler un
ventuel effet d'ordre.
Une autre solution pourrait tre de remplacer cette comparaison par paires par un test de
catgories de dgradation [UIT-T/P.800, 1996] : pour chaque X{A,B,C}, on prsente au sujet
OX et on lui demande de donner une note de dgradation entre 1 et 5, 1 correspondant une
dgradation trs gnante, 5 une dgradation imperceptible. La comparaison des notes
moyennes de A, B et C permettrait ainsi de dterminer la prfrence "connaissant l'original".
Cependant, les dgradations par rapport l'original tant la fois assez fortes, comparables en
niveau et diffrentes dans leur forme, il est craindre que ce test soit peu discriminant. C'est
pourquoi nous n'avons pas retenu cette solution.
Chapitre III

78
Effectuer toutes les comparaisons deux deux entre A, B et C dans les deux tests serait
redondant. La connaissance de O ne change en effet a priori pas la prfrence entre B et C,
puisqu'en termes de timbre, ces deux signaux sont identiques, leurs caractristiques spectrales
tant trs proches. D'autre part, une fois que le bruit prfr (bruit de quantification blanc ou
reform) aura t dtermin dans le premier test, il n'est pas utile d'valuer le signal affect par
l'autre bruit dans le deuxime test. Le deuxime test consistera donc simplement comparer A
B ou C (suivant les rsultats du premier test) selon la mthode dcrite ci-dessus.
III.5.2. Plan de test
Premier test : prfrence sans connaissance de l'original
Nous utilisons un corpus de doubles phrases phontiquement quilibres, d'une dure de 8 s
environ chacune. Les rsultats objectifs et les coutes informelles tmoignant d'une grande
sensibilit du niveau de bruit au locuteur et aux phonmes prononcs, nous souhaitons valuer
les signaux A, B et C pour diffrents locuteurs, et plusieurs doubles phrases par locuteur. Notons
N
loc
le nombre de locuteurs et N
phr
le nombre de doubles phrases. Par ailleurs, nous souhaitons
mesurer l'influence du bruit de fond sur la perception du bruit de quantification. Nous nous
placerons donc dans N
br
ambiances sonores, dont une est silencieuse.
Pour chaque condition (locuteur, double phrase, bruit de fond), les 3 paires de {A,B,C}
doivent tre prsentes chacune dans les deux sens, de manire ce que l'effet de l'ordre de
prsentation n'affecte pas le rsultat. Au total, N
loc
N
phr
N
br
32 paires doivent tre prsentes.
Le temps de prsentation et de notation d'une paire tant de 22 s, les conditions retenues sont les
suivantes, de manire donner au test une dure raisonnable :
- 2 ambiances sonores : silencieuse et brouhaha avec un RSB de 25 dB ;
- 4 locuteurs (2 hommes : H1 et H2 ; 2 femmes : F1 et F2) en ambiance silencieuse, 2
locuteurs (H1 et F1) en ambiance bruite ;
- 2 doubles phrases par locuteur.
Ces conditions reprsentent 72 paires tester, soit 26 mn de test. La limitation 2 du nombre de
locuteurs test en ambiance bruite se justifie par le fait que le bruit de quantification y est a
priori moins gnant et, d'aprs nos coutes informelles, partiellement masqu autant pour B que
pour C.
L'valuation est effectue par 24 sujets, dont deux groupes de 8 nafs et un groupe de 8
experts. Les sujets sont placs dans une salle de test isole des bruits extrieurs et coutent les
sons avec des casques binauraux. Les consignes reproduites dans l'annexe D sont d'abord lues
individuellement, puis rptes oralement par l'exprimentateur. Le test comprend une sance
d'apprentissage compose de 8 paires et deux sances de test de 13 mn chacune spares par une
pause de 5 mn.
Au cours de ces deux sances, les 72 paires sont prsentes dans un ordre alatoire
diffrent pour chaque groupe d'auditeurs (de manire annuler l'effet d'ordre). Aprs l'coute de
chaque paire, les sujets disposent de 5 s pour indiquer leur prfrence en appuyant sur le
bouton 1 s'ils prfrent le premier chantillon, sur le bouton 2 s'ils prfrent le deuxime
chantillon.
galisation et bruit de quantification : approches perceptives

79
Deuxime test : prfrence connaissant l'original
Dans ce deuxime test, nous testons les mmes conditions (locuteur, double phrase, bruit de
fond) que prcdemment.
Pour chacune de ces conditions sont prsentes aux auditeurs les sries de 3 paires
OA OD OA et OD OA OD, avec D = B ou C, selon le bruit prfr par les auditeurs du premier
test. Les 24 sries sont prsentes dans un ordre alatoire. Les sujets sont informs de la structure
paire 1 paire 2 paire 1 des sries, une paire tant dcrite comme l'chantillon (double-phrase)
de rfrence (O) suivi d'un chantillon trait (A ou D). Aprs l'coute de chaque srie, les
auditeurs ont 5 s pour indiquer dans quelle paire (1 ou 2) la modification de l'chantillon trait
par rapport la rfrence est la moins gnante. De manire faciliter le reprage au cours de
l'coute, nous fixons les temps de pause suivants :
- 300 ms entre les deux phrases d'une double phrase ;
- 600 ms entre les deux chantillons d'une paire ;
- 1200 ms entre deux paires.
Le test est effectu dans les mmes conditions matrielles par trois groupes de 8 sujets,
constitus comme prcdemment. Les consignes reproduites dans l'annexe E sont d'abord lues
individuellement, puis rptes oralement par l'exprimentateur. Ces consignes s'inspirent de
l'exemple donn dans [UIT-T/P.800, 1996] pour les tests de catgorie de dgradation. Le test
comprend une sance d'apprentissage compose de 6 sries de paires et de deux sances de test
de 7 mn chacune (12 sries) spares par une pause de 3 mn.
III.5.3. Rsultats
Premier test : prfrence sans connaissance de l'original
Nous rappelons les notations utilises :
- A le signal en rception de la liaison non galise ;
- B le signal en rception de la liaison galise, sans reformage du bruit ;
- C le signal en rception de la liaison galise, avec reformage du bruit selon la premire
mthode.
Les figures 3.20 3.26 prsentent les pourcentages de prfrence d'un traitement X par rapport
un traitement Y. Pour chaque comparaison de deux traitements X et Y et pour chaque
combinaison (locuteur, bruit de fond) le pourcentage de prfrence attribu X est la proportion
de prfrences du traitement X dans un ensemble de 96 jugements : 24 auditeurs 2 doubles
phrases 2 sens de prsentation de chaque paire. Les rsultats dtaills pour chaque
combinaison (bruit de fond, locuteur, phrase, ordre de prsentation de la paire) figurent en
annexe F. Notons que, deux exceptions prs (comparaisons AB pour la locutrice F2 et BC pour
le locuteur H2), les rsultats ne font pas apparatre de diffrence significative entre les jugements
des auditeurs sur deux phrases d'un mme locuteur. Le mode de dtermination de la
significativit de la diffrence entre deux pourcentages est dtaill dans l'annexe G.
De ces pourcentages de prfrences nous dduisons les positions relatives de A, B et C sur
une chelle de prfrence de Thurstone [Bonnet, 1986], calcules selon la mthode dtaille en
annexe H. Ces chelles sont reprsentes sur les figures 3.20 3.26 en regard des pourcentages
correspondants.
Chapitre III

80
En parallle avec ces rsultats subjectifs, les Figures 3.20 3.25 prsentent galement
l'volution de la valeur , reprsentative de l'cart entre le spectre du bruit et le masque : une
valeur de positive correspond un bruit au dessus du seuil de masquage.

Y
X
A B C
A 20,8 19,8
B 79,2 49,0
C 80,2 51,0

Pourcentages de prfrence de X Y


0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20


(
d
B
)

Double phrase 1
0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20


(
d
B
)

Temps (s)
Double phrase 2

Ecart entre le spectre du bruit et le masque


Figure 3.20 : Rsultats locuteur H1, ambiance silencieuse

Y
X
A B C
A 24,0 21,9
B 76,0 56,3
C 78,1 43,7

Pourcentages de prfrence de X Y


0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20


(
d
B
)

Double phrase 1
0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20


(
d
B
)

Temps (s)
Double phrase 2

Ecart entre le spectre du bruit et le masque


Figure 3.21 : Rsultats locuteur H1, ambiance bruite
A
B
C
A
B
C

c
h
e
l
l
e

d
e

T
h
u
r
s
t
o
n
e

d
e
s

p
r

r
e
n
c
e
s

c
h
e
l
l
e

d
e

T
h
u
r
s
t
o
n
e

d
e
s

p
r

r
e
n
c
e
s

galisation et bruit de quantification : approches perceptives

81

Y
X
A B C
A 25,0 18,8
B 75,0 58,3
C 81,2 41,7

Pourcentages de prfrence de X Y


0 1 2 3 4 5 6
-30
-20
-10
0
10
20


(
d
B
)

Double phrase 1
0 1 2 3 4 5 6
-30
-20
-10
0
10
20


(
d
B
)

Temps (s)
Double phrase 2

Ecart entre le spectre du bruit et le masque


Figure 3.22 : Rsultats locuteur H2, ambiance silencieuse


Y
X
A B C
A 57,3 83,3
B 42,7 78,1
C 16,7 21,9

Pourcentages de prfrence de X Y


0 1 2 3 4 5
-30
-20
-10
0
10
20


(
d
B
)

Double phrase 1
0 1 2 3 4 5
-30
-20
-10
0
10
20


(
d
B
)

Temps (s)
Double phrase 2

Ecart entre le spectre du bruit et le masque


Figure 3.23 : Rsultats locuteur F1, ambiance silencieuse

A
B
C
A
B
C

c
h
e
l
l
e

d
e

T
h
u
r
s
t
o
n
e

d
e
s

p
r

r
e
n
c
e
s

c
h
e
l
l
e

d
e

T
h
u
r
s
t
o
n
e

d
e
s

p
r

r
e
n
c
e
s

Chapitre III

82

Y
X
A B C
A 53,1 61,5
B 46,9 62,5
C 38,5 37,5


Pourcentages de prfrence de X Y


0 1 2 3 4 5
-30
-20
-10
0
10
20


(
d
B
)

Double phrase 1
0 1 2 3 4 5
-30
-20
-10
0
10
20



(
d
B
)

Temps (s)
Double phrase 2

Ecart entre le spectre du bruit et le masque


Figure 3.24 : Rsultats locuteur F1, ambiance bruite


Y
X
A B C
A 28,1 49,0
B 71,9 71,9
C 51,0 28,1

Pourcentages de prfrence de X Y


0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20



(
d
B
)

Double phrase 1
0 1 2 3 4 5 6 7
-30
-20
-10
0
10
20



(
d
B
)

Temps (s)
Double phrase 2

Ecart entre le spectre du bruit et le masque


Figure 3.25 : Rsultats locuteur F2, ambiance silencieuse

A
B
C
A
B
C

c
h
e
l
l
e

d
e

T
h
u
r
s
t
o
n
e

d
e
s

p
r

r
e
n
c
e
s

c
h
e
l
l
e

d
e

T
h
u
r
s
t
o
n
e

d
e
s

p
r

r
e
n
c
e
s

galisation et bruit de quantification : approches perceptives

83




Y
X
A B C
A 32,8 42,7
B 67,2 64,3
C 57,3 35,7

Pourcentages de prfrence de X Y





Figure 3.26 : Rsultats globaux, ambiance silencieuse



Les rsultats moyens sur l'ensemble des locuteurs font apparatre de manire nette une hirarchie
de prfrences A < C < B en ambiance silencieuse.
Pour les locuteurs masculins, les auditeurs n'expriment pas de prfrence nette entre B et
C, et ces deux traitements sont prfrs A 80 % environ. Les diffrences entre les rsultats en
ambiance bruite et ceux en ambiance silencieuse ne sont pas significatives.
La prfrence entre B et A pour la locutrice F2 est proche des rsultats obtenus pour les
locuteurs masculins. En revanche, le bruit reform est moins bien peru qu'avec les locuteurs
masculins : aucune prfrence nette n'est exprime entre A et C, et B est largement prfr C
(72 %). La locutrice F1 est la seule des quatre locuteurs pour laquelle les auditeurs prfrent A,
cette prfrence tant de 57 % quand A est compar B, de 83 % quand A est compar C.
Comme pour F2, le bruit blanc de quantification est largement prfr au bruit reform (78 %).
Notons que les rsultats de C sont significativement meilleurs en ambiance bruite qu'en
ambiance silencieuse, ce qui peut s'expliquer par un masquage partiel du bruit de quantification
reform par le bruit de fond. La valeur de est en effet plus faible en ambiance bruite que
silencieuse.
Ces diffrences entre les locuteurs tiennent la fois :
- la nature de leurs voix respectives ;
- la dgradation du RSB de rception par l'galiseur lorsque le bruit de quantification
n'est pas reform ;
- aux performances du reformage du bruit.
Mme si la voix originale n'est pas connue, les chantillons A, privs de composantes basse
frquence, manquent de naturel pour les locuteurs masculins, et la correction de timbre est
d'autant plus apprciable pour ces locuteurs que le niveau du bruit de quantification reste assez
faible (chantillons B) et que le bruit reform est presque toujours masqu (chantillons C). Pour
les locutrices, l'attnuation des basses frquences dans les chantillons A est d'autant moins
gnante que leur voix est aigu (notamment pour la locutrice F1). En outre, les rsultats objectifs
montrent que le bruit de quantification reform est frquemment au-dessus de la courbe de
masquage, ce qui explique la mauvaise apprciation de C. Enfin, si la dgradation du RSB entre
A et B est du mme ordre de grandeur pour tous les locuteurs, la locutrice F1 est la seule pour

c
h
e
l
l
e

d
e

T
h
u
r
s
t
o
n
e

d
e
s

p
r

r
e
n
c
e
s

A
B
C
Chapitre III

84
laquelle il existe de fortes chutes de RSB entre A et B aux instants o le RSB de A est dj
faible. Ainsi le bruit de quantification qui affecte B est-il particulirement gnant pour F1 : il en
rsulte une lgre prfrence des auditeurs pour A.
Il ressort de ces rsultats que :
- le reformage du bruit de quantification, tel que ralis, est dans le meilleur des cas inutile,
mais les auditeurs prfrent une voix masculine galise et entache de bruit reform la
mme voix non galise et non bruite ;
- sans mme connatre la voix originale des locuteurs, les auditeurs prfrent une voix dont
le timbre a t corrig par l'galiseur, malgr le bruit de quantification qui entache
celle-ci.
Le deuxime test vise alors dterminer dans quelle mesure la connaissance du timbre original
des locuteurs modifie la prfrence exprime par les auditeurs entre un signal galis bruit et un
signal non galis et non bruit. Dans ce deuxime test, nous considrons uniquement le bruit de
quantification non reform, prfr au bruit reform.
Deuxime test : prfrence connaissant l'original
Le tableau 3.1 prsente les pourcentages de prfrence de B A, compars ceux du premier
test, pour les diffrents locuteurs et conditions de bruit de fond.
Pour tous les locuteurs, la prfrence pour B dans le deuxime test est suprieure ou gale
celle exprime dans le premier test. Cette augmentation est significative pour la moyenne sur
l'ensemble des locuteurs, ainsi que pour la locutrice F1 (en ambiances silencieuse et bruite).
Ainsi, la connaissance de la voix originale renforce la prfrence pour une voix galise bruite.
Pour tous les locuteurs, les auditeurs prfrent largement une voix bruite mais proche de
l'originale une voix dont le timbre est dforme par la liaison tlphonique. On retrouve dans le
test 2 la mme hirarchie que dans le test 1 entre les rsultats des diffrents locuteurs, lie
comme prcdemment leurs voix respectives et la dgradation du RSB dans les
chantillons B.

Bruit de fond Locuteur Test 1 Test 2
H1 79,2 91,2
H2 75,0 75,0
F1 42,7 68,7
F2 71,9 79,2
Silence
Tous 67,2 76,0
H1 76,0 76,0 Brouhaha
F1 46,9 70,9

Tableau 3.1 : Pourcentages de prfrence de B A
galisation et bruit de quantification : approches perceptives

85
III.6. Conclusion
L'objectif premier de ce chapitre tait de rduire perceptivement le bruit induit par la
combinaison de l'galisation et de la quantification en loi A associe celle-ci, en masquant ce
bruit par un reformage spectral. Les deux mthodes proposes permettent de donner au spectre
du bruit de quantification une forme proche de celle de la courbe de masquage. Le bruit ainsi
reform est le plus souvent inaudible, contrairement au bruit de quantification blanc, mais
dpasse occasionnellement le seuil de masquage, avec une frquence qui dpend des locuteurs et
des phonmes. Subjectivement, le reformage spectral du bruit de quantification revient
remplacer un bruit blanc quasi-permanent par un bruit "rauque" sporadique.
L'valuation subjective formelle du reformage indique finalement une prfrence des
auditeurs pour le bruit de quantification non reform. Cette valuation montre par ailleurs que la
voix en rception d'une liaison galise, bien qu'entache de bruit de quantification (reform ou
non), est prfre celle, non bruite, en rception de la mme liaison sans galiseur. Cette
prfrence est encore plus nette lorsque la voix du locuteur original est connue.
Ainsi, nous avons montr qu' dfaut de pouvoir tre masqu de manire satisfaisante, le
bruit de quantification induit par l'galisation est largement tolr et ne remet pas en cause
l'intrt d'une correction de timbre par notre galiseur.
Chapitre III

86



87
Chapitre IV

galisation diffrencie par classes de locuteurs
La mthode d'galisation adapte prsente au chapitre I, qui consiste aligner le spectre long
terme du signal de parole trait sur le spectre moyen de la parole dfini par l'UIT-T
[UIT-T/P.50/App. I, 1998], permet de restaurer un timbre proche de l'original, du moins sur la
bande 200-3150 Hz, pour la majorit des locuteurs tests. Cependant, l'adaptation de l'algorithme
peut tre assez lente (10 s d'activit vocale) pour certains locuteurs. D'autre part, pour quelques
locuteurs dont le spectre long terme est trop loign du spectre de rfrence choisi, le timbre
original ne peut tre restaur de manire suffisamment fidle.
Nous nous proposons donc de prendre en considration cette varit des spectres des
locuteurs en tablissant des classes de locuteurs possdant chacune son propre spectre de
rfrence. L'algorithme d'galisation sera ainsi modifi de manire dterminer la classe du
locuteur et galiser suivant le spectre de rfrence de la classe. Celui-ci tant plus proche des
spectres long terme des membres de la classe que le spectre de rfrence unique utilis dans le
chapitre I, l'erreur d'approximation du spectre long terme du locuteur par le spectre de
rfrence devrait s'en trouver rduite.
Par ailleurs, cette rduction de l'erreur d'approximation devrait permettre de lisser moins
fortement la rponse frquentielle de l'galiseur adapt, le rendant apte corriger des distorsions
spectrales plus fines.
Nous examinerons d'abord la pertinence d'une classification des locuteurs selon leur
spectre long terme. Les classes tant dfinies, des critres de classement des locuteurs seront
tablis, selon le nombre de classes. Enfin, l'intrt de la classification pour la correction du
timbre devra tre vrifi : l'alignement du spectre long terme sur le spectre de la classe plutt
que sur le spectre moyen de tous les locuteurs permet-il une restauration du timbre au moins
aussi bonne pour tous les locuteurs, et meilleure pour certains locuteurs ?
IV.1. Classification des locuteurs
IV.1.1. Corpus
Le corpus de 34 locuteurs prcdemment utilis est trop petit pour permettre une classification
pertinente en plus de deux classes. Nous utilisons un second corpus, de 29 locuteurs (16 hommes
et 13 femmes) [GRECO-PRC, 1990], enregistr dans des conditions similaires celles du
premier. Ces 29 locuteurs prononcent le mme texte que ceux du premier corpus, augment
Chapitre IV
88
d'une phrase d'une dizaine de secondes. Nous disposons au final d'un corpus de 63 locuteurs,
dont 33 hommes et 30 femmes, prononant chacun un texte de 23 52 secondes.
IV.1.2. Dfinition de l'individu : le cepstre partiel
La classification des locuteurs se fonde usuellement sur des statistiques sur les coefficients
cepstraux calculs selon une chelle MEL [Reynolds, 1995]. L'objectif ici tant de disposer, dans
chaque classe, d'un spectre de rfrence le plus proche possible du spectre long terme de
chaque membre de la classe, c'est sur cette base que doivent tre agrgs les locuteurs.
Cependant, seule la partie du spectre comprise entre F
c
et 3150 Hz est prise en compte dans
l'algorithme d'galisation adapte. Les classes doivent donc tre constitues selon le spectre
long terme restreint cette bande. D'autre part, la comparaison entre deux spectres doit tre
effectue un niveau assez bas de rsolution spectrale, de manire ne reflter que l'enveloppe
spectrale. C'est pourquoi il est prfrable de se placer dans l'espace des premiers coefficients
cepstraux d'ordre suprieur 0 (le coefficient d'ordre 0 reprsentant l'nergie), le choix du
nombre de coefficients dpendant de la rsolution spectrale souhaite.
Nous dfinissons donc le "cepstre partiel long terme", que nous noterons C
p
, comme la
reprsentation cepstrale du spectre long terme restreint une bande de frquence. Si l'on note
k
1
et k
2
les indices de frquence correspondant respectivement aux frquences F
1
et F
2
bornant
cette bande (valant respectivement F
c
et 3150 Hz dans le cas de la bande d'galisation), et le
spectre long terme de la parole, le cepstre partiel est dfini par :
( ) ( ) ( ) ( )
-1
1 2 2 1
TFD 10log 1 1
P
C k k k k = + K o K (4.1)
o dsigne l'opration de concatnation. La TFD inverse est calcule par IFFT aprs
interpolation des chantillons du spectre tronqu de manire atteindre un nombre d'chantillons
puissance de 2. En choisissant la bande d'galisation 187-3187 Hz, correspondant aux indices
frquentiels 5 101 pour une reprsentation du spectre (symtris) sur 256 points (de 0 255),
l'interpolation se fait simplement en intercalant une raie frquentielle (interpole linairement)
toutes les trois raies dans le spectre restreint 187-3187 Hz. Les tapes du calcul du cepstre
partiel sont reprsentes sur la Figure 4.1.
De manire ce que les coefficients cepstraux refltent l'enveloppe spectrale mais pas
l'influence de la structure harmonique du spectre de la parole sur les spectres long terme, nous
ne conservons pas les coefficients d'ordre lev. Les frquences fondamentales moyennes des
locuteurs du corpus sont infrieures 300 Hz, soit 300 / 8000 en frquence normalise. Cette
frquence fondamentale moyenne maximale est multiplie par 4/3 lors de la troncature et de
l'interpolation du spectre. Elle vaut alors 1/20. Les locuteurs classer sont donc reprsents par
les coefficients d'ordres 1 20 de leur cepstre partiel long terme.
IV.1.3. Classification hirarchique ascendante [Lebart, 2000a]
La classification hirarchique ascendante consiste crer, partir des N individus disjoints, une
hirarchie de partitions selon le processus suivant : chaque tape, on agrge les deux lments
les plus proches, un lment tant soit un individu non agrg, soit un agrgat d'individus
constitu lors d'une prcdente tape. La proximit entre deux lments est dtermine par une
mesure de dissimilarit que nous appellerons distance. Le processus se poursuit jusqu'
l'agrgation de toute la population. La hirarchie de partitions ainsi cre peut se reprsenter
galisation diffrencie par classes de locuteurs
89
sous la forme d'un arbre (ou dendrogramme) contenant N-1 partitions imbriques, tel que celui
de la Figure 4.2. Chaque coupure de l'arbre fournit une partition, d'autant plus fine que l'on coupe
bas.























Figure 4.1 : Calcul du cepstre partiel


Figure 4.2 : Exemple de dendrogramme.
En gris, coupure de l'arbre au niveau optimal
La hirarchie est dite indice si chacune de ses parties h est associe une valeur numrique v(h)
telle que, quelles que soient les parties h
1
et h
2
:
( ) ( )
1 2 1 2
si alors h h v h v h <
Une hirarchie peut tre indice de manire naturelle par les distances entre les lments agrgs
chaque tape de l'algorithme. Dans la reprsentation sous forme d'arbre, la hauteur d'un
segment horizontal agrgeant deux lments est choisie proportionnelle l'indice, ce qui permet
de visualiser la proximit des lments regroups dans une mme classe.

0 50 100 150 200 250
50
60
70
80
90
100
110
indice de frquence
a
m
p
l
it
u
d
e

(
d
B
)


0 50 100 150 200 250
50
60
70
80
90
100
110
indice de frquence
a
m
p
l
it
u
d
e

(
d
B
)


0 50 100 150 200 250
50
60
70
80
90
100
110
indice de frquence
a
m
p
l
it
u
d
e

(
d
B
)


0 50 100 150 200 250
-0.5
0
0.5
1
1.5
Indice de qufrence
a
m
p
l
i
t
u
d
e

4/3
IFFT
Spectre long terme
Spectre long terme
restreint F
1
-F
2
Cepstre partiel
Spectre long terme
restreint F
1
-F
2

interpol
Chapitre IV
90
Cette reprsentation facilite le choix du niveau de coupure de l'arbre, et donc des classes
retenues. La coupure doit tre faite au-dessus des agrgations d'indice faible, qui regroupent des
individus proches, et en dessous des agrgations d'indice lev, qui associent des groupes
d'individus bien distincts. Une partition de bonne qualit est donc obtenue en coupant l'arbre au
niveau d'un saut important d'indice d'agrgation, comme l'illustre la barre horizontale sur la
Figure 4.2.
IV.1.4. Algorithme de classification
Nous dsignons sous le terme d'lment soit un individu soit un agrgat d'individus. Initialement,
on dispose de N lments, qui sont les individus classer, et de la matrice D (de dimension NN)
des distances entre ces lments. A chaque tape k (k = 1 N-1),
- on cherche les deux lments les plus proches, que l'on agrge en un nouvel lment. On
a alors une partition en N-k lments ;
- on construit la nouvelle matrice des distances D, de dimensions (N-k)(N-k). Seule la
distance entre le nouvel lment et les autres lments est calculer, les autres distances
restant inchanges.
Le processus est ritr jusqu' ce que k = N-1, c'est--dire jusqu' n'avoir plus qu'un lment
regroupant tous les individus.
IV.1.5. Agrgation selon le critre du saut minimal
L'agrgation des deux plus proches lments chaque tape de la classification ncessite de
dfinir une distance. Une distance simple calculer est le saut minimal, dfini comme suit. Si x,
y et z sont trois lments et si x et y sont agrgs en un lment h, la distance de h z est dfinie
par :
( ) ( ) ( ) ( )
d , Min d , , d , h z x z y z = . (4.2)
En d'autres termes, la distance entre deux classes est la distance entre leurs individus les plus
proches, la distance entre deux individus tant dfinie, dans notre cas, comme la distance
euclidienne dans l'espace des 20 premiers coefficients du cepstre partiel. Ainsi, si deux individus
sont reprsents par leurs cepstres partiels respectifs C
p
et C'
p
, la distance entre eux est dfinie
par :

( ) ( )
20
2
p p p p
1
d , ' '
i i
i
C C C C
=
=

. (4.3)
La classification de notre corpus selon ce critre est reprsente par l'arbre hirarchique de la
Figure 4.3. Une classe assez distincte des autres locuteurs apparat (partie de l'arbre encadre en
pointills), compose essentiellement de locutrices, et grossit par agrgation d'individus un un,
sans que ces derniers ne forment entre eux une autre classe visible. Il semble donc finalement
difficile d'identifier clairement des classes dans cet arbre.
galisation diffrencie par classes de locuteurs
91

0
0.5
1
1.5
2
Locuteurs
I
n
d
i
c
e

d
'
a
g
r

g
a
t
i
o
n

x x x x x o o o o o o o o o o o o o o x o x o o o o o o x o x o x o o x x x x x x x x x x x x x x x x x o x x o x o x o x x o
Apparition
d'une classe
o : locutrice
x : locuteur

Figure 4.3 : Classification des cepstres partiels selon le critre du saut minimal
Ce phnomne est typique de l'agrgation selon le critre du saut minimal lorsque deux classes
ne sont pas clairement disjointes. Il se produit un effet de chane, illustr sur la Figure 4.4. Sur
cet exemple, alors que les groupes A et B sont visuellement discernables, ils ne le sont pas dans
l'arbre hirarchique, leurs sommets respectifs tant agrgs aux niveaux les plus bas. Cet effet
peut tre vit en utilisant un critre li l'inertie des classes constitues : le critre de Ward
gnralis.


Figure 4.4 : Effet de chane d'une partition selon le critre du saut minimal.
IV.1.6. Agrgation selon le critre de Ward gnralis
Une partition est d'autant meilleure que les classes cres sont homognes, c'est--dire que
l'inertie intra-classes est faible. Dans le cas d'un nuage de points x
i
de masses respectives m
i
,
rpartis en classes q de centres de gravits respectifs g
q
, l'inertie intra-classes est dfinie par :

2
intra i i q
q i q
I m x g

. (4.4)
Chapitre IV
92
L'inertie intra-classes, nulle l'tape initiale de l'algorithme, s'accrot invitablement chaque
agrgation. Le principe de l'agrgation selon la variance consiste rechercher, chaque tape de
l'algorithme, les deux lments dont l'agrgation produit l'augmentation d'inertie intra-classes la
plus faible.
A l'initialisation de l'algorithme dcrit dans la section IV.1.4, chaque lment est le vecteur
des 20 premiers coefficients du cepstre partiel d'un locuteur et sa masse vaut 1. A chaque tape,
deux lments x
i
et x
j
de masses respectives m
i
et m
j
sont agrgs en un nouvel lment x de
masse m tel que :
et
i i j j
i j
i j
m x m x
x m m m
m m
+
= = +
+
, (4.5)
c'est--dire en leur barycentre. On montre [Lebart, 2000a] que l'accroissement de variance intra-
classe rsultant de cette agrgation vaut :

2
i j
ij i j
i j
mm
I x x
m m
=
+
. (4.6)
Cet accroissement dfinit la distance entre deux lments voque dans l'algorithme. A chaque
tape, on agrge comme indiqu ci-dessus les deux lments x
i
et x
j
de masses respectives m
i
et
m
j
tels que I
ij
est minimal.
Le dendrogramme de la classification de notre corpus selon ce critre, appel critre de
Ward gnralis, est reprsent sur la Figure 4.5. En coupant l'arbre au niveau des sauts d'indice,
on obtient de manire nette quatre classes. Notons que ces classes sont assez homognes du point
de vue du sexe des locuteurs, et qu'une coupure de l'arbre en deux classes fait apparatre peu
prs une classe hommes et une classe femmes.
IV.1.7. Consolidation de la partition
La partition en quatre classes ainsi obtenue peut tre amliore par une procdure d'agrgation
autour des centres mobiles, qui permet de rduire la variance intra-classes. L'algorithme est le
suivant.
Initialement, les quatre classes sont dfinies par leurs centres respectifs {g
0
q
| q = 1 4},
qui sont les barycentres des classes obtenues par classification ascendante. A chaque itration k
( partir de k = 0),
- Les quatre centres {g
k
q
| q = 1 4} induisent une partition P
k
de l'ensemble des individus
en quatre classes {I
k
q
| q = 1 4}. Un individu est affect la classe I
k
q
s'il est plus proche
(en distance euclidienne) de g
k
q
que des trois autres centres.
- Cette nouvelle partition permet de dfinir les nouveaux centres {g
k+1
q
| q = 1 4}, qui
sont les barycentres respectifs des classes {I
k
q
| q = 1 4}.
L'algorithme s'arrte lorsque deux itrations successives conduisent la mme partition.
L'application de cet algorithme la partition de notre corpus par agrgation selon le critre
de Ward gnralis aboutit quatre classes de cardinaux 18, 18, 16 et 11, plus homognes que
prcdemment du point de vue du sexe : seuls un homme et deux femmes sont affects des
galisation diffrencie par classes de locuteurs
93
classes ne correspondant par leur sexe. L'homme a un pitch assez lev et une des deux
femmes a un pitch relativement bas. Les spectres restreints la bande 187-3187 Hz
correspondant aux centres de ces classes sont reprsents sur la Figure 4.6 pour les classes
hommes et femmes ainsi que pour leurs sous-classes respectives. A l'intrieur des grandes
classes hommes et femmes, il est peu ais de mettre en parallle la classification selon le cepstre
partiel avec des caractristiques subjectives. Toutefois, des coutes informelles ont permis de
relever que les deux sous-classes de femmes se distinguent par la hauteur des voix. Quant aux
hommes, les voix de la sous-classe 1 semblent plus "sonnantes", tandis que celles de la sous-
classe 2 paraissent plus "blanches".

0
5
10
15
20
25
30
35
Locuteurs
I
n
d
i
c
e

d
'
a
g
r

g
a
t
i
o
n
x x x o x o o o x x x x x x x x x x x x x x x x x x x x x o x x x o x x x x o o o o o o o o o o o o o o o x o o o o o o o o o
o : locutrice
x : locuteur
Coupure
de l'arbre

Figure 4.5 : Classification des cepstres partiels selon le critre de Ward gnralis

100 200 1000 3000
-15
-10
-5
0
5
10
15
20
Frquences (Hz)
A
m
p
l
i
t
u
d
e

(
d
B
)

Hommes
Hommes 1
Hommes 2

100 200 1000 3000
-15
-10
-5
0
5
10
15
20
Frquences (Hz)
A
m
p
l
i
t
u
d
e

(
d
B
)

Femmes
Femmes 1
Femmes 2

Figure 4.6 : Spectres long terme correspondant aux centres des classes de locuteurs
Chapitre IV
94
IV.2. Classement des locuteurs
IV.2.1. Stratgie de classement
Les classes de locuteurs tant dfinies, il reste dterminer selon quels paramtres et quels
critres un locuteur sera affect l'une ou l'autre des classes. Cette affectation ne peut tre
ralise simplement selon la proximit du cepstre partiel avec un des centres de classes, puisque
ce cepstre est dvi par la partie de la liaison tlphonique en amont de l'galiseur. Si le cepstre
partiel est utilis comme paramtre de classement, un critre robuste aux dviations par la liaison
tlphonique devra tre trouv.
Que nous options pour une classification en deux ou quatre classes, les classes sont
homognes du point de vue du sexe. Le pitch tant la fois assez discriminant pour un
classement homme / femme et insensible aux distorsions spectrales envisages, il serait pertinent
de l'utiliser comme paramtre. Il pourrait tre utilis seul dans le cas d'une classification
hommes / femmes, conjointement avec le cepstre partiel dans les deux classifications envisages.
H. Ezzaidi et al. [Ezzaidi, 2001] ont montr l'intrt de l'utilisation conjointe du pitch et des
coefficients cepstraux dans les systmes d'identification du locuteur, en mettant en vidence la
dpendance entre ces deux types de paramtres. Cette dpendance permet d'affecter les locuteurs
des classes fondes sur leurs coefficients cepstraux malgr la dviation de ceux-ci, grce la
robustesse du pitch ces dviations.
Nous appliquons ces paramtres la technique usuelle de l'analyse linaire discriminante.
Si l'on dispose de N individus dcrits par des vecteurs de dimension p et rpartis a priori en K
classes, l'analyse linaire discriminante consiste :
- dans un premier temps, chercher les K-1 fonctions linaires indpendantes qui sparent
au mieux les K classes. Il s'agit de dterminer quelles sont les combinaisons linaires des
p composantes des vecteurs qui minimisent la variance intra-classes et maximisent la
variance interclasses.
- dans un deuxime temps, dterminer la classe d'un nouvel individu par application des
fonctions linaires discriminantes au vecteur le reprsentant.
Il s'agit donc de transformer le problme de l'affectation d'un individu d'un espace p
dimensions l'une des K classes mal spares en un problme d'affectation d'un vecteur de
dimension K-1 (gnralement infrieur p) l'une des K classes bien spares du sous-espace
engendr par les K-1 fonctions linaires discriminantes.
Dans notre cas, les vecteurs reprsentatifs des individus auront pour composantes le pitch
et les coefficients 1 20 du cepstre partiel. La robustesse des fonctions discriminantes la
dviation des coefficients cepstraux sera assure la fois par la prsence du pitch dans les
paramtres et par le choix du corpus d'apprentissage. Celui-ci devra tre compos d'individus
dont la voix originale aura subi une grande diversit de filtrages reprsentatifs des distorsions
occasionnes par les liaisons tlphoniques. Nous discuterons plus en dtail du choix du corpus
d'apprentissage dans les sections IV.2.4 et IV.2.5.
galisation diffrencie par classes de locuteurs
95
IV.2.2. Calcul des fonctions linaires discriminantes
Soit a(i) une combinaison linaire des composantes x
i
j
pralablement centres d'un individu i
reprsent par le vecteur x
i
:
( ) ( )
1
p
i
j j j
j
a i a x x
=
=

, (4.7)
o
( )
1
j
j p
x x

= est le centre de la population.
Soit T la matrice de covariance des p variables, d'lment gnrique (t
jk
)
1j,kp
tel que :

( )( )
,
1
1
N
i i
j k j j k k
i
t x x x x
N
=
=

, (4.8)
o N est le nombre d'individus de la population. La matrice T se dcompose en T = D + E, avec
D la matrice d'inertie intra-classes et E la matrice d'inertie inter-classes, d'lments gnriques
respectifs d
jk
et e
jk
tels que :

( ) ( )
1
1
K
i q i q
jk j j k k
q i q
d x x x x
N
=
=

(4.9)

( )( )
1
K
q q q
jk j j k k
q
N
e x x x x
N
=
=

, (4.10)
o
q
x dsigne le centre de la q
me
classe et N
q
le cardinal de la q
me
classe.
Minimiser la variance intra-classes et maximiser la variance inter-classes de a revient
choisir a comme le vecteur propre de T
-1
E relatif la plus grande valeur propre (voir dtails de la
dmonstration dans l'annexe J). Cette valeur propre est appele le pouvoir discriminant de la
fonction linaire a. Pour une partition en K classes, les K-1 fonctions linaires discriminantes
correspondront aux vecteurs propres associs aux K-1 plus grandes valeurs propres de T
-1
E.
Dans ce cas particulier du classement en deux classes, hommes (H) et femmes (F), on
montre (cf. annexe J) que la fonction linaire discriminante a est dfinie par :

1
a T c

= , (4.11)
avec c un vecteur colonne de composantes c
j
telles que :

( )
H F
H F
j j
j
N N
c x x
N
= . (4.12)
o N
H
et N
F
sont les nombres respectifs d'hommes et de femmes,
H
x et
F
x sont les moyennes de
x respectivement chez les hommes et chez les femmes.
Chapitre IV
96
IV.2.3. Affectation d'une nouvelle observation
Une fois dfinies les K-1 fonctions discriminantes (a
k
)
1kK-1
, on souhaite affecter une nouvelle
observation x en fonction de (a
k
(x))
1kK-1
.
Jambu [Jambu, 1999] propose d'affecter x selon sa distance aux diffrents centres de
classes dans le sous-espace engendr par les fonctions discriminantes. L'observation x est
affecte la classe q telle que la distance entre son centre
q
x et x :
( ) ( )
( ) ( )
2 1
1
d ,
K
q
k k
k
x q a x a x

=
=

(4.13)
soit minimale.
Cette approche purement gomtrique ne tient cependant pas compte des variances des
classes ni de leurs probabilits respectives. C'est pourquoi Lebart et al. [Lebart, 2000b]
proposent de classer une nouvelle observation selon un critre baysien d'affectation : un
individu x est affect la classe q si la probabilit conditionnelle de q sachant x, note P(q|x) est
maximale. Selon le thorme de Bayes,
( )
( ) ( )
( )
P | P
P |
P
x q q
q x
x
= . (4.14)
Par consquent, P(q|x) est proportionnelle P(x|q)P(q). Lebart et al. expriment cette probabilit
dans le cas de classes distribution normale en restant dans l'espace initial p dimensions, sans
utiliser la fonction discriminante calcule. Nous calculons ce critre baysien en nous plaant
plutt dans le sous-espace engendr par les K-1 fonctions discriminantes.
Sous l'hypothse d'une distribution multi-gaussienne des individus dans chaque classe, si
l'on note f
k
(x) la densit de probabilit de a(x) (vecteur de composantes (a
k
(x))
1kK-1
) l'intrieur
de la classe q :
( )
( )
( ) ( ) ( )
( ) ( ) ( )
1
1
2
1 1
exp
2
2
q q
q q K
q
f x a x a x S a x a x
S


=


, (4.15)
o S
q
est la matrice des covariances de a l'intrieur de la classe q, d'lment gnrique
q
jk
que
l'on peut estimer par :

( ) ( ) ( ) ( ) ( ) ( )
1
1
q
N
q j i j q k i k q
jk
i
q
a x a x a x a x
N

=
=

. (4.16)
L'individu x sera affect la classe q qui maximise f
q
(x)P(q), ce qui revient minimiser sur q la
fonction s
q
(x) appele score discriminant :
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( )
1
log 2log P
q q
q q q
s x a x a x S a x a x S q

= + . (4.17)

galisation diffrencie par classes de locuteurs
97
IV.2.4. Application au classement en deux classes hommes / femmes
Choix du corpus d'apprentissage
Il est souhaitable de disposer d'un corpus d'apprentissage pour dterminer les critres
d'affectation et d'un corpus de test distinct pour vrifier le classement des locuteurs par
application de ces critres. Le corpus d'apprentissage doit tre reprsentatif de la multiplicit des
filtrages subis par les signaux reus par l'galiseur, de sorte que les critres de classement soient
robustes la dviation des coefficients du cepstre partiel.
Nous disposons pour cela d'un nouveau corpus, enregistr par Vecsys pour
France Tlcom R&D des fins d'authentification vocale du locuteur travers le rseau
tlphonique [Vecsys, 1994]. La procdure d'enregistrement consistait en ce que les locuteurs
tlphonent, en utilisant leur poste RTC personnel, un serveur plac en rception d'une liaison
RNIS, selon le schma de la Figure 4.7. Les phrases prononces taient alors enregistres sur le
serveur. La liaison RNIS n'introduisant aucun filtrage en aval de la position prvue pour notre
galiseur, les signaux du corpus peuvent tre considrs comme reprsentatifs du type de
signaux l'entre de l'galiseur. Le corpus compte 129 locuteurs, lisant chacun 1 5 phrases
phontiquement quilibres (le jeu de 5 phrases tant le mme pour tous) issues du journal
Le Monde.






Figure 4.7 : Chane d'enregistrement du corpus utilis pour l'apprentissage des critres de classement
Les classes respectives des locuteurs de ce corpus d'apprentissage doivent tre connues a priori.
Comme ce corpus sert prcisment dfinir les critres d'affectation, le seul moyen de connatre
les classes est d'couter les phrases et de dterminer partir de cette coute le sexe des locuteurs.
Ainsi, nous liminons de ce corpus 2 locuteurs dont l'coute ne permet pas de dterminer le sexe.
Les paramtres utiliss pour dfinir les critres de classement tant le pitch moyen et les
coefficients 1 20 du cepstre partiel long terme, la dure d'activit vocale des phrases doit
permettre une estimation fiable du spectre long terme. D'aprs les rsultats du chapitre II, 5 s
d'activit vocale sont suffisantes pour la grande majorit des locuteurs. Nous slectionnons donc
dans ce corpus les phrases de plus de 5 s d'activit vocale.
Il reste au final 463 phrases prononces par 126 locuteurs, dont 61 hommes et 65 femmes.
Notons que pour chaque locuteur, les phrases ont gnralement t enregistres au cours de
communications diffrentes, avec des conditions d'enregistrement variables d'un appel l'autre :
les coutes effectues indiquent que pour un mme locuteur, le terminal, la distance de la bouche
au micro et l'acoustique du lieu de l'appel varient entre deux appels. Ainsi, nous disposons d'un
corpus de 463 individus reprsentatifs de conditions (locuteur, filtrage de la liaison) trs diverses.
Dfinition des critres de classement
Nous tudions ici les performances de deux critres de classement homme / femme : d'une part le
pitch seul, d'autre part une combinaison linaire (selon l'analyse linaire discriminante) du pitch
et des coefficients 1 20 du cepstre partiel.
Systme
d'mission
Ligne
analogique
Codeur
MIC
Serveur

Locuteur
Liaison numrique RTC / RNIS Liaison analogique
Chapitre IV
98
Le pitch moyen tant la fois caractristique du sexe d'un locuteur et insensible aux
distorsions spectrales introduites par une liaison tlphonique, il peut tre utilis seul comme
critre de classement homme / femme.
La Figure 4.8 reprsente la distribution des pitchs moyens des 463 individus du corpus,
ainsi que la modlisation gaussienne de cette distribution. Pour chaque individu, le pitch F
0
est
calcul sur chaque trame d'activit vocale (trames de 32 ms se recouvrant 50 %) par la mthode
de l'autocorrlation [UIT-T/G.729, 1996]. Le pitch moyen est la moyenne du pitch sur toutes les
trames voises, une trame tant considre comme voise ou non par comparaison de
l'autocorrlation normalise en 1/F
0
un seuil. Si l'on note la fonction d'autocorrlation,
l'autocorrlation normalise, note
N
, est dfinie par :
( )
( )
( )
N
0

(4.18)
La valeur
N
(1/F
0
), comprise entre 0 et 1, est d'autant plus proche de 1 que la trame est voise.
Le seuil de voisement est fix 0,5.
Nous examinons maintenant l'erreur de classement apparente (i.e. calcule sur le corpus
d'apprentissage) si le pitch est utilis comme critre unique de classement. D'aprs
l'quation (4.14), la probabilit d'appartenance d'un locuteur la classe q (q = H ou F)
connaissant son pitch moyen
0
F est proportionnelle la densit de probabilit de
0
F sachant q,
puisque les deux classes hommes / femmes ont a priori la mme probabilit. Sous l'hypothse
d'une distribution gaussienne des pitchs moyens dans chaque classe, cette densit de probabilit
s'exprime par :

( )
2
0 0
0 2
1
exp
2 2
q
q
q q
F F
f F





=



, (4.19)
o
0
q
F et
q
2
sont respectivement la moyenne et la variance des pitchs moyens sur la classe q. Le
seuil de dcision est la solution de l'quation :

( ) ( )
H 0 F 0
f F f F = . (4.20)
Ainsi, un locuteur est class parmi les hommes si son pitch moyen est infrieur 193 Hz, parmi
les femmes s'il est suprieur ce seuil. Nous notons
seuil
0
F ce seuil.
La probabilit de classer un homme parmi les femmes est donne par :

H
seuil
0 0
H
H
1
1 erfc
2 2
F F
e


=


; (4.21)
galisation diffrencie par classes de locuteurs
99
celle de classer une femme parmi les hommes est dfinie par :

F
seuil
0 0
F
F
1
erfc
2 2
F F
e


=


, (4.22)
o erfc dsigne la fonction d'erreur complmentaire.
On obtient ainsi une erreur prvisible de classement de 6,4 % pour les hommes et 6,0 %
pour les femmes.

50 100 150 200 250 300 350
0
0.002
0.004
0.006
0.008
0.01
0.012
0.014
0.016
0.018
0.02
F0
D
e
n
s
i
t


d
e

p
r
o
b
a
b
i
l
i
t


Hommes
Femmes

Figure 4.8 : Distribution des pitchs moyens ;
modlisation gaussienne de cette distribution
Nous souhaitons maintenant valuer l'apport des 20 premiers coefficients du cepstre partiel la
discrimination homme / femme, en utilisant de manire conjointe le pitch moyen et les
coefficients du cepstre partiel comme paramtres de discrimination. Il s'agit de chercher la
fonction linaire qui, applique au vecteur x = [
0
F ; C
p
(1) ; ; C
p
(20) ], spare au mieux les
deux classes.
Une analyse linaire discriminante est mene comme indiqu dans la section IV.2.2 sur le
corpus de 463 individus prcdemment dfini et conduit la distribution des a(x) reprsente sur
la Figure 4.9 avec la modlisation gaussienne de la distribution de chaque classe. La
comparaison avec la Figure 4.8 indique une meilleure sparation des classes. Le pitch garde un
rle prpondrant dans la discrimination, puisque si l'on considre les coefficients de a calculs
partir du vecteur x normalis (par sa variance), le coefficient multiplicatif du pitch vaut 0,51,
contre 0,18 pour le plus grand des coefficients multiplicatifs des coefficients cepstraux.
Chapitre IV
100

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
0
0.2
0.4
0.6
0.8
1
1.2
1.4
a(x)
D
e
n
s
i
t


d
e

p
r
o
b
a
b
i
l
i
t


Hommes
Femmes

Figure 4.9 : Distribution de a(x) ;
modlisation gaussienne de cette distribution
De manire similaire la discrimination selon le pitch, la probabilit d'appartenance d'un
locuteur la classe q (q = H ou F) connaissant a(x) est proportionnelle la densit de probabilit
de a(x) sachant q. Sous l'hypothse d'une distribution gaussienne de a(x) dans chaque classe,
cette densit de probabilit s'exprime par :

( ) ( )
( ) ( ) ( )
2
2
1
exp
2
2
q
q
a
a
q
q
a x a x
f a x



=



, (4.23)
o
a
q
dsigne l'cart-type de a(x) dans la classe q. Le seuil de dcision, que nous noterons a
seuil
,
est la solution de l'quation :
( ) ( )
H F
f a f a = . (4.24)
La probabilit de classer un homme parmi les femmes est donne par :

( )
seuil H
H
H
1
erfc
2 2
a
a a x
e

=


; (4.25)
celle de classer une femme parmi les hommes est dfinie par :

( )
seuil F
F
F
1
1 erfc
2 2
a
a a x
e

=


. (4.26)
On obtient ainsi une erreur apparente de classement de 0,9 % pour les hommes et 1,0 % pour les
femmes, ce qui permet d'augurer une efficacit du critre a(x) meilleure que celle du pitch seul.
galisation diffrencie par classes de locuteurs
101
Application des critres de classement au corpus de test
Nous utilisons comme corpus de test le corpus de 63 locuteurs prsent dans la section IV.1, que
nous filtrons par diffrentes liaisons RTC en amont de l'galiseur. Nous testons les trois mmes
combinaisons de systmes d'mission et de lignes analogiques d'mission que dans la
section II.3.4. Le vecteur x prcdemment dfini est calcul au fil de l'eau comme dcrit ci-
dessous.
Le spectre long terme est ajust chaque trame d'activit vocale comme dans l'galiseur
adapt dcrit au chapitre II (voir Figure 2.9), selon la formule suivante :
( ) ( ) ( ) ( ) ( ) ( )
2
, , 1 , 1
x x
f n n X f n n f n = + , (4.27)
o
x
(f,n) est le spectre long terme de la sortie x du pr-galiseur la n
me
trame d'activit
vocale, X(f,n) la transforme de Fourier de la n
me
trame d'activit vocale, et
( )
( )
1
min ,
n
n N
= , (4.28)
o N est le nombre de trames dans 4 s. On dduit de ce spectre long terme le cepstre partiel,
selon la procdure dfinie la section IV.1.2.
Le pitch moyen
0
F est estim chaque trame voise selon la formule :
( ) ( ) ( ) ( ) ( ) ( )
0 0 0
1 1 F m m F m m F m = + , (4.29)
o F
0
(m) est le pitch de la m
me
trame voise.
Ainsi, chaque trame d'activit vocale, on dispose d'un nouveau vecteur x de composantes
le pitch moyen et les coefficients 1 20 du cepstre partiel, auquel on applique la fonction
discriminante a dfinie partir du corpus d'apprentissage. On compare alors :
- le pitch moyen au seuil de 193 Hz ;
- a(x) au seuil a
seuil
.
Dans chacun des cas, on dcide alors de l'affectation du locuteur dans une des deux classes.
Les Figures 4.10 et 4.11 reprsentent les erreurs de classement rsultant de cette procdure,
respectivement selon le critre du pitch et selon celui de la fonction discriminante applique au
vecteur x (pitch moyen et cepstre partiel). Chaque ligne correspond un locuteur : les lignes 1
33 (en partant du haut) reprsentent les locuteurs masculins, les lignes 34 63 les locutrices.
Pour une ligne donne, chaque pixel reprsente l'erreur de classement pour une trame : le pixel
est gris clair si le locuteur est bien class, noir sinon. Seuls les rsultats de la deuxime liaison
simule (systme d'mission ayant la caractristique nominale du SRI modifi et ligne d'mission
moyenne) sont reprsents, ceux des autres liaisons tant similaires. Le Tableau 4.1 indique les
taux d'erreur de classement pour les trois liaisons, calculs selon deux mthodes. La premire
consiste considrer qu'un locuteur est mal class si, aprs 10 s de parole (temps maximal
d'estimation du spectre long terme d'aprs les rsultats du chapitre II), une erreur de classement
est commise pour plus de 25 % des trames. La seconde mthode consiste calculer, sur
l'ensemble des locuteurs, le pourcentage de trames mal classes aprs 10 s de parole.
Chapitre IV
102

Pas d'erreur
Erreur
Temps (s)
L
o
c
u
t
e
u
r
s

10 20 30 40 50
10
20
30
40
50
60
Liaison 2

Figure 4.10 : Erreurs de classement selon le pitch pour chaque locuteur chaque trame de signal

Pas d'erreur
Erreur
Temps (s)
L
o
c
u
t
e
u
r
s

10 20 30 40 50
10
20
30
40
50
60
Liaison 2

Figure 4.11 : Erreurs de classement selon a(x) (combinaison du pitch et du cepstre partiel)
pour chaque locuteur chaque trame de signal
Ces rsultats confirment que l'utilisation conjointe du pitch et du cepstre partiel dans la
dtermination du sexe du locuteur permet de rduire l'erreur de classement commise en se
fondant sur le seul pitch. Selon la dfinition du taux d'erreur adopte, celui-ci passe de 20 %
15 % ou de 17 % 13 % en moyenne. L'erreur reste cependant nettement suprieure l'erreur
thorique calcule sur le corpus d'apprentissage. Notons que les erreurs de classement sont plus
particulirement concentres sur les locutrices (locuteurs 34 63), ce qui peut s'expliquer par une
translation de la distribution de a(x) pour le corpus de test par rapport au corpus d'apprentissage,
ayant pour rsultat de dplacer le seuil de dcision vers le centre de la distribution de la classe
galisation diffrencie par classes de locuteurs
103
femmes. La fonction a tant linaire, cette dviation correspond une dviation cepstrale globale
du corpus de test par rapport au corpus d'apprentissage.

Locuteurs mal classs (1) Trames mal classes (2)
Liaison 1 2 3 1 2 3
Classement selon F
0
seul 21 % 21 % 19 % 17 % 17 % 17 %
Classement selon F
0
et C
p
120
14 % 14 % 17 % 11 % 12 % 15 %
(1) locuteurs pour lesquels une erreur de classement est commise sur plus de 25 % des trames aprs
10 secondes de parole.
(2) Sur l'ensemble des locuteurs, pourcentage de trames mal classes postrieures 10 secondes

Tableau 4.1 : Taux d'erreur de classement des locuteurs
IV.2.5. Application au classement en quatre classes
Choix des corpus d'apprentissage et de test
Le corpus d'apprentissage utilis pour l'analyse linaire discriminante dans le cas d'un classement
homme / femme ne peut tre utilis ici. L'analyse linaire discriminante ncessite en effet de
connatre a priori la classe de chaque locuteur du corpus d'apprentissage. Si le sexe peut tre
dtermin par une simple coute, il n'en est pas de mme pour l'appartenance l'une des quatre
classes dfinies dans la section IV.1. Avant dfinition des fonctions discriminantes, cette
appartenance ne peut tre dtermine qu' partir de la parole originale (non filtre par une liaison
tlphonique), selon la distance entre le cepstre partiel long terme et les diffrents centres de
classes. Ne connaissant ni les signaux d'mission du corpus d'apprentissage prcdent, ni les
caractristiques des liaisons tlphoniques des locuteurs, nous ne pouvons pas dterminer a
priori la classe de ceux-ci.
Ce corpus ne peut tre non plus utilis comme corpus de test, puisque les classes des
locuteurs de celui-ci doivent tre galement connues a priori, pour pouvoir calculer les taux
d'erreur de reconnaissance.
Nous utilisons donc le corpus de 63 locuteurs utilis dans la section IV.1 la fois comme
corpus d'apprentissage et comme corpus de test, en le ddoublant de la manire suivante. Les
critres de classement seront appris sur ce corpus modifi par une grande varit de filtrages et
seront tests sur ce corpus filtr comme prcdemment par diffrentes liaisons RTC en amont de
l'galiseur, les caractristiques de ces liaisons diffrant de celles des filtres utiliss pour
construire le corpus de test.
La construction du corpus d'apprentissage consiste dfinir un ensemble de M biais
cepstraux qui s'ajouteront chacun chaque cepstre partiel reprsentatif d'un locuteur du corpus
original, ce qui permet d'obtenir un nouveau corpus de 63M individus. Ces biais dans le domaine
du cepstre partiel doivent correspondre une large gamme de distorsions spectrales sur la bande
187-3187 Hz. L'idal serait de disposer de statistiques sur la caractristique frquentielle du
systme d'mission et de la ligne pour toute la population d'abonns, de manire dfinir un
ensemble de biais cepstraux reprsentatif de cette distribution de rponses frquentielles. Ne
disposant pas de telles donnes, nous proposons, de manire arbitraire, l'ensemble de rponses
frquentielles reprsentes sur la Figure 4.12. pour la bande 187-3187 Hz : chaque rponse
Chapitre IV
104
frquentielle correspond un chemin de gauche droite dans le treillis. L'amplitude de leurs
variations sur cette bande n'excde pas 20 dB, l'instar des caractristiques extrmales des
systmes d'mission et lignes prsentes au chapitre I.

100 1000
-10
-5
0
5
10
Frquence (Hz)
A
m
p
l
i
t
u
d
e

(
d
B
)


Figure 4.12 : Caractristiques frquentielles des filtrages appliqus au corpus initial pour dfinir le corpus de test
A partir de ces 81 caractristiques frquentielles sont calculs les 81 biais correspondants dans le
domaine du cepstre partiel, selon la procdure dfinie en IV.1.2. Par addition de ces biais au
corpus initial, on obtient un corpus d'apprentissage comptant 5103 individus reprsentatifs de
diverses conditions (locuteur, filtrage de la liaison).
Notons que dans l'espace considr, celui du cepstre partiel, les corpus d'apprentissage et
de test constituent bien deux corpus diffrents. D'une part, les biais cepstraux introduits par les
filtrages dans les corpus de test et dans le corpus d'apprentissage sont du mme ordre de
grandeur que les carts entre locuteurs dans le corpus original. D'autre part, les filtrages utiliss
pour construire le corpus d'apprentissage ne correspondent aucune des liaisons simules dans
les corpus de test.
Dfinition des critres de classement
Comme pour le classement en deux classes, nous menons une analyse linaire discriminante en
utilisant comme paramtre le vecteur x = [
0
F ; C
p
(1) ; ; C
p
(20) ]. Trois fonctions linaires
discriminantes (a
k
)
k=1,2,3
sont calcules selon la procdure de la section IV.2.2. Leurs pouvoirs
discriminants respectifs valent 0,95 , 0,50 et 0,43. Le pitch garde un rle prpondrant dans la
discrimination, son coefficient multiplicatif normalis tant le plus grand dans chacune des trois
fonctions discriminantes. La visualisation des nuages de points de coordonnes (a
1
(x);a
2
(x);a
3
(x))
fait apparatre une nette sparation des classes hommes et femmes ainsi que des deux sous-
classes de femmes (aucun recouvrement). En revanche, les deux sous-classes d'hommes se
recouvrent lgrement.
Le calcul de l'erreur apparente de manire analytique est plus dlicat que dans le cas du
classement en deux classes. Le taux d'erreur par classe est donc dtermin par le calcul des
scores discriminants sur toute la population d'apprentissage. Pour un individu d'une classe
donne, il y a erreur si le score discriminant associ cette classe n'est pas infrieur ceux
associs aux trois autres classes. On obtient les taux d'erreurs indiqus dans le tableau 4.2.
galisation diffrencie par classes de locuteurs
105

Classes Hommes_1 Hommes_2 Femmes_1 Femmes_2
Erreur sur le sexe 0 % 0 % 0 % 0 %
Erreur sur la sous-classe 4,5 % 11,5 % 0 % 0 %
Erreur totale 4,5 % 11,5 % 0 % 0 %

Tableau 4.2 : Taux d'erreurs de classement apparents
Application des critres de classement au corpus de test
Les fonctions discriminantes sont appliques aux corpus de test de la mme manire que pour le
classement homme / femme. La dcision chaque trame ne se fait plus par comparaison des
rsultats un seuil, mais par calcul du score discriminant associ chaque classe. La classe
d'affectation est celle minimisant le score.
La Figure 4.13 reprsente les erreurs de classement rsultant de cette procdure pour la
liaison 2. Chaque ligne correspond un locuteur : les lignes 1 33 (en partant du haut)
reprsentent les locuteurs masculins, les lignes 34 63 les locutrices. Pour une ligne donne,
chaque pixel reprsente l'erreur de classement pour une trame : le pixel est gris clair si le locuteur
est bien class, gris fonc si l'on se trompe de sous-classe mais pas de sexe, noir si le locuteur est
affect une sous-classe du sexe oppos. Seuls les rsultats de la deuxime liaison simule sont
reprsents, ceux des autres liaisons tant similaires. Le tableau 4.3 indique les taux d'erreur de
classement pour les trois liaisons, calculs selon les deux mthodes prsentes dans la
section IV.2.4. Ces taux d'erreurs sont assez levs, mais correspondent essentiellement des
erreurs de dtermination de la sous-classe du locuteur, les erreurs de dtermination du sexe du
locuteur tant assez rares.

Pas d'erreur
Erreur de sous-classe
Erreur sur le sexe
Temps (s)
L
o
c
u
t
e
u
r
s

10 20 30 40 50
10
20
30
40
50
60
Liaison 2

Figure 4.13 : Erreurs de classement pour chaque locuteur chaque trame d'activit vocale
Chapitre IV
106
Locuteurs mal classs (1) Trames mal classes (2)
Liaison 1 2 3 1 2 3
Classement selon F
0
et C
p
120
32 % 33 % 27 % 24 % 23 % 24 %
(1) Locuteurs pour lesquels une erreur de classement est commise sur plus de 25 % des trames aprs
10 secondes de parole.
(2) Sur l'ensemble des locuteurs, pourcentage de trames mal classes postrieures 10 secondes

Tableau 4.3 : Taux d'erreur de classement des locuteurs en quatre classes
IV.3. galisation adapte multirfrences
IV.3.1. Mise en uvre dans le domaine des cepstres partiels
Selon l'algorithme dfini dans le chapitre II, la rponse frquentielle de l'galiseur adapt est
calcule selon l'quation 2.18, rappele ici :

ref
( ) 1
| ( ) |
_ ( ). _ ( ) ( )
x
f
EQ f
S RX f L RX f f

= (4.30)
avec L_RX la rponse frquentielle de la ligne de rception, S_RX la rponse frquentielle du
systme de rception,
ref
le spectre de rfrence et
x
le spectre long terme de la sortie x du pr-
galiseur. Cette rponse est calcule ainsi uniquement pour les frquences entre F
c
et 3150 Hz, et
la valeur |EQ(f)|
[Fc-3150 Hz]
est extrapole linairement pour les frquences infrieures F
c
et
suprieures 3150 Hz.
Cet algorithme peut tre transcrit dans le domaine du cepstre partiel, puisque nous
disposons du cepstre partiel de la sortie x du pr-galiseur, ncessaire au classement du locuteur.
Ainsi, l'quation (4.30) devient :

p p p p p
ref _ _ eq x s rx l rx
C C C C C = , (4.31)
o C
p
eq
, C
p
x
, C
p
s_rx
et C
p
l_rx
sont les cepstres partiels respectifs de l'galiseur adapt, de la sortie x
du pr-galiseur, du systme de rception et de la ligne de rception, C
p
ref
tant le cepstre partiel
de rfrence. Les cepstres partiels sont calculs comme indiqu dans la section IV.1.2, en
slectionnant la bande de frquences 187-3187 Hz. Ce calcul est effectu uniquement pour les
coefficients 1 20, les coefficients suivants tant inutiles car reprsentatifs d'une finesse
spectrale qui sera limine par la troncature de la rponse impulsionnelle de l'galiseur adapt.
Pour chacune des classifications envisages (2 ou 4 classes), nous souhaitons comparer les
performances obtenues avec deux cepstres de rfrence, calculs sur le corpus de la section IV.1:
- cepstre partiel moyen (centre) de tout le corpus ;
- cepstre partiel moyen (centre) de la classe d'affectation du locuteur. Cette classe a t
pralablement dtermine par application de la (ou des) fonction(s) linaire(s)
galisation diffrencie par classes de locuteurs
107
discriminante(s) au vecteur ayant pour composantes le pitch moyen et les coefficients 1
20 de C
p
x
.
Les 20 coefficients du cepstre partiel de l'galiseur adapt calculs selon l'quation (4.31) sont
complts par des zros de manire obtenir une reprsentation sur 256 points. On en dduit le
module en dB de la rponse frquentielle de l'galiseur adapt restreinte la bande
187-3187 Hz :

[ ]
( )
1 p
dB| 187 3187 Hz
TFD
eq
EQ C

= . (4.32)
Cette grandeur est dcime d'un facteur 3/4 puis extrapole en dehors de cette bande comme
dcrit dans la section II.2.5.
L'galiseur adapt est ensuite calcul dans le domaine temporel selon la procdure dcrite
dans la section II.2.5. Comme l'approximation du cepstre partiel du locuteur par le cepstre partiel
de rfrence de sa classe est moins grossire que ne l'tait celle de son spectre long terme par
un spectre moyen unique, la rponse frquentielle de l'galiseur adapt ncessite un lissage
moins fort. Ainsi, le nombre de coefficients de l'galiseur adapt peut tre plus lev, de manire
corriger des distorsions spectrales plus fines. Nous fixons ce nombre 31.
Ces diffrentes tapes de l'galisation adapte diffrencie par classes de locuteurs sont
rsumes par le schma de la Figure 4.14.
IV.3.2. Application la classification hommes / femmes
La mthode d'galisation prcdemment expose est simule dans les conditions exprimentales
dcrites dans la section II.3.1. Le corpus utilis est celui dfini dans la section IV.1.
Nous noterons e
1
l'erreur cepstrale introduite par l'galisation lorsque la rfrence est le
cepstre moyen de toute la population, e
2
celle rsultant de l'galisation lorsque la rfrence est le
cepstre moyen de la classe du locuteur. L'erreur cepstrale est dfinie (cf. chapitre II) comme la
distance cepstrale entre l'galiseur adapt et l'galiseur adapt idal.
La Figure 4.15 compare, pour la liaison 3 et pour chaque locuteur (les rsultats des autres
liaisons tant trs proches), les moyennes des erreurs cepstrales e
1
et e
2
, notes respectivement
1

et
2
. L'erreur cepstrale moyenne est calcule partir de 10 s d'activit vocale, de manire tre
assur que la convergence de l'galiseur a eu lieu. Chaque locuteur est reprsent par un point de
coordonnes (
1
,
2
). Pour la grande majorit des locuteurs,
2
<
1
, ce qui signifie que
l'utilisation du centre de la classe comme cepstre de rfrence permet bien de rduire l'erreur
cepstrale.
Cependant, cette rduction de l'erreur cepstrale ne correspond aucune amlioration
perceptible lors des coutes informelles pratiques avec les locuteurs dont nous disposons. Selon
les locuteurs, le timbre du signal de rception est dans les deux cas soit semblablement diffrent
de celui du signal en rception de la mme liaison galise par l'galiseur idal, soit trs proche
de ce signal. La Figure 4.16 reprsente, pour un locuteur prsentant l'une des plus fortes
rductions d'erreur cepstrale moyenne (marqu d'une croix sur la Figure 4.15), l'volution de
l'erreur cepstrale au cours du temps. Pour le mme locuteur, la diffrence, en dB, entre la rponse
frquentielle de l'galiseur adapt et celle de l'galiseur adapt idal, aprs stabilisation de
l'erreur cepstrale (i.e. aprs convergence de l'galiseur), est reprsente sur la Figure 4.17, selon
le cepstre de rfrence utilis. Les deux erreurs spectrales ainsi illustres sont trs proches, ce
qui explique la proximit de timbre des deux signaux.
Chapitre IV
108

















































Figure 4.14 : Schma de principe de l'galiseur diffrenci par classes de locuteurs
Pr-galiseur
DAV
Fentre de pondration
(Hamming, 256 points)
FFT
| . |
2
Moyenne
Troncature
187-3187 Hz
Extrapolation
hors de Fc-3150 Hz
Symtrisation
Filtre RIF
(galiseur
adapt)
IFFT
Fentre de troncature
(Hamming, 31 points)
x(n)
activation
/ dsactivation
X(f)
|X(f)|
2

x
(f)
eq(n)
Signal galis
+
-
(actualisation des
coefficients de l'galiseur
adapt et calcul du pitch
uniquement si DAV=1)
10 log
10
(. )
IFFT
C
p
x
(120)
Classement
C
p
ref
(120)
+
C
p
s_rx
(120)
+
C
p
l_rx
(120)
-
C
p
eq
(120)
4/3
Zero-padding
FFT sur 256 points
3/4
EQ
dB|[187-3187 Hz]
10
( . /20)
Dtection de voisement
Calcul du pitch
F
O
Moyenne
0
F
galisation diffrencie par classes de locuteurs
109

0 0.05 0.1 0.15 0.2 0.25 0.3
0
0.05
0.1
0.15
0.2
0.25
1 : Erreur cepstrale quand C
p
ref = cepstre moyen

2

:

E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

q
u
a
n
d

C
p
r
e
f

=

c
e
n
t
r
e

d
e

c
l
a
s
s
e

1
=
2


Figure 4.15 : Variation de l'erreur cepstrale moyenne lorsque l'galiseur adapt utilise comme cepstre partiel de
rfrence le centre de la classe du locuteur au lieu de celui de toute la population

0 5 10 15 20 25
0
0.05
0.1
0.15
0.2
0.25
Temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

e
1
e
2

100 1000
-4
-3
-2
-1
0
1
2
3
4
5
Frquences (Hz)
D
i
s
t
o
r
s
i
o
n

s
p
e
c
t
r
a
l
e

(
d
B
)

C
p
ref
= cepstre moyen
C
p
ref
= cepstre de classe

Figure 4.16 : volution de l'erreur cepstrale
pour un locuteur
Figure 4.17 : Distorsion spectrale correspondante
la 10
me
seconde
Nous cherchons dfinir dans quelles conditions la rduction d'erreur cepstrale permise par le
recours un cepstre de rfrence propre chaque classe pourrait tre perceptible. La premire
condition est de maximiser l'cart entre e
1
et e
2
. Comme l'erreur cepstrale introduite par
l'galiseur correspond la distance entre le cepstre original du locuteur et le cepstre de rfrence
utilis comme approximation de celui-ci, un locuteur appartenant une classe q remplit cette
condition si son cepstre partiel C
p
v
vrifie :

p
p p p p p
v
Argmax
q
C
C C C C C

=


, (4.33)
o
p
C dsigne le centre de la population et
p
q
C le centre de la classe q (q = H pour les hommes,
F pour les femmes). La condition ncessaire et suffisante est que le cepstre partiel C
p
v
soit sur la
demi-droite [
p
C
p
q
C ), l'extrieur du segment [
p
C
p
q
C ], comme reprsent sur la Figure 4.18
Chapitre IV
110
pour le plan des deux premiers coefficients cepstraux. L'cart entre ||C
p
-
p
C || et ||C
p
-
p
q
C || est
alors maximal et est gal la distance entre ces deux centres.
Il reste dfinir quelle distance de
p
q
C doit se situer C
p
v
. Nous avons compar, pour les
locuteurs du corpus, la diffrence subjective de timbre entre le signal galis et le signal galis
idalement, la distance entre le cepstre partiel du locuteur et le cepstre de rfrence. La
diffrence de timbre nous a sembl perceptible partir d'une certaine distance seuil d
seuil
,
approximativement 0,3. Le cepstre partiel C
p
v
doit donc vrifier :

p p
v seuil
p p p p
v
, >0
q
q
seuil seuil
C C d
C C d C C d

=
= + >
(4.34)
Ainsi l'erreur cepstrale sera peu perceptible lorsque l'galisation utilise le centre de classe comme
cepstre de rfrence et le sera plus lorsque l'galisation utilise le cepstre moyen de la population.
Les locuteurs ainsi dfinis n'existent pas dans notre corpus et, eu gard aux conditions
restrictives que doit vrifier leur cepstre partiel (appartenance au voisinage d'un segment d'un
espace 20 dimensions), il est peu probable de trouver de tels locuteurs dans la ralit. Nous les
appellerons donc locuteurs virtuels (d'o l'indice "v" dans la notation du cepstre partiel) et les
construisons partir des locuteurs rels du corpus de la manire suivante. Ayant dfini pour
chaque classe le cepstre partiel des locuteurs virtuels conformment aux conditions (4.34), nous
dfinissons pour chaque locuteur rel appartenant la classe q un vecteur de liftrage dans
l'espace du cepstre partiel, C
p
rv
, par :

p p p
r v v r
C C C

= , (4.35)
o C
p
r
est le cepstre partiel du locuteur rel. A chaque locuteur rel correspond un locuteur
virtuel, dont le signal de parole est construit par filtrage du signal de parole original du locuteur
rel par un filtre temporel f
rv
issu du vecteur de liftrage C
p
rv
tel que reprsent sur la
Figure 4.18. La transformation de C
p
rv
en f
rv
est ralise selon la mme procdure que celle
dcrite dans la section IV.3.1 pour l'obtention du filtre RIF d'galisation adapte partir de C
p
eq
.











Figure 4.18 : Construction d'un locuteur virtuel partir d'un locuteur rel
C
1
C
2
p
q
C
p
v
C
p
r v
C

p
r
C
p
C
galisation diffrencie par classes de locuteurs
111
Il est noter que, pour tre virtuels, ces nouveaux locuteurs n'en ont pas moins une voix tout
aussi "relle" et naturelle que celle des locuteurs rels du corpus.
Nous avons test la perceptibilit de l'amlioration de la correction de timbre pour les
locuteurs virtuels, par des coutes informelles menes par quatre auditeurs experts. Quatre
locuteurs virtuels sont tests : 3 hommes (H1
V
, H2
V
, H3
V
) et 1 femme (F
V
). Pour chaque
locuteur, trois fichiers de 3 5 s sont soumis l'coute, correspondant une portion de la phrase
test traite par trois galiseurs diffrents :
- galiseur idal (sur la bande 187-3187 Hz) (ID)
- galiseur adapt avec comme rfrence le cepstre moyen (EG1)
- galiseur adapt avec comme rfrence le centre de la classe du locuteur (EG2)
Le nombre de coefficients de l'galiseur adapt a t port 41 au lieu de 31, de manire
accentuer l'cart entre EG1 et EG2. L'volution de l'erreur cepstrale des signaux test EG1 et EG2
est reprsente sur la Figure 4.19 pour les quatre locuteurs virtuels tests, compare celle
obtenue avec les locuteurs rels correspondants. Paralllement sont reprsentes les distorsions
spectrales de EG1 et EG2.


0 0.5 1 1.5 2 2.5
0.1
0.2
0.3
0.4
Temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

Locuteur H1V
100 1000
-5
0
5
10
Frquences (Hz)
D
i
s
t
o
r
s
i
o
n

s
p
e
c
t
r
a
l
e

(
d
B
)


0 0.5 1 1.5 2 2.5 3 3.5
0.1
0.2
0.3
0.4
Temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

100 1000
-5
0
5
10
Frquences (Hz)
D
i
s
t
o
r
s
i
o
n

s
p
e
c
t
r
a
l
e

(
d
B
)

Locuteur H2V

0 0.5 1 1.5 2 2.5 3 3.5 4
0.1
0.2
0.3
0.4
Temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

100 1000
-5
0
5
10
Frquences (Hz)
D
i
s
t
o
r
s
i
o
n

s
p
e
c
t
r
a
l
e

(
d
B
)

Locuteur H3V
0 0.5 1 1.5 2 2.5 3
0.1
0.2
0.3
0.4
Temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

100 1000
-5
0
5
10
Frquences (Hz)
D
i
s
t
o
r
s
i
o
n

s
p
e
c
t
r
a
l
e

(
d
B
)

Locuteur FV




Figure 4.19 : Erreurs cepstrale et spectrale des signaux test EG1 et EG2
Lgende Locuteur rel Locuteur virtuel
C
p
ref
= cepstre moyen de la population (EG1)
C
p
ref
= cepstre moyen de la classe du locuteur (EG2)
Chapitre IV
112
Le test consiste, aprs une libre coute des fichiers, comparer ID et EG1 d'une part, ID et EG2
d'autre part, et indiquer :
- pour quelle paire la diffrence de timbre est la plus nette ;
- ventuellement, si aucune diffrence de timbre n'apparat dans une des paires.
Dans toutes les paires, les auditeurs peroivent une diffrence entre les deux chantillons. Un
ventuel seuil de perception de l'erreur cepstrale se situerait donc en dessous de 0,2 (d'aprs les
erreurs cepstrales de la Figure 4.19). Pour les trois locuteurs masculins, les quatre sujets jugent
que EG2 est plus proche de ID que EG1, ce qui est conforme aux rsultats objectifs. En
revanche, deux des quatre auditeurs jugent que pour la locutrice F
V
, EG1 est plus proche de ID
que EG2.
Il semble donc, d'aprs ce test, que, dans certaines conditions de position du cepstre partiel
du locuteur par rapport au centre de la population et au centre de la classe du locuteur,
l'utilisation d'une rfrence par classe plutt que d'une rfrence unique permet d'amliorer la
correction de timbre par l'galiseur adapt. Cependant, les auditeurs experts ont exprim une
relle difficult exercer leur jugement : les diffrences de timbre entre EG1 et EG2 sont trs
peu perceptibles, ce qui limite l'intrt d'une classification des locuteurs en deux classes
seulement, dj restreint par la raret des conditions vrifier sur le cepstre partiel du locuteur.
IV.3.3. Application la classification en quatre classes
Comme pour la classification en deux classes, la mthode d'galisation expose dans la section
IV.3.1 est simule dans les conditions exprimentales dcrites dans la section II.3.1, avec le
corpus dfini dans la section IV.1.
Nous noterons e
1
l'erreur cepstrale introduite par l'galisation lorsque la rfrence est le
cepstre moyen de toute la population, e
4
celle rsultant de l'galisation lorsque la rfrence est le
cepstre moyen de la classe du locuteur.
La Figure 4.20 compare, pour la liaison 3 et pour chaque locuteur, les moyennes des
erreurs cepstrales e
1
et e
4
, notes respectivement
1
et
4
. Chaque locuteur est reprsent par un
point de coordonnes (
1
,
4
). Pour la grande majorit des locuteurs,
4
est infrieure
1
, et ce
de manire beaucoup plus nette que le rsultat
2
<
1
dans le cas d'une classification en 2
classes.
Cette rduction de l'erreur cepstrale nous a sembl perceptible pour certains locuteurs.
Nous proposons d'valuer cette perceptibilit de l'amlioration par un test subjectif, en utilisant la
mthode MUSHRA [UIT-R/BS.1534, 1996], modifie comme indiqu dans la section II.3.6.
Pour chaque locuteur tester, la liaison galise est simule sur tout le texte "la bise et le
soleil", dont une portion de 6 7 s d'activit vocale, prononce aprs la convergence de
l'galiseur, est prsente aux auditeurs ; le traitement est effectu par trois galiseurs diffrents :
- galiseur idal (sur la bande 187-3187 Hz) (ID) ;
- galiseur adapt avec comme rfrence le cepstre moyen de toute la population (EG1) ;
- galiseur adapt avec comme rfrence le centre de la classe du locuteur (EG4).
galisation diffrencie par classes de locuteurs
113

0 0.05 0.1 0.15 0.2 0.25 0.3
0
0.05
0.1
0.15
0.2
0.25
1 : Erreur cepstrale quand C
p
ref = cepstre moyen

4

:

E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

q
u
a
n
d

C
p
r
e
f

=

c
e
n
t
r
e

d
e

c
l
a
s
s
e

1
=
4


Figure 4.20 : Variation de l'erreur cepstrale moyenne lorsque l'galiseur adapt utilise comme cepstre partiel de
rfrence le centre de la classe du locuteur au lieu de celui de toute la population
La rfrence est le signal ID, les signaux tests sont les signaux ID, EG1 et EG4. Les auditeurs
attribuent chaque signal test une note de proximit de timbre avec la rfrence, entre 0 (timbre
trs diffrent) et 100 (timbre identique).
Le choix des locuteurs tester est guid par les objectifs suivants :
Il s'agit d'abord de vrifier qu'il existe des locuteurs pour lesquels EG4 est
significativement plus proche de ID que EG1. Nous choisirons donc des locuteurs pour
lesquels la fois les rsultats objectifs (en termes d'cart entre
1
et
4
) et les coutes
informelles prliminaires permettent d'augurer de tels rsultats de test. Les deux locuteurs
reprsents respectivement par une croix et un cercle sur la Figure 4.20 correspondent
ce cas. Ces locuteurs ont un intrt particulirement dmonstratif, puisque, prsentant une
erreur moyenne
1
assez forte, ce sont ceux pour lesquels une rduction d'erreur cepstrale
est le plus souhaitable si elle correspond une rduction de l'erreur de restauration de
timbre.
Par ailleurs, nous souhaitons tudier comment la perception de la diffrence de timbre
volue selon l'erreur cepstrale, afin notamment de rpondre aux questions suivantes : une
mme rduction de l'erreur cepstrale entre EG1 et EG4 conduit-elle dans tous les cas la
mme perception de rapprochement du timbre de celui de ID ? Existe-t-il un seuil
d'erreur cepstrale en de duquel aucune diffrence de timbre n'est perceptible ?
L'galisation diffrencie par classes perdrait en effet singulirement de son intrt si
pour la plupart des locuteurs
1
tait dj infrieure ce seuil. Pour tudier ces relations
entre le timbre et l'erreur cepstrale, nous utilisons 3 locuteurs virtuels. L'emploi d'un
locuteur virtuel permet en effet de fixer arbitrairement sa position dans l'espace du
cepstre partiel et, partant, les erreurs cepstrales respectives de EG1 et EG4. Ces trois
locuteurs virtuels sont construits partir d'un seul locuteur rel masculin selon la
procdure dcrite dans la section IV.3.2, et placs des distances respectives de 0,01 ,
0,10 et 0,20 du centre de la classe du locuteur rel. La transformation du locuteur rel en
locuteur virtuel change peu la voix du locuteur, de sorte que cette construction des trois
locuteurs virtuels partir d'un locuteur rel unique permet de s'affranchir d'un ventuel
effet de la voix du locuteur dans l'tude de la relation timbre-erreur cepstrale.
Chapitre IV
114
Nous testons donc 5 locuteurs : 2 locuteurs rels (masculins) R1 et R2 ; 3 locuteurs virtuels
(masculins) V1, V2 et V3.
Le test est effectu par dix-huit auditeurs experts, dans les mmes conditions matrielles
que le test prsent au chapitre II (en particulier coute binaurale sur casque ferm de haute
qualit et niveau d'coute confortable ajustable par chaque sujet). Cinq squences de test,
correspondant aux cinq locuteurs, sont prsentes aux sujets. Elles sont prcdes de la lecture
de consignes similaires celles de l'annexe A, ainsi que d'une squence d'apprentissage
permettant aux sujets de se familiariser avec l'interface et le type de dgradations rencontres
dans le test. La dure totale de l'exprience est de 15 20 mn par sujet.
Les rsultats du test sont prsents sur les Figures 4.21 et 4.22, en regard des erreurs
cepstrales et distorsions spectrales des chantillons nots. Les rsultats sont conformes aux
rsultats objectifs : EG4 est jug plus proche de ID que EG1, avec un cart de 20 points environ
entre les notes moyennes de EG1 et EG4. Malgr la faible perceptibilit de la diffrence de
timbre entre EG1 et EG4, cette diffrence observe au cours de l'exprience est significative,
dans la mesure o les intervalles de confiance ne se recouvrent pas.
Pour tous les locuteurs, EG1 et EG4 sont jugs significativement diffrents de ID, sauf
pour le locuteur V1, pour lequel EG4 obtient la mme note moyenne que ID. Il existe donc
vraisemblablement un seuil de perception de l'erreur cepstrale compris entre 0,05 et 0,1. Le
signal EG4 du locuteur V1 prsente en effet une erreur cepstrale de 0,05, tandis que l'erreur
cepstrale est de 0,1 pour EG4 du locuteur V2, qui est jug diffrent de ID.

0 1 2 3 4 5 6
0.1
0.2
0.3
0.4
Temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

100 1000
-5
0
5
10
Frquences (Hz)
D
i
s
t
o
r
s
i
o
n

s
p
e
c
t
r
a
l
e

(
d
B
)

EG1
EG4
Locuteur R1
ID EG4 EG1
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Locuteur R1

0 1 2 3 4 5 6
0.1
0.2
0.3
0.4
Temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

100 1000
-5
0
5
10
Frquences (Hz)
D
i
s
t
o
r
s
i
o
n

s
p
e
c
t
r
a
l
e

(
d
B
)

Locuteur R2
EG1
EG4

ID EG4 EG1
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Locuteur R2

Figure 4.21 : Erreurs cepstrales, distorsions spectrales et notes moyennes pour les deux locuteurs rels
galisation diffrencie par classes de locuteurs
115

0 1 2 3 4 5 6
0.1
0.2
0.3
0.4
Temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

100 1000
-5
0
5
10
Frquences (Hz)
D
i
s
t
o
r
s
i
o
n

s
p
e
c
t
r
a
l
e

(
d
B
)

Locuteur V1
EG1
EG4

ID EG4 EG1
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Locuteur V1

0 1 2 3 4 5 6
0.1
0.2
0.3
0.4
Temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

100 1000
-5
0
5
10
Frquences (Hz)
D
i
s
t
o
r
s
i
o
n

s
p
e
c
t
r
a
l
e

(
d
B
)

Locuteur V2
EG1
EG4

ID EG4 EG1
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Locuteur V2

0 1 2 3 4 5 6
0.1
0.2
0.3
0.4
Temps (s)
E
r
r
e
u
r

c
e
p
s
t
r
a
l
e

100 1000
-5
0
5
10
Frquences (Hz)
D
i
s
t
o
r
s
i
o
n

s
p
e
c
t
r
a
l
e

(
d
B
)

Locuteur V3
EG1
EG4

ID EG4 EG1
0
10
20
30
40
50
60
70
80
90
100
Signaux test
N
o
t
e

Locuteur V3

Figure 4.22 : Erreurs cepstrales, distorsions spectrales et notes moyennes pour les trois locuteurs virtuels
La diffrence d'erreur cepstrale entre EG1 et EG4 est d'environ 0,1 pour tous les locuteurs. A
cette constance de la diffrence d'erreur cepstrale correspond une constance dans l'cart entre les
notes moyennes correspondantes, et ce indpendamment du niveau de e
1
. En d'autres termes,
l'amlioration de timbre perue rsultant d'une rduction d'erreur cepstrale ne semble dpendre
que de l'amplitude de cette rduction. De manire plus gnrale, nous observons mme une
relation linaire entre l'erreur cepstrale et la note moyenne du signal test. Celle-ci apparat sur la
Figure 4.23, o sont reprsents pour chaque locuteur ses trois signaux tests ID, EG1 et EG4
dans le plan (erreur cepstrale moyenne, note moyenne).
Compte-tenu de cette dernire observation, nous faisons l'hypothse que, pour un mme
type de voix, il existe une relation linaire entre la note moyenne d'un signal dgrad (EG1 ou
Chapitre IV
116
EG4) et son erreur cepstrale. Nous vrifions cette hypothse par le test de Bravais-
Pearson [Guguen, 1998] de corrlation linaire entre ces deux variables, pour les signaux EG1
et EG4 des trois locuteurs virtuels (dont les voix sont proches, puisque issues du mme locuteur
rel). Le coefficient de corrlation entre ces six observations vaut 0,9891, pour une valeur seuil
de -0,8116 (avec un risque d'erreur de 5 %). L'hypothse est donc bien vrifie.
Eu gard l'effet de seuil apparaissant pour le locuteur V1 et l'loignement des points
reprsentatifs de ID de la droite correspondant cette relation linaire, la relation entre la note et
l'erreur cepstrale n'est vraisemblablement pas linaire sur tout l'espace des erreurs cepstrales,
mais est plutt de type "sigmode", avec une partie constante de 0 une valeur seuil, une partie
centrale linaire dcroissante et une partie constante partir d'une certaine valeur "de saturation".
Sous l'hypothse d'une valeur seuil de 0,07, cette fonction est reprsente sur la Figure 4.23, pour
ses deux premires parties, par la courbe grise.
Les points correspondant au locuteur R1 respectent la mme relation linaire, tandis que
ceux du locuteur R2 suivent la mme pente mais sont dcals vers le haut. Il est intressant de
mettre en relation cette observation avec celle des distorsions spectrales des signaux EG1 et EG4
des diffrents locuteurs. Les distorsions subies par R1 ont en effet une forme trs proche de
celles des signaux tests des locuteurs virtuels, contrairement celles de R2. La relation linaire
semble donc tre de pente constante et d'ordonne l'origine paramtre par le type de distorsion
spectrale, plus que par le type de voix. Ces hypothses ncessiteraient cependant plus de rsultats
pour tre valides rigoureusement.
Prcisons enfin que cette relation linaire entre l'erreur cepstrale et la perception de
dgradation du timbre dpend de la gamme des distorsions prsentes aux auditeurs, puisque
dans l'exprience prsente au chapitre II, avec des signaux tests prsentant des carts de timbre
avec ID nettement plus importants, la note de EG1 tait trs proche de celle de ID ( comparer
avec l'cart de 50 points ici).

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
30
40
50
60
70
80
90
100
110
Erreur cepstrale moyenne
N
o
t
e

m
o
y
e
n
n
e

d
e

p
r
o
x
i
m
i
t


d
e

t
i
m
b
r
e

Locuteurs virtuels
Locuteur R1
Locuteur R2

Figure 4.23 : Corrlation entre erreur cepstrale et note moyenne
galisation diffrencie par classes de locuteurs
117
IV.4. Conclusion
La classification des locuteurs sur la base de leur spectre long terme restreint la bande
d'galisation, reprsent par le cepstre partiel long terme, fait apparatre l'existence de deux
classes de locuteurs correspondant sensiblement classification en hommes et femmes,
sparables chacune en deux sous-classes, pertinentes selon le critre de la variance. Cette
classification permet d'envisager une galisation adapte utilisant un spectre de rfrence
spcifique chaque classe de locuteurs plutt qu'un spectre de rfrence unique approchant
grossirement le spectre de chaque locuteur.
La difficult du classement d'un locuteur selon l'observation de son cepstre partiel l'entre
de l'galiseur tient la dviation de celui-ci par le filtrage de la liaison tlphonique. C'est
pourquoi nous avons dfini des critres de classement robustes aux biais cespstraux introduits
par les liaisons. Cette robustesse est obtenue d'une part en combinant au paramtre cepstre partiel
le paramtre pitch, peu sensible aux filtrages habituels des liaisons tlphoniques et pertinent du
point de vue de la classification hommes / femmes, d'autre part par le choix du corpus
d'apprentissage des fonctions discriminantes. Les individus des corpus sont reprsentatifs la
fois d'une grande varit de locuteurs et d'une diversit de filtrages correspondant celle des
liaisons tlphoniques. Les critres de classement ainsi dfinis, appliqus nos corpus de test,
aboutissent des taux de trames mal classes de 11 15 % pour un classement homme / femme,
de 25 % pour un classement en quatre classes.
L'galisation diffrencie par classe (utilisant un cepstre de rfrence par classe), permet de
rduire l'erreur cespstrale de l'galiseur pour la plupart des locuteurs. Dans le cas d'une
classification en 2 classes, cette rduction de l'erreur cepstrale n'est pas perceptible. Si l'on classe
les locuteurs en 4 classes, elle correspond pour certains locuteurs une lgre amlioration de la
correction de timbre, d'aprs les tests subjectifs mis en uvre. Ces tests mettent par ailleurs en
vidence une relation linaire entre l'erreur cepstrale et la perception de la dgradation du timbre.
Chapitre IV
118

119
Conclusion
Notre objectif tait de corriger les distorsions spectrales subies par la parole sur le rseau
tlphonique, afin de donner au signal de rception un timbre le plus proche possible de celui de
la voix originale du locuteur.
Il n'est naturellement pas envisageable de restaurer le signal original sur toute la bande
0-4000 Hz, eu gard la forte attnuation de son spectre aux extrmits de cette bande. C'est
pourquoi nous avons propos un algorithme d'galisation spectrale aveugle, centralise dans le
rseau, qui compense le filtrage de la liaison tlphonique sur une bande de frquences limite,
typiquement 200-3150 Hz. Cette galisation consiste aligner, sur cette bande, le spectre long
terme du signal trait sur un spectre de rfrence, pris comme une approximation du spectre
long terme original (inconnu) du locuteur. Il en rsulte, pour la majorit des locuteurs, une
distorsion spectrale trs faible, sur la bande d'galisation, entre le signal de rception et le signal
original. Les tests formels subjectifs ont montr que le timbre de la voix perue en rception de
la liaison galise reste certes assez loign du timbre original, du fait de la restriction de la
bande d'galisation, mais en est significativement plus proche que la voix en rception de la
mme liaison sans galiseur.
L'objectif de correction des distorsions spectrales et de leur corollaire que sont les
dformations du timbre est donc atteint par ce premier algorithme, valid la fois par des tests
formels sur sa version simule et par une implantation temps rel sur un autocommutateur
exprimental. Cependant, il est apparu au cours des exprimentations que la quantification en
loi A des chantillons de sortie de l'galiseur induit un bruit notable en rception. D'autre part,
l'erreur d'approximation du spectre long terme de tous les locuteurs par un spectre de rfrence
unique conduit, pour certains locuteurs, des distorsions spectrales importantes, qui se traduisent
par une restauration du timbre non optimale. Nous nous sommes donc attachs dpasser ces
deux limites de la mthode d'galisation spectrale.
Nous avons cherch rduire le bruit de quantification peru, par un reformage spectral de
celui-ci exploitant les proprits de masquage frquentiel de la parole. Deux mthodes originales
de reformage du bruit de quantification ont t proposes, l'une fonde sur une rinjection
l'entre du quantificateur de l'erreur de quantification filtre, l'autre consistant chercher une
quantification optimale selon un critre probabiliste. Ces deux mthodes permettent de masquer
le bruit de quantification sur une large part du signal, mais le masquage est imparfait, laissant
apparatre sporadiquement un bruit "rauque". L'valuation subjective du reformage du bruit met
en vidence une prfrence pour le bruit de quantification non reform, mais galement une
grande tolrance des auditeurs au bruit de quantification, reform ou non. Les auditeurs prfrent
la voix traite par l'galiseur et entache de bruit de quantification (inhrent cette galisation)
la mme voix en rception de la mme liaison dpourvue d'galiseur et non bruite. Ainsi, si
l'objectif d'une galisation non bruyante n'est pas atteint, nous sommes parvenus un bon
compromis entre la restauration du timbre et l'acceptabilit du bruit induit.
La mthode d'galisation spectrale aveugle a t affine en cherchant rduire l'erreur
d'approximation du spectre long terme original de chaque locuteur par le spectre de rfrence.
Nous avons mis en vidence la possibilit de constituer deux ou quatre classes de locuteurs
Conclusion
120
pertinentes selon le critre de la variance, sur la base du spectre long terme restreint la bande
d'galisation. Ainsi, nous disposons non plus d'un spectre de rfrence unique, mais d'un spectre
de rfrence par classe (le centre de celle-ci), chacun constituant une approximation moins
grossire des spectres long terme des locuteurs de sa classe. Nous avons dfini des critres de
classement assez robustes aux distorsions spectrales introduites par les liaisons tlphoniques,
qui permettent de classer un locuteur selon son spectre long terme, avec une erreur de 25 %
dans le cas d'une classification en quatre classes. L'utilisation d'un spectre de rfrence par classe
dans l'galiseur permet de rduire la distorsion spectrale entre le signal reu et le signal mis.
Dans le cas d'une classification en quatre classes, cette rduction de distorsion se traduit, d'aprs
les tests subjectifs raliss, par une amlioration significative de la restauration du timbre pour
certains locuteurs, sans que cette restauration ne soit altre pour les autres.
Dans la dfinition des objectifs de la correction de timbre, nous avions li implicitement
l'atteinte de l'objectif de restauration du timbre celui de la rduction de la distorsion spectrale
sur la bande d'galisation (200-3150 Hz). Les tests subjectifs raliss dans le chapitre IV
justifient a posteriori partiellement ce postulat, en ce qu'ils font apparatre une corrlation
linaire entre la proximit de timbre et la mesure de la distorsion spectrale par l'erreur cepstrale.
Ces tests prennent toutefois comme rfrence le signal original restreint la bande 200-3400 Hz.
Les rsultats des tests du chapitre II permettent de complter la justification de l'hypothse
initiale, en montrant que de deux signaux issus de l'original restreint la bande 200-3400 Hz, le
plus proche subjectivement de l'original est celui prsentant le moins de distorsion spectrale sur
cette bande.
Nous disposons donc d'un algorithme capable d'approcher assez finement, en aveugle, le
spectre original d'une voix et ainsi de restaurer le timbre de cette voix en rception d'une liaison
tlphonique, dans la limite de la bande d'galisation 200-3150 Hz. L'algorithme propos peut
encore tre affin.
L'amlioration la plus vidente, que ne permettait pas la taille de notre corpus, consisterait
tudier une classification plus fine des locuteurs selon leur spectre long terme. Ainsi
pourrait-on rduire l'erreur cepstrale de l'galiseur jusqu'au seuil de perceptibilit. Notons
cependant que les tests de comparaison de timbre ont t raliss dans des conditions plus
discriminantes que celles d'une communication tlphonique : coute binaurale sur casque de
haute qualit et, pour le test de la classification en quatre classes, valuation par des auditeurs
experts. Pour une coute sur combin tlphonique par des non-experts, une plus grande finesse
dans l'approximation du spectre original de chaque voix n'est peut-tre pas ncessaire.
La tolrance des auditeurs au bruit de quantification induit par l'galisation n'est
naturellement pas une solution pleinement satisfaisante au problme du masquage du bruit de
quantification. La simulation de nos algorithmes de reformage spectral du bruit semble indiquer
que ce problme est trs contraint et que le masquage du bruit est sans doute impossible pour
certains spectres de signaux. L'information relative au masque peut galement ne pas tre
totalement fiable (cas des zones non stationnaires). Des solutions sont envisages pour remdier
ces problmes : elles reposent sur la dtection des zones " risque" ( la fois dans le temps et
dans le domaine frquentiel) et une modification du traitement (galisation et reformage du bruit)
en consquence.
Enfin, en vue d'une mise en uvre sur le rseau des mthodes proposes, l'interaction de
celles-ci avec les autres fonctions de traitement de la parole (dbruitage et annulation d'cho
notamment) doit tre tudie de manire plus prcise. D'autre part, les valuations subjectives
ralises sur des fichiers traits par simulations ncessitent d'tre compltes par une validation
formelle in situ, dans les conditions habituelles de communication, en situation de conversation
tlphonique relle.
121

Annexe A :
Consignes du test d'valuation de l'galiseur



Procdure du test MUSHRA pour l'valuation de la
correction du timbre de la parole tlphonique

Le timbre de la voix en rception d'une liaison tlphonique est dgrad de diverses manires :
attnuation des basses, voix touffe ou au contraire trop claire, effet robotique. Le but du test est
d'valuer des dispositifs de correction du timbre de la parole tlphonique, en notant la proximit
du timbre corrig avec le timbre original.
La session est compose de 10 squences de test, et dure 50 mn. Il est conseill de faire
une pause au milieu.
1. Mise en route
Si le logiciel n'est pas lanc, double-cliquer sur c:\cinema2\SEAQ1.36\SeaqSTMms(AES).exe.
Une interface comme celle de la page 2 apparat.
Ouvrir la session "correc_timbre.ses" (file|open session) du rpertoire c:\Gael
Crer une feuille de rsultats (file|New Score Sheet) du type "Nom_Pnom.sco" sauver dans le
rpertoire c:\Gael. Le logiciel demande le prnom, le nom et l'ge de l'auditeur.
2. Mode entranement
On est prt pour la phase d'entranement pour laquelle les scores ne sont pas pris en compte dans
le fichier *.sco. On remarque que la barre des menus reste visible.
Le test consiste comparer les fichiers test entre eux et avec la rfrence, et noter
sur une chelle de 0 100 la proximit de timbre entre chaque fichier test et la rfrence.
Par exemple, pour un fichier test A, si le timbre de A est identique celui de la rfrence, A sera
not 100. Si le timbre de A est trs loign de celui de la rfrence, A sera not 0. Si deux
fichiers test ont le mme timbre, ils auront la mme note.
Annexe A

122
Ne pas tenir compte de l'chelle "Excellent Bad" de l'interface. Attribuer les notes de la
manire suivante :
- timbre identique : 100
- timbre trs proche : 80 100
- timbre assez proche : 60 80
- timbre moyennement proche : 40 60
- timbre assez diffrent : 20 40
- timbre trs diffrent : 0 20
Le bouton rfrence REF est gauche, suivi vers la droite des boutons correspondants aux
fichiers tester (A, B, C, D, E). Au dessus de chaque bouton se trouve un curseur permettant de
juger sur une chelle continue la proximit de timbre avec l'original. L'auditeur indique sa note
en dplaant le curseur avec la souris. Le fichier not est celui couramment slectionn (en
cliquant sur le bouton) et affich en rouge.
Si on le dsire, on peut couter en continu (symbole loop) et commuter entre les diffrents
fichiers comme on le dsire en cliquant sur les boutons REF, A, B, ... On peut galement
slectionner des parties du signal par les curseurs du bas et effectuer l'valuation en ayant isol
ces parties.
Cette prsentation de l'interface permet non seulement au sujet d'valuer les signaux
tester par rapport la rfrence, mais aussi de les comparer entre eux.
3. Phase de test
On appuie sur ESC pour entrer en mode test. On remarque que la barre des menus disparat. On
peut maintenant ajuster les potentiomtres en fonction de la proximit de timbre avec la
rfrence. Pour passer la squence suivante, il suffit d'appuyer sur la touche "Trial", le logiciel
demande la confirmation des votes et passe la squence suivante.
Lorsque toutes les squences ont t coutes, le logiciel indique "Session is now over". Il
faut alors faire ESC pour laisser la place un autre sujet.
Consignes du test d'valuation de l'galiseur

123
L'interface du logiciel de Test SEAQ


Mode en boucle
(joue en continue)
Passer la squence sonore suivante
Menu visible (mode
entranement). Pour passer
en test faire ESC

Annexe A

124

125
Annexe B :
Rsultats des Tukey tests du chapitre II
Dans chaque tableau sont reprsents sur la deuxime ligne les notes moyennes, tous locuteurs
confondus, des diffrents signaux test. La valeur inscrite dans une cellule l'intersection de la
ligne X et de la colonne Y est l'indice de significativit de la diffrence entre la note moyenne de
X et celle de Y. La diffrence est considre comme significative si cet indice est infrieur
0,05.
Liaison 1

ORI ID EG PRE TRANSP
Note moyenne 96,46875 57,47917 51,14583 41,47917 27,46875
ORI 0,0001176 0,0001176 0,0001176 0,0001176
ID 0,0001176 0,2609154 0,00013024 0,0001176
EG 0,0001176 0,2609154 0,02144521 0,0001176
PRE 0,0001176 0,00013024 0,02144521 0,00030142
TRANSP 0,0001176 0,0001176 0,0001176 0,00030142
Liaison 2
ORI ID EG PRE TRANSP
Note moyenne 96,66666 53,12500 45,30208 51,11458 20,30208
ORI 0,0001176 0,0001176 0,0001176 0,0001176
ID 0,0001176 0,04012495 0,94731653 0,0001176
EG 0,0001176 0,04012495 0,21612108 0,0001176
PRE 0,0001176 0,94731653 0,21612108 0,0001176
TRANSP 0,0001176 0,0001176 0,0001176 0,0001176
Liaison 3
ORI ID EG PRE TRANSP
Note moyenne 98,56250 53,04167 47,31250 31,06250 38,89583
ORI 0,0001176 0,0001176 0,0001176 0,0001176
ID 0,0001176 0,36405712 0,0001176 0,00028324
EG 0,0001176 0,36405712 0,00012726 0,0639798
PRE 0,0001176 0,0001176 0,00012726 0,09973496
TRANSP 0,0001176 0,00028324 0,0639798 0,09973496

Annexe B

126

127
Annexe C
Principes du masquage frquentiel
Lorsque deux sons de frquences centrales proches sont prsents simultanment, l'un peut tre
inaudible. Ce phnomne s'appelle le masquage frquentiel.
Des expriences de Zwicker [Zwicker, 1981] ont permis de prciser ce masquage dans le
cas d'un bruit masquant une tonale. La Figure C.1 prsente les courbes d'effet de masque de
bruits de bande troite de frquence centrale 1 kHz, de largeur de bande 160 Hz, et de niveaux
acoustiques Lg 100, 80, 60, 40 et 20 dB. Ces courbes correspondent, pour chaque abscisse f
T
, au
seuil d'audition d'une tonale (son de frquence pure) de frquence f
T
en prsence du bruit de
niveau Lg. La courbe infrieure correspond au seuil d'audition absolu, c'est--dire en l'absence de
bruit.
Ces courbes mettent en vidence le fait que l'effet de masque du bruit s'tend au-del de sa
bande de frquences : le seuil d'audition des tonales est modifi sur une large bande de
frquences autour de la frquence centrale du bruit de bande troite, avec un maximum en cette
frquence centrale. Notons l'asymtrie du masquage : les courbes d'effet de masque dcroissent
plus rapidement vers les basses frquences. Cette asymtrie est d'autant plus marque que le
niveau du bruit est lev.


Figure C.1 : Courbes d'effet de masque de bruits bande troite
Le cas d'une tonale masquant un bruit a t tudi par Schroeder et al. [Schroeder, 1979]. La
Figure C.2 reprsente le seuil d'audition d'un bruit de bande troite (160 Hz) de frquence
centrale 1 kHz, en prsence d'une tonale d'intensit 80 dB, selon la frquence de la tonale. La
dcroissance de la courbe est plus forte vers les hautes frquences. On retrouve donc la mme
asymtrie du masquage que dans le cas d'un bruit masquant une tonale, sachant que l'axe des
abscisses reprsente ici non plus la frquence du signal masqu mais celle du signal masquant.
Notons qu'il est plus difficile de masquer un bruit par une tonale que l'inverse : alors que
dans l'exprience de Zwicker le maximum du seuil d'audition des tonales est 4 dB en dessous
Annexe C
128
du niveau du bruit de bande, la courbe de la Figure C.2 prsente un maximum 56 dB, soit
24 dB en dessous du niveau de la tonale masquante.



Figure C.2 : Seuil d'audition d'un bruit de bande troite masqu par une tonale
Le masquage frquentiel peut tre expliqu par les mcanismes de l'audition, dcrits dans
[Zwicker, 1981].
La Figure C.3 schmatise l'anatomie de l'oreille. L'onde sonore capte par le pavillon est
transmise jusqu'au tympan, qu'elle fait vibrer. Cette vibration arienne est transmise par la chane
des osselets (oreille moyenne) jusqu' la fentre ovale, o elle est transforme en vibration en
milieu aqueux, dans la cochle (ou limaon), qui est remplie de liquide lymphatique. Dans ce
liquide baigne la membrane basilaire : le dplacement du liquide cochlaire fait vibrer celle-ci,
ce qui excite le nerf auditif via les cellules cilies relies la membrane basilaire. La cochle a la
forme d'un limaon, qui est reprsent droul sur la Figure C.3.

Figure C.3 : Schma anatomique de l'oreille humaine
Pour un son une frquence donne, la membrane basilaire vibre avec une amplitude maximale
en un point dpendant de la frquence, selon le schma de la Figure C.4 (l'extrmit extrieure
de la spirale correspondant au point de jonction avec la fentre ovale). L'oreille ralise donc une
transformation frquence-espace, selon une relation non linaire. La relation est linaire entre la
tonie (sensation de hauteur) et le lieu de la vibration d'amplitude maximale : une diffrence de
tonie de 1 Bark correspond un segment de longueur 1,3 mm sur la membrane basilaire.
N
i
v
e
a
u

d
u

b
r
u
i
t

j
u
s
t
e

a
u
d
i
b
l
e
(
d
B
)

Frquence de la tonale masquante (Hz)
Principes du masquage frquentiel
129

Figure C.4 : Tonotopie de la cochle [DESS Sc. Co., 2001]
La perception du niveau d'un son est explique par la notion de bande critique : on peut
considrer que l'oreille divise l'espace des frquences audibles en 25 bandes adjacentes, rparties
selon le tableau C.1, et dtermine le niveau subjectif par intgration de l'intensit du son sur
chacune de ces bandes, appeles bandes critiques. Ainsi, un bruit est audible si, dans au moins
une bande critique, son nergie est suprieure au seuil d'audition. 1 Bark correspond l'espace
entre les centres de deux bandes critiques conscutives.

Nde bande
critique
Bornes des bandes (Hz)

1 20 100
2 100 200
3 200 300
4 300 400
5 400 510
6 510 630
7 630 770
8 770 920
9 920 1080
10 1080 1270
11 1270 1480
12 1480 1720
13 1720 2000
14 2000 2320
15 2320 2700
16 2700 3150
17 3150 3700
18 3700 4400
19 4400 5300
20 5300 6400
21 6400 7700
22 7700 9500
23 9500 12000
24 12000 15500
25 15500 19500

Tableau C.1 : Liste des bandes critiques [J ohnston, 1988]
Annexe C
130
L'excitation basilaire rsultant d'un son au spectre born par une bande critique s'tend au-del de
cette bande critique. La Figure C.5 reprsente l'amplitude des oscillations de la membrane
basilaire provoques par des sons purs de frquences 100, 200 et 300 Hz, en fonction de la
distance la fentre ovale. La forme et l'tendue de l'excitation permettent d'expliquer celles des
courbes de masquage de la Figure C.2 : le masquage rsulte de la comparaison, dans chaque
bande critique, de l'excitation du son masquant avec celle du son masqu.


Figure C.5 : Amplitude des oscillations transversales de la membrane basilaire pour 3 tonales


Distance la fentre ovale
131

Annexe D :
Consignes du test de comparaison par paires




TEST DE PREFERENCE

**************************************************************


Vous allez entendre sur casque des paires d'chantillons de parole.

Chaque paire est constitue de deux chantillons spars par un silence de 500 ms.
.
Chaque chantillon est constitu de deux phrases.

Dans la paire d'chantillons, vous devez choisir celui que vous prfrez : le premier
ou le deuxime.

Pendant l'coute, le bouton rouge qui est devant vous sera allum rouge.

Vous voudrez bien couter chaque paire d'chantillons compltement .
Puis quand le bouton vert qui est devant vous s'allumera vert, indiquez votre choix en
appuyant sur le bouton appropri (chiffre 1 ou 2) selon l'chelle suivante :

1 : PREFERE LE PREMIER ECHANTILLON .

2 : PREFERE LE DEUXIEME ECHANTILLON .


Vous disposez de 5 secondes pour enregistrer votre rponse (temps pendant
lequel le bouton vert reste allum).

Lorsque vous aurez donn votre opinion , se produira une courte pause avant la
paire suivante.

Dans cette exprience nous commencerons par une sance d'apprentissage
forme de huit paires d'chantillons. Viendront ensuite les deux mini-sances,
comprenant chacune trente six paires d'chantillons.



Annexe D

132

133

Annexe E :
Consignes du test de comparaison de dgradations



TEST DE COMPARAISON
*********************************

Vous allez entendre sur le casque qui est devant vous des sries de 3 paires
d'chantillons de parole. Un chantillon est constitu d'une double phrase.

Chaque paire est constitue de l'chantillon de rfrence suivi d'un chantillon
trait, que vous devez comparer la rfrence. Les deux chantillons sont spars par
un silence de 600 ms.

Chaque srie se prsente sous la forme :
paire 1 - paire 2 - paire 1
Les paires sont spares par des silences de 1,2 s.

Vous devrez choisir la paire dans laquelle la modification de l'chantillon trait par
rapport la rfrence est la moins gnante : paire 1 ou paire 2.
La rptition de la paire 1 doit vous permettre d'tre plus sr de votre jugement.

Pendant l'coute, le bouton rouge qui est devant vous sera allum.

Vous voudrez bien couter chaque srie de 3 paires compltement. Puis, quand le
bouton vert s'allumera, indiquez votre choix en appuyant sur le bouton appropri
(chiffres 1 ou 2) selon l'chelle suivante :

1 : MODIFICATION MOINS GNANTE DANS LA PAIRE 1.

2 : MODIFICATION MOINS GNANTE DANS LA PAIRE 2.


Vous disposez de 5 secondes pour enregistrer votre rponse (temps pendant
lequel le bouton vert reste allum).

Lorsque vous aurez donn votre opinion se produira une courte pause avant la
srie suivante.

Dans cette exprience nous commencerons par un apprentissage form de
quelques sries de 3 paires. Viendront ensuite les deux mini-sances, comprenant
chacune 12 sries.
Annexe E

134

135
Annexe F : Evaluation du bruit de quantification
X Y Loc. Phr. Amb. % prfrence X XY + YX s1 + s2 s1 + s2, XY + YX % sur tous les locuteurs % sur tous loc, XY + YX
A B M1 s1 cl 20.83 20.83 22.92 20.83 35.94 32.81
M1 s2 cl 25.00 20.83
M2 s1 cl 29.17 22.92 31.25 25.00
M2 s2 cl 33.33 27.08
F1 s1 cl 45.83 56.25 54.17 57.29
F1 s2 cl 62.50 58.33
F2 s1 cl 25.00 18.75 35.42 28.13
F2 s2 cl 45.83 37.50
M1 s1 br 20.83 18.75 20.83 23.96 29.17 38.54
M1 s2 br 20.83 29.17
F1 s1 br 41.67 54.17 37.50 53.13
F1 s2 br 33.33 52.08
A C M1 s1 cl 4.17 14.58 18.75 19.79 43.75 42.71
M1 s2 cl 33.33 25.00
M2 s1 cl 16.67 16.67 18.75 18.75
M2 s2 cl 20.83 20.83
F1 s1 cl 79.17 77.08 83.33 83.33
F1 s2 cl 87.50 89.58
F2 s1 cl 45.83 45.83 54.17 48.96
F2 s2 cl 62.50 52.08
M1 s1 br 25.00 16.67 27.08 21.88 44.79 41.67
M1 s2 br 29.17 27.08
F1 s1 br 70.83 66.67 62.50 61.46
F1 s2 br 54.17 56.25
B C M1 s1 cl 29.17 43.75 35.42 48.96 56.25 64.32
M1 s2 cl 41.67 54.17
M2 s1 cl 20.83 39.58 47.92 58.33
M2 s2 cl 75.00 77.08
F1 s1 cl 62.50 72.92 72.92 78.13
F1 s2 cl 83.33 83.33
F2 s1 cl 75.00 70.83 68.75 71.88
F2 s2 cl 62.50 72.92
M1 s1 br 37.50 47.92 50.00 56.25 48.96 59.38
M1 s2 br 62.50 64.58
F1 s1 br 41.67 56.25 47.92 62.50
F1 s2 br 54.17 68.75
Y X Loc. Phr. Amb. % prfrence Y s1 + s2 % sur tous les locuteurs
B A M1 s1 cl 79.17 81.25 70.31
M1 s2 cl 83.33

M2 s1 cl 83.33 81.25
M2 s2 cl 79.17
F1 s1 cl 33.33 39.58
F1 s2 cl 45.83
F2 s1 cl 87.50 79.17
F2 s2 cl 70.83
M1 s1 br 83.33 72.92 52.08
M1 s2 br 62.50
F1 s1 br 33.33 31.25
F1 s2 br 29.17
C A M1 s1 cl 75.00 79.17 58.33
M1 s2 cl 83.33
M2 s1 cl 83.33 81.25
M2 s2 cl 79.17
F1 s1 cl 25.00 16.67
F1 s2 cl 8.33
F2 s1 cl 54.17 56.25
F2 s2 cl 58.33
M1 s1 br 91.67 83.33 61.46
M1 s2 br 75.00
F1 s1 br 37.50 39.58
F1 s2 br 41.67
C B M1 s1 cl 41.67 37.50 27.60
M1 s2 cl 33.33
M2 s1 cl 41.67 31.25
M2 s2 cl 20.83
F1 s1 cl 16.67 16.67
F1 s2 cl 16.67
F2 s1 cl 33.33 25.00
F2 s2 cl 16.67
M1 s1 br 41.67 37.50 30.21
M1 s2 br 33.33
F1 s1 br 29.17 22.92
F1 s2 br 16.67
T
a
b
l
e
a
u

F
.
1

:

R

s
u
l
t
a
t
s

d
u

t
e
s
t

d
e

c
o
m
p
a
r
a
i
s
o
n

p
a
r

p
a
i
r
e
s

d
e

A
,

B

e
t

C

Annexe F

136
Les tableaux F.1 et F.2 sont lire de la manire suivante. La moiti suprieure correspond un
ordre de prsentation des paires (F.1) ou des sries (F.2), la moiti infrieure l'ordre inverse. La
premire colonne indique les paires ou sries testes, les colonnes "Loc", "Phr" et "Amb."
indiquent respectivement les locuteurs, phrases et ambiances sonores ("cl" pour silence et "br"
pour brouhaha). La cinquime colonne indique les pourcentages de prfrence pour chaque
comparaison, les colonnes suivantes reprsentent les rsultats cumuls de diffrentes manires.

Loc. Phr. Amb. % prfrence paire 1 ADA + DAD s1 + s2 s1 + s2, ADA + DAD % tous les locuteurs % tous loc, ADA+DAD
ADA M1 s1 cl 4.17 14.58 14.58 18.75 27.08 23.96
M1 s2 cl 25.00 22.92
M2 s1 cl 20.83 20.83 27.08 25.00
M2 s2 cl 33.33 29.17
F1 s1 cl 41.67 29.17 37.50 31.25
F1 s2 cl 33.33 33.33
F2 s1 cl 25.00 18.75 29.17 20.83
F2 s2 cl 33.33 22.92
M1 s1 br 16.67 22.92 22.92 23.96 29.17 26.56
M1 s2 br 29.17 25.00
F1 s1 br 33.33 29.17 35.42 29.17
F1 s2 br 37.50 29.17
DAD M1 s1 cl 75.00 77.08 79.17
M1 s2 cl 79.17
M2 s1 cl 79.17 77.08
M2 s2 cl 75.00
F1 s1 cl 83.33 75.00
F1 s2 cl 66.67
F2 s1 cl 87.50 87.50
F2 s2 cl 87.50
M1 s1 br 70.83 75.00 76.04
M1 s2 br 79.17
F1 s1 br 75.00 77.08
F1 s2 br 79.17

Tableau F.2 : Rsultats du test de comparaison de dgradations

137
Annexe G
Significativit de l'cart entre deux pourcentages
La significativit de l'cart entre deux proportions observes est dtermine par la mthode
suivante [Guguen, 1998].
On calcule d'abord l'cart-type commun aux deux pourcentages p
1
et p
2
, not :
( )
2
1 2
1 1
100 p p
N N


= +


, (5.1)
avec N
1
et N
2
les effectifs respectifs du premier et du deuxime chantillons de test et p le
pourcentage commun, dfini par :

1 1 2 2
1 2
p N p N
p
N N
+
=
+
. (5.2)
Cet cart-type commun permet de calculer l'cart-rduit :

1 2
p p
z

= . (5.3)
Les deux pourcentages sont considrs comme significativement diffrents au risque de x % si z
est suprieur au quantile de la loi normale correspondant x %, soit 1,96 pour un risque de 5 %.
Annexe G
138

139
Annexe H
Construction d'une chelle de Thurstone [Bonnet, 86]
Nous considrons un ensemble de stimuli ayant fait l'objet d'un test de prfrences par paires.
Disposant pour chaque paire de stimuli XY de la frquence de prfrence de X Y, nous
souhaitons traduire ces rsultats par un positionnement des diffrents stimuli sur une chelle de
prfrence.
Thurstone postule qu' chaque grandeur du stimulus S
i
correspond un jugement, appel
processus discriminatif et not s
i
, considr comme une variable alatoire. Un sujet prfrera
S
i
S
j
si s
i
> s
j
. En termes de probabilits,

( ) ( )
0
i j i j
P S S P s s > = > . (6.1)
On suppose une distribution gaussienne des processus discriminatifs. Chaque processus s
i
est
alors reprsent par sa moyenne (s
i
) et sa variance
2
(s
i
). Pour un couple de stimuli S
i
et S
j
, la
diffrence s
i
- s
j
a aussi une distribution gaussienne, de moyenne (s
i
) - (s
j
) et de variance

2
(s
i
- s
j
). Connaissant la frquence de prfrence de S
i
S
j
, c'est--dire P(S
i
> S
j
), on peut
estimer cette moyenne de s
i
- s
j
partir de la valeur de la variable normale rduite z(S
i
> S
j
)
correspondant P(S
i
> S
j
), comme l'illustre la Figure H.1.













Figure H.1 : Distributions de s
i
, s
j
et s
i
- s
j
; Probabilit de prfrence de S
i
S
j
En effet,

( )
( ) ( )
( )

i j
i j
i j
s s
z S S
s s

> =

, (6.2)
s
i
s
j

s
i
- s
j

P(S
i
> S
j
)
s (s
j
) (s
i
)
(s
i
) - (s
j
)
Annexe H
140
avec

( ) ( ) ( ) ( ) ( ) ( )
2 2 2
,
i j i j i j i j
s s s s s s s s = + , (6.3)
o dsigne la corrlation. Sous l'hypothse que les variances des processus discriminatifs sont
toutes gales l'unit et que les corrlations sont nulles, la variance de s
i
- s
j
vaut 2. Dans ce cas,
la moyenne de s
i
- s
j
vaut :
( ) ( ) ( )
2
i j i j
s s z S S = > . (6.4)
Cet cart est proportionnel l'cart entre les points reprsentatifs de S
i
et S
j
sur l'chelle de
prfrences. Chaque stimulus est alors reprsent sur l'chelle de prfrence par la moyenne de
ses carts avec les autres stimuli.

141
Annexe J
Calcul des fonctions linaires discriminantes
[Lebart, 2000b]
Disposant dans un espace p dimensions de N individus rpartis en K classes, nous recherchons
les combinaisons linaires de leurs composantes qui minimisent la variance intra-classes et
maximisent la variance inter-classes.
Soit a(i) une combinaison linaire des composantes x
i
j
pralablement centres d'un
individu i reprsent par le vecteur x
i
:
( ) ( )
1
p
i
j j j
j
a i a x x
=
=

, (7.1)
o
( )
1
j
j p
x x

= est le centre de la population. La variable a tant centre, sa variance vaut :

( ) ( )
2
1
var '
N
i
a a i a Ta
=
= =

, (7.2)
o T est la matrice [(t
jk
)
1j,kp
] de covariance des p variables, de composantes :

( )( )
,
1
1
N
i i
j k j j k k
i
t x x x x
N
=
=

. (7.3)
La matrice T se dcompose en T = D + E, avec D la matrice d'inertie intra-classes et E la matrice
d'inertie inter-classes, d'lments gnriques respectifs d
jk
et e
jk
tels que :

( ) ( )
1
1
K
i q i q
jk j j k k
q i q
d x x x x
N
=
=

(7.4)

( )( )
1
K
q q q
jk j j k k
q
N
e x x x x
N
=
=

, (7.5)
o
q
x dsigne le centre de la q
me
classe et N
q
le cardinal de la q
me
classe. Ainsi, la variance de a
se dcompose en variance interne et variance externe :
( ) var ' ' ' a a Ta a Da a Ea = = + (7.6)
Annexe J
142
Minimiser la variance intra-classes et maximiser la variance inter-classes de a revient
maximiser f(a) tel que :
( )
'
'
a Ea
f a
a Ta
= (7.7)
Comme la fonction f est invariante si a est multipli par un scalaire quelconque, cela revient
maximiser a'Ea sous la contrainte a'Ta = 1. La rsolution de ce problme conduit la relation :
Ea Ta = . (7.8)
Si T est inversible, on obtient :

1
' '
T Ea a
a Ea a Ta

= =

(7.9)
c'est--dire que a est le vecteur propre de T
-1
E relatif la plus grande valeur propre. Cette valeur
propre est appele le pouvoir discriminant de la fonction linaire a. Pour une partition en K
classes, les K-1 fonctions linaires discriminantes correspondront aux vecteurs propres associs
aux K-1 plus grandes valeurs propres de T
-1
E.
Dans ce cas particulier du classement en deux classes, le terme gnrique de la matrice E
d'inertie inter-classes donn par l'quation (7.5) peut s'exprimer :

( )( )
1 2 1 2 1 2
jk j j k k
N N
e x x x x
N
= , (7.10)
o N
1
et N
2
sont les cardinaux respectifs des classes 1 et 2,
1
x et
2
x sont les moyennes de x dans
les classes 1 et 2 respectivement. La matrice symtrique E peut tre considre comme le produit
d'une matrice colonne c par sa transpose :
' E cc = , (7.11)
avec :

( )
1 2 1 2
j j j
N N
c x x
N
= . (7.12)
La relation (7.8) s'exprime alors :

1
' T cc a a

= . (7.13)
Pr-multiplions les deux membres par c' :

1
' ' ' c T c c a c a

=

. (7.14)
Comme E est de rang 1 (matrice symtrique), , valeur propre de T
-1
E, est unique. Par
consquent, la quantit entre crochets tant un scalaire,

1
' c T c

= . (7.15)
Calcul des fonctions linaires discriminantes
143
La fonction discriminante correspond au vecteur propre a, tel que :

1
a T c

= . (7.16)

Annexe J
144

145
Rfrences bibliographiques
[Boite, 1987] Ren Boite et Murat Kunt, "Traitement de la parole", Presses polytechniques
romandes, 1981.
[Bonnet, 1986] C. Bonnet, "Manuel pratique de psychophysique", Armand Colin, 1986, pp. 136-
142.
[Bowker, 1993] Duane O. Bowker, John T. Ganley, J.H. James, "Telephone network speech
signal enhancement", AT&T Bell Laboratories, 1993-1994, brevet US 5333195.
[Cadoret, 1983] R. Cadoret, Note technique CNET NT/LAA/ELR/289, "Le rseau de lignes
dabonns", p 23, 1983.
[Capp, 1994] O. Capp, "Elimination of the Musical Noise Phenomenon with Ephraim and
Malah Noise Suppressor", IEEE Trans. on Speech and Audio Processing, Vol. 2, No 2, pp. 345-
349, 1994.
[Com. int., 2002] Communication interne France Tlcom R&D, juin 2002.
[Combescure, 1981] P. Combescure, "Vingt listes de dix phrases franaises phontiquement
quilibres", Revue d'Acoustique, n 56, pp. 34-38, 1981.
[Davis, 2002] Gillian M. Davis, "Noise Reduction in Speech Applications", CRC Press, 2002.
[De Jaco, 1997] Andrew P. De Jaco, John A. Miller, "Adaptative equalizer preprocessor for
mobile telephone speech coder to modify non ideal frequency response of acoustic transducer",
1997-1999, brevet US 5915235.
[DESS Sc. Co., 2001] Cours de perception auditive du DESS de Sciences Cognitives Appliques
de l'Universit de Bordeaux 1, dcembre 2001
(http://www.sm.u-bordeaux2.fr/~asco/DESS/cours/polyAudition.pdf)
[Ezzaidi, 2001] H. Ezzaidi, J.Rouat et D. O'Shaughnessy, "Towards combining pitch and MFCC
for speaker identification systems", Proc. Eurospeech, pp. 2825-2828, Aalborg, septembre 1993.
[Faucon, 1993] G. Faucon, R. Le Bouquin et A. Abkari Azirani, "Mesures objectives de la
rduction de bruit", XIV
me
Colloque GRETSI, Juan-les-Pins, septembre 1993.
[Gilloire, 1994] A. Gilloire, "Performance evaluation of acoustic echo control : required values
and measurement procedures", Annales des Tlcommunications, T. 49, n 7-8, pp. 368-372,
juillet-aot 1994.
[Glavieux, 1996] Alain Glavieux et Michel Joindot, "Communications numriques
Introduction", Masson, 1996.
[GRECO-PRC, 1990] GRECO-PRC Communication Homme-Machine, BDSONS, Base de
donnes des sons du franais, avril 1990.
Rfrences bibliographiques

146
[Gritton, 1984] C.W.K. Gritton et D.W. Lin, "Echo Cancellation Algorithms", IEEE ASSP
Magazine, vol. 1, n 2, pp. 30-38, avril 1984.
[Guguen, 1998] N. Guguen, "Manuel de statistiques pour psychologues", Dunod, 1998.
[Ho, 1993] Helena S. Ho, Mickael K. Pratt, Pong C. Lim, Thomas T. Oshidari, Voice
enhancement system and method , DSC Communications Corporation, 1993-1995, brevet
US 5471527.
[Jambu, 1999] M. Jambu, "Mthodes de base de l'analyse des donnes", Eyrolles, 1999.
[Johnston, 1988] J.D. Johnston, "Transform coding of audio signals using perceptual noise
criteria", IEEE Journal on selected areas in communications, vol. 6, n 2, pp. 314-323,
fvrier 1988.
[Lano, 1999] R. Lano, "Traitements de correction du niveau et du timbre des signaux
tlphoniques prenant en compte le bruit", rapport de stage IFSIC / CNET, 1999.
[Lebart, 2000a] L. Lebart, A. Morineau, M. Piron, "Statistique exploratoire multi-
dimensionnelle", Dunod, 2000, pp 145-185
[Lebart, 2000b] L. Lebart, A. Morineau, M. Piron, "Statistique exploratoire multi-
dimensionnelle", Dunod, 2000, pp 251-268.
[Mah, 1998] Gal Mah, "Etude de traitements centraliss pour la correction du niveau et du
timbre de la parole tlphonique", mmoire de DEA STIR, ENST Bretagne, 1998.
[Mah, 2002] G. Mah, A. Gilloire, "Quantization noise spectral shaping in instantaneous coding
of spectrally unbalanced speech signals", Proc. IEEE Workshop on Speech Coding, Tsukuba,
octobre 2002.
[Makhoul, 1979] J. Makhoul et M. Berouti, Adaptative noise spectral shaping and entropy
coding in predictive coding of speech, IEEE Transactions on acoustics, speech, and signal
processing, vol. ASSP-27, n 1, pp. 63-73, fvrier 1979.
[Mauuary, 1996] L. Mauuary, "Blind equalization for robust telephone based speech
recognition", Proc. Eusipco, pp 125-128, Trieste, 1996.
[Mokbel, 1993] C. Mokbel, J. Monn et D. Jouvet, "On-line adaptation of a speech recognizer to
variations in telephone line conditions", Proc. Eurospeech, pp. 1247-1250, Berlin,
septembre 1993.
[Mokbel, 1996] C. Mokbel, D. Jouvet et J. Monn, "Deconvolution of telephone line effects for
speech recognition", Speech Communication, Vol. 19, No. 3, pp. 185-196, septembre 1996.
[National Semiconductor, 1994] National Semiconductor, documentation technique "TP3054,
TP3057 - Enhanced Serial Interface - CODEC/Filter COMBO Family", aot 1994.
[Naylor, 1994] P. Naylor, J. Alcazar, J. Boudy, Y. Grenier, "Enhancement of hands-free
telecommunications", Annales des Tlcommunications, T. 49, n 7-8, pp. 373-379, juillet-
aot 1994.
[Paillard, 1992] B. Paillard, P. Mabilleau, S. Morisette, "PERCEVAL: perceptual evaluation of
the quality audio signals", Journal of the Acoustical Society of America, Vol. 40, n 12,
pp. 21-30, 1992.
Rfrences bibliographiques

147
[Proakis, 1996] John G. Proakis, "Digital signal processing: principles, algorithms, and
applications", Prentice Hall PTR, 1996, pp. 838-841.
[Reynolds, 1995] Douglas A. Reynolds, "Speaker Identification and Verification using Gaussian
Mixture Speaker Models", Speech Communication, vol.17, pp.91-108, 1995.
[Scalart, 2001] P. Scalart, C. Marro, L. Mauuary, "Procd et dispositif de rduction de bruit",
janvier 2001, brevet FR0101220.
[Schroeder, 1979] M.R. Schroeder, B.S. Atal, J.L. Hall, "Optimizing digital speech coders by
exploring masking properties of the human ear", J. Acoust. Soc. Am. 66(6), pp. 1647-1652,
dcembre 1979.
[Tukey, 1953] J.W. Tukey, "The problem of multiple comparisons", Ditto, Princeton University,
1953.
[UIT-R/BS.1534, 1996] UIT-R, Recommandation BS.1534, "Mthode d'valuation subjective
du niveau de qualit intermdiaire des systmes de codage", juin 2001.
[UIT-T/G.121, 1993] UIT-T, Recommandation G.121, "quivalents pour la sonie des
systmes nationaux", mars 1993.
[UIT-T/G.168, 1999] UIT-T, Recommendation G.168, "Digital network echo cancellers",
juin 2002.
[UIT-T/G.711, 1988] UIT-T, Recommandation G.711, "Modulation par impulsions et codage
(MIC) des frquences vocales", novembre 1988.
[UIT-T/G.729, 1996] UIT-T, Recommandation G.729, "Codage de la parole 8 kbit/s par
prdiction linaire avec excitation par squences codes structure algbrique conjugue",
mars 1996.
[UIT-T/G.VED, 2002] UIT-T, Draft Recommendation G.VED (Voice Enhancement Devices),
2002.
[UIT-T/P.310, 2000] UIT-T, Recommandation P.310, "Caractristiques de transmission pour
tlphones numriques bande tlphonique (300-3400 Hz)", mai 2000.
[UIT-T/P.313, 2000] UIT-T, Recommandation P.313, "Caractristiques de transmission des
terminaux numriques mobiles ou sans cordon", septembre 1999.
[UIT-T/P.48, 1988] UIT-T, Recommandation P.48, Spcification dun systme de rfrence
intermdiaire , 1988.
[UIT-T/P.50/App. I, 1998] UIT-T, Recommandation P.50, "Voix artificielle" Appendice I :
"Signaux d'essai", fvrier 1998.
[UIT-T/P.800, 1996] UIT-T, Recommandation P.800, "Mthodes d'valuation subjective de la
qualit de transmission", aot 1996.
[UIT-T/P.830, 1996] UIT-T, Recommandation P.830, "valuation subjective de la qualit des
codecs numriques bande tlphonique et bande large", annexe D, fvrier 1996.
[Vecsys, 1994] Socit Vecsys, "Authentification vocale du locuteur travers le rseau
tlphonique", Premier rapport d'avancement pour France Tlcom CNET, juillet 1994.
Rfrences bibliographiques

148
[Zwicker, 1981] E. Zwicker, R. Feldtkeller, "Psychoacoustique L'oreille rcepteur de
l'information", Masson, 1981, traduit de l'allemand par C. Sorin.

Vous aimerez peut-être aussi