Vous êtes sur la page 1sur 226

1

TABLE DES MATRES


RESUME ................................................................................................................................................. 5
PROBLEMATIQUE................................................................................................................................. 6
CHAPITRE I - INTRODUCTION GENERALE...................................................................................... 10
I.1- GENERALITES SUR LE SYSTEME AUDITIF............................................................................... 11
.1.1- PERCEPTON DE L'NTENSTE.............................................................................................. 11
I.1.1.1- Seuils auditifs..................................................................................................................... 11
I.1.1.2- Fonction de sonie............................................................................................................... 12
.1.2- PERCEPTON DE LA FREQUENCE....................................................................................... 13
I.1.2.1- Codage tonotopique........................................................................................................... 13
I.1.2.2- Codage temporel ............................................................................................................... 14
I.1.2.3- Slectivit frquentielle...................................................................................................... 14
Slectivit frquentielle et masquage........................................................................................................ 14
Fletcher et le concept de bande critique.................................................................................................... 15
La mthode du bruit chancrure............................................................................................................. 15
Largeur des bandes critiques .................................................................................................................... 16
Asymtrie des filtres auditifs...................................................................................................................... 17
Patterns d'excitation, Masquage ascendant .............................................................................................. 18
.1.3- DEFCTS PERCEPTFS ASSOCES A UNE PERTE AUDTVE D'ORGNE COCHLEARE20
I.1.3.1- Audibilit et dynamique...................................................................................................... 21
Elvation des seuils absolus d'audition ..................................................................................................... 21
Recrutement de sonie................................................................................................................................ 21
I.1.3.2- Diminution de la slectivit frquentielle............................................................................ 21
I.2- CARACTERISTIQUES DE LA PAROLE ....................................................................................... 23
.2.1- LES SONS DE LA PAROLE: PRODUCTON ET CLASSFCATON...................................... 23
I.2.1.1- Description de l'appareil phonatoire .................................................................................. 23
I.2.1.2- Description des voyelles .................................................................................................... 24
I.2.1.3- Description des consonnes................................................................................................ 26
Les traits acoustiques................................................................................................................................ 27
.2.2 - CARACTERSTQUES PHYSQUES A LONG TERME DE LA PAROLE .............................. 30
I.2.2.1- Caractristiques spectrales................................................................................................ 30
I.2.2.2- Intensit.............................................................................................................................. 31
I2.2.3- Dbit.................................................................................................................................... 32
I.3- QUELQUES DONNEES SUR L'INTELLIGIBILITE DE LA PAROLE ........................................... 33
.3.1- PREAMBULE............................................................................................................................ 33
I.3.1.1- Indices pour la reconnaissance de la parole ..................................................................... 33
I.3.1.2- Influence des indices temporels et frquentiels................................................................. 33
.3.2 ROLE DES NDCES SPECTRAUX ET DES NDCES D'ENVELOPPE POUR LA
RECONNASSANCE DE PAROLE DANS LE SLENCE .................................................................. 34
I.3.2.1- Lissage spectral ................................................................................................................. 34
ter Keurs, Festen et Plomp (1992)............................................................................................................. 34
Boothroyd et al. (1996) .............................................................................................................................. 35
I.3.2.2- La parole comme bandes de bruits modules................................................................... 35
Shannon et al. (1995) ................................................................................................................................ 36
.3.3- ROLE DES NDCES SPECTRAUX ET NDCES D'ENVELOPPES POUR LA
RECONNASSANCE DE PAROLE DANS UN BRUT STATONNARE .......................................... 37
I.3.3.1- Lissage spectral ................................................................................................................. 37
Baer et Moore (1993)................................................................................................................................. 37
I.3.3.2- La parole comme sinusodes ou bandes de bruits modules ........................................... 38
Dorman et al. (1998).................................................................................................................................. 38
2
Fu et al. (1998) .......................................................................................................................................... 39
.3.4- ROLE DES NDCES FREQUENTELS ET NDCES D'ENVELOPPES POUR LA
RECONNASSANCE DE PAROLE DANS UN BRUT FLUCTUANT................................................ 40
I.3.4.1- Influence de la slectivit frquentielle.............................................................................. 40
I.3.4.2- Effets potentiels de la suppression de la structure temporelle fine ................................... 41
I.4- PREDIRE L'INTELLIGIBILITE DE LA PAROLE : APPLICATIONS EN AUDIOLOGIE............... 43
.4.1- ARCHTECTURE CLASSQUE DES MODELES PREDCTFS DE RECONNASSANCE DE
LA PAROLE....................................................................................................................................... 43
I.4.1.1- Modle AI ........................................................................................................................... 43
I.4.1.2-Modle STI.......................................................................................................................... 45
.4.2- DETERMNATON DES FONCTONS D'MPORTANCE......................................................... 46
I.4.2.1- Mthode ............................................................................................................................. 47
I.4.2.2- Exemples de fonctions d'importances : Commentaires..................................................... 50
Pour des syllabes CVC.............................................................................................................................. 50
Et pour d'autres matriels linguistiques ..................................................................................................... 50
.4.3- MESURE DU BNEFCE D'UNE RESTAURATON DE L'AUDBLT CHEZ LE
MALENTENDANT.............................................................................................................................. 51
I.4.3.1- Utiliser l'AI pour mesurer le bnfice d'une amplification.................................................. 51
I.4.3.2- N'amplifions pas les hautes frquences ............................................................................ 52
Ching et al. (1998) ..................................................................................................................................... 52
Mesures de l'efficience .............................................................................................................................. 53
I.4.3.3- N'amplifions pas les hautes frquences, moins que.................................................... 57
Hornsby et Ricketts (2003) ........................................................................................................................ 57
I.4.3.4- Facteurs d'influences sur le bnfice d'une amplification ................................................. 59
I.5- APPROCHES ALTERNATIVES POUR CARACTERISER L'INTELLIGIBILITE DE LA PAROLE
............................................................................................................................................................... 60
.5.1- NTELLGBLT DE LA PAROLE: ARGUMENTS EN FAVEUR D'NTERACTONS ENTRE
BANDES ............................................................................................................................................ 60
I.5.1.1- Redondance spectrale....................................................................................................... 60
Warren et son quipe de 1995 2000 ...................................................................................................... 60
I.5.1.2- Synergie............................................................................................................................. 61
Warren et al. (1995)................................................................................................................................... 61
Lippman (1996) ......................................................................................................................................... 62
A/ S et bandes spectrales disjointes....................................................................................................... 63
Grant et Braida (1991) ............................................................................................................................... 64
.5.2- UN NOUVEAU MODLE PRDCTF DE RECONNASSANCE DE LA PAROLE: LE SRS
(SPEECH RECOGNTON SENSTVTY) ........................................................................................ 64
I.5.2.1- Speech recognition sensitivity index.................................................................................. 65
Thorie statistique de la dcision applique l'intelligibilit de la parole................................................... 65
Modliser la redondance spectrale des informations de la parole............................................................. 66
Modliser les interactions synergiques entre les bandes spectrales ......................................................... 66
Aspects complmentaires du modle SRS................................................................................................ 67
Prdictions du modle SRS par rapport au modle S ............................................................................. 67
.5.3- FONCTONS D'MPORTANCE FREQUENTELLE EN AUDTON......................................... 68
I.5.3.1- Les taches observation multiples: Etat de l'art ............................................................... 69
Approche rgressive.................................................................................................................................. 69
Mthode COSS de Berg............................................................................................................................ 69
Mthode Corrlationnelle........................................................................................................................... 72
I.5.3.2- Exemples de fonctions d'importance frquentielle ............................................................ 74
Doherty et Turner (1996), Turner et al. (1998)........................................................................................... 74
Mehr et al. (2001) ...................................................................................................................................... 76
Kasturi et al. (2002) ................................................................................................................................... 78

CHAPITRE II. FONCTIONS D'IMPORTANCE FREQUENTIELLE CHEZ LES SUJETS NORMO- ET


MAL-ENTENDANTS............................................................................................................................. 80
II.1- ETUDE 1 ........................................................................................................................................ 81
.1.1- OBJECTFS DE L'ETUDE....................................................................................................... 81
3

Gilbert, G., Micheyl, C., Berger-Vachon, C. , Collet, L.
Frequency weighting functions in young and older listeners (in revision JASA)....83

.1.2- DSCUSSON COMPLMENTARE ...................................................................................... 112
II.1.2.1- Mcanismes priphriques et de plus haut niveau......................................................... 112
II.1.2.2- Application de la mthode corrlationnelle a des signaux de parole et fonctions
psychomtriques .......................................................................................................................... 113
II.1.2.3- Comparaisons entre les fonctions d'importance obtenues dans l'tude prsente et dans
les tudes prcdentes, ainsi qu'avec la fonction d'importance relative au SII........................... 115
II.1.2.4- Fonctions d'importances: Relations avec les indices d'enveloppe................................ 118
II.2- ETUDE 2 ...................................................................................................................................... 121
II.3- CONCLUSION GENERALE DU CHAPITRE .............................................................................. 136

CHAPITRE III - FONCTIONS D'IMPORTANCE FREQUENTIELLE: INFLUENCES DE SIGNAUX DE
PAROLE CONCURRENTS................................................................................................................. 137
III.1- ETUDE 3 ..................................................................................................................................... 138
.1.1- OBJECTFS DE L'ETUDE.................................................................................................... 138

Gilbert, G. and Micheyl, M.
nfluence of competing multi-talker babble on frequency-importance functions for
speech measured using a ccorrelational approach.(in revision JASA)........140

.1.2- DSCUSSON COMPLEMENTARE .................................................................................... 163
III.1.2.1- Allure des fonctions d'importance et information transmise. ......................................... 163
III.1.2.2- Fonctions psychomtriques ........................................................................................... 165


CHAPITRE IV- TENTATIVE D'AMELIORATION DE LA METHODE CORRELATIONNELLE ....... 166
IV.1. ETUDE 4..................................................................................................................................... 167
V.1.1- OBJECTFS DE L'TUDE ................................................................................................... 167

Gilbert, G. and Micheyl, C.
Comparison of frequency-importance functions for speech derived using internal and
external signal to noise ratios (in preparation)....................168

V.2.2- DSCUSSON COMPLMENTARE.................................................................................... 199
IV.2.2.1- Prdictions en utilisant le modle de dcision de Richards et Zhu............................... 199

CHAPITRE V - DISCUSSION GENERALE........................................................................................ 202
V.1- RESUME DES OBJECTIFS DE LA THESE............................................................................... 203
V.2- RESUME DES PRINCIPAUX RESULTATS DE LA THESE...................................................... 203
V.3- PERSPECTIVES : LIMITES ET INTERET DE LA METHODE CORRELATIONNELLE POUR LA
MESURE DES FONCTIONS D'IMPORTANCE FREQUENTIELLE EN RECONNAISSANCE DE
PAROLE.............................................................................................................................................. 207

RFRENCES BIBLIOGRAPHIQUES .............................................................................................. 210
4

ANNEXES ........................................................................................................................................... 219
ANNEXE 1: APPLICATION INFORMATIQUE................................................................................... 220
A1.1- SGNAUX ET TRATEMENT DES SGNAUX POUR LA METHODE CORRELATONNELLE
......................................................................................................................................................... 220
A1.1.1- Signaux de parole............................................................................................................ 220
A1.1.2- Ajout de bruit.................................................................................................................... 220
A1.1.3- Pr-traitement des sons .................................................................................................. 222
A1.2- NTERFACE GRAPHQUE.................................................................................................... 222
A1.2.1- Les rglages de base ...................................................................................................... 223
A1.2.1- Les rglages optionnels................................................................................................... 223
A1.2.2- Calcul des rsultats ......................................................................................................... 224
ANNEXE 2 - CALCUL DE L'INFORMATION TRANSMISE PAR LES TRAITS ACOUSTIQUES
CARACTERISTIQUES DE CONSONNES......................................................................................... 226
5
RESUME

La parole est un signal complexe dont l'nergie occupe une large bande de
frquences allant d'environ 50 7000 Hz. Le dcodage acoustico-phontique de ce signal
par l'auditeur humain implique vraisemblablement une capacit extraire et combiner des
indices acoustiques varis au sein de cette large plage frequentielle. Une question
essentielle concerne l'importance relative de diffrentes bandes frequentielles pour la
reconnaissance de la parole. Dans cette thse, nous avons appliqu et tent d'amliorer une
mthode originale pour estimer l'importance relative de diffrentes bandes frequentielles
pour la reconnaissance de la parole par un individu ou un groupe d'individus donn. Cette
mthode, connue sous le nom de mthode correlationnelle, consiste dgrader le signal de
parole par adjonction d'un bruit d'intensit alatoire au sein de differentes bandes
frquentielles, et ce de manire indpendante. Le traitement des donnes revient quant lui,
une fois qu'un nombre suffisant de signaux ont t prsents, dterminer le degr de
corrlation entre la svrit de la dgradation impose dans une bande et le score binaire
obtenu a chaque essai (correct ou incorrect). La magnitude des corrlations obtenues reflte
l'importance relative des diffrentes bandes pour l'identification correcte des signaux de
parole utiliss chez le sujet test. Dans une premire tude, nous avons appliqu la mthode
correlationnelle pour mesurer les fonctions d'importance frquentielle chez des sujets d'ge
vari ayant une audition normale pour leur ge, afin de constituer une base de donne
normative. Les rsultats de ce premier travail rvlent que, soit l'ge, soit une lvation
mme faible des seuils sur les hautes frquences avec le vieillissement, tait suffisante pour
entraner, indirectement, une modification des fonctions d'importance frquentielle. Dans une
seconde tude, nous avons test des sujets prsentant une perte auditive. Les rsultats
dmontrent une influence claire de la diminution de sensibilit auditive aux hautes
frquences sur les fonctions d'importance, et ils suggrent que cette influence peut tre
attnue par le port rgulier d'une prothse auditive amplificatrice. Au cours d'une troisime
tude, nous avons compar les fonctions d'importance frquentielle dans deux conditions
d'coute, dont l'une en prsence d'un brouhaha form de plusieurs voix concurrentes. Les
rsultats indiquent que l'importance relative des bandes de basses frquences augmente en
situation d'ecoute comptitive. Enfin, un dernier volet de cette thse a port sur l'amlioration
de l'estimation des fonctions d'importance frquentielle partir de simulations des
phnomnes de masquage simultan au moyen d'un modle de calcul des patterns
d'excitation psychoacoustiques. Dans l'ensemble, les rsultats obtenus confirment l'intert
potentiel d'une approche corrlationnelle pour la mesure des fonctions d'importance
frquentielles chez le sujet normo et mal-entendant, autant sur le plan theorique qu'appliqu.
6
PROBLEMATQUE

Avec l'avnement des technologies numriques, le dveloppement des dispositifs de
rhabilitation audioprothtique a subi un fort essor durant les dernires annes. Les
prothses auditives multi-bandes actuelles permettent de rgler finement les paramtres des
processus de traitement du signal acoustique (niveau d'amplification, degr de compression,
.) dans differentes plages frequentielles. Le rglage de ces prothses multi-bandes
constitue un problme difficile, car il n'existe pas ce jour de mthode scientifique avre
pour optimiser l'ajustement des paramtres dans les differentes bandes frquentielles. De
fait, les approches empiriques prvalent, avec le risque, bien souvent, d'aboutir un rglage
sous-optimal, voire contre-productif : par exemple, l'amplification prothtique de bandes de
frequences qui, en fait, contribuent alors dgrader les performances en masquant les
informations utiles dans des rgions frequentielles voisines plus importantes pour la
reconnaissance. Une solution possible ce problme implique de pouvoir estimer
l'importance relative que l'auditeur accorde aux diffrentes bandes frquentielles pour
comprendre la parole. Par exemple, si l'on pouvait dterminer si une bande frequentielle
donne est importante pour un individu, on pourrait alors porter plus d'attention ce que le
rglage favorise l'extraction des informations dans cette bande, ou en tout cas, qu'il ne la
perturbe pas. Par ailleurs, ayant dtermin que l'auditeur n'attribue que peu d'importance
aux informations contenues dans certaines rgions frquentielles, on pourrait alors, soit
dcider que l'amplification dans cette bande n'amliorera pas les performances du sujet, soit
ajuster le rglage de faon ce que les informations contenues dans la bande puissent tre
mieux exploites par le sujet.
Avant que ces ides puissent tre appliques concrtement en audioprothse, hlas ;
il reste encore un important chemin a parcourir. En particulier, il est ncessaire de
dvelopper et valider des mthodes permettant d'estimer l'importance relative de diffrentes
bandes frquentielles pour la reconnaissance de la parole, chez un individu donn. Comme
nous le verrons par la suite, quelques tudes ont port sur le sujet, mais elles restent peu
nombreuses et relativement parses. l est donc important la fois de collecter de nouvelles
donnes sur diffrents types de populations et dans diffrentes conditions mais aussi
d'apporter certaines rvisions aux modles existants. Ces deux derniers points
correspondent prcisment l'objectif de la recherche doctorale dcrite dans ce document.
La mthode utilise dans cette recherche est une mthode relativement neuve
connue sous le nom de mthode corrlationnelle. Dans sa version originelle, la mthode a
t dveloppe par Richards et Zhu (1994) sur la base des travaux antrieurs de Ahumada
et lovell (1971), Gilkey and Robinson (1986), et Berg (1990). Lutfi (1995) a galement
7
contribu au dveloppement de la mthode. L'application de cette approche la perception
de la parole a t propose par Doherty et Turner (1996) et Turner et al. (1998). La mthode
correlationnelle peut tre utilise en psychophysique lorsqu'un jugement repose sur
plusieurs observations. On recourt cette mthode lorsque l'on cherche dterminer le
poids respectif des diffrentes observations dans le processus de dcision perceptive par le
sujet. Pour illustrer le principe de la mthode, prenons un exemple concret : on souhaite
dterminer le poids d'une composante tonale particulire dans un jugement global de la
sonie d'un son complexe (constitu de plusieurs composantes tonales). On demande alors
au sujet de comparer l'intensit de deux sons complexes successifs aux composantes
spectrales desquels on applique des variations alatoires et indpendantes d'intensit
chaque nouvel essai. Le poids de chaque composante i est alors estim comme
proportionnel la corrlation entre 1) la diffrence d'intensit
i
L entre les composantes
tonales i de mme frquence et 2) les rponses binaires du sujet. Dans l'application aux
signaux de parole, les sources d'observations sont assimiles des bandes de frquences
diffrentes, plutt qu' des composantes frequentielles uniques. Dans ce cadre, la mthode
propose par Turner et al. consiste ajouter au signal de parole des bandes de bruit
stationnaire et faire varier alatoirement et indpendamment le rapport signal/bruit (RSB)
dans chaque bande. La valeur de la corrlation entre les RSB successivement utiliss dans
une bande donne et les scores binaires correspondants (correct/faux) refltent alors
l'importance de la bande considre. Comme nous le verrons plus en dtail plus loin, l'intrt
principal de cette mthode est de dterminer l'importance relative de diffrentes bandes de
frquences tout en conservant la caractristique large-bande naturelle des signaux de
parole. C'est sur ce point que la mthode se dmarque des approches antrieures telles que
celles consistant estimer l'importance de diffrentes bandes frquentielles par filtrage
systmatique. Ce dernier point est important dans la mesure o divers travaux suggrent
l'existence d'interactions redondante et synergique entre bandes frquentielles dans la
reconnaissance de parole.
Dans une premire tude, nous avons mesur les fonctions d'importance
frquentielle chez deux groupes de sujets ayant une audition normale pour leur ge, l'un
jeune, l'autre plus g. Cette premire tude nous a permit, avant tout, de tester notre
application de la mthode avec des stimuli et des bandes diffrents de ceux utiliss dans les
tudes antrieures, ainsi que de collecter des donnes normatives chez des sujets tmoins,
susceptibles de servir de rfrence pour nos travaux ultrieurs. De plus, les rsultats ont mis
en vidence un effet de l'ge et/ou de la perte auditive lie au vieillissement sur les fonctions
d'importance. Ce rsultat nous a amen nous pencher progressivement sur la question
des relations entre audibilit et fonctions d'importance, entre autres.
8
Dans une seconde tude, nous nous sommes attachs mesurer les fonctions
d'importance frquentielle chez des sujets malentendants. En testant les sujets oreilles nues
dans deux conditions - avec ou sans amplification pralable visant re-normaliser la sonie
des stimuli -, nous avons pu vrifier l'influence de l'audibilit sur les fonctions d'importance
estimes avec la mthode correlationnelle. Nous avons galement commenc poser la
question des consquences ventuelles de l'acclimatation prothtique sur les stratgies de
pondration frequentielle des sons de parole par les sujets porteurs rguliers d'une prothse
auditive (par rapport des sujets n'en portant pas).
Dans une troisime tude, nous avons mesur les fonctions d'importance
frquentielle chez un groupe de sujets jeunes dans deux conditions d'coute. Dans la
premire condition, les stimuli taient ceux classiquement utiliss pour appliquer la mthode
corrlationnelle (sons de parole + bruits de bande stationnaires). Dans la seconde, nous
avons rajout, en plus, un bruit de fond consistant en de la parole concurrente (brouhaha).
Dans une dernire partie de la thse, notre attention s'est focalise sur les
fondements de l'application aux signaux de parole de la mthode corrlationnelle propose
par Doherty et Turner (1996) et Turner et al. (1998). Nous avons propos et commenc
valuer une nouvelle approche pour l'estimation des poids des diffrentes bandes, fonde
sur une simulation des patterns d'excitation psychoacoustiques refltant les pr-traitements
cochlaires. Cette nouvelle approche a t motive par le dsir de dpasser certaines limites
lies l'utilisation directe des RSB physiques dans les diffrentes bandes frequentielles,
lesquels ne refltent pas certains aspects essentiels du traitement de l'information par le
systme auditif priphrique, notamment, le masquage simultan. Nous avons raisonn que
le calcul de RSB internes sur la base des patterns d'excitation auditifs reflteraient plus
fidlement la dgradation relle ressentie par l'auditeur au sein de chaque bande aprs ajout
du bruit. La comparaison des fonctions d'importance classiques et de celles drives au
moyen de cette nouvelle approche s'est avre surprenante.
L'expos des diffrents travaux est prcd d'une premire partie dvolue la
prsentation du contexte scientifique dans lequel ils s'inscrivent. Cette prsentation gnrale
a galement pour but d'introduire les lments de bases ncessaires la comprhension
des travaux raliss. Afin d'clairer les deux premiers travaux, l'accent sera port sur le rle
que joue l'audibilit pour l'intelligibilit des signaux de parole. Nous insisterons galement
sur l'influence de la prsence d'un bruit concurrent pour la reconnaissance de parole pour
clairer cette fois ci la troisime tude que nous avons mene. Enfin, les mthodes mises en
ouvre pour driver la contribution de diverses rgions spectrales pour l'intelligibilit seront
largement dtailles pour mieux mettre en perspective l'objet de notre quatrime travail. A ce
sujet, prcisons ds maintenant que notre revue de la littrature ne vise pas l'exhaustivit
mais seulement la reprsentativit.
9
Enfin, le lecteur trouvera en fin de document deux annexes. La premire prsente
l'application logicielle de la mthode corrlationnelle dveloppe par l'auteur de cette thse.
La seconde annexe dtaille les diffrentes tapes impliques dans le calcul l'information
transmise par les traits acoustiques reprsentatifs des consonnes.









10








CHAPTRE - NTRODUCTON
GENERALE
11
.1- GENERALTES SUR LE SYSTEME AUDTF

Cette premire partie de l'introduction sera l'occasion pour nous de prsenter les
proprits de base de la perception de deux grandeurs physiques primordiales en
acoustique, savoir l'intensit et la frquence. Pour clore cette partie, nous traiterons
galement de la consquence d'une perte auditive sur la perception de ces proprits
acoustiques fondamentales.


.1.1- PERCEPTON DE L'NTENSTE

.1.1.1- Seuils auditifs

Le seuil absolu d'un son caractrise le niveau minimum de ce son pour qu'il soit
dtectable en l'absence de toute autre stimulation extrieure. Les seuils absolus peuvent
tre exprims relativement une mesure de la pression sonore au plus proche du tympan
l'aide d'un microphone miniature. Dans ce cas les seuils sont appels MAP (minimum
auditory pressure) et sont gnralement dtermins partir de stimulations au casque. Une
seconde mthode consiste prsenter les sons en champs libre dans une chambre
anchoque et mesurer l'intensit sonore au niveau du centre de la tte du sujet. Les seuils
mesurs de cette faon sont appels MAF (minimum auditory field). Globalement, comme
l'indique la Figure 1, les seuils mesurs avec les deux mthodes sont trs similaires. Aux
basses frquences, les seuils diminuent avec l'augmentation de la frquence avec une pente
de 6 dB par octave jusqu' 1 kHz alors qu'aux hautes frquences, partir de 4 kHz, les
seuils augmentent avec une pente de 24 dB par octave. Cependant, on note certaines
diffrences entre les deux mthodes notamment aux frquences moyennes o les seuils
MAF sont infrieurs aux seuils MAP d'environ 6 dB. Cette diffrence s'explique du fait de la
non prise en compte avec la mthode MAF de la fonction de transfert de la tte et de l'oreille
externe.
12

Figure 1: Reprsentation des seuils d'intensit en fonction de la frquence. La courbe pleine
indique les seuils MAF (minimum audible field) en coute binaurale publis par Robinson et
Dadson en 1956. La courbe en pointills reprsente les seuils MAF publis dans une norme
iso rcente (SO-389-7, 1996). La courbe en traits discontinus reprsente les seuils MAP
(minimum audible pressure) en coute monaurale.
D'aprs Moore (2003)


.1.1.2- Fonction de sonie

On dfinit par sonie la grandeur caractrisant l'intensit perue d'un son. La sonie
dpend principalement de l'intensit du son, mais d'autres paramtres, tels que la dure et la
frquence ou composition spectrale, ont galement une influence sur elle. Sur la base de
ses rsultats, Stevens (1936, 1987) a suggr que le lien entre l'intensit perue L ,et
l'intensit physique I pouvait se traduire par une fonction puissance sous la forme
3 . 0
kI L =
avec k une constante dpendant du sujet et des units utiliss. Le fait que le terme
puissance soit infrieur 1 rend compte des mcanismes compressifs prenant place dans
13
une cochle saine. Ainsi la sensation du doublement de la sonie se produit non pour un
doublement (+3 dB) de l'intensit physique mais pour un gain de + 10 dB.


.1.2- PERCEPTON DE LA FREQUENCE

Dans cette partie nous nous attacherons traiter certaines des proprits du codage
en frquence du systme auditif priphrique. L'accent sera port sur la slectivit
frquentielle qui joue un rle majeur dans divers aspects de la perception auditive et
notamment de la perception de la parole.


.1.2.1- Codage tonotopique


Fourier dmontre au dbut du 19
me
sicle qu'un son complexe priodique de priode
T
0
est dcomposable de manire unique en une superposition de sinusodes dont les
frquences sont des multiples de la frquence fondamentale F
0
=1/T
0
. Ce rsultat peut tre
tendu des sons complexes apriodiques si l'on considre la priode comme infinie.
nspirs par les travaux de Fourier, les recherches de Helmholtz en 1863 sur la
perception des signaux acoustiques assimilent la membrane basilaire un analyseur
spectral de Fourier. Helmholtz considre en effet la membrane basilaire comme une srie de
rsonateurs (cordes) qui vibreraient pour des excitations frquentielles spcifiques. Ce
comportement de la membrane basilaire se voit partiellement justifi par le fait que la raideur
de la membrane dcrot rgulirement de l'extrmit basale jusqu' l'extrmit apicale.
Depuis la thorie d'Helmholtz, les travaux de von Bksy en 1960 sont venus
apporter un nouveau point de vue sur l'analyse frquentielle ralise par la cochle. Ce
dernier a montr que l'excitation provoque par un son pur gnrait une onde progressive le
long de la membrane basilaire. Cette onde est contenue dans une enveloppe dont le
maximum est en correspondance avec la frquence de l'excitation.
l existe toujours un dbat entre les partisans de chaque thorie. Pour autant, quelle
qu'elle soit rellement, la nature de la relation entre la frquence du son excitateur et une
position sur la membrane basilaire est appele tonotopie cochlaire. Cette diffrentiation de
la frquence d'un son est alors conserve tout le long des voies auditives notamment du fait
que les fibres nerveuses connectes en une zone distincte de la membrane basilaire sont
reprsentatives d'une frquence particulire.
14
Cependant, il est important de noter que les mcanismes cochlaires prsents
jusque l ne rendent simplement compte que des mcanismes dits passifs de la cochle.
Ces mcanismes passifs correspondent schmatiquement l'action des cellules cilies
internes. Le fonctionnement de la cochle normale fait galement appel des mcanismes
actifs reposant sur les proprits contractiles des cellules cilies externes. Ces mcanismes
amplifient localement les vibrations passives de la membrane basilaire (Zenner et al., 1985)
et permettent d'affiner les proprits de slectivit en frquence sur lesquelles nous
reviendrons.


.1.2.2- Codage temporel

Le codage de la frquence des sons ne repose pas uniquement sur la tonotopie
cochlaire mais aussi sur un codage de type temporel (Rose et al., 1968 ; Moore et al.,
1973). Aux frquences infrieures environ 4-5 kHz, en effet, les dcharges des neurones
sont synchronises sur une phase particulire de l'onde de pression incidente. Cela permet
au systme auditif d'encoder assez prcisment la priode, et donc la frquence, du
stimulus. En effet, mme si la priode rfractaire des neurones auditifs ne leur permet pas
d'mettre un potentiel d'action chaque cycle, les intervalles inter-dcharges sont des
multiples entiers de la priode.


.1.2.3- Slectivit frquentielle

Slectivit frquentielle et masquage

La slectivit frquentielle auditive est gnralement dfinie comme la capacit du
systme auditif analyser en leurs composantes frquentielles lmentaires les sons
complexes. La slectivit frquentielle dtermine en large partie les phnomnes de
masquage dit simultans (i.e., entre sons prsents simultanment) et galement, certains
aspects des phnomnes de masquage squentiel (i.e., entre sons prsents
successivement). Prcisons que le concept de masquage, concept fondamental en
psychacoustique, recouvre en fait deux choses :

1 : Le processus par lequel le seuil d'audibilit d'un son est augment par la prsence
d'un autre son (masquant)

15
2 : La quantit par laquelle le seuil d'audibilit d'un son est augment par la prsence
d'un autre son (masquant). Cette unit est gnralement exprime en dB.


Fletcher et le concept de bande critique

Fletcher, en 1940, mesura l'effet de masquage d'une bande de bruit sur un son pur
la frquence centrale de la bande. Le bruit masquant ayant toujours la mme densit
spectrale de puissance. Fletcher constata qu' mesure que la largeur de la bande augmente,
le masquage augmente lui aussi, mais ce jusqu' une certaine limite o le masquage atteint
une valeur asymptotique avec la largeur de la bande.
Cette observation suggre que lorsqu'un auditeur tente de dtecter un signal dans du bruit, il
utilise un filtre rectangulaire, appel aussi bande critique, centr sur la frquence du signal
identifier et que seule l'nergie du bruit comprise dans la bande passante du filtre participera
au masquage. Le systme auditif priphrique semble donc se comporter donc comme un
banc de filtres passe-bande appels filtres auditifs.


La mthode du bruit chancrure

Depuis l'exprience de Fletcher (1940), un grand nombre de recherches ont tent
d'tablir plus prcisment l'allure des filtres auditifs. Parmi elles, la mthode qui aujourd'hui
est retenue est celle du bruit chancrure (notched noise method), dveloppe par
Patterson (1976). Son principe est simple et consiste dterminer les seuils de perception
de sons purs masqus par un bruit comportant une chancrure centre sur la frquence du
son identifier (voir la Figure 2). Les seuils de perception du son cible sont obtenus pour
diverses largeurs de l'chancrure: plus l'chancrure est large, plus bas sont les seuils de
perception. On obtient ainsi une courbe C reprsentant l'volution des seuils en fonction de
la largeur de l'chancrure. En assumant que les seuils sont proportionnels l'nergie du
bruit qui est passe dans le filtre, une simple mesure des drives de la courbe C en
diffrentes largeurs de l'chancrure donne directement la rponse du filtre auditif. Cette
mthode a t prfrentiellement utilise d'autres, se fondant sur l'estimation des effets de
masquage d'une sinusode par une autre, dans la mesure o elle vite les indices de
battement que le sujet pouvait utiliser. L'autre avantage majeur de cette mthode est qu'elle
constitue une mesure directe des filtres auditifs. Les filtres auditifs ainsi valus ont un
sommet relativement arrondi et des pentes assez raides.
16


Figure 2: Schma de la mthode du bruit chancrure pour la mesure des filtres auditifs.
D'aprs Moore (2003).


Largeur des bandes critiques

La largeur de bande des filtres auditifs est traditionnellement exprime en ERB (pour
Equivalent rectangular bandwidth ). Ainsi exprime, elle correspond la largeur de bande
d'un filtre rectangulaire laissant passer la mme quantit d'nergie que le filtre auditif
considr. Moore et Glasberg (1990) proposent la formule suivante pour estimer la largeur
de bande, en ERB, des filtres auditifs en fonction de leur frquence centrale, F, exprime en
kHz :

) 1 37 . 4 ( 7 . 24 + = F ERB

Les donnes indiques sur la Figure 3 montrent l'ERB de filtres auditifs estims
partir de la mthode du bruit chancrure dans diffrents laboratoires. La largeur des
bandes critiques augmente avec la frquence centrale du filtre, indiquant que la slectivit
frquentielle de l'oreille humaine est loin d'tre linaire.


17



Figure 3: La courbe en traits pleins reprsente la valeur de l'ERB en fonction de la
frquence. Cette courbe a t obtenue en combinant les rsultats de diffrentes expriences
estimant l'allure des filtres auditifs avec la mthode du bruit chancrure de Patterson
(1976). La droite en pointills reprsente l'estimation de la largeur des bandes critiques
estimes par un protocole de sommation de sonie (pour plus d'informations voir Zwicker,
1961). D'aprs Moore (2003)



Asymtrie des filtres auditifs

En centrant l'chancrure sur la frquence du son dtecter on suppose par la mme
que les filtres auditifs sont symtriques. Moyennant quelques modifications dans le
traitement des donnes, Patterson et Moore (1986), Moore et Glasberg (1987), ainsi que
Glasberg et Moore (1990) ont, quelques annes plus tard, valu l'asymtrie des filtres
auditifs en dplaant l'chancrure aux alentours de la frquence du signal. Ces derniers ont
montr que pour des niveaux sonores assez faible, les filtres auditifs taient relativement
symtrique alors qu' des niveaux sonores levs les filtres auditifs devenaient nettement
asymtriques. La Figure 4 montre l'allure des filtres auditifs diffrentes intensits pour un
signal centr sur 1 kHz, on remarque qu'avec l'intensit croissante, la pente des filtres aux
basses frquences devient beaucoup moins abrupte qu'aux hautes frquences


18

Figure 4: Allure des filtres auditifs centrs 1 kHz pour des excitations sonores allant de 20
90 dB SPL. La sortie du filtre auditif est trace en fonction de la frquence. D'aprs Moore
(2003)

Patterns d'excitation, Masquage ascendant

Comme nous venons de le voir la rsolution frquentielle du systme auditif humain,
bien que performante, reste limite. Ainsi, l'excitation sur la membrane basilaire provoque
par un son pur ne sera pas restreinte mais diffuse autour de la frquence du son pur. De ce
fait la perception humaine du contenu frquentiel de n'importe quel type de son ou bruit ne
correspond pas l'analyse spectrale que peut fournir une transforme de Fourier classique.
Moore et Glasberg en 1983 ont dcrit une mthode pour driver la forme de spectres
perceptifs ou patterns d'excitation frquentiels en utilisant le concept des filtres auditifs. ls
suggrrent que le spectre physiologique ou pattern d'excitation d'un son donn peut
tre pens comme la sortie de filtres auditifs en fonction de leur frquence centrale. Cette
ide est illustre sur la Figure 5.
La portion suprieure de la Figure 5 montre l'allure des filtres auditifs pour 5
frquences centrales. Comme on peut de nouveau le constater, la largeur des filtres
19
augmente avec la frquence centrale. La ligne en pointilles reprsente un signal sinusodal
de 1 kHz dont on cherche dterminer le pattern d'excitation. La portion infrieure montre la
sortie de chacun des filtres en rponse l'excitation de 1 kHz en fonction de la frquence
centrale du filtre: c'est le pattern d'excitation recherch. On peut noter que bien que les filtres
auditifs taient assums symtriques (sur une chelle linaire) dans l'exemple prcdent, les
patterns d'excitation sont fortement asymtriques. La pente du ct hautes frquences est
beaucoup moins raide que du ct basses frquences. Ceci est du l'largissement des
filtres avec l'augmentation de la frquence centrale. Cette observation est consistante avec
d'autres tudes sur les phnomnes de masquage (Egan et Hake, 1950 ; Ehmer, 1959a ;
Ehmer, 1959b) montrant que les composantes basses frquences d'un son ont un fort
pouvoir masquant sur les composantes hautes frquences et non l'inverse. Ce phnomne
particulier est appel masquage ascendant (pour upward spread of masking. Cette
procdure d'estimation des patterns d'excitation s'tend facilement l'utilisation de filtres
asymtriques (Moore et Glasberg, 1987; Glasberg et Moore, 1990).
Le masquage ascendant est une consquence biomcanique du codage tonotopique
sur la cochle. Les basses frquences sont codes par une onde progressive s'tendant de
la base jusqu' l'apex de la cochle alors que les hautes frquences sont codes par une
onde progressive restreinte la base de la cochle. Ainsi les ondes provoques par un son
HF (haute frquence) n'atteignent pas les zones BF (basses frquences) de la membrane
alors que l'excitation des zones BF interfre avec la perception des sons HF.


20

Figure 5 : llustration pour un son pur 1kHz de l'obtention du pattern d'excitation partir du
calcul des nergies en sortie de filtres auditifs diffrentes frquences centrales.
D'aprs Moore (2003)


.1.3- Dficits perceptifs associs une perte auditive d'origine cochlaire

Les dommages subis par les cellules cilies au sein de la cochle sont l'origine de
nombreux dficits perceptifs. Les dommages sur les cellules cilies internes affectent la
transduction des vibrations de la membrane basilaire et s'accompagnent en consquence
d'une lvation des seuils absolus. Les dommages sur les cellules cilies externes
dtriorent les processus actifs d'amplification locale au sein de la cochle et sont l'origine
d'une baisse de la slectivit frquentielle.



21
.1.3.1- Audibilit et dynamique

Elvation des seuils absolus d'audition

Les pertes auditives se caractrisent systmatiquement par une lvation des seuils
absolus d'audition. Cette lvation est gnralement exprime en dB HL (pour Hearing
Loss ), laquelle mesure l'cart, diffrentes frquences, entre les seuils absolus de
l'individu test et des seuils normatifs mesurs aux mmes frquences dans un large
chantillon de sujets tmoins ayant une audition normale. On considre communment,
dans la pratique clinique, qu'il y a perte auditive lorsque l'lvation des seuils absolus sur
l'une des frquences teste est suprieure 20 dB HL

Recrutement de sonie

Alors que les seuils absolus d'audition des sujets mal-entendants sont plus levs
que ceux d'un mal-entendant, les niveaux maximum de confort - niveaux au-del desquels
l'intensit sonore devient insupportable -, eux, demeurent identiques, voire, diminuent. l en
rsulte une diminution de la gamme dynamique audible chez le malentendant . Cet effet
correspond une diminution de la compression dans la fonction entre-sortie de la
membrane basilaire; il est connu sous le nom de recrutement de sonie (Fowler, 1936;
Steinberg et Gardner, 1937). Le recrutement de sonie s'observe des niveaux d'intensits
confortables, en effet, au-del d'une certaine intensit (90 dB SPL), l'intensit perue en
fonction de l'intensit physique redevient normale et identique au comportement observ
chez les normo-entendants.


.1.3.2- Diminution de la slectivit frquentielle

De nombreuses tudes, tout en employant des mthodes sensiblement diffrentes,
ont rvl une diminution de la capacit de slectivit frquentielle chez les sujets
prsentant des pertes auditives d'origine cochlaire (Pick et al., 1977; Zwicker et Schorn,
1978; Florentine et al., 1980; Glasberg et Moore, 1986). La raison invoque pour cette
diminution de la slectivit frquentielle est l'largissement des filtres cochlaires provoque
par des lsions au niveau des cellules cilies externes. Sur une chelle ERB, cet
largissement atteint en moyenne un facteur 2 pour une perte auditive moyenne (41 55 dB
HL) et en moyenne un facteur 4 pour une perte auditive plus svre (71 90 dB HL).
Cependant, ces valeurs moyennes n'ont qu'une faible valeur indicative individuelle car il
22
existe dans ce domaine une trs forte variabilit inter-individuelle. . La Figure 6 illustre cet
largissement des filtres cochlaires.




Figure 6: Mesure des filtres auditifs centrs sur 1kHz avec la mthode du bruit chancrure
chez cinq sujet atteints d'une surdit unilatrale. En haut sont indiqus les rsultats pour
l'oreille saine, en bas pour l'oreille lse. D'aprs Glasberg et Moore (1986)
23
.2- CARACTERSTQUES DE LA PAROLE


.2.1- LES SONS DE LA PAROLE: PRODUCTON ET CLASSFCATON

La varit des sons constituant la parole est trs grande du fait des multiples
configurations que peut prendre l'appareil phonatoire. Nous expliquerons quelles sont les
bases de fonctionnement du systme de production de la parole et verrons, par la suite, que
deux grandes familles de sons caractristiques de la parole peuvent tre distingues: les
voyelles et les consonnes.


.2.1.1- Description de l'appareil phonatoire

L'appareil phonatoire dcrit sur la Figure 7 se dcompose en quatre lments
collaborant troitement la production de la parole (et du chant): la soufflerie, le vibrateur,
les rsonateurs et le systme articulateur.
La soufflerie consiste en un rservoir d'air: les poumons, lesquels sont actionns par les
muscles du thorax et de l'abdomen.
Le vibrateur est constitu du larynx: un ensemble de cartilages articuls comprenant les
deux cordes vocales; il couronne la trache la manire d'une chemine.
Les rsonateurs sont constitus du pharynx, de la cavit buccale et de la cavit nasale dont
la mise en jeu dpend de la position d'un organe appel voile du palais.
Le systme articulateur comprend la langue, les dents, les lvres, les mchoires et le voile
du palais.
Tous ces lments sont placs sous la dpendance du systme nerveux central et la
configuration qu'ils adoptent module le flux d'air engendr par les poumons au travers de la
trache. On citera comme exemples la mise en vibration ou non des cordes vocales, la
rsonance ou non de la cavit nasale, la position de la langue et des autres articulateurs.
L'ensemble des sons issus de ces multiples configurations permet un locuteur de
constituer un message sonore.
24



Figure 7: Description du systme phonatoire


.2.1.2- Description des voyelles

Les voyelles se caractrisent par un libre passage de l'air partir des cavits supra-
glottiques (c..d pharynx, cavit buccale et fosses nasales). De ce fait, elles transportent une
forte nergie acoustique. Le timbre d'une voyelle ne dpend plus que de trois facteurs
qui sont la mise en rsonance ou non de la cavit nasale, la forme ainsi que le volume du
rsonateur buccal rsultants des constrictions du conduit vocal en divers points et de
l'arrondissement ou non des lvres. Comme le montre Fant (1970) sur la Figure 8, la
configuration adopte par ces diffrents facteurs dtermine une fonction de transfert
caractristique. De fait, l'allure du spectre de l'onde excitatrice (onde glottale) sera module
par cette fonction de transfert et fera merger des zones frquentielles de concentration
d'nergie appele formants.

25



Figure 8: Dcomposition simplifie d'un son vocalique P(f) constitu de deux formants en
une source S(f) (onde glottale) et un filtre, de fonction de transfert T(f), caractrisant la
transmission vocale. D'aprs Fant (1970)


La forme de cette fonction de transfert reste constante au cours de la production de la
voyelle, la rendant assimilable un signal quasi-stationnaire. Les voyelles sont donc
identifiables par la position de leurs formants sur le spectre. Les premiers formants (nots F1
et F2) sont les plus importants pour la caractrisation de la voyelle. L'importance du
troisime formant (F3) est moindre et les formants plus levs sont considrs comme des
traits suprasegmentaux dterminant plutt les caractristiques de la voix du locuteur.
Delattre et al. (1951) proposent de caractriser les voyelles suivant deux axes relatifs aux
valeurs de F1 et F2. Un aperu de l'organisation des voyelles est montr sur la Figure 9.
Cette reprsentation permet de distinguer un triangle dont les extrmits sont le /a/, le /i/
et le /u/.De manire fort intressante, Fant (1970) a tabli une relation distincte entre
l'allure du diagramme de Dellatre et la position de la langue dans la cavit buccale.




26






















Figure 9 : Reprsentation de la localisation spectrale des deux premiers formants
caractristiques de diffrentes voyelles. D'aprs Fant (1970).


.2.1.3- Description des consonnes

Contrairement aux voyelles, le flux d'air provenant des poumons est partiellement ou
totalement obstru au cours de la production d'une consonne. De ce fait leur nergie est
gnralement moins intense que pour les voyelles. Lorsque le passage de l'air est
compltement ferm, le son rsulte de son ouverture subite, on parle dans ce cas de
consonnes occlusives ou plosives (/p t k b d /). nversement, lorsque le passage du
flux d'air bien que rtrci reste continu, on parle de consonnes constrictives.




27

Les traits acoustiques

Comme le soulignent Miller et Nicely (1955), les consonnes prtent notoirement
confusion et jouent un trs grand rle dans l'intelligibilit. Ces confusions ne sont pas
quivalentes et alatoires. Les travaux de Miller et Nicely proposent de prciser les types de
confusion les plus frquemment rencontrs en regroupant au pralable les consonnes
partageant des attributs acoustiques communs. Ces attributs sont aussi appels aussi traits
acoustiques. L'information transmise par chaque trait acoustique est alors quantifie au sens
de la thorie de l'information (cf. annexe 2). Miller et Nicely proposent cinq traits
acoustiques :

1. Voisement
En termes articulatoires, les cordes vocales ne vibrent pas dans la production
des consonnes /p t k f s / mais vibrent pour les consonnes
/b d v z m n l r/. Les premires sont dtes non-voises et les
secondes voises. Acoustiquement, cela signifie que les consonnes non-voises sont
apriodiques, qu'elles ont le caractre d'un bruit, alors que les consonnes voises, se
caractrisent par une composante priodique ou spectre de raies superposes ou
non un bruit.
l semble que les consonnes non-voises soient plus intenses. l apparat que le
bruit expiratoire (explosion) survenant entre la libration de la pression et le dbut
des voyelles est plus intense pour les occlusives non-voises (/p t k/) que pour
les occlusives voises (/b d /) (Zue, 1976). En outre Miller et Nicely notent aussi
que les occlusives non-voises sont peut tre lgrement plus brves que les
occlusives voises. Ainsi, la diffrence articulatoire se reflte par un certain nombre
de diffrences acoustiques.

2. Nasalit
Pour articuler (/m n /), les lvres sont fermes et la pression est libre par le
nez en abaissant le voile du palais l'arrire de la cavit buccale. La rsonance nasale
ainsi produite donne lieu une diffrence acoustique. De plus les consonnes nasales
sont dpourvues de toutes composantes apriodiques (bruit) et, l'instar des voyelles,
elles prsentent avec les consonnes liquides /l r/ une structure formantique (Martin,
1996).

28

3. Stridence (ou fricatives)
Si les articulateurs sont compltement ferms, la consonne est soit une occlusive
soit une nasale, mais s'ils sont trs rapprochs et que l'air doit se frayer un passage
entre eux, il en rsulte une sorte de turbulence, un bruit de friction domin par les
hautes frquences, qui diffrencie /f s v z / de
/p t k b d m n l r/. La turbulence acoustique contraste avec le silence
suivi d'une explosion qui caractrise les occlusives ainsi qu'avec la rsonance quasi
vocalique des nasales.

4. Dure
La dure est le terme que Miller et Nicely ont arbitrairement choisi pour dsigner
la diffrence entre le sous ensemble de fricatives /s z/ et le reste des
consonnes. Ces quatre consonnes sont des bruits longs, intenses et de frquence
leve, mais de l'avis des auteurs, c'est surtout leur dure qui contribue le plus les
sparer des autres consonnes.

5. Lieu d'articulation
La zone, dans la cavit buccale, o l'obstacle au passage de l'air est le plus
important dsigne le lieu d'articulation. De manire gnrale, on peut dire que le point
d'articulation est l'endroit o vient se placer la langue pour obstruer le passage du flux
d'air. On distingue gnralement trois positions:

Articulations antrieures
les lvres (articulations labiales ou bilabiales)
les dents (articulations dentales)
les lvres et les dents (articulations labio-dentales)

Articulations mdianes
les alvoles (c'est--dire les gencives internes des incisives suprieures,
articulations alvolaires)
le palais (vu sa grande surface, on peut distinguer des articulations pr-palatales,
mdio-palatales et post-palatales)
le voile du palais (palais mou, articulations vlaires)

Articulations postrieures
la luette (articulations dites uvulaires)
le pharynx (articulations pharyngales)
29
la glotte (articulations glottales)
On peut ainsi rassembler les consonnes /p b f v m/ articules en position
antrieures, les consonnes /t d s z l n/ articules quant elles en position
centrale, et enfin les consonnes /k r/ articules en position postrieure.
Bien qu'il soit facile d'identifier ces trois positions lors de la production des
consonnes, les incidences de la position du point d'articulation sur les proprits
acoustiques sont extrmement complexes. Pour les occlusives, la position du lieu
d'articulation influe sur la partie initiale des formants de la voyelle co-articule
ultrieurement aprs la consonne ainsi que sur la nature de l'explosion caractristique
des occlusives (Ohde et Stevens, 1983 ; Blumstein et Stevens, 1980; van Summers et
Leek , 1997).
La reprsentation acoustique des lieux d'articulation des sons fricatifs est encore
plus difficile prciser. Toutefois, il est aujourd'hui bien avr dans la littrature que
/s z/ centraux se distinguent de / / postrieurs par la prsence d'un pic spectral
situ entre 4 et 5 kHz pour les premiers et entre 2.5 et 3 kHz pour les seconds. Les
fricatives antrieures /f v/ se distinguent des deux autres dans la mesure ou leur
spectre est relativement plat et ne prsente de pics particuliers aucune frquence
(Strevens, 1960; Jassem, 1965; Behrens et Blumstein, 1988a.).
Concernant les consonnes nasales, l'influence acoustique du lieu d'articulation
se manifeste au cours de la priode transitoire entre le murmure qui caractrise la
fermeture du conduit vocal lors de la production d'une consonne nasale et la libration
de pression. Kurowski et Blumstein (1987) ont en effet montr que la fluctuation
d'nergie entre le murmure et la libration de la pression tait plus grande entre 400
et 800 Hz qu'entre 1300 et 2300 Hz pour la labiale /m/ et inversement pour l'alvolaire
/n/.

Bien que cette classification en cinq lments ralise par Miller et Nicely (1955)
semble quelque peu sommaire et masque certainement une multitude de mcanismes
complexes, elle continue tre rgulirement utilise dans les diffrentes tudes sur
l'intelligibilit des signaux de parole. Le Tableau 1 prsente une classification de diffrentes
consonnes du franais selon ces 5 traits acoustiques.




30

Tableau 1: Classification de 17 consonnes du franais selon les 5 traits acoustiques
proposs par Miller et Nicely (1955).

A ce stade de la lecture, le lecteur peut se reporter l'annexe 2 o est dcrit le calcul
de l'information transmise - au sens de la thorie de l'information par chaque trait
acoustique partir de la matrice de confusion phontique.


.2.2 - CARACTERSTQUES PHYSQUES A LONG TERME DE LA PAROLE

ntressons nous maintenant la parole observe sur une fentre temporelle
beaucoup plus longue. A cette chelle, le signal de parole est aujourd'hui trs bien
caractris physiquement par son contenu spectral, son intensit ainsi que ses fluctuations
temporelles.


.2.2.1- Caractristiques spectrales

Selon la langue, les voyelles utilises (structures formantiques) ainsi que les
frquences d'apparition de diffrents phonmes, sont trs variables. Cependant Byrne et al.
(1994) ont montr que ces facteurs n'avaient qu'une influence minime sur le spectre long
terme de la parole que les auteurs instaurent en consquence comme universel. L'allure du
voisement nasalit stridence dure lieu
/p/ 0 0 0 0 0
/t/ 0 0 0 0 1
/k/ 0 0 0 0 2
/b/ 1 0 0 0 0
/d/ 1 0 0 0 1
// 1 0 0 0 2
/f/ 0 0 1 0 0
/s/ 0 0 1 1 1
// 0 0 1 1 2
/v/ 1 0 1 0 0
/z/ 1 0 1 1 1
// 1 0 1 1 2
/l/ 1 0 0 0 1
/r/ 1 0 0 0 2
/m/ 1 1 0 0 0
/n/ 1 1 0 0 1
// 1 1 0 0 2
31
spectre long terme de la parole est donc majoritairement domine par les caractristiques
des mcanismes de production de la parole. Comme on peut le remarquer sur la Figure 10,
une diffrence notable apparat entre les locuteurs femmes et hommes pour les frquences
infrieures 250 Hz. Le fondamental pharyng (frquence fondamentale du son complexe
acoustique mis dans la cavit pharynge) tant d'environ 150 Hz pour les hommes et 250
Hz pour les femmes, cela explique sans aucune ambigut la diffrence observe entre les
deux sexes.

Figure 10: En traits continus; le spectre long terme obtenu par moyennage sur 12 langues
diffrentes. En dessous de 160 Hz le spectre obtenu pour les hommes et les femmes est
considr sparment car l'nergie apparat nettement suprieur chez les hommes ces
frquences. Les autres points identifient le spectre obtenu pour la langue franaise seule,
hommes et femmes considrs sparment. Le degr de significativit de l'cart entre ces
points et le spectre universel est reprsent par un code indiqu dans la lgende.
D'aprs Byrne et al. (1994).


.2.2.2- ntensit

A un niveau de conversation normal, l'intensit moyenne de la parole a t mesure
aux alentours de 72 dB SPL 20 cm du locuteur soit 58 dB SPL 1 mtre. (Byrne et al.
1994).
La dynamique de l'intensit de la parole est, elle aussi, identique d'une langue une
autre. La diffrence entre le L
eq
, le niveau rms de la totalit du signal, et L
1
, le niveau rms
que le signal dpasse 1% du temps, oscille entre 10 et 12 dB (French et Steinberg, 1947 ;
Cox et al., 1988 ;. Byrne et al. 1994).
32
2.2.3- Dbit

Houtgast et Steeneken en 1985 ont caractris les fluctuations d'amplitude des
signaux de parole. Pour cela, ils ont calcul le spectre de modulation moyen - analyse de
l'enveloppe temporelle des signaux par transforme de Fourier - de fragments de parole.
Bien que la provenance de ces fragments taient d'origines diverses, les rsultats des
spectres de modulation sont trs homognes et laissent apparatre un pic caractristique
autour de 3 Hz correspondant au dbit syllabique. Des rsultats du mme ordre ont t
obtenus par Plomp (1983) qui observe un maximum 4Hz.








33
.3- QUELQUES DONNEES SUR L'NTELLGBLTE DE LA PAROLE

.3.1- PREAMBULE

.3.1.1- ndices pour la reconnaissance de la parole

Du point de vue acoustique, la parole est un signal complexe prsentant la fois une
structure dans le domaine spectral et dans le domaine temporel. Ainsi, l'identification des
sons de la parole repose sur (1) la perception d'indices frquentiels fournis par le traitement
tonotopique de la cochle, et (2) la perception d'indices temporels. Les indices frquentiels
rfrent la structure proprement spectrale du signal et peuvent tre la fois statiques
comme les formants des voyelles ou dynamiques comme les transitions formantiques
caractrisant l'articulation entre deux phonmes. Les indices temporels rfrent aux
fluctuations du signal de parole. Elles peuvent sommairement tre divises en deux groupes:
Les fluctuations lentes (entre 2 et 50 Hz) correspondent aux informations transmises par
l'enveloppe du signal au sens strict; parmi elles on pourra citer l'intensit, la dure ainsi que
les temps d'attaque et de chute. Les fluctuations plus rapides ( > 50 Hz) rfrent la
priodicit du signal. Elles correspondent aux informations, autres que l'enveloppe
temporelle, obtenues par le mcanisme de verrouillage de phase dans les diffrents filtres
auditifs. Les fluctuations comprises entre environ 50 et 800 Hz vhiculent des informations
sur la priodicit du signal, et en particulier, la frquence fondamentale, encore appele
fondamentale larynge ou F
0
(Terhardt, 1972a; Terhardt, 1972b).


.3.1.2- nfluence des indices temporels et frquentiels

Les sujets malentendants prsentent des troubles de la comprhension de la parole,
notamment du fait qu'une part des informations auditives sont inaudibles. Cependant, Turner
et Robb (1987) ont montr que les mauvais scores d'identification observs chez les
malentendants n'taient pas uniquement imputable la perte d'audibilit. La baisse de
slectivit frquentielle, limitant l'accs aux indices spectraux, peut tre suspecte comme
responsable pour une part non ngligeable des troubles rencontrs par les malentendants
pour identifier les signaux de parole. Pour en savoir davantage, il apparat important de
caractriser le rle des indices frquentiels pour l'identification des signaux de parole en
spcifiant leur importance par rapport aux indices temporels; notamment les indices
temporels d'enveloppe, auxquels, soit dit en passant, les sujets malentendants peuvent avoir
accs condition de restaurer l'audibilit par amplification (Turner et al., 1995). Cette
34
question a fait l'objet de nombreuses tudes ces dernires annes. Selon que les signaux
sont prsents en l'absence ou la prsence d'un bruit extrieur; selon que le bruit extrieur
est stationnaire ou fluctuant, l'importance relative des indices temporels et frquentiels pour
la perception de la parole est trs contraste. En effet, alors que dans le silence les
performances de reconnaissance restent leves mme aprs une forte dgradation des
indices frquentiels, l'effet dltre de la dgradation de ces indices s'accrot notablement en
prsence d'un bruit concurrent. Dans la suite de ce travail nous nous attacherons
prsenter une brve revue de travaux ayant valu l'importance relative des indices
frquentiels par rapport aux indices temporels dans trois conditions: dans le silence, en
prsence d'un bruit stationnaire, en prsence d'un bruit fluctuant. .


.3.2 ROLE DES NDCES SPECTRAUX ET DES NDCES D'ENVELOPPE POUR
LA RECONNASSANCE DE PAROLE DANS LE SLENCE

L'valuation de l'importance des indices spectraux par rapport aux indices temporels
a t value selon deux mthodes. Une premire mthode consiste effectuer des
degrs divers un lissage des informations spectrales. Une seconde approche
substantiellement diffrente consiste reconstituer le signal acoustique partir d'une
somme de sinus ou de bandes de bruits pralablement moduls par les enveloppes
temporelles du signal de parole en sortie de diffrents canaux.


.3.2.1- Lissage spectral

ter Keurs, Festen et Plomp (1992)

Dans cette tude, les auteurs ont conu un traitement digital des signaux de parole
permettant d'valuer l'influence d'un lissage de l'enveloppe spectrale sur l'identification de
phrases, de voyelles et de consonnes chez 16 sujets normo-entendants. Le traitement inclue
(1) la convolution des spectres courts termes avec un filtre gaussien pour dgrader
l'information spectrale et (2) une reconstruction temporelle par overlapp add (Allen, 1977)
pour obtenir des signaux continus. En adaptant la bande passante des filtres gaussiens, les
auteurs ont liss l'nergie spectrale comprise entre 100 et 8000 Hz par bandes d'1/8 4
octaves pour les phrases, et par bandes d'1/8 2 octaves pour les voyelles et les
consonnes.
Les rsultats obtenus indiquent que tant que le lissage n'affecte pas les contrastes
spectraux sur des bandes plus larges que la largeur des filtres auditifs alors les scores
35
d'intelligibilit ne souffrent pas d'un tel traitement. L'analyse des confusions sur les
consonnes rvle qu'une majorit des erreurs porte sur l'identification du lieu d'articulation.


Boothroyd et al. (1996)

Dans une tude plus rcente de Boothroyd et al. (1996), le traitement du signal
employ pour le lissage spectral est sensiblement diffrent de celui dcrit prcdemment. Le
lissage spectral est ralis par traitement analogique dans le domaine temporel et consiste
multiplier le signal de parole par un bruit blanc filtr passe bas. La largeur de la bande sur
laquelle est applique le lissage correspond deux fois la frquence de coupure du filtre
passe-bas. Par rapport au traitement du signal utilis dans l'tude de ter Keurs et al. (1992),
l'emploi de cette technique permet non seulement de dgrader l'enveloppe spectrale du
signal mais aussi la structure harmonique fine. Nanmoins, l'emploi de ce type de traitement
reste sujet une critique: en effet, avec ce procd, bien qu'on ne puisse parler de lissage
de l'enveloppe temporelle, viennent s'ajouter aux variations d'amplitude du signal original
des fluctuations temporelles alatoires.
Les rsultats indiquent qu'un lissage spectral appliqu sur des bandes de 250Hz
affectait lgrement mais significativement l'identification de logatomes CVC (consonne-
voyelle-consonne). Les performances d'identification obtenues pour un lissage effectu sur
une bande de 8 kHz ne diffrent pas de celles obtenues avec des lissages effectus sur des
largeurs plus importantes. Ce rsultat indique que la bande passante utile de sujets normo-
entendants est de l'ordre de 10 kHz. Les voyelles, quasi-stationnaires et caractrises par
une structure formantique sont beaucoup plus affectes par le lissage spectral que les
consonnes fortement apriodiques et pour une bonne partie sans structures formantiques.
De plus, l'analyse des erreurs sur les consonnes rvle que le lieu d'articulation, plus que les
autres traits acoustiques, est sensible au lissage spectral confirmant l'observation de ter
Keurs et al. (1992).


.3.2.2- La parole comme bandes de bruits modules

Les tudes prcdentes suggrent que de trs bonnes performances d'identification
de la parole peuvent tre obtenues en ayant recours aux indices temporels dont font partie
les informations vhicules par l'enveloppe temporelle du signal. L'tude que nous allons
prsenter la suite de ce document caractrise les performances d'identification de la parole
sur la seule base des indices temporels d'enveloppe.
36
Shannon et al. (1995)

Shannon et al. (1995) ont dvelopp un algorithme de traitement du signal simulant
l'analyse acoustique ralise par un implant cochlaire (un vocoder) . Son principe consiste
utiliser les enveloppes temporelles obtenues par filtrage passe bas du signal de parole
filtr dans n bande(s) spectrale(s), pour moduler n bande(s) de bruits blancs dlimite(s) par
les mmes frquences de coupures que les bandes de parole considres. Avec un tel
traitement, la dgradation de l'ensemble de la structure spectrale, s'ajoute la suppression
des informations vhicules par la structure temporelle fine (fluctuations rapides).
L'intelligibilit de la parole ne dpend alors plus que des informations temporelles
d'enveloppe fournies par les n bandes de bruits.
La Figure 11 indique que de trs bonnes performances d'identification peuvent tre
atteintes sur la base d'indices temporels primaires. Sur la base des indices temporels
d'enveloppe et d'une rsolution frquentielle minimale ne comprenant que 4 bandes de bruit,
la performance des sujets avoisine, et parfois mme dpasse les 90% pour l'identification
des voyelles, des consonnes ou des mots. Ces rsultats sont remarquables et soulignent la
pertinence des informations vhicules par les indices d'enveloppe temporelle pour
l'identification des signaux de parole. Cependant, l'analyse des erreurs sur les consonnes
traduit une fois encore que l'identification du lieu d'articulation est trs rapidement affecte
par une restriction des indices spectraux.

Figure 11: Les scores de reconnaissance de consonnes (A), de voyelles (B), et de phrases
(C), chez 8 sujets, sont reprsents en fonction du nombre de bandes de bruit. Les barres
en pointills reprsentent les performances obtenues en rpondant au hasard dans les
conditions (A) et (B). Les ronds noirs correspondent aux rsultats obtenus lorsque les
enveloppes sont obtenues par filtrage passe bas en dessous de 50 Hz (50Hz, 160Hz et 500
Hz ), alors que les triangles vides correspondent une frquence de coupure de 16 Hz.
D'aprs Shannon et al. (1995)

37
.3.3- ROLE DES NDCES SPECTRAUX ET NDCES D'ENVELOPPES POUR LA
RECONNASSANCE DE PAROLE DANS UN BRUT STATONNARE

L'ensemble des rsultats prsents plus haut n'attribue qu'une influence limite de la
rduction de la rsolution spectrale sur l'intelligibilit. Les effets dltres de la rduction des
contrastes spectraux n'mergent rellement que dans la mesure o l'accs la structure
formantique de l'enveloppe spectrale est affecte.
On serait alors tent de penser que les proprits de slectivit frquentielle ne
jouent qu'un rle mineur dans les mcanismes sous-tendant la reconnaissance de signaux
de parole. Cependant, les expriences dcrites prcdemment sont ralises sans
interfrences avec un bruit extrieur. Pour tester l'influence d'un bruit sur les mcanismes
mis en jeu dans la reconnaissance de la parole, les expriences de lissage spectral et de
reconstruction de la parole partir de sinusodes ou de bruits de bandes moduls ont t
reconduites en prsence d'un bruit extrieur stationnaire.

.3.3.1- Lissage spectral

Baer et Moore (1993)

Pour les besoins de cette tude, la technique de lissage spectral utilise rfre au
modle ralis par Moore et al. (1992) simulant les consquences sur le codage tonotopique
d'une diminution de la slectivit frquentielle. Les auteurs cherchent lisser les signaux de
parole de telle manire ce qu'ils voquent pour une oreille saine, les mme patterns
d'excitation que ceux produits par une oreille lse pour des signaux non lisss. A cet effet la
technique utilise est proche de celle dj utilise par ter Keurs et al. (1992) en ce sens
qu'elle convolue les spectres court terme puis reconstruit les squences temporelles par
une technique d'overlapp add (Allen, 1977). La diffrence majeure rside dans le fait que
la fonction utilise pour la convolution est dtermine partir de l'effet d'une augmentation
de la largeur des filtres auditifs sur les patterns d'excitation.
Cette fois ci, l'influence de la dgradation des indices spectraux sur l'intelligibilit de
phrases a t mesure en la prsence et en l'absence d'un speech shaped noise
1

stationnaire; lequel est mix au signal de parole un rapport signal/bruit fix 0 et 3 dB
avant que le lissage spectral soit effectu.



1
Un Speech shaped noise dsigne un bruit dont le spectre de puissance long terme est identique
celui de la parole.
38
Comme on le voit sur la Figure 12, les rsultats indiquent, une fois de plus, que l'effet
du lissage spectral sur l'intelligibilit dans le silence est trs faible, et ce mme lorsque le
lissage simule des filtres auditifs six fois plus larges qu' la normale. En revanche,
l'intelligibilit de la parole dans du bruit est beaucoup plus affecte par le lissage spectral,
spcialement pour de forts degrs de lissage et des rapports signal/bruit bas (-3 dB). Ce
rsultat suggre que les indices frquentiels jouent un rle particulirement significatif en
prsence d'un bruit.


Figure 12. Pourcentage de mots cls correctement identifis pour trois degrs de lissage
spectral et trois degrs de mixage avec un bruit extrieur. D'aprs Baer et Moore (1993)


.3.3.2- La parole comme sinusodes ou bandes de bruits modules

Dorman et al. (1998)

Dorman et al. (1998) ont test l'intelligibilit de phrases pralablement traites la
manire d'un implant cochlaire. Le procd est assez proche de celui conu par Shannon
et al. 1995, la diffrence prs que des sinusodes plutt que des bandes de bruits sont
39
utilises. Les diffrents traitements consistent en un filtrage passe bande du signal de
parole, une rectification pleine, filtrage passe bas du signal dans chaque bande, une
estimation de l'nergie rms du signal dans chaque bande (calcule toutes les 4 ms) et
finalement la gnration de sinusodes de mmes frquences que les frquences centrales
des bandes considres et de mmes nergies que les nergies rms calcules dans chaque
bande. Les stimuli que doivent identifier les sujets sont constitus par la somme de ces
sinusodes. En tout, 6, 8, 12, 16 ou 20 canaux peuvent tre conservs et deux conditions de
bruit de fond sont considres; savoir l'ajout d'un speech shaped noise stationnaire un
rapport signal/bruit de 2 ou 2 dB.
Pour un rapport signal/bruit de 2 dB, les performances maximales (valeurs
asymptotiques) sont atteintes pour 12 canaux de stimulation alors que pour un rapport
signal/ bruit de 2dB, les performances maximales sont atteintes pour 20 canaux de
stimulation. Comme lment de comparaison par rapport une situation sans ajout de bruit
extrieur, une tude antrieure de Dorman et al. (1997) montre que dans le silence, 5
canaux de stimulation seuls sont suffisants pour atteindre une intelligibilit maximale.


Fu et al. (1998)

Fu et al. (1998) ont utilis le vocoder mis au point par Shannon et al. (1995) dcrit
dans la section prcdente. Leur but est d'valuer l'intelligibilit de voyelles et de consonnes
en prsence d'un speech shaped noise stationnaire diverses intensits (rapport signal/
bruit allant de 24 15 dB). Le nombre de canaux frquentiels conservs peut tre de 3, 4, 8
ou 16.
Les rsultats indiquent que dans le silence, avec 16 canaux de stimulation, les scores
d'intelligibilit avoisinent ceux obtenus pour de la parole non dgrade: seulement 5%
d'erreurs sparent la condition dgrade et la condition non dgrade. Par contre pour un
rapport signal/bruit de 6 dB, la diffrence entre la parole reconstitue dans 16 bandes et la
parole non traite atteint 30%. Fu et al. 1998 concluent que l'importance de l'information
spectrale fine pour la reconnaissance de la parole s'accentue en milieu bruit. Les auteurs
suggrent que la baisse de slectivit frquentielle est certainement l'origine de la perte
d'indices perceptifs pouvant tre utiliss dans les mcanismes de dtermination d'une
source sonore, comme par exemple l'harmonicit ou le synchronisme des modulations
temporelles dans les diffrents filtres auditifs (Yost and Sheft, 1993), rendant l'intelligibilit de
la parole particulirement susceptible l'ajout de bruit.

40
.3.4- ROLE DES NDCES FREQUENTELS ET NDCES D'ENVELOPPES POUR
LA RECONNASSANCE DE PAROLE DANS UN BRUT FLUCTUANT

Le rle de la slectivit frquentielle pour la reconnaissance de signaux de parole se
manifeste en milieu bruit. Du fait que la slectivit frquentielle de sujets malentendants est
moins bonne que celle de sujets normo-entendants, les diffrences de performances entre
ces deux populations se manifestent de manire plus accrue en prsence d'un bruit extrieur
(Peters et al. 1998). Certaines tudes (Festen et Plomp, 1990; Gustafsson et Arlinger, 1994;
Peters et al., 1998) montrent que la diffrence entre les sujets normo- et malentendants est
encore plus prononce lorsque le bruit masquant fluctue au cours du temps ou qu'il prsente
des trous spectraux.
Trs rcemment, Qin et Oxenham (2003) se sont intresss caractriser
l'intelligibilit de phrases en prsence de diffrents bruits masquant (speech shaped noise
stationnaire, speech shaped noise modul, locuteur homme concurrent, locuteur femme
concurrent). Dans une premire condition exprimentale, les signaux de parole n'taient pas
traits. Dans les 3 autres conditions, les phrases taient pralablement soumises un
traitement type vocoder sur 4, 8 et 24 canaux frquentiels similaire celui propos par
Shannon et al. (1995).
Cette tude, sur laquelle nous allons nous concentrer dsormais, apporte non
seulement un nouvel clairage sur le rle des indices frquentiels en prsence d'un bruit
fluctuant, mais pose aussi une question trs intressante sur le rle de la structure
temporelle fine pour l'identification de sons de la parole en situation d'coute concurrente.


.3.4.1- nfluence de la slectivit frquentielle

Qin et Oxenham (2003) observent qu'en prsence d'un bruit, qu'il soit stationnaire ou
fluctuant, les performances des auditeurs sont plus mauvaises avec les signaux traits par le
simulateur d'implant qu'avec les signaux non traits (Figure 13 a). Les rsultats obtenus par
Qin et Oxenham (2003) utilisant des signaux de parole comme bruits de masquage,
corroborent ceux d'une tude prcdente mene par Baer et Moore (1994) caractrisant
l'effet d'un lissage spectral sur les performances d'identification de la parole en prsence de
parole concurrente.
Ainsi, en prsence d'un bruit de quelque nature qu'il soit, l'importance des indices
frquentiels pour la reconnaissance de la parole est manifeste. l est pourtant surprenant
d'observer que cette diminution des performances intervient mme lorsque 24 canaux sont
conservs. En effet, avec 24 canaux, la rsolution en frquence obtenue est trs proche de
41
celle de sujets normo-entendants. Ce constat semble rvler l'importance des informations
vhicules par la structure temporelle fine (fluctuations rapides) limines par le traitement
type vocoder et nous conduit au paragraphe suivant.


.3.4.2- Effets potentiels de la suppression de la structure temporelle fine

Un second aspect des rsultats de Qin et Oxenham (2003), (cf. Figure 13 b), indique
que lorsque la parole n'est pas traite, le speech shaped noise stationnaire a le plus fort
pouvoir masquant, ensuite vient le speech shaped noise modul puis le locuteur concurrent.
Ces observations sont conformes de nombreuses tudes mettant en vidence l'aptitude
des sujets tirer bnfice des trous temporels et spectraux ventuels contenus dans le bruit
masquant (Festen et Plomp, 1990; Peissig et Kollmeier, 1997; Peters et al., 1998).
En revanche, comme on peut le voir sur la Figure 13 b, lorsque la parole est traite,
cette hirarchie se modifie et le masquage par un locuteur concurrent devient plus invalidant
qu'un speech shaped noise modul et un speech shaped noise stationnaire. En somme, plus
l'aptitude discriminer la cible du bruit masquant est ncessaire - comme c'est le cas pour
discriminer une phrase en prsence d'un locuteur concurrent - plus l'influence du traitement
est grande.
Les rsultats obtenus offrent aux auteurs une occasion indite de discuter les
consquences sur la perception de la parole d'une diminution des indices codant la
frquence fondamentale F
0
la suite d'une dgradation de la structure temporelle fine
provoque par un traitement similaire celui ralis par un implant cochlaire.
En effet, la perception de la hauteur d'un signal et l'aptitude discriminer diffrentes
frquences fondamentales (F
0
s) est suggre comme tant fortement fonde sur les
informations contenues par la structure temporelle fine, car celle ci permet un codage prcis
des harmoniques rsolues aux basses frquences (Plomp, 1967; Houtsma et Smurzinsky,
1990; Smith et al., 2002). La frquence fondamentale joue un rle trs important pour la
sgrgation de sources sonores (Brokx et Nooteboom, 1982; Assmann et Summerfield,
1990; 1994; Bird et Darwin, 1998; Vliegen et Oxenham, 1999; Darwin et Carlyon 1995 pour
une revue). l apparat raisonnable de penser qu'une rduction des indices permettant
d'identifier le F
0
, entrane un dficit dans l'aptitude des sujets sparer un son cible d'un son
masquant et donc des difficults supplmentaires discriminer une phrase en prsence d'un
locuteur concurrent.



42

























Figure 13:
(a) Rapports signal/bruit correspondant un seuil d'intelligibilit de 50 % en fonction des
diverses conditions de traitement du signal de parole ainsi que de la nature du bruit
masquant.
(b) Diffrences entre les seuils d'intelligibilit 50% entre le speech shaped noise
stationnaire et (1) un locuteur homme, (2) un locuteur femme et (3) le speech shaped
noise modul. Les diffrences significatives au critre des 95% sont indiques par une
astrisque.
D'aprs Qin et Oxenham (2003).

43
.4- PREDRE L'NTELLGBLTE DE LA PAROLE : APPLCATONS EN
AUDOLOGE


.4.1- ARCHTECTURE CLASSQUE DES MODELES PREDCTFS DE
RECONNASSANCE DE LA PAROLE

Dans les annes 1950, le dveloppement du tlphone a demand la mise au point
de modles macroscopiques de reconnaissance de la parole dans le but de prdire
l'intelligibilit pour diffrents systmes de tlcommunication. Les modles microscopiques
diffrent des modles macroscopiques dans le sens o ils s'intressent aux dtails du signal
de parole comme les transitions formantiques ou la dure d'attaque. Les modles
macroscopiques eux, se contentent pour la plupart uniquement de l'analyse du spectre
moyen long terme de la parole obtenu sur une population de locuteurs hommes et
femmes. Dans la suite de ce document nous prsenterons deux des principaux modles. Le
premier, ayant fait l'objet d'une norme, est appel aujourd'hui le Speech Intelligibility Index
(S) (ANS, S3-5 1997) mais beaucoup s'y rfrent encore sous son appellation d'origine:
L'Articulation Index (AI) (ANS, S3-5 1969). Le second modle que nous ne prsenterons
que trs brivement est le Speech Transmission Index (ST) dvelopp par Houtgast et
Steeneken (1980).


.4.1.1- Modle A

Le but du modle A est de prdire les performances de reconnaissance dans des
conditions o l'audibilit du signal de parole est manipule par filtrage, masquage et/ou des
ajustements de l'intensit sonore. Le principe instaur par French et Steinberg (1947) est de
considrer l' A une variable intermdiaire corrle avec les scores d'intelligibilit comme
dpendante de l'audibilit du signal dans un certain nombre de bandes frquentielles
adjacentes.
l est assum que la contribution d'une bande est indpendante de la contribution
apporte par les autres bandes. La contribution effective de chaque bande considre est
dtermine par le calcul d'un rapport signal/bruit. Si ce dernier est au dessous d'un seuil
minimal, il est estim que la bande spectrale concerne ne contribue pas l'intelligibilit du
signal de parole. En revanche, pour des rapports signal/bruit dpassant ce seuil, la
contribution de la bande augmente linairement avec le rapport signal/bruit jusqu' atteindre
une valeur asymptotique lorsque le rapport signal/bruit dpasse de 30 dB le seuil minimal.
44
Pratiquement, la plage de variation du rapport signal/bruit est gnralement comprise entre
-12 et +18 dB. Le modle assume galement que les pics spectraux fournissent la plus
grande partie de l'information, l'nergie les caractrisant est de 12 dB suprieure au niveau
RMS (Root Mean Square) du signal d'aprs French et Steinberg (1947).

Le calcul de l'A peut donc se rsumer par une simple quation:

=
=
n
i
i i
A AI
1


n est le nombre de bandes de parole considr.
i
A caractrise la contribution de la
bande; la contribution est nulle pour
i
A nul et maximale pour
i
A gal 1. Cette valeur est
directement relie la proportion audible de la parole dans la bande considre (au dessus
du seuil de perception du sujet ou du niveau d'un bruit extrieur), cette quantit est dfinie
mathmatiquement de la manire suivante 30 / ) 12 ( + =
i i
RSB A o
i
RSB dsigne le rapport
signal/bruit au sein de la bande i . Enfin
i
reprsente l'importance de la bande i
l'intelligibilit de la parole. L'A est une valeur comprise entre 0 et 1: une valeur de 0 signifie
que la parole sera compltement inintelligible alors qu'une valeur de 1 signifie qu'un optimum
d'intelligibilit est atteint. La Figure 14 rsume le processus simplifi du fonctionnement de
l'index d'articulation.

















45


























Figure 14: Schma synoptique simplifi du calcul de l' Articulation index


.4.1.2-Modle ST

Un autre modle macroscopique de reconnaissance de la parole couramment utilis
en acoustique des salles est le ST (Speech transmission index) dvelopp par Steeneken
et Houtgast en 1980. De manire similaire l'A, ce modle considre un systme compos
de plusieurs bandes de paroles auxquelles sont attribues des poids refltant l'importance
de chacune d'entre elles pour la reconnaissance de la parole. La contribution de chaque
bande l'intelligibilit est elle mme indpendante des autres bandes. Le ST est le pendant
temporel du modle A de French et Steinberg (1947) dans le sens ou le modle cherche
non pas caractriser la proportion d'indices spectraux audible mais la transmission des
1
A

2
A

i
A

n
A

1


X X X X
. .


Spectre moyen long
terme de la parole
Bruit
interne
+
Bruit
externe
bande 1 bande 2
.
bande i bande n
A
m
p
l
i
t
u
d
e

(
d
B
)

. Frquence
46
fluctuations temporelles dans dans chaque bande. La transmission des indices temporels est
estime partir d'une fonction de transfert de modulation caractrisant pour diffrentes
frquences la transmission des modulations.


.4.2- DETERMNATON DES FONCTONS D'MPORTANCE

La dtermination des fonctions d'importance est une composante essentielle des
modles que nous avons prsents prcdemment. Pour French et Steinberg (1947), les
poids refltent la contribution de chaque bande lorsque celles-ci se trouvent dans des
conditions optimales d'intensit. Leur protocole consiste mesurer l'intelligibilit dans
diffrentes conditions de filtrages passe-haut et passe-bas ainsi que pour diffrentes
intensits. La Figure 15 donne un exemple de rsultats directement issus des travaux de
French et Steinberg.


Figure 15: A gauche: Scores d'identifications de syllabes consonnes-voyelles-consonnes
filtres passe-bas aux frquences de coupures indiques. A droite : Scores d'identifications
de syllabes consonnes-voyelles-consonnes filtres passe-haut aux frquences de coupures
indiques. D'aprs French et Steinberg (1947)




47
En combinant cet ensemble d'informations les auteurs parviennent driver des
fonctions exprimant l'importance relative de zones frquentielles donnes l'intelligibilit de
la parole. La mthode dtaille de drivation est expose dans le paragraphe suivant dont la
lecture peut s'avrer fastidieuse pour le lecteur dsireux de n'obtenir qu'une ide gnrale
de la dtermination des fonctions d'importance.


.4.2.1- Mthode

Nous expliquerons la mthode utilise par French et Steinberg (1947) par un
exemple. Les auteurs cherchent diviser le domaine frquentiel en bandes contribuant pour
une mme part l'intelligibilit. A cet effet, il faut au pralable tablir une correspondance
entre le score d'intelligibilit et diffrentes valeurs de l'A. French et Steinberg font
l'hypothse que lorsqu'on se situe dans des conditions optimales d'intensit pour le systme
(c..d l'intensit pour laquelle le score d'intelligibilit est optimum en condition large bande)
alors chaque bande frquentielle considre sparment est elle mme en condition
optimale, et donc l'
i
A est gal 1 pour chacune d'entre elles. Dans ces conditions - gain de
+10 dB par rapport la rponse dite orthotlphonique - la parole est parfaitement audible,
et donc A =1. Ainsi comme l'indique la Figure 16, pour cette condition d'intensit, le point
d'intersection des courbes reprsentant l'volution des scores de reconnaissance pour les
deux conditions de filtrage - passe-haut et passe-bas - dtermine la frquence (1900 Hz) qui
spare le domaine frquentiel en 2 bandes de mme contribution, c..d en deux bandes dont
la contribution l'intelligibilit correspond A=0.5. Notons au passage que cette frquence
est aujourd'hui communment appele frquence d'intersection (crossover frequency). La
frquence d'intersection correspond une intelligibilit de 68%; cela signifie que lorsque
seule une moiti de la contribution totale du spectre de la parole l'intelligibilit n'est audible
(A=0.5), le score de reconnaissance obtenu est de 68%.
La poursuite de la procdure consiste identifier l'intensit pour laquelle, en condition
large bande, une intelligibilit de 68% est atteinte. Pour cela, il suffit de se reporter sur la
partie gauche de la Figure 15 et de considrer la condition de filtrage passe-bas avec une
frquence de coupure 7000 Hz. On identifie de cette manire la condition d'intensit pour
laquelle, en prsence de tout le spectre, l'A est de 0.5. L'intensit recherche correspond
un gain de 30.6 dB par rapport la rponse dite orthotlphonique. Comme indiqu sur la
Figure 16, pour un tel niveau sonore, le point d'intersection des courbes reprsentant
l'volution des scores de reconnaissance de chacune des deux conditions de filtrage (passe-
haut et passe-bas) permet de dterminer l'intelligibilit correspondant un A=0.25.
48
L'intelligibilit correspondante est situe 25%. De faon identique, on dtermine qu'une
intelligibilit de 8% correspond un A=0.125 et ainsi de suite.




Figure 16: Scores d'identification de syllabes consonnes-voyelles-consonnes en conditions
passe-bas et passe-haut lorsque la rponse dite orthotlphonique du systme et rgle
deux intensits diffrentes (+10 dB et -30.6 dB). A0 est l'index d'articulation correspondant
au rglage optimal du systme et peut tre considr comme gal 1. D'aprs French et
Steinberg 1947


Pour dterminer l'A correspondant une intelligibilit suprieure 50%, il faut se
rfrer de nouveau aux courbes obtenues pour l'intensit optimale, soit un gain de +10 dB. l
est dsormais connu qu'une intelligibilit de 25% correspond un A=0.25. Cette information
permet de dterminer en se reportant sur la Figure 16 qu'en condition optimale, un
filtrage passe-bas aux alentours de 950 Hz correspond un A=0.25. Dans la mesure o en
conditions optimales, la somme des contributions de deux filtres de mme frquence de
49
coupure, l'un passe-haut et l'autre passe-bas, doit aboutir un A=1; on dtermine alors qu'
un filtrage passe-haut de frquence de coupure 950 Hz correspond un A=0.75. l peut ds
lors facilement tre dduit de la Figure 16 qu'une intelligibilit de 90% correspond un
AI=0.75.
Ce processus ritr un certain nombre de fois permet d'obtenir la courbe
reprsente sur la figure 17 (partie gauche) reliant l'intelligibilit l'A. A partir de cette
relation, il est maintenant possible d'obtenir un lien direct entre la frquence de coupure du
filtre et l'A comme le montre la figure 17 (partie droite) et ce pour les diverses intensits
testes. Sous l'hypothse de linarit statue par French et Steinberg (1947) Lorsque le
systme est en condition optimale alors chaque bande est en condition optimale
2
- ,
l'importance d'une bande correspond la fraction d'A qu'elle reprsente sur la courbe
prcdente.
















Figure 17. A gauche: relation entre le score d'identification des syllabes CVC et l'index
d'articulation. A droite : relation entre l'index d'articulation et la frquence de coupure du filtre
passe-bas pour trois diffrents rglages du gain ou rponse orthotlphonique du systme.
D'aprs French et Steinberg (1947)





2
Cette hypothse a t teste par les auteurs et ne s'est trouve que partiellement vrifie. Les
auteurs montrent comment approfondir plus en dtail la mthode pour considrer rellement la
contribution de chaque bande lorsqu'elle est en condition optimale. Cependant les rsultats obtenus
ne diffrent pas significativement par rapport ceux obtenus en ne considrant que la rponse
optimale du systme.
50
.4.2.2- Exemples de fonctions d'importances : Commentaires

Pour des syllabes CVC

Les mesures d'intelligibilit effectues par French et Steinberg en 1947 ont t
ralises avec des syllabes CVC n'ayant aucune signification. La courbe en trait continu de
la Figure 18 reprsente la fonction d'importance obtenue en considrant les 22 bandes
critiques mesures par Zwicker (1961). Cette fonction prsente un pic pour les quatorzime
et quinzime bandes critiques, ce qui correspond aux frquences aux alentours de 2500 Hz.

Figure 18: Fonctions d'importance pour (1) des syllabes sans signification (trait continu) par
French et Steinberg (1947) et (2) du discours continu quotidien ( pointills) par Studebaker et
al. (1987)


Et pour d'autres matriels linguistiques

Les diffrences phonmiques ainsi que les diffrences en termes d'entropie
linguistique (mesure de l'imprvisibilit due au contexte) diffrenciant divers types de
matriel linguistique peuvent influer sur l'allure des fonctions d'importances. C'est pour cette
raison que de nouvelles fonctions d'importances associes de nouveaux types de
matriels linguistiques ont depuis t mesures (Duggirala et al., 1988; Fletcher and Galt,
1950; Studebaker et al., 1987; Studebaker et al., 1991; Studebaker et al., 1993). En traits
51
pointills sur la figure 18 est reprsente pour de la parole continue, la fonction d'importance
frquentielle rsultante de l'tude de Studebaker en 1987. Celle-ci est sensiblement
diffrente dans la mesure o un maximum se dgage 450 Hz et non 2500 Hz comme
c'tait le cas pour les syllabes CVC. Pavlovic (1987) souligne que la direction de ce
dplacement pouvait tre anticipe sur la base des travaux de Miller et Nicely (1955). Ces
derniers ont montr que les confusions phontiques produites dans une condition de filtrage
passe-bas sont beaucoup moins alatoires donc plus prvisibles - que celles ayant lieu
dans une condition de filtrage passe-haut. Ainsi, lorsque l'entropie linguistique n'est pas nulle
comme c'est le cas pour de la parole continue, l'auditeur peut plus facilement dtecter et
corriger ses erreurs sur la base des informations contextuelles provenant des rgions basses
frquences. Plus l'entropie linguistique est leve, plus cet effet est marqu. Cependant,
prcise Pavlovic (1987), d'autres alternatives ou mcanismes additionnels peuvent tre
l'origine du dplacement du pic sur la fonction d'importance. Les mcanismes frquentiels de
traitement de l'information contextuelle contenue dans les messages de parole continue
peuvent notamment expliquer ce dplacement .


.4.3- MESURE DU BNEFCE D'UNE RESTAURATON DE L'AUDBLT CHEZ
LE MALENTENDANT

Le dveloppement d'indices comme l'A ont trouv un cho trs favorable en
audiologie. Bon nombre des outils utiliss aujourd'hui en recherche dans ce domaine se sont
construit sur la base des travaux de Fletcher et Steinberg (1947). Pour conclure cette
quatrime partie, il nous parat particulirement important d'exposer une problmatique pour
laquelle ces outils ont t utilis, savoir l'estimation du bnfice de l'amplification chez les
sujets malentendants.


.4.3.1- Utiliser l'A pour mesurer le bnfice d'une amplification

D'un point de vue perceptif, une perte auditive se caractrise non seulement par une
diminution de l'audibilit mais aussi par d'autres dficits supraliminaires comme la baisse de
la slectivit frquentielle (Turner et Robb, 1987). A ce jour, la fonction principale des aides
auditives conventionnelles est d'amplifier le signal acoustique. Leur action permet par
consquent la restauration de l'audibilit mais ne permet pas d'agir sur la baisse de
slectivit frquentielle. Les proprits de slectivit en frquence du systme auditif
permettent de dcoder les informations vhicules par la structure spectrale fine du signal
52
dont l'importance n'est pas ngligeable pour la comprhension des signaux de parole,
notamment en prsence d'un bruit concurrent. L'apport d'une amplification prothtique sur
l'intelligibilit de la parole ne se rsume qu'au seul bnfice apport par la restauration de
l'audibilit du signal.
S'agissant des troubles de comprhension de la parole que connaissent les sujets
cochlo-lss, le dbat quant au rle rel de la perte d'audibilit par rapport aux autres
dficits supraliminaires associs subsiste. L'utilisation de l' A (ANS S3.5 1969) appel
aujourd'hui S (ANS S3.5 1997) a permis un clairage nouveau de ces questions. En effet,
l'laboration de ces indices repose sur l'hypothse selon laquelle l'intelligibilit est
uniquement fonction de l'audibilit du signal. De nombreux travaux ont donc utilis ces
indices pour quantifier l'audibilit de la parole sur divers types de sujets et dans diverses
situations. La comparaison des performances de sujets cochlo-lss avec les performances
prdites par l'A et/ou S permet d'isoler le rle de l'audibilit sur l'intelligibilit. L'cart entre
les prdictions et les mesures exprimentales permet ainsi d'valuer l'influence des autres
dficits perceptifs supraliminaires associs une perte auditive sur la baisse des scores de
reconnaissance de la parole chez le sujet malentendant.
Cependant, les rsultats obtenus ce jour dans ce domaine restent sensiblement
controverss. D'un ct, plusieurs tudes (Ching et al., 1998; Hogan et Turner, 1998; Turner
et Cummings, 1999) semblent indiquer que si la restauration de l'audibilit est bnfique sur
les frquences basses et moyennes, la restauration des informations sur les frquences
hautes est nulle voire dltre. D'un autre ct, une tude rcente mene par Hornsby et
Ricketts (2003) indique que la contribution de la restauration de l'audibilit est comparable
qu'il s'agisse de rgions hautes ou basses frquences. Ces tudes feront l'objet des deux
prochaines sections de ce document.


.4.3.2- N'amplifions pas les hautes frquences

Ching et al. (1998)

Les travaux mens au cours de cette tude ont pour but de relier l'audibilit la
reconnaissance de la parole chez des individus atteints d'une surdit sensorineurale
moyenne svre. Pour cela, les auteurs ont compar les scores d'identification de phrases
filtres avec les prdictions obtenues avec le S (ANS S3.5 1997). Les phrases filtres
taient prsentes plusieurs niveaux sonores, de 6 36 dB au dessus du seuil de
dtection. ls ont montr qu'il tait possible d'amliorer significativement l'erreur RMS de
53
prdiction - de 30.7 rau 14.9 rau
3
- en enrichissant le modle S o A classique (cf.
quation classique S) de deux nouveaux facteurs d'ajustement:

- un premier facteur de distorsion rendant compte de la baisse d'intelligibilit des
niveaux d'intensit levs. Cet effet avait dj t not par French et Steinberg
(1947).

- un facteur de correction individuel autorisant diffrents degrs de contribution du
signal audible l'intelligibilit. La particularit de ce facteur est d'tre dpendant de la
frquence. Ce facteur est appel facteur de comptence individuel en rfrence aux
travaux de Fletcher et Galt (1950) qui l'origine avaient propos ce type de facteur
pour caractriser la fois la qualit de l'nonciation du locuteur ainsi que l'exprience
de l'auditeur avec la voix du locuteur.

Les auteurs notent de manire trs intressante que chez les sujets prsentant une
surdit svre les facteurs de comptences individuels sont nuls voire ngatifs aux hautes
frquences suggrant que la restauration de l'audibilit sur la portion haute frquence du
signal de parole soit d'un effet nul voire mme dltre sur l'intelligibilit. ls montrent que
pour aucun des sujets prsentant un seuil suprieur 80 dB HL 4 kHz, la restauration des
indices spectraux contenus entre 2.8 et 5.6 kHz ne s'est avre bnfique.

Mesures de l'efficience

Hogan et Turner (1998) ont mis au point un protocole permettant d'valuer le
bnfice apport par la restauration des informations de parole contenue dans des bandes
larges d'un tiers d'octave. Dans cette tude, des sujets normo-entendants et des sujets
atteints d'une perte auditive sur les hautes frquences taient tests. Les signaux de parole
utiliss sont des VC ou CV. Pour les sujets malentendants, le spectre des signaux de parole
tait model par amplification linaire pour compenser la perte auditive sur les hautes
frquences.
Astucieusement les auteurs ont filtr ces signaux l'aide de diffrents filtres passe-
bas dont les frquences de coupure taient slectionnes de telle manire ce qu'elles
correspondent la limite suprieure d'une bande tiers d'octave de frquence centrale variant
de 400 4000 Hz. Les auteurs peuvent ainsi valuer dans quelle mesure l'augmentation
d'audibilit apporte par l'ajout d'une bande tiers d'octave de plus haute frquence entrane
une amlioration des performances des sujets. A cet effet, les auteurs ont mis au point une

3
rationalized arcsine units. Pour plus d'informations se reporter Studebaker (1985)
54
mesure permettant de caractriser le profit que tirent les sujets malentendants de la
restauration d'audibilit dans une bande tiers d'octave par rapport au profit qu'en tirent les
sujets normo-entendants; cette mesure est appele efficience (efficiency). Comme
l'indique la Figure 19, l' efficience s'appuie sur l'A pour caractriser l'audibilit des
signaux. Si l'ajout d'une bande tiers d'octave est aussi bnfique pour un sujet malentendant
que pour un sujet normo-entendant, l' efficience pour cette bande sera gale 1. En
revanche, si le sujet malentendant n'en retire aucun bnfice, l'efficience caractrisant la
bande sera nulle.



















Figure 19: Exemple du calcul de l'efficience pour un sujet malentendant par l'ajout des
informations correspondants une bande spectrale donne. Le gain d'intelligibilit (prdit
par la courbe lisse) pour un sujet malentendant rsultant du gain d'audibilit de la parole
(A) par l'apport de nouvelles informations est divis par le gain d'intelligibilit prdit par la
courbe obtenue pour les normo-entendants pour une augmentation quivalente de l'audibilit
des informations de parole. D'aprs Hogan et Turner 1998.

Pour les sujets prsentant des pertes moyennes svre il semble, d'une manire
gnrale, que l'amplification des informations de parole soit moins bnfique que pour les
sujets normo-entendants (efficience < 1). Comme le rsume la Figure 20, les rsultats
suggrent qu' mesure que le degr de perte auditive dpasse 55 dB HL une frquence
donne, l'efficacit de la restauration des informations dans cette zone frquentielle est
diminue, d'autant plus si un tel degr de perte auditive se trouve des frquences
) ( /
) ( /
normals AI score
impaired hearing AI score
Efficiencv


=
55
suprieures 4000 Hz. Les rsultats suggrent qui plus est que la restauration des
informations hautes frquences pour de telles pertes auditives puisse avoir une influence
dltre sur la reconnaissance de la parole (efficience < 0).
























Pour contrler l'effet nfaste de la prsentation des stimuli un niveau sonore lev,
les auteurs ont pris soin de raliser les calculs d'efficience avec un modle A simple et un
modle enrichi d'un facteur de distorsion rendant compte de la baisse d'intelligibilit des
niveaux d'intensit levs. Dans les deux conditions les mesures de l'efficience ne varient
que trs peu. Ce dernier constat suggre que la difficult qu'ont les sujets malentendants
tirer profit d'une amplification sur les hautes frquences provient surtout de dficits
supraliminaires tels la baisse de la slectivit frquentielle.



Figure 20 : Chaque pan de cette Figure reprsente
la mesure de l'efficience correspondant
l'apport d'une bande tiers d'octave (1000, 1600,
2500, 3150, 4000 et 8000 Hz) pour les sujets
malentendants. L'efficience est reprsente en
fonction du seuil perceptif correspondant la
frquence centrale de la bande tiers d'octave.
D'aprs Hogan et Turner 1998.
56
Comme on peut le constater, la restauration d'informations basses frquences,
correspondant des rgions frquentielles peu atteintes pour les sujets tests, apporte un
bnfice maximal. Afin de diffrencier quel critre entre le degr et la localisation de la perte
auditive est le plus responsable du bnfice restreint voire dltre de la restauration des
informations spectrales chez le sujet malentendant, Turner et Brus (2001) ont mesur,
l'aide d'un protocole similaire, l'efficience de la restauration d'audibilit de portions
basses et moyennes frquences chez des sujets prsentant cette fois ci des pertes auditives
importantes sur l'ensemble des frquences et non pas uniquement sur les hautes
frquences. Les rsultats, indiqus sur la Figure 21, indiquent que l'aptitude des sujets lss
bnficier de la restauration de l'audibilit sur les frquences basses et moyennes,
quoiqu'un peu plus faible que pour les sujets normo-entendants, reste tout fait
satisfaisante. L'aspect le plus remarquable de ces rsultats est que le bnfice apport par
la restauration des informations basses et moyennes frquence ne semble pas dpendant
du degr de svrit de la perte.

























Figure 21: Chaque pan de cette
Figure reprsente la mesure de
l'efficience correspondant
l'apport d'une bande tiers d'octave
(630, 860, 1250, 1600, 2000 et 2500
Hz) pour les sujets malentendants.
L'efficience est reprsente en
fonction du seuil perceptif
correspondant la frquence
centrale de la bande tiers d'octave
D'aprs Turner et Brus (2001)
57
La confrontation des rsultats de Hogan et Turner (1998) avec ceux de Turner et
Brus (2001) semble indiquer que les bnfices de la restauration de l'audibilit dpendent
fortement de la localisation spectrale. Alors qu'il semble que les sujets malentendants tirent
aisment parti de la restauration d'informations sur les basses et moyennes frquences, ceci
n'est pas le cas sur les frquences les plus hautes. La premire explication pouvant rendre
compte de cette observation est l'influence ngative sur l'intelligibilit de la slectivit
frquentielle trs rduite des sujets malentendants aux frquences leves. Au vu de ces
rsultats, l'amplification des hautes frquences semble tre une option trs critiquable.


.4.3.3- N'amplifions pas les hautes frquences, moins que.

Hornsby et Ricketts (2003)

Hornsby et Ricketts (2003) ont cherch dfinir la contribution de la restauration des
informations hautes et basses frquences chez des sujets malentendants ayant une perte
plate (entre 55 et 70 dB HL sur les frquences d'octave entre 500 et 4000 Hz). La tche du
sujet consistait identifier des phrases, lesquelles, contrairement aux tudes prcdentes,
taient pralablement mixes un speech shaped noise stationnaire. Le mixage tait
caractris par un rapport signal/bruit de 6 dB. Pour maximiser l'audibilit, le spectre de
l'ensemble bruit + parole tait model au moyen d'une amplification linaire pour compenser
la perte de sujets malentendants.
Dans un premier temps, les auteurs ont utilis un protocole de filtrages successifs
passe-haut et passe-bas identique celui classiquement utilis pour dterminer les fonctions
d'importances (French et Steinberg, 1947). Si la restauration des informations hautes
frquences a un effet moins bnfique pour les sujets malentendants que pour les sujets
sains alors la frquence d'intersection (crossover frequency), divisant le spectre de la parole
en deux zones de mme contribution pour l'intelligibilit, devrait tre plus basse pour le
premier groupe que pour le second. Or, bien que les performances des sujets malentendants
soient pour toutes les conditions de filtrage plus mauvaises que pour les sujets normo-
entendants, les frquences d'intersections (crossover frequency) mesures chez les sujets
lss ne diffrent pas significativement de celles mesures chez les sujets sains.
Le choix des frquences de coupure permet, en outre, de comparer directement chez
les auditeurs sains et malentendants le gain apport par l'largissement de la bande
passante dans les conditions de filtrage passe-bas et passe-haut. Les rsultats d'une telle
analyse indiquent que pour un mme largissement de la bande passante l'augmentation
des performances des sujets malentendants est quasiment gale celle observe chez les
sujets sains, que l'largissement soit du la restauration d'informations hautes ou basses
58
frquences. A partir de la mesure des seuils perceptifs mesurs dans le bruit, les auteurs ont
conduit des simulations S. Dans cette tude, la relation entre le S et la performance des
sujets malentendants est similaire celle mesure chez les sujets sains.
L'ensemble de ces rsultats semble donc indiquer que (1) le gain apport par la
restauration de l'audibilit ne semble pas dpendre de la rgion frquentielle o le signal
acoustique est amplifi, et (2) que l'influence de l'audibilit est prdominante sur
l'intelligibilit.





























Figure 22 :

(a) Frquences d'intersections mesures chez les
sujets malentendants (en haut) et normo-entendants
(en bas). Le cercle et le triangle en gras
reprsentent les frquences d'intersections
moyennes, respectivement pour le groupe de sujets
normo-entendants et malentendants .

(b) Scores moyens de reconnaissance pour les deux
groupes de participants (normo-entendants: ronds
blancs; malentendants: ronds noirs) en fonction de
l'largissement de la bande passante vers les
hautes et basses frquences.

D'aprs Hornsby et Ricketts (2003)
59
.4.3.4- Facteurs d'influences sur le bnfice d'une amplification

Toutes les tudes prsentes dans cette partie convergent sur le bnfice de la
restauration de l'audibilit sur les basses et moyennes frquences. Les rsultats semblent
plus contrasts sur le rle des informations hautes frquences et posent de nouvelles
questions sur les facteurs venant potentiellement moduler le rle de l'audibilit sur les
performances en reconnaissance de la parole. Ce sont gnralement sur les hautes
frquences que les pertes sont les plus svres et il semble qu'au del d'un certain seuil (80
dB HL), l'amplification des informations de parole dans cette rgion n'ait aucun effet voire
mme un effet dltre sur l'intelligibilit. Certaines raisons peuvent venir expliquer ce
phnomne: (1) les effets dltres d'une amplification trop importante sur l'intelligibilit, (2)
les dficits supraliminaires associs une perte auditive telles, la baisse de la slectivit
frquentielle et la rduction de la dynamique audible. l apparat en outre, que la prsence ou
non de zones mortes cochlaires - dfinissant une rgion sur la membrane basilaire sur
laquelle plus aucune cellule cilie interne ne subsiste (Moore, 2000) - influerait sur l'aptitude
des sujets bnficier de l'amplification du signal acoustique diverses rgions
frquentielles. Ces zones mortes cochlaires se retrouvent bien souvent dans des rgions
ou la perte est svre et une tude de Vickers et al. (2001) indique qu'en gnral les
individus prsentant des zones mortes cochlaires sur les hautes frquences ne font qu'un
usage trs restreint de la restauration des informations de parole sur les hautes frquences.
Pour autant, lorsque la perte auditive n'est pas svre, il semble que les sujets
malentendants puissent, tout autant que les sujets normo-entendants, parvenir tirer
bnfice de la restauration d'informations hautes frquences. l semble, de plus, que la
prsence ou non d'un bruit extrieur ait un effet important sur les bnfices d'une
amplification des hautes frquences. C'est ce que montre une tude rcente mene par
Turner et Henry (2002). Utilisant un protocole similaire celui de Hogan et Turner (1998), les
auteurs se sont intresss aux bnfices d'une amplification en prsence de parole
concurrente. Dans un tel contexte, les mesures d'efficience montrent que la restauration
de l'audibilit augmente les performances de reconnaissance, quel que soit le degr de
svrit de la perte auditive et les rgions frquentielles amplifies. Ces rsultats sont
consistants avec une tude de Baer et al. (2002). Ces derniers reviennent sur l'influence que
peuvent avoir les zones mortes cochlaires sur le bnfice que reprsente une amplification
des hautes frquences, mais cette fois-ci en prsence d'un bruit concurrent. Leurs rsultats
montrent que les sujets prsentant des zones mortes cochlaires sur les hautes frquences
ne parviennent qu' faire un usage limit de la restauration des informations hautes
frquences contrairement aux malentendants n'en prsentant pas.
60
.5- APPROCHES ALTERNATVES POUR CARACTERSER
L'NTELLGBLTE DE LA PAROLE

.5.1- NTELLGBLT DE LA PAROLE: ARGUMENTS EN FAVEUR
D'NTERACTONS ENTRE BANDES

Les tudes que nous allons prsenter dans cette section concernent la mise en
vidence de deux types de non-linarits caractrisant les processus mis en jeu pour la
reconnaissance de la parole. Le premier type de non-linarit est la redondance des
informations spectrales de la parole, le second type de non-linarit concerne les
interactions synergiques entre rgions frquentielles distantes.


.5.1.1- Redondance spectrale

Warren et son quipe de 1995 2000

En 1995, Warren et al. tudirent l'intelligibilit de phrases quotidiennes (CD
everyday speech sentences) perues au travers de filtres pente abrupte. Les filtres avaient
pour bande passante 1/3-octave (filtrage passe bande avec une pente de 96 dB/octave) ou
1/20-octave (utilisation de 2 filtres successifs, passe-haut et passe-bas ayant la mme
frquence de coupure et une pente de 115 dB/octave). Des groupes de sujets spars
valurent l'intelligibilit de 100 phrases (500 mots cls en tout) pour 9 frquences centrales
diffrentes. Les rsultats reprsents sur la Figure 23 montrent que trs peu d'information
spectrale est requise pour identifier des mots cls dans des phrases quotidiennes.

Figure 23: Pourcentage moyen de mots cls correctement identifis dans des phrases
quotidiennes prsentes aprs filtrage dans des bandes spectrales de largeur 1/3 d'octave
ou 1/20 d'octave 9 frquences centrales. D'aprs Warren et al. (1995)
61
Une intelligibilit presque parfaite a t obtenue pour des bandes tiers d'octave
centres sur 1500 Hz. l est surprenant de voir que mme pour des bandes trs fines (1/20
octave), l'intelligibilit atteint un score de 77% pour une bande centre sur 1500 Hz.
Quelques annes plus tard, Warren et al. (1999) et Warren et al. (2000) ont montr
que la forte intelligibilit conserve 1500 Hz devait principalement tre attribue la
contribution de l'information rsiduelle transmise sous la pente des filtres (bandes de
transition) plutt qu' la contribution de la bande passante nominale. En isolant les bandes
de transition de la bande nominale par l'utilisation de filtres pente quasi infini (1000 dB/oct),
les auteurs ont observ que l'intelligibilit obtenue avec les bandes de transitions tait de
80% contre 24% pour la bande passante tiers d'octave.
Cependant, bien que l'information dont profitent les auditeurs aille bien au-del de la bande
passante, l'exprience mene par Warren en 1995 atteste de la robustesse de l'intelligibilit
de la parole mme lorsque celle ci est fortement filtre. De ces observations Warren conclut
que les informations permettant de coder les sons de la parole sont fortement redondantes
dans le domaine spectral. Cet attribut permet la parole de rsister aux perturbations du
milieu extrieur.


.5.1.2- Synergie

Warren et al. (1995)

Warren et al. (1995) se sont aussi intresss de plus prs la contribution
l'intelligibilit des deux bandes extrmes utilises dans leur tude. Comme on peut l'observer
sur la Figure 24 , les bandes de largeur 1/20 octave centres sur 370 et 6000 Hz n'apportent
qu'une faible contribution l'intelligibilit de la parole (respectivement 0.9% et 10%). En
revanche, lorsque ces deux bandes sont prsentes simultanment, l'intelligibilit atteint un
score de 27.8%, significativement plus important que la somme des contributions des deux
bandes prsentes isolment. Le mme phnomne est observ pour des bandes de
largeur 1/3 d'octave. solment, les bandes centres sur 370 et 6000 Hz ont une intelligibilit
moyenne respective de 23% et 24% alors que prsentes simultanment l'intelligibilit
atteint 78%. Ces rsultats attestent d'interactions synergiques entre les informations
provenant de bandes spectralement distantes.




62




















Lippman (1996)

Lippman en 1996 a examin l'intelligibilit de consonnes anglaises aprs avoir retir
une partie de l'information contenue aux frquences moyennes. A cette fin, l'auteur utilise
une combinaison de filtres passe-bas et passe-haut de pentes suprieures 96 dB. La
frquence de coupure du filtre passe-bas est fixe 800 Hz alors que celle du filtre passe-
haut prend diffrentes valeurs entre 3.15 10 kHz. La Figure 25 montre les scores
d'identification des consonnes dans les diffrentes conditions de filtrages testes. Les
rsultats indiquent que les scores d'intelligibilit restent levs (environ 90%) mme lorsque
l'nergie aux frquences moyennes est retire (800 Hz jusqu' 4 kHz). De manire
surprenante, mme l'nergie comprise au-del de 8 kHz contribue de manire significative
l'identification des consonnes. La combinaison des informations spectrales comprises entre
0 et 800 Hz avec les informations au-del de 8 kHz permet d'augmenter le score
d'identification de prs de 30% ( de 44.3% 73.9 %). Ce rsultat indique qu'il n'est pas
ncessaire que la parole soit large bande pour tre fortement intelligible et supporte
l'hypothse selon laquelle un auditeur parvient combiner les indices de parole provenant
de diffrentes rgions frquentielles.

Figure 24:

(a) Pourcentage moyen de mots cls correctement
identifis pour des bandes tiers d'octave de parole
centres sur 370 et 6000 Hz. Ces bandes taient
prsentes individuellement ou simultanment sous
des conditions d'coute dichotique ou diotique.

(b) Pourcentage moyen de mots cls correctement
identifis pour des bandes de parole de largeur
1/20 d'octave centres sur 370 et 6000 Hz. Ces
bandes taient prsentes individuellement ou
simultanment en condition d'coute diotique.

D'aprs Warren et al. (1995)

63




Figure 25: Pourcentage d'identification de la consonne quand une bande basse frquence
de 0 800 Hz est combine avec une bande haute frquence dont la frquence de coupure
infrieure varie entre 3.15 et 10 kHz. D'aprs Lippman (1996).


AI/ SII et bandes spectrales disjointes

La validit des prdictions d'intelligibilit sur la base de l'A (aujourd'hui le S) se
vrifie uniquement lorsque la parole est audible dans une rgion frquentielle singulirement
dlimite. En effet, L'ANS 1997 prcise bien que le S conduit des prdictions errones
lorsque le signal est audible au sein de plusieurs bandes frquentielles disjointes. Ainsi, si le
bruit concurrent est constitu par la somme de plusieurs bandes de bruits troites, le spectre
de parole n'est rendu audible qu'au sein de bandes spectrales spares et de fait le modle
A ou S est inutilisable
Cette restriction est le fruit des travaux de Kryter (1962b), lui-mme vritable
promoteur de l'utilisation de l'A , qui observa que les prdictions sur la base de l'A sous-
estimaient systmatiquement les scores d'intelligibilit rels lorsque 2 ou plusieurs bandes
de paroles disjointes taient prsentes simultanment.




64

Grant et Braida (1991)

Une part des expriences menes par Grant et Braida en 1991, teste l'intelligibilit
prdite par l'A dans deux conditions diffrentes: une premire o sont associes deux
bandes d'une mme rgion frquentielle et une seconde o sont associes deux bandes
plus loignes. Les prdictions surestiment d'environ 18% l'intelligibilit dans la premire
condition alors que dans la seconde les prdictions sous-estiment systmatiquement
l'intelligibilit d'environ 41%. Les auteurs voquent plusieurs raisons pouvant expliquer ces
rsultats. Une premire pourrait tenir au fait que les jupes des filtres passe-bande utiliss se
chevauchent de manire significative (5% 9%) dans la premire condition et non dans la
seconde, ainsi plus d'information spectrale serait dlivre lorsque les bandes sont loignes.
La seconde raison voque est relative au masquage potentiel d'une bande de la parole sur
la suivante, cet effet serait potentiellement plus important dans la premire condition que
dans la seconde dans la mesure o les bandes sont plus proches.
Les autres raisons voques par les auteurs ont attrait aux interactions synergiques
et redondantes de la parole. Les auteurs font rfrence la notion d'chantillonnage de
spectre dveloppe par Kryter (1960). Cette notion signifie que l'allure du spectre original est
mieux conserve si la parole est filtre au travers de plusieurs bandes frquentielles non
adjacentes que si elle est filtre au travers d'une seule et mme large bande. Kryter (1960) a
montr que la bande passante totale d'un systme multi-bandes (c'est dire un systme
compos de plusieurs filtres passe-bandes non-adjacents) peut tre rduite de moiti par
rapport un systme large bande pour maintenir un mme niveau d'intelligibilit. l est aussi
vraisemblable qu'un plus grand degr de corrlation existe entre les informations provenant
de bandes adjacentes que non-adjacentes. Ainsi lorsqu'aux informations dlivres par une
bande donne, on ajoute les informations dlivres par une bande voisine, il se peut que les
nouveaux indices disponibles soient en fait redondants avec ceux provenant de la bande
originale, de ce fait l'augmentation de l'intelligibilit sera faible. En revanche, si l'on ajoute
les informations d'une bande loigne, il est probable que les nouveaux indices soient
complmentaires et l'apport pour l'intelligibilit d'autant plus accru.


.5.2- UN NOUVEAU MODLE PRDCTF DE RECONNASSANCE DE LA
PAROLE: LE SRS (SPEECH RECOGNTON SENSTVTY)

Les effets de synergie et de redondance spectrale remettent en cause l'hypothse
d'additivit - savoir que la contribution l'intelligibilit d'une bande est indpendante de la
65
contribution apporte par les autres bandes - sur laquelle reposent les modles
macroscopiques classiques de reconnaissance de la parole prsents prcdemment.
Les premiers efforts raliss en vue d'amliorer les prdictions effectues par ces
modles ont consist intgrer des lments de calculs prenant en compte les interactions
entre les bandes. Steeneken et Houtgast (1999) ont propos cette fin une amlioration du
modle ST, galement applicable au modle A. Dans cette modification, la contribution
l'index d'articulation pour chaque bande d'octave de la parole peut tre attnue en fonction
de la contribution de la bande adjacente de plus basse frquence. Toutefois, cette
modlisation permet seulement de rendre compte de la redondance des informations
spectrales. C'est la raison pour laquelle, rcemment Msch et Buus (2001) ont mis au point
un nouveau modle macroscopique de reconnaissance de la parole fond sur la thorie
statistique de la dcision. Ce modle comprend, comme pour les modles classiques,
l'laboration d'une variable intermdiaire directement relie l'intelligibilit, mais cette fois-ci
l'accent est port sur l'intgration des deux types de non linarits caractrisant
l'intelligibilit de la parole.


.5.2.1- Speech recognition sensitivity index

Thorie statistique de la dcision applique l'intelligibilit de la parole

La volont des auteurs est d'inscrire leur modle dans le cadre de la thorie
statistique de la dcision. Pour cela, ils considrent qu'un auditeur possde des
reprsentations internes des diffrents items de parole qu'il doit identifier. Le processus de
reconnaissance consiste donc dterminer - dcider - laquelle de ces reprsentations
internes correspond l'item qu'il peroit.
dalement, la congruence entre un item peru et sa reprsentation interne correcte
est gale , alors qu'elle est nulle pour toutes les autres reprsentations internes.
Cependant, dans la ralit, de nombreux facteurs comme la qualit de la prononciation, les
conditions extrieures etc.. constituent un bruit statistique dispersant la congruence autour
de sa valeur moyenne. Ce bruit est dfini par une variance . Plus le bruit est important,
moins la dcision est certaine. Ainsi, on caractrise la sensibilit de l'identification de
l'auditeur par une mesure, appele ' d , quantifiant , la congruence moyenne avec les
reprsentations internes correctes, en nombre d'ecarts-types. Soit / ' = d . Plus ' d est
lev, plus les rponses de l'auditeur seront fiables et par consquent plus l'intelligibilit
sera leve.

66


Modliser la redondance spectrale des informations de la parole

La redondance spectrale exprime le fait que l'largissement de la bande passante
travers laquelle sont prsentes les signaux de parole ne modifie pas, ou trs peu, les
performances de l 'auditeur.
Comme nous allons le voir, le cadre mathmatique de la thorie de la dcision se
prte trs bien la modlisation de cet effet. Msch et Buus (2001), l'instar des modles
classiques, divisent le spectre de parole en plusieurs bandes spectrales contribuant chacune
la congruence. Ainsi, la congruence d'un regroupement de bandes adjacentes, de la plus
basse numrote
B
n la plus haute numrote
H
n , se dfinit de la manire suivante:

=
=
H
B
n
n i
i) (


Pour autant, le modle n'est pas seulement additif car il assume que chaque bande
apporte de manire proportionnelle une contribution la variance du bruit statistique.


2 2
) ( ) ( i K i =

De fait, l'largissement de la bande passante ne modifie pas la valeur de ' d sur
laquelle est fonde sur la prdiction du score d'intelligibilit.


Modliser les interactions synergiques entre les bandes spectrales

Cependant, par rapport la formulation prcdente, le calcul du bruit statistique doit
tre modifi pour rendre compte des interactions synergiques entre bandes frquentielles
distantes.
Le modle suppose cet effet que la contribution au bruit statistique des diverses
bandes spectrales est partiellement corrle. Cette corrlation est d'autant plus grande que
les bandes sont proches. De ce fait, le bruit statistique aura d'autant plus de chances d'tre
faible - et le ' d d'tre plus lev - s'il rsulte de la contribution de deux bandes spectrales
loignes. On peut donc dfinir le bruit statistique de la manire suivante:

67
) ( ) ( ) , ( ) (
2 2
f i f i r K i
i i f
= =


avec ) , ( f i r une fonction exponentielle dcroissante avec la distance spectrale entre
les bandes i et f .

Aspects complmentaires du modle SRS

Le modle intgre deux autres sources de variance que celles simulant les
mcanismes de redondance et de synergie mis en jeu dans la reconnaissance des signaux
de parole.
La premire de ces sources complmentaires, absolument essentielle, a pour but de
rendre compte de l'influence de l'audibilit sur les scores de reconnaissance. Chaque bande
spectrale contribue indpendamment cette variance. Le rapport signal/bruit calcul au sein
d'une bande dtermine sa contribution par le biais d'une fonction monotone dcroissante
avec le rapport signal/bruit. Au-del d'un rapport signal/bruit de 30 dB, la contribution de la
bande cette variance caractrisant l'audibilit est nulle signifiant que l'audibilit y est
maximale dans cette rgion frquentielle.
La seconde source de variance complmentaire est dnomme par les auteurs
variance cognitive. Le rle de cette variance est d'intgrer l'influence du contexte linguistique
des signaux de parole sur les performances de reconnaissance de la parole. La variance
cognitive attribue des phrases est faible parce que chaque lment de la phrase est
fortement prvisible sur la base du contexte. nversement, la variance cognitive de syllabes
isoles est forte du fait d'un contexte trs pauvre.


Prdictions du modle SRS par rapport au modle SII

Le modle dvelopp par Msch et Buus (2001) diffre fortement du modle S
(ANS S3.5-1997), mais considre de manire similaire que l'audibilit conditionne
l'intelligibilit de la parole. Les auteurs ont cherch valuer l'apport de la prise en compte
des phnomnes non-linaires, dont la synergie, en comparant les rsultats obtenus par
Warren (1995) que nous avons relats plus haut, par rapport aux prdictions sur la base du
SRS et du S. Comme on peut le constater sur la Figure 26, le modle S, contrairement au
modle SRS, ne rend compte que d'une trs faible interaction synergique entre les bandes
370 Hz et 6000 Hz.


68


Figure 26 : Pourcentage de mots cls correctement identifis dans des phrases courantes.
Les ronds noirs sont reports de l'tude de Warren et al. (1995). Les ronds blancs
reprsentent les prdictions obtenues sur la base de l'indice SRS gauche et sur la base de
l'indice S droite. D'aprs Msch et Buus (2001)


.5.3- FONCTONS D'MPORTANCE FREQUENTELLE EN AUDTON

Les aspects non-linaires de la parole posent aussi de nouvelles questions quant au
protocole utilis pour driver l'importance des bandes de frquences. Les expriences de
filtrages utilises classiquement obligent l'auditeur distinguer les informations dans un
domaine restreint par les conditions de filtrage, alors qu'en situation relle, l'auditeur s'attend
traiter des informations provenant d'un trs large domaine frquentiel. Du fait des
interactions synergiques et redondantes reliant les diverses rgions frquentielles de la
parole, les mcanismes mis en jeu pour la comprhension de signaux de parole filtrs sont
probablement diffrents de ceux appliqus l'identification de signaux de parole large
bande. l est donc apparu crucial d'apprhender la question de l'importance de bandes de
frquences donnes au moyen de protocoles utilisant des signaux de parole larges bandes.
Comme nous allons le voir par la suite, ces mthodes sont toutes inspires de paradigmes
exprimentaux couramment utiliss en psychoacoustique dans des tches d'observations
multiples.

69
.5.3.1- Les taches observation multiples: Etat de l'art

Les protocoles dans lesquels plusieurs composantes (par exemple diverses
composantes frquentielles ou diverses positions temporelles) influencent le jugement
binaire (oui ou non) d'un observateur sont appeles tches observations multiples (multiple
observation tasks). Ce genre de tche est bien souvent utilis en psychophysique pour
dterminer de quelle manire un sujet combine les informations provenant de plusieurs
sources (ou observations).

Approche rgressive

L'obtention des poids par une approche rgressive du type moindres carrs est
simple et directe. Les premiers avoir dvelopp une telle approche sont Ahumada et Lovell
(1971) alors qu'ils caractrisaient l'aptitude d'un observateur distinguer un son de 500 Hz
au centre d'une bande de bruit ralise par l'addition de composantes tonales espaces de
10 Hz autour de 500 Hz. Pour cela les auteurs utilisaient deux types de stimuli: l'un
compos uniquement du bruit et l'autre compos du bruit mais galement d'un son pur 500
Hz. Le jugement rendu par l'observateur consistait attribuer une note allant de 1 4 selon
la certitude avec laquelle le sujet pensait avoir ou non dtect le son pur 500 Hz.
L'amplitude de chaque composante du bruit tait dtermine alatoirement. Le poids relatif
ou la contribution de chaque composante tait obtenue en dterminant le modle
multilinaire permettant de prdire au mieux (erreur quadratique minimale), d'aprs
l'amplitude de chaque composante tonale, les jugements de l'observateur. Les coefficients
de rgression relatifs chaque composante dterminent leur poids respectif.
Depuis, ce type d'approche a t rutilis par Gilkey et Robinson (1986) mais cette
fois-ci en dterminant les paramtres de rgression non pas sur un modle linaire mais un
modle logistique (courbes logit). Enfin, et nous le reverrons plus tard, cette approche a t
reprise par Kasturi et al. (2002) pour dterminer l'importance de bandes frquentielles pour
l'identification de signaux de parole.


Mthode COSS de Berg

Le lecteur dsireux de n'obtenir qu'une ide gnrale de la mthode COSS pourra
restreindre sa lecture au paragraphe Principe


70
Principe

Pour driver le poids de diffrentes composantes dans une tche observation
multiple, Berg proposa en 1989 une mthode s'inscrivant dans le cadre de la thorie de la
dtection du signal (Green et Swets, 1966). Le principe consiste appliquer aux diffrentes
observations une variation alatoire normale. Pour chaque observation et indpendamment
des autres, on reprsente les performances en fonction du niveau des variations appliques.
La raideur de la pente de la courbe psychomtrique obtenue pour une observation donne
est utilise comme un indice reprsentatif de sa contribution. Son application s'est avre
fructueuse dans de nombreuses applications (Berg, 1990; Doherty et Lutfi, 1996; Buus et al.
1996; Buus, 1999)

Dveloppement dtaill

La mthode de Berg s'appuie sur l'hypothse selon laquelle le jugement du sujet est
fonction d'une grandeur correspondant la somme pondre des observations. Selon que
cette grandeur est suprieure ou non un critre de dcision arbitraire C , le sujet opte pour
l'une ou l'autre des deux alternatives. En se plaant dans un paradigme de dtection du
signal, la loi de dcision peut s'crire de la manire suivante:
Le sujet distingue le signal ssi C x a
m
i
i i
> +

1

Avec m , le nombre total d'observations,
i
a le poids relatif de la i
me
observation,
i
x la
variable alatoire de dcision caractrisant l'tat de la i
me
observation et est un bruit
interne.
A chaque prsentation d'un stimulus, il est assum que les
i
x sont choisis
alatoirement parmi deux distributions gaussiennes, l'une correspondant au bruit, l'autre au
signal. Ces distributions ont une moyenne diffrente mais une mme variance
2
ei
.

En isolant le terme
i
x , l'ingalit devient : | ... 1 | m f et i



i
m
i f
f f
i
a
x a C
x

>



71

Pour plus de simplicit, on dfinit une nouvelle variable alatoire
i
Y comme tant
gale au terme de droite de la dernire ingalit. Dans la suite,
i
Y est considre comme
une variable alatoire caractrisant la probabilit de dtection du signal en fonction des
valeurs de
i
x . On remarquera que dans la mesure o
i
Y est la somme de variables
mutuellement indpendantes et alatoires alors
i
Y est lui aussi distribu normalement avec
une moyenne | |
i
Y E et une variance | var|
i
Y .
Sous la condition de normalit, Berg montre que | ... 1 | , m k et f i :


2
2
2
2
| var|
| var|
f
k
ek k
ef f
a
a
Y
Y
=
+
+



En utilisant l'galit prcdente et en posant comme nouvelle hypothse que 1
1
=

=
m
i
i
a , on
obtient un nombre suffisant d'quations pour obtenir la valeur de chacun des poids relatifs
chacune des observations.

l reste cependant obtenir une estimation de | var|
i
Y . Berg propose pour cela dans
un premier temps de tracer la fonction cumule empirique ) (
i s
x F , qui correspond la
probabilit que le sujet identifie un signal lorsque la i
me
observation a pour valeur
i
x et ce
indpendamment de la valeur que prennent les autres m-1
mes
valeurs (l'indice S dsigne
que l'on ne considre que les essais o
i
x provenait de la distribution caractristique du
signal). Cette fonction est appele fonction COSS (conditionnal on single stimulus). Par la
suite, il reste tracer la droite de Henry partir de ces valeurs de probabilits. L'inverse de
la pente de la droite de Henry leve au carr fournit l'estimation dsire de | var|
i
Y .
En ralit, deux fonctions cumulatives peuvent tre traces, la seconde est ) (
i B
x F et
reprsente la probabilit que le sujet identifie un signal lorsque la i
me
observation a pour
valeur
i
x , mais cette fois-ci lorsque l'on considre les essais o
i
x provient de la distribution
caractristique du bruit. En thorie, les pentes des deux droites sont identiques, mais en
pratique ce n'est jamais exactement le cas et l'estimation de | var|
i
Y est obtenue en
effectuant la moyenne des pentes de ces droites.
72
En 1996, Buus et al. ont largi la mthode initiale de Berg en montrant comment caractriser
les poids par les fonctions COSS lorsqu'un seul intervalle (par exemple l'intervalle
caractrisant le signal et non le bruit) tait soumis des variations.


Mthode Corrlationnelle

Le lecteur dsireux de n'obtenir qu'une ide gnrale de la mthode corrlationnelle pourra
restreindre sa lecture au paragraphe Principe

Principe

Un inconvnient majeur des mthodes proposes par Ahumada et Lovell (1971) ainsi
que Berg (1989) est leur caractre paramtrique. En effet, la distribution normale des
variables de dcision est une condition essentielle, or, pour diverses tches observations
multiples la distribution des variables de dcision peut tre parfaitement arbitraire. Pour
palier cet inconvnient de la mthode COSS, Richards and Zhu (1994) et Lutfi (1995) ont
dvelopp une autre mthode qui, bien que fortement inspire dans le principe par les
travaux de Berg (1989), est suffisamment robuste pour aboutir des estimations stables des
poids des diverses composantes, mme lorsque les variables de dcision ne suivent pas
une distribution normale. Une variation alatoire (non obligatoirement normale) est applique
chacune des composantes. Le degr de corrlation entre les performances et les
variations appliques sur une observation, indpendamment des variations appliques sur
les autres observations, est utilis comme indice reprsentatif de l'importance de
l'observation donne.
Cette mthode a t utilise avec succs dans de nombreuses tudes, par exemple
pour la discrimination du niveau sonore, Doherty et Lutfi (1995), Stellmack et al. (1997) et
Willihnganz et al. (1997), Kortekaas et al. (2003) mais galement, nous y reviendrons, pour
l'estimation de fonctions d'importance frquentielle en reconnaissance de la parole (Doherty
et Turner, 1996 ; Turner et al.1998 ; Mehr et al. 2001)

Dveloppement dtaill

La dmarche initie par Richards and Zhu (1994) considre comme point de dpart
un processus de dcision identique celui pos par Berg (1989) savoir que le sujet
distingue le signal ssi: C x a
m
i
i i
> +

1
.
73
Les auteurs dmontrent que si le critre de dcision C est la rsultante d'une
combinaison linaire de plusieurs autres variables alatoires normales comme c'est le cas
par exemple avec v ax C + = , alors une relation de proportionnalit relie le degr de
corrlation entre la variable alatoire x et les rponses binaires d'identification du sujet au
coefficient a . En tendant ce rsultat au processus de dcision prsent ci dessus, les
auteurs aboutissent un thorme statuant que le poids de chacune des composantes est
exprim par la relation suivante :

i
D
x R i
i
r k a

= ,
avec
i
x R
r le coefficient de corrlation bi-seriel ponctuel entre les valeurs prises par la variable
subjective de dcision
i
x et les valeurs boolennes reprsentant les rponses D du sujet.
D
et
i
sont respectivement les carts-types des rponses binaires du sujet et de la
variable de dcision alatoire
i
x . k est un coefficient arbitraire choisi de telle manire ce
que 1
1
=

=
m
i
i
a .
Ainsi lorsque les variables alatoires caractrisant chacune des observations sont
issues d'une distribution identique donc de mme cart-type, les drivations des poids se
rsument un calcul immdiat de corrlations multiples entre les diffrentes variables de
dcision et la variable de rponse du sujet.
Bien qu'aucune dmonstration thorique ne soit apporte, les auteurs montrent par
simulation numrique que des rsultats stables pour l'estimation des poids des diffrentes
observations sont obtenus mme lorsque la condition de normalit des variables de dcision
est viole. Cette analyse est fondamentale car elle permet de considrer la mthode
corrlationnelle comme non-paramtrique. Lutfi en 1995 a pu rendre encore plus large le
paradigme d'application de la mthode corrlationnelle. l indique notamment que l'effet de
relations existantes entre les diverses observations peut tre limin en substituant au calcul
de corrlations bi-serielles ponctuelles le calcul de corrlations partielles.
Enfin, parce que l'obtention des poids est fond sur un calcul de corrlations, il est
relativement ais d'obtenir leur degr de signification statistique. Pour cela, il suffit de tester
si les corrlations sont significativement diffrentes de 0 (avec un intervalle de confiance
95 %) en comparant par rapport une valeur seuil donne par la relation suivante:
N
:
seuil
95 . 0
= , avec N le nombre de jugements rendus.

74
.5.3.2- Exemples de fonctions d'importance frquentielle

Doherty et Turner (1996), Turner et al. (1998)

Protocole

L'approche originale propose par ces deux tudes consiste rendre comparable
une tche d'identification de signaux de parole une tche observations multiples. Les
signaux de parole, consistant en des syllabes VC (voyelle-consonne), CV (consonne-voyelle)
ou VCV (voyelle-consonne-voyelle), sont diviss en plusieurs bandes. Les bandes de parole
ainsi dcoupes sont considres comme autant de sources d'observations sur lesquelles
un auditeur se base pour identifier le signal. Le jugement du sujet est binaire: bonne
identification ou mauvaise identification. Plusieurs stimuli sont prsents des sujets normo-
entendants. A chaque passage, les signaux de paroles sont dgrads indpendamment
dans chacune des bandes par l'ajout d'une quantit alatoire de bruit dfinie par un rapport
signal/bruit lui-mme dtermin par une distribution uniforme. Les rapports signal/bruit dans
chaque bande sont donc les variables subjectives de dcision.
En vue de dterminer la contribution relative de diverses zones spectrales pour
l'intelligibilit de la parole, ce protocole a l'avantage de prsenter aux auditeurs des signaux
de parole larges bandes. De plus, le fait de prsenter les signaux de parole en prsence d'un
bruit externe offre la possibilit d'estimer des fonctions d'importance frquentielle dans des
conditions ou l'importance des indices spectraux est exacerbe.
Les modalits plus prcises des protocoles concernant ces deux tudes sont
indiques ci dessous :
Pour Doherty et Turner (1996), le dcoupage spectral est ralis sur les trois bandes
suivantes; bande 1: 200-750 Hz ; bande 2 : 750-2500 Hz ; bande 3 : 2500-9000 Hz. Les
stimuli sont composs de 3 squences VCV (/aba/, /aa/ and /ada/). Le test comporte
2000 stimuli.
Pour Turner et al. (1998), le dcoupage spectral est ralis, cette fois-ci, en utilisant
des stimuli CV ou VC avec V: une voyelle parmi /a/, /i/ et /u/ et C: une consonne parmi
les 22 que comporte la langue anglaise. Le dcoupage est ralis sur quatre bandes d'gale
importance, lorsque celle ci est mesure par un protocole de filtrages successifs (cf. French
et Steinberg, 1947). Ces bandes sont dlimites de la manire suivante: bande1: 0 1120
Hz; bande 2: 1120-2250 Hz; bande 3: 2250-3500 Hz ; bande 4: 3500-10 000 Hz. En tous
2400 stimuli sont prsents.
75
En outre, pour un sujet en particulier, le poids de chaque bande a aussi t valu
par la prsentation isole d'une seule bande dgrade. Dans ce cas, pour chaque bande,
2400 stimuli sont prsents.

Traitement des donnes

Appliquant les principes de la mthode corrlationnelle (Richards and Zhu, 1994 ;
Lutfi, 1995), le traitement des rsultats est quasi systmatique. L'importance d'une bande est
obtenue partir de l'information fournie par la valeur de corrlation entre les rapports
signal/bruit dans la bande et les scores d'identification sur la consonne (incorrect=0,
correct=1). Une corrlation leve et positive signifie que plus le rapport signal/bruit est bas
dans la bande donne, plus le sujet commet d'erreurs. Une corrlation nulle signifie, en
revanche, que la bande n'a aucune importance et une corrlation ngative souligne quant
elle la contribution dltre de la bande l'identification de signaux de parole.

Rsultats

Nous nous restreindrons dans cette partie la prsentation des rsultats de l'tude
de Turner et al. (1998); ceux obtenus deux ans plus tt par Doherty et Turner (1996)
questionnant surtout la faisabilit de la mthode corrlationnelle.
La Figure 27 nous montre les rsultats d'un sujet pour qui les fonctions d'importance
frquentielle ont t obtenues dans deux conditions diffrentes. Une premire condition o
les bandes de parole sont prsentes isolment et une seconde o les bandes de paroles
sont prsentes simultanment. Comme on peut le constater, les poids perceptifs sont trs
proches d'une bande l'autre dans la premire condition; ils varient entre 0.21 pour la bande
4 et 0.3 pour la bande 2. En cela, ils sont comparables aux fonctions d'importance mesures
pralablement par un protocole de filtrages successifs du type de celui utilis par French et
Steinberg (1947). En revanche, dans la seconde condition, les poids perceptifs diffrent
notablement de ceux obtenus classiquement; les poids les plus forts sont attribus aux
premires et troisimes bandes (respectivement 0.44 et 0.35). Ce rsultat suggre que les
stratgies frquentielles utilises pour reconnatre la parole sont certainement diffrentes
suivant que le signal est large bande ou qu'il est circonscrit dans une rgion frquentielle
spcifique. Les poids sur les bandes 1 et 3 sont plus forts lorsque les bandes sont
prsentes simultanment que lorsqu'elles sont prsentes isolment. Cet effet pourrait tre
expliqu par l'aptitude des auditeurs combiner de manire synergique les informations
provenant de ces deux bandes. De plus, on pourrait expliquer le faible poids attribu aux
bandes 2 et 4 du fait qu'elles contiennent de l'information redondante avec les bandes 1 et 3.
76
l est important de noter que dans cette tude, l'allure des fonctions d'importance
frquentielle mesures en condition large bande ne varie quasiment pas d'un individu
l'autre: le pattern indiqu sur la Figure 27 est identique pour l'ensemble des sujets. Cette
stabilit inter-individuelle est surprenante et suggre que les sujets normo-entendants
emploient des stratgies d'identification trs similaires alors que, du fait de la nature
redondante des informations frquentielles de parole, il existe potentiellement plusieurs
manires d'identifier un signal de parole lorsque celui ci est large-bande.







Figure 27: Fonctions d'importance frquentielle (poids relatifs) obtenues chez un sujet pour
les quatre bandes suivantes: bande1: 0 1120 Hz; bande 2: 1120-2250 Hz; bande 3: 2250-
3500 Hz ; bande 4: 3500-10 000 Hz. Dans une premire condition, les bandes sont
prsentes simultanment (en pointills). Dans une seconde, les bandes sont prsentes
isolment (trait continu). D'aprs Turner et al. (1998)


Mehr et al. (2001)

Protocole

Le protocole utilis dans cette tude est similaire celui de Doherty et Turner (1996)
et Turner et al. (1998). Le matriel linguistique est identique. Le dcoupage spectral simule
celui ralis par un implant Med-El comportant 6 lectrodes actives. bande 1: 300-487 Hz;
77
bande 2: 487-791 Hz; bande 3: 791-1284 Hz; bande 4: 1284-2085 Hz; bande 5: 2085-3388
Hz; bande 6: 3388-5500 Hz. L'originalit de cette tude est de mesurer les fonctions
d'importance frquentielle la fois chez des sujets sains mais aussi chez des sujets cochlo-
lss porteurs d'un implant depuis plus d'un an. La phase de test comporte la prsentation
de 1200 stimuli.

Traitement des donnes

De mme que dans les prcdentes tudes de Doherty et Turner (1996) et Turner et
al. (1998), la mthode corrlationnelle est utilise pour driver l'importance de chacune des
bandes.

Rsultats

Chez les sujets sains, les poids attribus aux informations contenues dans chaque
canal sont approximativement gaux et la variabilit interindividuelle est faible. En revanche,
comme le montre la Figure 28, les sujets porteurs d'un implant cochlaire semblent
privilgier quelque(s) lectrode(s) plutt que d'autres pour identifier les signaux de parole, de
plus les fonctions d'importance frquentielles manifestent des profils trs disparates d'un
sujet un autre.

Figure 28: Les fonctions d'importance frquentielle pour les six sujets implants cochlaires
sont indiques en pointills. La fonction d'importance frquentielle moyenne pour les sujets
normo-entendants est reprsente en traits pleins. D'aprs Mehr et al. (2001)

78
Kasturi et al. (2002)

Protocole

Kasturi et al. (2002) ont caractris comment l'identification de consonnes et de
voyelles rsistait la suppression totale de l'information contenue dans une ou deux bandes
spectrales. 6 bandes frquentielles taient considres; bande 1: 300-487 Hz; bande 2: 487-
791 Hz; bande 3: 791-1284 Hz; bande 4: 1284-2085 Hz; bande 5: 2085-3388 Hz; bande 6:
3388-5500 Hz. Par rapport aux stimuli utiliss dans un protocole du type index d'articulation
(filtrages successifs), les stimuli utiliss dans cette tude permettent de caractriser la
perception de consonnes et voyelles composes de plusieurs bandes de frquences
disjointes. De mme que pour les tudes prcdentes, chaque bande est interprte comme
une source d'observation d'une tche observations multiples. Le test sur les consonnes
tait ralis en utilisant un panel de 16 consonnes C, prsentes en contexte aCa et
produites par un locuteur homme. Le test pour les voyelles utilisait les mots anglais: "heed,
hid, hayed, head, had, hod, hud, hood, hoed, who'd, heard prononcs par plusieurs
locuteurs hommes et femmes.

Traitement des donnes

Sur la base des donnes obtenues avec le protocole prcdent, Katsuri et al. (2002)
ont dtermin le modle linaire permettant de prdire au mieux les scores d'intelligibilit
connaissant la ou les bandes filtres. Dans ce cas, les variables de dcision pour chaque
bande se rsument simplement une variable binaire indiquant la prsence ou l'absence de
la bande considre. L'approche utilise repose sur la mthode rgressive des moindres
carrs propose par Ahumada et Lovell (1971). Les coefficients de rgression obtenus
traduisent la contribution propre de chaque bande aux performances observes. Notons tout
de mme que dans le cadre du modle ST, ce type d'approche avait dj t retenu
quelques annes plus tt par Steeneken et Houtgast (1999) afin d'valuer l'importance de
bandes d'octave pour la reconnaissance de la parole; avec un ajustement multilinaire
fond sur un processus itratif et non sur les moindres carrs.

Rsultats

Comme on peut le constater sur la Figure 29, les fonctions d'importance
frquentielles obtenues pour les voyelles sont diffrentes de celles obtenues pour les
consonnes, suggrant que les sujets emploient des stratgies diffrentes pour identifier ces
deux types de sons de la parole. Pour les voyelles les poids les plus importants sont
79
attribus aux bandes 1, 3 et 4. Aprs analyse, il s'avre que ces bandes codent pour une
majeure partie les premiers et seconds formants des voyelles. Pour les consonnes, en
revanche, les poids sont distribus de faon relativement homogne sur toutes les bandes.
D'autre part, une seconde diffrence entre les fonctions d'importance pour les
voyelles et les consonnes s'observe sur le plan de la variabilit interindividuelle. En effet, s'il
semble que les stratgies frquentielles pour l'identification des voyelles, soient relativement
variables d'un individu l'autre, celles ci sont relativement stables pour l'identification des
consonnes. La stabilit des fonctions d'importance frquentielle des consonnes observe
dans cette tude est consistante avec l'observation rapporte dans l'tude de Turner et al.
(1998).


Figure 29: Fonctions d'importance frquentielle pour la reconnaissance de voyelles (triangles
blancs) et de consonnes (carrs noirs) sur 6 bandes spectrales; bande 1: 300-487 Hz; bande
2: 487-791 Hz; bande 3: 791-1284 Hz; bande 4: 1284-2085 Hz; bande 5: 2085-3388 Hz;
bande 6: 3388-5500 Hz. D'aprs Kasturi et al.(2002)




80



CHAPTRE . FONCTONS
D'MPORTANCE FREQUENTELLE
CHEZ LES SUJETS NORMO- ET MAL-
ENTENDANTS



II.1- ETUDE 1 ........................................................................................................................................ 81
.1.1- OBJECTFS DE L'ETUDE....................................................................................................... 81

Gilbert, G., Micheyl, C., Berger-Vachon, C. , Collet, L.
Frequency weighting functions in young and older listeners (in revision JASA)....83

.1.2- DSCUSSON COMPLMENTARE ..................................................................................... 112
II.1.2.1- Mcanismes priphriques et de plus haut niveau......................................................... 112
II.1.2.2- Application de la mthode corrlationnelle a des signaux de parole et fonctions
psychomtriques .......................................................................................................................... 113
II.1.2.3- Comparaisons entre les fonctions d'importance obtenues dans l'tude prsente et dans
les tudes prcdentes, ainsi qu'avec la fonction d'importance relative au SII........................... 115
II.1.2.4- Fonctions d'importances: Relations avec les indices d'enveloppe................................ 118
II.2- ETUDE 2 ...................................................................................................................................... 121
II.3-CONCLUSION GENERALE DU CHAPITRE ............................................................................... 136









81
.1- ETUDE 1

.1.1- OBJECTFS DE L'ETUDE

La premire tude ralise dans le cadre de cette recherche doctorale, et dcrite
dans les pages suivantes, tait initialement conue comme un travail prliminaire. Cette
tude tait cense permettre, avant tout, de vrifier le bon fonctionnement de notre
implmentation de la mthode corrlationnelle, et si ncessaire, de parfaire le logiciel que
nous avions dvelopp durant les mois prcdents. Le second objectif de ce travail
prliminaire tait de constituer une base de donnes normatives de fonctions d'importance
chez des sujets tmoins ayant une audition normale, base de donnes que nous pourrions
ensuite utiliser comme rfrence pour jauger les rsultats obtenus dans des groupes de
sujets spcifiques, tels que les mal-entendants. Dans cette perspective, nous avions prvu
de constituer non seulement un groupe de sujets tmoins jeunes, mais galement un groupe
de sujets tmoins d'ge plus avanc, ayant une audition normale pour leur ge. Les rsultats
de ces derniers pourraient ainsi tre compars ceux de sujets mal-entendants, dont nous
anticipions (au vu des filires habituelles de recrutement) qu'une vaste majorit serait
relativement ge. L'inclusion de ces deux groupes de tmoins, l'un jeune, l'autre plus g,
nous a tout naturellement amen poser la question de l'effet ventuel de l'ge sur les
stratgies perceptives de pondration frquentielle pour la reconnaissance de la parole.
Dans les faits, ce dernier aspect savoir, la question de l'effet de l'ge sur les
fonctions d'importance frquentielles mesures avec la mthode corrlationnelle est
devenu un aspect central de l'tude. En effet, les rsultats que nous avons obtenus dans
cette tude ont mis jour l'existence de diffrences dans l'allure des fonctions d'importance
frquentielle entre les sujets jeunes et les sujets plus gs. A la suite de cette dcouverte,
nous nous sommes attachs explorer les possibles raisons de cette diffrence au niveau
des fonctions de poids. Evidemment, nous avons examin tout particulirement le rle
ventuel du facteur audibilit, car mme si les sujets avaient tous une audition normale pour
leur ge, les seuils absolus d'audition taient nanmoins plus levs dans le groupe de
sujets plus gs. Par ailleurs, nous nous sommes penchs sur les relations ventuelles de la
diffrence au niveau des fonctions d'importance avec d'autres diffrences observes entre
les deux groupes, notamment au niveau du seuil de rception de la parole dans le bruit
(lequel tait plus lev chez les sujets plus gs) et de la nature des confusions
phonmiques (les sujets gs faisant, par exemple, plus d'erreurs sur les fricatives que les
sujets plus jeunes).
La mthode et les rsultats de cette premire tude sont dcrits et discuts en dtail
dans le manuscrit en anglais suivant, lequel est actuellement en rvision dans The Journal of
82
the Acoustical Society of America. Le manuscrit couvre de faon dtaille l'essentiel des
diffrents points de cette tude. Cependant, depuis la soumission du manuscrit, notre
rflexion sur certains de ces points volu, nous amenant parfois effectuer certaines
analyses complmentaires des donnes de cette tude. Nous avons jug bon que le prsent
manuscrit de thse reflte cette volution. Aussi, le lecteur trouvera la suite de ce
manuscrit, ainsi que ceux correspondant aux tudes suivantes, une Discussion
complmentaire . Ce choix n'est videmment pas sans risques, notamment celui de
confrer au prsent manuscrit de thse un caractre inachev, ou celui de donner certains
lecteurs l'impression d'un travail encore en construction . Nanmoins, il nous semble
mieux reflter l'tat d'esprit gnral dans lequel s'est inscrit notre recherche doctorale,
savoir, celui d'une rflexion permanente sur une mthode psychophysique relativement
neuve - en l'occurrence, la mthode corrlationnelle et son application rcente l'tude
des mcanismes et stratgies individuelles de perception de la parole.










83

Frequency-weighting functions for speech in young and older listeners

Gatan Gilbert, Christophe Micheyl
(a)
, Christian Berger-Vachon,
Lionel Collet

UMR CNRS 5020 Neurosciences & Systmes Sensoriels
Universit Claude Bernard Lyon 1
50 av. Tony Garnier 69366 Lyon, France


a) Corresponding author:
Dr. Christophe Micheyl
Research Laboratory of Electronics, Bldg. 36-797
Massachusetts nstitute of Technology
Cambridge, MA 02139-4307, USA
Tel: 617-253-9840
Fax: 617-258-7003
e-mail: cmicheyl@mit.edu

JASA #1211

Revised: 07/30/03


Running head: Frequency weighting for speech in young and older listeners
84
ABSTRACT
Frequency-importance functions for speech were measured using a correlational approach in
20 normal-hearing listeners aged between 22 and 61 years. The listeners had to identify
vowel-consonant-vowel (VCV) stimuli in noise. The signal-to-noise ratio (SNR) was roved
independently in five adjacent frequency bands between 100 and 7750 Hz. The mid-point of
the 24-dB roving range was adjusted per listener to yield between 65 and 75% correct. The
importance of each band was estimated as the point bi-serial correlation coefficient between
the SNRs in that band and the obtained scores (correct/incorrect) across 1000 trials. The
frequency-importance functions, obtained by plotting the resulting correlation coefficients
(after normalizing their sum to 1 in each listener) as a function of the frequency band
number, were found to be substantially variable across subjects but similar on average
across test sessions as well as between the two ears. Significant differences were found
between young (22-27 years) and older (48-61 years) listeners: n the older listeners, the
measured importance of high frequencies (bands 4 and 5: 1750-7750 Hz) was lower, and
that of low frequencies (band 2: 100-250 Hz) higher than in the younger listeners. Although
all listeners had normal hearing for their age, high-frequency (>2 kHz) hearing thresholds
were significantly higher in the older listeners, and the measured importance of high-
frequencies (bands 4 and 5: 1750-7750 Hz) was found to depend significantly upon high-
frequency (2-8 kHz) hearing sensitivity. n addition, the older listeners needed a roughly 3.25
dB higher mid-point SNR to achieve approximately the same percentage correct as the
younger listeners. Yet, speech intelligibility index (S) calculations predicted that under the
tested conditions, intelligibility should be the same in the two groups. The distribution of
consonant-identification errors was different between the two groups, with more affrication-
related errors in the older group. A possible explanation for these observations is that the
slight reduction of high-frequency, although insufficient to cause a significant reduction in the
amount of information that was available to the listeners for understanding speech,
influenced how this information was weighted across frequency.
PACS: 43.66.Sr, 43.71.An, 43.71.Es, 43.71.Gv, 43.71.Lz
85
INTRODUCTION
Over the past fifty years, speech perception studies have identified a number of
acoustic cues that characterize particular (classes of) speech sounds. One of the biggest
challenges of speech perception research is to establish which of these cues are effectively
used by human listeners in order to understand speech. Since speech is a broadband signal,
and acoustic cues to phonemic identity are generally scattered across a wide frequency
range, a commonly-used approach involves trying to identify the relative importance of
different frequency regions for speech understanding. This approach has led to the
elaboration of the articulation index (A) (French and Steinberg, 1947) and more recently of
the speech intelligibility index (S) (ANS S3.5., 1997). Although these indices are rather
successful in predicting speech intelligibility in various listening conditions, they suffer from
several important shortcomings. n particular, they fail to account for important synergetic or
redundant interactions between frequency bands (Grant and Braida, 1991; Lippman 1996;
Msch and Buus, 2001).
Recently, alternative approaches have been proposed to estimate the relative
importance of different frequency bands for speech understanding, which overcome certain
limitations of the A or S. One of these, put forward by Doherty and Turner (1996), is based
on the application to speech of the correlational method developed by Richards and Zhu
(1994) and Lutfi (1995) for estimating the perceptual weights assigned by listeners to the
different frequency components of complex tones in discrimination, detection, or recognition
tasks. The origins of the correlational method can be traced back to the conditional-on-a-
single-stimulus (COSS) method, initially developed by Berg (1989). The general principle of
the correlational method, as applied to speech by Doherty and Turner (1996), consists of
measuring recognition performance for speech signals to which different amounts of noise
are added pseudo-randomly and independently in different frequency bands, on each
presentation. The perceptual weight of each band is then estimated as the correlation
coefficient between the signal-to-noise ratios (SNRs) in that band on successive trials and
the corresponding recognition scores. The higher the correlation, the more the importance of
86
the considered frequency band. Frequency-weighting functions, obtained by plotting the
correlation coefficients (often normalized so that their sum across frequency equals one) as a
function of frequency, provide an overall picture of how a listener or a group of listeners
weighs the information contained in different frequency bands for the purpose of recognizing
speech.
Following Richards and Zhu (1994), and Lutfi (1995), Doherty and Turner (1996) and
Turner et al. (1998) interpreted the measured correlation coefficients (normalized so that
their sum across frequency was equal to 1, as estimates of the relative weights placed upon
the different frequency bands by the listeners. n this sense, the measured importance
functions provide insight into the listeners' weighting strategies. A more general
interpretation, however, is that the measured weights reflect the overall importance of each
band, which depends not only on the observer's internal weighting strategy but also on the
intrinsic informational content of the different bands i.e., the fact that certain bands may
convey more useful cues for speech recognition than others, independently of how they are
weighted by the listeners -. The latter factor is likely to be dominant in situations where the
frequency bands are not selected in such a way that they yield approximately identical
performance when presented in isolation. There are a number of potential applications of the
correlational method in which this particular condition may not be met. For instance, if the
method were to be used in the future in the context of hearing-aid or cochlear implant fitting
as suggested by Doherty and Turner (1996) and Mehr et al. (2001), it might be interesting to
use the same bands as those defined by the functional characteristics of these devices.
Thus, it is important to investigate what the correlational method can reveal in such situations
were the frequency bands are not necessarily chosen so that they would contribute
identically to performance if presented in isolation.
n this context, the frequency-importance functions obtained using the correlation
method may be compared to the frequency-importance functions of the articulation index (A)
(French and Steinberg, 1947; Fletcher, 1953; Kryter, 1962; Pavlovic, 1986) or speech
intelligibility index (S) (ANS, S3.5, 1997). However, one important difference between the
87
frequency-importance functions measured using the correlational method and those used in
the A or S stems from the fact that the latter were obtained using band-pass filtered
speech. t is possible that the identification of speech bands presented in isolation involves
substantially different mechanisms from those involved when more natural - or at least, less
radical alterations of the original speech signal are introduced. Furthermore, the frequency-
importance functions of the A and S do not account for possible physiological or perceptual
interactions across bands e.g., spread of masking -, the influence of which can only be
captured by presenting the bands simultaneously.
To our knowledge, only three studies in the literature have documented the use of the
correlational method for measuring frequency-importance functions for speech so far. Two of
these studies (Doherty and Turner, 1996; Turner et al., 1998) were performed in normal-
hearing listeners; the third (Mehr et al., 2001) was performed in cochlear implantees. More
recently, Katsuri et al. (2002) have estimated frequencyweighting functions for speech using
stimuli with spectral holes, i.e., frequency bands in which the energy was set to zero; by
selecting in a systematic, pseudo-random way the bands that were turned off on each
stimulus presentation, they could estimate the perceptual importance of the different bands
for intelligibility. Although it is less time-consuming than the method devised by Doherty and
Turner, this method imposes more drastic modifications of the speech stimuli.
The present study was undertaken to gather further information on frequency-
importance functions measured with the correlational method in normal-hearing listeners. n
particular, we wanted to examine further across- and within-subject variability, as well as the
potential factors of this variability, in particular: age-related differences in hearing-sensitivity
within the normal-hearing population.

I. MATERIAL AND METHODS
A. Subjects
Twenty subjects took part in the study. They were divided equally into two groups of
10 subjects, with 5 female and 5 male subjects in each group. One group was composed of
88
young (22 to 27 years old) listeners; the other was composed of older listeners (48 to 61
years old). All listeners had normal hearing thresholds for their age. The average pure-tone
hearing thresholds measured at octave frequencies between 250 and 8000 Hz in the young-
and older-listener groups are shown in Fig. 1. Although all subjects had normal hearing for
their age, overall, thresholds differed significantly between the two groups of subjects
[F(1,38)=87.039, p<0.001]: the older listeners had significantly higher hearing thresholds
than the young listeners. Although statistically significant differences were observed at all the
frequencies tested between 250 and 8000 Hz (as revealed by post-hoc tests, with Bonferroni
correction: t=-3.223, p=0.016, and df=38 at 250 Hz; t=-3.405, p=0.009, and df=38 at 500 Hz;
t=-2.669, p=0.067, and df=38 at 1 kHz; t=-4.935, p<0.001, and df=38 at 2kHz ; t=-6.103,
p<0.001, and df=38 at 4 kHz; t=-5.915, p<0.001, and df=38 at 8 kHz), as clearly visible on
Fig. 1, these differences were substantially larger above than below 2 kHz (average
difference over 250, 500, 1000 and 2000Hz =6.4 dB, SD=1.7 dB; average difference over
4000 and 8000 Hz=17.7 dB , SD=5.7 dB).











Figure 1. Average pure-tone audiograms measured at octave frequencies between 250 and
8000 Hz in the young and older groups. The error bars show the standard deviations of the
mean.

-5
0
5
10
15
20
25
30
35
0.25 0.5 1 2 4 8
frequency (kHz)
h
e
a
r
i
n
g

l
o
s
s

(
d
B

H
L
)
young listeners
older listeners
89
B. StimuIi and procedure
The stimuli were vowel-consonant-vowel (VCV) syllables formed by combining one of
three vowels (/a/,/i/and /u/) with one of the 17 different consonants of the French
language. The same vowel was used at the initial and final positions. All 51 possible
combinations were uttered four times by four native French speakers (2 male, 2 female),
creating a total of 816 stimuli. Before each presentation, the selected speech token was
added with noise in 5 adjacent frequency bands, which were characterized by the following
upper and lower cutoff frequencies: 100-250 Hz (band 1), 250-750 Hz (band 2), 750-1750
Hz (band 3), 1750-3750 Hz (band 4), and 3750-7750 Hz (band 5). These bands were chosen
somewhat arbitrarily, with the only constraints that: 1/their bandwidths should increase in a
grossly logarithmic fashion with frequency, and 2/they should cover a frequency range
wherein most of the energy of speech signals is contained. Obviously, had other bands been
chosen, the details of the measured weighting functions would probably have been different.
However, until the influence of band selection is systematically explored in further studies, a
reasonable a priori assumption is that the general profile of these functions, when plotted as
a function of frequency (and not frequency band number) should be largely insensitive to
how the bands are split up unless extreme test conditions - involving bands with very low or
high center frequencies, or very narrow or wide bandwiths - are used. Since our aim in this
study was not to estimate specifically the listeners' weighting strategies, it was not required
that the bands contributed equally to performance when presented in isolation.
Consequently, it is possible that differences between the amounts of information conveyed
individually by the different bands was the main determinant of the importance-functions
profiles reported in this article, and these profiles cannot be interpreted as reflecting
exclusively the listeners' weighting strategies.
Following Turner et al. (1998), the level of the noise in each band was set so that the
signal-to-noise ratio (SNR) in the corresponding band was pseudo-randomly selected from a
24-dB range around a nominal value, known as the mid-point SNR. This mid-point SNR,
90
which was equal across bands, was adjusted in each listener prior to the experiment proper,
to yield an error rate of approximately 30% on average across all listeners. Like in Doherty
and Turner (1996) and Turner et al. (1998), this was achieved by first having the listener
perform 200 trials at an SNR (constant across bands) of 0 dB; then, based on the results of
these 200 trials, the SNR was increased or decreased and the listener performed another
block of 100 trials, and so forth, until he/she achieved between 65 and 75% correct
responses. The resulting SNR was retained as the mid-point SNR for that listener.
The actual SNRs in the different bands were drawn independently from a uniform
distribution between -12 and +12 around the selected mid-point SNR. There were 13
possible SNR values to select from within the 24 dB range, because a 2-dB step size was
used. The noise was generated on-line in the spectral domain, and submitted to an inverse
FFT before addition with the speech signal. Within a given band, the average long-term
spectrum of the noise had the same shape as the long-term average speech spectrum of the
speech stimuli in that band. The starting phase of the noise spectral components was
completely randomized. The level of the speech stimuli was set to 60 dB SPL.
During the tests, a total of 1000 stimuli, drawn at random from the above-described
set, were presented to each subject. After each stimulus presentation, the subject had to
repeat the speech sounds heard, and their responses were acquired by the experimenter. No
feedback was provided. After the test was completed, weights for each band were obtained
by computing correlation coefficients between the SNRs in the different bands and the binary
identification score across the 1000 trials. An error on the consonant and/or on the vowel
was counted as an incorrect response. The confusion matrices were analyzed in terms of
information theory, as described by Miller and Nicely (1955). For this analysis, only those
errors that involved consonants were used.

C. Apparatus
The speech signals were recorded using a Rhode NT-1 electrostatic microphone and
a Behringer ultragain Mic 2000 microphone pre-amplifier. They were sampled at 44.1 kHz
91
using a 16-bit sound card (Turtle Beach, Multisound Fiji Pro Series) on a Pentium computer.
The signals were then filtered off-line between 100 and 7750 Hz (R digital filter, 4
th
order)
and stored on an audio-CD, from which they were later downloaded back into the computer
memory, to serve as stimuli in the perceptual tests. Stimulus processing and presentation
were controlled using dedicated software running under Windows98 on a Pentium 350
MHz computer. Stimuli were presented at a 44.1-kHz sampling rate via a Roland UA30
soundcard. The stimuli were delivered monaurally to the subjects through circumaural
Sennheiser HD 265 Linear headphones. Subjects were seated in a quiet room.

II. RESULTS
A. Mid-point SNRs, correct percentages and error types
Across all listeners, the average value of the mid-point SNR was 1.65 dB and the
percentage of correct responses was 68.9%, thus well within the targeted range (65-75%).
The percentage of correct responses was very similar and not statistically different between
the two experimental groups (69.5% in the young-listeners group and 68.3% in the older-
listeners group). However, the mid-point SNR had to be adjusted to a higher level in the older
listeners (0.8 dB) than in the younger listeners (-2.45 dB). This difference was statistically
significant (Student's t-test on independent samples: t=-4.270, p<0.001,df=38).
Listeners very rarely failed to correctly identify vowels. On average, errors on vowels
were made on only 3.4% of all stimulus presentations, and errors on the vowel not
accompanied by an error on the consonant were made on less than 1% of all stimulus
presentations. n contrast, errors on the consonant occurred on 30.3% of the stimulus
presentations on average. The average error rate over all listeners, including errors on the
vowel and/or the consonant, was equal to 31.1%.
Figure 2 represents the percentage of transmitted information for the five features
proposed by these authors (voicing, nasality, affrication, duration and place of articulation) in
the two age groups. These data were analysed using a two-way ANOVA with the feature as
within-subject factor, and the group as across-subject factor. The results of this ANOVA
92
showed no significant difference between the two groups [F(1,38)=0.241, p=0.627] but a
significant interaction between group and feature [F(4,152)=13.611, p<0.001]. Post-hoc
comparisons (t-tests on independent sample with p values multiplied by the number of
comparisons) revealed that the percentage of affrication transmitted was smaller in the older-
listener group than in the young-listener group (t=-3.200, df=38, p<0.05), whilst for nasality
information, it was the converse (t=3.067, df=38, p<0.05).


Figure 2. Percent transmitted information for the five acoustic features proposed by Miller
and Nicely (1955) in the young and older groups. The error bars show the standard
deviations of the mean. The asterisks show the acoustic features for which the difference
was statistically significant with p<0.05 between the two groups.

A finer-grain picture of the differences in phoneme identification between the young
and the older listeners is provided in Fig. 3, which shows the percentage of information
transmitted for the different consonants. Post-hoc tests comparing the amount of transmitted
information in the two groups for each consonant revealed that /k/ was significantly less
35
45
55
65
75
85
95
voicing nasality affrication duration place
linguistic features
t
r
a
n
s
m
i
t
t
e
d

i
n
f
o
r
m
a
t
i
o
n

(
%
)
young listeners
older listeners
young and older listeners
*
*
93
well identified by older than by younger listeners (t=4.425, df=38, Bonferroni-corrected
p=0.001), whilst for /l/ and /n-/, it was the converse (respectively: t=-4.636, df=38,
Bonferroni-corrected p=0.001 and t=-3.256, df=38, Bonferroni-corrected p<0.05).
0
10
20
30
40
50
60
70
80
90
100
/p/ /t/ /k/ /b/ /d/ /g/ /f/ /s/ /sh/ /v/ /z/ /zh/ /l/ /m/ /n/
/gn/
/r/
consonants
t
r
a
n
s
m
i
t
t
e
d

i
n
f
o
r
m
a
t
i
o
n

(
%
)
young listeners
older listeners
*
*
*

Figure 3. Percent transmitted information for consonants in the young and older groups. The
error bars show the standard deviations of the mean. The asterisks in this Figure show the
consonants for which the difference was statistically significant with p<0.05 between the two
groups.

B. Weighting functions: generaI shape and test-retest consistency
Figure 4 shows the frequency-importance functions measured in the whole sample of
20 subjects. n the lower panel, the data are sorted by session (test vs. re-test), with both
ears confounded. n the upper panel, it is the converse. Overall, the measured weights were
found to be highly correlated between the two test sessions (Pearsons' r=0.680, p<0.001),
and between the two ears (Pearsons' r=0.681, p<0.001). The data were further analysed
using a three-way ANOVA, with the weights as dependent variable, the ear (left or right) and
frequency bands (1 to 5) as within-subject factors, and the testing order (left ear first and
right ear second, or the converse) as across-subject factor. No statistically significant
difference was observed between the two sessions [F(1,18)=0.831, p=0.374], nor between
the two ears [F(1,18)=0.997, p= 0.331]. No interaction between these two factors was
94
obtained either [F(1,18)=0.950, p= 0.343]. No significant interactions were observed between
the ear and frequency-band factors [F(4,72)=1.785, p=0.141], nor between the test session
and frequency band factors [F(4,72)=1.904, p=0.119]. The weights differed significantly
across bands [F(4,72)=37.319, p<0.001]. Post-hoc pairwise comparisons (independent-
samples Student's t-tests, with Bonferroni's correction) between the weights in the different
bands, the results of which are indicated in Table , revealed that band-4 weights were
generally the largest and band-5 weights the smallest.
An important question when considering importance functions measured using the
correlational method is whether correlations from which the weights are derived are
statistically significant. A simple way of evaluating the statistical significance of weights is to
count the proportion of subjects in whom the correlation coefficients from which the weights
were derived turned out to be significantly different from zero, i.e., larger than a pre-defined
statistical significance threshold. Following Lutfi (1995), to allow for a 95% confidence level,
this statistical significance threshold was set to 1.96/1000=0.0620. Table indicates, for
each frequency band, the percentage of subjects whose correlation coefficients in this band
were not found to be significantly different from zero, considering either the whole study
group, or each experimental group individually. t can be seen that whilst band-2 and band-4
correlations were significant in a vast majority of cases, band-1 and band-5 correlations were
not.

95
-0.1
0
0.1
0.2
0.3
0.4
0.5
1
0
0
-
2
5
0
2
5
0
-
7
5
0
7
5
0
-
1
7
5
0
1
7
5
0
-
3
7
5
0
3
7
5
0
-
7
7
5
0
frequency-band (Hz)
r
e
l
a
t
i
v
e

w
e
i
g
h
t
right ear
left ear
-0.1
0
0.1
0.2
0.3
0.4
0.5
1
0
0
-
2
5
0
2
5
0
-
7
5
0
7
5
0
-
1
7
5
0
1
7
5
0
-
3
7
5
0
3
7
5
0
-
7
7
5
0
frequency-band (Hz)
r
e
l
a
t
i
v
e

w
e
i
g
h
t
session 1
session 2


Figure 4. Frequency weighting functions measured in the whole sample of 20 subjects.
Upper panel: results sorted by test session (test vs. re-test), irrespective of the ear of
stimulation. Lower panel: data sorted by ear, irrespective of whether the data were collected
on the first or on the second test session. The error bars show the standard deviations of the
mean.






96














































Table . Results of pairwise comparisons (independent-samples Student's t-tests)
between the weights of the five frequency bands. The indicated p values were
multiplied by the number of tests (Bonferroni's correction). (a) Whole study group,
df=39. (b) Young subjects, df=19. (c) Older Subjects, df=19.
(a) Whole study group
band 2
band 3
band 4
band 5
band 1
t=-5.5572
p<0.001
t=-2.221
p<0.322
t=-10.543
p<0.001
t=3.274
p<0.05
band 2
---
t=2.573
p=0.140
t=-6.651
p<0.001
t=8.152
p<0.001
band 3
---
---
t=-7.616
p<0.001
t=5.299
p<0.001
band 4
---
---
---
t=14.989
p<0.001
(b) Young Subjects
band 2
band 3
band 4
band 5
band 1
t=-2.494
p=0.220
t=-0.437
p=1
t=-7.130
p<0.001
t=1.220
p=1
band 2
---
t=2.838
p=0.105
t=-6.600
p<0.001
t=5.301
p<0.001
band 3
---
---
t=-7.778
p<0.001
t=2.181
p=0.419
band 4
---
---
---
t=10.895
p<0.001
(c) Older Subjects
band 2
band 3
band 4
band 5
band 1
t=-6.802
p<0.001
t=-2.622
p=0.168
t=-9.607
p<0.001
t=3.524
p<0.05
band 2
---
t=1.185
p=1
t=-3.393
p<0.05
t=7.301
p<0.001
band 3
---
---
t=-4.076
p<0.01
t=5.819
p=0.001
band 4
---
---
---
t=10.079
p<0.001
97














C. Weighting functions: infIuence of age and hearing sensitivity
Figure 5 shows the importance functions measured in the younger and older groups
of listeners separately. These data were analysed using a three-way ANOVA, with the age
and gender as across-subject factors, and the frequency band as within-subject factor, the
shape of the weighting-functions was not significantly influenced by gender (frequency band
gender interaction: F(4,144)=0.913, p=0.458), but it was significantly different across the
two age groups (frequency band age interaction: F(4,144)=5.427, p<0.001). Planned
comparisons (independent sample t-tests) revealed that the relative weights on bands 2
(t=2.479, p<0.05, df=38) and 3 (t=2.877, p<0.01, df=38) were significantly greater in the older
than in the younger subjects. Conversely, the relative weights on bands 4 (t=-2.667, p<0.05,
df=33.8) and 5 (t=-2.463, p<0.05, df=38) were significantly smaller in the older subjects.
Table . Percentage of subjects whose correlation coefficients were below the
95% significance threshold for each of the five frequency bands.
band 1
band 2
band 3
band 4
band 5
Whole study group
55
7.5
35
0
75
Young subjects
65
10
50
0
70
Older subjects
45
5
20
0
80
98
-0.1
0
0.1
0.2
0.3
0.4
0.5
1
0
0
-
2
5
0
2
5
0
-
7
5
0
7
5
0
-
1
7
5
0
1
7
5
0
-
3
7
5
0
3
7
5
0
-
7
7
5
0
frequency-band (Hz)
r
e
l
a
t
i
v
e

w
e
i
g
h
t
women
men
-0.1
0
0.1
0.2
0.3
0.4
0.5
1
0
0
-
2
5
0
2
5
0
-
7
5
0
7
5
0
-
1
7
5
0
1
7
5
0
-
3
7
5
0
3
7
5
0
-
7
7
5
0
frequency- band (Hz)
r
e
l
a
t
i
v
e

w
e
i
g
h
t
young listeners
older listeners
*
**
*
*


Figure 5. Frequency weighting functions measured in the whole sample of 20 subjects.
Upper panel: results grouped by age (young and older). Lower panel: data grouped by
gender. The error bars show the standard deviations of the mean. The asterisks in the upper
panel show the frequency bands for which the weights differed significantly between the two
groups ( * : p<0.05 ; ** : p<0.01)

Although all subjects in this study had normal hearing for their age (Goodhill and
Harris, 1979), hearing thresholds were slightly more elevated at high frequencies in the older
than in the younger listeners. Therefore, the differences between the two experimental
groups illustrated in Fig. 5 could reflect the influence, not of age per se, but of decreased
hearing sensitivity. n order to test this possibility, we performed an analysis of covariance
(ANCOVA) with the weights as dependent variable, the listeners group as factor, and the
average hearing thresholds at low (0.25-2 kHz) and high (4-8 kHz) frequencies as covariates.
99
The results showed a significant effect of the high-frequency-thresholds covariate
(F(1,34)=13.398, p=0.001). Neither the low-frequency-thresholds covariate nor the age-group
factor had a significant influence on the measured weights.

III. DISCUSSION
A. PossibIe reasons for the different importance profiIes between young and oIder
Iisteners
The main result of the present study is a difference between frequency-importance
functions in young and older listeners. n the older listeners, high frequencies (>1750 Hz)
were significantly less important for speech recognition than in the younger listeners.
Conversely, frequencies between about 250 and 750 Hz (band 2) were more important for
the older listeners than for the younger ones.
Given that the older listeners had significantly higher hearing thresholds than the
younger listeners above 2 kHz, a possible explanation for the difference in weighting
functions is that older listeners relied less on high-frequencies simply because these were
less audible for them. n fact, considering that the long-term average spectrum of speech
signals falls off rapidly toward high frequencies, it is possible that even with absolute-
threshold elevations as limited as those displayed by the older subjects, high-frequency
components in the speech spectrum that were audible for the younger listeners were
inaudible for the older ones. The third-octave LTAS of the speech signals used in this study
is shown in Fig. 6. The pure-tone hearing thresholds measured in the two groups of listeners
are superimposed onto this Fig. t can be seen that above around 4 kHz, the long-term
average third-octave-band level of the speech stimuli was already below or only slightly
above the pure-tone detection thresholds for the older listeners.
100

Figure 6. One-third-octave long-term-average-spectrum levels of the speech stimuli used in
this study and average pure-tone hearing thresholds of the two groups of listeners. The
average hearing thresholds for the young (filled squares, dotted line) and older (filled circles,
dotted line) listeners were obtained by converting those shown in Fig. 1 from dB HL to dB
SPL; the error bars indicate standard deviations around the mean. The 1/3 octave band
speech levels are indicated by filled upward-pointing triangles and solid lines.


n order to examine whether reduced audibility at high frequencies could really
account for the reduced importance of high-frequency bands in the older listeners of the
present study, S calculations were performed. The S was estimated according to the
procedure described in ANS S3.5 (1997). The input variables were the average absolute
thresholds measured in the two groups of listeners (in dB SPL), the LTAS of the speech
signals and that of the noise. The calculations were carried out for two extreme situations,
which corresponding to the best- and worst-cases that could occur during the experiment,
101
namely: a) a constant SNR across bands of 12.8 dB for the older listeners or 9.55 in the
younger listeners; b) a constant SNR across bands of -11.2 dB for the older listeners or -
14.45 in the younger listeners. n addition, the S was predicted for a quiet condition,
assuming no noise. Following Pavlovic and Studebaker (1984) the percentages of correct
identification corresponding to these Ss were computed as Pc = 1-10
S/Q
, with Q = 0.6. The
resulting S and percent-correct predictions are given in Table . t can be seen that the
predictions for a given SNR were either identical or only slightly different between the young
and older listeners. Thus, according to these predictions, audibility alone cannot explain the
fact that older listeners required on average a higher SNR in order to achieve the same
percent-correct than the younger listeners, or the fact that the two groups of listeners
exhibited different frequency-importance functions for speech. Given the rather modest loss
displayed by these listeners, it is also unlikely that significant supra-threshold deficits can
explain these findings. For instance, significant increases in frequency selectivity are in
general only observed above about 30-40 dB HL (Moore et al., 1999).
To the extent that roughly the same basic information or cues for speech recognition
were available to the listeners in the two groups, the differences between the importance
functions measured in these two groups may reflect genuine differences in listening
strategies. n this view, the fact that the older listeners required a higher SNR in order to
achieve the same average percentage of correct responses than the younger listeners may
be conceived as a result from the fact that they gave undue weight to certain frequency
bands. Whilst it is possible that this change in frequency-weighting strategy reflects mostly
central or cognitive factors, the finding of significant correlations between the weights and
high-frequency hearing thresholds suggests that the change is somehow related to the slight
loss of high-frequency information. A possible explanation is that, although the decrease in
high-frequency sensitivity in the older listeners was not large enough to significantly impact
speech recognition abilities, it was however sufficiently large to induce changes in the way
acoustic cues were utilized by the central auditory system in order to recognize speech.
Further study is required before this possibility can be ascertained. An alternative
102
interpretation is that the S predictions were not sensitive enough to capture the influence of
the slight high-frequency threshold elevations on speech intelligibility, and that significantly
less potentially useful information was effectively available to the older listeners to recognize
speech.




















Under the hypothesis that the importance functions measured in the present study
reflect how the young and older listeners weighted information across frequency, the finding
that listeners with elevated thresholds at high frequencies put less weight on these
frequencies may be contrasted with earlier results by Doherty and Lutfi (1995). Using the
COSS method (Berg, 1989) to estimate listeners' weights in a complex-tone level
discrimination task, these authors showed that hearing-impaired listeners assigned more
weight to high-frequency components, where their absolute thresholds were elevated. This
earlier result qualifies the present finding by showing that reduced absolute sensitivity is not
necessarily associated with reduced weights. However, it is important to note that the stimuli
and task used by Doherty and Lutfi (1995) differed substantially from those that were used
here, and that none of the listeners in the present study had impaired hearing for their age.
These differences strongly limit direct comparisons between the outcomes of the two studies.
Table : Speech intelligibility index (S) and percent-correct predictions (see Text for
details).
SNR (dB)
Younger
Older
S
Pc
S
Pc
-14.45
0.02
6.4%
0.02
6.4%
-11.2
0.12
36.2%
0.12
36.2%
9.55
0.77
94.9%
0.76
94.7%
12.8
0.87
96.5%
0.86
96.3%
quiet
0.95
97.3%
0.93
97.2%
103

B. ReIationships between weights and confusions
Were the observed differences in weighting functions between the young and older
listeners reflected in differences in the type of confusions made by the listeners from these
two groups? The analysis of confusion matrices revealed that the affrication feature was
significantly less well transmitted in the older than in the younger listeners. On the other
hand, the importance-function data revealed a reduced importance of high-frequency (bands
4 and 5) information in the older listeners compared to the younger ones. A review of the
speech perception literature indicates that the frequency region corresponding to band 4
(1750-3750 Hz) contains important acoustic cues for the identification of several consonants.
n particular, sibilant consonants (/s/, //, /z/, and //) are characterized by steep
high-frequency peaks centered around 2.5-3 kHz for the // and // palatals, or 4 kHz for
the /s/ and /z/ alveolars - at least for male speakers (Strevens, 1960; Jassem, 1965,
Behrens and Blumstein, 1988a). These spectral peaks thus fall within the passband, or close
to the upper edge, of band 4. A second element that may have contributed to the importance
of band 4 is that, as can be seen by looking at Table V, the center frequency of the third
formant of the three vowels used in this study was almost always contained in band 4.
Coarticulation mechanisms between palatal sibilant consonants and following vowels are
such that the spectral shape of these consonants presents a peak at the third formant
location of the vowel (Jongman et al., 2000). These data suggest that the reduced
importance of high-frequency bands (bands 4 and 5) and the reduced transmission of
affrication in the older listeners were probably not just coincidental. The analysis of confusion
matrices also revealed that the nasality feature was better transmitted in the older than in the
younger listeners. Data in the literature indicate that acoustic cues for nasal consonants are
predominantly found at low frequencies, i.e., mostly below 1500 Hz (House, 1957; Fant,
1960; Fujimura, 1962; Kurowski and Blumstein, 1987; Martin, 1996; Chen et al. 1996;
Delattre, 1958; Liberman et al., 1954; Larkey et al., 1978). From this point of view, the finding
104
that older listeners were better at identifying nasal consonants than the younger listeners
may be related to the increased importance of low-frequency (band 2) information in the
former.
Beyond these general parallels, relating differences in frequency-importance
functions and differences in confusion patterns between young and older listeners becomes
a tedious and uncertain task. Studies using a larger number of bands with smaller
bandwidths are required before detailed relationships between frequency-importance
functions and phonemic confusion patterns can be established with certainty.


105
















Table V. dentification of the third three formants of vowels /a/, /i/ and /u/ for the four different speakers (S1 and S2: female; S3
and S4 male) who uttered the speech signals used as stimuli in this study.
F1 (Hz) F2 (Hz) F3 (Hz)
vowel
/a/
/i/
/u/
mean
S.D
min
max
mean
S.D
min
max
mean
S.D
min
max
S1
950
63
263
359
296
63
263
359
296
27
263
373
S2
936
97
774
1148
280
19
249
332
288
19
235
346
S3
761
54
608
866
234
37
175
350
256
28
194
350
S4
648
36
594
760
254
23
180
290
275
15
250
332
S1
1690
123
1383
1963
2842
81
2641
3069
860
76
705
1065
S2
1608
102
1355
1894
2368
71
2364
2765
826
68
705
1037
S3
1303
140
1106
1631
2151
88
1972
2359
803
81
618
1041
S4
1248
59
1134
1383
1945
35
1853
2005
724
101
539
954
S1
2950
101
2682
3180
3680
185
3290
4148
2938
107
2530
3207
S2
2811
132
2585
3180
3701
183
3277
4175
2717
155
2392
3014
S3
2493
136
2074
2848
2992
110
2737
3226
2260
119
2065
2903
S4
2395
87
2129
2544
3035
89
2834
3249
2050
65
1908
2270
106
C. Inter-individuaI variabiIity
A noteworthy difference between the weighting functions obtained by Turner et al.
(1998) and those measured in the present study relates to their variability. Turner et al.
(1998) found weighting functions for speech to be very similar across subjects, which led
these authors to suggest that normal-hearing listeners were generally very consistent in their
frequency weighting strategies. Here, as shown by the error bars in the upper panel of Fig. 5,
substantial variability was observed across listeners, even within a given age group. Possible
reasons for this discrepancy between the two studies include the fact that both the subjects
sample and the speech material involved in the present study were more varied than those in
Doherty and Turner's (1996) and Turner et al.'s (1998) studies; for example, Turner et al.
used a 258-item set produced by two speakers vs. a 816-item set produced by four speakers
here.

IV. SUMMARY
n this study, we used the correlational method in order to test for differences in
frequency-importance strategies for speech perception in young and older listeners having
normal hearing for their age. The results can be summarized as follows:
(1) Older listeners required a 3.25dB-higher SNR on average in order to achieve
approximately the same percentage of correct responses for VCV identification than the
younger listeners. S predictions indicated that the differences in (high-frequency) absolute
thresholds between the two groups were too small to explain this effect, suggesting that it
was not related to audibility.
(2) Compared to young subjects, older subjects relied less on information at high
(>1750 Hz) frequencies. They put more emphasis on lower (250-1750 Hz) frequencies. The
weights of high-frequency bands were found to depend significantly upon absolute
thresholds at high frequencies (2-8 kHz). Considering that the slight elevation in high-
frequency hearing thresholds in the older listeners was insufficient to significantly affect
audibility or other peripherally-based auditory abilities, like frequency selectivity, this
107
suggests that even slight decreases in hearing sensitivity may have a significant influence on
how acoustic cues are utilized by the central auditory system for recognizing speech, and
specifically, on how the system weights information across frequency.
(3) Although the SNR was adjusted so that the younger and older listeners had
similar percent-correct scores on average, consonant-identification errors were distributed
differently between the two groups. n particular, the affrication feature was significantly less
well transmitted in the older listeners than in the younger listeners. This outcome is
consistent with a reduced importance of high-frequency information in the older listeners.









ACKNOWLEDGMENTS

The authors are grateful to Audrey Chaput for her help in conducting the experiments, and to
Sren Buus, Penhinah Fine-Rosengard, Ken Grant, Andrew Oxenham, Michael Qin,
Christopher Turner, and one anonymous reviewer for helpful comments on an earlier version
of this manuscript. Work supported in part by MENRT and GDR 2213 "Prothses auditives
(CNRS, CCA Groupe, Entendre, Oticon, Phonak, Siemens Audiologie).
108
FOOTNOTES
1. For technical reasons related to the sampling frequency and the number of bins in the
FFT, the actual corner frequencies of the bands were slightly different from these indicated in
the text. The exact corner frequencies used were: 97-248 Hz (band 1), 248-741 Hz (band 2),
741-1755 Hz (band 3), 1755-3758 Hz (band 4), and 3758-7741 Hz (band 5). Also, note that
the first frequency band was truncated in order to accommodate the overall passband of the
signals (100-7750 Hz).

109
REFERENCES

ANS (1997). ANS S3.5-1997, American National Standards Methods for the Calculation of
the Speech ntelligibility ndex (ANS, New York).
Berg, B. G. (1989). "Analysis of weights in multiple observation tasks, J. Acoust. Soc. Am.
86, 1743-1746.
Behrens, S. J., and Blumstein, S. E. (1988a). "Acoustic characteristics of English voiceless
fricatives: A description analysis, J. Phonetics 16, 295-298.
Chen, M. Y. (1997). "Acoustic correlates of English and French nasalized vowels, J. Acoust.
Soc. Am. 102 (4), 2360-2370.
Delattre, P. (1958). "Les indices acoustiques de la parole, Phonetica 2, 226-251.
Doherty, K. A., Lutfi, R. A. (1995). "Spectral weights for overall level discrimination in
listeners with sensorineural hearing loss, J. Acoust. Soc. Am. 99, 1053-1058.
Doherty, K. A., Turner, C. W. (1996). "Use of a correlational method to estimate a listener's
weighting function for speech J. Acoust. Soc. Am. 100, 3769-3773.
Fant, G. (1960). Acoustic Theory of Speech production (Mouton, The Hague).
Fletcher, H. (1953) Speech and Hearing in Communication. Krieger, New York.
French N. R., Steinberg J.C. (1947). "Factors governing the intelligibility of speech sounds,
J. Acoust. Soc. Am. 19, 90-119.
Fujimura, O. (1962). "Analysis of nasal consonants, J. Acoust. Soc. Am. 34, 1865-1875.
Goodhill,V., Harris,. (1979). Ear Diseases, Deafness, and Dizziness. Harper_Collins, New-
York
Grant, K. M., Braida, L. D., (1991). Evaluating the articulation index for auditory-visual input,
J. Acoust. Soc. Am. 89 (6), 2952-2960.
Jassem, W. (1965). "Formants of fricatives consonants, Lang. Speech 8, 1-16.
Jongman, A., Wayland, R., Wong, S. (2000). "Acoustic characteristics of English fricatives,
J. Acoust. Soc. Am 108 (3), 1252-1263.
110
House, A. S. (1957). "Analog studies of nasal consonants, J. Speech Hear. Disord. 22, 190-
204.
Kasturi, K., Loizou, P., Dorman, M., Spahr, T. (2002). "The intelligibility of speech with "holes
in the spectrum, J. Acoust. Soc. Am. 112, 1102-1111.
Kryter, K. D. (1962) . "Methods for the calculation and use of the articulation index, J.
Acoust. Soc. Am. 34, 1689-1697.
Kurowski, K., and Blumstein, S. (1987). "Acoustic properties for place of articulation in nasal
consonants, J. Acoust. Soc. Am. 76, 383-390.
Larkey. L., Wald, J. and Strange, W. (1978). "Perception of synthetic nasal consonants initial
and final syllable position, Percept. Psychophys. 23, 299-311.
Liberman, A. M., Delattre, P. C., Cooper, F. S., and Gerstman, L. J. (1954). "The role of
consonant-vowel transitions in the perception of the stop and nasal consonants,
Psychol. Monographs: Gen. Appl. 68, 1-13.
Lippman, R. P. (1996). "ntelligibility of bandpass speech: Effects of truncation or removal of
transition bands, EEE Trans. Speech Audio. Process. 4, 66-69.
Lutfi, R. A. (1995). "Correlation coefficients and correlation ratios as estimates of observer
weights in multiple-observation tasks, J. Acoust. Soc. Am. 97, 1333-1334.
Martin, P. (1996). lments de phontique, avec application au franais (Sainte-Foy, Les
Presses de l'Universit Laval).
Mehr, M. A., Turner, C. A., Parkinson, A. (2001). "Channel weights for speech recognition in
cochlear implant users, J. Acoust. Soc. Am. 104, 359-366.
Miller, G. A., Nicely, P. E. (1955). "An analysis of perceptual confusions among some English
consonants, J. Acoust. Soc. Am. 27, 338-352.
Moore, B. C., Vickers, D. A., Plack, C. J., Oxenham, A. J. (1999). "nter-relationship between
different psychoacoustic measures assumed to be related to the cochlear active
mechanism, J. Acoust. Soc. Am. 106, 2761-2778.
Msch, H, and Buus, S. (2001). "Using statistical decision theory to predict speech
intelligibility. . Model structure, J. Acoust. Soc. Am. 109, 2896-2909.v
111
Pavlovic, C. V., Studebaker, G. A., Sherbecoe, R. L. (1986). "An articulation index based
procedure for predicting the speech recognition performance of hearing-impaired
individuals, J. Acoust. Soc. Am. 80, 50-57.
Pavlovic, C. V., Studebaker, G. A. (1984). "An evaluation of some assumptions underlying
the articulation index," J. Acoust. Soc. Am. 75, 1606-1612.
Richards, V. M., Zhu, R. (1994). "Relative estimates of combination weights, decision
criteria, and internal noise based on correlation coefficients, J. Acoust. Soc. Am.
95, 423-434.
Stevens, K. N., Blumstein, S. E. (1978), "nvariant cues for place of articulation in stop
consonants, J. Acoust. Soc. Am. 64 (5), 1358-1368.
Strevens, P. (1960). "Spectra of fricative noise in human speech, Lang. Speech 3, 32-49.
Turner, C. W., Kwon, B. J., Tanaka, C., Knapp, J., Hubbartt, J. L., Doherty, K. A. (1998)
"Frequency weighting functions for broadband speech as estimated by a
correlational method, J. Acoust. Soc. Am. 104, 1580-1585.







112
.1.2- DSCUSSON COMPLMENTARE

.1.2.1- Mcanismes priphriques et de plus haut niveau

l sera sans doute apparu, au fil de la lecture du manuscrit ci-dessus, que l'une des
principales difficults laquelle nous avons t confronts, dans cette prmire tude, tait
d'valuer l'influence respective des facteurs priphriques (tels que la diminution
ventuelle d'audibilit lie l'lvation des seuils absolus dans les hautes frquences avec
l'ge) et des facteurs plus centraux ou cognitifs (telles qu'une dgradation avec l'ge de
certaines capacits de traitement des informations auditives, entranant une modification des
stratgies de perception de la parole). L'approche que nous avons utilis pour tenter de
dpartager ces deux types de facteurs tait fonde, principalement, sur le calcul de
prdictions S visant dterminer si l'lvation, significative mais malgr tout modeste des
seuils absolus d'audition en hautes frquences avait entran une baisse significative de
l'audibilit chez les sujets plus gs, par rapport aux sujets jeunes. Notre rponse ngative
sur ce point est peut-tre modrer. Les prdictions S ne sont, aprs tout, que des
prdictions. Le modle A ou S a indniablement ses limites, et c'est prcisment pour
tenter de contrevenir certaines de ses imperfections que Doherty et Turner ont propos
d'appliquer la mthode corrlationnelle la perception de la parole. Cependant, en attendant
que des modles prdictifs ou explicatifs plus prcis soient disponibles, ce que l'on peut
raisonnablement conclure ce stade est que : dans la mesure o les modles actuels
permettent de le dterminer, l'influence de l'lvation des seuils absolus dans le groupe de
sujets gs sur l'audibilit ne permet pas d'expliquer l'lvation du RSB nominal requise par
ce groupe pour atteindre un pourcentage de reconnaissance similaire celui des sujets plus
jeunes. A partir de l, et surtout si l'on admet qu'aprs ajustement appropri du RSB,
l'audibilit tait similaire dans les deux groupes exprimentaux, il ne semble pas que la
diffrence observe entre sujets jeunes et gs au niveau des fonctions d'importance puisse
s'expliquer simplement en terme d'audibilit. Bien qu'il n'est pas entirement inconcevable
que d'autres facteurs priphriques telles qu'une diminution de slectivit frquentielle -,
lesquels ne sont pas pris en compte par le modle S, aient pu jouer un rle, cette
explication apparat peu probable, car si l'lvation des seuils absolus tait elle-mme
insuffisante pour affecter l'audibilit, on imagine mal comment la perte de slectivit
frquentielle vraisemblablement modeste qui a pu accompagner cette lvation aurait pu,
elle, s'avrer suffisante pour avoir des consquences perceptives significatives sur les
fonctions de pondration. Sur cette base, nous sommes amens a retenir prfrentiellement
l'hypothse d'une implication centrale. Nanmoins, il faut bien avouer que l'origine et la
nature des processus centraux sous-jacents l'volution des fonctions de pondration
113
frquentielle avec l'ge restent dterminer. Notre hypothse explicative selon laquelle les
centres pourraient anticiper les consquences du vieillissement naturel de l'oreille est, on
le reconnat volontiers, largement spculative en l'tat actuel des connaissances. l va donc
sans dire que d'autres tudes sont requises avant que la question du rle respectif des
facteurs priphriques et centraux des stratgies de pondration frquentielle pour la
reconnaissance de la parole chez les sujets jeunes et gs ayant une audition normale pour
leur ge puisse tre dfinitivement rgle.

.1.2.2- Application de la mthode corrlationnelle a des signaux de parole et
fonctions psychomtriques

Revenons sur l'application de la mthode corrlationnelle sur les signaux particuliers que
sont ceux de la parole. nitialement, cette mthode a t dveloppe pour des protocoles
engageant des stimuli bien plus simples dans leur structure spectro-temporelle. Dans la
mesure o l'application sur des signaux de parole est radicalement diffrente des
prcdentes, la notion de poids perceptifs doit tre redfinie pour traduire des ambitions plus
modestes. La principale diffrence entre les deux applications rside dans le fait que dans le
cas de l'application de la mthode corrlationnelle sur des stimuli contrls , il est trs
simple d'envisager une stratgie optimale pour raliser la tche, alors que dans sa
transposition des signaux de parole, dfinir priori une stratgie optimale devient
manifestement plus difficile, si ce n'est compltement impossible en l'tat actuel des
connaissances. Dans le cadre des tudes avec des signaux naturels de parole, les notions
mmes de poids et de stratgies de pondration , moins strictement dfinies qu'elles
ne le sont pour des stimulus ou des tches plus simples, deviennent ambigus, voire
trompeuses. En effet, elles semblent indiquer implicitement qu'il est essentiellement question
de mcanismes subjectifs, attentionels : Le sujet place plus de poids sur telle bande que
sur telle autre ; il/elle porte une plus grande attention aux informations dans certaines
bandes. Mais en ralit, et nous insistons encore l-dessus, l'application de la mthode
corrlationnelle sur des signaux aussi complexes que des signaux naturels de parole ne
permet de dissocier les contributions respectives des influences endognes (subjectives,
attentionnelles,.) des influences exognes (lies aux caractristiques particulires ou au
contenu informationnel du signal vhicul par une bande frquentielle donne)
l'importance globale mesure pour la bande frquentielle considre. C'est en partie
pour tenter de pallier ce problme que Turner et collaborateurs ont, dans leur seconde
tude, divis le spectre en quatre bandes ayant approximativement la mme importance
lorsqu'elles taient prsentes seules. Cependant, dans l'hypothse probable selon laquelle,
du fait des interactions (synergiques ou redondantes) entre bandes, l'importance d'une
114
bande n'est pas forcment la mme lorsqu'elle est prsente avec d'autres bandes que
lorsqu'elle est prsente seule, la solution adopte par Turner et collaborateurs ne fournit
pas de garantie absolue que, dans les conditions de test, les quatres bandes qu'ils ont
choisies taient effectivement quivalentes dans leur contribution la performance, mme si
les sujets leur accordaient exactement le mme poids interne.
Une autre limite de l'application de la mthode corrlationnelle la parole, critique
d'ailleurs lie la prcdente, concerne la difficult s'assurer de l'homognit de
l'influence de la variation du RSB entre les diffrentes bandes. Conformment aux
recommandations de Turner et al. (1998), nous avons utilis une large plage de variation (24
dB) du RSB dans chacune des bandes. La Figure 7 illustre la relation entre le RSB et le
scores de reconnaissance pour chacune des diffrentes bandes frquentielles utilises.
Aucune des fonctions psychomtriques en question n'est compltement plate, ce qui indique
que l'ajustement du RSB nominal global, combin avec l'usage d'une plage de variation du
RSB large, a permis d'viter un effet seuil ou plafond dans certaines bandes ; ce type
d'effet aurait, de toute vidence, rendu caduque l'estimation du poids des bandes en
question. Ceci est plutt rassurant, mais l'absence de fonction psychomtrique plate dans
l'une ou l'autre des bandes est-elle un critre suffisant pour garantir que les poids estims ne
soient pas contamins par le placement des observations au sein de la gamme dynamique
des pourcentages d'identification ? En effet, ne suffirait-il pas que le RSB nominal soit
lgrement trop bas ou lgrement trop haut dans une bande pour biaiser ds le dpart
l'estimation du poids de cette bande. Si oui, il serait sans doute prfrable de rgler le RSB
nominal indpendamment dans chaque bande, plutt que globalement. Outre le fait que
nous n'avons pas encore trouv comment raliser concrtement un ajustement pralable
d'un tel niveau de complexit, nous avons pris conscience de ce type de problmes
mthodologiques seulement rcemment, aprs avoir longuement expriment et rflchi
l'application de la mthode corrlationnelle pour la parole. Aussi, le lecteur ne sera pas
surpris que ces problmes n'aient pas forcment trouvs de solution dans les tudes
exprimentales que nous prsentons dans les pages suivantes.








115

Figure 7. Fonctions psychomtriques pour chaque bande. En ordonne: Le pourcentage de
rponses correctes. En abscisses: Le degrs de dgradation centr par rapport au RSB
nominal. Les donnes de tous les participants ont t recueillies (sujets jeunes et gs
confondus).

.1.2.3- Comparaisons entre les fonctions d'importance obtenues dans l'tude
prsente et dans les tudes prcdentes, ainsi qu'avec la fonction d'importance
relative au S.

Les fonctions d'importance frquentielle mesures antrieurement notre tude ayant t
obtenues avec des bandes spectrales diffrentes de celles que nous avons utilises, la
comparaison quantitative directe entre les rsultats de la littrature et ceux obtenus ici est
dlicate. Nanmoins, sous certaines conditions simplificatrices
1
, le poids des bandes de
frquences utilises dans une tude donne peuvent tre estims partir des poids
mesurs au moyen d'autres bandes frquentielles dans d'autres tudes. C'est ce que nous
avons fait pour produire la Figure 8, o les fonctions d'importance frquentielles obtenues
par Turner et al. (1998) et Kasturi et al. (2002)
2
ont t retraces en fonction des bandes de
frquences utilises dans la prsente tude. Pour rendre les comparaisons plus pertinentes,
seules les fonctions d'importance frquentielle mesures chez les auditeurs jeunes dans
notre tude sont superposes celles mesures dans les tudes ralises par d'autres
auteurs, lesquels n'ont test que des auditeurs relativement jeunes. Ainsi transformes, les
fonctions de poids mesures par Turner et al. (1998) sont en bon accord avec celles
116
obtenues dans la prsente tude : la corrlation mesure entre les deux est gale 0.90.
Ceci bien que la langue utilise dans les deux tudes soit diffrente (Anglais dans l'tude de
Turner et al. contre le Franais ici). Notamment les deux fonctions montrent un pic sur la
quatrime bande et un poids minimal sur les bandes situes aux frquences extrmes. Cette
similarit suggre que les auditeurs normo-entendants emploient des stratgies similaires
pour reconnatre la parole dans les deux langues. Ce rsultat n'est pas vraiment surprenant,
tant donn que l'Anglais et le Franais ont en commun un grand nombre de phonmes.
Except pour // et /r/ tous les phonmes utiliss dans notre tude existent aussi dans la
langue anglaise. De plus, qu'il s'agisse de l'tude de Turner ou de la prsente, des syllabes
sans signification taient employes, liminant ainsi de nombreux facteurs spcifiques aux
langues utilises dans les deux tudes.
La fonction d'importance moyenne estime partir des donnes de Kasturi et al. (2002) s'est
avere sensiblement moins bien corrle avec celle obtenue dans notre tude (r=0.44) et
avec celle obtenue partir des donnes de Turner et al. (r=0.77) que ces deux dernires
entre elles (r=0.90). Une des raisons possibles pour expliquer cette moins bonne similarit
concerne le fait que dans l'tude de Kasturi et al. (2002), les fonctions d'importance n'ont
pas t estimes en utilisant la mthode corrlationnelle qui consiste appliquer des
niveaux alatoires de bruits dans diffrentes bandes frquentielles. Au lieu de cela, elles ont
t obtenues partir de stimuli de parole comportant des trous spectraux, c..d, des
bandes frquentielles dans lesquelles l'amplitude des composantes spectrales tait nulle. On
imagine aisment que les deux mthodes puissent conduire des rsultats sensiblement
diffrents. En effet si une bande frquentielle d'nergie nulle n'a aucune chance d'affecter la
dtection dans les bandes voisines, une bande frquentielle au sein de laquelle on a ajout
du bruit a, elle, de grandes chances de le faire, notamment cause de phnomnes tels que
le masquage ascendant (en anglais : upward spread of masking).
Une estimation de la fonction d'importance obtenue partir des donnes relatives
aux syllabes sans signification de la norme ANS S3.5 (1997) est galement reprsente sur
la Fig. 8. Pour cela, nous avons intgr l'importance relative attribue des bandes critiques
l'intrieur des limites dfinies par les frquences de coupure des bandes frquentielles
utilises dans cette tude. Comme on peut le voir, la fonction d'importance rsultante n'est
pas si dissemblable de celles mesures dans cette tude et dans l'tude de Turner et al.
(1998) . En particulier, elle indique un poids maximal sur la bande 4 et minimal sur la bande
1. Les degrs de corrlation avec les deux fonctions prcdentes sont de r=0.66 pour la
fonction mesure dans cette tude et r=0.80 pour celle estime sur la base des donnes
fournies par Turner et al. Soit le degr de corrlation obtenu est lgrement infrieur celui
observ entre la fonction d'importance mesure dans cette tude et celle estime sur la base
des rsultats obtenus par Turner et al. (1998). En particulier la fonction d'importance estime
117
sur la base des donnes S confre une plus grande importance la bande 5 relativement
la bande 4 que ne le font les autres fonctions d'importance drives en utilisant la mthode
corrlationnelle. Cela peut tre du au fait que l'approche de filtrage utilise pour estimer les
fonctions d'importance S sous-estime le masquage ascendant aux hautes frquences.
Dans l'ensemble, ces comparaisons indiquent un accord relatif entre les fonctions de
poids mesures dans la prsente et certaines autres tudes. Cependant, cet accord pourrait
tre artificiel car la transformation des fonctions de poids mesures dans une tude de faon
les rendre comparables celles mesures dans une autre tude implique de nombreuses
simplifications. Des tudes ultrieures devront tenter de vrifier dans quelles mesures ces
simplifications sont acceptables.

Figure 8. Comparaison entre les fonctions d'importance obtenues dans cette tude, et celles
estimes partir de deux tudes prcdentes ainsi qu'une estimation base sur les
fonctions d'importance du S pour les syllabes sans signification fournies par l'ANS S3.5
(1997). (Voir texte pour plus de dtails)





0
0,1
0,2
0,3
0,4
0,5
100-250 250-750 750-1750 1750-3750 3750-7750
frequency bands (Hz)
r
e
l
a
t
i
v
e

w
e
i
g
h
t
This study
Turner et al. (1998)
Katsuri et al. (2002)
S NSS (S3.5 ANS, 1997)
118
1- En admettant, pour simplifier, que toutes les composantes frquentielles d'une bande
donne contribuent galement l'importance mesure de cette bande, l'importance de
bandes frquentielles ayant t obtenues en utilisant des frquences de coupures diffrentes
de celles utilises dans cette tude peut tre estime comme une combinaison linaire des
poids originaux. Par exemple, la seconde bande frquentielle utilise dans notre tude
(1750-3750) concide avec la seconde et la troisime bande frquentielle utilise dans
l'tude de Turner et al. (Respectivement 1120-2250 Hz et 2250-3500 Hz). Plus prcisment
le domaine frquentiel correspondant la seconde bande spectrale de notre tude contient
56.2% de la bande 2 de Turner et al. et 100 % de leur bande 3. Par consquent, sous les
hypothses cites plus tt, nous pouvons estimer que si les auditeurs inclus dans l'tude de
Turner et al. avaient t tests en considrant les bandes frquentielles utilises ici, ils
auraient attribu cette bande une importance gale approximativement 56.2 % du poids
de la bande 2 de l'tude de Turner et al. plus 100 % du poids de la bande 3 de l'tude de
Turner et al.

2- Les poids refltant vraisemblablement majoritairement l'identification des
consonnes, pour les raisons indiques dans le corps de l'article, nous avons pris en compte,
pour cette comparaison, uniquement les fonctions d'importance frquentielle pour
l'identification des consonnes estimes par l'tude de Kasturi et al. (2002). Les valeurs
exactes nous ont t gnreusement indiques par Philipos Loizou.


.1.2.4- Fonctions d'importances: Relations avec les indices d'enveloppe

Un dernier point concernant cette premire tude, qui n'est pas abord dans l'article ci-
dessus mais qu'il nous semble important de mentionner dans cette thse, concerne le rle
ventuel des fluctuations temporelles lentes dans la dtermination de l'importance des
diffrentes bandes frquentielles pour la reconnaissance de parole. Divers travaux ce jour
indiquent assez fortement que les informations d'enveloppe temporelle jouent un rle
important dans la reconnaissance de la parole, en tout cas dans le silence (e.g., Shannon et
al. 1995). Aussi, tait il naturel de nous demander si les poids des diffrentes bandes
mesurs dans notre tude taient lis aux fluctuations temporelles lentes au sein de ces
diffrentes bandes. Afin de tester cette hypothse, nous avons tent de quantifier ces
fluctuations aprs filtrage cochlaire. Pour ce faire, nous avons simul les rponses de filtres
temporels (type Gammachirp, rino & Patterson, 1997), avec lesquels nous avons convolu
les signaux de parole utiliss dans notre tude pour mesurer les fonctions de poids.
L'enveloppe temporelle obtenue en sortie des filtres a t extraite par rectification pleine et
filtrage passe-bas 50 Hz. Les principales caractristiques des signaux d'enveloppe ainsi
extraits ont alors t dtermines au moyen d'un ensemble d'indices couramment utiliss
cet effet (Strickland et Viemeister, 1996). Ces indices et leurs mrites respectifs nous ont t
indiqus par le Pr. Christian Lorenzi (LPE, Paris V) :

119
1- La dviation standard de la sortie du filtre passe bas. Elle correspond la valeur
rms de l'enveloppe centre :
2 / 1
1
1
) (



2- Le moment d'ordre 4 (ou kurtosis), mesure de la fluctuation de la puissance de
l'enveloppe ;:
2
1
0
1
0
4
) ( ) / 1 (
) ( ) / 1 (





3- Le facteur de crte, obtenu par division de l'amplitude maximum de l'enveloppe
par la valeur rms :
[ ]
2 / 1
1
0
2
) ( ) / 1 (
) ( max





4- La fraction entre le maximum et le minimum d'amplitude de l'enveloppe :
[ ]
[ ] ) ( min
) ( max




5- La valeur absolue de la pente moyenne de l'enveloppe :

=

1
1
) 1 ( ) (
1




Les valeurs prises par les diffrents indices travers les frquences sont
reprsentes dans la Figure 9. Aucune relation simple n'a pu tre mise en vidence entre
ces diffrentes mtriques de l'enveloppe et les fonctions d'importance mesures dans notre
tude. En schmatisant l'extrme, si les fluctuations temporelles d'enveloppe avaient t
un facteur dterminant direct de l'importance, la premire bande (< 250 Hz), dans lesquelles
les fluctuations d'enveloppe taient les plus marques, aurait du tre la plus importante. Or,
on a vu plus haut que tel n'tait pas le cas. L'ajout de bruit stationnaire dans les diffrentes
bandes, utilis pour les besoins de la mthode corrlationnelle, est peut-tre l'origine de
l'absence de concordance directe entre importance des bandes et fluctuations d'enveloppe.
120
L'ajout d'un tel bruit a en effet pu limiter l'accs des auditeurs aux fluctuations d'enveloppe
du signal de parole, en imposant un plancher artificiel ces fluctuations.
Quoiqu'il en soit, nous admettons volontiers que notre examen du rle ventuel des
fluctuations d'enveloppe en tant que possible facteur de l'importance relative de diffrentes
bandes pour la reconnaissance de la parole est demeur superficiel et schmatique. On ne
peut donc, sur la base de cet examen prliminaire, rejetter dfinitivement l'hypothse que les
fluctuations d'enveloppe ne jouent aucun rle dans la dterimination des fonctions
d'importance mesures avec la mthode corrlationnelle. De faon plus gnrale, il semble
important, dans les tudes futures, de dterminer plus avant dans quelle mesure
l'importance de diffrentes bandes frquentielles dpend plutt d'indices de nature spectrale
o plutt d'indices de naturelle temporelle.


Figure 9 : Quantification des indices d'enveloppe des 816 signaux de parole (VCV) l'aide
de 5 critres issus de Strickland et Viemeister, (1996) [voir texte pour plus de dtails]




121
ETUDE 2

L'tude prsente ci-aprs n'a pas t, chronologiquement, la seconde tude avoir
t ralise dans le cadre de cette thse. Elle est nanmoins prsente ici, car plus
directement lie avec l'tude 1 qu'avec les autres tudes, lesquelles sont prsentes dans
les chapitres suivants. A bien des gards, cette seconde tude constitue un travail
prliminaire. Cependant, elle nous semble importante car elle illustre la fois les difficults et
l'intrt potentiel de l'application de la mthode correlationnelle chez des sujets mal-
entendants.

INTRODUCTION
Comme nous l'avons vu dans l'introduction gnrale, bien que la plupart des auteurs
s'accordent sur le fait qu'une restauration mme partielle de l'audibilit (notamment via
l'amplification prothtique) a, en gnral, une influence bnfique sur les performances de
comprhension de la parole, dans les dtails, il reste de nombreux points de dsaccords.
Les divers travaux qui ont t raliss pour tenter d'expliquer le succs (ou l'insuccs) des
tentatives d'amlioration de l'intelligibilit par restauration de l'audibilit ont parfois abouti
des rsultats contradictoires ou tout simplement, dcevants. Tout d'abord, il n'est pas rare
que les prdictions concernant l'effet de l'amplification sur l'intelligibilit obtenues au moyen
de l'A ou du S concordent mal avec les rsultats observs chez un individu mal-entendant
donn. Cela suggre la ncessit, d'une part, de prendre en compte d'autres facteurs que
l'audibilit, et d'autre part, de mieux prendre en compte les caractristiques individuelles
(idiosyncratiques). Parmi ces facteurs et caractristiques individuelles, on note ainsi : la
svrit de la perte auditive (Ching et al., 1998 ; Hogan et Turner , 1998), la rgion
frquentielle dans laquelle l'amplification est applique (Ching et al., 1998; Hogan et Turner,
1998; Turner et Brus, 2001), et en particulier, la prsence ou non de zones mortes
cochlaires dans ces rgions (Vickers et al., 2001 ; Baer et al., 2002). A cela, il nous semble
important de rajouter les stratgies personnelles d'coute de la parole, et plus prcisment,
l'importance relative accorde par le sujet diffrentes bandes frequentielles ; notamment :
celles ou l'audition demeure saine et celles affectes par la perte auditive. l est important de
remarquer que le facteur gnral stratgies de pondration frequentielle, dont le rle
ventuel reste a dmontrer, n'est probablement pas indpendant des autres facteurs
noncs ci-dessus. En particulier, il dpend trs probablement des deux premiers facteurs
(la svrit de la perte auditive et la rgion frquentielle dans laquelle elle se situe). En effet,
on conoit aisment qu'un individu qui n'a aucune audition rsiduelle au-del d'une certaine
frquence soit contraint d'adapter ses stratgies d'coute en consquence. De ce point de
vue, la mesure des fonctions d'importance frquentielle chez les individus mal-entendants
122
est susceptible de fournir des informations supplmentaires, relativement aux tests
traditionnels tels que l'audiomtrie vocale. En effet, la mesure des fonctions d'importance
peuvent nous renseigner sur l'aptitude plus ou moins grande de l'individu test tirer parti
des informations vhicules par differentes bandes de frquence pour la reconnaissance de
la parole. Ces fonctions sont susceptibles de reflter l'influence de nombreux facteurs sous-
jacents de l'influence de l'amplification multi-bandes sur l'intelligibilit. Elles pourraient
permettre de prdire que l'amplification de certaines bandes, auxquelles les sujets accordent
peu de poids mme lorsqu'elles sont adquatement amplifies, n'aura pas de rsultat
bnfique. Elles pourraient galement servir guider la rpartition de l'amplification a travers
les frquences en vue d'optimiser le gain de performance.
Un autre intrt ventuel de la mesure des fonctions d'importance chez le
malentendant est qu'elle est susceptible de renseigner sur les effets long terme du port
d'un appareillage sur les stratgies d'ecoute de la parole. L'hypothse d'un effet long terme
du port d'un appareillage prothtique sur les performances auditives a t avance par de
nombreux auteurs (Gatehouse, 1992; Cox et Alexander, 1992; Gatehouse, 1993; Robinson
et Gatehouse, 1995; Robinson et Gatehouse, 1996 ; Cox et al. , 1996; Horwitz et Turner,
1997 ; Olsen et al. 1999, pour une revue voir Turner et Blender, 1998 ainsi que Philibert et
al., soumis). Parmi ceux-ci, Gatehouse (1989) a fourni certains arguments en faveur de
l'hypothse d'un effet d'acclimatation progressif la prothse, avec une amlioration des
performances d'intelligibilit dans le bruit durant les premiers mois aprs le dbut du port de
l'appareil. Prcisment, cet auteur a observ, la suite d'un appareillage monaural sur
pertes bilatrales symtriques, une amlioration des performances de reconnaissance de
mots dans l'oreille appareille, cette oreille tant teste nue et forte intensit (85-90 dB
SPL). Aux intensits plus modres (65 dB SPL), l'effet inverse a t obtenu. Ces rsultats
ont suggr Gatehouse que les deux oreilles s'taient spcialises ou, suivant le terme
consacr, acclimates aux niveaux de stimulation auxquels elles taient le plus souvent
sollicites : forts pour l'oreille non appareille, faibles modrs pour l'oreille appareille.
Bien qu' la fois intressant sur le plan thorique et potentiellement important sur le plan
pratique, l'tude du phnomne d'acclimatation prothtique au niveau macroscopique
demeure limite. Au-del de la simple observation d'un bnfice global du port long terme
de l'appareillage sur les performances de reconnaissance de la parole, il est essentiel, pour
essayer de comprendre les mcanismes derrire ce bnfice, de dterminer si et comment
le port long terme d'un appareil auditif influe sur les stratgies de pondration frequentielle.
Dans ce contexte, il nous a paru important de tenter d'appliquer la mthode
correlationnelle la mesure des fonctions d'importance pour la parole chez des individus
mal-entendants. Les ambitions de notre premire tude sont demeures trs modestes aux
regards des objectifs indiqus en sus. l s'agissait tout d'abord, simplement, d'adapter la
123
mthode corrlationnelle au sujet malentendant en incorporant dans le programme de test
une tape prliminaire de simulation d'amplification (mthode CAMFLTER, dveloppe
Cambridge et dont la formule nous a t gracieusement remise par ses inventeurs : Thomas
Baer et Brian Moore), puis, de vrifier l'influence de cette amplification en mesurant les
fonctions d'importance avec et sans elle. A ces deux objectifs initiaux, nous avons galement
rajout celui de comparer les fonctions d'importance de sujets malentendants porteurs ou
non d'un prothse auditive et de commencer explorer les ventuelles consquences
fonctionnelles a long terme du port d'une prothse auditive sur les fonctions d'importance
frequentielle.


I. MATERIEL ET METHODES

A. Sujets
12 sujets rpartis en trois groupes ont pris part cette tude.
1- Un premier groupe tmoin constitu de 3 sujets de 18 28 ans (ge moyen: 23
ans, cart-type: 5 ans) porteurs ou non d'un dispositif audioprothtique binaural. La mesure
des fonctions d'importance chez ces sujets a t effectue sans galisation pralable de la
sonie. Les sujets porteurs d'un appareillage au sein de ce groupe ont t test oreilles nues.
2- Un second groupe constitu de 5 sujets de 30 78 ans (ge moyen: 64.8 ans,
cart-type: 19.9 ans) tous appareills binauralement depuis au moins un an. La mesure des
fonctions d'importance chez ces sujets a t effectue avec galisation pralable de la
sonie. Les sujets ont t tests oreilles nues.
3- Un troisime groupe constitu de 4 sujets de 49 64 ans (ge moyen: 56 ans,
cart-type: 7.6 ans) non appareills. La mesure des fonctions d'importance chez ces sujets a
t effectue avec galisation pralable de la sonie.

Les seuils des diffrents sujets ayant particip l'tude sont regroups dans la Table :

124

B. StimuIi et procdure
Les stimuli sont identiques ceux utiliss dans l'tude prcdente (se rfrer la
section B de l'article prcdent pour plus de dtails). La procdure, quant elle, n'est pas
non plus radicalement diffrente. Quelques adaptations ont cependant du tre apportes
pour l'application aux malentendants. Pour certains des sujets (groupe 2 et 3) une correction
de l'enveloppe spectrale tait pralablement apporte de manire automatique en fonction
de leurs seuils. La procdure CAMFLTER dveloppe au laboratoire de Cambridge a t
utilise cet effet. Le niveau sonore tait ajust pour chaque individu a un niveau de confort,
c..d environ 10 dB en dessous du niveau ou la sonie des stimuli commenait a tre juge
comme trop forte. A la diffrence prs que cette fois ci les fonctions d'importance taient
dtermines au bout de 1500 passations, la mesure des fonctions d'importance a t une
nouvelle fois ralise en appliquant la mthode corrlationnelle de la mme manire que
dans l'tude prcdente (se rfrer la section B de l'article prcdent pour plus de dtails).
Aprs avoir t familiaris avec la structure phonmique particulire des signaux de parole
utiliss dans cette tude au moyen d'un entranement sur 200 passations, les sujets devaient
Table : Seuils des sujets ayant particip cette tude.
Sujets Oreille teste Frquence (Hz) Moy Tot
Groupe 1
Be
Mo
Fa
Groupe 2
Se
Bo
Ro
Ze
Vi
Groupe 3
Hi
Ch
Wo
Rol
droite
gauche
gauche
droite
gauche
gauche
droite
gauche
gauche
gauche
droite
gauche
250
30
5
20
18.3
35
15
20
40
30
28
10
20
15
20
16.3
500
35
5
35
25
45
15
15
40
30
29
5
20
15
15
13.8
1000
55
5
45
35
60
40
10
60
40
42
15
10
25
30
20
2000
60
10
55
41.7
60
55
5
60
45
45
25
40
40
30
33.8
4000
60
60
70
63.3
50
65
35
65
65
56
40
55
40
65
50
8000
50
60
55
55
65
75
55
55
100
70
70
55
75
30
57.5
39.7
45
31.9
125
rpter l'exprimentateur les syllabes qu'ils avaient entendus. Une erreur correspond
une mauvaise identification de la consonne ou de la voyelle.


C. AppareiIIage
L'appareillage utilis dans cette tude tait le mme que celui utilis dans l'tude
prcdente (pour en savoir d'avantage sur l'appareillage utilis pour l'enregistrement des
signaux se reporter la section C de l'article prcdent).
Pour des raisons d'ordre pratique les sujets appareills du second groupe ont t
tests au laboratoire Voir et Entendre Lyon alors que les sujets appartenant au premier et
troisime groupes ont t tests l'hpital Edouard Herriot de Lyon. Les conditions
exprimentales ont donc quelque peu diffr dans la mesure o l'ordinateur utilis pour
tester le groupe 2 tait diffrent de celui utilis pour tester les groupes 1 et 3. Pour les
groupes 1 et 3 il s'agissait d'un Pentium 350 MHz avec Windows 98 comme systme
d'exploitation et pour le groupe 2 il s'agissait d'un ordinateur portable Pentium 500 Mhz
avec Windows 98 comme systme d'exploitation.
En revanche, le mme logiciel de test tait utilis pour tous les sujets. Les stimuli
taient prsents une frquence d'chantillonnage de 44.1 kHz via une carte son UA 30.
En sortie de carte son tait plac un amplificateur-casque Rega Ear. Les stimuli taient
prsents monauralement au moyen d'un casque Sennheiser HD 265 Linear . Les sujets
taient tous confortablement assis dans une chambre sourde.


II. RESULTATS

A. Performances et scores des sujets.
l n'a pas t possible d'apparier la svrit de la perte auditive entre les diffrents
groupes de sujets : les sujets ne manifestant pas le besoin d'tre appareill ayant
gnralement une audibilit rsiduelle suffisante pour comprendre la parole sans trop de
gne.
La Table rsume les performances mesures chez chaque sujet ayant particip
l'tude. Les performances des sujets sont avant tout en rapport avec la svrit moyenne de
la perte auditive au sein de chaque groupe. En effet, pour le premier groupe la svrit
moyenne de la perte auditive s'lve 39,7 dB HL et le pourcentage d'erreurs moyen de
37% est obtenu pour un RSB nominal de 6 dB. Pour le second groupe la svrit moyenne
de la perte auditive s'lve 45 dB HL et le pourcentage d'erreur moyen de 35.6% est
obtenu pour un RSB nominal de 8.8 dB. Quant au troisime groupe, la svrit moyenne de
126
la perte auditive s'lve 31.9 dB HL et le pourcentage d'erreurs moyen de 32.3% est
obtenu pour un RSB nominal de 4.3 dB.


L'audibilit n'est pas certainement pas responsable des diffrences de performances
entre les deux derniers groupes dans la mesure o ces sujets bnficiaient d'une galisation
pralable de la sonie. De plus les stimuli taient prsents un niveau de confort pour
chaque groupe. l est en revanche fort probable que les proprits de slectivit
frquentielle, utiles pour comprendre la parole dans du bruit, aient t beaucoup plus
touches dans le groupe 2 que dans le groupe 3.

B. FiabiIit de Ia mthode corrIationneIIe pour vaIuer Ies fonctions d'importance.
Un moyen simple pour s'assurer de la fiabilit de l'application de la mthode
corrlationnelle pour l'estimation des fonctions d'importance consiste dterminer le nombre
de corrlations significativement diffrentes de 0. Sur la Table , on peut noter que seules
14 des 60 corrlations (12 sujets x 5 bandes) calcules dans cette tude ne diffrent pas
Table : Pourcentages d'erreurs et rapport signal/ bruit nominal pour les diffrents sujets
Sujets
Groupe 1
Be
Mo
Fa
Groupe 2
Se
Bo
Roc
Ze
Vi
Groupe 3
Hi
Ch
Wo
Rol
Pourcentage d'erreurs
(voyelle ou consonne) (%)
39
34
38
37
41
44
26
34
33
35.6
35
31
28
35
32.3
RSB nominal
(dB)
4
4
10
6
10
10
6
10
8
8.8
5
5
4
3
4.3
127
significativement de 0. Les corrlations ne diffrant pas significativement de zro se trouvent
majoritairement sur les bandes spectrales extrmes (bande 1 et bande 5) pour lesquelles
respectivement 4 et 7 corrlations de ce type ont t recenses.



C. InfIuence de Ia restauration d'audibiIit sur Ies fonctions d'importance.
Nous avons considr le groupe 1 (n'ayant pas bnfici d'une galisation pralable
de la sonie) sparment des groupes 2 et 3 (ayant tous deux bnfici d'une galisation
pralable de la sonie). La figure 1 prsente les fonctions d'importance moyennes pour le
groupe 1 et pour les groupes 2 et 3 runis. Ces donnes ont t soumises une ANOVA
deux facteurs avec le design suivant: un premier facteur bande de frquence comme
facteur rpt et un second facteur caractrisant la prsence ou non d'une galisation de la
sonie. Les rsultats sont les suivants: les facteurs bande de frquence et galisation
de sonie sont statistiquement significatifs (respectivement F(4,40)=4.502 , p<0.01 ;
F(1,10)=15 , p<0.01) pour autant nous ne disposons pas d'assez d'informations pour
prciser sur quelles bandes exactement se produisent ces diffrences [interaction bande
de frquence X galisation de sonie F(4,40) =2.230, p=0.114]

Table : Nombre de corrlations non significativement diffrentes de 0 sur les 60 (12 sujets
x 5 bandes) calcules dans cette tude. Pour un intervalle de confiance 95 % le critre de
significativit correspond un seuil fix 1.96/(N)
1/2
=0.506 appliqu la valeur absolue de la
corrlation Lutfi (1995).
Sujets Bande de frquence (Hz)
Groupe 1
(N=3)
Groupe 2
(N=5)
Groupe 3
(N=4)
Total
(N=12)
100-250
0
3
1
4
250-750
0
1
0
1
750-1750
1
0
0
1
1750-3750
1
0
0
1
3750-7750
1
4
2
7
128


Figure 1 : Fonctions d'importance relative moyenne correspondant au groupe 1 n'ayant pas
bnfici d'une correction spectrale et du groupe 2 et 3 runis ayant bnfici d'une
correction spectrale


D. InfIuence du port d'un appareiIIage
La figure 2 montre les fonctions d'importance obtenues pour chaque individu des
groupes 2 et 3. De manire identique l'analyse que nous avons effectue prcdemment,
ces donnes ont t soumises une ANOVA deux facteurs avec le facteur bande de
frquence comme facteur rpt et le facteur caractrisant le port ou non d'une prothse
auditive. Mis part l'effet du facteur bande de frquence (F(4,28)=8.387 , p<0.01), l'effet
du port de l'appareillage n'apparat pas statistiquement significatif. Tout au plus la simple
tendance des sujets porteurs d'une prothse affecter plus d'importance la quatrime
bande spectrale peut tre observe (test-t planifi: t=2.053, df =7, p=0.076). On est en droit
de se demander si la non-significativit du facteur port de l'appareillage n'est pas tout
simplement due une relative insensibilit du test statistique provoque par le faible nombre
de sujets impliqus dans cette analyse (5 sujets dans le second groupe et 4 dans le
troisime).
La distribution de l'importance chez les sujets appareills du groupe 2 se rapproche
sensiblement plus de celle des jeunes sujets normo-entendants ayant particip l'tude
prcdente. Une ANOVA deux facteurs (l'un fixe caractrisant le groupe, l'autre rpt
caractrisant la bande de frquence) ne permet pas de mettre en vidence le moindre effet
du groupe [facteur groupe: F(1,23)=0.781, p=0.386] ni mme la moindre interaction entre les
-0.1
0
0.1
0.2
0.3
0.4
100-250 250-750 750-1750 1750-3750 3750-7750
Bandes frquentieIIes (Hz)
i
m
p
o
r
t
a
n
c
e

r
e
I
a
t
i
v
e
avec correction spectrale
sans correction spectrale
129
deux facteurs [interaction groupe x bande de frquence: F(4,92)=2.128, p=0.100] sur les
fonctions d'importance. En revanche, la mme ANOVA utilise pour comparer les donnes
des malentendants du troisime groupe avec celles des normo-entendants, dfaut de
rvler une influence du groupe [facteur groupe : F(1 ,22)=0.156, p=0.156] rvle une
interaction significative entre les deux facteurs [interaction groupe x bande de frquence:
F(4,88)=3.067, p<0.05]. Des comparaisons post hoc rvlent que l'importance attribue par
les sujets normo-entendants est significativement suprieure sur la quatrime bande
l'importance attribue par les sujets malentendants du groupe 3 [test-t sur deux chantillons :
t=2.965, df=22, p (corrig par Bonferroni) <0.05].
De plus, la variabilit des fonctions d'importance mesures chez les sujets porteurs
d'une prothse est beaucoup moins importante comparativement aux sujets n'ayant pas fait
l'objet d'une rhabilitation auditive.




130



Figure 2: En haut : Fonctions d'importance mesures pour les individus du second groupe
porteurs depuis au moins un an d'un appareillage. En bas : Fonctions d'importance
mesures pour les individus du troisime groupe non candidats au port d'un appareillage. La
fonction d'importance moyenne des sujets jeunes normo-entendants est reprsente en gras
avec les carts types correspondant chaque point sur les deux panneaux de cette figure.
Groupe 2
0
0.1
0.2
0.3
0.4
0.5
100-250 250-750 750-1750 1750-3750 3750-7750
Frequency Band (Hz)
R
e
I
a
t
i
v
e

W
e
i
g
h
t
Se
Bo
Roc
Ze
Vi
NE
Groupe 3
0
0.1
0.2
0.3
0.4
0.5
100-250 250-750 750-1750 1750-3750 3750-7750
Frequency Band (Hz)
R
e
I
a
t
i
v
e

W
e
i
g
t
Hi
Ch
Wo
Rol
NE
131
III. DISCUSSION


A. Conditions d'appIication de Ia mthode corrIationneIIe chez Ie maIentendant
L'objectif de cette tude tait avant tout d'estimer les conditions d'application de la
mthode corrlationnelle pour la mesure des fonctions d'importance de la parole chez des
sujets malentendants. Dans la mesure o la dynamique audible reste suffisante pour la
comprhension de la parole, cette mthode s'applique sans contraintes majeures.
Afin de s'assurer qu'une part significative des erreurs est directement imputable
l'ajout du bruit, il est prfrable de ne pas appliquer un rapport signal sur bruit nominal
suprieur 10 dB.
Cependant, de par la dure (2 heures pour 1500 passations) et l'attention requises
pour un tel test, l'application clinique parat ce stade de la recherche encore limite. En
effet, elle reste difficile pour les jeunes enfants et les personnes trs ges.

B. Effet de Ia correction spectraIe sur Ies fonctions de poids
Les rsultats observs chez le groupe tmoin (groupe 1) indiquent qu'une hausse
des seuils sur les hautes frquences entrane une moins grande importance affecte aux
informations hautes frquences. En effet, l'analyse statistique a montr que la restauration
globale de l'audibilit avait un effet significatif sur les fonctions d'importance mesures.
Notamment, comme nous pouvons l'observer sur la Figure 1, une moins grande importance
affecte aux indices basses frquences (rgion frquentielle o, l'origine, l'audibilit
rsiduelle est dans l'ensemble la mieux conserve) et dans un mme temps une plus grande
importance attribue aux indices moyennes et hautes frquences ( o, l'origine, l'audibilit
rsiduelle est la moins bien conserve).
Bien que les rsultats de certaines tudes contestent le bnfice de la restauration de
l'audibilit sur les hautes frquences (Ching et al. 1998, Hogan et Turner 1998), la prsente
tude montre une augmentation du poids affect aux bandes hautes frquences lorsqu'elles
sont sujettes une amplification. De par la nature du protocole utilis dans cette tude, la
mesure des fonctions d'importance s'effectue en mixant les signaux de parole avec un bruit
stationnaire et certaines tudes plus rcentes ont montr qu'en milieu bruit les sujets
malentendants arrivaient tirer bnfice de la restitution des informations hautes frquences
mme lorsque leur perte excdait 50 dB HL (Henry et Turner, 2002 ; Hornsby et Ricketts,
2003). Bien que les fonctions d'importance obtenues avec ce protocole ne renseignent pas
directement sur le gain ventuel de performances apport par la restitution des informations
hautes frquences, l'augmentation du poids sur la quatrime bande traduit une plus grande
utilisation des informations qu'elles vhiculent.

132
C. PIasticit fonctionneIIe due au port d'une prothse auditive
A l'instar d'un phnomne d'acclimatation dcrivant une amlioration des
performances dans le temps du un dispositif de rhabilitation audioprothtique, on peut se
demander si un effet similaire d'habituation au port d'un appareillage sur l'importance
accorde chacune des bandes spectrales peut tre observ. Comme l'ensemble des
sujets prsente des pertes sur les hautes frquences le port de la prothse auditive entrane
surtout les sujets bnficier de nouveau des informations acoustiques sur les hautes
frquences. Donc si un tel effet est attendre c'est principalement sur les bandes 4 et 5. Au
regard des rsultats individuels, il nous semble observer un tel effet sur la 4
me
bande
uniquement. On peut en effet noter, malgr le faible effectif, une tendance (p<0.1) de la part
des sujets porteurs d'un appareillage accorder plus d'importance la quatrime bande
spectrale que les sujets ayant bnfici d'une galisation de sonie mais ne portant pas
quotidiennement d'appareil. De plus, pour les sujets du groupe 2, la distribution des poids
attribus aux diffrentes bandes de frquences ne se diffrencie pas d'un point de vue
statistique de celle des jeunes sujets normo-entendants de l'tude prcdente contrairement
aux fonctions d'importance du groupe 3.
D'autre part le fait que la variabilit inter-individuelle au sein de ce groupe (groupe 2)
soit plus faible qu'au sein du groupe 3 peut nous laisser supposer que le port de
l'appareillage permettrait de rtablir une pondration frquentielle des informations de parole
sur le mme mode que celle observe chez les sujets normo-entendants. La variabilit
observe au sein du groupe de sujets non-appareills pourrait alors traduire une distribution
sous-optimale de l'importance affecte chaque bande. l apparatrait, l encore, qu'une
adaptation soit ncessaire pour re-affecter du sens aux indices de parole vhiculs par les
bandes de plus hautes frquences, plus prcisment la bande 4. Toutefois, le fait que la
svrit de la perte auditive soit ce point dissemblable entre les deux groupes rend
impossible un test clair de cette hypothse en l'tat actuel.


IV. CONCLUSION

L'interprtation des rsultats obtenus dans cette seconde tude doit tre considre
avec beaucoup de prudence, tant donn le caractre prliminaire de l'tude, le faible
nombre participants ainsi que la varit des pertes auditives considres. Cependant
certains rsultats prometteurs semblent se dgager de cette tude. Tout d'abord,
l'application de la mthode corrlationnelle pour estimer les fonctions d'importance
frquentielle chez le malentendant est non seulement possible, mais elle semble de surcrot
donner des rsultats relativement stables et cohrents : L'importance attribue une bande
133
de parole dpend clairement de l'audibilit (les poids sont en gnral d'autant plus faibles
que la perte auditive mesure dans la bande correspondante est large). Lorsque l'audibilit
est partiellement restaure, les fonctions de pondration reprennent, chez les sujets mal-
entendants porteurs d'un appareillage, une forme plus proche de celle observe chez les
sujets normo-entendants. Chez les sujets mal-entendants non appareills, les fonctions
d'importance sont plus variables et, en moyenne, moins similaires que celles observes chez
les tmoins.


REMERCIEMENTS

Je tiens remercier chaleureusement l'ensemble des audiomtristes de l'hopitl
Edouard Herriot ainsi que des audioprothsistes du laboratoire Voir et Entendre pour l'aide
qu'ils m'ont fournie dans le recrutement des sujets ainsi que pour les conditions de travail
qu'ils ont mises ma disposition.






















134
REFERENCES BIBLIOGRAPHIQUES

Baer, T., Moore, B. C. J., Kluk, K. (2002). "Effects of low pass filtering on the intelligibility of
speech in noise for people with and without dead regions at high frequencies,
J. Acoust. Soc. Am. 112,1133-1144.

Ching, T. Y., Dillon, H., Byrne, D. (1998). "Speech recognition of hearing-impaired listeners:
predictions from audibility and the limited role of high-frequency amplification,
J. Acoust. Soc. Am. 103, 1128-1140.

Cox, R., Alexander, G. C., Taylor, M., Gray, G. A. (1996). "Benefit acclimatization in elderly
hearing aid users, " J. Am. Acad. Audiol. 7, 428-441.

Cox, R., Alexander, G. C. (1992). "Maturation of hearing aid benefit : objective and
subjective measurement, Ear Hear. 13, 131-144.

Doherty, K. A., Turner, C. W. (1996). "Use of a correlational method to estimate a listener's
weighting function for speech, J. Acoust. Soc. Am. 100, 3769-3773.

Gatehouse, S. (1989). "Apparent auditory deprivation effects of late onset: the role of
presentation level, J. Acoust. Soc. Am. 86, 2103-2106.

Gatehouse, S. (1992). "The time course and magnitude of perceptual acclimatization to
frequency responses: evidence from monaural fitting of hearing aids, J. Acoust.
Soc. Am. 92, 1258-1268.

Gatehouse, S. (1993). " Role of perceptual acclimatization in the selection of frequency
responses for hearing aids, " J. Am. Acad. Audiol. 4, 296-306.

Hogan, C. A., Turner, C. W. (1998). "High-frequency audibility: benefits for hearing-impaired
listeners, J. Acoust. Soc. Am. 104, 432-441.

Hornsby, B. W., Ricketts, T. A. (2003). "The effects of hearing loss on the contribution of
high- and low- frequency speech information to speech understanding, J.
Acoust. Soc. Am. 113, 1706-1717.

135
Horwitz, R. A., Turner, C. W. (1997). "The time course of hearing aid benefit, Ear Hear. 18,
1-11.

Lutfi, R. A. (1995). "Correlation coefficients and correlation ratios as estimates of observer
weights in multiple-observation tasks, J. Acoust. Soc. Am. 97, 1333-1334.

Olsen S. O., Rasmussen A. N., Nielsen L. H., Borgkvist B.V. (1999) "Loudness perception is
influenced by long-term hearing aid use, Audiology 38, 202-205.

Philibert B., Collet L., Veuillet E. "s hearing aid benefit an accurate means of demonstrating
an acclimatization effect? A review Submitted.

Robinson, K., Gatehouse, S. (1995). "Changes in intensity discrimination following monaural
long-term use of a hearing aid, " J. Acoust. Soc. Am. 97,1183-1190.

Robinson, K., Gatehouse, S. (1996). "The time course of effects on intensity discrimination
following monaural fitting of hearing aids, J. Acoust. Soc. Am. 99, 1255-1258.

Turner C.W., Bentler R. A. (1998). "Does hearing aid benefit increase over time?, J. Acoust.
Soc. Am. 104, 3673-3674.

Turner, C. W., Brus, S. L. (2001). "Providing low- and mid-frequency speech information to
listeners with sensorineural hearing loss, J. Acoust. Soc. Am. 109, 2999-3006.

Turner, C. W., Henry, B. A. (2002). "Benefits of amplification for speech recognition in
background noise, J. Acoust. Soc. Am. 112, 1675-1680.

Vickers, D. A., Moore, B. C. J., Baer, T. (2001). "Effects of low-pass filtering on the
intelligibility of speech in quiet for people with and without dead regions at high
frequencies, J. Acoust. Soc. Am. 110, 1164-1175.








136
.3-CONCLUSON GENERALE DU CHAPTRE

Dans l'ensemble, les rsultats des deux tudes prsentes dans ce chapitre
indiquent une influence significative de l'ge et/ou des lvations de seuils, mmes lgres,
sur les fonctions d'importance frequentielle pour la perception de la parole. L'effet de l'ge
et/ou celui de l'lvation des seuils sur les hautes frquences est reflt par une diminution
significative de l'importance relative des bandes frequentielles de hautes frquences pour la
reconnaissance de la parole. Les conclusions que l'on peut tirer de ces observations sont
modrer par le fait qu'il s'agit l de rsultats prliminaires obtenus sur des chantillons de
sujets de taille relativement petite (notamment dans la seconde tude), et avec une mthode
encore trs jeune, donc, avec peu de points de comparaison dans la littrature. Par ailleurs,
les analyses effectues sur les rsultats obtenus ne prtendent pas l'exhaustivit.
Nanmoins, il nous semble que ces rsultats sont prometteurs, dans le sens ou ils suggrent
un potentiel de la mthode correlationnelle capturer des modifications de stratgies
d'coute de la parole lies directement ou indirectement au vieillissement et/ou aux atteintes
cochlaires. Bien que les travaux prsents ci-dessus soient insuffisants pour justifier une
application clinique directe de la mthode, on peut gager que moyennant un travail
supplmentaire, un pont entre la recherche exprimentale et la pratique clinique, notamment
audioprothtique, pourra tre tabli dans les annes venir. C'est d'ailleurs dans cette
perspective que nous avons commenc jeter les bases d'un travail de recherche post-
doctoral collaboratif avec le Pr. Mary Florentine et le Pr. Soren Buus , Northeastern
University Boston.



137




CHAPTRE - FONCTONS
D'MPORTANCE FREQUENTELLE:
NFLUENCES DE SGNAUX DE PAROLE
CONCURRENTS




III.1- ETUDE 3 ..................................................................................................................................... 138
.1.1- OBJECTFS DE L'ETUDE................................................................................................... 138

Gilbert, G. and Micheyl, M.
nfluence of competing multi-talker babble on frequency-importance functions for
speech measured using a ccorrelational approach.(in revision JASA)........140

.1.2- DSCUSSON COMPLEMENTARE.................................................................................... 163
III.1.2.1- Allure des fonctions d'importance et information transmise......................................... 163
III.1.2.2- Fonctions psychomtriques.......................................................................................... 165







138
.1- ETUDE 3

.1.1- OBJECTFS DE L'ETUDE

Une bonne part de la revue de littrature relate dans l'introduction rfre la
comprhension des signaux de parole en milieu bruit. L'effet de l'ajout d'un bruit a plusieurs
consquences: les rsultats traduisent une plus forte variabilit inter-individuelle et les
proprits acoustiques pour identifier le signal de parole ne sont pas les mmes que dans le
silence. La structure spectrale fine sera par exemple plus importante car le rle jou par la
rsolution frquentielle du systme auditif est exacerbe dans le bruit. La nature du bruit
utilis apparat elle-mme primordiale, et selon qu'on utilise un bruit blanc, un bruit blanc
modul en amplitude ou de la parole concurrente, les observations diffrent sensiblement.
Notamment, les performances d'identification des sujets augmentent lorsque le bruit utilis
comporte des trous spectraux et /ou temporels. Toutes ces tudes sont autant d'arguments
pour affirmer que les mcanismes impliqus dans la reconnaissance de la parole sont
diffrents selon qu'on se trouve en prsence ou non d'un bruit et qui plus est selon la nature
mme du bruit.
La question que nous posons plus prcisment est de savoir quelles zones
frquentielles sont impliques majoritairement dans la reconnaissance en milieu bruit. Par
exemple, il est connu que la largeur des filtres auditifs augmente avec la frquence centrale
du filtre. Donc la plus grande implication de la slectivit doit en principe s'accompagner
d'une importance accrue des informations provenant des zones basses frquences. Toutes
les tudes prsentes en introduction se sont intresses caractriser les performances
des sujets dans diverses conditions de bruit. Bien que ces tudes nous apportent des
informations prcieuses sur les proprits du systme auditif mises contribution pour
comprendre la parole, elles s'avrent insuffisantes pour apporter quelque indice sur la
localisation spectrale des informations utilises par le systme auditif. C'est la raison pour
laquelle, afin d'apporter un nouvel clairage cette question, nous avons choisi d'tudier
l'influence d'un bruit caractristique de la vie courante (un brouhaha compos de plusieurs
locuteurs) sur les fonctions d'importance frquentielle; la sgrgation entre le signal cible et
un brouhaha tant prcisment suppose faire appel aux proprits de slectivit en
frquence du systme auditif priphrique.
La mthode corrlationnelle a t retenue pour l'valuation des fonctions
d'importance dans cette tude; mais comme nous l'avons dcrit prcdemment, cette
mthode requiert dj l'ajout d'un bruit stationnaire. Nous nous sommes donc attachs
caractriser les fonctions d'importance dans les deux conditions exprimentales suivantes:

139
une premire o le signal est classiquement dgrad par l'ajout d'un bruit stationnaire
ncessaire l'application de la mthode corrlationnelle, et une seconde o en plus de ce
bruit stationnaire est ajout un brouhaha constitu de plusieurs locuteurs. Le rapport
signal /brouhaha est maintenu un niveau constant de 5 dB. Les fonctions d'importance
obtenues pour la seconde condition exprimentale reprsentent donc l'importance accorde
par un auditeur aux informations vhicules par chaque bande frquentielle lorsque le signal
de parole est affect par un brouhaha. Les 15 sujets de cette tude ont tous particip aux
deux conditions.


















140
nfluence of competing multi-talker babble on frequency-importance functions for
speech measured using a correlational approach

Gatan Gilbert and Christophe Micheyl

UMR CNRS 5020, Lyon University, Lyon 69366, France



a) Corresponding author:
Dr. Christophe Micheyl
Research Laboratory of Electronics, Bldg. 36-797
Massachusetts nstitute of Technology
Cambridge, MA 02139-4307, USA
Tel: 617-324-0476
Fax: 617-258-7003
E-mail: cmicheyl@mit.edu

Revised:27/12/2004


Running head: mportance functions for speech in babble
Abbreviated title: mportance functions for speech in babble

141
ABSTRACT
n this study, a correlational approach was used to estimate the relative importance of
five different frequency bands for the identification of speech in two listening conditions: n
the first, the nonsense vowel-consonant-vowel (VCV) signals that the listener had to identify
were presented in the absence of other potentially interfering speech signals. n the other
condition, the target VCVs were presented in a multi-talker babble background. The signal-
to-babble ratio (SBR) was fixed at 5 dB. Fifteen young normal-hearing listeners were tested.
Each listener was successively presented 1500 stimuli in each condition. On each
presentation, a randomly selected VCV signal was added noise in five contiguous frequency
bands within a range from about 100 and 7750 Hz. The signal-to-noise ratio (SNR) was
roved independently in the different bands over a 24 dB range, the mid-point of which was
adjusted so that listeners achieved between 60 and 70% correct in both test conditions. The
importance of each frequency band was estimated by computing the point bi-serial
correlation coefficient between the successive SNRs in that band and the corresponding
binary identification scores (correct/incorrect) across the 1500 trials. The results revealed
that the relative importance of low frequencies (below about 750 Hz) was increased relative
to that of higher frequencies (above about 1750 Hz) upon the introduction of the competing
babble. An analysis of confusion matrices in the two conditions indicated a decrease in
transmitted information for affrication, nasality and duration, but not voicing and place of
articulation, in the presence of the babble. Possible explanations for these findings are
discussed.

PACS: 43.71. An, 43.71. Bp, 43.71. Es, 43.71. Gv



142
INTRODUCTION
Although speech perception has been the object of intense research over the past
fifty years or so, how our ears and brains achieve high levels of speech recognition in
adverse listening situations remains largely unknown. Speech is a highly complex signal,
which contains a wealth of information scattered in both the temporal and the spectral
domains. As a result, it is often a challenging task to determine which of the multiple cues
present in the signal are effectively utilized by the central nervous system in order to achieve
correct recognition of speech in quiet, let alone in the presence of noise or competing speech
signals.
A few years ago, Doherty and Turner (1996) and Turner et al. (1998) devised a
method for estimating the relative importance - or weights - of different frequency bands for
speech recognition in a given individual. The method involves the addition of random
amounts of noise in the different frequency bands of the speech signals that the listener must
identify. On each stimulus presentation, the signal-to-noise ratio (SNR) in each band is
varied independently of that in the other bands. Following each stimulus presentation, the
listener's score (correct or incorrect) is recorded. At the end of the experiment, the point bi-
serial correlation across all trials between the recognition scores and the corresponding
SNRs is computed, for each frequency band. The obtained correlation coefficients are taken
to reflect the importance of the different bands: the more a band contributes to the (correct)
identification of the speech material, the larger the (positive) correlation coefficient for this
band. Negative correlations, when they are observed, suggest that the presence of energy
(or information) in the corresponding bands is detrimental, rather than beneficial.
Doherty and Turner (1996) and Turner et al. (1998) have suggested normalizing the
correlation coefficients to yield a sum of one across all bands. Following Richards and Zhu
(1994), and Lutfi (1995), they have interpreted the resulting coefficients as estimates of
relative weights placed upon the different frequency bands by the listener. Whilst this
interpretation may be warranted in Turner et al. (1998), in which the different frequency
bands were selected to yield approximately identical performance when presented in

143
isolation, a more general interpretation, which holds even when this particular condition is not
met, is that the measured weights reflect both the intrinsic importance of the different bands
(i.e., how much information each band contains relative to the other bands), and the weights
that the listener places upon these bands. From this point of view, the frequency-importance
functions obtained using the correlation method may be compared to the frequency-
importance functions of the articulation index (A) (French and Steinberg, 1947; Fletcher,
1953; Kryter, 1962; Pavlovic, 1986) or speech intelligibility index (S) (ANS, S3.5, 1997). On
the other hand, however, the frequency-importance functions measured using the
correlational method differ from those of the A or S. n particular, the frequency-importance
functions used in the A or S have been estimated from the results of experiments using
band-pass filtered speech. t is possible that the identification of speech bands presented in
isolation involves substantially different mechanisms from those involved when more natural
- or at least, less radical alterations of the original speech signal are introduced.
Furthermore, the frequency-importance functions of the A and S do not account for
possible physiological or perceptual interactions across bands e.g., spread of masking -,
the influence of which can only be captured by presenting the bands simultaneously. n view
of its advantages over the more traditional bandpass-filtering approach, the correlational
approach to the estimation of frequency-importance functions for speech appears worth
investigating further.
n a previous study (Gilbert et al., submitted), we used the correlational approach to
estimate frequency-importance functions for the identification of nonsense vowel-consonant-
vowel (VCV) target stimuli between two groups of subjects differing in age. The results
indicated that although all listeners had normal hearing for their age, high frequency bands
were relatively less important for speech identification in older than in younger listeners. This
outcome, which is consistent with a slight but significant reduction in the audibility of high-
frequency information in the former group, attests to the sensitivity and potential interest of
the approach.

144
n the present study, the correlational approach was used to estimate and compare
frequency-importance functions for speech in the same normal-hearing listeners submitted to
two different listening conditions: in one condition, the speech signals that the listener had to
identify were presented in the absence of other potentially interfering speech signals; in the
other condition, the target speech signals were presented in the presence of a competing
multi-talker babble background. The main objective of the study was to test whether the
introduction of the competing babble would alter the frequency-importance functions, and if
so, in what way: would the frequency bands that were the most important for speech
identification in the absence of competing speech remain the most important in the presence
of competing speech? Would some frequency bands become relatively more important, and
others become relatively less important, and if so, which?

METHODS
A. Subjects
Fifteen subjects (aged between 19-27 years with a mean of 23.9 years) with normal
hearing (pure-tone thresholds <= 20 dB HL at octave frequencies between 250 and 8000 Hz)
took part in the study.

B. StimuIi and procedure
The basic speech stimuli used in this study consisted of VCV syllables, where V
represents a vowel (/a/,/i/, or /u/) the same vowel was used in initial and final
positions -, and C represents a consonant, chosen (randomly) among 17 different
consonants of the French language. Since most of the resulting 51 VCV combinations did not
correspond to existing words in the French language, the corpus used in this study may be
described as comprised of nonsense syllables. Each VCV combination was uttered four
times by each of four different French-native talkers (two male and two female), leading to a
total of 816 possible signals. The signals were digitally bandpass-filtered between 100 and
7750 Hz (4
th
-order R Butterworth filter). The amplitude of the VCV signals was normalized in

145
such a way that their peak root-mean-square (RMS) amplitude (computed within sliding
rectangular windows of 92-ms duration each with 75% overlap between consecutive slices)
was constant across signals.
On each presentation, one of the 816 VCV signals was selected. The signal was
added five rectangular bands of noise, defined by low and high corner frequencies of
approximately 100-250 Hz (band 1), 250-750 Hz (band 2), 750-1750 Hz (band 3), 1750-3750
Hz (band 4), and 3750-7750 Hz (band 5), yielding bandwidths of approximately 150, 500,
1000, 2000, and 4000 Hz
1
.The RMS amplitude of each noise band was adjusted relative to
the RMS amplitude of the target speech signal inside the considered frequency band; both
RMS values were computed over the whole duration of the signal. On each stimulus
presentation, the SNR in each band was selected randomly among 13 equally likely values,
spanning a 24-dB range, from -12 to +12 dB (in 2-dB steps) around a pre-defined mid-point
SNR. This mid-point SNR, which was equal across bands, was adjusted per listener to yield
an error rate of approximately 35%. Like in Doherty and Turner (1996) and Turner et al.
(1998), this was achieved by first having the listener perform 200 trials at an SNR (constant
across bands) of 0 dB; then, based on the results of these 200 trials, the SNR was increased
or decreased and the listener performed another block of 100 trials, and so forth, until he/she
achieved between 60 and 70% correct responses. The resulting SNR was retained as the
mid-point SNR for that listener.
The noise bands were generated by filtering an initially broadband noise, whose long-
term-average-spectrum (LTAS) was identical to that of the speech signals - obtained by
averaging across all the VCV signals -. Thus, within each frequency band, the noise had
long-term spectral characteristics similar to those of the target speech signals.
n the babble condition, in addition to this background noise, the target VCV signals
were mixed on each presentation with a sample of multi-talker babble. A total of 816 different
samples of babble were generated offline and stored on the computer hard disk. Each
sample was obtained by adding 24 randomly-selected pieces of the VCV signals. (Before
being added, the selected segments were applied 45-ms on and off ramps, they were zero-

146
padded on both sides to yield a duration of 1093-ms, and time-shifted to start at different
delays). Example waveforms of babble samples obtained using this procedure are shown in
Fig. 1. n general, the babble samples contained some intelligible phonemes, these could
potentially be confused with the target signals. Since the target signals presented on
consecutive trials were not necessarily produced by the same speaker, no consistent
speaker-related cue was available to the listeners. To facilitate identification, the signal-to-
babble ratio (SBR) was kept constant at 5 dB. Listeners were instructed to try and ignore the
babble background, and repeat what they thought was the target VCV. When they heard
several VCV syllables, they were asked to repeat only that which they perceived the most
distinctly. n order to yield an approximately constant correct identification performance from
the subjects, the mid-point SNR had to be adjusted at a lower value in the babble than in the
no-babble condition (the exact percent-correct scores achieved by the listeners in these two
conditions during the actual experiment are given in the Results section).
The relative weights of the different frequency bands were estimated by, first
computing the point bi-serial correlation between the SNR for the considered band and the
listener's binary identification scores (correct/incorrect) across 1500 trials (Richards and Zhu,
1994; Lutfi, 1995; Doherty and Turner, 1996; Turner et al., 1998); a response was counted
as correct when the listener repeated both the consonant and the vowel correctly, and as
incorrect otherwise. Then, following Doherty and Turner (1996) and Turner et al. (1998), the
correlation coefficients were normalized in each listener so that their sum across frequency
bands was equal to one
2
.




147

Figure 1. Example waveforms of babble signals used in this study.

The subjects took part in two test sessions, which took place on different days,
separated by less than seven days. Each session lasted two hours, and involved the
presentation of 1500 stimuli. Eight subjects were tested first in the absence of the babble
background, then in the presence of it; for the remaining 7 subjects, it was the converse.
After each stimulus presentation, the listeners had to repeat the target VCV. Responses
were input into a computer by the experimenter.




148
C. Apparatus
Speech stimuli were acquired using a Rhode NT-1 electrostatic microphone, a
Behringer ultragain Mic 2000 preamplifier and a Turtle Beach Multisound Fiji Pro Series
sound card containing a 16-bit A/D converter. The sampling frequency for acquisition and
restitution was 44.1 kHz. Signal processing, stimulus presentation, and response acquisition
were performed using software running under Windows 98 on a Pentium 350 MHz
computer. Stimuli were presented monaurally to the subject's right ear using Sennheiser HD
265 linear circumaural headphones, after 16-bit D/A conversion by a Roland UA30 USB
audio interface. The target VCV signals were presented at 65 dB SPL peak. The level of the
other signals (noise and babble) were specified relative to the target signal level, as
described above. Subjects were comfortably seated in a quiet room during the tests.


II. RESULTS
A. Midpoint SNRs and error rates
Table shows the average nominal SNRs used in the no-babble and babble
conditions, and the error rates observed in these two conditions. The mid-point SNR was set
on average 8 dB lower in the babble than in the no-babble condition. n both conditions, the
observed error rates were reasonably close to the targeted 35%, indicating that the mid-point
SNR was adjusted adequately. A vast majority of the errors involved consonants.

149
Table : Average nominal SNRs used and Error rates obtained in the two experimental conditions (No babble versus Babble). Four
error types are considered : Global, Consonant only, Vowel (accompanied or not with an error on the consonant) and Vowel only.
Error rate (%)
Condition
No babble
Babble
Nominal SNR (dB)
-1.7
(SD=1.0 )
6.3
(SD=1.5 )
Global
33.6
(SD=5.1)
36.4
(SD=3.6)
Consonant only
32.4
(SD=4.9)
34.8
(SD=3.5)
Vowel
5.4
(SD=1.8)
9.1
(SD=2.3)
Vowel only
1.2
(SD=0.5)
1.6
(SD=0.6)







150
B. Frequency-weighting functions
Figure 2 shows the average frequency-importance functions measured in the absence
and in the presence of babble. The correlation coefficients between SNRs and identification
scores from which the average weights shown in this Fig. were computed are detailed per
subject, band, and test condition in Table
3
. Statistically-significant correlation coefficients
(p<0.05) are indicated in bold. t can be seen that significant correlations were observed in a vast
majority of cases (84% on average across all condition, bands, and subjects). A larger number of
non-significant correlations (22 out of 75) were observed in the babble condition than in the no-
babble condition (only 2 out of 75). This can be explained by the fact that in the babble condition,
identification performance was determined, not only by the SNR, but also, by the SBR, which
was not taken into account in the calculation of the correlation coefficient.
The measured frequency-band weights were submitted to a three-way analysis of
variance (ANOVA) with the condition (with or without babble) and the frequency-band (1-5) as
within-subject factors, and the testing order (without babble first or second) as across-subject
factor. The results of this analysis, revealed significant differences between the two conditions
[main effect of condition: F(1,13)=9.639, p<0.01] and across bands [main effect of band:
F(4,52)=10.720, p<0.001]. As indicated by a significant interaction between these two factors
[F(4,52)=9.504, p<0.001], the differences across bands were not the same in the two conditions.
n order to determine which bands differed from the others in each condition, post-hoc
comparisons between the relative weights of the different frequency bands were performed in
each test condition separately. The results revealed that in the absence of the babble, band 4
(1750-3750 Hz) was significantly more important than all the other bands
(6.257<=t<=9.356,df=14, with Bonferroni-corrected p values always <0.001). n the presence of
the babble, band 2 (250-750 Hz) was more important than band 3 (750-1750 Hz) (t=4.407,
df=14, p<0.01). No significant influence of the testing order was observed [F(1,13)=0.196,
p=0.665].

151
Figure 2. Frequency-weighting functions measured in the absence and in the presence of
the babble background. The error bars represent standard deviations around the mean relative
weights for the considered frequency band across all listeners.


Another observation suggested by the results shown in Fig. 2 is that the relative weights
of the lower two frequency bands were larger in the presence of the babble than in its absence,
whereas for higher frequency bands, the converse was observed. Post-hoc comparisons
between the weights obtained in the two experimental conditions, for each frequency band
separately, revealed significant differences for bands 1 (t=-3.452, df=14, p<0.05), 2 (t=-3.283,
df=14, p<0.05), and 4 (t=4.786, df=14, p<0.01). These significant differences are indicated by
asterisks in Fig. 2. t can be seen that for bands 1 and 2, the weights were larger in the presence
of the competing babble than in its absence; for band 4, it was the converse.

152
Table : The point biserial correlation for the five bands of speech for the 15 individual normal hearing listeners. The
signal-to-noise ratio in each band was correlated with the listener's responses (correct=0 versus incorrect=1) from the
trial by trial experimental record. The bold number entries indicate correlation larger than a statistical significance value,
which in order to meet a 95% confidence level was set to 1.96/1500=0.0506. (Lutfi, 1995)
without babble with babble
Subjects (N=15)
GG
FA
GM
LA
SO
YA
AU
JO
AX
BE
CA
CG
CR
SA
DA
band 1
0.0838
0.0843
0.0966
0.0794
0.1070
0.0443
0.0765
0.0524
0.0933
0.1081
0.1271
0.1091
0.0698
0.0525
0.0657
band 2
0.0911
0.0809
0.0536
0.1450
0.1234
0.1089
0.0846
0.1318
0.1132
0.1024
0.1251
0.1136
0.2051
0.1379
0.1145
band 3
0.0512
0.0974
0.0387
0.1189
0.0954
0.1151
0.1018
0.1060
0.0816
0.1315
0.1236
0.0864
0.1016
0.1262
0.1410
band 4
0.2261
0.1925
0.1711
0.2193
0.1491
0.1864
0.1714
0.1749
0.1532
0.1709
0.1536
0.1492
0.1953
0.2077
0.2222
band 5
0.1421
0.1179
0.1376
0.1595
0.1268
0.1673
0.1331
0.1068
0.1114
0.0886
0.1257
0.0637
0.1466
0.1071
0.1638
band 1
0.0898
0.0391
0.0691
0.0613
0.0292
0.0481
0.0201
0.0487
0.1173
0.0834
0.0832
0.0677
0.1060
0.0723
0.0782
band 2
0.0742
0.0939
0.0699
0.1199
0.0788
0.0480
0.0719
0.0523
0.0481
0.1126
0.0717
0.0981
0.0913
0.0615
0.0760
band 3
0.0107
0.0369
0.0385
-0.0111
0.0613
0.0573
0.0551
0.0057
0.0623
0.0557
0.0604
0.0269
0.0201
0.0365
0.0523
band 4
0.0886
0.0542
0.0885
0.0720
0.0743
0.0884
0.0640
0.0540
0.0536
0.0162
0.0295
0.0626
0.0881
0.0979
0.0390
band 5
0.0883
0.0565
0.0080
0.0930
0.0671
0.0693
0.0559
0.0227
0.0581
0.0570
0.0440
0.0846
0.0265
0.0839
0.0866



153
C. information-theoretic anaIysis of the confusion matrices
Figure 3 shows, for each listener and each experimental condition, the transmitted
information (T) (in %) measured for five consonantal phonetic features as described in Miller
and Nicely (1955). These data were analyzed using a two-way ANOVA, with the test
condition and phonetic feature as within-subject factors. Overall, the introduction of the
babble produced a significant decrease in T [main effect of condition: F(1,14)=33.618,
p<0.001]. Not all features were affected [condition-by-feature interaction: F(4,56)=34.447,
p<0.001]: nasality, affrication and duration suffered significantly (Bonferroni-corrected
p<0.001 for affrication and duration, Bonferroni-corrected p<0.05 for nasality); voicing and
place of articulation did not.












Figure 3. Amounts of transmitted information for five consonantal phonetic features in the
'babble' and 'no babble' conditions. The error bars represent standard deviations around the
mean percentages of transmitted information across all listeners.





154
III. DISCUSSION
A. ResuIt summary
The main result of the present study is that frequency-band importance functions for
the identification of nonsense syllables are different in the presence than in the absence of a
competing multi-talker speech signal. n the presence of babble, frequencies below about
750 Hz (corresponding to the first two bands used in the present study) were found be
significantly more important than they were in the absence of babble. Conversely, middle-to-
high frequencies corresponding to band 4 (1750-3750 Hz), which was the most important in
the non-babble condition, became significantly less important for identification of target
speech syllables in the presence of the babble. Another way of approaching these results
stems from the observation that, whilst in the absence of babble, the identification
performance depended more on information at high frequencies (i.e., above about 1750 Hz),
in the presence of babble, performance depended more on low frequencies (i.e, below about
750 Hz).

B. Limitations of the present study
Before considering possible explanations for these findings, a couple of important
points must be acknowledged. First, it is important to note that frequency importance
functions estimated using the correlational method depend heavily upon how the spectrum is
partitioned. n Turner et al. (1998), the frequency bands were selected to yield approximately
identical A scores, so that, when tested in isolation, they contributed similarly to
performance. Accordingly, flat frequency importance functions were expected. Significant
deviations from this pattern i.e., significant differences between weights across bands -
were interpreted as reflecting the listeners' frequency-weighting strategies. n the present
study, the different bands were not equated in A, and different weights across bands do not
necessarily reflect differences in the listener's internal weights: they may simply reflect the
fact that some of the bands intrinsically contained more useful information for speech
identification than others. Similarly, the differences in relative weights between the two test

155
conditions (with and without babble) cannot be interpreted unequivocally in terms of changes
in the listener's listening strategies: the fact that some bands became relatively more
important, and others less important, when the babble background was introduced may
reflect the fact that the way in which cues for speech identification were distributed across
frequency was altered by the babble.
A second point that must be kept in mind when interpreting the results from the
present study is that the frequency-importance functions measured here, like those
measured by Doherty and Turner (1996) and Turner et al. (1998), or the importance
functions of the A or S, reflect the general or "average importance of different frequency
bands for speech identification. The finding of a relatively large weight for a given frequency
band does not imply that this band is important for identifying all of the presented speech
signals, nor that it is dominant at all times whilst the signal is presented. Speech signals are
highly dynamic, and important cues for their identification are likely to occupy different
frequency regions at different times. Furthermore, listener's internal weights may vary rapidly
over time to accommodate such spectral changes. The macroscopic approach used in the
present study does evidently not capture such rapid variations; it simply tests whether certain
frequency bands are more important than others on average. The notion of average
differences in importance across frequency bands is supported by numerous earlier results in
the speech perception literature, including in particular those that presided to the formulation
of the A and S.

C. PossibIe reasons for the enhanced importance of Iow frequencies in the babbIe
A possible reason for which low-frequency bands became relatively more important
than high-frequency bands when the babble was introduced is that the SBR may have been
systematically lower in the latter than in the former bands. This could have been the case if
the babble contained more energy at high frequencies than at low frequencies, relative to the
signal. n order to check this possibility, we plotted the LTAS of the babble and target speech
signals as well as the corresponding SBR across frequency bands (Fig. 4; the SBR values

156
for each band are shown under the top axis). The LTAS of the babble was very similar in
shape to that of the target signals, and the SBR was, if anything, slightly larger - i.e., more
favorable - in the third and fourth bands than in the first and second bands. Thus, the
increased importance of the latter two bands in the presence of the babble cannot be
explained by differences in the long-term spectral characteristics of the target and babble
signals.

Figure 4. Long term average spectrum of the target speech and babble stimuli used in this
study.





157
Another possible explanation for why low-frequency bands became relatively more
important in the babble condition relates to the idea that the auditory system is better at
extracting the information in concurrent signals based on low-frequency parts of the
spectrum. Two functional characteristics of the peripheral human auditory system thought to
play a crucial role in the segregation of concurrent broadband signals are frequency
selectivity and phase locking. Both are known to decrease with increasing frequency. Phase
locking might help in the segregation of periodic or quasi-periodic (i.e., voiced) segments of
the speech signals, provided the target and maskers are produced by different speakers,
with different F0s (Cariani, 2001). As regards frequency selectivity, although some results in
the literature indicate that fine frequency resolution is not necessarily required for accurate
speech recognition (e.g. Shannon et al., 1995), these results apply primarily to quiet listening
situations. n the presence of background noise or competing speech, access to detailed
spectral information appears to be an important factor of speech recognition (Baer and
Moore, 1994; Fu et al., 1998; Loizou et al., 1999), especially when the masker is fluctuating
(Qin and Oxenham, 2003). f frequency resolution effectively plays a role in the identification
of concurrent speech signals, then it is not too surprising that in the presence of such
concurrent signals, low frequencies become predominant. As for phase locking, the other
potential mechanism that might explain the predominance of low frequencies in the encoding
of concurrent signals, there is no clear evidence in the literature to support the idea that it
plays a role in the segregation of concurrent speech signals, but it was later demonstrated
that this second potential mechanism is effectively involved.

D. ReIationships between the changes in the importance functions and in the
phonemic confusions patterns upon the introduction of the babbIe
Besides altering the relative importance of the different frequency bands, the introduction of
the competing babble induced some changes in the nature of the identification errors. n
particular, the percentage of T for the affrication feature was significantly reduced by the
introduction of the babble. Affrication is known to be associated acoustically with the

158
presence of energy at relatively high-frequencies. For example, for male speakers, sibilant
consonants are characterized acoustically by steep high-frequency peaks centered at 2.5-3
kHz for the // and // palatals, or 4 kHz for the /s/ and /z/ alveolars (Strevens, 1960;
Jassem, 1965, Behrens and Blumstein, 1988a). Therefore, a lower weighting of information
at frequencies between roughly 1.8 and 3.8 kHz (band 4), as observed in the babble
condition, may understandably be associated with a lower identification performance for
affricated consonants. n contrast, the introduction of the babble had little influence on the
identification of voicing. This resilience of voicing information to competing speech might be
related to the observation that in the presence of the babble, the relative weight of low-
frequency bands (<750 Hz) was increased.


CONCLUSION
n the present study, frequency-importance functions for speech identification by
normalhearing listeners were successively measured in the absence and in the presence of
multi-talker babble. The results showed significant differences between the two conditions: in
the presence of the babble, low frequencies (<750 Hz) became relatively more important,
whilst high-frequencies (1750-3750 Hz) became relatively less important for correct speech
identification. t was shown that this result could not be explained simply by differences in the
long-term-average SBR between low and high frequencies. Furthermore, when considering
only stimulus characteristics, no obvious reason was found for why the babble should disrupt
high-frequency cues for phonemic identification more than low-frequency cues. On the other
hand, if the characteristics of the auditory system are taken into account, the present findings
may be explained by the fact that peripheral auditory filter bandwidths are relatively narrower
at low than at high frequencies, which may facilitate the temporal and spectral extraction of
the components of the target from those of the babble.





159

ACKNOWLEDGEMENTS
The authors are grateful to Fabien Masquelier and Guillaume Morel for their help in
running the experiments. This research was supported by a research grant from the
Ministre de l'Education Nationale et de la Recherche, and was performed in the framework
of the Groupe de Recherche GDR 2213 " Prothses auditives linking the CNRS to CCA
Groupe, Entendre, Oticon, Phonak, and Siemens Audiologie.

FOOTNOTES
1. For technical reasons related to the sampling frequency and the number of bins in the
FFT, the actual corner frequencies of the bands were slightly different from these indicated in
the text. The exact corner frequencies used were: 97-248 Hz (band 1), 248-741 Hz (band 2),
741-1755 Hz (band 3), 1755-3758 Hz (band 4), and 3758-7741 Hz (band 5). Also, note that
the first frequency band was truncated in order to accommodate the overall passband of the
signals (100-7750 Hz).

2. The original motivation for our use of this normalization was empirical: The primary aim of
this study was to test if the shape of frequency-importance functions differed between two
experimental conditions, leaving aside overall differences in the degree to which
performance would be correlated to the SNR in these two conditions. Direct comparisons of
the raw correlation coefficients would have been biased by the fact that an additional source
of variance in performance was present in the babble condition, due to the addition of the
babble background. Thus, the SNR was expected to explain a smaller amount of the total
variance in performance in the babble than in the reference condition, and consequently, the
magnitude of the correlation coefficients between SNR and performance was expected to be
reduced overall in the former condition. However, this is not what we were interested in, and
normalizing the correlation coefficients provided a way around this. From a theoretical point
of view, our use of the normalization was subtended by the idea that the frequency band

160
from 100 to 7750 Hz virtually contained all the information that was potentially needed to
understand speech, and that the total importance of this global band should remain constant
irrespective of the number of sub-bands into which it is split up. The choice of making this
constant equal to one was arbitrary.

3. t is worth noting that no statistically-significant correlation coefficient in this Table is
negative. A priori, negative correlation coefficients between SNR and performance could
have been expected for a number of reasons. For instance, information in a given band could
have interfered with the processing of information in a more important band (e.g., some form
of across-band modulation-detection interference). The results indicate that this did not
happen. Furthermore, we tested for significant correlations across bands using multiple
correlation and partial correlation coefficients. Overall, the results of these analyses pointed
to a lack of significant interactions across bands. This indicates that the independent roving
of the SNR across bands was efficient, and it confirms that the assumption of independence
between the different frequency bands in the correlational method is valid.



161
REFERENCES

ANS (1997). ANS S3.5-1997, American National Standards Methods for the Calculation of
the Speech ntelligibility ndex (ANS, New York).
Baer, T., Moore, B. C. (1994) "Effects of spectral smearing on the intelligibility of sentences
in the presence of interfering speech, J. Acoust. Soc. Am. 95, 2277-80.
Cariani, P. A. (2001). "Neural timing nets, Neural Netw. 14, 737-53.
Behrens, S. J., and Blumstein, S. E. (1988a). "Acoustic characteristics of English voiceless
fricatives: A description analysis, J. Phonetics 16, 295-298.
Doherty, K. A., Turner, C. W. (1996). "Use of a correlational method to estimate a listener's
weighting function for speech J. Acoust. Soc. Am. 100, 3769-3773.
Fu QJ, Shannon RV, Wang X. (1998) Effects of noise and spectral resolution on vowel and
consonant recognition: acoustic and electric hearing. J Acoust Soc Am. 104,
3586-3596.
Fletcher, H. (1953) Speech and Hearing in Communication. Krieger, New York.
French, N. R., Steinberg, J.C. (1947). "Factors governing the intelligibility of speech sounds,
J. Acoust. Soc. Am. 19, 90-119.
Gilbert, G., Micheyl, C., Berger-Vachon, C., Collet, L. "Frequency-weighting functions for
speech in young and older listeners, submitted article .
Jassem, W. (1965). "Formants of fricatives consonants, Lang. Speech 8, 1-16.
Kryter, K. D. (1962) . "Methods for the calculation and use of the articulation index, J.
Acoust. Soc. Am. 34, 1689-1697.
Loizou, P.C., Dorman M., Tu Z. (1999). "On the number of channels to understand speech,
J. Acoust. Soc. Am. 106, 2097-2103.
Lutfi, R. A. (1995). "Correlation coefficients and correlation ratios as estimates of observer
weights in multiple-observation tasks, J. Acoust. Soc. Am. 97, 1333-1334.
Miller, G. A., Nicely, P. E. (1955). "An analysis of perceptual confusions among some English
consonants, J. Acoust. Soc. Am. 27, 338-352.

162
Pavlovic, C. V., Studebaker, G. A., Sherbecoe, R. L. (1986). "An articulation index based
procedure for predicting the speech recognition performance of hearing-impaired
individuals, J. Acoust. Soc. Am. 80, 50-57.
Qin, M. K., Oxenham, A. J. (2003) "Effect of simulated cochlear implant processing on
speech reception in fluctuating maskers, J. Acoust. Soc. Am. 114, 446-454.
Richards, V. M., Zhu, R. (1994). "Relative estimates of combination weights, decision
criteria, and internal noise based on correlation coefficients, J. Acoust. Soc. Am.
95, 423-434.
Turner, C. W., Kwon, B. J., Tanaka, C., Knapp, J., Hubbartt, J. L., Doherty, K. A. (1998)
"Frequency weighting functions for broadband speech as estimated by a
correlational method, J. Acoust. Soc. Am. 104, 1580-1585.
Shannon, R. V., Zeng, F. G., Kamath, V., Wygonski, J., Ekelid, M. (1995). "Speech
recognition with primarily temporal cues, Science 270, 303-304.
Strevens, P. (1960). "Spectra of fricative noise in human speech, Lang. Speech 3, 32-49.



























163
.1.2- DSCUSSON COMPLEMENTARE

.1.2.1- Allure des fonctions d'importance et information transmise.

Au moyen d'une approche corrlationnelle nous avons mis en vidence l'importance
des frquences les plus basses (<750 Hz) pour l'identification des signaux de parole en
prsence d'un brouhaha. La raison invoque pour expliquer ce phnomne s'appuie sur ceci
de particulier que la comprhension dans un bruit requiert au pralable la sgrgation en
deux sources distinctes de la composante relative au signal d'une part et de la composante
relative au bruit d'autre part. Autrement dit, la tche d'identification dans un brouhaha
demande d'avoir recours aux indices acoustiques permettant d'effectuer la sgrgation du
signal identifier du bruit parasite. Cette sparation des sources est base de manire
prpondrante sur les indices de hauteur ou F
0
, pour lesquels deux mcanismes de codage
sont impliqus: le verrouillage de phase (dit phase locking) ainsi que la slectivit
frquentielle. Or, ces deux mcanismes sont connus pour dcrotre avec l'augmentation de
la frquence ce qui explique l'augmentation de l'importance confre par un auditeur dans la
condition brouhaha.
Un trait acoustique reprsentatif de la hauteur des sons est le voisement pour les
sons de la parole. On voit bien sur la Figure 2 qu'il s'agit du seul trait acoustique pour lequel
le pourcentage d'information transmise est lgrement suprieur (cependant de manire non
significative) dans la condition avec brouhaha que dans la condition sans brouhaha.
Une raison simple pouvant expliquer les diffrences en termes d'information
transmise par les diffrents traits linguistiques entre les deux conditions testes est la
meilleure identification de la consonne des syllabes VCV en prsence d'un brouhaha (32.4
% d'erreurs sur l'identification des consonnes) qu'en l'absence de brouhaha (34.8 %
d'erreurs sur l'identification des consonnes). Pour cette raison, comme l'indique la Figure 5,
nous avons normalis 1 ces pourcentages de telle manire ce que leur total soit
identique dans les deux conditions exprimentales..















164


Figure 5. Pourcentages d'information transmise par diffrents traits acoustiques normaliss
de telle manire ce que leur somme soit gale 1


Les rsultats de la Figure 5 n'indiquent plus que deux traits acoustiques pour lesquels
on observe un contraste entre la condition avec brouhaha et la condition sans
brouhaha . Tout d'abord le voisement (voicing) qui apparat, ainsi calcul, mieux peru dans
la condition avec brouhaha que sans brouhaha . On peut supposer que cette
meilleure aptitude percevoir le trait de voisement en condition brouhaha reflte une
plus grande ncessit distinguer les diffrentes sources dans cette condition et, par voie
de consquence, une plus grande ncessit confrer de l'importance aux informations
vhicules par les bandes de basses frquences. La Figure 5 montre galement que le trait
de fricativit (affrication) est moins bien peru en condition sans brouhaha qu'en
condition avec brouhaha . Le centre de gravit spectral des consonnes fricatives est plus
port vers les hautes frquences que pour les autres consonnes. Autrement dit la majorit
des informations requises pour l'identification des fricatives se trouve dans les rgions
hautes frquences. Ce dernier rsultat peut donc s'expliquer simplement par le fait que
l'importance relative accorde aux informations vhicules par les bandes hautes

165
frquences est moins leve dans la condition avec brouhaha que dans la condition
sans brouhaha .

.1.2.2- Fonctions psychomtriques

Les courbes psychomtriques de la Figure 6 indiquent que la plage des
performances est dans l'ensemble des cas moins tendue pour la condition avec
brouhaha que pour la condition avec brouhaha . Ceci indique clairement que l'ajout du
brouhaha a constitu une source de variance supplmentaire pour l'identification des
signaux de parole. La consquence de cette variance additionnelle est une moins grande
sensibilit aux calculs des corrlations entre le niveau du RSB caractrisant la dgradation
dans une bande et l'identification du sujet.
Figure 6. Courbes psychomtriques obtenues pour chacune des 5 bandes frquentielles
dans chacune des conditions exprimentales considres.

Nanmoins, il apparat que seules moins d'un tiers des corrlations calcules dans la
condition avec brouhaha ne dpassent pas le seuil de significativit fix par Lutfi (1995). Ce
qui indique que la perte de sensibilit provoque par l'ajout du brouhaha ne constitue pas un
handicap rdhibitoire l'application de la mthode corrlationnelle.
166



CHAPTRE V- TENTATVE
D'AMELORATON DE LA METHODE
CORRELATONNELLE


IV.1. ETUDE 4..................................................................................................................................... 167
V.1.1- OBJECTFS DE L'TUDE ................................................................................................... 167

Gilbert, G. and Micheyl, C.
Comparison of frequency-importance functions for speech derived using internal and
external signal to noise ratios (in preparation).................168

V.2.2- DSCUSSON COMPLMENTARE.................................................................................... 199
IV.2.2.1- Prdictions en utilisant le modle de dcision de Richards et Zhu............................... 199



167
V.1. ETUDE 4
V.1.1- OBJECTFS DE L'TUDE

La mthode corrlationnelle applique aux signaux de parole n'est aujourd'hui qu'un
simple outil de recherche qui, pour tre utilis dans le cadre plus large de dmarches
cliniques, doit avoir fourni la preuve de sa fiabilit et de sa rapidit de mise en ouvre. C'est
ce titre que nous avons envisag d'amliorer l'estimation des fonctions d'importance pour la
parole par l'application de la mthode corrlationnelle. Cette dmarche a t motive par
l'utilisation classique de rapports signaux / bruit physiques (RSB physique) comme variables
subjectives de dcision (Richards et Zhu, 1994; Lutfi, 1995) ne refltant pas les proprits
basiques du traitement de l'information auditive par le systme priphrique, alors que ce
sont ces proprits qui conditionnent l'information dont dispose le systme nerveux central
pour comprendre la parole. De ce fait, la mthode corrlationnelle telle qu'elle est propose
par (Doherty et Turner, 1996) ne nous semble pas tre une mthode optimale pour une
estimation juste et rapide des fonctions d'importance pour la parole. De nouvelles variables
de dcision ont donc t construites sur la base de simulations des patterns d'excitation
psychoacoustiques (Glasberg et Moore, 1990) rendant compte du traitement frquentiel de
l'information auditive chez les sujets normo-entendants. Les variables de dcision obtenues
l'issue de ce traitement estiment le RSB interne dans chaque bande. L'utilisation de la
mthode corrlationnelle avec ces nouvelles variables de dcision a t teste dans l'article
qui suit.










168
Comparison between frequency-importance functions for speech derived using
internal versus external signal-to-noise ratios
Gatan Gilbert and Christophe Micheyl

UMR CNRS 5020 Neurosciences & Systmes Sensoriels
Universit Claude Bernard Lyon
50, avenue Tony Garnier 69366 LYON cedex 07, France

169
ABSTRACT
The relative importance of different frequency bands for speech identification by human
observers can be estimated by measuring how identification scores correlate with the signal-
to-noise ratio (SNR) in the considered band over many stimulus presentations, the SNR
being randomly and independently varied across presentations and bands. n this study, a
new approach for estimating frequency-band importance was devised. The approach
involves the estimation of the internal SNRs in the different bands based on simulations of
auditory excitation patterns using a psychoacoustic model of the peripheral auditory system.
Frequency-importance functions derived using this internal-SNR-based approach in
conjunction with partial correlation coefficients were compared to those derived using the
traditional physical-SNR-based method with zero-order correlation coefficients. n both cases
the same set of psychophysical data collected in 15 young normal-hearing listeners in an
earlier study was used. The results revealed striking differences between the physical-SNR-
based and the internal-SNR-based importance functions. Whilst the former suggested band
4 (1750-3750 Hz) to be more important than all other bands, the latter revealed that band 2
(250-750 Hz) and the two highest frequency bands (band 4 and band 5: 1750-7750 Hz) were
on average the most important, whilst the contribution of low-frequency components (105-
250 Hz) to performance was negative. The respective merits and drawbacks of the physical-
SNR-based and internal-SNR-based methods for estimating frequency-importance functions
and the relation of the two resulting types of importance functions to other data in the speech
perception literature are discussed.
170
INTRODUCTION
Speech is a complex broadband signal, whose recognition by human observers is
likely to involve the detection of acoustic cues in different frequency regions. Unless the cues
are uniformly distributed across frequency, certain frequency bands must be more important
than others, on average. Determining the relative importance of different frequency bands for
speech recognition is, in several respects, a desirable goal. n particular, this knowledge is
necessary to the development of macroscopic, frequency-based models of speech
intelligibility; the articulation index (A) (French and Steinberg, 1947; Fletcher, 1953; Kryter,
1962) and its later development, the speech intelligibility index (S) (Pavlovic et al., 1986;
ANS, 1997), or the more recent SRS model by Msch and Buus (2001) are examples of
such models. Furthermore, by delineating frequency regions that are actually important for
speech recognition, frequency-importance functions can guide the identification of those
cues, among the wealth of potentially useful ones, that are effectively used by human
listeners. This knowledge may, in turn, be used to devise better speech recognition
machines.
Traditionally, the frequency-importance functions for speech recognition have been
derived from recognition data collected using systematically low-, high-, or band-pass filtered
speech signals. A potential problem with this approach is that the recognition of filtered
speech may not engage the same perceptual mechanisms as those employed in more
natural listening conditions, which generally involve broadband speech. n particular,
experiments involving filtered speech may fail to capture some important redundant (Warren,
1995) and/or synergetic (Grant et al., 1994, Lippman, 1996, and Msch and Buus 2001)
interactions between spectral regions at the perceptual level.
n an attempt to overcome this problem, Doherty and Turner (1996) have devised a
method for estimating frequency-importance functions using broadband speech. This method
is an instance of the general correlational approach devised by earlier authors using non-
speech stimuli (Richards & Zhu, 1994; Lutfi, 1995). n the particular application of this
approach devised by Doherty and Turner (1996), pseudo-randomly chosen amounts of noise
171
are introduced into different frequency bands on each presentation of speech tokens (e.g.,
nonsense syllables), which listeners have to identify. On each trial, the signal-to-noise ratios
(SNRs) in the different bands and the listener's response, scored as correct or incorrect, are
recorded. At the end of the test, multiple correlations are computed between the obtained
series of identification scores on the one hand, and the series of SNRs for each band on the
other hand. The magnitude of the resulting correlation coefficients is taken to reflect the
importance of the corresponding bands: large and significant values are indicative of bands
that contribute significantly to speech recognition - either positively if the coefficient is
positive, or negatively if the coefficient is negative -, whilst values around zero are indicative
of bands that contribute little or not to speech recognition.
An important advantage of the correlational method over the more traditional filtering
approach associated to the A or S is that it measures simultaneously the importance of
different bands. Therefore, this method has the potential to capture redundant and synergetic
interactions between spectral regions that are simultaneously or quasi-simultaneously
presented, as is the case in most situations under natural listening conditions. Over recent
years, the correlational method has been used to measure-frequency importance in an
increasing number of studies, involving an increasing variety of subject populations and test
conditions. Two of these studies have assessed the frequency-importance functions in
normal-hearing listeners (Doherty and Turner, 1996; Turner et al. 1998). A third study has
compared the frequency importance functions between normal-hearing listeners and
cochlear implantees (Mehr et al., 2001). A recent study compared the frequency-importance
functions for young normal hearing listeners and older listeners with normal hearing for their
age (Gilbert et al., submitted). Another recent study compared frequency-importance
functions measured in young normal hearing listeners under two different listening
conditions: with and without competing babble (Gilbert and Micheyl, submitted). Finally, a
recent study started to explore differences in frequency-importance between normal-hearing
and hearing-impaired listeners (Gilbert et al., unpublished dissertation). However, in several
respects, the method is still in its infancy. The results obtained with this method, and their
172
agreement or disagreement with other data in the speech perception literature still need to be
scrutinized. Furthermore, the method for deriving the weights, from data way the data are
collected to the way the frequency-bands weights are estimated, can certainly be improved.
Precisely, the aim of the present study was to improve on current procedures for
estimating the perceptual importance of different frequency bands based on data obtained
with the correlational method. This was achieved by incorporating basic functional
(physiological-perceptual) properties of human hearing into the formation of the decision
variables whose correlation with the listener's responses is used to estimate the importance.
Specifically, the excitation pattern model (Glasberg and Moore, 1990) was used in order to
estimate the effective signal to noise ratio in each band, after accounting for the limited
sensitivity and (frequency) selectivity of the human peripheral auditory system. Excitation
Patterns (EP) are obtained by plotting the output of (simulated) auditory filters in response to
the signal as a function of the filter center frequency. Their computation only requires the
input signal power spectrum at the ear be known (Glasberg and Moore, 1990). The
parameters of the model have been adjusted by Glasberg and Moore to reflect the main
functional characteristics of the peripheral auditory system: the transfer functions of the outer
and middle ears, the absolute sensitivity and frequency selectivity of the cochlea assuming
normal hearing. The fact that EP models simulate simultaneous masking phenomena, like
the upward spread of masking makes it an appropriate tool to try and alleviate potential
limitations of the correlational method, which may be due to fact that it is currently based
solely on the physical SNRs in the different frequency bands. We reasoned that decision
variables based on these "effective SNR rather than just on the physical SNRs should better
reflect the effective information available to the central auditory system. To test this
hypothesis, we devised a method for deriving estimates of the internal SNRs based on
excitation pattern simulations. This method is described in detail hereafter. We then used this
method to computed the frequency-bands weights using psychophysical data collected in an
earlier study (Gilbert and Micheyl, submitted) using the correlational method. These results
are described below. Finally, we compared the newly-derived frequency-importance
173
functions with the traditional frequency-importance functions derived on the basis of the
physical SNRs, and started to examine the extent to which each of these two types of
functions related to other data on speech perception. These aspects are dealt with in the
discussion of the present article.

METHOD

A. subjects
The speech identification data on which the following analyses are based were collected in
an earlier study on frequency-weighting functions (Gilbert & Micheyl, submitted). A total of 15
normal-hearing listeners aged between 19 and 27 years (mean age = 23.9 years) took part.
The listeners were tested in a quiet room.

B. Test stimuIi and procedure
The stimuli were generated in the same way as in the above-cited study by Gilbert and
Micheyl. The speech stimuli were drawn from a corpus of 816 vowel-consonant-vowel (VCV)
tokens. Three vowels (/a/, /i/ and /u/) were combined with 17 consonants to produce
51 different combinations. Each combination was uttered four times by four different
speakers, two female and two male. On each trial, one of the 816 resulting stimuli was
selected at random. All 816 stimuli were equiprobable and the drawings, although
consecutive, were independent. Before being presented to the listener, the selected speech
signal was added five bands of noise with contiguous corner frequencies. The low and high
corner frequencies of the bands were approximately: 100-250 Hz (band 1), 250-750 Hz
(band 2), 750-1750 Hz (band 3), 1750-3750 Hz (band 4) and 3750-7750 Hz (band 5)
1
. The
noise bands were generated in such a way that their long-term average spectrum was similar
in shape to that of the speech signals considered within the same frequency band; thus, the
noise can be described as locally speech-shaped. The level of each noise band was set
relative to the level of the signal in the corresponding frequency band, so that the SNR within
the considered band was always comprised between minus and plus 12 dB around a pre-
174
defined mid-point SNR. The SNR could take on any even integer value within that 24-dB
range. The 12 resulting values (including 0) were equiprobable. The SNR values of the five
bands were selected independently from each other. The mid-point SNR, which was the
same across all bands, was adjusted in each listener - based on the results of pilot tests - to
yield around 35% of correct responses in everyone. The average value of the mid-point SNR
across all subjects was 1.7 dB (SD=1 dB). The average percentage of correct responses
across all subjects was 33.6% (SD=5.1%).
A total of 1500 stimuli were presented to each listener. After the presentation of each
stimulus, the listener's task was to repeat the VCV which they had heard. A response was
scored "0 when both the vowel and the consonant were correctly identified, and "1
otherwise. The responses and their scorings were recorded, together with a code for the
stimuli presented and the SNR values used in the different bands, for each trial.

C. Computation of the excitation patterns
Excitation patterns (EPs) corresponding to each of the different stimuli used in the
above-described speech-identification experiment were computed. Since the main stimulus
parameters used on each trial (i.e., which of the 816 speech samples was presented, and
what the SNRs in the different bands were, on the considered trial) were recorded, almost
exactly the same stimuli as actually used during the experiment could be re-generated. Only
the phases of the noise components, which were not stored at the time, could not be exactly
restored. However, this stimulus parameter is likely to have little or no influence since the
phases of the noise components were chosen at random in the original experiment; they
were also chosen at random for the simulations.
The excitation patterns were computed following the algorithm described in Glasberg
and Moore (1990). n order to meet the requirement of quasi-stationarity of the input signals
to the model, the stimuli were analyzed into short (23 ms) sliding Hanning windows. Two
such consecutive analysis windows overlapped over half of their duration. The signal
segments within each window were independently submitted to fast Fourier transform (FFT)
175
so as to obtain short-term spectra, which were used as inputs to the EP model. Auditory
filters with characteristics frequencies (CFs) ranging from 3.3 to 33 ERBs, which corresponds
to a 97.8-7706.7 Hz frequency range, were simulated. A constant spacing of 0.1 ERB
between consecutive filters was used, leading to a total of 298 simulated filters. Except for
the lowest noise band in the signals, whose frequency range encompassed the CFs of 37
simulated auditory filters, the four other noise bands spanned approximately the same
number of CFs: 66 for bands 2 and 3, 65 for band 4, and 64 for band 5.
When speech signals are mingled with noise, as was the case here, the auditory-filter
outputs generally reflect a mixture of signal and noise energy, and it can be difficult to tease
apart those aspects of the responses that relate to the signal from those that relate to the
noise. Yet, estimating how much of the responses corresponds to the signal and how much
corresponds to the noise is an absolute pre-requisite for computing the SNR at the output of
the auditory filters. One solution for achieving this involves computing two EPs successively:
one corresponding to the speech-plus-noise mixture, the other to the noise alone. The "trick
is that the second EP is computed using the same parameters (namely: the energy per ERB
and the lower and upper slope coefficients) as those determined during the first simulation
(Rao, 2001). This way, the second EP represents the response to the noise as if the signal
was present; in other words, it represents that component of the response to the mixture that
corresponds specifically to the noise. Accordingly, the "internal SNR - or SNR at the output
of the auditory filters can be computed simply as the ratio between the former and the latter
EPs.
When plotting the resulting EP ratios across frequency as a function of time, one
obtains simulated auditory spectrograms. Figure 1 illustrates an example of auditory
spectrogram, which was obtained in response to the syllable /ana/. To reduce the
information in this bi-dimensional representation, the ratios were, firstly, squared and
averaged (arithmetically) across time (along each row), so as to obtain a single value at each
176
frequency. The resulting values were then logarithmically summed (power summation)
across frequency within the limits defined by the cutoffs of the noise bands (see above).


Figure 1: Example of an auditory spectrogram for the word /ana/ . The physical SNRs are
12 dB in the 1
st
band, -4 dB in the 2
nd
band, 12 dB in the 3
rd
band, 10 dB in the 4
th
band and
8 dB in the 5
th
band.



D. Computation of band-importance indices.
n the original method devised by Doherty and Turner (1996), the relative importance
of the different frequency bands is taken to be proportional to the point bi-serial correlation
coefficient between the series of SNRs used in that band on successive trials and the
corresponding identification scores obtained by the listener. Here, basically, the same
approach was used expect that the physical SNRs were replaced by the EP-based SNRs
derived earlier. Two other differences between the original method devised by Doherty and
177
Turner and the one used here are worth noting. Firstly, the EP-based SNRs were
transformed beforehand using the following formula:

| ) ( | ) (


t
=
, (1)

Where ) (i EP
t
is the transformed EP-based SNR
t
in the i
th
band; ) (i EP is the EP-
based SNR in the i
th
band, and are parameters to be estimated. Because
)) ( log( ) ) ( log( i EP i EP =

, is referred to as the slope of the psychometric
function. defines the point for which 84 . 0 ) 1 ( ) ( = erf i EP
t
when

1
1
) (

= i EP . As can
be noted, the above formula, containing the error function, is closely related to that of the
cumulative standard normal or Gaussian function, which is commonly used for modeling
psychometric functions (e.g., Dai, 1995). Here, this transformation was used to "linearize the
relationship between the SNRs and the identification scores. t can be thought of as taking
into account the fact that the identification score is unlikely to be affected by changes in the
SNR near the extremes of the SNR range: when the SNR is already large, further increases
are unlikely to lead to better identification performance; when the SNR is already very small,
further decreases are unlikely to lead to worse identification performance. The parameters in
the above equation were derived by fitting the function to a set of observed data points
whose abscissas were EP-based SNRs evaluated across the whole range of auditory-filter
CFs (from 3.3 to 33 ERBs) and whose ordinates were the corresponding identification
scores, pulled across all listeners.
A second difference between the method for deriving the importance functions used
originally by Doherty and Turner (1996) and that used here relates to the application of a
correction to the correlation coefficients between the transformed EP-based SNRs (EP-
based SNR
t
)and the identification scores, to account for possible differences in the variance
of the EP-based SNR
t
across bands. Richards and Zhu (1994) demonstrated that the
178
underlying combination weights in a multiple-observation task are proportional to the point bi-
serial correlation coefficients between the subjective decision variables and the observer's
binary response variables. However, as later pointed out by Lutfi (1995), this holds only if the
decision variables associated to the different sources of observations have the same
variance. n the case where some of the decision variables have a larger variance than
others, the magnitude of the correlation coefficients is larger even if the underlying weights
are in fact identical.
n the case where physical SNRs are drawn at random in each frequency band from a
same uniform distribution, the variance in each frequency band is approximately the same.
For other decision variables for EP-based SNR
t
s for example, however, this assumption is
not necessarily justified. n this situation, therefore, the correlation coefficients must be
corrected to account for possible differences in the variance of the decision variables across
bands. This correction is achieved simply by dividing the correlation coefficient by the
variance of the decision variable (Lutfi, 1995). Accordingly, the formula relating the weights to
the correlation coefficient is:
, `
) )( (
i
i
Y
Y R
i
r
c

=
(2)
where
i
` is the weight of the i-th band,
) )( (
i
Y R
r is the point bi-serial correlation between the
listener's binary response variable ( , R 0:correct versus 1:incorrect) and the series of
transformed EP-based SNR
t
s in the i-th band,
i
Y ,
i
Y
is the standard deviation of
i
Y , and c
is a normalizing factor chosen so that

=
i
i
1 ` .
Where statistical dependencies among the
i
Y 's exist, the use of the ordinary point bi-
serial correlation might lead to distort frequency-band weights estimates. The problem is
solved by replacing the ordinary point bi-serial correlation coefficient
) )( (
i
Y R
r by the partial
179
correlation coefficient
) ).( )( (
f i
Y Y R
r (Lutfi, 1995). The latter quantifies the relationship between R
and
i
Y after partialling out the relationship of each to
f
Y . Thus:
,
) 1 )( 1 (
2
) )( (
2
) )( (
) )( ( ) )( ( ) )( (
) ).( )( (
f i f
f i f i
f i
Y Y Y R
Y Y Y R Y R
Y Y R
r r
r r r
r


=
(3)
teration of equation (3) yields high-order partials
) (
)... )( ).( )( (
2 1
Y Y Y R
i
r
.



RESULTS

A. Raw correIation coefficients
The average correlation coefficients between the identification scores and the physical SNRs
are shown in the top panel of Fig. 2. The coefficients estimated using point bi-serial
correlations are indicated by circles; those estimated using partial correlations are indicated
by squares. The former set of results was re-plotted from Gilbert and Micheyl (submitted). t
is important to note that, unlike those displayed in previous publications (Doherty and Turner,
1996; Turner et al., 1998; Gilbert et al., submitted; Gilbert and Micheyl, submitted), the
importance functions in Fig. 2 are "raw in the sense that they reflect directly the correlation
coefficients, without any attempt to normalize these coefficients so that their sum across
bands is constant and equal to one in each subject and condition. mportance functions with
weights normalized in the way just described will be considered in a later next section of the
text; the present section deals with the "raw correlation coefficients only. t can be seen that
the two sets of data points, that corresponding to the point bi-serial correlation coefficients
and that corresponding to the partial correlation coefficients, are almost perfectly
superimposed onto each other. n both cases, a peak in the importance functions was
observed on band 4 (1750-3750 Hz). The statistical significance of this observation was
tested using a post-hoc contrast analysis between band-4 weights and the average of the
weights across all other bands [F(1,14)=22.498, p<0.001] The average correlation
coefficients obtained for the first three bands were rather flat, with only a trend for those of
180
band-2 (250-750 Hz) to be slightly larger than those of bands 1 (100-250 Hz) and 3 (750-
1750 Hz). [F(1,14)=7.829, p<0.05]. n agreement with earlier results by Turner et al. (1998),
no significant difference was found between the partial correlation coefficients and the point
bi-serial correlation coefficients.
The correlation coefficients between the identification scores and the EP-based SNR
t
s are
shown in the lower panel of Fig. 2. Like for the upper panel, circles indicate point bi-serial
correlation coefficients whilst squares indicate partial correlation coefficients. There are two
main observations: Firstly, unlike those derived using the physical SNRs, the importance
functions derived using the EP-based SNR
t
s differed substantially depending on whether
point bi-serial or partial correlation coefficients were used. The statistical significance of this
observation was confirmed by a significant interaction between the correlation-type and
frequency-band factors in a two-way repeated-measure ANOVA on the obtained coefficients
[F(4,56)=139.217, p<0.001]. Secondly, the importance functions derived using the EP-based
SNR
t
s differed markedly in shape from those derived using the physical SNR
t
s. Specifically:
point bi-serial correlation coefficients increased monotonically from the lowest to the highest
frequency band an observation confirmed by a linear contrast analysis with the frequency
band rank as dependent variable [F(1,14)=44.388, p<0.001]. On the other hand, partial
correlation coefficients showed a clear peak on band 2 [for which they proved to be on
average significantly larger than the average of the neighboring two bands, as demonstrated
by a contrast analysis: F(1,14)=108.110, p<0.001] and a local minimum on band 3
[F(1,14)= 45.738, p<0.001], which was followed by a monotonic increase between bands 3,
4, and 5 [F(1,14)=123.673, p<0.001]. n addition, the partial correlation coefficients were
negative on average on band 1, suggesting that signal-related excitation in this band was in
fact detrimental to performance.




181

Figure 2: Correlation coefficients between identification scores and either the physical SNRs
(Fig. 2a, top panel, empty symbols) or the EP-based SNR
t
s (Fig. 2b, bottom panel, filled
symbols) in the different frequency bands. The circles correspond to bi-serial correlation
coefficients; the squares, to partial correlation coefficients. The values in abscissa indicate
the lower and upper corner frequencies of the different bands, in Hz. The error bars indicate
standard errors of the mean across subjects.



B. NormaIized frequency-importance functions
Figure 3 shows frequency-importance functions with normalized weights, i.e., after
scaling of the correlation coefficients so that their sum across bands was equal to 1 in each
subject and each condition a transformation commonly applied in earlier studies on
importance functions measured with the correlational method (Doherty Turner, 1996; Turner
et al., 1998; Gilbert & Micheyl, submitted). These normalized weighting functions indicate the
relative importance of the bands. The normalization partials out overall differences in the
magnitude of the correlation coefficients across conditions, thereby facilitating direct
182
comparisons across conditions which require to ignore such overall differences. n both the
upper and the lower panel of Fig. 3, normalized importance functions derived using the EP-
based SNR
t
s are compared to normalized importance functions derived using the physical
SNRs. n the upper panel, the importance functions were computed using point bi-serial
correlation coefficients; in the lower one, they were computed using partial correlation
coefficients. For closure, one might also be interested in cross-comparisons between, for
instance, the function derived using point bi-serial correlations between identification scores
and physical SNRs and that derived using partial correlations between identifications scores
and EP-based SNR
t
s on the other hand. Although such cross-comparisons are not shown
here, what will be said about the presented comparisons will also apply to cross-comparisons
because of the lack of statistically-significant difference between partial and point bi-serial
correlation coefficients based on the physical SNRs.
Looking at the upper panel in Fig. 3, it can be seen that the largest and only
significant differences between the physical-SNR and EP-based importance functions were
for bands 3 and 4: the EP-based weights were larger than the ones based on the physical
SNRs in the former band, but they were smaller in the latter [for band 3 t=-9.557, df=14,
p<0.01, for band 4: t=10.903, df = 14, p<0.01]. n contrast, when considering the functions
derived using partial correlation coefficients (Fig. 3, lower panel), statistically-significant
differences were observed between EP-based and physical-SNR-based weights for bands 1
(t=10.730, df=14, p<0.01), 2 (t=-5.438, df=14, p<0.01), and 5 (t=-9.483, df=14, p<0.01)
note that the p's indicated here include Bonferroni correction.













183
Figure 3: Normalized frequency-importance functions. The data shown were obtained by
normalizing the correlation coefficients shown in Fig. 2 so that their sum across frequency
bands was equal to one. This was done independently for each subject and in each
condition. The data were then averaged across subjects. Panel a (top) shows normalized
frequency-importance functions calculated on the basis of bi-serial correlation coefficients.
The empty circles correspond to the case where bi-serial correlation coefficients between the
identification scores and the physical SNRs were used, the filled circles to the case where bi-
serial correlation coefficients between the identification scores and the, the EP-based SNR
t
s
were used. Panel b (bottom) shows normalized frequency-importance functions calculated
on the basis of partial correlation coefficients. The empty squares correspond to partial
correlations between identification scores and physical SNRs, the filled squares to partial
correlation coefficients between the identification scores and the EP-based SNR
t
s.



C. ReIiabiIity and efficiency of physicaI- and EP-based correIations
A comparison between physical-SNR and EP-based-SNR
t
importance functions
would not be complete without some consideration of the respective reliability and efficiency
of the two approaches. A first question concerns whether the measured correlation
coefficients and weights shown in the preceding figures are statistically significant. The
statistical significance of point bi-serial correlation coefficients can be decided by comparing
them to a critical threshold, k, defined by the following formula: 1.96/(N)
1/2
, where N is the
number of observation pairs. The statistical significance of partial correlation coefficients can
184
be decided by comparing them to a critical threshold, k', defined by the following formula:
1.96/(N-m+3)
1/2
, where N is the number of observation pairs and m the number of elements
to partial out (Lutfi, 1995). Since in the present study, N is big (N=1500) it can be considered
that k k' 0.0506. Coefficients smaller than k can be considered non-significantly different
from 0, and they indicate bands that do not contribute significantly to the recognition
performance. Of the 75 (15 subjects x 5 bands) point bi-serial correlations computed using
EP-based SNRs, none were smaller than k, i.e, non significantly different from 0. n contrast,
2 out of the 75 physical-SNR-based correlation coefficients were not significantly different
from zero. Of the 75 partial correlations computed using EP-based SNR
t
s, 19 were smaller
than k (in absolute value), i.e., non-significantly different from 0. One or two non-significantly
different from zero correlation coefficients were found for each subject. n contrast, only 2 out
of the 75 physical-SNR-based correlation coefficients were not significantly different from
zero. 10 out of the 19 EP-based partial correlation coefficients that were not significantly
different from zero occurred in band 3, 6 occurred in band 1, and 3 occurred in band 4. None
of the 15 tested subjects displayed non-significant EP-SNR
t
-based partial correlation
coefficients in bands 2 and 5. nterestingly, all the EP-SNR
t
-based partial correlation
coefficients observed in the first band were negative, indicating that this band consistently
contributed negatively to the recognition performance.
A major limitation to the application of the correlational method in clinical studies
stems from the use of a large number of stimulus presentations in each subject, which
results in a time-consuming test. For this reason, it is important to examine to what extent the
weights that are arrived at using a large number of trials - e.g., 1500 here - can be predicted
using a more limited number of trials. Figure 4 illustrates the relation between the weights
derived using point bi-serial correlation coefficients computed over the whole 1500 trials
performed by each subject, and weights derived using the first 500 trials only. The data in the
upper panel correspond to weights computed on the basis of the physical SNRs whilst those
shown in the lower panel correspond to weights computed on the basis of the EP-based
SNR
t
s. Each data point corresponds to a frequency band in a given subject, resulting in a
185
total of 75 data points in each panel. The correlation coefficient between these two variables,
r, and its square value, r
2
, are indicated in the top left corner of each panel. The (least mean
square error) regression lines through the data are also shown. t can be seen that the use of
the EP-based SNR
t
s resulted in a larger correlation coefficient and a lesser dispersion of the
data around the regression line than the use of the physical SNRs.




Figure 4: Relationship between weights estimated on the basis of 500 initial trials and
weights estimated using the whole 1500 trials. Panel a (top): Weights computed using point
bi-serial correlation coefficients between the physical SNRs and the identification scores.
Panel b: Weights computed using point bi-serial correlation coefficients between the EP-
based SNR
t
s and the identification scores.









186
DISCUSSION / CONCLUSION
A. Differences between physicaI-SNR- and EP-based SNR importance functions.
One of the main findings of the present study is a marked difference between the shape of
frequency-importance functions derived from SNR estimates based on excitation pattern
simulations (EP-based SNR
t
s) and that of frequency-importance functions derived from the
physical SNRs. With the physical-SNR-based correlations, the lower three bands were found
to be of similar importance, whilst the 4
th
band was found to be significantly more important
than all other bands. n contrast, the correlation coefficients based on EP-based SNR
t
s either
increased slightly from low- to high-frequency bands (when point bi-serial correlation
coefficients were used), or they showed a marked increase from band 1 to 5, but with a very
distinct local maximum on band 2 (when partial correlation coefficients were used). These
same results also indicated that whilst the frequency-importance functions based on physical
SNRs were almost identical irrespective of whether the weights were estimated using bi-
serial or partial correlation coefficients, the importance functions derived using the EP-based
SNR
t
s differed dramatically in shape depending on which type of correlation coefficient was
used. Before entering detailed considerations of how the different shapes obtained here
compare to those obtained in other studies and how they relate to other data in the speech
perception literature, it is important first of all to try and obtain a general understanding of
why frequency-importance functions derived using internal-SNR estimates should differ from
frequency-importance functions derived using physical SNRs, and why the former but not the
latter should differ depending on whether point bi-serial or partial correlation coefficients are
used.


187

A key element in this understanding is provided by the notion of correlation between
the internal SNRs across bands. n order to quantify this notion, we computed the average
correlation coefficients between the non-transformed EP-based SNRs
2
between the different
frequency bands, taken pairwise. Bold entries in Table indicate statistically-significant
correlations. t can be seen that the EP-based SNRs in adjacent bands were generally
correlated. These correlations in EP-based SNRs between adjacent bands were presumably
caused mostly by auditory filters with CFs located close to the boundaries between adjacent
bands, and whose bandwidth encompassed frequency components from both bands. For the
correlation in EP-based SNRs between consecutive bands to be as high as observed
between bands 1 and 2 (i.e., approximately 0.8), a substantial proportion of auditory filters
within either or both of these bands must have been excited by stimulus components
pertaining to the other band
3
.

Table : Correlation matrix between the non-transformed EP-based SNR for each of the 5
frequency bands used in this study. Lower and upper corner frequencies are expressed in
Hz. The data from three participants have been used so that this correlation matrix has been
obtained on a basis of 4500 (1500 presentations x 3 subjects ) observations. The setting of
the nominal SNR value was different for each subject (respectively at 0 dB, -2 dB, and -4
dB). All the correlations differed significantly from zero with Bonferroni correction.
EP-SNR
1
100-250
EP-SNR
2
250-750
EP-SNR
3
750-1750
EP-SNR
4
1750-3750
EP-SNR
5
3750-7750
EP-SNR
1
100-250
1
0.815
0.406
0.239
0.124
EP-SNR
2
250-750
1
0.566
0.222
0.055
EP-SNR
3
750-1750
1
0.401
0.195
EP-SNR
4
1750-3750
1
0.378
EP-SNR
5
3750-7750
1
188
The data in Table reveal that although the physical SNRs were uncorrelated across
bands, the EP-based SNRs measured at the output of the peripheral auditory filters were
significantly correlated across bands. What consequences does this correlation of the
internal SNRs (as represented by EP-based SNRs) across bands have on the measure of
frequency-importance functions. As explained below, a probable consequence of this
correlation between internal SNRs across bands is that across-band differences in the
correlation coefficients between the external (i.e., physical) SNRs and the identification
scores are likely to under-estimate the true differences in importance between bands. n
other words, the fact that the internal SNRs in adjacent bands are correlated leads to an
artificial "flattening of the frequency-importance functions derived by computing correlations
between the identification scores and the externals SNRs. This can be understood by
thinking of the internal SNR in each band as a linear combination of the external SNRs in
different bands - say, the considered band and one or two neighboring band(s), as
suggested by the data in Table .
According to this model, the EP-based SNR in a given band depends not only on the
external SNR in that same band, but also on the external SNRs in at least one neighboring
band. Given that the physical SNRs are uncorrelated across bands - this is a pre-requisite of
the correlational method -, the influence of the latter variables, i.e., the external SNRs in the
neighboring band or bands, can be thought of as random perturbations of the internal SNRs.
This added source of (random) variation, unless partialed out, contributes to "de-correlate,
i.e., reduce the correlation between, the external SNR and the corresponding internal SNR in
the considered band. Since the internal SNRs determine the listener's responses (the
responses can be thought of as a function of the internal SNRs in the different bands), which
in turn determine the identification scores, the variability added to the internal SNRs
contributes, ultimately, to reduce the correlation between the external SNRs and the
identification scores. This de-correlation, when applied in all bands, is equivalent to a
reduction in the contrasts between the correlation coefficients (or equivalently, the weights)
across bands. Thus, if the internal SNRs are correlated across bands, importance functions
189
obtained from correlation coefficients between identification scores and physical SNRs are
likely to be a poor indicator of the actual differences in importance between neighboring
bands; they will, in general, lead to an under-estimation of these differences. n theory, this
problem, i.e., the under-estimation of the contrasts in importance across bands, may be
alleviated by the use of partial instead of point bi-serial (zero-order) correlation coefficients,
keeping the same variables (physical SNRs and identification scores). n practice, however,
we saw that the partial correlation coefficients between the physical SNRs and the
identification scores were very similar to the point bi-serial coefficients. This happens
because the physical SNRs in each band were uncorrelated and the (point bi-serial)
correlation coefficient between physical SNRs and identification scores were small, although
significantly different from zero.



Table : Correlation Matrix between the RSB in each band and the non transformed EP-
SNR. The data of three participants have been used so that the correlation matrix is based
on 4500 (1500 presentations x 3 subjects ) observations. The setting of the nominal SNR
value was different for each subject (respectively at 0 dB, -2 dB, and -4 dB). Bold
characters indicate statistically significant correlations (p<0.05 with Bonferroni correction).
SNR
1
100-250
SNR
250-750
SNR
750-1750
SNR
1750-3750
SNR
3750-7750
EP-SNR
1
100-250
0.416
0.373
0.031
0.036
0.043
EP-SNR
2
250-750
0.180
0.525
0.096
0.034
0.035
EP-SNR
3
750-1750
0.014
0.114
0.611
0.071
0.039
EP-SNR
4
1750-3750
0.033
0.030
0.080
0.672
0.054
EP-SNR
5
3750-7750
0.038
0.036
0.032
0.050
0.594
190
B. ReIationships with other data in the speech perception Iiterature
Having explained the disadvantages of relying on the external SNRs to estimate frequency-
band weights when the internal SNRs are correlated, and the advantages of relying instead
on partial correlations between the identification scores and estimates of the internal SNRs,
one may nevertheless wonder whether the importance functions derived from correlations
between internal SNR estimates based on excitation pattern simulations (EP-based SNR
t
)
and identifications scores are really valid. To answer this question, it is essential to examine
to what extent the frequency-importance functions derived in this way are consistent with
other data in the speech perception literature. The first comparison material coming to mind
is, naturally, frequency-importance functions for speech identification estimated using other
approaches. Unfortunately, comparisons between the importance functions based on EP-
based SNR
t
and importance functions based on external SNRs provide limited insight into
the validity of either approach. We have already seen here that the two types of weighting
functions, even when measured in exactly the same subjects and test conditions, were
markedly different. However, such differences do not reveal which of the two types of
importance functions best reflects the actual importance of the different bands.
Consequently, the only way to really evaluate the validity and respective merits of the two
band-importance estimation approaches described here is to examine and compare the
extent to which they are each consistent with current knowledge of the location, along the
frequency axis, of the acoustic cues for phoneme identification.














191

Figure 5: Percentage of transmitted information for each of the consonants used.



As reported in Gilbert and Micheyl (submitted), a vast majority (32.4%) of the
phonemic confusions that were made by the listeners during the test concerned consonants.
The vowels were very rarely confused. A consequence of this is that the frequency-
importance functions shown in that earlier article and here essentially reflect the identification
of consonants, not that of vowels
4
. A survey of the speech perception literature indicates that
the identification of consonants involves acoustic cues at relatively high frequencies. For
instance, the place of articulation of plosives is signaled by the frequencies of spectral peaks
associated with the second and third formants of the following vowels (Blumstein and
Stevens, 1979; Lahiri and Blumstein, 1981; Ohde and Stevens, 1983) and the time course of
amplitude changes above about 2500 Hz in the few tens of milliseconds following
consonantal release, especially the time envelope of the amplitude changes in the range of
the four and fifth formants. The second mechanism is especially involved for the labelling of
place of articulation in unvoiced plosives. Although plosive consonants are also
characterized by broadband spectral events (bursts), such brief signals can be masked in the
192
presence of background noise (Summers and Leek, 1997), forcing the listeners to rely on
more resilient cues, such as those described above. Fricatives are also well known for being
characterized by the presence of energy at relatively high frequencies. Both the frequency-
importance functions based on the physical SNRs and those based on internal-SNR
estimates exhibited relatively large weights on high frequencies (bands 4 and/or 5),
consistent with an important role of high-frequency information in consonant identification.
Thus, from this point of view, the two methods of frequency-band importance estimation
cannot be clearly teased apart.
Where the two types of frequency-importance functions differed strikingly is in the
relative weights of bands 1 and 2, compared to each other as well as to other bands.
Specifically, frequency-importance functions based on partial correlations between the
identification scores and the internal SNRs displayed a sharp contrast between band 1, the
weight of which was negative, and band 2, the weight of which was substantially elevated
compared to both that of band 1 and that of band 3.
The finding of a small or negative weight on band 1 is consistent with S predictions,
which attribute very little importance to frequencies below 250 Hz. From this point of view,
the frequency-importance functions that were derived using the external SNRs in the present
study, which indicate a similar weight for band 1 and upper bands like band 2 or 3, are
inconsistent with S predictions. This is interesting, because the frequency-importance
functions used in the S were obtained, like those of the A, through measurements of
speech identification under conditions of systematic low- and high-pass filtering. As pointed
in the ntroduction, this method, which relies largely on the presentation of isolated bands,
may not be as much affected by interactions between adjacent bands as the correlation
method, which relies on the simultaneous presentation of all bands. However, as explained
above, whilst such simultaneous or quasi-simultaneous interactions are likely to influence
zero-order (point bi-serial) correlations between the identification scores and the physical
SNRs, they can be partialled out using partial correlation coefficients between the
identification scores and internal-SNR estimates. Therefore, it is perhaps not very surprising
193
to observe better agreement between S predictions and the newly-computed importance
functions, based on partial correlations and internal SNRs, than with the more traditional
ones, based on zero-order correlations and physical SNRs. However, as illustrated in Figure
6, a quantitative comparison between S predictions and the two types of frequency-
importance functions calculated here does suggests better agreement overall between S
predictions and the frequency-importance functions based on the physical SNRs. n
particular, both of these functions exhibit a peak on the fourth band, whilst the frequency-
importance functions based on the internal SNRs do not.
The finding of an increased weight for the second band may be the reflect an
intraspeech spread of masking of the information conveyed by this band on the information
conveyed by the following bands. The second band indeed contains most of the first
formants (highly energetic) of the vowels (Gilbert et al., submitted). t is conceivable that the
first formant (F1) have masked the spectro-temporal movements of higher formants (F2 and
to a lesser extent F3) that are used for the coding of place cues in consonant identification
(Summers and Leek, 1997).


194
Figure 6: Comparison between S predictions and the frequency-importance functions
measured in the present study. The empty triangles correspond to S predictions. The empty
circles to correspond to weights derived from point bi-serial (zero-order) correlations between
the identification scores and the physical SNRs. The filled squares to correspond to weights
derived from point bi-serial (zero-order) correlations between the identification scores and the
internal SNRs estimated using excitation-pattern simulations (EP-based SNR
t
). The error
bars indicate standard errors around the mean weights across subjects.





















195

FOOTNOTES

1. For technical reasons related to the sampling frequency and the number of bins in the
FFT, the actual corner frequencies of the bands were slightly different from these indicated in
the text. The exact corner frequencies used were: 97-248 Hz (band 1), 248-741 Hz (band 2),
741-1755 Hz (band 3), 1755-3758 Hz (band 4), and 3758-7741 Hz (band 5). Also, note that
the first frequency band was truncated in order to accommodate the overall passband of the
signals (100-7750 Hz).

2. Non-transformed EP-based SNRs rather than EP-based SNR
t
s were preferred for this
analyze in order to avoid the introduction of subject-dependent variations.

3. n fact, because the lower-frequency slope of auditory filter shapes tends to become
significantly shallower than the higher-frequency slope at moderate to high stimulation levels
(Moore and Glasberg, 1990), it is likely that more filters responded to components located in
a lower frequency band than to components located in a higher frequency band.

4. As pointed out by Gilbert and Micheyl (submitted), if a given phoneme is identified with a
high level of accuracy throughout the test, the identification score for this phoneme will
remain approximately constant and it will have little or no influence to the measured
correlation between SNRs and identification scores. Consequently, the identification of the
considered phoneme will contribute little or not the measured importance functions.
196
REFERENCES

ANS (1997). ANS S3.5-1997, "American National Standards Methods for the Calculation of
the Speech ntelligibility ndex, (American National Standards nstitute, New York).
Blumstein, S. E., Stevens, K. N. (1979) Acoustic invariance in speech production : Evidence
from measurements of the speech characteristics of stop consonants, J. Acoust.
Soc. Am. 66, 1001-1017.
Dai, H. (1995). "On measuring psychometric functions: a comparison of the constant-
stimulus and adaptive up-down methods, J. Acoust. Soc. Am. 98, 3135-3139.
Doherty, K. A., Turner, C. W. (1996). "Use of a correlational method to estimate a listener's
weighting function for speech J. Acoust. Soc. Am. 100, 3769-3773.
French, N. R., Steinberg, J.C. (1947). "Factors governing the intelligibility of speech sounds,
J. Acoust. Soc. Am. 19, 90-119.
Fletcher, H. (1953). Speech and Hearing in Communication. Krieger, New York.
Gilbert, G., Micheyl, C., Berger-Vachon, C., Collet, L. "Frequency-weighting functions for
speech in young and older listeners, submitted article .
Gilbert, G., Micheyl, C., Berger-Vachon, C., Collet, L. "nfluence of competing multi-talker
babble on frequency-importance functions for speech measured using a
ccorrelational approach, submitted article.
Glasberg, B. R. and Moore, B. C. J. (1990). "Derivation of auditory filter shapes from
notched-noise data, Hear. Res. 47, 103-138.
Grant, K. M., Braida, L. D., (1991). Evaluating the articulation index for auditory-visual input,
J. Acoust. Soc. Am. 89 (6), 2952-2960.
Kryter, K. D. (1962) . "Methods for the calculation and use of the articulation index, J.
Acoust. Soc. Am. 34, 1689-1697.
197
Lahiri, A., Blumstein, S. E. (1981) "A reconsideration of acoustic invariance for place of
articulation in stop consonants : Evidence from cross-language studies, J. Acoust.
Soc. Am. Suppl. 1 70, S39
Lippman, R. P. (1996). "Accurate Consonant Perception without mid-frequency speech
energy, EEE Trans. Speech Audio. Process. 4, 66-69.
Lutfi, R. A. (1995). "Correlation coefficients and correlation ratios as estimates of observer
weights in multiple-observation tasks, J. Acoust. Soc. Am. 97, 1333-1334.
Mehr, M. A., Turner, C. A., Parkinson, A. (2001). "Channel weights for speech recognition in
cochlear implant users, J. Acoust. Soc. Am. 104, 359-366.
Miller, G. A., Nicely, P. E. (1955). "An analysis of perceptual confusions among some English
consonants, J. Acoust. Soc. Am. 27, 338-352.
Msch, H, and Buus, S. (2001). "Using statistical decision theory to predict speech
intelligibility. . Model structure, J. Acoust. Soc. Am. 109, 2896-2909.
Ohde, R. N., Stevens, K. N. (1983) "Effect of burst amplitude on the perception of stop
consonants place of articulation, J. Acoust. Soc. Am. 74(3), 706-714.
Pavlovic, C. V., Studebaker, G. A., Sherbecoe, R. L. (1986). "An articulation index based
procedure for predicting the speech recognition performance of hearing-impaired
individuals, J. Acoust. Soc. Am. 80, 50-57.
Rao, P., van Dinther, R., Veldhuis, R., Kohlrausch, A. (2001). "A measure for predicting
audibility discrimination thresholds for spectral envelope distortions in vowel
sounds, "J. Acoust. Soc. Am. 109, 2085-2097.
Richards, V. M., Zhu, R. (1994). "Relative estimates of combination weights, decision
criteria, and internal noise based on correlation coefficients, J. Acoust. Soc. Am.
95, 423-434.
Summers, V., Leek, M. R. (1997). "ntraspeech spread of masking in normal-hearing and
hearing-impaired listeners, J. Acoust. Soc. Am. 101, 2866-2876.
198
Turner, C. W., Kwon, B. J., Tanaka, C., Knapp, J., Hubbartt, J. L., Doherty, K. A. (1998)
"Frequency weighting functions for broadband speech as estimated by a
correlational method, J. Acoust. Soc. Am. 104, 1580-1585.
Warren, R.M, Riener, K.R., Bashford, J.A, Jr, & Brubaker, B.S. (1995). Spectral redundancy :
ntelligibility of sentences heard through narrow spectral slits. Perception &
Psychophysics, 57, 175-182.


199
V.1.2- DSCUSSON COMPLMENTARE

V.1.2.1- Prdictions en utilisant le modle de dcision de Richards et Zhu

Une mesure de la fiabilit de chacune des mthodes utilises consiste confronter
les rsultats exprimentaux avec les prdictions obtenues avec le modle dcisionnel
propos par Richards et Zhu. Les estimations des poids avec chaque mthode sont utilises
ici pour valuer un pourcentage d'agrment entre les rponses exprimentales et les
rponses prdites, lequel nous renseigner sur la capacit prdictive de chacune des
mthodes.
Rappelons tout d'abord que la mthode corrlationnelle drive d'un principe
dcisionnel consistant opter pour l'une ou l'autre des alternatives d'un choix binaire l'issu
d'un test portant sur la valeur + = + =

=
Z x a W
m
i
i i
1
, o
i
x reprsente l'observation
correspondant aux informations dans la bande i,
i
a reprsente le poids interne associ
cette observation, et reprsente un bruit, d'origine externe (li au stimulus) ou interne
(li au sujet).

La rponse du sujet est reprsente par

<
=
; , 1
, , 0
C W si
C W si
R

Une fois l'importance de chaque bande estime, il est donc possible, connaissant la
valeur du critre de dcision C , de prdire les rponses pour chacun des sujets. Le critre
C est obtenu par l'application de la procdure algbrique dcrite par Richards and Zhu
(1994) :

Z w
p C + =

) (
1


o
w
dsigne l'cart type caractrisant les variations de + Z ,
1
dsigne
l'inverse de la fonction normale cumule standard et p dsigne | |R E , et
Z
renvoie la
valeur prise par

m
i i
x a
1
.

200
Le pourcentage d'agrment entre les donnes exprimentales et prdites par le
modle a t calcul pour les chacune des fonctions d'importance considres dans cette
tude savoir :

1) les fonctions d'importance drives partir des corrlations bi-serielles
ponctuelles entre les rponses du sujet ( R ) et les RSBs physiques dans chaque
bande.
2) les fonctions d'importance drives partir des corrlations partielles entre les
rponses du sujet ( R ) et les RSBs obtenus sur la base de la simulation des
patterns d'excitation (RSB internes).


Figure 7 : Pourcentage de bon agrment entre les rponses ( R ) prdites et exprimentales
pour chaque sujet.


Comme l'indiquent les donnes reprsentes sur la Figure 7, le pourcentage
d'agrment entre les prdictions et les rsultats exprimentaux ne montre pas de diffrence
201
nette et systmatique selon que les poids sont drivs partir des RSB externes avec les
corrlations bi-serielles ponctuelles ou internes avec les corrlations partielles. Les
pourcentages d'agrment moyens observs dans ces deux conditions sont trs similaires
(69.0% pour les poids drivs partir des corrlations partielles sur les RSB internes versus
68.8% avec les poids drivs partir des corrlations bi-serielles ponctuelles sur les RSBs
physiques). De ce point de vue, aucune des deux methodes envisages pour la drivation
des poids ne s'avre vritablement suprieure l'autre. Cependant, il faut concder que les
pourcentages d'agrment globaux obtenus demeurent modrs ( peine 19% au dessus du
niveau de chance) ce qui indique que les sources de variations additionnelles (reprsentes
par le bruit interne ) sont trs importantes.














202





CHAPTRE V - DSCUSSON GENERALE



V.1- RESUME DES OBJECTIFS DE LA THESE............................................................................... 203
V.2- RESUME DES PRINCIPAUX RESULTATS DE LA THESE...................................................... 203
V.3- PERSPECTIVES : LIMITES ET INTERET DE LA METHODE CORRELATIONNELLE POUR LA
MESURE DES FONCTIONS D'IMPORTANCE FREQUENTIELLE EN RECONNAISSANCE DE
PAROLE.............................................................................................................................................. 207



203
V.1- RESUME DES OBJECTFS DE LA THESE

Dans cette thse, nous nous sommes penchs sur l'application d'une technique
psychophysique relativement neuve, la mthode corrlationnelle (Richards et Zhu, 1994 ;
Lutfi, 1995), l'tude des mcanismes ou stratgies de perception de la parole. Ayant pour
point de dpart les travaux de Turner et collaborateurs (Doherty et Turner, 1996; Turner et
al., 1998; Mehr et al., 2001), nous avions pour objectif gnral de contribuer au
dveloppement de cette mthode en : 1/collectant d'avantage de donnes, chez un plus
grand nombre de sujets, que cela n'avait t fait dans les tudes prcdentes ; 2/appliquant
la mthode, au besoin en l'adaptant, d'autres populations que celles testes dans les
tudes prcdentes ( savoir, essentiellement, des sujets normo-entendants ou porteurs
d'un implant cochlaire) ; 3/utilisant la mthode dans d'autres conditions de stimulation que
celle utilise dans les tudes antrieures (c'est--dire, en la prsence d'autres sons
concurrents la parole que le bruit ncessaire a la mthode); 4/essayant d'amliorer la
mthode, et plus spcifiquement, l'estimation des poids des diffrentes bandes
frquentielles.


V.2- RESUME DES PRNCPAUX RESULTATS DE LA THESE

Le premier rsultat qui s'est dgag de cette thse concerne l'existence de
diffrences entre les fonctions de poids mesures chez des sujets jeunes et des sujets plus
gs ayant une audition normale pour leur ge. Nous avons observ que, chez les sujets
plus gs, les bandes frequentielles hautes (au-dessus d'environ 1750 Hz) avaient une
importance significativement moindre que chez les sujets plus jeunes, et ce au profit des
bandes frquentielles plus basses (en-dessous d'environ 1750 Hz). En utilisant les
prdictions de type index d'articulation (prcisment, le modle S, ANS S3-5
1997) nous avons conclu que l'lvation des seuils absolus en hautes frquences dans le
groupe g (17.7 dB en moyenne sur les frequences 4 et 8 kHz) n'avait probablement pas
entran une diminution significative de l'audibilit des sons de parole dans les conditions
exprimentales que nous avons utilises ( savoir, avec un niveau de stimulation d'environ
60 dB SPL). De fait, il semble ncessaire de rechercher d'autres raisons pour expliquer la
diffrence observe dans l'allure des fonctions d'importance frquentielle entre ces deux
groupes. Sur ce point, nous ne pouvons pour l'instant que spculer. On ne peut
compltement carter une influence possible de la diminution de la slectivit frquentielle
auditive lie au vieillissement de la cochle. Cependant, sur la base des donnes actuelles
(Moore, 1995) la largeur de bande des filtres auditifs ne s'agrandit de faon substantielle que
204
lorsque les seuils s'lvent au-del de ce que nous avons observ dans notre groupe g
(dont il faut rappeler que les sujets avaient encore une audition normale pour leur ge).
Aussi, nous sommes amens, ce stade, privilgier une explication en termes d'influence
plus centrale du vieillissement sur les stratgies de traitement de la parole. l n'est d'ailleurs
pas exclu que cette influence soit en fait une consquence (ou une forme d'anticipation
par les centres) du vieillissement de l'organe priphrique auditif. Nous concdons volontiers
que cette explication est spculative et que des tudes complmentaires sont ncessaires
sur ce point. Qu'elle que soit l'origine de la diffrence observe dans les fonctions
d'importance frquentielle, une autre perspective importante ouverte par notre premire
tude concerne les consquences ou relations de cette diffrence avec d'autres aspects de
la perception de la parole qui diffrent entre sujets jeunes et plus gs. Ainsi, on peut se
demander si la moindre pondration des informations de hautes frquences n'est pas
responsable en partie de l'lvation du seuil de rception de la parole ou RSB nominal (3.25
dB en moyenne) que nous avons observ dans le groupe de sujets gs, par rapport au
groupe jeune. l est possible en effet que cette diffrence de fonctions de poids reflte
l'adoption par les sujets gs d'une stratgie consistant donner moins de poids aux
informations de hautes frquences, et que cette stratgie entrane une moindre rsistance
de l'intelligibilit vis--vis de bruits stationnaires comme celui utilis ici. De faon
intressante, une analyse des confusions phontiques en termes d'information transmise a
rvl une moins bonne transmission des consonnes fricatives chez le groupe g, rsultat
cohrent avec l'observation d'un amoindrissement de l'importance des bandes hautes
frequences. Pour clairer ces diffrents points, il nous semble important, dans de futures
tudes, d'examiner plus avant l'existence (ou non) de relations de correspondance entre les
fonctions d'importances frquentielles et les confusions phontiques mesures chez les
mmes sujets ou groupes de sujets.
Au-del de ce rsultat spcifique, notre premire tude a permis de contrler
diverses conditions ncessaires la poursuite de nos tudes avec la mthode
corrlationnelle, savoir: 1/que notre plan ( design ) exprimental, depuis le logiciel que
nous avons labor et le corpus de sons de parole que nous avons enregistr jusqu'aux
rglages fins des paramtres de test (RSB nominal, etc.), tait globalement fonctionnel, et
2/que les fonctions d'importance frquentielle mesures avec cette mthode taient
reproductibles d'une session l'autre chez le mme sujet et, bien que variables entre
individus, suffisamment homognes au sein d'un groupe donn pour pouvoir mettre en
vidence des diffrences mme entre deux groupes dont les seuils auditifs n'taient pas
dramatiquement diffrents.
Un autre rsultat de cette thse qui contribue confirmer la validit des fonctions
d'importance frquentielle a t obtenu dans le cadre d'une seconde tude exprimentale,
205
impliquant cette fois des sujets malentendants. Chez ces sujets, lesquels prsentaient une
perte auditive en hautes frquences, les fonctions d'importance frquentielle se sont avres
fortement attnues sur les hautes frequences. Cette observation, certes triviale, pour
principal mrite, nanmoins, de dmontrer que l'importance des diffrentes bandes
frequentielles estime au moyen de la mthode correlationnelle est influence par l'audibilit
des informations dans ces bandes ; ce genre de contrle est important lorsqu'on travaille
avec une mthode la fois neuve et complexe, telle que la mthode correlationnelle. Au
passage, les rsultats ont galement permis de dmontrer que la procdure de test, bien
qu'assez longue, tait nanmoins applicable chez des sujets malentendants d'un certain
ge.
Cette seconde tude exprimentale, bien que prliminaire, a galement ouvert de
nouvelles perspectives en suggrant que, lorsqu'on prenait soin de compenser (au moins
partiellement) la diminution d'audibilit en hautes frquences au moyen d'une correction
approprie (nous avons utilis la mthode CAMFLT dvelopp par Moore et collaborateurs),
les fonctions d'importance frquentielle de patients malentendants porteurs d'une prothse
auditive taient moins variables et plus similaires aux fonctions mesures chez des sujets
ayant une audition normale que celles de patients malentendants ne portant pas de
prothse. Evidemment, avant de pouvoir conclure une relle re-normalisation des fonctions
d'importance frequentielle pour la reconnaissance de la parole sous l'effet de l'appareillage
prothtique, ces observations prliminaires devront tre confirmes sur de plus larges
chantillons de sujets porteurs rguliers ou non d'une aide auditive. Si elles sont confirmes,
ces observations pourraient ouvrir un nouveau pan de recherche concernant les micro-
mecanismes de l'acclimatation prothtique, phnomne dont seuls les aspects
macroscopiques (i.e., modifications de performances globales) ont, notre
connaissance, t mis en vidence jusqu'ici.
Un autre rsultat majeur de cette thse concerne la modification des fonctions d'importance
frquentielle selon les conditions d'coute. Nous avons en effet montr, dans une troisime
tude exprimentale, que les fonctions d'importance frquentielle, mesures chez les
mmes sujets, taient modifies lors de l'ajout de sons de parole concurrents mis par
plusieurs locuteurs. Prcisment, nous avons observ qu'en prsence de tels signaux
concurrents, les bandes frquentielles basses (<750 Hz) prenaient relativement plus
d'importance. L encore, il est trop tt pour que nous puissions offrir une explication certaine
de cette observation. A priori, le rsultat aurait pu s'expliquer simplement si les signaux
cibles et concurrents avaient systmatiquement diffr par leur composition frquentielle, les
seconds contenant par exemple plus d'nergie en hautes et moyennes frquences, de sorte
qu'il soit plus avantageux pour les sujets d'couter prfrentiellement les basses.
Cependant, aprs examen des spectres moyens des signaux, il s'avre que la composition
206
frquentielle long terme des signaux concurrents etait quasiment identique celle des
signaux cibles (ce qui n'est pas trs surprenant dans la mesure ou les deux provenaient
initialement de la mme base de donnes de sons de parole). Nous proposons que la
modification observe des fonctions d'importance reflte plutt le rle primordial de l'analyse
de scnes auditives dans la reconnaissance de parole dans les situations d'coute de type
cocktail party (multi-locuteurs) telle que celle utilise dans cette tude. Prcisment,
nous suggrons que l'augmentation de l'importance des zones frequentielles basses est lie
la meilleure rsolution priphrique des composantes frquentielles aux basses
frquences. Nous faisons l'hypothse que la rsolution frquentielle conditionne
probablement la sparation des signaux mis par diffrents locuteurs concurrents, pralable
ncessaire leur identification. L encore, il nous semble que ce rsultat ouvre des
perspectives intressantes sur les micro-mcanismes de l'coute de la parole dans des
situations exprimentales assez reprsentatives de conditions d'ecoute naturelles.
Le dernier rsultat principal qui se dgage de cette thse concerne la mthode
correlationnelle elle-mme. Dans le but d'amliorer la mthode, nous avons propos de
driver les poids de chaque bande partir, non pas de corrlations simples entre les scores
d'identification et les RSB externes, mais plutt partir de corrlations partielles entre les
scores et les RSB internes. Nous avons estims ces derniers sur la simulation de patterns
d'excitation psychoacoustiques (au moyen du modle classique de Glasberg et Moore,
1990). Notre choix de remplacer les RSB externes par les RSB internes ainsi estims s'est
fond sur l'ide que les premiers ne refltent absolument pas les effets de masque entre les
composantes frequentielles voisines. Les patterns d'excitation psychoacoustiques, en
revanche, simulent ces phnomnes et rendent donc compte de faon plus fidle des
informations disponibles pour le systme auditif central pour la reconnaissance de parole,
que ce soit dans le silence ou dans le bruit. Les rsultats que nous avons obtenus dans ce
domaine sont, l-encore, prliminaires, bien des gards. Nous avons observ des
diffrences substantielles entre les fonctions d'importances drives partir des RSB
externes et internes. En particulier, les fonctions d'importances drives partir des
corrlations partielles avec les RSB internes indiquent une importance beaucoup plus
marque de la bande frquentielle 2 (250-750 Hz) par rapport aux bandes voisines que ne le
rvlent les fonctions d'importance estimes avec la mthode traditionnelle (utilisant les RSB
externes et des corrlations simples). De plus, il apparat, lorsqu'on utilise les RSB internes,
que le poids de la premire bande (100-250 Hz) est ngative, suggrant que cette dernire
contrevient la performance. Cet effet peut rsulter de la prise en compte du masquage
ascendant exerc par les composantes de cette bande frquentielle basse sur les
composantes de la seconde bande, lesquelles semblent vhiculer des informations plus
importantes pour la reconnaissance que la bande 1 (en tout cas, en l'absence de sons de
207
parole concurrents). l peut galement tre li la prise en compte, par l'usage de
corrlations partielles, de corrlations entre les informations vhicules par les bandes 1 et
2. De faon plus gnrale, nous avons observ des contrastes inter-bandes plus marqus
dans les fonctions d'importance calcules sur la base des corrlations partielles sur les RSB
internes que dans les fonctions d'importance calcules sur la base des corrlations simples
avec les RSB externes. Nous pensons que cela reflte la meilleure prise en compte des
corrlations entre les informations que dlivre le systme auditif priphrique au systme
auditif central pour chacune des diffrentes bandes. Cependant, on doit avouer qu' ce
stade, nous ne pouvons affirmer de faon certaine que les fonctions d'importance estimes
avec la nouvelle mthode que nous proposons refltent ncessairement "mieux l'importance
relle des differentes bandes. l est probable que les avantages (et inconvnients) des deux
mthodes envisages diffrent selon le point de vue que l'on adopte et ce que l'on cherche a
dcouvrir. l nous semble cependant que le travail de modlisation prsent dans cette thse
constitue une amorce suffisante pour justifier que l'on se penche plus avant sur les
avantages de cette nouvelle approche pour l'estimation des fonctions d'importance.



V.3- PERSPECTVES : LMTES ET NTERET DE LA METHODE
CORRELATONNELLE POUR LA MESURE DES FONCTONS
D'MPORTANCE FREQUENTELLE EN RECONNASSANCE DE
PAROLE


L'approche corrlationnelle, d'invention relativement rcente, n'a encore t utilise
que dans un nombre relativement limit d'tudes. A fortiori, l'application de cette approche
la mesure des fonctions d'importance frquentielle pour la reconnaissance de parole est
encore un stade prliminaire de son dveloppement. Dans ces conditions, les travaux
prsents dans cette thse ne pouvaient gure revtir d'autres formes que celles d'tudes
exploratoires, et nous ne pouvions gure prtendre viser faire plus qu'apporter des
rponses prliminaires des questions relativement lmentaires concernant cette mthode
et ses rsultats. l est clair que de nombreuses tudes ultrieures seront ncessaires avant
que l'on puisse pleinement, et avec le recul ncessaire, apprcier l'intrt et les avantages
rels de cette mthode, ainsi que ses limites ou ses inconvnients par rapports aux autres
mthodes existantes. Cependant, ce stade prliminaire, il nous semble possible de pointer
quelques limitations importantes de la mthode correlationnelle.
La plus importante de celles-ci, sur le plan pratique, est la dure de passation
relativement longue du test. En effet, comme nous l'avons vu, le nombre de conditions que
208
l'on doit tester est une fonction puissance du nombre de bandes. L'explosion combinatoire
impose rapidement une limite sur le nombre de bandes que l'on peut tester simultanment.
Cependant, ce problme est potentiellement rdhibitoire mais pas ncessairement dfinitif.
En effet, nous avons vu que l'estimation des poids peut converger avec un nombre d'essais
relativement et souvent bien infrieur celui que nous avons utilis dans nos travaux, 1500).
Nous avons galement vu que la rapidit de la convergence pourrait tre acclre par le
dveloppement de mthodes plus performantes pour l'estimation des poids, telle que celle
que nous proposons a partir des corrlations partielles plutt que simples, et des rapports
RSB internes plutt qu'externes. Par ailleurs, on peut imaginer optimiser le nombre de
conditions de RSB testes en utilisant des procdures adaptatives (telles que Levitt,
PEST,.) combines avec des connaissances a priori sur l'allure des fonctions
psychomtriques reliant le RSB et les scores d'identification (estimation Bayesienne,
maximum de vraisemblance.). Le problme majeur contourner dans ce domaine est le
pr-requis d'absence de corrlation des RSB entre bandes, mais il existe probablement des
solutions ce type de problme.
Une seconde limitation importante de l'application de la mthode corrlationnelle la
parole - celle l, d'ordre thorique plus que pratique -, est qu'avec ce type de signal naturel
complexe, l'interprtation que l'on peut faire des poids que l'on mesure est quivoque.
En effet, ces poids peuvent reflter autant des facteurs lis spcifiquement
l'observateur (tels que la stratgie de pondration des observations utilise par cet
observateur), que des facteurs lis au stimulus (tels que l'importance intrinsque des
informations dans chaque bande). En effet, il est probable que les diffrentes bandes de
frquence slectionnes fournissent intrinsquement plus ou moins d'indices utiles pour la
comprhension de la parole de sorte qu'en moyenne, mme si le sujet accorde exactement
le mme poids aux observations issues de chaque bande, les poids mesurs seront plus
larges dans certaines bandes que dans d'autres. De ce point de vue, la mthode
correlationnelle, dans sa forme actuelle, ne fait pas mieux que l'indice d'articulation ou S,
lequel ne distingue pas vraiment les contributions exognes et endognes l'importance des
bandes frequentielles. Nanmoins, lorsque l'on compare les fonctions d'importance
frquentielles mesures chez les mmes sujets dans deux conditions de stimulation
diffrentes, il est parfois possible, sous certaines conditions, d'carter ou neutraliser en
moyenne les facteurs lis au stimulus et de mettre en vidence des diffrences de stratgies
de pondration des observations (c'est dans cette ligne que s'inscrit la discussion des
rsultats de notre tude utilisant des signaux de parole concurrents). Une solution gnrale
ce problme de la sparation des facteurs d'importance lis au stimulus et lis
l'observateur impliquerait de pouvoir dfinir une stratgie optimale partir de la
connaissance des proprits du stimulus, comme c'est le cas pour les applications ayant
209
recours des signaux artificiels possdant une structure spectrale et temporelle plus simple
que les signaux de parole. Un approche dans ce sens est celle de Turner et al. (1998),
lesquels se sont efforcs de s'assurer au pralable que les diffrentes bandes de frquences
tudies produisaient des pourcentages de reconnaissance similaires lorsqu'elles taient
prsentes seules. Hlas, tant donn l'existence d'interactions entre les informations
vhicules par les diffrentes bandes (sinon dans le stimulus lui-mme, en tout cas, ds le
niveau du systme auditif priphrique, comme l'indiquent nos simulations de filtres auditifs),
cette solution est vraisemblablement imparfaite. De plus, si l'on veut dans le futur pouvoir
appliquer la mthode correlationnelle aux sujets malentendants porteurs de prothses multi-
bandes, il est essentiel que la mthode puisse donner des rsultats fiables mme avec des
bandes choisies (presque) arbitrairement.
Malgr ces limitations, la possibilit offerte par l'application de l'approche
corrlationnelle la parole d'obtenir des fonctions d'importance individuelles nous semble
prsenter de nombreux intrts. Le point fort de cette mthode est qu'elle permet de
quantifier la faon dont un sujet utilise l'information fournie par diffrentes bandes spectrales
prsentes simultanment, donc, dans des conditions d'coute relativement proches des
conditions naturelles. Chez les sujets malentendants, porteurs ou non d'une prothse
externe ou implante, la mthode semble mme de pouvoir rvler les bandes les plus
(moins) utilises. A ce titre, elle pourrait, dans un futur plus ou moins proche, enrichir les
approches actuellement utilises en audioprothse pour le rglage des prothses multi-
bandes. La mthode pourrait galement avoir des applications dans le domaine de la
rducation auditive. En effet, s'il s'avre que les sujets qui bnficient le moins de leur
prothse se distinguent des autres par l'usage de stratgies sous-optimales de pondration
frquentielle, la mthode permettra le diagnostic initial de ces stratgies, ainsi que le suivi
des progrs ventuels raliss par le patient sous l'effet des techniques de rducations
(passives ou actives) associes au port de la prothse.


219



ANNEXES



ANNEXE 1: APPLICATION INFORMATIQUE................................................................................... 220
A1.1- SGNAUX ET TRATEMENT DES SGNAUX POUR LA METHODE CORRELATONNELLE
......................................................................................................................................................... 220
A1.1.1- Signaux de parole............................................................................................................ 220
A1.1.2- Ajout de bruit.................................................................................................................... 220
A1.1.3- Pr-traitement des sons .................................................................................................. 222
A1.2- NTERFACE GRAPHQUE.................................................................................................... 222
A1.2.1- Les rglages de base ...................................................................................................... 223
A1.2.1- Les rglages optionnels................................................................................................... 223
A1.2.2- Calcul des rsultats ......................................................................................................... 224
ANNEXE 2 - CALCUL DE L'INFORMATION TRANSMISE PAR LES TRAITS ACOUSTIQUES
CARACTERISTIQUES DE CONSONNES......................................................................................... 226





220
ANNEXE 1: APPLCATON NFORMATQUE


L'ensemble des tudes chez l'humain prsentes dans cette thse ont t ralises
l'aide d'une application informatique mise au point au laboratoire NSS. Le logiciel devait
principalement: (1) permettre de gnrer en ligne les stimuli ncessaires l'application de la
mthode corrlationnelle (2) permettre un enregistrement rapide des rponses des sujets
tests.


A1.1- SGNAUX ET TRATEMENT DES SGNAUX POUR LA METHODE
CORRELATONNELLE

A1.1.1- Signaux de parole

L'acquisition des signaux de parole avec lesquels fonctionne le logiciel a t ralise
au laboratoire NSS. Ce sont des syllabes VCV - voyelle-consonne-voyelle - formes par la
combinaison d'une des trois 3 voyelles suivantes : /a/, /i/ et /u/ et de l'une des 17
consonnes de la langue franaise. Les 51 combinaisons possibles taient prononces 4 fois
par 4 locuteurs ( 2 femmes, 2 hommes) pour qui le Franais est la langue maternelle. Le
corpus ainsi constitu contient donc 816 signaux de paroles. Les signaux ont t enregistrs
au moyen d'un microphone lectrostatique Rode NT-1 reli un pramplificateur Behringer
ultragain Mic 2000. Les signaux ont t chantillonns 44.1 kHz en utilisant une carte son
de 16 bits (Turtle Beach, Multisound Fiji Pro Series) branch sur un ordinateur quip d'un
processeur Pentium. Les signaux taient par la suite filtrs entre 100 et 7750 Hz (filtre digital
rponse impulsionnelle infinie d'ordre 4).


A1.1.2- Ajout de bruit

Comme nous l'avons expliqu auparavant, le principe de la mthode corrlationnelle
repose sur l'ajout d'un bruit stationnaire. Comme l'illustre la Figure A1-1, le signal est
dcoup en bandes spectrales et la quantit de bruit ajoute au sein d'une bande est
dtermine par un rapport signal/bruit alatoire.



221

Figure A1-1 :llustration schmatique de la manire avec laquelle les signaux sont bruits
pour l'application de la mthode corrlationnelle.

De fait, la synthse du bruit stationnaire requiert la connaissance du spectre de
puissance long terme du signal de parole. Ce spectre est calcul sur le signal segment
(suppression des silences prcdant et suivant le signal proprement dit) par moyennage sur
des fentres temporelles rectangulaires (23 ms) et glissantes (chevauchement 50 %). Afin
de rduire de moiti la rsolution frquentielle (21.5 Hz au lieu de 43 Hz), une technique de
zero-padding est utilise. Une fois le spectre de puissance du signal VCV obtenu, l'nergie
du signal contenue dans chacune des bandes frquentielles tudie est calcule.
Connaissant le rapport signal sur bruit avec lequel le bruit doit tre ajout dans chaque
bande, plusieurs spectres complexes correspondant au bruit cible sont synthtiss. La phase
(le quotient de la partie imaginaire sur la partie relle) est alatoire et suit une loi de
distribution uniforme. Localement, c'est dire l'intrieur de chaque bande de frquence,
l'amplitude du bruit en fonction de la frquence est distribue de manire identique au
spectre long terme caractristique de l'ensemble des signaux de parole utiliss. Le bruit
entier est obtenu en sommant avec un chevauchement de 50 % de courtes squences (12
RSB
moyen
RSB
moyen
12 dB
RSB
moyen
-12 dB
Distribution du RSB
avec lequel le bruit est
ajout dans chaque
bande
Rapport signal/bruit
0
1
Band 1 Band 2 Band 3 Band 4 Band 5
Prsentation n+2
Prsentation n+1
Prsentation n
222
ms) de bruits - obtenus par l'FFT des spectres complexes synthtiss plus tt - pondrs
par une fentre Hanning.


A1.1.3- Pr-traitement des sons

Dans la mesure o le protocole consiste ajouter un bruit avec un rapport signal/bruit
pouvant atteindre 18 dB dans chaque bande pour certains sujets, la dynamique de nos
signaux de parole a t rduite 71 dB, alors que la dynamique offerte par les 16 bits du
format wav est de 96 dB. Avec une dynamique de 71 dB, nous avons calcul en assimilant le
signal de parole un bruit gaussien, que le pourcentage avec lequel la stimulation globale
(signal + bruit) pouvait dpasser la dynamique offerte par les 16 bits n'excdait pas 0.5%
pour un rapport signal/bruit de 15 dB dans chaque bande.


A1.2- NTERFACE GRAPHQUE

Le logiciel se prsente sous la forme d'une interface graphique offrant diverses
options l'utilisateur (Fig. A1.2):

Figure A1-2 : nterface graphique principale

223
A1.2.1- Les rglages de base

L'onglet RgIage permet d'ajuster le centre et le domaine de variation de la
distribution des rapports signal/bruit. l est possible de choisir entre une phase de pretest
pour lequel le rapport signal/bruit sera chaque essai identique dans toutes les bandes et
gal au centre de variation signal/bruit et une phase de test proprement dite pour laquelle les
rapports signal/bruit varient chaque essai de faon alatoire dans chaque bande selon la
loi uniforme dfinie. L'option pre-test ne permet pas d'appliquer la mthode corrlationnelle.

L'onglet Bandes frquentieIIes permet de dfinir les limites des bandes spectrales
dont on dsire mesurer l'importance.

L'onglet Ecoute permet de dfinir une stimulation binaurale ou monaurale.

A1.2.1- Les rglages optionnels

L'onglet Contexte permet, avant l'ajout du bruit stationnaire ncessaire
l'application de mthode corrlationnelle, de mixer les signaux de parole avec des bruits de
diffrentes natures (bruit blanc, bruit rose, brouhaha, speech shaped noise).

A partir de l'onglet Apprentissage, il possible de fixer un niveau d'nergie nulle dans
une bande donne du bruit stationnaire afin de ne pas dgrader les informations contenues
dans cette bande. Cette option a pour but de constituer un entranement auditif et diriger
l'attention d'un auditeur sur les informations contenues dans une ou plusieurs bandes
spcifique. L'activation de cette option rend impossible l'application de la mthode
corrlationnelle.

L'onglet Sonie_eq permet d'appliquer une amplification linaire distribue
spcifiquement dans le domaine spectral afin de compenser une partie des dficits
provoqus par une perte auditive. L'algorithme que nous avons implment nous a t fourni
gracieusement par Tom Baer du groupe Perception auditive de l'Universit de Cambridge.
La procdure employe est similaire dans le principe la mthode NAL (Byrne et Dillon,
1986).

L'onglet Choix_Iiste permet de dbuter une passation par une liste quilibre
contenant les 17 consonnes du franais.
224
A1.2.2- Calcul des rsultats

L'onglet Poids ne s'active qu' partir de 200 passations et permet d'obtenir une
reprsentation graphique des fonctions d'importance frquentielle (Fig. A1-2).


Figure A1-3 : Fentre de rsultats pour l'importance des bandes


225
Une option traits_acoustiques permet de quantifier l'information transmise (au sens
de la thorie de l'information) par divers traits acoustiques (Fig. A1.4)


Figure A1.4 : Fentre de rsultats pour le calcul de l'information transmise par les diffrents
traits acoustiques caractristiques des consonnes.


226
ANNEXE 2 - CALCUL DE L'NFORMATON TRANSMSE PAR LES
TRATS ACOUSTQUES CARACTERSTQUES DE CONSONNES

Dans leur article, Miller et Nicely (1955) dveloppent une mthode mathmatique
permettant de quantifier l'information vhicule par chacun des traits acoustiques
caractristiques des consonnes partir d'une matrice de confusion phontique. Les traits
acoustiques sont considrs comme des canaux d'informations indpendants et les auteurs
proposent de construire des matrices rduites, dcrivant les confusions pour chaque attribut.
Chaque matrice rduite permet d'obtenir la relation entre une entre caractrisant le stimulus
(par exemple vois/ non vois), et une sortie caractrisant l'identification fate par le sujet
(vois / non vois ). D'aprs les travaux de C. E. Shannon (1949) sur la thorie de la
communication, la mesure de la covariance entre l'entre et la sortie des matrices rduites
reprsente une estimation de l'information transmise pour les divers traits acoustiques. La
mesure de la covariance entre l'entre et la sortie d'une matrice est dfinie par :
( )

=


log ,
X reprsente la variable d'entre (par exemple le voisement) dont les valeurs discrtes i (ex:
vois=1 ou non vois=2) ont une probabilit p
i
.
Y reprsente la variable de sortie (par exemple le voisement) dont les valeurs discrtes j (ex:
vois=1 ou non vois=2) ont une probabilit p
j
.
p
ij
est la probabilit de co-occurence de l'entre i avec la sortie j.
L'information relative transmise est fournie par T
rel
(X,Y)=T(X,Y) / H(X), o H(X) reprsente
l'information transmise maximale. Comme H(X) T(X,Y) 0, le rapport T
rel
(X,Y) varie de 0
1. Si l'information transmise est pauvre, et si la rponse est mal corrle au stimulus,
T
rel
(X,Y) est proche de 0. Si la rponse peut tre prdite avec une grande prcision partir
du stimulus, alors T
rel
(X,Y) est proche de l'unit.


227




RFRENCES BBLOGRAPHQUES


228
Ahumada, A. Jr., Lovell, J. (1971). "Stimulus features in signal detection, J. Acoust. Soc.
Am. 6, 1751-1756.

Allen, J. B. (1977). "Short term spectral analysis, synthesis and modification by discrete
Fourier transform, .E.E.E Trans. Acoust. Speech Sig. Proc. 25, 235-238.

ANS (1969). ANS S3.5-1969, "American National Standard Methods for the Calculation of
the Articulation ndex, (American National Standards nstitute, New York).

ANS (1997). ANS S3.5-1997, "American National Standards Methods for the Calculation of
the Speech ntelligibility ndex, (American National Standards nstitute, New York).

Assmann, P. F., Summerfield, Q. (1990). "Modeling the perception of concurrent vowels:
vowels with different fundamental frequencies, J. Acoust. Soc. Am. 88, 680-697.

Assmann, P. F., Summerfield, Q. (1994). "The contribution of waveform interactions to the
perception of concurrent vowels, J. Acoust. Soc. Am. 95, 471-484.

Baer, T., Moore, B. C. J. (1993). "Effects of spectral smearing on the intelligibility of
sentences in noise, J. Acoust. Soc. Am. 94, 1229-1241.

Baer, T., Moore, B. C. J. (1994). "Effects of spectral smearing on the intelligibility of
sentences in the presence of interfering speech, J. Acoust. Soc. Am. 95, 2277-
2280.

Baer, T., Moore, B. C. J., Kluk, K. (2002). "Effects of low pass filtering on the intelligibility of
speech in noise for people with and without dead regions at high frequencies, J.
Acoust. Soc. Am. 112,1133-1144.

Barsz, K., son, J. R., Snell, K. B., and Walton, J. P. (2002). "Behavorial and neural
measures of auditory temporal acuity in aging humans and mice, Neurobiol. Aging
23, 565-578.

Behrens, S. J., and Blumstein, S. E. (1988a). "Acoustic characteristics of English voiceless
fricatives: A description analysis, J. Phonetics 16, 295-298.

Bksy, G. (1960). Experiments in hearing. New-York: Mc Graw Hill.

Berg, B. G. (1989). "Analysis of weights in multiple observation tasks, J. Acoust. Soc. Am.
86, 1743-1746.

Berg, B. G., Green, D. M. (1990). "Observer efficiency and weights in a multiple observation
task, J. Acoust. Soc. Am. 88, 758-766.

Blumstein, S. E. (1980). "Perceptual invariance and onset spectra for stop consonants in
different vowel environments, J. Acoust. Soc. Am. 67, 648-662.

Blumstein, S. E., Stevens, K. N. (1979) Acoustic invariance in speech production : Evidence
from measurements of the speech characteristics of stop consonants, J. Acoust.
Soc. Am. 66, 1001-1017.

Boothroyd, A., Mulhearn, B., Gong, J., Ostroff, J. (1996). "Effects of spectral smearing on
phoneme and word recognition, J. Acoust. Soc. Am. 100, 1807-18.

229
Brokx, J., Nooteboom, S. G. (1982). "ntonation and the perceptual separation of
simultaneaous voices, J. Phonetics 10, 23-36.

Burns, E. M., Viemeister, N. F. (1976). "Nonspectral pitch, J. Acoust. Soc. Am. 60, 863-869.

Buus, S. (1999). "Temporal integration and multiple looks, revisited: Weights as a function of
time, J. Acoust. Soc. Am 105, 2466-2475.

Buus, S., Zhang, L., Florentine, M. (1996). "Stimulus-driven, time-varying weights for
comodulation masking release, J. Acoust. Soc. Am 99, 2288-2297.

Bird, J., and Darwin, C. J. (1998). "Effects of a difference in fundamental frequency in
separating two sentences, in Psychological and Physiological Advances in Hearing,
edited by A. R. Palmer, A. Rees, A. Q. Summerfield and R. Meddis (Whurr,
London).

Byrne, D. (1983). "An international comparison of long term average speech spectra, J.
Acoust. Soc. Am. 96, 2108-2120.

Cariani, P. A. (2001). "Neural timing nets, Neural Netw. 14, 737-753.

Ching, T. Y., Dillon, H., Byrne, D. (1998). "Speech recognition of hearing-impaired listeners:
predictions from audibility and the limited role of high-frequency amplification,
J.Acoust. Soc. Am. 103, 1128-1140.

Clarke, F. R. (1957) "Constant-ratio rule for confusion matrices in speech communication J.
Acoust. Soc. Am. 29(6), 715-720

Cox, R. M., Matesich, J. S., and Moore J.N. (1988). " Distribution of short-term rms levels in
conversational speech, J. Acoust. Soc. Am. 84, 1100-1104.

Dai, H. (1995). "On measuring psychometric functions: a comparison of the constant-
stimulus and adaptive up-down methods, J. Acoust. Soc. Am. 98, 3135-3139.

Darwin, C. J., and Carlyon, R. P. (1995). "Auditory Grouping, in Hearing, edited by B. C. J.
Moore (Academic Press, San Diego).

Delattre, P. C., Liberman, A. M., and Cooper F. S. (1951). "Voyelles synthtiques a deux
formants et voyelles cardinales, Le Matre Phontique, 96, 30-36.

Doherty, K. A., Lutfi, R. A. (1996). "Spectral weights for overall level discrimination in
listeners with sensorineural hearing loss, J. Acoust. Soc. Am. 99, 1053-1058.

Doherty, K. A., Turner, C. W. (1996). "Use of a correlational method to estimate a listener's
weighting function for speech J. Acoust. Soc. Am. 100, 3769-3773.

Dorman, M. F., Loizou, P. C., Fitzke, J., Tu, Z. (1998). "The recognition of sentences in noise
by normal-hearing listeners using simulations of cochlear-implant signal processors
with 6-20 channels, J. Acoust. Soc. Am. 104, 3583-3585.

Dorman, M. F., Loizou, P. C., Rainey, D. (1997). "Speech intelligibility as a function of the
number of channels of stimulation for signal processors using sine-wave and noise-
band outputs, J. Acoust. Soc. Am. 102, 2403-2411.

230
Dubno, J. R. and Dirks, D. D. (1989).Filter characteristics and consonant recognition for
hearing impaired listeners, J. Acoust. Soc. Am. 85, 1666-1675.

Duggirala, V., Studebaker, G. A., Pavlovic, C. V., Sherbecoe, R. L. (1988). "Frequency
importance functions for a feature recognition test material, J. Acoust. Soc. Am. 83,
2372-82.

Ehmer, R. H. (1959a). "Masking patterns of tones, J. Acoust. Soc. Am. 31, 1115-1120.

Ehmer, R. H. (1959b). "Masking by tones vs. Noise bands, J. Acoust. Soc. Am. 31, 1253-
1256.

Egan, J. P. and Hake, H. W. (1950). "On the masking pattern of a simple auditory stimulus,
J. Acoust. Soc. Am. 22, 622-630.

Fant, G. C. M. (1970). Acoustic Theory of Speech Production (Mouton, The Hague).

Festen, J. M., Plomp, R. (1990). "Effects of fluctuating noise and interfering speech on the
speech- reception threshold for impaired and normal hearing, J. Acoust. Soc. Am.
88,1725-1736.

Fletcher, H. (1940). "Auditory Patterns, Rev. Mod. Phys. 12, 47-65.

Fletcher, H., Galt, R. H. (1950). "The perception of speech and its relation to telephony, J.
Acoust. Soc. Am. 22, 89-150.

Florentine, M., Buus, S., Scharf, B., and Zwicker, E. (1980). "Frequency selectivity in
normally hearing and hearing-impaired observers, J. Speech Hear. Res. 23, 646-
669.

Fowler, E. P. (1936).A method for the early detection of otosclerosis, Arch. Otolaryngol., 24,
731-741.

French N. R., Steinberg J.C. (1947). "Factors governing the intelligibility of speech sounds,
J. Acoust. Soc. Am. 19, 90-119.

Gilkey, R. H., and Robinson, D. (1986). "Models of auditory masking: A molecular
psychophysical approach, J. Acoust. Soc. Am. 79, 1499-1510.

Glasberg, B. R., and Moore, B. C. J. (1986). "Auditory filter shapes in subjects with unilateral
and bilateral cochlear impairments, J. Acoust. Soc. Am. 79, 1020-1033.

Glasberg, B. R. and Moore, B. C. J. (1990). "Derivation of auditory filter shapes from
notched-noise data, Hear. Res. 47, 103-138.

Goodhill,V., Harris,. (1979). Ear Diseases, Deafness, and Dizziness. Harper_Collins, New-
York

Grant, K. W., Braida, L. D. (1991). "Evaluating the articulation index for auditory-visual input,
J. Acoust. Soc. Am. 89, 2952-2960.

Green, D.M., and Swets, J.A. (1966). Signal Detection Theory and Psychophysics (Wiley,
New York).

231
Gustafsson, H. A., Arlinger, S. D. (1994). "Masking of speech by amplitude-modulated
noise, J. Acoust. Soc. Am. 95, 518-529.

He, N., Horwitz, A. R., Dubno, J. R., Mills, J. H. (1999). "Psychometric functionsfor gap
detection in noise measured from young and aged subjects, J. Acoust. Soc. Am.
106, 966-978.

Helmoltz, H. (1863). Die Lehre von der Tonempfindungen als physiologische Grundlage fr
die Theorie der Musik. 1
st
edition (Vieweg-Verlag, Brunswick).

Hogan, C. A., Turner, C. W. (1998). "High-frequency audibility: benefits for hearing-impaired
listeners, J. Acoust. Soc. Am. 104, 432-441.

Hornsby, B. W., Ricketts, T. A. (2003). "The effects of hearing loss on the contribution of
high- and low- frequency speech information to speech understanding, J. Acoust.
Soc. Am. 113, 1706-1717.

Houtgast, T., et Steeneken, H. J. M. (1985). "A review of the MTF concept in room acoustics
and its use for estimating speech intelligibility in auditoria, J. Acoust. Soc. Am. 77,
1069-1077.

Houtsma, A. J. M., Smurzynski, J. (1990). "Pitch identification and discrimination for complex
tones with many harmonics, J. Acoust. Soc. Am. 87, 304-310.

rino, T., Patterson, R. D. (1997). "A time-domain, level dependent auditory filter: The
gammachirp,. J. Acoust. Soc. Am. 101, 412-419.

SO 389-7 (1996). Acoustics Reference zero for the calibration of audiometric equipment.
Part 7: Reference threshold of hearing under free-field and diffuse-field listening
conditions (nternational Organization for Standardization, Geneva).

Jassem, W. (1965). "Formants of fricatives consonants, Lang. Speech 8, 1-16.

Kasturi, K., Loizou, P. C., Dorman, M., Spahr, T. (2002). "The intelligibility of speech with
'holes' in the spectrum, J. Acoust. Soc. Am. 112,1102-1111.

Kortekaas, R., Buus, S., Florentine, M. (2003). "Perceptual weights in auditory level
discrimination, J. Acoust. Soc. Am. 113, 3306-3322.

Kryter, K. D. (1960). "Speech bandwidth compression through spectrum selection, J.
Acoust. Soc. Am. 32, 547-556.

Kryter, K. D. (1962a). "Methods for the calculation and use of the articulation index, J.
Acoust. Soc. Am. 34, 1689-1697.

Kryter, K. D. (1962b). "Validation of the articulation index, J. Acoust. Soc. Am. 34, 1698-
1702.

Kurowski, K., and Blumstein, S. (1987). "Acoustic properties for place of articulation in nasal
consonants, J. Acoust. Soc. Am. 76, 383-390.

Lahiri, A., Blumstein, S. E. (1981) "A reconsideration of acoustic invariance for place of
articulation in stop consonants : Evidence from cross-language studies, J. Acoust.
Soc. Am. Suppl. 1 70, S39

232
Lippmann, R. P. (1996). "Accurate consonant perception without mid-frequency speech
energy, .E.E.E Trans Speech Audio Process 4, 66-69.

Lutfi, R. A. (1995). "Correlation coefficients and correlation ratios as estimates of observer
weights in multiple-observation tasks, J. Acoust. Soc. Am. 97, 1333-1334.

Martin, P. (1996). lments de phontique, avec application au franais (Sainte-Foy, Les
Presses de l'Universit Laval).

Mehr, M. A., Turner, C. A., Parkinson, A. (2001). "Channel weights for speech recognition in
cochlear implant users, J. Acoust. Soc. Am. 104, 359-366.

Miller, G. A., Nicely, P. E. (1955). "An analysis of perceptual confusions among some English
consonants, J. Acoust. Soc. Am. 27, 338-352.

Moore, B. C. J. (1973). "Frequency difference limens for short duration tones," J. Acoust.
Soc. Am. 54, 610.

Moore, B. C. J. (1995). Perceptual consequences of Cochlear Damages (Oxford University
Press).

Moore, B. C. J. (2003). An introduction to the psychology of hearing. 4
th
edition (Academic
Press, London).

Moore, B. C. J. and Glasberg, B. R. (1983). "Suggested formulae for calculating auditory-
filter bandwidths and excitation patterns, J. Acoust. Soc. Am. 74, 750-753.

Moore, B. C. J. and Glasberg, B. R. (1987). "Formulae describing frequency selectivity as a
function of frequency and level and their use in calculating excitation patterns,
Hear. Res. 28, 209-225.

Moore, B. C. J., Glasberg, B. R., Simpson, A. (1992). "Evaluation of a method of simulating
reduced frequency selectivity, J. Acoust. Soc. Am. 91, 3402-3423.

Moore, B. C., Huss, M., Vickers, D. A., Glasberg, B. R., Alcantara, J. . (2000). "A test for the
diagnosis of dead regions in the cochlea, Br. J. Audiol. 34, 205-224.

Moore, B. C. J., Peters R. W., and Glasberg, B. R. (1990b). "Auditory filter shapes at low
center frequency, J. Acoust. Soc. Am. 88, 132-140.

Msch, H., Buus, S. (2001) "Using statistical decision theory to predict speech intelligibility. .
Model structure, J. Acoust. Soc. Am. 109, 2896-2909.

Ohde, R. N., and Stevens, K. N. (1983). "Effect of burst amplitude on the perception of stop
consonant place of articulation, J. Acoust. Soc. Am. 74, 706-714.

Patterson, R. D. (1976). "Auditory filter shapes derived with noise stimuli, J. Acoust. Soc.
Am. 59, 640-654.

Patterson, R. D., and Moore, B. C. J. (1986). "Auditory filters and excitation patterns as
representations of frequency resolution, in Frequency Selectivity in Hearing, edited
by B. C. J. Moore (Academic, London).

Pavlovic, C. V., (1987). "Derivation of primary parameters and procedures for use in speech
intelligibility predictions, J. Acoust. Soc. Am. 82, 413-422.
233

Peissig, J., Kollmeier, B. (1997). "Directivity of binaural noise reduction in spatial multiple
noise- source arrangements for normal and impaired listeners, J. Acoust. Soc. Am.
101,1660-1670.

Peters, R. W., Moore, B. C. J., Baer, T. (1998). "Speech reception thresholds in noise with
and without spectral and temporal dips for hearing-impaired and normally hearing
people, J. Acoust. Soc. Am. 103, 577-587.

Pick, G., Evans, E. F., and Wilson, J. P. (1977). "Frequency resolution in patients with
hearing loss of cochlear origin, in Psychophysics and Physiology of Hearing, edited
by E. F. Evans and J. P. Wilson (Academic, London).

Plomp, R. (1967). "Pitch of complex tones, J. Acoust. Soc. Am. 41, 1526-1533.

Plomp, R. (1983). The role of modulation in hearing, in Hearing Physiological bases and
psychophysics, edited by R. Klinke and R. Hartmann (Springer-Verlag, New York).

Qin, M. Q., Oxenham, A. J. (2003). "Effects of simulated cochlear-implant processing on
speech reception in fluctuating maskers, submitted to J. Acoust. Soc. Am.

Rankovic, C. M. (1991). "An application of the articulation index to hearing aid fitting, J.
Speech Hear. Res. 34, 391-402.

Rao, P., van Dinther, R., Veldhuis, R., Kohlrausch, A. (2001). "A measure for predicting
audibility discrimination thresholds for spectral envelope distortions in vowel
sounds, "J. Acoust. Soc. Am. 109, 2085-2097.

Richards, V. M., Zhu, R. (1994). "Relative estimates of combination weights, decision criteria,
and internal noise based on correlation coefficients, J. Acoust. Soc. Am. 95, 423-
434.

Robinson, D. W., and Dadson, R. S. (1956). "A re-determination of the equal-loudness
relations for pure tones, Brit. J. Appl. Phys. 7, 166-181.

Rose, J. E., Brugge, J. F., Anderson, D. J. and Hind, J. E. (1968). "Patterns of activity in
single auditory nerve fibers of the squirrel monkey, in A.V.S. de Reuck & J. Knight
(Eds). : Hearing mechanisms in vertebrates. London : Churchill, 144.

Shailer, M. J., Moore, B. C. J., Glasberg, B. R., Watson, N. and Harris, S. (1990). "Auditory
filter shapes at 8 and 10 kHz, J. Acoust. Soc. Am. 88, 141-148.

Shannon, C. E. (1949). The Mathematical Theory of Communication. (University of llinois
Press).

Shannon, R. V., Zeng, F. G., Kamath, V., Wygonski, J., Ekelid, M. (1995). "Speech
recognition with primarily temporal cues, Science 270, 303-4.

Snell, K. B. (1997). "Age-related changes in temporal gap detection, J. Acoust. Soc. Am.
101, 2214-2220.

Smith, Z. M., Delgutte, B., Oxenham, A. J. (2002). "Chimaeric sounds reveal dichotomies in
auditory perception, Nature 416, 87-90.

234
Steeneken, H. J., Houtgast, T. (1980). "A physical method for measuring speech-
transmission quality, J. Acoust. Soc. Am. 67, 318-326.

Steeneken, H. J., Houtgast, T. (1999). "Mutual Dependence of the octave-band weights in
predicting speech intelligibility, Speech Comm. 28, 109-123.

Steinberg, J. C., and Gardner, M. B. (1937). "The dependency of hearing impairment on
sound intensity, J. Acoust. Soc. Am. 9, 11-23.

Stellmack, M. A., Willihnganz, M. S., Wightman, F. L., Lutfi, R. A. (1997). "Spectral weights in
level discrimination by preschool children: analytic listening conditions, J. Acoust.
Soc. Am. 101, 2811-2821.

Stevens, S. S. (1936). "A scale for the measurement of a psychological magnitude:
Loudness, Psychol. Rev. 43, 405-416.

Stevens, S. S. (1956). "The direct estimation of sensory magnitude: Loudness, " Am. J.
Psychol. 69, 1-25.

Strevens, P. (1960). "Spectra of fricative noise in human speech, Lang. Speech 3, 32-49.

Strickland, E. A., Viemeister, N. F. (1996) Cues for discrimination of envelopes, J. Acoust.
Soc. Am. 99, 3638-3646.

Strouse, A., Ashmead, D. H., Ohde, R. N., Grantham, D. W. (1998). "Temporal processing in
the aging auditory system, J. Acoust. Soc. Am. 104, 2385-2399.

Studebaker, G. A. (1985). "A 'rationalized' arcsine transform, J. Speech Hear. Res. 28, 455-
462.

Studebaker, G. A., Sherbecoe, R. L. (1991). "Frequency-importance and transfer functions
for recorded CD W-22 word lists, J. Speech Hear. Res. 34, 427-438.

Studebaker, G. A., Sherbecoe, R. L., Gilmore, C. (1993). "Frequency-importance and
transfer functions for the Auditec of St. Louis recordings of the NU-6 word test, J.
Speech Hear. Res. 36, 799-807.

Summers, V., and Leek, M. R. (1997). "ntraspeech spread of masking in normal-hearing and
hearing-impaired listeners, J. Acoust. Soc. Am. 101, 2866-2876.

ter Keurs, M., Festen, J. M., Plomp, R. (1992). "Effect of spectral envelope smearing on
speech reception. , J. Acoust. Soc. Am, 91, 2872-2880.

Terhardt, E. (1972a). "Zur Tonhhenwarhnemung von Klangen. . Psychoakustische
Grundlagen, Acustica 26, 173-186.

Terhardt, E. (1972b). "Zur Tonhhenwarhnemung von Klangen. . Ein Funktionenschema, "
Acustica 26, 187-199.

Turner, C. W., Brus, S. L. (2001). "Providing low- and mid-frequency speech information to
listeners with sensorineural hearing loss, J. Acoust. Soc. Am. 109, 2999-3006.

Turner, C. W., Cummings, K. J. (1999). "Speech audibility for listeners with high-frequency
hearing loss, Am. J. Audiol. 8, 47-56.

235
Turner, C. W., Henry, B. A. (2002). "Benefits of amplification for speech recognition in
background noise, J. Acoust. Soc. Am. 112, 1675-1680.

Turner, C. W., Kwon, B. J., Tanaka, C., Knapp, J., Hubbartt, J. L., Doherty, K. A. (1998)
"Frequency weighting functions for broadband speech as estimated by a
correlational method, J. Acoust. Soc. Am. 104, 1580-1585.

Turner, C. W., Robb, M. P. (1987). "Audibility and recognition of stop consonants in normal
and hearing- impaired subjects, J. Acoust. Soc. Am. 81,1566-1573.

Turner, C. W., Souza, P. E., Forget, L. N. (1995). "Use of temporal envelope cues in speech
recognition by normal and hearing-impaired listeners, J. Acoust. Soc. Am. 97,
2568-2576.

Vickers, D. A., Moore, B. C. J., Baer, T. (2001). "Effects of low-pass filtering on the
intelligibility of speech in quiet for people with and without dead regions at high
frequencies, J. Acoust. Soc. Am. 110, 1164-1175.

Vliegen, J., Oxenham, A. J. (1999). "Sequential stream segregation in the absence of
spectral cues, J. Acoust. Soc. Am. 105, 339-46.

Warren, R. M., Bashford, J. A., Jr. (1999). "ntelligibility of 1/3-octave speech: greater
contribution of frequencies outside than inside the nominal passband, J. Acoust.
Soc. Am. 106, 47-52.

Warren, R. M., Bashford, J. A., Jr., Lenz, P. W. (2000). "ntelligibility of bandpass speech:
effects of truncation or removal of transition bands, J. Acoust. Soc. Am. 108, 1264-
1268.

Warren, R. M., Riener, K. R., Bashford, J. A., Jr., Brubaker, B. S. (1995). "Spectral
redundancy: intelligibility of sentences heard through narrow spectral slits, Percept.
Psychophys. 57, 175-182.

Willihnganz, M. S., Stellmack, M. A., Lutfi, R. A., Wightman, F. L. (1997). "Spectral weights in
level discrimination by preschool children: synthetic listening conditions, J. Acoust.
Soc. Am. 101, 2803-2810.

Yost, W. A., and Sheft, S. (1993). "Auditory perception, in Human Psychophysics, edited by
W. A. Yost, A. N. Popper, and R. R. Fay (Springer-Verlag, New York), 193-236.

Zenner, H. P., Zimmermann, U., and Schmitt, U. (1985). "Reversible contraction of isolated
mammalian cochlear hair cells, Hear. Res. 18, 127-133.

Zhou, B. (1995).Auditory filter shapes at high frequencies, J. Acoust. Soc. Am. 98, 1935-
1942.

Zue, V. (1976). Acoustic Charasteristics of Stop Consonants: A Controlled Study,
unpublished Sc. D. thesis, M..T. (A revised version was published as M..T., Lincoln
Laboratory Tech. Rep. No. 523). (*)

Zwicker, E. (1961).Subdivision of the audible frequency range into critical bands (Frequenz-
gruppen), J. Acoust. Soc. Am. 33, 248.

Zwicker, E., and Schorn, K. (1978). "Psychoacoustic tuning curves in audiology, Audiology
17, 120-140.

Vous aimerez peut-être aussi