Vous êtes sur la page 1sur 4

Publié dans Actes de la Conférence internationale sur 1

Acoustique, parole et traitement du signal (ICASSP2000) 2, 1085-1088, 2000


qui doit être utilisé pour toute référence à ce travail

CODAGE DE LA PAROLE GSM ET RECONNAISSANCE DES HAUT-PARLEURS

L. Besacier 1,2, S. Grassi 1 , A. Dufaux 1 , M. Ansorge 1 , F. Pellandini 1

(1) Institut de Microtechnique, Université de Neuchâtel, AL Breguet, 2 - 2000 Neuchâtel (Suisse) (2) maintenant avec CLIPS / IMAG,
équipe GEOD, Université Joseph Fourier, BP 53 - 38041 Grenoble (France)
laurent.besacier@imag.fr , sara.grassi@imt.unine.ch

ABSTRAIT (voir Section 5) les caractéristiques du système de reconnaissance du locuteur ont été
calculées à partir des informations disponibles dans le train binaire codé (uniquement pour
le codeur GSM FR). Cette expérience permet une mesure de la dégradation introduite par
Cet article étudie l'influence du codage vocal GSM sur les performances
différents aspects du codeur, et donne quelques indications pour une meilleure utilisation
de reconnaissance du locuteur indépendant du texte. Les trois normes de
des informations disponibles dans le train binaire, à des fins de reconnaissance du locuteur.
codeur de parole GSM existantes ont été prises en compte. Toute la base
Enfin, dans Section 6 les résultats obtenus sont discutés et les travaux futurs possibles sont
de données TIMIT a été transmise à travers ces codeurs, obtenant trois
décrits.
bases de données transcodées. Dans une première expérience, il a été
constaté que l'utilisation du codage GSM dégrade significativement les
performances d'identification et de vérification (performances en
2. CODES DE DISCUSSION GSM
correspondance avec la qualité vocale perceptive de chaque codeur).
Dans une seconde expérience, les caractéristiques du système de
Il existe trois codeurs vocaux GSM différents, appelés codeurs GSM à plein débit,
reconnaissance du locuteur ont été calculées directement à partir des
à demi-débit et à plein débit amélioré. Leurs normes de télécommunications
informations disponibles dans le train de bits codé. Il a été constaté qu'un
européennes correspondantes [6] sont respectivement le GSM 06.10, le GSM
ordre LPC bas dans le codage GSM est responsable de la plupart des
06.20 et le GSM 06.60. Ces codeurs fonctionnent sur un signal d'entrée de parole
dégradations de performances. En extrayant les fonctionnalités
PCM uniforme 13 bits, échantillonné à 8 kHz. L'entrée est traitée image par
directement du flux de bits encodé,
image, avec une taille de trame de 20 ms (160 échantillons). Une brève
description de ces codeurs suit.

2.1 Codeur vocal à plein débit (FR)


1. INTRODUCTION
Le codeur FR a été normalisé en 1987. Ce codeur appartient à la classe des codeurs
GSM (Global System for Mobile Communications) est le standard mobile cellulaire
RPE-LTP (Regular Pulse Excitation - Long Term Prediction). Dans la partie codeur, une
paneuropéen. Trois algorithmes de codage de la parole font partie de cette norme.
trame de 160 échantillons de parole est codée sous la forme d'un bloc de 260 bits,
Le but de ces codeurs est de compresser le signal de parole avant sa transmission,
conduisant à un débit binaire de 13 kbps. Le décodeur mappe les blocs codés de 260 bits
en réduisant le nombre de bits nécessaires à sa représentation numérique, tout en
aux blocs de sortie de 160 échantillons de parole reconstruits. Le canal GSM à plein débit
conservant une qualité acceptable de la sortie décodée. Comme le transcodage
prend en charge 22,8 kbps. Ainsi, les 9,8 kbps restants sont utilisés pour la protection
GSM (processus de codage et de décodage) modifie le signal de parole, il est
contre les erreurs. Le codeur FR est décrit dans GSM 06.10 [6] jusqu'au niveau bit,
susceptible d'avoir une influence sur les performances de reconnaissance du
permettant sa vérification au moyen d'un ensemble de séquences de test numériques qui
locuteur, ainsi que d'autres perturbations introduites par le réseau cellulaire mobile
sont également données dans GSM 06.10. Une implémentation de code C exact de bits
(erreurs de canal, bruit de fond). En outre, étant donné que la demande de
du domaine public de ce codeur est disponible [7].
communications mobiles ne cesse d'augmenter, on s'attend à ce qu'un nombre
croissant de transactions utilisant la reconnaissance du locuteur se fasse via le
réseau cellulaire mobile. Ainsi, cet article propose un examen approfondi de
l'influence du codage vocal GSM sur les performances de reconnaissance du 2.2 Codeur vocal à demi-fréquence (HR)
locuteur indépendant du texte. A notre connaissance, peu de contributions [1], [2],
[3] ont été faites sur ce sujet, alors que l'effet des perturbations dans un cadre
La norme de codeur RH a été établie pour faire face au nombre croissant
mobile a été plus largement étudié pour la reconnaissance automatique de la
d'abonnés. Ce codeur est un codeur VSELP (Vector Sum Excited Linear
parole, où l'on peut citer entre autres [4 ] et [5].
Prediction) de 5,6 kbps de Motorola [8]. Afin de doubler la capacité du
GSM cellulaire
système, le canal à demi-débit prend en charge 11,4 kbps. Par conséquent,
5,8 kbps sont utilisés pour la protection contre les erreurs. La sortie mesurée
la qualité de la parole pour le codeur HR est comparable à la qualité du codeur FR
Les trois codeurs vocaux GSM existants sont brièvement décrits dans
dans toutes les conditions testées [9], à l'exception des conditions de bruit de fond et
Section 2. L'ensemble de la base de données TIMIT a été transmis à travers ces codeurs, obtenant
de tandem. Le GSM 06.06 normatif [6] donne le code ANSI-C bit-exact pour cet
trois bases de données transcodées, comme expliqué dans
algorithme, tandis que GSM
Section 3. Deux expériences différentes ont été réalisées. Dans la première expérience
06.07 donne un ensemble de séquences de tests numériques pour la vérification de la conformité.
(voir Section 4) la dégradation des performances d'identification et de vérification du
locuteur due à l'utilisation des trois codeurs vocaux GSM a été évaluée. Dans la
deuxième expérience
2

Dans les travaux rapportés dans cet article, seuls les effets introduits par les blocs
VAD Informa-
Côté MS uniquement
ombrés de la figure 1 (Encodeur / Décodeur et DTX) sont étudiés.
DTX Bits de tion
Discours
contrôler
LPF ADC
encodeur
13 et

GSM 03.50
morceaux
TX CNG
Contrôle de fonctionnement
Drapeaux
3. BASES DE DONNÉES TRANSCODÉES GSM
les fonctions

Informa-
Uniforme 13 bits
3.1 Base de données TIMIT
DTX Discours
Bits de tion
décodeur à PSTN
contrôler
et
Loi A 8 bits La base de données TIMIT [12] est utilisée lors des différentes expériences. Même si cette
Contrôler
opération CNG RX base de données est mono session, elle présente l'avantage d'être largement utilisée dans la
Drapeaux Côté BSS uniquement
les fonctions littérature à des fins de comparaison, d'être adaptée aux tâches indépendantes du texte, et
de proposer un grand nombre de locuteurs (438 hommes et 192 femmes).
Figure 1. Voie vocale lors de l'accès aux services nécessitant une vérification
du locuteur via le téléphone mobile (BSS = Base Station System, VAD =
Voice Activity Detection, CNG = Comfort Noise Generation, DTX =
3.2 Transcodage GSM
Discontinuous Transmission, TX = émetteur, RX = Receiver).
L'ensemble de la base de données TIMIT a été sous-échantillonné de 16 kHz à 8 kHz, en
utilisant un filtre demi-bande FIR à phase linéaire de 158e ordre, avec une bande de

2.3 Codeur vocal amélioré à plein débit (EFR) transition très raide (150 Hz de bande de transition), une bande passante très plate
(ondulation de la bande passante <0,1 dB) et plus de 97 dB d'atténuation dans la bande
Le codeur EFR était le dernier à être normalisé. Ce codeur est destiné à être d'arrêt. Ainsi, les fichiers vocaux sous-échantillonnés contiennent essentiellement toutes les
utilisé dans le canal à plein débit, et il offre une amélioration substantielle de la fréquences du TIMIT d'origine dans la plage de 0 à 4 kHz. Par la suite, la base de données
qualité par rapport au codeur FR [10]. sous-échantillonnée sera dénommée TIMIT8k, tandis que l'original sera dénommée
TIMIT16k. Nous sommes conscients du fait que le filtre passe-bas anti-aliasing réel d'un

Le codeur EFR utilise 12,2 kbps pour le codage de la parole et 10,6 kbps pour la protection téléphone mobile peut ne pas avoir ces caractéristiques idéales. Cependant, à notre

contre les erreurs. Le schéma de codage de la parole est basé sur la prédiction linéaire connaissance, ce filtre n'est pas spécifié dans les normes GSM [11].

excitée par code algébrique (ACELP). Le code ANSI-C exact du bit pour le codeur EFR est
donné dans GSM 06.53 [6] et les séquences de test de vérification sont données dans GSM
06.54. TIMIT8k a été transcodé à l'aide des trois codeurs vocaux GSM.
L'implémentation du code C du domaine public du codeur FR a été utilisée (voir
2.4 DTX / VAD / CNG section 2.1), ainsi que le code ANSI-C pour le HR et l'EFR fourni par l'ETSI (voir
sections 2.2 et 2.3). Ces implémentations de code C ont été compilées et
L'efficacité du spectre peut être augmentée grâce à l'utilisation de la transmission
vérifiées à l'aide des vecteurs de test fournis par ETSI [6], avant leur utilisation.
discontinue (DTX), allumant l'émetteur uniquement pendant les périodes d'activité
vocale. La détection d'activité vocale (VAD) est utilisée pour décider de la
présence d'une parole active. Pour réduire la modulation gênante du bruit de fond Pour étudier l'utilisation de DTX, deux autres bases de données transcodées ont été

au niveau du récepteur (effets de contraste de bruit), la génération de bruit de construites, en utilisant les programmes HR et EFR, avec l'option DTX activée (option non

confort (CNG) est utilisée, insérant une reconstruction grossière du bruit de fond disponible dans le programme FR existant).

au niveau du récepteur. Les trois codeurs GSM décrits ci-dessus incluent les
fonctions de DTX, VAD et CNG. Leurs références normatives correspondantes 3.3 Remarque sur la mise à l'échelle de la parole d'entrée
sont [6]: GSM 06.31, GSM 06.32 et GSM 06.12 pour le codeur FR, GSM 06.41,
Lors de la construction des bases de données transcodées, aucune mise à l'échelle n'a été
GSM
appliquée au TIMIT8k avant le transcodage. Les implémentations de code C des codeurs GSM
prennent le format d'entrée suivant (complément du point fixe 2 de 16 bits) après l'ADC (voir
06.42 et GSM 06.22 pour le codeur HR et GSM 06.81, GSM
Figure 1):
06.82 et GSM 06.62 pour le codeur EFR. L'utilisation de DTX est associée à une dégradation
potentielle de la qualité de la parole due à l'écrêtage de la parole (parole détectée sous forme Svvvvvvvvvvvvxxx
de bruit) et aux effets de contraste du bruit. On s'attend donc à ce que l'utilisation de DTX ait
où S est le bit de signe, va bit valide, et xa bit "don't care". Ainsi, la première
un impact négatif sur les performances des systèmes de reconnaissance des locuteurs.
opération à l'entrée des trois programmes de codage est une mise à l'échelle de trois
bits (les trois bits les moins significatifs sont déchargés). Si la plage du fichier vocal
d'entrée est bien ajustée à une plage de 16 bits, il n'y aura pas de grande perte de
2.5 Voie vocale
précision. En revanche, si le fichier vocal d'entrée a une plage correspondante,
La figure 1 montre le chemin de parole typique lorsqu'un utilisateur accède à des
services qui nécessitent la reconnaissance du locuteur à l'aide de son téléphone mobile. par exemple, à 13 bits, la perte de précision est plus grande. L'amplitude maximale des
Le chemin de parole va de l'entrée audio dans la station mobile (MS) à l'interface fichiers vocaux TIMIT8k a été mesurée, et il a été constaté que 45% des fichiers ont une
numérique du réseau téléphonique public commuté (PSTN). La tâche de reconnaissance plage correspondant à 13 bits ou moins. La perte de précision à l'entrée pourrait
du locuteur a lieu après le PSTN (par exemple au niveau du service bancaire centralisé). diminuer les performances du codage et affecter les performances de reconnaissance.
La partie audio de la Mobile Station [11] comprend le microphone et la conversion Dans le cadre de travaux futurs, nous créerions un nouvel ensemble de bases de
analogique-numérique (ADC). Cette partie audio donne un signal PCM (Pulse Code données transcodées avec l'entrée à l'échelle de sa plage maximale, pour étudier cet
Modulated) uniforme de 13 bits au codeur. effet.
3

Original GSM Tra nscodé TIMIT transcodé GSM (FR, HR et EFR). Pour les codeurs HR et EFR, l'effet de DTX
TIMIT16k TIMIT8k DTX FR HEURE EFR / NO DTX a également été étudié. L'utilisation de seulement 10 coefficients
cepstraux a également été étudiée, mais les résultats ne sont pas rapportés car la
2,2% 13,1% non 31,5% 38,5% 28,2%
performance était toujours inférieure à 16 coefficients.
Oui - 39,8% 34,6%

Tableau 1. Résultats d'identification du locuteur (% d'identification des


erreurs) pour la parole d'origine et transcodée GSM 4.4 Commentaires
- 430 intervenants - 2150 tests.
Les résultats montrent une dégradation significative des performances lors de l'utilisation de bases

Original GSM Tra nscodé de données transcodées GSM, par rapport aux versions normales et sous-échantillonnées de

TIMIT16k TIMIT8k DTX FR HEURE EFR TIMIT, même si la formation et les tests ont tous deux été effectués avec la parole transcodée. Les
résultats obtenus sont en correspondance avec la qualité de parole perceptive de chaque codeur.
1,1% 5,1% non 7,3% 7,8% 6,6%
Autrement dit, plus la qualité vocale est élevée, plus les performances de reconnaissance
Oui - 8,7% 6,2%
mesurées sont élevées. Il a été observé que le DTX a un impact négatif sur les performances, en
Tableau 2. Résultats de la vérification du locuteur (% EER) pour la parole raison de l'écrêtage de la parole (parole détectée comme du bruit). Néanmoins, la dégradation était
d'origine et transcodée GSM - 430 haut-parleurs, 2150 accès clients et très faible, probablement en raison de la courte durée des périodes de silence dans la base de
2150 accès imposteurs. données TIMIT. On voit que la dégradation des performances est moins importante pour la
vérification du locuteur que pour l'identification du locuteur, mais reste importante. Ces résultats

4. PREMIÈRE EXPÉRIENCE sont équivalents à ceux obtenus dans [3], considérant que [1] et [2] suggèrent que le codage GSM
n'introduit pas de dégradations majeures. De notre point de vue, les performances obtenues en
4.1 Protocoles utilisant la parole transcodée GSM ne sont pas suffisantes dans un contexte pratique. Ainsi, la
section suivante est consacrée à l'étude de la source de la dégradation observée avec la parole
Un protocole bien connu est utilisé sur TIMIT pour l'identification et la vérification du
transcodée GSM (seul le codeur FR est étudié). La possibilité d'effectuer une reconnaissance en
locuteur. Cela s'appelle le "Longue formation / protocole de test court" [ 13]. Pour la
utilisant directement des paramètres codés plutôt que des paramètres extraits de la parole
formation des modèles d'enceintes, nous utilisons toutes les 5 phrases SX concaténées
resynthétisée est également étudiée. la section suivante est consacrée à l'étude de la source de la
comme un modèle de référence unique pour chaque enceinte. La durée totale moyenne
dégradation observée avec la parole transcodée GSM (seul le codeur FR est étudié). La possibilité
est de 14,4 secondes. Pour le test du système d'identification du locuteur, chacune des
d'effectuer une reconnaissance en utilisant directement des paramètres codés plutôt que des
phrases SA et SI est testée séparément.
paramètres extraits de la parole resynthétisée est également étudiée. la section suivante est
consacrée à l'étude de la source de la dégradation observée avec la parole transcodée GSM (seul
430 locuteurs (147 femmes et 283 hommes) de la base de données sont utilisés et l'ensemble du le codeur FR est étudié). La possibilité d'effectuer une reconnaissance en utilisant directement des
test se compose donc de 430x5 = 2150 motifs de test de 3,2 secondes chacun, en moyenne. paramètres codés plutôt que des paramètres extraits de la parole resynthétisée est également étudiée.
Même si les phrases SA sont les mêmes pour chaque locuteur, ces phrases sont utilisées dans
l'ensemble de test. Par conséquent, les expériences peuvent être considérées comme totalement 5. DEUXIÈME EXPÉRIENCE
indépendantes du texte.
Le but de cette expérience est double, à savoir savoir quelles parties du
codeur sont responsables de dégradations majeures et améliorer les
Les 200 locuteurs restants de la base de données sont utilisés pour former le modèle
performances par rapport aux résultats obtenus en extrayant les
d'arrière-plan nécessaire aux expériences de vérification des locuteurs. 2150 accès
caractéristiques de la parole resynthétisée.
clients et 2150 accès imposteurs sont effectués (pour chaque accès client, un locuteur
imposteur est choisi au hasard parmi les 429 locuteurs restants).
La ligne (1) du tableau 3, correspondant à la ligne de base, répertorie les valeurs rapportées par
l'expérience TIMIT FR dans les tableaux 1 et 2.
Toutes les expériences ont été réalisées dans des conditions correspondantes (c'est-à-dire que la
La formation et les tests ont été faits pour les conditions correspondantes. Toutes les
formation et les tests sont tous deux réalisés à l'aide de la même base de données).
expériences (lignes (2) à (8)) ont été réalisées avec TIMIT8k, mais l'extraction des
caractéristiques a été rendue compatible avec les caractéristiques du codeur FR:
4.2 Système de reconnaissance des locuteurs
segmentation de 20 ms, calcul du LPC d'ordre 8 (LPC8), calcul du cepstral coefficients
c1-c15 du LPC en utilisant la récursion bien connue pour les signaux de phase
Le module d'analyse de la parole extrait 16 coefficients cepstraux. La longueur de la trame
minimum, et calcul de c0 en utilisant log (E), où E est l'énergie du résidu LPC. Les
est de 30 ms et la fréquence d'images est de 10 ms. Un classificateur GMM [14] de
résultats obtenus avec cette extraction de caractéristiques sont donnés à la ligne (2) du
mélanges N = 16 a été testé. Des matrices de covariance diagonale ont été utilisées pour
tableau 3. Pour les lignes (2) à (4), l'extraction de caractéristiques se fait avec un
les densités gaussiennes, car il n'y a pas de corrélations fortes entre les coefficients
programme C, en utilisant l'arithmétique à virgule flottante double précision:
cepstraux. Ces expériences ont été menées en utilisant h2m, un ensemble de Matlab fonctions
conçues par O. Cappe [15]. Lors de la reconnaissance, le

vérification le score pour un énoncé est le rapport log-vraisemblance calculé en (3) Utilise uniquement les coefficients cepstraux c1-c15 (pas de terme d'énergie c0), (4) Utilise

prenant la différence entre les log-vraisemblances du modèle du demandeur et du un modèle LPC d'ordre de 12 au lieu de 8.

modèle d'arrière-plan; tandis que le L'extraction de caractéristiques pour les lignes (5) à (8) est effectuée à partir du programme C FR,
identification score est la log-vraisemblance des modèles de haut-parleurs. qui utilise une simulation d'arithmétique à virgule fixe 16 bits:

4.3 Résultats (5) Utilise c1-c15, de LPC avant quantification (codage LPC décodage),

Le tableau 1 et le tableau 2 montrent les résultats d'identification et de vérification (6) Utilise c1-c16, de LPC avant quantification, (7) Utilise
obtenus respectivement sur TIMIT16k, TIMIT8k et le c1-c15, de LPC après quantification.
4

Coefficients identifiant. Erreur EER Les travaux futurs consisteraient à réaliser la deuxième expérience en utilisant le codeur EFR.
La possibilité d'obtenir une véritable base de données GSM auprès d'un opérateur téléphonique
(1) Référence: parole resynthétisée FR 31,5% 7,3%
national est en cours de négociation.
(2) LPC8 → c0-c15 31,8% 7,0%

LPC8 → c1-c15 38,0% 7,8%


(3)
7. REMERCIEMENTS
(4) LPC12 → c0-c15 24,0% 5,5%

(5) FR (pas de q) → c1-c15 (6) 43,7% 7,5% Ces travaux ont été partiellement soutenus par le Fonds national suisse de la science dans le

FR (pas de q) → c1-c16 (7) 43,6% 7,5% cadre de la subvention FN 20-53'843 et par l'Office fédéral suisse de l'éducation et de la science
dans le cadre de la subvention OFES C97.0050 (projet COST 254).
FR (avec q) → c1-c15 40,8% 8,4%

(8) Paramètre codec. FR (avec q) → c0-c15 35,7% 7,0%

Tableau 3: Résultats de l'identification et de la vérification des locuteurs pour la deuxième 8. RÉFÉRENCES


expérience.
[1] M. Kuitert et L. Boves, "Vérification du locuteur avec la parole téléphonique
(8) Utilise c1-c15, de LPC après quantification, et c0, qui est calculé en codée GSM", Proc. Eurospeech'97, Vol.2, pp.975-978, 1997.
utilisant log (Ê), où Ê est l'énergie du résidu LPC reconstruit.
[2] M. El-Maliki, P. Renevey et A. Drygajlo, "Speaker verification for
Commentaires de la comparaison par paires sur le tableau 3:
noisy GSM quality speech", atelier COST 254, Neuchâtel, Suisse,
(sous presse), 5-7 mai,
(1) - (2): L'utilisation de la nouvelle extraction de caractéristiques (plus compatible avec les
1999.
caractéristiques FR), n'introduit pas de distorsion significative.
[3] TF Quatieri, E. Singer, RB Dunn, DA Reynolds, JP Campbell,
«Reconnaissance du locuteur et de la langue à l'aide des paramètres du
(2) - (3): L'utilisation de c0 (plus laborieux à calculer à partir du train de bits) est cruciale pour codec vocal», Proc. Eurospeech'99, Vol. 2, pages 787-790, 1999.
de bonnes performances.

(2) - (4): Un ordre LPC bas dans le codage GSM FR (LPC8) est responsable de la [4] S. Dufour, C. Glorion, P. Lockwood, «Évaluation du front-end normalisé en

plupart des dégradations de performances. De meilleurs résultats sont susceptibles racine (RN LFCC) pour la reconnaissance vocale dans les environnements de

d'être obtenus dans les expériences utilisant l'EFR, qui a un LPC d'ordre 10. Travailler réseau GSM sans fil», Proc. ICASSP'96, Vol. 1, pp. 77-80, 1996.

sur la parole décodée permet de récupérer des informations LPC d'ordre supérieur qui
ont «fui» dans d'autres paramètres codés (retards et gains LTP, et impulsions RPE [6]). [5] L. Karray, AB Jelloun, C. Mokbel, «Solutions pour une reconnaissance
Une direction possible des travaux futurs consiste à obtenir ces informations d'ordre robuste sur le réseau cellulaire GSM», Proc. ICASSP'98, Vol. 1, pages
supérieur à partir de la parole décodée. 261-264, 1998.
[6] http://www.etsi.fr
[7] http://kbs.cs.tu-berlin.de/~jutta/toast.html
(5) - (6): Aucune amélioration des performances n'est attendue en conservant les
[8] I. Gerson et M. Jasiuk, «Un candidat de codeur vocal VSELP à 5600 bps pour un
coefficients cepstraux au-delà de c15 sans augmenter l'ordre LPC.
GSM à demi-débit», Proc. Eurospeech'93, Vol. 1, pages 253-256, 1993.

(5) - (7): La quantification LPC dans le codeur FR diminue la [9] TR 101 641: Système de télécommunications cellulaires numériques (phase
performance dans la vérification et améliore l'identification. Pas dans le 2+); Discours à moitié taux; Caractérisation des performances du codec vocal
concluant. GSM demi-débit (version GSM 06.08
(7) - (8): Le c0 calculé à partir de la reconstruction améliore les résiduel 6.0.0 version 1997).
performances. [10] K. Järvinen et al. «Codec plein débit amélioré GSM», Proc.
ICASSP'97, Vol. 2, pages 771-774, 1997.
(1) - (8): En extrayant les caractéristiques directement à partir des informations du flux
[11] EN 300 903: Système de télécommunications cellulaires numériques
binaire codé, nous avons réussi à obtenir un système de reconnaissance de locuteur quasi
(Phase 2+); Aspects de la planification de la transmission du service vocal
équivalent à la ligne de base.
dans le système GSM Public Land Mobile Network (PLMN) (GSM 03.50
version 6.1.0), 1997.
6. DISCUSSION ET TRAVAUX FUTURS [12] W. Fisher, V. Zue, J. Bernstein, D. Pallet, "An
Nous avons étudié l'influence des trois codeurs vocaux GSM sur un système de base de données phonétique ", JASA, suppl. A, Vol. 81 (S92), 1986. [13] F.

reconnaissance de locuteur indépendant du texte, basé sur des classificateurs GMM. Bimbot, I. Magrin-Chagnolleau, L. Mathan," Second-

Seuls les effets introduits par le codage de la parole ont été pris en compte. commander des méthodes statistiques pour l'identification du locuteur indépendant du
texte ", Speech Communication, n ° 17 (1-2), août.
1995, pp. 177-192.
Deux expériences ont été faites. Dans la première expérience, il a été constaté que
[14] D. Reynolds, «Identification et vérification du locuteur à l'aide
l'utilisation du codage GSM dégrade considérablement les performances
Modèles de haut-parleurs de mélanges gaussiens », dans un atelier sur la
d'identification et de vérification. La deuxième expérience fournit une mesure des
reconnaissance, l'identification et la vérification automatiques des locuteurs, Martigny,
différentes sources de dégradation des performances au sein du codeur FR. De plus,
Suisse, 5-7 avril 1994, pp. 27-30.
il éclaire la perspective d'exploiter directement les paramètres de sortie du codeur au
[15] O. Cappe, «h2m: Un ensemble de fonctions MATLAB pour l'EM
lieu de décoder et de réanalyser la parole.
estimation des modèles de Markov cachés avec des distributions statistiques
gaussiennes ».
ENST / Paris http://sig.enst.fr/~cappe/h2m/html/.

Vous aimerez peut-être aussi