Académique Documents
Professionnel Documents
Culture Documents
http://scgwww.epfl.ch/courses Dr. Andrzej Drygajlo, ELE 233 andrzej.drygajlo@epfl.ch Speech Processing and Biometrics Group (GTPB) Laboratoire de IDIAP (LIDIAP) Signal Processing Institute (ITS) Swiss Federal Institute of Technology Lausanne (EPFL) National Center of Competence in Research (NCCR) Interactive Multimodal Information Management (IM)2 IDIAP Research Institute, Martigny
Knowledge Navigator
Implications technologiques
Integration du tlphone
Mains libres/micro HiFi Majordome daccueil vocal Vidoconfrence
Synthse
Vocabulaire illimit Intonation naturelle Synthse partir de
Codage de la parole
Dbit/cot/qualit Standardisation
concepts
Reconnaissance,
comprhension
Vocabulaire illimit Systme indpendant
du locuteur
dynamism
Speech
entropy
CRAZY JOE
Bumpers
Pourquoi?
Moyen de communication par excellence. Information qui est vhicule par les ondes
sonores. Cest un bruit qui a un sens. Cest le vecteur dinformation qui diffrencie lhomme de lanimal. Signal permettant la communication entre humains. Je ne sais pas en franais. Jespere que a sera plus clair aprs ce cours.
La parole
La voix et le langage
Le cerveau et le langage
Le langage nous aide
structurer le monde en concepts et reduire la complexit des structures abstraites afin de les apprhender: cest la proprit de compression cognitive
La perception fonction
par laquelle lesprit se reprsente les objets
AUDITEUR
Comprehnsion
Traitement cognitif Traitement cognitif Traitement linguistique et phontique Systme auditif priphrique Traitement linguistique et phontique Systme auditif priphrique
Production du son
Phontique et Phonologie
La phontique sintresse la manire dont les
sons du langage sont produits, transmis et perus par les sujets parlants
Phonme
Phonme (notion
phonologique) unit minimale du langage porteuse dune signification linguistique
Allophone realisation
dun phonme (un phonme peut avoir plusieurs allophones)
La parole
La parole est un signal rel (4D), continu,
dnergie finie, non stationnaire.
Exemple: voix-parole
Speech information processing "tree" (Furui) Speech recognition /understanding Speech synthesis
Synthesis by rule Synthesis by rule Text-to-speech Text-to-speech Speaker-independent Speaker-independent Spontaneous speech Spontaneous speech
Robustness
Noise/distortion Noise/distortion
Human-machine interface
Ergonomics Ergonomics Subjective/objective evaluation Subjective/objective evaluation Database
Individuality
tion n rcep ctio ogy eech pe s l cho p tic odu S e r em Psy on syst ech p h ve cp Ne r pe S on ti y us ti olog o si la Ac ticu Phy Ar
Speaker recognition Speaker recognition Speaker adaptation/normalization Speaker adaptation/normalization Voice conversion Voice conversion Database
Speech Output
Speech Synthesis
Language Generation
Multimodal Interface
Dialogue System
Database
Speech Input
Language Understanding
Invention du tlphone
Lmetteur liquide de Bell
0110-05
PSTN Internet
VoIP
Voice
Traffic
Content
Content servers
UMTS
UMTS - Swisscom
Loprateur propose depuis 16 novembre 2004
lUMTS
LUMTS permet un dbit maximal de 384 kbit/s Swisscom se vante de couvrir 89,74% de la
population en UMTS, soit 45% du territoire suisse
Objectifs A la fin du cours, les tudiants seront capables dappliquer les principales mthodes de traitement numrique du signal pour lanalyse, la compression, la synthse et la reconnaissance de la parole.
Bibliographie
A. Drygajlo, Traitement de la parole,
EPFL, Lausanne, 2005
R. Boite, H. Bourlard, T.
Dutoit, J. Hancq, H. Leich, Traitement de la parole, PPUR, Lausanne 2000.
Bibliographie
B. Gold, N. Morgan, Speech and Audio Signal
Processing, John Wiley and Sons, New York, 2000
T. Quatieri, Discrete-Time
Speech Signal Processing: Principles and Practice, Prentice Hall PTR, Upper Saddle River, 2002.
Contenu
Production et perception de la parole Analyse et modlisation de la parole Reconnaissance de la parole Reconnaissance du locuteur Synthse de la parole Compression et codage de la parole Communication vocale homme-machine
Modlisation de la parole
Spectrogramme denveloppe
Reconnaissance de la parole
Mthodes statistiques
Modles de Markov cachs (HMM) Algorithmes de Baum-Welch et de Viterbi Rseaux de neurones artificiels (ANN)
Reconnaissance:
de mots isols de mots connects de la parole continue
0103-19
Enveloppes spectrales
Dictionnaire
Histogrammes
Paramtre 1
Paramtre 2 GMM
Paramtre D
0104-08
b2(x) x
0.4
b3(x)
Output probabilities
x
0.7
0.5 0.3
0.6
0.3
Phoneme models
Phoneme k-1
Phoneme k
Reconnaissance du locuteur
Variabilit intra- et inter-locuteur Vrification et identification du locuteur Mthodes dterministes et statistiques Mthodes dpendantes du texte
Comparaison dynamique (DTW) Modles de Markov cachs (HMM)
Identification biomtrique
Iris
Voix
Signature
Bases de donnes
Affaire
Trace Suspect
Population
Donnes
Population potentielle
Paramtres Paramtres
Contrles
Base des donnes de contrle (C) du suspect
Rfrences
Synthse de la parole
Prosodie Techniques de synthse
Synthse directe Synthse travers un modle Simulation du conduit vocal
Systmes de synthse
Synthse de messages Synthse partir du texte - Traitements linguistico-prosodiques - Synthse par rgles - Synthse par diphones
Enjeux actuels
- Signal de parole dans la bande tlphonique - Signal de parole en bande largie - Signal de parole en bande large
Bande large
20 Hz 20 kHz Frquence dchantillonage 44.1 kHz
Bande largie
50 Hz 7 kHz Frquence dchantillonage 16 kHz
Bande tlphonique
300 Hz 3.4 kHz Frquence dchantillonage 8 kHz
20 Hz 20 kHz
50 Hz 7 kHz
Telephone channel: 300 Hz 3.4 kHz Recognition of syllables 91% Recognition of sentences 99%
Quantification
Bits:
16
Intgration de sous-systmes Systmes de dialogue Serveurs vocaux interactifs Systmes de dicte Communication vocale homme-robot