1-Traitement de La Parole 2007-03-16

TRAITEMENT DE LA PAROLE
http://scgwww.epfl.ch/courses Dr. Andrzej Drygajlo, ELE 233 andrzej.drygajlo@epfl.ch Speech Processing and Biometrics Group (GTPB) Laboratoire de IDIAP (LIDIAP) Signal Processing Institute (ITS) Swiss Federal Institute of Technology Lausanne (EPFL) National Center of Competence in Research (NCCR) Interactive Multimodal Information Management (IM)2 IDIAP Research Institute, Martigny
InterSpeech - Eurospeech 2003
8th European Conference on

Speech Communication and Technology Organizer: International Speech Communication Association (ISCA) 1110 registered participants from 47 countries
Knowledge Navigator
Implications technologiques
Integration du tlphone
Mains libres/micro HiFi Majordome daccueil vocal Vidoconfrence
Synthse
Vocabulaire illimit Intonation naturelle Synthse partir de
Codage de la parole
Dbit/cot/qualit Standardisation
concepts
Reconnaissance,
comprhension
Vocabulaire illimit Systme indpendant
du locuteur
Speech/Music Discrimination and Recognition
dynamism
Speech
Music/ other sounds
entropy
CRAZY JOE
Interactive Tour-Guide Robot
Face Loud speakers Microphone array Buttons
Mobile robot RoboX
SICK laser scanner
EXPO.02 Robotics Exhibition
Bumpers
Pourquoi?
Quelle est votre dfinition de la parole?
Moyen de communication par excellence. Information qui est vhicule par les ondes
sonores. Cest un bruit qui a un sens. Cest le vecteur dinformation qui diffrencie lhomme de lanimal. Signal permettant la communication entre humains. Je ne sais pas en franais. Jespere que a sera plus clair aprs ce cours.
Lhomme est-il fait pour parler?
La parole
La parole facult de communiquer la

pense par un systme de sons articuls mis par les organes de la phonation
La parole expression verbale de la

pense
Le Petit Robert 1993
La voix et le langage
La voix ensemble de sons produits par le

systme phonatoire et articulatoire
Le langage fonction dexpression de la

pense et de communication entre les hommes, mise en uvre au moyen dun systme de signes vocaux (parole) et ventuellement de signes graphiques (criture) qui constitue une langue
Le cerveau et le langage
Le langage nous aide
structurer le monde en concepts et reduire la complexit des structures abstraites afin de les apprhender: cest la proprit de compression cognitive
La perception fonction
par laquelle lesprit se reprsente les objets
Act de communication parle LOCUTEUR

Ide Traitement cognitif Traitement linguistique et phontique
AUDITEUR
Comprehnsion
Traitement cognitif Traitement cognitif Traitement linguistique et phontique Systme auditif priphrique Traitement linguistique et phontique Systme auditif priphrique
Production du son
Phontique et Phonologie
La phontique sintresse la manire dont les
sons du langage sont produits, transmis et perus par les sujets parlants
La phontique branche de la linguistique qui

tudie les phonmes
La phonologie science qui tudie les phonmes

non en eux-mmes, mais quant leur fonction dans la langue
Phonme
Phonme (notion
phonologique) unit minimale du langage porteuse dune signification linguistique
Allophone realisation
dun phonme (un phonme peut avoir plusieurs allophones)
Phonmes utiliss en franais
La parole
La parole est un signal rel (4D), continu,
dnergie finie, non stationnaire.
Sa structure est complexe et variable dans le

temps: Tantt priodique (plus exactement pseudopriodique) pour les sons voiss, Tantt alatoire pour les sons fricatifs, Tantt impulsionnelle dans les phases explosives des sons occlusifs.
Exemple: voix-parole
Speech information processing "tree" (Furui) Speech recognition /understanding Speech synthesis
Synthesis by rule Synthesis by rule Text-to-speech Text-to-speech Speaker-independent Speaker-independent Spontaneous speech Spontaneous speech
Speech coding Speech coding

Wide/narrow-band Wide/narrow-band Very-low-bit-rate Very-low-bit-rate
Robustness
Noise/distortion Noise/distortion
Human-machine interface
Ergonomics Ergonomics Subjective/objective evaluation Subjective/objective evaluation Database
Individuality
tion n rcep ctio ogy eech pe s l cho p tic odu S e r em Psy on syst ech p h ve cp Ne r pe S on ti y us ti olog o si la Ac ticu Phy Ar
Sp Feature extraction ee (dynamics) Ach a r

M
Speaker recognition Speaker recognition Speaker adaptation/normalization Speaker adaptation/normalization Voice conversion Voice conversion Database
Signa tif na l pro ic em lys cessin ia g or is lI y/ nt Ac le ell ou ar ig stic ni en s ng ce
Communication parle homme-machine
Speech Output
Speech Synthesis
Language Generation
Multimodal Interface
Dialogue System
Database
Speech Input
Speech Recognition Speaker Recognition Language Recognition
Language Understanding
Invention du tlphone
Lmetteur liquide de Bell
Lmetteur induction de Bell
0110-05
Voice portal environment
PSTN Internet
VoIP
Voice
Traffic
Content
Content servers
UMTS
UMTS Universal Mobile Telecommunications

System Le tlphone mobile de la 3e gnration
UMTS - Swisscom
Loprateur propose depuis 16 novembre 2004
lUMTS
Swisscom investi plusieurs centaines de

millions de francs pour crer son rseau UMTS fort de 12000 antennes, parallle au GMS actuel
LUMTS permet un dbit maximal de 384 kbit/s Swisscom se vante de couvrir 89,74% de la
population en UMTS, soit 45% du territoire suisse
MIT wearable computing people
Traitement automatique de la parole
Objectifs A la fin du cours, les tudiants seront capables dappliquer les principales mthodes de traitement numrique du signal pour lanalyse, la compression, la synthse et la reconnaissance de la parole.
Bibliographie
A. Drygajlo, Traitement de la parole,
EPFL, Lausanne, 2005
R. Boite, H. Bourlard, T.
Dutoit, J. Hancq, H. Leich, Traitement de la parole, PPUR, Lausanne 2000.
Bibliographie
B. Gold, N. Morgan, Speech and Audio Signal
Processing, John Wiley and Sons, New York, 2000
T. Quatieri, Discrete-Time
Speech Signal Processing: Principles and Practice, Prentice Hall PTR, Upper Saddle River, 2002.
X. Huang, A. Acero, H.-W. Hon,

Spoken Language Processing, Prentice Hall PTR, Upper Saddle River, 2001.
Contenu
Production et perception de la parole Analyse et modlisation de la parole Reconnaissance de la parole Reconnaissance du locuteur Synthse de la parole Compression et codage de la parole Communication vocale homme-machine
Production et perception de la parole

Aperu anatomique Mcanisme de la phonation Phontique articulatoire Acoustique de la phonation Mcanisme de laudition Psychoacoustique
Masquage Bandes critiques
Modlisation de la parole
Analyse et modlisation de la parole

Reprsentation numrique du signal vocal Analyse temporelle Analyse spectrale Modlisation spectro-temporelle et spectrogrammes Analyse homomorphique Modlisation base sur la prdiction linaire Estimation des formants Estimation de la priode du fondamental
Spectrogramme denveloppe
Reconnaissance de la parole
Difficults Mthodes dterministes

Comparaison dynamique (DTW) Quantification vectorielle (VQ)
Mthodes statistiques
Modles de Markov cachs (HMM) Algorithmes de Baum-Welch et de Viterbi Rseaux de neurones artificiels (ANN)
Reconnaissance:
de mots isols de mots connects de la parole continue
Comparaison dynamique (DTW)

R
0103-19
Quantification vectorielle (VQ)
Enveloppes spectrales
Dictionnaire
Gaussian Mixture Model (GMM)

v1 (1) v (2) 1 v1 ( D) v2 (1) vT (1) v (2) v (2) 2 T v2 ( D) vT ( D)
Vecteurs acoustiques dentranement
Histogrammes
Paramtre 1
Paramtre 2 GMM
Paramtre D
Distance = Score = vraisemblance (parole | modle)
0104-08
Modles de Markov cachs (HMM)

b1(x) x
0.2
b2(x) x
0.4
b3(x)
Output probabilities
x
0.7
0.5 0.3
0.6
0.3
Phoneme models
Phoneme k-1
Phoneme k
Feature vectors time Phoneme k+1
Reconnaissance du locuteur

Variabilit intra- et inter-locuteur Vrification et identification du locuteur Mthodes dterministes et statistiques Mthodes dpendantes du texte
Comparaison dynamique (DTW) Modles de Markov cachs (HMM)
Mthodes indpendantes du texte

Quantification vectorielle (VQ) Modles mlanges de gaussiens (GMM)
Identification biomtrique
Iris
Empreinte digitale Rtine Visage
Voix
Signature
Bases de donnes
Affaire
Trace Suspect
Population
Donnes
Population potentielle
Paramtres Paramtres
Contrles
Base des donnes de contrle (C) du suspect
Rfrences
Base des donnes de la population potentielle (P)
Base des donnes de rfrence (R) du suspect
Synthse de la parole
Prosodie Techniques de synthse
Synthse directe Synthse travers un modle Simulation du conduit vocal
Systmes de synthse
Synthse de messages Synthse partir du texte - Traitements linguistico-prosodiques - Synthse par rgles - Synthse par diphones
The DAVO articulatory synthesizer

developed by George Rosen at MIT, 1958. The English Alphabet Song!
Compression et codage de la parole
Enjeux actuels
- Signal de parole dans la bande tlphonique - Signal de parole en bande largie - Signal de parole en bande large
Mthodes temporelles (codeurs donde)

- MIC (PCM), MICD (DPCM), MICDA (ADPCM) - Codage en sous-bandes
Mthodes paramtriques (vocodeurs) Mthodes hybrides (CELP) Normes internationales
Reprsentation numrique du signal vocal
Bande large
20 Hz 20 kHz Frquence dchantillonage 44.1 kHz
Bande largie
50 Hz 7 kHz Frquence dchantillonage 16 kHz
Bande tlphonique
300 Hz 3.4 kHz Frquence dchantillonage 8 kHz
Frequency Band of Telephone Speech
20 Hz 20 kHz
50 Hz 7 kHz
Telephone channel: 300 Hz 3.4 kHz Recognition of syllables 91% Recognition of sentences 99%
Quantification
Bits:
16
Communication vocale homme-machine
Intgration de sous-systmes Systmes de dialogue Serveurs vocaux interactifs Systmes de dicte Communication vocale homme-robot

1-Traitement de La Parole 2007-03-16

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

1-Traitement de La Parole 2007-03-16

Transféré par

Droits d'auteur :

Formats disponibles

TRAITEMENT DE LA PAROLE

InterSpeech - Eurospeech 2003

8th European Conference on

Speech/Music Discrimination and Recognition

Music/ other sounds

Interactive Tour-Guide Robot

Face Loud speakers Microphone array Buttons

Mobile robot RoboX

SICK laser scanner

EXPO.02 Robotics Exhibition

Quelle est votre dfinition de la parole?

Lhomme est-il fait pour parler?

La parole facult de communiquer la

La parole expression verbale de la

Le Petit Robert 1993

La voix ensemble de sons produits par le

Le langage fonction dexpression de la

Act de communication parle LOCUTEUR

La phontique branche de la linguistique qui

La phonologie science qui tudie les phonmes

Phonmes utiliss en franais

Sa structure est complexe et variable dans le

Speech coding Speech coding

Sp Feature extraction ee (dynamics) Ach a r

Signa tif na l pro ic em lys cessin ia g or is lI y/ nt Ac le ell ou ar ig stic ni en s ng ce

Communication parle homme-machine

Speech Recognition Speaker Recognition Language Recognition

Lmetteur induction de Bell

Voice portal environment

UMTS Universal Mobile Telecommunications

Swisscom investi plusieurs centaines de

MIT wearable computing people

Traitement automatique de la parole

X. Huang, A. Acero, H.-W. Hon,

Production et perception de la parole

Analyse et modlisation de la parole

Difficults Mthodes dterministes

Comparaison dynamique (DTW)

Quantification vectorielle (VQ)

Gaussian Mixture Model (GMM)

Vecteurs acoustiques dentranement

Distance = Score = vraisemblance (parole | modle)

Modles de Markov cachs (HMM)

Feature vectors time Phoneme k+1

Mthodes indpendantes du texte

Empreinte digitale Rtine Visage

Base des donnes de la population potentielle (P)

Base des donnes de rfrence (R) du suspect

The DAVO articulatory synthesizer

Compression et codage de la parole

Mthodes temporelles (codeurs donde)

Mthodes paramtriques (vocodeurs) Mthodes hybrides (CELP) Normes internationales

Reprsentation numrique du signal vocal

Frequency Band of Telephone Speech

Communication vocale homme-machine

Vous aimerez peut-être aussi