Vous êtes sur la page 1sur 45

TRAITEMENT DE LA PAROLE

Dr. Andrzej Drygajlo andrzej.drygajlo@epfl.ch ELE 233 Groupe de Traitement de la Parole et de Biomtrie (GTPB)
Institut de Traitement des Signaux (ITS) SECTION DELECTRICITE (SE) EPFL IDIAP, Martigny Lausanne 2003

InterSpeech - Eurospeech 2003

8th European Conference on


Speech Communication and Technology Organizer: International Speech Communication Association (ISCA) 1110 registered participants from 47 countries

Knowledge Navigator

Implications technologiques
Integration du tlphone
Mains libres/micro HiFi Majordome daccueil

Synthse
Vocabulaire illimit Intonation naturelle Synthse partir de

vocal Vidoconfrence

concepts

Codage de la parole
Dbit/cot/qualit Standardisation

Reconnaissance,
comprhension
Vocabulaire illimit Systme indpendant

du locuteur

Speech/Music Discrimination and Recognition

dynamism

Speech

Music/ other sounds

entropy

CRAZY JOE

Interactive Tour-Guide Robot

Face Loud speakers Microphone array Buttons

Mobile robot RoboX

SICK laser scanner

EXPO.02 Robotics Exhibition

Bumpers

Pourquoi?

Quelle est votre dfinition de la parole?

Moyen de communication par excellence. Information qui est vhicule par les ondes
sonores. Cest un bruit qui a un sens. Cest le vecteur dinformation qui diffrencie lhomme de lanimal. Signal permettant la communication entre humains. Je ne sais pas en franais. Jespere que a sera plus clair aprs ce cours.

Lhomme est-il fait pour parler?

La parole

La parole facult de communiquer la


pense par un systme de sons articuls mis par les organes de la phonation

La parole expression verbale de la


pense
Le Petit Robert 1993

La voix et le langage

La voix ensemble de sons produits par


le systme phonatoire et articulatoire

Le langage fonction dexpression de la


pense et de communication entre les hommes, mise en uvre au moyen dun systme de signes vocaux (parole) et ventuellement de signes graphiques (criture) qui constitue une langue

Le cerveau et le langage
Le langage nous aide
structurer le monde en concepts et reduire la complexit des structures abstraites afin de les apprhender: cest la proprit de compression cognitive

La perception fonction par


laquelle lesprit se reprsente les objets

Act de communication parle


LOCUTEUR
Ide Traitement cognitif Traitement linguistique et phontique Traitement cognitif Traitement linguistique et phontique Systme auditif priphrique

AUDITEUR
Comprehnsion Traitement cognitif Traitement linguistique et phontique Systme auditif priphrique

Production du son

Phontique et Phonologie

La phontique sintresse la manire


dont les sons du langage sont produits, transmis et perus par les sujets parlants La phontique branche de la linguistique qui tudie les phonmes La phonologie science qui tudie les phonmes non en eux-mmes, mais quant leur fonction dans la langue

Phonme
Phonme (notion
phonologique) unit minimale du langage porteuse dune signification linguistique Allophone realisation dun phonme (un phonme peut avoir plusieurs allophones)

Phonmes utiliss en franais

La parole

La parole est un signal rel (4D), continu,


dnergie finie, non stationnaire. Sa structure est complexe et variable dans le temps:
Tantt priodique (plus exactement pseudo-

priodique) pour les sons voiss, Tantt alatoire pour les sons fricatifs, Tantt impulsionnelle dans les phases explosives des sons occlusifs.

Exemple: voix-parole

Speech information processing "tree" (Furui)


Speech recognition /understanding Speech synthesis
Synthesis Synthesis by by rule rule Text-to-speech Text-to-speech Speaker-independent Speaker-independent Spontaneous Spontaneous speech speech

Speech coding coding Speech


Wide/narrow-band Wide/narrow-band Very-low-bit-rate Very-low-bit-rate

Robustness
Noise/distortion Noise/distortion

Human-machine interface
Ergonomics Ergonomics Subjective/objective Subjective/objective evaluation evaluation Database

Individuality
Speaker Speaker recognition recognition Speaker Speaker adaptation/normalization adaptation/normalization Voice Voice conversion conversion

Feature extraction eec Database (dynamics) h Ar an Signa n tif al o M i t l pro p e y n c ici r e cessin y o e s i g p m t o h i l c c a o s g e u e h s or lI c d c Sp i o m t Psy r e y/ nt p yst ne s l h Ac ell o e e c v h e a r ou e e p ig rn N p c stic S i e t y i s n g n n o s ce g ou atio siol l c y u h c A P rti

Sp

Communication parle homme-machine

Speech Output

Speech Synthesis

Language Generation

Multimodal Interface

Dialogue System

Database

Speech Input

Speech Recognition Speaker Recognition Language Recognition

Language Understanding

Invention du tlphone
Lmetteur liquide de Bell

Lmetteur induction de Bell

0110-05

Voice portal environment

PSTN Internet

VoIP
Voice

Traffic

Content

Content servers

UMTS

UMTS Universal Mobile Telecommunications


System Le tlphone mobile de la 3e gnration Seules les villes profiteront de lUMTS

MIT wearable computing people

Traitement automatique de la parole

Objectifs
A la fin du cours, les tudiants seront capables dappliquer les principales mthodes de traitement numrique du signal pour lanalyse, la compression, la synthse et la reconnaissance de la parole.

Bibliographie
A. Drygajlo, Traitement de la parole,
EPFL, Lausanne, 2003

R. Boite, H. Bourlard, T. Dutoit,


J. Hancq, H. Leich, Traitement de la parole, PPUR, Lausanne 2000.

Bibliographie
B. Gold, N. Morgan, Speech and Audio Signal
Processing, John Wiley and Sons, New York, 2000

T. Quatieri, Discrete-Time
Speech Signal Processing: Principles and Practice, Prentice Hall PTR, Upper Saddle River, 2002. X. Huang, A. Acero, H.-W. Hon, Spoken Language Processing, Prentice Hall PTR, Upper Saddle River, 2001.

Contenu

Production et perception de la parole Analyse et modlisation de la parole Reconnaissance de la parole Reconnaissance du locuteur Synthse de la parole Compression et codage de la parole Communication vocale homme-machine

Production et perception de la parole


Aperu anatomique Mcanisme de la phonation Phontique articulatoire Acoustique de la phonation Mcanisme de laudition Psychoacoustique
Masquage Bandes critiques

Modlisation de la parole

Analyse et modlisation de la parole



Reprsentation numrique du signal vocal Analyse temporelle Analyse spectrale Modlisation spectro-temporelle et spectrogrammes Analyse homomorphique Modlisation base sur la prdiction linaire Estimation des formants Estimation de la priode du fondamental

Spectrogramme denveloppe

Reconnaissance de la parole
Difficults Comparaison dynamique (DTW) Mthodes statistiques
Modles de Markov cachs (HMM) Algorithmes de Baum-Welch et de Viterbi Rseaux de neurones artificiels (ANN)

Reconnaissance:
de mots isols de mots connects de la parole continue

0103-19

Quantification vectorielle (VQ)

Enveloppes spectrales

Dictionnaire

Gaussian Mixture Model (GMM)


v1 (1) v (2) 1 v1 ( D) v2 (1) vT (1) v (2) v (2) 2 T v2 ( D) vT ( D)

Vecteurs acoustiques dentranement

Histogrammes

Paramtre 1

Paramtre 2 GMM

Paramtre D

Distance = Score = vraisemblance (parole | modle)

Reconnaissance du locuteur

Variabilit intra- et inter-locuteur Vrification et identification du locuteur Mthodes dterministes et statistiques Mthodes dpendantes du texte
Comparaison dynamique (DTW) Modles de Markov cachs (HMM)

Mthodes indpendantes du texte


Quantification vectorielle (VQ) Modles mlanges de gaussiens (GMM)

Identification biomtrique

Iris

Empreinte digitale Rtine Visage

Voix

Signature

Bases de donnes Affaire


Trace Suspect Population
Donnes

Population potentielle
Paramtres Paramtres

Contrles
Base des donnes de contrle (C) du suspect

Rfrences

Base des donnes de la population potentielle (P)

Base des donnes de rfrence (R) du suspect

La Voix de BIN LADEN

Synthse de la parole
Prosodie Techniques de synthse
Synthse directe Synthse travers un modle Simulation du conduit vocal

Systmes de synthse
Synthse de messages Synthse partir du texte
- Traitements linguistico-prosodiques - Synthse par rgles - Synthse par diphones

The DAVO articulatory synthesizer


developed by George Rosen at MIT, 1958. The English Alphabet Song!

Compression et codage de la parole


Enjeux actuels
- Signal de parole dans la bande tlphonique - Signal de parole en bande largie - Signal de parole en bande large

Mthodes temporelles (codeurs donde)


- MIC (PCM), MICD (DPCM), MICDA (ADPCM) - Codage en sous-bandes

Mthodes paramtriques (vocodeurs) Mthodes hybrides (CELP) Normes internationales

Reprsentation numrique du signal vocal


Bande large
20 Hz 20 kHz Frquence dchantillonage 44.1 kHz

Bande largie
50 Hz 7 kHz Frquence dchantillonage 16 kHz

Bande tlphonique
300 Hz 3.4 kHz Frquence dchantillonage 8 kHz

Quantification

Bits:

16

Communication vocale homme-machine

Intgration de sous-systmes Systmes de dialogue Serveurs vocaux interactifs Systmes de dicte Communication vocale homme-robot