Vous êtes sur la page 1sur 48

TRAITEMENT DE LA PAROLE

http://scgwww.epfl.ch/courses Dr. Andrzej Drygajlo, ELE 233 andrzej.drygajlo@epfl.ch Speech Processing and Biometrics Group (GTPB) Laboratoire de IDIAP (LIDIAP) Signal Processing Institute (ITS) Swiss Federal Institute of Technology Lausanne (EPFL) National Center of Competence in Research (NCCR) Interactive Multimodal Information Management (IM)2 IDIAP Research Institute, Martigny

InterSpeech - Eurospeech 2003

8th European Conference on


Speech Communication and Technology Organizer: International Speech Communication Association (ISCA) 1110 registered participants from 47 countries

Knowledge Navigator

Implications technologiques
Integration du tlphone
Mains libres/micro HiFi Majordome daccueil vocal Vidoconfrence

Synthse
Vocabulaire illimit Intonation naturelle Synthse partir de

Codage de la parole
Dbit/cot/qualit Standardisation

concepts

Reconnaissance,
comprhension
Vocabulaire illimit Systme indpendant

du locuteur

Speech/Music Discrimination and Recognition

dynamism

Speech

Music/ other sounds

entropy

CRAZY JOE

Interactive Tour-Guide Robot

Face Loud speakers Microphone array Buttons

Mobile robot RoboX

SICK laser scanner

EXPO.02 Robotics Exhibition

Bumpers

Pourquoi?

Quelle est votre dfinition de la parole?

Moyen de communication par excellence. Information qui est vhicule par les ondes
sonores. Cest un bruit qui a un sens. Cest le vecteur dinformation qui diffrencie lhomme de lanimal. Signal permettant la communication entre humains. Je ne sais pas en franais. Jespere que a sera plus clair aprs ce cours.

Lhomme est-il fait pour parler?

La parole

La parole facult de communiquer la


pense par un systme de sons articuls mis par les organes de la phonation

La parole expression verbale de la


pense

Le Petit Robert 1993

La voix et le langage

La voix ensemble de sons produits par le


systme phonatoire et articulatoire

Le langage fonction dexpression de la


pense et de communication entre les hommes, mise en uvre au moyen dun systme de signes vocaux (parole) et ventuellement de signes graphiques (criture) qui constitue une langue

Le cerveau et le langage
Le langage nous aide
structurer le monde en concepts et reduire la complexit des structures abstraites afin de les apprhender: cest la proprit de compression cognitive

La perception fonction
par laquelle lesprit se reprsente les objets

Act de communication parle LOCUTEUR


Ide Traitement cognitif Traitement linguistique et phontique

AUDITEUR
Comprehnsion

Traitement cognitif Traitement cognitif Traitement linguistique et phontique Systme auditif priphrique Traitement linguistique et phontique Systme auditif priphrique

Production du son

Phontique et Phonologie
La phontique sintresse la manire dont les
sons du langage sont produits, transmis et perus par les sujets parlants

La phontique branche de la linguistique qui


tudie les phonmes

La phonologie science qui tudie les phonmes


non en eux-mmes, mais quant leur fonction dans la langue

Phonme
Phonme (notion
phonologique) unit minimale du langage porteuse dune signification linguistique

Allophone realisation
dun phonme (un phonme peut avoir plusieurs allophones)

Phonmes utiliss en franais

La parole
La parole est un signal rel (4D), continu,
dnergie finie, non stationnaire.

Sa structure est complexe et variable dans le


temps: Tantt priodique (plus exactement pseudopriodique) pour les sons voiss, Tantt alatoire pour les sons fricatifs, Tantt impulsionnelle dans les phases explosives des sons occlusifs.

Exemple: voix-parole

Speech information processing "tree" (Furui) Speech recognition /understanding Speech synthesis
Synthesis by rule Synthesis by rule Text-to-speech Text-to-speech Speaker-independent Speaker-independent Spontaneous speech Spontaneous speech

Speech coding Speech coding


Wide/narrow-band Wide/narrow-band Very-low-bit-rate Very-low-bit-rate

Robustness
Noise/distortion Noise/distortion

Human-machine interface
Ergonomics Ergonomics Subjective/objective evaluation Subjective/objective evaluation Database

Individuality

tion n rcep ctio ogy eech pe s l cho p tic odu S e r em Psy on syst ech p h ve cp Ne r pe S on ti y us ti olog o si la Ac ticu Phy Ar

Sp Feature extraction ee (dynamics) Ach a r


M

Speaker recognition Speaker recognition Speaker adaptation/normalization Speaker adaptation/normalization Voice conversion Voice conversion Database

Signa tif na l pro ic em lys cessin ia g or is lI y/ nt Ac le ell ou ar ig stic ni en s ng ce

Communication parle homme-machine

Speech Output

Speech Synthesis

Language Generation

Multimodal Interface

Dialogue System

Database

Speech Input

Speech Recognition Speaker Recognition Language Recognition

Language Understanding

Invention du tlphone
Lmetteur liquide de Bell

Lmetteur induction de Bell

0110-05

Voice portal environment

PSTN Internet

VoIP
Voice

Traffic

Content

Content servers

UMTS

UMTS Universal Mobile Telecommunications


System Le tlphone mobile de la 3e gnration

UMTS - Swisscom
Loprateur propose depuis 16 novembre 2004
lUMTS

Swisscom investi plusieurs centaines de


millions de francs pour crer son rseau UMTS fort de 12000 antennes, parallle au GMS actuel

LUMTS permet un dbit maximal de 384 kbit/s Swisscom se vante de couvrir 89,74% de la
population en UMTS, soit 45% du territoire suisse

MIT wearable computing people

Traitement automatique de la parole

Objectifs A la fin du cours, les tudiants seront capables dappliquer les principales mthodes de traitement numrique du signal pour lanalyse, la compression, la synthse et la reconnaissance de la parole.

Bibliographie
A. Drygajlo, Traitement de la parole,
EPFL, Lausanne, 2005

R. Boite, H. Bourlard, T.
Dutoit, J. Hancq, H. Leich, Traitement de la parole, PPUR, Lausanne 2000.

Bibliographie
B. Gold, N. Morgan, Speech and Audio Signal
Processing, John Wiley and Sons, New York, 2000

T. Quatieri, Discrete-Time
Speech Signal Processing: Principles and Practice, Prentice Hall PTR, Upper Saddle River, 2002.

X. Huang, A. Acero, H.-W. Hon,


Spoken Language Processing, Prentice Hall PTR, Upper Saddle River, 2001.

Contenu

Production et perception de la parole Analyse et modlisation de la parole Reconnaissance de la parole Reconnaissance du locuteur Synthse de la parole Compression et codage de la parole Communication vocale homme-machine

Production et perception de la parole


Aperu anatomique Mcanisme de la phonation Phontique articulatoire Acoustique de la phonation Mcanisme de laudition Psychoacoustique
Masquage Bandes critiques

Modlisation de la parole

Analyse et modlisation de la parole



Reprsentation numrique du signal vocal Analyse temporelle Analyse spectrale Modlisation spectro-temporelle et spectrogrammes Analyse homomorphique Modlisation base sur la prdiction linaire Estimation des formants Estimation de la priode du fondamental

Spectrogramme denveloppe

Reconnaissance de la parole

Difficults Mthodes dterministes


Comparaison dynamique (DTW) Quantification vectorielle (VQ)

Mthodes statistiques
Modles de Markov cachs (HMM) Algorithmes de Baum-Welch et de Viterbi Rseaux de neurones artificiels (ANN)

Reconnaissance:
de mots isols de mots connects de la parole continue

Comparaison dynamique (DTW)


R

0103-19

Quantification vectorielle (VQ)

Enveloppes spectrales

Dictionnaire

Gaussian Mixture Model (GMM)


v1 (1) v (2) 1 v1 ( D) v2 (1) vT (1) v (2) v (2) 2 T v2 ( D) vT ( D)

Vecteurs acoustiques dentranement

Histogrammes

Paramtre 1

Paramtre 2 GMM

Paramtre D

Distance = Score = vraisemblance (parole | modle)

0104-08

Modles de Markov cachs (HMM)


b1(x) x
0.2

b2(x) x
0.4

b3(x)
Output probabilities

x
0.7

0.5 0.3

0.6

0.3

Phoneme models

Phoneme k-1

Phoneme k

Feature vectors time Phoneme k+1

Reconnaissance du locuteur

Variabilit intra- et inter-locuteur Vrification et identification du locuteur Mthodes dterministes et statistiques Mthodes dpendantes du texte
Comparaison dynamique (DTW) Modles de Markov cachs (HMM)

Mthodes indpendantes du texte


Quantification vectorielle (VQ) Modles mlanges de gaussiens (GMM)

Identification biomtrique

Iris

Empreinte digitale Rtine Visage

Voix

Signature

Bases de donnes

Affaire
Trace Suspect

Population
Donnes

Population potentielle
Paramtres Paramtres

Contrles
Base des donnes de contrle (C) du suspect

Rfrences

Base des donnes de la population potentielle (P)

Base des donnes de rfrence (R) du suspect

Synthse de la parole
Prosodie Techniques de synthse
Synthse directe Synthse travers un modle Simulation du conduit vocal

Systmes de synthse
Synthse de messages Synthse partir du texte - Traitements linguistico-prosodiques - Synthse par rgles - Synthse par diphones

The DAVO articulatory synthesizer


developed by George Rosen at MIT, 1958. The English Alphabet Song!

Compression et codage de la parole

Enjeux actuels
- Signal de parole dans la bande tlphonique - Signal de parole en bande largie - Signal de parole en bande large

Mthodes temporelles (codeurs donde)


- MIC (PCM), MICD (DPCM), MICDA (ADPCM) - Codage en sous-bandes

Mthodes paramtriques (vocodeurs) Mthodes hybrides (CELP) Normes internationales

Reprsentation numrique du signal vocal

Bande large
20 Hz 20 kHz Frquence dchantillonage 44.1 kHz

Bande largie
50 Hz 7 kHz Frquence dchantillonage 16 kHz

Bande tlphonique
300 Hz 3.4 kHz Frquence dchantillonage 8 kHz

Frequency Band of Telephone Speech

20 Hz 20 kHz

50 Hz 7 kHz

Telephone channel: 300 Hz 3.4 kHz Recognition of syllables 91% Recognition of sentences 99%

Quantification

Bits:

16

Communication vocale homme-machine

Intgration de sous-systmes Systmes de dialogue Serveurs vocaux interactifs Systmes de dicte Communication vocale homme-robot

Vous aimerez peut-être aussi