Traitement de La Parole

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/228764754
Traitement de la parole
Article · January 1997
CITATIONS READS
4 2,914
2 authors, including:
Andrzej Drygajlo
École Polytechnique Fédérale de Lausanne
182 PUBLICATIONS 2,776 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Validation Framework for Forensic Evidence Evaluation View project
All content following this page was uploaded by Andrzej Drygajlo on 20 May 2014.
The user has requested enhancement of the downloaded file.

TRAITEMENT DE LA PAROLE
Dr. Andrzej Drygajlo
andrzej.drygajlo@epfl.ch
ELE 233
Groupe de Traitement de la Parole et de Biométrie (GTPB)
Institut de Traitement des Signaux (ITS)

SECTION D’ELECTRICITE (SE)
EPFL
IDIAP, Martigny
Lausanne 2003
InterSpeech - Eurospeech 2003
• 8th European Conference on

Speech Communication and
Technology
• Organizer: International
Speech Communication
Association (ISCA)
• 1110 registered participants
from 47 countries
Knowledge Navigator
Implications technologiques
• Integration du téléphone • Synthèse

– Mains libres/micro HiFi – Vocabulaire illimité
– Majordome d’accueil – Intonation naturelle
vocal – Synthèse à partir de
– Vidéoconférence concepts
• Codage de la parole • Reconnaissance,
– Débit/coût/qualité compréhension
– Standardisation – Vocabulaire illimité
– Système indépendant
du locuteur
Speech/Music Discrimination and Recognition
dynamism
Speech
Music/ other
sounds
entropy
CRAZY JOE
Interactive Tour-Guide Robot
Mobile
Face robot
RoboX
Loud speakers
Microphone array
Buttons
SICK laser scanner
EXPO.02 – Robotics Exhibition Bumpers

Pourquoi?
Quelle est votre définition de la parole?
• Moyen de communication par excellence.

• Information qui est véhiculée par les ondes
sonores.
• C’est un bruit qui a un sens.
• C’est le vecteur d’information qui différencie
l’homme de l’animal.
• Signal permettant la communication entre
humains.
• Je ne sais pas en français. J’espere que ça
sera plus clair après ce cours.
L’homme est-il fait pour parler?
La parole
• La parole – faculté de communiquer la

pensée par un système de sons articulés
émis par les organes de la phonation
• La parole – expression verbale de la

pensée
Le Petit Robert 1993

La voix et le langage
• La voix – ensemble de sons produits par

le système phonatoire et articulatoire
• Le langage – fonction d’expression de la

pensée et de communication entre les
hommes, mise en œuvre au moyen d’un
système de signes vocaux (parole) et
éventuellement de signes graphiques
(écriture) qui constitue une langue
Le cerveau et le langage
• Le langage nous aide à

structurer le monde en
concepts et à reduire la
complexité des structures
abstraites afin de les
appréhender: c’est la
propriété de « compression
cognitive »
• La perception – fonction par

laquelle l’esprit se représente
les objets
Act de communication parlée
LOCUTEUR AUDITEUR
Idée Comprehénsion
Traitement cognitif Traitement cognitif Traitement cognitif
Traitement Traitement Traitement

linguistique et linguistique et linguistique et
phonétique phonétique phonétique
Système auditif Système auditif

Production périphérique périphérique
du son
Phonétique et Phonologie
• La phonétique s’intéresse à la manière

dont les sons du langage sont produits,
transmis et perçus par les sujets parlants
• La phonétique – branche de la
linguistique qui étudie les phonèmes
• La phonologie – science qui étudie les
phonèmes non en eux-mêmes, mais
quant à leur fonction dans la langue
Phonème
• Phonème (notion
phonologique) – unité
minimale du langage
porteuse d’une
signification linguistique
• Allophone – realisation
d’un phonème (un
phonème peut avoir
plusieurs allophones)
Phonèmes utilisés en français
La parole
• La parole est un signal réel (4D), continu,

d’énergie finie, non stationnaire.
• Sa structure est complexe et variable
dans le temps:
– Tantôt périodique (plus exactement pseudo-
périodique) pour les sons voisés,
– Tantôt aléatoire pour les sons fricatifs,
– Tantôt impulsionnelle dans les phases
explosives des sons occlusifs.
• Exemple: voix-parole
Speech information processing "tree" (Furui)
Speech recognition
/understanding
•• Speaker-independent
Speaker-independent
•• Spontaneous
Spontaneous speech
speech Speech coding
Speech coding
Speech synthesis •• Wide/narrow-band
Wide/narrow-band
•• Synthesis
Synthesis by
by rule
rule
Robustness •• Very-low-bit-rate
Very-low-bit-rate
•• Text-to-speech
Text-to-speech
•• Noise/distortion
Noise/distortion
Human-machine interface Individuality

•• Speaker
Speaker recognition
recognition
•• Ergonomics
Ergonomics
•• Speaker
Speaker adaptation/normalization
adaptation/normalization
•• Subjective/objective
Subjective/objective evaluation
evaluation
•• Voice
Voice conversion
conversion
S
Feature extraction pee
Database (dynamics) ch Database
Ar an
i o n M t a Signa
gy p e r ce p t
i o n e
i f i c l y s l pro
cessin
ch o lo
S pe e c h
d u c t
c s
m
or i a lI i s g
Psy m o t i
s yste h pr o ne y/
l
nt
ell Ac
v e ee c h e ar
Ner S p i c p n i g e
ou
stic
lo gy
i o n u st in n c s
ys io u l a t c o g e
Ph Art
ic A
Communication parlée homme-machine
Speech Speech Language

Output Synthesis Generation
Multimodal
Dialogue System Database
Interface
Speech Speech Language

Input Recognition Understanding
Speaker
Recognition
Language
Recognition
Invention du téléphone
L’émetteur à liquide de Bell
L’émetteur à induction de Bell

0110-05
Voice portal environment
PSTN
Internet
VoIP
Voice
Content servers
Traffic Content
UMTS
• UMTS – Universal Mobile Telecommunications
System
• Le téléphone mobile de la 3e génération
• Seules les villes profiteront de l’UMTS
MIT wearable computing people
Traitement automatique de la parole
Objectifs
A la fin du cours, les étudiants seront capables

d’appliquer les principales méthodes de traitement
numérique du signal pour l’analyse, la compression,
la synthèse et la reconnaissance de la parole.
Bibliographie
• A. Drygajlo, “Traitement de la parole”,

EPFL, Lausanne, 2003
• R. Boite, H. Bourlard, T. Dutoit,

J. Hancq, H. Leich, “Traitement
de la parole”, PPUR, Lausanne
2000.
Bibliographie
• B. Gold, N. Morgan, “Speech and Audio Signal

Processing”, John Wiley and Sons, New York, 2000
• T. Quatieri, “Discrete-Time
Speech Signal Processing:
Principles and Practice”,
Prentice Hall PTR, Upper
Saddle River, 2002.
• X. Huang, A. Acero, H.-W. Hon,
“Spoken Language Processing”,
Prentice Hall PTR, Upper
Saddle River, 2001.
Contenu
• Production et perception de la parole

• Analyse et modélisation de la parole
• Reconnaissance de la parole
• Reconnaissance du locuteur
• Synthèse de la parole
• Compression et codage de la parole
• Communication vocale homme-machine
Production et perception de la parole
• Aperçu anatomique
• Mécanisme de la phonation
• Phonétique articulatoire
• Acoustique de la phonation
• Mécanisme de l’audition
• Psychoacoustique
– Masquage
– Bandes critiques
Modélisation de la parole
Analyse et modélisation de la parole
• Représentation numérique du signal vocal

• Analyse temporelle
• Analyse spectrale
• Modélisation spectro-temporelle et
spectrogrammes
• Analyse homomorphique
• Modélisation basée sur la prédiction linéaire
• Estimation des formants
• Estimation de la période du fondamental
Spectrogramme d’enveloppe
Reconnaissance de la parole
• Difficultés
• Comparaison dynamique (DTW)
• Méthodes statistiques
– Modèles de Markov cachés (HMM)
– Algorithmes de Baum-Welch et de Viterbi
– Réseaux de neurones artificiels (ANN)
• Reconnaissance:
– de mots isolés
– de mots connectés
– de la parole continue
0103-19
Quantification vectorielle (VQ)
Enveloppes spectrales Dictionnaire

Gaussian Mixture Model (GMM)
 v1 (1)   v2 (1)   vT (1) 
 v (2)   v (2)   v (2) 
 1   2   T  Vecteurs acoustiques
 •   •  • • •  • 
      d’entraînement
 •   •   • 
 v1 ( D)   v2 ( D)   vT ( D) 
Histogrammes
Paramètre 1 Paramètre 2 Paramètre D

GMM
Distance = Score = vraisemblance (parole | modèle)

Reconnaissance du locuteur
• Variabilité intra- et inter-locuteur

• Vérification et identification du locuteur
• Méthodes déterministes et statistiques
• Méthodes dépendantes du texte
– Comparaison dynamique (DTW)
– Modèles de Markov cachés (HMM)
• Méthodes indépendantes du texte
– Quantification vectorielle (VQ)
– Modèles à mélanges de gaussiens (GMM)
Identification biométrique
Iris
Empreinte digitale
Rétine
Visage
Voix Signature
Bases de données
Population
Affaire Données
Trace Suspect
Population potentielle
Paramètres Paramètres
Base des données
de la population
Contrôles Références potentielle (P)
Base des données Base des données

de contrôle (C) du suspect de référence (R) du suspect
La Voix de BIN LADEN
Synthèse de la parole
• Prosodie
• Techniques de synthèse
– Synthèse directe
– Synthèse à travers un modèle
– Simulation du conduit vocal
• Systèmes de synthèse
– Synthèse de messages
– Synthèse à partir du texte
- Traitements linguistico-prosodiques
- Synthèse par règles
- Synthèse par diphones
•The DAVO articulatory synthesizer
developed by George Rosen at MIT, 1958.
The English Alphabet Song!
Compression et codage de la parole
• Enjeux actuels
- Signal de parole dans la bande téléphonique
- Signal de parole en bande élargie
- Signal de parole en bande large
• Méthodes temporelles (codeurs d’onde)

- MIC (PCM), MICD (DPCM), MICDA (ADPCM)
- Codage en sous-bandes
• Méthodes paramétriques (vocodeurs)

• Méthodes hybrides (CELP)
• Normes internationales
Représentation numérique du signal vocal
• Bande large
20 Hz – 20 kHz
Fréquence d’échantillonage – 44.1 kHz
• Bande élargie
50 Hz – 7 kHz
Fréquence d’échantillonage – 16 kHz
• Bande téléphonique
300 Hz – 3.4 kHz
Fréquence d’échantillonage – 8 kHz
Quantification
Bits: 16 8 4 3 2 1
View publication stats
Communication vocale homme-machine
• Intégration de sous-systèmes
• Systèmes de dialogue
• Serveurs vocaux interactifs
• Systèmes de dictée
• Communication vocale homme-robot

Traitement de La Parole

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Traitement de La Parole

Transféré par

Droits d'auteur :

Formats disponibles

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Article · January 1997

Validation Framework for Forensic Evidence Evaluation View project

The user has requested enhancement of the downloaded file.

Groupe de Traitement de la Parole et de Biométrie (GTPB)

Institut de Traitement des Signaux (ITS)

• 8th European Conference on

• Integration du téléphone • Synthèse

SICK laser scanner

EXPO.02 – Robotics Exhibition Bumpers

• Moyen de communication par excellence.

• La parole – faculté de communiquer la

• La parole – expression verbale de la

Le Petit Robert 1993

• La voix – ensemble de sons produits par

• Le langage – fonction d’expression de la

• Le langage nous aide à

• La perception – fonction par

Traitement cognitif Traitement cognitif Traitement cognitif

Traitement Traitement Traitement

Système auditif Système auditif

• La phonétique s’intéresse à la manière

• La parole est un signal réel (4D), continu,

Human-machine interface Individuality

Speech Speech Language

Speech Speech Language

L’émetteur à induction de Bell

Voice portal environment

A la fin du cours, les étudiants seront capables

• A. Drygajlo, “Traitement de la parole”,

• R. Boite, H. Bourlard, T. Dutoit,

• B. Gold, N. Morgan, “Speech and Audio Signal

• Production et perception de la parole

• Représentation numérique du signal vocal

Quantification vectorielle (VQ)

Enveloppes spectrales Dictionnaire

Paramètre 1 Paramètre 2 Paramètre D

Distance = Score = vraisemblance (parole | modèle)

• Variabilité intra- et inter-locuteur

Base des données Base des données

• Méthodes temporelles (codeurs d’onde)

• Méthodes paramétriques (vocodeurs)

Communication vocale homme-machine

Vous aimerez peut-être aussi