Vous êtes sur la page 1sur 46

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/228764754

Traitement de la parole

Article · January 1997

CITATIONS READS

4 2,914

2 authors, including:

Andrzej Drygajlo
École Polytechnique Fédérale de Lausanne
182 PUBLICATIONS   2,776 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Validation Framework for Forensic Evidence Evaluation View project

All content following this page was uploaded by Andrzej Drygajlo on 20 May 2014.

The user has requested enhancement of the downloaded file.


TRAITEMENT DE LA PAROLE
Dr. Andrzej Drygajlo
andrzej.drygajlo@epfl.ch
ELE 233

Groupe de Traitement de la Parole et de Biométrie (GTPB)

Institut de Traitement des Signaux (ITS)


SECTION D’ELECTRICITE (SE)
EPFL
IDIAP, Martigny
Lausanne 2003
InterSpeech - Eurospeech 2003

• 8th European Conference on


Speech Communication and
Technology
• Organizer: International
Speech Communication
Association (ISCA)
• 1110 registered participants
from 47 countries
Knowledge Navigator
Implications technologiques

• Integration du téléphone • Synthèse


– Mains libres/micro HiFi – Vocabulaire illimité
– Majordome d’accueil – Intonation naturelle
vocal – Synthèse à partir de
– Vidéoconférence concepts
• Codage de la parole • Reconnaissance,
– Débit/coût/qualité compréhension
– Standardisation – Vocabulaire illimité
– Système indépendant
du locuteur
Speech/Music Discrimination and Recognition
dynamism

Speech

Music/ other
sounds

entropy
CRAZY JOE
Interactive Tour-Guide Robot

Mobile
Face robot
RoboX
Loud speakers
Microphone array
Buttons

SICK laser scanner

EXPO.02 – Robotics Exhibition Bumpers


Pourquoi?
Quelle est votre définition de la parole?

• Moyen de communication par excellence.


• Information qui est véhiculée par les ondes
sonores.
• C’est un bruit qui a un sens.
• C’est le vecteur d’information qui différencie
l’homme de l’animal.
• Signal permettant la communication entre
humains.
• Je ne sais pas en français. J’espere que ça
sera plus clair après ce cours.
L’homme est-il fait pour parler?
La parole

• La parole – faculté de communiquer la


pensée par un système de sons articulés
émis par les organes de la phonation

• La parole – expression verbale de la


pensée

Le Petit Robert 1993


La voix et le langage

• La voix – ensemble de sons produits par


le système phonatoire et articulatoire

• Le langage – fonction d’expression de la


pensée et de communication entre les
hommes, mise en œuvre au moyen d’un
système de signes vocaux (parole) et
éventuellement de signes graphiques
(écriture) qui constitue une langue
Le cerveau et le langage

• Le langage nous aide à


structurer le monde en
concepts et à reduire la
complexité des structures
abstraites afin de les
appréhender: c’est la
propriété de « compression
cognitive »

• La perception – fonction par


laquelle l’esprit se représente
les objets
Act de communication parlée

LOCUTEUR AUDITEUR

Idée Comprehénsion

Traitement cognitif Traitement cognitif Traitement cognitif

Traitement Traitement Traitement


linguistique et linguistique et linguistique et
phonétique phonétique phonétique

Système auditif Système auditif


Production périphérique périphérique
du son
Phonétique et Phonologie

• La phonétique s’intéresse à la manière


dont les sons du langage sont produits,
transmis et perçus par les sujets parlants
• La phonétique – branche de la
linguistique qui étudie les phonèmes
• La phonologie – science qui étudie les
phonèmes non en eux-mêmes, mais
quant à leur fonction dans la langue
Phonème

• Phonème (notion
phonologique) – unité
minimale du langage
porteuse d’une
signification linguistique
• Allophone – realisation
d’un phonème (un
phonème peut avoir
plusieurs allophones)
Phonèmes utilisés en français
La parole

• La parole est un signal réel (4D), continu,


d’énergie finie, non stationnaire.
• Sa structure est complexe et variable
dans le temps:
– Tantôt périodique (plus exactement pseudo-
périodique) pour les sons voisés,
– Tantôt aléatoire pour les sons fricatifs,
– Tantôt impulsionnelle dans les phases
explosives des sons occlusifs.
• Exemple: voix-parole
Speech information processing "tree" (Furui)

Speech recognition
/understanding
•• Speaker-independent
Speaker-independent
•• Spontaneous
Spontaneous speech
speech Speech coding
Speech coding
Speech synthesis •• Wide/narrow-band
Wide/narrow-band
•• Synthesis
Synthesis by
by rule
rule
Robustness •• Very-low-bit-rate
Very-low-bit-rate
•• Text-to-speech
Text-to-speech
•• Noise/distortion
Noise/distortion

Human-machine interface Individuality


•• Speaker
Speaker recognition
recognition
•• Ergonomics
Ergonomics
•• Speaker
Speaker adaptation/normalization
adaptation/normalization
•• Subjective/objective
Subjective/objective evaluation
evaluation
•• Voice
Voice conversion
conversion
S
Feature extraction pee
Database (dynamics) ch Database
Ar an
i o n M t a Signa
gy p e r ce p t
i o n e
i f i c l y s l pro
cessin
ch o lo
S pe e c h
d u c t
c s
m
or i a lI i s g
Psy m o t i
s yste h pr o ne y/
l
nt
ell Ac
v e ee c h e ar
Ner S p i c p n i g e
ou
stic
lo gy
i o n u st in n c s
ys io u l a t c o g e
Ph Art
ic A
Communication parlée homme-machine

Speech Speech Language


Output Synthesis Generation

Multimodal
Dialogue System Database
Interface

Speech Speech Language


Input Recognition Understanding

Speaker
Recognition

Language
Recognition
Invention du téléphone
L’émetteur à liquide de Bell

L’émetteur à induction de Bell


0110-05

Voice portal environment

PSTN

Internet

VoIP

Voice

Content servers
Traffic Content
UMTS
• UMTS – Universal Mobile Telecommunications
System
• Le téléphone mobile de la 3e génération
• Seules les villes profiteront de l’UMTS
MIT wearable computing people
Traitement automatique de la parole
Objectifs

A la fin du cours, les étudiants seront capables


d’appliquer les principales méthodes de traitement
numérique du signal pour l’analyse, la compression,
la synthèse et la reconnaissance de la parole.
Bibliographie

• A. Drygajlo, “Traitement de la parole”,


EPFL, Lausanne, 2003

• R. Boite, H. Bourlard, T. Dutoit,


J. Hancq, H. Leich, “Traitement
de la parole”, PPUR, Lausanne
2000.
Bibliographie

• B. Gold, N. Morgan, “Speech and Audio Signal


Processing”, John Wiley and Sons, New York, 2000
• T. Quatieri, “Discrete-Time
Speech Signal Processing:
Principles and Practice”,
Prentice Hall PTR, Upper
Saddle River, 2002.
• X. Huang, A. Acero, H.-W. Hon,
“Spoken Language Processing”,
Prentice Hall PTR, Upper
Saddle River, 2001.
Contenu

• Production et perception de la parole


• Analyse et modélisation de la parole
• Reconnaissance de la parole
• Reconnaissance du locuteur
• Synthèse de la parole
• Compression et codage de la parole
• Communication vocale homme-machine
Production et perception de la parole

• Aperçu anatomique

• Mécanisme de la phonation
• Phonétique articulatoire
• Acoustique de la phonation

• Mécanisme de l’audition
• Psychoacoustique
– Masquage
– Bandes critiques
Modélisation de la parole
Analyse et modélisation de la parole

• Représentation numérique du signal vocal


• Analyse temporelle
• Analyse spectrale
• Modélisation spectro-temporelle et
spectrogrammes
• Analyse homomorphique
• Modélisation basée sur la prédiction linéaire
• Estimation des formants
• Estimation de la période du fondamental
Spectrogramme d’enveloppe
Reconnaissance de la parole

• Difficultés
• Comparaison dynamique (DTW)
• Méthodes statistiques
– Modèles de Markov cachés (HMM)
– Algorithmes de Baum-Welch et de Viterbi
– Réseaux de neurones artificiels (ANN)
• Reconnaissance:
– de mots isolés
– de mots connectés
– de la parole continue
0103-19

Quantification vectorielle (VQ)

Enveloppes spectrales Dictionnaire


Gaussian Mixture Model (GMM)
 v1 (1)   v2 (1)   vT (1) 
 v (2)   v (2)   v (2) 
 1   2   T  Vecteurs acoustiques
 •   •  • • •  • 
      d’entraînement
 •   •   • 
 v1 ( D)   v2 ( D)   vT ( D) 

Histogrammes

Paramètre 1 Paramètre 2 Paramètre D


GMM

Distance = Score = vraisemblance (parole | modèle)


Reconnaissance du locuteur

• Variabilité intra- et inter-locuteur


• Vérification et identification du locuteur
• Méthodes déterministes et statistiques
• Méthodes dépendantes du texte
– Comparaison dynamique (DTW)
– Modèles de Markov cachés (HMM)
• Méthodes indépendantes du texte
– Quantification vectorielle (VQ)
– Modèles à mélanges de gaussiens (GMM)
Identification biométrique

Iris

Empreinte digitale

Rétine
Visage

Voix Signature
Bases de données
Population
Affaire Données

Trace Suspect

Population potentielle

Paramètres Paramètres
Base des données
de la population
Contrôles Références potentielle (P)

Base des données Base des données


de contrôle (C) du suspect de référence (R) du suspect
La Voix de BIN LADEN
Synthèse de la parole

• Prosodie
• Techniques de synthèse
– Synthèse directe
– Synthèse à travers un modèle
– Simulation du conduit vocal
• Systèmes de synthèse
– Synthèse de messages
– Synthèse à partir du texte
- Traitements linguistico-prosodiques
- Synthèse par règles
- Synthèse par diphones
•The DAVO articulatory synthesizer
developed by George Rosen at MIT, 1958.
The English Alphabet Song!
Compression et codage de la parole

• Enjeux actuels
- Signal de parole dans la bande téléphonique
- Signal de parole en bande élargie
- Signal de parole en bande large

• Méthodes temporelles (codeurs d’onde)


- MIC (PCM), MICD (DPCM), MICDA (ADPCM)
- Codage en sous-bandes

• Méthodes paramétriques (vocodeurs)


• Méthodes hybrides (CELP)
• Normes internationales
Représentation numérique du signal vocal
• Bande large
20 Hz – 20 kHz
Fréquence d’échantillonage – 44.1 kHz

• Bande élargie
50 Hz – 7 kHz
Fréquence d’échantillonage – 16 kHz

• Bande téléphonique
300 Hz – 3.4 kHz
Fréquence d’échantillonage – 8 kHz
Quantification

Bits: 16 8 4 3 2 1
View publication stats

Communication vocale homme-machine

• Intégration de sous-systèmes
• Systèmes de dialogue
• Serveurs vocaux interactifs
• Systèmes de dictée
• Communication vocale homme-robot

Vous aimerez peut-être aussi