Académique Documents
Professionnel Documents
Culture Documents
net/publication/228764754
Traitement de la parole
CITATIONS READS
4 2,914
2 authors, including:
Andrzej Drygajlo
École Polytechnique Fédérale de Lausanne
182 PUBLICATIONS 2,776 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Andrzej Drygajlo on 20 May 2014.
Speech
Music/ other
sounds
entropy
CRAZY JOE
Interactive Tour-Guide Robot
Mobile
Face robot
RoboX
Loud speakers
Microphone array
Buttons
LOCUTEUR AUDITEUR
Idée Comprehénsion
• Phonème (notion
phonologique) – unité
minimale du langage
porteuse d’une
signification linguistique
• Allophone – realisation
d’un phonème (un
phonème peut avoir
plusieurs allophones)
Phonèmes utilisés en français
La parole
Speech recognition
/understanding
•• Speaker-independent
Speaker-independent
•• Spontaneous
Spontaneous speech
speech Speech coding
Speech coding
Speech synthesis •• Wide/narrow-band
Wide/narrow-band
•• Synthesis
Synthesis by
by rule
rule
Robustness •• Very-low-bit-rate
Very-low-bit-rate
•• Text-to-speech
Text-to-speech
•• Noise/distortion
Noise/distortion
Multimodal
Dialogue System Database
Interface
Speaker
Recognition
Language
Recognition
Invention du téléphone
L’émetteur à liquide de Bell
PSTN
Internet
VoIP
Voice
Content servers
Traffic Content
UMTS
• UMTS – Universal Mobile Telecommunications
System
• Le téléphone mobile de la 3e génération
• Seules les villes profiteront de l’UMTS
MIT wearable computing people
Traitement automatique de la parole
Objectifs
• Aperçu anatomique
• Mécanisme de la phonation
• Phonétique articulatoire
• Acoustique de la phonation
• Mécanisme de l’audition
• Psychoacoustique
– Masquage
– Bandes critiques
Modélisation de la parole
Analyse et modélisation de la parole
• Difficultés
• Comparaison dynamique (DTW)
• Méthodes statistiques
– Modèles de Markov cachés (HMM)
– Algorithmes de Baum-Welch et de Viterbi
– Réseaux de neurones artificiels (ANN)
• Reconnaissance:
– de mots isolés
– de mots connectés
– de la parole continue
0103-19
Histogrammes
Iris
Empreinte digitale
Rétine
Visage
Voix Signature
Bases de données
Population
Affaire Données
Trace Suspect
Population potentielle
Paramètres Paramètres
Base des données
de la population
Contrôles Références potentielle (P)
• Prosodie
• Techniques de synthèse
– Synthèse directe
– Synthèse à travers un modèle
– Simulation du conduit vocal
• Systèmes de synthèse
– Synthèse de messages
– Synthèse à partir du texte
- Traitements linguistico-prosodiques
- Synthèse par règles
- Synthèse par diphones
•The DAVO articulatory synthesizer
developed by George Rosen at MIT, 1958.
The English Alphabet Song!
Compression et codage de la parole
• Enjeux actuels
- Signal de parole dans la bande téléphonique
- Signal de parole en bande élargie
- Signal de parole en bande large
• Bande élargie
50 Hz – 7 kHz
Fréquence d’échantillonage – 16 kHz
• Bande téléphonique
300 Hz – 3.4 kHz
Fréquence d’échantillonage – 8 kHz
Quantification
Bits: 16 8 4 3 2 1
View publication stats
• Intégration de sous-systèmes
• Systèmes de dialogue
• Serveurs vocaux interactifs
• Systèmes de dictée
• Communication vocale homme-robot