Module PS
Reconnaissance de la parole (suite):
Paramétrisation
Gaël RICHARD
Février 2008
1
Reconnaissance de la parole
Introduction
Approches pour la reconnaissance vocale
Paramétrisation
Distances et mesures de distortion spectrale
Alignement Temporel et Programmation dynamique (DTW)
Introduction aux modèles de Markov Cachés
Base de données pour la reconnaissance
Exemples d’applications
Facteurs de correction
On identifie 2 échelles
De 0 à 500 Hz où 1 Mel = 1 Hz (courbe linéaire)
> 500 Hz où la tonie croit de façon logarithmique en fonction de la
fréquence
Exemples:
Gamme mel Gamme Hertz
Sj SN
S1 Energie dans chaque bande
Intérêt
Modèle source filtre de la parole
Exemples:
de Spectres à court
terme (gauche)
et de cepstre c(τ)
(droite)
τ est homogène à un
temps et est appelé
quéfrence
Contribution de la source
Développement en série
Schéma général
Préaccentuation
Fenêtrage
Par exemple fenêtre de Hamming
Pondération
Grande sensibilité des premiers coefficients cepstraux sur la pente
spectrale générale
Sensibilité au bruit des coefficients élevés
Exemple de fenêtres
Préaccentuation perceptuelle
consiste à prendre en compte les variations de sensibilité de
l'oreille avec la fréquence
Réalisée en pré-accentuant le spectre de puissance
précédemment calculé à l'aide de la fonction qui simule la
sensibilité de l'oreille à - 40 dB :
Essentielles en reconnaissance
Distances Log-spectrales
Distances cepstrales
Distance d’Itakura-Saito
Etc…
ssi
Déplacement de formants
Changement de la largeur de bande des formants
Distances perceptuelles
Norme Lp entre
En pratique
Avec pondération
Mesure d’Itakura-Saïto
La distance d’Itakura
Dérivées premières
Dérivées Secondes
Distance globale
;