Vous êtes sur la page 1sur 18

Université Badji Mokhtar Annaba

Département d’Informatique
Groupe de Recherche en Intelligence Artificielle GRIA/LRI
MASTER « RFIA » Reconnaissance des Formes et Intelligence Artificielle

Module: Reconnaissance Automatique de la Parole - RAP

« Je parle, donc je suis ? »

Dirigé par: Dr. LAZLI L.


Le traitement du signal vocal s'inscrit dans une succession de procédures, que ce soit
pour la reconnaissance automatique ou pour la synthèse de la parole. Analyse et
synthèse sont deux activités duales, l'analyse fournissant une description du signal
acoustique que la synthèse utilise pour le reproduire.

Le traitement est aussi utilisé pour réduire la redondance du signal vocal, ou en


extraire des paramètres pertinents pour la reconnaissance. Cette réduction par
traitement permet aussi de comprimer l'onde avant le stockage ou la transmission.

La reconnaissance a également une activité proche qui est la vérification du locuteur,


où on cherche à authentifier une personne grâce à sa voix.

2
Une fois que le son a été émis par le locuteur, il est capté par un microphone.
Le signal vocal est ensuite numérisé à l’aide d’un convertisseur analogique-
numérique.

Comme la voix humaine est constituée d’une multitude de sons, souvent


répétitifs, le signal peut être compressé pour réduire le temps de traitement
et l’encombrement en mémoire. L’analyse peut alors commencer.

3
Paramétrisation
La première étape consiste à paramétrer le signal vocal du locuteur. Cela
permet d’obtenir une " empreinte " caractéristique du son, sur laquelle on
pourra ensuite travailler pour la reconnaissance. Pour cela, il existe plusieurs
méthodes.

4
Un premier groupe de méthodes est constitué par les méthodes spectrales .
Elles sont fondées sur la décomposition fréquentielle du signal sans
connaissance a priori de sa structure fine.
La plus utilisée est celle utilisant la transformée de Fourier, appelée Fast
Fourier Transform ( FFT ). Tout son est la superposition de plusieurs ondes
sinusoïdales. Grâce à la FFT , on peut isoler les différentes fréquences qui le
composent. On obtient ainsi une répartition spectrale du signal (voir figure ).

Spectre obtenu par transformée rapide de Fourier (FFT)

5
Un deuxième groupe de méthodes est constitué par les méthodes
d’identification . Elles sont fondées sur une connaissance des mécanismes
de production (ex : le conduit vocal). La plus utilisée est celle basée sur le
codage prédictif linéaire (appelée LPC ). L’hypothèse de base est que le canal
buccal est constitué d’un tube cylindrique de section variable. L’ajustement
des paramètres de ce modèle permet de déterminer à tout instant sa
fonction de transfert. Cette dernière fournit une approximation de
l’enveloppe du spectre du signal à l’instant d’analyse (voir figure ).

Spectre lissé obtenu par prédiction linéaire (LPC)

6
On repère alors aisément les fréquences formantiques , c’est-à-dire les
fréquences de résonance du conduit vocal. En effet, elles correspondent au
maximum d’énergie dans le spectre. En répétant cette méthode plusieurs fois, on
obtient l’ empreinte du signal, comme le montre la figure .

Empreinte obtenue par prédiction linéaire (LPC)

7
D’autres méthodes existent, mais elles sont moins employées et nous ne les
détaillerons pas ici. Les tendances actuelles visent à améliorer l’analyse fine
des sons : codage impulsionnel, analyse fractale…

Le codage vectoriel permet de diminuer la quantité d’informations


nécessaires pour coder un mot (et donc l’espace mémoire), en s’appuyant sur
un dictionnaire de spectres instantanés.

D’autre part, l’information prosodique est dominée par la variation de la


fréquence du fondamental Fo . Il est donc important de la déterminer Pour
cela, il existe des méthodes temporelles et fréquentielles utilisant des filtres
et le spectre du signal. Certains problèmes se posent : l’excitation glottale
n’est pas rigoureusement périodique ; la source peut être atténuée dans
certains types de transmissions (téléphone), etc.. Il est par conséquent difficile
d’effectuer des mesures précises.

8
Codage LPC et modélisation ARMA.
1) Principes du codage LPC.
Le codage par prédiction linéaire, ou LPC (Linear Predictive
Coding) repose sur la connaissance du modèle de production
de la parole tel qu’il est décrit par la. Ce modèle peut être
décomposé en deux parties : la source, active, et le conduit,
passif.
Pour les sons non voisés, le signal d’excitation est un bruit
blanc de moyenne nulle et de variance unité. Pour les sons
voisés, cette excitation est une suite d’impulsions d’amplitude
unité :

où P est la période du fondamental (Pitch period).


Le codage LPC consiste à estimer le modèle décrivant le
conduit, en connaissant le signal excitation.
9
2) Modèle AR.
En fait, les deux excitations utilisées pour le codage LPC sont
idéalisées, car la forme réelle de l’impulsion glottale et celle du
rayonnement aux lèvres sont comprises dans l’expression de la
transmittance du modèle.

En première approximation, cette transmittance est celle d’un filtre


polynomial, de la forme 1/A(z) et elle est excitée par les signaux
d’excitations décrits.
Le polynôme A(z) est noté :

10
Ce modèle de production d’un signal est appelé AutoRégressif (AR), récursif,
tous-pôles, ou encore IIR (Infinite Impulse Response). Le signal ainsi produit à
pour transformée en Z :

Dans le domaine temporel, on peut écrire l’équation récurrente suivante:

11
Cette récurrence exprime le fait qu’un échantillon quelconque y(n) peut être
déterminé par une combinaison linéaire des échantillons qui le précèdent,
ajoutée au terme d ’excitation. Les coefficients a(i) sont dit prédicteurs.
Si le signal d ’excitation n’est pas accessible, la quantité :

est la prédiction de y(n) conditionnellement à son passé. En rapprochant


(1) et (2), on peut interpréter u(n) comme étant une erreur de prédiction :

Si, de plus, on cherche à estimer le modèle par observation du signal, cela


justifie la recherche des coefficients a(i) optimaux, en minimisant cette erreur
de prédiction, ou plutôt sa variance s2 dans le cas d'un bruit blanc. On parle
alors de prédiction linéaire. 12
3) Extension MA du modèle.
La modélisation AR du mécanisme de la phonation présente des limitations et
ne caractérise que d’une manière approchée la production de la parole, en
particulier pour les sons nasalisés. Le modèle du conduit nasal est en réalité un
filtre pôles-zéros (ARMA: autorégressif à moyenne ajustée ou Auto-Regressive
Moving Average) et celui du rayonnement aux lèvres est du type tous-zéros
(MA: moyenne ajustée ou encore FIR: Finite Impulse Response).
La transmittance devient alors celle d’un modèle ARMA :

Cela donne dans le domaine temporel la récurrence suivante :

Chaque échantillon y(n) est la combinaison linéaire de p échantillons passés et de


q+1 échantillons présents et passés de l’excitation. 13
4.)Conclusion sur la modélisation ARMA.
Si le modèle ARMA est souvent retenu pour modéliser la parole suivant le
principe généralement retenu, il n’est pas exempt de limitations.
Le modèle ARMA est plus délicat à estimer qu’un modèle AR. Cela amène
parfois à préférer, pour une qualité donnée de la modélisation, un modèle AR
avec un ordre un peu surestimé.
Mais la principale limitation réside dans l’hypothèse de stationnarité du signal
acoustique qui est faite. Il faut réaliser un compromis entre la longueur de la
fenêtre d’analyse et la durée pendant laquelle l’hypothèse de stationnarité est
raisonnable. Ce compromis est réalisable pendant les zones stables (voyelles),
mais il n’est pas satisfaisant durant les phases transitoires et injustifié sur les
plosives.
Plusieurs méthodes d’estimations des modèles ARMA sont décrites dans la
littérature : méthode de corrélation (algorithmes de Levinson ou de Schur), de
covariance (algorithme de Cholesky), de Burg.

14
Le cepstre.
Contrairement au spectrogramme qui ne fait appel à aucune connaissance a
priori sur le signal acoustique, le cepstre est basé sur une connaissance du
mécanisme de production de la parole.

On part de l’hypothèse que la suite sn constituant le signal vocal est le résultat de


la convolution du signal de la source par le filtre correspondant au conduit :
sn = un * bn avec sn le signal temporel, un le signal excitateur, bn la contribution du
conduit.

15
Le but du cepstre est de séparer ces deux contributions par déconvolution.
Il est fait l’hypothèse que gn est soit une séquence d’impulsions
(périodiques, de période T0, pour les sons voisés), soit un bruit blanc,
conformément au modèle de production.

Une transformation en Z permet de transformer la convolution en produit :


S(z) = U(z) . B(z).

Le logarithme (du module uniquement car on ne s’intéresse pas à


l’information de phase) transforme le produit en somme. On obtient alors:
Log |S(z)| = Log |U(z)| + Log |B(z)|

16
Par transformation inverse, on obtient le cepstre.
Dans la pratique, la transformation en Z est remplacée par une TFR. L’expression
du cepstre est donc : ç(n) = FFT -1(Log(FFT(s(n))))

L'espace de représentation du cepstre (espace quéfrentiel) est homogène au


temps et il est possible, par un filtrage temporel (liftrage), de séparer dans le
signal, la contribution de la source de celle du conduit.

Les premiers coefficients cepstraux contiennent l’information relative au conduit.


Cette contribution devient négligeable à partir d’un échantillon n0. Les pics
périodiques visibles au-delà de n0, reflètent les impulsions de la source.

17
A partir du cepstre, il est possible de définir la fréquence fondamentale
de la source gn en détectant les pics périodiques au-delà de n0. Le spectre
du cepstre pour les indices inférieurs à n0 permettra d’obtenir un spectre
lissé, débarrassé des lobes dus à la contribution de la source.

18

Vous aimerez peut-être aussi