Académique Documents
Professionnel Documents
Culture Documents
3
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
l’étendue des fonctions qu’il met, inconsciemment, en œuvre pour y parvenir de façon
pratiquement instantanée.
Les poumons, le larynx fournissent ce qui est essentiel pour la production de n’importe
quel son, qu’il soit musical ou langagier : une source d’air et une source de bruit. Les cavités
supra-glottiques renferment les organes qui permettent de modifier le son qui est émis par le
travail conjoint des poumons, larynx.
Lorsque l'air est expulsé des poumons, il passe à travers un tube formé de plusieurs
cartilages appelé le larynx. Le larynx contient des muscles et des cartilages. Les cartilages les
4
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
plus importants et les plus connus sont les cordes vocales qui peuvent s’ouvrir et se refermer très
rapidement (jusqu’à 400 fois par seconde chez les enfants, par exemple), produisant ainsi des
variations de pressions dans l’air. Ces variations de pression sont perçues comme du son par
l’oreille humaine.
Les cordes vocales sont gardées ouvertes ou fermées par les aryténoïdes (cartilages en
forme de pyramide situés à l'arrière des cordes vocales). Une voix typique d'un homme résulte de
mouvements d’ouverture de 100 à 120 fois par seconde (un cycle d’ouverture est appelé un Hertz
: Hz) alors que celle d'une femme est produite par entre 175 et 250 vibrations des cordes vocales
par seconde. Ce bruit, sera modifié par les divers organes de la parole qui font partie des cavités
supra-glottiques. Ces cavités servent à faire résonner le son et à lui donner une « couleur »
particulière qui permettra de différencier les voyelles entre elles par exemple, ou les consonnes
[1].
En résumé la production de la parole se passe en trois (3) étapes essentielles montrée dans
la figure 1.2.
5
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
Le signal de sortie d’un système linéaire est stationnaire si les caractéristiques du système
sont invariables en fonction du temps et si le signal d’excitation est stationnaire.
La densité de probabilité pour un signal de parole qui est proche d’une répartition
gamma.
6
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
Malgré la structure complexe d’un signal de parole, on peut le décomposé par simplification, en
deux types de sons : son voisés et non voisés.
Si le passage de l'air se fait librement à partir de la glotte, on a affaire à une voyelle. Elles
sont produites par l’air des poumons à travers la trachée qui met en vibration les cordes
vocales. Ce mode est caractérisé en général par une quasi-périodicité et une énergie
élevée ;
Si le passage de l'air à partir de la glotte est obstrué, complètement ou partiellement, en
un ou plusieurs endroits, on a affaire à une consonne. Elles sont obtenues par
resserrement du conduit vocal, et sont habituellement d’énergie inférieure aux sons
voisés. Les cordes vocales sont écartées et n’entrent pas en vibration. Ces sons sont
considérés comme ayant les mêmes caractéristiques que le bruit [4].
7
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
La fréquence de vibration des cordes vocales (pour les sons voisés) est appelée fréquence
fondamentale 𝐹0 ou encore fréquence du pitch. La période fondamentale ou période du pitch ou
simplement le pitch (en nombre d’échantillons) est alors donnée par :
Fe
T (1.1)
F0
L'analyse d'un signal de parole se fait soit échantillon par échantillon soit par bloc
d'échantillon. Du fait de sa quasi-stationnarité sur de courtes périodes, le signal de parole est
8
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
généralement analysé sur des trames découpées par une fenêtre de pondération de 20 à 30 ms
avec un taux de recouvrement de 50 % à 75 %, puis représenté dans le domaine spectral. Dans le
cas d'un signal échantillonné à 8 kHz, une fenêtre d'analyse de 256 points correspond à une
longueur de 32 ms. Une fenêtre classiquement utilisée est celle de Hamming. Les
caractéristiques temporelles et fréquentielles du signal de parole représentées conjointement sur
le spectrogramme peuvent avoir des résolutions variables. La résolution temporelle et
fréquentielle du spectrogramme dépend de la largeur du filtre choisi. Plus le filtre sera fin
(quelques Hz), meilleure sera la résolution fréquentielle. A l'inverse plus le filtre s'élargit et plus
la résolution temporelle s'affine. L'amplitude du signal exprimée linéairement dans le domaine
temporel, en fonction de la résolution binaire choisie, et est représentée sur une échelle
logarithmique (mesure en décibels) dans le domaine fréquentiel qui représente mieux la
perception de l'intensité par l'oreille humaine.
De par son mécanisme de production, le signal de parole présente une corrélation à court
terme, induite principalement par la cavité buccale, et une corrélation à long terme, qui découle
directement de la structure périodique du signal. Spectralement ces caractéristiques se traduisent
par une structure formantique du l'enveloppe du signal, pour la corrélation à court terme, et par
une structure fine en peigne, dite harmonique, pour la corrélation à long terme. La première
corrélation conduite à une dépendance des échantillons en fonction des précédents, cette
propriété peut être exploité par l'utilisation d'un filtre de prédiction linéaire. La corrélation à long
terme conduit à une périodicité dans le signal, elle est définie par la détection de la fréquence
fondamentale, et n'existe que dans le cas d'un son voisé. La figure 1.4 présente le signal temporal
et le spectre de deux segments de parole, l'un voisé et l'autre non voisé. Le signal non voisé ne
présente pas les mêmes caractéristiques que le signal voisé : la structure harmonique n'existe pas,
l'enveloppe spectrale est profondément modifiée et elle présente une structure formantique moins
marquée. De plus, le niveau d'énergie d'un signal non voisé est plus faible que pour un signal
voisé [4].
9
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
Différentes paramètres peuvent être utilisés pour la paramétrisation du signal. Parmi eux,
on trouve les paramètres de la prédiction linéaire qui suscité de nombreuses études depuis une
quarantaine d’années. Elle est particulièrement adaptée à la modélisation d’enveloppe spectrale
des signaux de parole.
10
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
Sur le système d’entrée/sortie modélisé Figure 2.6, le signal de sortie s(n) s’écrit comme une
combinaison linéaire des échantillons du signal de sortie observés aux p instants précédents, et
des échantillons du signal d’entrée u(n) observés à l’instant présent et aux q instants précédents.
u(n) s(n)
H(z)
p q
s(n) ak s(n k ) G bl u (n l ) , b0 1 (1.2)
k 1 l 0
q
1 bl z l
s( z )
H ( z) G l 1
p
(1.3)
u( z)
1 ak z k
k 1
où s( z ) s(n).z
n
n
(1.4)
Les racines du numérateur et du dénominateur sont respectivement les zéros et les pôles du
modèle. Les équations (1.2) et (1.3) représentent un modèle général dit modèle Auto-Régressif à
Moyenne Ajustée (ARMA).
Si ak = 0 pour 1≤ k ≤ p, H(z) devient un modèle tout zéro ou modèle à Moyenne Ajustée (MA).
Dans le cas où bl = 0, quel que soit 1≤ l ≤ q, H(z) se réduit à un modèle tout-pôles, appelé modèle
Auto-Régressif (AR). L’équation (1.2) devient dans ce cas :
p
s(n) ak .s(n k ) Gu(n) (1.5)
k 1
11
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
On tente d’approcher s(n) avec les échantillons observés aux instants précédents.
Considérant la prédiction linéaire d’ordre p du signal s(n), le signal de prédiction, à l’instant n,
s’écrit comme une combinaison linéaire des P échantillons passés :
p
s (n) ak s(n k ) (1.6)
k 1
La figure 1.7 montre les deux étapes d’analyse et de synthèse lors de la prédiction linéaire court
terme.
La sortie e(n) appelée erreur de prédiction ou signal résiduel est donnée par :
p
e(n) Gu(n) s (n) s (n) s (n) ak s (n k ) (1.7)
k 1
Le filtre, décrit en (1.7), est dit filtre d’analyse (ou blanchisseur) car l’opération de prédiction
linéaire a pour conséquence de décorréler les valeurs de l’erreur de prédiction [8]. Le filtre
d’analyse a pour transformée en z :
p
A( z ) 1 ak z k (1.8)
k 1
En appliquant sur le résidu e(n) le filtre inverse ou dit filtre de synthèse définit par la fonction de
1
transfert , on obtient le signal s(n).
A( z )
Pour surmonter le problème de modélisation des zéros dans un modèle AR, il suffit
d’augmenter suffisamment l’ordre du filtre tout-pôle parce que tout zéro peut être approximé
12
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
par un certain nombre de pôles. L’ordre des filtres AR utilisés dans les codeurs de parole à bas
débit varie typiquement entre 8 et 16.
+ +
Signal Signal Sn
Signal Sn résiduel en
Prédicteur a Prédicteur a
l’ordre p l’ordre p
1 1
p
A( z ) 1 ak z
sn k en p sn
1 ak z k
A( z )
k 1
k 1
Filtre d’analyse
Filtre de synthèse
min e
2
( n) (1.9)
ak n
Selon la plage pour la variable n dans la relation (1.8), deux méthodes pour déterminer les
coefficients ak sont généralement utilisées : la méthode d’autocorrélation et la méthode de
covariance [8].
13
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
Dans cette méthode, le signal s(n) est multiplié par une fenêtre w(n) pour limité la longueur du
signal à analyser et la plage de la variable n est ensuite définie sur l’intervalle (-∞, ∞).on obtient
ainsi le signal fenêtré sw(n) :
1 0 n N-1
wn (1.11)
0 sinon
Mais c’est la fenêtre de Hamming, fonction cosinus rehaussée, qui est généralement utilisé pour
ses bonnes propriétés (Figure 1.8).
2 n
0.54 0.46 cos 0 n N 1
w(n) N 1 (1.12)
0 sinon
1 0
0.9
-20
0.8
0.7
-40
0.6
Amplitude
Amplitude
0.5 -60
0.4
-80
0.3
0.2
-100
0.1
0 -120
0 5 10 15 20 25 30 -0.5 0 0.5
Temps Fréquence
14
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
2
p
E e (n) s w (n) a k s w (n k )
2
(1.13)
n n k 1
E
0, 1 k p, (1.14)
a k
p
ak
k 1
n
s w (n i ) s w (n k ) s
n
w (n i ) s w (n), 1 i p (1.15)
Dans l’équation (1.13), on considère que les données sont nulles l’extérieur de la fenêtre
d’analyse w (n).
N 1
R(i ) s w (n) s w (n i ) s w (n) s w (n i ) , 0i p (1.16)
n i
R i k Ri , 1 i p
p
a
k 1
k (1.17)
Ce système matriciel se résout en tenant compte du fait que la matrice d’autocorrélation est une
matrice de Toeplitz. Cette propriété permet de résoudre efficacement, c’est-à-dire sans inversion
de la matrice R(i), le système par l’algorithme de Levinson-Durbin décrit dans [9].
15
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
Cette propriété assure également que le filtre A(z) est à phase minimale [10].dans le filtre de
1
synthèse, H ( z ) , les zéros de A(z) deviennent les pôles de H(z) et le fait que A(z) soit à
A( z )
phase minimale garantit la stabilité du filtre de synthèse H(z).
Dans la méthode de covariance, c’est le signal d’erreur qui est fenêtré (au contraire de la
méthode d’autocorrélation dans laquelle on fenêtre le signal sn).
E ew2 (n)
n
e
n
2
(n) w(n) (1.19)
En dérivant E par rapport aux coefficients {ak}, on obtient les p équations linéaires suivantes :
a
k 1
k (i, k ) (i,0) , 1 i p (1.20)
(i, k ) w(n) s(n i) s(n k )
n
(1.21)
Cette matrice est symétrique mais les coefficients sur les diagonales ne sont pas égaux entre eux,
à la différence de la matrice d’autocorrélation définie ci-dessus. La méthode de décomposition
de Cholesky permet de résoudre ce système [11]
L’intérêt de la méthode de covariance est de ne faire aucune hypothèse concernant les données à
l’extérieur de l’intervalle d’analyse [9], offrant ainsi une estimation spectrale plus fine [12].Cette
méthode permet d’estimer plus précisément l’enveloppe spectrale, et de conserver une bonne
16
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE
précision temporelle car elle minimise l’erreur sur un intervalle fini. L’inconvénient est que
contrairement à la méthode de l’autocorrélation, la stabilité du filtre tout-pôle n’est pas assurée.
17