Vous êtes sur la page 1sur 15

Chapitre 1

Généralités sur le signal


de la parole

e traitement de la parole est aujourd’hui une composante fondamentale des sciences de


L l’ingénieur. Située au croisement du traitement du signal numérique et du traitement du
langage (c’est-à-dire du traitement de données symboliques), cette discipline scientifique a
connu depuis les années 60 une expansion fulgurante, liée au développement des moyens et des
techniques de télécommunications.

L’importance particulière du traitement de la parole dans ce cadre plus général s’explique


par la position privilégiée de la parole comme vecteur d’information dans notre société humaine.

L’extraordinaire singularité de cette science, qui la différence fondamentalement des


autres composantes du traitement de l’information, tient sans aucun doute au rôle fascinant que
joue le cerveau humain à la fois dans la production et dans la compréhension de la parole et à

3
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

l’étendue des fonctions qu’il met, inconsciemment, en œuvre pour y parvenir de façon
pratiquement instantanée.

Ce chapitre regroupe des généralités sur le signal de la parole, sur le système de


production de la parole, ainsi que sur les propriétés statistiques d’un signal de la parole.

1.1 Production de la parole


Le processus de production de parole est un mécanisme très complexe qui repose sur une
interaction entre le système neurologique et physiologique. Il y a une grande quantité d’organes
et de muscles qui entrent dans la production de sons des langues naturelles. Le fonctionnement
de l’appareil phonatoire humain repose sur l’interaction entre les poumons, le larynx, et les
cavités supra-glottiques.

Les poumons, le larynx fournissent ce qui est essentiel pour la production de n’importe
quel son, qu’il soit musical ou langagier : une source d’air et une source de bruit. Les cavités
supra-glottiques renferment les organes qui permettent de modifier le son qui est émis par le
travail conjoint des poumons, larynx.

Figure 1.1: Physiologie de la production de la parole.

Lorsque l'air est expulsé des poumons, il passe à travers un tube formé de plusieurs
cartilages appelé le larynx. Le larynx contient des muscles et des cartilages. Les cartilages les

4
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

plus importants et les plus connus sont les cordes vocales qui peuvent s’ouvrir et se refermer très
rapidement (jusqu’à 400 fois par seconde chez les enfants, par exemple), produisant ainsi des
variations de pressions dans l’air. Ces variations de pression sont perçues comme du son par
l’oreille humaine.

Les cordes vocales sont gardées ouvertes ou fermées par les aryténoïdes (cartilages en
forme de pyramide situés à l'arrière des cordes vocales). Une voix typique d'un homme résulte de
mouvements d’ouverture de 100 à 120 fois par seconde (un cycle d’ouverture est appelé un Hertz
: Hz) alors que celle d'une femme est produite par entre 175 et 250 vibrations des cordes vocales
par seconde. Ce bruit, sera modifié par les divers organes de la parole qui font partie des cavités
supra-glottiques. Ces cavités servent à faire résonner le son et à lui donner une « couleur »
particulière qui permettra de différencier les voyelles entre elles par exemple, ou les consonnes
[1].

En résumé la production de la parole se passe en trois (3) étapes essentielles montrée dans
la figure 1.2.

Soufflerie Vibrateur Résonateur


pulmonaire laryngé supra-glottiques

Leur nombre, leur


La parole se greffe Le larynx constitue
forme, leur
sur la respiration la source vocale. Il
volume
dont elle modifie renfermer les cordes
déterminent les
considérablement vocales dont la
différents sons de
le rythme vibration gendre la
voix et l’intonation

Figure 1.2 : Les étapes de production de la parole.

5
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

On peut approximer le système de production de la parole par le modèle source-filtre


(Figure 1.3).

Figure 1.3 : Schéma de système de production de parole.

1.2 Propriétés statistiques d’un signal de parole


Le signal de parole peut être considéré comme un processus aléatoire non stationnaire, c’est-à-
dire que ses propriétés statistiques changent au cours du temps. La non-stationnarité de la parole
résulte des changements au cours du temps aussi bien de la source que de la forme et dimension
du conduit vocal.

Le signal de sortie d’un système linéaire est stationnaire si les caractéristiques du système
sont invariables en fonction du temps et si le signal d’excitation est stationnaire.

Dans la pratique, les caractéristiques du conduit vocal et de la source évoluent lentement


(sauf pour certains sons comme les plosives) et on fera l’hypothèse de quasi-stationnarité sur des
périodes allant de 10 à 30 ms. On pourra donc appliquer pour le traitement des signaux de parole
les méthodes classiques du traitement du signal en prenant certaines précautions et toujours au
prix de certains compromis [2,3].

Les principales caractéristiques des signaux de parole sont [4] :

 La densité de probabilité pour un signal de parole qui est proche d’une répartition
gamma.

6
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

 Le taux de passage par zéro, c’est-à-dire le nombre d’échantillons successifs de signes


opposée qui présente une répartition sensiblement gaussienne et une moyenne d’environ
49 pour les sons non voisés et 14 pour les sons voisés et cela pour des fenêtres de 10 ms.

 La densité spectrale de puissance à court terme (transformée de Fourrier de la fonction


d’auto- corrélation) qui présente, lorsque la tranche est voisée, une structure périodique
fine qui correspond aux harmoniques de l’excitation glottique. Les maximums de
l’enveloppe, de ce spectre, sont les formants, ils correspondent aux résonances du conduit
vocal. Par contre, le spectre d’un signal non voisé ne présente aucune structure
particulière, sauf une accentuation vers les hautes fréquences [2].

1.3 Son voisés et non voisés

Malgré la structure complexe d’un signal de parole, on peut le décomposé par simplification, en
deux types de sons : son voisés et non voisés.

La distinction entre voyelles et consonnes s'effectue de la manière suivante :

 Si le passage de l'air se fait librement à partir de la glotte, on a affaire à une voyelle. Elles
sont produites par l’air des poumons à travers la trachée qui met en vibration les cordes
vocales. Ce mode est caractérisé en général par une quasi-périodicité et une énergie
élevée ;
 Si le passage de l'air à partir de la glotte est obstrué, complètement ou partiellement, en
un ou plusieurs endroits, on a affaire à une consonne. Elles sont obtenues par
resserrement du conduit vocal, et sont habituellement d’énergie inférieure aux sons
voisés. Les cordes vocales sont écartées et n’entrent pas en vibration. Ces sons sont
considérés comme ayant les mêmes caractéristiques que le bruit [4].

7
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

Figure 1.4 : Comparaison d'un son voisé et d'un son non-voisé.

La fréquence de vibration des cordes vocales (pour les sons voisés) est appelée fréquence
fondamentale 𝐹0 ou encore fréquence du pitch. La période fondamentale ou période du pitch ou
simplement le pitch (en nombre d’échantillons) est alors donnée par :

Fe
T (1.1)
F0

où 𝐹𝑒 est la fréquence d’échantillonnage.

1.4 Analyse numérique de la parole


Les traitements effectués sur la parole sont aujourd'hui réalisés dans le domaine numérique. Il
convient donc de numériser ce signal avec un minimum de perte d'information. Nous avons dit
qu'au-dessus de 8 kHz l'information vocale est négligeable, c'est pourquoi un échantillonnage du
signal de parole à 16 kHz convient parfaitement pour conserver la quasi-totalité de l'information.
L'amplitude est alors quantifiée généralement sur 16 bits afin d'obtenir une bonne qualité. Pour
un codage bas-débit on descend conventionnellement l’échantillonnage à 8 kHz qui permet de
conserver la bande téléphonique, donnant un débit d’information nominal de 128 kbits/s.

L'analyse d'un signal de parole se fait soit échantillon par échantillon soit par bloc
d'échantillon. Du fait de sa quasi-stationnarité sur de courtes périodes, le signal de parole est

8
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

généralement analysé sur des trames découpées par une fenêtre de pondération de 20 à 30 ms
avec un taux de recouvrement de 50 % à 75 %, puis représenté dans le domaine spectral. Dans le
cas d'un signal échantillonné à 8 kHz, une fenêtre d'analyse de 256 points correspond à une
longueur de 32 ms. Une fenêtre classiquement utilisée est celle de Hamming. Les
caractéristiques temporelles et fréquentielles du signal de parole représentées conjointement sur
le spectrogramme peuvent avoir des résolutions variables. La résolution temporelle et
fréquentielle du spectrogramme dépend de la largeur du filtre choisi. Plus le filtre sera fin
(quelques Hz), meilleure sera la résolution fréquentielle. A l'inverse plus le filtre s'élargit et plus
la résolution temporelle s'affine. L'amplitude du signal exprimée linéairement dans le domaine
temporel, en fonction de la résolution binaire choisie, et est représentée sur une échelle
logarithmique (mesure en décibels) dans le domaine fréquentiel qui représente mieux la
perception de l'intensité par l'oreille humaine.

De par son mécanisme de production, le signal de parole présente une corrélation à court
terme, induite principalement par la cavité buccale, et une corrélation à long terme, qui découle
directement de la structure périodique du signal. Spectralement ces caractéristiques se traduisent
par une structure formantique du l'enveloppe du signal, pour la corrélation à court terme, et par
une structure fine en peigne, dite harmonique, pour la corrélation à long terme. La première
corrélation conduite à une dépendance des échantillons en fonction des précédents, cette
propriété peut être exploité par l'utilisation d'un filtre de prédiction linéaire. La corrélation à long
terme conduit à une périodicité dans le signal, elle est définie par la détection de la fréquence
fondamentale, et n'existe que dans le cas d'un son voisé. La figure 1.4 présente le signal temporal
et le spectre de deux segments de parole, l'un voisé et l'autre non voisé. Le signal non voisé ne
présente pas les mêmes caractéristiques que le signal voisé : la structure harmonique n'existe pas,
l'enveloppe spectrale est profondément modifiée et elle présente une structure formantique moins
marquée. De plus, le niveau d'énergie d'un signal non voisé est plus faible que pour un signal
voisé [4].

9
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

Echantillons Fréquence (Hz)


(a) (c)

Echantillons Fréquence (Hz)


(b) (d)
Figure 1.5 : Signal temporel et spectre d'un segment de parole voisé (a et c) et non voisé (b et
d).

1.5 Prédiction linéaire


Le signal de la parole numérique n’est pas exploitable directement car beaucoup de données sont
inutiles ou redondante. L’objectif de la paramétrisation du signal de la parole est de réduire la
redondance et de supprimer les informations inutiles en donnant une représentation du signal de
la parole adaptée à l’application.

Différentes paramètres peuvent être utilisés pour la paramétrisation du signal. Parmi eux,
on trouve les paramètres de la prédiction linéaire qui suscité de nombreuses études depuis une
quarantaine d’années. Elle est particulièrement adaptée à la modélisation d’enveloppe spectrale
des signaux de parole.

10
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

Sur le système d’entrée/sortie modélisé Figure 2.6, le signal de sortie s(n) s’écrit comme une
combinaison linéaire des échantillons du signal de sortie observés aux p instants précédents, et
des échantillons du signal d’entrée u(n) observés à l’instant présent et aux q instants précédents.

u(n) s(n)
H(z)

Figure 1.6: Système d’entrée/sortie.

p q
s(n)   ak s(n  k )  G  bl u (n  l ) , b0  1 (1.2)
k 1 l 0

Où G et le couple {ak}, {bl} représentent respectivement le gain et les coefficients du filtre H.


Dans le domaine fréquentiel, en désignant par H(z) la fonction de transfert du système,
l’équation (1.2) s’écrit :

q
1  bl z l
s( z )
H ( z)  G l 1
p
(1.3)
u( z)
1   ak z k

k 1


où s( z )   s(n).z
n  
n
(1.4)

Les racines du numérateur et du dénominateur sont respectivement les zéros et les pôles du
modèle. Les équations (1.2) et (1.3) représentent un modèle général dit modèle Auto-Régressif à
Moyenne Ajustée (ARMA).

Si ak = 0 pour 1≤ k ≤ p, H(z) devient un modèle tout zéro ou modèle à Moyenne Ajustée (MA).

Dans le cas où bl = 0, quel que soit 1≤ l ≤ q, H(z) se réduit à un modèle tout-pôles, appelé modèle
Auto-Régressif (AR). L’équation (1.2) devient dans ce cas :

p
s(n)   ak .s(n  k )  Gu(n) (1.5)
k 1

Le filtre H(z) est souvent référé comme le filtre de synthèse.

11
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

L’utilisation d’un filtre tout-pôle pour la description de l’enveloppe spectrale du signal de


parole est justifiée par la correspondance avec le modèle acoustique du conduit vocal [5] et aussi
par le fait qu’elle est relativement simple. L’efficacité du filtre tout- pôle diminue si la fonction
de transfert du système correspondant au conduit vocal comporte des zéros. C’est le cas par
exemple pour les sons nasaux et fricatifs. Pour pouvoir modéliser efficacement ce type de sons,
beaucoup d’études ont été faites sur la modélisation pôle-zéro [6,7].la modélisation pôle-zéro
nécessite la résolution d’un système d’équation non-linéaire [8] et malgré qu’il existe grand
nombre de méthodes efficaces sous-optimales, la modélisation tout- pôle reste la méthode
dominante pour le codage de parole.

On tente d’approcher s(n) avec les échantillons observés aux instants précédents.
Considérant la prédiction linéaire d’ordre p du signal s(n), le signal de prédiction, à l’instant n,
s’écrit comme une combinaison linéaire des P échantillons passés :

p

s (n)   ak s(n  k ) (1.6)
k 1

La figure 1.7 montre les deux étapes d’analyse et de synthèse lors de la prédiction linéaire court
terme.

La sortie e(n) appelée erreur de prédiction ou signal résiduel est donnée par :

p

e(n)  Gu(n)  s (n)  s (n)  s (n)   ak s (n  k ) (1.7)
k 1

Le filtre, décrit en (1.7), est dit filtre d’analyse (ou blanchisseur) car l’opération de prédiction
linéaire a pour conséquence de décorréler les valeurs de l’erreur de prédiction [8]. Le filtre
d’analyse a pour transformée en z :

p
A( z )  1   ak z k (1.8)
k 1

En appliquant sur le résidu e(n) le filtre inverse ou dit filtre de synthèse définit par la fonction de
1
transfert , on obtient le signal s(n).
A( z )

Pour surmonter le problème de modélisation des zéros dans un modèle AR, il suffit
d’augmenter suffisamment l’ordre du filtre tout-pôle parce que tout zéro peut être approximé

12
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

par un certain nombre de pôles. L’ordre des filtres AR utilisés dans les codeurs de parole à bas
débit varie typiquement entre 8 et 16.

+ +
Signal Signal Sn
Signal Sn résiduel en
Prédicteur a Prédicteur a
l’ordre p l’ordre p

1 1
p 
A( z )  1   ak z
sn k en p sn
1   ak z  k
A( z )
k 1
k 1
Filtre d’analyse
Filtre de synthèse

Figure 1.7: Filtre d’analyse et filtre de synthèse.

1.6 Calcul des coefficients de prédiction


Les coefficients ak connus sous le nom de LPC (Linear Prediction Coefficients) sont estimés sur
les intervalles de temps de courte durée, dans lesquels on considère le signal de parole comme
quasi-stationnaire. Pour obtenir les coefficients ak, on minimise l’erreur quadratique moyenne
sur un intervalle de temps, où on peut supposer le signal s(n) stationnaire :

 
min  e
2
( n)  (1.9)
ak n 

Selon la plage pour la variable n dans la relation (1.8), deux méthodes pour déterminer les
coefficients ak sont généralement utilisées : la méthode d’autocorrélation et la méthode de
covariance [8].

13
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

1.6.1 Méthode d’autocorrélation

Dans cette méthode, le signal s(n) est multiplié par une fenêtre w(n) pour limité la longueur du
signal à analyser et la plage de la variable n est ensuite définie sur l’intervalle (-∞, ∞).on obtient
ainsi le signal fenêtré sw(n) :

s w (n)  w(n)  s(n) (1.10)

La fenêtre la plus simple est la fenêtre rectangulaire :

1 0  n  N-1
wn    (1.11)
0 sinon

Mais c’est la fenêtre de Hamming, fonction cosinus rehaussée, qui est généralement utilisé pour
ses bonnes propriétés (Figure 1.8).

  2 n 
0.54  0.46 cos  0  n  N 1
w(n)    N 1  (1.12)

 0 sinon

1 0

0.9

-20
0.8

0.7
-40

0.6
Amplitude

Amplitude

0.5 -60

0.4

-80
0.3

0.2
-100

0.1

0 -120
0 5 10 15 20 25 30 -0.5 0 0.5
Temps Fréquence

Figure 1.8 : Fenêtre de Hamming pour N = 32 échnatillons.

14
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

On minimise ensuite l’énergie du signal d’erreur E défini par :

2

 p 

E   e (n)    s w (n)   a k s w (n  k ) 
2
 (1.13)
n   n    k 1 

La recherche des coefficients {ak} se fait en minimisant E relativement au coefficient a1…ak.

En dérivant E par rapport aux coefficients {ak}:

E
 0, 1  k  p, (1.14)
a k

On obtient les p équations linéaire suivantes :

p  

 ak
k 1

n  
s w (n  i ) s w (n  k )  s
n  
w (n  i ) s w (n), 1  i  p (1.15)

Dans l’équation (1.13), on considère que les données sont nulles l’extérieur de la fenêtre
d’analyse w (n).

En définissant la fonction d’autocorrélation du signal fenêtré s w(n) :

 N 1
R(i )   s w (n) s w (n  i )   s w (n) s w (n  i ) , 0i p (1.16)
 n i

Où N représente la longueur de la fenêtre d’analyse, et en substituant les équations (1.14) aux


équations (1.13), on obtient les équations suivantes :

 R i  k   Ri , 1  i  p
p

a
k 1
k (1.17)

Cette dernière équation peut s’écrire sous la forme matricielle :

 R(0) R(1)  R( p  1)   a1   R(1) 


 R(1) a  
 R(0)  R( p  2)  2    R(2) 

(1.18)
 ... ... ... ...     
     
 R( p  1) R( p  2)  R(0)  a p   R( p)

Ce système matriciel se résout en tenant compte du fait que la matrice d’autocorrélation est une
matrice de Toeplitz. Cette propriété permet de résoudre efficacement, c’est-à-dire sans inversion
de la matrice R(i), le système par l’algorithme de Levinson-Durbin décrit dans [9].

15
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

Cette propriété assure également que le filtre A(z) est à phase minimale [10].dans le filtre de
1
synthèse, H ( z )  , les zéros de A(z) deviennent les pôles de H(z) et le fait que A(z) soit à
A( z )
phase minimale garantit la stabilité du filtre de synthèse H(z).

1.6.2 Méthode de covariance

Dans la méthode de covariance, c’est le signal d’erreur qui est fenêtré (au contraire de la
méthode d’autocorrélation dans laquelle on fenêtre le signal sn).

L’énergie E du signal s’écrit alors :

 
E  ew2 (n) 
n  
e
n  
2
(n)  w(n) (1.19)

En dérivant E par rapport aux coefficients {ak}, on obtient les p équations linéaires suivantes :

a
k 1
k   (i, k )   (i,0) , 1 i  p (1.20)

Où Φ(i,k) est la fonction de covariance du signal sn définie par :


 (i, k )   w(n)  s(n  i)  s(n  k )
n  
(1.21)

Les équations (1.20) peuvent s’écrire sous la forme matricielle suivante :

  (1,1)  (1,2)   (1, p)   a1    (1) 


 (2,1)  (2,2)  
   (2, p)   a 2   (2) 
 (1.22)
         
    
 ( p,1)  ( p,2)   ( p, p) a p   ( p)

Avec Ψ (i) = Φ (i, 0) pour 1≤ i ≤ p.

Cette matrice est symétrique mais les coefficients sur les diagonales ne sont pas égaux entre eux,
à la différence de la matrice d’autocorrélation définie ci-dessus. La méthode de décomposition
de Cholesky permet de résoudre ce système [11]

L’intérêt de la méthode de covariance est de ne faire aucune hypothèse concernant les données à
l’extérieur de l’intervalle d’analyse [9], offrant ainsi une estimation spectrale plus fine [12].Cette
méthode permet d’estimer plus précisément l’enveloppe spectrale, et de conserver une bonne

16
CHAPITRE 1 : GENERALITES SUR LE SIGNAL DE LA PAROLE

précision temporelle car elle minimise l’erreur sur un intervalle fini. L’inconvénient est que
contrairement à la méthode de l’autocorrélation, la stabilité du filtre tout-pôle n’est pas assurée.

17

Vous aimerez peut-être aussi