Vous êtes sur la page 1sur 30

cours de traitement du signal avancé

Traitement de la parole

H. BELKEBIR1
E-mail: hicham.belkebir@usmba.ac.ma

1 Département Génie Électrique et Informatique


École Nationale des Sciences Appliquées - Fes
Université Sidi Mohamed Ben Abdellah

Support de cours de la filières GTR2, 2018-2019

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 1 / 92


Plan du cours

1 Introduction

2 Introduction

3 traitement numérique du signal

4 Modèle numérique du signal de la parole

5 Modélisation paramétrique de la parole

6 Analyse spectrale du signal de la parole

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 2 / 92


Organisation du Cours

28 H de cours et travaux dirigés :


⇒ 4 séances de 4 H de cours de traitement de signal avancé (TSA);
Travaux pratiques :
⇒ 3 séances de TP par groupe;
Évaluation :
⇒ Contrôle continue au début de chaque séance de cours (à partir de la
deuxième séance).
⇒ Mini-projet de traitement de signal avancé.
⇒ Examen écrit de validation des acquis.

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 3 / 92


Pré-requis du Cours

Physique et mathématiques (CP1 et CP2);

statistique et processus stochastique; (1ére année GTR)


informatique (POO) ;

traitement de signal.

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 4 / 92


Introduction

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 5 / 92


If i could determine what there is in the very rapidly changing
complex speech wave that corresponds to the simple motion
of the lips and tongue. If i could then analyze speech for these
quantities. I would have a set of speech defining signals that
could be handeled as low frequency telegraph currents with
resulting advantages of secrecy, and more telephone channels
in the same frequency space as well as a basis understanding of
the carrier nature of speech by which the lip reader interprets
speech from simple motions
Homer Dudeley, 1935

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 6 / 92


Introduction
Qu’est ce que la parole ?

Définition 1: "la parole est le fait de s’exprimer par le langage articulé"


(dictionnaire Larousse);

Définition 2: "Ensemble de Mots ou phrases prononcées pour exprimer


une pensé, un sentiment · · · (dictionnaire Larousse);

Définition 3: "Usage concret de la langue (système abstrait) par les


locuteurs" (selon les linguistiques)

Définition 4: sur le plan technique, la parole est un signal acoustique


produit par le système phonatoire pour servir de support
physique à l’information généré par le cerveau de L’être
humain.

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 7 / 92


Introduction
Pourquoi le traitement du signal de la parole ?
Pour certaines application, la parole constitue la seule modalité
d’accès à l’information (exemple: communications téléphoniques).
Pour d’autres, elle occupe le rôle de modalité complémentaire
(exemple: contrôle vocale des systèmes);
l’Intérêt d’utiliser la parole comme moyen de communication réside
dans le fait que c’est une modalité riche d’un point de vue
informationnel;
la parole est un signal acoustique sur lequel on a imprimé
l’intelligence généré par notre cerveau par l’intermédiaire d’un mode
de production très complexe.
il en résulte, la nécessité de développer des techniques et des
méthodes appropriés pour :
Préserver le contenu informatif du signal de la parole;
élaborer des modèles qui facilite la représentation de ce signal; ensaf-logo
production artificiel du signal de la parole;
Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 8 / 92
Introduction
Domaines d’application

Reconnaissance de la parole (ASR) :


⇒ Parole interactive (dialogue);
⇒ Dictée vocale ;

Reconnaissance du locuteur :
⇒ Vérification ou identification ;
⇒ Dépendante ou indépendante du texte ;

Synthèse de la parole :
À partir du texte (text to speech synthesis) ;
Synthèse par règle → par concaténation → sélection d’unités

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 9 / 92


Traitement numérique du signal

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 10 / 92


traitement numérique du signal
représentation du signal de la parole

signal acoustique : est produit par le système phonatoire humain. Il


s’agit d’un signal analogique ayant un spectre qui couvre
l’intervalle de fréquence s’étalant de 20[Hz] à 20 [KHz] ;
signal électrique : est le fruit de la transduction du signal acoustique
en signal électrique à l’aide de transducteurs spécifiques
(microphone). On admet que le signal électrique conserve les
traits caractéristiques du signal acoustique ;
signal numérique : est le résultat de la numérisation du signal acquis
par le transducteur par le moyen d’un convertisseur
analogique numérique. Le signal de la parole issue de cette
étape est caractérisé par la fréquence d’échantillonnage Te et
la résolution du CAN (nombre de bits utilisé pour quantifier
l’amplitude du signal);
ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 11 / 92


traitement numérique du signal
système de traitement

Filtre : est un système linéaire temporellement invariant (SLTI) qui


agit par l’intermédiaire de sa fonction de transfert sur le
signal d’entrée pour produire un signal de sortie;
Convolution numérique: est l’opération utilisée par le filtre pour
transformer le signal se présentant à son entrée :
Filtre
x (n) y (n)
H

y (n) = x (n) ∗ h(n) = x (m)h(n − m)
m

Chaque filtre numérique est caractérisé par sa réponse


impulsionnelle h(n) :
δ(n) Filtre h(n)
ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 12 / 92


traitement numérique du signal
transformée en z

définition : soit un signal numérique x (n) ∀n ∈ N, on définit sa


transformée en z bilatérale par l’expression :

X (z) = x (n)z −n avec {z, X (z)} ∈ C
n

X (z) existe si |x (n)||z −n | < ∞. La transformée inverse est
n
donnée par :

1
x (k) = Z −1
(X (z)) = X (z)z k−1 dz
ı2π
Région de convergence: Soit R1 et R2 deux réels tel que X (z)
n’existe que :
∀z ∈ C : R1 < |z| < R2
Alors l’ensemble des z vérifiant cette condition forme la
région de convergence de X (z); ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 13 / 92


traitement numérique du signal
exemples

impulsion de Dirac δ(n) :


Z {δ(n)} = 1
impulsion avec retard δ(n − k) :
Z {δ(n − k)} = z −k
échelon unité u(n) :
1
Z {u(n)} =
1 − z −1
porte u(n) − u(n − N) :
1 − z −N
Z {ΠN (n)} =
1 − z −1
puissance an u(n) :
1
Z {an u(n)} =
1 − az −1 ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 14 / 92


traitement numérique du signal
propriétés de la transformée en z

séquence transformée en z
1. Linéarité ax (n) + by (n) aX (z) + bY (z)
2. Retard x (n − k) z −k X (z)
k−1

3. Avance x (n + k) z k X (z) − xl z k−l
l=0
dX (z)
4. Pondération linéaire nx (n) −z
dz
5. Pondération exponentielle an x (n) X (a−1 z)
6. Inversion temporelle x (−n) X (z −1 )
7. Convolution x (n) ∗ y (n) X (z)Y (z)
1 � z
8. Multiplication x (n)y (n) ı2π C X (µ)Y ( µ )µ dµ
−1

9. Thm valeur initiale x (0) lim X (z)


z→∞
10. Thm valeur finale x (∞) lim (z − 1)X (z)
z→1
ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 15 / 92


traitement numérique du signal
Transformée de Fourier à temps discret

Définition : La TFTD peut être dérivée de l’expression de la


transformée en z moyennant certains modification :


X (e ıω ) = x (n) exp(−ınω)
n=−∞

La transformée inverse s’obtient an calculant :


� π
1
x (n) = X (ω) exp(ınω)dω
2π −π

D’après cette définition, la TFTD apparait comme un cas


particulier de la transformée en z pour lequel on a restreint
les valeurs de z au cercle unité de l’espace complexe
(z = exp(ıω)). De ce fait, la TFTD hérite de toutes les
propriétés de la transformée en z déjà vue. ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 16 / 92


traitement numérique du signal
Transformée de Fourier discrète

Définition : La TFD est définit par l’expression ci-après :


N−1
� 2πk
X (k) = x (n) exp(−ın )
n=0
N

La transformée inverse s’obtient an calculant :

1 N−1
� 2πk
x (n) = X (k) exp(ın )
N k=0 N

La TFD peut être vue comme une discrétisation du cercle


unité avec un pas d’échantillonnage 2π
N

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 17 / 92


traitement numérique du signal I
filtre numérique

Définition : Un filtre numérique est un système linéaire à temps discret


et temporellement invariant. Il est complètement défini si on
connaît sa fonction de transfert
� H(z).
� La réponse
ı 2π k
harmonique du filtre H z = e N s’exprime aussi par
l’expression ci-dessous :

� 2π
� � 2π

H(e ı N k ) = �H(e ı N k )�exp ı∠(H(e ı N k ))
� �
module phase

filtre causal : est un filtre qui ne présente de réponse qu’à des


excitation à temps discret positif:

h(n) = 0 ∀n < 0

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 18 / 92


traitement numérique du signal II
filtre numérique
filtre stable : est un filtre qui produit une réponse finis à toute
excitation finis. Une condition suffisante pour vérifier la
stabilité est donnée par :

|h(n)| < ∞
n

équation aux différences : On peut toujours écrire la sortie d’un


filtre numérique en fonction de l’entrée qui excite le filtre en
utilisant une équation aux différences finis de forme générale :
N
� M

y (n) + ak y (n − k) = bl x (n − l)
k=1 l=0

M

bl z −l
Y (z) l=0
H(z) = =
X (z) N

1+ ak z −k ensaf-logo
k=1
Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 19 / 92
traitement numérique du signal III
filtre numérique
Le dénominateur de la fonction de transfert forme le
polynôme caractéristique du filtre, ses zéros sont les pôles de
H(z). Les zéros du numérateur sont aussi les zéros de H(z) :
M

A (z − zl )
l=0
H(z) =
N

(z − zk )
k=1

stabilité : Le filtre sera stable si tout ses pôles sont à l’intérieur du


cercle unité dans l’espace complexe des z. Si en plus les
zéros du filtres sont aussi à l’intérieur du cercle unité alors le
filtre est dit système à phase minimale.
Types de filtres numérique : On distingue généralement deux types
de filtres numériques:
⇒ Les filtres à réponses impulsionnelles finies (RIF); ensaf-logo
Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 20 / 92
traitement numérique du signal IV
filtre numérique
⇒ Les filtres à réponses impulsionnelles infinies (RII);
filtre fir : ce sont des filtres pour lesquelles les coefficients du
polynôme caractéristique sont tous nuls (ak = 0):
M

y (n) = bl x (n − l)
l=0

M

⇒ H(z) = bl z −l
l=0

Si la réponse impulsionnelle du filtre vérifie la condition


ci-après :
h(n) = ±h(M − n)
alors le filtre FIR possède une variation de phase linéaire.
ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 21 / 92


traitement numérique du signal V
filtre numérique
méthode de conception des fir : Exploitant la propriété de
variation linéaire de la phase des FIRs, trois méthodes de
conception ont été élaboré :
Conception par fenêtrage;
Conception par échantillonnage fréquentiel;
Conception optimal.
représentation des fir par un diagramme de bloc : Ce type de
diagramme permet de rendre compte de la complexité du filtre FIR

x (n − 1) x (n − 2) x (n − M + 1)
x (n) z −1 z −1 z −1 z −1
×b1 ×b2 ×bM−1 ×bM

+ + + +
×b0
y (n)
ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 22 / 92


traitement numérique du signal VI
filtre numérique
filtre iir : Si les coefficients du polynôme caractéristique du filtre sont
non nuls alors le filtre est dit à réponse impulsionnelle infinie
et sa sortie peut être calculée par une relation de récursion :
N
� M

y (n) = − ak y (n − k) + bl x (n − l)
k=1 l=0

Si M < N, la réponse impulsionnel du filtre IIR peut se


mettre sous la forme :
N
� Ak
H(z) = A0 +
k=1
1 − dk z −1

Dans le cas d’un système causal, la réponse impulsionnel du filtre


N

IIR prend la forme : h(n) = A0 δ(n) + Ak dkn u(n)
k=1 ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 23 / 92


traitement numérique du signal VII
filtre numérique
synthèse des filtres iir : On s’intéresse principalement aux
méthodes de synthèse des filtres sélectifs en fréquences.
Celles-ci exploitent le savoir-faire développé dans le domaine
analogique pour synthétiser l’équivalent numérique des filtres
sélectifs. Dans cette classe on distingue quatre designs:
1 Le design de Butterworth ou (maximum flat amplitude

response);
2 le design de Bessel ou (maximum flat group delay);

3 le design de Chebyshev ou l’oscillation résiduelle

constante dans la bande-passante ou atténuée;


4 le design elliptique ou oscillation résiduelle constante

dans la bande-passante et atténuée;


Diagramme de bloc : exemple d’implémentation direct d’un filtre IIR.

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 24 / 92


traitement numérique du signal VIII
filtre numérique

+ +
×b0
x (n) y (n)

z −1 z −1
×b1
+ + ×a1

z −1 z −1
×b2
+ + ×a2

z −1 z −1
×b3
+ + ×a3

×a4
z −1 z −1
×b4

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 25 / 92


traitement numérique du signal I
échantillonnage, décimation et interpolation

échantillonnage : La discrétisation du signal de la parole obéit au


théorème d’échantillonnage élaboré par Shannon-Nyquist.
Soit s(t) le signal de la parole à numérisé. C’est un signal en
principe à bande spectrale limité BW < ∞, alors la
fréquence minimale d’échantillonnage (fréquence de Nyquist)
est celle donnée par la relation Femin = 2FN avec FN = BW .
La période maximale d’échantillonnage est donnée par :
Temax = 2F1N . L’expression mathématique du signal
échantillonné devient :

se (t) = s(t) × δTe (t) = s(nTe)δ(t − nTe)
n

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 26 / 92


traitement numérique du signal II
échantillonnage, décimation et interpolation
spectre du signal échantillonné : Le spectre du signal se (t) se
calcule en utilisant la transformée de Fourier :
� ��
� 1 � � n ��

F {se (t)}| = �
|Se (f )| = |F S f− �
� Te Te �
n

reconstruction du signal analogique : La reconstruction du


signal analogique passe par la transformée de Fourier inverse
du spectre du signal échantillonné restreint à la bande de
base :
sr (t) = F −1 {ΠFe × Se}
� �
� sin π( Tt − n)
sr (t) = s(nTe)
n π( Tt − n)

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 27 / 92


traitement numérique du signal III
échantillonnage, décimation et interpolation
décimation : Dans certains cas, on est contraint de changer le pas
d’échantillonnage du signal discret de la parole (exemple:
conversion de la δ modulation caractérisée par une grande
valeur de Fe vers le PCM multi-bit caractérisé par une Fe
faible). L’opération qui permet d’atteindre cet objectif est la
décimation.
Soit {se }Te une séquence discrète d’un signal échantillonné
avec un pas de Te et soit Te1 la nouvelle période
d’échantillonnage avec laquelle on veut décimer cette
séquence telle que Te1 = KTe alors :

se1 = s(nTe1 )δ(t − nTe1 )
n

se1 = s(nKTe)δ(t − nKTe)
n
ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 28 / 92


traitement numérique du signal IV
échantillonnage, décimation et interpolation
spectre du signal décimé :
1 � n
Se1 (f ) = S(f − )
KTe n KTe

La condition sur la décimation se déduit du théorème


Fe
d’échantillonnage, elle s’exprime comme suit : 2K ≥ FN . Il
est alors clair que pour mettre en œuvre la décimation, il
faut filtrer le signal échantillonné pour réduire la fréquence
de Nyquist.
s(nTe) Passe-bas Décimation s(nKTe)

Le filtre passe-bas est implémenté en utilisant un filtre


numérique de type FIR.

ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 29 / 92


traitement numérique du signal V
échantillonnage, décimation et interpolation
interpolation : à l’opposé de la décimation, l’interpolation est
l’opération qui permet de déterminer la valeur du signal à
des instants discrets non compris dans la séquence d’origine.
En d’autre termes, elle permet d’élever la fréquence
d’échantillonnage du signal. Soit Te1 = TeK le nouveau pas
d’échantillonnage qu’on veut utiliser pour enrichir notre
séquence discrète alors le signal sur-échantillonné aura
l’expression suivante :
� nTe nTe
se1 (t) = s( )δ(t − )
n K K

Les valeurs du signal aux nouveaux instants sont calculées à


partir des échantillons de la séquence d’origine en utilisant
différent types d’interpolant (linéaire, quadrique, cubique,
sinus cardinal, · · · ). ensaf-logo

Hicham BELKEBIR (ENSAF) Traitement de la parole M25 2018 30 / 92