Vous êtes sur la page 1sur 24

TRAITEMENT DE LA PAROLE

http://scgwww.epfl.ch/courses
Dr. Andrzej Drygajlo, ELE 233

andrzej.drygajlo@epfl.ch
Speech Processing and Biometrics Group (GTPB)
Laboratoire de lIDIAP (LIDIAP)
Signal Processing Institute (ITS)
Swiss Federal Institute of Technology Lausanne (EPFL)
National Center of Competence in Research (NCCR)
Interactive Multimodal Information Management (IM)2
IDIAP Research Institute, Martigny

Examen

Question 1
Production et perception de la parole
Analyse et modlisation de la parole

Question 2
Reconnaissance de la parole et du locuteur
Synthse de la parole
Compression et codage de la parole

Question 3
Calcul
20 minutes de prparatifs et 20 minutes de rponses

Question 1

Production et perception de la parole


1. Acoustique de la phonation
2. Caractres des sensations auditives (sonie,

tonie)
3. Effet de masque simultan (frquentiel)
4. Bandes critiques (chelles Bark et mel)

Question 1

Analyse et modlisation de la parole


5.
6.
7.
8.
9.
10.
11.

Analyse temporelle court terme (nergie, puissance,


amplitude moyenne et passages par zro)
Autocorrlation court terme, AMDF et estimation de la
periode du fondamental
Analyse de Fourier court terme et spectrogramme
Analyse homomorphique: cepstre complexe, cepstre
rel et estimation des formants
Modle autorgressif de production du signal vocal et
prdiction linaire, mthode de corrlation
Algorithme de Levinson-Durbin, filtres danalyse et de
synthse en treillis
Prdiction linaire: spectre du modle et estimation des
formants

Question 2

Reconnaissance de la parole et du locuteur


1. Reconnaissance de mots isols. Comparaison
2.

3.
4.
5.
6.

dynamique de formes acoustiques


Reconnaissance de mots isols. Mthode statistique:
chanes de Markov caches, fonctions de densit de
probabilit discrtes et continues
Algorithme de Baum-Welch et algorithme de Viterbi
Restimation des paramtres
Reconnaissance du locuteur: mthodes dterministes
Reconnaissance du locuteur: mthodes statistiques

Question 2

Synthse de la parole
7. Synthtiseur formants
8. Synthtiseur prdiction lineaire
9. Synthse de messages et synthse partir du

texte
Synthse par diphones
Synthse par rgles

Question 2

Compression et codage de la parole


10. Modulation par impulsions codes (MIC-PCM)

et quantification non uniforme


11. Codage MIC diffrentiel (MICD-DPCM)
12. Codage MIC diffrentiel adaptatif (MICDAADPCM) et quantification adaptative
13. Codage en sous bandes
14. Vocodeur et codeur prdictif excit par codes
(CELP)

Question 3
Calcul
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

Spectrogramme
Coefficients cepstraux
Coefficients de prdiction linaire et dnergie
rsiduelle de prdiction
Frquence centrale du formant
Coefficients de corrlation partielle
Distance accumule
Probabilit totale et maximale dmission
Restimation de paramtres du modle
"Segment list generation
Allocation de bits

Spectrogramme (1)

Spectrogramme (2)

Coefficients cepstraux

Coefficients de prdiction linaire et dnergie rsiduelle de prdiction

On cherche approcher le signal suivant:

x ( n ) = n , n = 0, , N 1
avec = 0.5, N = 4, p = 1
Ce signal est produit par un systme autorgressif dordre 1:

1
X (z)
=
T (z) =
U ( z ) 1 + a (1) z 1
x ( n ) = a (1) x ( n 1) + u ( n )
ou

u (n) = (n)

et

a (1) = = 0.5

Frquence centrale du formant


Soit

x(n) = sin( k n) = sin


k n
N

La frquence dchantillonnage de ce signal vaut f e = 8 kHz

La fonction de transfert du filtre inverse A( z ) est calcule


laide de la mthode de corrlation de prdiction linaire et
pour lordre de prdiction p = 2 et N = 8 elle vaut:
A( z ) = 1 + a (1) z 1 + a (2) z 2 = ( z 0.9574 e j2.3571 )( z 0.9574 e j2.3571 ) z 2

Dterminer la frquence f k de la sinusode x(n) .

Coefficients de corrlation partielle


Soit
r (0) r (1) r (2) r (3)

r (1) r (0) r (1) r (2)

+ k3
r (2) r (1) r (0) r (1)

r (3) r (2) r (1) r (0)

E3
E2
0

= + k3 =
0

E 0


2

La reprsentation matricielle dun systme de prdiction dordre 3.


Calculer:
1) Le coefficient de corrlation partielle k3 en fonction des coefficients de
prdiction a2(i) et de lnergie rsiduelle E2 dun systme dordre 2, ainsi
que de coefficients r(i).
2) Lnergie rsiduelle E3 en fonction de E2 et k3.

Distance accumule
Dterminez un chemin w qui donne une distance accumule D( I , J )
minimale entre un mot de test T(I=5) et un mot de rfrence
R(J=3), si le contraintes locales sont de type C:

D (i 1, j )

D(i, j ) = d (i, j ) + min D(i 1, j 1) + d (i, j )

D (i, j 1)

D(1,1) = 2 d (1,1)

Probabilit totale

b22 (1) = 0.3

a 22 = 1 .0 b22 ( 2) = 0.7

La probabilit en avant
1 .0 0 .3
0 .0

a12 = 0 .4
b12 (1) = 0.5
b (2) = 0.5
12

1 .0 0 .3
0 .2

1
a11 = 0 .6 b (1) = 0.8
11
b (2) = 0.2
11

1 .0 0 .7
0.76

0 .4 0 .5
0 .6 0 .8

j (t )
0.16

0 .4 0 .5
0 .6 0 .8

0 .4 0 .5
0 .6 0 .2

1.0

0.48

0 .23

0 .03

t=0

t =1

t=2

t =3

x1

1 t =0 j=I

j (t ) = (t 1) a B ( X (t )) t > 0
i
ij
ij

x1

x2
La probabilit totale

F ( L ) = PTOT ( X ) = P ( X W )

Probabilit maximale

b22 (1) = 0.3

a 22 = 1 .0 b22 ( 2) = 0.7

1 .0 0 .3
0 .0

a12 = 0 .4
b12 (1) = 0.5
b (2) = 0.5
12

1 .0 0 .3
0 .2

0.09

0 .4 0 .5

0 .6 0 .8

a11 = 0 .6 b (1) = 0.8


11
b (2) = 0.2
11

1 .0 0 .7

0.06

0 .4 0 .5
0 .6 0 .8

0 .4 0 .5
0 .6 0 .2

1.0

0.48

0 .23

0 .03

t=0

t =1

t=2

t =3

x1

x1

x2

p j (t ) = max [ p i (t 1) a ij ] bij ( x (t ))
i

[log( pi (t 1)) + log( aij ) ]


log( p j (t )) = log( bij ( x (t )) min
i

Restimation de a11

b22 (1) = 0.3

a 22 = 1 .0 b22 ( 2) = 0.7
1.0

a12 = 0 .4
b12 (1) = 0.5
b (2) = 0.5
12

0 .6 0 .8

a11 = 0 .6 b (1) = 0.8


11
b (2) = 0.2
11

1.0

0.24

t=0

t =1

x1

11 (1) =

0 .0
t=2

x1

t =3

x2

1.0 0.6 0.8 0.236


= 0.708
0.16

Restimation de a11

b22 (1) = 0.3

a 22 = 1 .0 b22 ( 2) = 0.7
1.0

a12 = 0 .4
b12 (1) = 0.5
b ( 2) = 0.5
12

0 .6 0 .8

a11 = 0 .6 b (1) = 0.8


11
b (2) = 0.2
11

1.0

0.48

0 .2

0 .0

t=0

t =1

t=2

t =3

x1

11 (2) =

x1

x2

0.48 0.6 0.8 0.2


= 0.288
0.16

Restimation de a11

b22 (1) = 0.3

a 22 = 1 .0 b22 ( 2) = 0.7

a12 = 0 .4
b12 (1) = 0.5
b ( 2) = 0.5
12

0 .6 0 .2

a11 = 0 .6 b (1) = 0.8


11
b (2) = 0.2
11

1.0

0.48

0 .23

0 .0

t=0

t =1

t=2

t =3

x1

x1

x2

a11 =

t =1

t =1

11

11

(t )

(t ) + 12 (t )

0.996
= 0.51
0.996 + 0.97

11 (2) =

0.23 0.6 0.2 0.0


=0
0.16

Segment list generation (exercice)


After some language processing, the command
_ #120 s #70 I #150 _ #100 is presented at the input
of the synthesizer.

In the segment list generator the following units are


available:
Segment names

Duration of sub-segments

_s

#100

#50

sI

#30

#90

I_

#90

#200

Segment list generation (exercice)


Durations have to be adapted.
A constant shortening (or lengthening) ratio can be
applied throughout a given phoneme

The final synthesis command:


_s #120 #44 sI #26 #75 I_ #75 #100 where #nnn
denotes the desired duration of subsegments
_____________________________________
s(_s) + s(sI) = 70 and s(_s):s(sI)=50:30
Hence: s(_s) = 44 and s(sI) = 26

Allocation de bits
Dcomposition en deux sous-bandes

1 2
a) = = x
2
16 2
1 2
2
2
b) x0 = x and x1 = x
17
17
2
x0

Pour

b N = 3 2 = 6

2
x1

trouvez

b0 et b1

x2 2
1
=3
a) b0 = 3 + log 2
12
2
2
2
[( x 2)( x 2)]
16 x2 17
1
=4
b) b0 = 3 + log 2
12
2
2
2
[(16 x 17 )( x 17 )]

a) 10 log GSB = 10 log1 0 dB


17
b) 10 log GSB = 10 log 3 dB
8

b0 + b1 = b N

Contenu

Production et perception de la parole


Analyse et modlisation de la parole
Reconnaissance de la parole
Reconnaissance du locuteur
Synthse de la parole
Compression et codage de la parole
Communication vocale homme-machine