Académique Documents
Professionnel Documents
Culture Documents
VAD Approche Statistique
VAD Approche Statistique
Introduction gnrale
7
7
8
10
10
15
17
.
.
.
.
.
.
.
18
19
21
23
23
24
25
26
.
.
.
.
.
.
29
29
33
34
34
34
37
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Conclusion gnrale
38
Annexes
39
41
42
43
Bibliographie
46
organigramme du CRDT/1RM . . . . . . . . . . . . . . . . . . . . . . .
2.1
2.2
2.3
11
12
14
3.1
3.2
3.3
18
24
3.4
4.1
4.2
4.3
4.4
4.5
4.6
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
temps pour lchantillon
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
27
28
30
31
32
35
36
37
Introduction gnrale
EMP
Dans le second chapitre, on va faire un rappel de quelques notions sur le signal de parole
suivi dune tude thorique et gnrale de la dtection dactivit vocale VAD. Le troisime chapitre consiste en une prsentation dtaille du VAD propos. Cette prsentation
comprend le choix du modle statistique du bruit, ltablissement de la rgle de dcision
ainsi que la description de la mthode destimation des paramtres du bruit. Une analyse
des performances du VAD propos, ainsi que les rsultats des simulations sur Matlab,
sont prsents dans le dernier chapitre. Une conclusion gnrale clture ce rapport.
Chapitre 1
Prsentation de ltablissement
daccueil
1.1
Prsentation de ltablissement
EMP
1.2
Le
Le
Le
Le
Le
Le
organisation du CRDT/1 RM
EMP
Chapitre 2
Gnralits sur la dtection dactivit
vocale
2.1
Si lon tente une dfinition, la parole est la capacit de ltre humain de communiquer
la pense par lintermdiaire de sons articuls . D son importance, la parole a proccup
depuis toujours les scientifiques. Ainsi quelques-unes des sciences qui se proccupent de
ltude de la parole ont dj des centaines dannes. Dautres sont plus rcentes, comme
le traitement numrique de la parole, qui ne compte pas plus de quarante ans.
La production de la parole commence avec la formulation de la pense tre communique. La personne qui parle, suite des processus neurologiques et musculaires, produit
les fluctuations de la pression de lair qui constituent le signal vocal. Celui-ci se propage
dans le milieu, qui dhabitude est lair, jusquaux oreilles de lcouteur o il est reu et,
aprs une certaine analyse, il est envoy vers le cerveau qui linterprte. Donc le signal
vocal a une nature duale. Il peut tre analys de point de vue objectif comme tant une
ralit physique ou de point de vue subjectif si on regarde la sensation psycho-acoustique
produite au niveau du cerveau .
Comme on vient de voir, la production de la parole est un processus complexe, qui implique des phnomnes neurologiques, physiologiques et physiques. Dans un tel contexte
ltude de la parole est une science multidisciplinaire. Pour une meilleure comprhension,
lingnieur qui travaille dans ce domaine devrait connatre les notions de base caractristiques chacune de ces disciplines quil rencontre dans son travail.
10
EMP
EMP
EMP
tion. Il existe deux types lmentaires dexcitation qui produisent les sons voiss et non
voiss.
Les sons voiss sont produits partir dune excitation qui agit sur le conduit vocal et
qui consiste en une suite dimpulsions priodiques dair fournies par le larynx. Les cordes
vocales au dbut sont fermes. Sous la pression continue de lair qui vient des poumons
elles souvrent graduellement dlivrant cette nergie potentielle. Pendant cette ouverture
la vitesse de lair et lnergie cintique augmentent jusqu ce que la tension lastique
des cordes vocales gale la force de sparation du courant dair. A ce point louverture de
la glotte est maximale. Lnergie cintique qui a t accumule comme tension lastique
dans les cordes vocales va acclrer la fermeture abrupte de la glotte . Ce processus
priodique est caractris par une frquence propre chaque personne, connue sous le
nom de frquence du fondamental F0 ou pitch et il donne la hauteur normale de la voix.
La frquence fondamentale peut varier de 80 200 Hz pour une voix masculine, de 150
450 Hz pour une voix fminine et de 200 600 Hz pour une voix denfant .
Cette frquence fondamentale peut varier suite des facteurs lis au stress, intonation et motions. Le timbre de la voix est dtermin par les amplitudes relatives des
harmoniques du fondamental.
Les sons non voiss sont gnrs par le passage de lair dans une constriction troite
situ en un point du conduit vocal. ils sont gnrs sans lapport du larynx et ne prsentent
pas de structure priodique.
Une modlisation exhaustive pour la production de la parole est trs difficile et pour
des raisons pratiques, inefficace. Lide de base dans la modlisation numrique est darriver un modle linaire qui produit en sortie un signal quivalent au signal vocal. Le
modle est correct dans la mesure ou sa sortie sapproche du signal vocal sans modliser les phnomnes physiques intrinsques la production du signal vocal . La figure 3
prsente un tel modle gnral qui est utilis dans le traitement numrique de la parole.
Dans ce modle gnral (figure 2.3) on utilise deux sources dexcitation. Pour les sons
non voiss la source dexcitation est un bruit blanc. Pour la production des sons voiss la
source dexcitation est un train priodique dimpulsions qui traverse un filtre passe bas
dordre 2. Ce filtre, qui modlise le fonctionnement du larynx, a une frquence de coupure
denviron 100 Hz.
G(z) =
A
(1 +
az 1 )(1
13
+ bz 1 )
EMP
Fk =
fs cos
2
b2k
Au bout du conduit vocal le son passe travers louverture des lvres. Celles-ci sont vues
comme une composante qui transforme le dbit volumique dans une onde de pression
une certaine distance. Dans le domaine spectral le rayonnement des lvres a leffet dun
filtrage passe haut. Le plus simple filtre numrique qui a cette proprit est :
R(z) = C(1 z 1 )
Pour des raisons de stabilit numrique et encore certaines dtails physiques le zro
introduit par R(z) est dplac lintrieur du cercle unit :
R(z) = C(1 z0 z 1 ) , z0 1, z0 < 1
14
EMP
La prsence dun numrateur diffrent dune constante rend difficile lestimation des
paramtres du systme. Pour liminer cet inconvnient on spcule sur lidentit :
1 z0 z 1 = PK
k k
k=0 z0 z
H(z)R(z)
pour les sons voiss
G(z)H(z)R(z)
pour les sons non voiss
Cette fonction de transfert de type tous-ples qui est la base de la modlisation par
prdiction linaire a t justifie thoriquement et vrifie pratiquement. Cependant elle
prsente une srie de limitations.
La reprsentation numrique dun signal analogique implique lchantillonnage, la
quantification du chaque chantillon et le codage. La frquence dchantillonnage doit
respecter le thorme de Shannon . Le pas de quantification est en rapport avec la prcision dsir . Le codage est reli au problme technique particulier en vue de sa transmission ou de son enregistrement. Ce domaine est trs vaste, il stend depuis le codage
MIC (Modulation par impulsions Codes) utilis en tlphonie numrique commerciale
jusquaux algorithmes trs complexes qui permettent dliminer la redondance du signal
vocal.
Le spectre du signal vocal stend jusqu 12 kHz et en consquence, si on veut garder toute linformation, une frquence dchantillonnage dau moins 24 kHz simpose.En
faisant un compromis sur la qualit en faveur du cot du traitement numrique la frquence dchantillonnage peut varier dans des limites assez larges et devenir efficace pour
le problme concret rsoudre. Ainsi on utilise une frquence dchantillonnage de 8 kHz
pour la tlphonie et de 6 16 kHz pour lanalyse ou la synthse du signal vocal.
2.2
EMP
absente dans le signal vocal analys. Un algorithme de VAD fonctionne selon une logique
binaire. Il produit les valeurs logiques 1 ou 0 pour chaque segment ou trame de signal
analys, indiquant respectivement la prsence ou labsence de la parole.
Le VAD est un module important dans une large gamme dapplications concernant le
traitement de la parole soit la reconnaissance, la transmission ou le rehaussement de la
parole.On le trouve gnralement dans le bloc du pr-traitement .
Dans le domaine de reconnaissance de la parole le VAD est utilis pour localiser le
dbut et la fin des rgions reconnatre. La prcision du VAD utilis se matrialise dans
une amlioration du taux de reconnaissance.
Pour les systmes de transmission de la parole tels que la tlphonie cellulaire, le
VAD est utilis pour contrler la transmission discontinue qui active la transmission
uniquement pendant les priodes dactivit vocale. La transmission discontinue permet
daugmenter la capacit du systme pour loprateur tandis que pour labonn prolonge
lautonomie du mobile . Dans le cas du rehaussement de la parole les priodes de silence
dtectes par le VAD peuvent servir actualiser le paramtre du bruit.
Autres aspects importants dont il faut tenir compte quand on apprcie un algorithme
de VAD sont la prcision, le dlai introduit dans la rponse, la robustesse par rapport au
bruit et le cot du traitement numrique.
Ainsi il existe des algorithmes de VAD qui sont conus pour rpondre aux exigences
du travail en temps rel et utiliss spcialement dans les applications de transmission de
la parole telles que la tlphonie. Un tel algorithme doit fournir la dcision pour la trame
courante avant quune nouvelle trame soit rceptionne et donc disponible.Dans dautres
applications telles que la reconnaissance de la parole, la condition de fonctionnement en
temps rel nest pas exige ; ce quon impose est plutt une meilleure prcision.
La tche dun algorithme de dtection dactivit vocale est loin dtre facile sauf pour
le cas dun rapport entre le signal vocal et le bruit SNR trs lev, condition qui est loin
dtre ralisable dans des applications relles de traitement de la parole. La nature non
stationnaire et la grande varit des bruits de fond et du signal vocal auquel un SNR
inconnu au concepteur et parfois variable rendent le problme de dtection dactivit vocale difficile. videmment, ce quon cherche est un algorithme prcis, robuste par rapport
au bruit et qui demande un minimum de calculs .
16
EMP
2.3
Les mthodes numres sont pratiques et efficaces ,cependant elles sont toutes bases
sur des approches heuristique.En 1998,Jongseo Sohn et Wonyong Sung [1] ont propos
une approche statistique pour dterminer un VAD optimal ,cest lobjet de notre travail
durant le stage.En effet nous avons suivi cette approche afin dlaborer notre VAD.
17
Chapitre 3
Elaboration dun VAD bas sur une
approche statistique
Afin de raliser notre VAD, on a organis notre travail selon le plan suivant :
1. Le choix dun modle statistique adquat pour dcrire le signal parole [1],[3].
2. Trouver la rgle de dcision base sur le GLRT, en supposant que les statistiques
du bruit sont connues priori [1].
3. Estimation des paramtres du bruit par la mthode des statistiques minimum [2].
18
EMP
3.1
L1
X
n
x[n] exp(2jk )
L
n=0
(3.1)
19
EMP
(3.2)
O (k) est la variance de lchantillon de la DFT X[k] qui est variable dans le temps.
Les PDF des variables alatoires du spectre du signal parole S[k] et du bruit W [k]
sont respectivement dduites partir de (1.2) :
1
|S[k]|2
P (S[k]) =
exp
s [k]
s [k]
(3.3)
|W [k]|2
P (W [k]) =
exp
w [k]
w [k]
(3.4)
20
EMP
3.2
La rgle de dcision dun VAD peut tre formule par deux termes :
Une statistique de dcision T (x),qui est une grandeur qui mesure la diffrence entre
le bruit et les statistiques du signal observ.
un seuil de dcision , qui est souvent dtermin de faon empirique.
Dans cette section, nous drivons une statistique de dcision partir du test du
rapport de vraisemblance gnralis (Generalized Likelihood Ratio Test) GLRT,tout en
supposant que les statistiques du bruit sont connues a priori.
Dans le contexte de la VAD, On veut gnralement distinguer entre deux hypothses
(test dhypothses binaire) :
(
H0 : x[n] = w[n]
abscense de la parole
H1 : x[n] = s[n] + w[n]
prsence de la parole
(3.5)
H0 : X[k] = W [k]
abscense de la parole
H1 : X[k] = S[k] + W [k]
prsence de la parole
(3.6)
X[K],S[K] et W [k] sont donns par la relation (3.1).Les PDF des variables alatoires
S[k] et W [k] sont respectivement donnes par (3.3) et (3.4) :
|S[k]|2
1
exp
P (S[k]) =
s [k]
s [k]
|W [k]|2
P (W [k]) =
exp
w [k]
w [k]
1
En utilisant la stabilit de la loi Gaussienne, les PDF sous les deux hypothses sont
donnes par :
1
|X[k]|2
P (X[k]|H0 ) =
exp
(3.7)
w [k]
w [k]
1
|X[k]|2
P (X[k]|H1 ) =
exp
(3.8)
(w [k] + s [k])
(w [k] + s [k])
21
EMP
la dtection dactivit vocale est galement effectue pour chaque trame de L chantillons sur laquelle la parole est suppos tre stationnaire.Donc on aura a dcider entre :
(
H0 : X = W
abscense de la parole
prsence de la parole
H1 : X = X + W
(3.9)
|X[k]|2
exp
w [k]
w [k]
(3.10)
|X[k]|2
1
exp
(w [k] + s [k])
(w [k] + s [k])
(3.11)
P (X|H0 ) =
k=0
P (X|H1 ) =
L1
Y
k=0
Si on suppose que la variance du bruit w [k] est connue priori (estimer par une mthode
quon prsentera dans ce qui suit), H0 devient une hypothse simple et H1 devient une
hypothse compose avec L paramtres inconnus dterministes :
= {S (k) : k = 0, , L 1}
22
EMP
Lestimation du paramtre :
ln P (Xk |, H1 ) = ln
(N (k) + S (k)) (N (k) + S (k))
ln P (Xk |, H1 )
1
|Xk |2
=
+
S (k)
N (k) + S (k) (N (k) + S (k))2
ln P (Xk |, H1 )
= 0 |Xk |2 = N (k) + S (k)
S (k)
M LE (k) = |Xk |2 N (k)
3.2.1
(3.12)
g (x) =
H1 )
P (X|,
=
P (X|H0 )
QL1
1
S (k))
k=0 (N (k)+
QL1
k=0
exp
|Xk |2
( (k)+
S (k))
|Xk |2
exp
N (k)
N (k)
1
L1
Y
k=0
3.2.2
N (k)
exp
|X(k)|2
|X(k)|2
1
N (k)
La rgle de dcision :
g (x) =
L1
Y
k=0
N (k)
exp
|X(k)|2
H1
>
|X(k)|
1
N (k)
<
H0
2
L1
X
k=0
H1
>
|Xk |2
|Xk |2
log
1
log
N (k)
N (k)
<
H0
23
EMP
T (X) =
L1
X
k=0
H1
>
|Xk |2
|Xk |2
log
1
log =
N (k)
N (k)
<
H0
(3.13)
Lquation (1.3) reprsente notre rgle de dcision, elle est compose dune statistique de
dcision T (X) et un seuil quon va dterminer par la suite.
3.3
La nature non-stationnaire ainsi que la grande varit de bruit rendent lide de fixer
un seuil unique tout au long du traitement peu efficace et pas trs pratique. De plus
les fluctuations rapides et soudaines des niveaux de bruits au cours de lacquisition du
signal(par exemple lors dune communication mobile le bruit de passage dune voiture
sajoute au bruit initiale) nous oblige concevoir un VAD robuste avec un seuil adaptatif.
La mthode dadaptation du seuil que nous avons propos est semblable celle utilise dans les systme Radar, en particulier dans les dtecteurs CFAR, o on cherche
fixer la probabilit de fausse alarme PF A en adaptant le seuil dune manire a la rendre
indpendante des valeurs des paramtres du bruit do le nom du dtecteur Constant
False Alarme Rate ou taux de fausse alarme constant.
On cherche a dterminer le seuil de manire garder PF A = o est une valeur
fixe et qui est reprsentatif des performances du systme. Par exemple, dans les systmes
Radars le niveau de fausse alarme PF A a des valeurs typiques variantes de 104 106 ,
cependant, dans le cas dun VAD la PF A se situe aux environ de 102 , ce qui est largement
suffisant pour le traitement du signal parole.
Nous savons que la probabilit de fausse alarme est par dfinition le rsultat dune
24
EMP
3.3.1
Lide principale dune simulation de Monte Carlo est de gnrer une multitude de
fois ( B fois) des ralisations de la VA alatoire T dont la PDF est inconnue. Par la suite
calculer B le nombre de fois que cette VA dpasse une valeur (un seuil) . Enfin on
calcule une estime de la probabilit P [T > ] = B /B.
Pour lestimation du seuil on suivra le chemin inverse, autrement dit, on doit chercher le seuil qui garantit un PF A = P [T > |H0 ] = B /B = . Voici la procdure quon
a suivit :
PL1 |Xk |2
|Xk |2
1. Gnrer T (X) = k=0 N (k) log N (k) 1 B fois sous H0 (bruit uniquement),
ensuite stocker les ralisations dans un vecteur V de taille B. Le nombre ditration
B est donn par la formule empirique B = P100
FA
2. Calculer B = PF A B
3. Trier le vecteur V par ordre dcroissant
4. Le seuil est pris comme tant la composante a la position B du vecteur V tri
En supposant que les statistique du bruit fluctuent moins rapidement que celle du
signal, ladaptation du seuil se fait chaque fois que la variance du bruit est mise jour
car le calcul du seuil ne dpend que de ce paramtre.
Le seuil obtenu par cette mthode est un seuil adaptatif, il change selon le niveau du
bruit, ce qui va rendre notre VAD robuste, de plus comme on a fixer notre PF A une
valeur on peut considrer que notre VAD possde le comportement dun CFAR.
25
EMP
3.4
Lors due ltablissement de la rgle de dcision par le moyen du GLRT, nous avons
suppos que la variances des chantillons spectraux du bruit w [k] est connu priori. Dans
cette section on va prsenter une mthode destimation de la puissance du bruit w [k]
introduite par Rainer Martin, en 2001 [2],et qui est base sur un lissage du priodogramme
et une statistique minimale[1].
Sachant que thoriquement w [k] = Sw (2k/L), nous somme dans lobligation destimer la densit spectrale de puissance du bruit, puisque la DFT du signal est disponible,
on a opt pour le priodogramme.
Le lissage du priodogramme
(3.15)
n=0
Le priodogramme P [k], obtenu par lquation (1.14), est estim partir des chantillons de la trame en cours danalyse. Cependant lexistence dun certain degr de corrlation entre les diffrentes trames due a la nature du signal parole va engendrer des
fluctuations brusques du priodogramme (figure 1.3) qui vont influencer ngativement les
performances du VAD. Pour palier ce problme on propose un priodogramme liss,qui
est obtenu par :
P [k, nf ] = P [k, nf 1] + (1 )|Xk |2
(3.16)
O nf est lindice de la trame en cours danalyse et un paramtre de lissage (ou doubli)
qui est obtenu exprimentalement.En effet au cours des simulations de fonctionnement
que nous avons effectu, il sest avr que les meilleurs performances sont obtenues pour
= 0.05.
La mthode destimation de la variance du bruit est base sur le principe que mme
26
EMP
Figure 3.3 les variations des 2 priodogrammes au cours du temps pour lchantillon
spectral k=25
durant la prsence de la parole, la densit spectrale de puissance du signal bruit atteint
des minimums qui sont reprsentatives du niveau de puissance du bruit [2].Donc cette
mthode est fond sur le principe que durant les pauses de silences ou pendant les brefs
intervalles entre les mots et les syllabes, lnergie du signal parole non bruit est presque
nulle. Par consquent, on peut suppos que la puissance du bruit est le minimum des
priodogrammes calculer durant un intervalles de temps dans lequel on suppose que le
bruit est le mme ou il a subi de lgres variations.
En gnrale, le bruit prsente une non-stationnarit plus faible que celle de la parole,
par consquent les priodes de mise jour de la variance du bruit sont beaucoup plus
grandes que les trames analys.Typiquement les priode de mise jour de w [k] varie
entre 0.1s et 1s .
Lors des simulations on a trouv quune priode de mise jour T s = 0.7s et une
longueur de trames de T w = 30ms donnaient les meilleures performances.
27
EMP
Dbut
Initialisation de la variance du
bruit et du seuil
FFT de la trame x[n] n=0,1L-1
:, :
Calcul du periodogramme
s=|X[k]|^2 k=0,1...L-1
Lissage du periodogramme :
P=aP+(1-a)s
K=0,1,..,L-1
Vrifier si Ts est
oui
non
coul depuis la
dernire mise
jour
oui
Test GLRT
non
Si T>
Lincrmentation vers la
prochainne trame
non
Fin du signal
sous test
oui
Fin
28
Chapitre 4
Analyse des performances du VAD
propos
4.1
Afin dvaluer les rsultats du VAD propos, on a essayer de dtecter lactivit vocale
dans des signaux obtenus partir de la base de donne Aurora qui est une rfrence dans
le domaine de traitement de la parole, et particulirement la dtection dactivit vocale.
Les niveaux de SNR des signaux de cette base de donne varient de -5 dB 20 dB. Ces
niveaux sont rpartis en trois groupes :
1. Quiet
2. Medium
3. High
Lors des simulations, on a pris un signal de chaque niveau et on les a not : S1 pour le
signal "Quiet", S2 pour le signal "Medium" et S3 pour le signal "High".
En observant les figures 4.2, 4.3 et 4.4 dun point de vue subjectif, on peut constater
que le VAD propos prsente des performances acceptable. Mais une mesure objectives
de ces performances est donne par lensemble des paramtres : PD et PF A . PD est dfinie
par le rapport entre le nombre de trames contenant le signal vocal classifi correctement
et le nombre rel de trames de parole. La PF A est fixe au pralable. La dcision idale
de rfrence est obtenue par un marquage manuel des rgions de silence et de parole pour
le signal non bruit.
29
EMP
Figure 4.1 signal S1 "Quiet" : a)signal bruit - b)signal non bruit - c)adaptation du
seuil
30
EMP
Figure 4.2 signal S2 "Medium" : a)signal bruit - b)signal non bruit - c)adaptation
du seuil
31
EMP
Figure 4.3 signal S3 "High" : a)signal bruit - b)signal non bruit - c)adaptation du
seuil
32
EMP
4.2
33
EMP
4.3
4.3.1
4.3.2
Le paramtre de lissage
Linfluence du paramtre de lissage est trs importante (Facteur doubli), car il traduit le degr de corrlation entre les diffrentes trames du signal. Donc un choix adquat
de est vital pour le bon fonctionnement de notre algorithme.
Gnralement, est calcul exprimentalement [2], cependant il existe des mthodes
pour trouver le optimal. Pour notre VAD, on a opt pour la mthode exprimentale en
choisissant le qui prsente le meilleur compromis entre PD et PF A .
34
EMP
Figure 4.4 influence de la longueur de la trame :a)Tw=40ms - b)Tw=15ms c)Tw=30ms - d)signal non bruit
35
EMP
Figure 4.5 influence du paramtre alpha :a) = 0.005 - b) = 0.85 - c) = 0.05 d)signal non bruit
36
EMP
4.3.3
la courbe ROC
0.01
0.02
0.05
0.1
0.3
0.5
0.7
0.8
0.9
0.8240 0.8369 0.8422 0.8424 0.8452 0.8470 0.8507 0.8537 0.8570
Table 4.1 Tableau des points de la courbe ROC
Daprs la courbe de la figure 4.6, on a obtenu des valeurs de PD > 0.84 pour une
PF A aux environs de 0.1.
37
Chapitre 5
Conclusion gnrale
EMP
39
Annexes
40
Annexe A
La variable alatoire gaussienne
complexe
2
X
On sait que la PDF dune VA gaussienne 2 dimensions X = [XY ] centr est donne
par :
1
fX (X, Y ) = p
exp X t C1 X
2 det(C)
!
2
0
2
Avec C la matrice de covariance de la VA X. En remplaant C =
2
0 2
On trouve :
f(X,Y ) (x, y) =
2
1
q
4
4
(x2 + y 2 )
exp
2
On peut crire :
1
|z|2
fZ (z) =
exp 2
2
Annexe B
Simulation de Monte Carlo
Lorsque nous nous somme pas en mesure de determiner la probabilit quune variable
alatoire dpasse une valeur donne par des mthodes analytiques ou des valuation
numriques dune forme dexpression proche ,on fait appel aux simulation de Monte
Carlo.
Dans les problmes de dtection on cherche la probabilit quune VA ou une statistique T dpasse un seuil en dautre termes :P [T > ].Lexemple suivant illustre les
PN
tapes suivre pour faire une simulation de Monte Carlo. Soit T (x) =
k=1 x[k] o
2
X N (0, I)
Estimation de la probabilit
1. Compter M le nombre de Ti qui dpasse le seuil
2. Estimer la probabilit P [T > ] = M /M
42
Annexe C
Code Matlab de lalgorithme VAD
clc
clear
close all
[s,Fs]=audioread(C:\Users\Zakari\Desktop\Aurora00\w10180c3.1.wav);%lowSNR
S1=audioread(C:\Users\Zakari\Desktop\Aurora00\w10180c3.0.wav);
Ts=1/Fs;
a=0.05;
Tms=0.7;
Tw=30*10^-3;%largeur de la fenetre
LL=round(Tms/Tw);
L=Tw/Ts+1;%nbr dechentillons par fenetre
ch=round(L/2);%chauvauchement entre les trames
%%% estimation de la variance des echantillons spectraux du bruit
%%% Initialisation
ss=s(1:L);
FF=fft(ss);
lambdan=abs(FF).^2;
Pf=0.1;
B=100;
x=zeros(1,B);
y=zeros(1,B);
z=zeros(1,B);
for j=1:B
Z0=0;
for k=1:L
43
EMP
x(k)=sqrt(lambdan(k)/2)*randn(1,1);
y(k)=sqrt(lambdan(k)/2)*randn(1,1);
z(k)=norm(x(k)+1i*y(k));
Z0=Z0+z(k)/lambdan(k)-log(z(k)/lambdan(k))-1;
end
T0(j)=Z0;
end
gammapos=ceil((B+1)*(1-Pf));
T0=sort(T0);
gammaamp=T0(gammapos);
gammaampv=gammaamp;
%%% analyse de trames
D=0;
P=lambdan;
PP=[P];
for i=1+L-ch:L-ch:length(s)-L
ss=s(i:i+L-1);
nf=(i-1)/(L-ch);
FF=abs(fft(ss)).^2;
P=a*P+(1-a)*FF;%%
PP=[PP P];
%% Adaptation
if mod(nf,LL)==0
PPP=PP(:,(nf-LL+1):nf);
lambdan=min(PPP);
for j=1:B
Z0=0;
for k=1:L
x(k)=sqrt(lambdan(k)/2)*randn(1,1);
y(k)=sqrt(lambdan(k)/2)*randn(1,1);
z(k)=norm(x(k)+1i*y(k));
Z0=Z0+z(k)/lambdan(k)-log(z(k)/lambdan(k))-1;
end
T0(j)=Z0;
end
gammapos=ceil((B+1)*(1-Pf));
T0=sort(T0);
gammaamp=T0(gammapos);
gammaampv=[gammaampv gammaamp];
44
EMP
end
%%%
Z=0;
for k=1:L
Z=Z+FF(k)/lambdan(k)-log(FF(k)/lambdan(k))-1;
end
if Z>=gammaamp
D=[D 1];
else
D=[D 0];
end
end
%%% trac des resultat
DD=D(1)*ones(1,L-ch);
for k=2:length(D)
DD=[DD D(k)*ones(1,L-ch)];
end
G=gammaampv(1)*ones(1,LL*(L-ch));
long=length(gammaampv);
for k=2:long
G=[G gammaampv(k)*ones(1,LL*(L-ch))];
end
amp=max(s);
t=0:Ts:(length(s)-1)*Ts;
subplot(3,1,1)
plot(t,s)
title(signal bruit);
hold on
t=0:Ts:(length(DD)-1)*Ts;
plot(t,(amp)*DD,r)
hold off
subplot(3,1,2)
t=0:Ts:(length(S1)-1)*Ts;
plot(t,S1)
title(signal parole non bruit);
subplot (3,1,3)
t=0:Ts:(length(G)-1)*Ts;
plot(t,G)
xlabel(le temps (s))
title(adaptation du seuil);
45
Bibliographie
[1] J. Sohn and W. Sung, "A voice activity detector employing soft decision based
noise spectrum adaptation",in Proc. Int. Conf. Acoustics, Speech, and Signal Processing,
1998, pp. 365368.
[2] R. Martin, "Noise Power Spectral Density Estimation Based on Optimal Smoothing
and Minimum Statistics", IEEE Trans. Acoust., Speech, Signal Processing , VOL. 9, NO.
5, JULY 2001.
[3] Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square
error short-time spectral amplitude estimator", IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-32, pp. 11091121, Dec. 1984.
46