These Traitement Signal

Thse
prsente pour obtenir le grade de :

Docteur de lEcole Nationale Suprieure
des Tlcommunications
Spcialit : Traitement du Signal et des Images

Christophe Veaux

Laboratoire daccueil : France Tlcom R&D DIH/IPS, Lannion

tude de traitements en rception pour
lamlioration de la qualit de la parole
Application au GSM

Soutenue le 20 janvier 2005 devant la commission dexamen :

Nicolas Moreau ENST Paris Prsident du Jury
Samir Saoudi ENST Bretagne Rapporteur
Pierre Siohan France Tlcom R&D Rapporteur
Andr Gilloire France Tlcom R&D Examinateur
Pascal Scalart IRISA Lannion Examinateur

Remerciements
J'ai touch le point final, enfin, au bout de tant d'autres rests en suspension. Cette thse au long cours
s'achve et je tiens ici remercier toutes les personnes qui m'ont accompagn, soutenu et bien souvent
donn d'elles-mmes durant toutes ces annes.
En premier lieu, je ne saurais assez dire ma profonde gratitude envers Andr Gilloire et Pascal Scalart
auxquels le bon aboutissement de cette thse doit beaucoup. Ils furent tout d'abord des encadrants qui m'ont
marqu par leur ouverture d'esprit, leur enthousiasme et leur comptence, alliant curiosit et rigueur
scientifique. Je les remercie galement pour leurs qualits humaines certaines, leur disponibilit et leur
coute qui ne se sont jamais dmenties, et pour toute l'nergie consacre. Je leur sais gr de m'avoir
maintenu leur confiance et j'espre que ce document saura payer leur bienveillance de retour.
J'aimerais ensuite remercier Nicolas Moreau qui m'a fait l'honneur de prsider le jury de ma soutenance.
L'intrt qu'il a manifest cette occasion pour ce travail de thse dont il n'avait reu pour tout cho que les
demandes rptes de sursis, est pour moi une vraie source de gratification.
Je remercie chaleureusement Pierre Siohan et Samir Saoudi d'avoir accept de rapporter ce mmoire. La
pertinence de leurs remarques et la prcision de leurs corrections m'ont permis d'en amliorer la clart.
Je tiens remercier ici M. Bernard Robinet, directeur de l'EDITE, pour m'avoir accord ces dernires
annes plusieurs drogations et avoir autoris la tenue de ma soutenance de thse.
Je suis reconnaissant envers Dominique Massaloux de m'avoir accueilli au sein du laboratoire DIH/IPS et
permis l'achvement de cette thse dans les meilleures conditions possibles. Je remercie Claude Lamblin,
Catherine Quinquis et Balasz Kovesi pour leur aide et leurs encouragements tout au long de cette thse et de
la rdaction du manuscrit. Une pense galement pour Janine Denmat et son dvouement quotidien.
J'aurais un remerciement particulier pour Vincent Barriac qui m'a accueilli dans son laboratoire ces
dernires annes et m'a permis d'amnager mon emploi du temps pour faciliter la poursuite de la rdaction
de ce manuscrit.
Je garde un souvenir chaleureux de l'quipe de permanents et de thsards qui m'accueilli l're primaire de
ma thse. Je pense Rozenn et son indfectible amiti, Claude et Marco qui je fournis pour leur plaisir
quelques occasions de mise en boite, Christophe Beaugeant qui me fit dcouvrir les joies du thtre
d'avant-garde lannionais. Merci aussi Valrie Turbin et David Delam avec lesquels je me compromis
gaiement dans des spectacles un peu moins avant-gardistes mais la dcouverte du milieu local est parfois ce
prix.
Le tournant du millnaire amena de nouvelles et belles rencontres mais marqua subrepticement pour moi une
re de fossilisation rampante dans une rdaction sans fin. Tous ceux-l eurent supporter avec moi cette
gangue pesante. Je ne sais si la consistance d'un merci tient encore face leurs efforts conjugus pour m'en
extirper. Sachez que votre prsence a t un soutien bien plus puissant que vous ne l'imaginez.
Ici, pense spciale au "bureau des motions" tenu par Lti et Valrie, en premire ligne de front au
quotidien et dont l'empathie sensible et vibrante encaissa tant et encore. Merci Bobo et son harclement
rgulier dans la dernire ligne droite (s'il y en eu); Lna pour ses visites aux ermites locaux et ses billets
d'humeur dans ma boite mails.
Merci Nol pour sa dissonance salutaire; Rapha pour ses caricatures bien senties.
Herv, Gal, et Nico furent d'agrables compagnons de voyage quoique peu ponctuels. Le tremblement de rire
Rochien, celui vif et narquois de Karin; celui sonore et franc de Marion sans oublier le "mais euh" de Bn
rsonnent encore mon cur comme autant d'chos rjouissants.
Et puis encore, pour votre amiti, vos sourires, et nos souvenirs partags, merci David et Elodie, Erwan et
Zanou, Ccile, Hlne, Sylvie, Fred et Valrie, David et Nath, JP et Sophie.
Enfin, je songe la sphre familiale qui malgr la distance (ou peut-tre cause d'elle) a beaucoup port en
plus de me soutenir. Un merci particulier galement mes supporters lyonnais, Marie-Thrse et Ren, dont
l'intrt m'a beaucoup touch.

Merci tous.

i
Table des Matires
GLOSSAIRE ...........................................................................................................................................1
INTRODUCTION GENERALE........................................................................................................................3
CHAPITRE 1 CONTEXTE ET PROBLEMATIQUE..........................................................................................7
1.1 Introduction .................................................................................................................................7
1.2 Problmatique dune transmission numrique .............................................................................7
1.2.1 La source.............................................................................................................................8
1.2.2 Transmission sur un canal radio .........................................................................................9
1.2.3 Principe de sparation entre codage de source et codage de canal ...................................13
1.3 Mise en oeuvre pratique le systme GSM...............................................................................15
1.3.1 Protection hirarchique et masquage ................................................................................15
1.3.2 Analyse des dgradations de la parole dcode.................................................................17
1.3.2.1 Dgradations lies au codage parole ...................................................................... 17
1.3.2.2 Dgradations lies aux procdures du rseau .......................................................... 18
1.3.2.3 Dgradations associes aux erreurs de transmission................................................ 18
1.3.3 Discussion..........................................................................................................................21
1.4 Amlioration de la qualit vocale en rception..........................................................................22
1.4.1 Post-traitement du signal de parole en sortie du dcodeur...............................................22
1.4.2 Dcodage parole entres souples ....................................................................................23
1.4.3 Dcodage Canal Contrl par la Source (SCCD) .............................................................24
1.5 Critres dvaluation des mthodes ...........................................................................................25
1.5.1 Distance cepstrale .............................................................................................................25
1.5.2 Distance perceptuelle PESQ (MOS estime) ....................................................................26
CHAPITRE 2 DETECTION DARTEFACTS INTRODUITS PAR LE RESEAU GSM SUR LE SIGNAL DE PAROLE 29
2.1 Introduction ...............................................................................................................................29
2.2 Principe......................................................................................................................................30
2.3 Dtection dun artefact caractris : la voix de robot ........................................................31
2.3.1 Caractrisation de leffet voix de robot du GSM FR.................................................32
2.3.2 Dtection des occurrences de voix de robot ...............................................................34
2.3.2.1 Rduction des fausses alarmes par estimation robuste du pitch................................. 36
2.3.3 Discussion..........................................................................................................................42
2.4 Exploitation dun modle a priori sur la parole.........................................................................43
ii
2.4.1 Modles pour la dtection de dgradations.......................................................................43
2.4.1.1 Exploitation de la non-uniformit des paramtres de la parole.................................. 43
2.4.1.2 Exploitation de la corrlation temporelle des paramtres de la parole........................ 44
2.4.2 Pertinence dune mise en uvre aval de ces modles .......................................................44
2.5 Conclusion..................................................................................................................................46
CHAPITRE 3 DECODAGE SOURCE A ENTREES SOUPLES : INTRODUCTION ET ETAT DE LART.................. 47
3.1 Introduction ...............................................................................................................................47
3.2 Amliorations de la procdure de masquage du dcodeur .........................................................48
3.2.1 Amliorations de la substitution de trame........................................................................48
3.2.2 Masquage par paramtre...................................................................................................49
3.2.3 Amlioration de la dtection derreurs rsiduelles ............................................................50
3.2.4 Convergence vers un masquage souple..............................................................................51
3.3 Dcodage source entres souples .............................................................................................51
3.3.1 Principe.............................................................................................................................51
3.3.1.1 Canal sorties souples......................................................................................... 53
3.3.1.2 Vraisemblance de lindex de quantification transmis ............................................... 54
3.3.1.3 Probabilit a posteriori de lindex de quantification................................................. 55
3.3.1.4 Estimation du paramtre transmis ........................................................................ 55
3.3.2 Structure de la probabilit a posteriori.............................................................................56
3.3.2.1 Dcodage souple sans a priori ............................................................................... 57
3.3.2.2 Exploitation de la non-uniformit (AK0) ............................................................... 57
3.3.2.3 Exploitation de la corrlation inter-trame (AK1) .................................................... 57
3.3.2.4 Exploitation de la corrlation intra-trame (AK2).................................................... 62
3.4 Conclusion..................................................................................................................................64
3.4.1.1 Le problme dun modle de prdiction fixe............................................................ 64
3.4.1.2 Le problme de la complexit ................................................................................ 65
CHAPITRE 4 DECODAGE SOURCE A ENTREES SOUPLES : APPLICATION AU GSM EFR.......................... 67
4.1 Introduction ...............................................................................................................................67
4.2 Redondance rsiduelle du codeur EFR......................................................................................67
4.2.1 Modle utilis pour caractriser la redondance rsiduelle .................................................68
4.2.2 Rsultats obtenus..............................................................................................................69
4.3 Vraisemblance en sortie du canal quivalent .............................................................................72
4.4 Mise en uvre du dcodage souple............................................................................................76
4.4.1 Dcodage souple sans a priori ...........................................................................................76
4.4.2 Dcodage AK0 ..................................................................................................................80
4.4.3 Dcodage AK1 ..................................................................................................................82
4.5 Conclusion..................................................................................................................................85
CHAPITRE 5 DECODAGE SOURCE A ENTREES SOUPLES : ETUDE DE NOUVEAUX ALGORITHMES.............. 87
5.1 Introduction ...............................................................................................................................87
5.2 Rduction de la complexit........................................................................................................88
5.2.1 Recherche dun modle analytique....................................................................................88
5.2.2 Modle a priori dans le domaine des paramtres ..............................................................90
iii
5.2.3 Prdiction inter-trame par multi-gaussiennes ...................................................................91
5.2.3.1 Modle multi-gaussien.......................................................................................... 92
5.2.3.2 Interprtation de la modlisation propose ............................................................. 93
5.2.3.3 Complexit du calcul de la probabilit a posteriori................................................... 95
5.2.4 Prdiction intra-trame par multi-gaussiennes...................................................................96
5.2.5 Combinaison avec la prdiction inter-trame .....................................................................97
5.3 Mise en oeuvre des modles proposs.........................................................................................98
5.3.1 Apprentissage du modle multi-gaussien ..........................................................................98
5.3.1.1 Le choix dun domaine pour modliser la redondance............................................ 100
5.3.1.2 Rsultats de lapprentissage ................................................................................ 101
5.3.2 Performances des algorithmes proposs .......................................................................... 103
5.4 Extensions du modle de prdiction ........................................................................................ 108
5.4.1 Modlisation par HMM................................................................................................... 109
5.5 Conclusion................................................................................................................................ 110
CHAPITRE 6 DECODAGE CANAL CONTROLE PAR LA SOURCE : PRINCIPE ET ETAT DE LART................ 111
6.1 Introduction ............................................................................................................................. 111
6.2 Principe du dcodage canal contrl par la source .................................................................. 112
6.3 Non-uniformit et corrlation temporelle des bits individuels ................................................. 115
6.3.1 Mtrique modifie de lalgorithme de Viterbi ................................................................. 115
6.3.1.1 Valeurs souples et interprtation......................................................................... 116
6.3.2 Calcul des valeurs souples a priori des bits dinformation.............................................. 118
6.3.2.1 Modlisation de la corrlation temporelle entre bits individuels .............................. 118
6.3.2.2 Lois marginales calcules partir de la loi de lindex de quantification ................... 121
6.3.3 Discussion........................................................................................................................ 123
6.4 Corrlation intra-trame entre bits ........................................................................................... 124
6.4.1 Mtrique de branche associe aux paramtres ................................................................ 124
6.4.2 Mtrique de branche conditionne aux tats prcdents ................................................ 126
6.4.3 Dcodage canal en deux tapes....................................................................................... 128
6.4.3.1 Corrlation entre bits deux deux....................................................................... 129
6.4.3.2 Loi marginale des bits sachant lindex de quantification......................................... 129
6.5 Bilan et discussion ................................................................................................................... 131
CHAPITRE 7 DECODAGE CANAL CONTROLE PAR LA SOURCE : PROPOSITION DALGORITHMES ............ 133
7.1 Introduction ............................................................................................................................. 133
7.2 Etude de la prdiction au niveau des bits individuels ............................................................. 134
7.2.1 Analyse de la redondance rsiduelle au niveau bit ......................................................... 134
7.2.2 Prdiction inter et intra-trame au niveau bit pour le GSM EFR................................... 138
7.2.2.1 Conditions de simulations et critre dvaluation.................................................. 138
7.2.2.2 Prdiction inter-trame ....................................................................................... 139
7.2.2.3 Prdiction intra-trame en parallle au calcul de la mtrique................................... 142
7.2.2.4 Combinaison inter-trame et intra-trame .............................................................. 147
7.3 Exploitation dun a priori sur les index de quantification....................................................... 150
7.3.1 Mtrique conditionne aux tats prcdents................................................................... 150
iv
7.3.2 Extension lalgorithme du Max-Log-MAP................................................................... 152
7.3.2.1 Principe ........................................................................................................... 152
7.3.2.2 Mise en uvre................................................................................................... 155
7.3.3 Augmentation de la profondeur de dcodage laide dun GVA ................................... 157
7.3.3.1 Principe ........................................................................................................... 157
7.3.3.2 Mise en oeuvre.................................................................................................. 159
7.4 Combinaison du SCCD et du dcodage de parole souple ........................................................ 161
7.5 Conclusion................................................................................................................................ 163
CONCLUSION ET PERSPECTIVES ............................................................................................................. 165
Rappel de la problmatique et principaux rsultats ............................................................................. 165
Approche SBSD............................................................................................................. 165
Approche SCCD............................................................................................................. 166
Discussion par rapport aux dveloppements rcents et perspectives.................................................... 167
Approche SBSD............................................................................................................. 167
Approche SCCD............................................................................................................. 167
Remarques gnrales ...................................................................................................... 168
Annexes .................................................................................. 169
ANNEXE A LE CODAGE DE PAROLE DANS LE GSM............................................................................ 171
ANNEXE B LE CODAGE CANAL DANS LE SYSTEME GSM.................................................................... 201
ANNEXE C SIMULATION DU CANAL DE TRANSMISSION...................................................................... 215
ANNEXE D DECODAGE CONVOLUTIF A SORTIES SOUPLES.................................................................. 227
BIBLIOGRAPHIE..................................................................................................................................... 235
1
Glossaire
AK0 0th order A priori Knowledge (modle a priori dordre 0)
AK1 First-order A priori Knowledge (modle a priori dordre 1)
AK2 Second-order A priori Knowledge (modle a priori dordre 2)
APRI-VA A Priori Viterbi Algorithm (dcodage de Viterbi avec a priori)
AR Auto Regressif
BFI Bad Frame Indicator (indicateur de trame perdue)
C/I Carrier to Interference ratio (rapport porteuse sur interfrences)
CELP Code Excited Linear Prediction (prdiction linaire excite par codes)
CRC Cyclic Redundancy Check (dtection derreur par code cyclique)
EFR Enhanced Full Rate (codeur de parole plein dbit amlior)
GMM Gaussian Mixture Model (modle par mlange de gaussiennes)
GSM Global System for Mobile
LPC Linear Predicitve Coefficient (coefficient de prdiction linaire)
LSF Lignes Spectrales de Frquence
LSP Lignes Spectrales par Paires
LTP Long-Term Prediction (prdiction long-terme)
MA Moyenne Ajuste
MAP Maximum A Posteriori
MMSE Minimum Mean Square Error (minimum derreur quadratique moyenne)
MOS Mean Opinion Score
MV Maximum de Vraisemblance
PESQ Perceptual Evaluation of Speech Quality
QV Quantification Vectorielle
SBSD Soft-Bit Source Decoding (dcodage source entres souples)
SCCD Source Controlled Channel Decoding (dcodage canal contrl par la source)
SNR Signal to Noise Ratio (rapport signal bruit)
SOVA Soft Output Viterbi Algorithm (dcodage de Viterbi sorties pondres)
TEB Taux dErreur Binaire
TU Typical Urban (canal urbain typique)

2

Introduction Gnrale
A ses premiers temps, la tlphonie mobile a d son essor extraordinaire au seul fait dapporter une
libert nouvelle. La possibilit inconnue jusqualors de communiquer quel que soit lendroit o lon se
trouve a rendu les utilisateurs de ces systmes assez indulgents quant la qualit vocale offerte. En
effet, coupures, voix mtallique et autres sons artificiels sont les signatures caractristiques de ces
communications et viennent rappeler quon ne coupe pas si impunment le cordon fixe. Cependant, le
tlphone mobile est de nos jours un objet du quotidien et lattrait de la nouveaut succde
lexigence dune qualit la plus proche possible de celle du tlphone fixe. Ainsi, la qualit de la parole
restitue par les mobiles est dsormais devenue un enjeu central.
La parole transmise par un rseau radiomobile subit de nombreuses dgradations des niveaux
successifs. La premire dentre-elles est la distorsion introduite par le codeur de parole et qui rsulte
dun compromis pos ds la conception du systme entre la qualit vocale escompte et les ressources
du rseau alloues sa transmission. Cette distorsion peut tre aggrave par la prsence de sources
acoustiques interfrentes, comme le bruit, puisque le codeur est spcialis pour un type de source
donne (la parole). Les mcanismes du rseau radiomobile, comme ceux destins conomiser les
ressources radio (transmission discontinue) ou grer le transfert inter-cellulaire dun mobile, mutilent
les informations vocales transmises par le mobile et se traduisent souvent par des artefacts dans la
parole restitue en sortie de dcodeur. Enfin, la liaison radio introduit des erreurs de transmission qui
peuvent affecter la parole au point de la rendre inintelligible.
Face cette diversit de facteurs, il apparat que la recherche dune meilleure qualit vocale passe
galement par des rponses plusieurs niveaux. Ceci motive notamment ltude de nouvelles normes
de codage de parole afin par exemple, den amliorer la robustesse aux entres bruites tout comme
aux erreurs de transmission. Paralllement ces travaux qui supposent des modifications importantes
de lmetteur et de la norme du systme, il a sembl intressant de rechercher des traitements pouvant
amliorer la qualit dun systme existant le GSM au prix de modifications limites.
Plus prcisment, lobjectif initial de cette thse tait de mettre en uvre des post-traitements de la
parole, situs en aval de la chane de rception du GSM. Cette position offrait une vision globale des
dgradations introduites par le rseau radio-mobile et permettait une mise en uvre aise sur des
plate-formes centralises de traitement du signal.
Introduction Gnrale 4
Derrire ces arguments pratiques perait galement lambition dune mthode universelle, c'est--dire
pouvant traiter une large diversit de dgradations inconnues. Linspiration lointaine tait le
mcanisme de la perception humaine elle-mme qui peut dtecter une dgradation dans un signal de
parole sans aucune autre rfrence quun modle interne a priori de la parole. Aprs de premires
tudes sur la dtection dartefact dans le signal de parole restitu par le systme GSM, il est apparu
que la marge de manuvre offerte un traitement damlioration de la qualit en aval des dcodeurs
GSM tait extrmement limite par les mcanismes de masquage mis en oeuvre dans ces mmes
dcodeurs. Dautre part, la dtection dartefacts sans autre information que celle issue dun modle a
priori de la parole conduit un taux de fausses alarmes trop lev.
Paralllement, lide dutiliser un modle a priori au niveau du dcodeur parole, conjointement avec
une information issue du canal, apparaissait dans des recherches sur le masquage intelligent des
erreurs de transmission. La possibilit dexploiter une information a priori au dcodeur peut
surprendre premire vue puisque le codeur parole est sens liminer toute redondance. Cependant, les
contraintes de complexit et de dlai font quil subsiste en ralit une redondance rsiduelle en sortie
du codeur parole. Cest cette redondance rsiduelle qui est modlise au dcodeur.
Le principe consistant exploiter la redondance rsiduelle lors du dcodage nous a paru trs
intressant car il laisse entrevoir la possibilit damliorer la qualit vocale en prsence derreurs de
transmission sans pour autant ncessiter de modifications de la norme du systme radiomobile. Ceci
nous a conduit redfinir la problmatique de nos travaux en lorientant sur des aspects dcodage
conjoint source-canal, et plus prcisment, sur lexploitation de la redondance rsiduelle en rception
pour amliorer la robustesse aux erreurs de transmission.
Cette problmatique est assez large et laisse volontairement ouverte la question du niveau (dcodeur
parole ou dcodeur canal) auquel exploiter la redondance rsiduelle. En effet, on peut distinguer deux
approches. La premire exploite la redondance rsiduelle au niveau du dcodeur canal afin de rduire le
taux derreur binaire. La seconde effectue lestimation optimale des paramtres du codeur parole afin
de minimiser limpact subjectif des erreurs (masquage intelligent ).
Largument en faveur de la premire approche est quil est prfrable dexploiter simultanment toutes
les redondances disponibles (rsiduelle et canal) pour la protection aux erreurs. En revanche, en se
plaant au niveau des bits, elle ne modlise quune faible partie de la redondance rsiduelle disponible
en sortie du codeur parole. A contrario, la seconde approche modlise la redondance rsiduelle
directement au niveau des index de quantification. De plus, elle permet de minimiser le critre qui
nous intresse au final, savoir la distorsion de la parole dcode.
Nous avons choisi dtudier successivement ces deux approches ainsi que leur combinaison. Une
spcificit de notre contexte dtude a t daborder ces travaux thoriques en essayant de les adapter
au cadre trs concret qui est celui du systme GSM existant. Ceci nous a conduit dune part,
rechercher des rponses aux problmes poss par la complexit des mthodes. Dautre part, un certain
nombre des amliorations proposes ont avant tout eu pour but de contourner les contraintes imposes
par un systme rel de radio-communications.
Introduction Gnrale 5
Indpendamment de ces contraintes systme, nous avons galement cherch amliorer les
performances intrinsques des mthodes pour chacune des deux approches. Cette amlioration passe
dans les deux cas par une meilleure modlisation de la redondance rsiduelle. Au niveau du dcodeur
canal, nous avons ainsi propos des techniques permettant dexploiter la corrlation entre les bits dune
mme trame durant le processus de dcodage. Au niveau du dcodeur parole, nous modlisons la
redondance rsiduelle directement dans lespace des paramtres, ce qui permet de rduire la complexit
de lestimation au dcodeur et dlivre une information plus riche sur cette redondance rsiduelle.
Organisation du document
Ce document prsente un nombre important dannexes, elles ont pour but de dcharger la lecture de la
partie centrale de cette thse, tout en offrant la possibilit dun niveau de lecture plus dtaill.
Le chapitre 1 pose un niveau plus approfondi la problmatique de cette thse. Les principes de la
transmission de la parole dans un systme tel que le GSM sont en premier lieu rappels. Les
motivations de cette tude sont justifies par une analyse des principaux artefacts rencontrs dans la
parole restitue par le GSM EFR. Enfin, on y prsente les axes de recherche tudis ainsi que les
critres dvaluation des algorithmes dvelopps.
Le chapitre 2 dcrit les tudes menes sur les post-traitements de la parole et notamment sur ltape
pralable de dtection d'artefacts. Nous discutons ensuite des potentialits de cette approche dans le
contexte du GSM et justifions la redfinition de notre axe dtude.
Les chapitres 3 5 sont consacrs lapproche de dcodage conjoint au niveau du dcodeur parole. Un
tat de lart des mthodes se rattachant cette approche est tout dabord prsent. La mise en uvre
de ces mthodes ncessite un algorithme de dcodage canal sorties souples dont le principe est
dtaill en annexe D. Nous analysons ensuite, au chapitre 4, linformation apporte par cette sortie
souple ainsi que la redondance rsiduelle laisse par le codeur de parole EFR. Enfin, nous dveloppons,
au chapitre 5, des propositions dalgorithmes visant rduire la complexit et amliorer les
performances du dcodage.
Les chapitres 6 et 7 sont consacrs aux mthodes de dcodage canal contrl par la source. Aprs un
tat de lart des diverses techniques dveloppes, nous proposons des modifications permettant une
meilleure prise en compte de la redondance entre bits dune mme trame. Enfin, nous abordons la
combinaison des approches exploitant la redondance rsiduelle au niveau du dcodeur parole et au
niveau du dcodeur canal.

Chapitre 1

Contexte et problmatique
1.1 Introduction
Les dgradations de la qualit vocale observes sur la parole transmise par le GSM ont des origines
multiples, allant des conditions de prise de son [Beaugeant, 1999] aux problmes de gestion de
litinrance du mobile par le rseau [Scalart, 1997]. Notre objectif initial tait dlaborer des post-
traitements du signal de parole en sortie du rseau GSM capables de traiter une large gamme de ces
dgradations. Cependant, il nous est apparu que parmi lensemble des dgradations rencontres, celles
lies aux erreurs de transmission sur le canal radiomobile taient les plus dterminantes vis--vis de la
qualit de parole du GSM. Aussi, la prsentation du contexte qui est faite ici, insiste plus
particulirement sur la problmatique de la transmission sur un canal bruit. Notre objectif est ici de
dgager les compromis pratiques dun systme de transmission de la parole comme le GSM, dillustrer
les dgradations de la qualit vocale qui en rsultent et desquisser les axes de recherches pour
lamlioration de cette qualit en rception.
1.2 Problmatique dune transmission numrique
Nous donnons ici un expos des principes mis en uvre dans une chane de transmission numrique
actuelle, les divers lments de la chane du systme GSM proprement dit sont dtaills dans les
Annexes A C. Nous rappelons des rsultats classiques de la thorie des communications mais qui
seront utiles pour mettre en perspective les travaux prsents dans ce document.
Chapitre 1 8
A la prsentation usuelle des divers lments (fonctionnalits) de la chane, abords dans le sens de la
transmission, nous prfrons ici repartir de la modlisation du canal et de la source transmettre
avant dintroduire les concepts de codage de source et codage de canal. Cette prsentation trs
gnrale a pour avantage de mettre en lumire le principe de sparation entre codage de source et
codage de canal nonc par Shannon pour un contexte thorique [Shannon, 1948]. Les limitations de ce
principe dans les cas pratiques seront illustres au travers du systme GSM.
Considrons le problme de la transmission dun signal au travers dun canal bruit. Dans le cas dune
transmission analogique, les perturbations et les bruits apports par le canal se rpercutent
invitablement sur le signal reconstruit en bout de chane. En revanche, dans le cas dune transmission
numrique, il est possible de transmettre un message avec un taux derreur aussi faible que lon veut.
Cest un rsultat de la thorie de linformation dveloppe pour les communications numriques (qui
dbouche sur le codage canal et codage source). Cette thorie prcise les deux points suivants :
la quantit dinformation (par unit de temps) apporte par un message numrique,
la quantit dinformation transmissible par le canal (par unit de temps).
Il convient dabord de dfinir le message (ou source) numrique ainsi que le canal de transmission au
sens de la thorie de linformation.
1.2.1 La source
Le signal de parole tant par nature analogique, il doit tout dabord tre converti dans lobjectif dune
transmission numrique. La Figure 1.1 rappelle les tapes de cette conversion analogique-numrique o
1
e
F =
e
T dsigne la frquence dchantillonnage.

( )
e
s nT
Filtrage et
chantillonnage
Quantification
scalaire
Source
analogique
Codage binaire
( ) s t
n
s
n
x

Figure 1.1 : Principe de la numrisation dune source analogique
Dans le cas de la parole, on distingue couramment deux gammes de qualits selon la bande utilise :
La bande tlphonique, qui correspond un signal filtr dans la bande [ ] 300 3400 Hz puis
chantillonn 8 kHz.
La bande largie, qui correspond la bande [ ] 50 7000 Hz et une frquence dchantillonnage
de 16 kHz.
Les applications radiomobiles, comme le systme GSM, utilisent la bande tlphonique.
Contexte et problmatique 9
La quantification utilise dans les convertisseurs analogique-numrique est une quantification scalaire
de rsolution suffisamment fine pour limiter le bruit de quantification un niveau quasiment
inaudible. En effet, la numrisation ne vise pas compresser le signal mais gnrer une source
numrique de rfrence (source non-code). Cette source est caractrise par son dbit binaire D dfini
comme le nombre dlments binaires mis par unit de temps. En sortie du convertisseur, on a :

e
k
D
T
= (1.1)
o k est le nombre dlments binaires utilis pour quantifier chaque chantillon s n de la source.
Ainsi, la sortie dun convertisseur analogique-numrique de parole est souvent un signal MIC
(
e
T )
)
1
linaire
correspondant un signal chantillonn 8 kHz et quantifi de manire uniforme sur 16 bits. La
source numrique ainsi dfinie a un dbit binaire de 128 kbits/s. Dans le cas du GSM, la source
numrique est un signal MIC linaire chantillonn 8 kHz et quantifi sur 13 bits, ce qui correspond
dbit de rfrence ( source non code ) de 104 kbits/s.
1.2.2 Transmission sur un canal radio
Considrons un canal de propagation radiomobile caractris par sa rponse impulsionnelle quivalente
en bande de base h t . Le bruit et les interfrences perturbant le canal peuvent tre modliss comme
un bruit additif blanc gaussien de puissance mono-latrale . On sintresse la transmission
dun message numrique x sur ce canal.
( )
( ) t
0
N
n
Le message x , dfini comme une suite dlments binaires, est un signal abstrait. Pour pouvoir tre
transmis dans le milieu physique de propagation, ce message doit tre vhicul par un signal physique.
Cest lobjet de la modulation qui associe une forme donde
n
2
analogique m t une squence
dlments binaires
( , x
[ ]
1
,..., ,...
n
x x =
s
x . En sortie du milieu de transmission, le signal reu en bande de
base et chantillonn une priode T , scrit :
(1.2) ( ) ( ) ( ) ( ,
s s s
r nT h nT m nT nT = + x )
s
o dnote le produit de convolution.
Le but du rcepteur est de retrouver la squence x mise partir de la squence r dchantillons reus.
Le critre optimal de dtection est celui du Maximum a Posteriori (MAP) qui maximise la probabilit
( )
p x r :

( )
{ }
( ) ( )
{ arg max arg max p p = =
x x
x x r r x } p x

(1.3)

1
Modulation par impulsions codes
2
On considre ici la reprsentation en bande de base de la modulation.
Chapitre 1 10
Ce critre exploite donc la fois une information a priori sur le message et une information a
posteriori
( )
p x
( )
p r x issue du canal.
La probabilit
( )
p r x peut tre calcule en estimant les paramtres du canal { } . Une
mthode communment utilise pour estimer ces paramtres est dmettre un squence dapprentissage
connue du rcepteur
( )
0
;
s
h nT N
3
. Cette mthode est celle utilise dans le systme GSM (cf. Annexe C). Le schma
de principe de la transmission est alors illustr Figure 1.2. Le rcepteur effectue ici implicitement
lgalisation et la dmodulation conjointement lexploitation de la redondance du message
( dcodage ).

Milieu de
transmission ( ) h t
Modulation
Estimation du
canal
( ) , m t x
( ) r t
x
( )
p r x
r
Dtection
Message
numrique
x
( )
p x
Echantillonnage s
T
bruit ( ) t

Figure 1.2 : Schma quivalent en bande de base dune transmission numrique
On montre que le critre du Maximum a Posteriori (1.3) quivaut minimiser la probabilit derreur
en rception, de plus la thorie de linformation prcise dans quelles conditions cette probabilit
derreur peut tre rendue arbitrairement petite.
Considrons une squence mise x de N lments binaires. On dispose au niveau du rcepteur dune
connaissance a priori sur les valeurs possibles de cette squence. Plus prcisment, lincertitude
au niveau du rcepteur sur la squence est quantifie par lentropie [Moreau, 1995] :
N
(
N
p x )
)
N
x

N
x
(1.4) ( ) ( ) ( ) (
2
log
N
N N
H p p =
x
x x
o la sommation a lieu sur toutes les squences possibles x .
N

3
On notera que dans la pratique, le canal radiomobile nest pas stationnaire et les paramtres
{ }

doivent tre rgulirement r-estims en mettant des squences dapprentissage intervalles rguliers.
( )
0
; h nT N
La dtection au sens du Maximum a Posteriori (1.3) peut tre ralise sans erreurs si linformation
apporte ( ,
N N
I x r ) )
)
N
r
4
sur par la squence reue est gale lincertitude que lon a au
rcepteur sur la squence mise :
N
x
N
r (
N
H x
N
x
incertitude au rcepteur H I connaissance apporte par (1.5) ( ) ( ,
N N
= x x
N
r
La limite asymptotique de ce rsultat (i.e. lorsquon considre des squences de longueur N ) est
le thorme de Shannon qui stipule quon peut toujours rendre la probabilit derreur arbitrairement
petite ds lors que le dbit entropique

( )
x H du message est infrieur la capacit C du canal :

( )
( ) ( )
(
1 1
lim lim ,
N N N
N N
H H I
N N
= = x x x r
)
C (1.6)
Le dbit entropique mesure le dbit moyen dinformation du message transmettre (en bits par
symbole) et la capacit C du canal correspond au maximum dinformation que lon peut transmettre
par symbole mis dans le canal
5
.
Ces dveloppements montrent lintrt dexploiter la connaissance a priori sur la source pour diminuer
le taux derreurs, ceci repose sur un dcodage par squences au sens du MAP. On remarque galement
quils supposent un dcodeur de mmoire infinie.
Lorsque le dcodage nexploite pas cette redondance (dcodage au sens du Maximum de Vraisemblance
( )
p r x ), le message est implicitement suppos i.i.d. (indpendant et identiquement distribu) et on ne
peut avoir une transmission sans erreurs que si le dbit binaire D vrifie :
(bits/s) (1.7) D C
Il est galement intressant de prciser les paramtres physiques qui dterminent la capacit C dun
canal (exprime en bits/s). Ces paramtres sont le rapport signal bruit SNR et la largeur de bande
W du canal. En effet, linformation apporte sur par la squence reue tend augmenter avec
le SNR et avec elle la capacit C en bits par symbole. La largeur de bande W quant elle, limite le
dbit binaire en entre du canal et ainsi la capacit en bits par seconde ( ) .
N
x
N
r
2 C = WC
On verra en Annexe C que le canal radiomobile prsente une forte slectivit temporelle, autrement dit
que le rapport signal bruit SNR peut devenir localement trs faible. Dans ces conditions, on
observera des paquets derreurs ( bursts ) en sortie du dtecteur de la Figure 1.2, mme si celui-ci
exploite la redondance du message car il travaille en pratique sur une longueur N limite.

) )
4
Linformation mutuelle I se quantifie comme tant la diffrence entre lentropie H de x et son
entropie connaissant r :
( ,
N N
x r
N
(
N
x
N
( ) ( ) ( ) { }
2
, log
N N
N N N N N N
p =

x r
x r x r x r H p
.
5
Ici on rappellera quen pratique lorsque le canal est de largeur mono-latrale W, on ne peut transmettre au plus
que 2W symboles par seconde. On exprime alors la capacit en bits par seconde, selon C W . 2 = C
Chapitre 1 12
Pour lutter contre ces vanouissements temporels, on utilise des techniques de diversit. Dans le cas du
systme GSM, on utilise ainsi un entrelacement temporel des symboles du message x avant modulation
(cf. Annexe C). Cependant lexploitation de la redondance du message x ( dcodage ) ne peut plus
se faire au mme niveau que lgalisation et la dmodulation. Ceci conduit la division du rcepteur
en deux entits spares par lentrelacement des donnes :
Un rcepteur interne qui effectue lestimation des paramtres du canal, la dmodulation et
lgalisation.
Un rcepteur externe qui considre la sortie du rcepteur interne comme celle dun canal sans
mmoire, de probabilits de transitions connues (estimes par le dcodeur interne) et qui prend
une dcision sur les symboles de la source. Ce rcepteur est abord dans la section suivante.
Le rcepteur interne a donc pour but de prsenter un canal idal au rcepteur externe, selon le
schma de la Figure 1.3. Il est dtaill en Annexe C dans le cas du GSM.

bruit ( ) t
Modulation
Estimation
du canal
( ) , m t x
( ) r t
n
x
Dmodulation
/Egalisation
n
y
Canal sans
mmoire
( )
n n
p y x
n
x
n
y
Milieu de
transmission ( ) h t
Entrelacement
D-entrelacement

Figure 1.3 : Rcepteur interne correspondant au modle de canal idal
Le rcepteur interne considre que le message mis dans le canal est i.i.d. Autrement dit la
dmodulation et lgalisation (conjointes dans le cas du GSM) utilisent le critre du Maximum de
Vraisemblance MV.
1.2.3 Principe de sparation entre codage de source et codage
de canal
On reprend (Figure 1.4) le schma dune rception au sens du Maximum a Posteriori o lon a
remplac le rcepteur interne par le canal idal quivalent. On a considr jusquici que la redondance
exploite par le dcodeur MAP tait celle de la source elle-mme ce qui est une simplification. En effet,
la condition sur le dbit entropique
( )
x H pour une transmission sans erreurs (thorme de Shannon)
se double dune condition sur le dbit binaire D en entre dun canal bande limite W. Soit :
x

( )
H x C
W
(bits/symbole) (1.8)
et : (symbole/s) (1.9) 2
x
D
La seconde condition est rarement vrifie, notamment pour les canaux radio-mobiles o lon souhaite
conomiser la bande passante. Ceci impose alors une rduction du dbit binaire. Cette rduction de
dbit binaire ninduit pas de distorsions tant que le dbit entropique reste inchang (exprim en
bits/s).
Cependant, la premire condition est galement rarement vrifie ce qui conduit accepter une
distorsion de manire diminuer le dbit entropique (en bits/s). Le principe de sparation de Shannon
affirme alors que cette rduction de dbit avec pertes (distorsions) peut seffectuer en deux tapes
spares sans perte doptimalit.

Dtection
( ) ( )
p p y x x
Message
numrique
x
( )
p x
Canal sans
mmoire
( )
n n
p y x
n
x
n
y

Figure 1.4 : Rception au sens du Maximum a Posteriori
Plus prcisment, considrons une source s de dbit binaire et de dbit entropique par symbole
s
D
( )
H s , deux cas sont possibles :
Chapitre 1 14

( )
2
s
D H WC s , alors la source peut tre transmise sans erreurs, ventuellement aprs une
compression (codage de source) sans pertes rduisant le dbit binaire si . 2
x
D W >

( )
2
s
D H WC > s , alors on peut effectuer une compression avec pertes par un codeur de source
dont la sortie u vrifie
n
( )
1 H = u et puis transmettre sans erreurs les donnes
aprs un codage canal dont la sortie x vrifie avec un dbit entropique inchang (en
bits par seconde).
2
u
D W
x
D
C
W
n
2
Selon ce principe de sparation, le codeur source et le codeur canal ont des rles distincts mais duaux :
Le codeur source adapte le dbit entropique de la source la capacit du canal (exprims par
units de temps). Il ralise pour cela un compromis entre rduction du dbit entropique et
distorsion
6
. De plus, en renvoyant une sortie i.i.d. il permet datteindre la limite de capacit du
canal.
Le codeur canal met en forme le message transmettre dans le canal bruit en rajoutant des
symboles de redondance (sans augmenter le dbit entropique par unit de temps). Il permet ainsi
le dcodage MAP en rception. On appelle rendement du codeur canal la quantit
u x
D = R D et
lon doit avoir pour une transmission sans erreurs. Le codeur canal ralise donc un
compromis entre dbit binaire en entre du canal et taux derreurs binaires en rception.
R C <
Il faut bien garder lesprit que loptimalit de ce principe de sparation nest garantie que pour un
codage/dcodage de mmoire infinie (squences de longueur ). Nanmoins, ce principe a
conduit optimiser le codeur source et le codeur de canal indpendamment lun de lautre. Il est la
base des systmes de communications numriques actuels et est schmatis Figure 1.5.
N

Codeur de
source
Codeur de
canal
Dcodeur
canal
Canal sans
mmoire
Dcodeur
source
n
u
n
x
n
s
n
y
Source
numrique
Source sans redondance H=1 Canal sans bruit C=1
s
D
u
D
x
D
2
x
D W
( )
H C x
( ) H s ( ) 1 H = u
( )
H x

Figure 1.5 : Principe de sparation entre dcodeur source et canal

6
Selon une mesure qui dpend du signal et de lapplication. Dans le cas de la parole, le codeur utilise lerreur
quadratique en sortie dun filtre qui modlise certaines proprits de laudition (masquage, cf. Annexe A).
1.3 Mise en oeuvre pratique le systme GSM
Selon le schma idal dcrit aux paragraphes prcdents, la seule dgradation du signal associe la
transmission serait la distorsion introduite au niveau du codeur de source et donc parfaitement
contrle. Cependant, comme on la dj not, ce schma optimal nest atteint que pour des codeurs /
dcodeurs de mmoire infinie, et on peut donc sattendre ce quil subsiste des erreurs rsiduelles en
sortie du dcodeur canal
7
. Dautre part, mme supposer des codeurs dune grande complexit, le
rglage optimal de ces codeurs est effectu pour une capacit du canal C nominale. Si la capacit relle
du canal devient infrieure cette capacit nominale, le rglage nest plus optimal et les performances
du dcodeur canal se dgradent trs rapidement [Hedelin et al., 1995].
1.3.1 Protection hirarchique et masquage
Ceci conduit, pour un codeur canal de rendement R fix, rpartir de manire ingale la redondance
introduite afin de la rserver aux lments binaires les plus importants pour la minimisation de la
distorsion [Duhamel et al., 1997]. Cette technique connue sous le nom dUnequal Error Protection
(UEP) est notamment utilise dans le GSM. Elle permet dtre moins sensible (en termes de
distorsion) aux variations de la capacit du canal.
Dans le cas du GSM, cette protection ingale des lments binaires en sortie du codeur parole est
complte par un mcanisme de masquage. On ajoute une dtection derreur sur les bits dont limpact
sur la distorsion du signal reconstruit est tel quil faut absolument viter de les dcoder en prsence
derreurs. Le mcanisme de masquage consiste alors en la substitution de la trame rejete partir
de la dernire trame valide reue
8
. Une telle procdure exploite implicitement la redondance rsiduelle
prsente en sortie du codeur parole. Le principe consistant utiliser la redondance rsiduelle du codeur
parole pour rduire limpact des erreurs rsiduelles en sortie du dcodeur canal est la base des
algorithmes proposs dans ce document, nous y reviendrons au paragraphe 1.4.
Pour prciser tout ceci, considrons le schma illustr Figure 1.6 et qui rsume la chane de
transmission de la parole mise en uvre pour le GSM EFR. Le principe et le fonctionnement de
chacun des lments de cette chane sont dtaills en Annexes, nous en prsentons juste ici les points
cls.
Le codeur de parole de type CELP (cf. Annexe A) analyse la parole par trames de 20 ms. Les
paramtres calculs [GSM, 06.60] pour chaque trame correspondent :

7
De manire duale, il subsiste une redondance rsiduelle en sortie du codeur parole. Celle-ci sera exploite par la
suite.
8
Le codeur GSM fonctionne par trame et cest lintgralit dune trame qui est substitue par la procdure de
masquage.
Chapitre 1 16
2 jeux de Lignes Spectrales de Frquences LSF reprsentant lenveloppe spectrale du signal
analys [Kleijn et al., 1995] et qui dfinissent la fonction de transfert du filtre de synthse.
Le gain et dlai (lag) du dictionnaire adaptatif, actualiss sur des sous-trames de 5 ms, et qui
dfinissent la partie priodique de lexcitation en entre du filtre de synthse.
Le gain et lindex du code algbrique dfinissant la partie stochastique de lexcitation. Ils sont
galement actualiss sur des sous-trames de 5 ms.

Codeur parole Codeur canal
Dcodeur parole Dcodeur canal
Dmod./galisation
Bad Frame Indicator
LPC
Dictionnaire
adaptatif
Dictionnaire
fixe
2 jeux de
LSF
(38 bits)
4 Lags (30)
4 Gains (16)
4 Codes (140)
4 Gains (20)
244
bits
Classe 1a
CRC
Classe 1b
Classe 2
Codage
Convolutif
R=1/2
456
bits
Modulation
Canal
radio

Figure 1.6 : Schma synoptique de la transmission de la parole par le GSM EFR
Aprs quantification (cf. Annexe A), ces paramtres sont reprsents
9
par une trame de 244 bits en
sortie du codeur de parole. Conformment la stratgie de protection hirarchique UEP prsente plus
haut, ces bits sont rpartis en trois classes selon leur impact sur la qualit de la parole [GSM, 05.03] :
Classe 1a : 65 bits, trs sensibles aux erreurs, ils ne doivent pas tre mal interprts.
Classe 1b : 109 bits, sensibles aux erreurs.
Classe 2 : 70 bits, les moins sensibles aux erreurs.
Comme lillustre la Figure 1.6, un codage canal convolutif de rendement (cf. Annexe B) est appliqu
aux bits de la Classe 1 (a et b) mais les bits de la Classe 1a sont pralablement protgs par des codes
cycliques CRC. Les bits de la Classe 2 sont eux transmis sans la moindre protection.
En rception, lorsquune erreur est dtecte laide des codes CRC sur les bits de la Classe 1a, un
indicateur de trame invalide BFI (Bad Frame Indicator) est positionn et transmis au dcodeur parole

9
La table dallocation des bits est donne en Annexe A.
qui dclenche la procdure de substitution de trame [GSM, 06.61]. Celle-ci consiste extrapoler les
paramtres de la trame invalide partir de ceux de la dernire trame valide reue. Cette extrapolation
assure notamment deux effets importants pour la qualit perue :
l'attnuation (muting)
L'ide la base de l'attnuation est qu'il convient de ne pas prolonger indfiniment le signal en cas
d'une succession de trames perdues, mais d'amener une transition douce avec le silence. Dans le cas
de lEFR, le gain de chacun des dictionnaires est ainsi remplac par la valeur mdiane des gains des
sous-trames prcdentes et un facteur dattnuation variable est appliqu cette valeur mdiane.
l'expansion spectrale
L'expansion spectrale est complmentaire de l'attnuation, elle permet de tendre progressivement vers
un spectre plat en cas d'une succession de trames perdues. Ainsi, le codeur EFR r-utilise les valeurs
passes des LSF en les faisant tendre vers leur valeur moyenne.
Enfin, le dlai de pitch de la dernire sous-trame valide est rpt pour toutes les sous-trames de la
trame substitue. On notera que les index des dictionnaires fixes ne sont pas substitus mais que les
valeurs reues sont utilises telles quelles.
1.3.2 Analyse des dgradations de la parole dcode
Nous dressons ici un bilan des dgradations de la qualit vocale les plus frquemment rencontres dans
le contexte de la transmission radiomobile GSM. Bien que la thmatique qui sera finalement
dveloppe par nos travaux soit centre sur les erreurs de transmission, nous largissons la
prsentation qui est faite ici lensemble des dgradations introduites par le rseau de transmission
radiomobile. Ceci permettra de les hirarchiser les unes par rapport aux autres.
Plus prcisment, on peut diviser les dgradations de la parole transmise par le rseau GSM en trois
catgories, prsentes dans les paragraphes qui suivent.
1.3.2.1 Dgradations lies au codage parole
Lobjectif de rduction de dbit impose, comme on la vu, au codeur parole deffectuer un codage avec
pertes. On peut ainsi assimiler le codeur CELP utilis par le GSM EFR un quantificateur multi-
tages oprant dans le domaine du rsidu LPC de la parole (Figure A.20).
Cependant, la qualit de parole obtenue avec le codeur EFR, en labsence derreurs de transmission,
est juge satisfaisante [Pascal et al., 1999], et correspond une note de qualit perue de 4 MOS
10
.
Dautre part, [Cox et al., 1989] dans son tude du CELP montre que ce type de codeur, en tant que

10
La dfinition de lchelle de qualit perue MOS est prcise au paragraphe 1.5.
Chapitre 1 18
codeur forme donde, est assez robuste aux entres bruites et est surtout sensible aux erreurs de
transmission.
1.3.2.2 Dgradations lies aux procdures du rseau
Certaines dgradations sont gnres par les procdures du rseau radio-mobile lui-mme. Il en est
ainsi notamment lorsque le mobile change de cellule [Cruchant et al., 1998]. Il y a alors une priode
(handover) variant entre 40 160 ms durant laquelle la parole doit tre extrapole, ce qui dgrade
fortement la qualit. Cette dgradation est rapprocher de celle associe la substitution de trame
perdue et qui sera aborde au paragraphe suivant.
On peut galement inclure dans cette catgorie des dfauts lis au mode de transmission discontinue
DTX [Scalart, 1997]. Ce mode optionnel repose sur une dtection dactivit vocale DAV pour
nmettre que les segments correspondants de la parole active. Durant les priodes dinactivit
vocale, le codeur se contente de transmettre ( trs bas dbit) une information destine coder le
bruit de fond. Cependant, les erreurs de DAV peuvent entraner des troncatures de la parole, et le
rafrachissement irrgulier du bruit de confort peut gnrer une gne due une sensation de trop forts
contrastes de bruit [Veaux, 1998].
Nanmoins, ces dgradations sont nettement moins frquentes que celles lies aux erreurs de
transmission ou peuvent parfois sy rattacher, comme dans le cas du handover.
1.3.2.3 Dgradations associes aux erreurs de transmission
On considrera ici lensemble des dgradations associes la prsence derreurs binaires rsiduelles en
sortie du dcodeur canal. Elles correspondent soit une utilisation directe des bits errons par le
dcodeur parole, soit des artefacts gnrs par la procdure de masquage. Plus prcisment, on peut
dgager trois principaux types de dgradations :
1.3.2.3.a Erreurs non dtectes par le CRC
Les distorsions les plus gnantes sont celles gnres par le dcodage de bits errons au sein de la
Classe 1a regroupant les bits les plus sensibles. Une telle situation peut se prsenter lorsque le code
CRC utilis par lindicateur de trame invalide BFI fait une erreur de dtection. En effet, le pouvoir de
dtection dun tel code est limit et dpend du nombre de bits de redondance ajouts (cf. Annexe B).
Cette situation tait frquente pour la premire gnration de codeur GSM FR qui utilisait un CRC
sur 3 bits. Elle rsultait en des distorsions non-linaires de la parole, extrmement audibles
(saturations brusques, sons trs artificiels). La Figure 1.7 donne un exemple dune telle dgradation,
rencontre dans le cas du GSM FR. Lindicateur BFI y est superpos au signal de parole.
400 405 410 415 420 425 430 435 440 445 450
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x 10
4
trames

Figure 1.7 : Erreur non dtecte parmi la Classe 1a pour le GSM FR (indicateur BFI en rouge)
La dtection derreurs a cependant t largement amliore avec le GSM EFR en rajoutant un CRC
sur 8 bits [GSM, 05.03]. On peut ds lors considrer que ce type de dgradation nest quasiment plus
jamais rencontr pour le GSM EFR.
1.3.2.3.b Erreurs rsiduelles sur les bits non protgs par CRC
Les bits qui ne subissent aucune protection aux erreurs (Classe 2) correspondent uniquement au
dictionnaire dexcitation algbrique du codeur CELP. Limpact dune erreur sur ces paramtres peut
apparatre, au niveau du signal de parole dcod, comme quivalent du bruit de quantification
[Sereno, 1991].
Les bits de la Classe 1b sont protgs par le codeur convolutif mais sont toujours dcods (sauf erreur
dans la Classe 1a). Ils correspondent pour lessentiel aux bits de poids faibles codant les gains
dexcitation du CELP (dictionnaires adaptatif et algbrique) ainsi quaux bits reprsentant les deux
dernires LSF de hautes frquences
11
. La prsence derreurs rsiduelles parmi ces bits engendre des
dgradations une chelle fine de la parole. Ainsi, on citera notamment parmi les dfauts audibles :
des dfauts de voisement (perte de voisement ou harmoniques de la parole noyes dans du
bruit).
des variations de niveau entre les segments de parole reus sans erreurs et ceux dcods en
prsence derreurs binaires rsiduelles et qui apparaissent plus touffs
12
.
La Figure 1.8 illustre certaines de ces dgradations. Elle compare le spectre du signal de parole dcod
par le GSM EFR en labsence derreurs de transmission avec celui de la parole dcode pour une
transmission bruite (rapport Porteuse sur Interfrences : C/I = 2dB). Parmi dautres dfauts, lis
la procdure de masquage (cf. 1.3.2.3.c), on observe une dgradation de la structure harmonique qui
tend tre noye dans le bruit dexcitation.

11
Celles-ci sont les LSF9 et LSF10 qui dfinissent la forme de lenveloppe spectrale LPC dans les hautes
frquences (approximativement dans la gamme [2800-3600] Hz).
12
Ces variations de niveaux ne sont pas dus lattnuation applique par la procdure de substitution de trame,
celle-ci ntant pas active.
Chapitre 1 20

0 1 2 3 4 5
0
5 0 0
1 0 0 0
1 5 0 0
2 0 0 0
2 5 0 0
3 0 0 0
3 5 0 0
Hz
0 1 2 4 5
0
5 0 0
1 0 0 0
1 5 0 0
2 0 0 0
2 5 0 0
3 0 0 0
3 5 0 0

3
temps (s)

coupures
voix
mtallique
voix
mtallique
Hz

structure harmonique dgrade
bruit
Figure 1.8 : Spectrogrammes de la parole dcode sans erreur et de la parole reue C/I=2dB
(TU50)
1.3.2.3.c artefacts introduits par la procdure de masquage
Les dgradations associes la technique de masquage utilise dans un systme tel que le GSM EFR
sont de deux ordres. Il y a dune part, les coupures de parole qui sont intrinsques la stratgie mme
de ne pas dcoder les trames binaires reues lorsque les bits sensibles sont errons. Cette dgradation
ne peut tre rduite quen envisageant une technique de dcodage qui puisse corriger au moins en
partie ces erreurs pour les bits les plus sensibles.
Il y a dautre part, les artefacts gnrs par la procdure de substitution de trame. Ces artefacts sont
bien videmment spcifiques une procdure donne, et mme une implmentation donne du
codeur EFR puisquelle nest pas normalise. Nous avons prsent succinctement celle donne en
exemple dans la norme du GSM EFR [GSM, 06.61]. Elle introduit un effet de voix mtallique
assez audible lorsque la trame extrapole est une trame voise. Cet effet est du la rptition
lidentique du dlai de pitch (cf. paragraphe 1.3.1) qui cre une priodicit long-terme artificiellement
stable de la parole gnre. Lintroduction dune gigue de pitch
13
permet dliminer cet artefact. De
nombreux autres mcanismes peuvent tre raffins pour amliorer la qualit perue de la parole
synthtise par ces procdures de substitution [De Martin et al., 2000]. Lalgorithme propos pour le
GSM EFR marquait dj cet gard un net progrs par rapport la technique assez rudimentaire
utilise par le GSM FR et qui produisait un effet voix de robot trs marqu (cf. Chapitre 2).
Les dfauts de coupure et de voix mtallique apparaissent galement sur la Figure 1.8. La voix
mtallique notamment, se manifeste pas des harmoniques invariantes au cours du temps et prsentes
jusque dans les hautes frquences.
1.3.3 Discussion
La prsentation qui a t faite des dgradations observes sur la parole transmise par le GSM ne
prtend pas tre exhaustive, nanmoins elle permet de relier la nature et limpact des dgradations
leur origine. Cest ainsi que nous avons choisi de centrer nos travaux sur les dfauts lis aux erreurs de
transmission et plus prcisment aux erreurs rsiduelles en sortie du dcodeur canal. Ces dfauts nous
apparaissent en effet tre ceux qui impactent le plus la qualit de la parole dans lutilisation du GSM
au quotidien.
Les techniques de masquage mises en uvre pour maintenir une qualit acceptable de la parole
dmontrent quil existe des paramtres du codeur parole pour lesquels un modle dextrapolation
entrane une distorsion
14
plus faible que le dcodage de linformation reue du canal en prsence
derreurs rsiduelles. Ces techniques reviennent donc implicitement sappuyer sur la redondance
rsiduelle des paramtres du codeur parole pour minimiser la distorsion en prsence derreurs
rsiduelles. Mais cette dmarche est de type tout ou rien , c'est--dire que le dcodeur parole fait
soit totalement confiance linformation issue du dcodeur canal, soit utilise exclusivement le modle
dextrapolation des paramtres. Il en rsulte le phnomne de coupures de la parole restitue.
Lexploitation conjointe de ces deux types dinformations offrirait un meilleur compromis. Elle
constitue un des axes de recherche pour lamlioration de la qualit vocale, prsents dans la partie
suivante de ce chapitre.

13
Petites variations du pitch autour de sa valeur moyenne (qui est la valeur de la dernire sous-trame valide).
14
On ne parle pas ici ncessairement dune distorsion base sur un critre quadratique, mais dune distorsion
base sur la perception, qui est le critre prendre en compte in fine.
Chapitre 1 22
1.4 Amlioration de la qualit vocale en rception
Nous prsentons ici les diffrents axes de recherche que nous avons suivis dans le but damliorer la
qualit perue de la parole restitue par le GSM. Les dgradations de la parole envisages sont toutes
lies aux erreurs de transmission.
Malgr la diversit de leur point de vue, deux aspects fdrent les mthodes prsentes. Le premier
aspect est dordre pratique, ces mthodes sappliquent toutes en rception, sans ncessiter de
modifications des codeurs parole et canal du GSM. Le deuxime aspect correspond lide dexploiter
un modle a priori de la source (parole) pour rduire limpact qualitatif des dgradations entranes
par les erreurs de transmission.
1.4.1 Post-traitement du signal de parole en sortie du dcodeur
Notre premire approche tait deffectuer un post-traitement du signal de parole en sortie de la chane
de rception du GSM. Un exemple de post-traitement appliqu au contexte du GSM est le post-filtrage
propos par [Sereno, 1991]. Celui-ci tait destin masquer leffet des erreurs introduites sur les bits
codant lexcitation (Classe 2) et qui peut tre assimil du bruit de quantification. Cependant, ce
post-filtre tait activ conditionnellement une mesure derreur estime par le dcodeur canal.
Ceci illustre bien le principal problme du post-traitement appliqu aux dgradations introduites par
les erreurs de transmission. En effet, ces dgradations sont non-stationnaires et non-linaires, il est
donc trs difficile de les estimer partir du signal reu. En particulier, les estimateurs linaires
classiquement utiliss pour le rehaussement de la parole [Beaugeant, 1999] ne peuvent tre appliqus.
Dans ce contexte, on ne peut effectuer de post-traitement du signal de parole que si lon dispose dun
modle a priori du dfaut traiter ou dun modle a priori du signal de parole reconstruire. De plus,
les traitements appliqus au signal ne peuvent tre, dans le cas gnral, de simples oprations de
filtrage linaire. Les techniques envisager relvent du masquage ou du schma plus gnral
15

danalyse - modification - synthse [Laroche, 1995].
Nous abordons un premier aspect du post-traitement au Chapitre 2, en tudiant la dtection
dartefacts sur le signal en sortie de dcodeur parole. Cependant, il est progressivement apparu que
lintrt des post-traitements pour les dgradations associes aux erreurs de transmission se limitaient
celles dues aux erreurs binaires dans les Classes 1b et 2 (cf. paragraphe 1.3.2.3). Ces dgradations ne
nous paraissent pas tre les plus dterminantes pour la qualit de la parole GSM transmise en prsence

15
Les techniques frquentielles danalyse-modificationsynthse du signal pourraient tre utilises pour le
masquage ou pour toute procdure visant reconstruire le signal daprs un modle a priori.
derreurs. La contribution principale la distorsion du signal de parole dcod tant due aux bits de la
Classe 1a (ou la procdure de masquage enclenche par le dcodeur).
Ceci nous a conduit envisager dautres approches, situes au niveau des dcodeurs parole et canal du
GSM EFR.
1.4.2 Dcodage parole entres souples
Si lon vise une amlioration significative de la qualit de la parole restitue par le GSM en prsence
derreurs de transmission, il convient de minimiser la distorsion entrane par le dcodage des erreurs
binaires rsiduelles. Une ide, dj esquisse par la technique du masquage, est dutiliser pour ce faire
la redondance rsiduelle laisse par le codeur parole. Cette approche se rattache aux dveloppements
rcents [Duhamel et al., 1997] sur le codage et dcodage conjoint source-canal. Elle part du constat
que le schma idal (Figure 1.5) justifiant la sparation du codage/dcodage source et canal nest
jamais atteint dans la pratique et quil vaut mieux ds lors faire interagir ces 2 tapes plutt que de les
idaliser.
Le principe du dcodage parole entres souples est illustr Figure 1.9. La sortie binaire du
dcodeur canal est ici complte par une information de fiabilit (ou probabilits derreur associes
aux bits ). Le couple
(
forme la sortie souple du dcodeur canal (resp. entre souple
du dcodeur parole). Cette information souple issue du canal est utilise conjointement au niveau du
dcodeur de parole avec une information a priori sur les paramtres du codeur de parole. Ceci permet
lestimation optimale du paramtre transmis [Hedelin et al., 1995], c'est--dire la valeur minimisant le
critre utilis pour mesurer la distorsion.
b
e
p
b
)
,
e
b p

Dcodeur source Dcodeur canal
b
Canal Equivalent
A priori
e
p

Figure 1.9 : Principe du dcodage source entres souples
Une telle approche sera dveloppe dans les chapitres 4 et 5 pour le GSM EFR. Notre principale
contribution sera dlaborer un modle a priori des paramtres permettant de rduire la complexit de
lestimation et offrant une caractrisation plus fine de la redondance rsiduelle.
Chapitre 1 24
1.4.3 Dcodage Canal Contrl par la Source (SCCD)
Dans le schma de la Figure 1.9, la sortie du dcodeur canal est vue comme celle dun canal quivalent
donn et la redondance rsiduelle laisse par le codeur parole sert compenser les erreurs rsiduelles
observes en sortie de ce canal. En prolongeant lide dexploiter la redondance rsiduelle du codeur
parole pour compenser les imperfections du dcodeur canal, il parat intressant dutiliser cette
redondance rsiduelle de source conjointement avec la redondance systmatique introduite par
le codeur canal. Cest lide la base du dcodage canal contrl par la source [Hagenauer, 1995] dont
le schma de principe est illustr Figure 1.10. Le canal quivalent correspond ici au rcepteur interne
de la Figure 1.3 et les probabilits derreur associes aux sorties binaires y ne sont autres que les
probabilits de transition de ce canal, estimes par le rcepteur interne (cf. Annexe C).
e
p

Dcodeur source Dcodeur canal galiseur
e
p

Canal Equivalent
A priori
y

Figure 1.10 : Principe du dcodage canal contrl par la source
Linformation a priori issue de la redondance rsiduelle est alors exploite au niveau du dcodeur
canal. Lobjectif tant ici de minimiser le taux derreurs rsiduelles en sortie du dcodeur canal plutt
que de minimiser un critre de distorsion sur les paramtres corrompus reus par le dcodeur
parole. Nous avons jug intressant dtudier lapplication de ce principe au GSM EFR, dans le but
didentifier lequel de ces deux points de vue sur lutilisation de la redondance rsiduelle tait le plus
judicieux et si ils pouvaient ventuellement tre complmentaires. Nous nous attacherons la fois
amliorer lexploitation de la redondance rsiduelle par les algorithmes de SCCD et les adapter aux
contraintes pratiques du codage canal mis en uvre pour les communications radio-mobiles. Ces
dveloppements sont prsents au Chapitre 7.
Pour conclure, on notera quon sest restreint ici aux mthodes situes en rception puisque lune de
nos contraintes tait de ne pas modifier la partie codage du systme GSM. Cependant de nombreuses
voies de recherches soffrent ce niveau pour rendre les paramtres transmis par le codeur parole plus
robustes aux erreurs de transmission [Duhamel et al., 1997]. On citera notamment les techniques
doptimisation de ltiquetage des centrodes du dictionnaire de quantification (Index Assignement ).
Lobjectif vis par ces techniques tant de minimiser la distorsion induite dans lespace des centrodes
16

par une erreur de transmission sur lindex du centrode.

16
C'est--dire lespace des paramtres du codeur parole.
1.5 Critres dvaluation des mthodes
Nous terminons ce chapitre introductif par une prsentation des mesures objectives qui seront utilises
tout au long de ce document pour valuer les performances des diffrentes approches dveloppes. En
effet, nous comparons des algorithmes implments des niveaux distincts de la chane de
transmission et il nous faut des mesures communes qui nous permettent dtablir une comparaison
globale entre ces mthodes.
Nous avons choisi des mesures calcules partir du signal de parole restitu par le dcodeur du GSM
EFR. Les mesures de distance les plus communment utilises pour la parole sont la distance log-
spectrale et la distance cepstrale [Kleijn et al., 1995]. La distance log-spectrale est considre comme la
plus pertinente au plan subjectif mais on lui prfre dans la pratique la distance cepstrale. En effet
celle-ci peut tre considre comme une approximation de la distance log-spectrale mais se calcule
beaucoup plus aisment, partir des coefficients de prdiction linaire.
Cependant ces distances classiques sont surtout adaptes la mesure de distorsions linaires ou
additives (filtrage, bruit additif, etc.) or la nature des dgradations observes ici est trs diffrente.
Dans le cas du masquage de lEFR, par exemple, la perte de trames successives aboutit au final
lannulation de tout signal en sortie du dcodeur (segment de silence). Une mesure base sur
lenveloppe spectrale (distance log-spectrale, cepstre) aura alors tendance diverger sur des dfauts de
ce type. Cest pourquoi nous avons choisi dutiliser 2 mesures complmentaires prsentes dans les
paragraphes qui suivent.
1.5.1 Distance cepstrale
La distance cepstrale est principalement utile pour reprsenter la distribution de lerreur au cours du
temps. En revanche, elle est moins pertinente pour la comparaison avec la procdure de masquage
classique
17
. Nous prcisons en premier lieu son calcul partir des coefficients de prdiction linaire.
La distance cepstrale sera value par trames de 16 ms, recouvrantes de moiti, entre le signal de
parole en sortie de dcodeur et le signal de rfrence s correspondant au signal dcod par le
GSM EFR en labsence derreurs de transmission.
( ) s t ( ) t
Considrons les jeux de coefficients cepstraux
{
et calculs respectivement sur les trames
dindice n du signal valuer s t et de la rfrence s t . La distance cepstrale dordre 2 entre ces
deux signaux la trame n est donne par :
} }

, n i
c
{
, n i
c
( ) ( )

17
Pour viter la divergence de la distance cepstrale en cas de trame perdue rsultant en un segment de silence, on
rajoute un bruit de fond (bruit blanc, SNR=50dB).
Chapitre 1 26
(1.10)
( )
(
2
, ,
N
cep
n i n i
i N
d n c c
=
)
Les coefficients cepstraux { associs une trame donne }
i
c
18
sobtiennent partir des coefficients
de prdiction linaire LPC calculs sur cette trame de signal laide des relations suivantes
[Boite et al., 1987] :
{ }
i
a

( )
1
1
1 ;
i
i i i k k
k
k
c a c a i
i
=
= >
0
)
)

(1.11)
avec c et c o est la puissance du signal (mesure sur la trame).
i i
c
= (
2
0
log =
2
Le nombre N est pris gal au double de lordre du modle auto-rgressif de lanalyse LPC (cf.
Annexe A). Dans la pratique, la diffrence dnergie ( ne sera pas prise en compte dans le
calcul (1.10) car peu significative sur le plan perceptif.
2
0 0
c c
La distance cepstrale au cours du temps d permet de visualiser la distribution temporelle des
dgradations du signal de parole valuer par rapport au signal dcod sans erreurs (rfrence). On
peut galement obtenir une note unique pour le signal de parole valuer en calculant la moyenne des
distances cepstrales d sur les trames dactivit vocale. Cependant, on a prfr utiliser le critre
PESQ, prsent au paragraphe suivant, afin dobtenir une note dvaluation globale prenant mieux en
compte les pertes de trames tout comme les erreurs introduites durant les segments de non-activit
vocale.
( )
cep
n
( )
cep
n
1.5.2 Distance perceptuelle PESQ (MOS estime)
La distance cepstrale tend pnaliser trop fortement le masquage classique de lEFR car elle prend des
valeurs trs importantes dans les priodes de coupure associes au mcanisme de masquage
derreur, lequel annule compltement le signal restitu au bout de plusieurs trames successives perdues.
Dautre part, il serait intressant de prendre galement en compte les dgradations gnres par le
dcodage des erreurs rsiduelles dans les zones de non-activit vocale. Mais il faut pour cela disposer
dun modle permettant de pondrer diffremment limpact des dgradations mesures selon quelles
concernent des segments dactivit vocale ou de non-activit vocale. En labsence dun tel modle, le
calcul de la moyenne des distances cepstrales est ainsi restreint aux seuls segments dactivit vocale.
Tout ceci nous a conduit utiliser, comme critre dvaluation, lalgorithme PESQ dont nous donnons
ici une prsentation succincte.

18
On omet ici lindice de trame n pour allger les notations.
Lalgorithme PESQ a t normalis par lUIT-T [UIT-T, P.862] pour lestimation de la qualit vocale
tlphonique et est capable de modliser les distorsions non-linaires engendres par le codage ou par
les procdures de masquage derreur. Trs schmatiquement, on peut le considrer comme un
algorithme calculant une distance spectrale perceptuelle suivie dun modle cognitif qui
permet de prendre en compte le fait quune dgradation na pas le mme impact selon quelle est
additive ou soustractive, ou selon son contexte (segment de parole ou non) et sa distribution (localise
ou non).

Spectre
court-terme
Echelles
perceptuelles
Diffrence
audible
Modle
cognitif
note PESQ
parole non code
(rfrence)
Spectre
court-terme
Echelles
perceptuelles
parole dcode
(signal valuer)

Figure 1.11 : Schma synoptique du calcul de la distance perceptuelle PESQ
Le schma de lalgorithme PESQ est illustr Figure 1.11. Lalgorithme opre par comparaison du signal
valuer avec une rfrence. La rfrence choisie est ici le signal de parole non cod. La distance
calcule par lalgorithme PESQ entre ces deux signaux est une distance entre leurs reprsentations
auditives . Ces reprsentations auditives sont obtenues par des transformations dchelles du
spectre de puissance calcul partir de la transforme de Fourier court-terme. Lutilisation dchelles
de frquence (Bark) et dintensit (Sonie) correspondant des chelles perceptives [Zwicker et al.,
1981] permet dobtenir une distance spectrale perceptuelle plus pertinente que la distance
cepstrale.
Le modle cognitif intervient au niveau de lintgration en temps et en frquence (chelle des Bark) des
diffrences entre les deux reprsentations auditives (diffrences audibles ). Cette intgration
permet dobtenir une note de qualit globale (note PESQ) pour lintgralit du signal valuer. Le
modle cognitif applique une pondration plus faible aux dgradations sous-tractives (signal filtr
frquentiellement ou attnu temporellement) quaux dgradation additives (bruit additif, par
exemple). Ceci est sens reproduire un mcanisme de la perception et permet, par exemple, de ne pas
pnaliser trop fortement les dgradations (coupures) gnres par le masquage classique de lEFR. De
plus, les dgradations intervenant dans les segments de non-activit vocale sont galement prises en
compte mais avec une pondration moindre. Enfin, lintgration en temps et frquence des
diffrences audibles est non-linaire afin de modliser le fait que des erreurs isoles (en temps
et/ou frquence) ont un impact perceptif plus fort que des erreurs uniformment rparties.
Chapitre 1 28
La note globale de qualit renvoye par lalgorithme PESQ est corrle avec la note MOS (Mean
Opinion Score), cest pourquoi on utilisera indiffremment les termes note PESQ ou MOS
estime pour la dsigner. La note MOS est une note de qualit subjective obtenue comme la
moyenne des notes fournies par des sujets lors de tests dcoute. Les notes attribues par les sujets
sont situes sur une chelle discrte (Opinion Scores) explicite par le Tableau 1.1, la moyenne
rsultante (note MOS) tant valeurs continues. Bien que lchelle MOS corresponde par sa
terminologie une chelle de qualit absolue, on insiste sur le fait que la note MOS estime par
lalgorithme PESQ (ou note PESQ) nest utilise ici que comme une mesure de distance
perceptuelle par rapport la rfrence. Elle na donc de sens que pour une comparaison relative des
algorithmes entre-eux et par rapport la rfrence, et pour des mmes conditions de test.

Opinion scores Qualit perue
5 Excellente
4 Bonne
3 Moyenne
2 Mdiocre
1 Mauvaise
Tableau 1.1 : Echelle de qualit
(Opinion Scores)
La corrlation moyenne entre la note MOS relle et la note estime par PESQ a t value 0,92
pour des conditions correspondant de la parole transmise par les rseaux radio-mobiles (et pour
diffrents niveaux de brouillage). On considre quun cart entre notes MOS estimes (notes PESQ)
est significatif sil excde 0,2 MOS.

Chapitre 2

Dtection dartefacts introduits par le
rseau GSM sur le signal de parole
2.1 Introduction
Ce chapitre sinscrit dans la problmatique du post-traitement du signal de parole transmis par le
rseau GSM. Le but initial vis tant de dvelopper des algorithmes traitant la parole en un point
situ en aval de la chane de rception afin de rduire limpact subjectif des dgradations rencontres.
Lavantage dune telle stratgie est son universalit, le positionnement en aval permettant la prise en
compte des divers artefacts susceptibles dtre introduits tout au long de la chane de transmission. En
contre-partie, on dispose du minimum dinformation pour traiter les dgradations lies aux erreurs de
transmission puisque on a uniquement accs au signal de parole dcod. La dtection de ces
dgradations depuis le signal de parole constitue alors une tape cruciale conditionnant lefficacit de
tout post-traitement ultrieur.
Le chapitre introductif qui prcde a dress le tableau des principales dgradations de la qualit vocale
transmise par le GSM. Notre objectif est ici de dgager les mthodes aptes dtecter ces dgradations.
Nous tudions deux approches complmentaires pour dtecter loccurrence dun artefact dans un signal
de parole. La premire est base sur une modlisation du dfaut dtecter et ne peut sappliquer
quaux artefacts bien caractriss. Un exemple est lartefact voix de robot du GSM Full Rate (FR)
et pour lequel un algorithme de dtection est propos. La seconde approche utilise un modle a priori
de la parole et pourrait sappliquer une gamme plus large de dgradations. Une analyse des mthodes
sinspirant de ce principe est mene dans la seconde partie de ce chapitre et la pertinence de la
stratgie post-traitement pour les artefacts dus aux erreurs de transmission est finalement discute.
Chapitre 2 30
2.2 Principe
Nous prsentons ici le principe gnral de la dtection dune dgradation sur un signal de parole. Ceci
nous permet de dgager deux grandes catgories de mthodes de dtection que nous appliquerons par
la suite aux dgradations de la parole transmise par le GSM mises en vidence au chapitre prcdent.
La dtection de dgradations peut tre envisage comme un problme de classification illustr Figure
2.1. Le principe est dextraire rgulirement du signal de parole, un certain nombre de paramtres
associs aux modles que lon se donne du signal de parole attendu ou de dfauts connus. On dcide
alors en fonction de la valeur des paramtres extraits quelle classe affecter la trame de signal
analyse : parole non dgrade ou dfaut.

Extraction de
paramtres
parole analyse
Classification
parole / artefact
dclenchement
Masquage
Modle de
parole
Modle de
dfaut 1
Modle de
dfaut N

Figure 2.1 : Dtection dartefacts en sortie de dcodeur parole
Cette prsentation de principe trs gnrale recouvre des situations relles diverses.
Il est souvent plus facile dexploiter uniquement le modle dun dfaut bien caractris que lon
cherche dtecter. Le modle de parole est implicite et rduit la seule hypothse quil ne recouvre
pas celui du dfaut. Lavantage de telles mthodes est leur simplicit et leur robustesse. Cette stratgie
est mise en uvre au paragraphe 2.3 pour la dtection de la voix de robot [Veaux et al., 1999].
A linverse, lide de dtecter nimporte quel type de dfaut partir du seul modle explicite de la
parole apparat trs sduisante dans le contexte de post-traitement qui est le notre. En effet, les
dgradations de la parole associes aux erreurs de transmissions sont par nature trs diverses et il
parat difficile de les modliser. Dautre part, le modle de parole utilis pour la dtection de
Dtection dartefacts introduits par le rseau GSM sur le signal de parole 31
dgradations
19
peut tre naturellement exploit pour le masquage de ces dgradations. Ceci est
schmatis Figure 2.2 o une mme loi a priori sur les valeurs dun paramtre extrait du signal analys
permet de dfinir le critre de dtection dun artefact (seuil de rejet) ainsi que la valeur de substitution
utilise par la procdure de masquage pour ce paramtre.

valeur de substitution
(MMSE ou MAP)
seuils de rejet

distribution a priori
du paramtre
Figure 2.2 : Dtection et masquage dun artefact partir du modle a priori dun
paramtre pour la parole
Figure 2.2
Lapplication de ces principes de dtection aux dgradations de la parole transmise par le GSM est
lobjet des dveloppements qui suivent. Nous prsentons en particulier un algorithme de dtection de
la voix de robot du GSM FR. Cet algorithme rsulte des premires tudes que nous avons menes
afin de valider la stratgie post-traitement en aval du systme GSM existant. Lenjeu de la
prsentation qui en est faite ici est dillustrer une mthode de dtection dun dfaut donn, et non de
chercher amliorer une technologie de codage qui a fait son temps.
2.3 Dtection dun artefact caractris : la voix
de robot
La procdure de substitution de trame propose pour le GSM FR peut se traduire par une perte trs
sensible du naturel de la voix, celle-ci devenant trs mtallique . Cest cet effet dnomm voix de
robot que nous cherchons dtecter. Nous montrons quil se caractrise par la prsence dune
priodicit de 50 Hz correspondant la rptition de trame (20 ms). Nous proposons ensuite de
dtecter leffet voix de robot partir dune mesure du degr de priodicit de 50 Hz applique au
signal de parole.

19
La dtection dune dgradation se fait alors par rejet , c'est--dire lorsque les valeurs des paramtres
observs sont trs peu probables conditionnellement au modle de parole. Ceci est illustr .
Chapitre 2 32
2.3.1 Caractrisation de leffet voix de robot du GSM FR
La Figure 2.3 illustre le rsultat de la procdure de masquage mise en uvre par le GSM FR. Le signal
de parole dcod en labsence derreur de transmission y est compar un segment de plusieurs trames
substitues (lindicateur BFI est superpos au signal). Il apparat nettement une priodicit gale la
dure dune trame (20 ms), cette priodicit est responsable de la rsonance mtallique perue (50Hz).
64 65 66 67 68 69 70 71 72 73 74
-1
-0.5
0
0.5
1
x 10
4
64 65 66 67 68 69 70 71 72 73 74
-1
-0.5
0
0.5
1
x 10
4
trames

Figure 2.3 : Priodicit-trame introduite par la substitution de trames errones ; 1- signal reu sans
erreurs ; 2- signal reu pour C/I=5dB (avec indicateur de BFI)
La procdure de masquage mise en uvre dans le dcodeur GSM FR semble donc tre lorigine de
cette priodicit-trame. Nous avanons ici une explication plus prcise de ce phnomne [Paping et al.,
1997] :
Lors de la substitution de trame, les paramtres RPE-LTP (cf. Annexe A) de la dernire trame
20

valide sont rpts en entre du dcodeur, mis part les gains de calibration qui sont diminus
chaque rptition (i.e. toutes les 20 ms) et les grilles des 4 squences RPE mais celles-ci sont dfinies
par un offset qui ne varie que de 0 3 chantillons. Si lon nglige la variation des grilles RPE, on peut
alors considrer que les 4 squences RPE de la dernire trame valide sont rptes lidentique pour
chaque nouvelle trame substitue, cest--dire que le signal dexcitation r n (
e
T )
)
)
e

21
du filtre de synthse
LTP est pseudo-priodique de priode T . Ceci explique lapparition dune priodicit-trame
(20ms) dans le signal synthtis. Plus prcisment, durant la procdure de substitution de trame, le
signal dexcitation r n du filtre de synthse LTP peut tre modlis par :
20 ms
r
=
(
e
T
(2.1) ( ) ( ) ( ) (
0
r
e e e
T
r nT nT r nT nT

20
Le dcodeur GSM FR reoit toutes les 20 ms une trame de 260 bits codant 1 filtre LPC, 4 filtres LTP et 4
squences dexcitation RPE de 5 ms.
21
T dsigne la priode dchantillonnage. La frquence dchantillonnage
e
1
e
=
e
T F est ici gale 8 kHz.
o dsigne loprateur de convolution, r n est le signal dexcitation de 20 ms (4 squences
RPE) cod par la dernire trame valide reue, correspond un peigne de Dirac de priode
et est un facteur dattnuation diminuant par sauts toutes les 20 ms.
=
(
0
e
T
)
)
)
r
T
20 ms
r
T (
e
nT
Ainsi, si on considre le signal en sortie du dcodeur, analys au travers de la fentre
court-terme w , son spectre scrit :
(
w e
x nT
( ) ( ) ( ) ( )
( ) ( )
0
0 0
1 1
[
r
w
F
X f f r f f
P f A f
= ] , 1 50
r r
= = Hz
)
F T , (2.2)
o on a suppos le facteur dattnuation constant lintrieur de la fentre danalyse et not (
e
nT
0
1 ( P f ) et
0
( A f 1 les fonctions de transfert des filtres LTP et LPC cods par la dernire trame
valide
)
22
. En notant X f , le spectre du signal synthtis pour la dernire trame valide reue, cette
relation devient :
0
( )
. (2.3)
0
( ) ( ) [ ( ) ( )]
r
w
F
X f w f X f f =
Le spectre synthtis sapparente donc au produit du spectre de la dernire trame valide reue
avec un peigne .
( )
w
X f
r
F
Pour vrifier lhypothse selon laquelle la variation des grilles RPE nest pas suffisante pour
dtruire la priodicit introduite par la rptition des autres paramtres du codeur,
nous avons simul la procdure de substitution du GSM FR. Ainsi, nous avons dabord simul le
fonctionnement normal du dcodeur RPE-LTP en excitant un filtre de synthse LTP
20 ms
r
T =
( )
1 par des
squences dimpulsions RPE damplitude et doffset alatoires. Pour simplifier, les paramtres et P
du filtre ont t pris invariants (dans la pratique, ces paramtres sont ractualiss pour chaque
squence RPE de 5 ms, aussi les rsultats prsents ici ne sont valables que pour les zones voises
stationnaires de la parole). Le spectre du signal synthtis pour et (soit une
frquence fondamentale F ) est illustr sur la Figure 2.4 (haut). On a simul ici la seule
partie LTP du dcodeur.
P z
42 =
0.9 = P
0
190Hz =
Nous avons ensuite simul la procdure dcrite dans la norme [GSM, 06.10] pour masquer les trames
perdues ( partir de la seconde trame perdue). Cest--dire que pour chaque nouvelle trame, nous
avons rpt les 4 squences dimpulsions RPE de la trame prcdente avec simplement
23
un offset
alatoire pour les trains dimpulsions (grille RPE). Le spectre obtenu en sortie du filtre LTP avec
et P est illustr sur la Figure 2.4 (bas). On voit clairement que le spectre est modul
par des harmoniques de 50 Hz. La procdure de substitution de trames donne dans la norme GSM
0.9 = 42 =

22
Dans le cas du filtre LTP, il sagit dun spectre moyen sur lensemble de la trame de 20 ms (i.e. moyenne des 4
filtres LTP).
23
Nous navons pas simul le facteur dattnuation car il nintervient pas vraiment dans lhypothse que lon veut
vrifier ici, savoir que les variations doffset ne sont pas suffisantes pour dtruire la priodicit de lexcitation.
Si lon tenait compte du facteur dattnuation, on aurait simplement une excitation priodique amortie.
Chapitre 2 34
engendre donc bien des distorsions semblables celles dcrites pour les signaux analyss prcdemment
( voix de robot ).

{ }
RPE m
m j
j
( )
, .. , ; = 0 39

1
1
. z
P

Synthse LTP
$( ) e n
j :indice des squences RPE

0 200 400 600 800 1000 1200 1400 1600 1800 2000
12
10
8
6
4
2
0
frequence (Hz)
p
u
is
s
a
n
c
e
(
d
B
)
spectre du signal de synthese pour des impulsions RPE aleatoires

spectre en sortie du filtre LTP

{ }
RPE m
m j
j
( )
, .. , ; = 0 39

1
1
. z
P

Synthse LTP
$( ) e n
j :indice des squences RPE
4
( ) ( ),
avec alatoire entre 0 et 3
j j
RPE m RPE m k
k
=
0 200 400 600 800 1000 1200 1400 1600 1800 2000
14
12
10
8
6
4
2
0
frequence (Hz)
p
u
is
s
a
n
c
e
(
d
B
)
spectre du signal de synthese pour des impulsions RPE repetees avec un offset aleatoire

spectre en sortie du filtre LTP
squences alatoires (amplitude et offset)
Figure 2.4 : Explication de lartefact voix de robot produit par le GSM FR
2.3.2 Dtection des occurrences de voix de robot
Lquation (2.3) caractrise leffet voix de robot par la prsence dharmoniques de 50 Hz dans le
signal en sortie du dcodeur parole. La dtection de lartefact voix de robot se rduit donc la
dtection de telles harmoniques ou de la priodicit T dans le domaine temporel. On opte
pour une mthode temporelle plutt que frquentielle et on utilisera linter-corrlation normalise pour
mesurer la priodicit long-terme du signal. Cette mthode est dj utilise par le GSM FR pour
calculer le filtre LTP et permet une meilleure rsolution temporelle quune mthode frquentielle. Plus
prcisment, on considre des trames de L chantillons du signal de parole s n :
20 ms
r
=
( )
[ ] ( ),..., (( 1) )
T
n e
s nT s n L T = + s
e
)
, (2.4) n N
o T dsigne loprateur transpos.

On dfinit linter-corrlation normalise linstant n et pour le dcalage k, selon : ( ,
s
n k
( )
.
,
T
n
n k
s
n
n k
n k

=
s s
s s
avec (2.5)
max
min
P k P
o
2 T
n n
= s s
n
s
)
=
.
On choisit ici des trames de longueur L chantillons la frquence dchantillonnage
. La fonction dinter-corrlation est value pour les dcalages k compris entre
chantillons de manire inclure les valeurs naturelles du pitch
160 =
( ,
s
n k
20 ms =
8 kHz
e
F =
min
20 et P =
max
165 P
24
de la parole
et la valeur de la priodicit dtecter (T soit 160 chantillons).
r
On remarquera que linter-corrlation (2.5) diffre de celle calcule par le codeur du GSM FR (cf.
Annexe A) puisquon na pas effectu la simplification
n
n k
= s s au dnominateur. Cette
simplification nest en effet plus valide lors du masquage de trame puisque les trames substitues sont
progressivement attnues.
A partir de lexpression (2.5), on dfinit un critre de dtection de leffet voix de robot
linstant n, selon :
avec 0 (2.6) ( ) ,
s r
n k N = > 1
)
)
)
< <
o correspond la priodicit T exprime en nombre dchantillons : .
r
N
r
160
r r e
N T F = =
On remarque que lvnement voix de robot est associ au dpassement dun seuil par linter-
corrlation value pour le dcalage k associ la priode N et non au fait que le maximum
selon k de la fonction dinter-corrlation concide avec la priode N . La justification de ce
choix tient au fait que pour un instant n donn, la fonction dinter-corrlation peut prsenter
la fois des pics pour la priode et pour le pitch P de la trame rpte par la procdure de
substitution. Suivant les caractristiques de la trame rpte (degr de voisement) et lattnuation
applique aux trames substitues, le maximum de linter-corrlation peut correspondre au pitch P ou
la priode de rptition N .
)
( ,
s
n k
r
( ,
s
n k
r
( ,
s
n k
r
N
0
0
r
Pour valuer les performances de dtection dun tel critre, on a calcul sa caractristique optimale de
rception (courbe COR) qui reprsente les couples
(
,
fa d
P P de probabilits de fausses alarmes et de
dtection correcte obtenues en variant le seuil de dcision . Pour cela, il est ncessaire de disposer
dune rfrence indiquant loccurrence de lartefact dtecter. On utilisera ici lindicateur BFI renvoy
par le dcodeur canal, coupl une dtection dactivit vocale DAV. A partir de ces deux indicateurs,
on considrera que leffet voix de robot est prsent (indicateur RV) ds que deux trames de parole
successives sont perdues :
(2.7) ( ) (
1
n n n
n
RV DAV DAV BFI BFI
= )
1 n

24
La justification de ce choix apparatra au paragraphe 2.3.2.1.
Chapitre 2 36
Les rsultats de dtection du critre (2.6) sont illustrs Figure 2.5. On constate que ce critre est peu
discriminant, la dtection de leffet voix de robot saccompagne dun taux de fausses alarmes
rapidement lev.

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Pfa
Pd

Figure 2.5 : Courbe COR du dtecteur bas sur la rgle de dcision (2.6)
Ce phnomne sexplique de la faon suivante :
Pour un signal de priodicit long-terme P, linter-corrlation est elle-mme pseudo-
priodique de priode P selon k. Ainsi, un pic de linter-corrlation en k peut correspondre aussi
bien une priodicit due la rptition de trame qu une trame de parole dont le pitch P est un
sous-multiple de N . Pour lever cette ambigut, il est ncessaire dadjoindre la rgle de dcision
(2.6) une estimation du pitch du signal de parole analys.
( ,
s
n k
r
N =
)
r
2.3.2.1 Rduction des fausses alarmes par estimation robuste du pitch
Afin de diminuer le taux de fausses alarmes, on propose dsormais la rgle de dtection suivante pour
lartefact voix de robot :
et P n ; l (2.8) ( ) ,
s r
n k N = >
( )
/
r
N l 2, 3, ... =
o correspond la valeur (en chantillons) du pitch estim partir de la trame de parole
linstant n. Le cas P sera considr comme une rptition de trame car cest une valeur assez
improbable pour le pitch naturel de la parole. Lestime P n du pitch est ainsi utilise pour
distinguer entre la priodicit-pitch et une priodicit multiple du pitch.
( )
P n
n
s
r
N =
( )

Une premire ide est dobtenir lestime comme le maximum absolu de linter-corrlation
:
( )
P n
( ) ,
s
n k
avec (2.9)
( )
(
max
min
arg max ,
s
P k P
P n n k
< <
= )
)
Cependant, la corrlation court-terme du signal de parole vient moduler lamplitude des pics de
linter-corrlation si bien que lestime (2.9) ne peut elle-mme pas toujours discriminer la valeur
relle du pitch de celle de lun de ses multiples. Cest pourquoi on effectue gnralement [Hess, 1983]
un pr-traitement du signal de parole destin liminer la contribution des formants (associs la
corrlation court-terme du signal de parole, cf. Annexe A).
s
2.3.2.1.a Blanchiment linaire court-terme

Le pr-traitement communment utilis pour liminer la contribution des formants consiste en un
filtrage prdictif court-terme du signal s n selon :
( )
(2.10)
( ) ( )
(
1
r
k
k
e n s n a s n k
=
=
o les coefficients a sont les coefficients de lanalyse LPC dordre r (cf. Annexe A).
k
Linter-corrlation linstant n et pour le dcalage k est alors calcule sur le signal rsiduel selon :
( ) ,
T
n
n k
e
n
n k
n k

=
e e
e e
, avec [ ] ( ), ..., ( 1)
T
n
e n e n L = + e (2.11)
Linter-corrlation du signal rsiduel est alors substitue linter-corrlation du signal de
parole dans lestimateur (2.9) du pitch. Lapplication de la rgle de dcision (2.8) avec cette
nouvelle estimation du pitch conduit aux rsultats illustrs Figure 2.6. On constate une lgre
amlioration des performances de dtection mais celle-ci prsente encore un taux de fausses alarmes
trop lev.
( ,
e
n k )
) ( ,
s
n k
En fait, le blanchiment court-terme rduit lgrement les erreurs destimation entre valeur relle du
pitch et valeurs multiples mais rehausse en contre-partie les composantes de bruit qui viennent alors
masquer la priodicit long-terme du rsidu e n .
( )
Ceci nous a conduit proposer un nouvel estimateur de pitch. Lide est de limiter la recherche du
maximum de linter-corrlation (2.11) lintrieur dune plage restreinte autour dune premire
estime assez grossire du pitch. Cet estimateur procde donc en deux tapes. La premire tape ne
cherche pas renvoyer une estimation fine du pitch mais doit parfaitement discriminer les valeurs
multiples du pitch. Elle est base sur un blanchiment non-linaire du signal de parole s n .
( )
Chapitre 2 38

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Pfa
Pd

Figure 2.6 : Courbe COR du dtecteur bas sur la rgle de dcision (2.8) et une estimation du pitch
sur le rsidu de prdiction court-terme
2.3.2.1.b Blanchiment non-linaire court-terme
Dans la premire tape, lestimation du pitch se fait directement sur la forme donde du signal aprs
transformation non-linaire. Il sagit en fait dune dtection des impulsions glottiques, la transformation
non-linaire ayant pour but de rduire la contribution des formants do lexpression de blanchiment
non-linaire . Cette transformation non-linaire a t originellement propose par [Dogan, 1992]
comme un estimateur court-terme du cumulant dordre 3 normalis. Nous linterprterons ici plutt
comme un filtrage adapt (2.12) aprs expansion cubique (2.13) du signal selon :
(2.12)
( ) ( ) ( )
1
y n h n z n =
avec (2.13)
( ) ( )
3
/
n
z n s n E =
et . (2.14)
2
0
( ) ( )
n
E h n s n =
o est lnergie du signal mesure lintrieur dune fentre de Hamming h de 100 points centre
en n et est une fentre de Harris de 11 points. Ces deux fentres sont illustres Figure 2.7.
n
E
0
1
h
-50 -40 -30 -20 -10 0 10 20 30 40 50
0
0.05
0.1
0.15
0.2
0.25

1
h
chantillons
0
h
Figure 2.7 : Fentres utilises pour le rehaussement des impulsions glottiques
De part la non-linarit cubique, les zones de forte amplitude relative lintrieur de la fentre h sont
fortement rehausses. On peut ainsi rduire la contribution des formants par rapport aux impulsions
glottiques en choisissant une longueur adapte pour la fentre h (on prend ici le pitch moyen de la
parole). On effectue ainsi une sorte de blanchiment non-linaire du signal. Leffet de lexpansion
cubique (2.13) sur le signal dans le domaine temporel est reprsent Figure 2.8.
0
0

2.81 2.82 2.83 2.84 2.85 2.86 2.87 2.88 2.89 2.9 2.91
0.2
0.1
0
0.1
0.2
signal originel
2.81 2.82 2.83 2.84 2.85 2.86 2.87 2.88 2.89 2.9 2.91
0.4
0.2
0
0.2
0.4
temps (s)
signal apres pretraitement
f
r
e
q
u
e
n
c
e

(
H
z
)
spectre signal originel
0 2 4 6 8 10
0
200
400
600
800
spectre residu lpc
f
r
e
q
u
e
n
c
e

(
H
z
)
0 2 4 6 8 10
0
200
400
600
800
temps (s)
f
r
e
q
u
e
n
c
e

(
H
z
)
spectre signal rehausse
0 2 4 6 8 10
0
200
400
600
800
0 100 200 300 400 500 600 700 800 900 1000
10
5
0
d
s
p

(
d
B
)
spectre signal originel
0 100 200 300 400 500 600 700 800 900 1000
10
5
0
d
s
p

(
d
B
)
spectre residu lpc
0 100 200 300 400 500 600 700 800 900 1000
10
5
0
frequence (Hz)
d
s
p

(
d
B
)
spectre signal rehausse
Figure 2.8 : Rehaussement des impulsions glottiques du signal par expansion cubique
(haut : signal s n analys, bas : signal transformz n ) ( ) ( )
Ce rehaussement apparat de manire encore plus explicite sur les spectres des signaux. La Figure 2.9
compare ainsi le spectre du signal aprs expansion cubique z n avec celui du signal originel s n et
celui du rsidu LPC e n qui correspond la technique de blanchiment linaire. La transformation
(2.12) permet damliorer trs nettement le rapport signal bruit pour les zones voises, elle possde
galement un effet blanchissant puisque la contribution du conduit vocal a t quasiment limine
dans le signal z n . On remarquera par contre que lanalyse LPC, si elle permet une meilleure
galisation de lamplitude des harmoniques, dgrade trs sensiblement le rapport signal bruit.
( ) ( )
( )
( )

(a : spectrogrammes)

(b : spectres linstant t=10.9s)
Figure 2.9 : Comparaison dans le domaine spectral des blanchiment linaire (LPC) et non-linaire ;
(haut : signal s n analys, milieu : rsidu LPC e n , bas : signal z n ) ( ) ( ) ( )
Chapitre 2 40
2.3.2.1.c Mthode combine
A partir du signal transform y n , on peut dsormais dtecter de manire fiable les impulsions
glottiques en utilisant un simple seuil adaptatif (reprsent en pointills Figure 2.10). Ce seuil est
calcul par lissage oubli exponentiel de lenveloppe de puissance court-terme de y n . A lintrieur
dune trame de 160 chantillons (20ms), on slectionne le train dimpulsions de mme signe le plus
nergtique et on estime le pitch comme la distance moyenne entre ces impulsions supposes
correspondre aux impulsions glottiques.
( )
( )

0 10 20 30 40 50 60
1
0.5
0
0.5
1
speech signal
0 10 20 30 40 50 60
3
2
1
0
1
2
3
time (msecs)
glottal pulse detection
Figure 2.10 : Dtection des impulsions glottiques sur le signal transform y n (bas) ; le signal
analys s n est reprsent pour comparaison (haut)
( )
( )
Cette mthode sinspire des mthodes temporelles deux seuils [Laroche, 1995] classiquement utilises
pour estimer le pitch avec une complexit rduite. Elle renvoie une estimation assez grossire du pitch
mais qui nest plus sujette aux erreurs destimation entre valeurs multiples et sous-multiples. Cette
estime est utilise lors de la seconde tape de lestimation combine dont le diagramme est illustr
Figure 2.11.

( )
P n
prdiction
court-terme
inter-corrlation
normalise
restriction de la
plage de recherche
( )
parole s n
transforme
non-linaire
dtection
de pics
( )
e n
( )
y n

Figure 2.11 : Diagramme de lestimation robuste du pitch
Lestime prliminaire du pitch est raffine par calcul de linter-corrlation sur le rsidu de
prdiction linaire. La recherche du maximum de cette inter-corrlation est restreinte une
plage de dcalages k centre sur lestime prliminaire. Les performances de cet estimateur de pitch
sont compares Figure 2.12 celles de lestimation base sur linter-corrlation (2.5) uniquement.
( ,
e
n k
( ) , n k
)
e

0 100 200 300 400 500 600 700 800 900
0.5
0
0.5
(a)
0 100 200 300 400 500 600 700 800 900
20
40
60
80
100
120
140
(b)
la
g
20
40
60
80
100
120
140
(c)
la
g
time (msecs)
0 100 200 300 400 500 600 700 800 900
Figure 2.12 : Performances de lestimateur de pitch propos ;
1-signal de parole ; 2-pitch estime par inter-corrlation
seule ;3- pitch estim par mthode combine
On constate que toute ambigut sur la valeur relle du pitch est leve, lestime P n du pitch peut
ainsi tre efficacement utilise dans la rgle de dcision (2.8). Les performances de la dtection de
leffet voix de robot (2.8) utilisant ce nouvel estimateur de pitch sont reprsentes par la courbe COR
illustre Figure 2.13. On observe une diminution de taux de fausses alarmes puisque lon peut dtecter
prs de 40% des artefacts voix de robot sans faire de fausse alarmes. En revanche, la probabilit
de dtection ne croit ensuite que trs lentement au-del de la valeur de 50%. Il convient cependant de
rappeler que la rfrence des vnements voix de robot utilise dans le calcul des probabilits de
dtection prsentes ici est obtenue artificiellement partir de lindicateur BFI selon la rgle (2.7)
et non pas par tiquetage manuel des signaux analyss. La limite suprieure (proche de 65%)
systmatiquement observe pour la valeur de la probabilit de bonne dtection de chacun des critres
tudis ici sexpliquerait ainsi par les imperfections de ltiquetage automatique (2.7).
( )

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Pfa
Pd

Figure 2.13 : Courbe COR du dtecteur bas sur la rgle de dcision (2.8) et lestimation
robuste de pitch
Chapitre 2 42
2.3.3 Discussion
Les dveloppements qui prcdent sont considrer comme une premire tude dun cas simple de
dtection dartefacts introduits par le rseau GSM sur le signal de parole. La dtection mise en uvre
sappuie sur un modle a priori de lartefact voix de robot caractris par la prsence dune
priodicit de 50 Hz dans le signal. Cet artefact est videmment trs spcifique puisquil est engendr
par la procdure de substitution du GSM FR. Il nen constitue pas moins un des dfauts les plus
frquemment rencontrs dans la parole GSM FR transmise sur un canal bruit et dont le masquage
apparaissait intressant dans une problmatique de post-traitement du signal de parole.
Dautre part, on a vu au Chapitre 1 que la procdure de substitution du GSM EFR introduisait elle-
mme un dfaut de type voix mtallique dans le signal de parole dcod. Lalgorithme de
dtection de la voix de robot du GSM FR nest pas directement applicable la voix
mtallique du GSM EFR dont les caractristiques sont diffrentes
25
. Nanmoins, certaines
conclusions faites ici sont gnralisables au cas du GSM EFR. En particulier, ces deux types
dartefacts concident avec une substitution de trame et le seul post-traitement envisageable se limite
la mise en oeuvre dune version amliore de substitution de trame. Un dclenchement intempestif de
cette substitution de trame par le post-traitement aurait un impact extrmement ngatif sur la qualit
perue. Cest pourquoi on recherche en priorit une procdure de dtection minimisant le taux de
fausses alarmes.
Sous ces conditions, lalgorithme dvelopp pour dtecter la voix de robot ne permet pas de
dtecter plus de 50% des occurrences de cet artefact. Nanmoins, le critre de dtection utilis mesure
le degr de priodicit de 50 Hz dans le signal et a donc une signification sur le plan perceptif. Aussi,
on peut considrer que les 50% doccurrences dtectes correspondent celles qui sont les plus
perceptibles. Une amlioration de la qualit de la parole est donc envisageable par la mise en uvre
dune technique de substitution de trame amliore conditionne aux dtections de cet algorithme.
Cependant, la stratgie de dtection base sur une connaissance a priori des dfauts rencontrs a ses
limites. Elle sapplique trs bien au cas des artefacts gnrs systmatiquement par des procdures
implmentes en amont comme les procdures de substitution des GSM FR et EFR. En revanche, les
dgradations associes au dcodage direct de paramtres du codeur corrompus par des erreurs de
transmission apparaissent difficilement modlisables a priori. Une stratgie de dtection de
dgradations par rejet partir dun modle de parole a priori parat pouvoir sappliquer avec plus de
gnralit la diversit des dgradations susceptibles dtre rencontres en aval de la chane de
rception.

25
Ceci explique les nuances de vocabulaire utilises ici pour dsigner ces deux types dartefacts. Sur un plan
perceptif, la voix de robot est plus perue comme une vibration artificielle (rugosit) alors que la voix
mtallique sapparente un excs de composantes tonales (harmoniques pures).
2.4 Exploitation dun modle a priori sur la parole
Lobjectif de cette partie nest pas de faire un tat de lart exhaustif des mthodes proposes pour la
dtection de dgradations partir dun modle de parole. Nous cherchons plutt en dgager les
principaux axes, en mettant en vidence les potentialits et les limitations de cette stratgie et en nous
replaant dans la problmatique plus large du post-traitement. Nous tentons notamment danalyser les
conditions et la pertinence dune mise en uvre de telles mthodes couples des procdures de
masquage des dgradations en aval de la chane de rception GSM.
2.4.1 Modles pour la dtection de dgradations
Nous prsentons ici diffrentes techniques de dtection des artefacts de la parole partir dun modle
a priori de la parole. On distinguera les mthodes qui exploitent uniquement la non-uniformit dun
paramtre extrait de la parole et les mthodes qui prennent en compte la corrlation temporelle de la
suite de ses valeurs.
2.4.1.1 Exploitation de la non-uniformit des paramtres de la parole
La technique la plus simple consiste considrer la valeur dun paramtre un instant donn
indpendamment de ses valeurs passes. On dcide alors de la prsence d'un artefact lorsque la valeur
observe est trs peu probable pour la parole. Ceci n'est videmment possible que si certaines valeurs
sont nettement moins probables que d'autres sous l'hypothse de la parole. Autrement dit, on exploite
la non-uniformit de la distribution du paramtre pour la parole.
Cette distribution a priori des paramtres de la parole peut tre apprise partir dune base de donne
de parole. Ainsi, pour valuer les dgradations audibles, [Bayya et al., 1996] mesurent une distance
entre les spectres LPC estims sur le signal de parole analys et ceux appris par lalgorithme de la K-
moyenne (cf. Annexe A) sur une base de donne de parole.
Le modle a priori des paramtres peut galement correspondre un modle physique de production
de la parole. Une dgradation est alors dtecte comme tant une configuration inadmissible du modle
de production. Ainsi, une paramtrisation du conduit vocal, obtenue partir des coefficients de
corrlation partielle PARCOR (cf. Annexe A) de la parole, peut tre utilise pour caractriser une
dgradation associe une violation des contraintes physiques du conduit vocal [Gray et al., 2000].
On peut sinterroger sur la pertinence de telles mthodes dans le cas de la parole code par le GSM
EFR puisque les paramtres spectraux reus (LSF) sont toujours les lments dun dictionnaire de
quantification vectorielle (QV) appris sur la parole. On rappelle cependant que la quantification des
coefficients LSF nest pas conjointe pour des raisons de complexit. Plus prcisment, dans le cas du
GSM EFR, les coefficients LSF sont diviss en cinq sous-ensembles quantifis chacun par un index
Chapitre 2 44
transmis sparment (cf. Annexe A). Ainsi, il ny a aucune garantie que les coefficients LSF utiliss
par le dcodeur correspondent une configuration admissible pour la parole.
2.4.1.2 Exploitation de la corrlation temporelle des paramtres de la
parole
Pour certaines dgradations, les valeurs prises isolment au cours du temps par les diffrents
paramtres de la parole peuvent sembler vraisemblables mais c'est la squence de ces valeurs au cours
du temps qui ne l'est pas. Pour dtecter ce type de dgradations, le modle a priori doit prendre en
compte les observations passes.
Ce principe a notamment t mis en uvre pour une dtection derreur sur les paramtres reus au
niveau du dcodeur parole
26
. Les mthodes proposes mritent dtre exposes ici car elles sont
facilement transposables une approche de type post-traitements. Ainsi, dans le cas d'un codeur de
type CELP, [Grtz, 1997] montre que des paramtres comme le dlai LTP, le gain d'excitation, et la
1
re
LSF exhibent une forte corrlation temporelle. Cette corrlation temporelle est exploite pour une
dtection d'erreur complmentaire au niveau du dcodeur parole. Le principe utilis consiste
simplement comparer les variations des paramtres reus un seuil et dcider qu'il s'agit d'une
erreur ds que le seuil est franchit. De la mme faon, [Hindelang et al., 1997] amliorent la dtection
d'erreur au niveau dcodeur GSM FR en observant les variations de l'nergie (estime dans ce contexte
partir des paramtres du codeur parole) et en comparant ces variations des seuils moyens pour la
parole. Ces mthodes bases sur une statistique des variations de paramtres ont lavantage de la
simplicit, cependant elles conduisent toutes des taux de fausse alarme levs.
Les approches se situant au niveau du signal de parole lui-mme peuvent exploiter des modles plus
globaux de la parole car ils ne sont pas assujettis aux paramtres spcifiquement calculs par un
codeur. Des modles de corrlation entre vecteurs successifs de coefficients spectraux extraits du signal
de parole peuvent tre appris sur une base de parole et utiliss pour la dtection de squences
derreurs. Ainsi, [Lindblom et al., 2000] modlisent la loi jointe de lensemble des coefficients LSF
extraits sur deux trames successives de parole. Cette loi jointe est reprsente par un modle multi-
gaussien [Hedelin et al., 2000] ce qui permet de rduire la complexit de lapprentissage. Enfin, les
modles de production de la parole peuvent nouveau tre exploits, notamment pour prendre en
compte les contraintes articulatoires dans la dtection derreurs par squences [Gray et al., 2000] .
2.4.2 Pertinence dune mise en uvre aval de ces modles
Le bref aperu qui a t dress des mthodes exploitant un modle de parole pour la dtection de
dgradations permet nanmoins de dgager des conclusions quant leur intrt dans le contexte du
post-traitement de la parole transmise par le GSM.

26
Nous dvelopperons ce type dapproches au chapitre suivant.
On a prsent au paragraphe 2.2, les caractristiques qui rendent ces mthodes particulirement
intressantes pour la dtection des dgradations observes en aval dune chane de rception :
La possibilit de dtecter une large classe de dgradations puisque le modle a priori porte sur la
parole et non sur les dgradations.
La possibilit dutiliser le modle a priori sur les paramtres de la parole pour un masquage
ultrieur des dgradations. Ceci est surtout le cas des mthodes exploitant la corrlation
temporelle des paramtres.
Cependant, il apparat que les paramtres modliss par ces mthodes sont essentiellement les
paramtres spectraux (ou les caractristiques du conduit vocal). Ceci nest pas tonnant car ces
paramtres, qui sont les plus importants vis--vis de la perception, sont aussi les plus redondants. Ils
correspondent une description de la parole une chelle la plus grossire, qui est celle de lenveloppe
spectrale. Or ces paramtres sont aussi ceux qui sont les plus protgs par le codage canal du GSM
(Classe 1a) et pour lesquels une procdure de substitution est mise en uvre en cas derreur dtecte.
La porte de ces mthodes se voit ainsi rduite au cas o la dtection derreur mise en uvre aux
dcodeurs est dfectueuse. Cette situation, qui tait assez frquente pour le GSM FR, est beaucoup
plus rare pour le GSM EFR dont les mcanismes de dtection derreur ont t amliors (cf. Annexe
B).
Autrement dit, les mthodes de dtections bases sur un modle de parole apparaissent sduisantes
mais le dcodeur GSM limite demble leur utilit pour un post-traitement en ne transmettant pas les
principales dgradations quelles seraient susceptibles de traiter.
La mise en uvre de procdures de dtection de dfauts demeure intressante pour traiter toutes les
dgradations un niveau dchelle plus fin du signal de parole, et qui sont associes aux erreurs de
transmission introduites sur les paramtres considrs moins sensibles par le codeur. Certaines de ces
dgradations ont t recenses au Chapitre 1. Outre le problme li leur dtection, la principale
gageure est alors le masquage de ces dgradations. En effet, toute procdure de masquage par
substitution de trame est exclure puisquelle serait plus prjudiciable la qualit et lintelligibilit
de la parole que les dgradations que lon cherche masquer. Un schma de type Analyse
Modification Synthse [Laroche, 1995] semble une approche pertinente dans ce cas puisquil
permet des modifications non-linaires du signal et que les dgradations traiter sont elles-mmes de
type non-linaire.
Chapitre 2 46
2.5 Conclusion
Dans loptique dun post-traitement de la parole transmise par le systme GSM, nous avons tudi le
problme de la dtection dartefacts sur le signal de parole dcod. Nous nous sommes focaliss sur les
artefacts lis aux erreurs de transmission car ils sont les principaux facteurs de la dgradation de la
qualit vocale. Nous avons ainsi dvelopp un algorithme de dtection de la voix de robot qui est
lie une priodisation du signal de parole engendre par la procdure de substitution de trame du
GSM Full Rate. Ces artefacts introduits par les mcanismes de protection aux erreurs du rseau lui-
mme sont les plus faciles dtecter car aisment caractrisables. Cependant, la dtection de dfauts
caractriss souffre dun manque vident de gnralit.
A linverse, les mthodes de dtection de dgradations bases sur un modle a priori des paramtres de
la parole apparaissent trs sduisantes. Un de leurs attraits est quen modlisant lattente (le
signal de parole) plutt que les vnements inattendus (artefacts), elles se rapprochent bas niveau du
mcanisme de la perception humaine dune dgradation. Ceci doit permettre de dtecter une large
diversit de dfauts. Lautre intrt de cette approche est quelle fournit naturellement un modle pour
le masquage des artefacts rencontrs. Cependant, la stratgie de masquage dj mise en uvre en
amont par le dcodeur GSM EFR rduit le champ dapplication de ces mthodes de dtection en aval
du dcodeur parole.
Il savre ainsi que le post-traitement de la parole transmise par le rseau GSM est surtout intressant
pour les dgradations une chelle fine du signal. Cependant, limpact de ces dgradations sur la
qualit de parole est nettement moindre que celui li aux pertes de trames. Cest pourquoi, il nous est
apparu plus intressant dessayer dappliquer, au niveau du dcodeur parole lui-mme, les mthodes de
dtection et masquage de dgradations bases sur un modle a priori des paramtres de la parole.
Cest la direction suivie dans la suite de ce document.

Chapitre 3

Dcodage source entres souples :
Introduction et tat de lart
3.1 Introduction
Les applications, telles les communications radio-mobiles, pour lesquelles le risque derreurs rsiduelles
est non-ngligeable, ont conduit ajouter une fonctionnalit de masquage derreur au niveau du
dcodeur parole. Cette approche revient dj exploiter un modle de prdiction des paramtres de la
parole. Les techniques de masquage existantes sont cependant souvent empiriques et le modle a priori
quelles utilisent reste implicite et assez rudimentaire. Paralllement, des techniques de dtection
derreur sur les paramtres de parole, dont certaines ont t prsentes au chapitre prcedent, ont t
mises en uvre au niveau du dcodeur parole. Une tendance saffirme donc pour faire converger la
dtection et le masquage derreur partir dune connaissance a priori sur la parole au niveau du
dcodeur.
Le dcodage de parole entres souples gnralise et formalise cette dmarche. Il reprsente une
nouvelle conception du dcodage, qui ne se limite plus une simple lecture dans une table de
quantification mais qui devient un estimateur optimal du paramtre transmis. Il constitue lobjet
dtude principal de ce chapitre. Les travaux sont envisags ici dans un cadre thorique gnral et ne
se limitent pas au contexte particulier du systme GSM. Nous prsentons, dans un premier temps, des
procdures de masquages amliores avant de dvelopper plus particulirement les techniques de
dcodage parole entres souples.
Chapitre 3 48
3.2 Amliorations de la procdure de masquage du
dcodeur
Les procdures de masquage au niveau du dcodeur parole reposent sur deux lments :
Une information sur la validit des donnes reues en entre du dcodeur de parole.
Un mcanisme de substitution des paramtres pour lesquels les donnes reues ont t dclares
invalides .
Dans le cas du GSM, linformation de validit est apporte par lindicateur BFI (Bad Frame Indicator)
calcul au niveau du dcodeur canal et transmis en entre du dcodeur parole. Plus prcisment, le
BFI indique la prsence dune erreur rsiduelle parmi les bits considrs comme les plus sensibles vis--
vis de la qualit de la parole dcode. Cette dtection est base sur un test CRC (Cyclic Redundancy
Check) dcrit en Annexe B. Lorsque une erreur est dtecte parmi ces bits, cest lintgralit de la
trame
27
reue en entre du dcodeur parole qui est alors substitue. La technique de substitution mise
en uvre par le dcodeur parole EFR est dcrite en dtail dans lAnnexe A.
Les recherches en vue damliorer la procdure de masquage portent sur ces deux lments, avec pour
but de rendre dune part, linformation de validit exploite plus slective et plus robuste, et dautre
part, la parole engendre par le mcanisme de substitution plus naturelle.
3.2.1 Amliorations de la substitution de trame
Les premires procdures de substitution taient trs rudimentaires, comme celle du GSM Full Rate
prsente en Annexe A. Une analyse des artefacts trs audibles ( voix de robot ) quelle engendrait
a t prsente au Chapitre 2. Cependant, la procdure de substitution du GSM EFR introduit
galement des artefacts de type voix mtallique . Cet artefact, qui se traduit par un excs
dharmoniques dans le spectre du signal, est engendr par la rptition lidentique de la valeur du
paramtre dlai LTP (pitch) lors de la substitution de trame. Pour viter cela, on peut lgrement
modifier la valeur du pitch rpte chaque nouvelle trame substitue. Ainsi, la procdure de
masquage du G.729 [Salami et al., 1996] incrmente le dlai LTP dune unit et [De Martin et al.,
2000] introduit une gigue de pitch. On peut galement introduire des procdures dextrapolation
diffrentes (notamment en ce qui concerne le dlai LTP) selon que la dernire trame valide tait voise
ou non.

27
On rappelle que le codeur de parole fonctionne par trames, c'est--dire que les paramtres du codeur sont
estims priodiquement, sur des segments de parole de dure fixe (cf. Annexe A). On parle ainsi de trame de
parole (segment sur lequel les paramtres sont calculs), de trame de paramtres (paramtres calculs), et
de trame de bits (bits codant les index de quantification des paramtres).
Dcodage source entres souples : Introduction et tat de lart 49
Dautres modifications visent amliorer les transitions entre les trames extrapoles et les premires
trames valides qui leur succdent. En effet, beaucoup des paramtres de lEFR sont quantifis avec un
effet mmoire, et de ce fait, les dernires trames substitues influencent les premires trames valides
suivantes. Ceci peut entraner des artefacts notamment par la propagation aux nouvelles trames de
lattnuation applique aux gains des dictionnaires fixes et adaptatifs. Afin dobtenir une transition
douce, il peut tre alors ncessaire de rajouter un contrle de gain sur le signal reconstruit [De Martin
et al., 2000].
Enfin les modles a priori utiliss pour lextrapolation des paramtres sont assez rudimentaires dans le
cas des codeurs GSM FR et EFR. Nous avons dj pass en revue des modles plus labors au
chapitre prcdent. Un modle plus complexe mais moins empirique puisque obtenu par apprentissage
est la prdiction des LSF partir dune loi a priori jointe modlise par mlange de gaussiennes
(GMM) comme propos par [Lindblom et al., 2000]. Une telle mthode permet aussi de tenir compte
de la corrlation entre paramtres de diverse nature comme les LSF et le gain LTP, il suffit pour cela
dtendre la loi jointe aux nouveaux paramtres considrs. On peut galement modliser lvolution
des valeurs dun paramtre au cours du temps laide dune chane de Markov. Une chane de Markov
du 1
er
ordre ne permet dextrapoler que sur un horizon dune trame, cependant on peut tendre cet
horizon en utilisant une chane de Markov dordre plus lev. Ainsi, [Kohler et al., 2000] propose une
procdure de substitution base sur lapproximation dune telle chane de Markov.
3.2.2 Masquage par paramtre
Les procdures de masquage actuelles, dont celles du GSM, affectent lintgralit de la trame du
codeur. Autrement dit, si une erreur est dtecte dans une trame, toute la trame de paramtres est
dclare perdue et se voit substitue. Des recherches rcentes visent amliorer la slectivit de la
procdure de masquage en considrant les paramtres individuellement et non plus la trame entire.
On peut ainsi conserver les paramtres non-corrompus et exploiter la corrlation intra-trame entre
paramtres pour extrapoler les paramtres errons de la mme trame. Ceci suppose nanmoins une
dtection derreur par paramtres, ce que ne permet pas le codage dtecteur derreur (CRC) utilis par
le GSM (cf. Annexe B).
Pour viter davoir modifier le codeur canal, certains auteurs ont mis en uvre, au niveau du
dcodeur parole, des techniques de dtection derreur sans redondance ajoute [Grtz, 1997]. Ces
techniques exploitent uniquement la redondance des paramtres du codeur parole, elles ont t en
partie prsentes au chapitre prcdent puisquelles permettent une dtection en aveugle des
dgradations. On citera notamment [Atungsiri et al., 1990] qui affine la localisation dune erreur
dtecte globalement sur les LSP (par vrification de leur relation dordre) laide de statistiques a
priori sur les LSP individuelles. De la mme faon, [Grtz, 1997] exploite la corrlation temporelle des
LSF considres individuellement, ainsi que celles du gain LTP et du dlai LTP, pour dtecter une
erreur sur chacun de ces paramtres. Cependant, ces techniques de dtection savrent insuffisantes,
leur taux lev de fausses alarmes pouvant dgrader la qualit de la parole en labsence derreur de
Chapitre 3 50
transmission. La dtection derreur base sur la redondance rsiduelle des paramtres du codeur parole
doit donc tre combine avec une dtection derreur base sur la redondance ajoute par le codeur
canal. Ainsi, [Grtz, 1998] modifie le codeur canal en rajoutant des CRC individuels pour les
paramtres sensibles comme les LSP, le gain et le dlai LTP ou le gain dexcitation.
Un autre procd permettant un masquage individuel des paramtres dune mme trame de parole est
de les taler sur plusieurs trames lors de la transmission, une erreur dans une trame transmise tant
dtecte par CRC. [Martin et al., 2001] applique ce principe un codeur CELP dans le contexte de la
voix sur IP. Il peut ainsi masquer individuellement les jeux de rsidus LSF du codeur en exploitant
leur corrlation mutuelle pour lextrapolation. Cette corrlation est exprime par la loi conditionnelle
dun jeu de rsidus LSF sachant les valeurs prises par les autres jeux de rsidus LSF. Cette loi
conditionnelle est elle mme calcule partir de la loi jointe des rsidus LSF, modlise par un
mlange de gaussiennes (GMM). Si cette mthode ne peut tre transpose au GSM sans modification
de la norme, elle est intressante pour le modle a priori utilis afin dexploiter la corrlation entre
jeux de rsidus LSF.
3.2.3 Amlioration de la dtection derreurs rsiduelles
Le mcanisme de dtection derreur (CRC) utilis par le GSM pour pr-positionner ou non lindicateur
BFI est prsent en Annexe B. Ce mcanisme a un pouvoir de dtection limit, autrement dit, il peut
exister des erreurs rsiduelles non-dtectes par le BFI. On prsente ici des techniques permettant
damliorer cette dtection derreur sans avoir modifier le codeur canal.
Une premire voie possible est dadjoindre la dtection derreur issue du dcodeur canal, une
dtection exploitant la redondance rsiduelle des paramtres du codeur parole. Une telle procdure est
mise en uvre sur les paramtres reus au niveau du dcodeur parole. Pour la plupart des procdures
dveloppes, la dtection derreur est base uniquement sur la corrlation temporelle des paramtres
du codeur, considrs individuellement. Ceci permet le masquage par paramtre prsent au prcdent
paragraphe [Grtz, 1997]. En revanche la corrlation entre les paramtres dune mme trame nest pas
exploite par de telles procdures de dtection.
Si lon se restreint une dtection derreur par trame, il est alors possible dutiliser la redondance
entre les paramtres afin de dtecter des configurations inadmissibles. En prsence dune telle
configuration, la trame entire est rejete. Ce principe a t mis en uvre pour le GSM FR en drivant
une estime de lnergie du signal de parole calcule partir des coefficients LARs, du gain LTP et du
gain dexcitation. Une statistique sur les variations admissibles de lnergie est alors utilise pour
dtecter une erreur conjointement sur ces paramtres [Hindelang et al., 1997].
Une autre voie damlioration de la dtection derreur consiste exploiter la mtrique de Viterbi
calcule au niveau du dcodeur canal. Ainsi, lide dveloppe par [Sereno, 1991] est de comparer cette
mtrique de Viterbi un seuil variable dpendant du rapport C/I estim. Une trame est alors
considre comme corrompue si la mtrique de Viterbi est infrieure ce seuil ou si une erreur est
dtecte par le CRC (dtection BFI classique). Une telle procdure pourrait tre mise en oeuvre au
niveau du dcodeur parole condition de connatre la mtrique de Viterbi ce niveau. Cependant, les
rsultats obtenus montrent ici aussi une augmentation non ngligeable du taux de fausses alarmes, ce
qui peut nuire la qualit de parole en condition de transmission non-bruite.
3.2.4 Convergence vers un masquage souple
En conclusion, les approches dveloppes pour lamlioration du masquage au dcodeur concernent
trois points principaux :
Le modle a priori des paramtres du codeur.
La slectivit du masquage (masquage par paramtres).
Une dtection derreur exploitant conjointement la redondance ajoute par le codeur canal et
la redondance rsiduelle des paramtres du codeur parole.
Enfin on peut voir dans les travaux de [Sereno, 1991], une tentative dexploiter une information souple
issue du canal afin damliorer la dtection du BFI.
Toutes ces approches convergent donc vers une procdure qui exploite la redondance rsiduelle des
paramtres du codeur comme connaissance a priori afin de rendre le masquage plus slectif parce que
individualis chacun des paramtres, et plus souple parce que linformation binaire renvoye par le
CRC nest plus la seule information de confiance utilise pour la dtection derreur. On peut voir le
dcodage entres souples [Fingscheidt et al., 2001] comme laboutissement de ces approches. Cest
vers ce concept que nous avons orient nos travaux, aussi nous le prsentons en dtail dans ce qui suit.
3.3 Dcodage source entres souples
3.3.1 Principe
Avant dintroduire le concept de dcodage entres souples, nous rappelons en premier lieu le schma
dune transmission avec dcodage source classique telle que celle du GSM. On sintresse ici la
transmission dun paramtre ou dun vecteur v de paramtres du codeur parole, comme par exemple
les rsidus LSF du GSM EFR. Le schma de transmission est reprsent de manire trs synthtique
par la Figure 3.1 sur laquelle on a surtout fait apparatre lutilisation des paramtres reus par le
dcodeur source.
Chapitre 3 52

Masquage
BFI
v
v
Dcodeur source
1
e
p
1
e
p
e
p e
p
1 + 1 +
1 1
Canal quivalent
Canal
quivalent
( ) i
b
1
Q
( )
p v
( )
i
= b b
Q

( )
i
c

Figure 3.1 : Transmission avec dcodage source conventionnel
Le quantificateur Q associe au paramtre v, un lment
( ) i
c du dictionnaire de quantification
( ) ( )
{ }
0
, ...,
N
= C c c
1
}
de taille . Puisque lon connat le dictionnaire de quantification au
dcodeur, on transmet simplement lindex i avec i . Plus prcisment, on notera
2
M
N =
{ .., 2
M
0,1,. 1
( ) ( ) ( ) ( )
[ ]
0
,..., ,...,
i i i
m
b b = b
1
i
M
b
, la combinaison de bits codant

28
lindex de quantification i. Cette
combinaison de bits
( ) i
b est parfois appele mot de code source .
Les bits
( ) i
b sont transmis au travers dun canal quivalent qui englobe le codeur canal, lmetteur, le
canal de transmission radiomobile ainsi que le dmodulateur et le dcodeur canal (cf. Chapitre 1). Ce
canal quivalent peut tre considr comme un canal sans mmoire
29
, binaire symtrique mais dont la
probabilit derreur associe chaque bit b reu est inconnue. La seule information sur ltat
du canal est celle apporte par lindicateur BFI de trame perdue. Lorsque cet indicateur nest pas
positionn (trame valide), lopration effectue par le dcodeur source se rduit la recherche dans la
table de quantification de llment
( )
e
p m
m
( )
i
c associ lindex
i cod par la combinaison de bits reus

l
l
l
. A linverse, lorsque lindicateur BFI est positionn (trame invalide), le
paramtre est calcul par une procdure de masquage derreur qui sappuie
0

, ,...,
M
b
b
( )
p v
1
...,
m
b b
v
30
sur un modle a priori
du paramtre.
Lindicateur BFI est un indice de confiance binaire, cest--dire de type tout ou rien puisquil
rsulte dune dtection derreur. Comme tout rsultat dun processus de dtection, le BFI peut donc
gnrer des fausses alarmes et des non-dtections. De plus, cet indice de confiance nest pas individuel

28
On considrera ici un codage de lindex i selon le code binaire naturel. On notera que lattribution dune valeur
dindex i chaque centrode peut tre le rsultat dune procdure doptimisation ( Index Assignement ) dans
le but de minimiser dans le domaine des centrodes, limpact dune erreur sur les bits
)
[Hedelin et al., 1995].
(i
b
29
La sortie du canal quivalent est considre sans mmoire car celui-ci inclut un galiseur (la dmodulation et
l'galisation sont conjointes dans le cas du systme GSM).
30
Comme on la mentionn prcdemment, le modle a priori correspond ici au modle mis en oeuvre pour
lextrapolation des paramtres de la trame efface partir de ceux de la dernire trame valide.
chaque bit reu b (peu slectif) puisquil est calcul globalement sur une trame du codeur parole.
Ainsi, une trame peut tre dclare perdue alors quun faible nombre de bits a t corrompu, et
inversement, peut tre considre valide alors que certains bits sont incorrects. Cependant, le dcodeur
source fait entirement confiance aux donnes issues du canal lorsque le BFI nindique pas derreur
alors quen cas derreur dtecte, il utilise exclusivement la redondance de paramtre v au travers du
modle a priori .
m
( )
v p
Lide la base du dcodage entres souples est dexploiter une estime de la probabilit derreur
lors du dcodage source. La connaissance de cet indice de confiance souple (non binaire) et
instantan (propre chaque bit reu b ) permet dutiliser conjointement les donnes issues du canal
et la connaissance a priori sur la source v pour lestimation optimale du paramtre transmis. Le
principe du dcodage entres souples est illustr Figure 3.2, le dcodeur parole reoit dsormais, en
sortie du canal quivalent, la combinaison de bits
( )
e
p m
m
0 1

,...,
M
b b
l
=
l
l
b codant lindex de quantification
31
j,
ainsi que les estimes des probabilits derreur associes ( ) ( ) [ ] 0 ,... 1
e
p p M
e e
= p . Nous prcisons le
calcul de ces probabilits derreur dans le paragraphe qui suit.

Canal
quivalent
( ) p j i
( )
j
= b b
( ) p i
v
e
p
( ) p i j
Modle a priori
Estimateur
v
Dcodeur source
1
e
p
1
e
p
e
p e
p
1 + 1 +
1 1
Canal quivalent
Q
Calcul de
vraisemblance
Probabilit
a posteriori
( ) i
b

Figure 3.2 : Principe du dcodage entres souples
3.3.1.1 Canal sorties souples
Comme indiqu Figure 3.2, les probabilits derreur correspondent aux probabilits de
transition du canal binaire quivalent, ce sont des probabilits instantanes variant en fonction de
linstant
( )
e
p m
32
m. Lorsque le canal quivalent inclut un codeur/dcodeur canal, ce qui est le cas du GSM,
on peut les obtenir en utilisant un dcodeur canal sorties souples (cf. Annexe D) dont la sortie

31
Nous notons j la valeur de lindex cod par la combinaison de bits reus et non plus i comme pour le dcodeur
classique. Ceci afin dindiquer quaucune dcision ferme sur la valeur de lindex transmis na t prise ce
niveau.
32
Linstant m rfre ici la position du bit considr au sein du mot de code source transmis (resp. reu b ) b
Chapitre 3 54
(
m
L b ) linstant m sinterprte comme le logarithme du rapport des probabilits a posteriori des
valeurs du bit b :
m
Y
m
b
(
m
L b
0
,...,
( )
( )
( )
1
log
1
m
m
m
p b
L b
p b
= +
=
=
Y
Y
(3.1)
o est la squence de symboles reus en entre du dcodeur canal. On notera quen rgle gnrale
33
,
le rapport des probabilits a posteriori dans (3.1) se rduit un rapport de vraisemblances puisque le
dcodeur canal ne fait pas dhypothses sur la valeur a priori du bit b .
m
La dcision , en sortie du dcodeur canal, sur la valeur du bit transmis linstant m est
directement fournie par le signe de la valeur souple L b : (
m
)
( ) ( )
sign
m
b L = m
}
)
(3.2)
Puisque lon considre des lments binaires valeur dans , on peut r-crire la valeur souple
en faisant apparatre la probabilit derreur associe la dcision b :
{ 1, 1 +
( )
e
p m
m

( )
( )
( )
( )
( )
( )
( )
1
log
1
1

log log
1
m
m
m
m
e
m m
e
m
p b
L b
p b
p b
p m
b b
p m
p b
= +
=
=
= =
Y
Y
Y
Y
(3.3)
On en dduit ainsi lexpression de la probabilit derreur en fonction de la valeur souple L b : (
m
)

( )
( )
1
1 exp
e
p m
L m
=
+
(3.4)
3.3.1.2 Vraisemblance de lindex de quantification transmis
La premire tape du dcodage consiste formuler les probabilits de transition ( p j i )
l
l
l
entre une
valeur quelconque dindex de quantification i transmise et la valeur dindex j associe la combinaison
de bits reus en sortie du canal binaire quivalent.
1

M
b b
b
Les probabilits de transition du canal binaire quivalent sexpriment pour chaque bit linstant m :

( )
( )
( )
( )
( )
( )
1 si
si
i
e m
i
m m
i
e m m
p m b b
p b b
p m b b
'
1 =
1
1
=
!
1

1
1+
m

(3.5)

33
Le cas contraire est le dcodage canal contrl par la source, prsent au Chapitre 6, qui a justement pour objet
dexploiter un a priori sur les bits b .
m
En raison de l'entrelacement des bits (cf. Annexe C) utilis dans la chane de transmission GSM, on
peut considrer
34
que les probabilits d'erreur sont indpendantes entre-elles. On peut alors
former la probabilit de transition entre un index i transmis et lindex j cod par les bits reus :
( )
e
p m
( )
( )
(
1
0
M
i
m m
m
p j i p b b
=
=

)
(3.6)
La probabilit de transition ( p j i ) doit tre value sur lensemble des valeurs i
afin dobtenir la distribution de vraisemblance de lindex i transmis, tant donns la valeur dindex j
code par les bits reus , et les probabilits derreur associes .
{ } 0,1,..., 2 1
M

b
e
p
3.3.1.3 Probabilit a posteriori de lindex de quantification
Dans une seconde tape, la distribution de vraisemblance ( p j i ) de lindex de quantification transmis
i est combine avec une distribution a priori de lindex i. Ceci permet le calcul des probabilits a
posteriori ( p i j ) qui expriment la probabilit davoir transmis le paramtre quantifi dindex i
sachant lindex reu j et la connaissance a priori au niveau du dcodeur :

( )
( )
( )
( ) ( )
,

p i j
p i j
p j
C p j i p i
=
=
(3.7)
o C est une constante de normalisation (puisque indpendante de i sachant l'index reu j).
3.3.1.4 Estimation du paramtre transmis
Enfin, la dernire tape est celle de lestimation du paramtre transmis. Cest uniquement ce niveau
final quest prise la dcision sur la valeur du paramtre, la diffrence du dcodage classique pour
lequel cette valeur est dcide en sortie du canal quivalent (au niveau dcodeur canal). En effet, les
probabilits a posteriori ( p i j ) permettent destimer la valeur optimale du paramtre en fonction
dune mesure derreur choisie. Les critres doptimalit considrs sont le Maximum a Posteriori
(MAP) et le Minimum dErreur Quadratique Moyenne (MMSE en anglais) :
v
Dans le cas dune estimation MAP, la valeur estime est llment du dictionnaire de
quantification (centrode) tel que :
v

( )
( )
Q
i
i
= = v c avec ( ) ( arg max

i
p = ) i j

i (3.8)

34
Pour que la relation (3.6) soit pleinement valide, il faudrait un entrelacement des bits entre le codeur parole et
le codeur canal alors que, dans le systme GSM, l'entrelacement intervient entre le codeur canal et la modulation
(metteur). Cependant, le multiplexage et la redistribution des bits au sein de la trame code avant le codage
canal (cf. Annexe B) joue ici approximativement le mme rle qu'un entrelacement.
Chapitre 3 56
Dans le cas dune estimation MMSE, la valeur correspond la moyenne des centrodes v
( ) i
c
pondrs par la distribution a posteriori ( j ) p i des index i :
( ) ( ) ( )
( )
(
i
i i
E j E i p i j p i j = =

v v v c ) (3.9)
On notera que le paramtre estim au sens du MMSE nappartient plus forcment au dictionnaire de
quantification, autrement dit le dcodage est entres souples et sorties souples, on parle alors plus
simplement de dcodage souple [Skoglund, 1999].
La Figure 3.3 illustre de manire intuitive le mcanisme du dcodage entre souple, selon le type
d'estimateur utilis. On y a reprsent la distribution de probabilit a priori dun index de
quantification i en regard de sa distribution de vraisemblance
( ) p i
( i ) p j en sortie du canal quivalent.
Lorsque les probabilits derreur associes aux bits
e
p
( )
j
= b b reus en sortie du canal quivalent
augmentent, la vraisemblance ( p j ) i de lindex transmis i tend vers la distribution uniforme. La
contribution de linformation apporte par la distribution a priori devient alors prpondrante
dans lestimation (MAP ou MMSE) du paramtre . A linverse, dans le cas o il n'y a pas d'erreur de
canal alors les estimes MAP et MMSE sont confondues et concident avec la sortie
( ) p i
v
( )
j
= v c du
dcodeur source conventionnel.
( ) p i
( ) p j i
v
MAP
v
MMSE
v
i
i

Figure 3.3 : Estimation de paramtre partir de la probabilit a priori et de la vraisemblance
3.3.2 Structure de la probabilit a posteriori
On considre dsormais la suite des index transmis, o on a fait apparatre lindice temporel n qui
peut tre un indice de trame ou de sous-trame selon la priodicit avec laquelle est le paramtre v est
n
i
quantifi. Dans la prsentation de principe qui prcde, nous navons pas prcis la forme exacte de la
loi a priori , cette loi peut tre invariante et dtermine par avance, ou au contraire dpendre
des valeurs reues aux instants prcdents. Le calcul de cette loi, et par consquent celui de la
probabilit a posteriori
( )
n
p i
(
n n
p i j ) , dpend du modle a priori utilis pour reprsenter la redondance
rsiduelle des index de quantification i . Nous prsentons dans ce qui suit les diffrents modles
adopts dans la littrature ainsi que le calcul des probabilits a posteriori correspondantes.
n
p i
n n
v v
3.3.2.1 Dcodage souple sans a priori
Considrons le dcodeur prsent Figure 3.2 dans le cas o lon ne dispose daucune connaissance a
priori sur le paramtre transmis. Ceci revient supposer par dfaut une distribution a priori
uniforme et la probabilit a posteriori (3.7) se rduit la vraisemblance fournie par le canal :
( )
n
p i
( ) (
n n n n
j C p j i = (3.10) )
o C est une constante de normalisation (relativement lindex i recherch).
n
Si le critre destimation utilis est le MAP selon lquation (1.3), alors la sortie du dcodeur est
identique celle du dcodeur conventionnel illustr Figure 3.1 puisque le critre MAP se rduit au
Maximum de Vraisemblance (MV). En revanche, dans le cas du critre MMSE, la sortie de
lestimateur (3.9) demeure une sortie souple qui correspond la moyenne des lments du dictionnaire
de quantification pondrs par leur vraisemblance :
( )
( )
(
i
n n n
i
E j p j i i =

c (3.11) ) =
3.3.2.2 Exploitation de la non-uniformit (AK0)
La distribution des index en sortie du quantificateur est rarement uniforme. En effet, les algorithmes
de quantification de type Lloyd-Max minimisent un critre de distorsion moyenne (cf. Annexe A)
plutt que de chercher une distribution de probabilits uniforme. Cette forme de redondance
rsiduelle est la plus simple modliser. Ainsi, [Fingscheidt et al., 1997] utilisent la probabilit a priori
correspondant lhistogramme des paramtres quantifis
( )
n
p i
( )
n
p i
( ) i
c appris sur une large base de
donnes. La probabilit a posteriori sobtient alors directement selon lquation (3.7). Lalgorithme
rsultant est dnomm AK0 (0th order a priori knowledge) pour indiquer quil exploite une
distribution a priori p i invariante selon linstant n. ( )
n
3.3.2.3 Exploitation de la corrlation inter-trame (AK1)
Comme prsent en Annexe A, le codage parole est confront un certain nombre de limitations
pratiques comme la complexit, le dlai maximal admissible ou encore les risques de propagation
derreur en cas derreur de transmission. De part ces limitations, les paramtres quantifis (ou de
Chapitre 3 58
manire quivalente les index associs) prsentent une redondance rsiduelle. Une part importante de
cette redondance est reprsente par la corrlation temporelle entre les trames (ou sous-trames)
successives de paramtres. Diffrents modles ont t proposs pour modliser cette corrlation dans le
cadre du dcodage source entres souples.
3.3.2.3.a Processus de Markov
La corrlation temporelle de la suite des index de quantification transmis est entirement
reprsente par la probabilit conditionnelle
n
i
( )
1
,...,
n
n
p i i i
1
. On modlise ici cette corrlation en se
limitant un processus de Markov dordre 1 :
( ) ( )
1 1
,...,
n
n
p i i i p i i
=
1
n
n
(3.12)
cest--dire quon ne considre que la corrlation entre trames (ou sous-trames) adjacentes [Sayood et
al., 1991]. Les probabilits de transition a priori ( )
1
n
n
p i i
entre index (ou paramtres quantifis) sont

apprises sur une base de donnes de parole et doivent tre stockes au dcodeur.
Considrons nouveau la transmission de lindex de quantification i selon le schma illustr Figure
3.2. La suite des indices en sortie du canal discret sans mmoire et de probabilits de transition
n
n
j
(
n n
p j i
n
i
)
}
peut tre dcrite par une Chane de Markov Cache dordre 1 [Miller et al., 1998]. Les tats
de cette chane correspondent aux diffrentes valeurs i de lindex de quantification
et lobservation associe chaque tat est dcrite par la probabilit de transition
{0,1,..., 2 1
M
(
n n
p j i ) du canal
discret.
Le calcul de la probabilit a posteriori ( )
1
,...,
n
p i j j
n
sapparente alors celui de la variable forward
(ou induction avant) dans un treillis, dfinie par : ( )
n
i
( ) ( )
1
,...,
n n
p i i j j C i = =
n
(3.13)
avec ( ) ( )
1
,..., ,
n n
i p j j i i =
n
= (3.14)
et C est une constante de normalisation.
Cette variable peut se calculer de manire itrative comme suit :

( ) ( ) ( ) ( )
( )
1
0

n n n n
n n
i
i
i p j i i i p i i i i
i

= = = =
=
1
(3.15)
o dsigne la probabilit a priori de ltat i l'instant initial n .
i
0 =
Cette rcursion est la base des modles proposs par [Phamdo et al., 1994], [Fingscheidt et al., 1997],
[Miller et al., 1998]. On dsignera par AK1 (first-order a priori knowledge), cet algorithme exploitant
un a priori dordre 1 (plus exactement, la corrlation temporelle lordre 1).

( )
1 n n
p i i
temps (trames)
n 1 n
Canal quivalent ( )
n n
p j j i i = =
Source
(indices de QV mis)
Sortie de canal quivalent
(indices reus)
Index i
j

Index j
Figure 3.4 : Interprtation de la sortie du canal comme une Chane de Markov Cache
La complexit de calcul de la probabilit a posteriori ( )
1
,...,
n
p i j j
n
)
selon lquation (3.15) est de
lordre o est la taille du dictionnaire de quantification. Cette complexit apparat
rdhibitoire pour un codeur tel que lEFR puisque la taille des dictionnaires de quantification peut tre
aussi leve que N pour certains paramtres
(
2
O N 2
M
N =
512 =
35
.
La complexit leve de lalgorithme AK1 vient du fait quon ne fait aucune hypothse sur les valeurs
prcdentes de lindex i dans le calcul de
n
( )
1
,...,
n
p i j j
n
. Des approches sous-optimales ont t
introduites pour rduire la complexit. Elles reposent sur lide dune prdiction de lindex i
uniquement partir des valeurs prcdemment estimes. Plus prcisment, on peut dcomposer la
probabilit
n
( )
1
,...,
n
p i j j
n
de la faon suivante :
( ) ( ) ( ) ( ) (
1
1
1 1
1 1 1 1
,...,
n
n n
n n n n n n
p i j j p i C p j i p i p

= =

i
j i )
1
1
n n
i j

(3.16)

35
La table dallocation des bits pour les paramtres de lEFR est rappele par le Tableau A.2 en Annexe A.
Chapitre 3 60
o [ ]
1
1 1
,...,
n
n
i i
= i
1
dsigne la squence dindex pour les instants prcdents et C est une constante
de normalisation (sachant l'index reu ).
n
j
Suivant le critre doptimalit (MAP ou MMSE) employ pour lestimation du paramtre, on peut
alors simplifier lquation (3.16) de deux faons.
Critre MAP :
On cherche maximiser lexpression (3.16), on peut alors utiliser lapproximation dite de la
squence dominante, cest--dire quon rduit la sommation sur toutes les squences dans
(3.16) la squence la plus probable. Cest la squence
en sortie de lestimateur MAP. Une

telle approximation est valable pour les faibles taux derreur mais entrane une divergence ds que
le taux derreur slve.
1
1
n
i
1
1
n
i
Critre MMSE :
Une approximation de la probabilit (3.16) peut tre obtenue en remplaant la probabilit
marginale obtenue par sommation sur toutes les squences par une probabilit prdictive
conditionne aux valeurs du paramtre prcdemment estimes selon le critre MMSE :
1
1
n
i
( ) ( ) ( ) ( ) (
1 1
,...,
n
n n n n
n
p i p j i p i E j E j
j v )
1
v (3.17)
Cest cette approximation qui est utilise dans les modles bass sur la prdiction linaire
prsents dans ce qui suit.
3.3.2.3.b Prdiction Linaire
On modlise ici la corrlation temporelle du paramtre et non plus celle de lindex de quantification
. Ainsi, [Gerlach, 1993] et [Fingscheidt et al., 1997] dcrivent v partir dun processus auto-
rgressif dordre r :
n
v
n
i
n
[ ]
1
. ,...,
T
n n r
n

= v A v v w
n
+
n r
(3.18)
o A est la matrice des coefficients de prdiction linaire et w le signal derreur. Les coefficients A sont
fixes et doivent tre appris lavance sur une base de donnes. Comme le paramtre v est rarement
un processus auto-rgressif gaussien, la distribution du signal derreur doit galement tre
apprise puis stocke au dcodeur.
n
( )
p
w
w
Le dcodeur utilise le modle a priori (3.18) pour prdire une valeur du paramtre v daprs les
prcdentes valeurs estimes au sens du MMSE :
n

( ) ( ) ( )
1
,...,
T
PL MMSE MMSE
n
n

l
=
l
v A v v (3.19)
On peut en dduire une probabilit a priori sur lindex de quantification i linstant n, selon :
n
( ) ( ) ( )
( )
( )
( ) 1 1
,...,
i
PL
n n r n r
n n
p i i E j E j p d

= =
n
w
v
v v v v v (3.20)
o
( ) i
dsigne la cellule de quantification associe lindex i.
La probabilit a posteriori (
n
n n p
p i

j ) sobtient alors partir de lquation (3.17).
On remarquera que lemploi dune prdiction linaire fixe partir des donnes prcdemment estimes
risque galement dentraner une propagation derreurs
36
.
3.3.2.3.c Chane de Markov Cache
Un autre dfaut inhrent la description de lindex de quantification par une chane de Markov est
la trs grande dimension prise par la table des probabilits de transition
n
i
( )
1
n
n
p i i
ds que la
rsolution du quantificateur augmente.
En fait, lorsque la rsolution du quantificateur est leve, ce qui est le cas du GSM, il est beaucoup
plus pertinent de dcrire i laide dune chane de Markov Cache. Ce type de modlisation est
dailleurs utilis pour les paramtres spectraux en reconnaissance de la parole. En utilisant une chane
de Markov Cache, la relation entre lindex i et les tats finis de la chane de Markov est beaucoup
plus souple. En effet, un tat q de la chane nest plus li de manire dterministe une valeur donne
prise par lindex i mais dfinit une distribution
n
n
n
(
n n
q q = ) p i de lindex i linstant n. Ceci permet
de rduire la dimension de la chane de Markov. Cependant, la difficult dans le cas du dcodeur
souple est que les tats q sont doublement cachs puisque lindex i est lui-mme inobservable et que
lon ne dispose que de sa vraisemblance
n
n
( p j )
n n
i daprs les index reus en sortie du canal. En
fait, ce processus quivaut une chane de Markov Cache dont les lois dobservation associes aux
tats q sont donnes par :
n
j
( ) ( ) (
n n n n n n
i
p j q q p j i i p i i q q = = = = =
) (3.21)
Ce calcul ncessite lintgration sur lensemble du dictionnaire de quantification, ce qui demeure dune
complexit assez leve. Une simplification est possible si lon dispose dune expression analytique de la
loi (
n n
p j i ) puisque lquation (3.21) peut alors tre rsolue analytiquement en utilisant un modle
multi-gaussien pour la loi (
n n
p i q ) . Cest la dmarche utilise par [Ligdas et al., 1997].
A partir des lois dobservation calcules selon lquation (3.21), on peut utiliser la rcursion avant
entre les tats q du treillis pour obtenir la probabilit a posteriori des tats ( )
1
,...,
n n
p q j j . La
probabilit a posteriori davoir transmis lindex i linstant n sobtient ensuite comme la somme des
lois (
n
p i i q = )
n
pondres par la probabilit des tats ( )
1
,...,
n n
p q j j :

36
On peut rapprocher ceci du fait quon emploie, au codeur parole, une prdiction MA des LSF et non un modle
AR, justement afin dviter la propagation derreur.
Chapitre 3 62
( ) ( ) (
1 1
,..., ,...,
n n n n n n
q
p i i j j C p i i q q p q q j j = = = = =
)
)
(3.22)
Lide sous-jacente cette approche, qui est de rduire la dimension de la chane de Markov en
introduisant des tats intermdiaires, rejoint lapproche que nous avons dveloppe et que nous
exposons au Chapitre 5.
3.3.2.4 Exploitation de la corrlation intra-trame (AK2)
Les mthodes prsentes jusquici nexploitent que la corrlation inter-trame du paramtre ou de
lindex de quantification i . Par corrlation inter-trame, on entend ici corrlation entre les valeurs
dun mme paramtre (ou dun mme index de quantification) pour des trames successives, lindice n
dsignant la trame. Cependant, dans les schmas de codage tels que celui du GSM EFR, il existe
galement une corrlation entre les diffrents paramtres (resp. index de quantification) au sein dune
mme trame. Cette corrlation intra-trame provient par exemple dune QV sous-optimale (pour des
raisons de complexit) comme la QV des LSF pour le GSM. La corrlation intra-trame peut aussi
simplement correspondre une corrlation entre des paramtres identiques de diffrentes sous-trames.
Il sagit alors dune corrlation temporelle mais celle-ci nest pas entirement exploite par les
mthodes prcdentes qui ne permettent pas linterpolation entre sous-trames.
n
v
n
La corrlation intra-trame peut tre modlise par un processus de Markov, de manire similaire la
corrlation inter-trame. Ceci permet notamment de driver une probabilit a posteriori tenant compte
simultanment de la redondance inter- et intra-trame [Adrat et al., 2000], [Lahouti et al., 2001].
On notera , une trame de L index de quantification en sortie du codeur parole
linstant n et o lindice k note la position au sein de la trame. Soit , la
trame dindex reus en sortie du canal quivalent. Considrons le calcul de la probabilit a posteriori
(
,1 , ,
,..., ,...,
n
n n L n k
i i i = I
( )
,1 , ,
,..., ,...,
n
n n L n k
j j j = J
( )
..,
n
1 ,
,.
n k
p i J J
, n k
de lindex i sachant les trames reues linstant n et aux instants prcdents.
Pour rduire la complexit du calcul, on modlise la corrlation inter-trame et la corrlation intra-
trame de manire indpendante. Ceci signifie quon nglige la corrlation entre index diffrents de
trames successives. On a alors :

( ) (
1 1 , ,
,..., ,...,
n n k n k n k k
p i p i i i

= I I
)
1, 1,
(3.23)
Dautre part la corrlation inter-trame et les corrlations intra-trame sont modlises chacune comme
des processus de Markov indpendants dordre 1 :
inter-trame :
( ) ( ) (
1 1 , , 1, 1,
,..., ,...,
n n k n k n k k n k n k
p i p i i i p i i

= = I I
)
, 1,
(3.24)
intra-trame :
( ) (
,1 , , 1 , , 1
,...,
n n k n k n k n k
p i i i p i i
=
)
(3.25)
On sest ainsi ramen une structure en treillis sur les index et on peut calculer la probabilit a
posteriori
, n k
i
(
1 ,
,...,
n
n k
p i
)
J J
( )
, n k
i
, n k
en introduisant les variables dinduction avant et dinduction

latrale et , dfinies par :
( )
, n k
i
( ) i
(3.26) ( )
(
, 1, , ,
,..., ,
n k k n k n k
i p j j i i =
)
=
( )
(
, , , 1 ,
,...,
n L n k n k n k
i p j j i i
+
=
)
= (3.27)
( )
(
,1 , , 1
,...,
n n k n k n k
i p j j i i
=
)
,
= (3.28)
La Figure 3.5 illustre lexploitation de la corrlation inter-trame et intra-trame par les variables
dinduction , et pour le calcul de la probabilit a posteriori. ( )
, n k
i ( )
, n k
i ( )
, n k
i
Les variables , et sobtiennent par les rcursion avant et latrale : ( )
, n k
i ( )
, n k
i ( )
, n k
i
( )
( ) ( ) (
, , , 1, , 1, n k n k n k n k n k n k
i
i p j i i i p i i i i
= = =
= (3.29)
( )
( ) ( ) ( )
, , 1 , , 1 , 1 , 1 n k n k n k n k n k n k
i
i p i i i i p j i i
+ + +
= = = =
i
+
(3.30)
Enfin, on peut calculer la probabilit a posteriori selon :

( ) ( )
( ) ( ) ( )
1 , , 1, 1, 1 , , ,
,..., ,..., ,
n n
n k n k k n k n k n k n k
p i i p i j j C i i i

= = = J J J (3.31)
On restreint les rcursions latrales lordre 1 afin de limiter la complexit [Adrat et al., 2000],
[Lahouti et al., 2001]. On dnommera cet algorithme AK2 (second-order a priori knowledge) dans le
reste de ce document.

,
, 1
,
, 1
,1

n L
n k
n k
n k
n
i
i
i
i
i
+
.
.

1,
1, 1
1,
1, 1
1,1

n L
n k
n k
n k
n
i
i
i
i
i
.
.

inter-trame
intra-trame
( )
, t k
i
( )
, n k
i

Figure 3.5 : Prise en compte de la redondance inter et intra-trame par lalgorithme forward-backward
Chapitre 3 64
3.4 Conclusion
Les travaux prsents ci-dessus ouvrent une nouvelle voie pour lamlioration de la qualit de la parole
reue, intermdiaire entre le masquage derreur classiquement mis en uvre au dcodeur parole et la
correction derreur habituellement cantonne au dcodeur canal. Cependant, la plupart de ces tudes
se limitent des cas simples comme la transmission de parole code PCM [Fingscheidt et al., 1997] ou
des codeurs appliquant une quantification scalaire comme le GSM Full Rate [Fingscheidt et al.,
1997]. Lefficacit de telles mthodes reste dmontrer pour des codeurs plus performants comme
lEFR, cest--dire laissant moins de redondance rsiduelle.
3.4.1.1 Le problme dun modle de prdiction fixe
Quil sagisse dune chane de Markov ou dune prdiction linaire de coefficients fixes, les modles
utiliss pour prendre en compte la corrlation rsiduelle en sortie du codeur parole font implicitement
lhypothse dune source stationnaire. Ceci nest videmment pas le cas de la parole. On pourra
remarquer que les techniques de masquage derreur classiques utilisent gnralement elles-mmes des
modles de prdiction fixe pour les paramtres spectraux
37
. Le modle a priori utilis dans les
approches de dcodage souple ne fait donc que reprendre le modle implicite des procdures de
masquage.
Lutilisation dun modle aussi simple pour la parole est acceptable dans une stratgie masquage, c'est-
-dire pour les bas niveaux de C/I, pour lesquels il nest plus question de rcuprer les paramtres
transmis mais simplement de minorer limpact subjectif des erreurs. La prdiction fixe des paramtres
doit alors saccompagner dune procdure daffaiblissement des gains dexcitation afin de ne pas
prolonger trop artificiellement un segment de parole.
A linverse, lorsque la vraisemblance des paramtres reus en sortie du canal est leve, le modle a
priori a une contribution ngligeable dans la probabilit a posteriori (3.7) calcule par le dcodeur
souple, et donc sur les paramtres estims. Le dcodeur souple est alors transparent .
Le problme se pose pour les niveaux de C/I intermdiaires, la question est alors de savoir si les
modles prsents plus haut sont efficaces dans une stratgie correction derreur. Cest--dire sils
nintroduisent pas plus derreurs quils nen corrigent, du fait de la prdiction fixe utilise.
On peut ici tenter un parallle entre lemploi dun modle de prdiction des paramtres au codeur
(prdiction des LSF, du gain dexcitation) et la prdiction utilise au niveau du dcodeur souple :
Au codeur, la redondance temporelle des paramtres est modlise par une prdiction fixe mais le
biais entre le comportement de ces paramtres pour la parole (non-stationnaire) et le modle de

37
Ainsi, la procdure de substitution des LSP donne en exemple pour lEFR correspond un modle de
prdiction auto-rgressive AR des LSP (cf. Annexe A).
prdiction fixe est pris en compte par le signal rsiduel, qui est transmis au dcodeur aprs
quantification. Ainsi, lEFR (cf. Annexe A) utilise une prdiction en moyenne adapte MA dordre
1 pour les LSF et une prdiction MA dordre 4 pour le gain dexcitation (dans le domaine
logarithmique). Il est prfrable dviter lemploi dun modle de prdiction trop contraint tel
un modle auto-rgressif AR, qui, du fait de sa mmoire infinie, entranerait une accumulation
derreurs au dcodeur en cas derreur de transmission sur les rsidus [Skoglund et al., 1997].
Au niveau du dcodeur souple, cest linformation apporte par le canal qui permet de corriger le
biais entre la prdiction fixe dun paramtre et sa trajectoire relle pour la parole (non-
stationnaire). Le modle de prdiction est ncessairement plus contraint quau codeur afin de
modliser la redondance rsiduelle. Ceci explique lemploi de modles AR ou de chane de Markov
dordre 1. Il y a alors propagation derreur si ces modles de prdiction exploitent uniquement les
valeurs prcdemment estimes des paramtres et non leur probabilit.
3.4.1.2 Le problme de la complexit
Un autre problme est celui de la complexit des mthodes de dcodage souple. Le tableau 3.1 fait un
bilan de la complexit des mthodes AK0, AK1 et AK2 en fonction de la taille N du dictionnaire de
quantification et du nombre Q de paramtres exploits pour la prdiction intra-trame. On constate que
les mthodes AK1 et AK2 deviennent trs complexes mettre en uvre pour des codeurs utilisant de
larges dictionnaires comme lEFR
38
. Quant aux mthodes sous-optimales proposes pour rduire la
complexit, telles la prdiction linaire, elles comportent le risque dune propagation derreur comme
on la vu plus haut.

Complexit des algorithmes AK0 AK1 AK2
Calcul de la probabilit a posteriori 0 ( )
2
O N ( )
2
O QN
Estimation (MAP ou MMSE)
( ) O N ( ) O N ( ) O N
Tableau 3.1 : Complexit en fonction de la taille N du dictionnaire de quantification et du nombre P
de paramtres exploits par la prdiction intra-trame (algorithme AK2)
En rsum, le dcodage souple ne peut tre une solution intressante dans le cas pratique du GSM
EFR que si la redondance rsiduelle est rellement exploitable et condition de rduire la complexit

38
Certains paramtres du codeur EFR comme le 3ime jeu de rsidus LSF ou le dlai de pitch peuvent avoir des
dictionnaires de quantification de taille N . (cf. Table A.2 dallocation des bits en Annexe A). 512 =
Chapitre 3 66
des mthodes destimation. Nos travaux, prsents dans les chapitres qui suivent, sattachent
rpondre ces conditions.

Chapitre 4

Application au GSM EFR
4.1 Introduction
Les techniques de dcodage entres souples reposent sur lutilisation conjointe dune information sur
la fiabilit des donnes reues et dune prdiction des donnes recevoir. Ces informations sont
respectivement obtenues partir dune estime du canal et dune modlisation de la redondance des
paramtres du codeur. Leur nature et leur richesse dpend donc totalement du contexte dans lequel ces
techniques sont mises en oeuvre. Notre contexte tant celui du systme GSM, nous analysons dans ce
chapitre la redondance rsiduelle des paramtres du codeur EFR ainsi que linformation exploitable en
sortie du dcodeur canal. Nous proposons ensuite une mise en uvre des algorithmes AK0 et AK1
abords au chapitre prcdent.
4.2 Redondance rsiduelle du codeur EFR
Nous devons tout dabord nous assurer quil existe bel et bien une redondance rsiduelle en sortie du
codeur de parole EFR. Mesurer la redondance suppose dj que lon se donne un modle permettant de
la reprsenter. Nous reprenons ici lapproche utilise par [Alajaji et al., 1996] pour ltude de la
redondance du codeur CELP FS1016. Celle-ci consiste caractriser les 3 formes de redondance (non-
uniformit, mmoire et corrlation entre paramtres distincts) par des mesures dentropies
conditionnelles.
Chapitre 4 68
4.2.1 Modle utilis pour caractriser la redondance rsiduelle
Plus prcisment, nous noterons dans ce qui suit i lindex de quantification associ au paramtre
calcul par le codeur de parole linstant
( )
n
v
n
v
( )
n
v
( )
( )
n
p i
v
( )
( ) (
0
0
n
R H i H =
v
( )
( )
0
n
M =
v ( )
( )
( )
( )
( )
( ) ( )
2
log
n n n
p i i p i i = = =
v v v
( )
( ) H i
v
( )
( )
n
v
( )
n
i
v ( )
1 n
v
( )
39
n, et dfinirons les 3 formes de redondance de la
manire suivante :
Non uniformit : Supposons que lindex de quantification i est cod sur M bits. La redondance
exploitable par la connaissance de la distribution en sortie de codeur peut se mesurer
selon :
( )
)
n
i
v
(4.1)
i
o H i et H i .
n
( )
n
i
v
Lentropie exprime le nombre, non ncessairement entier, de bits ncessaires pour
reprsenter connaissant sa distribution a priori. R0 mesure donc le nombre de bits
redondants en sortie du codeur si lon connat la distribution a priori p i .
Mmoire : La redondance en sortie de codeur due la corrlation temporelle entre les index de
quantification successifs et i sexprime selon :
(4.2)
1 1
n n
n n
i

( )
( ) ( )
( )
1
1
n n
n
R H i H i i
=
v v v
( ) ( )
o (4.3)
n
1 n
( ) ( )
( )
1
,
n
n
p i i
v v
( )
( ) ( )
( )
( ) ( )
( ) ( )
2
, log
n n
i
H i i p i i i i p i i i i = = = = =
v v v v v v
( ) v ( ) v
est lentropie conditionnelle de lindex i sachant i . R1 mesure le nombre de bits redondants
en sortie du codeur si lon connat la loi jointe .
( ) v ( )
n
v
Corrlation entre index de QV : Considrons des paramtres distincts et calculs au
mme instant n (trame ou sous-trame) et quantifis sparment. On cherche valuer la
corrlation rsiduelle entre les index i et i issus de ces processus de quantification spars.
On peut mesurer leur redondance selon :
n
n
v
n
v
n
(4.4)
n
( )
( )
( ) , p i i
v v
( )
( )
( )
( )
( ) 2
n n
R H i H i i

=
v v v
( )
o est lentropie conditionnelle de lindex de quantification du paramtre
sachant lindex de quantification du paramtre v , cest--dire le nombre de bits ncessaires pour
reprsenter connaissant la loi jointe .
( )
( )
n n
H i i
v v
n
v
( )
n
i
v
n n

39
Linstant n dsignera la trame ou la sous-trame selon le paramtre considr.
Dcodage source entres souples : Application au GSM EFR 69
On notera que lon a mesur ici indpendamment la redondance temporelle, modlise par une loi
jointe de la forme , et la redondance entre paramtres distincts, mesure par la loi de
forme . Ce choix a t impos afin de limiter la dimension des lois jointes apprendre
sur notre base de donnes. En contre-partie, ce modle ne permet pas de dire dans quelle mesure ces
deux redondances ne se recouvrent pas.
( ) ( )
( p i
( )
( )
( ,
n n
p i i
v v
)
1
,
n
n
i
v v
)
( )
( )
n
p i
v
( ) ( )
Une autre limitation de ce modle est quon calcule uniquement des statistiques moyennes, ceci
sapplique bien un signal stationnaire mais ce nest videmment pas le cas du signal de parole. Ainsi,
les corrlations mesures seront une moyenne entre les corrlation leves des paramtres pour les
segments stationnaires (segments voiss) de la parole avec celles, certainement plus faibles
correspondant aux non-stationnarits (transitions, plosives, etc.). Cependant, les algorithmes prsents
au chapitre prcdent reposent galement sur ce modle (probabilits de transition moyennes entre
index de quantification), nous avons jug intressant de lappliquer au cas de lEFR afin de pouvoir
par la suite en driver une mise en uvre de ces algorithmes.
4.2.2 Rsultats obtenus
Nous pouvons estimer les 3 formes de redondance rsiduelle en calculant les probabilits ,
, sur une base de donnes. Les caractristiques de la base de donne utilise
sont reportes sur le Tableau 4.1. Cette base de donnes sera la base dapprentissage utilise pour
toute la suite de nos travaux.
( )
1
,
n
n
p i i
v v ( )
( )
( ) ,
n n
p i i
v v

Corpus pour moiti en langue anglaise et pour moiti en franais, enregistr par 8
locuteurs (2 hommes et 2 femmes / anglais ; 2 hommes et 2 femmes / franais).
Echantillons de parole constitus de doubles phrases phontiquement quilibres.
Restriction aux priodes dactivit vocale uniquement (21 minutes au total).
Tableau 4.1 : Corpus de parole utilis pour lapprentissage
Cette base de donnes permet de gnrer 65000 trames de paramtres du codeur EFR. Le codeur EFR
est prsent en dtail en Annexe A, on rappellera juste ici que les paramtres quantifis en sortie de ce
codeur sont les rsidus de prdiction MA des LSF (quantification vectorielle QV par jeux de 5 paires),
les rsidus de prdiction MA du gain de dictionnaire fixe (quantification scalaire QS), le gain de
dictionnaire adaptatif et le dlai de pitch (quantification scalaire QS). Dans cette tude de la
redondance rsiduelle, on sintresse plus prcisment aux index de quantification associs ces
paramtres quantifis. La table 4.2 rsume ces index de quantification et leur notations.

Chapitre 4 70
( )
LSF
k
n
i
( ) 1, 2, ..., 5 k =
Index de QV du k
ime
jeu de rsidus LSF linstant n,

Index de QS du gain de dictionnaire adaptatif linstant n
( ) gc
n
i Index de QS du rsidu de gain de dictionnaire fixe linstant n
( ) lag
n
i Index de QS du dlai (pitch) linstant n
( ) gp
n
i
Tableau 4.2 : Paramtres tudis en sortie du codeur EFR
Les entropies estimes sur la base de donnes sont reportes sur les tables 4.3 4.6 pour ces 4 types de
paramtres du codeur EFR. Les redondances rsiduelles associes la non-uniformit, la mmoire ou la
corrlation inter-paramtres se dduisent par comparaison avec lentropie H , cest--dire le nombre
de bits effectivement utilis pour coder lindex de quantification. Lindice n dsigne la trame dans le
cas des rsidus LSF et la sous-trame pour les autres paramtres
0
40
.

7
5.37 4.71
8 7.01 5.80 6.05
9 8.25 6.25 6.97
4 k = 8 7.38 6.40 6.10
5 k = 6 5.39 5.06 4.92
( )
0
LSF
k
n
H i
1

( )
( )
LSF
k
n
H i
1

( )
( ) ( )
1
LSF LSF
k k
n
n
H i i

( )
( ) ( )
1
LSF LSF
k k
n n
H i i

1

( )
1 k =
2 k =
3 k =
Tableau 4.3 : Entropies des indices de quantification des LSF
(non-uniformit, mmoire, corrlation entre jeux de rsidus LSF)
Dans le cas des LSF, la redondance rsiduelle provient essentiellement de la corrlation temporelle et
de la corrlation entre jeux de rsidus de prdiction des LSF. Cette redondance est assez significative.
Ceci sexplique par la forme sous-optimale de quantification utilise
41
qui modlise imparfaitement la
forte corrlation temporelle des LSF dans les segments stationnaires de la parole et la corrlation entre
LSF due leur relation dordre.

40
Dans le cas du dlai de pitch, les sous-trames 2 et 4 ne sont pas tudies car elles sont codes en diffrentiel par
rapport aux sous-trames 1 et 3, c'est--dire quelle intgrent dj la corrlation entre sous-trames.
41
La prdiction MA modlise moins bien la corrlation temporelle quune prdiction AR, et la matrice forme par
les 2 vecteurs de LSF calculs chaque trame est quantifie par blocs (5 blocs) et non de manire totalement
conjointe (cf. Annexe A).

( )
( )
0
gp
n
H i
( )
( )
gp
n
H i
( ) ( )
( )
1
gp gp
n
n
H i i

4
3.92 3.53
( )
( )
0
gc
n
H i
( )
( )
gc
n
H i
( ) ( )
( )
1
gc gc
n
n
H i i

5 4.11 3.93
Tableau 4.4 : Entropies des index de gains (non-uniformit, mmoire)
( ) ( )
( )
gp gc
n n
H i i
( ) ( )
( )
gc gp
n n
H i i
3.78 3.98
Tableau 4.5 : Entropies des index de gains (corrlation entre gains)
( )
( )
0
lag
n
H i
( )
( )
lag
n
H i
( ) ( )
( )
3 1
lag lag
H i i
9
8.70 5.55
Tableau 4.6 : Entropies du dlai de pitch
(non-uniformit, mmoire)
Pour le dlai de pitch, la redondance entre les sous-trames 1 et 3 tait prvisible car celui-ci est trs
stationnaire dans les segments voiss.
Nous avons tudi la corrlation mutuelle des gains de dictionnaire fixe et adaptatif, en plus de leur
non-uniformit et de leur corrlation temporelle. Ceci tait motiv par le fait que certains codeurs
comme le G.729 [ITU-T, G.729] quantifient conjointement ces deux paramtres. On constate
cependant que lessentiel de la redondance est due la non-uniformit alors que les corrlations
mutuelle et temporelle sont assez peu significatives.
Pour conclure, il existe une forme plus gnrale de redondance entre paramtres que nous navons pas
tudie, il sagit de linformation apporte par la classification vois / non-voise de la trame. En effet,
le comportement des LSF nest pas le mme selon que la trame est voise ou non (certains codeurs
intgrent cette information vois / non-vois). Un modle a priori caractrisant la redondance des
paramtres sparment pour ces deux tats de la parole, avec des probabilits de transition dun tat
lautre, permettrait galement une meilleure prise en compte du caractre non-stationnaire de la
parole. Nous reviendrons par la suite sur un tel modle.
Chapitre 4 72
4.3 Vraisemblance en sortie du canal quivalent
Pour mettre en uvre une technique de dcodage de parole entres souples, il est ncessaire de
disposer de la vraisemblance (3.6). du paramtre transmis (ou de son index de quantification). Nous
avons implment pour cela un dcodeur canal sorties souples de type SOVA (Soft Output Viterbi
Algorithm) la place du dcodeur canal classique de lEFR. Cet algorithme est dcrit en Annexe D. Il
renvoie une estime de la probabilit derreur p associe chaque bit b dcod. La
connaissance de la probabilit derreur pour chacun des bits codant un index de quantification
permet alors de calculer la vraisemblance de cet index de quantification laide des relations (3.5) et
(3.6).
( )
e
m
m
( )
e
p m
Afin de vrifier la validit de lestimation fournie par le SOVA, nous avons compar le Taux dErreur
Binaire TEB effectivement mesur sur lensemble des bits en sortie du dcodeur canal, avec la
moyenne des probabilits derreur estimes par le SOVA pour ces bits ( moyen). Cette comparaison
est illustre Figure 4.1 pour un canal de type TU50 (cf. Annexe C) et des niveaux de C/I compris
entre 2 et 8 dB. La trs forte similitude entre le TEB mesur et la moyenne des probabilits derreur
estimes permet de conclure que le SOVA dlivre une estime non-biaise de la probabilit derreur
associe chaque bit b . En revanche, les approximations poses par lalgorithme SOVA (cf.
Annexe D) doivent conduire une estime bruite de la probabilit derreur individuelle .
Cependant, la variance de lestime ne peut tre value dans notre contexte de simulation
e
p
( )
e
p m
m
( )
e
p m
( )
e
p m
42
.

2 3 4 5 6 7 8
10
4
10
3
10
2
10
1
C/I (dB)
TEB
TEB rel

e
p moyen estim
par le SOVA

Figure 4.1 : Comparaison du TEB effectif en sortie du dcodeur canal et de la probabilit derreur
estime par le SOVA

42
Nous utilisons des patterns derreurs fixes (cf. Annexe C) pour modliser les erreurs introduites par le canal
radio-mobile. La nature dterministe des erreurs ainsi introduites ne permet pas de faire une statistique
individuelle des bits dcods, on doit se limiter des moyennes densemble (sur lensemble des bits de la trame).
Au-del de la simple vrification de sa validit, il est intressant dtudier plus en dtail la nature de
linformation apporte par la vraisemblance en sortie du canal quivalent du GSM. En effet, lemploi
de la vraisemblance (3.6) en remplacement de linformation tout ou rien sur la qualit du canal,
utilise classiquement par le dcodeur de parole (indicateur BFI), est motive par les deux potentialits
suivantes :
Masquage souple par lexploitation conjointe dune information a priori avec celle issue du canal.
Masquage slectif puisque lon calcule une vraisemblance par paramtre (ou index de
quantification associ).
Cependant, la notion de masquage slectif na dintrt que si les paramtres dune mme trame ne
sont pas simultanment corrompus en prsence derreurs de transmission. La vraisemblance (3.6)
permet alors dexploiter cette sorte de diversit de rception
43
entre paramtres. Cette hypothse
est utilise par lalgorithme de dcodage AK2 prsent au chapitre prcdent et qui exploite la
corrlation entre les paramtres dune mme trame pour corriger ceux dentre eux qui sont errons. Or,
les erreurs introduites par un canal radio-mobile sont essentiellement de type burst , c'est--dire
trs regroupes temporellement, et lhypothse dune diversit de rception entre paramtres doit
tre vrifie. Ceci est lobjet de lanalyse mene dans les paragraphes suivants.
Afin dtudier si les paramtres dune mme trame sont simultanment corrompus ou non, nous
formons un indicateur de paramtre invalide BPI (par analogie avec lindicateur de trame invalide
BFI) partir de la vraisemblance de lindice de quantification associ ce paramtre. Plus
prcisment, considrons nouveau lindex de quantification i du paramtre , cod sur M bits,
lindicateur BPI du paramtre linstant n est dfini selon :
( )
n
v
n
v
n
v
( )
( )
( )/
n n
vrais
BPI H i M =
v
v (4.5)
avec :
( )
( )
( ) ( )
( )
( ) ( )
( (
2
log
n n n n n
vrais
i
H i p j i i p j i i = =
v v v v v
)) = (4.6)
o
( ) ( )
( )
n n
p j i
v v
est la vraisemblance calcule selon (3.6) de lindex de quantification mis i tant
donn lindex reu en sortie de canal quivalent (sortie du SOVA). Autrement dit,
( )
n
v
( )
n
j
v ( )
( )
n
i
v
vrais
H
mesure lentropie de la distribution de vraisemblance de lindex . Cette entropie est dpendante de
la valeur de lindex reu et des probabilits derreur calcules par le SOVA mais on omettra dy
faire rfrence dans les notations.
( )
n
i
v
( )
n
j
v
Lindicateur sinterprte donc comme le rapport du nombre de bits qui seraient ncessaires
pour coder le paramtre connaissant les informations reues en sortie de canal quivalent, au
(
n
BPI v )

n
v

43
Par analogie avec la diversit de rception en traitement dantennes exploitant des trajets de propagation
diffremment brouills.
Chapitre 4 74
nombre de bits M utiliss au codeur de parole. Il constitue ainsi une mesure normalise
44
du degr de
dgnrescence du paramtre reu (1 pour un paramtre totalement dgnr, c'est--dire pouvant
prendre toutes les valeurs possibles de son dictionnaire de quantification, 0 si la valeur reue est
certaine). A la diffrence de lindicateur BFI, lindicateur BPI renvoie une valeur souple, variant
continment entre 0 et 1.
La Figure 4.2 illustre la correspondance entre lindicateur BPI (en bas) calcul selon (4.5) et la
distribution de vraisemblance de lindex de quantification (au milieu) calcule selon (3.6). Lintensit
de niveau de gris code lamplitude de la vraisemblance (lchelle utilise est logarithmique). On vrifie
que lindicateur BPI correspond bien une mesure dentropie de la loi de vraisemblance. Lindex de
quantification est dans cet exemple celui du 1
er
jeu de rsidus LSF quantifis (not LSF1). Les
artefacts dus aux erreurs de transmission peuvent tre reprs directement sur le signal de parole
dcod sans procdure de masquage (illustr en haut).

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
-1
-0.5
0
0.5
1
signal de parole dcod (BFI dsactiv), TU50, C/I=5dB
distribution de vraisemblance (LSF1)
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0
50
100
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0
0.5
1
temps (s)
indicateur dinvalidit du paramtre (BPI) pour LSF1
index i

Figure 4.2 : Signal de parole dcod (masquage dsactiv), distribution de log-vraisemblance (milieu)
et indicateur derreur BPI (bas) associ lindex de quantification LSF1 reu au cours du temps
(TU50, C/I = 5dB)

44
Lquation (4.5) est rapprocher de celles dfinissant les mesures de redondance (4.1) (4.4), la soustraction
est remplace par un quotient afin dobtenir une grandeur normalise, indpendante du nombre de bits M.
Pour vrifier lexistence ventuelle dune diversit de rception entre paramtres, on calcule le
coefficient de corrlation entre les indicateurs BPI obtenus pour chaque paramtre. Un coefficient de
corrlation proche de lunit signifie que les paramtres sont affects de manire uniforme par les
erreurs introduites par le canal radio-mobile. A linverse, si les BPI sont dcorrls entre eux,
lexploitation de la redondance rsiduelle intra-trame et le masquage slectif sont justifis.
Le coefficient de corrlation entre BPI a t mesur sur des communications dune dure de 32 s (1600
trames), pour des niveaux de C/I compris entre 2 et 7 dB et un canal de type TU50 (cf. Annexe C).
La Figure 4.3 illustre les rsultats obtenus pour les 2 premiers jeux de rsidus LSF quantifis (nots
LSF1 et LSF2). Les valeurs moyennes des BPI ont t retranches avant calcul de leur inter-
corrlation normalise (coefficient de corrlation). Ces valeurs moyennes sont reprsentes sur le
graphique gauche, elles permettent de vrifier dune part la cohrence du comportement du BPI avec
le niveau de C/I, et dautre part linvariance du niveau moyen entre paramtres (le BPI tant un
critre normalis). Les coefficients de corrlation sont reprsents sur le graphique droit, on constate
que ceux-ci sont trs levs sur toute la plage des niveaux de C/I valus. On en conclut que les
paramtres dune mme trame semblent tre simultanment corrompus par les erreurs introduites par
le canal radio-mobile et de manire relativement uniforme. Ceci est d la statistique des erreurs du
canal radio-mobile et parat minorer les gains attendre dune prise en compte de la redondance intra-
trame dans le cas du GSM.

2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
C/I (dB)
BPI moyen (LSF1 et LSF2)

2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
C/I (dB)
corrlation normalise entre BPI des LSF1 et LSF2

Figure 4.3 : Inter-corrlation normalise et valeur moyenne des indicateurs derreur BPI associs aux
index de quantification LSF1 et LSF2 (TU50, C/I compris entre 2 et 7 dB)
Chapitre 4 76
4.4 Mise en uvre du dcodage souple
Les analyses prcdentes ont montr quil existait une redondance rsiduelle en sortie du codeur de
parole EFR. Nous proposons ici dexploiter cette redondance au niveau du dcodeur parole, en mettant
en oeuvre les algorithmes de dcodage souple prsents au paragraphe 3.3. Nous envisageons
successivement les 3 types dalgorithmes suivants :
Dcodage souple sans a priori (paragraphe 3.3.2.1)
Dcodage AK0 exploitant la non-uniformit (paragraphe 3.3.2.2)
Dcodage AK1 exploitant la corrlation temporelle entre trames (paragraphe 3.3.2.3)
Lalgorithme AK2 na pas t mis en uvre ici car jug trop complexe dans le cas de lEFR.
Les performances de ces algorithmes seront values laide des critres objectifs prsents au
Chapitre 1 pour diffrents niveaux dinterfrences C/I compris entre 2dB et 10dB et pour la
configuration typique de canal radiomobile TU50 avec saut de frquence idal. Les notes MOS
estimes par lalgorithme PESQ et la distance cepstrale sont dans chaque cas moyennes sur
lensemble des chantillons de parole dune base de test dont les caractristiques sont reportes
Tableau 4.7. Cette base de test est distincte de la base dapprentissage utilise pour estimer les
modles a priori des algorithmes.

Corpus enregistr par 4 locuteurs (2 hommes et 2 femmes / franais).
18 doubles phrases de 8 secondes chacune (correspondant 90 secondes dactivit vocale).
Tableau 4.7 : Corpus de parole utilis pour lvaluation des algorithmes
4.4.1 Dcodage souple sans a priori
Comme on la vu, le dcodage parole classique re-synthtise le signal de parole partir de
paramtres estims au sens du Maximum de Vraisemblance MV puisque la dcision a t prise par
lalgorithme de Viterbi au niveau du dcodeur de canal. Le dcodage souple sans a priori consiste
effectuer lestimation des paramtres au sens du MMSE partir des vraisemblances calcules par un
dcodeur canal sorties souples (SOVA) selon lquation (3.11). Largument sous-jacent est quil est
plus pertinent pour amliorer la qualit perue de la parole, de minimiser une erreur quadratique dans
le domaine des paramtres (point de vue codage parole ), que de minimiser un taux derreur
binaire (point de vue codage canal ).
Cependant, la distance quadratique nest pas forcment le critre optimal dun point de vue subjectif.
Ainsi, [Fingscheidt et al., 1997] observent que lestimateur du Maximum A Posteriori MAP est plus
adapt pour le dlai de pitch dans le cas du GSM Full-Rate. Dautre part, dans le cas des LSF, la
distance utilise lors du processus de quantification nest pas la simple distance quadratique mais fait
intervenir une pondration perceptuelle de chaque LSF, qui est fonction de lcartement avec les LSF
adjacentes. Enfin, le gain de dictionnaire fixe
45
est quantifi dans le domaine logarithmique. Dans la
mise en uvre du dcodeur souple, cest donc dans le domaine logarithmique que nous appliquerons le
critre MMSE pour le gain de dictionnaire fixe. En revanche, le calcul des pondrations perceptuelles
pour les LSF ne pourrait tre mis en oeuvre que dans le cadre dun dcodage conjoint des LSF,
beaucoup trop complexe pour tre envisag et lon se limitera donc la distance quadratique entre
LSF.
Dans ce qui suit, nous comparons les performances du dcodeur souple (MMSE) au dcodeur
classique (MV) avec ou sans la procdure de masquage donne en exemple par la norme du GSM
EFR [GSM, 06.61]. Deux versions du dcodeur souple sont values, selon que le dlai de pitch est
estim comme les autres paramtres par le critre MMSE, ou trait part (estimation MAP
46
du dlai
de pitch).
Les conditions tudies correspondent des niveaux de C/I variant par pas de 1dB sur la plage [2dB-
7dB] et au-del pour la seule valeur de C/I gale 10 dB (afin de vrifier les performances
asymptotiques pour les faibles niveaux de brouillage). Pour chacune de ces conditions, les performances
des dcodeurs sont values laide des deux critres prsents au Chapitre 1 :
La note MOS estime par lalgorithme PESQ. On rappellera que cette note est ici utilise en tant
que distance perceptuelle par rapport au signal de parole non cod et quun cart entre notes
peut tre considr comme significatif partir de 0.2 MOS. Les notes MOS obtenues sont
reportes sur la Figure 4.4.
La distance cepstrale moyenne par rapport au signal de parole dcod sans erreurs (C/I infini).
La moyenne est ici restreinte aux priodes dactivit vocale uniquement. La distance cepstrale
moyenne est reprsente Figure 4.5.

45
Plus exactement, cest le rsidu de la prdiction MA du gain de dictionnaire fixe qui est quantifi. Cette
prdiction MA seffectue justement dans le domaine logarithmique.
46
Dans le cas prsent, lestimation MAP se rduit lestimation MV puisque aucun a priori sur les paramtres du
codeur nest utilis.
Chapitre 4 78
1
1.5
2
2.5
3
3.5
4
2 3 4 5 6 7 8 9 10
C/I (dB)
M
O
S

e
s
t
i
m

(
P
E
S
Q
)
MV
MMSE
MMSE (hors pitch)
Masquage EFR

Figure 4.4 : Notes MOS estimes (PESQ) en fonction du niveau de C/I
2 3 4 5 6 7 8 9 10
0.5
1
1.5
2
2.5
3
C/I (dB)
d
B
MV
MMSE
MMSE (hors pitch)
Masquage EFR

Figure 4.5 : Distance cepstrale moyenne sur les trames dactivit vocale en fonction du C/I
On notera en premier lieu que le dcodage direct (MV), c'est--dire le dcodeur classique de lEFR sans
procdure de masquage, est plus fortement pnalis par le critre PESQ que par la distance cepstrale
moyenne. Ceci sexplique par le fait que la note PESQ prend en compte lintgralit du signal
47
alors
que la distance cepstrale moyenne est restreinte aux instants dactivit vocale. Cette dernire ne prend
donc pas en compte les artefacts gnrs par le dcodeur MV dans les priodes de non-activit vocale
et bien visibles sur les signaux illustrs Figure 4.11.
Il apparat trs clairement quil est prfrable dutiliser lestimateur MAP pour le dlai de pitch. On
constate en effet que les performances du dcodeur mettant en oeuvre lestimation MMSE du pitch ne
convergent pas vers celles du dcodeur classique lorsque le C/I augmente mais prsentent un effet de
saturation. A linverse, le dcodeur exploitant le critre MMSE pour tous les paramtres lexclusion
du pitch (MMSE hors pitch) converge bien vers les performances du dcodeur classique pour les C/I
levs. Une explication possible est que le biais de lestimateur MAP tend rapidement vers zro
mesure que la confiance dans les donnes reues du canal augmente alors quil subsiste un biais dans le
cas de lestimateur MMSE. La prsence dun biais sur le dlai estim de pitch tend dtriorer la
structure harmonique des segments voiss
48
, comme lillustre la Figure 4.6 o le dcodeur utilisant
lestimation MMSE du pitch est compar au dcodeur classique pour un C/I gal 10 dB.

0 500 1000 1500 2000 2500 3000 3500 4000
3
4
5
6
7
8
9
10
11
12
Hz
dB
dcodeur MMSE
dcodeur EFR

Figure 4.6 : Spectre dun segment vois (rouge : dcodeur MMSE, bleu : dcodeur EFR classique)
Dans tout ce qui suit, nous utiliserons systmatiquement lestimateur MAP pour le dlai de pitch et en
labsence dambigut, dnommerons simplement MMSE le dcodeur souple utilisant le critre
MMSE pour tous les paramtres lexclusion du pitch.
On observe que ce dcodage MMSE qui nexploite pourtant aucun a priori sur la redondance rsiduelle
se rapproche des performances de la procdure de masquage classique de lEFR. En fait, limpact
subjectif des dgradations est trs diffrent entre ces deux approches de dcodage. Dans le cas du
dcodeur MMSE, les erreurs sont moindres mais rparties plus uniformment au cours du temps,
donnant limpression dun signal corrompu par du bruit. Le masquage classique de lEFR cre la

47
La distance spectrale perceptuelle calcule par lalgorithme PESQ est moyenne sur toute la dure du
signal mais avec une pondration diffrente pour les segments dactivit vocale et les segments de non-activit.
48
Le dlai de pitch dtermine la priode avec laquelle le signal dexcitation (dictionnaire fixe) est rpt pour
construire le dictionnaire adaptatif (excitation priodique). Un biais sur le dlai de pitch va entraner un
dphasage entre les composantes rsiduelles du pitch prsentes dans le signal dexcitation et donc dtruire la
structure harmonique.
Chapitre 4 80
sensation bien connue de trous dans le flux de parole lis aux pertes de trames. La Figure 4.11
illustre ceci par des exemples de signaux de parole dcods pour un C/I de 2 dB, ainsi que la
distribution de lerreur cepstrale au cours du temps.
Lutilisation de la seule information de vraisemblance en sortie du dcodeur canal par lestimateur
MMSE permet dj dobtenir un gain qualitatif par rapport au dcodeur MAP sans procdure de
masquage. Si lon considre que la procdure de masquage de lEFR est une technique exploitant un
modle a priori empirique des paramtres du codeur, on peut sattendre surpasser cette mthode en
utilisant le dcodeur souple (MMSE) avec une information a priori. Ceci conduit aux algorithmes AK0
et AK1 exposs prcdemment.
4.4.2 Dcodage AK0
La mise en uvre du dcodage AK0 est trs simple, elle ncessite seulement de stocker au niveau du
dcodeur parole, les probabilits a priori des indices de quantification p i sous forme
dhistogrammes. Les Figures 4.7 et 4.8 comparent les performances des estimateurs MV, MMSE (hors
pitch), AK0 (MMSE hors pitch) avec celles du masquage classique de lEFR.
( )
n
La note MOS estime fait apparatre une lgre supriorit de lestimateur AK0 par rapport au
masquage de lEFR sans que celle-ci puisse tre considre comme rellement significative. Cette
supriorit est plus clairement confirme par la distance cepstrale moyenne.
1
1.5
2
2.5
3
3.5
4
2 3 4 5 6 7 8 9 10
C/I (dB)
M
O
S

e
s
t
i
m

(
P
E
S
Q
)
MV
MMSE (hors pitch)
Masquage EFR
AK0 MMSE

2 3 4 5 6 7 8 9 10
0.5
1
1.5
2
2.5
3
C/I (dB)
d
B
MV
MMSE (hors pitch)
Masquage EFR
AK0 MMSE

Des exemples de signaux de parole dcods selon ces algorithmes sont illustrs Figure 4.11 avec, pour
chacun deux, la distance cepstrale value par rapport la parole code de rfrence. On constate, en
premier lieu, la prsence dartefacts dans les zones de silence pour le dcodeur AK0. Le masquage de
lEFR, qui enclenche une substitution de trame, na videmment pas ce problme. En revanche, le
signal de parole apparat tonnamment bien restaur, si on le compare au dcodage direct MV. On
observe galement une rduction des bruits impulsifs
49
dans la parole par rapport au dcodeur
MMSE. Ceci montre bien que la prise en compte de la redondance permet un masquage des artefacts.
A lcoute, le signal de parole apparat plus bruit en sortie du dcodeur AK0 mais il est
galement toujours intelligible, ce qui nest pas le cas avec la stratgie de masquage de lEFR. Comme
on la not prcdemment pour le MMSE, la gne perue pour les faibles niveaux de C/I est trs
diffrente de celle du masquage classique. Dans le cas des dcodeurs MMSE et AK0, le signal de parole
apparat entach de bruits impulsifs . Ce bruit correspond en ralit des distorsions non-linaires
mais celles-ci sont nettement plus attnues que celles associes au dcodage direct MV.
Cette sensation de bruit est mieux accepte que celle dun signal discontinu associ au masquage de
lEFR. Cet effet dordre cognitif nest pas pris en compte par les critres objectifs utiliss ici et plaide
en faveur du dcodage souple.

49
Par commodit, on appelera ainsi les pics impulsionnels visibles sur la forme temporelle des signaux de parole. Il
sagit dun abus de language car la distortion associe nest pas linaire.
Chapitre 4 82
4.4.3 Dcodage AK1
A partir des probabilits et ( )
n
p i ( )
1
,
n
n
p i i
apprises sur la base de donnes, nous pouvons mettre en

uvre lalgorithme AK1 selon la rcursion (3.15). Les figures 4.9 et 4.10 prsentent lvaluation des
performances de cet algorithme au regard des critres MOS estims (PESQ) et distance cepstrale.
Les performances de lalgorithme AK1 sont infrieures celles de AK0 et du masquage classique. Ce
rsultat est surprenant car le modle a priori utilis par lalgorithme AK1 inclut la non-uniformit
exploite par lalgorithme AK0 et devrait donc tre au moins aussi performant que ce dernier. Deux
hypothses peuvent tre avances pour expliquer ce rsultat :
Le modle de corrlation temporelle utilis (probabilit de transition fixes) introduit plus derreurs
quil nen corrige car il nest pas adapt au caractre non-stationnaire de la parole.
La dimension des donnes estimer pour le modle a priori AK1 (matrice des probabilits de
transition entre index de quantification) requiert une quantit de donnes dapprentissage
nettement plus leve que la base de donnes dont nous disposons. Ds lors, si le modle est
incompltement appris, il ne peut offrir ses performances optimales sur une base de test.
On remarquera que les performances de lalgorithme AK1 sont meilleures avec le critre de distance
cepstrale moyenne (pour lequel elles paraissent confondues avec celles du Masquage EFR) quavec le
critre PESQ. Ceci tend signifier que les dgradations apportes par lalgorithme AK1 (relativement
AK0) concernent principalement les zones de non-activit vocale puisque la distance cepstrale
moyenne est restreinte aux instants dactivit vocale au contraire de la note PESQ. En considrant les
exemples de signaux dcods illustrs Figure 4.11, il apparat galement que lalgorithme AK1
introduit plus de bruit impulsif dans les zones de silence en comparaison avec lalgorithme AK0.
Un tel comportement plaide plutt pour lhypothse dun mauvais conditionnement du modle AK1
appris sur notre base de donnes (puisque les zones de non-activit vocale ont t exclues de cette base
dapprentissage). Cette hypothse sera valide par les rsultats exprimentaux obtenus pour les
algorithmes dvelopps au Chapitre suivant.

1
1.5
2
2.5
3
3.5
4
2 3 4 5 6 7 8 9 10
C/I (dB)
M
O
S

e
s
t
i
m

(
P
E
S
Q
)
MV
MMSE (hors pitch)
Masquage EFR
AK0 MMSE
AK1 MMSE


2 3 4 5 6 7 8 9 10
0.5
1
1.5
2
2.5
3
C/I (dB)
d
B
MMSE (hors pitch)
Masquage EFR
AK0 MMSE
AK1 MMSE

Chapitre 4 84
Rfrence
code
0 2 4 6 8 10 12
-1
-0.5
0
0.5
1
1.5
2
x 10
4
temps(s)

Masquage
EFR
0 2 4 6 8 10 12
-1
-0.5
0
0.5
1
x 10
4
temps (s)
0 2 4 6 8 10
0
0.5
1
1.5
2
2.5
3
3.5
4
temps(s)
d
B
MV
0 2 4 6 8 10 12
-3
-2
-1
0
1
2
3
x 10
4
temps (s)
0 2 4 6 8 10
0
0.5
1
1.5
2
2.5
3
3.5
4
temps(s)
d
B
MMSE
0 2 4 6 8 10 12
-1.5
-1
-0.5
0
0.5
1
1.5
x 10
4
temps (s)
0 2 4 6 8 10
0
0.5
1
1.5
2
2.5
3
3.5
4
temps(s)
d
B
AK0
0 2 4 6 8 10 12
-1.5
-1
-0.5
0
0.5
1
x 10
4
temps (s)
0 2 4 6 8 10
0
0.5
1
1.5
2
2.5
3
3.5
4
temps(s)
d
B
AK1
0 2 4 6 8 10 12
-1.5
-1
-0.5
0
0.5
1
1.5
x 10
4
temps(s)
0 2 4 6 8 10
0
0.5
1
1.5
2
2.5
3
3.5
4
temps(s)
d
B
Figure 4.11 : Exemples de signaux dcods et distances cepstrales correspondantes (C/I = 2dB)
4.5 Conclusion
La mise en uvre des algorithmes de dcodage souple sur le codeur GSM EFR fait dabord ressortir
lintrt dune estimation souple des paramtres tenant compte des probabilits derreur estimes par
un dcodeur canal sortie souple. Elle permet de maintenir une continuit de signal lcoute
tout en attnuant fortement les distorsions de parole. Cest cette estimation souple (critre MMSE) qui
fournit lessentiel du gain de qualit perue par rapport un dcodage direct des paramtres reus.
Il y a galement une information retirer de la redondance des paramtres du codeur EFR. La prise
en compte de la non-uniformit de leur distribution apporte dj un gain supplmentaire de qualit
mais cest au niveau de la corrlation inter-trame que lon peut esprer les amliorations les plus
importantes. En effet, le modle de corrlation temporelle utilis, malgr ses limitations, capture dj
une redondance significative des paramtres spectraux (LSF).
Cependant, lexploitation de ce modle par lalgorithme de dcodage AK1 ne donne pas de rsultats
satisfaisants. La ncessit destimer de larges matrices de probabilits de transition pose un problme
de conditionnement et donc de robustesse du dcodeur face des signaux de parole hors base
dapprentissage. Dautre part, si ce modle permet de caractriser le niveau moyen de corrlation entre
paramtres successifs, ceci nimplique pas quon puisse obtenir un gain de qualit en moyenne en
lutilisant pour la prdiction des paramtres du codeur. Cette hypothse ne tient en effet pas compte
de la non-stationnarit de ces paramtres pour la parole.

Chapitre 4 86

Chapitre 5

Etude de nouveaux algorithmes
5.1 Introduction
Les mthodes de dcodage de parole entres souples tudies aux chapitres 3 et 4 sont en ralit la
simple transposition au domaine de la parole, de dveloppements effectus dans un cadre bien plus
gnral, qui est celui du codage et du dcodage conjoint source - canal. En particulier, les probabilits
de transition entre indices de quantification utilises pour reprsenter la redondance des paramtres du
codeur parole sont emprunts dune approche thorie de linformation bien plus que du souci de
modliser lobjet spcifique quest la parole (ou ses paramtres). Il apparat pourtant intressant si lon
souhaite modliser finement la redondance dune source (ici, la parole) de se munir dun modle
prenant en compte les spcificits de celle-ci. Dautre part, sur un plan strictement pratique, les
mthodes proposes
50
se rvlent bien trop complexes pour une mise en uvre sur des dcodeurs tels le
que celui du GSM EFR.
On propose ici dapporter une rponse commune ces deux limitations en se donnant un modle
analytique de la corrlation entre les paramtres du codeur de parole. Ce modle est cherch en
premier lieu pour des considrations de complexit puisque nous visons lappliquer un systme du
type GSM. On verra cependant que la modlisation analytique quil fournit pour les paramtres du
codeur correspond galement une modlisation plus physique de ces derniers et de leur
comportement.

50
On considre surtout ici la mthode de prdiction inter-trame AK1.
Chapitre 5 88
5.2 Rduction de la complexit
Les dictionnaires de quantification du codeur LSF comptent jusqu 512 lments pour certains jeux de
rsidus de prdiction LSF et pour le dlai de pitch. Les algorithmes AK1 et AK2 sont alors dune
complexit rdhibitoire pour une mise en uvre pratique. Aussi nous recherchons une mthode de
dcodage souple de complexit rduite. Contrairement la prdiction linaire, cette mthode ne doit
pas faire dhypothses sur les valeurs des paramtres dj dcods, afin dviter tout risque de
propagation derreur. Elle doit galement permettre dexploiter la redondance inter-trame (AK1) tout
comme la redondance intra-trame (AK2).
Cest le calcul de la probabilit a posteriori qui reprsente la partie la plus complexe du dcodeur
souple. En reprenant les notations du paragraphe 3.3, les deux principaux facteurs de la complexit du
calcul de cette probabilit a posteriori ( )
1
,...,
n n
p i j j sont les suivants :
Le modle a priori bas sur des probabilit de transition ( )
1
n
n
i
p i entre indices de
quantification et qui exige de parcourir lensemble des lments du dictionnaire pour calculer une
probabilit prdictive ( )
1 1
,...,
n
n
j j
p i .
La combinaison de la probabilit prdictive ( )
1 1
,...,
n
n
p i j j
avec la vraisemblance a
posteriori (
n n
p j i )
)
qui doit tre value explicitement pour chacun des lments du dictionnaire.
Ces deux lments runis expliquent la complexit en O N du calcul de la probabilit a posteriori
par AK1.
(
2
5.2.1 Recherche dun modle analytique
La premire ide serait dexploiter des expressions analytiques pour le modle a priori et pour la
vraisemblance. Ceci conduirait une expression analytique de la probabilit a posteriori sans avoir
parcourir explicitement les lments du dictionnaire. Le calcul des estimes MMSE ou MAP en serait
lui-mme simplifi. Linspiration est ici lalgorithme de Kalman qui combine un modle interne des
donnes estimer (modle a priori) et un modle de perturbation des donnes reues (bruit additif
gaussien).
Il y a deux possibilits pour rechercher une expression analytique de la vraisemblance et de la
probabilit a priori, selon le domaine dans lequel on choisit de calculer ces probabilits :
dans le domaine des indices de quantification i
dans le domaine des paramtres (ou centrodes
( ) i
c )
Dcodage source entres souples : Etude de nouveaux algorithmes 89
Lindexation (Index Assignement) dun paramtre quantifi
( ) i
c est rarement une transformation
linaire, hormis dans le cas dune quantification scalaire o lindex i peut tre simplement la valeur
quantifie du paramtre. Dans le cas dune quantification vectorielle, comme cest le cas pour les LSF
dans lEFR, cette linarit est videmment perdue. Ceci signifie que si une loi de type multi-
gaussiennes peut tre utilise dans lespace des paramtres pour modliser la distribution a priori, on
ne peut absolument pas en dduire un modle analytique pour la loi a priori exprime dans le domaine
des indices de quantification. Ceci est illustr par lexemple de la Figure 5.1 o le paramtre est un des
rsidus de prdiction des LSF.

0 50 100 150 200 250 300
0
100
200
300
400
500
600
700
index de QV

-2000 -1500 -1000 -500 0 500 1000 1500 2000 2500
0
100
200
300
400
500
600
700
paramtre (rsidu LSF)

Figure 5.1 : Distribution a priori exprime dans le domaine de lindex de quantification (gauche) ou
selon les valeurs du paramtre associ (droite)
A linverse, si la sortie du SOVA peut tre modlise analytiquement (en lassimilant la sortie dun
canal bruit additif gaussien
51
CABG), un modle analytique de la vraisemblance nest pas disponible
dans le domaine des paramtres. En effet, il nexiste pas de transformation
52
linaire permettant
dobtenir les centrodes
( ) i
c partir des bits codant lindice i.
En conclusion, on ne peut faire lconomie du calcul explicite de la vraisemblance, nanmoins on peut
modliser analytiquement la loi a priori en se plaant dans le domaine des paramtres. Lexploitation
dun tel modle a priori pourrait permettre de rduire la complexit du calcul de la probabilit a
posteriori. Cest cette approche que nous dveloppons dans ce qui suit.

51
Comme il est prsent en Annexe C, la sortie du SOVA peut tre interprte comme un CABG ou comme un
canal binaire symtrique CBS de probabilits derreur instantanes connues. Cest cette seconde interprtation
quon utilise dans tout ce document mais linterprtation CABG aurait pu tre intressante pour en driver un
modle analytique de la vraisemblance.
52
Il est montr dans [Hedelin et al., 1995] que les centrodes peuvent sobtenir partir des bits codant leur index
de quantification i par lintermdiaire dune transforme de Hadamard et que celle-ci est gnralement non-
linaire.
Chapitre 5 90
5.2.2 Modle a priori dans le domaine des paramtres
On modlise dsormais la connaissance a priori dans le domaine des paramtres valeurs continues
, c'est--dire des paramtres non quantifis. Ce choix permet dutiliser des densits continues
comme les multi-gaussiennes pour reprsenter la distribution a priori. En revanche, au niveau du
dcodeur souple, cest toujours la probabilit a posteriori des paramtres quantifis
d
R v
( ) i
c (ou de manire
quivalente, de leur index de quantification i) que lon cherche valuer
53
. La premire tape consiste
donc exprimer les probabilits a priori des index de quantification partir du modle a priori dfini
sur les paramtres. Pour prciser tout ceci, considrons les diffrentes formes de redondance, savoir,
non-uniformit, corrlation temporelle, et corrlation entre paramtres distincts :
Non uniformit : Le modle
54
a priori dont on dispose ici est la distribution du paramtre
(
n
p v ) suppose invariante au cours du temps n. On en dduit une loi a priori sur les index de
quantification selon :
( ) (
( ) i
n n
p i i p d
= = = )
v
v v v (5.1)
o dsigne la cellule de quantification associe la valeur i de lindex de quantification,
c'est--dire lensemble des valeurs v telles que Q .
( ) i
( )
i = v
Dans la pratique, on posera lhypothse simplificatrice suivante :

( ) ( )
( )
( )
( )
( )
i
n n
d i
n
p i i p d
C r i p

= = =
=
v
v v v
v c
(5.2)
o C est une constante de normalisation, d est la dimension du paramtre v, et r i est le
rayon moyen de la cellule de quantification . Le rayon moyen est estim partir
de la base de donne de parole, comme tant lcart type de la distribution du paramtre v
lintrieur de la cellule de quantification . Cette approximation revient supposer la
probabilit
( )
( ) i
)
( ) r i
(i
(
n
p v ) constante lintrieur de la cellule de quantification.
Mmoire : De mme que prcdemment, on se limitera la corrlation entre 2 valeurs successives
du paramtre. On modlise donc la loi jointe ( )
1
,
n
n
p
v v . On en dduit :

53
Ceci parce que les vraisemblances en sortie de canal quivalent sont dfinies sur les index de quantification
transmis.
54
On notera ici par , lensemble des paramtres dfinissant le modle a priori utilis.

( ) ( )
( )
( )
( ) ( )
( ) ( )
( )
1 1
1
, ,
,
i i
n n
n n
d d i i
n
n
p i i i i p d d
C r i r i p

= = = = =
= =

v v
v v v v v v
v c v c
(5.3)
Corrlation entre paramtres et v : Elle est modlise par la loi jointe , on
supposera de la mme faon quon a la relation :
, n k
v
, n /
( )
, ,
,
n k n
p v v
/

( )
( ) ( )
( ) ( )
(
, , , ,
, ,
i
d d i
n k n n k k n
p i i i i C r i r i p
= = = = v c v c
/

)
/ /
(5.4)
o et sont les lments des dictionnaires de quantification des paramtres et
respectivement.
k
c c
/ , n k
v
, n
v
/
5.2.3 Prdiction inter-trame par multi-gaussiennes
On peut maintenant exprimer les probabilits a posteriori des index de quantification mis linstant
n partir du modle a priori sur les paramtres. On considrera en premier lieu le cas de la prdiction
inter-trame
55
. La probabilit a posteriori se dcompose alors de la faon suivante :
( ) ( )
( ) ( )
( ) ( )
1 1
1 1
1 1
,..., , ,...,
, ,...,
,...,
n n n n
n n n
n
n n n n
p i j j C p i j j
C p j i p i j j
C p j i p i j j
=
=
=
(5.5)
o C et C sont des constantes de normalisation.
Le premier facteur correspond aux probabilits de transition (

n n
p j i ) du canal quivalent values
daprs la relation (3.6). Le second facteur ( )
1 1
,...,
n
n
p i j j
est la probabilit prdictive de i

sachant . On sintresse dans ce qui suit au calcul de cette probabilit prdictive.
n
1
,...,
n
j
1
j
Comme on modlise uniquement la corrlation temporelle lordre 1, cest--dire entre trames
successives n et n, la probabilit prdictive sexprime de faon analogue au second membre de la
variable dinduction avant (3.15) dans un treillis :
1

( ) ( ) ( )
( ) ( )
1 1 1 1 1 1 1 1
1 1 1 1
,..., , , ,..., , ,..., ,
, ,..., ,
n n
n n n n
i
n
n n n
i
p i i j j p i i i i j j p i i j j
p i i i i p i i j j

= = = = =
= = = =

(5.6)
On introduit maintenant la probabilit a priori dfinie sur les paramtres. Daprs (5.3), il vient :

55
La prdiction inter-trame modlise aussi implicitement la non-uniformit du paramtre.
Chapitre 5 92
( )
( )
( )
( )
( ) ( )
( )
( )
( )
1
1
1
1
1
,
,

i i
n
n n
n d
n
n
i
n
n
p
p i i i i
p i i i i C r i
p i i
p

= = = =
= = =
=
=
v c v c
v c
(5.7)
o C est une constante de normalisation et ( )
1 n
p
v est la loi marginale associe ( )

1
,
n
n
p
v v .
On obtient finalement une expression dfinissant la probabilit prdictive ( )
1 1
,..., ,
n
n
p i j j
partir
de la probabilit a posteriori ( )
1 1 1
,..., ,
n n
p i j j

linstant n et de la loi jointe a priori 1
( )
1
,
n
n
p
v v apprise sur les paramtres, ainsi que la loi marginale qui sen dduit ( )
1 n
p
v :
( ) ( )
( ) ( )
( )
( )
( )
( )
1
1 1 1 1 1
1
,
,..., , ,..., ,
i i
n
n
d
n
n n n
i
i
n
p
p i i j j C r i p i i j j
p
= =
= =
=
v c v c
v c
(5.8)
Jusquici le calcul de la probabilit a posteriori est strictement identique celui propos par
[Fingscheidt et al., 1997] et lon sest content dun jeu de substitution dune loi a priori sur les indices
de quantification par une loi a priori sur les paramtres. Lintrt de la formulation prsente apparat
lorsquon choisit de modliser la probabilit a priori ( )
1
,
n
n
p
v v par un mlange de gaussiennes.

Ceci permet la fois de modliser de manire compacte nimporte quelle forme de distribution et de
rduire la complexit puisque seuls les paramtres dfinissant les gaussiennes sont actualiser dans la
rcursion (5.8) dfinissant ( )
1 1
,..., ,
n
n
p i j j
.
5.2.3.1 Modle multi-gaussien
Nous modlisons la loi jointe ( )
1
,
n
n
p
v v par un mlange de gaussiennes GMM dfinies sur

:
d d
R R

( ) [ ] ( )
( ) ( )
1
1
, ,
avec , , ,
K
n m m n
n
m
d d
m m m
p w g
g N R
=
=
=
v v v v
X X X
1 n
R
)
}
(5.9)
o sont les poids des gaussiennes N de moyenne et de matrice de covariance
, et K est le nombre de gaussiennes utilises. On note lensemble de ces
paramtres spcifiant la GMM.
m
w ( , ,
m m
X
m
K w
m
{ , , ,
m m m
=
On choisit ici des gaussiennes de matrice de covariance diagonale. Lhypothse de covariance diagonale
permet la fois dviter les problmes de conditionnement lors de lapprentissage et dexprimer chaque
gaussienne g comme le produit des lois marginales selon et :
m n
v
1 n
v
[ ] ( )
( ) ( )
( )
( ) ( )
(
0 0 1 1
1
, , , ,
m n n m m m m
n
g N N
= v v v v )
1
,
n
(5.10)
o les indices 0 et 1 indiquent la restriction lespace des et des respectivement. Les matrices
de covariances
n
v
1 n
v
( ) 0
m
et
( ) 1
m
tant elles mmes diagonales.
Compte tenu du modle multi-gaussien choisi (5.9), la probabilit a posteriori ( )
1 1
,..., ,
n
n
p i j j
peut
se r-crire :
( ) ( )
( ) ( )
( )
( )
( )
( )
1 1 1
1 1 1
1
,..., ,
,..., , ,
n n d i i
n m m n
n n
i
m i
n
p i i j j
p i i j j C r i w g
p
=
l
= = = =
l
l
=
v c v c
v c
(5.11)
La factorisation (5.10) des gaussiennes individuelles
56
permet de simplifier cette expression et
daboutir une probabilit prdictive sous la forme dun mlange de gaussiennes :
m
g
( ) ( )
( ) ( ) ( )
(
0 0
1 1
,..., , , ,
d i
n m n
n
m
p i i j j C r i w N
= = =
v c )
m m
(5.12)
avec :
( ) ( ) ( )
( )
( )
( )
( )
1 1 1 1 1
1
1
,..., ,
, ,
n n i
m m m m
n
i
i
n
p i i j j
w w N
p
1
=

= =
( )
v c
v c
(5.13)
5.2.3.2 Interprtation de la modlisation propose
Les expressions (5.12) et (5.13) donnent le dtail du calcul de la loi prdictive partir de la loi multi-
gaussienne utilise pour modliser la connaissance a priori. On peut cependant les reformuler de
manire en dgager une interprtation plus intuitive. Pour cela, on remarque que lon a :
( ) ( )
( ) ( ) ( )
(
1 1
1 1
, ,
d i
m
n n
p i i g C r i N

= = v c
) m m
(5.14)
( ) ( )
( )
(
1

d
n n
p i i C r i p

= v c
)
1
i
= (5.15)
(
m m
w p g = ) (5.16)
Aprs quelques manipulations, la relation (5.13) de mise jour du poids des gaussiennes scrit :

( ) ( )
( )
1 1 1
1 1
,..., ,
,..., ,
m m
n n n
i
m
n
w p g i i p i i j j
p g j j
= = =
=
1
(5.17)
et la probabilit prdictive (5.12) prend la forme suivante :
( ) (
1 1
,..., ,
n m
n
m
p i i j j w p i i g
= = =
)
n m
(5.18)
Les gaussiennes dfinissent un ensemble de classes dans lespace joint ( )
1
,
n
n
v v . Comme elles
sont de covariance diagonale, la distribution de lindex (ou de manire quivalente, des centrodes
n
i

56
La loi jointe obtenue par mlange des gaussiennes individuelles nest pas factorisable en elle-mme.
Chapitre 5 94
mis linstant n) sobtient partir du mlange des lois projetes sur laxe v des gaussiennes
individuelles.
n
( )
1
,... p i j
1 1 n n
j

( )
n m
n n
w
i
Ainsi, la corrlation temporelle avec lindex i nest pas modlise directement par une loi de
transition
1 n
( )
1
n
n
p i i
mais indirectement par la probabilit ( )

1
m
n
p g i
dtre dans la classe

associe la gaussienne g sachant lindex prcdent i .
m
1 n
Aucune hypothse nest faite sur les donnes prcdemment dcodes puisquon utilise la probabilit a
posteriori de lindex i (calcule litration prcdente), conjointement avec la probabilit
1 n
( )
1
m
n
p g i
pour estimer la probabilit ( )

1 1
,...,
m
n
p g j j
1 1
,...,
n
j j
dtre dans la classe dfinie par la

gaussienne sachant les donnes reues . Cest cette probabilit qui est utilise comme
pondration des gaussiennes dans le mlange (5.18) donnant la distribution de lindex i .
m
g
n
La Figure 5.2 compare lapproche propose avec celle utilisant les probabilits de transition ( )
1
n
n
p i i

entre index de quantification. On y a reprsent lespace joint form par les index de quantification
(resp. centrodes) mis linstant n et n . Le calcul de la probabilit prdictive 1
( )
1 1
,...,
n
n
p i i j j
= est schmatiquement dcompos de manire faire apparatre les relations entre

les probabilits calculs et les couples ( )
1
,
n
n
i i
(resp.
( ) ( )
( )
).
1
,
i i
n
n
= = v c v c

n
v
gaussienne
m
g
( )
1 1 1
,...
n n
p i j j

1 n
i
n
i
( )
1 n n
p i i
( )
1 1
,...
n n
p i j j
( ) ( ) ( )
1 1 1 1 1 1
,... ,...,
n n
n n n n
i
p i i j j p i i i i p i i j j

= = = = =

1 n
v
( )
1 1
,...
n n
p i j j
( ) ( )
( )
1 1
1 1 1 1
,..., ,
et ,..., ,
n m n
m
m m n
i
p i i j j p i i g
w p g i p i i j j
= = =
= = =
Figure 5.2 : Comparaison du calcul de la probabilit prdictive

On voit que la modlisation par un mlange de gaussiennes sinterprte comme un sous-
chantillonnage de lespace des couples
( ) ( )
(
en classes lintrieur desquelles
la distribution des points
)
i
1
,
i
n
n
= = v c v c
( ) ( )
(
est dcrite par une gaussienne. Cest ce sous-
chantillonnage qui permet une rduction de la complexit du calcul de la probabilit a posteriori et
du stockage de la loi a priori.
)
1
i i
n
= v c ,
n
= v c
5.2.3.3 Complexit du calcul de la probabilit a posteriori
La probabilit a posteriori ( )
1
,...,
n n
p i i j j = peut finalement tre calcule partir de la rcursion
dfinie par les quations (5.5), (5.12) et (5.13). La Figure 5.3 reprsente le diagramme synoptique de
cette rcursion dans le cas de la prdiction inter-trame.
A priori

( )
1
,
n
n
p
v v
(GMM)
Calcul de la
probabilit
prdictive
Calcul de
vraisemblance
Calcul de la probabilit
a posteriori

1
Z

( )
1 1 1
,...,
n n
p i j j

Estimation
(MAP ou MMSE)
n
v
Sortie du canal
quivalent
( )
n n
p j i

( )
1 1
, ,...,
n n
n
p i j j j

( )
1 1
,...,
n
n
p i j j

Figure 5.3 : Algorithme de dcodage avec prdiction inter-trame(AK1 GMM)
La complexit totale du calcul de la probabilit a posteriori est de lordre O K o K est le nombre
de gaussiennes utilise dans la loi a priori. La rduction de complexit par rapport au schma de
( N )
Chapitre 5 96
prdiction inter-trame propos par [Fingscheidt et al., 1997] est ainsi dun facteur dordre
( )
N
K
)
)
O . Ceci
correspond au facteur de sous-chantillonnage du dictionnaire de quantification opr par les
multi-gaussiennes. La dmarche propos na donc dintrt que pour N , ce qui sera le cas pour
les LSF dont les dictionnaires de quantification ont une dimension importante.
K
)
>>
(
,1 ,
,..., ,..
n n k
i i
(
,1 ,
,..., ,...,
n k
j j
)
p i
)
( )
, , , , , n n k n n n
i
p j i p j i i p i
= =
/ / / , n k
i i =
/
(
,
,
n
n
i
/
/
5.2.4 Prdiction intra-trame par multi-gaussiennes
On peut tendre ce principe de modlisation de la distribution a priori par un mlange de gaussiennes
au cas de la prdiction entre paramtres distincts au sein dune mme trame. En reprenant les
notations prcdemment utilises, considrons la trame des indices de
quantification en sortie du codeur linstant n, et la trame des indices reus
en sortie du canal quivalent. On modlise la corrlation intra-trame au niveau des paramtres associs
. Afin de limiter la complexit, on se limite la corrlation entre couples de
paramtres , reprsente par la loi jointe
,
.,
n
n L
i = I
,
n
n n L
j = J
(
,1 , ,
,..., ,...,
n
n n L n k
= V v v v
( )
, ,
,
n k n
v v
/
(
v v
, , n

/
,
n k
p . Cette loi jointe est dfinie par un
mlange de gaussiennes g de matrice de covariances diagonales, de manire similaire (5.9).
m
La prdiction intra-trame est modlise par lintermdiaire de la probabilit
(
, , n k n
j
/
, n
v
/
de lindex i
associ au paramtre v sachant lindex reu linstant n pour le paramtre . On ne pose donc
aucune hypothse sur la valeur du paramtre dcod v . On a :
, n k
, n k
, n /
)

( ) ( ) (
, , , , , n k n l n l n k n k
p i j C p j i p i = (5.19)
o C est une constante de normalisation. La probabilit reprsente la connaissance a priori
que lon a de i indpendamment de la prdiction intra-trame, il peut sagir soit dune distribution
invariante au cours du temps (prise en compte de la non-uniformit uniquement), soit de la probabilit
a posteriori
(
, n k
p i
)
, n k
(
, , 1,
,...,
n k k
j j
)
n k
p i issue de la prdiction inter-trame. Ceci sera prcis par la suite.
On peut dcomposer la vraisemblance
(
, , n n k
p j i
/
)
de la faon suivante :

( ) ( )
(5.20)
Cette expression qui fait intervenir les probabilits de transition p j du canal quivalent et les
probabilits de transitions entres indices de quantification
( )
,
,
n k
i
/ n
p i correspond la relation (3.30)
dfinissant la variable dinduction latrale pour la prdiction intra-trame (limite lordre 1), utilise
par [Lahouti et al., 2001].
)
De mme que pour la prdiction inter-trame, on substitue les probabilits de transition entre indices
(
,
,
n k
n
p i i
/
)
par la loi jointe sur les paramtres
(
, ,
,
n k n
p v v
/
)
selon la relation (5.4). La loi
(
, ,
,
n k n
p v v
/
)
tant un mlange de gaussiennes de covariances diagonales, on aboutit finalement
lexpression de la vraisemblance
(
, , n n k
p j i
/
)
comme un mlange de gaussiennes :

( )
( )
( ) ( )
( )
( )
( )
0 0
,
, ,
,
, ,
,
i
m m
n k k
m
n n k
i
m
n k k
N
p j i i C w
p
=
= =
=
v c
x c

/
(5.21)
avec : ( )
( )
( ) ( )
( ) (
1 1
, ,
, ,
d
i
m m m m
n n
i
w w r i N p j i i
1

= =

( )
x c
/ / / /
)
, n
= (5.22)
En faisant apparatre explicitement les gaussiennes g dans ces quations, on aboutit une
interprtation similaire celle de la prdiction inter-trame :
m

( ) ( ) (
, ,
, ,
, m
n n k m
n n k
m
g j i
p j i i C p p g
=
= =
/
/
)
i
(5.23)
avec :
( ) ( ) ( )
, , , ,
m m n n n n
i
i i g p j g p j i i p
= = =
/ / / /
(5.24)
La corrlation intra-trame est modlise uniquement au travers des gaussiennes qui dfinissent des
classes dans lespace joint . La vraisemblance
m
g
(
, ,
,
n k n
v v
/
) (
, , n n k
p j i
/
, n
j
/
)
sobtient comme la somme
des vraisemblances de lindice i pour chaque classe (gaussienne g ) pondre par la
vraisemblance de la classe (gaussienne g ) pour lindice reu . Cette classification et le sous-
chantillonnage quelle dfinit, ne sont aisment ralisables que dans lespace des paramtres. Ici
aussi, la complexit du calcul de la vraisemblance
, n k
m
m
(
, , n n k
p j i
/
)
est de lordre de O K o K est le
nombre de gaussiennes utilise dans la loi a priori.
( N )
5.2.5 Combinaison avec la prdiction inter-trame
Comme on la vu au Chapitre 3, la prdiction inter-trame peut tre combine avec la prdiction intra-
trame. Considrons le calcul de la probabilit a posteriori
(
1 ,
,...,
n
n k
p i
)
J J de lindex i sachant les
trames reues linstant n et aux instants prcdents. En ngligeant la corrlation temporelle entre
paramtres distincts, on retrouve une expression similaire la probabilit (3.31) :
, n k

( ) { } ( ) ( ) ( )
1 , , , , 1, 1, , , , , 1, 1,
,..., , , ,..., , ,...,
n
n k n k n n k n k k n n k n k n k n k k
k
k
p i i p i j j j j C p j i p i j j j

= = =

J J
/ /
/
/
(5.25)
Autrement dit, la probabilit a posteriori
(
1 ,
,...,
n
n k
p i
)
J J est le produit de la probabilit a posteriori
issue de la prdiction inter-trame
(
, , 1,
,...,
n k n k k
j j
)
p i et des vraisemblances
(
,
,
n k
n
i
/
)
)
p i calcules
daprs les corrlations intra-trame entre couples
(
. Le schma du dcodeur souple exploitant
la corrlation inter et intra-trame est reprsent Figure 5.4.
,
,
n k
v v
, n /
Chapitre 5 98

1
Z

( )
, 1,
,
n k n k
p
v v
(GMM)
Probabilit
prdictive
inter-trame
Vraisemblance
canal
Probabilit
a posteriori
inter + intra

( )
1 1 1,
,...,
n n k
p i

J J
Estimation
(MAP ou MMSE)

n
v
Sortie du canal
quivalent
( )
, , n k n k
p j i

( )
, 1, 1,
,...,
n k n k k
p i j j
A priori
inter-trame
Vraisemblance
intra-trame

( )
, , n n k
p j i
/

( )
, , n n
p j i
/ /

( )
, ,
,
n k n
p v v
/

(GMM)
A priori
intra-trame

( )
1 1 ,
, ,...,
n
n n k
p i
J J J

Figure 5.4 : Algorithme de dcodage avec prdictions inter-trame et intra-trame (AK2 GMM)
5.3 Mise en oeuvre des modles proposs
5.3.1 Apprentissage du modle multi-gaussien
Pour mettre en uvre les algorithmes proposs, nous devons au pralable dfinir et effectuer
lapprentissage des modles multi-gaussiens des paramtres du codeur EFR. Comme on la vu on
modlise la distribution de probabilit de couples de paramtres ( ) , v v o dsigne soit la valeur
prcdente du paramtre v (corrlation inter-trame), soit un paramtre distinct de la mme trame
(corrlation intra-trame). Les couples de paramtres modliss sont reports sur le Tableau 5.1 o
v
lindice temporel n rfre la trame dans le cas des LSF et la sous-trame pour les autres
paramtres
57
.

Paramtres Corrlation inter-trame Corrlation intra-trame
LSF ( )
, , 1 1, 1, 1
, , , , 1, 3,..., 9
n k n k n k n k
LSF LSF LSF LSF k
+ + + +
=
( )
, , 1
, , 2, 4,
n k n k
LSF LSF k
+
= ..., 8
Gain code fixe ( )
1
,
n
n
gc gc

Gain code
adaptatif
( )
1
,
n
n
gp gp

Dlai de pitch ( )
2
, ,
n
n
lag lag n
= 1, 3
Tableau 5.1 : Couples de paramtres du codeur EFR modliss par GMM
Les paramtres modliss ici sont les paramtres non quantifis, ceci pour faciliter la convergence de
lapprentissage des lois multi-gaussiennes. Plus prcisment :
a) dsigne la k
, n k
LSF
ime
LSF dfinie sur les sous-trames 3 et 4 de la trame n puisque 2 jeux de LSF
sont calculs par trame. Comme les index de quantification transmis sont associs des paires de
LSF, on utilise le mme appariement
( )
avec k
pour modliser la corrlation inter-trame. Ceci permet de modliser la relation dordre entre LSF
au sein dune mme paire conjointement avec la corrlation temporelle
, , 1 1, 1,
, , ,
n k n k n k n k
LSF LSF LSF LSF
+ + + +1
1

1, 3, ..., 9 =
, ,
,
n k n k
LSF
+
58
. Ds lors, il est seulement
ncessaire de modliser la corrlation entre LSF adjacentes de paires distinctes
( )

avec k pour prendre en compte lintgralit de la corrlation intra-trame.
LSF
2, 4, ..., 8 =
b) dsigne le rsidu de la prdiction MA du gain de dictionnaire fixe
n
gc
59
effectue au codeur, pour
la sous-trame n. Ici, la distinction entre corrlation inter-trame et intra-trame na plus lieu dtre
puisquelles recouvrent toutes deux la corrlation temporelle entre sous-trames.
c) et lag sont respectivement le gain de dictionnaire adaptatif et le dlai de pitch pour la sous-
trame n. Ici galement, on modlise la corrlation temporelle entre sous-trames conscutives (sous-
trames 1 et 3 dans le cas du dlai de pitch puisque les sous-trames 2 et 4 sont codes en
diffrentiel).
n
gp
n

57
On modlise la corrlation temporelle entre trames pour les LSF et la corrlation temporelle entre sous-trames
pour les autres paramtres.
58
Une manire optimale de modliser simultanment corrlation temporelle et relation dordre des LSF
(corrlation intra-trame) serait de modliser par GMM la distribution jointe des vecteurs LSF de deux trames
conscutives. Ceci nest pas envisageable dans la pratique pour des raisons de complexit.
59
On rappelle que cette prdiction MA seffectue sur le gain exprim dans le domaine logarithmique.
Chapitre 5 100
5.3.1.1 Le choix dun domaine pour modliser la redondance
On remarquera que dans le cas des LSF, les paramtres modliss ne sont pas exactement les
paramtres qui sont quantifis au niveau du codeur. En effet, le codeur de parole prend dj en
compte, bien quimparfaitement, la corrlation temporelle entre LSF en effectuant une prdiction MA
dordre 1 et ce sont les rsidus de prdiction qui sont quantifis et transmis. Puisquon cherche
modliser la redondance laisse par le codeur de parole, il peut sembler plus logique de la modliser
partir du signal rsiduel de la prdiction MA plutt qu partir des LSF elles-mmes. Cependant, un
point important doit tre considr, lalgorithme de dcodage souple limite la prdiction temporelle
lordre 1 pour des raisons de complexit. Ds lors, le domaine le mieux adapt pour la modlisation par
GMM est celui dans lequel un modle prdictif dordre 1 suffit pour capturer la redondance non
modlise par le codeur de parole. Ce nest pas forcment le domaine du signal rsiduel en sortie de la
prdiction MA. Ceci est illustr par la Figure 5.5 reprsentant lvolution dune LSF au cours du
temps et le signal rsultant de la prdiction MA. Il apparat que la redondance restante dans le signal
en sortie de prdiction MA nest pas associe une corrlation trs court-terme (ordre 1) mais plutt
moyen-terme (fluctuations autour dune moyenne). Un prdicteur dordre suprieur 1 serait alors
ncessaire pour extraire cette redondance. A linverse, une prdiction AR dordre 1 sur les LSF
permettrait, par exemple, une meilleure prise en compte de la corrlation temporelle que la prdiction
MA utilise par le codeur (et donc une modlisation de la redondance laisse par le codeur).
Lalgorithme que nous proposons dutiliser peut tre vu comme une prdiction non-linaire lordre 1
puisque nimporte quelle forme de distribution des couples ( )
1
,
n
n
LSF LSF
peut tre modlise par les

multi-gaussiennes. Ds lors, sa puissance de prdiction ne dpend que du nombre de gaussiennes
utilises et lon peut parfaitement modliser la redondance non capture par la prdiction MA dans le
domaine des LSF.
400 450 500 550 600
-2000
-1500
-1000
-500
0
500
1000
1500
2000
trames

Figure 5.5 : Trajectoire temporelle dune LSF (rouge) et du rsidu de prdiction MA (bleu)
Lapproche ainsi choisie ncessite de re-synthtiser les LSF lors du calcul des probabilits a posteriori
(5.5). Ceci ne pose pas de problmes car la prdiction MA est dordre 1 et qu un index de
quantification correspond deux valeurs successives de LSF, c'est--dire quon peut associer une valeur
de LSF chaque valeur dindex de quantification.
Les mme arguments pourraient tre employs pour le gain de dictionnaire fixe mais dans ce cas, la
prdiction MA effectue par le codeur parole est dordre 4 et un index de quantification est associ
chaque valeur de la suite temporelle du rsidu de prdiction (quantification scalaire). Il nest alors pas
possible de re-synthtiser la valeur du gain lors du calcul (5.5) sans faire dhypothses sur les valeurs
prcdemment dcodes du gain, ce qui comporte le risque dune propagation derreur.
5.3.1.2 Rsultats de lapprentissage
Lapprentissage des lois multi-gaussiennes est effectu partir de la base de parole prsente au
Tableau 4.1. Lalgorithme de la K-moyenne prsent en Annexe A est utilis pour initialiser les
paramtres de poids , de moyennes et de covariances des multi-gaussiennes. Lestimation
finale des ces paramtres est ensuite ralise par lalgorithme EM [Hedelin et al., 2000] qui recherche,
par tapes successives
m
w
m
60
k, un maximum local de la vraisemblance (
1
L
k
X ) p value sur la base
dapprentissage { }
1 1
, ...,
L
L
x = X x .
En revanche, le nombre de gaussiennes K doit tre fix a priori. Ce choix est un des points critiques de
la modlisation par multi-gaussiennes et peut tre rapproch du problme du choix de lordre dun
modle AR. Il rsulte dun compromis entre la maximisation de la vraisemblance du modle et la
complexit avec les K croissants (allie au risque dun sur-apprentissage). Un critre classiquement
utilis pour rsoudre ce compromis est le Minimum Description Length MDL [Rissanen, 1978] :
( )
( )
( )
( )
1
log log
2
L K
K
K p

= + X L (5.26)
o est une mesure de complexit de la multi-gaussienne de K composantes ( ) K
( ) K
. Dans notre
cas, puisquil faut estimer K moyennes et K variances (matrices diagonales) dans . 2 = dK
d
R
La valeur optimale du nombre K de gaussiennes est sense correspondre au minimum du critre (5.26).
Ce critre a t valu pour chacune des multi-gaussiennes associes un couple de paramtres du
Tableau 5.1. Les rsultats de cette analyse sont illustrs Figure 5.6. On remarquera que les courbes
associes aux gain de code fixe et gain de dictionnaire adaptatif prsentent des
minimum locaux. En fait, ces deux paramtres ont la particularit dtre borns comme on peut le
constater sur la Figure 5.7 illustrant leur distribution. Le critre MDL tend alors surestimer le
nombre de gaussiennes ncessaires afin de modliser les frontires de la distribution. On choisira donc
systmatiquement le premier minimum local.
c
g
p
g

60
Les tapes Estimation- Maximisation de lalgorithme EM peuvent tre compares aux tapes estimation du
centrode et recherche du plus proche voisin de lalgorithme de la K-moyenne (cf. Annexe A), en
remplaant les distances euclidiennes utilises par une pondration par la vraisemblance.
Chapitre 5 102
0 20 40 60
9.4
9.5
9.6
x 10
5
L
S
F
1
0 20 40 60
1.035
1.04
1.045
1.05
1.055
x 10
6
L
S
F
2
0 20 40 60
1.045
1.05
1.055
1.06
x 10
6
L
S
F
3
0 20 40 60
1.025
1.03
1.035
x 10
6
L
S
F
4
0 20 40 60
1
1.005
1.01
x 10
6
L
S
F
5
0 20 40 60
2.4
2.5
2.6
2.7
x 10
5
L
a
g
0 5 10 15
3.7
3.72
3.74
3.76
x 10
5
G
a
i
n

p
i
t
c
h
Nb de gaussiennes K
0 5 10 15 20
6.02
6.04
6.06
6.08
x 10
4
G
a
i
n

c
o
d
e
Nb de gaussiennes K

Figure 5.6 : Critres MDL calculs pour estimer le nombre optimal de gaussiennes pour chacun des
paramtres modliss
Finalement, le nombre K de gaussiennes des modles appris pour chaque type de paramtre est report
sur le Tableau 5.2 o on a galement rappel la taille N des dictionnaires de quantification du codeur
EFR pour chacun de ces paramtres. On peut valuer la rduction globale de complexit
apporte par lalgorithme AK1 GMM par rapport lalgorithme AK1 bas sur les probabilits de
transition entre index de quantification propos par [Fingscheidt et al., 1997]. On a vu que pour un
paramtre donn, cette rduction de complexit est de lordre
1 AK
R
( )
N
K
O o N est la taille du dictionnaire
de quantification. A partir des valeurs reportes sur le Tableau 5.2, on constate une rduction globale
de complexit de lordre de R .
1
10
AK

Paramtres Nombre K de gaussiennes du modle
Taille N des dictionnaires de
quantification
LSF
Inter-trame :
22, 22, 32, 16, 16
Intra-trame :
22, 22, 22, 16
128, 256, 512, 256, 64
Gain code fixe 4 32
Gain code adaptatif 8 16
Dlai de pitch
(sous-trames 1 et 3)
32 512
Tableau 5.2 : Nombre de gaussiennes utilises pour modliser les redondances rsiduelles dans lespace
des paramtres et comparaison avec la taille des dictionnaires de quantification
La superposition des multi-gaussiennes estimes (courbes de niveau) avec les distributions des couples
de paramtres modliss (nuages de points) est illustre par les graphiques de la Figure 5.7 pour la 5
ime

LSF (corrlation inter-trame et intra-trame) ainsi que pour les gains de dictionnaires fixe et adaptatif
(corrlation inter-trame).
Gain pitch l'instant n-1
G
a
i
n
p
i
t
c
h
l
'
i
n
s
t
a
n
t
n
LSF (k=5) : corrlation inter-trame
LSF (n-1,k)
L
S
F
(
n
,
k
)
LSF (k=5) : corrlation intra-trame
LSF (n,k)
L
S
F
(
n
,
k
+
1
)
Gain pitch : corrlation entre sous-trames Gain code : corrlation entre sous-trames
Gain code l'instant n-1
G
a
i
n
c
o
d
e
l
'
i
n
s
t
a
n
t
n

Figure 5.7 : Modlisation par GMM des distributions de couples de valeurs successives de paramtres
(corrlation inter-trame) ou de LSF adjacentes (corrlation intra-trame)
5.3.2 Performances des algorithmes proposs
A partir des modles multi-gaussiens estims, nous pouvons mettre en oeuvre les algorithmes de
dcodage souple exploitant la non-uniformit (AK0 GMM), la corrlation temporelle (AK1 GMM) et
la corrlation intra-trame, rduite ici la corrlation entre LSF adjacentes (AK2 GMM). Les Figures
5.8 5.10 prsentent les notes MOS estimes partir de lalgorithme PESQ pour les algorithmes
tests, en comparaison avec le masquage classique de lEFR et les algorithmes de dcodage souple
utilisant un modle a priori sur les index de quantification (AK0_Hist et AK1_Ptrans). Le canal
Chapitre 5 104
simul est du type TU50 (cf. Annexe C) et le niveau de C/I est vari entre 2 et 7dB par pas de 1dB.
Les rsultats obtenus pour un C/I gal 10dB sont galement reprsents afin de vrifier la
convergence des algorithmes vers la qualit nominale du GSM EFR lorsque le niveau dinterfrences
diminue.
Dans le cas du dcodage AK0 (exploitation de la non-uniformit), lutilisation de multi-gaussiennes
apporte un lger gain par rapport aux performances de lalgorithme AK0_Hist (histogramme des index
de quantification). Nous y voyons linfluence du meilleur conditionnement de la GMM, qui permet
notamment une bonne robustesse de lalgorithme pour des signaux non-appris. Ce phnomne sera
clairement illustr avec la comparaison des signaux temporels (Figure 5.11) sur laquelle nous
reviendrons par la suite.
1
1.5
2
2.5
3
3.5
4
2 3 4 5 6 7 8 9 10
C/I (dB)
M
O
S

e
s
t
i
m

(
P
E
S
Q
)
MMSE
Masquage EFR
AK0 Hist
AK0 GMM

1
1.5
2
2.5
3
3.5
4
2 3 4 5 6 7 8 9 10
C/I (dB)
M
O
S

e
s
t
i
m

(
P
E
S
Q
)
MMSE
Masquage EFR
AK0 GMM
AK1_Ptrans
AK1 GMM

1
1.5
2
2.5
3
3.5
4
2 3 4 5 6 7 8 9 10
C/I (dB)
M
O
S

e
s
t
i
m

(
P
E
S
Q
)
Masquage EFR
AK0 GMM
AK1 GMM
AK2 GMM

Chapitre 5 106
Lintrt de la modlisation par GMM apparat encore plus clairement pour lalgorithme AK1
(prdiction inter-trame). Ici, dune part, la rduction de complexit avec les paramtres choisis (cf.
Tableau 5.2) est de lordre dun facteur 10, mais dautre part, lapprentissage du modle est mieux
conditionn et les performances de lestimateur qui en drive permettent un gain de lordre de 0.4
MOS par rapport au masquage classique de lEFR pour les valeur de C/I comprises entre 2dB et 4dB.
On observe cependant que la prdiction inter-trame AK1 nest intressante que pour les C/I
intermdiaires (compris entre 3dB et 6dB). Ceci signifie que pour les trs bas niveaux de C/I, la
probabilit a posteriori ( )
1
,...,
n n
p i i j j = est trop dgnre (au sens de lentropie) pour apporter une
information, via le modle de corrlation inter-trame, sur la trame venir linstant n . La
redondance exploite par le modle AK1 se rduit alors la non-uniformit (modle AK0).
1 +
Lexploitation de la redondance intra-trame (AK2 GMM), qui est ici essentiellement due la relation
dordre entre les LSF, napporte aucun gain en termes de qualit perue. Ceci confirme les
constatations faites au paragraphe 4.3 sur linformation exploitable au travers de la vraisemblance
dlivre par le SOVA. Dans le cas du canal radiomobile, les erreurs sont de type burst (erreurs
par paquet) et il apparat que lorsquun burst affecte une trame, quasiment tous les paramtres sont
corrompus. Ceci limite lintrt de la prdiction intra-trame dans le contexte de transmission
radiomobile. Nanmoins, cette prdiction intra-trame pourrait tre intressante pour dautres
applications.
Enfin, une comparaison plus qualitative des performances des diffrents algorithmes est propose
Figure 5.11, o sont illustrs des exemples de signaux dcods selon chacune des mthodes pour un C/I
gal 2dB. Les erreurs cepstrales sont galement calcules sur chacun des ces signaux.
On constate en premier lieu, que les algorithmes bass sur la modlisation GMM apportent une nette
rduction des artefacts dans les zones de silence, en comparaison avec les algorithmes tudis au
chapitre prcdent (Figure 4.11). Ce rsultat semble assez surprenant puisque les zones de silence ont
justement t exclues de la base dapprentissage. En fait, nous voyons l une preuve du meilleur
conditionnement du modle appris par GMM
61
. Cet avantage de la modlisation par GMM avait dj
t mis en vidence sur les courbes de notes MOS estimes.
Dautre part, on observe une lgre diminution en moyenne du nombre de pics derreur cepstrale
(associs une erreur localise) entre le dcodeur AK1 GMM et le dcodeur AK0 GMM. Ceci apporte
la preuve du pouvoir de prdiction de lalgorithme AK1 GMM. Cependant, le gain apport par la
prdiction inter-trame demeure limit et quelques pics voient leurs amplitudes augmenter, ce qui
signifie quelle introduit de nouvelles erreurs. Un modle de prdiction inter-trame mieux adapt au
comportement des paramtres de la parole reste encore obtenir.

61
Puisque lon a appris une loi multi-gaussienne (distribution continue), on est capable dexprimer une probabilit
a priori y compris pour des valeurs du paramtre non-apprises. Cette capacit de gnralisation nest cependant
valable que si le nombre de gaussiennes utilis ne sur-modlise par la distribution apprise.
Figure 5.11 : Exemples de signaux dcods et distances cepstrales correspondantes (C/I=2dB, TU50)
Rfrence
code
0 2 4 6 8 10 12
-1
-0.5
0
0.5
1
1.5
2
x 10
4
temps(s)

Masquage
EFR
0 2 4 6 8 10 12
-1
-0.5
0
0.5
1
x 10
4
temps (s) 0 2 4 6 8 10
0
0.5
1
1.5
2
2.5
3
3.5
4
temps(s)
d
B
AK0
GMM
0 2 4 6 8 10 12
-1.5
-1
-0.5
0
0.5
1
x 10
4
temps(s)
0 2 4 6 8 10
0.5
1
1.5
2
2.5
3
3.5
4
temps(s)
d
B
AK1
GMM
0 2 4 6 8 10 12
-1.5
-1
-0.5
0
0.5
1
x 10
4
temps(s)
0 2 4 6 8 10
0.5
1
1.5
2
2.5
3
3.5
4
temps(s)
d
B
AK2
GMM
0 2 4 6 8 10 12
-1.5
-1
-0.5
0
0.5
1
x 10
4
temps(s)
0 2 4 6 8 10
0.5
1
1.5
2
2.5
3
3.5
4
temps(s)
d
B
Chapitre 5 108
5.4 Extensions du modle de prdiction
Nous revenons ici sur la modlisation par multi-gaussiennes de la loi jointe ( )
1
,
n
n
p
v v afin de lui
donner une interprtation plus physique. En effet, lintrt de cette modlisation ne rside pas
uniquement dans la rduction de complexit. Elle effectue naturellement une classification dans
lespace joint ( )
1
,
n
n
v v en tats dfinis par une gaussienne ou un regroupement de gaussiennes.
Ceci est parfaitement visible sur la Figure 5.12 o on a reprsent le calcul de la loi prdictive (5.12)
partir de la loi a posteriori ( )
1 1 1
,..., ,
n n
p i j j

et de la loi jointe ( )
1
,
n
n
p
v v
m
. Le centre de chaque
gaussienne est reprsent par un point de largeur proportionnelle au poids w de la gaussienne. On y
distingue un tat vois associ une valeur du gain de pitch proche de lunit et un tat non-
vois .
0 0.5 1
0
0.2
0.4
0.6
0.8
1
1.2
Gain pitch(t-1)
G
a
i
n

p
i
t
c
h
(
t
)
Gain pitch : correlation entre sous-trames
0 0.2 0.4 0.6 0.8 1
0.35
0.4
0.45
0.5
Probabilite Predictive t
Gain pitch(t)
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
Gain pitch(t-1)
Probabilite A Posteriori t-1

tat
vois
tat
non-vois
Figure 5.12 : Prdiction de la loi linstant n (haut droite) partir de la loi a posteriori linstant
n-1 (bas gauche) et du modle de corrlation par GMM (haut gauche)
Il pourrait tre intressant dexploiter cette information de classification au niveau des autres
paramtres. Par exemple, le comportement des LSF nest pas le mme selon que la trame de parole est
voise ou non et un codeur comme le G.729 exploite cette information de classification lors du
masquage [ITU-T, G.729]. Dautre part, on peut gnraliser la notion dtat de la parole en y
incluant dautres attributs que la seule information vois / non-vois .
5.4.1 Modlisation par HMM
Une manire de procder serait de dfinir un tat S en lassociant un jeu de probabilits a priori des
gaussiennes de chacune des lois jointes des paramtres dfinis par le Tableau 5.1 :
tat
( )
( )
( )
( )
( )
(
{
, ,
k
LSF
gc gp
m
m m
p g p g p g

S )
}
S S S (5.27)
o
( )
(
m
p g
x
S) dsigne le poids de la gaussienne g (conditionnellement ltat S) dans la GMM
modlisant la loi jointe
m
( )
1
,
n
n
p
v v du paramtre v.
Ltat S introduit ainsi une dpendance entre les lois modlisant la corrlation temporelle ( )
1
,
n
n
p
v v
des diffrents paramtres, par lintermdiaire du poids de leurs gaussiennes. Plus prcisment, en
prenant lexemple dune modlisation en tats voiss et non-voiss de la parole :
On introduit deux tats et S associs respectivement vois et non-vois et dfinissant
chacun un jeu de probabilit a priori des gaussiennes dans les lois
0
S
1
( )
1
,
n
n
p
v v , pour tous les

paramtres v dont on souhaite prendre en compte la dpendance ltat vois / non-vois.
Le modle doit tre complt par les probabilits a priori des tats S et S ainsi que par les
probabilits de transition entre tats :
0 1

( )
( )
( )
{ }
0 0
1 1
; , 0, 1
ij i j
p
p
a p i j
=
=
=
S
S
S S
(5.28)
Un tel modle peut tre appris par un algorithme de type segmental K-mean [Rabiner, 1989] o la
segmentation vois / non-vois initiale est obtenue daprs un modle a priori. Ce modle a priori peut
par exemple tre fourni par la classification vois / non-vois obtenue partir de la loi ( )
1
,
n
n
p gp gp

illustre Figure 5.12.
Les dveloppements qui prcdent nont pas dautre ambition que douvrir une perspective et
mriteraient un approfondissement. On pourra remarquer cependant que le modle de HMM obtenu ici
correspond une proposition de [Wellekens, 1987] pour prendre en compte la corrlation temporelle
dans une HMM en modlisant la loi dmission associe chaque tat par une loi jointe.
Chapitre 5 110
5.5 Conclusion
Les mthodes de dcodage souple gnralisent au niveau du dcodeur parole, une approche dj
rpandue dans tous les autres lments de la chane de rception. Cette approche consiste utiliser des
entres souples et, si possible, gnrer des sorties souples, de manire limiter les erreurs de dcision.
Cependant, lapplication de cette approche au dcodeur parole se rvle trs complexe en raison de la
taille des dictionnaires de quantification parcourir.
Aprs avoir vrifi lexistence dune redondance rsiduelle laisse par le codeur de parole EFR, nous
avons propos une mthode permettant de rduire dun facteur 10 la complexit par rapport aux
approches de ltat de lart. De plus, cette mthode, base sur une modlisation par mlange de
gaussiennes de la distribution a priori des paramtres, offre un meilleur conditionnement des
estimateurs. Les performances des algorithmes ainsi proposs permettent un gain de lordre de 0,4
MOS par rapport la procdure de masquage classique de lEFR pour des niveaux de C/I compris
entre 2dB et 4dB, tout en convergeant vers la qualit nominale de lEFR dans le cas o le canal
nintroduit pas derreur.
Cependant, le modle de prdiction fixe AK1 utilis pour exploiter la corrlation inter-trame nest pas
pertinent et limite le gain relatif observ par rapport lalgorithme AK0 exploitant la seule non-
uniformit. En fait, la prise en compte de la corrlation inter-trame nest vraiment intressante que
pour les niveaux de C/I intermdiaires, cest--dire entre 3dB et 6dB. Pour les niveaux infrieurs de
C/I, seule linformation de non-uniformit (AK0) est exploitable puisque la faible confiance dans les
donnes reues limite linformation rellement apporte par la prdiction inter-trame. Or le modle de
prdiction fixe utilis par lalgorithme AK1 sinspire des modles (invariants) dextrapolation de trame
perdue, cest--dire de procdures dveloppes pour les bas niveaux de C/I. Il est ncessaire de
chercher un modle de prdiction mieux adapt au comportement non-stationnaire des paramtres de
la parole afin dobtenir un gain significatif de qualit perue pour les niveaux de C/I intermdiaires.
Une voie damlioration de la prdiction inter-trame pourrait tre la modlisation par tats
introduite en fin de ce chapitre.

Chapitre 6

Dcodage canal contrl par la source :
Principe et tat de lart
6.1 Introduction
Les mthodes de dcodage souple de parole tudies aux chapitres prcdents visent exploiter la
redondance rsiduelle des paramtres du codeur parole pour lutter contre les erreurs de transmission en
sortie dun canal quivalent qui, dans le cas du GSM, inclut un dcodeur canal. Il semble naturel
dessayer dexploiter cette redondance rsiduelle de source directement au niveau du dcodeur canal,
c'est--dire conjointement avec la redondance systmatique introduite par le codeur canal. Cest lide
la base des techniques de dcodage de canal contrl par la source.
Si la dmarche peut sembler parallle avec celle du dcodeur souple de parole, le point de vue avec
lequel la redondance rsiduelle est exploite diffre sensiblement entres ces deux approches. Dans le cas
du dcodage canal contrl par la source (SCCD), lobjectif est celui de la correction derreur binaire,
linformation a priori issue de la redondance tant exploite au niveau des bits. En revanche, le
dcodeur souple de parole, lorsquil ralise lestimation des paramtres au sens du MMSE, peut tre vu
comme un intermdiaire entre la correction derreur et le masquage, la redondance tant alors utilise
pour minimiser limpact perceptif des erreurs plutt que pour les annuler.
Un des arguments en faveur du dcodage de canal contrl par la source (SCCD) est quil est sens
tre plus robuste pour les niveaux dinterfrences C/I intermdiaires, pour lesquels la correction
derreur binaire est effective alors que les paramtres estims par le dcodeur souple sont, eux, dj
biaiss. Dautre part, les approches SCCD et dcodage de parole souple peuvent tre complmentaires
mme si ce point reste vrifier.
Chapitre 6 112
Nous analysons dans ce chapitre les diffrentes techniques proposes dans le domaine du dcodage
canal contrl par la source. Nous valuerons tout particulirement leur pertinence vis--vis de la
modlisation de la redondance rsiduelle du codeur parole et vis--vis des contraintes imposes par la
stratgie de codage canal du GSM.
6.2 Principe du dcodage canal contrl par la
source
Considrons le schma de transmission illustr Figure 6.1 o lon a fait cette fois-ci apparatre
explicitement le codeur/dcodeur canal. Le canal quivalent correspond alors au rcepteur interne
prsent au Chapitre 1 et dtaill en Annexe C. Il regroupe lopration dentrelacement, le modulateur,
le milieu de transmission, le dmodulateur/galiseur et enfin, le d-entrelacement. On assimilera ici ce
canal quivalent un canal sans mmoire, binaire symtrique, dont les probabilits de transition
instantanes peuvent tre estimes partir de la sortie souple de lgaliseur
e
p
62
(cf. Annexe C).

Codeur
canal
Canal
quivalent
Dcodeur
canal
u
x
a priori
v
( ) ( ) ( )
[ ]
0 1
,...,
i i i
M
b b
= b
Q

M
U
X
D
M
U
X
v
y e
p
u
1
Q

(2) (1)
( )
0 1

,...,
i
M
b b
l
=
l
l
b
1
e
p
1
e
p
e
p e
p
1 + 1 +
1 1
Canal quivalent
x y

Figure 6.1 : Principe du dcodage canal contrl par la source

62
Le canal quivalent associ au rcepteur interne est gnralement modlis comme un canal bruit additif
gaussien (CABG). Nous adoptons ici un point de vue diffrent (Canal Binaire Symtrique) afin de maintenir un
parallle avec la dmarche du dcodage parole entres souples prsente au Chapitre 3. De plus, ceci
correspond linterprtation exacte de la sortie calcule par lgaliseur qui est ici un galiseur de Viterbi de type
SOVA (cf. Annexe C).
Dcodage canal contrl par la source : Principe et tat de lart 113
Le codeur canal reoit en entre une trame de bits dinformation [ ]
1
, ..., , ...,
k
u u u = u
L
}
, ces bits sont
associs aux index de quantification en sortie de codeur parole mais peuvent avoir subi des oprations
diverses (codage prliminaire, r-ordonnancement). Nous reviendrons par la suite sur la relation entre
la trame de bits dinformation u et la trame de bits en sortie de codeur parole b. On considrera ici des
bits valeur dans { . Le codeur canal est un codeur convolutif de rendement
k
u 1, 1 +
1
N
N
et de
mmoire , qui associe chaque bit dinformation u , un symbole canal . Comme
on la prsent en Annexe B, un tel codeur convolutif peut tre dcrit par un treillis dont les tats q
ltape k sont dfinis par les bits dinformation [
k
{ }
, k
x
,1
, ...,
k k
x = x
k
]
1
, ...,
k k
u u

)
1
,
k k
q
prcdemment entrs dans le codeur
(effet mmoire) et dont les transitions entre tats ( sont associes au bit dinformation u en
entre. Un symbole canal est dlivr en sortie du codeur pour chaque transition ( )
dclenche par le bit dinformation u entr. Ceci est rappel schmatiquement sur la Figure 6.2 .
q
k
1
,
k
x
k k
q q
k

tape k
tats q
0
k
u =
bit en entre :
1
k
u =
( ) ( ) ( )
{ }
,1 ,
,...,
k k k N
x x = x
/ / /
( )
k
x
/
symbole mis :
chemin /
Canal sans mmoire ( )
k k
p y x
Sortie de canal quivalent
k
y

Figure 6.2 : Codage convolutif et observation associe en sortie de canal quivalent
On sintresse ici au dcodage canal par squences
63
. A partir de la squence observe
en sortie de canal quivalent, le dcodeur cherche retrouver la squence des tats q afin destimer
les bits dinformation u en entre. Plus exactement, lalgorithme de Viterbi recherche le chemin
{
1
,...,
L
= Y y y
k
}
k
( )
q
/

de probabilit a posteriori maximale :

( ) ( )
( )
( )
( )
( )
( ) arg max arg max p p = = q q Y Y q
/ / /
/ /
p q
/

(6.1)

63
Il existe aussi lalgorithme de Bahl, qui minimise la probabilit derreur par symbole et non par squence (cf.
Annexe D), mais celui-ci est peu utilis en pratique, du fait de sa complexit.
Chapitre 6 114
Cependant, dans la mise en uvre classique de lalgorithme de Viterbi, on fait lhypothse
supplmentaire dquiprobabilit et dindpendance des bits dinformation u , autrement dit, tous les
chemins
k
( )
q
/
ont la mme probabilit a priori. Comme le canal quivalent est suppos sans mmoire,
le terme maximiser dans lquation (6.1) se rduit au produit des vraisemblances des transitions
entre tats :

( )
( )
( ) ( )
( )
( )
( )
1
,
k k k k k
k k
p p q q p
= =

Y q y y x
/ / / /
(6.2)
La correction derreur est ici possible du fait de la contrainte impose par la mmoire du codeur sur les
squences dtats q admissibles (structure du treillis).
k
Cependant, on a vu quil existait une redondance rsiduelle au niveau des index de quantification en
sortie du codeur parole. Celle-ci se retrouve au niveau des trames de bits dinformation u avec pour
consquence que les chemins parcourus dans le treillis ne sont pas quiprobables. Lide du dcodage
contrl par la source (SCCD) est dutiliser la probabilit a priori des chemins
k
( )
( ) p q
/
afin de
rajouter une contrainte supplmentaire lors du dcodage par Maximum a Posteriori (6.1) pour
amliorer la correction derreur.
Les approches proposes dans la littrature se diffrencient par le modle de probabilit a priori
( )
( ) p q
/
quelles exploitent. Le problme est ici que la maximisation directe de la probabilit (6.1)
nest pas possible pour des raisons de complexit. Lalgorithme de Viterbi la rsout par maximisation
rcursive sur les instants k, ce qui signifie quil faut scinder la probabilit a priori
( )
( ) p q
/
en
probabilits lmentaires indpendantes associes aux branches
( ) ( )
( )
1
,
k k
q q
/ /
k
du treillis, de manire
pouvoir prendre une dcision sur le chemin de mtrique maximale chaque tat q . Autrement dit,
puisque chaque branche du codeur est associe un bit dinformation u , la redondance de la trame u
doit tre modlise par des probabilits a priori au niveau des bits individuels . Deux modles sont
alors possibles :
k
k
u
Les bits u sont supposs indpendants et on ne modlise que la non-uniformit de la distribution
.
k
( )
k
p u
La corrlation entre bits dune mme trame u (corrlation intra-trame) est prise en compte par des
lois conditionnelles de la forme
{ }
( )
j k
j k
p u u
.
Dans les deux cas, les lois a priori peuvent tre actualises en fonction de la trame dcode prcdente,
afin de prendre en compte la corrlation temporelle (corrlation inter-trame). En revanche, seule la
seconde approche permet de modliser la redondance au niveau des index de quantification du codeur
de parole, en exploitant, au moins partiellement, la loi jointe des bits codant un
mme index de quantification. Ces approches sont prsentes de manire plus approfondie dans les
paragraphes qui suivent.
(
0 1
, ...,
M
k k
p u u
)
6.3 Non-uniformit et corrlation temporelle des
bits individuels
6.3.1 Mtrique modifie de lalgorithme de Viterbi
Dans cette approche, initialement propose par [Hagenauer, 1995], on exploite la redondance rsiduelle
sous le seul aspect de la non-uniformit des bits individuels u en supposant que les valeurs + et
ne sont pas quiprobables, au moins pour certains bits :
k
1 1
(6.3) ( ) ( 1
k k
p u p u = + = ) 1
On montre ici quil est possible dintgrer cette information a priori moyennant une trs lgre
modification de lalgorithme de Viterbi. Pour cela, nous repartons de la probabilit a posteriori (6.1) et
introduisons la variable :

( ) ( ) ( ) ( )
( )
1 1 1
,..., , ,..., ,
k k k
p q q
= y y
/ /
k
q
/ /
L
(6.4)
qui sinterprte, une constante prs, comme la probabilit a posteriori du chemin partiel jusqu
ltape k. Le chemin optimal de ltape initiale k ltape finale k du treillis, scrit :
/
1 = =

( )
( )
( )
arg max arg max
L
p = = q q Y
/
/ /
/
(6.5)
La variable
( )
k
/
peut scrire en fonction de sa valeur ltape prcdente
( )
1 k
/
selon :

( ) ( ) ( ) ( )
( )
( ) ( ) ( )
( )
1 1 1 1
, ,...,
k k k k k k k k
p q q p q q q q

= = y
/ / / / / / /
(6.6)
Comme on ne remet pas ici en cause lhypothse dindpendance des bits u lintrieur dune trame
u, on a :
k

( ) ( ) ( )
( )
( )
( )
1 1
,...,
k k k k k
p q q q q p u u
= =
/ / / /
= (6.7)
La relation (6.6) scrit alors :

( ) ( ) ( )
( )
( )
( )
1 k k k k k k
p p u u
= y x
/ / /
=
/
(6.8)

Chapitre 6 116
soit, en passant dans le domaine logarithmique avec la mtrique
( ) ( )
log
k k
=
/ /
M :

( ) ( ) ( )
( )
( )
(
1 , ,
1
log log
N
k k k r k r k k
r
M M p y x p u u
=
= + + =
/ / /
)
/
(6.9)
On reconnat le calcul de mtrique de lalgorithme de Viterbi classique auquel on a ajout un terme sur
la distribution a priori du bit u . Lincrment de mtrique ne dpend que de la branche
k
( ) ( )
( )
1
,
k k
q q
/ /
du
treillis, le long du chemin considr, et des donnes reues ltape k. Il en rsulte que la
maximisation de la mtrique
/
( ) /
k
M peut se faire de manire rcursive sur les instants k. On retrouve
ainsi le fonctionnement de lalgorithme de Viterbi qui conserve, chaque tape k et pour chaque tat,
uniquement le meilleur chemin m aboutissant cet tat. Lalgorithme rsultant a t appel APRI-VA
par [Hagenauer, 1995], il effectue un dcodage par squence au sens du Maximum a Posteriori et non
plus seulement au sens du Maximum de Vraisemblance comme le dcodeur canal classique.
6.3.1.1 Valeurs souples et interprtation
Il est pratique de reformuler la mtrique (6.9) dans le domaine des valeurs souples. On rappelle quon
dfinit la valeur souple associe un bit b valeur dans { comme le logarithme du
rapport des probabilits et p b . La valeur souple L b reprsente donc la
connaissance que lon a sur un bit b non encore observ (valeur souple a priori) ou observ au travers
dun canal introduisant des erreurs (valeur souple a posteriori). Une reprsentation quivalente de la
valeur souple est fournie par le couple
(
correspondant la dcision ferme sur la valeur du bit b
et la probabilit derreur associe cette dcision. On a ainsi la relation :
( ) L b
p b
}
)
)
1, 1 +
( ) 1 = + ( 1 =
) e
( )
, b p

( )
( )
(
1
log
1
1
log
e
e
p b
L b
p b
p
b
p
= +
=
=
=
(6.10)
Les valeurs souples en sortie du canal quivalent sont dfinies par les couples
( )
des
dcisions fermes y en sortie du canal et de leur probabilits derreur estimes . On a :
,
,
,
k r
e
k r
y p
, k r
, k r
e
p

( )
( )
( )
( )
,
,
,
, ,
, ,
1 si
si
k r
k r
e
k r k r
k r k r
e
k r k r
p y x
p y x
p y
'
= 1
1
1
=
!
1

1
1+
/
/
/
,
x
(6.11)
En remarquant quon peut respectivement remplacer les conditions
( )
, k r k r
x =
/
,
y et
( )
, k r k r
x
/
,
y par
, ,
1
k r k r
x y = + et
, ,
1
k r k r
x y = , il vient aprs quelques manipulations :
( ) / ( ) /

( )
( )
( ) ,
,
,
, , , ,
1
1
log
2
k r
k r
k r
e
y
k r k r k r k r
e
p
p y x x y C
p
1

=

( )
/ /
+ (6.12)
avec C p .
( )
, ,
log log 1
k r k r k r
y e
p = +
,
e
En suivant une dmarche similaire, on peut exprimer la probabilit a priori
( )
( )
k k
p u u =
/
en fonction
de la valeur souple a priori du bit u :
k

( )
( )
( )
( )
( )
1 1
log
2 1
k
k
u
k k k
k
p u
p u u u C
p u
1 = +

= = +

= +
( )
/ /
(6.13)
avec C p . ( ) ( log 1 log 1
k
u
k k
u p u = = + + = )
On remarquera que les quantits C et C sont indpendantes de la branche du treillis
, k r
y
k
u
( ) ( )
( )
1
,
k k
q q
/ /

considre une tape k donne. Elles ninterviennent donc pas dans la maximisation de la mtrique
( )
k
M
/
relativement aux chemins . Il en rsulte quune mtrique quivalente la mtrique (6.9) est
donne par la rcursion suivante :
/
APRI-VA : (6.14)
( ) ( ) ( ) ( )
( )
,
1 , ,
1
k r
N
c
k k k r k r k
r
M M x L y u L u
=
= + +
/ / / /
k
o
,
,
,
1
log
k r
k r
k r
e
c
e
p
L
p
=
( )
k
reprsente la fiabilit des bits y reus en sortie du canal quivalent et
est la valeur souple a priori du bit dinformation u . Le calcul de cette mtrique est illustr
Figure 6.3.
, k r
k
L u

k
k k
c
L y
Chemins survivants
1 u =
0 u =

( ) 1
1 k
M

( ) 2
1 k
M

Accumulation Maximisation
des mtriques
( )
k
L u
Information
issue du canal
information
a priori
k itration

Figure 6.3 : Formation des mtriques des branches du treillis par lAPRI-VA
Ainsi, lorsque la confiance dans les donnes issues du canal est leve, la contribution de
linformation a priori est ngligeable et la mtrique converge vers celle du dcodeur de Viterbi
classique (Maximum de Vraisemblance). A linverse, lorsque la confiance dans le canal diminue,
, k r
c
L
, k r
c
L
Chapitre 6 118
cest linformation a priori qui permet de maintenir une pondration non-uniforme des
branches, permettant la correction derreur. On retrouve donc au niveau de chaque branche du treillis,
un mcanisme similaire celui mis en uvre par les algorithmes de dcodage souple de parole abords
aux chapitres prcdents. Ce mcanisme nest autre que la formation dune probabilit a posteriori
partir dune vraisemblance issue du canal et dune probabilit a priori issue dun modle de la source.
(
k
L u
, n L
u
} 1

)
)
l
l
l
,
1

6.3.2 Calcul des valeurs souples a priori des bits dinformation
On na pas prcis jusqu maintenant comment obtenir la valeur souple a priori du bit
dinformation. Cette valeur peut tre fixe, apprise sur une base de donnes pour chaque bit de la trame
u, dans ce cas on exploite uniquement la non-uniformit de la distribution moyenne de chaque bit
individuel . Ceci peut tre intressant par exemple pour les bits de poids forts en sortie dun
quantificateur scalaire, la probabilit dun paramtre diminuant vers les valeurs extrmes de sa plage
de quantification. Dans le cas dune quantification vectorielle, comme cest la cas pour les LSF du
codeur EFR, lintrt semble nettement moins vident. En revanche, la valeur souple a priori
peut tre prdite partir des bits dinformation dcods pour la trame prcdente afin dexploiter la
redondance lie la corrlation temporelle rsiduelle en sortie du codeur. On a recens deux approches
distinctes proposes pour modliser cette corrlation inter-trame au niveau des bits dinformation u ,
nous les dtaillons dans les paragraphes suivants.
(
k
L u
k
u
( )
k
L u
k
6.3.2.1 Modlisation de la corrlation temporelle entre bits individuels
Cette approche a t introduite par [Hagenauer, 1995]. On dsignera ici par n lindice de trame et on
notera , la trame de bits dinformation reue linstant trame n. On
sintresse la corrlation temporelle entre bits de mme position k appartenant des trames
successives. Linformation vritablement exploitable au travers de la corrlation temporelle des bits
pris individuellement est celle de linvariance de chaque bit au cours du temps. En effet, le postulat de
la dmarche prsente ici est que pour les zones stationnaires de la parole, ou les segments de silence,
certains bits u conservent la mme valeur pour des instants trame n successifs. Aussi, la corrlation
temporelle des bits u est modlise ici par lintermdiaire dun bit de changement de signe
entre la valeur et :
,1 ,
,..., ,...,
n
n n k
u u
u
, n k
, n k
1, n k
u
, n k
u
, n k
c
(6.15)
, 1, n k n k n k
u u c
= +
, n k
c est valeurs dans { et laddition utilise ici est celle dfinie dans le groupe GF2 (cf.
Annexe B, Table B.1 avec la correspondance et 1 1)
1, +
0
64
.
64
Laddition dans GF2 correspond au ou exclusif dans { } 0, 1 , ou encore la multiplication dans { } . 1, 1 +

La connaissance a priori sur la corrlation (probabilit de changement de signe) entre et u
est apporte par la valeur souple a priori du bit c :
, n k
u
1, n k
, n k

( )
,
,
,
1
log
n k
n k
n k
Pc
L c
Pc
= (6.16)
o est la probabilit de changement de signe. Ce modle de corrlation temporelle apparat
quivalent un modle de Markov dordre 1 de probabilits de transition
, n k
Pc
(
, 1, n k n k
p u u
)
symtriques.
Il est illustr Figure 6.4.

1, n k
u

1 n
trame
u
n
trame u
1, , , n k n k n k
u c u
+ =
( )
( )
, 1, ,
, 1,
1
n k n k n k
n k n k n k
p u u Pc
p u u Pc
= =
= =
, , n k
u

Figure 6.4 : Modle de corrlation inter-trame par addition dun bit de changement de signe
Lintrt de ce modle par addition dun bit de changement de signe est que lon peut en dduire une
relation trs simple entre les valeurs souples correspondantes. On montre en effet [Hagenauer, 1995]
que la valeur souple L u peut tre estime partir de (6.15) selon :
(
, n k
)

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
, , 1, ,
sign sign min ,
n k n k n k n k n k
L u L c L u L c L u
1,
(6.17)
Ainsi, connaissant la valeur souple du bit u dcod la trame prcdente et le modle de
corrlation a priori, c'est--dire la valeur souple a priori du bit c , on peut prdire une valeur souple
a priori du bit que lon sapprte dcoder. Ceci est illustr Figure 6.5 o lon a mis en vidence
les valeurs a posteriori et les valeurs a priori entrant en jeu dans la prdiction inter-trame. La valeur
souple du bit dcod la trame prcdente est disponible si lon utilise un dcodeur canal
sortie souple (algorithmes SOVA ou Max-Log MAP, prsents en Annexe D).
1, n k
1, n k
u
, n k
, n k
u
Chapitre 6 120

APRI-SOVA
( )
1 ,
,...,
n
n k
L u Y Y
Modle de corrlation
a priori
1
Z

Prdiction
( )
1 1 1,
,...,
n n k
L u

Y Y
( )
, prio n k
L c
( )
1 1 ,
,...,
n n k
L u
Y Y
Sortie souple du canal Sortie souple du dcodeur
k k
c
L y

Figure 6.5 : Prdiction inter-trame au niveau des bits dinformation
Le mcanisme de prdiction inter-trame mis en uvre ici au niveau des bits individuels u prend en
compte linformation de confiance dans la valeur dcode u pour la trame passe, il vite ainsi le
phnomne de propagation derreur.
, n k
1,
n k
Le paramtre qui gouverne la prdiction inter-trame est la probabilit a priori de changement de signe,
reprsente par lintermdiaire de L c . On peut envisager deux manires destimer ce
paramtre :
(
, prio n k
)
Prdiction fixe
La probabilit a priori de changement de signe peut tre apprise en moyenne sur une base de parole.
Ceci aboutit un schma de prdiction inter-trame bas sur des probabilits de transitions
( ) prio
k
Pc
invariantes au cours du temps n, comme le sont les modles AK1 de prdiction sur les index de
quantification, tudis aux chapitres prcdents.
Prdiction adaptative
Le schma de prdiction propos par [Hagenauer, 1995] est, lui, bas sur une estimation adaptative de
la valeur souple L c du bit de changement de signe. Largument mis en avant par Hagenauer
est que la parole est un processus non-stationnaire et quil faut actualiser le modle de prdiction,
autrement dit L c , en fonction de la statistique court-terme de la parole transmise. Il propose
pour cela une mthode empirique consistant augmenter ou diminuer dun certain facteur la valeur
souple , en fonction des changements de signes observs entre les valeurs dcodes u et
. La valeur absolue de est borne de manire ne pas diverger dans les priodes trs
stationnaires comme les plages de silence. Cet algorithme a t appliqu par [Hindelang et al., 1997] au
GSM Full Rate.
(
, prio n k
( )
, prio n k
)
)
)
(
, n k prio
L c
1,
n k
,
n k
u
(
, prio n k
L c
6.3.2.2 Lois marginales calcules partir de la loi de lindex de
quantification
Cette mthode part de lide quil est prfrable de modliser la redondance rsiduelle au niveau des
index de quantification plutt quentre bits individuels u . Cependant, la mtrique de branche (6.14)
de lAPRI-VA sexprime uniquement en fonction du bit dinformation u , on choisit donc ici une
voie intermdiaire consistant prdire le bit u de la trame n partir de la valeur la trame n
de lindex de quantification auquel il est associ [Fingscheidt et al., 2000].
, n k
, n k
, n k
1
Considrons un index de quantification i la trame n cod par la combinaison de bits (ou mot
de code source ) :
n n
b

,0 , 1
,...,
n n
n n M
i b b
l
=
l
l
b (6.18)
Aprs multiplexage avec les bits codant les autres paramtres (cf. Figure 6.1 ), on obtient la trame
des bits dinformation. On notera u le bit correspondant au bit b lintrieur de la trame :
n
u
n
, n k
m
, n m
u
(6.19)
,
,
m
multiplexage
n m
n k
dmultiplexage
b . u
o k dsigne la position du bit dinformation dans la trame .
m n
u
La corrlation inter-trame est alors modlise par les probabilits de transition :

( ) (
,
1 ,
m
n m
n n k
p u i p b
= = = b )
1 n
(6.20)
dfinies pour chaque bit b codant lindex de quantification . Ces probabilits a priori se
dduisent directement des probabilits de transition entre valeurs des index de quantification
, n m n
i
( )
1
n
n
p i i
, ou de manire quivalente, entre mots de code source b associs, soit ( )

1
n
n
p
b b :
( ) ( )
( )
,
1
n m
n m n
n
I
p b p
= =

b
b b
1 n
b (6.21)
avec :
( ) ( )
( ) ( )
1
i i
n n
n
p p i

= = = = b b b b
1 n
i i i
= (6.22)
et o I dsigne lensemble des valeurs dindex pour lesquels le bit b est gal . ( )
m

m

Les probabilits de transition ( )
1
n
n
p i i
correspondent au modle AK1 prsent aux chapitres

prcdents pour le dcodage de parole souple. Elles sont apprises sur une base de donnes de parole, le
modle de prdiction (6.20) est donc invariant dans le temps.
Chapitre 6 122
La probabilit a priori du bit b sexprime alors partir du modle de corrlation inter-trame (6.20)
selon :
, n m
( ) ( ) ( )
1
, ,
1 1 1 1 1 1
,..., ,...,
n
n m n m
n n n unif
p b p b p

=

b
Y Y b b Y Y
n
(6.23)
La probabilit a posteriori ( )
1 1 1
,...,
n n unif
p

b Y Y
m
la trame n sobtient partir des probabilits
a posteriori des bits b lesquelles se dduisent de la valeur souple en sortie du dcodeur canal
(SOVA) la trame n . Plus prcisment, on a pour une trame n donne :
1
1, n
1
( ) (
1
,
1
0
,..., ,...,
M
n n n m n
unif
m
p p b
=
=

b Y Y Y Y )
1
(6.24)
en supposant indpendantes
65
les probabilits derreurs pour les bits
,0 , 1
,...,
n n M
b b
l
l
l
.
La probabilit (6.24) est rapprocher de la vraisemblance calcule par le dcodeur de parole souple
(cf. chapitre 3). Plus prcisment, la probabilit (6.24) se rduit la vraisemblance du mot de code
source , ou de manire quivalente de lindex i , dans le cas ou on utilise un dcodeur canal sans
a priori puisquon a alors :
n
b
n
( ) ( ) (
, ,
1
,...,
n m n n m n n n m
p b p b p b = Y Y Y Y )
,

(6.25)
Dans le cas prsent, le dcodeur canal exploite la probabilit a priori des bits individuels b sachant
les trames reues prcdemment (corrlation inter-trame), la probabilit (6.24) sinterprte alors
comme la probabilit a posteriori du mot de code source (resp. de lindex i ) sachant les
trames reues prcdemment et la trame reue linstant n. Cependant, cette probabilit a posteriori
ne prend pas en compte la distribution conjointe a priori du mot de code source (non-
uniformit de lindex ) mais seulement celles des bits b , supposs indpendants entre eux. Elle est
donc voir comme un intermdiaire entre une vraisemblance et la probabilit a posteriori telle que
calcule par le modle AK1 au chapitre 3.
, n m
b
n
b
n
n
n
i
, n m

65
Lhypothse dindpendance des erreurs en sortie du dcodeur canal est vrifie si les bits considrs
nappartiennent pas la mme rgion de dcision de lalgorithme de Viterbi. On considre que cest le cas
statistiquement lorsquils sont distants dau moins 5 fois la longueur de contrainte du code. Le multiplexage
permet, entre autres, de satisfaire cette condition.

( )
1 ,
,...,
n n k
L u Y Y
Modle de corrlation
a priori
1
Z

Prdiction
( )
1 1 ,
,...,
n n k
L u
Y Y
Sortie souple
du canal
k k
c
L y
D
M
U
X
Probabilit du mot
de code source
( ) i
b
( )
( )
1
,...,
i
n n
p = b b Y Y
M
U
X
( )
, 1 1
,...,
n m n
L b
Y Y
( )
, 1
,...,
n m n
L b Y Y

vers dcodeur
parole
( )
( ) , 1
i
n m n
p b
= b b
APRI-SOVA

Figure 6.6 : Prdiction inter-trame des bits dinformation partir des index de QV
Finalement, la probabilit a priori (6.23) permet le calcul de la valeur souple a priori du bit b , ou de
manire quivalente, du bit u aprs dmultiplexage. Le schma de cette mthode de prdiction
inter-trame est reprsent Figure 6.6.
, n m
, n k
m
6.3.3 Discussion
Nous tudierons, dans la suite de ce document, les performances de ces mthodes appliques au codeur
GSM EFR. On peut cependant discuter de la pertinence des modles utiliss par ces mthodes et de
leur hypothses implicites.
Le premier point est le choix du niveau auquel reprsenter la corrlation inter-trame. Il est vident que
les probabilits de transition (
,
1
n m
n
p b
b
1 n
i
) entre bit b et mot de code source (autrement

dit, valeur de lindex de quantification ) caractrisent mieux la redondance que les probabilits de
transition entre bits individuels
, n m
1 n
b
(
, n k n
u
)

1,k
p u . Nanmoins cest au prix dune complexit nettement
plus leve pour lactualisation de la probabilit a priori (6.23) chaque trame dcode. A contrario, le
modle trs simple de corrlation temporelle par bit de changement de signe peut se justifier lorsquon
a optimis lattribution des indices de quantification de manire minimiser la distance dans GF2
(distance de Hamming) entre deux lments proches du dictionnaire (Index Assignement). Dans
un tel cas, la corrlation temporelle au niveau des paramtres (centrodes du dictionnaire) se traduira
par linvariance au cours du temps dune partie des bits codant lindex associ aux centrodes.
Le second point est le choix dun prdicteur
66
fixe ou adaptatif. On peut sattendre ce quune
mthode de prdiction fixe possde un pouvoir de correction limit puisquelle exploite une redondance

66
Par prdicteur, on entend ici le modle de corrlation bas sur les probabilits de transition a priori.
Chapitre 6 124
moyenne sur une base de parole. Cependant, la stratgie adaptative propose dans [Hagenauer, 1995]
est susceptible dengendrer des erreurs lors des transitions entre segments de parole de nature trs
diffrentes (vois / non vois, parole /silence) puisquelle se contente dune adaptation a posteriori du
prdicteur (probabilit de changement de signe).
Pour finir, on insistera sur le fait quaucun des modles prsents ici ne prend en compte la corrlation
entre bits b codant le mme index de quantification i . La prise en compte de cette corrlation
intra-trame permettrait de modliser la non-uniformit des index de quantification eux-mmes. Cest
lobjet des approches prsentes dans la seconde partie de cet tat de lart.
, n m n
6.4 Corrlation intra-trame entre bits
La redondance au niveau des bits, considrs sparment, nest quune consquence de la redondance
au niveau des paramtres (resp. index de quantification) observe en sortie de codeur parole. Au
chapitre 4, nous avons caractris cette redondance par la probabilit a priori qui peut tre soit
fixe (non-uniformit uniquement), soit actualise partir des donnes prcdentes et de la probabilit
de transition
( )
n
p i
( )
1
n
n
p i i
n
pour prendre en compte la corrlation temporelle. Pour modliser cette
redondance au niveau du dcodeur canal, on doit donc exploiter la loi jointe sur les bits dinformation
codant lindex i :
(6.26)
( )
( )
( )
0 1
,0 , 1
, ,
,...,
,...,
M
n
n n M
n k n k
p i p b b
p u u
=
=
en reprenant les notations du paragraphe prcdent.
Les bits associs des paramtres distincts seront ici supposs indpendants lintrieur dune mme
trame, c'est--dire quon ne modlise pas la corrlation rsiduelle entre les diffrents paramtres du
codeur. Dans tout ce qui suit, on sintressera un seul paramtre du codeur, dindex de quantification
associ . Pour allger les notations, on omettra lindice temporel n lorsquil nest pas ncessaire de
faire rfrence explicite la dpendance temporelle.
n
i
Le problme est alors de reformuler le critre MAP (6.1) partir de la loi jointe (6.26) et den driver
un algorithme rcursif permettant sa rsolution dans la pratique.
6.4.1 Mtrique de branche associe aux paramtres
On part ici nouveau de la probabilit
( )
k
/
du chemin partiel jusqu ltape k, introduite en (6.4),
et de lquation :
/

( )
( )
( )
arg max arg max
L
p = = q q Y
/
/ /
/
(6.5)
On a vu que le principe de la maximisation rcursive mise en uvre dans lalgorithme de Viterbi est
que la probabilit du chemin partiel jusqu ltape k se dcompose deux probabilits
indpendantes :
/

( ) ( ) ( ) ( )
( )
1 1
, ,
k k k k k
f q q

= y
/ / / /
(6.27)
o le second terme ne dpend que de la branche
( ) ( )
( )
1
,
k k
q q
/ /
et des donnes reues associes cette
branche.
k
y
Autrement dit, la mtrique de branche
( ) ( )
( ) (
1
, ,
k k k
) log f q q
y
/ /
1 k k <
j
doit tre indpendante des tats parcourus
par le chemin aux instants passs et futurs k , pour pouvoir formuler la mtrique
totale
j
k >
( )
( log
L
/
) du chemin comme laccumulation des mtriques de branches. Ds lors, il y a deux
solutions pour intgrer la probabilit jointe (6.26) dans un calcul rcursif de
/
( )
L
/
:
Choisir un code convolutif tel que les bits
( ) ( )
0 1
,...,
k k
M
i i
u u
codant un mme valeur dindex i, soient

associs une mme branche
( ) ( )
1
,
k k
q q
/ /
( du treillis. On a alors : )

( ) ( ) ( ) ( )
( )
( ) ( ) ( )
( )
( ) ( ) ( )
( )
( ) ( )
( )
( ) ( )
( )
( )
0 1
1 1 1 1
1 1
1
, ,...,
, ,...,

k k
M
k k k k k k k k
i i
k k k k
k k k
p q q p q q q q
p q q p u u
p p i

= =
=
=
y
y
y x
/ / / / / / /
/ / /
/ /
(6.28)
La modification de la mtrique de branche sapparente alors celle de lAPRI-VA (6.9) o la
probabilit a priori est dsormais celle de lindex de quantification i.
Une approche de ce type a t mise en uvre par [Alajaji et al., 1996] pour modliser les 3 bits de
poids fort des LSF du codeur FS CELP 4.8kbits/s. Ceci suppose lutilisation dun codeur
convolutif de rendement
K
N
o K est gal au nombre de bits dont on exploite les valeurs
conjointes.
Si les bits
( ) ( )
0 1
,...,
k k
M
i i
u
u sont rentrs squentiellement dans le codeur, on peut alors regrouper les

branches contigus associes ces bits et calculer lincrment de mtrique sur le tronon ainsi
form. Ceci revient changer le pas de la rcursion dfinissant
( )
k
/
:

( ) ( ) ( ) ( )
( )
( ) ( ) ( ) ( )
( )
1 1 1
,..., ,..., ,..., ,...,
k k M k M k k M k k M k k M
p q q p q q q
+ +
= y y
/ / / / / / /
q
/
)
(6.29)
en supposant que les indices ( correspondent aux tapes ( ) dans le
treillis. On a alors :
0 1
, ...,
M
k k
, ..., 1 k k M +

( ) ( ) ( ) ( )
( )
( ) ( )
(
0 1
1 1
,..., ,..., ,...,
k k
M
i i
k M k k M
p q q q q p u u
+
=
/ / / /
)
(6.30)
Chapitre 6 126
On obtient ainsi un nouvel incrment de mtrique, associ au tronon
( ) ( )
( ) ,...,
k M k
q q
/ /
:

( ) ( )
( )
( ) ( )
( )
( ) ( )
( )
( )
( )
( )
0 1
1 1
1
,..., , ,..., ,..., ,..., ,...,

k k
M
i i
k M k k M k k M k k M k
k
k k
k k M
f q q p q q p u
p p i
+ +

= +
=
=

y y y y
y x
/ / / /
/
u
(6.31)
Les tapes successives daccumulation maximisation de lalgorithme de Viterbi se font dsormais
par groupes de bits codant un mme paramtre et non pour chaque bit dinformation u . Ceci
revient dfinir un nouveau treillis, dont les branches sont associes aux bits
k
( ) ( )
0
,...,
k
M
i
u
1
k
i
u
. Dans
ce nouveau treillis, la mtrique de branche (6.31) sapparente alors celle de lAPRI-VA utilisant
la probabilit a priori . Cette dmarche de transposition du treillis dans le domaine des
paramtres peut tre tendue [Heinen et al., 2000] au dcodage par lalgorithme de Bahl.
( ) p i
6.4.2 Mtrique de branche conditionne aux tats prcdents
Les deux mthodes prsentes plus haut aboutissent donc la mme formulation dun treillis dont les
branches sont associes aux paramtres. Lalgorithme APRI-VA tant alors applicable ce treillis pour
prendre en compte la probabilit a priori des paramtres (resp. index de quantification).
Cependant, dans les deux cas, la complexit augmente du fait de la croissance du nombre dtats
(mthode 1), ou du nombre de branches du treillis (mthode 2).
De plus, aucune de ces mthodes nest applicable au GSM sans modification de la norme du codeur.
En effet, le GSM utilise un codeur convolutif de rendement
1
et les bits en sortie du codeur parole ne
sont pas rentrs squentiellement dans le codeur convolutif. A contrario, le GSM applique une
procdure de r-ordonnancement des bits dont le principe est illustr Figure 6.7. Celle-ci permet une
meilleure protection des bits sensibles en les redistribuant en dbut et en fin de la trame en entre
du codeur convolutif, c'est--dire l o la probabilit derreur au dcodage est la plus faible
N
67
.
Ce procd nest pas spcifique au GSM et se retrouve dans de nombreux systmes de transmission
mettant en uvre un codeur convolutif fonctionnant par trames. En revanche, il engendre une
dispersion des bits codant un mme index de quantification sur toute la longueur de trame u
(cf. Figure 6.7).

67
Ltat initial et final des chemins est impos au codeur (par des bits de bourrage), ce qui a pour effet de rduire
les degrs de libert sur les chemins possibles en dbut et fin de trame.

sensibilit
Classe Ib Classe II Classe Ia
trame binaire
(sortie du quantificateur)
0 1
... ...
m
M
b b b

( )
( ) i
v
b
( )
( ) i
v
b
multiplexage :
tri par sensibilit et
r-ordonnancement (UEP)
trame de bits dinformation
(entre codeur canal) 1 2
, , ...... ....... .......,
L
u u u
0 0

Figure 6.7 : R-ordonnancement des bits avant codage canal
Dans ce contexte, puisquil nest pas possible de formuler une mtrique de branche en fonction de la loi
jointe , [Heinen et al., 1997] propose une approche sous-optimale exploitant des lois
conditionnelles. Plus prcisment, la branche du treillis associe au bit dinformation u est pondre
par la loi conditionnelle du bit u sachant les valeurs des bits
{
dj dcods par le
chemin survivant / test. Le calcul de mtrique rsultante correspond alors une lgre modification
de lAPRI-VA. On a, pour k :
(
0 1
,...,
M
k k
p u u
)
m
k
}
m
k
m
k
( )
;
j
m
j k
u k k <
/
=

( ) ( ) ( )
( )
( )
( )
( )
( )
( ) ( )
{ } ( )
1 , ,
1
log log
avec ;
m
j
N
k k k n k n k k
n
m
j k k k k k
M M p y x p u u
p u u p u u u k k
=
= + + =
= = = <
/ / /
/ / /
/
}
(6.32)
Les lois conditionnelles
{ ( )
;
m
j
m
j k k
p u u k k < sobtiennent partir de la loi jointe (6.26).
Pour comprendre la nature de lapproximation pose par le calcul de mtrique (6.32), on considre
nouveau la dcomposition de la probabilit
( )
k
/
du chemin partiel l aboutissant ltat
( )
k
/
q , on a :

( ) ( ) ( ) ( )
( )
( ) ( ) ( )
( )
( ) ( )
( )
( ) ( ) ( )
( )
1 1 1 1
1 1 1
, ,...,
,...,
k k k k k k k k
k k k k k k
p q q p q q q q
p p u u u u

= =
= =
y
y x
/ / / / / / /
/ / / / /
(6.33)

Comme on suppose indpendants entre eux les groupes de bits codant diffrents paramtres, on a pour
:
m
k k =

( ) ( ) ( )
( )
( ) ( )
{ } ( ) 1 1
,..., ;
m
j
m
j k k k k k k
p u u u u p u u u k k
= = =
/ / / / /
< (6.34)
Chapitre 6 128
do, pour k :
m
k =

( ) ( ) ( )
( )
( ) ( )
{ } ( ) 1
;
m
j
m
j k k k k k k k
p p u u u k k
= = y x
/ / / / /
< (6.35)
ce qui, dans le domaine logarithmique, correspond la mtrique (6.32).
Le problme ici est que la mtrique de branche ltape k dpend des tats prcdents parcourus par le
chemin aboutissant ltat /
( )
1 k
/
q . La maximisation rcursive de la mtrique (6.32), par slection
dun unique chemin survivant chaque tape et pour chaque tat nest alors plus quivalente la
maximisation globale de la mtrique du chemin complet. Autrement dit, la rcurrence (6.32) maximise,
chaque tape k, la probabilit conditionnelle du bit u sans remettre en question les dcisions prises
aux tapes prcdentes or ceci nest pas quivalent la maximisation de la loi jointe des bits.
k
On remarquera cependant que lapproximation effectue par la rcurrence (6.32) est dautant plus
faible que les bits u sont proches, c'est--dire appartiennent la mme rgion de dcision.
Le cas limite est celui pour lequel la distance entre les bits est infrieure ou gale la longueur de
contrainte du code, dans ce cas la maximisation rcursive (6.32) est parfaitement valide.
0 1
,...,
M
k k
u
6.4.3 Dcodage canal en deux tapes

Les schmas de prdiction inter-trame prsents au 6.3.2.1 vitent la propagation derreur car ils
prennent en compte la probabilit derreur des bits dcods la trame prcdente pour estimer la
probabilit a priori du bit que lon sapprte dcoder dans la trame courante. Dans le cas de la
corrlation intra-trame, le problme est que la probabilit derreur nest disponible pour aucun bits
avant le dcodage complet de la trame, cest pourquoi la mtrique de Heinen fait intervenir les valeurs
binaires des bits et non leur valeurs souples. Une solution, propose par [Ruscitto et al., 1997], consiste
effectuer le dcodage en deux tapes :
Dcodage prliminaire (SOVA) :
La trame reue est dcode une premire fois par un dcodeur canal sortie souples sans
information a priori. La sortie souple de ce dcodeur est alors utilise pour calculer les
probabilits a priori individuelles des bits daprs le modle de corrlation intra-trame.
n
Y

Dcodage final (APRI-SOVA) :
La trame est dcode une nouvelle fois par un dcodeur de type APRI-SOVA exploitant les
probabilits a priori des bits calcules la premire tape.
n
Y
Le schma propos ici pour exploiter la corrlation intra-trame est donc directement transpos du
schma de prdiction inter-trame. La seule diffrence est que linformation a priori est estime daprs
un premier dcodage de la trame courante et non daprs le dcodage de la trame prcdente
.
n
Y
1 n
Y
Les modles de corrlation exploits pour la prdiction inter-trame sont galement directement
transposables la prdiction intra-trame suivant ce schma en deux tapes. En particulier, on retrouve
les modles exploitant la corrlation entre bits deux deux et les modles utilisant la probabilit
marginale des bits sachant lindex de quantification associ.
6.4.3.1 Corrlation entre bits deux deux
[Strauch et al., 1998] et [Ruscitto et al., 1997] modlisent la corrlation entre les deux premiers bits de
poids forts u et u codant un mme paramtre dans le cas dune quantification scalaire. A la
diffrence du modle (6.15) propos pour la corrlation temporelle, les probabilits de transition
1
, n k
2
, n k
(
1
, n k n k
p u u
1
, n k
u
,
)
)
2
,
2
n k
de leur modle ne sont pas symtriques car ce nest pas linformation dinvariance entre
et u qui est pertinente dans ce cas mais la non-uniformit du couple . Dans une
dmarche similaire Hagenauer, les probabilits de transition
(
1 2
, ,
,
n k n k
u u
(
1 2
, , n k n k
p u u
2
, n k
)
sont actualises partir
des dcisions en sortie du dcodeur canal ( lissue des deux tapes). Ruscitto calcule pour cela un
histogramme la vole des valeurs binaires des bits u et u . Cependant largument de cette
dmarche adaptative nest pas ici le suivi des non-stationnarits de la parole mais ladaptation aux
conditions moyennes du signal de parole transmis
1
, n k
68
.
Ce modle trs simple prend donc en compte de manire incomplte la non-uniformit de lindex de
quantification, il a t propos pour le GSM Full Rate utilisant une quantification scalaire. Son
application au cas dune quantification vectorielle parat moins justifie. Dautre part, lactualisation
du modle de prdiction (probabilits de transition) partir des dcisions fermes en sortie de codeur
prsente des risques de propagation derreur.
6.4.3.2 Loi marginale des bits sachant lindex de quantification
Afin de tirer plus pleinement parti de la non-uniformit au niveau paramtre (index de quantification),
[Fingscheidt et al., 2000] modlise la relation entre un bit u codant lindex de quantification i, et
lensemble des M autres bits
{
codant le mme index. Le modle a priori est alors
dfini par les probabilits conditionnelles de la forme :
m
k
1
}
;
j
m
j k
u k k

( )
\ m
k m
p u b (6.36)

68
Lhistogramme des valeurs des bits est estim sur une fentre temporelle dune dure de lordre de plusieurs
secondes.
Chapitre 6 130
ou lon note :
{ }
\
0 1 et
j m
j M j
b

= b
m

Les probabilits a priori (6.36) se dduisent la probabilit a priori du mot de code source
( ) i
b (index
i) selon :

( )
( )
( )
( )
( )
\
\
1
0
m m
m
m
k
b
p p
p u
p
p
=
= =
b b
b
b
b
(6.37)
avec .
0 1
,..., ,...,
m
M
b b b
= b
La probabilit du mot de code source concide avec celle de lindex i associ. Cette probabilit
est apprise sur une base de parole, de manire similaire au modle AK0 tudi au chapitre 3.
( ) p b
( ) p i
A partir de la sortie souple du dcodeur prliminaire, on peut estimer la probabilit a posteriori
(
unif
p b Y) du mot de code source b (index i) selon la relation (6.24). Comme on la vu, cette
probabilit a posteriori est homogne une vraisemblance puisquon ne fait aucune hypothse sur la
distribution a priori de lindex i lors du dcodage prliminaire. La prise en compte de cette
distribution a priori se fait dans un second temps, au travers des relations (6.36) entre les bits codant
i. Plus exactement, on calcule la probabilit a priori de chaque bit u selon :
m
k

( ) ( ) ( )
\
\ \ m m
m
prio k k unif m m
p u p u p =

b
Y b b Y (6.38)
(6.38)
avec
( )
(
1
\
0
m
unif unif m
b
p p
=
=

b Y b Y)
}

(6.39)
On remarquera que la probabilit (6.38) sinterprte comme la probabilit a priori
69
du bit u
sachant les probabilits a posteriori des bits
{
estimes par le dcodeur prliminaire.
Dans la deuxime tape, cette probabilit est utilise dans la mtrique (6.9) de lAPRI-SOVA afin de
rduire le taux derreur binaire par la prise en compte de la corrlation intra-trame entre bits.
m
k
;
j
m
j k
u k k
En comparaison avec le dcodeur propos par Heinen, cette mthode permet de prendre en compte
toutes les corrlations entre bits codant un mme index, puisque le dcodage en deux tapes supprime
toute contrainte sur les positions respectives des bits dans le modle de prdiction utilis (6.36). De
plus, la prdiction intra-trame, selon lquation (6.38), prend en compte la probabilit derreur des
bits estime par le dcodeur prliminaire, on vite ainsi toute propagation derreur. Cependant, if faut
bien voir que le dcodage en deux tapes est une technique sous-optimale qui ne permet pas un
dcodage conjoint des bits corrls, puisque les branches du treillis du second dcodeur sont

69
Il peut sembler surprenant dinterprter cette probabilit comme une probabilit a priori alors quelle est
conditionne aux donnes reues . Cependant, il faut bien voir que la vraisemblance du bit
u
est exclue de
la sommation qui correspond donc bien une prdiction.
Y
km
simplement pondres par des lois marginales les bits dinformations
( )
m
prio k
p u Y . Autrement dit, la
corrlation intra-trame entre les bits nest pas exploite au moment du choix du chemin optimal mais
une tape antrieure cette dcision, pour tablir une pondration initiale des branches qui nest
ensuite pas remise en cause au fur et mesure du processus de dcodage dans le treillis.
Enfin, le calcul de la probabilit a priori (6.38) prsente une complexit leve puisquil exige
dintgrer sur le dictionnaire de quantification pour chaque bit u considr.
m
k
6.5 Bilan et discussion
Il est tout dabord intressant de positionner les techniques de dcodage canal contrl par la source
prsentes ici par rapport aux mthodes de dcodage souple de la parole abordes aux chapitres
prcdents. Dans les cas pratiques, il apparat que le dcodage canal contrl par la source (SCCD) ne
peut exploiter pleinement la redondance rsiduelle existante au niveau des index de quantification.
Dautre part, le critre MAP mis en uvre au dcodeur canal est moins pertinent que le critre MMSE
vis--vis de la minimisation de limpact subjectif des erreurs de transmission. Ds lors, on peut
considrer les mises en uvre pratiques du SCCD comme sous-optimales au regard de lexploitation de
la redondance de source par rapport aux algorithmes de dcodage souple de la parole. Des algorithmes
de dcodage conjoint source canal exploitant la redondance au niveau des index de quantification et
le critre MMSE ont t proposs [Heinen et al., 2000] mais ces mthodes se rvlent complexes
(dimension du treillis, algorithme de dcodage de Bahl). De plus, elles supposent implicitement la
suppression du multiplexage des bits avant codage canal, or ce multiplexage permet en pratique
damliorer la protection des bits sensibles (re-distribus en extrmits de trame).
Plus prcisment, le SCCD parat intressant pour les niveaux de C/I intermdiaires, pour lesquels
seul un nombre limit de chemins du treillis sont vraisemblables. La pondration additionnelle de ces
chemins apporte par linformation a priori sur la source pourrait alors permettre une rduction
effective du taux derreur. Pour des C/I plus faibles, la stratgie correction derreur (dcodage des
squences binaires au sens du MAP) nest plus suffisante et il est prfrable dappliquer le critre
MMSE au niveau des paramtres pour rduire limpact subjectif des erreurs (dcodage souple de
parole). Ainsi, plutt que de considrer le SCCD comme une alternative aux mthodes de dcodage
souple de parole prsentes auparavant, nous lenvisagerons ici comme une technique complmentaire.
Dans cette optique, on recherchera des algorithmes de SCCD de complexit limite. Ainsi, les mthodes
bases sur les corrlations entre bits individuels, seront tudies malgr leur sous-optimalit vidente.
Comme on la mentionn, la modlisation de la corrlation temporelle au niveau des bits individuels
peut se justifier dans le cas dune quantification scalaire (gains et dlai de pitch de lEFR) ou, de
manire plus gnrale, en concomitance avec une procdure de type Index Assignement [Hedelin et
al., 1995]. Nous proposerons dans la suite, une technique de prdiction intra-trame, permettant de
modliser notamment la corrlation deux deux entre bits de sous-trames successives ou de
Chapitre 6 132
paramtres distincts. Lintrt de ces mthodes est donc dexploiter, de manire sous-optimale mais
trs simple, une information de corrlation qui nest modlisable quau prix dune complexit leve au
niveau du dcodeur souple de parole (lequel met en uvre une approche optimale sur les paramtres).
A linverse, nous ne dvelopperons pas ici les algorithmes utilisant la probabilit (6.24) des index de
quantification en sortie de dcodeur canal. Dune part, ces algorithmes prsentent une complexit
leve et la nature du modle a priori quils exploitent est redondante avec celle du dcodage souple de
parole. Lintrt de leur emploi combin avec une technique dcodage souple semble donc moins
vident, et ltude mene par [Fingscheidt et al., 2000] rvle mme une diminution des performances
(SNR mesur sur les paramtres) lorsquon ajoute ces mthodes de SCCD en amont dune technique
de dcodage souple comme celles prsentes aux chapitres prcdents.
En revanche, lapproche propose par Heinen (6.32) parat mieux justifier lintrt du SCCD la place
ou en combinaison avec un dcodeur souple car la redondance rsiduelle au niveau des index de
quantification y est exploite conjointement avec une information uniquement disponible au dcodeur
canal, c'est--dire leffet mmoire induit par le code convolutif. En effet, la structure du treillis
intervient dans la probabilit conditionnelle utilise par la mtrique. Cet algorithme, qui prsente une
complexit relativement limite, fera galement lobjet dune tude dans la suite de ce document et
nous en proposerons des amliorations permettant une meilleure prise en compte de la corrlation
intra-trame.

Chapitre 7

Dcodage canal contrl par la source :
Proposition dalgorithmes
7.1 Introduction
Nous avons tudi plus particulirement deux axes damlioration des techniques de dcodage canal
contrl par la source. Le premier porte sur les mthodes exploitant la corrlation deux deux entre
bits. La redondance en sortie du codeur parole nest ici que trs partiellement exploite mais ces
mthodes pourraient offrir une alternative des mthodes plus optimales mais qui sont galement
beaucoup plus complexes. Dans ce cadre, nous proposons une technique permettant de prendre en
compte la corrlation deux deux entre bits dune mme trame, simultanment au processus de
dcodage de Viterbi. Ceci permet notamment dutiliser une information supplmentaire sur la
redondance au niveau paramtre
70
lorsque les deux bits considrs codent le mme index de
quantification.
Le second axe tudi concerne les algorithmes exploitant la loi jointe de lensemble des bits codant un
mme paramtre . La prise en compte de cette loi permet une modlisation optimale de la
redondance au niveau paramtre mais les contraintes imposes par le codeur canal du GSM
limitent lemploi de tels algorithmes. Nous recherchons des extensions ces mthodes ainsi quune
alternative au dcodage de Viterbi afin de contourner ces contraintes.

70
Dans tout ce chapitre, nous nous plaons au niveau du dcodeur canal, et nous ne distinguerons pas entre
paramtre et index de quantification . La redondance au niveau paramtre dsigne ici la
connaissance de la loi jointe des bits codant lindex de quantification du paramtre.
Chapitre 7 134
Toutes les mthodes proposes ici seront values avec les deux critres du taux derreur binaire en
sortie du dcodeur canal et de la qualit perue (note MOS estime) de la parole dcode. Ceci nous
permet dtablir une comparaison avec les performances des algorithmes de dcodage parole entres
souples dveloppes au Chapitre 5, et dtudier les diffrentes manires de combiner ces deux
approches.
7.2 Etude de la prdiction au niveau des bits
individuels
Nous proposons ici dtudier, dans le cas du GSM EFR, lapport des mthodes de dcodage canal
exploitant un a priori individuellement sur les bits. Ces mthodes, prsentes au 6.3, sont sous-
optimales vis--vis de la modlisation de la redondance rsiduelle mais ont lavantage de pouvoir tre
trs facilement mises en oeuvre. Nous quantifions en premier lieu, la redondance rsiduelle
caractrisable ce niveau des bits individuels puis appliquons la mthode de prdiction inter-trame
propose par [Hagenauer, 1995]. Une extension de cette mthode la corrlation intra-trame et ne
ncessitant pas de dcodage canal en deux tapes est ensuite propose.
7.2.1 Analyse de la redondance rsiduelle au niveau bit
Au chapitre 4, nous avons caractris la redondance rsiduelle en sortie du codeur parole au niveau des
paramtres (ou plus exactement, des index de quantification associs). Il est clair quune partie de
linformation de redondance est perdue en passant dun modle a priori exploitant une loi jointe (bits
codant un mme paramtre) un modle bas sur des lois marginales (bits individuels), nanmoins on
a not prcdemment que pour certaines configurations, comme une quantification scalaire ou une
indexation optimise (Index Assignment), une redondance significative pourrait demeurer au niveau
des bits individuels. Nous cherchons ici mesurer cette redondance dans le cas du GSM EFR. Les bits
tudis sont ceux codant les paramtres principaux de lEFR, ils sont rappels par le Tableau 7.1.

( )
k
m lsf
bit de poids m codant lindex de QV du k
ime
jeu de rsidus LSF
( )
k
gp m
bit de poids m codant le gain de dictionnaire adaptatif (sous-trame k)
( )
k
gc m
bit de poids m codant le rsidu de gain de dictionnaire fixe (sous-trame k)
( )
k
lag m
bit de poids m codant le dlai de pitch (sous-trame k)
Tableau 7.1 : Notations des bits allous aux paramtres (index de quantification)
Dcodage canal contrl par la source : Proposition dalgorithmes 135
Les bits codant le dictionnaire dexcitation ne sont pas tudis, leur redondance tant a priori trs
faible
71
. On rappellera que les paramtres spectraux (LSF) sont quantifis conjointement (QV) par
jeux de 5 paires aprs avoir t (partiellement) dcorrls par une prdiction MA. Une quantification
scalaire (QS) est par contre utilise pour les gains
72
et le dlai de pitch. La table dallocation des bits
pour ces paramtres est donne en Annexe A.
Pour caractriser la redondance au niveau des bits individuels, nous avons exploit un extrait de la
base de parole prsente au chapitre 4. Les donnes considres ici ne sont plus les index de
quantification en sortie du codeur parole mais les trames binaires d formes par multiplexage des bits
codant les index et tri dcroissant selon leur sensibilit (Table 6 de la norme GSM EFR). On
considrera ici uniquement les 80 premiers bits de cette trame ordonne par sensibilit, c'est--dire les
bits pour lesquels limpact subjectif dune erreur est le plus important. Les corrlations inter-trame et
intra-trame sont mesures sur 6000 trames correspondant des priodes dactivit vocale uniquement.
Plus exactement, on calcule les corrlations normalises suivantes :
Inter-trame :
, 1,
1
1
N
k n k
n
r d d
N

=
=

n k
(7.1)
Intra-trame :
, ,
1
1
i j i j
N
k k n k n k
n
r d
N
=
=

,
d (7.2)
o dsigne le bit de position k dans la trame et N est le nombre de trames utilises pour
lestimation. Ces expressions supposent que le bit d est valeur dans { }
, n k
d
n
d
, n k
1, 1 +
Les rsultats de cette analyse sont illustres Figure 7.1 et Figure 7.2 pour les corrlations inter-trame
et intra-trame, respectivement. Le Tableau 7.2 prsente, pour les bits les plus corrls, les
correspondances entre les positions des bits sur ces figures (position dans la trame d ordonne par
sensibilit) et leur signification, c'est--dire leur poids dans lindex de quantification associ.

Sensibilit (position k dans la trame rordonne d) Poids dans lindex de quantification associ
1,2,3,4,5,6
( )
1
8, 7, 6, 5, 4, 3 lag
7,8,9,10,11,12
( )
3
8,7,6,5,4,3 lag
13,14 et 15,16 ( )
2
5, 4 lag et ( )
4
5, 4 lag
17, 19, 58, 59
( ) 3 ; 1, .., 4
k
gp k =
25, 26, 51
( )
1
5,4,6 lsf
(18, 62) (20, 63) (60, 64) (61,65)
( ) 4, 3 ; 1, .., 4
k
gc k =
Tableau 7.2 : Correspondance entre position et signification des bits les plus corrls

71
Le dictionnaire dexcitation reprsente la partie non-modlisable de la parole, autrement dit alatoire .
72
Dans le cas du gain de dictionnaire fixe, cest le rsidu de prdiction MA dans le domaine logarithmique qui est
quantifi (cf. Annexe A).
Chapitre 7 136
En ce qui concerne la corrlation temporelle, on constate que les bits les plus corrls correspondent
majoritairement aux bits de poids forts des index issus dune quantification scalaire. Un seul bit
associ aux LSF apparat vraiment corrl, il sagit du bit de poids fort de lindex du premier jeu de
rsidus LSF.
On remarquera que la corrlation temporelle est essentiellement positive, ce qui signifie quelle
correspond linvariance des bits entre deux trames successives. La modlisation de cette corrlation
par lintermdiaire de la probabilit de changement de signe, propose par Hagenauer, est donc
pertinente dans ce cas.
dlai pitch
gain dico fixe

LSF1
Figure 7.1 : Corrlation normalise entre bits de trames successives du GSM EFR
Pour la corrlation intra-trame galement, les bits les plus corrls sont ceux associs une
quantification scalaire. Il sagit alors des bits de poids forts dun mme index de quantification ou
encore des bits de mme signification lintrieur de sous-trames successives. Dans le premier cas, la
corrlation entre bits traduit la non-uniformit de la distribution de lindex de quantification
73
, dans le
second cas, elle correspond la corrlation temporelle entre sous-trames. En revanche, les bits associs
des paramtres distincts sont peu corrls entre eux. Ceci rejoint lanalyse de redondance faite au
chapitre 4 qui montrait notamment que les gains (dictionnaires fixe et adaptatif) taient peu corrls
entre eux. Les seuls paramtres prsentant une corrlation intra-trame significative sont les LSF

}
73
La non-uniformit de la distribution dun index implique que les bits codant cet index ne sont pas quiprobaux
dans . La non-uniformit dun index rsulte du fait que les cellules de quantification ne sont pas
adaptes la distribution du paramtre. Cest notamment le cas pour la quantification scalaire du gain du
dictionnaire fixe comme lillustre la table 4.4 prsente au Chapitre 4.
{ 1, 1 +
(relation dordre) mais cette corrlation napparat plus au niveau des bits aprs quantification
vectorielle.
En conclusion, la corrlation observe au niveau des bits individuels pour le GSM EFR concerne
essentiellement les gains et le pitch. La redondance des paramtres spectraux (LSF) nest que trs
partiellement prise en compte ce niveau. Ceci semble limiter a priori les possibilits de rehaussement
de la qualit perue par des mthodes exploitant la corrlation entre bits. Cependant, on rappellera
que selon le point de vue correction derreur qui est celui de SCCD, lexistence de bits redondants
peut permettre une correction des autres bits situs dans une rgion proche du treillis (en raison de
leffet mmoire du codeur). Or, comme les bits sensibles sont regroups en dbut et fin de trame,
lexploitation de la redondance des bits associs aux gains et au pitch pourrait induire une correction
des bits codant les LSF.
dlai pitch
Gains

LSF1
Figure 7.2 : Corrlation croise (valeur absolue normalise) entre bits dune mme trame (GSM EFR)
Chapitre 7 138

7.2.2 Prdiction inter et intra-trame au niveau bit pour le
GSM EFR
Nous proposons ici une technique de dcodage canal contrl par la source (SCCD) exploitant les
corrlations entre bits individuels mises en vidence au paragraphe prcdent. Nous partons pour cela
de lalgorithme APRI-VA propos par [Hagenauer, 1995] et qui consiste, comme on la vu, intgrer
la mtrique de branche, la valeur souple a priori L du bit dinformation, en plus des valeurs
souples en sortie dgaliseur (canal quivalent) :
(
prio k
u )
)
k k
c
L y
APRI-VA : (6.14)
( ) ( ) ( ) ( )
( )
,
1 , ,
1
k r
N
c
prio k k k r k r k k
r
M M x L y u L u
=
= + +
/ / / /
Dans une tape prliminaire, on considre le cas de la corrlation inter-trame et lon tudie quel type
de prdiction (fixe ou adaptative) de la valeur souple est la plus pertinente. (
prio k
L u
7.2.2.1 Conditions de simulations et critre dvaluation
Les performances sont ici values en termes de taux derreur binaire sur les 50 bits de la classe 1a du
codeur EFR. On rappelle que cette classe recouvre les bits dont limpact sur la qualit perue est le
plus lev. Au niveau du dcodeur de parole classique du GSM EFR, la prsence derreur sur cette
classe dclenche la procdure de masquage (cf. Annexe B). Le corpus de parole et les conditions de
simulation utiliss pour gnrer la base de test sont rsums Tableau 7.3. Cette base de test est celle
utilise pour valuer les performances (en termes de taux derreurs binaires) de lensemble des
algorithmes tudis dans ce chapitre.

2 squences de 30 s de parole, multi-locuteurs, restreintes aux priodes dactivit vocale uniquement.
Pour chaque squence, on simule 3 itrations de transmission au travers du canal.
La transmission dans le canal est simule par lapplication de Pattern dErreurs fixes avec un offset
alatoire.
Les Pattern dErreurs utiliss ont t gnrs par un modle de canal type TU50 (modle urbain,
vitesse 50 km/h, Sauts de frquences idal) dtaill en Annexe C. Le seul paramtre que lon fait
varier est le C/I par pas de 1dB dans la gamme [2dB 7dB].
Tableau 7.3 : Base de test utilise pour lestimation du TEB
7.2.2.2 Prdiction inter-trame
Les corrlations observes Figure 7.1 traduisent linvariance des bits dune trame lautre, c'est--dire
labsence de changement de signe. On reprend donc ici le modle (6.15) de corrlation par
lintermdiaire dun bit de changement de signe, soit au niveau des valeurs souples :

( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) ( )
1
1 , ,
1 1
1 1 , 1, , 1,
sign sign min ,
n
prio n k n k
n n
prio prio n k n k n k n k
L u L u
L c L u L c L u

= Y
Y Y
(6.17)
o c est le bit de changement de signe entre u et u , et o on a fait apparatre explicitement
le conditionnement aux sorties du canal afin de dissocier valeurs souples a priori
, n k , n k 1, n k
( )
1
1 ,
n
n k
L u

Y la
trame n et valeurs souples a posteriori
(
1
n
n k
Y
)
1
1,
L u

la trame n . La valeur souple du bit de

changement de signe est galement une valeur a priori puisquelle provient du modle de corrlation
choisi.
1
Hagenauer actualise la valeur L c daprs la statistique court-terme des dcisions fermes u
en sortie de dcodeur canal. Nous pensons quil est prfrable de prendre en compte la fiabilit des bits
en sortie de dcodeur afin dviter toute propagation derreur lors de lactualisation de L c .
Nous proposons pour ce faire un algorithme [Veaux et al., 2000] un peu plus complexe que la mthode
empirique dHagenauer. Dautre part, nous comparons la pertinence de cette dmarche adaptative
par rapport une prdiction fixe.
(
, prio n k
)
,
n k
( )
, n k prio
7.2.2.2.a Probabilit de changement de signe actualise daprs les sorties
souples
Considrons la sortie souple du dcodeur canal
(
1 ,
n
n k
L u Y
)
et la dcision binaire associe :

( ) ( )
1 , ,
sign
n
n k n k
u L u = Y (7.3)
On peut obtenir la valeur a posteriori du bit de changement de signe entre les valeurs dcodes u et
selon :
,
n k
1,
n k
u
(7.4)
, ,

n k n k n k
c u u
= +
1,
)
)

ce qui permet de relier la valeur souple a posteriori du bit de changement de signe aux
valeurs souples en sortie du dcodeur canal. En effet, de la mme manire que la relation daddition
(
, post n k
L c
74

entre bits (6.15) peut tre approxime par la relation (6.17) entre valeurs souples [Hagenauer, 1995],
on dduit de la relation daddition (7.4), lexpression de la valeur souple L suivante :
(
, post n k
c

74
On rappelle ici que laddition dans GF2 (addition binaire) correspond au ou exclusif dans { } 0, 1 , ou encore
la multiplication dans { } . 1, 1 +
Chapitre 7 140

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
1 1
1 1 1 , , 1, , 1,
sign sign min ,
n n n
post n k n k n k n k n k
L c L u L u L u L u

Y Y Y
1
n
Y
)
(7.5)
On peut alors adapter le modle de corrlation a priori la statistique court-terme des
sorties observes, en estimant la probabilit a priori de changement de signe
(
, prio n k
L c
( )
,
prio
n k
Pc comme la
moyenne court-terme des probabilits instantanes (ou a posteriori)
( )
,
post
n k
Pc :

( ) ( )
( )
( )
, ,
1
prio prio post
n k n k n k
Pc Pc Pc = +
,
)
)

(7.6)
o est un facteur doubli, et avec la relation (6.16) entre probabilit de changement de signe et
valeur souple.
7.2.2.2.b Comparaison entre prdictions fixe et adaptative

La valeur du facteur doubli diffre selon lobjectif assign lactualisation du modle .
Ainsi, Hagenauer motive lemploi dune prdiction adaptative par la ncessit de suivre les variations
de la statistique court-terme de la parole, considre comme stationnaire par morceaux . Ceci
doit correspondre des valeurs assez faibles du facteur doubli (constante de temps infrieure
100 ms). A linverse, si lobjectif vis est simplement de sadapter la statistique moyenne du signal
afin dviter les biais avec le modle appris, par exemple pour sadapter aux caractristiques dun
locuteur, le facteur doubli doit prendre des valeurs plus proches de lunit (constante de temps de
lordre de la seconde). Dans tous les cas, on initialise le modle partir dune valeur apprise sur une
base de donnes. Cette valeur initiale de L c se dduit
( )
, prio n k
L c
(
, prio n k
75
de linter-corrlation moyenne illustre
Figure 7.1. On limitera galement les dviations de L c par rapport sa valeur apprise sur la
base de donnes afin dviter une divergence dans les intervalles de non-activit vocale (silence, bruit
de fond). Enfin, le prdicteur fixe correspond bien sur un facteur doubli gal lunit.
(
, prio n k
Nous avons tudi les performances de la prdiction inter-trame pour diffrentes valeurs du facteur
doubli. Nous prsentons Figure 7.3, les rsultats correspondant respectivement des valeurs du
facteur doubli de 50 ms et de 500 ms. La premire valeur (50 ms) correspond la stratgie de suivi de
la statistique court-terme de la parole, tandis que la seconde (500 ms) correspond plus une
adaptation aux conditions rencontres (locuteur, filtrage, etc.). Les valeurs du facteur doubli
suprieures la seconde nont pu tre envisages ici en raison de la structure de la base de donne
utilise (squences constitues de phrases de locuteurs diffrents, concatnes).

}
75
Comme les bits sont valeurs dans { , laddition des bits dans GF(2) quivaut au produit dans , et
linter-corrlation moyenne des bits u et u correspond la moyenne statistique du bit c . On en dduit
la valeur souple a priori du bit c .
1; 1 +
, n k n
R
1,k , n k
, n k
2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
10
-3
10
-2
10
-1
C/I (dB)
T
E
B
MV
inter 50 ms
inter 500 ms
inter stationnaire

Figure 7.3 : Comparaison du dcodeur de Viterbi classique (MV) avec lAPRI-VA exploitant la
prdiction inter-trame adaptative, pour diffrents facteur doubli (TU50, Class1a)
Ladaptation trs court-terme du modle de corrlation L c conduit une dgradation du
taux derreur binaire (TEB). Ce rsultat nest pas surprenant, comme mentionn au 6.3.3, cette
stratgie engendre des erreurs aux transitions entre segments de statistiques trs diffrentes et il
apparat finalement que les erreurs ainsi introduites sont plus nombreuses que les erreurs corriges. Les
performances du prdicteur fixe et de ladaptation moyen terme de L sont, elles, trs
semblables et correspondent une lgre amlioration du TEB. Plus prcisment, on observe dans ce
cas, un gain
(
, prio n k
2
)
)

(
, prio n k
c
76
de lordre de 0.15 dB TEB constant gal 10 .
La base de test utilise pour valuer les performances des algorithmes limite certainement les
diffrences entre le prdicteur fixe et le prdicteur adaptatif mais il ressort que lactualisation du
modle a priori prsente un intrt pour diminuer la sensibilit de lalgorithme vis--vis dun biais
entre les conditions de parole transmise et celles de la base dapprentissage. La possibilit dune mise
en uvre adaptative simple est donc un avantage des mthodes exploitant le modle de corrlation par
bit de changement de signe (6.15). Dans les dveloppements suivants, on se limitera nanmoins au cas
dun modle a priori fixe, tant donn le faible cart de performance observ sur notre base de test, et

76
Ce gain est laccroissement du niveau dinterfrences I quil faut appliquer pour retrouver le mme taux derreur
que le dcodeur classique. Autrement dit, cest le gain en robustesse vis vis du niveau dinterfrences.
Chapitre 7 142
afin de permettre une comparaison avec les mthodes exploitant un a priori (fixe) au niveau des index
de quantification.
7.2.2.3 Prdiction intra-trame en parallle au calcul de la mtrique
On cherche maintenant prendre en compte la corrlation rsiduelle existante entre bits au sein dune
mme trame u (on omet ici la rfrence lindice de-trame n pour allger les notations).
On a vu quune part importante de cette corrlation intra-trame correspondait en fait la corrlation
temporelle entre sous-trames. Les approches bases sur une modlisation jointe des bits corrls
[Heinen et al., 2000] peuvent difficilement tre tendues cette corrlation entre sous-trames car la
dimension de la loi jointe deviendrait trop leve. Une mthode exploitant uniquement la corrlation
entre bits individuels peut alors tre justifie afin de prendre en compte linformation de stationnarit
entre sous-trames de manire simple. Cependant, les schmas existants de prdiction intra-trame entre
bits individuels savrent galement complexes car ils ncessitent un dcodage canal en deux tapes
[Ruscitto et al., 1997]. Aussi, nous proposons ici une technique de prdiction intra-trame en parallle
au processus de dcodage du chemin optimal dans le treillis [Veaux et al., 2000]. Cette technique peut
tre vue comme une extension de lapproche propose par Hagenauer au cas intra-trame.
7.2.2.3.a Principe
On se restreint ici la corrlation deux deux entre bits { avec une contrainte supplmentaire
dordre k lintrieur de la trame u. Considrons lextension du chemin candidat , ltape k,
on utilise une mtrique de branche similaire celle de lAPRI-VA (ici formule en faisant apparatre la
probabilit plutt que la valeur souple) :
} ;
k
k
u u
k > /

( ) ( ) ( )
( )
( )
(
1 , ,
1
log log
N
prio k k k r k r k k
r
M M p y x p u u
=
= + + =
/ / /
)
/
(6.9)
La probabilit a priori du bit est ici estime partir de la valeur du bit
k
u
( )
k
/
u dcode par le chemin
candidat ltape k et des probabilits de transition a priori /

( )
k
k
p u u
:
( )
( )
( )
( )
( )
( )
(
( )
1
prio k k k
k k k k k k
p u p u u u p p u u u p

= = + =
/ / /
)
/
(7.7)
o
( )
k
p
/
est une estime de la probabilit derreur associe la dcision
( )
k
/
u prise par le chemin
ltape . Une estime de cette probabilit derreur
/
k

k
p
est justement disponible chaque tape

lorsquon utilise lalgorithme SOVA de dcodage sorties souples. Cet algorithme et son
interprtation sont dtailles en Annexe D. Une implmentation particulire de cet algorithme exploite
des mmoires associes aux chemins survivants [Hagenauer et al., 1989]. Pour chaque chemin survivant
k k >
( ) /
/ ltape k, le SOVA stocke, dans ces mmoires, les dcisions fermes
77

k
u
prises le long de ce
chemin pour les instants k , ainsi quune information de fiabilit associe chacune de ces
dcisions :
<
k
u
( ) /
k

( )
( )
( )
1
log
k
k
k
p
L
p
=
/
/
/
(7.8)
Les fiabilits (7.8) des dcisions
( )
k
/
u prises le long du chemin / sont ensuite actualises chaque
nouvelle tape k, c'est--dire chaque choix de chemin survivant (cf. Annexe D).
Plus prcisment, les fiabilits (7.8) sont mises jour pour les bits qui sont dcods diffremment par
le chemin survivant et le chemin limin, autrement dit, ceux qui seraient affects par une erreur sur le
choix du chemin survivant. Ces fiabilits sont initialises au maximum de leur dynamique
78
tant que la
distance entre les tapes k et k est strictement infrieure la longueur de contrainte ( du
codeur convolutif, puisque dans ce cas, le choix du chemin survivant naffecte pas encore la valeur du
bit
1 +
( )
k
u
/
. On remarquera que la probabilit a priori (7.7) se rduit alors la probabilit de transition
( )
(
k k
p u u

=
/
)
}
)
}

k
u
. Dans ce cas, la mtrique utilise peut tre vue comme une restriction de la mtrique
(6.32) propose par Heinen, au couple de bits { . A linverse, lorsque la distance entre les tapes
k et k excde le dlai de dcision de lalgorithme, on considre que tous les chemins candidats
dcodent la mme valeur pour le bit u et que la fiabilit (7.8) a converg vers une valeur fixe. Cette
valeur correspond la sortie souple L u relche par le SOVA pour le bit . Dans ce second cas,
notre mtrique sidentifie trs exactement celle utilise par Hagenauer pour linter-trame.
;
k
k
u u
k
(
k
)
La Figure 7.4 illustre le mcanisme de prdiction intra-trame propos. Cette technique exploite donc la
corrlation intra-trame conjointement avec leffet mmoire du code convolutif (contrainte sur les
chemins dans le treillis). Elle prend en compte une information de fiabilit estime par le SOVA
lorsque la contrainte apporte par leffet mmoire du code diminue (les chemins fusionnent). Ceci
permet un dcodage conjoint du couple de bits { tant quil ny a quun seul chemin possible
entre et dans le treillis, puis limite la propagation derreur lorsque des chemins dcodant une
valeur diffrente de ont fusionns avant ltape k.
;
k
k
u u
k
u
k
u
k
u

77
Ceci revient stocker les tats formant le chemin et vite ainsi lopration de traceback une fois le chemin
optimal dcod.
78
Autrement dit, les probabilits derreur
( )
k
p
/
sont initialises zro.
Chapitre 7 144

1 k
k
u
appartient
la mmoire dtat
1 u =
0 u =
( )
( )
( )
( )
( )
( )
( )
( )
1
prio k k k k k k k k k
p u p u u u p p u u u p

= = + =
/ / / /
information
a priori
k
k
( ) 1
prio k
p u = +
( ) 1
prio k
p u =
Extension
des chemins
survivants
Un seul chemin survivant
k
u
est relache
Dcisions sur
k
u

1 k
( )
0
k
p
=
/

( )
k
p
/
est actualise chaque dcision
( )

k k
p cte p

= =
/

Figure 7.4 : Principe de la prdiction intra-trame avec prise en compte de la fiabilit des dcisions
7.2.2.3.b Modle de corrlation et combinaison des prdictions
Afin de simplifier le calcul de linformation a priori (7.7), on supposera que les probabilits de
transition (
k
k
p u u
) sont symtriques. Ceci correspond au modle de corrlation par addition dun bit
de signe dj utilis pour linter-trame. On a vu quun tel modle tait surtout justifi pour reprsenter
linvariance au cours du temps de la valeur dun bit, cependant son emploi pour la corrlation intra-
trame nous permet de r-utiliser la relation trs simple [Hagenauer, 1995] traduisant dans le domaine
des valeurs souples, la relation daddition binaire. Cette relation entre valeurs souples scrit dans le
cas intra-trame :
( ) ( ) ( )
( )
( ) ( ) ( )
( )
( ) (
sign sign min ,
k
prio prio prio k k k
k
L u L c L u L c L u
k
k
/
)
(7.9)
o dsigne le bit de changement de signe entre les bits dinformation et u . On a ici omit
lindice temporel n de la trame considre pour allger les notations.
k
k
c

k
u
k
La valeur a priori se dduit de la corrlation intra-trame calcule sur la base de donnes et
illustre Figure 7.2. Cependant, toutes les corrlations intra-trame entre bits ne peuvent tre exploites
puisquon doit respecter la relation dordre k . La Figure 7.5 reprsente les corrlations
exploitables lorsquon applique cette contrainte dordre. La valeur reprsente Figure 7.5 est la valeur
souple du bit de changement de signe, elle est quivalente, une transformation prs, la corrlation
normalise. Enfin, on rappellera que les abscisses et ordonnes correspondent ici la position des bits
tris par sensibilit, cette position diffre de la position k des bits dans la trame dinformation u.
(
k
prio k
L c

k >
dlai pitch
Gains

LSF1
Figure 7.5 : Redondance entre bits exploite par la prdiction intra-trame
On remarque que la symtrie de la Figure 7.2 reprsentant lensemble des corrlations intra-trame
nest plus prsente sur la Figure 7.5 illustrant les corrlations exploites par la prdiction intra-trame.
Ceci est une consquence de la relation dordre k ncessaire pour que la prdiction puisse se faire
au fur et mesure du calcul de la mtrique par lalgorithme de Viterbi.
k >
Les corrlations exploites par la prdiction intra-trame concernent essentiellement les bits codant les
gains (dictionnaires fixe et adaptatif) et le pitch. Ces corrlations correspondent, soit des couples de
bits codant un mme index (non-uniformit), soit des couples de bits de mme position dans des
sous-trames successives (mmoire). Ainsi, on peut retrouver un mme bit membre de diffrents
couples, ce qui traduit simplement le fait que la probabilit jointe dun groupe de bits corrls a t
scinde en une srie de couples (probabilits marginales).
Afin dexploiter lensemble de ces corrlations intra-trame, on combine les prdictions concernant un
mme bit u . On reprend pour ce faire la relation additive utilise par [Strauch et al., 1998] pour
combiner les prdictions (valeurs souples a priori) inter-trame et intra-trame. Dans le cas intra-
trame qui nous concerne ici, la valeur souple a priori intervenant dans la mtrique sobtient
partir des valeurs souples prdites individuellement depuis chaque bit u corrl u selon :
k
(
prio k
L u )
k k
( ) (
prio k k
k
k k
L u L u u
<
=

)
(7.10)
Chapitre 7 146
o (
k
k
L u u
) dsigne la valeur souple a priori du bit u , prdite daprs le bit daprs la relation
(7.9). La relation (7.10) est empirique , puisquil nest pas possible de driver une relation de
combinaison entre les probabilits sous-jacentes (probabilits conditionnes des vnements
distincts). Elle sobtient en considrant que les informations prdites depuis des bits distincts
sadditionnent, ce qui suppose implicitement lindpendance des valeurs souples prdites
k
k
u
k
u
( )
k
u
( )
k
u
k
L u
prio
. Ce
nest pas le cas en pratique, cest pourquoi on limite lamplitude de la valeur absolue de L afin
dviter quelle ne prenne des valeurs trop leves lorsque les valeurs souples (
k
)
k
u
L u sont
redondantes entre elles.
2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
10
-3
10
-2
10
-1
C/I (dB)
T
E
B
MV
inter
intra

Figure 7.6 : TEB compars des prdictions inter-, intra-trame et du dcodeur de Viterbi classique
(TU50, Class1a)
Les performances de la prdiction intra-trame propose sont compares Figure 7.6, celles du dcodeur
de Viterbi classique (MV) et de la prdiction inter-trame (fixe) prsente au paragraphe prcdent. A
niveau derreur binaire constant, le gain en robustesse par rapport au dcodeur classique est le double
de celui obtenu par la prdiction inter-trame.
Le mcanisme de prdiction intra-trame tant une extension de la prdiction inter-trame, il est naturel
de combiner les deux pour exploiter le maximum de corrlations rsiduelles entre bits. Nous prsentons
les performances de cette combinaison au paragraphe suivant.
7.2.2.4 Combinaison inter-trame et intra-trame
Nous utilisons une relation dadditiv similaire (7.10) pour combiner la valeur souple prdite partir
de la corrlation inter-trame
(
, 1, n k n k
u
)
L u et celles issues des corrlations intra-trame
( )
,
,
n k
n k
L u u
:
( ) ( ) (
, 1, ,
,
prio k n k n k n k
n k
k k
L u L u u L u u

<
= +
)
(7.11)
La valeur souple rsultante, borne en amplitude absolue, est utilise dans la mtrique de lAPRI-VA.
La Figure 7.7 illustre les performances de cette combinaison des prdictions inter-trame et intra-trame.
On constate que le gain additionnel est assez faible, en particulier il ne correspond pas la somme des
gains apports par la prdiction inter-trame seule et la prdiction intra-trame seule. Ceci provient
certainement du fait que les valeurs souples
( )
, 1, n k n k
u
L u et
(
,
,
n k
n k
u
k
u
)
L u sont partiellement
redondantes. Il semble par exemple vident que la corrlation entre sous-trames apporte une
information de mme nature que celle entre trames (invariance du bit au cours du temps).
2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
10
-3
10
-2
10
-1
C/I (dB)
T
E
B
MV
inter
intra
inter + intra

Figure 7.7 : TEB de la combinaison des prdictions inter- et intra-trame (TU50, Class1a)
Au final, la combinaison des prdictions inter-trame et intra-trame permet un gain de lordre de 0.4dB
pour un TEB constant gal 10 parmi les bits de la Classe 1a.
2
Chapitre 7 148
On a vu que les bits de la Classe 1a sont les plus importants pour la reconstruction de la parole,
nanmoins, tous les bits de cette classe nont pas le mme impact sur la qualit perue et il est
ncessaire de mesurer sur le signal de parole dcod lui-mme, lamlioration de qualit effectivement
apporte par ces mthodes. Nous utilisons pour cela, lalgorithme PESQ, dj mis en uvre aux
chapitres prcdents pour valuer les mthodes de dcodage souple. Nous disposons ainsi dun critre
commun permettant de comparer les mthodes de SCCD, celles de dcodage souple, et le masquage
classique de lEFR [GSM, 06.61].
1
1.5
2
2.5
3
3.5
4
2 3 4 5 6 7
C/I
M
O
S

(
P
E
S
Q
)
MV
inter + intra
inter
intra
MV + Masquage
Inter + Intra + Masquage

Figure 7.8 : Comparaison des mthodes de SCCD exploitant la redondance des bits individuels et du
dcodeur de Viterbi classique (MV), avec et sans substitution de trame (notes MOS estimes, TU50)
Nous avons tout dabord compar lAPRI-VA avec prdiction inter-trame et intra-trame au dcodeur
de Viterbi classique, en dbrayant le mcanisme de substitution de trame au dcodeur parole. Ceci
permet dvaluer dans quelle mesure les bits corrigs par les mthodes proposes impactent la qualit
perue, et complte la comparaison entre les performances respectives des algorithmes. Nous avons
galement tudi leurs performances avec la procdure de masquage mise en uvre au niveau du
dcodeur parole. Les courbes de notes MOS estimes par lalgorithme PESQ sont reportes Figure 7.8,
o lextension (+ Masquage) signifie que le mcanisme de dclenchement de la procdure de masquage
par lindicateur BFI (dtection de trame perdue) est activ.
Au niveau de leurs performances dans labsolu (BFI dbray), on retrouve une hirarchie identique
celle observe prcdemment sur le TEB, entre les prdictions inter-trame, intra-trame, et combinaison
des deux. Lapport de la corrlation intra-trame est cependant plus marqu au niveau de la qualit
perue (MOS estime) quau niveau du taux derreur binaire (TEB). Nous interprtons ce rsultat
comme la preuve quune information sur la non-uniformit au niveau paramtre est exploite par la
prdiction intra-trame propose. Cette information est modlise par la corrlation entre les deux bits
de poids forts codant les index de quantification scalaire. Elle vient sajouter linformation de
stationnarit temporelle modlise par la corrlation entre bits de sous-trames successives. Cette
dernire est de mme nature que celle exploite par la prdiction inter-trame, cest pourquoi la
combinaison des deux prdictions apporte un gain trs faible au niveau de la qualit perue, comme
ctait galement le cas au niveau du TEB.
Mme dans la meilleure configuration (combinaison inter-trame et intra-trame), les algorithmes
proposs ici ne sont pas destins tre employs seuls car ils ngalent pas le niveau de qualit perue
offert par la combinaison du dcodeur de Viterbi classique avec une procdure de masquage dclenche
par dtection derreur en sortie du dcodeur convolutif. Les performances de cette combinaison sont
reprsentes par la courbe (MV+Masquage) sur la Figure 7.8. Cependant les algorithmes de SCCD se
placent justement dans un point de vue correction derreur qui est tout fait complmentaire
avec lemploi, en aval, dune procdure de masquage dclenche par dtection derreur. Les bits
corrigs par ces algorithmes font justement partie de la Classe 1 sur laquelle est dfinie la dtection
derreur du GSM EFR. Lemploi des mthodes de SCCD permettrait alors simplement de diminuer le
nombre de trames dtectes en erreur et par l damliorer la qualit perue, les trames non-corriges
tant, elles, toujours masques au dcodeur parole.
Les performances obtenues en combinant lAPRI-VA exploitant la corrlation inter- et intra-trame
avec la procdure de masquage classique de lEFR sont illustres Figure 7.8 (courbe Inter + Intra
+ Masquage). On nobserve aucun gain significatif par rapport la combinaison du dcodeur de
Viterbi classique avec la procdure de masquage. Il apparat ainsi que les capacits de correction des
mthodes proposes sont trop faibles pour pouvoir diminuer sensiblement le nombre de trames
dtectes comme perdues . Elles sont surtout trop limites
79
un nombre rduit de bits de la
Classe 1. En effet, on a vu que seuls les bits de poids fort associs aux gains et au pitch taient
modliss par ces techniques de prdiction bit bit. Lhypothse dune correction induite des autres
bits (comme ceux codant les LSF) par la prise en compte de leffet mmoire du code convolutif
(structure des chemins) ne parat pas vrifie ou son effet demeure trs limit.
En conclusion, il apparat ncessaire dtendre la modlisation de linformation a priori dautres bits
de la Classe 1, notamment ceux codant les paramtres spectraux (LSF). Cest lobjectif des mthodes
prsentes dans les paragraphes suivants.

79
Les courbes de taux derreur binaires (TEB) prsentes plus haut ne donnaient pas dinformation sur la
distribution des erreurs corriges au sein de la Classe 1a. Labsence damlioration avec procdure de masquage
indique que les mthodes proposes influent trs peu la dtection derreur sur lensemble de la Classe 1,
autrement dit, elles ne peuvent corriger quun nombre limit de bits au sein de la Classe 1.
Chapitre 7 150
7.3 Exploitation dun a priori sur les index de
quantification
Les dveloppements prcdents ont montr que des mthodes exploitant simplement la corrlation
rsiduelle au niveau des bits individuels permettaient une rduction du taux derreur binaire.
Cependant, limpact de ces mthodes trs simples semble limit aux bits associs une quantification
scalaire. Or, dans le cas du GSM EFR, les paramtres spectraux (rsidus LSF), qui sont parmi les plus
importants pour la reconstruction de la parole, subissent une quantification vectorielle. Il apparat
donc ncessaire, pour ces paramtres, de modliser la redondance rsiduelle au niveau des index de
quantification, ou plus prcisment, dexploiter la loi jointe du groupe de bits codant un mme index i :
(6.26)
( ) ( )
( )
0 1
0 1
,...,
,...,
M
M
k k
p i p b b
p u u
=
=
Notre objectif est ici danalyser lapport ventuel des mthodes de SCCD, par rapport celles de
dcodage souple, pour une information a priori de mme nature. On se limitera donc au modle a
priori AK0 (cf. chapitre 3), autrement dit des lois invariantes au cours du temps. Cependant, la loi
jointe (6.26) pourrait aussi bien tre actualise chaque trame, selon le modle de prdiction inter-
trame AK1.
Les mthodes de SCCD exploitant un a priori au niveau paramtre (index de quantification) ont t
prsentes au paragraphe 6.4. Parmi les approches applicables au GSM EFR, nous ne dvelopperons
pas ici celles bases sur un dcodage canal en deux tapes [Fingscheidt et al., 2000]. En effet, on a vu
que ces mthodes sont dune complexit leve et ne permettent pas dexploiter les contraintes du
treillis (mmoire induite par le code) conjointement la redondance rsiduelle entre bits (corrlation
intra-trame). Nous pensons que la spcificit et lintrt du SCCD est justement de sappuyer sur la
structure du treillis pour lexploitation de la redondance intra-trame, ceci afin de diminuer la
complexit (contrainte sur les combinaisons de bits envisages) et damliorer la rduction derreur.
Aussi, on sintressera dans ce qui suit lapproche propose par [Heinen et al., 1997].
7.3.1 Mtrique conditionne aux tats prcdents
On rappelle ici succinctement la mtrique propose par Heinen. Considrons nouveau lextension du
chemin candidat , ltape k. A partir de la loi a priori (6.26) apprise sur la base de donne de
parole, on dduit la probabilit du bit u que lon sapprte dcoder sachant les bits dj dcods le
/
k
long du chemin . Cette probabilit conditionnelle est utilise pour pondrer la mtrique de branche.
On a pour ltape k :
/
m
k =
a
}
}
m
j
k <
m
k
;
j
u k

( ) ( ) ( )
( )
( )
( )
( )
( )
( ) ( )
{ } ( )
1 , ,
1
log log
vec ;
m
j
N
k k k r k r k k
r
m
j k k k k k
M M p y x p u u
p u u p u u u k k
=
= + + =
= = = <
/ / /
/ / /
(6.32)
/
)
}
On a vu que le chemin trouv en appliquant lalgorithme de Viterbi pour maximiser cette mtrique
nest le chemin optimal que lorsque les bits considrs sont tals sur une distance infrieure la
longueur de contrainte du code . Ceci nous amnera proposer un algorithme de dcodage
alternatif lalgorithme de Viterbi. Dautre part, la contrainte dordre k limite la quantit
dinformation exploitable. Nous proposerons au paragraphe 7.3.2 une extension permettant de
modliser la corrlation de lensemble des bits codant un mme index, sans contrainte dordre. Une
autre limitation est le risque de propagation derreur, puisque contrairement lapproche intra-trame
propose au paragraphe 7.2.2.3, la fiabilit des dcisions dj opres le long du chemin pour les bits
nest pas prise en compte. Deux alternatives sont possibles pour limiter cette
propagation derreur :
( 1 +
m
j
k <
/
( )
{
;
j
m
j k
u k k <
/
Prdire une loi a priori sur u en gnralisant lquation (7.7) lensemble des bits
. Ceci revient intgrer sur une partie du dictionnaire de quantification et la
complexit croit trs vite avec le nombre de bits considrs.
k
( )
{
;
j
j k
u k <
/
Augmenter la profondeur de dcodage effective de lalgorithme de Viterbi de manire ce que les
dcisions sur les bits prcdents ne soient pas dfinitives au moment on lon sapprte dcoder
. C'est--dire quil subsiste plusieurs chemins ltape k, dcodant des valeurs diffrentes pour
les bits
{
. Cest le sens de la dmarche qui sera propose au paragraphe 7.3.3.
k
u
k
Les performances de la mtrique de Heinen, en termes de taux derreur binaire au sein de la Classe 1a,
sont illustres Figure 7.9 (courbe Viterbi Cond ), o elles sont compares au dcodeur de Viterbi
classique (MV) ainsi quaux dcodeurs exploitant la prdiction bit bit inter- et intra-trame. Le gain
apport par la mtrique de Heinen apparat moindre que celui de la prdiction intra-trame entre bits
individuels. Une explication pourrait tre le phnomne de propagation derreur, qui limiterait les
performances du dcodeur (6.32), cependant ce phnomne devrait entraner une dgradation relative
dautant plus grande que le C/I est faible. Or les courbes de TEB de la mtrique (6.32) et de la
prdiction intra-trame sont parallles. Une autre explication est que la prdiction intra-trame entre
bits individuels modlise galement la corrlation temporelle (bit bit) entre sous-trames alors que la
mtrique (6.32) ne prend en compte que la non-uniformit. Cependant, on peut sattendre ce que les
performances de la mtrique de Heinen en termes de qualit perue soient meilleures car cette
information de non-uniformit est dsormais modlise pour les LSF. On vrifiera ce point par la suite.
Chapitre 7 152
2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
10
-3
10
-2
10
-1
C/I (dB)
T
E
B
MV
inter + intra
Viterbi Cond
intra

Figure 7.9 : TEB dans la Classe 1a (TU50)
7.3.2 Extension lalgorithme du Max-Log-MAP
7.3.2.1 Principe
La contrainte dordre k rsulte du fait que lalgorithme de Viterbi accumule les mtriques des
chemins selon les k croissants. La prise en compte de lensemble des bits corrls est
possible avec lalgorithme de Bahl, prsent en Annexe D. Cet algorithme parcourt le treillis dans les
sens avant (k croissants) et arrire (k dcroissants), mais il est gnralement jug trop
complexe puisque les variables calcules chaque tape sont des sommes dans le domaine des
probabilits. Cependant, comme il est remarqu en Annexe D, la maximisation des mtriques dans le
sens des k croissants par lalgorithme de Viterbi peut tre vue comme une simplification de la variable
dinduction avant utilise par lalgorithme de Bahl et on dduit de cette analogie une
implmentation particulire de lalgorithme de Viterbi base sur une maximisation avant et
arrire . Plus exactement, considrons les variables :
m
j
k <
{ }
;
j
m
j k
u k k
Mtrique avant
( ) ( ) ( ) ( )
( )
1 1 1
,..., , ,..., ,
k k k
p q q
= y y
/ /
k
q
/ /
(7.12)
Mtrique arrire
( ) ( ) ( ) ( )
( )
1 1
,..., , ,...,
L L k k k
p q q
+ +
= y y
/ /
k
q
/ /
(7.13)
La mtrique totale du chemin peut alors se dcomposer chaque tape k, selon les mtriques avant
et arrire :
/

( ) ( ) ( )
( )
( ) ( )
1 1
log ,..., , ,...,
log log
L k
k k
M p q q

=
= +
y y
/ /
/ /
L
/
(7.14)
Comme, les variables
( )
k
/
et
( )
k
/
sont indpendantes, pour un tat
( )
k
/
q donn, il en rsulte que la
maximisation de la mtrique
( )
k
M
/
peut se scinder en deux maximisations spares selon les variables
( )
k
/
et
( )
k
/
. Ce principe est la base de lalgorithme du Max-Log-MAP prsent plus en dtail en
Annexe D :
pour chaque tat q , on calcule la mtrique du meilleur chemin passant par cet tat
k
/
La dcision ferme u relche par lalgorithme correspond au bit dinformation associ au
meilleur tat q , c'est--dire celui par lequel passe le chemin de mtrique maximum.
k
k
La valeur souple est dfinie par la diffrence de mtrique entre les meilleurs chemins
passant respectivement par un tat q pair (i.e. u ) et impair (i.e. u ).
(
k
L u )
k
1
k
= + 1
k
=
Lalgorithme du Max-Log-MAP revient donc calculer deux algorithmes de Viterbi, lun dans le sens
des k croissants, lautre dans le sens des k dcroissants. En contrepartie, lopration de traceback
nest plus ncessaire pour retrouver les tats du chemin optimal.
On montre ici que lintroduction de la variable
( )
k
/
permet de prendre en compte les corrlations avec
les bits . Pour cela, on introduit la variable arrire lgrement modifie suivante : { ;
k
u k k
> }

( ) ( ) ( ) ( )
( )
1 1
,..., , ,..., ,
L L k k k
p q q
+ +
= y y
/ /
k
q
/ /
(7.15)
La variable peut alors se calculer par une rcurrence selon les k dcroissants :
( )
k

( ) ( ) ( ) ( )
( )
( ) ( ) ( )
( )
1 1 1 1
, ,...,
L k k k k k k k k
p q q p q q q q
+ + + +
= = y
/ / / / / / /

(7.16)
ce qui correspond, dans le domaine logarithmique, une accumulation de mtrique le long du chemin
parcouru dans le sens rtrograde : /

( ) ( )
( ) ( ) ( )
( )
1 1
log
,
k k
k k
M
M M q q
+ +
= +
/ /
/ /
k
/

(7.17)
o
( ) ( )
( )
1
,
k k
M q q
+
/ /
dsigne lincrment de mtrique associ la branche

( ) ( )
( )
1
,
k k
q q
+
/ /
du treillis :

( ) ( )
( )
( ) ( )
( )
( ) ( ) ( )
( )
( )
( )
( ) ( ) ( ) ( )
( )
1 1 1 1
1 1 1 1 2
, log , log ,...,
log log ,..., ,...,
L k k k k k k k k
L k k k k k k
M q q p q q p q q q q
p p u u u u

+ + + +
+ + + + +
= + =
= + =
y
y x
/ / / / / / /
/ / /
u
/ /
(7.18)
Chapitre 7 154
On utilise alors lalgorithme de Viterbi pour maximiser rcursivement la mtrique
( )
k
M
/
selon les k
dcroissants. Comme pour le calcul de la mtrique avant , lemploi de lalgorithme de Viterbi
conduit une approximation puisque les mtriques de branches des tapes successives ( et k
ne sont pas indpendantes entre elles. La nature de cette approximation a t tudie au 6.4.2 pour la
mtrique avant . Elle correspond une exploitation sous-optimale de la loi jointe (6.26) des bits
corrls et on a vu les risques de propagation derreur quelle pouvait induire.
) 1 k +
On remarquera que linformation a priori utilise dans la mtrique (7.18) de la branche ( ) du
treillis est la probabilit conditionnelle du bit u et non celle du bit dinformation associ
cette branche par le codeur convolutif. En effet, du point de vue de la rcursion arrire (7.16),
cest le bit u qui est en entre de registre dtat lorsquon tend le chemin / de ltat q
ltat q . Cependant, la probabilit conditionnelle
1
,
k k
q q
+
k
u
k +
1 k +
1 k + 1
k
( ) ( ) ( )
( )
1
,...,
L k k k
u u u
+
=
/ / /
p u est dj prise en compte
une tape antrieure
80
du calcul de la mtrique arrire . La dpendance entre le bit u et les bits
est donc effectivement exploite lorsquon maximise la mtrique
k
{
> } k ;
k
u k
( )
k
/
M
relativement
ltat q .
k
Finalement, de manire similaire (7.14), la mtrique totale dun chemin l du treillis se dcompose
chaque tape k selon les mtriques avant et arrire . On a en effet daprs (7.12) et (7.15) :

( ) ( ) ( )
( )
( ) ( ) ( )
( )
( ) ( ) ( ) ( )
( )
1 1
1
log ,..., , ,...,
log log log
log ,...,
L L k
k k k
k k k k
M p q q
p q
M M p u u

+
= +
= +
y y
/ / /
/ / /
/ / /
=
/
,
(7.19)
Le dernier terme de lexpression (7.19) sexplique par le fait que la probabilit de ltat
( )
k
/
q est prise
en compte deux fois, par la mtrique avant
( )
k
/
M
,
et par la mtrique arrire
( )
k
M
/
.
On considre alors que la mtrique totale du meilleur chemin passant par ltat
( )
k
/
q sobtient comme
la somme des mtriques
( )
k
/
M
,
et
( )
k
/
M
maximises par les mises en uvre avant et arrire de

lalgorithme de Viterbi. Cette dmarche sinspire de celle de lalgorithme Max-Log-Map en y
introduisant un terme a priori. Cependant on insistera nouveau sur le fait quon pose ici une
hypothse simplificatrice puisque lalgorithme de Viterbi ne tient pas compte de la dpendance entre
les termes a priori introduits dans les mtriques de branche.
Ainsi, lalgorithme prsent ici constitue une amlioration de lapproche propose par Heinen puisque
la dcision sur le bit dinformation u ltape k, qui sobtient par maximisation de la mtrique (7.19)
relativement aux tats
k
( )
k
/
}
q , prend dsormais en compte la probabilit a priori
( ) ( )
{ ( )
;
k k
k
p u u u k k
=
/ /
. Cependant, cet algorithme demeure sous-optimal puisquil ne permet pas
un dcodage conjoint de lensemble des bits corrls entre eux. Cette limitation provient comme on la
dj mentionn des conditions de mise en oeuvre de lalgorithme de Viterbi. Elle tait dj prsente
dans lapproche de Heinen. Nous reviendrons sur ce point par la suite.

)
80
Cette tape antrieure est ltape ( puisquon parcourt le treillis dans le sens des k dcroissants. 1 k +
En termes de complexit, on notera que la dmarche propose ncessite de stocker les dcisions prises
le long de chaque chemin, pour les sens avant et arrire alors que lalgorithme du Max-Log-
Map permettait de saffranchir de toute mmorisation des dcisions. La complexit de la mthode
prsente se rapproche donc de celle dun dcodage en deux tapes, cependant il nest ici ncessaire de
stocker que les seuls bits pour lesquels on exploite une information a priori. Dautre part, on vite ici
le parcours du dictionnaire de quantification selon (6.38) en considrant uniquement les combinaisons
de bits associes aux chemins survivants ltape k dans les sens avant et arrire .
7.3.2.2 Mise en uvre
Lalgorithme mettant en uvre la mtrique (7.19) sera dsign Max-Log-Map Conditionn tout au
long de ce qui suit. Nous comparons ici ses performances celles des algorithmes de dcodage canal
prcdemment tudis. Lamlioration apporte par cette extension de la mtrique de Heinen apparat
assez peu significative lorsquon considre le taux derreur binaire dans la Classe 1a, illustr Figure 7.9.
Elle permet simplement de retrouver un taux derreur similaire celui de la prdiction intra-trame.
Cependant, on rappellera ici encore que les techniques de prdiction inter-trame et intra-trame
exploitent une information supplmentaire la seule non-uniformit, qui est la stationnarit
temporelle. Lintrt des mthodes exploitant un a priori au niveau des index de quantification
apparat de manire bien plus vidente lorsquon sintresse la qualit perue du signal de parole
dcod. Les notes de qualit estimes par lalgorithme PESQ sont reportes Figure 7.11, elles
correspondent une mise en oeuvre des algorithmes sans procdure de masquage en aval. La prise en
compte de la non-uniformit des paramtres spectraux (LSF) par la mtrique de Heinen ( algorithme
de Viterbi Conditionn ) ainsi que par son extension lalgorithme du Max-Log-Map, apportent
cette fois-ci un gain par rapport la technique de prdiction combine inter- et intra-trame. La
mtrique (7.19) reprsente elle-mme une amlioration par rapport la mtrique de Heinen pour les
bas niveaux de C/I.
Employs seuls, c'est--dire sans procdure de masquage en aval, les algorithmes de Viterbi
conditionn et du Max-Log-Map conditionn permettent datteindre un niveau de qualit perue
quivalent celui du dcodeur GSM EFR avec procdure de masquage (courbe Masquage ) pour
les niveaux de C/I intermdiaires (entre 4dB et 7dB). Leur performance devient infrieure en de de
4dB. On na cependant pas constat damlioration significative lorsque on les combine avec la
procdure de masquage dclenche par indicateur de trame perdue BFI. Ici aussi, lexplication est que
la proportion de bits corrigs par ces mthodes au sein de la classe 1 est trop restreinte pour avoir un
impact important sur le nombre de trames dtectes en erreur et substitues. Lintrt ventuel de ces
mthodes de SCCD rside donc dans leur emploi combin avec un dcodeur souple de parole. Ceci sera
tudi dans la suite de ce chapitre.
Chapitre 7 156
2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
10
-3
10
-2
10
-1
C/I (dB)
T
E
B
MV
inter + intra
intra
Viterbi Cond
Max-Log-Map Cond

Figure 7.10 : Taux derreur binaire dans la Classe 1a (TU50)
1
1.5
2
2.5
3
3.5
4
2 3 4 5 6 7
C/I
M
O
S

(
P
E
S
Q
)
MV
inter + intra
MV + Masquage
VA Cond
Max-Log-Map Cond

Figure 7.11 : Notes MOS estimes pour les mthodes de SCCD tudies (TU50)
7.3.3 Augmentation de la profondeur de dcodage laide dun
GVA
Lapproche prsente au paragraphe prcdent ainsi que celle de Heinen sont sous-optimales parce que
lalgorithme de Viterbi ne permet pas un dcodage conjoint des bits tals sur une longueur suprieure
la longueur de contrainte o dsigne la mmoire dtat du treillis. Ltalement des
bits corrls, qui rsulte entre autres, du r-ordonnancement des bits avant codage canal, est illustr
Figure 7.12. Lexploitation optimale de la redondance rsiduelle par lalgorithme de Viterbi suppose
alors, comme on la vu au 6.4.1, de reformuler un treillis dont les tats ou les branches regroupent
lensemble des bits dont on cherche exploiter la corrlation. On notera que la structure dun tel
treillis tendu concide alors avec celle du treillis associ un code de longueur de contrainte gale
ltalement des bits corrls. Ceci signifie simplement quau niveau du dcodeur canal, la
redondance rsiduelle est exploite de la mme faon quune redondance induite par un code
convolutif. Cependant la taille de ce treillis croit exponentiellement avec ltalement D ce qui rend
irralisable la mise en oeuvre de lalgorithme de Viterbi. Une possibilit cependant serait dappliquer
un tel treillis tendu , un algorithme de dcodage de complexit moindre que lalgorithme de
Viterbi. Cest lide la base des dveloppements prsents dans ce paragraphe.
( ) 1 D = +
M
D
M

0

k
u
1

k
u
m
k
u
1

M
k
u

( ) 1 +
M
D

Figure 7.12 : Etalement des bits codant un mme index, compar la longueur de contrainte
7.3.3.1 Principe
On se place ici du point de vue du dcodeur canal o lon traite la redondance rsiduelle comme une
redondance qui serait induite par un code de longueur de contrainte . Le treillis dont il est
question dans ce qui suit est donc le treillis associ un tel code.
M
D
La complexit de mise en oeuvre de lalgorithme de Viterbi dans le cas o la longueur de contrainte
devient leve a conduit au dveloppement dalgorithmes de dcodage sous-optimaux, ayant une
relation plus lche avec la structure du treillis. En effet, lalgorithme de Viterbi explore tous les
chemins du treillis en conservant, chaque tape k, un chemin survivant par tat. Cependant, il existe
des conditions pour lesquelles il est raisonnable de considrer que seuls quelques uns de ces chemins
ont une probabilit leve. Dans ce cas, un parcours exhaustif du treillis nest pas ncessaire et lon
peut conserver uniquement un nombre plus rduit de chemins dominants. Les algorithmes procdant
Chapitre 7 158
de cette dmarche peuvent tre regroups sous lapproche gnrique de lalgorithme de Viterbi
gnralis (GVA) propose par [Hashimoto, 1987]. Le principe de cet algorithme pour un code de
longueur de contrainte D est le suivant :
Rduction de la dimension du treillis considr :
Au lieu de considrer individuellement les tats du treillis, on considre des tats
dgnrs ou labels dfinis en tronquant la mmoire dtat une taille ( . Un label
ltape k, regroupe donc les 2 tats qui partagent les mmes ( derniers bits
entrs dans leur registre.
1
2
D
)
)
) u

1 L
1 L
k
g
D L
(
2
, ...,
k L k
u
+
Relchement de contrainte sur les chemins survivants :
La slection de chemins survivants ne se fait plus sparment pour chaque tat du treillis, mais
par labels. En contre-partie, plusieurs chemins survivants sont retenus par labels. Les chemins
survivants au label g sont slectionns par tri de la liste de chemins candidats aboutissant g ,
cest--dire des chemins se terminant par ( ) .
k k
2
, ...,
k L k
u u
+
Le nombre S de chemins survivants par label est choisi infrieur ou gal au nombre dtats regroups.
Les performances de lalgorithme GVA sont dautant meilleures que le nombre dtats regroups 2
est faible et que le ratio entre le nombre S dtats survivants et le nombre dtats regroups est proche
de lunit.
D L
On justifie maintenant lintrt de lalgorithme GVA pour lexploitation de la redondance rsiduelle.
Considrons nouveau la mtrique (6.32). Cette mtrique exploite la redondance des bits
dinformation sur une longueur D et le dcodeur optimal associ cette mtrique serait un
algorithme de Viterbi dfini sur un treillis de dimension 2 . Cependant, le dcodeur met en oeuvre
en pratique lalgorithme de Viterbi sur le treillis associ au code convolutif du GSM EFR, cest--dire
un treillis de dimension 2 avec . En reprenant les notations de lalgorithme GVA, ceci peut
tre vu comme une approximation par rapport au dcodeur optimal o lon poserait et
. Une manire damliorer les performances de lalgorithme, cest--dire la prise en compte de la
redondance rsiduelle
M
=
1
M
D
4
1 L = +
1 S =
81
, est donc daugmenter le nombre le chemins survivants S par tat du treillis
utilis (treillis du code convolutif).
Le fait de choisir plusieurs survivants par tats du treillis peut sembler paradoxal, mais il faut bien
considrer ces tats comme les tats dgnrs ou labels dun treillis modlisant leffet mmoire
induit par la redondance rsiduelle entre bits dinformation. Laugmentation du nombre de survivants
S permet ici daugmenter la profondeur de dcodage pour tendre vers un dcodage joint des bits
corrls. Cette dmarche na videmment de sens que si la mtrique exploite prend en compte la

81
La redondance systmatique introduite par le code convolutif est bien sur parfaitement prise en compte par
lalgorithme de Viterbi tel quutilis par le dcodeur puisquil exploite la structure du treillis associe au code.
Lobjectif dune mise en oeuvre du GVA nest pas ici de rduire le nombre dtats de ce treillis, ce qui conduirait
une diminution des performances nominales du dcodeur canal EFR.
redondance rsiduelle entre bits dune mme trame dinformation (redondance intra-trame), le cas
contraire aboutirait considrer plusieurs chemins strictement parallles. On se propose ici de mettre
en uvre un algorithme GVA avec la mtrique (6.32) exploitant la corrlation entre les bits codant un
mme index de quantification.
7.3.3.2 Mise en oeuvre
Comme on la vu, lalgorithme GVA est dfini par deux paramtres :
le nombre S de survivants par labels ;
la longueur L dfinie, par analogie avec la longueur de contrainte, telle que ( est la taille de
la mmoire associe aux labels.
)
S
)
)
)
1 L
Dans lapproche propose ici, la longueur L est ncessairement prise gale la longueur de contrainte
du code convolutif, afin de ne pas dgrader les performances spcifies pour le GSM EFR. Le
choix du nombre S de survivants par labels (ici, tats du treillis) est alors limit par des considrations
de complexit. Les deux facteurs limitant sont le nombre total Q de chemins candidats grer et la
complexit algorithmique du tri effectu pour chaque liste de candidats par labels. On a :
1 +
(7.20) 2
L
Q =
et lalgorithme de tri optimal require de lordre de O n oprations pour chacun des 2
labels, o n est ici gal 2S. Par comparaison lalgorithme de Viterbi gre un total de chemins
candidats et la complexit de la slection des survivants est de lordre O pour lensemble des
tats. Dans ces conditions, la complexit de lalgorithme GVA croit trs vite avec le nombre S de
survivants et devient rdhibitoire partir de S . On a choisit ici S , la complexit de
lalgorithme rsultant est donc nettement plus leve que lalgorithme de Viterbi (dun facteur
suprieur 10 sur la slection de survivant), mais le but de ltude mene ici est simplement dvaluer
si un gain est possible en augmentant la profondeur de dcodage de faon permettre (au moins
partiellement) un dcodage conjoint des bits corrls.
( logn
1 L
2
L
(2
L
= 8 = 4
La Figure 7.13 illustre les taux derreur binaires obtenus pour les bits de la Classe 1a et compare les
performances de lalgorithme GVA dans la configuration retenue ( celles de la
mtrique (7.19) ( Max-Log-Map conditionn ) et des prdictions inter- et intra-trame. Comme
ctait le cas pour les algorithmes de Viterbi conditionn (mtrique (6.32)) et Max-Log-Map
conditionn , les taux derreur binaire obtenus avec lalgorithme GVA, au sein de la Classe 1a, sont
plus levs que ceux obtenus avec la prdiction inter- et intra-trame. La raison est que les algorithmes
de prdiction inter- et intra-trame intgrent une information sur la corrlation temporelle (entre
trames ou sous-trames), alors que nous nous somme limits un modle (6.26) invariant au cours du
temps (AK0) pour les algorithmes exploitant la distribution des index de quantification. Comme on la
dj mentionn, la loi jointe (6.26) peut tre actualise au cours du temps afin de modliser la
dpendance temporelle, nanmoins cest au prix dune complexit nettement accrue (cf. chapitre 3).
4, 5 S L = =
Chapitre 7 160
2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
10
-3
10
-2
10
-1
C/I (dB)
T
E
B
MV
intra
Max-Log-Map Cond
GVA S=4 L=5
inter + intra

Figure 7.13 : TEB compars pour la Classe 1a (TU50)
Sur lensemble de la Classe 1a, la mise en uvre de lalgorithme GVA apporte un faible gain
relativement lalgorithme Max-Log-Map conditionn , ce gain semble surtout effectif pour les
niveaux C/I compris entre 3dB et 6dB.
On nobserve pas non plus de gain rellement significatif lorsquon considre, Figure 7.14, les notes de
qualit estimes sur le signal de parole dcod. Les performances du GVA sont mme en retrait par
rapport celles du Max-Log-Map conditionn pour les trs bas niveaux de C/I. En revanche, la
mise en uvre du GVA avec la procdure de masquage de lEFR, dclenche par dtection derreur
dans la Classe 1, se traduit par une lgre amlioration des notes MOS estimes pour ces trs bas
niveaux de C/I. Une explication pourrait tre que la proportion des bits corrigs par le GVA au sein
de la Classe 1 est plus leve que pour les autres algorithmes, ce qui tend rduire le nombre de
trames dclares comme perdues . Ceci signifierait que lalgorithme GVA permet damliorer le
phnomne de correction induite, c'est--dire la possibilit de corriger dautre bits que ceux pour
lesquels on exploite la redondance rsiduelle, en profitant de laugmentation de la profondeur de
dcodage. Lamlioration observe est cependant trs faible au regard de la complexit requise par la
mise en uvre de lalgorithme GVA.
En conclusion, lemploi dun algorithme GVA pour amliorer la prise en compte de la redondance
rsiduelle suppose certainement de choisir un nombre de survivants S plus lev pour obtenir des
rsultats convaincants. Ceci conduit un algorithme trop complexe pour tre intressant dans la
pratique.
1
1.5
2
2.5
3
3.5
4
2 3 4 5 6 7
C/I
M
O
S

(
P
E
S
Q
)
MV
MV + Masquage
Max-Log-Map Cond
GVA S=4 L=5
GVA S=4 L=5 +
Masquage

Figure 7.14 : Notes MOS estimes (TU50)
7.4 Combinaison du SCCD et du dcodage de
parole souple
On sintresse maintenant la combinaison du SCCD et du dcodage souple. La redondance rsiduelle
en sortie du codeur parole est alors exploite deux niveaux successifs de la chane de rception. Deux
configurations sont envisageables :
le dcodeur canal et le dcodeur parole exploitent une information a priori de mme nature. Par
exemple, la non-uniformit dun paramtre. Cette information a priori tant modlise de manire
optimale au dcodeur parole (probabilit du paramtre) et sous-optimale au niveau du dcodeur
canal (loi conditionnelles entre les bits codant le paramtre).
le dcodeur canal et le dcodeur de parole exploitent des informations a priori de nature
complmentaires. Par exemple, la non-uniformit pour le dcodeur parole et la corrlation
temporelle pour le dcodeur canal.
Chapitre 7 162
Dans le premier cas, le problme pos est de savoir si une mme information utilise deux fois mais
des niveaux distincts peut apporter un gain de performance. Lintrt du deuxime cas est quil permet
le choix du niveau le plus adapt pour prendre en compte une information a priori donne. Ainsi, on
peut utiliser la mthode de SCCD avec prdiction inter-trame pour prendre en compte la stationnarit
temporelle dun paramtre (quantifi scalairement ou avec Index Assignement ) au bnfice dune
complexit rduite par rapport au modle AK1 prsent pour le dcodeur souple.
On se limitera ici ltude de la combinaison des algorithmes de SCCD avec le dcodeur AK0
82
. Dune
part, cette configuration est suffisante pour nous permettre de rpondre la premire question pose,
et dautre part, elle constitue la combinaison la plus intressante en pratique dans le cas o lon mise
sur la complmentarit des informations exploites au dcodeur parole et au dcodeur canal.
La Figure 7.15 compare pour les principaux algorithmes de SCCD tudis dans ce chapitre, les
performances de leur combinaison avec le dcodeur souple AK0. Les rsultats obtenus avec le dcodeur
de Viterbi classique (MV) suivi du mcanisme de substitution de trame (MV+Masquage) ou du
dcodeur AK0 (MV+AK0) y sont galement reprsentes.
On constate que les diffrents algorithmes de SCCD combins avec le dcodeur souple AK0
aboutissent des performances similaires, lgrement suprieures celles du dcodeur souple AK0
utilis seul. Cependant le gain maximal obtenu est de lordre de 0,1 MOS et nest donc pas significatif.
De plus, il est surprenant de ne pas retrouver entre les diffrents algorithmes de SCCD, une hirarchie
conforme celle obtenue Figure 7.11 lorsquils taient utiliss seuls. Il nous semble ainsi que les
performances observes Figure 7.15 sont essentiellement dictes par le dcodeur AK0, ce qui explique
que les courbes correspondantes soient parfaitement parallles celle du dcodeur AK0. Les mthodes
de SCCD tudies ici napportent quune amlioration marginale. Autrement dit, la rduction du taux
derreur rsiduelles parmi les bits de la Classe 1a quelles permettent se traduit en une rduction de la
distorsion dans le domaine des paramtres qui est ngligeable face celle obtenue par AK0.
Il apparat ainsi que dans le contexte tudi, la prise en compte dune information de redondance
rsiduelle doit tre effectue au niveau du codeur parole et non celui du dcodeur canal. Ceci
sexplique par les contraintes imposes par le schma de codage canal du GSM. Il en est ainsi, par
exemple, du r-ordonnancement des bits qui limite la possibilit de prendre en compte la redondance
au niveau des index de quantification. Or, dans le codeur de parole EFR, les paramtres spectraux
(LSF), qui sont les plus importants pour la qualit de la parole restitue, subissent une quantification
vectorielle et leur redondance ne peut pas tre modlise au simple niveau des bits individuels.

82
Lalgorithme de dcodage souple utilis ici est celui bas sur la modlisation par GMM. On le dsigne
simplement par AK0.
1
1.5
2
2.5
3
3.5
4
2 3 4 5 6 7
C/I (dB)
M
O
S

(
P
E
S
Q
)
Inter + Intra + AK0
MV + Masquage
MV + AK0
VA_Cond + AK0
Max-Log-Map + AK0

Figure 7.15 : Notes MOS estimes (TU50)
7.5 Conclusion
Les rsultats obtenus dans ce chapitre montrent que lexploitation de la redondance rsiduelle au
niveau du dcodeur canal est moins performante quau niveau du dcodeur de parole. Lutilisation des
mthodes de SCCD en complment du dcodeur souple de parole napporte pas non plus de gain
dcisif. Parmi les facteurs limitant les performances, on peut dissocier ceux qui rsultent des
contraintes spcifiquement imposes par le GSM EFR, de ceux qui sont intrinsques au principe mme
des algorithmes utiliss. Ainsi, le r-ordonnancement et le multiplexage des bits avant codage canal
dans le systme GSM ne permet pas dexploiter pleinement la redondance au niveau paramtre, c'est-
-dire de dcoder de manire conjointe le groupe de bits codant un mme paramtre. En ce qui
concerne les mthodes de prdiction entre bits individuels, leur efficacit est restreinte aux seuls
paramtres de gains et de dlai de pitch puisque les paramtres spectraux (LSF) du codeur de parole
GSM EFR subissent une quantification vectorielle (QV) et quaucune procdure doptimisation de
lattribution des indices de QV ( Index Assignment ) nest utilise.
Chapitre 7 164
Au niveau des limitations propres aux mthodes de SCCD mises en oeuvre, on notera dune part que
lalgorithme de Viterbi utilis renvoie un chemin sous-optimal lorsquon utilise des mtriques de
branches conditionnes aux tats prcdents parcourus dans le treillis. Dautre part, leffet de
masquage intrinsque du dcodeur souple, d au critre MMSE utilis, ne se retrouve plus au niveau
du dcodeur SCCD qui utilise le critre MAP par squence.
En conclusion, lattrait principal des mthodes SCCD par rapport au mthodes de dcodage souple est
leur complexit rduite puisquelles remplacent le parcours exhaustif du dictionnaire de quantification
par le parcours dun treillis pour lestimation des index de quantification transmis (i.e. des bits les
codant). Nanmoins, lexploitation au niveau du dcodeur canal, dun a priori sur les index de
quantification suppose que les bits codant les index soient peu disperss. Ceci soppose au principe du
multiplexage qui cherche taler les bits afin duniformiser la distribution des erreurs.
Paradoxalement, lemploi de mthodes utilisant un a priori individuellement sur les bits (prdiction
inter ou intra-trame) nous parat tre plus adapt dans la pratique au niveau du dcodeur canal.
Lefficacit de telles mthodes repose alors sur une proximit de la topologie dans le domaine des bits
codant les index (distance de Hamming) avec celle dans le domaine des centrodes (distance
euclidienne). Cest justement lobjectif des techniques dattribution dindices ( Index Assignment ),
nous pensons que lemploi de telles mthodes avec les techniques SCCD de prdiction au niveau des
bits individuels pourrait tre intressant. Cependant, les performances des mthodes de SCCD en
termes de qualit perue restent limites par le critre MAP exploit par le dcodeur de Viterbi. Une
utilisation du critre MMSE a t propose dans [Heinen et al., 2000] mais elle ramne la complexit
du SCCD celui du dcodeur souple.

Conclusion et perspectives
Rappel de la problmatique et principaux rsultats
Dans le contexte des communications radio-mobiles, la qualit de la parole restitue ne dpend pas
uniquement de la distorsion introduite pour la rduction de dbit au niveau du codeur parole mais est
trs fortement impacte par les erreurs rsiduelles en sortie du dcodeur canal. Celles-ci rsultent de la
trs grande fluctuation de la qualit du canal radio ainsi que des contraintes de complexit limitant les
performances du codage canal pour un rendement donn. Paralllement, ces mmes contraintes de
complexit et de dlai font quil subsiste une redondance rsiduelle en sortie du codeur parole. Les
tudes prsentes dans ce document visent exploiter cette redondance rsiduelle afin de combattre
l'impact des erreurs rsiduelles. Elles sinscrivent dans le cadre plus gnral du dcodage conjoint
source-canal.
Nous avons tudi successivement deux types dapproches selon que la distorsion de la parole en
prsence derreurs rsiduelles est minimise directement au niveau du dcodeur parole (approche
SBSD) ou indirectement par la rduction du taux derreurs rsiduelles au niveau du dcodeur canal
(approche SCCD). Comme ils sappliquent en rception, les algorithmes dvelopps pour ces deux
approches peuvent tre mis en oeuvre dans un systme tel que le GSM sans modification de la norme.
Leurs performances ont t values par un critre commun (note PESQ) calcul laide dun
algorithme normalis pour lestimation de la qualit vocale transmise par un rseau radio-mobile.
Approche SBSD
Lestimation optimale des paramtres partir de la sortie souple du dcodeur canal et de linformation
issue de la redondance rsiduelle permet un masquage intelligent dont le comportement est trs
diffrent de celui du masquage classique de lEFR En effet, le dcodage de parole entres souples
maintient une continuit de signal lcoute tout en attnuant fortement les distorsions de parole.
166
Cependant, les mthodes proposes dans ltat de lart sont trop complexes pour une application un
systme tel que le GSM EFR. Notre principale contribution a t de rduire la complexit du dcodage
de parole entres souples. Nous modlisons pour cela la redondance rsiduelle au niveau des
paramtres du codeur de parole l'aide de mlanges de gaussiennes (GMM). La compacit de ce
modle de la redondance rsiduelle permet de rduire la complexit de l'estimation des paramtres
transmis dun facteur 10. De plus, l'utilisation de densits continues (gaussiennes) amliore les
capacits de gnralisation du modle appris sur un corpus de parole donn, et par consquence, le
conditionnement de l'estimation des paramtres. Par ailleurs, la nature analytique de la modlisation
effectue permet d'extraire des informations supplmentaires comme celles relatives la classification
en tats de la parole (par exemple, vois et non-vois ).
Des algorithmes bass sur ce principe de modlisation par GMM ont t proposs dans le cadre du
GSM EFR afin de prendre en compte la corrlation temporelle (AK1) des paramtres ainsi que la
corrlation entre paramtres dune mme trame (AK2). Lalgorithme exploitant la corrlation
temporelle (AK1) offre un gain de lordre de 0,4 MOS en qualit perue (note PESQ) par rapport la
procdure de masquage classique de lEFR pour des niveaux de C/I compris entre 2dB et 4dB tout en
convergeant vers la qualit nominale de lEFR en labsence derreur. Cependant, le modle de
corrlation temporelle fixe utilis parait trop rudimentaire pour amliorer de manire significative la
qualit de la parole pour les niveaux de C/I intermdiaires (entre 3dB et 6dB).
Dans le cas du canal GSM, lintrt de la modlisation de la corrlation intra-trame (AK2) est
moindre. En effet, on observe que les paramtres dune mme trame sont simultanment corrompus
par les erreurs introduites sur le canal radio-mobile et cela de manire relativement uniforme.
Approche SCCD
Les travaux effectus dans le cadre de lapproche SCCD ont poursuivis deux buts. Dune part, celui de
la complexit minimale, et dautre part, celui de la prise en compte de la corrlation entre bits dune
mme trame afin de modliser la non-uniformit des index de quantification. Cependant, les
performances des algorithmes de SCCD sont limites par le critre mme quelle utilisent (taux
derreur binaire) qui est nettement moins corrl avec la qualit perue que le critre MMSE mis en
uvre par le SBSD. Dautre part, la prise en compte de toutes les corrlations intra-trame entre bits
nest pas compatible, pour une complexit raisonnable, avec le multiplexage et la dispersion des bits
lintrieur dune trame effectus avant codage canal dans le GSM.
On notera cependant que lalgorithme trs peu complexe exploitant la corrlation bit bit entre
trames (ou sous-trames) conserve un intrt si lon a optimis ltiquetage des centrodes de la
quantification vectorielle (Index Assignment) de sorte que la topologie dans le domaine des bits codant
les index de quantification soit proche de celle dans le domaine des centrodes.

Conclusion et perspectives 167
Discussion par rapport aux dveloppements
rcents et perspectives
Nous analysons ici les travaux prsents dans ce document la lumire des derniers dveloppements
recenss dans le domaine du dcodage conjoint sourcecanal et nous esquissons les perspectives qui
nous semblent intressantes suivre.
Approche SBSD
Lapproche propose pour la rduction de complexit demeure relativement originale. Les autres
approches publies ce jour [Fingscheidt et al., 2000], [Lahouti, 2003, Report] correspondent un
sous-chantillonnage des dictionnaires de quantification en classes. Les probabilits de transition entre
lments du dictionnaire de quantification se rduisent alors aux probabilits de transition entre les
classes obtenues, c'est--dire quelles sont supposes invariantes lintrieur dune classe. Ceci peut
sembler similaire avec notre approche, cependant cette hypothse est compltement empirique alors
que dans notre cas, la distribution multi-gaussienne (GMM) effectue automatiquement la partition de
lespace joint des paramtres dont on modlise la corrlation. De plus, la GMM permet dintroduire la
notion de probabilit a priori dune classe (associe une gaussienne) ce qui peut tre utile pour
modliser des tats de parole.
Comme on l'a mentionn, un modle de corrlation temporelle (AK1) prenant en compte le
comportement non-stationnaire des paramtres de la parole parat ncessaire pour amliorer le gain
par rapport la prise en compte de la seule non-uniformit (AK0). Cest dans ce but que la
perspective dune modlisation des tats vois / non-vois a t propose au Chapitre 5. Une
autre voie pour lamlioration de la prise en compte de la corrlation temporelle est de considrer des
corrlations sur un horizon suprieur une trame. Ceci serait notamment pertinent pour les rsidus de
prdiction de manire pouvoir modliser la corrlation au niveau du signal reconstruit et non plus au
niveau du rsidu. [Lahouti, 2003] propose ainsi une dcodeur MMSE par squence mais cet algorithme
prsente une complexit leve et impose un dlai de dcodage.
Approche SCCD
Il y a forcment intrt prendre en compte la redondance rsiduelle du codeur parole avec la
redondance systmatique introduite par le codeur canal. En effet, lhypothse dune correction induite
demeure valide [Hindelang, 2000]. Cette correction induite signifie que lintroduction dune information
a priori sur un bit permet de rduire galement le taux derreur binaire des bits voisins dans la trame
code (par lintermdiaire de leffet mmoire du code convolutif). En fait, la dmarche propose pour le
SCCD dans ce document ne se rvle pas tre la bonne.
168
En premier lieu, il est vain dessayer de modliser la redondance intra-trame au niveau du dcodeur
canal. Comme on la observ, le multiplexage et la dispersion des bits qui en rsulte lintrieur de la
trame contraint cette modlisation de la redondance intra-trame or ce multiplexage est ncessaire pour
assurer lindpendance des erreurs pour les bits codant un mme paramtre, ce qui est souhaitable. A
lpoque o nous avons dvelopp les algorithmes prsents dans ce document, le dcodage SCCD tait
vu comme une alternative concurrente du SBSD. Ceci expliquait les tentatives de modliser
intgralement la redondance rsiduelle au niveau du dcodeur canal. Cependant, comme on la vu, le
critre derreur utilis par le SCCD le disqualifie par rapport au SBSD lorsquon sintresse la qualit
perue. Une solution est de mettre en uvre un critre MMSE au niveau du dcodeur canal comme
cela a t propos par [Heinen et al., 2000] mais cette solution est trs complexe et ncessite galement
que les bits codant un mme paramtre ne soient plus disperss lintrieur de la trame code.
La combinaison du SCCD avec le SBSD par simple concatnation comme envisage au Chapitre 7 ne
conduit pas non plus des rsultats satisfaisants parce que linformation a priori est comptabilise
deux fois (au niveau de chacun des dcodeurs). Lapproche pertinente qui a t dveloppe depuis
consiste appliquer le principe des Turbo-codes la combinaison SCCD et SBSD. Plus prcisment, la
redondance rsiduelle est traite comme un code externe et la redondance systmatique (introduite par
le codeur canal) est vue comme un code interne. La mise en srie du SCCD et du SBSD signifie que
ces deux codes sont concatns. On applique alors le principe du dcodage itratif des codes concatns
(Turbo-Codes) cette combinaison [Hagenauer et al., 2003]. Cette approche est dsormais trs
dveloppe et permet dobtenir des gains substantiels au bout de quelques itrations.
Remarques gnrales
Comme on la dj mentionn, lapproche conjointe sourcecanal peut galement tre mise en uvre
lmetteur. On a ainsi cit ltiquetage optimal des centrodes de la quantification vectorielle (Index
Assignment) ou la quantification par algorithme LBG prenant en compte les probabilits de transition
du canal (Channel Optimized VQ). Une autre technique dveloppe au niveau de lmetteur est celle
de lallocation optimale de dbit binaire (ou quilibrage des rendements) entre codeur de source et
codeur canal en fonction de la qualit du canal observe et de la distorsion vise. Cette technique
dquilibrage adaptatif des rendements est notamment utilise par lAMR (Adaptive Multi-Rate). Les
algorithmes de dcodage conjoint sourcecanal prsents dans ce document peuvent tre combins avec
ces techniques mises en uvre lmetteur. Ainsi, ltiquetage des centrodes peut tre optimis pour
augmenter les performances du dcodage SCCD [Hindelang, 2000].
On notera cependant quun inconvnient de lutilisation dun modle a priori au niveau des dcodeurs
est que lon se spcialise sur la classe de signaux modliss par cette information a priori. Autrement
dit, la robustesse du dcodage conjoint sourcecanal lorsque le signal transmis est assez loign de ceux
utiliss pour lapprentissage (cas dun signal bruit par exemple) reste valider.

Annexes
170

Annexe A

Le codage de parole dans le GSM
A.1 Principes et stratgies du codage de parole
Nous prsentons ici, de manire trs synthtique, les principes de base du codage de source. Le but est
de faire ressortir les lments cls dun codeur de parole que sont la quantification et la modlisation.
Nous rappelons dabord le rle du codeur source.
Nous considrons ici la numrisation comme un processus en amont du codage source. La source
chantillonne la priode T est quantifie scalairement sur d lments binaires { avec une
rsolution suffisamment fine pour tre considre comme source non-code . Le dbit binaire de la
source non code s n est D d . Le rle du codeur source est de rduire le dbit binaire
de la source transmettre, comme schmatis Figure A.1.
s
} 0;1
(
s
T /
s s
T = )

( )
s
s nT
Codeur source

s
D
c
D
Dcodeur source

c s
D D <
( )
c
c mT

( )
s
s nT

Figure A.1 : Codage de source
Le codeur associe la squence de symboles s n , une squence de symboles c m , parfois
appels mots de code source. On notera que lindice m ne rfre pas forcment aux instants
dchantillonnage mais ventuellement des multiples de ces instants ( . La squence
( )
s
T ( )
c
T
)
c s
T NT =
Annexe A 172
( )
c
c mT doit avoir un dbit moyen . Le dcodeur est charg de reconstruire une
approximation de la source numrique partir de la squence c m , ventuellement
bruite. Formellement, la rduction du dbit binaire peut seffectuer de deux manires :
c s
D D <
( )
s
s nT
2
d
=
( )
c
T
{ }
1
,...,
K
s
=
k <
c s
T =
/
c s
=
Codage sans pertes
On ralise un codage sans pertes sil y a bijection entre les K symboles dentre s et les L
symboles de sortie c du codeur
83
. La rduction du dbit moyen seffectue alors en utilisant des
symboles c de longueur variable et en associant aux symboles dentre les plus probables, les mots de
code les plus courts. Cest le principe du codage dHuffman. Lentropie de la source est inchange.

{ }
1
,...,
L
C c c = S s =
L K
000
010
110
101
100
0

Figure A.2 : Codage sans pertes
Codage avec distorsion ou quantification
On considre dans ce cas des symboles de sortie c de longueur fixe, gale k lments binaires. Le seul
moyen de diminuer le dbit binaire est davoir :

s
T
(A.1)
c
T
d
N

Dans le cas T , un symbole c est dlivr en sortie pour chaque symbole en entre mais un mme
symbole c peut coder plusieurs symboles en entre. Ceci correspond une quantification scalaire.
Dans le cas T T , avec N entier, on code une squence de N symboles dentre par un seul
symbole c en sortie. Lquation (A.1) signifie alors quun mme symbole c peut reprsenter plusieurs
squences, ou vecteurs de dimension N, de symboles dentre. Ceci correspond une quantification
vectorielle. En considrant des squences de symboles dentre, la quantification vectorielle prend en
compte la mmoire de la source, ce qui permet de minimiser la distorsion [Moreau, 1995]. Le codage de
source est donc fondamentalement une opration de quantification, comme lillustre schmatiquement
la Figure A.3 o les symboles dentre peuvent tre des scalaires ou des vecteurs.

83
Une autre manire deffectuer un codage sans pertes est la transmission discontinue (T variable).
c
Le codage de parole dans le GSM 173

C
S

Figure A.3 : Codage avec distorsion
La distinction entre quantification vectorielle et scalaire nest pas le seul discriminant entre approches
de codage. Afin de situer lapproche retenue pour les codeurs GSM par rapport aux autres, nous
envisageons succinctement les principaux schmas de codage que lon peut btir autour dune
quantification.
A.1.1 Schmas de codage de la parole
Llment de base du codage source est la quantification. On distingue gnralement deux grandes
classes de codeurs de parole, selon la manire dont est utilise la quantification (indpendamment du
fait quelle soit scalaire ou vectorielle).
Les codeurs paramtriques
Ces codeurs sont entirement bass sur un modle de production de la parole. Le codeur estime les
paramtres de ce modle et les quantifie en minimisant une distorsion dans lespace des paramtres.
Au dcodeur, le modle de production est utilis avec les paramtres quantifis pour synthtiser un
signal de parole. Ce schma est illustr Figure A.4. De part les approximations du modle de
production utilis, le signal reconstruit ne converge pas forcement vers le signal de parole originel
lorsqu'on augmente la rsolution du quantificateur. Ces codeurs permettent de prserver l'intelligibilit
de la parole des dbits rduits (<4kbit/s) au prix d'une dgradation importante du naturel de la
voix.

Rgle du plus
proche voisin
n
s
1

L
a a
( ) i m
Modlisation
paramtre
( ) a m
index de quantification
Dictionnaire
de quantification

Figure A.4 : Schma dun codeur paramtrique
Annexe A 174
Les codeurs de formes d'onde
Pour ces codeurs, le quantificateur minimise une distance dans lespace du signal de parole (ou dune
transformation linaire de ce signal). A lmetteur, on considre un vecteur
84
de N chantillons
transmettre. On recherche son plus proche voisin dans un dictionnaire compos de L vecteurs
reprsentants selon une distance que nous prciserons par la suite. Le symbole transmis par le codeur
est lindice i du vecteur choisi, cet indice est cod par k lments binaires ( L ). Au rcepteur, on
dispose du mme dictionnaire de reprsentants et le dcodage se rsume la recherche du vecteur
dindice reu au sein du dictionnaire. Le schma ainsi dcrit correspond aux lments en traits pleins
de la Figure A.5. Ce schma permet dexploiter la redondance temporelle de la source si , dans
le cas scalaire seule la non-uniformit de la source est exploite. De plus, l'utilisation d'un dictionnaire
fixe est mal adapte des signaux non-stationnaires comme la parole.
2
k
=
1 N >

Rgle du plus
proche voisin

n
s
. .
1
0 0
1
1 1

L
L
N N
s s
s s

Inspection dans
une table
.
0
1
N
s
s

.
0
1 N
s
s
. .
1
0 0
1
1 1

L
L
N N
s s
s s

transformation
adaptation adaptation
transformation

n
s

Figure A.5 : Forme gnrique dun codeur forme donde
Pour tenir compte de la non-stationnarit du signal et mieux exploiter sa redondance (viter des N
levs), on rajoute des traitements autour de la quantification. Ceux-ci correspondent aux blocs en
traits pointills de la Figure A.5. On peut, soit transformer le signal quantifier de manire ladapter
au dictionnaire fixe utilis (bloc transformation), soit modifier rgulirement le dictionnaire de
quantification de faon ce quil soit adapt chaque instant la statistique du signal (bloc
adaptation).
La premire mthode cherche dcorrler au maximum le signal pour pouvoir utiliser un
quantificateur simple (de type scalaire). Cette dcorrlation peut se faire, soit par application dune

84
On se place ici dans le cas dune quantification vectorielle, le cas scalaire sobtient pour des vecteurs de
dimension N = 1.
transforme (transforme en cosinus discrte, dcomposition en sous-bandes), soit par une prdiction
85

du signal comme le codeur MICDA 32kbits/s.
La seconde mthode sutilise avec un quantificateur vectoriel et permet dadapter la corrlation
modlise par les vecteurs du dictionnaire celle observe dans la source. Il existe de nombreuses
faons de modifier le dictionnaire. La rgle dadaptation peut tre prdtermine comme, par exemple,
dans le cas dune quantification vectorielle tats finis. Le dictionnaire adaptatif peut aussi tre gnr
laide dun modle de production du signal, dont on estime rgulirement les paramtres. Ces
paramtres doivent gnralement tre transmis au dcodeur. On choisit de les quantifier sparment
selon le schma de la Figure A.4, cest--dire en minimisant une distance sur les paramtres et non pas
sur la parole. On parle alors de codeurs hybrides. Cette approche est celle des codeurs CELP (Code
Excited Linear Prediction) illustrs Figure A.6. Ces codeurs permettent de conserver une bonne qualit
du signal de parole jusqu' des dbits de 8kbit/s et sont utiliss pour les applications mobiles du type
GSM.

Rgle du plus
proche voisin
n
s
. .
1
0 0
1
1 1

L
L
N N
s s
s s

Inspection dans
une table

n
s
.
0
1
N
s
s

.
0
1 N
s
s
. .
1
0 0
1
1 1

L
L
N N
s s
s s

prdiction
Modlisation
paramtre
( ) a m
. .
1
0 0
1

L
L
r r
r r
1 1 N N
prdiction
. .
1
0 0
1

L
L
r r
r r
1 1 N N

Figure A.6 : Principe dun codeur CELP
A.1.2 Compromis du codage source
On a vu que la rduction du dbit binaire entrane, le plus souvent, une distorsion avec le signal
reconstruit. Le premier compromis auquel le codeur source doit satisfaire est donc un compromis entre
dbit et distorsion. Cependant dautres critres interviennent galement dans ce compromis. Ainsi,

85
Pour viter la propagation derreur, la prdiction doit se faire partir de s n . On parle de schma en boucle
ferme, ceci sera prcis au paragraphe A.4.
( )
Annexe A 176
dans le cas des communications radiomobiles, les principales contraintes pour le codeur de parole sont
les suivantes :
Dbit binaire faible (infrieur 16 kbits/s) afin de minimiser loccupation spectrale. Lefficacit
spectrale est en effet primordiale en raison des restrictions sur le plan des frquences radio.
Qualit subjective de la parole la plus proche possible de la qualit tlphonique standard
( bande tlphonique ).
Dlai faible afin de permettre une communication 2 voies (full duplex)
Robustesse aux erreurs de transmission, ce point est particulirement important pour les
transmissions radiomobiles qui introduisent des erreurs par paquets.
Ces contraintes ont orient le choix vers les familles de codeurs prdictifs excits par impulsions (GSM
FR) ou excits par codes (GSM EFR). Avant daborder prcisment ces codeurs, nous tudions les
deux lments cls sur lesquels ils sont bass, cest--dire la quantification et la modlisation par
prdiction linaire.
A.2 Quantification vectorielle
Notre description dun quantificateur sest jusquici restreinte un niveau formel, comme lapplication
de la rgle du plus proche voisin (minimisation dune distance donne) et la recherche dun vecteur
reprsentant dans un dictionnaire. Nous prcisons ici quelques points concernant la mise en uvre
dun quantificateur vectoriel. Nous nous intressons notamment la construction du dictionnaire de
reprsentants et la rduction de la complexit.
A.2.1 Conditions doptimalit
Au niveau du codeur, la quantification vectorielle peut-tre vue comme une opration de classification.
Elle effectue une partition de lespace S des vecteurs dentre en L cellules (
0 1
...
N
s s
= s )
{ }
1
,...,
L

i
s
. Une cellule est reprsente par un symbole ou indice i transmis en sortie du
quantificateur. Au dcodeur, on associe lindice i reu, un vecteur donn, appel vecteur reprsentant
. Cette opration de codage dcodage doit minimiser la distorsion moyenne :
(A.2) ( ) { , D E d = s s }
) o d est la mesure de distorsion choisie. ( , s s
Cependant, il nexiste pas de solutions pour trouver conjointement la partition (codeur) et les
reprsentants (dcodeur) minimisant D. Il existe par contre deux conditions ncessaires doptimalit.
Lune spcifie la structure du codeur optimal tant donn le dcodeur, et lautre celle du dcodeur
tant donn le codeur :
Condition du plus proche voisin
Etant donn un dcodeur et son dictionnaire de reprsentants , la partition ralis au
codeur doit satisfaire :
{
1
,...,
L
s s }
( ) ( ) { , , ;
i i j
d d = s s s s s } j (A.3)
o i dsigne lindice de la cellule.
Condition du centrode
Etant donn la partition { }
1
,...,
L
du codeur, les reprsentants optimaux satisfont :
( ) ( arg min ,
i
E d =
y
s s y )
i
s
)
(A.4)
Dans le cas usuel o la distance d correspond lerreur quadratique moyenne, ventuellement
pondre, le centrode correspond au centre de gravit de la cellule :
( , s s
i
(
i
E = s s s )
i
}
(A.5)
La classe des quantificateurs qui satisfont ces critres est celle des quantificateurs statistiques. Leur
dictionnaire modlise la distribution des vecteurs s. Nous dcrivons dans ce qui suit une mthode de
construction de ce dictionnaire.
A.2.2 Construction du dictionnaire
On utilise une base dapprentissage caractristique de la source coder afin destimer empiriquement
les statistiques. Lalgorithme de classification le plus connu pour la construction du dictionnaire est
lalgorithme de Lloyd-Max gnralis, galement appel algorithme de la K-moyenne. Cest un
algorithme itratif vrifiant successivement les deux conditions doptimalit :
(1) Initialisation : On choisit un dictionnaire initial de L centrodes { } .
1
,...,
L
s s
(2) Partition : Les vecteurs dapprentissage sont rpartis dans les L classes dfinies par le dictionnaire
en appliquant la rgle du plus proche voisin (A.3). {
1
,...,
L
s s
(3) Actualisation : On dfinit un nouveau dictionnaire en mettant jour le centrode lintrieur de
chaque classe laide de la condition du centrode (A.5).
Annexe A 178
(4) Critre darrt : On estime la distorsion moyenne (A.2) obtenue sur la base dapprentissage. On
arrte lalgorithme si la dcroissance de la distorsion devient infrieure un seuil, sinon on passe
litration suivante en procdant une nouvelle partition (2) de la base dapprentissage.
Cet algorithme assure la dcroissance de la distorsion moyenne mais ne tend seulement vers un
minimum local. Ceci pose la question du choix du dictionnaire initial, choix dlicat puisque deux
dictionnaires initiaux distincts peuvent conduirent des minima diffrents. Lalgorithme LBG (Linde,
Buzo et Gray) permet de rsoudre ce problme. Son principe est le suivant :
(1) Initialisation : On choisit un dictionnaire initial compos dun seul vecteur minimisant la
distorsion moyenne. Cest le centrode (A.5) de lensemble de la base dapprentissage.
1
s
(2) Division : Chaque centrode du dictionnaire courant gnre deux vecteurs et s o e
reprsente un faible variation dans . Le nouveau dictionnaire ainsi obtenu constitue le
dictionnaire initial de lalgorithme de Lloyd-Max.
s + s e e
)
N
R
(3) Apprentissage : On applique lalgorithme de Lloyd-Max jusqu atteindre un minimum local.
(4) Arrt : On arrte lalgorithme si le dictionnaire a atteint la taille L dsire, sinon on ritre la
procdure partir de ltape (2).
Le dictionnaire dun quantificateur statistique nest absolument pas contraint puisquil nest fonction
que de la distribution des vecteurs de la base dapprentissage. Aussi, un quantificateur statistique
ncessite, au codage, une recherche exhaustive parmi le dictionnaire du reprsentant minimisant la
distance . Or, la taille des dictionnaires demande en pratique peut tre trs large afin de
minimiser la distorsion pour un dbit fix. Cette considration motive lutilisation de dictionnaires
possdant une structure impose. Les quantificateurs ainsi dfinis sont sous-optimaux au sens de la
distorsion moyenne (A.2) mais permettent un codage beaucoup moins complexe.
s
( , d s s
A.2.3 Rduction de la complexit
Plusieurs mthodes sous-optimales de quantification ont t proposs afin dviter une croissance
exponentielle de la complexit avec la dimension N des vecteurs dentre. On donne ici une description
sommaire de certaines dentre elles, notamment celles utilises par le GSM.
quantification vectorielle par produit cartsien (Split-VQ)
Plutt que de considrer un vecteur s de dimension N leve, on le dcompose en plusieurs sous-
vecteurs [ ]
1
,...,
m
= s s s de dimensions ventuellement diffrentes et on quantifie indpendamment
chacun des sous-vecteurs. On perd cependant la possibilit dexploiter la redondance entre sous-
vecteurs. Le codeur CELP du GSM EFR utilise une forme drive de cette mthode pour quantifier les
paramtres du filtre de prdiction.
quantification forme-gain
Dans ce schma illustr Figure A.7, une quantification vectorielle est utilise conjointement avec une
quantification scalaire. De cette faon, la quantification vectorielle utilise un dictionnaire de vecteurs
norms (forme) et lnergie du vecteur est quantifie indpendamment par la quantification scalaire
(gain). Cette mthode est relativement optimale car lnergie dun vecteur et sa corrlation sont
souvent des quantits indpendantes.

. .
1
0 0
1
1 1

L
L
N N
r r
r r

1

L
g g
Rgle du plus
proche voisin
i
j
.
0
1 N
s
s

Figure A.7 : quantification de type forme-gain
quantification vectorielle multi-tages
On procde par approximations successives en mettant en cascade plusieurs quantificateurs vectoriels.
Chaque tage i quantifie un vecteur rsiduel r correspondant la diffrence entre le vecteur dentre s
et la somme des sorties des quantificateurs prcdents :
i
(A.6)
1
1
i
i
j
=
=
r s r
j
r
Le vecteur quantifi sobtient par la somme des vecteurs rsiduels quantifis : s
(A.7)
1
m
i
i =
=

s
La quantification du signal dexcitation dun codeur CELP comme le GSM EFR est une forme hybride
entre les quantifications de type forme-gain et multi-tage.
quantification vectorielle algbrique
Il ne sagit plus ici dun quantificateur statistique. Son dictionnaire nest pas construit partir dune
base dapprentissage, il est prdtermin. Il consiste rpartir les vecteurs de reproduction de faon
rgulire dans lespace. Ces dictionnaires sont souvent utiliss pour modliser lexcitation des codeurs
CELP comme on le verra par la suite.
Annexe A 180
A.3 Modlisation du signal de parole
La quantification considre un signal dont les proprits statistiques sont invariantes au cours du
temps. De plus, si la quantification vectorielle permet de modliser la corrlation entre les composantes
du vecteur dentre, elle ne prend pas en compte la corrlation entre vecteurs et la dimension des
vecteurs est limite par la complexit.
Cependant, le signal de parole est non-stationnaire et peut tre fortement corrl sur des segments de
plusieurs dizaines de millisecondes. On doit donc se ramener un signal plus simple, cest--dire plus
facilement modlisable par le quantificateur. Ceci peut senvisager de deux points de vue selon quon se
place dans lapproche transformation ou dans lapproche adaptation voques Figure A.5. Dans
lapproche transformation, on extrait la redondance du signal de parole au moyen dune prdiction
linaire afin de quantifier un rsidu dcorrl. Dans lapproche adaptation, on utilise un modle de
production capable de reproduire les proprits statistiques du signal de parole par filtrage du
dictionnaire dun quantificateur. La modlisation auto-rgressive est souvent choisie car elle se
rapproche du modle du conduit vocal. Lquivalence de la modlisation auto-rgressive et de la
prdiction linaire font de celle-ci un lment central de nombreux codeurs de parole. Elle est en
particulier utilise par les codeurs du GSM. Nous prsentons ici en dtail lapplication de la prdiction
linaire au codage de la parole.
A.3.1 Caractristiques du signal de parole
Considrons le signal de parole reprsent sur la Figure A.8. Il est clair que ce signal est non-
stationnaire; cette caractristique se traduit par des proprits statistiques qui varient au cours du
temps. Cependant, on peut approximativement le considrer comme localement stationnaire (au
second ordre) sur des intervalles de temps de l'ordre de quelques dizaines de millisecondes
(gnralement 20 30 ms).
0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6
- 2
- 1 . 5
- 1
- 0 . 5
0
0 . 5
1
1 . 5
x 1 0
4
t e m p s ( s )

Figure A.8 : Forme temporelle d'un signal de parole
Ds lors une approche commune consiste segmenter le signal de parole en trames sur lesquelles on
applique les outils classiques de l'analyse des signaux stationnaires. Une trame de parole est isole par
application dune fentre de pondration w n un instant danalyse k sur le signal de parole s n :
( ) ( )
(A.8)
( ) ( ) ( )
k
w
s n w k n s n =
On dfinit ainsi une auto-corrlation et un spectre court-terme, pour chaque instant danalyse k :
(A.9)
( ) ( ) ( )
k k
w w
k
m s n s n
m
( ) ( )
2
2
k
j f
w
k
n
f s n e

=
=

(A.10)
Il existe une relation de dualit entre lauto-corrlation (A.9) et la densit spectrale (A.10) puisque
cette dernire est la transforme de Fourier de lauto-corrlation. Le spectre court-terme dun signal
de parole est reprsent sur la Figure A.9 pour deux trames successives de 20 ms. On peut y distinguer
deux composantes :
L'enveloppe moyenne, reprsente en pointills sur la Figure A.9.
La structure fine, qui correspond aux variations autour de lenveloppe moyenne.
Par dualit de la transforme de Fourier, l'enveloppe moyenne du spectre correspond une auto-
corrlation court-terme du signal de parole et la structure fine du spectre une auto-corrlation
long-terme. Ces deux composantes sont dcorrles entre elles, par exemple lorsque la structure fine du
spectre exhibe une priodicit frquentielle (prsence dharmoniques), celle-ci varie souvent plus
lentement que lenveloppe moyenne du spectre.
0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 3 0 0 0 3 5 0 0 4 0 0 0
1 0
2 0
3 0
4 0
5 0
6 0
7 0
8 0
9 0
1 0 0
1 1 0
H z
d
B

Figure A.9 : Densit spectrale de puissance d'un signal de parole
Annexe A 182
Au niveau de la perception, l'enveloppe moyenne du spectre est associe au timbre dun son. Dans le
cas de la parole, cest elle qui contient l'essentiel de l'information acoustique pertinente pour la
discrimination des phonmes
86
, et donc pour la comprhension de la parole.
Selon la structure fine du spectre, on classe les signaux de parole en deux catgories, les sons voiss et
les sons non-voiss. Pour les sons voiss, la structure fine du spectre contient des raies harmoniques
associes la prsence dimpulsions priodiques long-terme dans le signal de parole. L'espacement
entre harmoniques dfinit la frquence fondamentale de la parole. Au niveau de la perception, celle-ci
est associe la hauteur de la voix. Pour la voix parle, elle varie de 80 200 Hz chez les hommes, de
150 450 Hz chez les femmes et de 200 600 Hz chez les enfants. Pour les sons non-voiss, la
structure fine du spectre est irrgulire, ces sons correspondent aux fricatives et s'apparentent du
bruit.
La plupart des segments de parole
87
peuvent rentrer dans cette classification entre voiss et non-voiss.
Il existent cependant des segments mixtes pour lesquels le spectre contient la fois des harmoniques
(aux basses frquences) et prsente une structure irrgulire (aux hautes frquences). Enfin, la
catgorie des plosives caractrises par la prsence dune priode de silence suivie dune impulsion est
problmatique pour le codage car elle reprsente une non-stationnarit forte de la parole.
Ces caractristiques du signal de parole refltent son mode de production par l'appareil phonatoire
illustr Figure A.10. La production du signal de parole peut tre divise en 2 tapes :
Gnration d'un signal d'excitation par lensemble poumons cordes vocales.
Les poumons gnrent un souffle d'air circulant travers les cordes vocales. Lorsque celles-ci sont
tendues, le souffle dair les met en mouvement oscillatoire, il en rsulte un signal dexcitation pseudo-
priodique. La frquence d'oscillation des cordes vocales (frquence fondamentale) est contrle par
leur tension. Lorsque les cordes vocales sont dtendues, le souffle dair nest plus modul et le signal
dexcitation est assimilable un bruit
88
. Le signal d'excitation dtermine donc la structure fine du
spectre de la parole.
Filtrage du signal dexcitation par le conduit vocal.
Le conduit vocal, qui regroupe la cavit buccale, la cavit nasale, la langue et les lvres, joue le rle
d'un filtre amplifiant certaines frquences appeles formants. Les formants permettent didentifier
compltement une voyelle. C'est la dformation du conduit vocal qui produit l'articulation de la parole.
Le filtre du conduit vocal est associ l'enveloppe moyenne du spectre de la parole.

86
Un phonme correspond lunit acoustique lmentaire convoyant un sens linguistique.
87
Les sons voiss reprsentent en moyenne 80% du temps de phonation.
88
Le signal dexcitation pour les sons non-voiss ne contient pas dinformation perceptuelle et peut tre remplac
indistinctement par un bruit blanc.

Figure A.10 : l'appareil phonatoire
Ce bref aperu des caractristiques du signal de parole a permis de prciser la nature de la redondance
prsente dans le signal de parole. Nous avons, de plus, reli la corrlation court-terme une
opration de filtrage induite par le conduit vocal. En reprenant, les deux point de vue possibles de la
prdiction linaire, nous montrons dans ce qui suit comment celle-ci peut fournir un modle du filtre
du conduit vocal ou tre utilise pour dcorrler le signal de parole.
A.3.2 Prdiction linaire de la parole
La prdiction linaire joue un rle prpondrant dans le codage de la parole. Nous dtaillons ici ses
relations avec le signal de parole ainsi que sa mise en oeuvre. Nous prsentons en premier lieu le
modle source-filtre qui assimile le conduit vocal un filtre auto-rgressif. Ce modle source-filtre
fournit une interprtation spectrale des coefficients de prdiction linaire en les reliant au spectre
court-terme et aux formants. Nous rappelons ensuite brivement le principe de la prdiction linaire
avant daborder le problme de la quantification des coefficients de prdiction linaire.
A.3.2.a Modlisation du conduit vocal
La distinction des sons entre les deux grandes catgories voiss et non-voiss conduit au modle de
production (simplifi) illustr Figure A.11. Dans ce modle, lexcitation est reprsente par un train
dimpulsions priodiques pour les sons voiss ou par un bruit proche dun bruit blanc pour les sons
non-voiss. La glotte et le conduit vocal sont modliss par un filtre variant dans le temps et de
fonction de transfert de la forme :
( )
H z

( )
1
1
1
1
Q
l
l
l
P
k
k
k
b z
H z
a z
=
+
=
+
(A.11)
Annexe A 184
Les zros du filtre H z permettent principalement de modliser la contribution du conduit nasal lors
des sons nasaliss et de certaines fricatives. Les ples de H z sont associs aux formants du conduit
vocal, caractristiques des voyelles.
( )
( )

( )
e n
Gnrateur
dimpulsions
priodiques
pitch
Gnrateur de
bruit blanc
voise
non-voise
Modle de
conduit vocal
gain
( )
s n
( ) H z

Figure A.11 : Modle source-filtre de production de la parole.
Lestimation des coefficients du modle (A.11) ncessite la rsolution dquations non-linaires. Aussi,
pour simplifier, on ne retient que les ples de la fonction de transfert. Celle-ci correspond alors un
modle auto-rgressif AR :

( )
( )
1
H z
A z
= (A.12)
Les coefficients a sobtiennent par rsolution dun systme dquations linaires comme nous le
verrons par la suite. Lordre P du filtre est gnralement choisi de faon pouvoir reprsenter un
formant par une paire de ples. La parole prsente trois quatre formants dans la bande tlphonique
k
[ ] 300 3400Hz , on utilise alors un ordre P compris entre 8 et 16. Les ples additionnels permettant
de modliser les spectres prsentant des zros (sons nasaliss).
A.3.2.b Analyse par prdiction linaire
Il y a quivalence entre la modlisation auto-rgressive AR et la prdiction linaire dont le principe est
illustr Figure A.12. En effet, les coefficients de prdiction linaire sobtiennent en minimisant lnergie
du signal derreur e n dfini selon :
2
e
( )
(A.13)
( ) ( ) (
1
P
k
k
e n s n a s n k
=
=
)
Or, daprs le thorme de Parseval [Picinbono, 1989], la norme est invariante par passage du domaine
temporel au domaine frquentiel, soit :

( )
( )
2
2 2
1
2
jw
e
e n E e dw
+
+
= =

(A.14)
o ( )
2
jw
E e est le spectre dnergie du signal e n .
( )
Daprs les quations (A.13) et (A.12), le spectre dnergie ( )
2
jw
E e peut sexprimer en fonction des
spectres dnergie ( )
2
jw
S z e = et ( )
2
jw
H z e = du signal de parole et du filtre H z
respectivement. Ceci permet finalement daboutir lidentit suivante :
( )

( )
( )
( )
2
2 2
2
1
2
jw
e
jw
S e
e n dw
H e
+
+
= =

(A.15)
Ainsi, minimiser lerreur de prdiction linaire revient identifier le spectre du signal de parole par
celui dun filtre AR.

1
P
k
k
k
a z
+
_
+ ( )
s n

( )
e n

Figure A.12 : prdiction linaire
Il est alors possible destimer les coefficients a en minimisant lexpression :
k

( ) ( ) ( )
2
2 2
1
P
e
k
k
e n s n a s n k
+ +
=
l
l
= =
l
l
l

(A.16)
ce qui conduit au systme dquation :
, pour i (A.17) ( ) (
1
,
P
n n
k
k
a i j i
=
=
) , 0 P
) P
1,..., =
avec , pour i P ; (A.18) ( ) ( ) ( ,
n
i j s n i s n j
+
1,..., = 1,..., j =
On sest plac ici dans le cas gnral de signaux stationnaires, cependant on a vu que le signal de
parole ne pouvait tre considr stationnaire que sur un horizon de courte dure. Aussi, on doit borner
lintervalle de sommation dans (A.18). Ceci peut senvisager de deux manires, correspondant la
mthode de lauto-corrlation et la mthode de la covariance.
Annexe A 186
mthode de lauto-corrlation
On limite lhorizon du signal s n dans le calcul de la corrlation (A.18) en appliquant une fentre
danalyse w n de dure N au signal de parole :
( )
( )
(A.19)
( ) ( ) ( )
w
s n w n s n =
La corrlation (A.18) devient alors :
, pour i P ; (A.20) ( ) ( ) ( ,
n w w
i j s n i s n j
+
) P 1,..., = 1,..., j =
Comme est nul en dehors de
( )
w
s n [ ] 0,..., 1 N , la corrlation ne dpend plus que de i j et la
matrice associe au systme dquations (A.17) possde une structure de Toeplitz. Il existe alors un
algorithme rapide pour rsoudre ce systme, cest lalgorithme de Levinson-Durbin [Moreau, 1995].
mthode de la covariance
Au lieu de tronquer le signal dans (A.18), on borne directement la sommation lintervalle
( )
s n
[ ] 0,..., 1 N , ce qui revient appliquer une fentre danalyse w n au signal derreur :
( )
(A.21)
( ) ( )
2
e
w n e n
+
=

2
) P

La corrlation (A.18) scrit :
, pour i P ; (A.22) ( ) ( ) ( ) ( ,
n
i j w n s n i s n j
+
1,..., = 1,..., j =
La matrice associe au systme dquations (A.17) na cette fois-ci pas de structure de Toeplitz mais le
systme peut tre rsolu par dcomposition de Cholesky [Markel et al., 1976].
La mthode de lauto-corrlation, bien que moins prcise, est le plus souvent prfre. Elle est peu
complexe et garantie que le filtre AR estim est stable
( )
H z
89
.
Deux mthodes additionnelles sont utilises pour amliorer lestimation des paramtres, il sagit de la
compensation aux hautes frquences et de lexpansion spectrale. La premire applique au signal de
parole un filtre de pr-accentuation afin de compenser la dcroissance du spectre aux abords de la
frquence de coupure F du filtre dchantillonnage. La seconde vite la surestimation des pics
spectraux, notamment pour les sons trs voiss. Elle consiste largir la largeur de bande des
formants. Dans le cas de la mthode de lauto-corrlation, une technique trs utilise [Kleijn et al.,
1995] est de pondrer les coefficients dauto-corrlation par une fentre gaussienne, ce qui revient
convoluer le spectre estim par une gaussienne.
/2
e

89
La mthode de la covariance ncessite dtre modifie [Kay, 1988] afin de garantir un filtre stable.
Lorsque la prdiction linaire est utilise au codage, les coefficients de prdiction linaire LP sont
rgulirement estims chaque nouvelle trame de parole et transmis au dcodeur
90
. Ceci pose le
problme de la quantification des coefficients LP.
A.3.2.c Quantification des coefficients de prdiction linaire
Comme on la vu, la prdiction linaire peut tre intgre au schma de codage Figure A.5 comme une
opration danalyse (bloc transformation) ou comme une opration de synthse (bloc adaptation). Dans
les deux cas, les coefficients LP sont quantifis hors boucle , cest--dire indpendamment du
critre derreur utilis pour la quantification du signal rsiduel (approche analyse) ou du signal de
parole reconstruit (approche synthse). On cherchera plutt minimiser la distorsion spectrale entre
les spectres des filtres de synthse avant et aprs quantification. Cette approche se
justifie par linterprtation perceptuelle quon peut donner au spectre
( ) ( )
1/ H z A z =
( )
jw
H e . Une bonne
reprsentation ( ( ) ( )
1
,...,
k
) f a f a des coefficients LP doit satisfaire les critres suivants :
sensibilit spectrale uniforme : on souhaite une relation linaire entre la distance dfinie sur les
coefficients ( ( ) ( )
1
,...,
k
) f a f a et une distance sur les spectres des filtres de synthse associs.
critre de stabilit : on doit pouvoir vrifier la stabilit du filtre de synthse partir des
coefficients quantifis.
Les reprsentations les plus utilises sont les coefficients de corrlation partielle PARCOR et les Lignes
Spectrales par Paires LSP.
Coefficients de Corrlation Partielle
Les coefficients PARCOR sont des variables intermdiaires de lalgorithme de Levinson, ils
apparaissent notamment dans limplmentation du prdicteur sous forme de filtre en treillis [Kondoz,
1994]. Ils sont dfinis par la rcursion :
, (A.23)
( )
0
0 E =
( )
( )
(
1
1
1 1
1
)
j
j
j i
j i
k j a j
E

=
l
i P
l
l
1,.., j = , pour (A.24)
o est lauto-corrlation (A.9) et les coefficients ( ) j
( ) ( )
1
,...,
( )
j j
j
a a sont ceux du prdicteur optimal
dordre j. Une des proprits intressantes des coefficients PARCOR est que la stabilit du filtre
est assure par la condition :
( )
H z =
( )
1/A z
1
j
k < pour j (A.25) 1,..., = P

90
On ne considrera pas lestimation backward des coefficients LP, peu utilise pour les dbits infrieurs
16kHz.
Annexe A 188
ce qui procure un test simple de stabilit.
Les coefficients PARCOR nont cependant pas une sensibilit spectrale uniforme, cest pourquoi on
leur applique une transformation non-linaire avant quantification. On utilise le plus souvent les
coefficients LAR (Log Area Ratio) dfinis par :

1
log
1
j
j
j
k
g
k
1

=
+
( )
, (A.26) 1,..., j = P
Ces coefficients sont ceux utiliss par le GSM Full Rate.
Lignes Spectrales par Paires
Les Lignes Spectrales par Paires [Erkelens et al., 1995] ou de manire quivalente, les Lignes Spectrales
de Frquence LSF, ont t introduites par Itakura comme nouvelle reprsentation des coefficients LP .
On considre le polynme A d'ordre P associ aux coefficients LP et son polynme rciproque
(filtre rtrograde) :
( )
P
z

( )
( )
(
1 P
P
B z z A z
+
=
)
1
P
1 +
(A.27)
On peut alors exprimer le prdicteur dordre connaissant le coefficient PARCOR k : 1 P +
1 P+
(A.28)
( ) ( ) ( )
1 P P P P
A z A z k B z
+
= +
On considre les deux configurations k et k dfinissant les polynmes :
1
1
P+
= +
1
1
P+
=
(A.29)
( ) ( ) ( )
P P
P z A z B z = +
(A.30)
( ) ( ) ( )
P P
Q z A z B z =
Le filtre 1/ correspond au modle dun conduit vocal ferm au niveau de la glotte alors que le
filtre 1/ est associ un conduit vocal ouvert au niveau de la glotte.
( )
P z
( )
Q z
On montre que les zros de P z et Q z sont entrelacs sur le cercle unit. Deux zros sont situs
en et , ils sont associs aux valeurs de k . Les P lignes spectrales LSP sont les
positions angulaires 0 des P zros restants (ou les frquences w pour les LSF). Ces
paramtres ont des proprits trs intressantes pour le codage :
( )
<
( )
0 = =
1 P+
k
w < /2
k

La stabilit du filtre 1/ est assure si 0 .
( )
P
A z
1 2
.....
P
w < < < < <
Les LSF ont une correspondance directe dans le domaine spectral ou elles se regroupent autour
des pics spectraux, ceci vient du fait que les LSP correspondent aux formants de deux
configurations particulires du conduit vocal.
Leur sensibilit spectrale est donc uniforme et localise. Aussi, une erreur de quantification sur une
LSF ne se rpercutera que dans le voisinage spectral de cette LSF. Les LSF sont devenues la
reprsentation de prdilection des coefficients LP. Elles sont utiliss par la plupart des codeurs CELP
comme le codeur EFR du GSM.
A.4 Codage prdictif de la parole
Nous avons prsent les deux lments de base dun codeur prdictif de la parole, savoir la prdiction
linaire et la quantification. Le codage prdictif de la parole englobe la plupart des techniques utilises
actuellement pour des dbits allant de 16kbits/s 5kbits/s. Cependant, diffrentes mises en uvre du
codage prdictif sont possibles, on distingue notamment les mthodes danalyse et synthse, de celles
danalyse par synthse. Le codeur Full Rate du GSM se classe dans la premire catgorie alors que les
techniques danalyse par synthse correspondent la famille des codeurs CELP dont le GSM EFR est
un reprsentant. Nous prcisons, dans ce qui suit, les mises en uvre du codage prdictif, notamment
en ce qui concerne la dtermination de lexcitation.
A.4.1 Schmas de quantification prdictive
Comme nous lavons vu, la prdiction linaire peut tre utilise pour extraire la redondance du signal
de parole avant quantification du signal rsiduel avec un dictionnaire fixe ou pour adapter
rgulirement un dictionnaire de quantification aux statistiques du signal de parole. La premire
approche, reprsente par le bloc transformation de la Figure A.5, est celle des codeurs dits analyse
et synthse. La seconde approche, reprsente par le bloc adaptation de la Figure A.5, correspond aux
codeurs analyse par synthse. La premire approche implique une optimisation indpendante de
chacun des lments de la chane de dcodeur. La seconde permet thoriquement loptimisation jointe
de ces lments. Cependant, pour des raisons de complexit, le prdicteur court-terme est quantifi
indpendamment dans la mise en uvre de lapproche analyse par synthse . Aussi dans la
pratique, la principale distinction entre ces deux approches est la quantification du signal dexcitation.
Dans lapproche analyse et synthse, le signal dexcitation est cherch par minimisation dune erreur
dans le domaine du rsidu. Dans lapproche analyse par synthse, le signal dexcitation est cherch par
minimisation dune erreur dans le domaine de la parole.
A.4.1.a Analyse et synthse
Dans ce schma, la parole est dabord analyse et ses paramtres danalyse quantifis. Elle est ensuite
filtre par un prdicteur dont les coefficients correspondent aux paramtres danalyse quantifis. Le
rsidu dcorrl en sortie du prdicteur est enfin quantifi. Ainsi dans le schma danalyse et synthse,
Annexe A 190
la quantification est locale chaque lment. Lanalyse peut tre en boucle ouverte ou en boucle
ferme.
Analyse en boucle ouverte
La structure en boucle ouverte, illustre par la Figure A.13, est la plus immdiate. On notera
( 1,..., s n n n P ), la prdiction du signal s n linstant n daprs les P chantillons prcdents :
( )
( )
(
1
1,...,
P
k
k
s n n n P a s n k
=
=
)
(A.31)

( ) e n

Q
( ) s n
1
P
k
k
k
a z
+
_
+
( ) s n

( ) i m

1
P
k
k
k
a z
+
( ) e n

( ) 1,..., s n n n P

1
Q
( ) 1,..., s n n n P

Figure A.13 : Prdiction en boucle ouverte
Cependant, cette configuration boucle ouverte peut entraner une propagation derreur au
dcodage. Considrons lerreur de quantification du rsidu , on a pour la structure
en boucle ouverte ;
( ) ( ) ( )
n e n e n =
(A.32)
( ) ( ) ( ) ( ) ( (
1

P
k
k
s n s n n a s n k s n k
=
= +
))
)

Autrement dit, une erreur de quantification constante au codeur peut faire diverger le dcodeur. Cette
propagation derreur sera dautant plus forte que le gain du prdicteur linaire est lev.
Analyse en boucle ferme
Cette propagation derreur peut tre vite en considrant une structure en boucle ferme comme
illustre Figure A.14. Dans une structure en boucle ferme, un dcodeur local est intgr au codeur
91
.
On peut ainsi prdire lchantillon courant du signal de parole s n partir des chantillons
reconstruits prcdents s n . On a alors ;
( )
( ) (
1 ,...,s n P
(A.33)
( ) ( ) ( ) ( ) ( )
s n s n n e n e n = =
Cette relation montre quune erreur de quantification dans le domaine du rsidu entrane une erreur
identique dans le domaine de la parole. Elle dmontre aussi lintrt de la quantification sur le rsidu

91
La prsence dun dcodeur local au codeur ne signifie pas que lon effectue une analyse par synthse puisquici la
parole reconstruite nest pas utilise dans le critre derreur de la quantification.
de la prdiction linaire plutt que directement sur le signal de parole, puisque lerreur de
quantification est proportionnelle la puissance du signal quantifier et que la puissance du rsidu
est infrieure celle du signal de parole.

( ) e n

( ) s n
+
_
+ ( ) s n

( ) i m

+
1 k =
P
k
k
a z
( ) e n

( ) s n
1
P
k
k
k
a z
+
( ) e n

1
Q
( ) 1,..., s n n n P
Q
1
Q
( ) 1, ..., s n n n P

Figure A.14 : Prdiction en boucle ferme avec minimisation de lerreur sur le rsidu
Dun point de vue strictement mathmatique, il revient au mme, daprs la relation (A.33), de
rechercher le signal dexcitation en minimisant une erreur dans le domaine du rsidu de prdiction ou
une erreur dans le domaine de la parole. Dans la pratique, ceci est faux pour deux raisons. Dune part,
la relation (A.33) ne prend pas en compte lerreur de quantification des paramtres du prdicteur.
Dautre part, dun point de vue perceptuel, cest lerreur dans le domaine de la parole qui nous
intresse. Ces argument conduisent aux techniques danalyse par synthse.
A.4.1.b Analyse par synthse
Dans cette approche, on utilise comme critre doptimisation lerreur dans le domaine de la parole.
Ceci a deux avantages majeurs :
Minimiser une erreur dans le domaine de la parole permet de quantifier le signal dexcitation en
tenant compte de lerreur introduite par la quantification (spare dans la pratique) des
paramtres du prdicteur.
Le domaine de la parole se prte bien lintroduction dune mesure de distorsion perceptuelle.
( ) s n

( ) i m

( ) s n
+
( ) e n

1
Q
( ) W z
1
P
k
k
k
a z
( ) W z
Q

Figure A.15 : Prdiction en boucle ferme avec minimisation de lerreur sur la parole
Annexe A 192
La structure dun codeur analyse par synthse est schmatise Figure A.15. Elle utilise galement un
dcodeur local au codeur mais considre directement le signal synthtis s n pour comparaison avec
le signal de parole s n . La quantification du signal dexcitation utilise comme critre derreur une
distance perceptuellement pondre entre s n et s n . Cette pondration perceptuelle seffectue par
filtrage des signaux s n et s n par un filtre W z modlisant certaines caractristiques du
systme auditif. Ainsi, on modlise le phnomne de masquage frquentiel en attnuant la contribution
des zones spectrales les plus nergtiques. En effet, lerreur de quantification est moins perceptible
dans ces zones car elle est masque par le signal. Le filtre W z est le plus souvent dtermin partir
du filtre de synthse LPC et est de la forme :
( )
( )
(
( ) ( )
) ( )
( )
( )

( )
( )
( )
1
2
z
A
W z
z
A
= , avec 0 . (A.34)
2 1
1
] D
A.4.2 Dtermination de lexcitation
Les codeurs prdictifs par analyse-synthse, comme le GSM FR, et analyse par synthse, comme le
GSM EFR, diffrent par leur mode de calcul de lexcitation. On tudie ici les diffrentes manires de
dterminer cette excitation.
A.4.2.a Modlisation de la priodicit long-terme de lexcitation
Lors des sons voiss, le signal dexcitation prsente une forte priodicit long-terme. Les codeurs par
analyse-synthse utilisent un filtre prdicteur afin dextraire cette redondance long-terme avant
quantification. Les codeurs analyse par synthse modlisent le plus souvent cette priodicit laide
dun dictionnaire adaptatif.
Approche filtrage
Dans cette approche, la modlisation de la corrlation long-terme du signal dexcitation e n est
similaire celle employe pour la corrlation court-terme de la parole s n . Commenons par
dcrire lanalyse en boucle ouverte selon le schma de la Figure A.13 o le signal dentre analyser
est dsormais le rsidu de prdiction court-terme e n et le prdicteur utilis, un prdicteur long-
terme de la forme :
( )
( )
( )
(A.35)
( )
1
D
P z z

=
o est le coefficient de prdiction et D le dlai du prdicteur. Le dlai D correspond au pitch estim
et indique le niveau de voisement associ. Ils sobtiennent en minimisant lerreur de prdiction :
(A.36) [
2
( ) ( )
w w
LTP
E e n e n

o est le rsidu de prdiction court-terme e n , pondr par une fentre danalyse. En
drivant E par rapport , on obtient
( )
w
e n
( )
LTP
92
:

( )
2
( ) ( )
( )
w w
w
e n e n D
D
e n D
(A.37)
Puis on remplace par sa nouvelle valeur pour calculer D :

2
2
2
( ) ( )
( ) ( )
( )
w w
w
LTP
w
e n e n D
E D e n
e n D
l
l
l
l
=
(A.38)
On considre souvent comme constant le numrateur de cette expression. Lestimation du dlai D se
limite alors la recherche du maximum de lauto-corrlation de e . En pratique, le pitch de la
parole nest pas forcment un multiple de la priode dchantillonnage. On utilise alors un dlai D avec
une rsolution fractionnaire [Kleijn et al., 1995], en le dcomposant en une composante entire et une
composante fractionnelle.
( )
w
n
Le gain du prdicteur long-terme peut tre trs lev, ce qui rend instable le schma en boucle
ouverte. Aussi, le prdicteur long-terme P z est toujours implant selon le schma en boucle
ferme illustr par la Figure A.16. Le critre derreur doit donc tre modifi pour intgrer le signal
dexcitation reconstruit e n :
( )
( )
(A.39) [
2
( ) ( )
w w
LTP
E e n e n
] D

( ) u n

( ) e n
+
_
+ ( ) e n

+
D
z

( ) u n

( ) e n
+
( ) u n

1
Q
Q
1
Q
( ) e n D
D
z

Figure A.16 : Prdiction long-terme en boucle ferme

92
On reconnat ici un cas trivial de la mthode de lauto-corrlation.
Annexe A 194
Ds lors un problme se pose si le dlai D est infrieur la longueur L de la fentre danalyse w n .
En effet, compte-tenu de la mmoire du filtre, lquation (A.39) devient non linaire en . Ceci
restreint la recherche du dlai aux valeurs suprieures la longueur de la trame danalyse.
( )
Pour contourner cette contrainte, les paramtres du prdicteur long-terme P z sont gnralement
estims sur des sous-trames de 5ms, cest--dire 40 chantillons 8kHz. Une autre motivation du
calcul par sous-trames vient du critre derreur quadratique moyenne utilis (A.36), ce critre est mal
adapt au pitch puisquune faible variation du dlai D peut se traduire par une dviance trs forte de
lerreur. Certains procds de codage comme le RCELP proposent de relaxer ce critre derreur [Kleijn
et al., 1995].
( )
Approche dictionnaire adaptatif
Pour modliser la priodicit long terme, on remplace lapproche filtrage par lutilisation dun
dictionnaire adaptatif peupl des chantillons e n du signal dexcitation synthtis. Ceci est illustr
Figure A.17. Lindice dans le dictionnaire est associ la valeur du pitch D et le gain joue un rle
quivalent au coefficient du filtre prdicteur . Le signal u n reprsent Figure A.17 peut
tre compar au rsidu du prdicteur long-terme , il modlise les composantes non-priodiques
de lexcitation e n .
( )
P z
( )
(
P z
( )
)
( )

p
c
( ) D p
z
e
u

Figure A.17 : Synthse dune excitation voise par dictionnaire adaptatif
Le dictionnaire adaptatif apparat ainsi comme un buffer dcalage dont chaque vecteur dindice p
est form par :
( ) ( ) ( ) ( ) ( ) ( ) [ ] , 1 ..., 1
p
e n D p e n D p e n D p L = + + c (A.40)
o L correspond la longueur dune sous-trame et D p au dlai (ventuellement fractionnaire)
associ lindice p. On peut, avec cette approche, modliser des dlais D infrieurs la longueur L de
sous-trame en extrapolant le dictionnaire par priodisation [Moreau, 1995] pour les dlais .
Aussi, lutilisation dun dictionnaire adaptatif pour modliser les composantes priodiques de
lexcitation est devenue lapproche standard pour les codeurs CELP. Elle est notamment utilise dans
le codeur GSM EFR.
( )
( ) D p L <
Le dlai D (indice dans le dictionnaire) et le gain sont cherchs en minimisant une distance
perceptuelle sur la parole d s , selon le schma danalyse par synthse illustr Figure A.18. La
( ,
W W
s )
quantification du vecteur u de composantes non-priodiques nest pas reprsente pour plus de clart.
Cette quantification utilise un dictionnaire fixe associ un gain, elle est effectue aprs que la
contribution du dictionnaire adaptatif ait t fixe. Il sagit dune quantification multi-tages.

p
c
( ) D p
z
u
e
s

( ) W z
( ) W z
Q
W
s
( ) 1/A z
p
W
s

Figure A.18 : Dtermination de la composante priodique de lexcitation
La recherche du dictionnaire adaptatif peut tre vue comme une forme de quantification forme-gain.
En effet, on peut crire :
(A.41)
0
p
W
s Hc = + s
o H est la matrice associe la rponse impulsionnelle tronque [ ]
0 1
, ,...,
L
h h h du filtre W z
et s , la rponse libre
( ) ( )
/A z
0 0
93
du filtre, cest--dire sa rponse un vecteur dexcitation nul. Comme s ne
dpend pas de la trame dexcitation courante, la recherche du dictionnaire adaptatif doit minimiser
lerreur :
e
( ) ( )
2
0 0
,
p
W W
d s s H s s H = c
p
c (A.42)
Le gain optimal pour une forme fixe sobtient par le thorme de la projection orthogonale :
p
Hc

0
2
, (
T T
p p
W
p
T T
p p p
H c H
c H Hc H

= =
s s c s s
c
0
)
W
(A.43)
et la forme optimale maximise le coefficient de corrlation avec le vecteur cible ( ) :
p
Hc
0
W
s s

[ ]
2 2
0
2
, (
arg max max
T T
p p
W
T T
p p
p p p
s s H c H
p
c H Hc H

= =
c s
c
0
)
W
s

(A.44)
On reconnat des relations similaires celles de lapproche filtrage .
Le deuxime tage de quantification, cest--dire la recherche du dictionnaire fixe et de son gain
seffectue de manire analogue. Nous prsentons dans ce qui suit les principaux dictionnaires fixes
utiliss.

93
Cette rponse reprsente la mmoire du filtre puisque W z a une rponse impulsionnelle infinie. ( ) ( )
/A z
Annexe A 196
A.4.2.b Modlisation de l'excitation rsiduelle
La quantification de lexcitation rsiduelle est trs importante pour restituer le naturel de la parole.
Elle ncessite cependant lallocation dun grand nombre de bits puisquelle ne contient pas de
redondance modlisable. Aussi, cest un domaine qui fait lobjet de nombreuses recherches et cest le
plus souvent par leur modlisation de lexcitation rsiduelle (ou excitation secondaire) que les codeurs
se diffrencient. Les codeurs analyse par synthse comme le CELP utilisent des dictionnaires fixes
associs un gain alors que les codeurs par analyse-synthse utilisent simplement des modles
dexcitation (quon peut considrer comme des dictionnaires implicites). Parmi les modles les plus
courants, on trouve :
les codeurs MPE (Multi-Pulse Excited) o le rsidu est modlis par un train dimpulsions dont le
nombre est fix. Lamplitude et la position de ces impulsions sont laisses libres et subissent une
quantification scalaire.
Les codeurs RPE (Regular Pulse Excited), qui est un modle sous-optimal du prcdent. On
choisit la premire impulsion mais le nombre d'impulsions et leur espacement est entirement
dtermin.
Les principaux types de dictionnaires utiliss par les codeurs de type CELP correspondent des
squences de bruit gaussien [Schroeder et al., 1985], des dictionnaires stochastiques appris sur une
base de donnes, ou bien encore des impulsion normalises (+1,-1) dans le cas des dictionnaires
algbriques. Une autre variante consiste utiliser des dictionnaires engendrs par une base restreinte
de formes dondes combine une contrainte sur les coefficients de combinaisons linaires entre ces
formes.
A.5 Le codeur du GSM Full-Rate
Le codeur RPE-LTP [GSM, 06.10] analyse des trames de parole de 20 ms (160 chantillons 8 kHz).
Les coefficients du prdicteur court-terme LPC sont calculs sur lensemble de la trame de 20 ms
puis transforms en coefficients LAR avant dtre quantifies. Les paramtres du prdicteur long-
terme LTP et de son signal dexcitation sont ractualiss sur des sous-trames de 5 ms (40
chantillons). Le modle utilis pour chaque sous-trame de 40 chantillons du signal dexcitation est un
modle RPE (Regular Pulse-Excited) form dimpulsions rgulirement espaces tous les 3
chantillons. Les paramtres de ce modle sont la position de la premire impulsion dans la sous-trame
(offset ou grille RPE) qui est comprise entre 0 et 3 chantillons, ainsi que lamplitude de chaque
impulsion.

P n
e
.
n
r
{ }
k
a
8
1
. 1
k
k
k
z a
analyse LPC
(M=8)
chaque 20 ms
s
n

e
n

P n n n
e e r
= .

Choix dune
squence RPE

. z
P

( , ) P
Analyse LTP
( 120 40 P )
chaque 5 ms

40 chantillons

3*40 chantillons
-
+
P n n n
e r e
+ = .
+
+

3
RPE

Figure A.19 : Codeur RPE-LTP (analyse en boucle ferme)
Lensemble des paramtres RPE-LTP dfinissant 1 jeu de coefficients du filtre LPC, les 4 jeux
successifs de coefficients du filtre LTP et les 4 squences de 5 ms dexcitation RPE associes sont
quantifis sur un total de 260 bits et transmis toutes les 20 ms au dcodeur. Ceci correspond un
dbit de 13kbit/s. Pour tous les coefficients, la quantification est scalaire.

Paramtres par sous-trame Total par trame
8 coefficients LAR 36
gain (filtre LTP) 2 8
dlai P (filtre LTP) 7 28
gain de calibration 6 24
grille RPE 2 8
13 amplitudes 39 156
Total 260
Tableau A.1 : Allocation des bits par trame de 20 ms
Annexe A 198
A.6 Le codeur du GSM Enhanced-Full-Rate
Le codeur du GSM EFR [GSM, 06.60] est bas sur le principe des codeurs CELP illustr Figure A.20.
Nous en dcrivons ici succinctement les paramtres calculs. Le codeur opre sur des trames de 20 ms
(160 chantillons 8 kHz), divises en quatre sous trames de 5 ms (40 chantillons) pour la
dtermination de lexcitation.
Analyse LPC
Le filtre de prdiction court-terme LPC comprend 10 coefficients, qui sont estims deux fois par
trame sur des fentres asymtriques centres respectivement sur les sous-trames 2 et 4, et de longueur
30 ms (mmorisation de la trame passe).
Les coefficients LPC sont ensuite transforms en coefficients LSP (Line Spectral Pairs [Erkelens et al.,
1995]). La suite forme par les vecteurs de coefficients LSP est partiellement dcorrle en appliquant
une prdiction temporelle en moyenne adapte MA dordre 1. Les vecteurs de rsidus de prdiction
ainsi obtenus subissent alors une quantification vectorielle par produit cartsien (cf. A.2.3).
Plus prcisment, les deux jeux de 10 rsidus de prdiction MA (associs aux deux jeux de coefficients
LSP par trame) sont diviss en 5 matrices de dimension 2x2, regroupant les valeurs
o lindice t est lindice temporel (demi-trame) et k dsigne le kime
coefficient du vecteur de rsidu
( ) ( ) ( ) ( )
(
, , 1 1, 1,
; ; ;
LSP LSP LSP LSP
t k t k t k t k
r r r r
+ + + +
)
1
( ) LSP
t
r . Chacune des ces sous-matrices est alors quantifie sparment.
Les LSP des sous-trames 1 et 3 n'ayant pas t dtermines par analyse LPC du signal, elles seront
estimes par interpolation entre les sous-trames prcdente et suivante.
Dictionnaires dexcitation
Deux fois par trame, on effectue une premire estimation en boucle ouverte du pitch, ce qui permet de
restreindre la plage de recherche du pitch par la procdure d'analyse par synthse. Les index et gains
des dictionnaires adaptatifs et fixes sont calculs et transmis pour chaque sous trame. Le dlai de pitch
(lag) subit une quantification scalaire. Le gain du dictionnaire adaptatif (gain pitch) est quantifi en
utilisant une quantification scalaire non-uniforme sur 4 bits dans l'intervalle [0 1.2]. Le gain du
dictionnaire fixe (gain code) est partiellement dcorrl par une prdiction temporelle MA dordre 4.
Cette prdiction seffectue dans le domaine logarithmique. Le rsidu de prdiction est alors quantifi
sur 5 bits. Enfin, le dictionnaire fixe est reprsent par un dictionnaire algbrique de 35 bits [Jrvinen
et al., 1997].

pondration
perceptuelle
coefficients
LPC
rsidu LPC
2 jeux de
LSF
e
signal derreur
gain code
gain pitch
index code
algbrique
dlai de pitch (lag) p
w
e
+
dictionnaire adaptatif
a
C
( ) f
q
c
( ) a
p
c
dictionnaire algbrique
f
C
parole s
f
( ) W z
2
min
w
e
( )
1
A z
Analyse LPC

Figure A.20 : Schma du codeur EFR (analyse par synthse)
Finalement, le codeur CELP de l'EFR produit 244 bits par trame de 20ms (cf. tableau d'allocation des
bits), ce qui correspond un dbit de 12,2 kbit/s.

Paramtres 1
re
et 3
me
sous trame 2
me
et 4
me
sous trame Total par trame
LSP 7 ; 8 ; 9 ; 8 ; 6 38
dlai de pitch 9 6 30
Gain pitch 4 4 16
Dictionnaire fixe 35 35 140
Gain code 5 5 20
total 244
Tableau A.2 : Allocation des bits par trame de 20 ms
Annexe A 200

Annexe B

Le codage canal dans le systme GSM
B.1 Principes et stratgies de codage canal
L'objet du codage canal [Proakis, 1989] est de mettre en forme le message binaire transmettre dans le
canal de manire pouvoir dtecter et ventuellement corriger les erreurs introduites lors de sa
transmission. Le principe est d'introduire une redondance dans le message issu du codeur source de
manire ce que certaines configurations d'lments binaires (squences) soient impossibles en sortie
du codeur canal (diminution d'entropie). Une erreur de transmission sera dtecte si une squence
interdite est reue en sortie du canal. Cette erreur pourra ventuellement tre corrige en recherchant
la squence admissible la plus proche de la squence reue.
Plus prcisment, considrons un message d'information constitu par une suite d'lments binaires
mutuellement indpendants et prenant leur valeur de manire quiprobable dans l'alphabet {0,1} not
F
2
. Toutes les squences de K lments binaires ont la mme probabilit aussi la dtection d'erreurs est
impossible sur ce message transmis tel quel. Le codeur canal va produire pour chaque bloc m de K
lments binaires d'information en entre, un bloc de sortie x de N lments binaires cods avec
pour satisfaire la condition de redondance. Le rapport N K > R K N = est appel le rendement
du code ou taux de codage. La sortie du codeur est obtenue par combinaisons linaires d'lments
binaires du message d'information.
Annexe B 202
On rappelle ci-dessous les oprations d'additions et de multiplication dans F
2
:

a b a+b ab
0 0 0 0
0 1 1 0
1 0 1 0
1 1 0 1
Table B.1 : Oprations dans le corps F
2

On distingue deux grands types de codage canal :
Les codes en bloc linaires dfinis par une application linaire g de la forme :
(B.1)
( )
2 2
:

K N
g
g
=
F F
m x m
Les blocs x (appels dans ce cas mots de code) forment un sous-espace vectoriel de dimension K
dans l'ensemble des N-uplets binaires (g doit tre de rang plein). Une erreur est dtectable ds lors
que le mot r reu en sortie du canal n'appartient pas au sous-espace vectoriel E . Cette erreur
pourra tre corrige en prenant le projet orthogonal de r sur le sous-espace E (minimisation de la
distance de Hamming entre r et le mot de code estim x ).
, N K
E
, N K
, N K
2
N
F
Les codes convolutifs (ou rcurrents) dfinis par une application linaire f de la forme :

[ ] [ ] ( )
.
2 2
1 2 1 2
:
, ,..., , ,...,
K D N
D D
h
f
=
F F
m m m x m m m
(B.2)
Un bloc de sortie x (appel dans ce cas symbole canal) est produit en considrant non seulement le
bloc m
1
prsent en entre du codeur mais galement les ( ) blocs prcdemment entrs. Il y a
donc un effet mmoire qui engendre une corrlation de forme connue entre les symboles (blocs) x mis
par le codeur canal. Autrement dit, certaines squences de symboles x sont interdites ce qui permettra
la dtection et la correction d'erreurs.
1 D
Le choix d'un procd de codage dpend du type de canal et de la stratgie de protection contre les
erreurs. Deux stratgies complmentaires sont gnralement utilises :
Dtection des erreurs
On veut dtecter la prsence d'erreurs avec la plus grande fiabilit possible. Cela s'applique notamment
des donnes sensibles. En cas d'erreur, le rcepteur peut ventuellement demander l'metteur une
retransmission de l'information (Automatic Repeat Request). On utilise ici essentiellement des codes en
Le codage canal dans le systme GSM 203
blocs car leur performance de dtection est peu sensible la statistique des erreurs engendres par le
canal.
Correction des erreurs (Forward Error Control)
On doit ici raliser un compromis entre le rendement R et le taux d'erreurs binaires (TEB) rsiduelles
en sortie du dcodeur canal. Pour une qualit de transmission donne (rapport signal bruit fix), le
TEB dcrot lorsque le rendement R diminue, autrement dit lorsque le dbit binaire augmente en
sortie du codeur canal. Les codes convolutifs sont bien adapts si on accepte un rendement de codage
pas trop lev.
Dans la norme GSM, ces deux stratgies sont utilises :
La dtection des erreurs utilise un type particulier de codes en blocs linaires, les codes cycliques.
La procdure d'ARQ n'est pas applicable en raison du retard qu'elle implique mais elle est
remplace par une procdure de substitution de trame au niveau du dcodeur.
La correction d'erreurs est effectue par un codeur convolutif.
Nous prsentons maintenant plus en dtail ces deux types de codages.
B.2 Les codes cycliques
Les codes cycliques reprsentent la classe la plus importante des codes en bloc linaires. Ils sont
utilises de manire quasi-universelle dans les rseaux pour dtecter des erreurs de transmission. Nous
rappelons d'abord quelques dfinitions concernant les codes en blocs.
B.2.1 Capacit de dtection des codes en blocs linaires
On a vu que les mots de codes d'un code en bloc linaire constituent un sous-espace
vectoriel de dimension K dans . Les paramtres essentiels du code sont son rendement
2
K
, N K
E
2
N
F
, N K
E
R K N =
i
et sa distance minimale qui est la distance de Hamming minimale entre deux mots de codes
distincts x et
j
x :
(B.3)
( {
min
min ,
i j H
i j
d d
= x x
)}
}
On remarque que :
(B.4)
( )
{
min
min
H
d p
=
x 0
x
Annexe B 204
o est le poids du mot de code x (nombre d'lments non-nuls dans x) et 0 dsigne le mot de
code nul.
( )
H
p x
La distance minimale permet d'valuer les capacits de dtection/correction du code. En effet, soit r le
mot reu en sortie du canal :
(B.5) = + r x e
o x est le mot de code mis et e reprsente les ventuelles erreurs de transmission.
On a une configuration d'erreur indtectable lorsque e concide avec un mot du code mais un tel cas ne
peut se prsenter que si . Le code peut donc dtecter toutes les configurations de
M erreurs dans un bloc de N lments binaires avec :
( )
min H
p d e
, N K
E
(B.6)
min
1 M d =
Intuitivement, on comprend que la distance minimale d augmente avec le nombre d'lments
redondants ( N ) ajouts par le codeur canal, on peut montrer que la probabilit P
min
K
nd
de non-
dtection d'erreurs admet, pour un code en blocs, la borne suivante :

( )
2
N K
nd
P

(B.7)
B.2.2 Reprsentation polynomiale des codes cycliques
Un code en blocs linaires est cyclique si toute permutation circulaire gauche d'un mot de code
[ ]
1
,....,
N
x x = x est aussi un mot de code. Pour les codes cycliques, on utilise gnralement un
formalisme polynomial plutt que le formalisme vectoriel.
Dans la reprsentation polynomiale, chaque bloc de K lments binaires d'information
[ ]
1 1
, ,...,
K
m m m = m est reprsent par le polynme de degr ( K ) en t : 1
(B.8) ( )
1
1 2
...
K
K
m t m m t m t

= + + +
Un code cyclique est alors entirement gnr par un polynme gnrateur de degr ( ) et
de la forme gnrale :
, N K
E N K
(B.9) ( )
1
0 1 1
...
N K N K
N K
g t g g t g t t

= + + + +
En effet, chaque mot [ ]
1
,....,
N
x x = x
( )
du code cyclique peut tre obtenu partir du produit d'un
polynme d'information m t avec le polynme g t gnrateur du code selon : ( )
(B.10) ( ) ( ) ( ) x t m t g t =
o est le polynme de degr ( N ) reprsentant le mot de code x. ( ) x t 1
Pour dtecter une erreur de transmission, il suffit alors de vrifier si le polynme associ au mot
r reu en sortie du canal est un multiple du polynme gnrateur g t .
( ) r t
( )
B.2.3 Code cyclique sous forme systmatique
On utilise souvent un codage dit systmatique pour lequel les lments binaires dinformations
apparaissent explicitement dans les mots de code. Ainsi les mots d'un code cyclique sous forme
systmatique s'crivent :
(B.11) ( ) ( ) ( )
N K
c t m t t v t
= +
o est le polynme associ aux lments binaires d'information coder et v t , le polynme de
degr au plus gal ( N K ) associ aux lments binaires de redondance.
( ) m t ( )
1
Le calcul du mot de code x t est ici encore trs simple. Comme les mots du code cyclique sont
gnrs par le polynme gnrateur (i.e. x t est un multiple de g t ), on a :
( )
( ) ( )
(B.12) ( ) ( ) ( ) ( )
N K
m t t f t g t v t
= +
Les lments binaires de redondances sont donc obtenus comme le reste v t de la division euclidienne
de m t par g t .
( )
( )
N K
t

( )
La dtection d'erreur est inchange, elle consiste vrifier que le mot reu est bien un mot du code,
autrement dit qu'il est multiple de son polynme gnrateur g t . ( )
Le systme GSM utilise des codes cycliques systmatiques pour la dtection d'erreurs (Cyclic
Redundant Check). Ils indiquent au rcepteur la prsence d'erreurs non corriges par le codeur
convolutif.
B.3 Les codes convolutifs
La diffrence fondamentale entre les codes convolutifs et les codes en blocs est que les premiers
exploitent la notion de temps. Ils utilisent un effet mmoire sur les blocs de K lments binaires
prsents l'entre du codeur pour produire chaque bloc de N lments binaires en sortie. Ceci permet
notamment le codage flot continu en choisissant des blocs d'entre de longueur unit ( K ). De
plus, pour un code convolutif, la correspondance entre le message d'information en entre et les mots
de code (ou symboles canal) mis est trs structure ce qui conduit des techniques de dcodage trs
diffrentes de celles utilises pour les codes en blocs.
1 =
Annexe B 206
B.3.1 Principe du codage convolutif
Le principe d'un codeur convolutif est illustr par le schma de la Figure B.1. Les lments binaires
d'information en entre du codeur sont dcals, au sein d'un registre dcalage, par blocs de longueur
K. Pour chaque bloc de K lments binaires introduits dans le registre dcalage, le codeur produit en
sortie un bloc (symbole canal) de N lments binaires. Les N lments binaires d'un symbole canal x
sont obtenus par combinaisons linaires des lments binaires d'information du bloc m
1
en entre ainsi
que des ( ) blocs prcdemment mmoriss. 1 D

1 2 3 N
1 2 K .. 1 2 K .. 1 2 K ..
N combinaison linaires
bloc m
1
bloc m
D
Entre
Sortie : bloc x

Figure B.1 : Principe d'un codeur convolutif
La structure d'un codeur convolutif est caractrise par :
Le rendement du code, dfini comme pour les codes en blocs par R K N = .
La longueur de contrainte D qui correspond la dure de corrlation entre un lment binaire
d'information entr dans le codeur et la suite de symboles x mis en sortie.
La mmoire d'tat du codeur qui stocke les lments binaires d'information
prcdemment entrs.
( K D = 1)
Le codeur convolutif apparat comme un automate tats, la sortie x du codeur tant entirement
dtermine par la connaissance de l'tat du codeur et du bloc d'information m
2
1
prsent en entre. En
utilisant la reprsentation vectorielle des blocs
1 1
, ,...,
l l l
l K
m m m
l
=
l
m et [ ]
1
,....,
N
x x = x , on a :
[ ]
1
,...,
T
T
D
= x G m m (B.13)
o T est loprateur de transposition et G une matrice KD colonnes et N lignes ayant pour lments
.
, 2 i j
g F
Si on fait apparatre explicitement la suite temporelle d d'lments binaires en entre, on a :
k
[ ]
( ) ( ) 1 1
,..., , ,..., ,...,
D k k k l K k D
d d d d
K
l
=
l
l
m m (B.14)
On voit donc que la relation (B.13) correspond une opration de convolution vectorielle entre la
squence en entre du codeur et les N vecteurs lignes de G. Les vecteurs sont appels
squences gnratrices du code.
k
d
i
g
i
g
B.3.2 Reprsentation d'un code convolutif
Pour modliser le fonctionnement d'un codeur convolutif, on utilise des reprsentations graphiques sous
forme d'arbre, de treillis ou encore de diagramme d'tats. Chacune de ces reprsentations est elle-mme
la base d'algorithmes de dcodage spcifiques. Ainsi la reprsentation sous forme d'arbre conduit
des algorithmes de dcodage squentiel comme l'algorithme de Fano. La reprsentation en treillis est
associe l'algorithme de Viterbi [Forney, 1973] alors que l'algorithme de Bahl est plutt bas sur le
diagramme d'tats [Bahl et al., 1974].
B.3.2.a Reprsentation en arbre
La reprsentation en arbre repose sur une description des suites de symboles possibles
en sortie du codeur. A partir d'une racine (qui correspond un tat initial du
codeur, choisi nul en gnral), l'arbre se divise en deux branches chaque nouvel lment binaire entr
dans le registre du codeur. Une branche est associe l'entre d'un 0 et l'autre celle d'un 1. On
obtient ainsi une arborescence.
,1 ,
,...,
k k k N
x x
x
l
l
l
Nous ne dvelopperons pas plus cette reprsentation car nous ne l'utiliserons pas par la suite.
B.3.2.b Reprsentation en diagramme d'tats
Le diagramme d'tats, illustr Figure B.2, ne fait pas apparatre explicitement le temps mais seulement
les transitions possibles entre tats du codeur (vu comme un automate 2 tats). Les branches en
traits pointills correspondent une transition dclenche par l'entre d'un lment binaire
d'information gal 0. Les branches en traits pleins correspondent un lment binaire en entre gal
1. A chaque transition, on a associ le symbole canal x mis en sortie du codeur.
Annexe B 208
tat c
10
tat b
01
01
01
11
11
10
00
tat a
00
tat d
11
00
10
d=0
d=1
entres

Figure A.2 : Diagramme d'tat d'un codeur convolutif (K=1,N=2)
Pour un code convolutif de rendement / K N , 2
K
branches partent de chaque tat et 2
K
branches
aboutissent un mme tat.
A.3.2.c Reprsentation en treillis
Le diagramme en treillis reprsente les suites d'tats possibles au cours du temps (et non de symboles
comme le diagramme en arbre). On peut le voir comme le droulement au cours du temps du
diagramme d'tats. Pour illustrer le principe du treillis, on a reprsent sur la Figure A.3, le treillis du
codeur convolutif (7,5) = [111] [101].
00 00 00
11
10
10
10
00
01
11
01
01
11
temps
tats
a : 00
c = 10
b : 01
d : 11
d=0
d=1
entres :

Figure A.3 : Diagramme en treillis
Aprs D dcalages, quel que soit l'tat initial du codeur, le motif du treillis se rpte. En effet, la
longueur de contrainte D correspond la dure ncessaire pour renouveler entirement le contenu du
registre du codeur, c'est donc la longueur minimale au bout de laquelle deux chemins issus d'un mme
nud (tat) peuvent reboucler.
B.3.3 Capacit de correction d'un code convolutif
Pour les codes en blocs, les performances de dtection/correction d'erreurs taient mesures partir de
la distance minimale entre deux mots de code. Cette distance dpendant essentiellement du
rendement.
Conditionnellement un tat donn, un codeur convolutif peut tre vu comme un code en bloc dont
les mots de code (symboles canal) appartiennent un sous-espace de dimension K dans . Ceci
constitue une premire contrainte (fonction du rendement ) indispensable la
dtection/correction des erreurs. Mais le codeur convolutif rajoute une contrainte sur les transitions
entre tats qui se traduit par la longueur de contrainte D, longueur minimale pour que deux chemins
qui ont diverg convergent de nouveau. Le pouvoir de correction d'un codeur convolutif pourra donc
tre mesur par la plus petite distance de Hamming qui existe entre deux chemins qui divergent puis
convergent de nouveau
2
N
F
/ R K N =
94
, c'est la distance libre du code convolutif. Intuitivement, on voit que la
distance libre d dpendra du rendement R et de la longueur de contrainte D.
libre
D'aprs la dfinition de la longueur de contrainte D, l'influence d'un lment binaire d'information ne
perdure que sur D symboles canal, autrement dit sur lments binaires mis en sortie du codeur.
Aussi, les capacits de correction d'un code convolutif sont limites, en particulier en ce qui concerne
les erreurs groupes. Un code convolutif ne peut corriger les paquets d'erreurs de longueur suprieure
.
DN
( 1) D N
Comme on le verra par la suite, on a et pour le codeur convolutif mis en uvre dans le
systme GSM. Celui-ci ne pourra donc corriger des squences derreurs de longueur suprieure 8 bits.
Pour viter cet inconvnient, on utilise la technique de l'entrelacement prsente en Annexe C. Sous
certaines conditions, cette technique permet de transformer un canal paquets d'erreurs (comme le
canal radiomobile) en canal erreurs indpendantes.
5 D = 2 N =
B.3.4 Dcodage du code convolutif
De manire gnrale, on peut concevoir le dcodage canal selon deux stratgies distinctes.
Le critre d'optimalit porte sur les mots de code du codeur canal :
On estime les mots de code mis partir des mots reus et on en dduit la squence de
bits d'information . Dans le cas des codes en blocs, cette estimation s'effectue mot par mot
k
x
k
y
k
u

94
Poids minimal d'une erreur non-dtectable de manire analogue d pour les codes en blocs.
min
Annexe B 210
(mots de codes indpendants). Pour un codeur convolutif, les mots de code sont corrls et
seules certaines squences de mots sont possibles en sortie du dcodeur, elles correspondent aux
chemins autoriss dans le diagramme en treillis du code. Dans ce cas, l'estimation du mot de code
mis l'tape k ne peut se faire indpendamment de l'estimation des mots prcdents
. Pour dcoder une squence de mots , il est ncessaire de considrer la squence
reue dans son ensemble, c'est la dmarche de l'algorithme de Viterbi [Forney, 1973] qui choisit le
meilleur chemin dans le treillis (selon le critre d'optimalit du Maximum a Posteriori). On parle
alors de minimisation de la probabilit d'erreur par squence.
k
x
k
x
0
{
1
,...,
k
x x }
k
y
Le critre d'optimalit porte sur les bits d'informations dcods :
On cherche ici minimiser la probabilit d'erreur sur chaque bit d'information dcods (plutt que
de rechercher la meilleure squence de bits dcods). Ceci ncessite d'intgrer tous les chemins du
treillis dcodant une mme valeur du bit d'information considr. Cet algorithme, beaucoup plus
complexe a t propos par [Bahl et al., 1974].
On se place dans ce qui suit selon la premire approche (minimisation de la probabilit d'erreur par
squence). Avant de prsenter l'algorithme de Viterbi, il convient de dfinir la nature exacte des
informations reues du canal.
B.3.4.a Canal sorties souples
Le dcodage canal est trs souvent prsent dans le cadre dun canal additif bruit gaussien (CABG).
On adopte ici un formalisme diffrent permettant de donner une interprtation en termes de
probabilit derreur de la sortie souple dun canal (cf. Annexes C et D). Ainsi, on modlise le canal
quivalent form par lensemble (entrelacement - canal radio - galisation d-entrelacement) comme
un canal binaire symtrique (CBS) sans mmoire et de probabilit derreur instantane connue. Ceci
est illustr par le schma de transmission Figure B.4.
On notera quon peut dfinir un tel canal partir dun canal additif bruit gaussien (CABG) en
considrant les dcisions fermes en sortie du canal. Dans ce cas, la probabilit derreur varie au cours
du temps et doit tre estime pour chaque bit, cest pourquoi on parle de probabilit derreur
instantane. Nous prsentons en Annexe C une implmentation de lgaliseur permettant destimer une
probabilit derreur pour chaque bit.

k
u

k
u
k
x
k
y
k
e
p

Codeur canal

Dcodeur canal
1
e
p
1
e
p
e
p e
p
1 + 1 +
1 1
Canal quivalent
sans mmoire

Figure B.4 : Modle de canal utilis pour le dcodage canal
La connaissance des probabilits derreur
,1 , ,
,..., ,...,
k k k r k N
e e e
p p p
l
=
l
l
e
p
, k r
x
associes aux bits du mot de code
reu ltape k dfinit la sortie souple du canal quivalent. Plus exactement,
on dfinit la sortie souple L x du canal quivalent dentre , de la faon suivante :
,1 , ,
,..., ,...,
k k k r k
y y y
y
N
l
l
l
) (
, k r

( )
( )
( )
,
,
,
,
,
,
, ,
1
log
1
1
log
k r
k r
k r
k r
k r
k r
e
c
k r k r
e
p x
L x
p x
p
y y
p
= +
=
=
= = L
}
(B.15)
Le signe de la sortie souple correspond la dcision ferme y en sortie du canal quivalent binaire
symtrique alors que la valeur absolue de la sortie souple mesure la confiance L dans cette dcision
ferme.
, k r
, k r
c
B.3.4.b Principe du dcodage par squences
Le dcodeur cherche la squence de symboles canal (ou de manire quivalente,
le chemin dans le treillis) maximisant la probabilit a posteriori (conditionnellement la squence
reue Y y ) :
{
1
,..., ,...,
L k
= X x x x
/
{ }
1
,..., ,...,
L k
= y y
( )
( )
( )
( )
admissibles
arg max arg max p p = =

X X
X X Y X
/
/
Y
N
(B.16)
o l'on a tiquet la squence de symboles mise par le chemin correspondant dans le treillis. On
notera x et , les symboles canal mis (resp. reus) ltape k du treillis. On a :
/
(
,1 ,
,...,
k k k
x x =
)
k
y

( )
( )
( )
( )
( )
( )
( )
p
p p
p
=
X
X Y Y X
Y
/
/ /
(B.17)
On a fait lhypothse que les symboles d'informations taient indpendants et uniformment distribus,
il en rsulte que les chemins du treillis sont quiprobaux. Comme la probabilit est une ( ) p Y
Annexe B 212
constante relativement au chemin , le critre (B.16) du Maximum a Posteriori (MAP) est quivalent
au Maximum de Vraisemblance (MV) :
/
m
=
( )
+

( )
( )
( )
( ) arg ax arg max p p = X Y Y X
/
/ /
(B.18)
/
De plus, on a suppos un canal sans mmoire, donc:

( )
( ) { }
( )
( ) { } log log
k k
k
p p =

Y X y x
/ /

Le critre (B.18) revient ainsi maximiser la mtrique rcursive :

( ) ( ) ( )
( ) {
1
log
k k k k
M M p
= + y x
/ / /
} (B.19)
L'incrment de mtrique
( ) ( )
( ) { log
k k
M p y x
/
, , k r
c
k r
}
k
/
ne dpend que de la branche du treillis et des
donnes reues l'tape k du treillis, on l'appelle mtrique de branche. On peut lexprimer (cf.
Chapitre 6) en fonction de la sortie souple L y du canal selon :

( )
( ) { }
,
( )
,
1
log
k n
N
c
k k k k n
n
M p x L
=
= =

y x
/ / /
, k n
y (B.20)
On a ainsi formul le problme d'estimation en un problme de recherche du chemin de meilleur cot
dans un treillis. Un tel problme est adress par l'algorithme de Viterbi.
B.3.4.c Algorithme de Viterbi
L'algorithme de Viterbi [Forney, 1973] drive du principe de la programmation dynamique et permet
de dterminer le chemin de mtrique maximale dans le treillis. Cet algorithme, divis en quatre tapes,
a la forme suivante :
A chaque symbole y reu ltape k :
k
Calcul des mtriques de branches :
( )
k
M
/

Cumul des mtriques : pour chaque chemin partiel m :
( ) ( ) ( )
1 k k
M
= +
/ /
k
/
M M
Choix du chemin survivant l'tape k : En chaque nud, il converge 2 chemins. Le chemin le
plus vraisemblable jusqu' un nud correspond au chemin de mtrique la plus forte. On conserve
donc en ce nud la valeur de la mtrique la plus forte ainsi que l'indice du nud dont est issue
la branche du treillis choisie.
K
On passe ltape suivante k . 1
Jusque l, on a donc besoin de conserver la mtrique pour chaque nud, ce qui correspond un
vecteur de longueur 2 , ainsi que de l'indice du nud prcdent chaque nud l'tape k, ce qui
correspond une matrice de lignes et L colonnes. Lorsquon arrive au bout du treillis (dernier
symbole reu), il suffit de remonter le long du chemin de mtrique la plus leve, dans le sens inverse,
opration aussi appele trace back :
Traceback : Parmi les distances cumules calcules la rception du dernier symbole, celle de plus
forte valeur correspond au chemin de vraisemblance maximale. Le nud prcdent correspondant
a t mis en mmoire, ainsi que le nud prcdent ce nud et ainsi de suite. On retrouve le
chemin parcouru dans le treillis et de ce fait la squence mise la plus vraisemblable.
B.4 La protection aux erreurs de transmission du
GSM FR et EFR
Contrairement au codage source, le codage de canal na pas volu ente le GSM EFR et le GSM FR
[GSM, 05.03]. Pour garder le mme dbit en entre du codeur de canal (trame de 260 bits), on a donc
rajout un codage de canal prliminaire , constitu de 16 bits de redondance, rpartis en 8 bits
rsultant dun codage CRC et 8 bits de rptition. Les 260 bits de la trame code sont ensuite rpartis
en trois classes selon leur impact sur la qualit de la parole [Scalart, 1997] :
Classe I.a : 50 bits, trs sensibles aux erreurs, ils ne doivent pas tre mal interprts.
Classe I.b : 132 bits, sensibles aux erreurs.
Classe II : 78 bits, les moins sensibles aux erreurs.
Les 50 bits de la classe I.a sont protgs par un code cyclique CRC de 3 bits. Si, la rception, une
erreur est dtecte sur cette partie de la trame, la trame complte est rejete (perte de trame) et une
technique de masquage est utilise (cf. Chapitre 1).
Les 53 bits rsultants de lapplication du CRC aux lments de la classe I.a sont groups avec les 132
bits de classe I.b pour former un bloc de 185 bits auquel est appliqu un code convolutif de rendement
R=1/2 et de mmoire . Il en rsulte un bloc protg de taille 2*(185+4) soit 378 bits. 4 =
En ajoutant ces 378 bits protgs, les 78 bits de la classe II, non protgs, on obtient le bloc de 456
bits produit en sortie du codeur de canal du GSM. Ces oprations sont schmatises par la Figure B.5.
Annexe B 214

260 bits
244 lments binaires / 20 ms
244 lments binaires / 20 ms 8 bits CRC et 8 bits de rptition
Trame GSM 456 bits
Classe Ib 132 bits Classe II 78 bits
50 3 132
378 132
4
Code CRC
3 bits de parit
Tail bits
Code convolutif (33,23) R = 1/2
Classe Ia 50bits

Figure B.5 : Rpartition des bits aprs codage de canal

Annexe C

Simulation du canal de transmission
Le canal de transmission, tel que nous le considrons ici, englobe les fonctionnalits d'mission et de
rception de part et d'autre du canal physique de transmission proprement dit (canal radio). Nous
prsentons ici ces lments et principalement le rcepteur. Ce dernier est appel rcepteur interne par
opposition au rcepteur externe form par les dcodeurs de canal et de source (cf. Chapitre 1). Son rle
est de faire apparatre un canal idal du point de vue du dcodeur externe, c'est--dire un canal sans
mmoire et de probabilits de transitions connues chaque instant n comme illustr Figure C.1.

bruit ( ) t
Modulation
Estimation
du canal
( ) , m t x
( ) r t
n
x
Dmodulation
/Egalisation
n
y
Canal sans
mmoire
( )
n n
p y x
n
x
n
y
Milieu de
transmission ( ) , h t
Entrelacement
D-entrelacement
n
x
n
y

Figure C.1 : Canal quivalent associ au rcepteur interne
Annexe C 216
C.1 Caractristiques du milieu de transmission
Le canal de propagation radiomobile introduit de nombreuses perturbations sur le signal transmis. En
effet, la transmission radiofrquence entre un mobile et une station de base est perturbe par la
prsence d'obstacles tel que le relief naturel ou bien encore les btiments. Une partie des ondes
rflchies ou diffractes par ces obstacles sera capte par le rcepteur, on parle alors de transmission
par trajets multiples. Cette caractristique introduit deux effets majeurs :
les vanouissements slectifs (fading) qui correspondent des interfrences destructives entre
trajets.
l'interfrence entre symboles (IES) du la dispersion temporelle des signaux provenant des
diffrents trajets.
Ces effets sont de plus non-stationnaires puisque les trajets fluctuent avec le mouvement du mobile.
Une autre cause majeure de perturbations est lie au concept cellulaire. La rutilisation de frquences
entre cellules gnre un taux de brouillage (rapport signal/interfrences C/I) qui peut tre lev pour
un rseau dense de cellules.
C.1.1 Slectivit en frquence
La rponse impulsionnelle en bande de base d'un canal multi-trajets scrit selon :
(C.1) ( ) ( ) ( )
(
1
0
,
N
p p
p
h t c t d
=
=
)
Ce modle intgre la variabilit temporelle du canal lies aux variations (en ) des caractristiques des
trajets (attnuation c et retard d ). Sa fonction de transfert est de la forme :
( )
p

( )
p

(C.2) ( )
( )
( )
1
2
0
,
p
N
j fd
p
p
H f c e

=
=

Le module de cette fonction de transfert prsente des trous certaines frquences (vanouissement
en frquences). Autrement dit, certaines frquences subissent une trs forte attnuation du fait de
linterfrence entre trajets, ceci caractrise la slectivit en frquence d'un canal multi-trajets.
On appelle bande de cohrence du canal, l'cart frquentiel
c
f entre deux vanouissements. Elle est
lie au temps de dispersion de groupe de la rponse impulsionnelle par :
t

1
2
c
t
f
(C.3)
Simulation du canal de transmission 217
Le canal de propagation sera slectif en frquence si la largeur de bande W du signal mis excde la
bande de cohrence
c
f , soit :
(C.4)
c
W f
Dans le cas contraire, toutes les frquences de la bande W subissent globalement la mme attnuation
("fading plat"). Cette attnuation peut cependant tre trs forte (lorsque la bande W correspond une
zone d'vanouissement frquentiel).
Dans le domaine temporel, la slectivit en frquence se traduit par l'interfrence entre symboles (IES).
En effet, puisque 1
s
T W o T est la dure d'un symbole, la relation (C.4) s'crit :
s
(C.5)
s t
T
ce qui signifie que le retard "moyen" des trajets secondaires par rapport au trajet de rfrence est
important compar la dure T d'un symbole. Pour les canaux radiomobiles, le temps de dispersion
de groupe est de l'ordre de 5 10 en zone urbaine et de 0.7 en zone rurale.
s
t
s s
C.1.2 Variabilit temporelle
On a pour l'instant considr une rponse impulsionnelle (C.1) dtermine, autrement dit un instant
t fix. En fait, les trajets varient en fonction du dplacement du mobile. Ceci se traduit par des
modifications de la fonction de transfert, la position et la profondeur des vanouissements variant dans
le temps.
L'volution dans le temps du canal est directement lie la rapidit du mobile. Ainsi, le dplacement
du mobile va induire pour chaque trajet n, le dcalage Doppler:

0
cos
n
d
f v
f
c
=
,
(C.6)
v
,
tant la vitesse du mobile et , l'angle du trajet n par rapport au vecteur v
n
,
.
Plusieurs dfinitions du temps de cohrence peuvent tre rencontres, ici on le dfinira selon :
c
t

max
1
2
c
d
t
f
(C.7)
Le canal sera considr comme introduisant des vanouissements rapides s'il varie sensiblement
pendant la dure d'un symbole, soit :
(C.8)
s
T
c
t
Annexe C 218
Dans le cas radiomobile, on a 250
d
f Hz , soit . 2
c
t ms
c
t
s

En conclusion, on voit que la capacit C du canal radiomobile dpend de la dure symbole T choisie.
En effet, pour un niveau d'interfrences et de bruit donn, la capacit C va dpendre de l'amplitude du
signal reu ainsi que de l'interfrence entre symboles IES. Pour maximiser la capacit C, on doit
respecter la contrainte suivante :
s
(C.9)
s t
T
La dure symbole du GSM est T . Le canal de propagation GSM est donc fortement slectif
en frquence (en zone urbaine) mais prsente peu d'vanouissements rapides.
3.69
s
=

C.1.3 Modles de canaux
On a jusqu'ici dfini la rponse impulsionnelle du canal de faon dterministe. Dans la ralit, les
paramtres dfinissant la rponse (C.1) ne sont absolument pas matrisables, on doit donc utiliser des
modles de canaux. On prsente ici les deux modles utiliss dans la norme du GSM.
Modle de Rayleigh (TU) :
Ce modle suppose un canal non slectif (vanouissements plats) et sans vanouissements rapides. Le
signal reu en bande de base un instant t donn peut tre modlis comme une variable alatoire de
la forme :
( )
j
a
r t R e

= (C.10)
o est distribue uniformment entre 0 et 2 et l'amplitude R (rel positif) suit une loi de
Rayleigh :

a

( )
2
2
2
2
a
x
R
x
p x e
= ; x (C.11) 0 >
Ce modle correspond aux modles TU du GSM (zones urbaines).
Modle de Rice (RU):
Ce modle correspond au cas o un des trajets reus prsente une attnuation constante (trajet
dominant). L'amplitude du signal reu r t suit alors la loi :
a
R ( )

( )
( )
2 2
2
2
0 2
a
x
R
x
p x e I
=
2
x
0 > ; x (C.12)
Ce modle correspond au modle RU du GSM (zones rurales).
C.2 Fonctionnalits de l'metteur
La principale opration ralise par l'metteur, appele modulation, consiste associer au message
numrique issu du codeur de canal, un signal analogique de forme adapte au milieu de propagation
utilis (fonction d'adaptation). Parmi les autres traitements effectus par l'metteur, on prsentera le
saut de frquences qui permet de lutter contre les interfrences (diversit frquentielle). Enfin, bien
qu'elle soit en pratique ralise au niveau du codeur canal, on a intgr l'opration d'entrelacement
l'metteur. En effet, l'entrelacement peut tre vu comme une technique de diversit temporelle destin
lutter contre les vanouissements.
C.2.1 Entrelacement (diversit temporelle)
Les vanouissements slectifs du canal radiomobile introduisent, au niveau du rcepteur, des erreurs de
dcodage se prsentant le plus souvent sous la forme de "paquets" d'erreurs groupes. Or le codeur
convolutif utilis dans le GSM ne peut corriger une squence d'erreurs de longueur suprieure 8
lments binaires (cf. Annexe B). L'entrelacement vise donc transformer un canal paquets d'erreurs
en un canal erreurs indpendantes en fragmentant ces paquets d'erreurs.
C.2.1.a Entrelacement bloc
Dans le systme GSM, chaque squence de 456 lments binaires provenant du codeur canal est insre
dans une matrice de 57 lignes et 8 colonnes. Les lments binaires sont rentrs ligne par ligne et
ensuite lus colonne par colonne. Chaque colonne correspond un sous-bloc (ou un demi-burst).
Annexe C 220

b
0
b
1
b
2
b
3
b
4
b
5
b
6
b
7
b
8
b
9
b
10
b
11
b
12
b
13
b
14
b
15
b
448
b
449
b
450
b
451
b
452
b
453
b
454
b
455
criture
lecture
A0

A1

A2

A3

A4

A5

A6

A7

Figure C.2 : Entrelacement bloc
C.2.1.b Entrelacement convolutif
Suite lentrelacement bloc, la transmission des 8 sous-blocs obtenus est tale dans le temps de
manire lutter contre les vanouissements slectifs et les brouilleurs. Ainsi, chaque sous-bloc est
associ avec un sous-bloc de la trame prcdente (pour les sous-blocs A0 A3) ou de la trame suivante
(pour les sous-blocs A4 A7) pour former un bloc de 114 lments binaires (burst). On remarquera
que cet entrelacement dit diagonal (ou convolutif) introduit un retard dune trame dans la
transmission.
Enfin, lintrieur dun burst de 114 lments, les lments binaires provenant de la trame de parole
la plus rcente (sous-blocs A0 A3) et de la trame prcdente (sous-blocs A4 A7) sont alterns.

e
2n
e
2n+1
A0 A1 A2 A3 A4 A5 A6 A7 A0 A1 A2 A3 A4 A5 A6 A7 A0 A1 A2 A3 A4 A5 A6 A7
e
1
e
2
.e
114
e
1
e
2
.e
114
e
1
e
2
.e
114
e
1
e
2
.e
114
e
1
e
2
.e
114
e
1
e
2
.e
114
e
1
e
2
.e
114
e
1
e
2
.e
114

Figure C.3 : Entrelacement convolutif
C.2.2 Modulation
La modulation joue un rle particulirement important dans les performances dun systme de
transmission. Deux critres principaux rgissent le choix dun type de modulation :
La bande passante, dtermine par le spectre de puissance du signal modul. Dans les applications
radiomobiles, le premier objectif est de rduire loccupation spectrale.
Le taux derreurs binaires (TEB) en sortie du canal physique. Intuitivement, on peroit que les
erreurs introduites lors de la transmission seront dautant plus faibles que la distance entre les
tats de modulations du signal propag sera grande
95
. Pour la parole numrise, des taux derreurs
de lordre de 10 sont acceptables.
3
La modulation utilise dans le GSM est la modulation GMSK. On peut la considrer comme une
modulation MSK dont les transitions de phase seraient adoucies afin de diminuer loccupation
spectrale. En fait, il s'agit d'une modulation de frquence, le signal modul s'crit :
( ) ( )
( ) 0
0
, cos 2 ,
t
m t f t v d

=
= +
x x
)

(C.13)
le signal tant le rsultat d'un pr-filtrage de la squence ( , v t x
96
transmettre par
un filtre passe-bas gaussien g t dfini par son produit BT .
( ) { }
b n
x nT
= x
N
( )
s
On se bornera ici rappeler quelques caractristiques essentielles de cette modulation :
La modulation GMSK peut tre linarise et ainsi tre traite de manire analogue une
modulation antipodale comme la MDP-2.
La dure symbole T est ici gale la dure dun lment binaire cod T .
s
b
La rponse du filtre stale sur 3 lments binaires, le pr-filtrage introduit donc de linterfrence
entre symboles (IES). En fait, loccupation spectrale est dautant plus faible que le produit BT
diminue mais cest au prix dune dgradation du TEB engendre par laugmentation de lIES.
Ainsi, lutilisation dun galiseur en rception apparat indispensable mme lorsque le canal
radiomobile est peu slectif en frquence (zones rurales).
s

95
On peroit galement que le TEB et loccupation spectrale sont des critres antinomiques puisquil est
ncessaire davoir des transitions les plus douces possibles entre les tats de modulations si lon souhaite
minimiser loccupation spectrale.
96
T .dnote ici la dure dun lment binaire alors que T est celle dun symbole de modulation.
b
s
Annexe C 222
C.3 Fonctionnalits du rcepteur
Le rcepteur interne est la partie qui nous concerne le plus dans cette prsentation car son rle est de
reproduire un canal idal vis vis du rcepteur externe (dcodeurs canal et source). Il se compose
essentiellement de deux fonctions, une fonction destimation de la rponse du canal et une fonction
dajustement au canal (synchronisation, galisation). La prsentation succincte qui est faite ici vise
surtout fournir une interprtation de la sortie renvoye par le rcepteur interne.
C.3.1 Estimation de la rponse impulsionnelle du canal
Afin destimer la rponse impulsionnelle du canal, on insre dans les bursts mis une squence
dapprentissage connue du rcepteur. Une proprit trs intressante pour une squence
dapprentissage est davoir une fonction dauto-corrlation proche du Dirac . Ce type de squence
permet alors de synchroniser finement chaque burst et de sonder le canal de propagation radiomobile
par filtrage adapt. En effet, la fonction dinter-corrlation value entre le signal mis en
entre du modulateur et le signal reu en sortie du filtre de rception et chantillonn la
priode T est donne par :
( )
n
(
s
r nT
( )
, x r
n
n
x
)
) nT
)
n
)
s
)
s
s
(C.14)
( ) ( )
(
, ,
s
x r x x
n n h

=
o dsigne lopration de convolution et h n est la rponse impulsionnelle du canal incluant les
filtres de modulation et de rception et value aux instants dchantillonnage.
(
s
T
Donc si lon a , linter-corrlation fournit une estime de la rponse
impulsionnelle h n .
( ) ( )
, x x
n

( )
s
T
( )
, x r
n
Il convient de remarquer que pour un canal non-stationnaire comme le canal radio-mobile, les lments
binaires en dbut et en fin de burst (donc les plus loigns de la squence dapprentissage) subiront des
taux derreurs binaires plus importants.
C.3.2 Egaliseur de Viterbi
On suppose dsormais disposer dune estime de la rponse impulsionnelle en bande de base
du canal de transmission incluant les filtres de modulation et de rception. Lgalisation
de la squence reue r r est un problme de dconvolution qui peut tre traiter de manire
analogue au dcodage dun code convolutif. A ce titre, le canal apparat comme un code de rendement
unit et de polynme gnrateur h . On peut facilement tablir la mtrique de branche du treillis
associ ce code :
(

n
h h nT =
(
n
nT =
n

2
1
0
L
n n
l n l
l
M r h x
(C.15)
o est le signal numrique mis en entre du modulateur. 1
n
x =
Il parat essentiel dutiliser un algorithme de dcodage gnrant des sorties souples dans la mesure o
celles-ci sont ensuite (aprs d-entrelacement) places en entre du dcodeur canal. Il existe plusieurs
algorithmes de dcodage convolutif fournissant des sorties souples (Annexe D). Le point commun
tous ces algorithmes est que la sortie souple du dcodeur convolutif peut sinterprter selon :
( )
( )
( )
1
log
1
n
n
n
p x
L x
p x
= +
=
=
r
r
(C.16)
o r dsigne la squence des chantillons r en entre de lgaliseur (cf. Figure C.4).
n

D-entrelaceur
bruit ( ) t
Modulation
( )
s
r nT
Egaliseur
de Viterbi
sortie souple
Milieu
de transmission
n
x ( )
n
L x
s
T
Entrelaceur
n
x ( ) n
L x
Pattern derreur
( ) / C I
n
EP

Figure C.4 : Rcepteur interne sortie souple
Dun point de vue plus physique, la sortie souple L x aprs d-entrelacement peut tre interprte
de deux faons :
(
n
)
)
)
)
n
x
CABG : La squence L x apparat comme une variable alatoire gaussienne dcorrle (en
raison du d-entrelacement), de moyenne et de variance . La
sortie du rcepteur interne illustr Figure C.4 apparat comme la sortie dun canal additif bruit
gaussien (CABG) sans mmoire.
(
n
( ) (
n
m E L x = ( ) ( )
2
var
n
L x =
CBS : On peut former les dcisions fermes en sortie du canal quivalent.
Celui-ci sinterprte alors comme un canal binaire symtrique sans mmoire (en raison du d-
entrelacement) de probabilit derreur instantane connue. Cette probabilit derreur associe
la dcision y drive de la sortie souple selon (cf. Chapitre 3) :
( ) ( sign
n
y L =
n
e
p
)
n n
( L x
( )
( )
( )
( )
( )
1 1
log log log
1 1
n
n
e n n
n n
n n
p p x p y
L x y y
p x p y p
= +
= = =
=
r r
r r
n
e
(C.17)
Annexe C 224
soit :
( )
1
1 exp
n
e
n
p
L x
=
+
(C.18)
Si le point de vue CABG est celui gnralement adopt pour interprter les entres du dcodeur canal
(sorties souples du canal de transmission quivalent), le point de vue CBS est en revanche celui avec
lequel le dcodeur de parole souple (cf. Chapitre 3) interprte la sortie du dcodeur de canal sorties
souples (SOVA). Aussi, cest ce point de vue CBS que nous adopterons systmatiquement afin
dutiliser le mme formalisme en entre du dcodeur canal et en entre du dcodeur souple de parole.
C.4 Simulation du canal par insertion derreur
Les conditions de transmission utilises pour valuer les algorithmes tudis dans ce document ont
toutes t obtenues partir dune simulation du canal de propagation radio. Le simulateur utilis
permet de rgler les paramtres principaux suivants :
Rapport signal utile (porteuse) sur bruit (interfrences) C/I.
Nombre de trajets du canal radio-mobile.
Vitesse du mobile.
Saut de frquence (idal, cyclique ou dsactiv).
Afin de pouvoir comparer les algorithmes sur les mmes configurations dinsertion derreur engendres
par la transmission radio, le simulateur de canal est utilis pour gnrer des pattern derreur . Ces
patterns derreur reprsentent la relation entre-sortie du systme comprenant le modulateur, le canal
radio et le dmodulateur-galiseur sortie souple, tel quillustr Figure C.4. Plus prcisment, cette
relation entre-sortie instantane est donne linstant dchantillonnage n par :

( )
( )
/
n
C I
n
n
L x
EP
x
avec (C.19) { 1; 1
n
x + }
Les patterns derreur sont ainsi gnrs une fois pour toutes, pour un ensemble de conditions de
transmission fix. Ces patterns sont ensuite utiliss pour obtenir les valeurs souples ( )
n
L x mises en
entre du d-entrelacement afin de simuler une condition donne de transmission.
Les conditions de transmission utilises pour les valuations des algorithmes sont les suivantes :
Rapport C/I variant dans la plage de 2dB 10dB
Canal TU50 (12 trajets et vitesse du mobile de 50km/h)
Saut de frquence idal.
On notera que le rapport C/I ne varie pas au cours dune mme simulation de transmission.
Autrement dit, chaque pattern derreur est associ un rapport C/I fixe, cest pourquoi on les dsigne
sous la terminologie patterns derreurs fixes .
Annexe C 226

Annexe D

Dcodage convolutif sorties souples
On s'intresse ici au problme de l'obtention d'une information de fiabilit sur les bits dcods en sortie
d'un dcodeur convolutif. Les principaux algorithmes bass sur la structure du treillis sont prsents
ainsi que l'interprtation exacte de l'information de fiabilit qu'ils renvoient.
D.1 Classes d'algorithmes de dcodage sorties
souples
On distingue deux grandes classes d'algorithmes de dcodage sorties souples s'appuyant sur la
structure du treillis :
Algorithmes dlivrant des listes [Hashimoto, 1987]
Ces algorithmes, bass sur une gnralisation de lalgorithme de Viterbi (GVA), renvoient la
liste des M meilleurs chemins dans le treillis au lieu de se borner au chemin le plus
vraisemblable. Ainsi, pour chaque symbole dcoder, on dispose de M dcisions fermes,
pondres par les mtriques des chemins associs. Un tage postrieur de traitement pourra
ensuite utiliser cette liste pour gnrer une valeur souple du symbole dcod. On ne stendra
pas plus ici sur cette classe dalgorithmes.
Algorithmes dlivrant des symboles souples
Lalgorithme optimal est ici lalgorithme du Maximum a Posteriori MAP [Bahl et al., 1974]. Cet
algorithme dlivre, en chaque instant, la probabilit (marginale) a posteriori du symbole dcoder. Il
permet donc de minimiser le taux derreur par symbole dcod et non la probabilit derreur par
squence comme lalgorithme de Viterbi. Cependant, cet algorithme est trs complexe et pose des
difficults dimplmentation. Aussi, des algorithmes sous-optimaux mais ne ncessitant pas de
Annexe D 228
modification majeure de lalgorithme de Viterbi ont t proposs. On prsentera ici lalgorithme du
Max-Log-MAP [Koch et al., 1990] et lalgorithme SOVA (Soft Output Viterbi Algorithm) [Hagenauer
et al., 1989].
On considre dans tout ce qui suit un code convolutif de mmoire et de rendement 1 N = R . On
suppose galement un fonctionnement du codeur par trames de longueur L, ce qui correspond au mode
utilis pour les applications de type GSM. De plus, ltat initial et ltat final est forc zro par des
tail bits (bits nuls placs en fin de message, cf. Annexe B).
On notera [ ]
0 L k
,..., ,..., q q q = q , q q
k
,1 ,
,..., ,...,
k k k n k N
x x
une squence dtats du codeur. Chaque transition ( ) ,
reprsente par une branche du treillis, est associe une valeur u du bit dinformation rentr
ltape k et une valeur de symbole canal mis
1 k k
,
x . Enfin, [ ]
1
,... = Y y
k
( )
, ,...,
L k
y y
est la squence de symboles reus en sortie du canal quivalent.
l
=
l
l
x
D.1.1 Lalgorithme MAP
Le principe de cet algorithme est de minimiser la probabilit derreur sur chaque bit dcod, soit de
manire quivalente, de trouver les tats q qui sont individuellement les plus probables. Pour cela, on
calcule la probabilit a posteriori :
( ) i p q q = Y = N
k
k k
; q (D.1)
cest--dire la probabilit dtre dans ltat q du treillis ltape k conditionnellement la squence
reue. Les probabilits a posteriori pour le bit dinformation u sen dduisent alors immdiatement
97
:
( ) ( )
pair
0
k
q
p u q = =

Y
k
(D.2)
( ) ( )
impair
1
k
q
p u q = =

Y
k
( )
k
q ( )
k
q
( ) ) ,..., ,
k
q p q q = = y y

(D.3)
Le calcul de la probabilit (D.1) seffectue par la procdure forward-backward qui exploite les
proprits du treillis. Introduisons les variables forward et backward dfinie par :
( (D.4)
1 k k

97
On suppose ici que les bits des registres dtat du codeur convolutif correspondent la
reprsentation binaire naturelle des tats q et que ces registres sont dcalage vers la gauche, c'est--
dire que le bit dinformation u est rentr droite du registre ltape k.
k
Dcodage convolutif sorties souples 229
et ( )
( )
1
,...,
L k k k
q p q q
+
= y y = (D.5)
Ces variables peuvent se calculer de manire itrative comme suit :
( ) ( ) ( ) (
1 1
,
k k k k k k
q
q q p q q q q p q

= = =
y ) q = (D.6)
( ) ( ) ( ) (
1 1 1 1
,
k k k k k k
q
q q p q q q q p q
+ + + +

= = =
y ) q
= (D.7)
o q parcourt les tats relis ltat q par une branche du treillis.
Les tats sont considrs ici comme quiprobables, ce qui signifie que les termes et ( )
k
p q q =
( )
1 k
p q q
+
= sont vus comme constants et peuvent tre ignors. La probabilit
( )
1 k k
p q
y ,
k
q q q = = apparat tre la vraisemblance de la transition ( , son logarithme nest
autre que la mtrique de branche du treillis. Dautre part, ltat initial et ltat final tant fixs zros,
on a :
)
1
,
k k
q q
[ ]
0
1, 0,..., 0 = et [ ]
0
1, 0,..., 0 = (D.8)
La rcurrence sur se fait dans le sens des k croissants (forward) et celle sur se fait en sens
rtrograde (backward). Une fois calcules ces quantits, on peut exprimer par :
k
( )
k
q
( )
( ) ( )
( ) ( )
2 1
0
k k
k
k k
q
q q
q
q q
=
=
(D.9)
En dfinitive, lalgorithme MAP renvoie comme valeur souple, le logarithme du rapport des
probabilits a posteriori (D.2) et (D.3) :
( )
( )
( )
0
log
1
k
k
k
p u
L u
p u
=
=
=
Y
Y
(D.10)
Cependant cet algorithme est peu utilis dans la pratique du fait de la complexit de la procdure
forward-backward qui ne peut tre implmente dans le domaine logarithmique. Une simplification de
cet algorithme consiste ne garder dans les sommations (D.2) et (D.3) que les termes prpondrants,
ce qui conduit lalgorithme du Max-Log-MAP.
D.1.2 Lalgorithme Max-Log-MAP
La complexit de lalgorithme MAP provient de la sommation sur les tats lors du calcul des variables
forward et backward (rcursions (D.6) et (D.7)) ainsi que dans le calcul des probabilits a posteriori
Annexe D 230
(D.2) et (D.3). La simplification la base du Max-Log-MAP est lapproximation dite de la squence
dominante . Cette approximation est valable tant que le rapport signal bruit en entre du dcodeur
nest pas trop bas. Elle est mise en uvre successivement deux niveaux. Plus prcisment :
On suppose quil existe des squences dtats dominantes, cest--dire des chemins beaucoup plus
probables que les autres, de telle sorte que :

( ) ( )
( )
( )
( )
,
,
max
k
Q q k
Q q k
p q q p
p
= =
q
q
Y q
q Y
Y
)
q
(D.11)
o Q q dsigne lensemble des chemins du treillis passant par ltat q ltape k (nud q q ). ( ,k
k
=
Autrement dit, on remplace la sommation par une maximisation. Ceci permet de se ramener la
structure dun algorithme de Viterbi, cherchant le meilleur chemin passant par le nud q . On
notera la probabilit de ce chemin :
k
=
( )
k
q
( )
( )
(
,
max
k
Q q k
q p
q
q Y = )
)
k
q =
q
(D.12)
Pour maintenir lanalogie avec lalgorithme MAP, introduisons la variable forward modifie
suivante :
(D.13) ( ) (
1 1
1 1 2
,...,
max ,..., , , ,...,
k
k k
q q
q p q q q
= y y
qui sinterprte comme la probabilit du meilleur chemin partiel jusquau nud q (ou chemin
survivant). On a daprs la rgle de Bayes :
k
=
( ) ( ) ( ) ( { }
1 1
max ,
k k k k k k
q
q C q p q q q q p q q

= = = y ) = (D.14)
o C est une constante de normalisation.
Comme on considre ici que les tats sont a priori quiprobables, le calcul de la probabilit a posteriori
se rduit un calcul de vraisemblance, soit :
( ) ( ) ( ) {
1 1
max ,
k k k k k
q
q C q p q q q q

= y } = = (D.15)
ce qui, dans le domaine logarithmique correspond au calcul de mtrique de lalgorithme de Viterbi :
( ) ( ) ( ) [ ] {
1 1
max log ,
k k k k k
q
M q M q p q q q q

= + = y } = (D.16)
o est la mtrique du chemin survivant au nud q q . ( )
k
M q
k
=
On remarquera que la rcursion (D.14) drive de celle du MAP (D.6) en remplaant lintgration sur
tous les tats prcdents q par la slection du meilleur tat. De cette constatation, il apparat quon
peut aussi calculer la mtrique de Viterbi dans le sens des k dcroissants (drivation de la rcursion
backward) :
1 k
( ) ( ) ( ) { }
1 1 1
max log ,
k k k k k
q
M q M q p q q q q
+ + +
l = + = =
l
y (D.17)
Ce calcul des mtriques de Viterbi dans les deux sens [Tortelier, 1995] permet dexprimer, au prix
dune complexit rduite (absence de traceback), la mtrique totale du meilleur chemin
complet passant par le nud q q .
( ) { log
k
q }
k
=
Une fois calcule la probabilit , on peut exprimer daprs (D.11), (D.2) et (D.3), les probabilits
a posteriori dobtenir un bit dcod u gal 0 ou 1 :
( )
k
q
k
( ) ( )
pair
0
k
q
p u q = =

Y
k
(D.18)
( ) ( )
impair
1
k
q
p u q = =

Y
k
(D.19)
Lapproximation de la squence dominante est applique ici une seconde fois, c'est--dire quon ne
considre dans chacune de ces deux sommes que les chemins de probabilit maximale. Ainsi,
lalgorithme Max-Log-MAP renvoie simplement la diffrence entre les mtriques des meilleurs chemins
dcodant respectivement u et u . 0
k
= 1
k
=
( )
( )
( )
0
0
log
1
k
k
k
p u
L u M M
p u
=
= =
=
Y
Y
1
(D.20)
avec : M q et M q ( ) { }
0
pair
log max
k
q
l
=
l
l
( ) { }
1
impair
log max
k
q
l
=
l
l
.
D.1.3 Lalgorithme SOVA
Lalgorithme du Max-Log-MAP est plutt adapt un fonctionnement par trames, dans le cas
contraire (dcodage flot continu), sa complexit demeure relativement importante. Lalgorithme
SOVA introduit par [Hagenauer et al., 1989] rpond au souci de modifier le moins possible lalgorithme
de Viterbi en lui adjoignant une tape de dcision souple de complexit limite. Cest aussi
lalgorithme le moins optimal parmi les trois prsents ici.
Considrons un algorithme de Viterbi de profondeur de dcodage ou dlai de dcision . Pour chaque
chemin survivant
( ) ( ) ( ) ( )
1
,..., ,
k k k
q q q

q
/ / /
k
l
l
/
ltape k, le SOVA stocke la dcision ferme
( )
j
u
/
prise
Annexe D 232
pour les bits dinformation aux tapes (k ) (quivalent stocker les tats formant le
chemin) ainsi quune information de fiabilit de cette dcision :
j <
( )
1
log
j
L k

=
/
k
k

( )
( )
( )
( )
( )
j
j
p k
p k
/
/
(D.21)
o
( )
( )
j
p k
/
est la probabilit derreur associe la dcision
( )
j
u sachant .
/
1 1
,..., ,...,
k
j k
l
=
l
Y y y y
Pour expliciter le calcul de la fiabilit (D.21), considrons le chemin survivant
( ) 1
k
q au nud q et
k
= q
( ) 2
k
q le chemin limin par lalgorithme de Viterbi en ce nud (Figure D.1).

k

k
q
k j <

j
u survivant
( ) 1
q
1 u =
0 u =

( ) 2
q
Figure D.1 : Slction du chemin survivant
En supposant les tats quiprobables, les probabilits a posteriori
( )
( )
1
k
k
p q Y
/
se rduisent aux
vraisemblances
( )
( )
1
k
k
p Y q
/
et lon a :

( )
( )
( )
( )
( )
1 1
k
k k
k k
p p q Y Y q
/
/ / M
e (D.22)
o
( )
k
M
/
est la mtrique cumule du chemin
( )
k
q
/
.
On peut ds lors exprimer la probabilit derreur associe la dcision de lalgorithme de Viterbi
au nud q q :
k
q
p
k
=

( )
( )
( )
( )
( )
( )
( )
( ) ( )
2
1 2
2
1
1 2
1 1
1
1
k
k
k k
k
M
k
q
k k
M M
k k
p
e
p
p p e
e e

= =
+ +
+
q Y
q Y q Y
=
q
(D.23)
avec .
1 2
0 M M =
Lerreur de dcision au nud q se rpercute de la faon suivante sur les dcisions
k
=
( ) 1
j
u :
si k , lerreur na aucune consquence puisque j < k
( ) ( ) 1 2
j j
= u u .
pour , on a forcment j k =
( ) ( ) 1 2
j j
u u donc la probabilit derreur associe la dcision
( ) 1
j j
u u = prise linstant t est :
( )
( )
1
k
q
j
p k = p .
pour , on dispose dj des probabilits derreurs k j k <
( )
( )
1
1
j
p k et
( )
( )
2
1
j
p k
associes respectivement aux dcisions
( ) 1
j j
u = u et
( ) 2
j j
u = u sachant . La mise jour de la
probabilit derreur pour le chemin survivant doit se faire selon les deux cas :
1
1
k
Y
si
( ) ( ) 1 2
j j
u = u alors
( )
( )
( )
( )
( )
( )
(
1 1 2
1 1
k k
q q
j j j
p k p p k p p k = + ) 1 (D.24)
si
( ) ( ) 1 2
j j
u u alors
( )
( )
( )
( )
( )
( )
(
(
1 1 2
1 1 1
k k
q q
j j j
p k p p k p p k = + )
)
1 (D.25)
Afin de simplifier la mise jour des fiabilits (D.21), on fait lapproximation suivante :

( ) ( ) 2 1
j j
p p = (D.26)
ainsi,
( ) 1
j
p est invariante dans le cas
( ) ( ) 1 2
j j
u = u et dans le cas
( ) ( ) 1 2
j j
u u , la mise jour devient :
si
( ) ( ) 1 2
j j
u u alors
( )
( )
( )
( )
( )
( )
(
(
1 1 1
1 1 1
k k
q q
j j j
p k p p k p p k = + )
)
1 (D.27)
La rcurrence (D.27) peut seffectuer directement dans le domaine des fiabilits (domaine
logarithmique). Daprs (D.23), il vient :
( )
( )
( )
1 exp( 1 )exp( )
ln
exp( 1 ) exp( )
j
j
j
L k
L k
L k
' ' +
1 1
1
=
!
1 +
1 1 + +
1
!
1
(D.28)
o on a omis les indices de chemins pour plus de lisibilit. /
Nanmoins, la formule prcdente demeure complexe, cest pourquoi on prfre l'approximation
suivante [Hagenauer et al., 1989] qui, bien que sous optimale, donne de bons rsultats :
(D.29) ( ) ( ) min( 1 , )
j j
L k L k =
Finalement, au bout du dlai , le SOVA relche la sortie souple :

( )
( )
( )
( )
1
1
1
. log
j
j j
j j j j
j
j j
p u u
L u u L j u
p u u
+
+

= + =
Y
Y
(D.30)
Annexe D 234
D.1.4 Comparaison du MAP, Max-Log-MAP et du SOVA
Pour rsumer cette prsentation, nous mettons ici en exergue les diffrences dapproche entre les 3
algorithmes prsents. Ces diffrences sont illustres sur la Figure D.2.
Le MAP considre tous les chemins du treillis mais les divise en deux ensembles : ceux qui
dcodent la valeur 0 ltape k et ceux qui dcodent la valeur 1. Il retourne le rapport entre les
probabilits a posteriori de ces 2 ensembles.
Le Max-Log-MAP considre chaque tape k uniquement deux chemins : le meilleur qui dcode
un 0 et le meilleur qui dcode un 1. Il dlivre le rapport des probabilits de ces 2 chemins. Ces
chemins peuvent changer dun instant lautre mme si lun dentre eux demeure toujours le
chemin de vraisemblance maximum.
Le SOVA compare, chaque tape k, le chemin de vraisemblance maximum un chemin
dcodant une valeur oppose ltape k mais ce dernier nest pas forcment le meilleur chemin
dcodant une valeur oppose cette tape.

1 u =
0 u =
MAP
Max-Log-MAP
SOVA
tous les chemins
sont considrs
les 2 meilleurs
chemins sont
considrs
2 chemins sont considrs
mais le second chemin nest
pas forcment le meilleur des
chemins alternatifs
chemin de vraisemblance max.

Figure D.2 : Comparaison des chemins exploits par le MAP, le Max-Log-MAP et le SOVA afin
destimer une information de fiabilit
Bibliographie 235
Bibliographie
[Adrat et al., 2000] M. Adrat, J. Spittka, S. Heinen, et P. Vary, Error Concealment by Near
Optimum MMSE Estimation of Source Codec Parameters, in Proc. IEEE
Speech Coding Workshop, pp. 84-86, 2000.
[Alajaji et al., 1996] F. I. Alajaji, N. C. Phamdo, et T. E. Fuja, Channel Codes that Exploits
the Residual Redundancy in CELP Encoded Speech, IEEE Trans. Speech
Audio Process., vol. 4, pp. 325-336, 1996.
[Atungsiri et al., 1990] S. A. Atungsiri, A. M. Kondoz, et B. G. Evans, Error Detection and
Control for the Parametric Information in CELP Coders, in Proc.
ICASSP, pp. 229-232, 1990.
[Bahl et al., 1974] L. R. Bahl, J. Cocke, F. Jelinek, et J. Raviv, Optimal Decoding of Linear
Codes for minimizing Symbol Error Rate, IEEE Trans. Inform. Theory,
vol. 20, pp. 284-287, 1974.
[Bayya et al., 1996] A. Bayya et M. Vis, Objective Measures for Speech Quality Assessment in
Wireless Communications, in Proc. ICASSP, vol. 1, pp. 495-498, 1996.
[Beaugeant, 1999] C. Beaugeant, Rduction de Bruit et Contrle de l'Echo pour les
Applications Radiomobiles, Thse de Doctorat, Universit de Rennes I,
1999.
[Boite et al., 1987] R. Boite et M. Kunt, Traitement de la parole: Presses Polytechniques
Romandes, 1987.
[Cox et al., 1989] R. V. Cox, W. B. Kleijn, et P. Kroon, Robust CELP Coders for Noisy
Backgrounds and Noisy Channels, in Proc. ICASSP, vol. 1, pp. 739-742,
1989.
[Cruchant et al., 1998] L. Cruchant et P. Dupuy, La qualit de parole dans les systmes GSM,
in La Revue des Tlcommunications d'Alcatel, vol. 4, 1998, pp. 281-285.
[De Martin et al., 2000] J. C. De Martin, T. Unno, et V. Viswanathan, Improved Frame Erasure
Concealment for CELP-Based Coders, in Proc. ICASSP, vol. 3, pp. 1483-
1486, 2000.
[Dogan, 1992] M. C. Dogan, Real-Time robust Pitch Detector, in Proc. ICASSP, vol. I,
pp. 129-132, 1992.
[Duhamel et al., 1997] P. Duhamel et O. Rioul, Codage Conjoint Source/Canal : Enjeux et
Approches, in Proc. Colloque Gretsi, pp. 699-704, Grenoble, 1997.
Bibliographie 236
[Erkelens et al., 1995] J. S. Erkelens et P. M. T. Broersen, On statistical properties of line
spectrum pairs, in Proc. ICASSP, pp. 768-771, 1995.
[Fingscheidt et al., 2000] T. Fingscheidt, T. Hindelang, R. V. Cox, et N. Seshadri, Combined
Source/Channel Decoding: When Minimizing Bit Error Rate is
Suboptimal, in Proc. 3rd ITG Conf. Source Channel Coding, pp. 273-277,
Munich, Germany, 2000.
[Fingscheidt et al., 2000] T. Fingscheidt, T. Hindelang, R. V. Cox, et N. Seshadri, On Quantizer
Dimensions in Joint Speech/Channel Coding, in Proc. IEEE Speech
Coding Workshop, pp. 81-83, 2000.
[Fingscheidt et al., 1997] T. Fingscheidt et O. Scheufen, Robust GSM Speech Decoding Using the
Channel Decoder's Soft Output, in Proc. Eurospeech, pp. 1315-1318, 1997.
[Fingscheidt et al., 1997] T. Fingscheidt et P. Vary, Robust Speech Decoding : A Universal
Approach to Bit Error Concealment, in Proc. ICASSP, pp. 1667-1670,
1997.
[Fingscheidt et al., 2001] T. Fingscheidt et P. Vary, Softbit Speech Decoding : A New Approach to
Error Concealment, IEEE Trans. Speech Audio Process., vol. 9, pp. 240-
251, 2001.
[Forney, 1973] J. D. Forney, The Viterbi Algorithm, in Proc. Proc. IEEE, vol. 61, pp.
268-278, 1973.
[Gerlach, 1993] C. G. Gerlach, A Probalbilistic Frame work for Optimum Speech
Extrapolation in Digital Mobile Radio, in Proc. ICASSP, vol. 2, pp. 419-
422, 1993.
[Grtz, 1997] N. Grtz, Zero-Redundancy Error Protection For CELP Speech Codecs,
in Proc. Eurospeech, vol. 3, pp. 1283-1286, 1997.
[Grtz, 1998] N. Grtz, On The Combination Of Redundant And Zero-Redundant
Channel Error Detection In CELP Speech-Coding, in Proc. ICASSP, pp.
721-724, 1998.
[Gray et al., 2000] P. Gray, M. P. Hollier, et R. E. Massara, Non-intrusive speech quality
assessment using vocal-tract models, IEE Proc. -Vis. Image Signal
Process., vol. 147, pp. 493-501, 2000.
[GSM, 05.03] GSM, Digital cellular telecommunication system (Phase 2+); Channel
coding, GSM, Recommandation 05.03.
[GSM, 06.60] GSM, Digital cellular telecommunication system; Enhanced Full Rate
speech transcoding, GSM, Recommandation 06.60.
[GSM, 06.10] GSM, Digital cellular telecommunication system; Full Rate speech
transcoding, GSM, Recommandation 06.10.
[GSM, 06.61] GSM, Substitution and muting of lost frames for Enhanced Full Rate
speech traffic channels, GSM, Recommandation 06.61.
[Hagenauer, 1995] J. Hagenauer, Source-Controlled Channel Decoding, IEEE Trans. on
Communications, vol. 43, pp. 2449-2457, 1995.
[Hagenauer et al., 2003] J. Hagenauer et N. Gortz, The Turbo Principle in Joint Source-Channel
Coding, in Proc. ITW2003, pp. pp. 275278, 2003.
Bibliographie 237
[Hagenauer et al., 1989] J. Hagenauer et P. Hoeher, A Viterbi Algorithm with Soft-Decision
Outputs and its Applications, in Proc. GLOBECOM'89, pp. 1680-1686,
1989.
[Hashimoto, 1987] T. Hashimoto, A List-Type Reduced-Constraint Generalization of the
Viterbi Algorithm, IEEE Trans. on Information Theory, vol. 33, pp. 866-
876, 1987.
[Hedelin et al., 1995] P. Hedelin, P. Knagenhjelm, et M. Skoglund, Theory for Transmission of
Vector Quantization Data, in Speech Coding and Synthesis, W. B. Kleijn
et K. K. Paliwal, Eds. Amsterdam, The Netherlands: Elsevier, 1995.
[Hedelin et al., 1995] P. Hedelin, P. Knagenhjelm, et M. Skoglund, Vector Quantization for
Speech Transmission, in Speech Coding and Synthesis, W. B. Kleijn et K.
K. Paliwal, Eds. Amsterdam, The Netherlands: Elsevier, 1995, pp. 311-345.
[Hedelin et al., 2000] P. Hedelin et J. Skoglund, Vector Quantization Based on Gaussian
Mixture Models, IEEE Trans. Speech Audio Process., vol. 8, pp. 385-401,
2000.
[Heinen et al., 1997] S. Heinen, A. Geiler, et P. Vary, MAP Channel Decoding by Exploiting
Multilevel Source A Priori Knowledge, in Proc. European Personal Mobile
Communications Conference (EPMCC), pp. 467-473, Bonn, Germany,
1997.
[Heinen et al., 2000] S. Heinen et P. Vary, Joint Source-Channel MMSE-Decoding of Speech
Parameters, in Proc. ICASSP, vol. 3, pp. 1507-1510, 2000.
[Hess, 1983] W. Hess, Algorithms and Devices for Pitch Determination of Speech-
Signals. Berlin, 1983.
[Hindelang, 2000] T. Hindelang, Combined Source/Channel (De-)Coding : Can A Priori
Information Be Used Twice?, IEEE Proc. ICC, vol. 1, pp. 1208-1212,
2000.
[Hindelang et al., 1997] T. Hindelang, W. Xu, et C. Erben, Quality Enhancement of Coded and
Corrupted Speeches in GSM Mobile Systems Using Residual Redundancy,
in Proc. ICASSP, vol. 1, pp. 259-262, 1997.
[ITU-T, G.729] ITU-T, Coding of speech at 8kbit/s using conjugate-structure algebraic-
code-excited linear prediction, ITU-T, Recommendation G.729.
[Jrvinen et al., 1997] K. Jrvinen, J. Vainio, P. Kapanen, T. Honkanen, P. Haavisto, R. Salami,
C. Laflamme, et J.-P. Adoul, GSM Enhanced Full Rate Speech Codec, in
Proc. ICASSP, vol. 1, pp. 771-774, 1997.
[Kay, 1988] S. M. Kay, Modern spectral estimation, 1988.
[Kleijn et al., 1995] B. Kleijn et K. K. Paliwal, Speech Coding and Synthesis: Elsevier Science,
1995.
[Koch et al., 1990] W. Koch et A. Baier, Optimum and sub-optimum detection of coded data
disturbed by time-varying intersymbol interference, in Proc.
GLOBECOM, pp. 1679-1684, 1990.
Bibliographie 238
[Kohler et al., 2000] M. A. Kohler et R. K. Yarlagadda, Markov Chain Prediction for Missing
Speech Frame Compensation, in Proc. IEEE Speech Coding Workshop,
pp. 75-77, 2000.
[Kondoz, 1994] A. M. Kondoz, Digital Speech: Wiley, J., 1994.
[Lahouti, 2003] F. Lahouti, Reconstruction of Predictively Encoded Signals Over Noisy
Channels Using A Sequence MMSE Decoder, IEEE Trans. on
Communications, accepted for publication, 2003.
[Lahouti, 2003, Report] F. Lahouti, Soft Reconstruction of Speech in the Presence of Noise and
Packet Loss, University of Waterloo Report 2003.
[Lahouti et al., 2001] F. Lahouti et A. K. Khandani, Approximating and Exploiting the
Residual Redundancies - Applications to Efficient Reconstruction of Speech
over Noisy Channels, in Proc. ICASSP, 2001.
[Laroche, 1995] J. Laroche, Traitement des Signaux Audio-Frquences, ENST, Cours de
3ime anne 1995.
[Ligdas et al., 1997] P. Ligdas, W. Turin, et N. Seshadri, Statistical Methods for Speech
Transmission Using Hidden Markov Models, in Proc. 31st Conf.
Information Sciences Systems, pp. 546-551, 1997.
[Lindblom et al., 2000] J. Lindblom, J. Samuelsson, et P. Hedelin, Model Based Spectrum
Prediction, in Proc. IEEE Speech Coding Workshop, pp. 117-119, 2000.
[Markel et al., 1976] J. D. Markel et A. H. Gray, Linear Prediction of Speech, 1976.
[Martin et al., 2001] R. Martin, C. Hoelper, et I. Wittke, Estimation of Missing LSF
Parameters Using Gaussian Mixture Models, in Proc. ICASSP, vol. 2, pp.
729-732, 2001.
[Miller et al., 1998] D. J. Miller et M. Park, A Sequence-Based Approximate MMSE Decoder
for Source Coding Over Noisy Channels Using Discrete Hidden Markov
Models, IEEE Trans. on Communications, vol. 46, pp. 222-231, 1998.
[Moreau, 1995] N. Moreau, Techniques de compression des signaux: Masson, 1995.
[Paping et al., 1997] M. Paping et T. Fhnle, Automatic Detection of disturbing Robot Voice
and Ping Pong Effects in GSM Transmitted Speech, in Proc. Eurospeech,
pp. 1631-1634, 1997.
[Pascal et al., 1999] D. Pascal et D. Etourneaud, Performances compares des codeurs EFR et
FR en environnement non bruit, CNET, Note technique 1999.
[Phamdo et al., 1994] N. Phamdo et N. Farvardin, Optimal Detection of Discrete Markov
Sources Over Discrete Memoryless Channels -- Applications to Combined
Source-Channel Coding, IEEE Trans. Information Theory, vol. 40, pp.
187-193, 1994.
[Picinbono, 1989] B. Picinbono, Thorie des signaux et des systmes, . Paris: Dunod, 1989.
[Proakis, 1989] J. G. Proakis, Digital Communications, 2 ed: McGraw-Hill, 1989.
[Rabiner, 1989] L. R. Rabiner, A Tutorial on Hidden Markov Models and Selected
Applications in Speech Recognition, Proceedings of the IEEE, vol. 77, pp.
257-286, 1989.
Bibliographie 239
[Rissanen, 1978] J. Rissanen, Modeling by shortest data description, Automatica, vol. 14,
pp. 465-471, 1978.
[Ruscitto et al., 1997] A. Ruscitto et T. Hindelang, Channel decoding using residual intra-frame
correlation in a GSM system, Electronics Letters, vol. 33, pp. 1754-1755,
1997.
[Salami et al., 1996] R. Salami, C. Laflamme, J.-P. Adoul, A. Kataoka, S. Hayashi, C. Lamblin,
D. Massaloux, S. Proust, P. Kroon, et Y. Shoham, Design and Description
of CS-ACELP: a Toll Quality 8kb/s Speech Coder, IEEE Trans. on
Speech and Audio Processing, vol. 6, pp. 116-130, 1996.
[Sayood et al., 1991] K. Sayood et J. C. Borkenhagen, Use of Residual Redundancy in the
Design of Joint Source/Channels Coders, IEEE Trans. on
Communications, vol. 39, pp. 839-846, 1991.
[Scalart, 1997] P. Scalart, Radiocommunications et Mobilit, , Cours de 3ime anne de
l'ENSSAT 1997.
[Schroeder et al., 1985] M. Schroeder et B. Atal, Code-excited linear prediction (CELP) : high
quality speech at very low, in Proc. ICASSP, pp. 937-940, 1985.
[Sereno, 1991] D. Sereno, Frame Substitution and Adaptive Post-Filtering in speech
Coding, in Proc. ICASSP, vol. 1, pp. 595-598, 1991.
[Shannon, 1948] C. E. Shannon, A mathematical theory of communications, Bell Syst.
Tech. J., vol. 27, pp. 379-423, 1948.
[Skoglund et al., 1997] J. Skoglund et J. Lindn, Predictive VQ for Noisy Channel Spectrum
Coding: AR or MA?, in Proc. ICASSP, pp. 1351-1354, 1997.
[Skoglund, 1999] M. Skoglund, Soft Decoding for Vector Quantization Over Noisy Channels
with Memory, IEEE Trans. Information Theory, vol. 45, pp. 1293-1307,
1999.
[Strauch et al., 1998] P. Strauch, C. Luschi, M. Sandell, et R. Yan, Improved Source Controlled
Channel Decoding in a GSM System, in Proc. ISPACS'98, Melbourne,
Australia, 1998.
[Tortelier, 1995] P. Tortelier, Procd de dcodage sortie pondre de codes convolutifs
de rendement 1/N en fonctionnement par blocs., mmoire technique
CNET 1995.
[UIT-T, P.862] UIT-T, Perceptual Evaluation of Speech Quality (PESQ), an Objective
Method for end-to-end Speech Quality Assessment of Narrow-Band
Telephone Networks and Speech Codecs., , Recommendation P.862.
[Veaux, 1998] C. Veaux, Analyse et caractrisation des dgradations de la parole dans le
rseau GSM plein dbit, CNET, Rapport intermdiaire 1998.
[Veaux et al., 1999] C. Veaux, P. Scalart, et A. Gilloire, Analysis and on-line detection of
audible distortions in GSM telephony, in Proc. Eurospeech, vol. 6, pp.
2579-2582, Budapest, 1999.
[Veaux et al., 2000] C. Veaux, P. Scalart, et A. Gilloire, Channel Decoding using Adaptive
Interframe and Intraframe Bit Prediction in GSM System, in Proc.
ICASSP, vol. 5, pp. 2589-2592, Istanbul, 2000.
Bibliographie 240
[Veaux et al., 2000] C. Veaux, P. Scalart, et A. Gilloire, Channel Decoding Using Inter- and
Intra-correlation of Source Encoded Frames, in Proc. Data Compression
Conference, pp. 103-112, Snowbird, Utah, 2000.
[Wellekens, 1987] C. J. Wellekens, Explicit Time Correlation in Hidden Markov Models for
Speech Recognition, IEEE, pp. 384-386, 1987.
[Zwicker et al., 1981] E. Zwicker et R. Feldtkeller, Psychoacoustique - L'Oreille Rcepteur
d'Information: Masson, 1981.

These Traitement Signal

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

These Traitement Signal

Transféré par

Droits d'auteur :

Formats disponibles

Thse

prsente pour obtenir le grade de :

2.3.2.1.a Blanchiment linaire court-terme

Dtection dartefacts introduits par le rseau GSM sur le signal de parole 41

, la combinaison de bits codant

i cod par la combinaison de bits reus

= = v c avec ( ) ( arg max

entre index (ou paramtres quantifis) sont

en sortie de lestimateur MAP. Une

en introduisant les variables dinduction avant et dinduction

apprises sur la base de donnes, nous pouvons mettre en

Le premier facteur correspond aux probabilits de transition (

est la probabilit prdictive de i

v est la loi marginale associe ( )

v v par un mlange de gaussiennes.

v v par un mlange de gaussiennes GMM dfinies sur

mais indirectement par la probabilit ( )

dtre dans la classe

pour estimer la probabilit ( )

dtre dans la classe dfinie par la

= est schmatiquement dcompos de manire faire apparatre les relations entre

Figure 5.2 : Comparaison du calcul de la probabilit prdictive

peut tre modlise par les

v v , pour tous les

, ou de manire quivalente, entre mots de code source b associs, soit ( )

correspondent au modle AK1 prsent aux chapitres

) entre bit b et mot de code source (autrement

codant un mme valeur dindex i, soient

u sont rentrs squentiellement dans le codeur, on peut alors regrouper les

6.4.3 Dcodage canal en deux tapes

la trame n . La valeur souple du bit de

7.2.2.2.b Comparaison entre prdictions fixe et adaptative

est justement disponible chaque tape

dsigne lincrment de mtrique associ la branche

maximises par les mises en uvre avant et arrire de

Le codage de parole dans le GSM 193

arg max arg max p p = =

Vous aimerez peut-être aussi