Vous êtes sur la page 1sur 187

PROGRAMME DACTION DE SOUTIEN LA FORMATION ET LA RECHERCHE

2000-PAS-32
Alexandru Isar
Andrei Cubichi Miranda Naforni
Editura ORIZONTURI POLITEHNICE, 2002
Algorithmes et techniques
de compression
Text finanare : grant AUPELF-UREF 2000-PAS-32, Mthodes modernes
de traitement du signal pour la compression de donnes dans les modems
haut dbit.
Referent tiinific : Prof. dr. ing. Ioan Naforni
Tehnoredactare : Isar Alexandru
Coperte : Naforni Miranda, Isar Alexandru, Cubichi Andrei
Le professeur Alexandru Isar, doyen adjoint de la Facult dElectronique et
Tlcommunications de lUniversit Politehnica de Timioara est un spcialiste rput dans le
domaine du traitement du signal, de lanalyse en ondelettes et des reprsentations temps-
frequence. Plusieurs parmi ses travaux scientifiques ont devenu des titres de rfrence dans les
domaines dj numrs, motif pour lequel il a t invit de donner des confrences ltranger
aussi.
Le docteur ingnieur Andrei Cubichi, est P.D.G. de la socit commerciale
GOLDSTERN et spcialiste dans le domaine des communications avec les mobiles. Il est aussi
un ingnieur trs dou. Il a publi quelques travaux de spcialit trs bien reus par la
communaut scientifique.
Madame le professeur Miranda Naforni est lun de meilleurs professeurs du
dpartement de Tlcommunications de la facult de Timioara. Son exprience dans le domaine
de la transmission de donnes et de la thorie de linformation et du codage lui a donn une vision
densemble dans le domaine des tlcommunications. En consquence elle a t invite
prsenter des confrences ltranger. Elle est lauteur des nombreux travaux scientifiques, dont
quelques-uns sont devenus des rfrences dans les domaines correspondants. Sa competence a t
confirme aussi par le fait quelle a obtenu le grant AUPELF-UREF: 2000-PAS-32.
Prface
Ce livre est le rsultat des recherches effectues par les trois auteurs dans
le domaine de la compression des donnes, en gnral, et du signal de parole, en
particulier. Il nest pas ncessaire de justifier la ncessit de la compression des
signaux. Je dirai seulement quun grand nombre de collectifs de recherche
prestigieux, du monde entier, soccupent de ce problme. Il y a nombreuses
confrences et articles publis, ddis ce sujet; on a labor dj des standards et
sont faits des nouvelles propositions de standards. Malheureusement les standards
existants pour la compression pertes du signal de parole ne se rfrent pas la
qualit du signal reconstruit. Les auteurs ont voulu, et je pense quils ont arriv
laborer une mthodologie de compression pertes du signal de parole, en gardant
les distorsions de reconstruction sous un niveau impos. Les trois auteurs sont des
spcialistes dans le domaine de traitement du signal et des tlcommunications en
gnral. Suite leurs connaissances de la thorie des ondelettes ils ont abord le
problme de la compression du point de vue de cette thorie. On montre dans le
livre que les transformes orthogonales bases sur les ondelettes peuvent tre
considrs comme assymptotiquement convergentes vers la transforme de
Karhunen-Love, tant des transformes sousoptimales, appropris pour la
ralisation de la compression pertes. Suite la particularit de la majorit des
sons de la langue parle, dtre similaires une somme des oscillations pondres,
les auteurs slectionnent parmi plusieurs transformes orthogonales bases sur les
ondelettes, la transforme en paquets de cosinus discrte. Apres le calcul de la
transforme orthogonale du signal de parole, soumis la compression, on fait, dans
le schma de compression propose par les auteurs, une dtection de seuil, qui
limine les chantillons infrieurs un certain seuil. Les auteurs ont fait appel un
seuil variable en temps, en sadaptant une erreur maximale de reconstruction,
impose apriori. De plus, en utilisant le modle psycho-acoustique de la parole un
systme de quantification adaptatif, rgl par la mme erreur est construit aussi.
Comme mesure des distorsions, quivalentes ici avec lerreur de reconstruction, la
valeur moyenne quadratique a t choisie. Pour dterminer cette erreur on fait une
reconstruction locale du signal comprim et une comparaison avec le signal initial.
Lerreur obtenue sert aux rglages. Je mentionnerai aussi le fait que le problme de
la slection de la meilleure base de reprsentation pour la transforme en paquets
de cosinus discrte soit rsolu en utilisant un algorithme de slection, sur chaque
segment du signal de parole, des lments de celle base qui minimise le nombre
des chantillons transmettre. Il faut remarquer le fait quon utilise des mthodes
dadaptation locales et globales mais que le systme de compression est stable,
ladaptation obtenue tant convergente. Les auteurs ont simul le systme de
compression de la parole propos. Leurs rsultats exprimentaux ont indiqu un
facteur de compression moyen suprieur 10, un niveau des distorsions infrieur
20 dB. Jajoute le fait quaucune compression sans pertes des chantillons du
signal quantifi, qui pourrait augmenter le facteur de compression, na pas t
considre. En gnral la compression du signal de parole est ralise laide de la
prdiction linaire. Voil que les auteurs de ce livre nont pas utilis cette
technique classique et ont exploit un autre modle du signal de parole, plus
appropri pour la majorit des segments du signal de parole, le modle sinusodal,
qui justifie la slection de la transforme en paquets de cosinus discrte, dans le
schma de compression propose. On obtient des rsultats remarquables. La
possibilit de combiner les deux techniques de compression (celle classique et
celle propose dans ce livre) est aussi voque. En utilisant la mthode classique
on pourrait mieux reprsenter les segments du signal de parole qui ressemblent
un bruit- mais sont moins frquentes que les segments qui ressemblent plus une
combinaison linaire de sinusodes. Lexprience des auteurs dans les domaines du
traitement du signal et des tlcommunications a conduit lobtention du grant
2000-PAS-32, financ par AUPELF-UREF. Son titre est Mthodes modernes de
traitement du signal pour la compression de donnes dans les modems haut dbit.
Les rsultats de la recherche ralise dans ce grant sont matrialiss aussi par ce
livre. Une partie de ce livre est reprsente par la thse de doctorat du Monsieur
Andrei Cubichi, ce qui augmente la qualit de ce travail. Je considre que par les
rsultats prsents et par les nouvelles directions de recherche ouvertes, ce
livre serra trs utile aux spcialistes en tlcommunications et tous
intresss dans ce domaine. Voil pourquoi je recommande
chaleureusement ce livre votre attention. Quelques mots sur les auteurs.
Le professeur Alexandru Isar, doyen adjoint de la Facult dElectronique et
Tlcommunications de lUniversit Politehnica de Timioara est un
spcialiste rput dans le domaine du traitement du signal, de lanalyse en
ondelettes et des reprsentations temps-frequence. Plusieurs parmi ses
travaux scientifiques ont devenu des titres de rfrence dans les domaines
dj numrs, motif pour lequel il a t invit de donner des confrences
ltranger aussi. Le docteur ingnieur Andrei Cubichi, est P.D.G. de la
socit commerciale GOLDSTERN et spcialiste dans le domaine des
communications avec les mobiles. Il est aussi un ingnieur trs dou. Il a
publi quelques travaux de spcialit trs bien reus par la communaut
scientifique. Madame le professeur Miranda Naforni est lun de meilleurs
professeurs du dpartement de Tlcommunications de la facult de
Timioara. Son exprience dans le domaine de la transmission de donnes et
de la thorie de linformation et du codage lui a donn une vision
densemble dans le domaine des tlcommunications. En consquence elle a
t invite prsenter des confrences ltranger. Elle est lauteur des
nombreux travaux scientifiques, dont quelques-uns sont devenus des
rfrences dans les domaines correspondants. Sa competence a t
confirme aussi par le fait quelle a obtenu le grant AUPELF-UREF: 2000-
PAS-32, dont jai dj crit.
Timioara, le 21.07.2002 Prof. dr. ing. Ioan Naforni
Table de matires
Chapitre1. Mthodes de compression de donnes 1
1.1. Mthodes de compression sans pertes 2
1.1.1. Mthodes de codage 2
1.1.1.1. Le codage de Huffman 2
1.1.1.2. Autres mthodes de codage 13
1.1.1.2.1. Le codage de Lempel - Ziv 13
1.1.1.2.2. La compression laide du codage Lempel - Ziv 13
1.1.1.2.3. Les performances du codage Lempel - Ziv 15
1.1.1.2.4. Le codage de type run-lenght 16
1.1.1.2.5. Le codage arithmtique 16
1.1.2. Quelques applications 17
1.2. Mthodes de compression pertes 18
1.2.1. Compression par transforme orthogonale 18
1.2.1.1. La transforme de Karhunen-Love 22
Chapitre 2. Transformes en ondelettes discrtes 29
2.1.1. La liaison entre la thorie des ondelettes et le codage en sous-bandes 29
2.1.1.1. Le codage en sous-bandes reconstruction parfaite en utilisant des
systmes structure arborescente avec des filtres ralisables
38
2.1.1.1.1. Mthodes de construction des filtres CQF 43
2.1.2 La liaison entre les systmes de codage en sous-bandes et la thorie des
sries d'ondelettes
43
2.1.3. La transforme en ondelettes discrte TOD 53
2.1.4. Paquets d'ondelettes 57
2.1.4.1. La slection de la meilleure base 59
2.1.4.2. Paquets d'ondelettes de type Malvar 63
2.2. L'utilisation des transformes orthogonales prsentes pour la compression
des donnes
65
2.2.1. L'analyse statistique de la TOD 65
2.2.2. L'analyse statistique de la TPOD 75
2.2.3. L'analyse statistique de la TPCD 80
2.3. La slection de la meilleure ondelette mre 82
Chapitre 3. Le dtecteur de seuil 88
3.1. La dtection adaptative de seuil 88
3.2. L'analyse statistique du dtecteur de seuil 91
Chapitre 4. Le systme de quantification pour la compression de la parole 93
4.1. Proprits psicho-acoustiques du signal de parole 93
4.1.1. Le phnomne de masquage 93
4.1.2. Des bandes critiques 95
4.1.2.1. Le seuil de masquage 96
4.1.2.2. L'utilisation du seuil de masquage la compression du signal de parole 99
4.2. La quantification adaptative dans le domaine de la TPC 100
4.3. Les autres blocs du systme de compression 102
Chapitre 5. La compression de la musique 103
5.1. Le codeur MUSICAM 103
5.2. Le codeur MP-3 106
5.2.1. Lavenir du codeur MP-3 110
5.2.2. La compression de la musique a laide des paquets en cosinus 110
5.3. La compression de la parole 111
5.3.1. Le codeur CELP 112
5.3.1.1. La dtermination des coefficients du filtre de synthse 113
5.3.1.1.1. Algorithme itratif standard pour la construction de lexcitation 119
5.3.1.1.2 Description algorithmique 121
5.3.1.1.3 Le codeur GSM 123
5.3.2. La compression de la parole en utilisant les paquets de cosinus 124
5.3.2.1. Premire exprience 125
5.3.2.2. La deuxime exprience 132
5.3.2.3. La troisime exprience 136
5.3.2.4. La quatrime exprience 139
Chapitre 6. La compression dimages 149
6.1. La compression dimages fixes 149
6.1.1. Le standard JPEG-2000 154
6.2. La compression des squences dimages 158
6.2.1. Le standard de compression MPEG-1 158
6.2.2. Le standard de compression MPEG-2 162
6.2.3. Le standard de compression MPEG-4 166
6.2.3.1. Le codage de la forme, du mouvement et de la texture pour chaque VOP 167
Bibliographie 173
Chapitre 1. Mthodes de compression de donnes
Le sujet de ce livre sont les mthodes de compression de donnes et les
algorithmes correspondants. Ce sont mthodes de codage de la source
dinformation. Lintrt de ltude de ces mthodes de traitement du signal est le
dveloppement sans prcdent des tlcommunications numriques. On parle
aujourdhui de globalisation, il faut communiquer en temps rel n'importe o dans
le monde entier. La vitesse des communications ne peut pas tre augmente sans
laide des techniques de compression. Tous les types des signaux intressants pour
les transmissions : les logiciels, les textes, la parole, la musique, les images,
doivent tre comprims. La compression ne doit pas conduire des distorsions
saisissables et doit tre ralise avec taux de compression les plus levs possibles.
Le nombre doprations et le volume de mmoire requis par les algorithmes de
compression ne doivent pas tre trs grands. Les applications sont nombreuses :
rseau tlphonique public, communication avec les mobiles, radiodiffusion
numrique, tlvision numrique, Dans ce livre nous prsentons des techniques
de compression pour les textes, pour les signaux audio et pour les images. Il y a
deux catgories de mthodes de compression de donnes, celles sans pertes et
celles pertes. On prsente dans la suite quelques mthodes de compression
appartenant ces deux catgories. Notre but est denvisager lapport de la thorie
des ondelettes aux techniques de compression pertes contrles. Le plan du livre
est le suivant :
- Au premier chapitre on prsente les mthodes de compression sans pertes,
utilises pour la compression du texte, les logiciels y compris. Aprs on
introduit les mthodes de compression pertes contrles bases sur
lutilisation dune transforme orthogonale. Le rle de cette transforme
est la de-correlation du signal comprimer. On prsente la transforme
idale, cest la transforme de Karhunen-Love. On propose un schma de
compression bas sur une transforme orthogonale. Les blocs de ce
schma, dtecteur de seuil, systme de quantification, seront les sujets
de quelques chapitres suivants de ce livre.
- Le but du deuxime chapitre est la prsentation des trois transformes en
ondelettes discrtes : la transforme en ondelettes discrte, la transforme
en paquets dondelettes discrte et la transforme en paquets de cosinus
discrte. On prouve la convergence asymptotique de ces trois transformes
vers la transforme de Karhunen-Love.
- Le sujet du troisime chapitre est le dtecteur de seuil du schma de
compression propose au premier chapitre. Celui-ci realise la suppression
des coefficients de la transforme orthogonale, infrieurs un certain seuil.
- Au quatrime chapitre on prsente un systme de quantification spcifique
pour la compression de la parole. A la fin de ce chapitre on prsente les
autres blocs du schma de compression propos au premier chapitre.
2 Mthodes de compression de donnes - 1
- Le cinquime chapitre est ddi la compression des signaux audio. Au
commencement on prsente les systmes de compression de la musique et
aprs on prsente la compression de la parole.
Au chapitre six on prsente des systmes pour la compression des images.
1.1. Mthodes de compression sans pertes
Ces mthodes ont t tablies dans le cadre de la thorie de linformation.
Elles se basent sur des mthodes de codage.
1.1.1. Mthodes de codage
On a deux types de codage: le codage de la source dinformation (qui
transforme la source dans une forme alternative, meilleure pour la transmission ou
pour lenregistration) et le codage de la voie (qui augmente la robustesse du
message contre les erreurs de transmission). Les mthodes de compression sans
pertes font partie de la premire catgorie. Les codes crs doivent avoir quelques
proprits, [1], [2]:
tre uniquement decodables,
tre decodables instantanment,
tre compacts.
Si le code nest pas compact il doit tre le plus efficient possible, [3]. Pour
apprcier cette efficience il faut calculer la longueur moyenne du code. Cette
quantit peut tre apprcie laide de lentropie de la source en utilisant le
thorme de Shanon sur le codage dans labsence du bruit. Parmi les codes pour la
compression de donnes, le plus ancien et peut tre le plus utilis encore, est le
code de Huffmann. Celui-ci a labor son fameux algorithme de codage en 1952,
comme rponse une question pose par lun de ses professeurs quand il tait
tudiant MIT.
1.1.1.1. Le codage de Huffman
On prsente le codage de Huffman en utilisant lexemple dun traitement
de texte. Le but est la compression du texte. Plusieurs langages de programmation
utilisent le code ASCII pour les caractres. Quelques langages de programmation
(comme JAVA par exemple) utilisent UNICODE qui, parce quil peut coder un
nombre plus grand de caractres, est plus utile pour des langues comme le japonais
qui a un nombre plus grand de caractres. On utilisera dans cet exemple le code
ASCII, donc chaque caractre sera cod sur un nombre de 8 bits. Parce que on peut
coder 256 valeurs diffrentes en utilisant 8 bits il y a 256 caractres diffrents dans
lalphabet ASCII. Les caractres alphanumriques, les caractres de ponctuation et
les caractres de contrle utilisent seulement 7 bits.
1.1.1.1. - Le codage de Huffman 3
Le codage de Huffman realise la compression de donnes en utilisant un nombre
infrieur de bits pour la reprsentation des caractres avec une apparition plus
frquente.
Au commencement on prsente le codage ASCII de la squence "go go gophers"
puis on verra comment on peut rduire un peu le nombre des bits en utilisant une
mthode de compression trs simple et aprs on verra lutilisation du codage de
Huffman pour faire la compression plus efficiente.
Soit "go go gophers" la squence tre comprime. La reprsentation de cette
squence en code ASCII, prsente dans le tableau suivant, demande 104 bits.
Caractre ASCII Binaire
G 103 1100111
O 111 1101111
P 112 1110000
H 104 1101000
E 101 1100101
R 114 1110010
S 115 1110011
Espace 32 1000000
Tableau 1.1.1.1.1. Le codage ASCII de la squence comprimer.
Le code numrique de la squence comprimer est:
103 111 32 103 111 32 103 111 112 104 101 114 115.
La suite de bits correspondante est:
1100111 1101111 1100000 1100111 1101111 1000000 1100111 1101111 1110000
1101000 1100101 1110010 1110011
Parce que on a seulement 8 caractres diffrents dans la squence "go go gophers",
on peut utiliser seulement 3 bits pour coder les caractres de cette squence. On
peut utiliser, par exemple, le codage prsent dans le tableau suivant:
4 Mthodes de compression de donnes - 1
Caractre code Binaire
G 0 000
O 1 001
P 2 010
H 3 011
E 4 100
R 5 101
S 6 110
Espace 7 111
Tableau 2.1.1.1.1. Un autre codage.
En utilisant le tableau de codage 2.1.1.1.1. on obtient pour la squence "go go
gophers" la suite:
0 1 7 0 1 7 0 1 2 3 4 5 6
et la squence de bits correspondante:
000 001 111 000 001 111 000 001 010 011 100 101 110 111
En utilisant trois bits per caractre le codage de la squence "go go gophers" utilise
seulement 39 bits et pas 104 bits. On peut diminuer encore le nombre total de bits
si on utilise un nombre plus petit de bits pour le codage des caractres g, o, espace,
dont lapparition est plus frquente. Cest lide de base pour le codage de
Huffman. On verra comment on peut faire un tel codage en utilisant un arbre qui
contient les caractres dans ses feuilles et la squence des bits (utiliss pour le
codage des caractres) dans ses branches.
En utilisant un arbre binaire tous les caractres sont groups dans les feuilles. Dans
la figure 1.1.1.1.1 larbre a huit feuilles et sept branches. A une branche de gauche
(colore en noir) on associera un 0 et a une branche de droite on associera un 1. Le
code ASCII pour chaque caractre/feuille est obtenu en poursuivant la branche
racine-feuille et en groupant les 0 et les 1.
Par exemple le caractre 'a', qui a la valeur ASCII 97 (1100001 en binaire), est
reprsent par la branche racine-feuille: droite-droite-gauche-gauche-gauche-
gauche-droite.
1.1.1.1. - Le codage de Huffman 5
Figure 1.1.1.1.1. Codage par arbre binaire de la squence considre.
La structure de larbre peut tre utilise, pour dterminer le code pour chaque
feuille, en utilisant la convention de branche 0/1 dj dcrite. Si on utilise un arbre
diffrent on obtient un codage diffrent.
Par exemple larbre de la figure suivante corresponde au codage du tableau
3.3.1.1.1.
6 Mthodes de compression de donnes - 1
Caractre binaire
'g' 10
'o' 11
'p' 0100
'h' 0101
'e' 0110
'r' 0111
's' 000
' ' 001
Tableau 3.1.1.1.1. Un autre codage.
Figure 2.1.1.1.1. Larbre binaire correspondant au tableau 3.1.1.1.1.
En utilisant ce codage la squence "go go gophers" est code comme:
10 11 001 10 11 001 10 11 0100 0101 0110 0111 000
On a obtenu ainsi un nombre total de 37 bits, infrieur avec deux bits au nombre
obtenu avec le codage de ces huit caractres trois bits pour chaque caractre (dj
prsent). Cette conomie a t ralise en codant les caractres qui apparaissent
plus frquemment, comme par exemple 'g' et 'o' avec un nombre de bits infrieur
3 (on a utilis seulement 2 bits pour ces caractres) en opposition avec les autres
caractres, comme par exemple 'h', 'e', et 'r'.
1.1.1.1. - Le codage de Huffman 7
La rgle de codage des caractres induite par larbre considr peut tre utilise
pour dcoder une squence binaire. On peut essayer dcoder la squence binaire
suivante:
01010110011100100001000101011001110110001101101100000010101
011001110110
Pour dcoder la squence on commence la racine de larbre de codage et on
associe une branche de gauche pour un 0 et une branche de droite pour un 1.
Quand une feuille est atteinte on sauve le caractre contenu et on commence de
nouveau au sommet de larbre. Au commencement de la squence dcoder on
trouvent les bits: 010101100111. a signifie gauche - droite - gauche - droite
jusqu la lettre 'h', puis (en commencent de nouveau de la racine) par droite -
droite - gauche jusqu la lettre 'e', puis par gauche - droite - droite - droite jusqu
la lettre 'r'. En continuant jusquau dernier bit on obtient la squence : her sphere
goes here.
Quand tous les caractres sont contenus dans les feuilles de larbre et chaque nud
intrieur (qui ne reprsente pas une feuille) a deux enfants, le codage introduit
par la convention 0/1, prsente plus haut, a la proprit de prfix: aucune
squence de bits qui code un caractre nest pas le prfix dune autre telle
squence. Cette proprit donne la possibilit de dcodage dune squence laide
de larbre de codage en poursuivant les branches racine-feuille.
Larbre prsent plus haut pour la squence "go go gophers" est optimal, il ny a
pas un autre arbre avec les mmes caractres qui utilise un nombre plus petit de
bits pour le codage de cette squence. Le codage de Huffman est optimal.
On considre que chaque caractre a une certaine frquence dapparition dans le
texte coder. Par exemple dans la squence "go go gophers" les caractres 'g' et 'o'
ont la frquence dapparition 3/13 lespace a la frquence dapparition 2/13 et les
autres caractres ont la frquence dapparition 1/13.
Quand on fait la compression dun fichier en utilisant la mthode de codage de
Huffman, il est ncessaire de calculer ces frquences. Pour lexemple prsent ici,
on ignore cette tape et on considre quon connat toutes les frquences
dapparition des caractres de la squence coder. Lalgorithme de Huffman
suppose la construction dun seul arbre appartenant une foret. Au commencement
tous les arbres ont un seul nud qui contient un caractre et sa frquence
dapparition. On combine les arbres par la slection de deux arbres qui seront
utiliss pour la construction dun nouvel arbre. Ainsi se rduit le nombre darbres
de la foret avec 1 chaque pas de lalgorithme. Les tapes de lalgorithme sont les
suivantes:
1. On commence avec une foret. Chaque arbre de cette foret a un seul nud qui
contient un caractre et une frquence dapparition. Cest la frquence dapparition
considre pour larbre aussi. On combine les arbres par la slection de deux arbres
qui seront utiliss pour la construction dun nouvel arbre. Ainsi se rduit le nombre
8 Mthodes de compression de donnes - 1
des arbres de la foret avec 1 chaque pas de lalgorithme.
2. On rpte ltape antrieure jusqu lobtention dun seul arbre. On choisi deux
arbres avec les plus petites frquences dapparition et on les note par T1 et T2. On
fait la construction dun nouveau arbre dont la frquence dapparition sera la
somme de deux frquences dapparition de deux arbres parents T1 + T2 et dont le
sous-arbre de gauche est celui de frquence T1 et le sous-arbre de droite est celui
de frquence T2.
3. Le seul arbre rest aprs ltape antrieure est un arbre de codage optimal.
En prenant de nouveau lexemple de la squence "go go gophers" on a au
commencement la foret prsente dans la figure suivante.
Figure 3.1.1.1.1. La premire tape de lalgorithme de Huffman.
Les frquence dapparition de chaque nud sont proportionnelles aux valeurs
indiques au-dessous de chacun.
On choisit deux nuds frquences dapparition minimales. On fait la construction
dun nouvel arbre dont la racine est pondre par la somme des frquences
dapparition de deux arbres slectionns. On a obtenu ainsi la foret, contenant sept
arbres, de la figure suivante.
Figure 4.1.1.1.1. Le premier pas de la deuxime tape de lalgorithme de Huffman.
En slectionnant de nouveau deux arbres minimaux on obtient un nouvel arbre
frquence dapparition proportionnelle 2 et la foret prsente dans la figure
suivante.
1.1.1.1. - Le codage de Huffman 9
Figure 5.1.1.1.1. Le deuxime pas de la deuxime tape de lalgorithme de Huffman.
Il faut choisir de nouveau les deux arbres de frquences minimales. Le nud
frquence minimale est celui qui corresponde la frquence proportionnelle 1
(celui qui contienne le caractre 'e'). Il y a trois arbres qui ont la frquence
proportionnelle 2, on peut choisir nimporte lequel pour trouver la paire de larbre
correspondent au caractre e. Le nouvel arbre cr aura une frquence
dapparition proportionnelle 3. On obtient la foret prsente dans la figure
suivante.
Figure 6.1.1.1.1. Le troisime pas de la deuxime tape de lalgorithme de Huffman.
Maintenant on a deux arbres frquences dapparition proportionnelles 2. On
utilise ces arbres pour construire un nouvel arbre qui aura la frquence dapparition
proportionnelle 4. On a rest quatre arbres, un frquence dapparition
proportionnelle 4 et trois frquences dapparition proportionnelles 3. Le
rsultat est prsent dans la figure suivante.
10 Mthodes de compression de donnes - 1
Figure 7.1.1.1.1. Le quatrime pas de la deuxime tape de lalgorithme de Huffman.
Deux arbres minimaux sont de nouveau associs pour construire un nouvel arbre
qui aura une frquence dapparition proportionnelle 6. On a slectionn les arbres
g et o. La foret obtenue est prsente dans la figure suivante. Elle contient trois
arbres. Les arbres minimaux ont des frquences dapparition proportionnelles 3 et
4.
Figure 8.1.1.1.1. Le cinquime pas de la deuxime tape de lalgorithme de Huffman.
En les utilisant on peut construire un nouvel arbre qui aura une frquence
dapparition de 7 et on obtient la foret de deux arbres de la figure suivante.
En fin les deux derniers arbres sont utiliss pour la construction de larbre final
dont la frquence dapparition est proportionnelle 13.
1.1.1.1. - Le codage de Huffman 11
Figure 9.1.1.1.1. Le sixime pas de la deuxime tape de lalgorithme de Huffman.
Cet arbre est prsent la figure 10.1.1.1.1. Le codage induit par le dernier arbre
est prsent dans le tableau suivant.
Figure 10.1.1.1.1. Le septime pas de la deuxime tape de lalgorithme de Huffman.
12 Mthodes de compression de donnes - 1
Caractre Binaire
'g' 00
'o' 01
'p' 1110
'h' 1101
'e' 101
'r' 1111
's' 1100
' ' 100
Tableau 4.1.1.1.1. Le codage induit par lalgorithme de Huffman.
En utilisant ce tableau la squence "go go gophers" sera code par la squence
binaire suivante:
00 01 100 00 01 100 00 01 1110 1101 101 1111 1100
On a obtenu de nouveau une squence binaire de 37 bits.
Lalgorithme de codage de Huffman dcrit plus haut peut tre gnralis.
On peut passer facilement du cas de squence code en binaire au cas des
squences codes en ternaire ou en plusieurs dimensions [1].
Cet algorithme a quelques dsavantages:
la squence de donnes doit tre balaye deux fois pour pouvoir
raliser le codage: la premire fois pour construire et transmettre
larbre et la deuxime fois pour coder les lettres (ce comportement
introduise des dlais quand il sagit de la transmission des donnes
comprimes),
lalgorithme nest pas adaptatif.
Ce sont les motifs pour lesquelles on a construit des algorithmes de Huffman
adaptatifs. Un tel algorithme, dit dynamique, est prsent en [3].
Larbre utilis pour la transmission de la k+1-eme lettre et pour sa rception est un
arbre de Huffman pour les premiers k lettres du message. Lmetteur et le rcepteur
sont initialiss avec le mme arbre et pendant lentire transmission ces deux
dispositifs restent synchroniss, en utilisant le mme algorithme pour la
modification des arbres aprs le traitement de chaque lettre. Ainsi il ne faut pas
transmettre lentier arbre de Huffman. Le temps demand pour le codage et le
dcodage de chaque lettre est proportionnel la longueur du code associ cette
lettre, donc la compression peut tre ralise en temps rel. Les arbres de Huffman
locaux, sont construits chaque itration de lalgorithme, adaptativement. Le
critre minimis est la longueur du mot de code. Lefficience du nouveau
algorithme, appel lalgorithme , est tudi dans larticle dj cit. Les
1.1.1.2. - Autres mthodes de codage 13
simulations prsents dans cet article montrent la supriorit de lalgorithme par
rapport au algorithme de Huffman traditionnel.
1.1.1.2. Autres mthodes de codage
Une autre mthode de codage trs connue est celle de Lempel et Ziv.
1.1.1.2.1. Le codage de Lempel - Ziv
Celui-ci est bas sur une segmentation de la squence coder. Il sagit dune rgle
pour la segmentation dun alphabet finit en sous-suites ou mots, dont la longueur
ne dpasse pas une valeur entire, choisie posteriori L(1); et dune mthode de
codage qui fait correspondre en mode squentiel ces sous suites des mots
longueur fixe L(2). Les sous squences sont choisies tel quelles aient des
probabilits dapparition trs semblables. Donc les symboles apparition plus
frquente sont groups en sous suites plus longues et les symboles avec une
frquence dapparition plus faible sont groups en sous suites plus courtes.
1.1.1.2.2. La compression laide du codage Lempel - Ziv
Dans la suite on prsente une implmentation possible de lalgorithme Lempel-Ziv.
On peut dfinir les variables suivantes:
w - le prfix qui identifie une suite qui existe dj dans le dictionnaire,
K - le caractre qui suit va tre lu.
Les tapes de lalgorithme sont les suivantes:
1. On initialise le dictionnaire avec des suites contenant un seul caractre.
On initialise w 0.
2. Le caractre K est lu. Si la squence wK existe dans le dictionnaire
alors:
w=wK
sinon on transmet le code pour w, on ajoute wK au dictionnaire, on pose:
w=K
3. On transmette le code pour w.
Le code pour w qui est transmis reprsente la position numrique du w dans le
dictionnaire et est exprim comme un mot binaire longueur fixe.
Prenons comme exemple la squence: ababcbababaaaaaaa. Lalgorithme de
compression Lempel-Ziv est dcrit laide du tableau suivant.
Au commencement on initialise:
14 Mthodes de compression de donnes - 1
0 w 3 c 2 b 1 a =
Puis on fait les oprations suivantes.
Le
nouve
au K
Le
nouveau
wK
Existait-il
dans le
dictionnai
re ?
Actions sinon La valeur du w
A a Oui - w=wK=a
B ab Non
le code de w=le code de
a=1; 4 ab
w=K=b
A ba Non
le code de w =le code de
b=2; 5 ba
w=K=a
B ab Oui - w=K=a
C Abc Non
le code de w=le code de
ab=4 6 abc
w=K=c
B cb Non
le code de w=le code de
c=3 7 cb
w=K=b
A ba Oui - w=wK=ba
B Bab Non
le code de w=le code de
ba=5 8 bab
w=K=b
Tableau 2.1.1.1.2.3. Un exemple de fonctionnement de lalgorithme Lempel-Ziv.
Le code transmettre est le suivant: 1 2 4 3 5... .
On a obtenu ainsi le dictionnaire suivant:
Indice 1 2 3 4 5 6 7 8 ...
Suite A b c Ab Ba abc cb bab ...
Tableau 3.1.1.1.2.3. Lopration inverse de la compression.
Lun des avantages du codage de type Lempel-Ziv est le fait quon peut faire la
reconstruction de la squence comprime sans transmettre le dictionnaire.
Lalgorithme de reconstruction a les tapes suivantes:
1. On initialise le dictionnaire avec des suites contenant un seul caractre.
On initialise la variable p 0.
2. Le code I est lu. Si ce code nest pas dans le dictionnaire on realise
une action spciale. On met:
Kw = la suite dcode pour I (K reprsente le premier caractre)
Si :
0 p
1.1.1.2. - Autres mthodes de codage 15
alors on ajoute pK au dictionnaire et on transmette Kw la sortie. On met:
p=Kw
Prenons comme exemple la squence code dans lexemple antrieur: 1 2 4 3 5 8
1... et appliquons lalgorithme de dcodage. Celui-ci est dcrit laide du tableau
suivant. Au commencement on initialise le dictionnaire:
0 p 3 c 2 b 1 a =
Le nouveau I Action spciale Sortie=Kw=p Le nouveau pK
1 - a p=0
2 - b 4 ab
4 - ab ba5
3 - c abc6
5 - ba cb7
8
p=bapK=baK
8
8KwK=b
bab bab8
1 - a baba9
...
Tableau 4.1.1.1.2.3. Les oprations de lalgorithme de dcodage Lempel-Ziv.
On a obtenu la squence dcode suivante: a b ab c ba bab a ... et le dictionnaire:
Indice 1 2 3 4 5 6 7 8 9 ...
Suite a b c Ab Ba abc cb bab baba ...
En faisant une comparaison entre les deux exemples donns on peut observer quon
a obtenu aprs dcodage la squence initiale et le mme dictionnaire.
1.1.1.2.4. Les performances du codage Lempel - Ziv
Les performances de cette mthode de compression dpendent trs fort du
type de donnes comprimer. Ainsi on peut donner comme facteur moyen de
compression, les valeurs prsentes dans le tableau suivant.
16 Mthodes de compression de donnes - 1
Type de donnes Facteur moyen de compression
Texte en anglais 1.8
Donnes en virgule mobile 1
Donnes de systme 2.6
Programmes en code source 2.3
Code objet 1.5
1.1.1.2.5. Le codage de type run-length
Cest un codage trs rapide qui exploite la rptition des caractres dans
une squence. Le codage remplace une suite de caractres identiques par le nombre
de rptitions. Pour indiquer un tel remplacement on utilise un caractre spcial. Le
codage run-lenght remplace la suite des caractres identiques X par la squence:

c c
XC S
o:
c
S est un caractre spcial,
X est le caractre qui se rpte et
c
C reprsente le nombre de caractres qui se rptent.
Prenons comme exemple le texte coder suivant:
$******55.72
---------
Guns_________Butter
Le texte cod est le suivant:
$S
c
*655.72
S
c
-9
Guns S
c
_9Butter
Le codage run-lenght est efficient seulement si le nombre de rptitions est
suprieur 4. La valeur de
c
C est limite par la reprsentation binaire des
caractres (il y a un nombre maximale de bits pour la reprsentation dun caractre
(si on utilise 8 bits/caractre alors le nombre le plus grande qui peut tre reprsent
est 256)).
1.1.1.2.6. Le codage arithmtique
Le codage de Huffman devient de plus en plus compliqu au fur et
1.1.1.2.6. - Le codage arithmtique 17
mesure que le nombre des caractres dans lalphabet dentre augmente. Le
nombre doprations demandes par le codage de Huffman pour une squence
dentre contenant n caractres est de
n
q . Quand n est trs grand il ne faut pas
savoir la statistique de chaque caractre parce que seulement quelques-uns ont une
frquence dapparition suffisamment grande. Le codage arithmtique se base sur
lide que la somme des frquences dapparition de tous les caractres doit tre
gale 1. En consquence chaque frquence dapparition doit tre contenue dans
un certain sous-intervalle de lintervalle [0,1]. Il faut donc seulement indiquer le
sous-intervalle o est localise la frquence dapparition de chaque caractre pour
coder la squence de caractres. Le nombre de bits de la reprsentation de chaque
intervalle doit tre suffisamment grand pour identifier sans confusion lintervalle
correspondant. Prenons lexemple suivant.
Les caractres de
lalphabet
dentre
Les frquences
dapparition
La somme des
frquences
Intervalle
correspondent
000 0,15 0,15 (0 , 0,15)
001 0,15 0,3 (0,15 , 0,3)
010 0,225 0,525 (0,3 , 0,525)
011 0,075 0,6 (0,525 , 0,6)
100 0,15 0,75 (0,6 , 0,75)
101 0,15 0,9 (0,75 , 0,9)
110 0,075 0,975 (0,9 , 0,975)
111 0,025 1 (0,975 , 1)
Tableau 1.1.1.1.2.6. Un exemple de codage arithmtique.
Seulement les intervalles prsents dans la quatrime colonne du tableau sont
utiliss pour le codage. Le codage dun caractre est ralis par la slection dun
nombre contenu dans lintervalle correspondent qui peut tre reprsent
instantanment sur un nombre minime de bits. Comme un exemple lintervalle
correspondent au caractre 011 est (0,525 , 0,6), qui est reprsent en binaire
comme (0, 100001100... , 0, 100110011...). Le nombre binaire avec le plus petit
nombre de bits significatifs qui se trouve dans cet intervalle est 0, 100100000...0.
Celui-ci peut tre transmis laide du code 1001. Mais ce code nest pas instantan
parce que lintervalle voisin (celui qui corresponde au caractere 100) contient des
nombres avec le prefix 0, 1001. Une solution est de representer le nombre 0,
100100000...0 avec le code 10010.
1.1.2. Quelques applications
Plusieurs formats dimage de documents supportent un type de
compression de donnes appele codage CCITT. Cest une variante de
18 Mthodes de compression de donnes - 1
codage de Huffman. Il y a plusieurs groupes dalgorithmes de type CCITT.
Lun de ceux-ci se trouve la base de la mthode de compression V.24-bis
dont on a dj parl. Les groupes 3 et 4 sont construits pour la compression
des fichiers de texte. Le groupe 4 est plus efficient et a t destin aux
rseaux de donnes.
Le codage run-lenght est utilis pour la construction des mthodes de
compression des images qui conduisent aux principaux formats de fichiers
dimages comme par exemple: TIFF, BMP, PCX ou de documents comme par
exemple le PDF. Le codage Lempel-Ziv est utilis aussi pour la ralisation des
formats GIF, TIFF ou PDF.
Lalgorithme de compression LZ77 est la base de diffrents logiciels de
compression de texte comme compress, zoo, lha, pkzip et arj. Lalgorithme de
compression LZ78 est utilis pour la compression des donnes binaires comme par
exemple les images en format bitmap.
En 1984, travaillant pour Unisys, Terry Welch a modifi lalgorithme de
compression LZ78 pour limplanter dans les contrleurs de disque. Le rsultat a t
lalgorithme LZW. Cest un algorithme qui travaille avec tous les types de
donnes. Descompressors de grand performance ont vu le jour aprs lapparition de
lalgorithme LZW. C'est le cas de ARC sous MS-DOS, de COMPRESS sous
UNIX, le format graphique .GIF inclue une compression LZ78,... De nouveaux
compresseurs, utilisant des implmentations particulires de LZ77 ont ensuite t
crs. On trouve par exemple PKZIP et ARJ sous MS-DOS, GZIP sous UNIX,....
On peut dire qu' l'heure actuelle, LZ77, LZ78 et LZW sont les rfrences en
matire de compression usage gnral.
Les mthodes de compression sans pertes sont utilises aussi dans la
structures des mthodes plus compliques de compression pertes, comme par
exemple dans la mthode de compression dimages appele JPEG.
1.2. Mthodes de compression pertes
Il y a plusieurs mthodes pour la compression de donnes:
- par codage pas variable,
- par modulation diffrentielle en impulsions et codage,
- par codage en sous-bandes,
- par transforme orthogonale,
[10]. Dans la suite on prsente la dernire mthode.
1.2.1. Compression par transforme orthogonale
Il s'agit d'une compression de donnes perte contrle. Le rle de la transforme
orthogonale est de de-corrler le signal qui doit tre trait. Ainsi chaque chantillon
du signal obtenu contient seulement sa propre information et aucune information
1.2. - Mthodes de compression pertes 19
spcifique pour les chantillons voisins. Ainsi par l'limination de certains
chantillons on ne perd pas que leur information spcifique (l'information contenue
dans les chantillons rests n'est pas affecte).
Une mthode de compression perte d'information contrle a les pas suivants:
1. On calcule la transforme orthogonale directe | | n y , du signal qui doit subir la
compression , | | n x .
2. On ralise la compression en rejetant les chantillons du signal | | n y infrieurs
un seuil impos. On obtient le signal | | n y
s
. On fait la quantification et on
obtient le signal | | n z . Celui ci est le rsultat de la compression.
3. On calcule la transforme en ondelettes inverse du signal | | n z et on obtient le
signal | | n x . Celui ci reprsente le signal reconstruit par l'opration inverse (de-
compression).
Le seuil dans le pas 2 est impos adaptivement. Sa valeur est choisie tel que
lerreur quadratique moyenne d'approximation du signal | | n x par le signal | | n x
serait infrieure un certain pour-cent de l'nergie du signal x[n].
Les relations suivantes sont valables:
| | | |

1 N
0 = k
2
1 N
0 = k
2
x
k y = k x = E
| | | |

1 M
0 = k
2
1 M
0 = k
2
x
k z = k x = E
)
parce que chacune transforme orthogonale conserve l'nergie.
On peut crire aussi:
| |
| | | |

>
non si , 0
P n y si , n y
= n y
s
Soit | | n y
s o
la squence obtenue par l'organisation des chantillons du signal | | n y
s
en ordre dcroissante. Lerreur quadratique moyenne d'approximation du signal
| | n x par le signal | | n x est donne par:
| |

1 N
M = k
2
s o
k y =
La valeur du nombre M peut tre obtenue comme solution de l'quation:
20 Mthodes de compression de donnes - 1
100
E
= max
x
Z M

La transforme orthogonale qui ralise la meilleure de-corrlation est la


transforme de Karhunen-Love. On prsente dans la suite cette transforme.
Le schma d'un systme bas sur l'utilisation d'une transforme orthogonale est
celle prsente la figure 1.2.1.1.
Figure 1.1.2.1. Le schma d'un systme de compression bas sur l'utilisation d'une
transforme orthogonale.
On a utilis les notations suivantes :
TO - systme de calcul de la transforme orthogonale ;
DP - dtecteur de seuil (c'est le systme qui limine les chantillons de
valeur petite, tous les chantillons infrieurs un certain seuil sont
limins) ;
Cu - systme de quantification ;
Co - systme de codage ;
D - systme de dcodage, l'inverse du systme Co ;
TOI - systme de calcul de la transforme en ondelettes inverse celle
calcule en utilisant le bloc TO.
Ce systme, muni avec une transforme discrte en ondelettes, sera analyse, dans
diffrents chapitres de ce livre. Cette analyse montrera lapport de la thorie des
ondelettes la compression. Les principaux signaux de cette figure sont: le signal
traiter ] [n x , le signal obtenu aprs la compression, ] n [ v et le signal reconstruit,
obtenu aprs l'opration de dcompression, ] [ n x . Les chantillons du signal ] n [ x
sont corrls. a signifie que pour l'information contenue dans l'chantillon courant
sont aussi responsables les chantillons voisins. C'est le motif pour lequel par
l'limination de l'chantillon courant n'est pas affect seulement l'information
contenue dans cet chantillon, mais aussi l'information contenue dans les
chantillons voisins. Le rle de la transforme orthogonale est de decorreler le
signal. Aprs l'application de la transforme orthogonale on obtient un nouveau
1.2. - Mthodes de compression pertes 21
signal. La dpendance du contenu informationnel de l'chantillon courant de ce
nouveau signal, ] [n y , de l'information contenue dans les chantillons voisins est
plus faible. Donc, par l'limination de l'chantillon courant, l'information contenue
dans les chantillons voisins est moins affecte que dans le cas du signal ] n [ x .
L'limination de l'chantillon courant conduit une perte d'information moins
importante si la valeur de l'chantillon tait moins importante. On prsente un
exemple la figure 2.1.2.1.
Figure 2.1.2.1. Un exemple de signal x[n] (en haut) et y[n] (en bas). La transforme
orthogonale utilise est la valeur absolue de la transforme de Fourier discrte.
En analysant cette figure on constate que par l'application de la
transforme de Fourier discrte l'entire information s'est groupe en six
chantillons de valeur significative. En liminant n'importe quel groupe
d'chantillons parmi ceux l'indice compris entre 60 et 190, le contenu
informationnel du signal ] [n y ne se modifie pas. Evidement on ne peut pas dire la
mme chose pour le signal ] [n x , tous les chantillons l'indice entre 60 et 190
ayant une contribution importante la forme de ce signal.
Comme a t montre en [4], la transforme qui ralise la decorrelation la plus
importante d'un signal est la transforme de Karhunen-Love. Malheureusement il
n'y a pas dalgorithmes rapides pour le calcul de cette transforme parce que ce
calcul suppose l'inversion d'une matrice. Il y a des signaux pour lesquelles cette
matrice est singulire. C'est le motif pour lequel en pratique on utilise des
transformes sous optimales, comme par exemple la transforme en cosinus
discrte ou la transforme en ondelettes discrte, [5]. Ce deux transformes
convergent assimptotiquement vers la transforme de Karhunen-Love, mais
l'utilisation de la transforme en ondelettes discrte a quelques avantages, qui
seront envisags dans ce livre. Nous analyserons aussi dautres transformes
discrtes, bases sur l'utilisation de la thorie des ondelettes, comme par exemple la
transforme en paquets d'ondelettes discrte, TPWD ou la transforme en paquets
22 Mthodes de compression de donnes - 1
de cosinus discrte, TPC. On dmontrera que ces transformes convergent aussi
asymptotiquement vers la transforme de Karhunen-Love. Mais ce but, est
ncessaire de prsenter quelques aspects de la thorie des ondelettes. Une telle
prsentation est faite dans [6].
1.2.1.1. La transforme de Karhunen-Love
Soit le signal alatoire ) x( , de dur D et sa dcomposition en srie:

N
1 = k
k k
D 0 , ) ( a
N
l.i.m. = ) x(
(1)
o la limite est prise en moyenne quadratique et les fonctions ) (
k
sont
orthogonales.
On sintresse de l'approximation du signal ) x( par le signal ) ( x
N
avec:


N
1 = k
k k N
D 0 , ) ( a = ) ( x
(1')
On dsire la construction de cette approximation tel que le signal temps discret a
k
n'ait pas des lments corrls.
La relation (1) devient:
( ) { } 0 = ) x( ) ( x E
N
lim
2
N


(2)
o on a not avec E l'oprateur d'esprance statistique.
Les coefficients a
k
peuvent tre calculs avec la relation:


D
0
k k
d ) ( ) x( = a
*
(3)
Si l'esprance statistique du signal ) x( est nulle alors:
{ } { } ( ) Z k , 0 = d ) ( ) x( E = a E
D
0
k k
*

(3')
Si les coefficients a
k
ne sont pas corrls alors:
{ } | | l k = a a E
k l k
*
(4)
1.2.1.1. - La transforme de Karhunen-Love 23
ou:
| | l k = du (u) (u) x d ) ( ) x( E
k
D
0
l
D
0
k
* *

)
`



or:
{ } | | l k = du d ) ( (u) x ) x( E (u)
k k
D
0
D
0
l
* *

|
|
.
|

\
|


Mais, { } (u) x ) x( E
*
reprsente l'autocorrlation du signal alatoire ) x( ,
( ) u , R
x
.
La dernire relation devient:
( ) | | l k = du d ) ( u , R (u)
k k
D
0
x
D
0
l
*

|
|
.
|

\
|


(4')
Grce l'orthogonalit des fonctions ) (
k
la dernire condition est satisfaite aussi
si:
( ) (u) = d ) ( u , R
* *
k k k
D
0
x

ou, parce que la fonction dautocorrelation est relle:


( ) (u) = d ) ( u , R
k k k
D
0
x

(5)
On a obtenu ainsi une quation intgrale Fredholm. ( ) u , R
x
reprsente le noyau
de l'quation,
k
( )sont les fonctions propres et
k
les valeurs propres.
Sachant l'autocorrlation du signal dcomposer ) x( , ( ) u , R
x
, on peut
rsoudre l'quation (5), et trouver les fonctions ) (
k
et les valeurs
k
.
On peut montrer que la transforme Karhunen-Love, dfinie dans la relation (1')
rend sa plus petite valeur lerreur quadratique moyenne d'approximation:
( ) ( ) { }
2
N
2
) ( x ) x( E = e E (6)
Il n'existe pas une autre transforme (dcomposition) dcrite par une
somme N termes qui conduit une erreur moyenne quadratique d'approximation
du signal original, infrieure l'erreur introduite par la transforme de Karhunen-
Love.
24 Mthodes de compression de donnes - 1
On prsente dans la suite deux exemples.
Soit, pour le commencement, le signal traiter un bruit blanc.
Dans ce cas ci:
( ) ( ) u , = u , R
x

La relation (4') devient:
( ) | | l k = du d ) ( u , (u)
k k
D
0
D
0
l
*

|
|
.
|

\
|


ou:
( ) ( ) | | l k = 0 0
k k l
*
(7)
Donc:
( ) { }
2
l
2
l
2
l l
= a E = 0 =
Tenant compte des relations: (3') et (7) on peut crire:
{ } { } { } l k , 0 = a E a E = a a E
* *
l k l k

Donc les chantillons du signal a
k
ne sont pas seulement de-corrles, ils sont aussi
indpendants.
Voil pourquoi on utilise la transforme de Karhunen-Love pour la compression
des donnes.
Une classe large de signaux alatoires ont la fonction de corrlation de la forme:
( ) ( ) ( ) v R = u R = e = u , R
x x
u
x


(8)
Dans ce cas l'quation Fredholm associe (relation (5')) devient:
) ( = du (u) e
k k k
D
0
u


(9)
Les solutions de cette quation sont:
2
o
2
k
k j
k
k + 1
2
= ; e = ) (
o



(10)
Voil la source dintrt pour les dveloppements en srie de Fourier.
Parce qu'il s'agit de donnes, la transforme de Karhunen-Love des signaux
temps discret est trs intressante.
1.2.1.1. - La transforme de Karhunen-Love 25
Le signal transformer,
| |
xn , de dure N peut tre exprim dans la forme:
| | | | | | | | 1 N x ... 1 x 0 x = x
T

Soit T une transforme orthogonale. Si on applique cette transforme au


signal | | n x on obtient:
x T = X
o:
| | | | | | | | 1 N X ... 1 X 0 X = X
T

La transforme T peut tre dcrite l'aide de la matrice T, dfinie par:


| |
1 N 1 o
T
... = T


o 1 N , 0 = k ,
k
sont des vecteurs orthogonaux:
| | l k =
l
T
k

La transforme inverse est dcrite l'aide de la matrice transpose
T
T .
On peut crire:
| | | |


1 N
0 = k
k 1 N 1 o
T
k X = X ... = X T = x
(11)
Une compression de donnes peut tre obtenue si on rduit la dimension de
l'espace transform de N M (M<N).
L'expression du signal obtenu aprs la compression est:
| |

1 M
0 = k
k M
k X = x
(12)

Lerreur d'approximation du x par x
M
est:
| |


1 N
M = k
k M
k X = x x = x
(13)

Lerreur quadratique moyenne d'approximation est:
{ } | | | |
)
`




=
1 N
M = k
l
T
k
1 N
M l
2
l X k X E = x E =
26 Mthodes de compression de donnes - 1
Tenant compte de l'orthogonalit des vecteurs
k
, la dernire relation dvient:
| | { } k X E =
2
1 N
M = k

(14)
Parce que le signal alatoire l'entre,
| |
xn , est caractris statistiquement par sa
matrice de covariance il est utile d'exprimer lerreur quadratique moyenne l'aide
de cette matrice:
{ }
T
x
x x E = C
Tenant compte de la relation (13) et de l'orthogonalit des vecteurs
k
on peut
crire:
| | x = k X
T
k

Voil pourquoi la relation (14) dvient:
( ) { } { }
k
T
1 N
M = k
T
k
T
T
k
T
k
1 N
M = k
x x E = x x E =


(15)
ou:
k x
T
k
1 N
M = k
C =

(16)
Parce que la matrice C
x
est connue il faut dterminer les vecteurs orthogonaux
k
et la transforme T qui minimise lerreur quadratique moyenne, .
On peut trouver la solution de ce problme dans la littrature. Cette solution a t
trouve en utilisant la mthode des multiplicateurs de Lagrange, [7].
On obtient le systme d'quations:
k k k x
= C (17)

Donc les vecteurs
k
sont des vecteurs propres de la matrice de covariance du
signal x.
La plus petite valeur de lerreur quadratique moyenne est:
k
1 N
M = k
min
=

(18)

La transforme dfinie dans la relation (17) est appele la transforme de
Karhunen-Love du signal temps discret | | n x .
1.2.1.1. - La transforme de Karhunen-Love 27
On prsente dans la suite une liaison entre les transformes de Karhunen-Love
temps continue et temps discret.
La relation (5) peut tre crite dans la forme:
( ) (u) = ) ( , u , R
k k
L
k x
2

(19)

Avec la notation:
( ) | | n m, C = n m, R
x x
la relation (19) devient:
| | | | | | 1 N , 0 = m , m = n , n m, C
k k
l
k x 2

(20)
ou:
| | | | | |
| | | | | |
| | | | | |
| |
| |
| |
| |
| |
| |
(
(
(
(

(
(
(
(

(
(
(
(

1 N
1
0
=
1 N
1
0

1 N , 1 N C 1 , 1 N C 0 , 1 N C
1 N , 1 C 1 , 1 C 0 , 1 C
1 N , 0 C 1 , 0 C 0 , 0 C
k
k
k
k
k
k
k
x x x
x x x
x x x
M M
L
M M M
L
L
(21)

Donc:
k k k x
= C (22)

La dernire relation est identique avec (17).
Mais les coefficients a
k
ne sont pas corrls. A l'aide de la dernire relation on peut
affirmer que les coefficients | | k X ne sont pas corrls eux aussi. Voil pourquoi
on peut affirmer que la matrice
x
C est diagonale.
Grce la relation (22) on peut crire:
(
(
(
(

1 N
1
o
x
0 0
0 0
0 0
= C
K
M M M
K
K
(23)
La compression du signal | | k X , 1 M , 0 = k peut tre ralise en retenant les
premiers M valeurs contenues dans ce signal. On obtient le signal:
28 Mthodes de compression de donnes - 1
| |
| |


sinon , 0
1 M , 0 = k , k X
= k X
c
Le nombre N-M d'chantillons | | k X qui peuvent tre ngligs corresponde au
nombre de coefficients
k
de la matrice de covariance
x
C qui peuvent tre
ngligs.
Malheureusement il n'existe pas dalgorithmes rapides pour le calcul de la
transforme de Karhunen-Love d'un signal.
Voil pourquoi il est trs difficile de dterminer les vecteurs propres de la matrice
de covariance. En pratique on utilise des transformes sous-optimales. Celles ci
convergent asymptotiquement vers la transforme de Karhunen-Love mais
peuvent tre calcules l'aide des algorithmes rapides. On peut mentionner parmi
ces transformes les suivantes:
- la transforme de Walsh-Hadamard,
- la transforme en cosinus discrte, DCT,
- la transforme en ondelettes discrte.
La convergence asymptotique de la transforme DCT vers la transforme de
Karhunen-Love est dj prouve, [8], [9].
On prouvera dans cet ouvrage, dans un prochain chapitre, la convergence des
diffrentes transformes en ondelettes discrtes envers la transforme de
Karhunen-Love.
Chapitre 2. Transformes en ondelettes discrtes
Le but de ce livre est denvisager lapport de la thorie des ondelettes aux
techniques de compression. Cest le motif pour lequel dans ce chapitre, sont
prsentes les connaissances appartenant cette thorie, ncessaires pour la
ralisation de la compression.
2.1.1. La liaison entre la theorie des ondelettes et le codage en
sous-bandes
Une introduction dtaille la theorie des ondelettes peut etre trouve en
[10] ou en [6]. Dans la suite on prsentera seulement les aspects intressants de
cette theorie du point de vue de la compression de donnes. Pour le
commencement, on analyse le fonctionnement d'un codeur en deux sous-bandes, il
s'agit de cellules de base des structures de traitement multirating, qui sont utilises
la compression des signaux audio, conformment au standard MPEG. On
considre le systme de la figure 1.2.1.1.b).
Figure 1.2.1.1. a) Le symbole pour un dcimateur ; b) Le schma d'un codeur en deux sous-
bandes.
Pour le commencement on considre le cas le plus simple, o les deux
filtres utiliss sont idaux.
Les rponses en frquence des filtres numriques rponses l'impulsion unitaire
h[n] et g[n] de la figure 1.2.1.1. sont prsentes la figure 2.2.1.1.
30 Transformes en ondelettes discrtes - 2
Figure 2.2.1.1. Les rponses en frquence des filtres de la figure 1.2.1.1.
Pour analyser le codeur en sous-bandes, on calcule les transformes en z
des signaux s[n] et d[n]. A cette fin,on constate que:
G(z) X(z) = V(z) ; H(z) X(z) = U(z)
Conformment la dfinition de la transforme en z :
n
n
n
n
u[2n]z = s[n]z S(z)


=
) 1 n 2 (
n
n 2
n
n
n
1]z + u[2n + u[2n]z = u[n]z = U(z)


) 1 n 2 (
n
n 2
n
1]z + u[2n u[2n]z = z) U(
+


et on observe qu'on peut crire :
| | ) S(z = ) z ( u[2n] = u[2n]z = z) U( + U(z)
2
1
2 n 2
n
n 2
n

En revenant l'expression de S(z) :


(
(

|
|
.
|

\
|

|
|
.
|

\
|
z U + z U
2
1
= S(z)
2
1
2
1
(2.1.1.1)
or :
2.1.1. - La liaison entre la theorie des ondelettes et le codage en sous-bandes 31
z H z X + z H z X
2
1
= S(z)
2
1
2
1
2
1
2
1
(
(

|
|
.
|

\
|

|
|
.
|

\
|

|
|
.
|

\
|
|
|
.
|

\
|
(2.1.1.2)
Similaire, on dmontre que :
z G z X + z G z X
2
1
= D(z)
2
1
2
1
2
1
2
1
(
(

|
|
.
|

\
|

|
|
.
|

\
|

|
|
.
|

\
|
|
|
.
|

\
|
(2.1.1.3)
Pour calculer les spectres des signaux s[n] et d[n] on utilise la substitution :

=
j
e z
dans les relations (2.1.1.2) et (2.1.1.3), en obtenant alors :
+
2
H +
2
X +
2
H
2
X
2
1
= ) S(
(

|
.
|

\
|

|
.
|

\
|

|
.
|

\
|
|
.
|

\
|

+
2
G +
2
X +
2
G
2
X
2
1
= ) D(
(

|
.
|

\
|

|
.
|

\
|

|
.
|

\
|
|
.
|

\
|

Soit, par exemple, le spectre X(), de la figure 3.2.1.1.


Figure 3.2.1.1. Un exemple de spectre de signal d'entre.
32 Transformes en ondelettes discrtes - 2
Les spectres des signaux s[n] et d[n] sont prsents dans les figures 4.2.1.1
et 5.2.1.1.
Figure 4.2.1.1. Le spectre du signal s[n].
Figure 5.2.1.1. Le spectre du signal d[n].
On constate que le spectre S() a la mme forme que le spectre X() dans
la bande de frquences [- /2 , /2 ]. On constate aussi que la portion du spectre
D() contenue dans la bande [-2 , - ] [ , 2 ] a la mme forme que le spectre
X() dans la bande [ - , ] - [ -/2 , /2 ].
2.1.1. - La liaison entre la theorie des ondelettes et le codage en sous-bandes 33
Figure 6.2.1.1. Une structure arborescente de codage en sous-bandes.
On peut donc affirmer que le signal x[n] a t cod en deux sous-bandes,
ses composantes de basse frquence tant retrouves dans le signal s[n] et ses
composantes de haute frquence, dans le signal d[n]. Le systme de codage de la
figure 1.2.1.1 peut tre regard comme un systme de projection aussi. Si la
squence ] n [ x reprsente les coefficients du dveloppement d'un signal ( ) t x dans
une base de l'espace de Hilbert
0
V alors les squences | | n s et | | n d reprsentent les
coefficients des dveloppements des signaux ( ) t s et ( ) t d , les projections du signal
( ) t x sur deux sous-espaces de Hilbert ferms de
0
V ,
1
V et
1
W , dans les bases
de ces sous-espaces. Les espaces
0
V et
1
V reprsentent les lments d'une
analyse multi-rsolution.
Pour augmenter le nombre de sous-bandes on peut utiliser une
structure arborescente comme cela est montr la figure 6.2.1.1. Ce systme
peut tre utilis, pour le calcul de la transforme en ondelettes discrte.
On calcule les transformes en z des signaux s
k
[n] et d
k
[n], k=1M. On
observe (conformment la figure 1.2.1.1) que :
d[n] = [n] d ; s[n] [n] s
1 1
=
et ainsi on peut crire :
(
(

|
|
.
|

\
|

|
|
.
|

\
|
+
|
|
.
|

\
|
|
|
.
|

\
|
2
1
2
1
1
2
1
2
1
1 2
z H z S z H z S
2
1
= (z) S
34 Transformes en ondelettes discrtes - 2
(
(

|
|
.
|

\
|

|
|
.
|

\
|
+
|
|
.
|

\
|
|
|
.
|

\
|
2
1
2
1
1
2
1
2
1
1 2
z G z S z G z S
2
1
= (z) D
Figure 7.2.1.1. Le spectre du signal s
2
[n].
Figure 8.2.1.1. Le spectre du signal d
2
[n].
En continuant l'exemple considr antrieurement, les spectres des signaux
s
2
[n] et d
2
[n] prennent les formes prsentes dans les figures 7.2.1.1 et 8.2.1.1.
On constate que le spectre S
2
() a la mme forme que le spectre X()
dans la bande de frquences [-/4, /4 ] et que le spectre D
2
() a la mme forme
que le spectre X() dans la bande de frquences [- /2, /2 ] - [-/4, /4 ].
2.1.1. - La liaison entre la theorie des ondelettes et le codage en sous-bandes 35
Figure 9.2.1.1. La correspondance entre le spectre X() et les spectres S
k
(), D
k
(),
k = 12.
On peut constater aussi que le spectre S
M
() a la mme forme comme le
spectre X() dans la bande de frquences [-/2
M
, /2
M
] et que le spectre D
M
() a
la mme forme comme le spectre X() dans la bande [ - /(2
M-1
) , /(2
M-1
) ]
[ -/2
M
, /2
M
]. En autres mots, des morceaux du spectre X() ont t poss en
correspondance avec les signaux s
k
[n] et d
k
[n]. Cette correspondance est montre
dans la figure 9.2.1.1.
On constate qu'en utilisant le systme de la figure 6.2.1.1, la bande de
frquences du spectre du signal x[n] est divise en octaves. On peut donc affirmer
que le systme avec la structure arborescente de la figure 6.2.1.1 est vraiment un
codeur en sous-bandes. Dans la suite on analyse l'opration de dcodage. On pose
la question de la reconstruction du signal x[n] en utilisant les signaux s[n] et d[n].
On considre ce but le systme de la figure 10.2.1.1 b).
Figure 10.2.1.1. a) Interpolateur ; b) Systme de dcodage correspondant celui de la
figure 1.2.1.1.
36 Transformes en ondelettes discrtes - 2
On calcule la transforme en z du signal b[n] (figure 10.2.1.1 a).) en
utilisant la transforme en z du signal a[n] :
n
n
[n]z = (z)



( )
2 n 2
n
) 1 n 2 (
n
n 2
n
n
n
z = [n]z =
= 1]z + [2n + [2n]z = [n]z = (z)


ainsi qu'on peut crire les transformes en z pour les autres signaux du systme de
codage :
); D(z = (z) U ; ) S(z = (z) U
2
2
2
1
ou, tenant compte des relations (2.1.1.2) et (2.1.1.3) :
| |
| | z) G( z) X( + G(z) X(z)
2
1
G(z)
+ z) H( z) X( + H(z) X(z)
2
1
H(z) Y(z)
+
=
(2.1.1.4)
En utilisant cette relation on dtermine le spectre du signal y[n] :
| |
| | ) + G( ) + X( + ) G( ) X(
2
1
) G(
+ ) + H( ) + X( + ) H( ) X(
2
1
) H( = ) Y(
+

(2.1.1.5)
Si on utilise les filtres rponses en frquence avec les caractristiques de la figure
2.1.1.2 on peut crire les relations :
0 = ) + G( ) G( = ) + H( ) H(
1 = ) ( G + ) ( H
2 2

Alors la relation (2.1.1.5) devient :
2.1.1. - La liaison entre la theorie des ondelettes et le codage en sous-bandes 37
| | ) ( X
2
1
) ( G ) ( H ) X(
2
1
= ) ( G ) X(
2
1
+ ) ( H ) X(
2
1
= ) Y(
2 2
2 2
= + =

(2.1.1.6)
Donc, l'exception d'une constante multiplicative (gale 1/2), les signaux x[n] et
y[n] sont identiques. On dit que le dcodeur de la figure 11.2.1.1. est
reconstruction parfaite.
Figure 11.2.1.1. Le schma d'un dcodeur pour les signaux cods en M sous-bandes.
Celui-ci peut tre utilis pour la reconstruction parfaite du signal trait par
le systme de la figure 6.2.1.1, si on utilise les filtres idaux de la figure 2.2.1.1. Le
systme de la figure 11.2.1.1 permet le calcul de la transforme en ondelettes
discrte inverse.
OBSERVATIONS
O1. Une analyse similaire peut tre faite aussi pour le cas ou l'interpolation et la
dcimation ne se font pas en utilisant la constante 2. On pourrait utiliser une autre
constante, par exemple M. Dans ce cas on n'obtient pas une dcomposition en
octaves de la bande B du signal u[n]. On obtient une dcomposition en sous-bandes
dont la largeur dpend de M.
O2. Pour les structures qui utilisent des arbres symtriques on peut faire une
analyse similaire. Ces structures correspondent la notion de paquets d'ondelettes,
introduite en [11].
38 Transformes en ondelettes discrtes - 2
O3. La principale limitation des systmes de codage et de dcodage en sous-bandes
structure arborescente prsents jusqu'ici est que les filtres rponses en
frquence de la figure 2.1.1.2 ne sont pas ralisables.
Dans la suite seront dtermines des classes de filtres ralisables qui
permettent le codage en sous-bandes structure arborescente et
reconstruction parfaite.
2.1.1.1. Le codage en sous-bandes reconstruction parfaite
en utilisant des systmes structure arborescente avec des
filtres ralisables
On considre que h[n] et g[n] correspondent des filtres ralisables. Un
systme, quivalent celui de la figure 10.2.1.1, destin la reconstruction
parfaite, est prsent la figure 12.2.1.1.
Figure 12.2.1.1. Le systme de reconstruction correspondant un codeur en deux sous-
bandes.
Le signal de la sortie du dcodeur est une variante retarde par d du signal
d'entre. Il faut dterminer les rponses impulsion unitaire h
r
[n] et g
r
[n] et les
conditions pour les filtres h[n] et g[n] pour obtenir la sortie du systme de la
figure 2.1.1.12 le signal x[n-d]. A cette fin, on crit la relation (2.1.1.4) dans la
forme :
| |
| | z) G( z) X( + G(z) X(z)
2
1
(z) G
+ z) H( z) X( + H(z) X(z)
2
1
(z) H = X(z) z
r
r
d
+

(2.1.1.7)
ou :
| |
| | (z) G z) G( z) H( (z) H
2
1
z) X(
+ (z) G G(z) H(z) (z) H
2
1
X(z) = X(z) z
r r
r r
d
+ +
+

2.1.1.1. - Le codage en sous-bandes reconstruction parfaite 39


Cette quation est aussi satisfaite par les solutions du systme d'quations :
d
r r
2z = (z) G G(z) + H(z) (z) H


0 = ) z ( G z) G( + ) z ( H z) H(
r r

On trouve la solution pour ce systme en considrant connues les transformes en z
notes par H(z) et G(z). Le dterminant du systme est :
G(z) z) H( z) G( H(z) =
z) G( z) H(
G(z) H(z)
=

Les dterminants correspondants pour les deux variables sont de la forme :


z) G( 2z =
z) G( 0
G(z)
2z
= H
d
d
r

Donc les solutions sont donnes par les relations suivantes :


G(z) z) H( z) G( H(z)
z) G( z 2
= (z) H
d
r



(2.1.1.8)
G(z) z) H( z) G( H(z)
z) H( z 2
= (z) G
d
r



(2.1.1.9)
Evidement une condition qui doit etre impose aux filtres du codeur est que
l'quation :
0 = G(z) z) H( z) G( H(z)
(2.1.1.10)
n'ait pas une racine diffrente des racines de l'quation :
0 = z
d
C'est le motif pour lequel une condition approprie pour les filtres h[n] et g[n]
serait :
d
2z = G(z) z) H( z) G( H(z)

(2.1.1.11)
Dans ce cas les relations (2.1.1.8) et (2.1.1.9) deviennent :
40 Transformes en ondelettes discrtes - 2
z) G( = (z) H
r
(2.1.1.12)
z) H( = (z) G
r
(2.1.1.13
Donc les rponses en frquence des filtres de reconstruction dpendent des
rponses en frquence des filtres du codeur conformment aux relations:
) + G( = ) ( H
r
(2.1.1.14)
) + H( = ) ( G
r
(2.1.1.15)
et les rponses en frquence des filtres de la structure du codeur satisfaient:
d j
e 2 = ) G( ) + H( ) + G( ) H(

(2.1.1.16)
H
r
(z) et G
r
(z) sont les fonctions de transfert introduites par Esteban et Galand, [8],
sous le nom de "Quadrature Mirror Filters", QMF.
OBSERVATION : La relation correspondante (2.1.1.11) dans le domaine du
temps est:
d] [n 2 = } ) 1 ( ) 1 {( k] g[n h[k]
k
k k n


(2.1.1.17)
Pour des valeurs paires de n cette relation peut tre crite dans la forme :
0 = d] [n
en rsultant la ncessite que d soit un nombre naturel impair.
On a dmontr ainsi qu'aprs l'utilisation des filtres QMF on peut raliser
une reconstruction parfaite pour un codage en deux sous-bandes, si les filtres de
reconstruction respectent les conditions (2.1.1.12) et (2.1.1.13) et les filtres de
synthse (h[n] et g[n]) respectent la condition (2.1.1.11) o la valeur d doit tre
impaire. La relation (2.1.1.16) est gnrale. Elle ne fournit pas d' informations sur
la modalit de construction des filtres de synthse. Smith et Barnwell ont dtermin
une classe de filtres de synthse [12]. Ils ont propos la liaison suivante entre les
rponses en frquence des filtres de synthses, supposs rponses impulsion
unitaire rel :
) + ( H e = ) G(
d j


(2.1.1.18)
2.1.1.1. - Le codage en sous-bandes reconstruction parfaite 41
En utilisant cette condition le membre droit de la relation (2.1.1.16) peut tre crit,
pour d impaire :
2 = ) + H( + ) H(
2 2
(2.1.1.19)
Dans ce cas-ci les rponses en frquence des filtres de reconstruction peuvent tre
crites dans la forme :
) ( H e = ) ( H
d j
r


(2.1.1.20)
) + H( = ) ( G
r
(2.1.1.21)
COMMENTAIRES
1. Soit :
h[n] ) 1 ( = [n] ' h
n

On constate que :
) + H( [n] ' h
La relation correspondante la relation (2.1.1.19) dans le domaine du temps est,
conformment la relation de Wiener-Hincin :
[n] 2 = [n] R + [n] R
h h hh


(2.1.1.22)
C'est le motif pour lequel on peut affirmer que, du point de vue de la construction
des filtres de la structure du codeur, respectivement du dcodeur, la relation
(2.1.1.19) est mieux que la relation (2.1.1.16).
2. En connaissant les avantages d'implmentation des filtres RIF par rapport aux
filtres RII, on suppose dans la suite que tous les filtres d'analyse et de synthse sont
de type RIF. Si le filtre h[n] est causal alors sa transforme de Fourier temps
discret est :

=


1 L
0 n
n j
e h[n] = ) H(
et sa transforme en z est :
n
1 L
0 n
z h[n] = H(z)

o L reprsente la longueur de la rponse l'impulsion unitaire pour le filtre


considr.
42 Transformes en ondelettes discrtes - 2
Admettant que h[n] sont des nombres rels on peut crire :
e h[n] = ) ( H
1 L
0 n
n j

=


et:
e h[n] ) 1 ( = ) + ( H
1 L
0 n
n j n

=


Suite la relation (2.1.1.18) rsulte que la rponse en frquence de l'autre
filtre de synthse sera :


=

=


1 L
0 n
) d n ( j n
1 L
0 n
n j n d j
e h[n] ) 1 ( = e h[n] ) 1 ( e = ) G(
Pour avoir un filtre causal, il est ncessaire que pour chaque n entre 0 et L-1 la
condition suivante soit satisfaite :
0 < d n
et donc le retard d doit satisfaire la condition :
1 L > d (2.1.1.22)
Si on respecte cette condition alors les deux filtres de synthse sont causaux. Donc
la plus petite valeur de d est :
L =
dmin (2.1.1.23)
Pour pouvoir reconstruire avec un retard minime,il est donc ncessaire d'utiliser
des filtres de synthse de longueur impaire.
En utilisant les relations (2.1.1.20) et (2.1.1.21) on constate que si la
condition (2.1.1.23) est respecte alors les filtres de reconstruction sont aussi
causaux.
3. Les quatre filtres ( rponses en frquence H(), G(), H
r
() et G
r
()) ont la
mme longueur. En faisant des petites modifications, le schma peut fonctionner
avec des filtres d'analyse d'une certaine longueur et avec des filtres de synthse
d'une autre longueur, [13], [14].
2.1.2. - La liaison entre les systmes de codage en sous-bandes 43
2.1.1.1.1. Mthodes de construction des filtres CQF
On fait la notation :
) H(z H(z) = F(z)
1

ou :
2
) H( = ) ( H ) H( = ) F(

(2.1.1.25)
La condition (2.1.1.20) peut tre crite dans la forme suivante :
2 = ) + F( + ) F(
(2.1.1.26)
On conoit le systme rponse en frquence F() en utilisant la relation
(2.1.1.26). Puis on dduit H() en utilisant la relation (2.1.1.25) et la fin on
dduit G(), H
r
() et G
r
().
En [9] sont prsents plusieurs exemples de rponses en frquence H() obtenues
en utilisant la mthode de conception dcrite. La classe de ces filtres peut tre
restreinte si on impose des conditions supplmentaires. Par exemple on peut
imposer :
- la condition de phase linaire (la symtrie de la rponse impulsion
unitaire) ;
- la condition de longueur minimale de cette rponse,
- la condition de simplicit des expressions analytiques,
Toutes ces conditions sont importantes quand se pose le problme du codage en
plusieurs sous-bandes parce qu'elles favorisent la stabilit numrique des
algorithmes d'implmentation des systmes prsents dans les figures 2.1.1.11 et
2.1.1.16. Cette stabilit est assure si les filtres respectent une certaine condition de
rgularit, [15], [16]. La condition de rgularit est la partie qui relie la thorie des
systmes de codage en sous-bandes la thorie des ondelettes.
2.1.2 La liaison entre les systmes de codage en sous-bandes
et la thorie des sries d'ondelettes
La thorie des sries d'ondelettes, dveloppe en [15], [16], [17] a pour but
la construction des nouvelles bases de Riesz de l'espace L
2
(R). On commence avec
la dfinition de l'analyse multi-rsolution.
DEFINITION 1. S'appelle analyse multi-rsolution de l'espace L
2
(R), l'ensemble
de sous-espaces de Hilbert ferms {V
m
}
mZ
qui satisfont les proprits :
i). . . . V
m+1
V
m
V
m-1
. . . mZ
44 Transformes en ondelettes discrtes - 2
ii). { }
I U
Z m
m
__
Z m
2
m
0 V , ) R ( L V

= =
iii).
1 m m
V ) x 2 ( f , V ) x ( f


iv). V
0
, tel que l'ensemble {
m,n
(x) } = { 2
-m/2
( 2
-m
x - n ) }
nZ
forme une
base de Riesz du V
m
pour chaque m.
En [18] et [19] sont prsents plusieurs exemples d'analyses multi-rsolution. La
fonction (x) s'appelle fonction d'chelle. Chaque base de Riesz peut tre
transforme dans une base orthogonale, [7].
On considre, dans la suite que l'ensemble {(x-k) }
kZ
est une base orthonormale
de l'espace V
0
. Dans la plupart des livres dj cits est dmontr le thorme
suivant :
THEOREME 1. Si {(x-k)}
kZ
est une base orthonormale de l'espace V
0
, alors
l'ensemble {
m,k
(x)}
kZ
est une base orthonormale de l'espace V
m
.
Dans la suite on dtermine les projections d'une fonction f
0
(x) de V
0
sur les
espaces V
1
, ..., V
M
, les fonctions f
1
(x), ..., f
M
(x) :


k
n 1, n , 1 1
(x) (x) f(x), = (x) f
Ces fonctions reprsentent les approximations de diffrentes rsolutions de la
fonction f(x). Il y a des applications o la plus bonne rsolution n'est pas ncessaire
pour traiter cette fonction. Par exemple pour la compression, l'information
contenue est parfois suffisante dans l'une des approximations de rsolution plus
faible. Les coefficients de ce dveloppement en srie de Fourier gnralise sont
nots avec s
1
[n] et sont donns par :


=

k
k
*
n 1, 1
k] [x f(x), k] h[2n
= k] [x k] [2n
h
f(x), = (x) f(x), = [n] s
En utilisant la notation :
[k] s = k) (x f(x),
0

on obtient :
k] h[2n [k] s = [n] s
k
0 1

(2.1.2.1)
relation qui exprime la liaison entre les coefficients des projections de la fonction
f(x) sur les deux premiers lments de l'analyse multi-rsolution. Les coefficients
du dveloppement de la projection sur V
-2
sont nots par s
2
[n] et sont donns par :
2.1.2. - La liaison entre les systmes de codage en sous-bandes 45
(x)dx f(x) = (x) f(x), = [n] s
n , 2 n 2, 2




Mais, en revenant la dfinition 1, pour m = 2, nous avons :
) x 2 ( 2 =
= ) n ) x 2 ( 2 ( 2 2 = ) n x 2 ( 2 = (x)
1
n , 1
2
1
1 1
2
1
2
1
2
2
2
n , 2



ou:

k
1
2
1
1
n 1,
2
1
k) u 2 ( k] [2n h 2 = u) 2 ( 2
ou :


k
k , 1
*
n , 2
(u) k] [2n
h
= (u)
En procdant similairement on peut dmontrer que pour chaque m positif est la
relation suivante est valable:


k
k , 1 m
*
n , m
(x) k] [2n
h
= (x)
(2.1.2.2)
On peut crire encore :
=
= |
.
|

\
|


k
k , 1
k
k , 1
*
2
(x) ), x ( f k] h[2n
dx (x) k] [2n
h
) x ( f = ] n [ s
ou :
k] h[2n [k] s = [n] s
k
1 2

(2.1.2.3)
On peut dmontrer par rcurrence que :
k] h[2n [k] s = [n] s
k
1 m m


(2.1.2.4)
pour chaque m positif.
En analysant le membre droit de la dernire relation on constate que :
46 Transformes en ondelettes discrtes - 2
n 2 p 1 m m
] h[p ] p [ s = [n] s
=
(2.1.2.5)
Donc les coefficients des dveloppements des projections du signal f
0
(t) sur deux
sous-espaces successifs V
m-1
et V
m
, les squences s
m-1
[n] et s
m
[n], peuvent tre
dtermins par le filtrage avec le filtre h[n] et par dcimation.
En faisant la notation :
x[n] = [n] s
0
il rsulte que les squences s
m
[n] , m=1M, peuvent tre obtenues en utilisant le
systme de la figure 2.1.1.11. C'est la liaison entre les systmes de codage en
sous-bandes et la thorie des sries d'ondelettes qui reprsente le sujet de ce
paragraphe.
OBSERVATIONS
O1. On calcule la transforme de Fourier, F, des variantes translates et d'autres
chelles des fonctions d'chelle :
{ } ( ) ( )

=
)
`

= = dx e n x 2 2 ) ( n x 2 2 F ) ( ) x ( F
x j 1
2
1
1
2
1
n , 1 n , 1
En faisant le changement de variable 2
-1
x - n = u on obtient :
{ } ( ) ( )
( ) ( ) = =
= = =


2 e 2 du e u e 2
du e e u 2 du 2 e u 2 ) x ( F
n j 2
2
1
u j 2 n j 2
2
1
n j 2 u j 2
2
1
) n u ( 2 j
2
1
n , 1
Donc :
) 2 ( e 2 = ) (
n j 2
n , 1


ou :
) ( e k] [2n h = ) (2 2
k
) 2n - (k j -
|
.
|

\
|



ou :
2.1.2. - La liaison entre les systmes de codage en sous-bandes 47
) ( e n] 2 [k (h
2
1
= ) (2
k
) 2n - (k j - v
|
.
|

\
|


o a t utilise la notation :
m] h[ = [m] h
v

En faisant le changement de variable k-2n=p on peut crire :


p j
p
v ) 2n (k j
k
v
e ] p [ h
2
1
= e ] n 2 k [ h
2
1





Dans la suite, si on fait la notation :
( )


=

k
) 2n - (k j - v
0
e n] 2 [k h
2
1
m
on peut crire :
) ( ) ( m = ) (2
0

On observe que m
0
() a la signification de transforme de Fourier temps discrt
de la squence h
v*
[p], de variable .
Dans la dernire relation on fait le changement de variable 2 = u et nous
avons :
|
.
|

\
|

|
.
|

\
|

2
u

2
u
m = (u)
0
ou:
|
.
|

\
|

|
.
|

\
|

2

2
m ) ( m = ) (2
0 0
En procdant itrativement on peut dmontrer que :
( )

=

|
.
|

\
|

1 p
p
0
0
2
m = ) (
Mais la fonction d'chelle reprsente d'habitude la rponse impulsion unitaire
d'un filtre passe-bas. C'est le motif pour lequel on peut crire :
1 [p]
h
1, = (0) m 1, = (0)
p
*
0
=

48 Transformes en ondelettes discrtes - 2
et la dernire relation peut etre crite dans la forme :

=
|
.
|

\
|

1 p
p
0
2
m = ) (
En consquence, si le produit du membre droit est convergent, il rsulte que la
dernire relation peut tre utilise pour la construction d'une fonction d'chelle. La
convergence du produit du membre droit est assure par la satisfaction de la
condition de rgularit dj voque. Donc le mcanisme de construction d'une
fonction d'chelle est le suivant :
a). On choisi la rponse impulsion unitaire du filtre passe-bas h[n];
b). On construit la squence h
v*
[n];
c). On calcule m
0
();
d). On calcule ().
Ce mcanisme de construction est remarquable parce qu'il utilise des
mthodes de traitement du signal temps discret pour la construction d'un
signal temps continu.
En connexion avec l'analyse multi-rsolution introduite par la dfinition 1 on peut
dfinir le complment orthogonal du V
m
dans V
m-1
, W
m
:
W V = V
m 1 m

La squence de sous-espaces {W
m
}
mZ
ainsi dfinie reprsente une dcomposition
orthogonale de l'espace de Hilbert des signaux d'nergie finie L
2
(R), [15].
DEFINITION 2 : La squence de sous-espaces de Hilbert ferms {W
m
}
mZ
est
une dcomposition orthogonale du L
2
(R) si les conditions suivantes sont
accomplies :
i). mp => W
m
W
p
ii). ) R ( L V
2
Z m
m
=

U
conformment [17].
En liaison avec les dcompositions orthogonales de l'espace L
2
(R) on peut
dmontrer le thorme suivant.
THEOREME 2. Il y a une fonction dans W
0
, (x) tel que :
i) l'ensemble {(x-n)}
nZ
est une base orthonormale du W
0
;
ii) l'ensemble {
m,n
(x)= 2
-m/2
(2
-m
x-n)}
nZ
est une base orthonormale du W
m
pour
chaque entier m.
La fonction gnratrice de cette base s'appelle mre des ondelettes et les lments
de ces bases s'appellent des ondelettes.
2.1.2. - La liaison entre les systmes de codage en sous-bandes 49
OBSERVATIONS
O1. On peut dmontrer les relations :
| | | | | | n m k m 2 g k n 2 g
k
=


| | | | | | n m k m 2 h k n 2 h
k
=


utiles pour la description du comportement dans le domaine du temps des filtres
avec les rponses en frquence H() et G().
O2. On dtermine la caractrisation dans le domaine de la frquence des
ondelettes. A ce but on calcule les transformes de Fourier de deux membres de
leur relation de dfinition :
)
`

k) x 2 ( 2 F k] [2n g } n) (x F{
2
1
k
ou :
{ } k) (2x F 2 k] [2n g ) (

e
2
1
k
n j
=

ou, en faisant le changement de variable 2x-k=u, on obtient :


= dx e k) (2x = } k) (2x F{
x j
-



|
.
|

\
|

2
e
2
1
=
2
du
e (u) =
k
2
j
2
k u
j
-
et revenant la relation antrieure :
|
.
|

\
|

|
|
.
|

\
|


e
k] [2n g
2
1
= ) (

e
k
2
j -
k
n j
d'o rsulte la relation pour la transforme de Fourier de la fonction (x) :
|
.
|

\
|

|
|
.
|

\
|

e
k] [2n g
2
1
= ) (

) n 2 k (
2
j
k
50 Transformes en ondelettes discrtes - 2
Avec la notation :
e
[p] g
2
1
=
2
m
p
2
j
* v
k
1

|
.
|

\
|

la dernire relation peut tre crite :



2

2
m = ) (

1
|
.
|

\
|
|
.
|

\
|

Tenant compte de l'expression de la transforme de Fourier de la fonction d'chelle,
l'expression de la transforme de Fourier de l'ondelette mre devient :

=
|
.
|

\
|
|
.
|

\
|

2 p
p
0 1
2
m
2
m = ) (

Cette relation permet la construction d'une ondelette mre en partant d'une certaine
rponse de type h[n].
O2. La fonction d'chelle est construite l'aide du filtre avec la rponse h[n] et
l'ondelette mre l'aide du filtre rponse g[n].
Dans la suite on tabli la liaison entre les projections d'un signal f(x) de V
0
sur les sous-espaces successifs V
m-1
, W
m
. A ce but on calcule le produit scalaire
l) (x , ) x (
n , 1
. On peut crire :
(x) k] [2n g = (x)
k , 0
k
n 1,

ou :
] l n 2 [ g ) x ( ), x ( ] k n 2 [ g l) - (x , ) x (
l , 0 k , 0
k
n , 1
= =

Alors :
l) (x l] [2n g = (x)
l
n , 1

et :
(x) (x) , (x) e = (x) e
n , 1 n , 1 1
n
1

En appliquant le thorme de la projection (de Riesz), on obtient :


= = =

(x) , ) k x ( ] k [ s (x) , f(x) (x) , (x) e
n , 1
k
0 n , 1 n , 1 1

= =

k
0
k
n , 1 0
] k n 2 [ g ] k [ s ) k x ( , (x) (k) s
2.1.2. - La liaison entre les systmes de codage en sous-bandes 51
Donc les coefficients du dveloppement du signal e
1
(x) (qui reprsente l'erreur
avec la quelle le signal f
1
(x) fait l'approximation du signal f
0
(x)) dans la base
{
1,n
(x)}
nZ
sont


k
0
] k n 2 [ g ] k [ s . Mais pour ces coefficients nous avons utilis
la notation d
1
[n] dans la figure 11.2.1.1, donc :

=
k
0 1
] k n 2 [ g ] k [ s ] n [ d
En procdant par rcurrence on peut dmontrer que :
= =


) x ( ), x ( f ] k n 2 [ g ] k [ s ] n [ d
n , m
k
1 m m
Donc les coefficients du dveloppement de la projection du signal f(x) de V
0
sur le
sous-espace W
m
, peuvent tre dtermins par filtrage avec le filtre g[n] et par
dcimation en partant de sa projection sur l'espace V
m-1
. On constate que pour
m=1,M, les squences d
m
[n] peuvent tre obtenues en utilisant le systme de la
figure 2.1.1.11. Donc en utilisant ce systme, peut tre dtermine l'approximation
de rsolution M d'un signal et l'erreur produite par cette approximation aussi.
OBSERVATIONS
O1. Dans son travail, [15], Ingrid Daubechies dtermine toutes les rponses
impulsion unitaire de filtres RIF, h[n] et g[n] qui satisfassent une certaine condition
de rgularit. Dautres conditions de rgularit sont prsentes en [20] [24]. Ces
rponses impulsion unitaire sont classifies par leur longueur. Par exemple le
filtre DAU2 est un filtre de longueur 4. Le dsavantage majeur est que ceux-ci
n'ont pas des caractristiques de phase linaires.
O2. Si l'hypothse d'orthonormalit de l'ensemble {(x-n) }
nZ
, est abandonne et
que lon considre seulement que celle-ci est une base de Riesz, alors la theorie
prsente dans ce paragraphe peut tre gnralise. Cette gnralisation a t faite
en [24] en obtenant la classe des ondelettes biorthogonales support compact. Les
filtres correspondants sont de type RIF aussi, mais cette fois ci, les filtres d'analyse
et les filtres de synthse peuvent avoir des longueurs diffrentes. Ces filtres
peuvent avoir la phase linaire.
O3. L'avantage pour la compression de l'utilisation des ondelettes orthonormales
par rapport l'utilisation des ondelettes biorthogonales est prsent dans la suite.
52 Transformes en ondelettes discrtes - 2
On peut crire :
(x) e + (x) f = (x) f
m
M
1 = m
M 0
Ainsi :
2
m
M
1 = m
m
M
1 = m
M
2
M
m
M
1 = m
k
M
1 = k
m
M
1 = m
M m
M
1 = m
M M M
m
M
1 = m
M m
M
1 = m
m
M
1 = m
M M
m
M
1 = m
M m
M
1 = m
M
2
0
(x) e (x) e ), x ( f Re 2 ) x ( f
(x) e , (x) e (x) e ), x ( f (x) e ), x ( f + (x) f , ) x ( f
(x) e + (x) f (x), e (x) e + (x) f , ) x ( f
= (x) e + (x)
f
(x), e + ) x ( f = (x) f




+
)
`

+ =
= + + =
= + =


Dans cette relation, parceque nous avons :
M 1 = m , (x) e (x) f
m M

nous aurons aussi :
M 1 = m , (x) e (x) f
M
1 m
m M

=
et en ce qui concerne la norme de f
0
(x) nous pouvons crire :
2
M
1 k
k
2
M
2
0
) x ( e ) x ( f ) x ( f

=
+ =
puis, en utilisant des proprits du produit scalaire :


= = =
= = = = =
= =
= = =
M
1 k
2
k k l
M
1 k
M
1 l
M
1 l
l
M
1 k
k
M
1 l
l
M
1 k
k
2
M
1 k
k
) x ( e ) x ( e ), x ( e
) x ( e ), x ( e ) x ( e ), x ( e ) x ( e
En revenant on constate que nous avons dmontr que:
2.1.2. - La liaison entre les systmes de codage en sous-bandes 53

=
+ =
M
1 k
2
k
2
M
2
0
) x ( e ) x ( f ) x ( f
En utilisant la relation du Parseval on peut crire la relation en temps
discret equivalente la dernire relation. Celle-ci est :

=
+ =
M
1 k
2
k
2
M
2
0
] n [ d ] n [ s ] n [ s
Les deux dernires relations peuvent tre regardes comme des formes du
principe de la conservation de l'nergie, spcifique pour des transformes
orthogonales. Ces relations ne sont pas valables pour les ondelettes biorthogonales.
Donc on peut affirmer que c'est mieux d'utiliser les ondelettes orthogonales quand
des approximations d'erreur quadratique moyenne sont ncessaires. On peut
affirmer aussi que les transformes discrtes bases sur les ondelettes
biorthogonales ne sont pas orthogonales. C'est le motif pour lequel ces
transformes sont redondantes. Voil un motif srieux pour viter ces
transformations dans les applications de compression.
O4. La thorie dj prsente peut tre gnralise aussi pour le cas de codeurs en
sous-bandes structure arborescente symtrique. Cette gnralisation est faite en
[25].
O5. La thorie dj expose peut tre gnralise aussi pour des codeurs en sous-
bandes qui utilisent des dcimateurs et des interpolateurs constante M, diffrente
de 2, [26].
O6. Une autre direction de dveloppement des codeurs en sous-bandes est celle
base sur l'utilisation des filtres d'analyse et de synthse RII, [27], ou des filtres
variants en
temps, [28].
2.1.3. La transforme en ondelettes discrte TOD
Dans le paragraphe antrieur, on a tablit la liaison entre les sries
d'ondelettes et la technique de codage en sous-bandes. A l'aide du systme de la
figure 11.2.1.1. peut tre introduite la notion de transforme en ondelettes discrte.
Ce systme transforme la squence x[n] dans les squences s
M
[n] et d
1
[n],
d
2
[n],...,d
M
[n]. Soit y[n] la squence obtenue par la runion de ces squences :
} [n] d , ... , [n] d , [n] {s = y[n]
M 1 M
54 Transformes en ondelettes discrtes - 2
L'opration :
y[n] x[n]
porte le nom de transforme en ondelettes discrte, (DWT en anglais) ou TOD.
L'opration :
x[n] y[n]
qui peut etre ralise par le systme de la figure 2.1.1.16 est nomme transforme
en ondelettes discrte inverse (IDWT en anglais), TODI.
On peut dmontrer que la TOD est linaire et orthogonale. Dans la suite on
prsente, sur un exemple, l'algorithme de Mallat de calcul de la TOD, [29]. Soit X
le vecteur de la squence d'entre :

] 1 [ s
] 7 [ s
] 8 [ s
S = X
0
0
0
0
(
(
(
(

=
M
On considre que la longueur des filtres h[n] et g[n] est 4. Le premier pas est dcrit
par la relation :
X M = Y
0 1
o la matrice M
0
est donne par la relation :

h[2] h[3] 0 0 0 0 h[0] h[1]
h[1] h[0] 0 0 0 0 h[3] h[2]
h[0] h[1] h[2] h[3] 0 0 0 0
h[3] h[2] h[1] h[0] 0 0 0 0
0 0 h[0] h[1] h[2] h[3] 0 0
0 0 h[3] h[2] h[1] h[0] 0 0
0 0 0 0 h[0] h[1] h[2] h[3]
0 0 0 0 h[3] h[2] h[1] h[0]
= M
0
(
(
(
(
(
(
(
(
(
(
(
(
(





On constate qu'on obtient :
2.1.3. - La transforme en ondelettes discrte TOD 55
] [1] d [1] s [2] d [2] s ] 3 [ d ] 3 [ s [4] d [4] [s = Y
1 1 1 1 1 1 1 1
T
1
Par permutations rsulte :
( ) [1]] d [2] d ] 3 [ d [4] d [1] s [2] s ] 3 [ s [4] [s = Y
1 1 1 1 1 1 1 1
T
1
1
qui est un vecteur obtenu par la runion des squences s
1
[n] et d
1
[n]. En sparant
ces squences on obtient les vecteurs :
( ) [1]] s [2] s ] 3 [ s [4] [s = X
1 1 1 1
T
1
1
( ) [1]] d [2] d ] 3 [ d [4] [d = X
1 1 1 1
T
2
1
Soit M
1
la matrice obtenue par la restriction de la matrice M
0
son quart de haut de
gauche :
(
(
(
(
(
(


h[2] h[3] 0 0
h[1] h[0] 0 0
h[0] h[1] h[2] h[3]
h[3] h[2] h[1] h[0]
= M
1
Le deuxime pas de l'algorithme est dcrit par la relation :
1
1 1 2
X M = Y
et le rsultat est :
[1]] d ] 1 [ s ] 2 [ d ] 2 [ [s = Y
2 2 2 2
T
2
En mode analogue, rsulte par permutations :
( ) [1]] ]d 2 [ d ] 1 [ s ] 2 [ [s = Y
2 2 2 2
T
1
2
o, si nous sparons les squences s
2
[n] et d
2
[n] nous obtenons :
( ) ]] 1 [ s ] 2 [ [s = X
2 2
T
1
2
et ( ) [1]] ]d 2 [ [d = X
2 2
T
2
2
Maintenant, l'aide des vecteurs X
2
1
, X
2
2
et X
1
2
on construit le vecteur Y:
( ) ( ) ( ) | |
T
2
1
T
2
2
T
1
2
T
X X X = Y
56 Transformes en ondelettes discrtes - 2
Cette relation reprsente le rsultat de l'application de la transforme en ondelettes
discrte au vecteur X. En analysant le nombre doprations effectues on constate
que pour le premier pas de l'algorithme ont t ncessaires 32 multiplications et
que pour le deuxime pas de l'algorithme ont t ncessaires 16 multiplications, 48
au total. Si le vecteur X a N lments alors le nombre de multiplications serait de
l'ordre 4N, [30]. Si des filtres de longueur L taient utiliss alors le nombre de
multiplications serait LN. Pour N suffisamment grand on constate que le nombre
de multiplications ncessaires est infrieur Nlog
2
N, donc la transforme en
ondelettes discrte peut tre effectue plus rapidement que la transforme de
Fourier rapide. C'est le motif pour lequel cette transforme s'appelle aussi la
transforme en ondelettes rapide.
Pour le calcul de la transforme inverse il faut appliquer les oprations dcrites
plus haut en ordre inverse. Le matrices M
0
, M
1
, ... seront substitues par les
matrices M
0
T
, M
1
T
, etc.
Comme chaque transforme, qui s'applique une squence de dure finie,
cette transforme prsente aussi des erreurs aux bords. Pour les premiers
chantillons de la squence x[n], les filtres h[n] et g[n] ne sont pas encore en
rgime permanent. Pour diminuer cette erreur, diffrentes mthodes sont prsentes
en [31]. Si on dsire la ralisation d'une TOD sur des blocs, alors pour la rduction
des erreurs provoques par les problmes aux bords de chaque bloc, on peut
appliquer la mthode "overlap and add" ou la mthode "overlap and save", [32].
La TOD est caractrise par quelques paramtres. L'un de ceux-ci est
l'expression de la rponse impulsionnelle h[n], (donc l'expression de la fonction
d'chelle ou de l'ondelette mre). Conformment [33], cette expression doit tre
corrle avec la forme du signal x[n]. Quand ce signal a une variation rapide, il est
prfrable d'utiliser un filtre rponse impulsionnelle le plus court possible. Il y a
des applications o il est ncessaire que la rponse impulsionnelle h[n] soit
modifie pendant l'intervalle temporel de calcul de la TOD, [34]. Une
proccupation trs intressante est le choix optimal de cette rponse impulsionnelle
en accord avec le signal traiter, pour maximiser le facteur de compression, une
distorsion de reconstruction impose. Cette technique est prsente en [35].
Un autre paramtre de la transforme est son nombre d'itrations, M. Dans
l'exemple donn pour la description de l'algorithme de calcul de la transforme, on
a utilis pour M sa plus grande valeur. Il n'est pas ncessaire que la longueur de la
squence s
M
[n] de la structure du vecteur Y soit minime (de valeur 2). Il y a des
applications o la longueur de la squence s
M
[n] de la structure du vecteur Y est
plus grande.
Enfin, un dernier paramtre de la TOD est la longueur de la squence
d'entre, N. Cette longueur doit tre une puissance de 2. Pour une slection
convenable il est possible d'avoir besoin d'une transforme sur blocs, [36]. La
transforme en ondelettes discrte a aussi d'autres applications. Quelques-unes sont
prsentes dans : [37] [41].
2.1.4. - Paquets d'ondelettes 57
2.1.4. Paquets d'ondelettes
Dans la suite on prsente une gnralisation de la notion d'analyse multi-
rsolution qui contribue au dveloppement de la thorie des ondelettes. Il s'agit de
la notion de paquet d'ondelettes. Celle-ci conduit une nouvelle transforme
discrte, la transforme en paquets d'ondelettes TPOD, qui gnralise la TOD.
Les paramtres de la TOD sont le nombre d'itrations et l'ondelette mre
utilise. La slection de ces paramtres en accord avec l'application considre est
dcisive pour trouver la meilleure solution d'un problme. L'utilisation de la TPOD
aide la rsolution de ce problme de choix.
Une gnralisation simple mais trs utile des notions d'ondelette et
d'analyse multi-rsolution est reprsente par la notion de paquets d'ondelettes.
Pour introduire cette notion, est utile la notation suivante :
( ) ( ) ( ) 1 , 0 = e , m m = m
1
1

e e
o e

L'observation fondamentale qui se trouve la base de la construction des paquets
d'ondelettes est l'artifice de division. On suppose que l'ensemble de fonctions
( ) { }
Z k
k f

est une base orthonormale de l'espace de Hilbert S. Alors les
fonctions
|
.
|

\
|

k
2
f
2
1
= ) ( f
o o
k
et Z k , k
2
f
2
1
= ) ( f
1 1
k

|
.
|

\
|


ou { }( ) { }
|
.
|

\
|
|
.
|

\
|

2
f F
2
m = f F
e
e
, constitue aussi une base orthonormale de
l'espace S, { }
Z k
1
k
o
k
) ( f ), ( f

.
Une analyse multi-rsolution classique est obtenue en divisant les espaces
V
m
, en utilisant l'artifice de division, dcrit plus haut, dans les espaces V
m - 1
et W
m -
1
et aprs en faisant la mme chose de manire rcursive pour l'espace V
m - 1
.
Les paquets d'ondelettes sont les ensembles de fonctions, lments des bases
orthonormales qui s'obtiennent si on utilise l'artifice de division pour les espaces
W
m
aussi, en autres mots si on utilise un systme de codage en sous-bandes
structure symtrique. En commencant avec l'espace V
m
, on obtient, aprs avoir
appliquer L fois l'artifice de division, les fonctions (lments d'une base
orthonormale) :
( )
( )
( ) k 2 2 =
L m L
e ... , e
2
L m
L
k , m ; e ... , e
L 1 L 1

avec :
{ } ( ) ( ) { }( )
L l -
e
L
1 = l
L
e ... , e
2 F 2 m = F
l L 1
58 Transformes en ondelettes discrtes - 2
Ainsi, aprs L divisions, on obtient 2
L
fonctions de base et leurs
translates par des entiers multiples de 2
L m
,comme lments de la base
orthonormale de l'espace V
m
. La liaison entre les paquets d'ondelettes et les
fonctions d'chelle, respectivement les ondelettes correspondantes, est :
) ( = ) (
L
o ..., , o
et ) ( = ) (
L
o ..., , o , 1

En fait il n'est pas ncessaire de partager chaque espace pour chaque
valeur du m. Dans la figure 1.2.1.4. on prsente une modalit de division de
l'espace V
3
qui correspond au schma de gnration des paquets d'ondelettes. Dans
la figure sont nots avec * les espaces qui appartiennent une analyse multi-
rsolution :
Figure 1.2.1.4. Schma pour la gnration des paquets d'ondelettes.
o 1 2 o 3
W W W V = V
Avec ont t nots les espaces qui peuvent participer la construction d'un paquet
d'ondelettes. La base orthonormale du V
o
, qui correspond au paquet d'ondelettes
choisi dans cet exemple est ( ) ( ) ( ) ( ) { }
Z k
1 , o , 1
3
o , o , 1
2
1 , 1
1
o
k , k , k 2 , k 4

.
Un autre paquet d'ondelettes peut tre construit si on choisit les fonctions notes
avec + dans la figure 1.2.1.4. A ce nouveau paquet d'ondelettes correspond la base
orthonormale de V
3
suivante,
( ) ( ) ( ) ( ) { }
Z k
3
1 , 1 , o
3
o , 1 , o
2
o , 1
1
1
k , k , k 2 , k 4

.
Les transformes en ondelettes discrtes directe et inverse, qui
correspondent au premier exemple de paquet d'ondelettes dj considr sont

2.1.4. - Paquets d'ondelettes 59
prsentes la figure 2.2.1.4.
Figure 2.2.1.4. Les transformes en ondelettes discrtes, directe (en haut) et inverse (en bas)
qui correspondent au premier exemple de paquet d'ondelettes.
Le principal avantage des paquets d'ondelettes est qu'il y a plus de libert
dans le choix de la base de dcomposition du signal traiter. Ayant la
disposition un nombre plus grand de sous-bandes on peut amliorer la
localisation frquentielle des composantes du signal analyser. Il y a des
critres de choix de la base en accord avec le signal analyser. M. Wikerhauser a
propos un tel critre. La procdure introduite par ce dernier est appele le choix de
la meilleure base. Une prsentation exhaustive de ce concept est faite en [11]. La
thorie des paquets d'ondelettes est prsente aussi en [42].
2.1.4.1. La slection de la meilleure base
On peut choisir un sous-ensemble avec des caractristiques de base, adapt
un signal particulier ou a un problme particulier. Quand il y a la possibilit de
slection d'une base pour reprsenter un certain signal alors on peut chercher la
meilleure base du point de vue d'un certain critre. Ainsi on obtient la base adapte
au signal considr. Soit B un ensemble de bases de l'espace de Hilbert sparable
X. On prsente une liste de proprits utiles pour l'ensemble B .
- Le calcul rapide des produits scalaires avec les lments des bases de B ,
- La bonne localisation temporelle des lments des bases de B ,
60 Transformes en ondelettes discrtes - 2
- La bonne localisation frquentielle des lments des bases de B ,
- L'indpendance des lments de chaque base.
Pour choisir la meilleure base, il est ncessaire d'apprcier dans quelle
mesure chaque base de B a les proprits nonces plus haut.
Avant de pouvoir dfinir une reprsentation optimale, il est ncessaire de
pouvoir apprcier le cot d'une certaine reprsentation. Ce cot est appel cot
d'information. Etant donne la squence | | u k on peut dfinir une fonctionnelle de
cot d'information qui corresponde la squence | | u k par :
| | ( ) 0 = 0 , k u = (u) M
Z k

|
.
|

\
|

o est une fonction relle dfinie sur [0, ).


Pour chaque lment X x on dfinit | | x , b = k u
k
, o b
k
est le k-ieme lment
de la base B de B . Le cot d'information de la reprsentation de x dans la base B
est ( ) x , b M
k
. On a dfinit ainsi la fonctionnelle M
x
sur B :
|
.
|

\
|
x , b M B , R B : M
k x
On a obtenu ainsi le cot d'information M du x dans la base B. La meilleure base de
B pour le signal x, par rapport au cot d'information M, est la base de B pour
laquelle |
.
|

\
|
x , b M
k
a la valeur minime.
On prsente dans la suite quelques exemples de fonctionnelles de cot
d'information.
Exemple 1. Le nombre d'chantillons au-dessus d'un certain seuil.
On fixe un seuil et on compte les lments de la squence
| |
u n dont la
valeur est suprieure ce seuil.

<

w , 0
w , w
= (w)
Exemple 2. La concentration dans l'espace l
p
, 0 < p < 2.
P
P
P
u = (u) M
w = (w)
2.1.4.1. - La slection de la meilleure base 61
Exemple 3. L'entropie.
L'entropie de la squence u[n] est dfinie par la relation :


k

p(k)
1
log p(k) = (u) E
ou :
| |
| |
0 =
p
1
log p ;
k u
k u
= p(k)
2
2
si 0 = p
La fonctionnelle :
| |
| |


k
2
2
k u
1
log k u = l(u)
est une fonctionnelle de cot d'information.
Exemple 4. Le logarithme de l'nergie.
| |

N
1 = k
2
k u log = (u) M
L'ensemble B peut etre nomm "bibliothque" de bases. Si la bibliothque
de bases est un arbre de hauteur finie L (il y a L niveaux de dcomposition), alors
la meilleure base pour un signal x peut tre dtermine en calculant le cot
d'information en chaque nud de l'arbre et par la comparaison du nud enfant avec
le nud parent, en partant de bas en haut.
Ainsi chaque nud est examin deux fois, une fois en considrant qu'il est un nud
enfant et la deuxime fois en le considrant comme un nud parent. Cet algorithme
de recherche est exemplifi dans les figures qui suivent. Dans la figure 3.2.1.4. ont
t placs des nombres l'intrieur des nuds de l'arbre pour spcifier les cots
d'information. On marque avec un astrisque tous les nuds qui se trouvent sur le
niveau du bas. Leur cot d'information total est de 36. On essaye de rduire cette
valeur. Chaque fois qu'un nud parent a un cot d'information infrieur au cot
d'information de ses nuds enfants, ce nud parent est marqu avec un astrisque.
Si le nud parent a un cot d'information suprieur au cot d'information de ses
nuds enfants, alors ce nud parent n'est pas marqu, on lui alloue le cot
d'information total de ses nuds enfants.
62 Transformes en ondelettes discrtes - 2
Figure 3.2.1.4. L'initialisation de l'algorithme de recherche de la meilleure base.
On prsente ces cots d'information transfrs (entre parenthses) la
figure 4.2.1.4. Le rsultat de la recherche de la meilleure base est prsent la
figure 5.2.1.4. On constate une rduction du cot d'information de la valeur 50 la
valeur 32.
Figure 4.2.1.4. Le premier pas de l'algorithme de recherche de la meilleure base.
2.1.4.2. - Paquets d'ondelettes de type Malvar 63
Il faut souligner que cette mthode de recherche se rfre seulement aux
bases gnres par une certaine ondelette mre. Mais pour une application donne
et pour un certain signal il y a plusieurs ondelettes meres utiliser. Donc il y a
galement une ondelette mre particulire qui est la meilleure. Pour les applications
de compression cette fonction optimale peut tre dtermine en utilisant la mthode
propose en [43].
2.1.4.2. Paquets d'ondelettes de type Malvar
Une dcomposition en formes d'onde de type Malvar du signal x( )
associe la partition de l'intervalle | | 0, T :
| |
k
k
I = T , 0
avec :
| |
1 + k k k
a , a = I
est dcrite par la relation :


k , m
k , m k , m
) ( c = ) x(
o :
*
*
* *
* *
*
Figure 5.2.1.4. Le rsultat de l'algorithme de recherche de la meilleure base.
64 Transformes en ondelettes discrtes - 2
) ( g ) ( w = ) (
k , m m k , m

et :
( )
m
m
m
k , m
a
2
1
+ k
I
cos
I
2
= ) ( g |
.
|

\
|

avec :
| |
| |
( ) | |

+ + + +
+
r + a r, a , a 2 b
r a r, + a , 1
r + a r, a , ) ( b
= ) ( w
1 m 1 m 1 m 1 m
1 m m
m m m
m
o :
( )
(

|
|
.
|

\
|
|
.
|

\
|

r
a
2
sin + 1
4
sin = ) ( b
m
m
Ces fonctions ont t introduites par Malvar, [23], [44], pour diminuer les
distorsions donnes par les problmes aux bords, qui se manifestent la
compression des images, quand on utilise, par blocs, la transforme DCT, comme
transforme orthogonale.
Soit U
m
une squence d'oprateurs dfinis sur | | r + a r, a L
m m
2
, qui
transforme le signal ) x( dans la suite de fonctions :
{ }
( ) ( ) ( |
( ) ( ) | |



m m m m m m
m m m m m m
m
U
a r, a , a 2 x ) ( b ) x( a 2 b
r + a , a , a 2 x a 2 b + ) x( ) ( b
= ) x(

On peut crire :
{ }


k
k , m k , m m
) ( d = ) x( U
o :
) ( g ) ( = ) (
k , m I k , m
m

Meyer, a t le premier qui a dmontr que ces fonctions sont des lments
d'un paquet d'ondelettes, [45]. Il les a nomms ondelettes de type Malvar.
On a not par ) (
m
I
la fonction caractristique de l'intervalle I
m
, et
{ } ) x( U
m
reprsente le produit de la segmentation du signal ) x( qui correspond
l'intervalle I
m
. Dans la suite on considere que le signal ) x( est dfinit sur | | T , 0 .
Cet intervalle subit le partage suivant :
2.2. - L'utilisation des transformes orthogonales 65
| |
| | | |
| | | |
| | | |
...
T , 4 / T 3 = I ; 4 / T 3 , 2 / T = I
2 / T , 4 / T = I ; 4 / T , 0 = I
T , 2 / T = I ; 2 / T , 0 = I
T , 0 = I
12
1
11
1
12
0
11
o
1
1
1
o
o
o
Wikerhauser a dmontr que les ondelettes de type Malvar, obtenues pat
l'utilisation de la partition dcrite dans la dernire relation se constituent dans un
paquet d'ondelettes. Il a nomm les paquets de ce type des paquets en cosinus ou
paquets de fonctions trigonomtriques locaux. En cherchant la meilleure base dans
ce paquet, en utilisant, par exemple, le critre de minimisation de l'entropie, on
obtient l'ensemble { } { }
I m m
) x( U

. Chaque lment de cet ensemble reprsente un
segment, qui correspond un certain intervalle de la partition dcrite par la
dernire relation, du signal ) x( . Chacun de ces lments reprsente un signal
quasi stationnaire. Chacun de ces signaux peut tre ensuite soumis la
compression. Les paquets en cosinus diminuent une dficience chronique des
paquets d'ondelettes, il s'agit de la localisation temporelle. Chaque paquet
d'ondelettes correspond un certain banc de filtres d'analyse, qui ralise un certain
codage en sous-bandes. Il s'agit de filtres invariants en temps. En consquence la
TPOD ne ralise aucune localisation en temps pour ce banc de filtres. Dans le cas
de la TPCD, dans chaque intervalle I
m
, on utilise une autre mre des ondelettes,
donc on travaille avec un banc de filtres d'analyse diffrent, en faisant une
localisation temporelle de ces bancs.
2.2. L'utilisation des transformes orthogonales prsentes
pour la compression des donnes
Dans ce paragraphe nous supposerons qu'on utilise une transforme
orthogonale en ondelettes (la TOD, la TPOD ou la TPCD). Pour le
commencement on justifie pourquoi a t faite cette slection. A certte fin,
on dmontre que ces transformes convergent asymptotiquement vers la
transforme de Karhunen-Love. En consquence elles ralisent une
dcorrelation importante du signal a traiter.
2.2.1. L'analyse statistique de la TOD
Cette analyse a t dj prsente dans [6]. On reprend ici les principaux
rsultats obtenus. Pour le signal alatoire stationnaire, les coefficients de la TOD
ont une autocorrlation donne par :
66 Transformes en ondelettes discrtes - 2
| | { } ( ) ( )
( )
{ }( ) dw p 2 + w F e p 2 + w 2 ) ( r F
2
1
= l k, r
2

= p
k l w j m
xx d
m


(2.2.1.1)
Si le signal alatoire ) x( est un bruit blanc de valeur moyenne nulle et de variance
unitaire alors :
{ } ( ) ( ) ( ) R w , 1 = p 2 + w 2 ) ( r F
m
xx

Dans ce cas-ci, la relation (2.2.1.1) devient :
| | { }( )
( )


= p
k l w j
2
d
dw e p 2 + w F
2
1
= l k, r
m
(2.2.1.2)
Dans la suite on calcule la somme de membre droit de cette relation.
{ } [k] = du e ) p 2 u ( F
2
1
juk
2
p
+


(2.2.1.3)
Le membre gauche de la dernire relation reprsente le k-eme coefficient de la
dcomposition en srie de Fourier d'une fonction priodique de priode 2. La
relation (2.2.1.3.) montre que cette fonction a seulement un coefficient non nul,
celui d'indice 0 (donc la composante continue). Il en rsulte que la fonction
considre est constante. Parce que pour k=0 la relation (2.2.1.3) devient :
{ } ( )

2 = du p 2 + w F
= p
2
il rsulte que la valeur de cette constante est 1 . On a dmontr ainsi que :
{ } ( ) 1 = p 2 + w F
= p
2


La relation (2.1.1.2) devient :
| |
( )


k l w j
d
dw e
2
1
= l k, r
m
En consquence :
| | | | l k = l k, r
m
d

2.2.1. - L'analyse statistique de la TOD 67
Si ) x( est un bruit blanc alors tous les signaux | | n d
m
sont des bruits blancs
temps discrt. Donc par l'application de la TOD un signal temps discrt de type
bruit blanc on obtient des bruits blancs aussi. Evidement les chantillons de ces
signaux ne sont pas corrls. On passe la limite pour m tendant vers , dans
les deux membres de la relation (2.1.1.1). On obtient :
| | { } ( )
( )
{ } ( ) dw p 2 + w F e 0 ) ( r F
2
1
= l k, r
2

= p
k l w j
xx d



ou :
| | { }( )
( )
{ }( ) | | l k 0 ) ( r F = dw e 0 ) ( r F
2
1
= l k, r
xx

k l w j
xx d




(2.2.1.4)
Donc le signal | | n d

est un bruit blanc temps discrt. Ses chantillons sont en
consquence non corrls. On peut donc affirmer que la TOD converge
asymptotiquement vers la transforme de Karhunen-Love. La preuve donne plus
haut a t reproduite de [10]. Une analyse similaire pour des paquets d'ondelettes
est prsente en [46]. Voil pourquoi est recommande l'utilisation de la TOD la
compression de donnes. Le rsultat obtenu est illustr la figure 1.2.2.1. En haut
est prsente la densit de puissance d'un bruit color. Celui-ci a t gnr en
filtrant un bruit blanc l'aide d'un mdiateur numrique ayant une fentre d'analyse
de longueur 20. En bas a t reprsente la densit spectrale de puissance du signal
obtenu par l'application de la TOD ce bruit color. On constate qu'aprs
l'application de la TOD un bruit blanc a t obtenu.
Figure 1.2.2.1. L'effet de blanchissement de la TOD.
En [41] est dmontr que pour un certain signal comprimer, il y a une
certaine ondelette mre qui conduit la ralisation d'une compression suprieure
celle obtenue en utilisant la transforme en cosinus discrte. Il s'agit de l'obtention
68 Transformes en ondelettes discrtes - 2
d'un facteur de compression suprieur des erreurs de reconstruction gales. En
[31] est prsente une mthode de compression pertes d'information contrles.
Cette mthode a les pas suivants :
1. On calcule
| |
y n , la TOD du signal traiter, | | n x .
2. On ralise la compression par l'limination des chantillons du signal
obtenu au pas 1 qui sont infrieurs un seuil impos. On obtient le signal | | n y .
3. On calcule la transforme en ondelettes discrte inverse, TODI et on
obtient le signal | | n x .
Le seuil mentionn au pas 2 est impos en manire adaptative. Il est choisi tel que
l'erreur quadratique moyenne d'approximation du signal | | n x par le signal | | n x ne
dpasse pas un pour-cent de l'nergie du signal | | n x .
Sont valables les relations suivantes :
| | | |

1 N
0 = k
2
1 N
0 = k
2
x
k y = k x = E
(2.2.1.5)
| | | |

1 M
0 = k
2
1 M
0 = k
2
x
k y = k x = E
(2.2.1.6)
parce que chacune transforme orthogonale conserve l'nergie, [4].
On peut crire aussi :
| |
| | | |

>
sinon , 0
P n y si , n y
= n y
Soit | | n y
o
la squence obtenue par la mise en ordre dcroissante des chantillons
du signal | | n y . L'erreur quadratique moyenne d'approximation du signal | | n x par le
signal | | n x est proportionnelle :
| |

1 N
M = k
2
o
k y =
La valeur du M est obtenue comme solution de l'quation :
100
E
= max
x
Z M

Dans la suite on prsente un exemple d'application de cette mthode. Sur la


2.2.1. - L'analyse statistique de la TOD 69
figure 2.2.2.1, est prsent un exemple de signal d'entre, | | n x (en haut) et le signal
reconstruit correspondent | | n x (en bas). Le nombre d'chantillons utiliss pour la
reconstruction est indiqu. On constate qu'on a obtenu une valeur importante pour
le facteur de compression. Le signal | | n x a 512 chantillons.
Figure 2.2.2.1. La compression d'un signal rectangulaire.
Le facteur de compression est de 8.
Rcemment a t construit un nouveau dictionnaire temps-frquence de
bases orthonormales ressemblant aux dictionnaires de paquets d'ondelettes, [48].
Ses lments sont gnrs l'aide des transformes Karhunen-Love localises.
Dans ce dictionnaire les lments ncessaires pour la dcomposition d'un certain
signal peuvent tre trouvs en utilisant l'algorithme de recherche de la meilleure
base dj prsent. Dans [49] est prouve la supriorit de la TOD par rapport la
transforme de Karhunen-Love pour la compression des signaux qui peuvent tre
modliss par processus alatoires non-Gaussiens.
Une formule analogue la relation (2.2.1.1) peut tre dmontre pour les
70 Transformes en ondelettes discrtes - 2
signaux s
m
[n], m=1M, aussi. Celle-ci est :
{ } ( ) { }
2
m
p
xx s
) p 2 ( F ) p 2 ( 2 r F ] l k [ R
m
+ +

(2.2.1.7)
La dmonstration est identique avec celle de la relation (2.2.1.1).
Dans la suite on calcule les moyennes et les variances des signaux
alatoires s
m
[n] et d
m
[n], m=1M. Ainsi pour le signal d
m
[n] :
} (t)dt x(t) { E = } (t) , x(t) { E = } [n] d { E
k m,
-
k , m m



ou, en appliquant le thorme de Fubini :
(t)dt M = (t)dt } x(t) { E = } [k] d E{
k , m n
-
k , m
-
m



o on a not avec M
n
la moyenne du signal alatoire x(t).
La dernire relation peut etre crite :
{ } (0) F M = } [k] d { E
k , m n m


Mais :
{ } { } ) 2 ( F e 2 = ) ( F
m k 2 j
2
m
k , m
m


et en revenant :
{ } (0) F 2 M = } [k] d E{
2
m
n m

(2.2.1.8)
Mais :
{ } { } (0) m = (0) F (0) m = (0) F
1 1

On a dmontr dans le chapitre antrieur que :
2 = ) G( ) H(
2 2
+ (2.2.1.9)
ou :
) G( g et ) H( h
n n

En utilisant aussi les relations :
2.2.1. - L'analyse statistique de la TOD 71
) ( m 2 [n] h
0
v

) ( m 2 [n] g
1
v

nous pourrons crire :


) ( H = ) ( m 2
0


) ( G = ) ( m 2
1


La relation (2.2.1.9) sera crite, pour =0 dans la forme :
1 = ) 0 ( m + ) 0 ( m
2
1
2
0
(2.2.1.10)
Mais :
1 = (0) m
0
et en utilisant la relation (2.2.1.10) nous obtiendrons :
0 [p] g ; 0 = ) 0 ( m
p
1
=

(2.2.1.11)
et donc :
{ } 0 = (0) F
En fin, la relation (2.2.1.8) peut etre crite :
M 1 = m , 0 = [k]} E{d
m
(2.2.1.12)
On a dmontr que tous les signaux alatoires d
m
[n] sont de moyenne nulle
pour chaque m.
On calcule dans la suite les variances de ces signaux. En tenant compte du
fait que leur valeur moyenne est nulle, on obtient :
[0] R = } [k] d { E
m
d
2
m
ou, en utilisant la relation (2.2.1.1) :
{ } { } du ) u ( F ) u 2 ( r F
2
1
= } [k] d { E
2
m
xx
R
2
m


(2.2.1.13)
C'est la relation qui exprime les variances des signaux d
m
[n] l'aide des densits
spectrales de puissance du signal alatoire x(t).
72 Transformes en ondelettes discrtes - 2
OBSERVATIONS
O1. Les variances des signaux alatoires d
m
[n] peuvent tre minimises par le
choix juste de la fonction (t) (en accord avec la densit spectrale de puissance du
signal alatoire).
O2. Si x(t) est un bruit blanc de moyenne nulle et de variance
2
alors :
{ }
2
xx
= ) ( r F
et :
{ }
{ } du ) p 2 u ( F
2
= du ) u ( F
2
= } [k] d { E
2
2
p
2
2 1) + (2p
1) - (2p
p
2
2
m
= +

Donc dans le cas o x(t) serait un bruit blanc de moyenne nulle et de variance
2
alors les signaux alatoires d
m
[n] sont aussi de type bruit blanc temps discrt de
moyenne nulle et de variance
2
.
O3. Pour m- la relation (2.1.1.13) devient :
{ } (0) r F = } [k] d { E
xx
2

(2.2.1.14)
Cette relation dcrit le comportement asymptotique des variances des signaux
alatoires d
m
[n].
Dans la suite on dtermine les moments d'ordre I et II des signaux
alatoires s
m
[n] :
{ } { }
)
`

dt (t) x(t) E = (t) , x(t) E = [k] s E


k , m
-
k , m m
ou :
dt (t) M = dt (t) } x(t) { E = } [k] s { E
k , m n
-
k , m
-
m



o avec M
n
est note la moyenne du signal alatoire x(t).
La dernire relation peut tre crite dans la forme suivante :
2.2.1. - L'analyse statistique de la TOD 73
{ } (0) F M = } [k] s { E
*
k , m n m

Parce qu'on peut crire :
{ } { } ) 2 ( F e 2 = ) ( F
m k 2 j
2
m
k , m
m


nous aurons :
{ }
2
m
n
2
m
n m
2 M = (0) F 2 M = } [k] s { E
(2.2.1.15)
Donc la moyenne des signaux s
m
[k] s'abaisse avec l'augmentation du m en valeurs
absolues (conformment la convention faite dans le chapitre antrieur m prends
des valeurs ngatives).
Les variances des ces signaux sont :
} [k] s { E [0] R = } [k] s { E
m
2
s
2
m
m

La valeur de l'autocorrelation en origine est :
{ } { }


R
2
m
xx s
du ) u ( F ) u 2 ( r F
2
1
= [0] R
m
et nous obtenons :
{ } { }
2
n
m
2
m
xx
R
2
m
M 2 du ) u ( F ) u 2 ( r F
2
1
= } [k] s { E

(2.1.1.16)
Si le signal x(t) est de moyenne nulle alors :
{ } { } du ) u ( F ) u 2 ( r F
2
1
= } [k] s { E
2
m
xx
R
2
m

(2.1.1.17)
OBSERVATIONS
O1. Les variances des signaux alatoires s
m
[n] peuvent tre minimises par le
choix juste de la fonction d'chelle (t) (en accord avec la densit spectrale de
puissance { }( )
xx
r F ).
74 Transformes en ondelettes discrtes - 2
O2. Si x(t) est un bruit blanc de moyenne nulle et de variance
2
alors :
{ }
2
xx
= ) ( r F
et :
{ } { }
2
p
2
2 2
1) + (2p
1) - (2p p
2
2
m
du ) p 2 u ( F
2
= du ) u ( F
2
= [k]} {s E = +

Donc dans le cas o x(t) serait un bruit blanc de moyenne nulle et de variance
2
alors les signaux alatoires s
m
[n] sont aussi de type bruit blanc temps discret de
moyenne nulle et de variance
2
.
O3. Pour m- la relation (2.2.1.17) deviens :
{ }(0) r F = [k]} E{s
xx
2
m
Cette relation dcrit le comportement asymptotique des variances des signaux
alatoires s
m
[n].
O4. La condition :
0 = E{x(t)}
prviens la divergence des squences E{s
m
[k]} et E{s
m
2
[k]} quand m-.
O5. Si x(t) est un signal alatoire et stationnaire de moyenne nulle alors les
squences s
m
[n] et d
m
[n] convergent asymptotiquement (pour m-) vers des
signaux alatoires de type bruit blanc de moyenne nulle et de variance { }( ) 0 r F
xx
.
Aprs la proprit de blanchissement, la TOD a aussi la proprit de
Gaussianisation. Cette proprit est illustre la figure 3.2.2.1. En haut est
reprsente la densit de probabilit d'un signal alatoire distribu uniformment.
En bas est reprsente la densit de probabilit du signal obtenu aprs le calcul de
la TOD du signal distribu uniformment. On constate que les signaux s et d,
lments de la transforme calcule, sont des Gaussiens.
2.2.2. - L'analyse statistique de la TPOD 75
Figure 3.2.2.1. L'effet de Gaussianisation de la TOD.
2.2.2. L'analyse statistique de la TPOD
L'analyse statistique faite dans le paragraphe antrieur s'est base sur les
proprits mathmatiques spcifiques la theorie des ondelettes. L'analyse
statistique qui suit a, la base, la thorie du codage en sous-bandes. On considre
au commencement les cellules de base d'un systme de codage en sous-bandes,
reprsentes la figure 1.2.2.2.
Figure 1.2.2.2. Les deux cellules de base pour la construction d'un codeur en sous-bandes.
A l'aide du filtre h sont gnrs les coefficients de type s et l'aide du filtre g les
coefficients de type d.
Les relations entre - sortie pour les deux systmes sont :
| | | | | | | | | | | |


=

=

= =
k
1 m
k
m 1 m m
k n 2 s k g n d , k n 2 s k h n s
(2.2.2.1)

On calcule les autocorrelations statistiques des signaux de sortie, en considrant les
signaux d'entre stationnaires (proprit dmontre dans le paragraphe antrieur.
m
s
1 m
s
h 2 g
2
1 m
s
m
d
76 Transformes en ondelettes discrtes - 2
Pour le systme reprsent gauche on peut crire :
| | | | | | { }
| | | | | | | |
| | | | | | | | { }

=

=

=
= =
q , p
1 m 1 m
q
1 m
p
1 m
) 1 . 2 . 2 . 2 (
m m m s
q l 2 s p k 2 s E q h p h
q h q l 2 s p h p k 2 s E
l s k s E l k r
Mais la valeur moyenne du membre droit reprsente juste l'autocorrlation
statistique du signal d'entre, motif pour lequel la dernire relation peut tre crite
dans la forme :
| | | | | | ( ) ( ) | |

=

=
q , p
1 m s m s
q p l k 2 r q h p h l k r
(2.2.2.2)
une relation similaire peut etre crite pour le systme reprsent droite, la figure
2.2.2.1. :
| | | | | | ( ) ( ) | |

=

=
q , p
1 m s m d
q p l k 2 r q g p g l k r
(2.2.2.3)

ou tenant compte de la relation antrieure :
| |
| | | | | | | | ( ) ( ) ( ) | |

=


=
2 1 2 1
q , q . p , p
2 2 1 1
2
2 m s 2 2 1 1
m d
q p q p 2 l k 2 r q g p h q g p g
l k r
(2.2.2.4)
Comme cela a dj t montr le calcul de la TPOD est bas sur un schma de la
forme:
2.2.2. - L'analyse statistique de la TPOD 77
Figure 2.2.2.2. Schma de calcul de la TPOD. Les premires deux itrations.
En utilisant comme modle la relation (2.2.2.4) on peut crire l'expression de
l'autocorrelation statistique du signal obtenu aprs "a" filtrages passe-haut et "b"
filtrages passe-bas :
| | | | | | ( ) ( ) ( )
( ) ( ) ( ) ( ) | | }

+

=

|
|
.
|

\
|
=

q p q p 2 ... q p 2 l k 2 r
q h p h q g p g l k r
a a 1 1
a 1 a
) s ... ss (
k k
a
1 k
q , p , q , p ,..., q , p , q , p
) s ... ss ( ) d ... dd (
1 b
a a 2 2 1 1
b a
(2.2.2.5)
On a obtenu la dpendance de l'autocorrlation statistique du signal obtenu aprs
"a" filtrages passe-haut et "b" filtrage passe-bas de l' autocorrlation statistique du
signal obtenu aprs "b-1" filtrages passe-haut. Mais cette autocorrlation
statistique a t calcule dans le paragraphe antrieur,
| | l k s
1 b
r

. C'est le motif pour


lequel on peut utiliser les rsultats de l'analyse asymptotique dj faite pour
l'analyse asymptotique de la TPOD. Pour la transforme dcrite dans la relation
(2.2.2.5) le nombre d'itrations est : b a m + = . Ce nombre tend vers infini si b
tends vers infini. Dans la suite on calcule la limite du membre gauche de la relation
(2.2.2.5) quand b tends vers infini. Cette limite dpendra de la limite de l'
autocorrlation statistique du membre droit. Mais celle-ci peut tre calcule en
utilisant l'analyse asymptotique effectue dans le paragraphe antrieur. On peut
crire :
( ) ( ) ( ) ( ) | |
{ }( ) ( ) ( ) ( ) ( ) | |

+

+



=
q p q p 2 ... q p 2 l k 2 0 r F
q p q p 2 ... q p 2 l k 2 r lim
a a 1 1
a 1 a
xx
a a 1 1
a 1 a
1 b s
b
h
h
h
g
g g
s
d
ss sd ds dd
78 Transformes en ondelettes discrtes - 2
ou, tenant compte de la stationnarit du signal alatoire avec la fonction d'
autocorrlation statistique | | l k r
s

et des proprits de l'impulsion unitaire :


| | | | | | ( ) { }( ) | | l k 0 r F ) p h p g ( l k r lim
xx
p , p ,..., p , p
2
k
a
1 k
) s ... ss ( ) d ... dd (
b
a 2 1
b a
|
.
|

\
|
=

=

=

(2.2.2.6)
Donc le signal ( ) ( )
b
a
s ... ss d ... dd obtenu aprs a filtrage passe-haut et b filtrage
passe-bas est un bruit blanc temps discrt quand b tends vers l infini. Voil
pourquoi on peut affirmer que la TPOD se comporte asymptotiquement comme la
TOD en convergeant vers la transforme de Karhunen-Love. Les analyses
asymptotiques des signaux de la forme : ( ) ( ) a b s ... ss d ... dd , ( ) ( ) a b d ... dd s ... ss ou
( ) ( ) a b ds ... dsds sd ... sdsd conduisent vers le mme rsultat.
Dans la suite on calcule la moyenne et la variance du signal alatoire
( ) ( ) b a s ... ss d ... dd .
Sa moyenne est donne par la relation :
( ) ( )
| | ( ) ( ) | | { }
( ) ( )
| | 0 p g M
p n 2 s ... ss d ... dd p g E M
1
b 1 a
1
b a
p
1
s ... ss d ... dd
1
b 1 a
p
1
s ... ss d ... dd
= =
=
)
`

(2.2.2.7)
parce que la somme des coefficients de la rponse impulsionelle du filtre passe-
haut, g, est nulle. Donc la moyenne du signal alatoire considr est nulle.
Dans la suite on dtermine sa variance :
2.2.2. - L'analyse statistique de la TPOD 79
( ) ( ) ( ) ( )
| |
| | | | ( ) ( ) ( )
( ) ( ) ( ) | | }
| | ( ) ( )
| | | | ( ) ( ) ( )
( ) ( ) ( ) | |

=

=

=

=

=

=

|
.
|

\
|
+
+ |
.
|

\
|

=
=
|
.
|

\
|
=
= =


q p q p 2 ... q p 2 r
q h p h q g p g
p h p g
q p q p 2 ... q p 2 r
q h p h q g p g
0 r
a a 1 1
a
1 b s
q p , q , p q p , q , p ,..., q p , q , p , q p , q , p
k k
a
1 k
p , p ,..., p , p
2
1 b s
2
k
a
1 k
a a 1 1
a
) s ... ss (
q , p , q , p ,..., q , p , q , p
k k
a
1 k
s ... ss d ... dd
2
s ... ss d ... dd
a a a a 2 2 2 2 1 1 1 1
a 2 1
1 b
a a 2 2 1 1
b a b a
ou :
( ) ( )
| | ( ) ( )
| | | | ( ) ( ) ( )
( ) ( ) ( ) | | ) q p q p 2 ... q p 2
q h p h q g p g
p h p g (
a a 1 1
a
1 b s
q p , q , p q p , q , p ,..., q p , q , p , q p , q , p
k k
a
1 k
p , p ,..., p , p
2
k
a
1 k
2
1 b s
2
s ... ss d ... dd
a a a a 2 2 2 2 1 1 1 1
a 2 1
b a

=

=

=

=


|
.
|

\
|
+
+ |
.
|

\
|
=

(2.2.2.8)
o on a not avec le coefficient d' autocorrlation :
( )
( )
2
1 b s
1 b s
1 b s
x r
x

=
Les formules (2.2.2.7) et (2.2.2.8) sont trs importantes parce qu'elles peuvent tre
utilises, comme cela a t montr en [50], pour la quantification optimale (non-
uniforme) du signal qui a subit la transformation en ondelettes. L'avantage par
rapport aux formules tablies dans le paragraphe antrieur (pour le cas particulier
de la TOD) rside dans leur forme recourante. Asymptotiquement :
( ) ( )
0 M
s ... ss d ... dd a
=

et :
( ) ( )
| | ( ) ( ) { }( ) 0 r F p h p g
p , p ,..., p , p
xx
2
k
a
1 k
2
s ... ss d ... dd
a 2 1
a

=

=

|
.
|

\
|
=
80 Transformes en ondelettes discrtes - 2
formule qui donne la variance du bruit blanc vers lequel converge la squence des
variances des coefficients de la TPOD quand le nombre d'itrations de celle-ci
tends vers infini. En consquence si le nombre d'itrations de la TPOD est
suffisament grand alors chaque nouvelle itration de celle-ci on obtient des
nouveaux coefficients qui reprsentent les chantillons d'un bruit blanc de moyenne
nulle et de variance donne par la dernire relation. En consquence la
quantification optimale de ces coefficients peut tre ralise en utilisant cette
valeur pour leur variance. Dans la figure 3.2.2.2 est illustre la proprit de
blanchissement de la TPOD. En haut est prsente la densit spectrale de puissance
du signal d'entre. Celui-ci est un bruit color, obtenu par le filtrage passe-bande
d'un bruit blanc. En bas est prsent la densit spectrale de puissance du signal
obtenu aprs le calcul de la TPOD du signal dont la densit spectrale de puissance
est prsente en haut.
Figure 3.2.2.2. L'effet de blanchissement de la TPOD.
On constate que la densit spectrale de puissance reprsente en bas a une
enveloppe presque constante, comme est la densit spectrale de puissance d'un
bruit blanc.
2.2.3. L'analyse statistique de la TPCD
La transforme en paquets de cosinus discrte, TPCD, est une combinaison
entre la transforme en cosinus discrte (TCD) et la thorie des paquets
d'ondelettes. Dans le cas de cette transforme, on ralise une segmentation du
support du signal analyser (considr de longueur N) en blocs de longueur
dpendante du numro d'ordre de l'itration courante. Pour l'itration numro m ces
2.2.3. - L'analyse statistique de la TPCD 81
blocs ont la longueur
m
2 N. Le signal contenu dans chaque tel bloc est transform
en utilisant la TCD. La procdure de segmentation et de calcul de la TCD est
illustre la figure 1.2.2.3.
Figure 1.2.2.3. La procdure de calcul de la TPCD.
Le rsultat de calcul de la TPCD est obtenu par le choix d'un nombre total de N
coefficients, d'un ou plusieurs blocs de coefficients spcifiques pour une ou
plusieurs itrations. Ce choix est fait par "la recherche de la meilleure base". Par
exemple un rsultat possible pour la TPCD, prsente la figure 1.2.2.3. est la
squence de coefficients { }
22 21 1
c , c , c . Un autre rsultat possible est la squence
{ }
0
c . L'analyse asymptotique de la TPCD est base sur le fait que pour N tendant
vers l infini la TCD converge vers la transforme de Karhunen-Love, [48]. Si N
tends vers l infini alors le nombre d'chantillons de chaque squence de
coefficients de la TCD correspondante un certain segment une certaine itration
tends vers l infini et donc les coefficients TCD de la squence correspondante
convergent vers la transforme de Karhunen-Love. Parceque chaque squence de
coefficients obtenus aprs l'application de la TCD converge asymptotiquement vers
la transforme de Karhunen-Love on peut affirmer que la TPCD converge
asymptotiquement vers la transforme de Karhunen-Love. L'effet de
blanchissement de la TPCD est illustr la figure 2.2.2.3. En haut est prsente la
densit spectrale de puissance d'un bruit color, obtenu par le filtrage avec un filtre
de moyenne d'un bruit blanc et en bas est prsente la densit spectrale de
puissance du signal obtenu aprs le calcul de la TPCD du signal avec la densit
spectrale de puissance reprsente en haut. On constate que l'enveloppe de la
densit spectrale de puissance reprsente en bas est une bonne approximation pour
une constante. On peut donc affirmer que le signal dont la densit spectrale de
puissance est reprsente en bas est une bonne approximation pour un bruit blanc.
En consquence, la proprit de blanchissement de la TPCD a t mise en
vidence. En faisant une analyse comparative des figures 1.2.2.1, 3.2.2.2 et 2.2.2.3.
Premiere iteration
.
.
.
0
c
1
c
2
c
11
c
12
c
21
c
22
c
Deuxieme iteration
82 Transformes en ondelettes discrtes - 2
on constate que, de point de vue de la vitesse de convergence vers un bruit blanc, la
TPCD a le meilleur comportement. Elle est suivie, dans ce classement par la TOD.
La plus lente convergence est enregistre pour la TPOD.
Figure 2.2.2.3. L'effet de blanchissement de la TPCD.
Donc chacune des trois transformes, bases sur le ondelettes, la TOD, la
TPOD ou la TPCD, peuvent tre utilise comme transforme orthogonale dans un
schma de compression de donnes, parce que ces trois transformes convergent
asymptotiquement vers la transforme de Karhunen-Love. Tenant compte du
critre de la vitesse de convergence, la meilleure, semble tre la TPCD. Cette
transforme a aussi l'avantage de la localisation temporelle des filtres d'analyse,
dans les intervalles I
m
. De plus, elle est aussi trs approprie pour le traitement du
signal de parole, tenant compte de son modle sinusodal. Cette affirmation est
justifie dans la suite.
2.3. La slection de la meilleure ondelette mre
L'un des paramtres d'une transforme orthogonale en ondelettes est la
mre des ondelettes utilise. L'autre paramtre est le nombre d'itrations. Comme
cela a t dj montr,il est mieux que ce nombre soit le plus grand possible (ainsi
le rgime asymptotique est touch). Quand il s'agit de la TPCD le nombre
d'itrations peut tre choisi par des considrations diffrentes aussi. Dans les
applications de compression la slection de la mre des ondelettes doit tre faite en
fonction de la nature du signal traiter, ainsi que la maximisation du facteur de
compression une distorsion impose, sera faite. La maximisation du facteur de
compression est ralise par la minimisation du nombre de coefficients de valeur
superieure un certain seuil. La valeur du seuil dpend du niveau de distorsions
accept la reconstruction. Le nombre de coefficients suprieurs au seuil est
2.3. - La slection de la meilleure ondelette mre 83
inversment proportionnel au facteur de compression. Pour diffrents choix de
l'ondelette mre on obtient des nombres diffrents de coefficients suprieurs au
seuil. Cette affirmation peut tre dmontre en utilisant la mthode de compression
dcrite au paragraphe 2.2.1. A la figure 1.2.3 est prsent le signal qui sera
comprim. A la figure 2.2.3 est prsent le rsultat de la compression suivie par la
reconstruction du signal de la figure 1.2.3. quand, pour le calcul de la TOD, on a
choisit l'ondelette mre de type Dau 4 (voir [15]). A la figure 3.2.3 est
prsent le rsultat de la reconstruction aprs la compression pour le cas de
l'utilisation de l'ondelette mre Dau 20. En comparant les figures 2.2.3. et 3.2.3. on
constate que dans les deux expriences la puissance de la distorsion ne dpasse pas
1% de la puissance du signal de la figure 1.2.3. Mais le rsultat de l
experimentation dcrit la figure 2.2.3. est suprieur, du point de vue du facteur
de compression. En consquence une procdure de slection de la meilleure base
est demande.
Figure 1.2.3. Le signal traiter.
Figure 2.2.3. Le rsultat des oprations de compression et reconstruction quand pour le
calcul de la TOD a t utilise l'ondelette mre Dau 4.
84 Transformes en ondelettes discrtes - 2
Figure 3.2.3. Le rsultat des oprations de compression et de reconstruction quand pour le
calcul de la TOD a t utilise l'ondelette mre Dau 20.
Une telle procdure de slection est dcrite en [43]. Elle est base sur la
segmentation du signal traiter. Celui-ci est aproxim par polynmes, sur des
segments, par le dveloppement en srie de Taylor. Le dgr de chaque polynme
est fix tel que l'erreur d'approximation sur le segment correspondant ne dpasse
pas une valeur impose. Elle se base sur la segmentation du signal traiter. Celui-
ci est aproxim par des polynmes, sur des segments, par le dveloppement en
srie de Taylor. Le dgr de chaque polynme est fix tel que l'erreur
d'approximation sur le segment correspondant ne dpasse pas une valeur impose.
Pour le traitement de chaque segment est choisie une ondelette mre avec un
nombre de moments nuls gal au dgr du polynme d'approximation sur le
segment respectif. Le premier segment considr a une longueur gale avec la
dure du signal. S'il n'y a aucun polynme approximant pour ce segment (le signal
entier ne peut pas tre aproxim dans une manire satisfaisante par un polynme de
dgr infrieur ou gal avec le nombre maximal de moments nuls d'une ondelette
mre disponible) alors le segment sera divis en deux parties de mme longueur et
on essaye l'approximation par polynmes pour chaque moiti. Cette procdure est
rpte jusqu' la segmentation du signal entier. En fonction des degrs des
polynmes d approximation sont choisies, pour chaque segment, les ondelettes
mres utilises pour le calcul de la TOD sur le segment considr. Ainsi, sur
chaque segment, on utilise un banc de filtres diffrent, pour le calcul de la TOD.
On a obtenu donc un banc de filtres variants en temps, qui s'adapte au signal
traiter, en faisant une certaine localisation temporelle de ses paramtres. Ainsi peut
tre amliore aussi la dficience chronique de la transforme en paquets
d'ondelettes.
2.3. - La slection de la meilleure ondelette mre 85
Dans le cas de la TPCD il n'y a pas de diffrences majeures entre les
diffrentes ondelettes mres qui peuvent etre utilises. Les seules diffrences sont
gnres par les formules de diffrentes fentres, ) t ( w , qui peuvent tre utilises.
Dans la suite on prsente une modalit de slection de la meilleure
ondelette mre pour le cas du signal de parole. Chaque proposition dite est une
squence de tons qui ont diffrentes intensits, frquences et dures. Chaque ton est
un signal sinusodal avec une amplitude, une frquence et une dure spcifiques.
C'est le modle sinusodal de la parole. Une description mathmatique pour ce
modle est :
( ) ( )
( )

=
=
t Q
1 q
q q
t cos A t x
(2.3.1)
[51], o les composantes sont appeles des partiels. Chaque terme de cette somme
est un signal double modulation. Donc il ne s'agit pas de signaux stationnaires.
Mais la parole est regarde frquemment comme une succession de signaux
stationnaires. En partageant le signal de parole dans une succession de segments,
chacun ayant une dure infrieure 25 ms, on obtient une squence de signaux
stationnaires. Sur chaque segment le modle de la parole peut tre de la forme :
( )

=
=
Q
1 q
q q s
t cos A t x
(2.3.2)

Cette dcomposition ressemble beaucoup la dcomposition du signal ( ) t x
s
dans un paquet de cosinus.
La dcomposition du mme signal, en utilisant une base d'ondelettes est de la
forme :
( ) ( ) ( ) ( ) t t , t x t x
l , k
K
1 k
L
1 l
l , k s s
=

= =
(2.3.3)
o ( ) t
l , k
sont les ondelettes gnres par l'ondelette mre ( ) t . Le facteur de
compression obtenu en utilisant une ondelette mre spcifie est plus grand si le
nombre de coefficients :
( ) ( ) t , t x d
l , k s l , k
= (2.3.4)
non nuls, de cette dcomposition,

N , est plus petit. Mais :


( ) ( ) ( ) 0 r dt t t x d
l , k s
, x
*
l , k s l , k


= =

(2.3.5)
86 Transformes en ondelettes discrtes - 2
o le membre droit reprsente la valeur de l'intercorrelation des signaux ( ) t x
s
et
( ) t
l , k
, calcule l origine. C'est la valeur maximale de cette fonction.
L'intercorrelation mesure le dgr de ressemblance entre les deux signaux. Donc la
valeur du coefficient
l , k
d est plus grande si les signaux ( ) t x
s
et ( ) t
l , k
sont plus
ressemblants. En utilisant la relation (2.3.2) on peut affirmer que les ondelettes les
plus ressemblantes au signal ( ) t x
s
sont les lments d'un paquet en cosinus. Mais,
si l'ensemble ( ) { }
Z l , Z k
l , k
t

est une base orthonormale alors l'nergie du signal
( ) t x
s
peut tre calcule en utilisant la relation :

= =
=
K
1 k
L
1 l
2
l , k x
d E (2.3.6)
Parce que l'nergie du signal ( ) t x
s
est une constante indpendante de l'ondelette
mre slectionne, on peut affirmer que le nombre

N est infrieur si la magnitude


des coefficients
l , k
d non nuls est plus grande. Voil pourquoi pour la
compression du signal de parole la meilleure transforme en ondelettes
discrte est la TPCD. Bien sr cette conclusion est valable si le modle sinusodal
de la parole est satisfait. Dans la suite on analyse les modalits d'optimisation de la
compression de la parole base sur l'utilisation de la TPCD par la slection de la
meilleure fonctionnelle de cot utilise dans l'algorithme de choix de la meilleure
base. La TPCD est une transforme adaptative. Le rsultat de son utilisation dans
une certaine application peut tre optimis en utilisant la procdure de recherche de
la meilleure base. C'est une procdure trs efficace, qui peut augmenter beaucoup
la qualit d'une certaine mthode de traitement des signaux. Comme cela a t dj
montr il y a plusieurs fonctionnelles de cot dont la minimisation peut conduire
la slection de la meilleure base. Celle utilise le plus souvent est l'entropie des
coefficients
l , k
d . Mais la minimisation de cette fonctionnelle ne conduit pas la
maximisation du facteur de compression. La fonctionnelle de cot, dont la
minimisation conduit la minimisation des nombres de coefficients,
s
N ,
suprieurs un certain seuil de valeur t, (qui fixe la puissance de la distorsion
de reconstruction). En effet, en utilisant cette fonctionnelle de cot, pour la
slection de la meilleure base (le meilleur paquet en cosinus) on obtient un certain
nombre

N , de coefficients de la TPCD non nuls (dont


s
N sont suprieurs au
seuil t).
A la sortie du dtecteur de seuil, DP, de la figure 2.1.1, on obtient
s
N
coefficients non nuls. Mais celui-ci est un nombre minime, parce qu il a t
minimis par la procdure de choix de la meilleure base. Voil pourquoi cette
fonctionnelle de cot conduit la maximisation du facteur de compression.
2.3. - La slection de la meilleure ondelette mre 87
En augmentant la valeur du seuil t, le nombre
s
N s'abaisse et la valeur du
facteur de compression augmente. Malheureusement la valeur du rapport signal
bruit la sortie du systme de reconstruction,
0
rsz , s'abaisse quand t augmente.
Donc l'augmentation du seuil t doit tre contrle pour assurer la transparence de la
compression. C'est le motif pour le quel le dtecteur de seuil DP, doit etre un
systme adaptatif. Un autre paramtre de la TPCD qui peut tre considr pour
l'optimisation de la compression est le nombre d'itrations.
Donc la transforme en ondelettes recommande pour la compression
de la parole est la TPCD (si le modle sinusodal de la parole est valable).
Le choix d'un certain nombre d'itrations de celle-ci peut tre utilis pour la
maximisation du facteur de compression.
Chapitre 3. Le dtecteur de seuil
L'un de plus importants blocs de la structure du systme de compression de
la figure 1.1.2.1, qui reprsente le fil rouge de notre expos, est le dtecteur de
seuil. Le rle de celui-ci est d'liminer tous les coefficients de la transforme en
ondelettes discrte infrieurs une certaine valeur. C'est en fait le mcanisme qui
ralise la compression. Ce bloc a dans la structure propose une structure
adaptative.
3.1. La dtection adaptative de seuil
En analysant le systme de la figure 1.1.2.1 on peut constater que la
distorsion due la compression a la valeur moyenne quadratique :
[ ] [ ] ( )

=
2
n x n x E D
(3.1.1)
Parce que la TPC et son inverse la TPCI sont des transformes orthogonales, la
dernire relation devient :
[ ] [ ] ( )

=
2
n u n y E D
(3.1.2)
La valeur du seuil, t, doit tre choisie telle que la condition suivante sera satisfaite :
1 E D
x
< < (3.1.3)
o
x
E reprsente l'nergie du signal d'entre [ ] n x . On dmontre la proposition
suivante :
Proposition 3.1.1.
Une borne suprieure de la distorsion du signal reconstruit, obtenue aprs la
compression adaptative base sur la TPC est
2
t N ou N reprsente le nombre
d'chantillons du signal traiter et t est la valeur du seuil.
Preuve.
L'erreur moyenne quadratique d'approximation du signal [ ] n y par le signal [ ] n z
3.1. - La dtection adaptative de seuil 89
est :
[ ] [ ] ( ) [ ]

=
=

=
K
1 k
k
2
2
1
n y n z n y E (3.1.4)
o
k
n reprsentent les positions des chantillons du signal [ ] n y qui ont le module
infrieur la valeur du seuil, t. On considre qu'il y a K tels chantillons. Soit [ ] n o
le signal obtenu aprs la mise en ordre croissante des chantillons du signal [ ] n y .
L'erreur quadratique moyenne devient :
[ ]
2
K
1 k
2
1
t K k o =

=
(3.1.5)
On considre que le bloc Cu de la figure 1.1.2.1 ralise une quantification
uniforme avec un pas de quantification de valeur t. Si on ralise une quantification
non-uniforme on obtient de meilleurs rsultats. L'erreur quadratique moyenne est :
[ ] [ ] ( )

=
=
N
1 n
2
2
n u n z (3.1.6)
Pour chaque chantillon de la squence [ ] K , 1 k , k o = , on introduit un
chantillon nul dans la squence [ ] n u . Pour les autres chantillons du signal [ ] n z ,
la diffrence [ ] [ ] n u n z est infrieure la valeur t. C'est le motif pour lequel on
peut crire :
( )
2
N
1 K k
2
2
t K N t =

+ =
(3.1.7)
Parce que la distorsion dfinie la relation (3.1.2) peut tre crite dans la forme :
2 1
D + = (3.1.8)
tenant compte des relations (3.1.5) et (3.1.7) on peut affirmer que la proposition a
t dmontre.
Donc pour garder la distorsion sous la valeur
x
E , il est suffisant de
choisir la valeur de seuil :
N
E
t
x

= (3.1.9)
90 Le dtecteur de seuil - 3
La constante peut tre exprime l'aide du rapport signal bruit des signaux
[ ] n u et [ ] n x (qui ont la mme nergie),
0
rsz . On peut crire :
=
10
x
10 0
log 10
D
E
log 10 rsz (3.1.10)
Ainsi on a tabli une borne infrieure du rapport signal bruit, qui dpend de :
=
10
log 10 (3.1.11)
Prenant le signe gal dans la relation (3.1.10) on peut obtenir une borne infrieure
pour la constante :
10
m
10

=
(3.1.12)
En utilisant cette valeur et la relation (3.1.10) on peut obtenir une borne infrieure
pour le seuil t :
N
E
10 t
x 10
m
=

(3.1.13)
Donc en choisissant pour le seuil une valeur t plus grande que
m
t on obtient une
valeur du rapport signal bruit, la sortie, superieure . Malheureusement la
valeur exacte du
0
rsz ne serait pas connue apriori parce quen gnral on nutilise
pas des quantifications uniformes. Si on utilise une quantification non-uniforme on
obtient de meilleurs rsultats. C'est le motif pour lequel un algorithme adaptatif
pour la slection du seuil sera recommand. Cet algorithme peut utiliser la valeur
m
t pour initialisation. La valeur de seuil est augmente en partant de cette
valeur. A chaque itration on calcule
0
rsz . Si cette valeur est suprieure ,
le processus d'augmentation de la valeur de seuil est continu. L'algorithme
prends fin quand pour la premire fois la valeur
0
rsz deviens infrieur .
Le dtecteur de seuil est un systme non-lineaire qui est dcrit par la relation entre
- sortie suivante :
[ ]
[ ] [ ]
[ ]

>
=
t n y , 0
, t n y , n y
n z
(3.1.14)
Dans la suite on prsente une analyse statistique pour ce systme.
3.2. - L'analyse statistique du dtecteur de seuil 91
3.2. L'analyse statistique du dtecteur de seuil
Soit X la variable alatoire qui se trouve l'entre du dtecteur de seuil et Y
la variable alatoire obtenue la sortie. On considrera que X est une variable
alatoire Gaussienne de moyenne nulle. On tudie la robustesse de ce systme. A
cette fin, on calcule la variance de la variable alatoire de sortie. Si celle-ci est
infrieure la variance de la variable alatoire d'entre alors on peut dclarer que le
systme est robuste, [52]. En consquence lintgralit du systme de compression,
de la figure 2.1.1., serait robuste. La relation entre - sortie de la relation (3.1.14) a
la reprsentation graphique de la figure 1.3.2.
Figure 1.3.2. La relation entre - sortie pour le dtecteur de seuil.
La relation de liaison entre les fonctions de rpartition des variables
alatoires X et Y est :
( )
( )
( )
( )
( )



=
) , t [ y , y F
) t [0, y , t F
,0) t [- y , t F
) t ,- (- y , y F
y F
X
X
X
X
Y
(3.1.15)
En drivant cette fonction on obtient la liaison entre les densits de
probabilit des signaux d'entre et de sortie, prsente la figure 3.2.2. Pour
la moyenne de la variable alatoire Y on obtient :
0 m
Y
= (3.1.16)
En calculant la variance de Y on obtient :
( )

=
t
0
X
2 2
X
2
Y
dy y p y 2
(3.1.17)
y
0
t
t
-t
-t
x
92 Le dtecteur de seuil - 3
o
2
X
reprsente la variance du X. En consquence :
2
X
2
Y
(3.1.18)
Donc le dtecteur de seuil est un systme robuste. Voil pourquoi la mthode de
compression propose dans ce travail est galement robuste. C'est l'un des
avantages de la compression base sur l'utilisation de la thorie des ondelettes par
rapport dautres mthodes de compression.
Figure 2.3.2. La densit de probabilit de la variable alatoire Y.
t
( ) y p
Y
y -t
( ) ( ) ( ) ( ) y t F t F
X X

0
( ) y p
X
Chapitre 4. Le systme de quantification pour la
compression de la parole
Un autre bloc trs important de la structure d'un systme de compression
est le quantificateur. Sur l'opration de quantification on a beaucoup crit. Les
principales techniques de quantification connues sont prsentes en [50], en
utilisant intensivement les rfrences [58], [59]. Un rsultat remarquable, obtenu en
[50], est constitu par la gnralisation du thorme de quantification de Widrow.
Ce rsultat a t prsent en [60]. Le systme de quantification doit tre conu en
accord avec l'application qu'il dessert. Pour la compression de la parole, il est
important que la structure du quantificateur s'adapte aux particularits de ce type de
signal. Celles-ci sont mises en vidence par le modle psycho-acoustique de la
parole. Dans la suite on fait une prsentation succincte de ce modle.
4.1. Proprits psycho-acoustiques du signal de parole
La plus importante proprit psycho-acoustique du signal de parole, du
point de vue de la compression, est le phnomne de masquage.
4.1.1. Le phnomne de masquage
Il y a deux types de masquage d'un son par un autre son. On parle du
masquage frquentiel si les deux sons sont produits simultanment et du masquage
temporel si les deux sons sont produits successivement. Dans la suite on fait des
commentaires seulement sur le masquage frquentiel parce qu'il est difficile de
tenir compte, dans la structure d'un systme de compression, du masquage
temporel.
Soit une sinusode de frquence
1
f et d'amplitude
1
A . L'oreille ne saisit
pas le signal sonore dcrit par cette sinusode dans une ambiance de silence totale
si la puissance de cette sinusode est infrieure au seuil d'audition absolu, ( ) f S
a
.
L'aire d'audition est l'aire d'une surface qui s'tend au-dessus du seuil d'audition
entre 20 Hz et 20 kHz respectivement entre 0 et 90 dB.
Dans la suite on considre le cas o 2 sinusodes ont t mises, la
premire, celle qui masque, ayant la frquence
1
f et la puissance
1
P et la
deuxime, celle qui est masqu, ayant la frquence
2
f et la puissance
2
P . On
mesure pour toutes les valeurs possibles de la frquence
2
f de la bande audio, la
puissance
2
P pour la quelle la deuxime sinusode est la limite d'audibilit. La
fonction ( )
2 2
f P est appele courbe de masquage. Les courbes de masquage d'une
94 Le systme de quantification pour la compression de la parole - 4
sinusode par une autre sinusode ne sont pas les seules courbes psycho-acoustiques
intressantes. Pour l'opration de quantification il sera accept un bruit de
quantification dans une certaine bande de frquences si celui-ci n'est pas
audible. Donc il est intressant d'examiner le cas o le signal masqu est un bruit
de bande troite. De plus, parce qu'un signal de parole peut tre considr comme
tant compos par un certain nombre de signaux purs (composantes tonales), qui
peuvent tre modliss par des sinusodes et par un autre nombre de signaux qui ne
sont pas purs (composantes non-tonales), qui peuvent tre modliss par des bruits
de bande troite, il est ncessaire d'analyser les quatre cas suivants : le masquage
d'une sinusode par une sinusode, le masquage d'une sinusode par un bruit de
bande troite, le masquage d'un bruit de bande troite par une sinusode et le
masquage d'un bruit de bande troite par un autre bruit de bande troite. Un bruit
de bande troite est caractris par trois paramtres : la frquence centrale, la
largeur de bande et la puissance. Toutes ces courbes ont la mme allure, une forme
triangulaire. Elles dpendent des paramtres
1
f et
1
P . Toutes les courbes de
masquage ont le maximum la frquence
1
f . La puissance
2
P la frquence
1
f
est un peu plus petite que la puissance
1
P .
La diffrence ( )
1 1 2 2
P f f P = est appele indice de masquage. Les pentes des
courbes de masquage sont plus grandes vers les bases frquences et plus petites
vers les hautes frquences. Ces pentes dependent de la frquence
1
f du signal
masquant. Elles sont plus petites quand cette frquence est plus grande.
Si la frquence est mesure en utilisant une nouvelle unit de mesure,
appele Bark et si les puissances sont mesures en dB, on peut dmonter que ces
courbes de masquage peuvent tre modlises l'aide de segments de droite (dans
une certaine bande de frquences autour de la frquence
1
f ) et que les pentes de
ces droites ne dpendent pas de
1
f . La relation entre une frquence exprime en
Hz, dans l'intervalle [20, 20000] et une frquence exprime en Barks, dans
l'intervalle [1, 24] est :
(
(

|
.
|

\
|
+ |
.
|

\
|
=
2
Hertz Hertz
Bark
7500
f
arctg 5 , 3
1000
f
76 , 0 arctg 13 f (4.1)
Les courbes de masquage restent dpendantes de
1
P . La pente vers les hautes
frquences est plus petite si la puissance
1
P est plus grande. La fonction de
masquage dfinie par le modle psycho-acoustique numro 1 du standard MPEG
Audio prends en compte l'influence de la puissance
1
P du signal masquant. Les
fonctions de masquage sont dfinies par les relations suivantes :
4.1.2. - Des bandes critiques 95
( )
( ) ( )
( )( )
( )
( )( )

<
<
< +
< + +
=
8 f f 1 , 17 P 15 , 0 17 1 f f
1 f f 0 , f f 17
0 f f 1 , f f 6 P 4 , 0
1 f f 3 , 6 P 4 , 0 1 f f 17
P , f f v
2 1 1 2 1
2 1 2 1
2 1 2 1 1
2 1 1 2 1
1 2 1
(4.2)
o les frquences sont mesures en Barks et
1
P et v en dB.
La courbe de masquage, exprime en dB, a pour expression :
( ) ( ) ( ) ( ) ( )
1 1 2 1 1 1 1 1 1 2 2
f P , f f v f a f P P , f , f P + + = (4.3)
o l'indice de masquage ( )
1
f a est donn par :
( ) 5 , 4 f 275 , 0 525 , 1 f a
1 1 t
= (4.4)
si le son masquant est tonal ou par :
( ) 5 , 0 f 175 , 0 525 , 1 f a
1 1 n
= (4.5)
si le son masquant est non-tonal (bruit de bande troite).
En utilisant les courbes de masquage on peut liminer les composantes
masques dans le spectre du signal de parole. Ainsi on ralise une compression
transparente du signal de parole.
4.1.2. Des bandes critiques
La deuxime caractristique du modle psycho-acoustique est base sur
l'hypothse que l'oreille humaine se comporte comme un banc de filtres, en
ralisant une partition irrgulire de l'axe des frquences. La bande audible est
divise en 24 bandes appeles des BANDES CRITIQUES. Soit une sinusode
de frquence
1
f . Si sa puissance,
1
P , vrifie :
( )
1 a 1
f S P (4.6)

alors cette sinusode est audible. Soit une deuxime sinusode de frquence voisine
et de puissance
1
P . Les deux sinusodes sont audibles si :
( )
1 a 1
f S P 2 (4.7)

Soient N sinusodes de frquences ( )df 1 N f ,..., df f , f
1 1 1
+ + et de puissance
1
P .
96 Le systme de quantification pour la compression de la parole - 4
L'ensemble de ces sinusodes est audible si :
( )
1 a 1
f S P N (4.8)

Cette condition est satisfaite si la largeur de bande df N f = est infrieure un
seuil, nomm largeur de bande critique, au voisinage de
1
f . Voil comment
peuvent tre dfinies les bandes critiques, le sujet de ce paragraphe. L'chelle
frquentielle, mesure en Barks, corresponde au nombre d'ordre de chaque bande
critique. Dans le tableau suivant on prsente un choix possible des bandes critiques.
Numro
d'ordre
(1)
Frquence
infrieure
(2)
Frquence
suprieure
(3)
Largeur
de bande
(4)
(1) (2) (3) (4)
1 20 100 80 13 1720 2000 280
2 100 200 100 14 2000 2320 320
3 200 300 100 15 2320 2700 380
4 300 400 100 16 2700 3150 450
5 400 510 110 17 3150 3700 550
6 510 630 120 18 3700 4400 700
7 630 770 140 19 4400 5300 900
8 770 920 150 20 5300 6400 1100
9 920 1080 160 21 6400 7700 1300
10 1080 1270 190 22 7700 9500 1800
11 1270 1480 210 23 9500 12000 2500
12 1480 1720 240 24 12000 15500 3500
Tableau 1. Des bandes critiques.
Dans ce tableau les bandes critiques sont choisies artificiellement, l'oreille
pouvant crer une bande critique autour de n'importe quelle frquence. Si on dfinit
une nouvelle chelle frquentielle en associant chaque frquence centrale de ce
tableau le numro d'ordre de la bande critique correspondante, on retrouve l'chelle
frquentielle mesure en Barks dfinie antrieurement.
4.1.2.1. Le seuil de masquage
A l'aide du modle prcdent on dtermine dans la suite la courbe de
masquage globale puis le seuil de masquage issu de l'ensemble des courbes
calcules en partant de toutes les composantes spectrales d'un signal de parole.
Chaque bruit de quantification dont la puissance est infrieure au seuil de
masquage sera inaudible. La quantification du signal de parole avec cette
proprit sera transparente. Le principe est simple mais la mise en uvre est
difficile.
4.1.2.1. - Le seuil de masquage 97
La premire opration est l'estimation de la densit spectrale d'nergie du
signal de parole | | n x , ( )
x
P . Celle-ci peut tre estime l'aide des reprsentations
temps-frquence o en utilisant la mthode base sur le spectre du modle auto-
rgresif associ. Par l'chantillonnage en frquence de cette fonction on obtient la
fonction | | k P
x
. Cette fonction est normalise tel que :
| | { } dB 96 k P max
x
k
=
(4.9)
Pour calculer le seuil de masquage il faut ajouter des nouvelles hypothses au
modle psycho-acoustique de l'audition de la parole. On supposera que chaque
composante de la densit spectrale de puissance | | k P
x
contribue indpendamment
au seuil de masquage et qu'il est suffisant de sommer ces contributions. Cette
hypothse est rationnelle l'intrieur d'une bande critique mais rien ne justifie sa
gnralisation au spectre entier du signal de parole.
Du fait que le modle de masquage soit diffrent si le signal masquant est
tonal ou non-tonal, il est ncessaire de raliser cette distinction pour toutes les
composantes | | k P
x
. En conformit avec le modle psycho-acoustique MPEG
Audio numro 1, une composante spectrale est considre tonale si les trois
conditions suivantes sont vrifies :
| | | |
| | | |
| | | | dB 7 j k P k P
1 k P k P
1 k P k P
x x
x x
x x
+
+
>
(4.10)

avec j dans les ensembles :
{ }
{ }
{ } 250 k 127 pour 6 ,..., 2 , 2 ,..., 6 j
127 k 63 pour 3 , 2 , 2 , 3 j
63 k 2 pour 2 , 2 j

<
< <
(4.11)

Le domaine de variation est de plus en plus large pour j, ceci est d au fait que la
rsolution frquentielle de l'oreille est meilleure dans les basses frquences.
A la puissance de chaque composante | | k P
x
, classifie comme tonale, les
puissances de deux composantes voisines sont ajouts, on utilise la formule
suivante:
( ) ( ) ( )
|
|
.
|

\
|
+ + = |
.
|

\
|
=
+
10
1 k P
10
k P
10
1 k P
e
1 1
x x x
10 10 10 lg 10
N
f
k f P
(4.12)
98 Le systme de quantification pour la compression de la parole - 4
o N reprsente le nombre de composantes de | | k P
x
et
e
f la frquence
d'chantillonnage du signal de parole.
Pour les composantes classifies comme non-tonales, on calcule dans
chaque bande critique, leurs puissances et on applique une formule equivalente la
relation (4.12). Toutes les composantes, tonales ou pas, qui ont une puissance
infrieure au seuil d'audibilit absolu peuvent tre limins. Si deux composantes
tonales sont une distance infrieure 0,5 Barks alors celle de puissance infrieure
peut tre limine. Apres ce traitement on obtient
t
N composantes tonales et
n
N
composantes non-tonales, avec 24 N
t
et 24 N
n
. Le but de cette rduction de
nombre de composantes est la limitation de la complexit de traitement qui suit. Le
seuil de masquage ( )
2 m
f S est calcul en sommant la contribution la frquence
2
f
des
t
N composants tonals et des
n
N composantes non-tonales :
( )
( ) ( ) ( )
|
|
.
|

\
|
+ + =

= =
n
1 1 2 2
t
1 1 2 2 2 a N
1 k
10
P , f , f P
N
1 k
10
P , f , f P
10
f S
2 m
10 10 10 lg 10 f S
(4.13)
o
2
P est calcul en utilisant la relation (4.3). Dans cette relation les frquences
sont calcules en Barks et on a considr que l'influence d'un son masquant ne se
manifeste que dans une plage | | 8 f , 3 f
1 1
+ en Barks. Ces frquences doivent bien
sr tre obtenues aprs une discrtisation. Cette discrtisation est dcrite dans le
cadre du standard MPEG Audio l'aide de la relation suivante :
| | | |
| | | |
| | | |




108 , 73 i kHz 6 , 15 , 6 f
72 , 49 i kHz 6 , 3 f
48 , 0 i kHz 3 , 0 f
2
2
2
(4.14)
A l'aide du seuil de masquage on peut calculer dans chaque bande critique le
rapport signal masque :
m
s
S
P
RSM =
(4.15)
o
s
P reprsente la puissance du signal de la bande respective et
m
S le seuil de
masquage de la mme bande.
4.1.2.1.- L'utilisation du seuil de masquage la compression du signal de parole 99
4.1.2.2. L'utilisation du seuil de masquage la compression
du signal de parole
Le rapport signal masque peut tre utilis pour la quantification du signal
de parole. Du fait de la quantification, le nombre de bits allou chaque
chantillon de ce signal diminue, on ralise donc une compression. La
quantification doit tre ralise telle que la puissance du bruit de quantification
soit, en chaque bande critique, infrieure au seuil de masquage. Si cette condition
est satisfaite alors la quantification est transparente. En supposant qu'en chaque
bande critique du signal de parole on fait une quantification entropique, la
puissance du bruit de quantification, conformment [50], est :
( ) b 2 S h
z
2 2
12
1
P

= (4.16)
o ( ) S h reprsente l'entropie diffrentielle du signal S, S est le signal d'entre du
systme de quantification correspondant la bande critique considre, et b
reprsente le nombre de bits utiliss pour la description du signal de la sortie de ce
systme de quantification. En posant la condition que cette puissance soit infrieure
au seuil de masquage on obtient :
( )
m
b 2 S h 2
S 2 2
12
1
<

ou :
( )
m
S h 2
b 2
S
12
2
2 >
(4.17)
Si la place de la quantification entropique on ralise une quantification uniforme
alors :
( )
s
S h 2
P 2 =

[61], et la relation (4.17) deviens :


RSM
12
1
2
b 2
> (4.18)

La dernire relation (aussi comme la relation (4.17)) permet la slection du
nombre de bits b, pour lequel la quantification du signal de parole dans la bande
critique considre soit transparente.
100 Le systme de quantification pour la compression de la parole - 4
4.2. La quantification adaptative dans le domaine de la TPC
Dans le paragraphe destin l'tude du dtecteur de seuil on a considr
pour la dmonstration de la proposition, qui reprsente le principal rsultat de ce
paragraphe, qu'on utilisait une quantification uniforme. On pourrait obtenir des
meilleurs rsultats si on utilisait une quantification non-uniforme. Celle-ci peut se
baser sur l'utilisation du modle psycho-acoustique, comme cela a dj t montr
dans le paragraphe prcdent. La principale dficience d'une telle mthode est
qu'elle ncessite un volume de calcul important, le calcul du seuil de masquage
tant une opration laborieuse. Dans la suite on prsente une solution trs simple
pour la ralisation d'une quantification non-uniforme. La squence obtenue (signal
y[n]) la sortie du bloc TO de la figure 1.1.2.1 reprsente le spectre d'amplitudes
instantan du bloc courant du signal de parole, on obtient ce spectre car on a choisit
comme transforme orthogonale la TPC. C'est le motif pour lequel on peut raliser
une quantification perceptive, base sur une approximation du modle psycho-
acoustique du signal de parole. Le support du signal | | n z , obtenu la sortie du bloc
DP, de la figure 2.1.1. est divis en 32 intervalles, o sont dfinis les blocs de
signal | | 32 , 1 k , n z
k
= , de mme longueur. Ceux-ci correspondent aux bandes
critiques du modle psycho-acoustique de la parole. Pour chaque bande, le bloc DP
a limin toutes les composantes spectrales dont le module est infrieur un
certain seuil: t.
Cette valeur est une approximation de la valeur du seuil de masquage.
Comme cela a dj t montr dans le paragraphe ddi l'tude du dtecteur de
seuil, la valeur t est choisie d'une manire adaptative, en utilisant un algorithme de
maximisation du rapport signal bruit pour le signal reconstruit. On ralise la
quantification uniforme de chaque bloc. Dans ce but on dtecte les plus grandes
valeurs des signaux | | n z et | | n z
k
,
M
z et
kM
z . Pour chaque bloc il est allou un
certain nombre de bits. Cette procdure est base sur les valeurs
kM
z . Pour chaque
valeur
M
z il est allou 6 bits (
6
2 niveaux de quantification).
Pour les valeurs
kM
z il est allou :
(
(

=
6
M
kM
k
2
z
z
(4.19)
niveaux de quantification, o | | | | symbolise la fonction partie entire. Ainsi un
nombre de ( ) | | | | 1 log b
k 2 k
+ = bits sont allous pour chaque chantillon du bloc
avec l'indice k. La quantification de ce bloc est ralise en utilisant la
transformation :
4.2. - La quantification adaptative dans le domaine de la TPC 101
| |
| |
(
(


+
=
k
kM
k
k
01 . 0 z
n z
n u
(4.20)
Ainsi on ralise une normalisation de niveau dans chaque bloc. La d-
normalisation correspondante sera ralise dans le cadre de la phase de
reconstruction avant le calcul de la TPCI. Cette opration est ralise par le bloc D
de la figure 2.1.1. Le grand avantage de la procdure de quantification propose est
d la proprit de dcorrlation de la TPC. Grce cette proprit de nombreuses
valeurs
kM
z sont nulles. Les valeurs correspondantes
k
et
k
b sont nulles. C'est le
motif pour lequel le nombre total de bits allous aux chantillons du signal
| | n u ,
b
N , est trs petit en comparaison avec le nombre de bits du signal | | n x . Cette
procdure de quantification a un petit dsavantage aussi. Pour la transmission ou
pour l'enregistrement de chaque bloc du signal | | n u , | | n u
k
, il faut ajouter aux
"coordonnes" de chaque chantillon quelques valeurs supplmentaires, les valeurs
kM
z . En utilisant ces valeurs et la relation (3.46) les nombres
k
peuvent tre
calculs pendant la phase de reconstruction. A l'aide des paramtres
kM
z et
k
on
peut raliser "les oprations inverses" des relations dcrites par la relation (4.2).
Parce que le nombre de bits demand pour la reprsentation des valeurs
kM
z est
trs petit par rapport
b
N , le facteur de compression global n'est pas affect par la
ncessit d'ajouter les valeurs supplmentaires pour chaque bloc, | | n u
k
. La valeur
du facteur de compression ralis par le systme de la figure 2.1.1. peut tre
calcule en utilisant la relation :
B N N
N 16
f
p c
c
+ +

=
(4.21)
o on a suppos que chaque chantillon du signal d'entre est cod sur 16 bits,
p
N
reprsente le nombre de bits ncessaire pour le codage des positions des
chantillons du signal | | n u et B reprsente le nombre de bits demand pour le
codage des paramtres. Les nombres
c
N et Bpeuvent tre calculs en utilisant les
relations suivantes:
( )

=
=
32
1 k
k c
b k N N
(4.22)

o ( ) k N reprsente le nombre d'chantillons non nuls du bloc index par k :

=
=
32
1 k
k
b B
(4.23)
102 Le systme de quantification pour la compression de la parole - 4
On calcule le nombre
p
N avec la relation suivante:
( )

=
=
32
1 k
k p
k N N
(4.24)
o
k
reprsente le nombre de bits ncessaire pour la reprsentation de la position
de chaque chantillon de valeur non nulle appartenant au bloc index par k. Parce
que dans chaque bloc il y a un nombre maximal de 32 telles positions et que les
valeurs
k
sont infrieures 5. C'est le motif pour lequel une borne suprieure
pour
p
N est :
( )
n
32
1 k
N 32 k N 5 =

=
(4.25)
4.3. Les autres blocs du systme de compression
L'utilisation du codeur Co de la figure 1.1.2.1 conduit l'augmentation du
facteur de compression sans affecter le niveau de la distorsion de reconstruction,
parce que ce systme ralise une compression sans pertes. La construction de ce
systme fait appel l'une des techniques classiques de codage comme par exemple
le codage de Huffman ou le codage arithmtique, [55], [2]. L'utilisation de tels
systmes pour la compression des signaux audio est exprimente en [62]. Des
rsultats et des conclusions pour l'utilisation de tels blocs dans le schma de
compression sont prsents dans la mme rfrence.
Le signal | | n v de la sortie du codeur reprsente le rsultat de la procdure
de compression. C'est le signal enregistr ou transmis. Les deux autres blocs du
systme de la figure 1.1.2.1 sont utiliss dans la phase de reconstruction. Le bloc D
ralise le dcodage du signal | | n v . A la sortie de ce bloc on obtient les signaux
| | n u
k
et la squence
kM
z , 32 , 1 k = . En utilisant la relation (4.19) on calcule les
valeurs
k
. Puis on ralise la d-normalisation :
| |
| |
kM
k
k
k
z
01 . 0
n u
n w
+
=
(4.26)
Par la runion des composantes | | n w
k
on obtient le signal | | n w . Le dernier bloc
de la figure 1.1.2.1 fait le calcul de la TPCI. Le rsultat est le signal | | n x . Celui-ci
reprsente le rsultat de la procdure de reconstruction. En utilisant ce signal on
peut calculer la distorsion D. Toutes les oprations dj dcrites sont rptes, pour
diffrentes valeurs du seuil, t, pour la maximisation de la valeur du facteur de
compression global,
c
f , sous la contrainte que
0
rsz soit suprieur .
Chapitre 5. La compression de la musique
Toutes les mthodes de compression dj prsentes sont dpendantes du
type de donnes comprimer. Pour diffrents types de donnes il faut utiliser
diffrentes mthodes de compression. Voil pourquoi dans la suite il sera prsents
diffrents types de mthodes de compression en accord avec le type spcifique de
donnes comprimer. On a dj vu que pour les textes ou pour les logiciels il faut
utiliser des mthodes de compression sans pertes. Dans la suite on tudiera les
mthodes de compression des donnes obtenues par lchantillonnage de diffrents
signaux analogiques comme la musique, la parole ou les images. Ce sont des
signaux redondants. On peut donc utiliser des mthodes de compression pertes.
Le premier systme de compression dun signal musical a t le systme NICAM
(Nearly Instantaneously Companded Audio Multiplex) 384 kbit/s par voie promu
par la BBC. Deux systmes ont, ensuite, t mis en comptition par le groupe de
travail ISO/MPEG, le codeur MUSICAM (Masking Pattern Adapted Universal
Subband Integrated Coding and Multiplexing) et ASPEC (Adaptive Spectral
Perceptual Entropy Coding). Le premier a t slectionn, une partie du deuxime
a t intgre dans la troisime couche de MPEG Audio. Le codeur MUSICAM a
t normalis par le groupe ISO/MPEG en 1990.
5.1. Le codeur MUSICAM
Cest un codeur en sous-bandes avec quantification scalaire des
chantillons et allocation optimale de bits dans chaque sous-bande. Le diagramme
fonctionnel est donn la figure 1.5.1. La premire couche du codeur assure un
codage transparent 192 kbit/s avec une complexit de traitement rduite. La
deuxime couche assure toujours un codage transparent 128 kbit/s mais au pris
dune complexit plus importante. La troisime couche, 64 kbit/s nassure pas la
transparence. Il y a une dissymtrie trs forte entre lmetteur (un studio
professionnel) et le rcepteur (un poste de radio ou de tlvision grand public). La
transmission nest pas full-duplex.
104 La compression de la musique 5
Figure 1.5.1. Schma de principe du codeur Musicam.
Le banc de filtres danalyse est compos de 32 filtres dcomposant
rgulirement laxe des frquences. Chaque filtre est une version module (pseudo-
QMF) dun filtre passe-bas comportant 512 coefficients. Dans chacune des sous-
bandes, les signaux sont sous-chantillonns par 32, ce qui correspond au sous-
chantillonnage critique, puis 12 chantillons sont regroups, ce qui permet
dobtenir un facteur dechelle commun, puis cods, ce qui correspond
384 32 12 = chantillons, s[n]. Lallocation dynamique de bits est ralise en
fonction dun seuil de masquage calcul en parallele partir dune estimation
spectrale calcule partir de 512 chantillons du signal originel (fentre de 16 ms
si la frquence dchantillonnage est de 32 kHz). Au rcepteur, les oprations
inverses de dcodage, sur-chantillonnage et filtrage sont ralises. Le banc de
filtres de synthse est identique au banc de filtres danalyse ( un coefficient prs).
Le banc de filtres danalyse et de synthse sont dcrits en [61]. Le modle
daudition et le calcul du seuil de masquage utilis pour lallocation de bits et pour
la quantification sont prsents dans [62] et [63].
Le signal s[n] est dcompos en M (dans notre exemple M=32) sous-bandes.
Appelons ( ) j
2
Y
la puissance du signal dans la sous-bande j. Pour que le codage
soit transparent, il suffit que la puissance du bruit de quantification ( ) j
2
Q
soit
infrieure, dans chacune des sous-bandes, au seuil de masquage ( ) j S
m
. Mais la
5.1. Le codeur MUSICAM 105
liaison entre la puissance du bruit de quantification, la puissance du signal et le
nombre de bits ( ) j b utiliss pour la quantification scalaire du signal dans la sous-
bande j est:
( ) ( )
( ) j b 2 2
Y
2
Q
2 j c j

= (5.1)
o c est une constante.
On obtient la condition:
( )
( )
( ) j S 2 j c
m
j b 2 2
Y
<

soit:
( )
( ) j S
c 2
m
2
Y j b 2

> (5.2)

Voil le critre dallocation des bits pour la quantification des signaux de chaque
sous-bande. Si les ressources binaires disponibles ne sont pas suffisantes pour
respecter cette condition dans toutes les sous-bandes, lallocation optimale des bits,
minimisant la puissance du bruit de quantification:
( )
( )
( )

=
M
1 j
j b 2
m
2
Y 2
Q
2
j S
j
M
c
(5.3)
est donne par:
( )
( ) ( )
2
m
2
Y
2
j S / j
log
2
1
b j b

+ = (5.4)
o:
( )
( )
M
1
M
1 j
m
2
Y 2
j S
j
(


=

=
La quantification des signaux dans les 32 sous-bandes a lieu tous les 384 32 12 =
chantillons. On dtermine dabord un facteur dechelle dans chacune des sous-
bandes en slectionnant, dans un tableau contenant 64 valeurs, la valeur
immdiatement suprieure la valeur maximale de 12 chantillons de la sous-
bande. On transmet lindex, cod sur 6 bits, uniquement si lallocation de bits dans
la sous-bande est non nulle. Les 12 chantillons sont ensuite normaliss par le
facteur dchelle puis quantifis par un simple quantificateur scalaire uniforme sur
106 La compression de la musique 5
un certain nombre de bits donn par la procdure dallocation dj dcrite. Cette
procdure peut allouer 0, 2, 3, ..., 15 bits chacune des sous-bandes. La premire
fois que lon alloue 2 bits une quelconque sous-bande, on doit coder le facteur
dechelle (6 bits), lallocation des bits (4 bits) et les 12 chantillons correspondant
soit ( 12 2 bits). Ensuite, il suffit de prendre en compte laugmentation du nombre
de bits et de multiplier par le nombre dchantillons. Ainsi, si on dcide dallouer
des bits une sous-bande, laugmentation du nombre de bits utiliss sera de 30 bits
la premire fois, de 12 par la suite.
On ne doit pas consommer plus de bits que ceux qui sont disponibles dans
une trame. Ce nombre se calcule simplement en retranchant au nombre total de bits
disponibles ( )
e
f / debit 12 32 dabord les 32 bits du header o sont cods la
frquence dchantillonnage, le numro de la couche, le dbit binaire slectionn,
ensuite 16 bits utiliss par un code cyclique correcteur derreurs, enfin des bits
dinformation auxiliaire...
5.2. Le codeur MP-3
MP-3 est lextension des fichiers cods en utilisant le standard MPEG
audio couche 3. La couche 3 est lune de trois mthodes de compression (couche 1,
couche 2 et couche 3) des signaux audio. La couche 3 utilise une mthode
perceptuelle de codage pour rejeter toute information redondante (plus spcifique
les parties redondantes dun signal audio qui ne sont pas perues par loreille).
Cette mthode utilise une transforme en cosinus discrte modifie qui implemente
un banc de filtres.
Le rsultat est la transparence de la compression des signaux de musique
stro dun CD un facteur de compression de 12 (le dbit lentre est de 1411,2
kbit/s et le dbit la sortie est de 112-128 kbit/s).
En 1987, IIS a commenc travailler au codage perceptuel dans le cadre du
programme Eureka, le projet EU 147, Digital Audio Broadcasting (DAB).
Lalgorithme cr a t normalis comme ISO-MPEG Audio Layer-3 (IS 11172-3
et IS 13818-3). Sans compression, les signaux numriques audio sont des
reprsentations des signaux audio analogiques 16 bit/chantillon. La frquence
dchantillonnage est de 44,1 kHz pour les CD. Donc on a plus de 1.400 Mbit pour
reprsenter une seule seconde de musique stro la qualit dun CD. En utilisant
Le codeur MP3 107
le codage audio MPEG on peut obtenir un facteur de compression de 12 sans
perdre la qualit du signal. Des facteurs de compression de 24 ou plus conduisent
aux reconstructions (aprs la compression) qui sont meilleur que les
reconstructions ralises dans les cas o seulement la frquence dchantillonnage
ou la rsolution ont t rduites. On peut raliser a par codage perceptuel. Celui-ci
est bas sur un modle de perception de loreille. En utilisant le codage MPEG
audio, on peut obtenir un facteur de compression de: 4 par la couche 1 (384 kbits/s
pour un signal stro), 6 8 par la couche 2 (256 192 kbits/s), 10 12 par la
couche 3 (128 112 kbits/s).
La qualit sonore assure par MP-3 peut tre apprcie laide du tableau
suivant:
Qualit sonore
bande de
frquences
Mode
dbit
kbit/s
facteur de
compression
Tlphonique 2,5 kHz mono 8 96
Meilleure que celle des
transmissions radio ondes
courtes
4,5 kHz mono 16 24
Meilleure que les signaux
radio moduls en amplitude
7,5 kHz mono 32 24
Similaire aux signaux radio
moduls en frquence
11 kHz stro 56-64 26-24
Presque CD 15 kHz stro 96 16
CD > 15 kHz stro 112-128 14-12
Tableau 1.5.2. Exemples des performances du codeur MP-3.
Le diagramme fonctionnel du codeur MP-3 est donne la figure 1.5.2.
108 La compression de la musique 5
Figure 1.5.2. Schma de principe du codeur MP-3.
Le banc de filtres utilis dans MPEG couche 3 est hybride. On utilise un
banc de filtres polyphass et une transforme en cosinus discrte modifie. Cette
forme hybride a t choisie pour la compatibilit avec les prdcesseurs, les
couches 1 et 2. Le modle perceptuel est le facteur dterminant pour la qualit
dun codeur. Celui-ci peut utiliser un banc de filtres propre ou peut combiner le
calcul des nergies (pour le calcul du seuil de masquage) avec le banc de filtres
principal (dj dcrit). A la sortie du modle perceptuel on obtient le seuil de
Modle
perceptuel
Banc de
filtres
Codage
stereo
Facteurs
dechelle
Quantifi-
cation
Codage
sans bruit
Contrle
debit-
distorsion
Multiplexeur
Boucles diteration
Signal
cod
MP-3
Signal dentre
Le codeur MP3 109
masquage ou la puissance de bruit pour la partition du chaque codeur. Si le bruit de
quantification est tenu sous le seuil de masquage alors la compression est
transparente. Le codage stro exploite le fait que les deux voies dune paire stro
contiennent des informations trs proches. Ces redondances peuvent tre utilises
pour la rduction du dbit. Le systme de codage stro est utilis quand on a sa
disposition seulement des versions comprimes mais on dsire des signaux stro.
Pour la quantification et pour le codage on utilise un systme bas sur deux boucles
ditration. La quantification est ralise laide dun quantificateur bas sur une
loi de puissance. Ainsi les valeurs grandes sont quantifies avec une prcision
rduite en gnrant une certaine structure pour le bruit de quantification. Les
valeurs de la sortie du quantificateur sont codes en utilisant un codage de
Huffman. Cest le codage sans bruit. Le processus de recherche dun gain optimal
et des facteurs dechelle optimaux pour un certain block, dbit et sortie du modle
perceptuel, est ralis laide de deux boucles ditration analyse-synthse.
La boucle intrieure (pour le dbit).
Les tableaux de code de Huffman assignent des mots de code plus courts
aux caractres avec frquence dapparition plus grande, qui sont les valeurs de la
sortie du systme de quantification les plus petites. Si le nombre de bits qui rsulte
de lopration de codage dpasse le nombre de bits disponibles pour un certain bloc
de donnes, celui-ci peut tre corrig par la modification du gain globale en
obtenant un pas de quantification plus grand et en consquence des valeurs
quantifies plus petites. Cette opration est rpte pour diffrents pas de
quantification jusqu ce que le nombre de bits demand par le codage de Huffman
soit suffisamment petit. Ainsi on fixe le dbit.
La boucle extrieure (pour le contrle de la distorsion).
Pour former le bruit de quantification en accord avec le seuil de masquage,
on utilise les facteurs dchelle. Le systme est initialis avec la valeur 1 du facteur
dechelle dans chaque bande de frquence (spcifie par le modle perceptuel). Si
le bruit de quantification dans une bande donne dpasse le seuil de masquage, le
facteur dchelle pour cette bande est modifi pour rduire le bruit de
quantification. Parce que la rduction du bruit de quantification demande
laugmentation du nombre de niveaux de quantification et donc laugmentation du
dbit, la boucle intrieure doit tre rpte chaque fois qu'on utilise un facteur
dchelle nouveau. Donc la boucle intrieure est inclue dans la boucle extrieure.
Celle-ci est excute seulement quand la puissance du bruit courante (calcule par
la diffrence entre les valeurs spectrales originales et les valeurs spectrales
obtenues aprs la quantification) est sous le seuil de masquage pour chaque bande
critique.
110 La compression de la musique 5
5.2.1. Lavenir du codeur MP-3
Un nouveau codeur appel MPEG-2 Advanced Audio Coding (AAC) a t
dclar standard international par le groupe MPEG la fin du mois avril en 1997.
On peut trouver des renseignements sur ce standard ladresse
http://www.iis.fhg.de/amm/techinf/aac/index.html.
Le plus rcent codeur audio de MPEG est le codeur MPEG-4. On peut
trouver des renseignements sur ce codeur ladresse Internet:
http://www.iis.fhg.de/amm/techinf/mpeg4/index.html.
Ce codeur fait appel la thorie des reprsentations temps-frquence. Celle-ci est
trs bien prsente en [11] et [64].
Une autre possibilit pour la ralisation des codeurs plus performants est
lutilisation de la thorie des ondelettes, prsente en [25] et [13]. Quelques
systmes de compression bass sur la thorie des ondelettes sont prsents en
[65]...[70].
5.2.2. La compression de la musique laide des paquets en
cosinus
Le schma de la figure 1.1.2.1 a t utilise pour la compression de la
musique [62]. Le signal traiter a t lu dun CD (donc il tait chantillonn en
utilisant une frquence dchantillonnage de 44100 Hz, chaque chantillon tant
reprsent sur 16 bits) et a t segment en blocs de 2048 chantillons. On a utilis
une transforme en paquets de cosinus discrte. La meilleure base a t choisie en
utilisant la fonctionnelle de cot reprsente par le nombre des coefficients de la
transforme, suprieurs un certain seuil. Le nombre de niveaux de dcomposition
a t limite 5. Pour la slection du seuil de compression on a utilis la formule
(3.1.13). On a utilis une quantification uniforme sur 6 bits. A la sortie on a utilis
un codage entropique.
Pour un morceau de musique de 3,58 s, on a obtenu un facteur moyen de
compression de 16,504 et un rapport moyen signal distorsion de reconstruction de
23,77 dB. Le temps de calcul et le volume de mmoire occup sont convenables.
Ces performances nous donnent le droit daffirmer que cette mthode de
compression est trs prometteuse.
5.3. La compression de la parole 111
5.3. La compression de la parole
Le signal de parole est un signal trs complexe possdant de nombreuses
caractristiques. On peut trouver beaucoup sur le traitement du signal de parole en
[51]. Dans cette ouvrage on utilise beaucoup de mthodes de traitement du signal.
Celles-ci sont prsentes dans les livres classiques de traitement du signal comme
[71]...[74]. Dans un but de compression, il est utile de souligner dabord que ce
signal nest videmment pas stationnaire mais quil peut tre considr comme
localement stationnaire pendant des dures de lordre de quelques dizaines de ms.
En codage de la parole il est tout fait standard de choisir des fentres dites
danalyse de 20 ms. On distingue ensuite diffrents types de sons: des sons voiss,
des sons non-voiss, des plosives. La compression des sons voiss et des sons non-
voiss peut tre ralise dans de bonnes conditions. Il nen est pas de mme, par
contre, pour les plosives et pour les transitions entre phonmes.
La troisime caractristique, trs importante comme on le verra par la suite,
est lexistence dun modle de production simple et efficace. Il sagit dun modle
auto-rgressif, cest--dire qu'il admet que le signal analys est le rsultat du
filtrage dun bruit blanc par un filtre ne comportant que des ples. Ce modle est
plus appropri pour les sons non voiss. Pour les sons voiss le bruit de lentre du
filtre doit tre remplac par le signal obtenu par le filtrage dune peigne de Dirac.
Enfin, prcisons un qualificatif habituellement associ au signal de parole. On parle
de signal de parole dans la bande tlphonique si on filtre le signal temps continu
dans la bande [300, 3300 Hz] puis si on lchantillonne 8 kHz. On parle de signal
de parole en bande largie si on le filtre dans la bande [50, 7000 Hz] puis si on
lchantillonne 16 kHz. Le signal de parole dans la bande tlphonique est celui
qui est transmis dans le rseau tlphonique public. Les enjeux conomiques sont
trs nettement les plus significatifs dans cette bande. Lintrt de transmettre du
signal de parole en bande largie est dobtenir un signal de parole reconstitu plus
net et plus intelligible que dans le cas prcdent. Les applications sont les
confrences audiovisuelles, le visiophone, la tlphonie sur haut-parleurs, etc.
Plusieurs normes ont t recommandes par lUIT-T pour le rseau
tlphonique public. Depuis 1972, la norme internationale G.711 prcise un codage
par modulation par impulsions codes (MIC ou PCM) correspondant un dbit de
64 kbit/s: lamplitude des chantillons est simplement quantifie sur 8 bits aprs
une compression de type non-lineaire. Depuis 1984, la norme G.721 dfinit un
codage MIC diffrentiel adaptatif (MICDA ou ADPCM) correspondant un dbit
de 32 kbit/s: on ne quantifie plus directement lamplitude de lchantillon mais la
diffrence entre lamplitude et une valeur prdite dtermine par un filtrage de type
adaptatif. Un codeur 16 kbit/s bas sur des techniques de
112 La compression de la musique 5
modlisation et de quantification vectorielle, a t slectionn par lUIT-T en 1991.
Cette norme G.728 est galement appele LD-CELP (Low Delay Code Excited
Linear Predictive coder) mettant en vidence que cest un codeur de type CELP et
quil prsente un faible dlai de reconstruction, proprit particulirement
importante pour un change tlphonique.
Les communications avec les mobiles sont en plein dveloppement
actuellement. La nature du canal de transmission, une liaison radio, rclame
dconomiser au maximum la largeur de bande du signal transmis pour permettre
un grand nombre dutilisateurs. Depuis 1989, il existe une norme europenne dite
GSM (Groupe Spcial Mobile). Louverture du service Itineris par France Tlcom
a eu lieu le 1er juillet 1992. Cette premire gnration est base sur les techniques
daccs multiples par division du temps (TDMA) et sur le codeurs de source, RPE-
LTP (Regular Pulse Excitation-Long Term Prediction) 13 kbit/s. Cette premire
gnration ne permet quune multiplication par trois environ des capacits de ce
rseau par rapport au rseau analogique (Radiocom 2000 en France). Pour
permettre une multiplication par dix et mme plus, le European
Telecommunications Standard Institute (ETSI) a choisi les standards de la
deuxime gnration GSM.
5.3.1. Le codeur CELP
Comment on a dj vu (dans le paragraphe antrieur) ce codeur reprsente
la brique de base pour la construction des systmes de compression de la parole.
Le schma de principe dun codeur CELP est quivalent au schma de
modlisation standard dun signal s[n] comme le montre la figure suivante.
Figure 1.5.3.1. Principe du codeur CELP.
s
r ( ) z A / 1
s
-
+

)
`

n
2
n
Min
Le codeur CELP 113
( ) z A / 1 reprsente la fonction de transfert du filtre de synthse.
La compression est ralise parce que la transmission des chantillons du
signal de parole s est substitue par la transmission du signal derreur (qui est
reprsent sur un nombre rduit de bits) et des coefficients du filtre de synthse.
5.3.1.1. La dtermination des coefficients du filtre de synthse
Le premier traitement consiste dterminer puis coder les coefficients du
filtre utilis la synthse. Une modlisation par prdiction linaire est quasi
systmatiquement utilise. On dit quon realise une analyse LPC (linear predictive
coding), [51]. Le choix de lordre de prdiction, P, rsulte dun compromis. Il doit
tre suffisamment lev pour reproduire correctement la structure "formantique" du
signal de parole: un ordre de 8 est ncessaire pour crer 4 pics dans le spectre et on
a vu que le signal de parole comporte gnralement 4 "formants". Inversement,
lordre doit tre le plus faible possible pour conomiser le dbit. On choisit donc P
compris entre 8 et 16.
Les coefficients
P 1
a ,..., a du filtre A(z) doivent tre cods. Parce quils ont
de mauvaises proprits de codage, on prfre en pratique coder les coefficients
P 1
k ,..., k du filtre en treillis correspondant. Ces coefficients peuvent tre calculs
partir des coefficients de corrlation normaliss
P 1
,..., du signal qui se trouve
lentre du filtre, en utilisant lalgorithme de Levinson ou lalgorithme de Schur.
Malheureusement la distribution statistique de ces coefficients ne resemble pas
une distribution uniforme. Pour uniformiser leur distribution on fait subir ces
coefficients une transformation non-lineaire de la forme:
i
i
i
k 1
k 1
log K

+
=
(5.5)
On appelle ces nouveaux coefficients les Log Area Ratios. Il existe une quatrime
reprsentation de ces coefficients quivalente aux trois reprsentations prcdents
possdant des proprits de codage encore meilleurs, [61]. Il sagit des Line
Spectrum Pairs.
A partir du polynme dordre P:
( )

=

+ =
P
1 i
i
i
z a 1 z A
(5.6)
114 La compression de la musique 5
on construit deux nouveaux polynmes dordre P+1:
( ) ( )
( ) ( ) ( )
1 1 p
2
1 1 P
1
z A z z A z B
) z ( A z z A z B


=
+ =
(5.7)
On peut montrer que ces deux polynmes ont les proprits suivantes:
Le polynme ( ) z B
1
est un polynme symtrique. Le polynme ( ) z B
2
est un polynme antisymtrique.
Si toutes les racines de ( ) z A sont lintrieur du cercle unit, toutes
les racines de ( ) z B
1
et de ( ) z B
2
sont sur le cercle unit.
Les racines de ( ) z B
1
et de ( ) z B
2
apparaissent de faon alterne sur le
cercle unit.
Si P est pair on peut crire ces deux polynmes sous la forme:
( ) ( ) ( )
( ) ( ) ( )

=

=

+ + =
+ + =
2 / P
1 i
2 1
i 2
1
2
2 / P
1 i
2 1
1 i 2
1
1
z z cos 2 1 z 1 z B
z z cos 2 1 z 1 z B
(5.8)
Si P est impair on obtient:
( ) ( )
( )
( ) ( ) ( )
( )

=

+
=

+ =
+ =
2 / 1 P
1 i
2 1
i 2
2
2
2 / 1 P
1 i
2 1
1 i 2 1
z z cos 2 1 z 1 z B
z z cos 2 1 z B
(5.9)

Les Line Spectrum Pairs
P 1
,..., vrifient les relations:
< < < <
P 2 1
... 0 (5.10)

Connaissant les coefficients
i
a , on en dduit les coefficients
i
. Rciproquement,
connaissant les coefficients
i
, on en dduit les coefficients
i
a puisque:
( )
( ) ( )
2
z B z B
z A
2 1
+
= (5.11)
5.3.1.1. La dtermination des coefficients du filtre de synthse 115
La quantification des coefficients
i
doit conserver la relation (5.11) pour
maintenir la stabilit du filtre de synthse. Si lon quantifie la diffrence entre deux
coefficients successifs, cette relation est automatiquement conserve.
Les fonctions de cot quadratiques se prtent bien aux calculs mais ne sont
pas bien adapts notre systme auditif. Pour pallier cet inconvnient on peut
faire une correction perceptive au schma de la figure 1.5.3.1.1 en rajoutant un
filtre de fonction de transfert W(z), avant le systme qui implemente le critre de
minimisation (celui qui a lentre le signal ), pour masquer le bruit de
quantification. Lexpression de cette fonction de transfert est:
( )
( )
( )
1 0 avec
/ z A
z A
z W < <

=
Le diagramme donnant le principe de la modlisation devient celui de la
figure suivante.
Figure 1.5.3.1.1. Un autre schma possible de codeur CELP.
Ce diagramme met clairement en vidence le fait que lon cherche
modliser le signal perceptuel p (et non le signal de parole s) par le signal p . Le
filtre qui a la fonction de transfert ( ) / z A / 1 sappelle filtre perceptuel. On choisit
gnralement voisin de 0,8.
Pour pouvoir estimer les coefficients du filtre de synthse il faut connatre
le signal dexcitation ] n [ r . Celui-ci doit tre un bruit blanc pour les fentres
danalyse qui contient des sons non-voiss et une peigne de Dirac filtre pour les
sons voiss. On peut utiliser comme signal dexcitation un vecteur issu dun
dictionnaire { }
L 1
c ,..., c C = compos de L vecteurs de dimension N:
s
r ( ) / z A / 1
p -
+

)
`

n
2
n
Min
( ) z A ( ) / z A / 1
p
116 La compression de la musique 5
( )

=
=
K
1 k
k j
k
c g r
(5.12)
o on a not avec K lordre de modlisation de lexcitation. Lide dutiliser des
dictionnaires est spcifique pour la quantification vectorielle, [47]. Les K vecteurs
du dictionnaire dexcitation sont connus aussi bien par lmetteur que par le
rcepteur. Pour construire le signal dexcitation il faut donc chercher K vecteurs
( ) ( ) K j 1 j
c ... c dans le dictionnaire dexcitation et K gains
K 1
g ,..., g de faon ce que
le vecteur r filtr par le filtre perceptuel ( ) / z A / 1 donne le vecteur modlis p le
plus ressemblant possible au vecteur p.
La forme du modle de lentre tant fixe, il faut dterminer la valeur
numrique des paramtres. On minimise
2
p p relativement aux indices
( ) ( ) k j ,..., 1 j et aux gains
K 1
g ,..., g . En notant avec h[n] la rponse impulssionnelle
du filtre perceptuel et en considrant que n=0 caractrise le premier chantillon de
la fentre danalyse courante, on peut crire:
| | | | | | ( ) ( ) | | | |
| |
( )
( ) | | | |


= =

+ =

= =

+ =
+ =
= + = =
K
1 k
n
0 i 1 n i
k j
k
0 i
n
0 i 1 n i
i n r i h i n c i h g
i n r i h i n r i h i n r i h n p
(5.13)
En notant avec:
( ) ( ) | |
t
0 0 0
1 N p ... 0 p p =
o:
( ) | | | | i n r i h n p
1 n i
0
=

+ =
la contribution dans la fentre courante de lexcitation provenant des fentres
prcdentes est donne par:
( ) ( ) | |
t
j j j
1 N f ... 0 f f =
avec:
5.3.1.1. La dtermination des coefficients du filtre de synthse 117
( ) | | | |

=
=
n
0 i
j j
i n c i h n f
le rsultat du filtrage du vecteur
j
c par le filtre perceptuel partant de conditions
initiales nulles, la relation (5.13) devient:
( )

=
k
k j
k
f g p
(5.14)
et lopration de filtrage dcrite plus haut peut tre caractrise par lexpression
matricielle:
| |
| | | |
| | | | | |
j j j
Hc c
0 h 1 h . . 1 N h
0 . . . .
. . . 0 h 1 h
0 . . 0 0 h
f =
(
(
(
(

=
(5.15)
Les lments
j
f appartiennent au dictionnaire filtr F. Maintenant on peut trouver
la solution du problme de la modlisation de lexcitation en faisant une
minimisation au sens de moindre carrs. Il faut trouver les indices ( ) ( ) K j ,..., 1 j et
les gains
K 1
g ,..., g de faon minimiser:
( )
2
K
1 k
k j
k
2
f g p p p D

=
= = (5.16)
Si on suppose connu le dictionnaire F, en formulation matricielle ce problme
devient: tant donn une matrice F compose de L vecteurs colonnes
j
f et un
vecteur p, il faut extraire de F une matrice A compose de K vecteurs colonnes
parmi L, et trouver un vecteur g de dimension K de faon minimiser:
2
Ag p D = (5.17)
Il sagit dun problme classique de minimisation au sens des moindres carres si
lon suppose connus les indices ( ) ( ) K j ,..., 1 j , cest--dire la matrice A. On
dtermine g partir du systme sur-dimensionn:
p=Ag
118 La compression de la musique 5
On crit que la meilleure approximation p de p est la projection
orthogonale de p dans le sous-espace engendr par les vecteurs colonnes de A. On
obtient les quations normales:
( )
( ) ( ) K ... 1 k pour 0 Ag p f
t
k j
= =
(5.18)
ou de faon matricielle:
p A Ag A
t t
= (5.19)
Malheureusement les indices ( ) ( ) K j ,..., 1 j ne sont pas connus et doivent tre
dtermins simultanment avec les gains. Il existe un algorithme optimal pour ce
problme; il suffit de dterminer toutes les matrices A correspondant toutes les
combinaisons de k vecteurs parmi L, de rsoudre pour chaque matrice A les
quations normales, dvaluer le critre et de slectionner la combinaison qui
minimise ce critre. Malheureusement cet algorithme demande un volume de calcul
trop lev. Il est donc ncessaire se limiter un algorithme sous-optimal.
La minimisation de D consiste choisir une combinaison ( ) ( ) K j ,..., 1 j ,
rsoudre les quations normales p A Ag A
t t
= , enfin choisir la combinaison qui
maximise Ag A g
t t
puisque la minimisation de
2
p p
)
est quivalente la
maximisation de
2
p . Puisque:
( ) p A A A g
t
1
t

=
(5.20)
le problme consiste finalement slectionner la combinaison ( ) ( ) K j ,..., 1 j qui
maximise:
( ) | | p A A A A p p
t
t
1 t t
2

= (5.21)

puis calculer les gains en rsolvant, une seule fois, les quations normales
correspondant la combinaison choisie.
5.3.1.1.1. Algorithme itratif standard pour la construction de lexcitation 119
5.3.1.1.1. Algorithme itratif standard pour la construction
de lexcitation
La difficult provient essentiellement de linversion de la matrice A A
t
.
Pour dpasser cette difficult on peut se limiter la recherche dun vecteur la
fois, lexpression A A
t
est alors un scalaire, le calcul des indices et des gains se
fait de faon itrative.
Lalgorithme itratif standard se base sur les tapes suivantes.
A la premire itration, un seul vecteur
j
f est slectionn. On a:
p , f p A
f , f A A
j t
j j t
=
=
(5.22)

On doit donc choisir lindex j qui maximise:
j j
2
j
j
1
j j j
f , f
p , f
p , f f , f f , p =

(5.23)
puis calculer le gain:
( )
( ) ( ) 1 j 1 j
1 j
1
f , f
p , f
g =
(5.24)

A la
eme
k itration, la contribution des k-1 premiers vecteurs
( ) i j
f est retire de p:
( )

=
=
1 k
1 i
i j
i
k
f g p p
(5.25)

et un nouvel index ( ) k j et un nouveau gain
k
g sont calculs:
120 La compression de la musique 5
( )
( )
( ) ( ) k j k j
k k j
k
j j
2
k j
j
f , f
p , f
g
f , f
p , f
max arg k j
=
=
(5.26)

On obtient lalgorithme itratif standard.
Pour j = 1...L

j j j
f , f = ;
p , f
j j
1
=
Pour k=1...K
( ) ( ) { }
j
2
j
k
j
/ max arg k j = ;

( ) ( ) k j k j
k k
/ g = ;
Pour j=1...L (si k<K);
( )
( ) ( ) k j j k j
/ f , f j , k r = ;
( )
( ) k j
k
j
k
j
1 k
j , k r =
+
.
Cet algorithme est applicable quel que soit le contenu du dictionnaire dexcitation
C.
Jusquici il a seulement t faite une prdiction court terme du signal de
parole (on a trouv seulement les P coefficients du filtre de synthse et le signal
derreur ). On peut faire une rduction supplmentaire de lamplitude du signal
derreur si on pratique une prdiction longue terme aussi. Celle-ci pourra offrir
une prdiction du pitch du signal de parole. Cette prdiction est base sur la
minimisation de lnergie dune nouvelle erreur:
| | | | ( )

=
n
2
2
Q n b n D
(5.27)

5.3.1.1.1. Algorithme itratif standard pour la construction de lexcitation 121
par rapport aux paramtres inconnus b et Q et utilise le filtre de synthse avec la
fonction de transfert:
( )
Q
bz 1 z B

= (5.28)
En utilisant le paramtre Q on peut estimer le pitch.
A laide de cette prdiction long terme on peut construire une partie du
dictionnaire dexcitation C appele dictionnaire adaptatif, le reste du dictionnaire C
sera nomm dictionnaire stochastique, [61].
Les lments spcifiques pour un codeur CELP dcrits plus haut, qui se
trouvent dans la structure de diffrents codeurs dj raliss, conduisent un
algorithme possible pour le codage CELP dcrit dans la suite.
5.3.1.1.2 Description algorithmique
Aprs une phase dinitialisation o lon met zro le dictionnaire adaptatif,
o lon charge le dictionnaire stochastique et o lon met zro ltat de tous les
filtres, on realise systmatiquement pour chaque fentre danalyse les traitements
suivants.
Acquisition, analyse LPC, calcul du perceptuel, calcul de la rponse
impulsionnelle du filtre perceptuel et de son nergie,
La lecture de N chantillons dans un fichier permet de
construire le vecteur s[0],...,s[N-1].
A partir de ces N chantillons, on calcule les P+1 coefficients
dautocorrlation R[0],..., R[P] . En utilisant ces coefficients
lalgorithme de Schur fournit les P coefficients k[1],...,k[P].
On code ces coefficients puis on calcule les coefficients
a[1],...,a[P] des filtres danalyse et de synthse. Le filtrage du
vecteur s[0],..., s[N-1] par le filtre danalyse donne le vecteur
rsiduel r[0],...,r[N-1]. Ltat du filtre nest pas modifie
lorsque lon passe dune fentre la suivante.
Apres dtermination des coefficients du filtre perceptuel par
pondration de la forme | | | | i a i ' a
i
= , on filtre le vecteur
rsiduel ce qui donne le vecteur perceptuel p[0],..., p[N-1].
Pour dterminer la rponse impulsionnelle h[0],..., h[N
h
-1], il
suffit de filtrer la squence 1,0,...,0 par le filtre perceptuel
partant de conditions initiales nulles. On calcule galement
lnergie de cette rponse impulsionnelle.
122 La compression de la musique 5
Actualisation du dictionnaire adaptatif, filtrage des dictionnaires et
calcul de lnergie des vecteurs filtrs
On actualise le dictionnaire adaptatif par lexcitation du filtre
de synthse prcdemment dtermine cest--dire par le
vecteur dexcitation correspondant la dernire sous-fentre
de la fentre prcdente | | ] 1 [ r ,..., ' N r , o
( )

=
k
k j
k
c g r .
Puisque les caractristiques du filtre perceptuel ont t
modifies, il faut actualiser le dictionnaire filtr. On exploite le
caractre Toeplitz du dictionnaire adaptatif et on filtre
brutalement le dictionnaire stochastique.
On calcule galement lnergie
j
de tous les vecteurs des
deux dictionnaires.
Traitement par sous-fentre
Actualisation du dictionnaire dexcitation adaptatif, filtrage et
calcul de lnergie des vecteurs nouvellement filtrs:
# Au dbut de chaque sous-fentre, except la premire,
puisque cette opration a t dj ralise, on actualise le
dictionnaire dexcitation adaptatif puis on filtre les N
vecteurs modifis. Les autres vecteurs sont simplement
dcals.
# On calcule lnergie des N vecteurs filtrs et on dcale
les autres.
Dtermination du signal dexcitation, du modle perceptuel:
# On calcule la contribution ] 1 ' N [ p ],..., 0 [ p
0 0
dans la
sous-fentre courante de lexcitation provenant des sous-
fentres prcdentes en soumettant une entre nulle un
filtre perceptuel particulier,
# On calcule dabord la premire erreur de modlisation
correspondant | | | | n p n p
0
. On recherche ensuite lindice
j(1) du vecteur slectionn dans le dictionnaire adaptif et le
gain
1
g associ en calculant les intercorrlations
j
entre
cette erreur de modlisation et les vecteurs filtrs du
dictionnaire adaptatif puis en
Description algorithmique 123
maximisant le rapport ( )
j
2
j
/ . On actualise ] n [ r et
| | n p dans la sous-fentre courante.
# On recommence exactement le mme traitement pour les
K-2 vecteurs issus du dictionnaire stochastique, savoir, le
calcul de la deuxime erreur de modlisation et des indices
j(2),...,j(K) et des gains
K 1
g ,..., g . Si K est strictement
suprieur 2, on ne calcule pas de nouvelles erreurs de
modlisation mais on actualise les intercorrlations
j
.
Synthse
Dans un codeur rel, lencodage et le dcodage sont totalement spars. Il
faut donc, la synthse, refaire certains traitements, comme par exemple la gestion
du dictionnaire adaptatif.
Pour obtenir le signal synthtique | | | | 1 N s ,..., 0 s , il suffit de filtrer le
rsiduel synthtique | | | | 1 N r ,..., 0 r par le filtre de synthse.
On crit ce vecteur dans un fichier.
5.3.1.1.3 Le codeur GSM
Ce codeur, qui fonctionne 13 kbit/s na aucun traitement perceptuel. La
prdiction court terme est ralise laide dun systme dont le diagramme de
fonctionnement est prsent la figure 1.3.2.3.1. Une analyse LPC dordre 8 est
ralise par lalgorithme de Schur toutes les fentres de N=160 chantillons aprs
avoir effectu une pr-accentuation en utilisant un filtre de fonction de transfert
1
z 86 , 0 1

. Les coefficients Log Area Ratios sont cods en utilisant un nombre
total de 36 bits. Le signal rsiduel (lerreur de prdiction) correspondant une
fentre danalyse est ensuite trait, pour faire une prdiction long terme, en quatre
sous-fentres de 40 chantillons. La prdiction long terme est ralise par la
maximisation de lintercorrlation entre le vrai signal rsiduel et le signal rsiduel
prdit par le systme de prdiction bas sur le filtre de fonction de transfert B(z).
Cette prdiction donne aussi les valeurs de paramtres b et Q. Le dcalage Q est
cod sur 7 bits et le coefficient b sur 2 bits. Le signal obtenu la sortie du systme
de prdiction long terme subit une nouvelle compression laide dun systme de
sous-chantillonnage. Premirement il est filtr avec un filtre anti-repliement de
type RIF phase linaire de 11 coefficients prdtermins. A partir des 40
chantillons du signal de la sortie de ce filtre sont extraits 4
124 La compression de la musique 5
signaux de 13 chantillons correspondant un sous-chantillonnage par un facteur
3. On choisit comme signal de sortie le plus nergtique de ces quatre signaux et ce
choix est cod sur 2 bits. Les 13 chantillons slectionns sont normaliss par
lchantillon de plus grande valeur absolue puis quantifis par un quantificateur
non-uniforme sur 6 bits.
On peut trouver plus sur le codeur GSM en [75]...[81]. La description du
codeur GSM est faite dans les standards: [80], [81].
La thorie des ondelettes peut tre utilise, elle aussi, pour la compression
de la parole. Quelques algorithmes utiliss dans ce but sont prsents dans
[82]...[85]. Dans la suite on prsente quelques rsultats obtenus en utilisant pour la
compression de la parole le schma de la figure 1.2.1.1, les transformes
orthogonales du chapitre 2, le dtecteur de seuil prsent dans le chapitre 3 et le
systme de quantification du chapitre 4.
5.3.2. La compression de la parole en utilisant les paquets de
cosinus
Dans ce paragraphe on prsentera quelques exprimentations durant
lesquelles on a fait la simulation du systme de compression de la parole, propos
dans le chapitre 1, en diffrentes variantes. La complexit du systme simul
augmente d'une exprience l'autre. Pour toutes les expriences on a utilis le
mme signal de parole, une proposition en anglais ; "Houston we have a problem".
Le fichier source est en format "wave". Pour sa ralisation on a utilis une
frquence d'chantillonnage d'environ 44 KHz, chaque chantillon tant cod sur
16 bits. La forme d'onde de ce signal est prsente la figure 1.5.3.2. Ce signal est
segment en blocs de 1024 chantillons (la dure de chaque bloc tant infrieure
25 ms). Ces simulations ont t effectues sous Matlab en utilisant la boite outils
Wavelab, [86]. Pour chaque exprience on a prsent le programme utilis, les
rsultats obtenus et quelques commentaires.
5.3.2. La compression de la parole en utilisant les paquets de cosinus 125
Figure 1.5.3.2. La forme d'onde du signal comprimer.
5.3.2.1. Premire exprience
Celle-ci est l'exprience la plus simple. Le systme de compression de la
parole n'est pas adaptatif. On utilise la TPCD sans aucune itration (cette
transforme est en fait la DCT). On utilise une valeur de seuil pour le bloc DP
gale
m
t . On fait une quantification uniforme sur six bits. On n'utilise pas les
blocs Co et D. L'effet de l'utilisation de ces blocs est seulement estim. Le
programme de simulation est le suivant :
126 La compression de la musique 5
Programme 1.
Instructions Commentaire
[s,fs,wmode,fidx]=readwav('problem.wav','y
',-1,-1);
L'acquisition du signal de parole
X=s(1025:2048); La segmentation du signal de parole
(Premier segment)
I=x.*x; Pi=sum(i); Le calcul de la puissance du signal d'entre
[n,D]=dyadlength(x);
cp=cpanalysis(x,0,'Sine');
L'analyse en paquets de cosinus
Parce qu'on utilise une seule itration la
TPCD est identique la DCT
T=0.1.*sqrt(Pi./1024); L'initialisation du seuil
Eps=t; stree=calcstattree(cp,'N(eps)',eps);
[btree,vtree]=bestbasis(stree,0);
Le choix de la meilleure base
Coef=fpt_cp(btree,x,0,'Sine'); Le calcul de la TPCD
Y=hardthresh(coef,t); Comparaison avec le seuil
Ampl=max(abs(y));
N=nnz(y);
B=round(y./ampl.*64);
La quantification scalaire uniforme des
coefficients
La dtection du coefficient de plus grande
valeur
La quantification
Nc=N.*16; Le calcul du nombre de bits ncessaire
On utilise 6 bits pour la valeur du chaque
chantillon et 10 bits pour le codage de sa
position
Yf=ampl.*b./64; z=ipt_cp(btree,yf,0,'Sine'); Le calcul de la transforme inverse
E=-x+z'; o=e.*e; Po=sum(o);
Rsb=10.*log10((Pi)/(Po));
Le calcul du rapport signal bruit la sortie
Fc=(1024.*16)./(Nc); Le calcul du facteur de compression sur le
segment courant
Figure(1);
Subplot(121); plot(x); title('s de intr');
Subplot(122); plot(z); title('s. rec');
Reprsentations graphiques
Le signal d'entre
Le signal reconstruit
Figure(2); plot(abs(y)); title('spectre');
Figure(3); a=1/512:1/512:1; v=fc.*a./a;
w=rsb.*a./a;
Subplot(121); plot(a,v); title('fc');
subplot(122);
Plot(w); title('RSZ0');
L'analyse spectrale du segment courant
Le facteur de compression et le rapport
signal bruit
Save rez z ascii L'enregistrait du segment reconstruit
5.3.2.1. Premire exprience 127
Apres le traitement du deuxime segment en utilisant le programme prsent plus
haut on a obtenu les rsultats prsents dans les figures suivantes:
Figure 1.5.3.2.1. Signaux d'entre et
reconstruit.
Figure 2.5.3.2.1. Le spectre du signal
reconstruit.
Figure 3.5.3.2.1. 38 , 3 f
c
= , dB 24 rsb =
En faisant la premire exprience pour chaque segment on obtient les
rsultats prsents dans le tableau suivant.
128 La compression de la musique 5
No.
D'ordre
c
f
0
rsz [dB] Observations
1 1,9248 23,531 Bruit prpondrant. (figure 5.1.4)
2 3,38 24 sinus prpondrant
3 2,9854 23,8294 sinus prpondrant
4 1,4692 27,1865 Bruit prpondrant
5 1,3581 25,7967 Bruit prpondrant
6 2,0317 22,1999 sinus prpondrant
7 2,5793 23,3007 sinus prpondrant
8 2,6056 22,7519 sinus prpondrant
9 3,3907 25,3689 sinus prpondrant
10 2,4323 23.9739 sinus prpondrant
11 1,9284 22,9190 sinus prpondrant
12 1,9140 25,1832 Bruit prpondrant
13 2,5600 25,7500 sinus prpondrant
14 2,7234 25,5362 Bruit prpondrant
15 3,9690 26,0653 Sinus prpondrant (figure 5.1.5)
16 1,7124 25,1859 Bruit prpondrant
17 1,2800 24.0950 Bruit prpondrant (figure 5.1.6)
18 3,4020 27,5556 sinus prpondrant
19 2,6528 27,1692 sinus prpondrant
20 2,5793 27,3962 Bruit prpondrant
Tableau 1.5.3.2.1. Les rsultats de la premire exprience.
Les observations lies la qualit du segment trait sont prsentes dans la
dernire colonne du tableau. Si sa forme d'onde est propre et si l'indice de la
dernire composante spectrale significative est infrieur 512 alors le segment est
considr comme un segment sinusodal. Dans le cas contraire le segment est
considr comme un bruit. Un exemple de segment prpondrant sinusodal est le
segment numro 2, prsent dans les figures 1.5.3.2.1. et 2.5.3.2.1. Un exemple de
segment prpondrant bruit est le segment numro 1. Son spectre est prsent la
figure 4.5.3.2.1. On observe que celui-ci contient une composante de bruit blanc.
5.3.2.1. Premire exprience 129
Figure 4.5.3.2.1. Le spectre d'un segment de type bruit prpondrant.
Ce bruit peut tre limin si on utilise une valeur suprieure du seuil, t.
C'est le motif pour lequel on peut affirmer que la procdure de slection adaptative
du seuil est utile pour la compression. En conformit avec le tableau 1.5.3.2.1, le
segment avec le plus grand facteur de compression est le segment numro 15 et le
segment avec le plus petit facteur de compression est le segment numro 17. Sur la
figure 5.5.3.2.1 est prsent la forme d'onde du segment numro 15 et sur la figure
6.5.3.2.1 la forme d'onde du segment numro 17. On constate que le segment avec
le plus grand facteur de compression est un segment prpondrant sinusodal.
Il y a un trs petit nombre de coefficients non nuls avec l'indice suprieur 400. En
consquence on peut affirmer que la mthode de compression marche mieux si le
modle sinusodal de la parole est respect. En analysant la figure 5.5.3.2.1 on
constate que la valeur du seuil, t, peut tre augmente. Conformment la figure
6.5.3.2.1 on constate que dans le cas du segment numro 17 le modle sinusodal
de la parole n'est pas satisfait, motif pour lequel ce segment a t considr de type
bruit prpondrant. En analysant le tableau 1.5.3.2.1 on constate que les valeurs
obtenues pour le facteur de compression sont petites, entre 1,28 (le segment
numro 17), et 3,97 (le segment numro 15). En revanche les valeurs du rapport
signal bruit la sortie de la reconstruction sont grandes, entre 22,75 (le segment
numro 8, prpondrant sinusodal) et 27,55 (le segment numro 18 de type bruit
prpondrant). Ce rsultat est trs intressant parce qu'on a utilis une
130 La compression de la musique 5
quantification en utilisant seulement 6 bits. On constate qu'il y a des rserves pour
la rduction du rapport signal bruit la sortie (par l'augmentation du seuil t)
surtout pour les segments de type bruit prpondrant. Mais le motif principal
pour la petite valeur des facteurs de compression enregistrs est que pour le
calcul de ces coefficients on ait considr que les positions des chantillons du
signal trait sont cods sur 10 bits ( 1024 2
10
= ). Ce problme peut tre rsolu
si on utilise la mthode de compression adaptative (base sur l'utilisation des
bandes critiques) prsente dans le chapitre antrieur.
Figure 5.5.3.2.1. Les formes d'onde de l'entre et de la sortie du systme de compression
(en haut) pour le segment numro 15 et le spectre du signal reconstruit (en bas).
5.3.2.1. Premire exprience 131
Figure 6.5.3.2.1. Les formes d'onde l'entre et la sortie du systme de compression (en
haut) pour le segment numro 17 et le spectre du signal reconstruit (en bas).
132 La compression de la musique 5
5.3.2.2. La deuxime exprience
Le but de cette exprience est de montrer l'importance de l'influence du nombre
d'itrations de la TPCD sur le facteur de compression. Dans le cas de l'exprience
dj prsente, la slection de la meilleure base ne se faisait pas parce que la TPCD
tait calcule sans aucune itration. Dans le cadre de la deuxime exprience le
nombre total d'itrations sera de 10 (l'arbre de la TPCD tant impose par
l'algorithme de choix de la meilleure base, qui minimise le nombre de coefficients
suprieurs au seuil t). Le programme qui se trouve la base de cette exprience est
le suivant.
Programme 2.
[s,fs,wmode,fidx]=readwav('problem.wav','y',-1,-1); x=s(17409:18432);
%le calcul de la puissance du signal d'entre ; i=x.*x; Pi=sum(i);
% l'analyse en paquets de cosinus ;
[n,D]=dyadlength(x); cp=cpanalysis(x,D,'Sine');
%l'initialisation du seuil;
t=0.1.*sqrt(Pi./1024);
%la slection de la meilleure base;
eps=t; stree=calcstattree(cp,'N(eps)',eps); [btree,vtree]=bestbasis(stree,D);
%le calcul de la TPCD;
coef=fpt_cp(btree,x,D,'Sine');
% la comparaison avec le seuil;
y=hardthresh(coef,t);
% la quantification scalaire uniforme des coefficients;
%la detection du coefficient de plus grande valeur;
ampl=max(abs(y)); N=nnz(y); b=round(y./ampl.*64);
% le calcul du nombre de bits utiliss pour la quantification; Nc=N.*16;
% le calcul de la transforme inverse;
yf=ampl.*b./64; z=ipt_cp(btree,yf,D,'Sine');
% le calcul du rapport signal bruit la sortie ;
e=-x+z'; o=e.*e; Po=sum(o); rsb=10.*log10((Pi)/(Po));
% le calcul du facteur de compression pour le segment courant;
fc=(1024.*16)./(Nc);
a=1/512:1/512:1;v=fc.*a./a; w=rsb.*a./a;
% reprsentations graphiques;
figure(1); subplot(121); plot(x); title('s d'entr'); subplot(122);plot(z); title('s. rec');
figure (2); plotbasistree(btree,D,stree,'Sinus'); title('arbre');
5.3.2.2. La deuxime exprience 133
Les instructions du programme 2 qui sont diffrentes par rapport au
programme 1 ont t marqus en caractres gras. Les rsultats de l'application du
programme 2 pour les segments de 1 10, 15 et 17 sont prsents dans le tableau
suivant. Pour les segments o le nombre d'itrations obtenu aprs l'application de
l'algorithme de slection de la meilleure base est gal zro les rsultats des
expriences 1 et 2 sont identiques. Il s'agit des segmentes numro 2,3,7 et 15. Les
facteurs de compression obtenus pour les autres segments sont lgrement plus
grands (ce qui prouve la supriorit de la TPCD par rapport la DCT) et des
rapports signal bruit la sortie lgrement plus faibles. Le plus petit rapport
signal bruit de sortie obtenu est suprieur 23 dB. C'est une valeur trop grande.
En consquence on peut tirer la mme conclusion comme pour la premire
exprience, la valeur de seuil, t, peut tre augmente. Les arbres obtenus aprs
l'application de l'algorithme de recherche de la meilleure base sur les segments
numro 4 et numro 5 sont presents dans les figures 4.2.1. et 4.2.2.
No.
d'ordre
c
f
0
rsz [dB] Observations
1 1.9922 23.3 1 itration
2 3.38 24 0 itrations
3 2.9854 23,8294 0 itrations
4 1.4819 26.3483 10 itrations (fig 5.2.1)
5 1.4124 26.0918 10 itrations (fig 5.2.2)
6 2.1695 26.1181 10 itrations
7 2,5793 23,3007 0 itrations
8 3.5189 23.2196 1 itration
9 3,3907 25,3689 0 itrations
10 2.645 23.4842 1 itration
15 3,9690 26,0653 0 itrations
17 1.4322 26.5688 10 itrations
Tableau 1.5.3.2.2. Quelques rsultats pour la deuxime exprience.
Evidement pour pouvoir calculer la transforme inverse, TPCDI, la connaissance
de ces arbres est ncessaire. C'est le motif pour lequel il faut connatre les
coefficients retenus la sortie du dtecteur de seuil (les valeurs et les positions de
ces coefficients) et les arbres de la meilleure base aussi. D'ici rsulte la ncessit de
codage de l'arbre de la meilleure base. Cette opration rclame un nombre
supplmentaire de bits. Ce nombre n'a pas t considr pour le calcul des facteurs
de compression prsents dans le tableau 1.5.3.2.2. C'est le motif pour lequel les
facteurs de compression rels sont lgrement plus faibles par rapport aux valeurs
prsentes dans le tableau.
134 La compression de la musique 5
Figure 1.5.3.2.2 L'arbre de la meilleure base
pour le segment numro 4.
Figure 2.5.3.2.2 L'arbre de la meilleure base
pour le segment numro 5.
Une possibilit de codage de l'arbre de la meilleure base est dcrite par les
rgles suivantes :
- chaque itration (niveau de partition du support du signal traiter) on
associe un 1 si la partition est faite (il y a un nud dans l'arbre) et un 0 si la
partition n'est pas faite (il n'y a pas un nud dans l'arbre),
- chaque niveau de l'arbre est parcouru de gauche droite.
Un exemple d'application de cette mthode de codage est prsent la
figure suivante :
Figure 3.5.3.2.2. Un exemple de codage d'un arbre de la meilleure base.
On a obtenu le code : 110010000000000. Celui-ci est exprim sur 15 bits
(15=2
4
-1). Donc le nombre de bits ncessaire pour le codage, en utilisant la
1
1
1
0
0
0 0
5.3.2.2. La deuxime exprience 135
mthode dcrite, d'un arbre qui a 10 niveaux de partition, est de 1 2
11
.
C'est une valeur trop grande. Voil pourquoi le nombre d'itrations utilises pour le
calcul de la TPCD doit tre limit. Si on utilise seulement trois itrations, comme
dans l'exemple de la figure 3.5.3.2.2, alors pour le codage de l'arbre de la meilleure
base il faut seulement 16 bits. Ce nombre ne modifie pas la valeur du facteur de
compression. Dans ce cas-ci l'utilisation de la TPCD conduit aux facteurs de
compression suprieurs par rapport l'utilisation de la DCT. On rpte dans la suite
l'exprience numro 2 en limitant le nombre de partitions utilis dans l'algorithme
de recherche de la meilleure base au trois. Ainsi on obtient l'exprience 2.1. Le
programme de cette exprience a deux instructions diffrentes par rapport au
programme numro 2. Celles-ci sont : [btree,vtree]=bestbasis(stree,3) et
fc=(1024.*16)./(Nc+16) .
Les rsultats obtenus pour l'exprience 2.1. sont prsents dans le tableau
2.5.3.2.2.
No.
d'ordre
c
f
0
rsz [dB] Observations
1 1.9922 23.3 1 itration
2 3.38 24 0 itration
3 2.9854 23,8294 0 itration
4 1.4713 26.4203 1 itration
5 1.3763 26.2515 1 itration
6 2.1070 21.5087 1 itration
7 2,5793 23,3007 0 itration
8 3.5189 23.2196 1 itration
9 3,3907 25,3689 0 itration
10 2.645 23.4842 1 itration
15 3,9690 26,0653 0 itration
17 1.2800 24.0950 0 itration
Tableau 2.5.3.2.2. Quelques rsultats de l'exprience 2.1.
Aprs la ralisation de l'exprience 2.1. on a obtenu des rsultats diffrents
par rapport l'exprience 2, sur les segments 4, 5, 6 et 17. Les valeurs obtenues
pour les facteurs de compression correspondants sont lgrement plus petites (mais
suprieures par rapport aux valeurs correspondantes obtenues dans la premire
exprience) et les valeurs des rapports signal bruit la sortie sont lgrement plus
grandes. C'est le motif pour lequel celle-ci sera la modalit d'application de
l'algorithme de recherche de la meilleure base utilise dans la suite. Le bloc de
donnes qui correspond chaque segment aura un entte, de 16 bits, o sera inclus
136 La compression de la musique 5
le code de l'arbre de la meilleure base spcifique pour le bloc courant. Parce que
les valeurs des facteurs de compression obtenus sur chaque segment sont encore
plus petites, dans la suite on prsent une nouvelle exprience, o la quantification
scalaire uniforme, sur 6 bits, considre jusqu'ici, est substitue par une
quantification scalaire non-uniforme (dcrite dans le chapitre antrieur).
5.3.2.3. La troisime exprience
La squence des coefficients TPCD (calcule en utilisant l'algorithme de
slection de la meilleure base qui fait la minimisation de la fonctionnelle de cot
dfinie par le nombre des coefficients suprieurs la valeur de seuil t) est traite
par le dtecteur de seuil. Le signal obtenu la sortie du dtecteur de seuil est
quantifi avec un quantificateur non uniforme. Dans ce but il est segment en 32
bandes et dans chacune des bandes on ralise une normalisation et une
quantification uniforme sur 6 bits. Le programme utilis pour cette exprience est
prsent dans la suite.
Programme 3.
% l'acquisition du signal traiter;
[s,fs,wmode,fidx]=readwav('problem.wav','y',-1,-1);
% la segmentation;
x=s(16385:17408);
%le calcul de la puissance du signal d'entre;
i=x.*x; Pi=sum(i);
% l'analyse en paquets de cosinus;
[n,D]=dyadlength(x); cp=cpanalysis(x,D,'Sine');
%l'initialisation du seuil;
t=0.1.*sqrt(Pi./1024);
%la slection de la meilleure base;
eps=t; stree=calcstattree(cp,'N(eps)',eps); [btree,vtree]=bestbasis(stree,3);
%le calcul de la transforme en paquets de cosinus;
coef=fpt_cp(btree,x,D,'Sine');
% la comparaison avec le seuil;
y=hardthresh(coef,t);
% la partition en 32 bandes; le calcul du nombre de niveaux de quantification
dans chaque bande b(k); le calcul du nombre de bits dans chaque bande
nb(k); la quantification uniforme sur 6 bits en chaque bande; le calcul du
nombre de coefficients non nuls dans chaque bande N(k);
% initialisation;
5.3.2.3. La troisime exprience 137
yk=zeros(32,32); ykc=zeros(32,32); ykf=zeros(32,32); yf=zeros(1,1024);
% la partition en 32 bandes:
for k=1:1:32; yk(k,:)=y(32.*(k-1)+1:32.*k);
% la normalisation en chaque bande;
% la dtection de la plus grande valeur dans chaque bande;
z(k)=max(abs(yk(k,:)));
% la quantification uniforme sur 6 bits de la plus grande valeur de chaque
bande;
b(k)=round(z(k)./(ampl).*64);
% le calcul du nombre de bits ncessaire pour la quantification du signal
contenu dans la bande k;
nb(k)=round(log2(b(k)+1));
% la quantification uniforme sur 6 bits des valeurs normalises de chaque
bande;
ykc(k,:)=round((yk(k,:)./(z(k)+0.01)).*b(k));
% le calcul du nombre de coefficients non nuls de chaque bande;
N(k)=nnz(ykc(k,:));
% la de-normalisation en chaque bande;
ykf(k,:)=(ykc(k,:)./(b(k)+0.01)).*z(k);
% la reconstruction de la squence de 1024 chantillons;
yf=[ykf(1,:) ykf(2,:) ykf(3,:) ykf(4,:) ykf(5,:) ykf(6,:) ykf(7,:) ykf(8,:) ykf(9,:)
ykf(10,:) ykf(11,:) ykf(12,:) ykf(13,:) ykf(14,:) ykf(15,:) ykf(16,:) ykf(17,:)
ykf(18,:) ykf(19,:) ykf(20,:) ykf(21,:)
ykf(22,:) ykf(23,:) ykf(24,:) ykf(25,:) ykf(26,:) ykf(27,:) ykf(28,:) ykf(29,:)
ykf(30,:) ykf(31,:) ykf(32,:)];
% le calcul du nombre de bits utiliss pour la quantification;
Nc=N*nb'; end;
% le calcul du nombre de bits ncessaire pour le codage des plus grandes
valeurs de chaque bande;
B=sum(nb);
% le calcul du nombre de coefficients non nuls;
Nn=sum(N);
% le calcul de la transforme inverse;
z=ipt_cp(btree,yf,D,'Sine');
% le calcul du rapport signal bruit la sortie;
e=-x+z'; o=e.*e; Po=sum(o); rsb=10.*log10((Pi)/(Po));
% le calcul du facteur de compression du segment; le nombre de bits
ncessaire pour le codage des positions est 5Nn parce que c'est le codage de 32
positions (on a besoin de 5 bits suplmentaires pour coder une bande), 16 bits
sont utiliss pour le codage de l'arbre de la meilleure base;
138 La compression de la musique 5
fc=(1024.*16)./(Nc+Nn.*5+B+16);
% reprsentations graphiques;
figure(1); subplot(121); plot(x); title('s d'entr'); subplot(122); plot(z); title('s. rec');
figure (2); plotbasistree(btree,D,stree,'Sine'); title('arbre');
%save rez z -ascii;
Les instructions diffrentes contenues dans le programme 3 par rapport au
programme 2.1. ont t crites en utilisant des caractres gras. Dans le tableau
suivant on prsente les rsultats obtenus.
No.
d' ordre
c
f
0
rsz [dB] Observations
1 3.4183 26.0701 1 itration
2 4.7850 28.8661 0 itration
3 4.4692 27.8201 0 itration
4 2.5564 25.4162 1 itration
5 2.4813 23.1911 1 itration
6 3.2946 26.8812 1 itration
7 4.0716 27.3254 0 itration
8 4.0059 26.9479 0 itration
9 5.1506 27.7076 1 itration
10 3.8406 27.4574 0 itration
15 5.6672 28.3064 0 itration
17 2.9008 21.5571 0 itration
Tableau 1.5.3.2.3. Les rsultats de la troisime exprience.
On constate que tous les facteurs de compression ont augments. Les
valeurs du rapport signal bruit de sortie sont trop grandes encore (on peut
considrer que la compression est transparente si le rapport signal bruit de sortie
est suprieur 20 dB). Les facteurs de compression de chaque segment peuvent
tre augments si on fait un choix adaptatif de la valeur de seuil, t, (tel que le
rapport signal bruit de sortie soit d'environ de 20 dB pour chaque segment) et si
on utilise des mthodes performantes de codage des donnes. Il s'agit de trois
catgories de donnes : les valeurs des coefficients non nuls, les positions des
coefficients non nuls et l'arbre de la meilleure base. Pour chaque catgorie de
donnes on peut raliser des codages (compressions sans pertes) performantes,
capables de faire descendre le nombre des bits ncessaire pour la reprsentation de
la catgorie respective. Par exemple, pour le cas de l'arbre de la meilleure base on
peut utiliser un codage run-lenght tenant compte du fait que cette squence de
5.3.2.3. La troisime exprience 139
donnes contient des longues sous squences de bits de valeur 0. Pour le codage
des valeurs des coefficients non nuls on pourrait utiliser un codage de Huffman ou
un codage arithmtique. La structure du bloc de donnes qui corresponde un
certain segment inspire par la mthode utilise dans la troisime exprience est
prsente la figure suivante.
Figure 1.5.3.2.3. La structure du bloc de donnes qui corresponde un certain segment,
inspire par la troisime exprience
Dans l'entte du segment on a cod l'arbre de la meilleure base, puis la plus
grande valeur des coefficients appartenant au segment considr. C'est le motif
pour lequel cet entte aura 22 bits (16 bits pour l'arbre de la meilleure base et 6 bits
pour la plus grande valeur). Dans les enttes des bandes on a cod les plus grandes
valeurs des coefficients de ces bandes et le nombre des coefficients non nuls de
chaque bande. C'est le motif pour lequel ces enttes ont une longueur de 11 bits.
Dans les blocs intituls "Valeurs de la bande k" on a cod les valeurs des
coefficients non nuls de la bande numro k, 32 , 1 = k . La longueur d'un tel bloc est
un multiple de 6. Dans les blocs intituls "Positions de la bande k" on a cod les
positions des coefficients non nuls de la bande k. Chacune de ces positions a une
longueur de 5 bits. C'est le motif pour lequel la longueur d'un tel bloc doit tre un
multiple de 5. Il faut remarquer qu'il y a plusieurs bandes qui contiennent des
coefficients nuls. Le bloc qui correspond une telle bande contient seulement 14
bits, tous de valeur 0. Du fait de la prsence de 14 zros dans le groupe, on sait
qu'il s'agit d'une bande contenant seulement des coefficients nuls. Voil pourquoi le
groupe de bits suivant est considr comme un nouveau entte de bande (si l'entte
courant n'tait pas celui avec le numro 32) ou comme un nouveau entte de
segment. Dans la suite on prsente la dernire exprience de ce chapitre, qui se
rfre au choix adaptatif du seuil, t.
5.3.2.4. La quatrime exprience
On utilise l'algorithme adaptatif de choix du seuil, prsent dans le chapitre
antrieur. Le programme spcifique pour cette exprience est le suivant.
. . .
Entte segment
Entte
bande 1
Valeurs
bande 1
Positions
bande 1
Entte
bande
32
Valeurs
Bande
32
Positions
bande
32
140 La compression de la musique 5
Programme 4.
[s,fs,wmode,fidx]=readwav('problem.wav','y',-1,-1); x=s(1:1024);
%le calcul de la puissance du signal d'entre; i=x.*x; Pi=sum(i);
% l'analyse en paquets de cosinus ; [n,D]=dyadlength(x);
cp=cpanalysis(x,D,'Sine');
%l'initialisation du seuil ; t=0.1.*sqrt(Pi./1024);
%le choix de la meilleure base; eps=t; stree=calcstattree(cp,'N(eps)',eps);
[btree,vtree]=bestbasis(stree,3);
%le calcul de la TPCD; coef=fpt_cp(btree,x,D,'Sine');
% la detection de seuil; y=hardthresh(coef,t);
% le calcul du rapport signal a bruit; e=-coef+y; o=e.*e; Po=sum(o);
% la slection de la valeur optimale de seuil; rsz=10.*log10((Pi)./(Po)); while
(rsz>=20), t=t+t./10; eps=t;
stree=calcstattree(cp,'N(eps)',eps);[btree,vtree]=bestbasis(stree,3);coef=fpt_cp
(btree,x,D,'Sine');
y=hardthresh(coef,t); e=-coef+y; o=e.*e; Po=sum(o);
rsz=10.*log10((Pi)./(Po)); end;
ampl=max(y);
% la partition en 32 bandes; le calcul du nombre de niveaux de quantification en
chaque bande b(k); le calcul du nombre de bits ncessaire pour la reprsentation du
signal dans chaque bande nb(k); la quantification en chaque bande;
% la partition en 32 bandes: for k=1:1:32; yk(k,:)=y(32.*(k-1)+1:32.*k);
% la normalisation en chaque bande; la dtection de la plus grande valeur dans
chaque bande; z(k)=max(abs(yk(k,:)));
%la quantification uniforme sur 6 bits de la plus grande valeur en chaque bande;
b(k)=round(z(k)./(ampl).*64);
% le calcul du nombre de bits ncessaire pour la quantification de la bande k;
nb(k)=round(log2(b(k)+1));
% la quantification uniforme sur 6 bits dans chaque bande;
ykc(k,:)=round((yk(k,:)./(z(k)+0.01)).*b(k));
% le calcul du nombre des coefficients non nuls de chaque bande;
N(k)=nnz(ykc(k,:));
% la de-normalisation dans chaque bande;
ykf(k,:)=(ykc(k,:)./(b(k)+0.01)).*z(k);
% la reconstruction de la squence de 1024 chantillons;
yf=[ykf(1,:) ykf(2,:) ykf(3,:) ykf(4,:) ykf(5,:) ykf(6,:) ykf(7,:) ykf(8,:) ykf(9,:)
ykf(10,:) ykf(11,:) ykf(12,:) ykf(13,:) ykf(14,:) ykf(15,:) ykf(16,:) ykf(17,:)
ykf(18,:) ykf(19,:) ykf(20,:) ykf(21,:) ykf(22,:) ykf(23,:) ykf(24,:) ykf(25,:)
ykf(26,:) ykf(27,:) ykf(28,:) ykf(29,:) ykf(30,:) ykf(31,:) ykf(32,:)];
5.3.2.4. La quatrime exprience 141
% le calcul du nombre de bits utiliss pour la quantification; Nc=N*nb'; end;
% le calcul du nombre de bits ncessaire pour le codage des plus grandes valeurs
de chaque bande; B=sum(nb);
% le calcul du nombre de coefficients non nuls; Nn=sum(N);
% le calcul de la transforme inverse; z=ipt_cp(btree,yf,D,'Sine');
% le calcul du rapport signal bruit du segment;
e=-x+z'; o=e.*e; Po=sum(o); rsb=10.*log10((Pi)./(Po));
% le calcul du facteur de compression sur segment; le nombre de bits ncessaires
pour le codage des positions est 5Nn parce que c'est le codage de 32 positions (c'est
le nombre total dans une bande) on a besoin de 5 bits, 16 bits sont utiliss pour le
codage de la meilleure base; fc=(1024.*16)./(Nc+Nn.*5+B+16);
% reprsentations graphiques; figure(1); subplot(121); plot(x); title('s d'entr');
subplot(122); plot(z); title('s. rec'); figure (2); plotbasistree(btree,D,stree,'Sine');
title('arbre');
%l'enregistrement du segment reconstruit; Celui-ci est enregistr en format ascii
dans le rpertoire d\Matlab5\toolbox\Wavelab.
%save rez1 z -ascii;
Les rsultats obtenus en utilisant ce programme sont prsents dans le
tableau suivant. Les 25 segments obtenus aprs la reconstruction (ralise sur
chaque segment) ont t runis en obtenant le signal reconstruit aprs la
compression. Sa forme d'onde est prsente la figure suivante et peut tre
compare avec la forme d'onde du signal initial, prsente la figure 5.1. Les deux
signaux, initial et reconstruit peuvent tre couts aussi. Dans ce but deux fichiers
de type wav ont t crs. Aprs l'audition du signal reconstruit, on peut remarquer
que la mthode de compression propose est transparente. En analysant le tableau
5.4.1. on constate que les valeurs obtenues pour les facteurs de compression et pour
les rapports signal bruit de sortie pour chaque segment sont acceptables. Le plus
petit facteur de compression, 4,05, a t obtenu sur le segment no. 17 et le plus
grand facteur de compression, 18,3, sur le segment no. 15.
142 La compression de la musique 5
No.
d' ordre
c
f
0
rsz [dB] Observations
1 7.3968 19.4129 Bruit prpondrant. (3 itrations)
2 15.9844 18.9756 Sinus prpondrant. (0 itration)
3 12.6615 18.9907 Sinus prpondrant. (3 itrations)
4 4.4317 19.1134 Bruit prpondrant. (2 itrations)
5 4.1145 18.8286 Bruit prpondrant. (0 itration)
6 7.8694 19.5280 Sinus prpondrant. (2 itrations)
7 13.3856 19.4330 Sinus prpondrant. (0 itration)
8 12.7900 19.3277 Sinus prpondrant. (0 itration)
9 16.4333 19.6479 Sinus prpondrant. (2 itrations)
10 11.3384 19.3460 Sinus prpondrant. (2 itrations)
11 8.1189 19.5016 Sinus prpondrant. (2 itrations)
12 6.1826 19.2819 Bruit prpondrant. (3 itrations)
13 7.8168 19.5904 Sinus prpondrant. (2 itrations)
14 12.6811 19.7608 Bruit prpondrant. (0 itration)
15 18.3061 19.7918 Sinus prpondrant. (0 itrations)
16 7.4847 18.5319 Bruit prpondrant. (1 itration)
17 4.0534 16.3397 Bruit prpondrant. (0 itration)
18 18.0441 19.3680 Sinus prpondrant. (3 itrations)
19 12.1094 19.8325 Sinus prpondrant. (0 itration)
20 8.3464 19.1047 Bruit prpondrant. (0 itration)
21 9.3303 19.7703 2 itrations
22 14.1853 19.0936 1 itration
23 14.2099 18.1952 1 itration
24 14.8271 19.2795 1 itration
25 8.5289 17.4512 1 itration
Tableau 1.5.3.2.4. Les rsultats de l'exprience numro 4.
En analysant le dernier tableau on constate que des valeurs plus petites du facteur
de compression, entre 4 et 8, ont t obtenues sur les segments classifis comme
bruit prpondrant. La rpartition des rapports signal bruit de sortie est
homogne. La plus petite valeur, 16,33 dB, a t obtenue pour le segment numro
17 et la plus grande valeur, 19,83, a t enregistre sur le segment numro 19.
Toutes ces valeurs sont suffisamment grandes pour certifier une reconstruction de
qualit. La valeur moyenne du facteur de compression obtenue est de 10,82. C'est
une valeur suffisamment leve tenant compte du fait qu'on n'a pas utilis des
mthodes de compression sans pertes pour le codage de l'arbre de la meilleure base
5.3.2.4. La quatrime exprience 143
respectivement pour les valeurs et les positions des coefficients non nuls. On
suppose qu'en utilisant de telles techniques de codage aussi, la valeur du facteur de
compression moyen sera augmente de 1,5 fois.
Figure 1.5.3.2.4. La forme d'onde du signal reconstruit.
Dans la suite on prsente quelques conclusions. Il s'agit d'un schma de
compression pertes d'information contrles. Une telle mthode de compression
est approprie pour le signal de parole parce que celui-ci est trs redondant. Le
schma propos est spcifique pour un systme de compression bas sur
l'utilisation d'une transforme orthogonale. Une telle transforme est utile parce
qu'elle ralise la dcorrlation du signal traiter, donnant la possibilit d'liminer
des chantillons dans le domaine de la transforme, sans affecter dans une manire
significative le contenu informationnel du signal trait. Il y a d'autres
transformations, non orthogonales, qui peuvent raliser la dcorrlation mais ceux-
ci sont plus redondants, motif pour lequel ce genre de transformations a t vit
dans ce livre. Il y a plusieurs transformes orthogonales qui peuvent tre utilises
pour la compression du signal de parole. Celle qui ralise la plus forte dcorrlation
est la transforme de Karhunen-Love. Malheureusement il n'y a pas d'algorithmes
rapides pour le calcul de cette transforme. Dans ce livre on propose l'utilisation
des transformes orthogonales bases sur la thorie des ondelettes. Ce sont des
dcompositions, du signal traiter, en bases orthonormales dont les lments sont
obtenus par la translation et le changement d'chelle d'une fonction unique,
nomme ondelette mre. L'avantage majeur de telles fonctions est qu'elles ont
simultanment une bonne localisation temporelle et frquentielle. C'est le
144 Compression de la musique-5
motif pour lequel une telle dcomposition, nomme srie d'ondelettes, a un
nombre rduit de coefficients de valeurs significatives. La compression est ralise
par la transmission ou l'enregistrement de ces coefficients la place des
chantillons du signal traiter. Les connaissances ncessaires de la thorie des
ondelettes ont t prsentes au chapitre 2, en utilisant la perspective de la theorie
du codage en sous-bandes. Trois types de transformes orthogonales, bases sur la
thorie des ondelettes ont t analyses, la transforme en ondelettes discrte,
TOD, la transforme en paquets d'ondelettes discrte, TPOD et la transforme en
paquets de cosinus discrte, TPCD. L'effet de dcorrlation de ces transformes a
t mis en vidence, en dmontrant que toutes les trois transformes convergent
asymptotiquement vers la transforme de Karhunen-Love. Du point de vue de la
vitesse de convergence le meilleur comportement est celui de la TPCD.
L'une des difficults pour l'utilisation de la TOD ou de la TPOD est la
ncessit de slectionner l'ondelette mre utiliser. Un critre de slection, utile
dans les applications de compression est prsent en [43].
L'utilisation de la TPCD a aussi l'avantage de pouvoir slectionner la
meilleure base, en utilisant un critre utile pur la compression, la minimisation du
nombre des coefficients de la transforme suprieur un certain seuil. En utilisant
le modle sinusodal de la parole, dans le chapitre 2, il est suggr que la plus
approprie transforme orthogonale pour la compression de la parole, parmi les
transformes dj analyses, est la TPCD.
Au chapitre 3 il a t prsent le dtecteur de seuil du schma de la figure
1.1.2.1. Il faut remarquer le caractre adaptatif du systme de compression. On
propose un algorithme simple et assez rapide pour la simulation de ce bloc. On
prsente une modalit d'initialisation du seuil, utile pour l'augmentation de la
vitesse de l'algorithme de simulation du systme de compression propos.
L'algorithme adaptatif propos est bas sur la minimisation de l'erreur quadratique
moyenne d'approximation du signal traiter par le signal reconstruit aprs la
compression.
Tenant compte du caractre orthogonal des transformes utilises, on n'a pas besoin
de la reconstruction du signal aprs sa compression pour le calcul de l'erreur
d'approximation. L'erreur quadratique moyenne d'approximation peut tre calcule
dans le domaine de la transforme, en utilisant le signal de sortie du bloc de calcul
de la transforme orthogonale et le signal de sortie du bloc de quantification. Le
critre de l'erreur quadratique moyenne n'est pas appropri pour l'apprciation
d'une mthode de traitement de la parole, mais sa simplicit le rend trs utile. Peut
tre que la conception de la solution de ce problme par la minimisation d'un autre
critre, base sur le calcul d'une distance, construite en utilisant le modle psycho-
acoustique de la parole, comme celui propos en [87] serait intressante. Le
chapitre 4 prsente le systme de quantification contenu
5.3.2.4. La quatrime exprience 145
dans le schma prsent la figure 1.1.2.1. Celui-ci est un systme adaptatif, qui
fonctionne sur la base d'une variante simplifie du modle psycho-acoustique de la
parole. Sa construction exploite aussi l'utilisation de la TPCD dans le schma de
compression choisie. L'utilisation de ce systme a une contribution importante pour
l'augmentation du facteur de compression du systme propos. Le systme de
quantification est trs simple, pour chaque bande critique du signal de parole on
effectue une quantification uniforme sur 6 bits. Le pas de quantification est
diffrent d'une bande critique une autre bande critique, parce qu'en chaque bande
on ralise la normalisation par la plus grande valeur. C'est le motif pour lequel on
peut considr, que sur l'ensemble, une quantification non uniforme est ralise.
Celle-ci est adaptative aussi parce qu'on tient compte de la forme du signal traiter
en considrant les plus grandes valeurs de chaque bande critique. Le systme de
quantification peut tre regard comme un systme de compression de la
dynamique du signal traiter (comme par exemple les systmes Dolby ou DNL) en
ralisant la mme excursion pour chaque signal de chaque bande critique. Une
solution ressemblante est prsente en [88].
Le chapitre 5 est ddi la simulation du systme de compression prsent
dans les chapitres antrieurs. On prsente plusieurs expriences de simulation, de
plus en plus compliques. Dans la premire exprience, la plus simple, les blocs de
la structure du systme de compression ne sont pas adaptatifs. Apres la ralisation
de cette exprience on constate l'existence de deux types de segments de parole :
bruit prpondrant et sinus prpondrant. Pour le premier type le model sinusodal
de la parole n'est pas respect. On remarque que pour les segments de type bruit
prpondrant on obtient des facteurs de compression plus petits. La deuxime
exprience utilise un premier bloc adaptatif. Il s'agit du bloc de calcul de la
transforme orthogonale. Dans la premire exprience on a utilis, en fait, la
transforme en cosinus discrte, DCT (si aucune itration n'est effectue pour le
calcul de la TPCD alors on calcule la DCT). Dans la deuxime exprience on
calcule la TPCD, en utilisant l'algorithme de recherche de la meilleure base, qui
minimise la fonctionnelle de cot donne par le nombre des coefficients suprieurs
un seuil donn. La valeur de ce seuil est celle qui corresponde la formule
d'initialisation propose au chapitre 3. Il s'agit donc d'une transforme orthogonale
adaptative. La supriorit de la TPCD par rapport la DCT est montre par
l'augmentation des valeurs des facteurs de compression obtenus pour la deuxime
exprience. En utilisant la deuxime exprience on a aussi montr la ncessit de
limiter les nombres d'itrations de la TPCD. La troisime exprience est destine
l'tude d'un nouveau bloc adaptatif, celui de quantification. Les rsultats de cette
exprience montrent que les valeurs des facteurs de compression obtenues sur
chaque segment augmentent beaucoup. En fin la quatrime exprience a comme
but la mise en vidence des avantages obtenus en utilisant un dtecteur de seuil
146 Compression de la musique-5
adaptatif. On constate que l'utilisation d'un tel bloc augmente beaucoup les valeurs
des facteurs de compression sur chaque segment. Pour la ralisation de chaque
exprience un programme en Matlab a t crit. Ces programmes ont t construits
sur une plate-forme commune, pour chaque nouvelle exprience quelques
nouvelles instructions sont ajoutes au programme antrieur. Ainsi le programme
obtenu pour la dernire exprience reprsente le programme final, celui qui ralise
la simulation de l'entier systme adaptatif de compression. C'est le motif pour
lequel les conclusions de la quatrime exprience sont valables pour la mthode de
compression propose. Ceux-ci sont :
- En utilisant la mthode de compression dcrite on obtient un facteur de
compression moyen de 10,82, pour le signal traiter considr,
suprieur au facteur de compression ralis par le codeur GSM qui est
gal 8.
- Le facteur de compression de la mthode propose est encore plus
grand si pour le codage des donnes obtenues, contenues dans l'arbre
de la meilleure base et dans les valeurs et les positions des coefficients
non nuls obtenus, on utilise des mthodes de codage performantes,
comme par exemple le codage run-enght ou le codage arithmtique.
Pour tous les calculs de facteur de compression effectus dans ce
rapport le codage du canal de tlcommunications n'a pas t
considr. C'est une opration redondante qui diminue la valeur du
facteur de compression global. On a procd ainsi pour deux raisons :
- dans le cas des standards de compression de la parole dj publis,
comme par exemple le GSM ou le MPEG, on ne prend pas en
compte le codage du canal pour le calcul du facteur de
compression;
- il y a des applications de la mthode de compression de la parole
propose ici, o le codage du canal n'est pas ncessaire, par
exemple l'enregistrement d'une transmission tlphonique ou la
telephonie sur INTERNET (dans ce cas-ci on peut considrer un
canal sans bruit).
En utilisant l'analyse statistique prsente on constate que la mthode de
compression propose dans ce rapport est robuste.
La mthode propose assure une bonne qualit de la reconstruction (sur
chaque segment on obtient un rapport signal bruit suprieur 16 dB et la valeur
moyenne du rapport signal bruit pour l'entier signal est superieure 19 dB), motif
pour lequel on peut dire que la mthode de compression est transparente. Il faut
mentionner que la mthode de compression utilise dans le standard GSM,
5.3.2.4. La quatrime exprience 147
voqu plus haut, ne fait aucune estimation de la qualit de la reconstruction. En
coutant le signal reconstruit on constate que le bruit qui perturbe la composante
utile du signal traiter a t pratiquement entirement limin.
Le fait que les valeurs des coefficients non nuls aient t quantifis
seulement sur 6 bits est remarquable;
- La mthode de compression propose est assez rapide, tenant compte
du fait que le nombre de multiplications ncessaire n'est pas exagr.
Par exemple le calcul de la TPCD d'une squence ncessite le mme
nombre de multiplications que le calcul de la transforme de Fourier
rapide, FFT, de la mme squence.
- C'est le motif pour lequel on pourrait implanter cette mthode de
compression de la parole sur un processeur de signal;
- Le programme numro 4 devrait tre modifi, tel que sur chaque
segment sera rsolu le problme aux bords, qui donnent le caractre
saccad du signal reconstruit;
- Une possibilit d'augmentation du facteur de compression serait la
combinaison de la mthode de compression base sur la thorie des
ondelettes avec la mthode de compression base sur la prdiction
linaire, qui se trouve dans le standard GSM. Les segments de type
sinus prpondrant pourraient tre traits avec la mthode base sur la
thorie des ondelettes et les segments de type bruit prpondrant
pourraient tre traits avec la mthode base sur la prdiction linaire.
- Pour la mthode de compression de la parole prsente il y a plusieurs
applications. Elle pourrait tre utilise pour la telephonie fixe ou
mobile.
- Des nouveaux types de robots tlphoniques pourraient tre construits
en utilisant cette nouvelle mthode de compression.
148 Compression de la musique-5
- La mthode de compression de la parole propose dans ce rapport
pourrait tre utilise aussi pour la telephonie sur INTERNET ou pour
la construction des modems haut dbit, [89].
Chapitre 6. La compression dimages
Cest la plus complexe technique de compression. Il y a une grande varit
de formats dimages et on a un trs grand nombre dapplications qui demandent le
stockage ou la transmission des images. Ceux-ci reprsentent aussi des signaux
redondants. Une technique trs importante dans le cadre du traitement des images
est leur modlisation. Malheureusement les models de production et de perception
des images sont trs compliqus. En fait ces models sont plus compliqus que les
models utiliss pour les signaux de parole. Cest le motif pour lequel les models
de production sutilisent seulement pour indiquer les techniques de traitement
dimages le plus appropries et non pour le codage des images. En ce qui concerne
les models de perception, comme par exemple celui prsent dans [63], ce sont
dj utiliss pour la quantification des images. Lun de plus utile modle de
limage est celui de Marr et Hildreth [90], qui permet lutilisation des quations
drives partielles en traitement dimages. Il y a des techniques de compression
dimages sans pertes, on utilise les mthodes de codage dj prsentes. On utilise
ce genre de compression par exemple pour les images satelitaires, [91].
Le plus souvent on utilise les techniques de compression pertes.
Gnralement on utilise les techniques bases sur les transformes orthogonales
(comme celle prsente au paragraphe 3.2.1). La transforme utilise le plus
souvent est la transforme en cosinus discrte (DCT).
6.1. La compression dimages fixes
Il y a un standard pour la compression dimages fixes, appel JPEG (Joint
Photographic Experts Group). Ce standard est appel aussi IS 10918-1 (ITU-T
T.81). On prsente dans la suite le compresseur JPEG pour les images binaires. La
compression des images en couleurs se fait pareille. Le compresseur JPEG est
prsent dans la figure suivante. Aprs la dcomposition de limage traiter en
blocs (de 8 8 pixels) on calcule la DCT de chaque bloc. Les coefficients obtenus
sont quantifis en utilisant une certaine matrice de quantification. Cette opration
est responsable pour la perte dinformation mais aussi pour la valeur leve du
facteur de compression quon obtient en utilisant cette mthode de compression.
Aprs la quantification on ralise un codage sans pertes. A la fin, un fichier
contenant les donnes obtenues aprs la compression est form. Celui-ci a la
terminaison .jpg. Pour la reconstruction de limage traite on applique la
transforme en cosinus discrte inverse.
Figure 1.6.1. Le systme de compression JPEG.
Partage
en
blocs
D.C.T
Quantifi
cation
Codage
binaire
Image
dentre
Fichier
.jpg
150 La compression dimages - 6
La transforme DCT ralise un codage en sous-bandes des blocs. Elle est
dcrite par la formule:
( ) ( ) ( ) ( )


=
1 N
0 i
1 N
0 j
2
2
1
1
2 1
1 2
1 j 2
N 2
k
cos 1 i 2
N 2
k
cos j , i A 4 k , k B
(6.1)
Limage dentre est une matrice de dimensions
2 1
N N ; A(i,j) reprsente
lintensit du pixel qui se trouve dans la ligne i et dans la colonne j. B(k1,k2) est le
coefficient de la DCT qui se trouve dans la ligne k1 et dans la colonne k2. La
matrice dentre ( ) ( )
8 , 1 j 8 , 1 i
j , i A
= =
contient le niveau de gris pour chacun pixel de
limage lentre, dcrit sur 8 bits. La matrice de sortie contient des entiers
compris dans lintervalle: [-1024, 1023].
Pour la grande majorit dimages, la plus grande partie de lnergie se
trouve aux frquences basses, qui correspondent au coin de gauche-haut de la DCT.
Les valeurs qui se trouvent dans le coin droite-bas sont en gnral petites et
peuvent tre ngliges sans distorsions visibles.
Il y a un compromis entre la qualit de limage reconstruite aprs la
compression et le dgre de sa quantification. Un pas de quantification trop lev
peut produire une distorsion de limage trop importante. Malheureusement une
quantification trop fine conduit un facteur de compression trop petit. Le problme
est la quantification optimale des coefficients DCT. Tenant compte de la structure
de lil les hautes frquences sont moins importantes. Cest le motif pour le quel
on peut utiliser un pas de quantification plus lev pour les coefficients de haute
frquence. Apres la quantification gnralement plus dune moiti des coefficients
DCT sont gal a zro. On exploite cet avantage en faisant un codage run-lenght
aprs la quantification. Pour chaque coefficient DCT non nulle, le systme de
compression JPEG fait une enregistration du nombre des zros qui prcde ce
6.1. - La compression dimages fixes 151
coefficient, du nombre de bits ncessaire pour la reprsentation de la valeur du
coefficient et de la valeur du coefficient. Les coefficients DCT sont balays en
zigzag comme le montre la figure suivante:
Figure 2.6.1. Le balayage des coefficients DCT.
Le nombre des zros antrieurs et le nombre de bits ncessaire pour la
quantification dun coefficient forment une paire. Chaque pair a son mot de code
correspondent, obtenu en appliquant un codage longueur variable (comme par
exemple le codage de Huffman ou le codage arithmtique). Le systme de
compression JPEG met la sortie le mot de code de la paire et aprs le mot de code
pour la valeur du coefficient (obtenu aussi en utilisant un codage longueur
variable). Aprs chaque bloc le systme de compression JPEG met la sortie une
squence unique qui indique la fin du bloc et aprs passe au bloc suivant. Quand
tous les blocs sont finis le systme de compression JPEG met la sortie le
marquage pour la fin du fichier.
La matrice de quantification est une matrice de dimensions 8 8 pixels.
Chacun de ses lments correspond un coefficient DCT. Elle contient les pas de
quantification utiliss pour la quantification des coefficients DCT. Gnralement
cest une matrice symtrique. Les pas de quantification sont petits pour les
coefficients qui se trouvent dans le coin gauche-haut de la matrice des coefficients
(qui correspondent aux frquences basses) et grands pour les coefficients qui se
trouvent dans le coin bas-droite.
Comme rsultat beaucoup des coefficients de haute frquence sont mis
zro, faisant le codage plus facile et le facteur de compression plus grand.
Donc la matrice de quantification est responsable pour le caractre perceptif du
systme de compression JPEG. La compression JPEG des images en couleurs est
(0,0) (0,1)
(1,0) (1,1)
La
matrice
DCT
La sequence continue
pour lentier bloc de
8 8 pixels.
152 La compression dimages - 6
prsente en [92]. Il y a aussi une modalit de transmission progressive de limage
JPEG qui se base sur une certaine organisation des coefficients DCT. Cest le
systme de compression JPEG progressif. Celui-ci peut tre configur dune
manire hirarchique. On obtient le systme de compression JPEG hirarchique,
[92].
Comme nous avons dj montr la transforme en ondelettes est suprieure
la DCT pour des applications de compression.
En fait la transforme en ondelettes a un trs grand avantage, elle peut
sparer en quelques-unes sous-images les dtails de limage qui sera traite. Ainsi
on peut traiter dune manire diffrente ces dtails en contrlant la distorsion
introduite par la compression. En effet on peut garder seulement les dtails qui ont
une certaine importance pour limage traiter. On dit quon peut choisir la
rsolution de reprsentation de limage originale par limage reconstruite aprs la
compression base sur la transforme en ondelettes discrte. En fait la transforme
en ondelettes discrte est base sur une analyse multirsolution. Dans son
tutorial, [93], Albert Cohen prsente les stratgies de codage des coefficients
obtenus par lapplication de la transforme en ondelettes. La meilleure mthode de
quantification pour ces coefficients est la quantification vectorielle. Une autre
approche suppose, lutilisation dun dtecteur de seuil avant la quantification. Tous
les coefficients de la transforme orthogonale sont compars avec un seuil et les
coefficients dont la valeur est infrieure ce seuil sont mis zro. Seulement les
coefficients non nuls sont cods. Il faut coder aussi leur position. On obtient des
rsultats suprieurs pour une telle compression si on utilise la transforme en
ondelettes en comparaison avec lutilisation de la DCT. Cette conclusion est
prouve, par quelques exemples, dans la boite outils WaveLab du logiciel
Matlab, [94], [95], [96]. Parmi les premiers travaux ddis la compression
dimages base sur la transforme en ondelettes il faut mentionner [21] et [97]. Ce
dernier travail pose le problme du choix de la meilleure ondelette mre qui peut
tre utilise pour la compression dune certaine image. En effet la transforme en
ondelettes est plus versatile que la DCT. Pour chaque ondelette mre il y a une
transforme en ondelettes diffrente (la transforme est paramtre par londelette
mre). Il est donc lgitime de choisir la meilleure ondelette mre pour la
compression dune certaine image. En fait il y a quelques paramtres pour la
transforme en ondelettes:
londelette mre,
le nombre ditrations utilises pour le calcul de la transforme en
ondelettes,
la solution du problme aux bords choisie.
6.1. - La compression dimages fixes 153
On peut optimiser la compression par rapport chacun un de ces
paramtres.
Il faut ajouter que la transforme en ondelettes est un choix trs favorable
en ce qui concerne le volume de calcul et la vitesse de calcul. Lalgorithme pour le
calcul de la transforme en ondelettes est plus rapide que lalgorithme de la DCT
ou de la transforme de Fourier discrte (lalgorithme FFT).
Les ondelettes sont utilises pour la compression dimages satelitaires
aussi, [98], [99], [100]. On a t labore une mthode de compression progressive
base sur les ondelettes, favorable pour les images de type METEOSAT, [101].
Des travaux plus rcents ont montrs la supriorit des ondelettes
biorthogonales, [102].
Une autre source daugmentation des performances des mthodes de
compression bases sur la thorie des ondelettes est la possibilit dexploitation des
corrlations qui existe entre les sous images de diffrentes rsolutions dune
analyse multirsolution. On peut faire a surtout quand les valeurs des coefficients
et leurs positions sont codes sparment. Laugmentation du facteur de
compression peut tre ralise par le codage plus efficient des positions. On peut
faire la prdiction des positions des coefficients non nuls une certaine rsolution
en utilisant les positions des coefficients non nuls une autre rsolution, [103]. La
localisation des coefficients de dtail non nuls (suprieurs un certain seuil) peut
tre reprsente par une image binaire, appele signifiant map. Une telle image
peut tre construite pour chaque image de dtail dune certaine rsolution obtenue
dans une certaine itration dune transforme en ondelettes. On peut faire la
prdiction dune telle image laide dautres images de mme type (obtenues dans
les itrations antrieures). Cette prdiction peut tre faite laide de la morphologie
mathmatique, technique trs bien prsente en [104]. Le processus de prdiction
propos en [103] sappelle MRWD (Morphological Representation of Wavelet
Data). Le problme du codage des coefficients dune transforme orthogonale fait
lobjet de la thse de doctorat, [105], aussi. En fait la grande majorit des mthodes
de compression prsentes dj font le codage de la source. Donc elles doivent tre
suivies par des techniques de codage de la voie de transmission. Cette opration
fait baisser le facteur de compression global. Voil pourquoi en [105] sont traites
des mthodes de compression mixte qui font en mme temps le codage de la source
et le codage de la voie de transmission.
Les paquets dondelettes ont t introduits par Wickerhauser, [11].
Ceux-ci reprsentent aussi des outils trs appropris pour la compression des
images. Leur grand avantage provient du fait quils permettent lapplication dune
procdure de slection de la meilleure ondelette mre chaque itration de la
transforme en paquets dondelettes. Ce choix est bas sur un critre
doptimisation, par exemple la minimisation de lentropie, [11]. La slection de la
meilleure ondelette mre (la meilleure base) est une opration qui demande un
certain volume de calcul. La vitesse de calcul dune transforme en paquets
dondelettes est comparable la vitesse de calcul de lalgorithme de la transforme
154 La compression dimages - 6
de Fourier rapide (FFT). Un critre diffrent est prsent en [106] et [107]. Il
sagit dune nouvelle mthode de slection de la meilleure base qui a une
complexit de calcul rduite. Cette mthode sappelle CCBB (complexity
constrained best basis algorithm). Cet algorithme fait la construction itrative dune
collection de bases de paquets dondelettes en faisant lextension dune collection
de bases donne en accord avec la distribution nergtique de la reprsentation en
paquets dondelettes de limage traiter. Cette construction itrative prend fin
quand une mesure de complexit du calcul subit une condition spcifie.
La mthode de codage des coefficients prsente en [103] a t gnralise
pour le cas des paquets dondelettes en [108].
Ces avantages de lutilisation de la thorie des ondelettes pour la
compression des images fixes ont conduit la conception dun nouveau standard
appel JPEG-2000.
6.1.1. Le standard JPEG-2000
Linitiative JPEG-2000 est dmarre pour la ralisation dun nouveau
systme de codage en utilisant les meilleures techniques de compression bases sur
la thorie des ondelettes. Son architecture est choisie pour pouvoir utiliser ce
systme dans un grand nombre dapplications: en partant de la construction des
cameras vido portables jusquaux appareils utiliss en medecine. On a 6 parties
pour ce standard. La premire partie (le noyau du standard) doit tre approuve par
ISO comme standard international la fin de cette anne. Les parties sont:
Premire partie: Le systme de codage dimages JPEG-2000;
Deuxime partie: Extensions;
Troisime partie: Mouvement JPEG-2000;
Quatrime partie: Conformit;
Cinquime partie: Logiciel de rfrence (programmes en Java et en C)
Sixime partie: le format du fichier dimage.
Apres la runion du groupe JPEG organise Mau en dcembre 1999 on nous a
t propose la premire version du standard JPEG-2000. Cette version conduira au
standard international ISO, IS 15444, Premire partie. Celui-ci sera aussi une
recommandation de ITU-T, T.8000. Les textes des documents de JPEG sont et
seront disponibles ladresse: http://www.jpeg.org/
Ce standard introduit quelques nouvelles facilits:
la qualit de limage transmise peut varier entre la qualit spcifique une
compression pertes et la qualit spcifique pour une compression sans pertes;
6.1.1. - Le standard JPEG-2000 155
la possibilit de dfinir des rgions importantes dans une image et de coder ces
rgions haute rsolution ou sans pertes pour prserver les dtails dans ces
rgions;
lutilisation des markers pour la re-syncronisation de la transmission quand
la voie de transmission est trs bruite;
une bonne qualit de limage reconstruite aux dbits gaux ou infrieurs 0,1
bits/pixel;
la possibilit de protger la proprit intellectuelle des auteurs des images par
watermarking.
Le principe du systme de compression JPEG-2000 est prsent en [109].
Ce systme est trs flexible, il permet non seulement la compression mais aussi
laccs aux donnes obtenues aprs la compression.
La structure de la suite des codes gnre par ce systme de compression
permet la localisation et lextraction des donnes pour diffrents buts:
retransmission, stockage, ou dition. Cet accs permet la rcupration des donnes
appropries pour une certaine application sans dcodage.
Le partage de la suite de donnes originales et de la suite des donnes
obtenues aprs compression, de quelques manires diffrentes, permet lextraction
des donnes de la suite des codes pour former une image reconstruite de rsolution
rduite ou de dbit rduit ou contenant des rgions de limage originale. La suite
des codes spcifique pour ce standard contient trois domaines: le domaine spatial
(qui contient les chantillons de limage comprimer) le domaine transform (qui
contient les coefficients de la transforme en ondelettes) et le domaine cod (qui
contient des codes).
Ce standard utilise une famille dobjets. Il y a des objets qui se trouvent
dans tous les trois domaines de la suite des codes dj mentionns et des objets
spcifiques pour lun de trois domaines. Les procdures principales de ce standard
sont prsentes dans la figure suivante.
156 La compression dimages - 6
Figure 1.6.1.1. Les procdures du standard JPEG-2000.
Limage traiter peut tre partage en rectangles. Chaque rectangle peut
tre trait indpendant. Les rectangles sont dcomposs diffrents niveaux, en
diffrentes sous-images de diffrentes rsolutions, en utilisant une transforme en
ondelettes discrte. On utilise des ondelettes biorthogonales. On utilise les paires
dondelettes mre Daubechies 9/7 et Daubechies 5/3. La transforme en ondelettes
est calcule en utilisant lalgorithme appel lifting scheme. A chaque niveau on a
quatre images appeles sous-bandes qui contient les coefficients de la transforme
en ondelettes correspondant au niveau de dcomposition choisi. Le nombre des
coefficients est gal avec le nombre des chantillons de limage traiter mais leur
grande majorit ont des valeurs absolues trs petites. Donc on peut dire que
linformation contenue dans limage originale est concentre dans un nombre
rduit de coefficients. Par la quantification des coefficients linformation contenue
dans un grand nombre de coefficients de valeur absolue petite est encore rduite.
Le signal de la sortie du quantificateur est cod en utilisant un codeur entropique
pour rduire le nombre de bits ncessaires pour la reprsentation des coefficients
quantifis.
Les sous-bandes individuelles dun niveau de dcomposition sont
partages de nouveau en code-bloks. Ce sont des rgions rectangulaires de
coefficients qui peuvent tre extraites indpendamment. Les plans de bits de
chaque code-block sont cods en trois pas. En chaque pas de codage sont
collectes des informations contextuelles sur le plan de bits correspondent. Un
codeur arithmtique utilise cette information contextuelle pour dcoder une suite de
bits. Diffrentes mthodes terminales ralisent diffrents niveaux dextraction
indpendante des donnes
La syntaxe de la suite des codes
Lordre
des
donnes
Codage
arithmetique
Le modle
de bits pour
coefficients
Quantifica-
tion
Transforme
Transforme
de la
composante
continue
Region dinteret
6.1.1. - Le standard JPEG-2000 157
codes en utilisant ces trois pas. La suite de bits obtenue par ce codage en trois pas
est partage en couches. Lutilisation de chaque couche nouvelle contribue
laugmentation de la qualit de limage reconstruite.
Les paquets sont des units fondamentales de la suite de codes. Un paquet
est une partition particulire dune couche dun niveau de dcomposition dun
rectangle. Cette partition conduit une nouvelle mthode dextraction
indpendante dune certaine rgion de limage originelle. Les paquets peuvent tre
mls dans la suite de codes en utilisant quelques mthodes diffrentes. Le systme
de compression JPEG-2000 est prvu avec la possibilit de dtection des erreurs de
transmission, si on utilise des voies de communications bruites. Les donnes
obtenues aprs la compression dun rectangle, organises en paquets, sont
arranges en un ou plusieurs parties de rectangle. Un header de partie de
rectangle contient une srie dlments de marquage ou de segments dlments de
marquage. Chacun de ceux-ci contient de linformation sur les mcanismes ou les
styles de codage, ncessaire pour la localisation, lextraction, le dcodage et la
reconstruction de chaque partie de rectangle. Au commencement de lentire suite
de codes se trouve un header principal, qui contient des lments de marquage et
des segments dlments de marquage, qui offrent des informations similaires et
des informations sur limage originelle.
La suite de codes peut tre sauve dans un fichier dont la structure est
dcrite en [109]. Le premier bloc de la figure 1.6.1.1, appel Lordre des
donnes ralise le partage de donnes en rectangles et sous-bandes. Le deuxime
bloc, appel codage arithmtique assure le codage et le dcodage en trois pas des
plans de bits de chaque code-block. Le troisime bloc de la figure 1.6.1.1, appel
Le modle de bits pour coefficients a le rle dorganiser la suite de bits des sous-
bandes en plans de bits, code-blocks et structures correspondant chaque pas de
codage. Pour chaque plan de bits dun code-block un balayage spcial est utilis
dans chacun des pas de codage. Chaque bit de coefficient de chaque plan de bits
dun code-block est cod une seule fois parmi le trois pas de codage. Les pas de
codage sont appels: propagation significative, raffinement de la magnitude et
clairage. Le quatrime bloc, appel Quantification fait la quantification et
lopration inverse. Il sagit dune quantification scalaire non-uniforme dont la loi
se base sur la statistique de limage comprimer. Le fonctionnement du cinquime
bloc de la figure, appel Transforme, qui calcule la transforme en ondelettes
des rectangles a t dj brivement dcrit. Le dernier bloc de la figure 1.6.1.1
appel Transforme de la composante continue a le rle de convertir les valeurs
obtenues aprs dcodage dans le format des chantillons de limage originelle. Le
bloc appel Rgion dintrt slectionne de telles rgions. Les codes de ceux-ci
se trouvent avant les codes des rgions qui reprsentent le reste de limage
(appeles fond) dans la suite de codes. La mthode de slection des rgions
dintrt sappelle MaxShift. P.a.
Limportance du standard JPEG-2000 pour la vie scientifique de la communaut
des chercheurs de la thorie des ondelettes est prouve par le fait que Yves Meyer,
158 La compression dimages - 6
lun de parents de cette thorie, a prsent, cette anne, une confrence
internationale, organise Perpignan, un article sur ce standard, [80].
6.2. La compression des squences dimages
La standardisation des systmes de compression des squences dimages
est ralise par un autre groupe appel MPEG (Moving Pictures Experts Group).
Celui-ci a labor dj deux standards: MPEG-1 et MPEG-2 et est en train
dlaborer un nouveau standard MPEG-4. On fera dans la suite une prsentation
succincte de ceux standards.
6.2.1. Le standard de compression MPEG-1
Ce standard contient 5 parties:
ISO/IEC 11172-1:1993 Technologie de linformation Le codage de squence
dimages et des signaux audio associs pour environnement de stockage numrique
un dbit suprieur 1,5 Mbits/sPremire partie: Systmes
ISO/IEC 11172-2:1993 Technologie de linformation Le codage de squence
dimages et des signaux audio associs pour environnement de stockage numrique
un dbit suprieur 1,5 Mbits/sDeuxime partie: Vido
ISO/IEC 11172-3:1993 Technologie de linformation Le codage de squence
dimages et des signaux audio associs pour environnement de stockage numrique
un dbit suprieur 1,5 Mbits/s Troisime partie: Audio
ISO/IEC 11172-4:1995 Technologie de linformation Le codage de squence
dimages et des signaux audio associs pour environnement de stockage numrique
un dbit suprieur 1,5 Mbits/s Quatrime partie: Mthodes de test
ISO/IEC TR 11172-5 Technologie de linformation Le codage de squence
dimages et des signaux audio associs pour environnement de stockage numrique
un dbit suprieur 1,5 Mbits/s Cinquime partie: Logiciel de simulation.
La premire partie analyse les possibilits de combinaison de plusieurs
suites de donnes provenues de parties vido et audio du standard MPEG-1 avec
linformation de temps pour la ralisation dune seule suite comme est montr la
figure 1.6.2.1.
6.2.1. - Le standard de compression MPEG-1 159
Figure 1.6.2.1. La combinaison des suites de donnes. Le dcodeur ISO/IEC prototype.
Cest une fonction trs importante parce que la combinaison des donnes
dans une seule suite conduit une forme plus approprie des donnes pour le
stockage ou pour la transmission numrique.
La deuxime partie spcifie une reprsentation code qui peut tre utilise
pour la compression des squences vido (pour les systmes 625 lignes et aussi
pour les systmes 525 lignes) un dbit autour de 1,5 Mbits/s.
On utilise quelques oprations pour obtenir un facteur de compression
grand. La premire opration est la slection dune rsolution spatiale approprie
pour le signal traiter. Puis lalgorithme utilise une mthode de compensation du
mouvement base sur blocs, pour rduire la redondance temporelle. La
compensation du mouvement est utilise pour la prdiction causale de limage
actuelle laide dune image antrieure, pour la prdiction non-causale de limage
actuelle laide dune image prochaine ou pour la prdiction interpolatrice de
limage actuelle base sur des images antrieures et prochaines. Le signal de
diffrence, lerreur de prdiction est comprime de nouveau en utilisant la DCT
Environe-
ment
de stockage
numerique
Decodeur
specifique
pour
lenvirone-
ment
Suite ISO 11172
Decodeur
de systeme
Controle
dhorologe
ISO/IEC 11172
Audio
ISO/IEC 11172
Video
Deco-
deur
audio
Deco-
deur
video
.
.
.
Audio
decod
Video
decod
160 La compression dimages - 6
pour liminer les corrlations spatiales et puis est quantifie. Finalement les
vecteurs de mouvement sont combins avec linformation de la DCT et le rsultat
est cod en utilisant des codes longueurs variables. La figure suivante illustre une
combinaison possible de trois types dimages qui sont utilises dans le standard.
Figure 2.6.2.1. Exemple de la structure temporelle des images.
La troisime partie spcifie une reprsentation code qui peut tre utilise
pour la compression des squences audio (mono ou stro). Lalgorithme est
prsent la figure 3.6.2.1. Les chantillons du signal audio dentre sont dirigs
vers lentre du codeur. Le premier bloc de celui-ci ralise une opration appele
maping. Il sagit dun filtrage et dun souschantillonnage du signal audio. Le
deuxime bloc realise la quantification et le codage. On utilise un modle psycho-
acoustique pour faire ces oprations. Il y a un bloc spcial pour le modle psycho-
acoustique. Celui-ci realise aussi lanalyse spectrale du signal qui sera quantifi.
A la sortie du codeur on obtient un ensemble de symboles de code. Le dernier bloc
du codeur audio, appel frame packing, organise les donnes obtenues la sortie
des diffrents autres blocs et ajoute des informations supplmentaires (par exemple
celle pour la correction des erreurs) si cest ncessaire.
6.2.1. - Le standard de compression MPEG-1 161
Figure 3.6.2.1. Structure de base du codeur audio.
La quatrime partie spcifie comment on peut concevoir les tests pour la
vrification des performances imposes dans les premires trois parties du standard
MPEG-1.
Ces tests peuvent tre utiliss par les fabriquants de codeurs et leurs clients
pour vrifier si:
- les codeurs produisent des suites de bits valides,
- les codeurs ont les performances spcifies dans les premires trois
parties du standard,
- les caractristiques dune suite de donnes respectent les conditions
dapplication demandes, par exemple si les dimensions dune image code ne sont
plus grandes que les valeurs imposes pour une certaine application.
La cinquime partie est un rapport technique et donne un logiciel pour la
simulation des systmes prsents dans les premires trois parties du standard.
6.2.2 Le standard de compression MPEG-2
Ce standard contient neuf parties. Les trois premires parties sont dj des
standards internationaux, les autres sont en train dobtenir cette qualit.
Quelques parties du standard sont les suivantes:
162 La compression dimages - 6
ISO/IEC DIS 13818-1 Technologie de linformationLe codage gnrique des
images en mouvement et de linformation audio associe: Systmes; ISO/IEC DIS
13818-2 Technologie de linformationLe codage gnrique des images en
mouvement et de linformation audio associe: Vido:
ISO/IEC 13818-3:1995: Technologie de linformationLe codage gnrique des
images en mouvement et de linformation audio associe: Audio
ISO/IEC DIS 13818-4 Technologie de linformationLe codage gnrique des
images en mouvement et de linformation audio associe: Tests;
ISO/IEC DTR 13818-5 Technologie de linformationLe codage gnrique des
images en mouvement et de linformation audio associe: Logiciel de simulation
ISO/IEC IS 13818-6 Technologie de linformationLe codage gnrique des
images en mouvement et de linformation audio associe: logiciel de simulation qui
fait lextension pour le systme DSM-CC;
ISO/IEC IS 13818-9 : Technologie de linformationLe codage gnrique des
images en mouvement et de linformation audio associe: Extension pour les
interfaces a temps rel pour les systmes de dcodage.
La premire partie du standard MPEG-2 prsente les mthodes de fusion
des suites de donnes lmentaires, comme par exemple les suites de donnes
vido, les suites de donnes audio ou les suites dautres types de donnes, en
nouvelles suites de donnes qui sont mieux organises pour le stockage ou pour la
transmission. Il y a deux formes: la suite programme et la suite transport. Chaque
forme est optimise pour un ensemble particulier dapplications. Un modle est
prsent la figure suivante.
6.2.2. - Le standard de compression MPEG-2 163
Figure 1.6.2.2. Modle pour les systmes MPEG-2.
La suite programme est similaire celle du standard MPEG-1 (Systems
Multiplex). Cette suite rsulte de la fusion dun ou plusieurs suites en paquets
lmentaires Packetised Elementary Streams (PES), qui ont une base de temps
commune dans une seule suite. La suite programme est dsigne pour tre utilise
en environnements relativement non bruits et est approprie pour des applications
qui demande des traitements logiciels. Les paquets de la suite programme peuvent
tre dune longueur relativement grande.
La suite transporte fait la fusion dune ou plusieurs suites en paquets
lmentaires, qui ont une base de temps commune ou plusieurs bases de temps
indpendantes, dans une seule suite. Les suites lmentaires qui utilisent la mme
base de temps forment un programme. La suite transporte est dsigne pour tre
utilise dans des environnements bruits. La longueur des paquets de la suite
transporte est de 188 octets.
La deuxime partie du MPEG-2 est construite sur les performances de
compression vido du standard MPEG-1 pour offrir une gamme large doutils de
Donnes
vido
Codeur
vido
Packetizer
Donnes
audio
Codeur
audio
Packetizer
PS
Mux
TS
Mux
Video
PS
Audio
PS
Suite
Suite
Specification de sytemes
164 La compression dimages - 6
codage. Ceux-ci ont t groups par profiles pour offrir des fonctionnalits
diffrentes. Seulement les combinaisons marques par "X" dans le tableau suivant
sont reconnues par le standard.
Le
profile
simple
Le
profile
moyen
Le
profile
SNR
scalable
Le
profile
Spatial
scalable
Le
profil
e haut
Le profile
Multiview

Le profile
rsolution
des couleurs
4:2:2
niveau
haut
X X
niveau
haut
1440
X X X
niveau
moyen
X X X X X X
niveau
bas
X X
Tableau 1.6.2.2. Profiles vido MPEG-2.
Le profile rsolution des couleurs 4:2:2 a t approuv en janvier 1996.
Le profile Multiview (MVP) est un profile additionnel. En utilisant les
outils de codage vido MPEG-2 qui existent dj, il est possible de coder
efficacement deux squences vido obtenues de deux cameras dont les axes font un
angle petit, fixes sur la mme scne.
Les expriences ralises par le groupe MPEG ont montr que les codeurs
vido MPEG-2 ont des performances similaires ou suprieures aux codeurs
dsigns pour les applications haut-dbit ou de studio.
La troisime partie du standard MPEG-2 est une extension plusieurs voies du
standard audio MPEG-1.
Les parties 4 et 5 du MPEG-2 correspondent aux parties 4 et 5 du standard
MPEG-1. La partie 6 du standard MPEG-2, appele: Environnement de stockage
numrique, Commande et Contrle ( Digital Storage Media Command and
Control) (DSM-CC) est la spcification dun ensemble de protocoles qui ralisent
les fonctions de contrle et les oprations spcifiques pour le management des
suites de donnes MPEG-1 et MPEG-2. Ces protocoles peuvent tre utiliss pour
supporter des applications dans les deux types de rseaux: htrognes et
homognes. Pour le modle DSM-CC, une suite est envoye par un Serveur un
Client. Le Serveur et le Client sont considrs comme utilisateurs (Users) du
6.2.2. - Le standard de compression MPEG-2 165
rseau DSM-CC.
Ce-ci dfinit une entit logique appele Session and Resource Manager
(SRM) qui realise un management logique et centralis du rseau comme le montre
la figure suivante.
Figure 2.6.2.2. Modle de rfrence DSM-CC.
La septime partie du standard MPEG-2 se rfre un nouvel algorithme
de compression audio multi-voie qui nest pas contraint dtre compatible avec le
systme de compression audio MPEG-1.
La septime partie devrait prsenter un systme de codage vido pour images dont
les chantillons sont reprsents sur dix bits. On na pas trouv un intrt suffisant
pour lindustrie d' un tel standard.
La neuvime partie du standard MPEG-2 est la spcification de linterface
temps rel (Real-time Interface), (RTI) pour les dcodeurs des suites de transport
qui peuvent tre utiliss pour ladaptation tous les rseaux appropris (voir la
figure suivante).
166 La compression dimages - 6
Figure 3.6.2.2. Configuration de rfrence pour linterface temps rel.
La dixime partie prsente les tests pour le systme DSM-CC.
6.2.3. Le standard de compression MPEG-4
MPEG-4 est un standard ISO/IEC ralis par le groupe MPEG. Les
standards MPEG-1 et MPEG-2 ont donn la possibilit des applications vido
interactives sur CD-ROM et dutiliser la tlvision digitale. Ce standard appel
ISO/IEC 14496, a t finalis en octobre 1998 et est devenu standard international
en 1999. Les applications de ce standard sont :
Tlvision digitale;
Applications graphiques interactives;
Applications multimdia interactives (World Wide Web, distribution et accs
au contenu)
MPEG-4 donne les lments technologiques standardiss qui permettent
lintgration de la production de la distribution et de laccs au contenu.
Plusieurs informations sur MPEG-4 peuvent tre trouves ladresse:
http://www.cselt.it/mpeg . et en [81], [82] et [83].
Le modle de vrification de la partie vido du standard MPEG-4 met en vidence
les paramtres suivants du standard:
* La reprsentation de luminance et de chrominance des chantillons de limage en
utilisant le format 4:2:0. Lintensit de chaque pixel est quantifie sur 8 bits. Les
dimensions et la forme de limage dpendent dapplication.
* La possibilit de codage des multiples plans dobjets vido, Video Object Planes
(VOP's), comme images de forme arbitraire qui peuvent assurer la majorit des
fonctions bases sur le contexte. Donc la squence dimages dentre pour le
6.2.3. - Le standard de compression MPEG-4 167
codeur vido MPEG-4, VM est considre de forme arbitraire et la forme et la
localisation dun VOP dans une fentre de rfrence peut varier en temps. Le
codage dune squence dimages dentre rectangulaires est un cas particulier de
lapproche base sur les VOP.
* Le codage de la forme et de linformation transparente de chaque VOP par le
codage de squences de plans binaires ou de plans a plusieurs niveaux de gris en
utilisant une mthode particulire appele Modified Reed Code method (MMMR).
* La possibilit dutilisation des VOP codes Intra (I), ou des prdictions de VOP,
(P).
* La possibilit de dbits fixes ou variables des squences VOP dentre de forme
rectangulaire ou arbitraire. Le dbit est fonction dapplication.
* La possibilit dutilisation des mthodes destimation et de compensation du
mouvement pour les blocs de 8x8 pixels ou pour les macroblocs de 16x16 pixels
des chaque VOP.
* Le codage de la texture dans les VOP en utilisant la DCT ou une DCT qui
sadapte la forme, Shape-Adaptive DCT (SADCT) pour les rgions de forme
arbitraire. Aprs ces transformations on fait une quantification et un codage run-
lenght.
* La prdiction fficace des coefficients DC et AC de la DCT dans les VOP cods
Intra.
* La possibilit dutilisation de la prdiction SPRITE dynamique du mouvement
global en utilisant une mmoire des VOP panoramique et 8 paramtres de
mouvement global.
* La compatibilit avec les algorithmes de codage du standard MPEG-1
si la squence dimages dentre est code dans une seule couche en utilisant une
seule structure VOP rectangulaire.
6.2.3.1. Le codage de la forme, du mouvement et de la
texture pour chaque VOP
Linformation relative la forme, au mouvement et la texture pour
chaque VO est code dans une couche spare, appele, Visual Object Layer,
(VOL) pour pouvoir raliser un codage spar pour chaque VO. Le codeur vido
MPEG-4 VM utilise le mme algorithme pour coder la forme, le mouvement et la
texture en chaque couche. Linformation de forme nest pas transmise si la
squence qui doit tre code contient seulement des images standard de forme
rectangulaire. Lalgorithme de compression MPEG-4 VM utilis, pour le codage de
chaque squence dimages (de forme rectangulaire ou diffrente), est bas sur la
technique de codage des blocs DPCM/Transforme dj utilise dans les standards
de codage MPEG.
Le premier VOP est cod dans le mode Intra-Frame (I-VOP). Chaque VOP
suivant est cod utilisant la prdiction Inter-frame VOP (P-VOP). On utilise pour la
prdiction seulement des donnes obtenues en utilisant le plus proche frame.
168 La compression dimages - 6
Aprs le codage de la forme on fait le codage des couleurs. Chaque image en
couleurs dune squence VOP est divise en macroblocs comme le montre la figure
suivante.
Figure 1.6.2.3.1. La gnration des macroblocs.
Chaque macrobloc contient des blocs de donnes, contenus dans les deux
bandes de luminance et de chrominance, il sagit de quatre blocs de luminance (Y1,
Y2, Y3, Y4) et de deux blocs de chrominance (U, V), chacun un de dimensions 8 x
8 pixels. Le cadre VOP, N-1, cod antrieurement est stock dans le codeur et dans
le dcodeur. La compensation du mouvement est ralise pour un bloc ou pour un
macrobloc, seulement un vecteur de mouvement tant estim entre les cadres VOP,
N et N-1. Lerreur de prdiction du mouvement compens est calcule. Une DCT
est aprs applique au sous-images de 8x8 pixels contenues dans le bloc ou
macrobloc considr. On fait aprs une quantification des coefficients DCT. Les
valeurs ainsi obtenues sont aprs codes en utilisant un codage run-lenght ou
entropique. Un registre vido est ncessaire pour assurer la ralisation dun dbit
de
6.2.3. - Le standard de compression MPEG-4 169
sortie, pour le systme de compression, constant. Le pas de quantification des
coefficients DCT peut tre modifi pour chaque macrobloc dans un cadre VOP
pour raliser un certain dbit la sortie et pour viter le vidage ou la saturation du
registre.
Le dcodeur realise le processus inverse pour reproduire un macrobloc
dun cadre VOP, N, dans la structure du rcepteur. Apres le dcodage run-lenght
des mots contenus dans un registre les valeurs des pixels de lerreur de prdiction
sont reconstruites. Les pixels de mouvement compens qui appartient au cadre
VOP, N-1, dj stocks, sont ajouts lerreur de prdiction pour reconstruire le
macrobloc considr du cadre N.
Gnralement les images dentre qui doivent tre codes sont de forme
arbitraire et la forme et la localisation des images sont variables en temps par
rapport une fentre de rfrence. Pour le codage de la forme, du mouvement et de
linformation de texture en cadres VOP de formes arbitraires, le modle de
vrification MPEG-4 a introduit le concept de fentre dimage VOP et le concept
de grille de macrobloc de forme adaptive. Toutes les couches VOL qui doivent
tre codes pour une squence vido dentre sont dfinies par rapport une
fentre de rfrence de dimension constante.
Linformation de forme dun cadre VOP est code avant le codage des
vecteurs de mouvement, qui se base sur la fentre de la grille de macrobloc du
cadre VO et est disponible pour les deux systmes de compression et de
dcompression. Pendant les pas de traitement suivants seulement linformation de
mouvement et de texture pour le macrobloc appartenant limage du cadre VOP
est code.
Pour le codage de linformation de forme des images binaires ou
plusieurs niveaux de gris deux mthodes sont supportes par ce standard.
Linformation de forme est nomme plans alpha dans le cadre du codeur dimage
MPEG-4.
Le codeur vido MPEG-4 utilise des techniques destimation et
compensation du mouvement pour le balayage efficace des redondances
temporelles du contenu vido en couches VOP spares.
Le modle de vrification vido MPEG-4 spcifie le codage de deux types de
prdiction des cadres VOP, la prdiction en arrire (P) et la prdiction
bidirectionnelle (B). On obtient les cadres P-VOP et B-VOP.
Les vecteurs de mouvement sont cods predictivement en utilisant les
tableaux de codes des standards MPEG-1/2 et H.263 VLC.
Les cadres Intra VOP et les erreurs rsiduelles aprs la prdiction du
mouvement compens sont cods en utilisant une DCT applique aux blocs de
dimensions 8x8. De nouveau la grille de macrobloc de forme adaptive est utilise.
Pour chaque macrobloc, un nombre maximal de quatre blocs de luminance et de
deux blocs de chrominance sont cods. Le balayage des coefficients DCT suivi par
leur quantification et le codage run-lenght sont raliss en utilisant des
techniques et tableaux spcifiques pour les standards MPEG-1,2 et H.263. Pour les
170 La compression dimages - 6
cadres Intra VOP est ralise aussi une prdiction efficiente des coefficients de la
DCT.
Tous les outils (DCT, lestimation et la compensation du mouvement, etc.)
introduits dans les standards H.263 et MPEG-1 (et la plus grande partie des outils
dfinis dans le standard MPEG-2) peuvent tre utiliss dans le standard MPEG-4.
Le vecteur de mouvement du plan alpha comprim et les mots DCT sont
multiplexs dans une suite de bits correspondent une couche VOL. Linformation
de forme est code au commencement et aprs sont codes les informations de
mouvement et de texture en suivant les dfinitions prsentes dans les standards
H.263 et MPEG.
Il y a deux modes diffrents pour multiplexer linformation de texture et de
mouvement: une procdure mixte base sur les dfinitions relatives aux macroblocs
du standard H.263 destine lobtention dune haute fficacit de compression et
dun dbit trs rduit. Cette procdure garantie que les performances du standard
MPEG-4 au dbit trs rduit sont identiques ou meilleures que les performances
demandes par le standard H.263.
Le deuxime mode de multiplexage suppose le traitement diffrent des
vecteurs de mouvement et des coefficients DCT. Celui-ci permet linsertion des
techniques nouvelles de codage du mouvement ou de la texture.
Le but du standard MPEG-4 est de raliser un dbit infrieur 64 kbits/s.
Le standard MPEG-4 permet la reprsentation des images diffrentes
chelles en espace et en temps. Cette fonction est prvue pour pouvoir utiliser des
rcepteurs diffrents avec diffrentes bandes de frquence ou diffrentes
possibilits daffichage, pour faciliter la navigation dans les bases de donnes
vido, ou pour la reprsentation multirsolution en environnements multimdias.
Un autre but important de la reprsentation des images diffrentes
chelles est de raliser une suite de bits dans une couche vido qui peut tre utilise
dans une transmission plusieurs priorits.
Les techniques adoptes par le modle de vrification vido MPEG-4
permettent laccs bas sur le contenu ou la transmission des cadres VOP de forme
arbitraire en utilisant diffrentes rsolutions spatiales ou temporelles. Le standard
MPEG-2 permet une reprsentation dimages plusieurs chelles seulement au
niveau des cadres. Les rcepteurs qui ne peuvent pas travailler plusieurs
rsolutions peuvent dcoder des sous-ensembles de la suite de bits de la couche
vido pour afficher les objets des cadres VOP de forme arbitraire une certaine
rsolution spatiale ou temporelle ou avec une qualit rduite.
Les chelles spatiales diffrentes peuvent tre obtenues par sous-
echantillonnage itrs. La variante sous-echantillonne est code dans une couche
de base en obtenant une suite de bits dbit rduit.
La variante obtenue par le sur-echantillonnage de celui-ci est utilise
6.2.3. - Le standard de compression MPEG-4 171
comme une prdiction pour le codage du signal vido dentre original.
Lerreur de prdiction est code dans une couche contenant une autre suite
de bits. Les signaux VOP sous-echantillonns peuvent tre reconstruits en dcodant
seulement la suite de bits appartenant la couche infrieure.
Laffichage du cadre VOP la plus haute rsolution qualit rduite est
aussi possible en dcodant seulement la couche de dbit infrieur.
Donc le codage des images reprsentes diffrentes chelles peut tre utilis pour
le codage vido bas sur le contexte en utilisant des dbits appropris pour chaque
couche pour satisfaire certaines conditions de largeur de bande, de canal de
transmission ou de stockage. Les applications qui peuvent bnficier de ces
fonctionnalits sont la navigation dans les bases de donnes vido et la
transmission des donnes vido dans les rseaux non homognes.
Diffrents dbits pour les cadres contenus dans diffrentes couches, peuvent tre
obtenus en utilisant la reprsentation de limage plusieurs chelles temporelles.
Lorganisation en couches est ralise laide dune prdiction temporelle pour la
couche suprieure base sur le codage vido des couches infrieures. En utilisant la
modalit de reprsentation par plusieurs chelles temporelles des cadres VOP bass
sur contenu on peut obtenir diffrentes modalits daffichage pour la mme
squence vido.
Un effort considrable a t fait pour le stockage et la transmission
robustes des squences vido MPEG-4 dans des environnements bruits. A ce but
une technique adaptative de translation des macroblocs, similaire celle dj
utilise dans les standards MPEG-1 et MPEG-2 est utilise dans le standard
MPEG-4. Cette technique realise la resynchronisation des groupes de macroblocs
et a t optimise pour une robustesse fficace pour les squences vido transmises
sur les canaux mobiles.
Rcemment ont vu le jour plusieurs articles concernant lutilisation de la
thorie des ondelettes pour la compression des squences dimages.
Par exemple en [84] est prsente une mthode de compression des squences
dimages de rsonance magntique. En [85] et [86] une nouvelle mthode de
compression est compare avec le MPEG-4. Cette mthode, base sur une
transformation en ondelettes, introduit une nouvelle opration le pre-traitement des
coefficients de la transforme en ondelettes quantifis.
Il sagit dun pr-codage qui fait une segmentation suivie par une reconstruction et
un codage conditionn. Les rsultats de simulation de cette mthode sont mieux
que les rsultats obtenus en utilisant le MPEG-4.
Des mthodes de compression progressive, bases sur la thorie des
ondelettes ont t aussi proposes, [87]. Les mthodes de compression des
squences dimages bases sur la thorie des ondelettes sont traites dans la thse
de doctorat [88] aussi. Une ide trs intressante est dutiliser une transforme en
ondelettes adaptative, [89]. On peut utiliser ce but des ondelettes mre
paramtres variables. Les auteurs ont nomm ces fonctions ondelettes mobiles.
Un logiciel spcialis pour la compression des images en utilisant la
thorie des ondelettes est prsent en [90].
172 La compression dimages - 6
Plusieurs articles prsentant diffrents aspects de la compression des
squences dimages base sur la thorie des ondelettes font partie des actes de la
confrence Signal Processing dIEEE qui a t organise en 2000 Istanbul.
Bibliographie
[1]
Roberto Togneri. Information theory and coding, cours labor
University of Western Australia, dans le dpartement, E&E Engineering,
http://www.ee.uwa.edu.au/~roberto/teach/itc314/handouts/lectures/chapter3.pdf
[2] D. Salomon. Data compression, The Complete Reference, Springer
Verlag, New-York, 1998.
[3]
Jeffrey Scott Vitter. Design and analysis of dynamic Huffman codes,
ACM Transactions on Mathematical Software, Volume 15 , Issue 2
(1989), pp. 158-167, http://www.cs.duke.edu/~jsv/Papers/Vit87.jacm.pdf
[4] A. Sptaru. Fondements de la thorie de la transmission de linformation.
Presses Polytechniques Romandes, Lausanne, 1987.
[5]
A. Cubichi. Contributions la compression du signal de parole dans les
systmes de communications numriques, (en roumain). Thse de
doctorat. Directeur de thse professeur Ioan Naforni, Universit
Politehnica de Timioara, Roumanie, 2002.
[6] D. Isar. Laugmentation du rapport signal bruit dans les systmes de
tlcommunications, (en roumain). Thse de doctorat. Directeur de thse
professeur Ioan Naforni, Universit Politehnica de Timioara,
Roumanie, 1998.
[7] G. Malgouyres. "Introduction la thorie des ondelettes". Cours dt,
Timioara 1994.
[8] V. E. Neagoe. Using Legendre Polynomials to Introduce a New
Orthogonal Transform for Significant Feature Selection. Actes de la
confrence internationale Pattern Recognition and Image Processing,
pp.177-182, Las Vegas, juin 1982.
[9] A. Cohen, J. P. dAles. Nonlinear Approximation of Stochastic Processes.
Dans Wavelets and Statistics. A. Antoniadis et G. Oppenheim (diteurs),
Springer Verlag, pp.129-132, 1995.
[10] A. Isar, I. Naforni, Reprsentations temps frquence, (en roumain),
Ed. Politehnica, Timioara, 1998.
[11] M. V. Wickerhauser, "Adapted Wavelet Analysis. From theory to
software", A. K. Peters Ltd, Massachusetts, 1994.
[12] M. J. T. Smith, T. P. Barnwell III. "Exact Reconstruction Techniques for
Tree-Structured Subband Coders". IEEE Trans. On ASSP, vol. 34,
pp.434-441, 1986.
[13] A. Cohen. "Ondelettes et traitement numrique du signal". Masson, 1992.
[14] O. Rioul. "A Discrete Time Multiresolution Theory". IEEE Trans. on SP,
vol. 41, no. 8, pp. 2591-2606, aot 1993.
[15]
I. Daubechies. "Orthonormal Bases of Compactly Supported Wavelets".
Comm. Pure. Appl. Math., No. 41, pp.909-996, 1988.
[16] I. Daubechies. "Ten Lectures on Wavelets". SIAM, Philadelphia 1992.
[17] Y. Meyer. "Ondelettes, filtres miroirs en quadrature et traitement
numrique de limage". Dans Les ondelettes en 1989. P. G. Lemari
174 Bibliographie
(editeur), Springer-Verlag, 1990.
[18] A. N. Akansu, R. A. Hadad. "Multiresolution Signal Decomposition".
Academic Press, New York, 1992.
[19] S. Mallat. "Multifrequency Channel Decomposition". IEEE Trans. on
ASSP, vol. 37, No.12, pp. 2091-2110, octobre 1989.
[20] D. L. Donoho, I. M. Johnstone. "Unconditional Bases are Optimal Bases
for Data Compression and for Statistical Estimation". Technical Report
410, Stanford University, November 1992.
[21] J. Froment. "Traitement dimages et applications de la transforme en
ondelettes". Thse de doctorat, Universit Paris IX, 1990.
[22] J. Kovacevic, M. Vetterli. "Nonseparable Two-and Three-Dimensional
Wavelets". Proceedings of ISCAS93, Chicago,1993.
[23] H. S. Malvar. "Lapped Transforms for Efficient Transform/Subband
Coding". IEEE Trans. on ASSP, vol. 38, pp.969-978, juin 1990.
[24] A. Cohen, I.Daubechies, J.C.Feauveau, "Bi-orthogonal bases of
compactly supported Wavelets", Comm. Dans Pure and Applied Math.,
vol. XLV, pp. 485-560, 1992.
[25] R.R.Coifman, M.V.Wickerhauser "Wavelets and adapted waveform
analysis" in Proceedings of symposia in applied mathematics,SIAM vol.
47, 1993, diteur Ingrid Daubechies.
[26]
A. De Sabata, C. Iung, J. F. Aubry. "A Variabile Scale DWT".
Proceedings of the International Symposium ETc94, vol. III, pp.43-48,
Timioara, septembre 1994.
[27] M.Vetterli, C.Herley, "Wavelets and filter banks: Theory and design",
IEEE Transactions on signal processing 40 (9) pp.2207-2232, septembre
1992.
[28]
T.P.Barnwell III, I.Sodagar, K.Nayebi "Time-varying filter banks and
wavelets", IEEE Transactions on signal processing, vol.42, no. 11,
novembre 1994.
[29] W. H. Press, S. A. Teukolsky, W. T. Vetterling, B. P. Flannery.
"Numerical Recipes in C". Cambridge University Press, 1995.
[30]
O.Rioul, M.Vetterli. "Wavelets and signal processing", IEEE SP
Magazine, 8 (4) pp.14-38, octobre 1991.
[31] T. Asztalos, A. Isar. "An Adaptive Data Compression Method Based on
the Fast Wavelet Transform". Proceedings of the International
Symposium Etc94, Timioara, Vol III, pp 37-42, septembre 1994.
[32] A. Oppenheim, R. W. Schaefer. "Digital Signal Processing". Prentice
Hall, 1986.
[33] J.J.Shynk. Frequency-domain and multirate adaptive filtering, Signal
Processing Magazine, janvier 1992.
[34] H. Krim, D. H. Brooks. "Feature-Based Segmentation of ECG Signals".
Proceedings of IEEE Conference, TFTS96, pp. 97-100, Paris, juillet
1996.
Algorithmes et techinques de compression 175
[35] O. Rioul. "Ondelettes rgulieres: Applications la compression dimages
fixes". Thse de doctorat, ENST Paris, mars 1993.
[36] T. Asztalos. "An Algorithm for the DWT on Block Computation".
Proceedings of the International Symposium Etc96, Timioara, vol II,
pp.128-133, septembre 1996.
[37] D. Donoho. Smooth Wavelet Decomposition with Blocky Coefficient
Kernels, en Recent Advances in Wavelet Analysis, L. Schumaker et G.
Webb (diteurs), pp. 1-43, 1993.
[38] W. Sweldens. "Wavelet Sampling Techniques", Proceedings of the Joint
Statistical Meetings, San Francisco, 1993.
[39] E.D. Kolaczyk. "Non-parametric Estimation of Gamma-ray Burst
Intensities using Wavelets", soumis la revue The Astrophysical Journal.
[40] T. Asztalos. "Tomography Imaging. Radon Transform Inversion
Procedures". Rapport de stage, Universit Paris-Sud, juillet, 1997.
[41] M. Borda, D. Isar. Whitening with Wavelets. Proceedings of ECCTD.
97 Conference, Budapest, aot 1997.
[42] A. Mateescu, M. Rducanu, L. Stanciu. "Best Basis with Wavelet Packets
for a Signal". Proceedings of International Symposium Etc96, Timioara,
vol. II, pp.106-111, septembre 1996.
[43] A. Isar, A. Cubichi. "A new best wavelet basis searching method for the
compression of smooth signals", Proceedings of IEEE International
Conference, ICT 2001, Bucarest, Roumanie, 4-7 juin, 2001.
[44] M. V. Wikerhauser. "Best-adapted Wavelet Packet Bases", Proceedings
of Symposia in Applied Mathematics, vol. 47, 1993.
[45] Y. Meyer. "Ondelettes et algorithmes concurrents". Herman, Paris, 1993.
[46] D. Pastor, R. Gay. "Dcomposition dun processus stationnaire du second
ordre. Proprits statistiques dordre 2 des coefficients dondelettes et
localisation frquentielle des paquets dondelettes". Traitement du signal,
vol. 12, no. 5, pp. 393-420, 1995.
[47] A. Cohen, J. P. dAles. "Nonlinear Approximation of Stochastic
Processes". En Wavelets and Statistics. A. Antoniadis et G. Oppenheim
(diteurs), Springer Verlag, pp.129-132, 1995.
[48] V. E. Neagoe. "Introducing a new orthogonal spatial transform for
significant data selection", Revista Academiei, nr. 13, Editura Academiei,
Bucureti 1983, pag. 163-180.
[49] S. Mallat, F. Falzon. Understanding Image Transform Codes. Proceedings
of the SPIE Aerospace Conference, Orlando, April 1997
[50] A. Cubichi. Le niveau de dveloppement actuel des techniques de
compression du signal vocal dans la tlphonie numrique , Rapport no.
1, dans le cadre de la prparation de la thse de doctorat, Dpartement
Communications, Facult dElectronique et Tlcommunications,
Timioara, 1999, Directeur de thse professeur Ioan Naforni.
[51]
R. Boite, M. Kunt, "Traitement de la parole", Presses Polytechniques
Romandes, Lausanne, 1987.
176 Bibliographie
[52] Rodica Stoian. Compression de donnes. Algorithmes de prdiction (en
roumain), Ed. tiinific i enciclopedic, Bucureti, 1988.
[53] E. Pop, I. Naforni, V. Tiponu, A. Mihescu, L. Toma, Mthodes en
traitement numrique des signaux, (en roumain) vol. 1, Ed. Facla,
Timioara, 1986.
[54] E. Pop, I. Naforni, V. Tiponu, A. Mihescu, L. Toma, Mthodes en
traitement numrique des signaux, (en roumain) vol. 2, Ed. Facla,
Timioara, 1989.
[55] Monica Elena Borda, "Thorie de la transmission de linformation", (en
roumain) Editura Dacia, Cluj-Napoca, 1999.
[56] E. Pop, V. Stoica. Principes et mthodes de mesure numrique (en
roumain), Ed. Facla, Timioara, 1977.
[57] E. Pop, V. Stoica, I. Naforni, E. Petriu. Techniques modernes de
mesure. Ed. Facla, Timioara, 1983.
[58] D. Isar, A. Isar. A Generalization of the Widrow's quantization theorem,
Actes de la confrence internationale, MTNS2002, Notre Dame, aot
2002, Etats Unis.
[59] Bonnet. Sur la statistique du second ordre des signaux alatoires
quantifis. Comptes Rendus de lAcadmie de sciences franaise, 30
juillet 1962.
[60]
Andrei Cubichi, Alexandru Isar, "A Statistical Characterization of the
uniform Quantization Process", Proceedings of the International
Conference of Romanian Military Technical and Technological Research
Agency, April 12-13, 2001, Bucarest, Roumanie.
[61] N. Moreau. Techniques de compression des signaux, Masson, Paris
1995
[62]
T. Asztalos. "Contributions la compression, dans le domaine des
transformes en ondelettes des signaux audio", Thse de doctorat,
Directeur scientifique professeur Miranda Naforni, Facult
dElectronique et Tlcommunications Timioara, 2001.
[63] Mitchell D. Swanson, Mey Kobayashi, Ahmed H. Tewfik. Multimedia
Data-Embedding and Watermarking Technologies. Proceedings of the
IEEE, vol. 86, no.6, juin 1998, pp. 1064-1087.
[64] P. Flandrin. Reprsentations temps-frquence. Herms, 1993.
[65] D. Isar. De-noising adaptatif. Seizime Colloque GRETSI, pp.1249-1252,
Grenoble, 15-19 septembre 1997.
[66] D. Isar, A. Isar. A New Class of Identity Systems. International
Workshop on Sampling Theory and Applications, Universidad de Aveiro,
juin 16-19, 1997.
[67] T. Asztalos, A. Isar, "Wavelets and Audio Data Compression",
International Conference on Signal Circuits and Systems, SCS'99, 5-7
July, 1999, Iai, Roumanie
[68]
A. Isar, Dorina Isar, "Filtres non-lineaires et ondelettes", Revue roumaine
de sciences techniques, serie Electrotechnique et Energetique, no.1, 1999.
Algorithmes et techinques de compression 177
[69] T. Asztalos, Dorina Isar, A. Isar, "Adaptive Capturing Transient Signals
using Wavelets", 8-th European Conference on POWER ELECTRONICS
AND APPLICATIONS, EpE'99, 7-9 septembre, 1999, Lausanne.
[70] T. Aszalos, Dorina Isar, A. Isar, "Adaptive Sampling Rate obtained using
Wavelets", 1999 International Workshop on Sampling Theory and
Applications, SampTA'99, August 11-14, 1999, Trondheim, Norway.
[71] C. Gimns, A Mateescu (coordonateurs). Electronique, phisique et signal
pour les tlcommunications, Editura Tehnic, Bucarest, 1997.
[72] P. Duvaut. Traitement du signal-concepts et applications. Hermes, Paris
1991.
[73] A. W. M. van den Enden, N. A. M. Verhoekx. Traitement numrique du
signal. Masson, Paris 1992.
[74] M. Kunt. Traitement numrique des signaux. Trait dElectricit de
lEPFL, vol. XX, 3-eme dition, Presses Polytechniques Romandes, 1984.
[75] EN 300 960 V 6.0.1. (1999 06) Digital cellular telecommunications
systems (Phase 2+) ; Full Rate Speech, Processing functions, (GSM 06.01
version 6.0.1), Standarde ETSI, 1997.
[76] ETS 300 580-2 European digital cellular telecommunications systems
(Phase 2), Full rate speech transcoding (GSM 06.10 version 4.0.2)
Standarde ETSI, 1994.
[77]
ETS 300 961 Digital cellular telecommunications systems (Phase 2), Full
rate speech transcoding (GSM 06.10 version 5.0.1) Standarde ETSI, 1997.
[78] ETS 300 963 Digital cellular telecommunications systems, Full rate
speech, Comfort noise aspect for full rate speech traffic channels (GSM
06.12 version 5.0.1), Standarde ETSI, 1997.
[79] ETS 300 580-3 Digital cellular telecommunications systems (Phase 2),
Full rate speech, Part 3: Substitution and muting of lost frames for full
rate speech channels (GSM 06.11 version 4.0.6), Standarde ETSI, 1998.
[80] ETS 300 581-2 European digital telecommunications systems; Half rate
speech, Part 2: Half rate speech transcoding (GSM 06.20 version 4.3.1),
Standarde ETSI, 1995.
[81]
ETS 300 969 Digital cellular telecommunication systems; Half rate
speech, Half rate speech transcoding, (GSM 06.20 version 5.0.1),
Standarde ETSI, 1997.
[82] M. V. Wickehauser. Acoustic signal compression with wavelet packets, in
Wavelets-A tutorial in theory and applications, (C.K. Chui, editeur),
Academic Press, 1992, pp. 679-700.
[83] Eva Wesfreid, M. V. Wickerhauser. Etude des siganux vocaux par
ondelettes de Malvar, Quatorzieme colloque GRETSI, Juan-les-Pins,
1993, pp. 379-382.
[84] J. J. Benedetto, A. Teolis. A wavelet auditory model and data
compression, Applied and computational harmonic analysis, 1, 1993,
pp.3-28.
178 Bibliographie
[85] D. Sinha, A. H. Tewfik. Low bit rate transparent audio compression using
adapted wavelets, IEEE Transactions on Signal Processing, vol. 41, no.
12, decembre 1993, pp. 3463-3479.
[86] J. B. Buckheit, D. L. Donoho, "WaveLab and Reproducible Research", en
Wavelets and Statistics, editeurs: A. Antoniadis et G. Oppenheim, pp. 55-
83, Springer-Verlag, 1995.
[87] Irina Coanis, "Impacting factors on the Objective Measurement
Algorithms for Speech Quality Assessment on Mobile Networks",
Proceedings of IEEE International Conference, ICT 2001, Bucarest,
Romania, 4-7 juin, 2001.
[88] T. Asztalos, A. Isar, "Wavelets and Audio Data Compression",
International Conference on Signal Circuits and Systems, SCS'99, 5-7
juillet, 1999, Iai, pp. 199-202.
[89] M. Naforni, "Mthodes modernes de traitement du signal pour la
compression de donnes dans les modems haut dbit. Premier rapport:
Techniques de compression". Rapport de recherche AUPELF-UREF,
financ par FICU, Dpartement de Communications de la Facult
dElectronique et Tlcommunications de Timioara, 2000.
[90] R. Deriche, O. Faugeras. Les EDP en traitement des images et vision par
ordinateur, Rapport de recherche, INRIA, no. 2697, novembre 1995.
[91]
Consultative Committee for Space Data Systems. Telemetry Channel
Coding, CCSDS 101.0-B-4, Blue book, Mai, 1999.
[92] Z. S. Bojkovic, C. I. Toma, V. Gui, R. Vasiu. Advanced topics in digital
image compression, Editura Politehnica, Timioara, Roumanie, 1997.
[93] A. Cohen. Wavelets and multiscale methods in image processing,
preprint, Universit Pierre et Marie Curie, Paris, 1995.
[94]
J. Bukheit, S. Chen, D. Donoho, I. M. Johnstone, J. Scargle. About
WaveLab. Preprint, Stanford University, novembre 1995.
[95] J. Bukheit, D. Donoho. WaveLab Architecture. Preprint, Stanford
University, novembre 1995.
[96] J. Bukheit, S. Chen, D. Donoho, I. M. Johnstone, J. S. Cargle. WaveLab
Reference Manual. Preprint, Stanford University, December 1995.
[97] Pankaj N. Topiwala (diteur). Wavelet Image and Video Compression,
Kluwer Academic Publishers, Boston, 1998.
[98] M. Acheroy, S. Grandjean. METEOSAT Image compression using
wavelet transform, European Space Agency Contract Report,
1031/92/D/IM, mars 14, 1994.
[99] W. Wijmans, P. Armbruster. Data compression tecniques for space
applications. Review of current ESA/ESTEC development, announcement
of a round table, Actes de la confrence internationale Dasia 96 , Rome,
1996.
[100] J. - M. Mangen, S. Grandjean, S. Dewitte, A. Massart, M. Acheroy, J.
Cornelis. Mthode itrative de compression dimages radiometriques par
la transforme en ondelettes, rapport support par EUMETSAT, contrat
Algorithmes et techinques de compression 179
numro: 1031/92/D/IM, preprint Royal Military Academy, Brussels,
Belgium, 1995.
[101] M. Acheroy, J.-M. Mangen. Progressive wavelet algorithm versus JPEG
for the compression of METEOSAT data, rapport support par
EUMETSAT, contrat numero: EUM/DP/GD982304, preprint Royal
Military Academy, Brussels, Belgium.
[102] O. Stromme. On the applicability of wavelet transforms to image and
video compression, Thse de doctorat, University of Strathclyde, fvrier,
1999.
[103]
L. Oktem, R. Oktem, K. Egiazarian, J. Astola. Efficient encoding of the
significance maps in wavelet based image compression, Proc. ISCAS
2000, 28-31 May, Geneva, Switzerland.
[104] F. Preteux. Description et intrprtation des images par la morphologie
mathmatique. Application a limage mdicale. Thse de doctorat dtat,
Universit Paris VI, 1987.
[105]
V. K. Goyal. Beyond traditional tansform coding. Thse de doctorat,
Universit de Californie, Berkeley, 1998.
[106] D. Marpe, H.L. Cycon, W. Li. A complexity constraint best-basis wavelet
packet algorithm for image compression, preprint, Fachhochscule fur
technik und wirctschaft, Berlin, 1997.
[107]
D. Marpe, H.L. Cycon, W. Li. Energy constraint scarce wavelet packet
libraries for image compression, preprint no. 541, Fachhochscule fur
technik und wirctschaft, Berlin, 1997.
[108] R. Oktem, L. Oktem, K. Egiazarian. A wavelet packet transform based
image coding algorithm, Actes de la confrence internationale
NORSIG2000, Norrkoping, juin, 2000.
[109]
M. Boliek, C. Christopoulos, E. Majani. Coding of still pictures, JPEG-
2000, Part 1, Final Comitee Draft, Version 1.0, ISO/IEC JTC1/SC29 WG1
N1646R, mars 2000.
[110] Y. Meyer. Wavelets and applications to new standards in image
compression and to the numerical analysis of functions with bounded
variations, PROCEEDINGS of the Fourteenth International Symposium of
Mathematical Theory of Networks and Systems, MTNS 2000, June 19
23, 2000, Perpignan, France.
[111] Rob Koenen. Overview of the MPEG-4 Standard, ISO/IEC
JTC1/SC29/WG11 N2725 , March 1999/Seoul, South Korea.
[112] ***. MPEG-4 Applications, ISO/IEC JTC1/SC29/WG11 N2724, March
1999/Seoul, South Korea.
[113] ***. MPEG-4 Requirements, ISO/IEC JTC1/SC29/WG11 N3154,
December 1999 Maui.
[114] C.Taswell. Wavelet Transform Compression of Functional Magnetic
Resonance Image Sequences, Proceedings of the IASTED International
Conference Signal and Image Processing (SIP98), octobre 28-31, 1998,
Las Vegas, Nevada.
180 Bibliographie
[115] D. Marpe, H. L. Cycon. Very Low Bit Rate Video Coding Using Wavelet
-Based Techniques, preprint, Fachhochscule fur technik und wirctschaft,
Berlin.
[116] D. Marpe, H. L. Cycon. Efficient Pre-coding Techniques for Wavelet-
Based Image Compression, preprint, Fachhochscule fur technik und
wirctschaft, Berlin.
[117] A. Khodakovsky, P. Schroder, W. Sweldens. Progressive Geometry
Compression, submitted for publication, janvier, 2000.
[118] G. Mozelle, F. Preteux. Mobile wavelet method. Application to active
contour modeling and surface reconstruction, Preprint, INT Evry, 1995.
[119] J. Froment, S. Parrino. MegaWave 2 Users Modules Library. vol. I, vol.
III, Preprint CEREMADE, Univ. Paris Dauphine, novembre 1994.

Vous aimerez peut-être aussi