Codage Et Source

Information et Codage
ENSTA
Voie SIC (Systmes dInformation et de Communication)
Module ES204
Olivier RIOUL
ENST/COMELEC
rioul@comelec.enst.fr
Pierre DUHAMEL
SUPELEC/LSS
pierre.duhamel@lss.supelec.fr
2
Avant-propos
Ce cours vise tout dabord tablir solidement les bases de codage de source
sur les outils de la thorie de linformation, de manire ce que les connais-
sances acquises puissent tre tendues rapidement aux problmatiques plus
rcentes. Puis, on aborde une caractrisation des outils essentiels de la com-
pression de source : quantification scalaire et vectorielle, codage longueur
variable, codage par transforme, allocation de dbit.
On illustrera en cours les dosages de ces divers ingrdients dans un exemple
de compression de dimages.
De nombreux exercices sont proposs en appendice de ce document, re-
groups par chapitre.
Bonne lecture !
Mots cls
Thorie de linformation, Thormes de Shannon, Codage entropique lon-
gueur variable, Quantification scalaire et vectorielle, Algorithme de Lloyd-Max,
Gain de codage par transforme, Transforme de Karhunen-Love, Allocation
optimale de dbits binaires, Compression dimages.
3
4
Bibliographie
[1] Robert Mc Eliece, The Theory of Information and Coding, Addison Wesley,
1977.
[2] Thomas Cover, Joy Thomas, Elements of Information Theory, J. Wiley &
sons, 1991.
[3] Allan Gersho, Robert Gray, Vector Quantization and Signal Compression,
Kluwer Academic, 1992.
[4] Nicolas Moreau, Techniques de Compression des Signaux, Masson CNET-
ENST, 1994.
5
6 BIBLIOGRAPHIE
Chapitre 1
Outils de la thorie de linformation
1.1 Description dun systme de codage de source.

On considre une source dinformation quon suppose constitue dune
suite dchantillons ou de symboles x. La source peut tre code symbole par
symbole (codage scalaire) ou par bloc de n symboles x = (x 1 , . . . , x n ) (codage
vectoriel en dimension n). Le cas scalaire correspond n = 1.
Le codeur de source associe chaque entre x une tiquette ou index i
mise sous forme binaire ; les index peuvent prendre un nombre fini M de va-
leurs possibles, chaque index est donc reprsent en moyenne sur log2 M bits
et reprsente la source x sous forme code.
Cet index est ensuite transmis (pour des applications de transmission nu-
mrique) ou stock (pour des applications de stockage numrique).
Le dcodeur de source rcupre chaque index i au niveau du destinataire
et fournit un bloc y de n symboles correspondant, dans le domaine source. Ce
y reprsente la source reconstruite pour le destinataire.
Il y a deux paramtres fondamentaux dans un systme de codage de source :
1. Le taux de codage (coding rate) R est le nombre moyen de bits cods par
symbole de source :
log2 M
R=
n
Ce taux sexprime donc en bits par symbole ; il est li au dbit binaire
en bits/sec (voir exercice). La compression de source est dautant plus
importante que R est petit.
2. Le critre de distorsion D sert mesurer (de manire objective) la qua-
lit ou la fiabilit de la reconstruction. Typiquement (pour des chan-
tillons dun signal, par exemple) on choisit un critre derreur quadra-
7
8 CHAPITRE 1. OUTILS DE LA THORIE DE LINFORMATION
tique moyenne (mean square error m.s.e.) par symbole de source :
1
D= E (kX Y k2 )
n
o E dsigne lesprance de sorte disposer dun critre moyen sur len-

semble de tous les blocs de source. Le systme est de qualit dautant plus
grande que D est petit.
Le but du concepteur dun systme de codage de source est de raliser la
plus grande compression (R petit) tout en garantissant une bonne fiabilit (D
petit). Il y a donc un compromis trouver entre R et D. Le compromis optimal
thorique va tre fourni par la thorie de linformation de Shannon.
1.2 Rappels sur les variables alatoires.

Le destinataire ne connait pas lavance linformation-source mise ; pour
lui, les symboles de source x apparaissent alatoires. On modlise donc une
source par un modle probabiliste : un chantillon ou bloc X de source est une
variable alatoire (v.a.) qui suit une distribution de probabilit p(x).
Dans le cas dun source discrte (ou numrique), chaque symbole x peut
prendre un nombre fini de valeurs et p(x) est la probabilit que X = x.
Dans le cas dune source continue, chaque chantillon x appartient un
continuum de valeurs (relles ou complexes), et p(x) est une densit de proba-
bilit.
Z Dans tous les cas on adopte une notation unifie ; p(x) est telle que p(x) > 0
P
et p(x) = 1. Le calcul dune probabilit quelconque se fait laide de la for-
x
mule : Z
P r ob{X A} =
P
p(x).
xA
1.3 Traitement et probabilits conditionnelles.

En thorie de linformation chaque traitement (codage, dcodage, canal de
transmission, etc.) est aussi modlis de faon probabiliste ; ce modle permet
de dcrire aussi bien des traitements dterministes qualatoires.
Un traitement T dentre X et de sortie Y est dcrit par les probabilits de
transition p(y|x). Ici p(y|x) est une probabilit conditionnelle de y sachant x,
dfinie par :
p(x, y)
p(y|x) = .
p(x)
1.4. SUITE DE TRAITEMENTS ET CHANE DE MARKOV. 9
Cest une distribution de probabilit en y pour toute valeur fixe de x.

La sortie du traitement Y est donne en fonction de lentre X par la for-
mule : Z
P
p(y) = p(x)p(y|x).
x
On rappelle que les v.a. X et Y sont dits indpendantes si p(y|x) = p(y),
cest dire si p(x, y) = p(x)p(y). Le traitement X Y est alors opaque.
1.4 Suite de traitements et chane de Markov.

Dans un systme de codage apparat une suite de traitements point point.
Si on considre par exemple une suite de deux traitements : X Y Z , les
trois v.a. X , Y , Z vrifient ncessairement une condition de chane de Markov
qui exprime que Z ne dpend des autres v.a. que par lintermdiaire de Y (dont
il est issu par traitement). Ceci scrit :
p(z|x, y) = p(z|y).
On gnralise immdiatement cette condition de chane de Markov au cas de
plusieurs (> 2) traitements.
1.5 Divergence D(p, q).

On se donne une v.a. X de distribution de probabilit p(x), et une autre
distribution de probabilit q(x) dfinie pour les mmes valeurs de x. La diver-
gence de Kullback-Leibler ou entropie relative de q(x) par rapport p(x) est
donne par la formule :
p(x) p(X )
Z
P
D(p, q) = p(x) log2 = E log2
x q(x) q(X )
Cette divergence sexprime en units binaires (bits) cause du choix de la base
2 du logarithme.
Le rsultat fondamental suivant est la base de la plupart des rsultats im-
portants en thorie de linformation :
D(p, q) > 0
avec galit (D(p, q) = 0) si et seulement si p(x) = q(x) p.p.
On peut crire ce rsultat sous la forme suivante (ingalit de Gibbs) :
1 1
Z Z
P P
p(x) log2 6 p(x) log2
x p(x) x q(x)
avec galit si et seulement si p(x) = q(x) p.p.
1.6 Information mutuelle I (X , Y ).

Linformation mutuelle I (X , Y ) peut se dfinir comme une mesure de d-
pendance entre X et Y , cest dire comme la divergence de la loi q(x, y) =
p(x)p(y) (que suivraient X , Y si elles taient indpendantes) par rapport p(x, y) :
p(x, y)
Z
P
I (X , Y ) = p(x, y) log2
x,y p(x)p(y)
Daprs le rsultat fondamental des divergences, I (X , Y ) > 0 et I (X , Y ) = 0 si et

seulement si X et Y sont indpendantes.
On peut rcrire I (X , Y ) sous la forme :
p(Y |X )
I (X , Y ) = E log2
p(Y )
qui est la divergence moyenne entre les distributions de probabilit de Y sa-
chant x et ne sachant pas x. Ainsi I (X , Y ) (en bits) sinterprte comme la quan-
tit dinformation moyenne quapporte une ralisation de X sur la connais-
sance de Y . Cette information est mutuelle car I (X , Y ) = I (Y , X ).
1.7 Information mutuelle et entropie.

En dveloppant lexpression de I (X , Y ) on obtient la formule :
I (X , Y ) = H (Y ) H (Y |X )
o
1
Z
P
H (Y ) = p(y) log2
y p(y)
est appele entropie de la v.a. Y , et o :
1
Z Z
P P
H (Y |X ) = E y H (Y |X = x) = p(x) p(y|x) log2
x y p(y|x)
est appele entropie conditionnelle de Y sachant X . Cette dernire entropie

est une moyenne non seulement sur y, mais aussi sur le conditionnement x.
Dans le cas dune v.a. discrte Y (pouvant prendre un nombre fini M de
valeurs), lentropie
X 1
H (Y ) = p(y) log2
y p(y)
est une quantit > 0, qui sannule si et seulement si Y est dterministe Y = y 0
p.p. Lentropie maximale log2 M est atteinte lorsque Y est une v.a. uniforme
1.7. INFORMATION MUTUELLE ET ENTROPIE. 11
(symboles y quiprobables). On peut ainsi interprter H (Y ) comme une me-

sure dala de Y , ou comme une mesure dincertitude moyenne sur Y (avant
ralisation Y = y).
Lentropie conditionnelle H (Y |X ) mesure donc lincertitude moyenne sur
Y qui reste sachant X . La diffrence des deux incertitudes H (Y ) H (Y |X ) =
I (X , Y ) est bien linformation moyenne quapporte X sur Y .
Dans le cas dune v.a. continue Y , lentropie
1
Z
H (Y ) = p(y) log2 dy
y p(y)
nest plus ncessairement > 0 ; on ne peut plus linterprter comme une me-
sure dincertitude. Dans ce cas H (Y ) est qualifie dentropie diffrentielle (voir
chapitre 2).
Chapitre 2
Thorie de linformation applique

au codage
2.1 Thorme du traitement de donnes.

Le thorme du traitement de donnes dit que tout traitement fait perdre
de linformation (en tout cas ne peut pas en faire gagner). Formellement, on
considre une succession de traitements :
X I J Y
On a alors :
I (X , Y ) 6 I (I , J )
Autrement dit linformation mutuelle entre deux v.a. proches dans une chane
de traitements est plus grande que ou gale celle entre v.a. plus loignes.
2.2 Fonction taux-distorsion (codage avec pertes). Tho-

rme de Shannon.
Si on applique le thorme du traitement de donnes au systme de codage
de source prsent la leon 1, on obtient :
I (X , Y ) 6 I (I , I ) = H (I )
puisquon a suppos I = J (transmission ou stockage sans erreur).
Pour obtenir la plus forte ingalit possible on maximise H (I ) (maximum
= log2 M ) et on minimise I (X , Y ). On obtient, en se ramenant des bits par
symbole source :
1 log2 M
min I (X , Y ) 6 =R
n n
13
14 CHAPITRE 2. THORIE DE LINFORMATION APPLIQUE AU CODAGE
Le minimum dinformation mutuelle seffectue sur n et sur le choix de p(y|x),

puisque p(x) est fix pour une source donne ; il seffectue aussi sous la contrainte
de fiabilit donne par un certain niveau de distorsion D. On obtient donc la
dfinition suivante :
1 1
R(D) = inf min { I (X , Y ) | E (kX Y k2 ) 6 D}
n p(y|x) n n
quon appelle fonction taux-distorsion R(D) de Shannon.

Ainsi le thorme du traitement de donnes implique lingalit
R > R(D)
qui indique que R(D) est une borne infrieure sur le taux de codage : il est im-
possible de comprimer les donnes en de de R(D) pour un niveau de dis-
torsion D donn.
Le thorme de Shannon (1959) pour le codage de source avec pertes montre
que R(D) est la meilleure borne possible, dans le sens o on peut toujours trou-
ver un systme de codage (fusse-t-il trs complexe, pour n assez grand) qui per-
mette de sapprocher daussi prs quon veut de la borne R(D).
2.3 Entropie dune source (codage sans pertes).

Un systme de codage de source est dit sans pertes si Y = X , cest dire si
on peut reconstruire parfaitement la source au destinataire (avec D = 0).
Dans ce cas, la borne de Shannon R(D = 0) est gale lentropie de la
source dfinie par :
1
H = inf H (X )
n n
Cette entropie est naturellement une borne infrieure sur le taux de codage :
R > H . On ne peut pas comprimer des donnes (sans pertes) en de de len-
tropie.
Le thorme de Shannon (1948) pour le codage de source sans pertes (cas
particulier D = 0) dit quon peut sapprocher de lentropie H daussi prs quon
veut (voir chapitre 3).
2.4 Cas dune source sans mmoire.

Une source est dite sans mmoire si les symboles ou chantillons de source
sont indpendants et identiquement distribus (iid), cest dire :
p(x) = p(x 1 )p(x 2 ) p(x n ).

2.5. CAS DUNE SOURCE GAUSSIENNE. 15
Dans la conception dun systme de codage de source on peut souvent se ra-

mener ce cas simple (voir leon 5).
Pour une source sans mmoire, lexpression de R(D) se simplifie car elle
devient indpendante de la valeur de n :
R(D) = min {I (X , Y ) | E ((X Y )2 ) 6 D}

p(y|x)
En codage sans pertes il vient H = H (X ), lentropie de la v.a. X .
2.5 Cas dune source gaussienne.

En codage avec pertes dune source gaussienne sans mmoire de distribu-
tion de probabilit :
1 (x)2

p(x) = p e 22
22
on peut calculer explicitement R(D). On trouve :
2
log2 D
(
1
2
D 6 2 ,
R(D) =
0 D > 2 .
2
o Dest le rapport signal bruit.
Ceci correspond une borne optimale de Shannon quon peut exprimer
sous la forme dune fonction distorsion/taux :
D(R) = 2 22R .
On obtient une courbe thorique de performances optimales o le rapport si-

gnal bruit (en dB) crot linairement en R, avec une pente de 6 dB/bit.
16 CHAPITRE 2. THORIE DE LINFORMATION APPLIQUE AU CODAGE
Chapitre 3
Codage entropique longueur

variable
3.1 Description dun systme de codage longueur

variable.
On se donne une source discrte (donnes, fichier, . . . ) dont chaque sym-

bole x prend une parmi M valeurs possibles {x 1 , x 2 , . . . , x M }.
Une distribution de probabilit p(x) caractrise les statistiques de cette source,
on la suppose connue (ou estime) sous la forme {p 1 , p 2 , . . . , p M }, o p i est la
probabilit doccurrence du symbole x i .
Le codeur code chaque symbole de source x i par un mot de code c i . Le code
est lensemble des mots de codes {c 1 , . . . , c M }.
Un code longueur variable (VLC : Variable-Length Code) est tel que les
diffrents mots de code nont pas ncessairement la mme longueur, en bits.
On note l i la longueur en bits du mot de code c i . La distribution des longueurs
du code est donc {l 1 , l 2 , . . . , l M }.
Le dcodeur reconstruit les symboles de source partir de la squence bi-
naire des mots de codes. Le taux de codage (coding rate) R est le nombre moyen
de bits cods par symbole de source, cest dire
M
X
R= pi li .
i =1
Un code est donc dautant plus efficace en compression que R est petit.
17
18 CHAPITRE 3. CODAGE ENTROPIQUE LONGUEUR VARIABLE
3.2 Codes uniquement dcodables et instantans. Condi-

tion du prfixe.
Le but du codage de source sans pertes est de comprimer ces donnes de
faon telle que lon puisse reconstruire parfaitement (sans pertes, sans erreur)
la source au destinaaire.
Pour cela, il faut que le dcodage ait lieu sans ambigut, cest dire quune
squence code donne doit tre interprtable de faon unique comme une
succession (concatnation) de mots de codes dtermins. Un code permettant
un tel dcodage (sans ambigut) est qualifi duniquement dcodable (u.d.).
Certains codes u.d. ncessitent une implantation complexe du dcodeur,
qui doit lire la squence code binaire suffisamment loin lavance pour dco-
der un symbole de source.
Dautres codes u.d., par contre, sont trs simples dcoder ; on les appelle
codes instantans, car le dcodeur na besoin de lire que les l i premiers bits
dune squence code pour pouvoir linterprter instantanment et de ma-
nire unique comme tant le mot de code c i , reprsentant le symbole x i .
Une code instantan est caractris par la condition du prfixe : Aucun mot
de code nest le prfixe dun autre mot de code (cest dire aucun c i ne dbute
un c j , j 6= i ).
3.3 Ingalit de Kraft-McMillan.

Pour trouver le meilleur code pour une source donne, il faut minimiser le
taux R sous la contrainte que le code soit u.d.
Afin de raliser cette optimisation, on caractrise dabord le fait quun code
soit u.d. sur la distribution des longueurs :
1. Tout code u.d. vrifie lingalit de Kraft-McMillan :
M
2l i 6 1
X
i =1
2. Rciproquement, si lingalit de Kraft-McMillan est vrifie, alors il existe

un code u.d., et mme instantan, qui admette {l 1 , l 2 , . . . , l M } comme dis-
tribution de longueurs.
Il en rsulte quon peut limiter la recherche du meilleur code lensemble
des codes instantans. Il y a un algorithme simple qui fournit un code instan-
tan {c 1 , . . . , c M } partir dune distribution de longueurs {l 1 , l 2 , . . . , l M } vrifiant
lingalit de Kraft-McMillan.
3.4. OPTIMISATION. CODES DE FANO-SHANNON ET DE HUFFMAN. 19
3.4 Optimisation. Codes de Fano-Shannon et de Huff-

man.
Daprs le paragraphe prcdant, pour trouver le meilleur code pour une
source donne, il faut minimiser le taux R sous la contrainte de lingalit de
Kraft-McMillan :
X X l
min{R = p i l i | 2 i 6 1}
i i
Si on applique brutalement la mthode du Lagrangien on trouve que R est

minimis lorsque l i = log2 p1 , auquel cas le taux minimal est lentropie de la
i
source :
XM 1
H = H (U ) = p i log2
i =1 pi
Cependant ce rsultat ne donne pas, en gnral, des longueurs l i entires !
Une faon dobtenir des longueurs entires est de prendre1
1
l i = dlog2 e
pi
On obtient la famille des codes de Fano-Shannon, qui vrifient bien lingalit

de Kraft-McMillan, et pour lesquels on trouve
H 6 R 6 H + 1.
Cependant ces codes ne sont pas toujours optimaux.

La rsolution complte du problme de recherche du meilleur code est don-
ne par algorithme itratif sur M appel algorithme de Huffman. On obtient
alors un code de Huffman dont le taux R est minimal pour une source donne
(par les p i ).
3.5 Thorme de Shannon.

Daprs ci-dessus le taux de codage du meilleur code vrifie lingalit H 6
R 6 H +1. Comme le montre lexemple dune source binaire (M = 2) dentropie
faible, on ne peut pas en gnral amliorer lingalit R 6 H + 1 en codant la
source symbole par symbole.
En pratique on utilise alors des techniques de codage par plage (RLC : Run-
Length Coding) pour amliorer les performances.
1
dxe dsigne le plus petit entier > x.
20 CHAPITRE 3. CODAGE ENTROPIQUE LONGUEUR VARIABLE
Une autre possibilit est de coder la source par blocs de n symboles. On

obtient alors pour R en bits/symbole lencadrement :
1
H 6R 6H+ ,
n
o H est lentropie dordre n de la source. En faisant n , on obtient le tho-
rme de Shannon pour le codage de source sans pertes, qui affirme quon peut
sapprocher de lentropie de la source daussi prs quon veut.
3.6 Autres systmes de codage sans pertes.

Dautres systmes de codage de source sans pertes ont t proposs pour
prendre en compte les dpendances temporelles (dun symbole lautre) de la
source (source avec mmoire) ; Ces sytmes de codage permettent de coder une
source quelconque sans connaitre a priori ses statistiques (codage universel),
mais sont plus complexes mettre en oeuvre. Les plus connus sont les systmes
de codage de Lempel-Ziv et de Codage arithmtique.
Chapitre 4
Quantification scalaire
4.1 Description dun systme de quantification sca-

laire.
On se donne une source continue X modlise par des chantillons ala-
toires de densit de probabilit p(x). Le quantificateur Q code chaque chan-
tillon x par une tiquette binaire ou index i pouvant prendre M valeurs. Le d-
quantificateur Q 1 reconstruit les chantillons y partir des index binaires.
Le taux de quantification R est toujours le nombre moyen de bits cods par
chantillon, cest dire
R = log2 M .
On considrera ici (comme dans la plupart des applications) une distorsion

quadratique ou erreur quadratique moyenne (e.q.m.) :
Z
2
D = E {(X Y ) } = p(x)(x y)2 d x
Afin doptimiser le systme de quantification, on cherche minimiser D pour

un taux R donn.
Concevoir un quantificateur revient partionner lensemble des valeurs
possibles de X en M cellules ou rgions de quantification notes R 1 , R 2 , . . . , R M ,
de sorte que x est quantifi sur lindex i si et seulement si x R i .
Concevoir un dquantificateur revient se donner M reprsentants nots
y 1 , y 2 , . . . , y M , un par cellule, se sorte que i est dquantifi sur y = y i . Lensemble
de ces reprsentants sappelle le dictionnaire (codebook).
Optimiser le systme revient donc choisir des cellules R i et des reprsen-
21
22 CHAPITRE 4. QUANTIFICATION SCALAIRE
tants y i optimaux tels que la distorsion D soit minimale :

M Z
p(x)(x y i )2 d x.
X
D=
i =1 R i
Insistons sur le fait quici la quantification est scalaire, cest dire quon
quantifie chantillon par chantillon. On ne peut donc pas exploiter la m-
moire de la source.
4.2 Conditions du plus proche voisin et du centrode

En pratique il est trop difficile de minimiser D directement. On procde
donc par optimisation spare : en fonction des cellules dune part, et des re-
prsentants dautre part.
4.2.1 Condition du plus proche voisin

Ici on cherche optimiser D sur le choix des cellules R 1 , R 2 , . . . , R M pour un
dictionnaire y 1 , y 2 , . . . , y M donn. Autrement dit, on optimise le quantificateur
pour un dquantificateur donn.
Pour cela, il suffit de remarquer que lerreur quadratique (x y)2 est mini-
male lorsque y est le reprsentant le plus proche de x. Cette condition, appele
condition du plus proche voisin, revient choisir les cellules optimales sui-
vantes (appeles cellules de Vorono) :
R i = {x tel que |x y i | 6 |x y j | pour tout j }
Autrement dit, les R i sont des intervalles du type (x i 1 , x i ) dont les frontires x i
sont les milieux entre deux reprsentants successifs :
y i + y i +1
xi = .
2
4.2.2 Condition du centrode

Ici on cherche optimiser D sur le choix du dictionnaire y 1 , y 2 , . . . , y M pour
des cellules R 1 , R 2 , . . . , R M donnes. Autrement dit, on optimise le dquantifica-
teur pour un quantificateur donn.
Pour cela, il suffit de minimiser la contribution de y i la distorsion totale D
pour tout i : Z
min p(x)(x y i )2 d x
Ri
4.3. ALGORITHME DE LLOYD-MAX 23
En annulant la drive de cette fonction quadratique on trouve la condition du

centrode : R
R xp(x) d x
yi = R i
R i p(x) d x
qui exprime que y i est le centrode (barycentre) de R i selon la distribution de

probabilit de la source.
4.3 Algorithme de Lloyd-Max

Lalgorithme de Lloyd-Max (1960) consiste itrer les deux conditions pr-
cdentes qui ne sont que des conditions ncessaires doptimalit, afin dobte-
nir une solution vrifiant simultanment les deux conditions.
On initiale lalgorithme par un choix arbitraire des centrodes (par exemple)
. On applique ensuite la condition du plus proche voisin qui dtermine les cel-
lules, puis on recalcule les centrodes par la condition du centrode, et on re-
commence jusqu convergence.
1. Cette convergence arrive-t-elle toujours ? Oui, car la distortion globale D
ne peut que diminuer chaque tape de lalgorithme ; elle converge donc
vers une valeur limite. En pratique, la convergence, la solution reste
stationnaire et vrifie donc simultanment les deux conditions du plus
proche voisin et du centrode.
2. Obtient toujours un minimum global ? Non, car on peut trouver des contre-
exemples avec minima locaux (cf. exercice). Cependant, on peut montrer
que si la fonction
log p(x)
est concave, alors la solution obtenue aprs convergence est effective-
ment loptimum global. Cest le cas, par exemple, pour une source gaus-
sienne ou uniforme.
4.4 Performances en haute rsolution

Le systme de quantification est dit en haute rsolution si les cellules de
quantification sont assez petites pour quon puisse les considrer infinitsi-
males pour le calcul des performances. Cela suppose un taux de codage R lev.
Sous cette condition, la distorsion quadratique scrit :
XZ y i +q i /2 1 X
D p i (x y i )2 d x = p i q i3
i y i q i /2 12 i
o q i est la longueur (pas de quantification) de la cellule R i et o p i est la va-

leur constante de p(x) dans R i . En rapproximant le rsultat par une intgrale
il vient :
q(X )2
D =E
12
o q(x) est la pas de quantification variable (= q i pour x R i ).
Noter que si la quantification est uniforme (pas constant q i = q) on obtient
la formule (classique) :
q2
D=
12
1
On introduisant la fonction (x) = M q(x)
qui reprsente la densit des cel-
lules de quantification (cf. exercice), et en notant que M = 2R , on obtient la
formule de Bennett :
p(x)
Z
1
D= d x 22R
12 (x) 2
o (x) > 0 et (x) d x = 1.

R
La formule de Bennett donne les performances dune quantification sca-

laire non uniforme quelconque, caractrise par sa densit (x). En optimisant
cette densit par rapport la source on obtient (cf. exercice) :
Z 3
1 1/3
D= p(x) dx 22R .
12
On montre en exercice que, pour une source gaussienne de variance 2 , on a :

p
3 2 2R
D= 2 .
2
comparer avec la limite de Shannon D = 2 22R . La caractristique de rapport

signal bruit (en dcibels), fonction du
p
taux de quantification en bits, laisse
apparatre une diffrence de 10 log10 2 3 = 4.35 dB en dessous de la limite de
Shannon. On est encore loin de loptimal !
4.5 Performances en prsence dun codeur entropique

Une faon damliorer le systme est de faire suivre la quantification par
un codage entropique (sans pertes, cf. leon prcdente). La distorsion D =
1
12
E q(X )2 est alors inchange mais le taux a diminu ; on peut lvaluer comme
4.5. PERFORMANCES EN PRSENCE DUN CODEUR ENTROPIQUE 25
lentropie de lindex de distribution de probabilit p(i ) = p i q i avec les nota-

tions prcdentes. On obtient
X 1
R= p i q i log2
i p i qi
que lon peut rapproximer comme une intgrale ; il vient :
1
R = H (X ) + E log2
q(X )
o H (X ) est lentropie diffrentielle de la source. En utilisant lingalit de Jen-

sen (concavit du logarithme, cf. exercice du chapitre 1) sur q(X ), on obtient
une distorsion minimale :
1
D = 22H (X ) 22R
12
qui est atteinte dans le cas dgalit de lingalit de Jensen, cest dire quand
q(x) est constant = q.
Autrement dit, lorsquelle est suivi dun codage entropique, la quantifica-
tion scalaire optimale est uniforme.
Dans le cas dune source gaussienne il vient
2e 2 2R
D= 2 .
12
On est plus qu 10 log10 2e

12
= 1.53 dB en dessous de la limite de Shannon. Le
codage entropique a apport un gain important, en tout cas en haute rsolu-
tion, cest dire pour un fort rapport signal bruit.
Chapitre 5
Codage par transforme
5.1 Description dun systme de codage par trans-

forme.
On se donne une source continue X modlise par des chantillons ala-
toires de densit de probabilit p(x) et de variance 2X . On ne suppose pas ici
la source sans mmoire.
Le codage par transforme consiste envoyer un vecteur
X = (X 1 , . . . , X n )
de n chantillons de cette source dans une transforme (inversible) T. On ob-

tient ainsi un vecteur U = T(X ) dans le domaine transform.
Chaque chantillon Ui en sortie de la transforme est ensuite quantifi par
un quantificateur Q i sur M i niveaux de quantification. Pour chacune de ces
sources, on a ainsi un taux de quantification de R i = log2 M i bits par chan-
tillon.
Le dquantificateur Q 1 reconstruit les chantillons Vi ; la transforme
inverse T1 est finalement appliqu au vecteur V pour fournir la source recons-
truite Y = T1 (V ).
Le taux de quantification global R est toujours le nombre moyen de bits
cods par chantillon de source X , cest dire
1X
R= Ri
n i
Insistons sur le fait quici la quantification est scalaire, mais porte sur des coef-
ficients transforms dun vecteur de source. Bien que lon quantifie les coeffi-
cients transforms chantillon par chantillon, on peut quand mme exploiter
la mmoire de la source.
27
28 CHAPITRE 5. CODAGE PAR TRANSFORME
On considrera ici (comme dans la plupart des applications) une distorsion

quadratique pour les quantificateurs Q i :
D i = E {(Ui Vi )2 }.
Pour chacune des sources Ui quantifier, on supposera quil existe une formule
du type "formule de Bennett" tablie dans la leon prcdente, qui donne la
distorsion D i due la quantification Q i :
2
D i = c i Ui 22Ri
Dans cette expression, la constante c i dpend du type de source Ui et du type
de quantificateur Q i . Il ny a pas de raison que les constantes soient toutes
gales, sauf par exemple dans le cas dunep
quantification scalaire optimale dune
source gaussienne o on a vu que c i = 2 3 .
5.2 Codage par transforme orthogonale.

Pour simplifier lexpos on choisit une transforme orthogonale, cest
dire une transforme linaire T, reprsente laide dune matrice carre T de
taille n n, qui prserve la norme quadratique :
kT X k = kX k
pour des vecteurs colonne X . Autrement dit, la transforme T est telle que
T T t = T t T = I.
et la transforme inverse est T 1 = T t .

Pour une transforme orthogonale, on peut aisment obtenir la distortion
globale du systme :
1
D= E {kX Y k2 }
n
1
= E {kT t U T t V k2 }
n
1
= E {kU V k2 }
n
1X
= Di .
n i
Noter que, avec un calcul analogue, la conservation de la norme peut se voir

sur les variances :
1X 2
2X = .
n i Ui
5.3. POURQUOI UNE TRANSFORME ? 29
5.3 Pourquoi une transforme ?

On va effectuer une comparaison dun codeur classique (quantification sans
transforme) et dun codeur par transforme, avec les mmes quantificateurs,
de sorte les diffrentes distorsions D i obtenues aprs transforme sont gales
entre elles, et donc la distorsion totale :
D i = D.
De mme, la distortion D 0 introduite par le quantificateur scalaire habituel

(sans transforme) sur la source X est D 0 = D = D i . Ainsi la distortion glo-
bale na pas chang malgr lintroduction de la transforme. Le codage tant
un compromis entre taux R et distortion D, il faut donc regarder ce qui se passe
sur R.
Dans le systme de codage par transforme, on a R = n1 i R i o D i = c i Ui
2
22Ri ,
P
do en supposant les c i = c constants :

qQ
i Ui
n 2
1 c
R = log2
2 D
Pour le systme classique sans transforme, on a pour le quantificateur la mme
formule de Bennett qui relie distorsion globale D 0 = D et taux R 0 : D 0 = c2X 22R0 ,
cest dire :
1 c2X
R 0 = log2
2 D
1P
Sachant que X = n i Ui , on obtient un gain sur les taux de
2 2
1
log2 G T C bits
2
o
1
U
2
P
n i i
G T C = qQ
n
i U
2
i
est le gain de codage par transforme (Transform Coding Gain). Ce gain de

codage est toujours > 1 (voir exercice) : Une transforme orthogonale apporte
toujours un gain !
5.4 Rpartition optimale des taux aprs transforme

Dans un systme de codage par transforme, quelle est la rpartition opti-
male des taux R i qui, pour un taux global R = n1 i R i donn, minimise la dis-
P
torsion globale D = n1 i D i ?
P
30 CHAPITRE 5. CODAGE PAR TRANSFORME
Cest un problme de minimisation sous contrainte qui se rsout par la m-

thode du multiplicateur de Lagrange : en tenant compte de la formule de Ben-
nett, le Lagrangien est :
X 2 2R
L = n1 cUi 2 i Ri .
X
i i
En drivant le lagrangien par rapport aux variables R i on obtient
D i = Constante
ce qui correspond prcisment la situation du paragraphe prcdent. On a

donc une distorsion minimale :
rY
D min = c n U
2
22R
i
i
et le gain de codage par transforme G T C dfini ci-dessus donne le gain en dis-

torsion d la transforme :
D0
= GT C .
D min
pour un taux de codage R donn.

Rappelons que pour obtenir lexpression de G T C , on a utilis des formules
de Bennett valables en haute rsolution. Le gain G T C nest donc valable quen
fort dbit.
De plus, les constantes c i dans les formules de Bennett sont supposes toutes
gales. Ceci correspondrait une situation o la source est gaussienne et o
tous les quantificateurs utiliss sont optimiss.
5.5 Transforme optimale

Sous les mmes hypothses qunonces ci-dessus, on peut trouver la trans-
forme orthogonale qui maximise le gain de codage G T C (voir exercice). Cette
transforme est la transforme de Karhunen-Love et est obtenue comme une
matrice dont les colonnes sont les vecteurs propres de la matrice dautocova-
riance de la source.
En pratique, on utilise des approximations de la transforme de Karhunen-
Love qui sont indpendantes de la source et qui se comportent de la mme
manire pour des signaux trs corrls. Cest le cas de la transforme en cosinus
discrte (DCT : Discrete Cosine Transform) utilise en compression dimages.
Annexe A
Exercices pour le chapitre 1 :

Outils de la thorie de linformation
A.1 Dbit dun modem tlphonique.

Sur le rseau NUMERIS le signal de parole est chantillon 8 kHz (largeur
de bande maximale < 4 kHz par le thorme dchantillonnage de Nyquist).
Chaque chantillon du signal de parole est ensuite quantifi sur 256 niveaux
damplitude. Calculer le taux de codage R et le dbit binaire correspondant en
kb/s.
A.2 Variable gaussienne.

Calculer le moyenne est la variance de la v.a. X de distribution de probabi-
lit :
1 (x)2

p(x) = p e 22
22
o et 2 > 0 sont des paramtres. Commenter.
A.3 Formule de Bayes. Traitement rciproque

Montrer la formule de Bayes :
p(y|x)p(x)
p(x|y) = Z .
P
p(y|x)p(x)
x
Commenter cette formule en considrant le traitement rciproque dentre
Y et de sortie X .
31
A.4 Chanes de Markov.
1. En saidant de la formule p(x, y) = p(x)p(y|x), montrer la mme formule
conditionne par z :
p(x, y|z) = p(x|z)p(y|x, z)
2. En dduire que X Y Z forme une chane de Markov si et seulement

si X et Z sont indpendants sachant y, i.e. :
p(x, z|y) = p(x|y)p(z|y)
3. Montrer que si X Y Z est une chane de Markov, alors la chane

rciproque Z Y X lest aussi.
A.5 Positivit de la divergence.

1. Montrer que la fonction logarithme est strictement concave.
2. En dduire lingalit de Jensen :
E log2 f (X ) 6 log2 E f (X )
avec galit si et seulement si la fonction f est constante p.p.

3. En considrant D(p, q) dmontrer le rsultat fondamental du cours concer-
nant la positivit de la divergence.
4. (Facultatif) Retrouver ce rsultat avec lingalit loge x 6 x 1.
A.6 Proprits de lentropie.

On considre lentropie H (X ) dune v.a. discrte X (pouvant prendre un
nombre fini M de valeurs).
1. Montrer que H (X ) est une auto-information H (X ) = I (X , X ). Interpr-

ter ce rsultat.
2. Montrer que H (X ) > 0 et dterminer le cas dgalit.
3. En saidant du rsultat fondamental sur les divergences (ingalit de Gibbs),
montrer que H (X ) 6 log2 M et dterminer le cas dgalit.
32
A.7 La connaissance rduite lincertitude.
Montrer et interprter (dans le cas de v.a. discrte) lingalit suivante :
H (Y |X ) 6 H (Y ).
La connaissance rduit-elle toujours lincertitude ?
A.8 Entropie diffrentielle et entropie absolue.

(Facultatif).
On considre une v.a. continue X que lon quantifie uniformment avec un
pas de quantification q pour obtenir uneR v.a. discrte [X ].
1
En approximant lintgrale H (X ) = x p(x) log2 p(x) par une somme de Rie-
mann, tablir que
H (X ) H ([X ]) log2 (1/q)
Interprter ce rsultat lorsque q 0 et expliquer le terme entropie diffren-
tielle.
33
34
Annexe B

Application de la thorie de
linformation au codage
B.1 Dmontration du thorme du traitement de don-

nes.
1. A laide des deux formules p(x, y) = p(x)p(y|x) et p(x, y|z) = p(x|z)p(y|x, z)
(voir exo leon 1), dmontrer la formule :
I ((X , Y ); Z ) = I (X , Z ) + I (Y , Z |X )
2. On considre dornavant une chane de Markov X Y Z . Dvelopper

I ((X , Y ); Z ) de deux manires diffrentes et en dduire le thorme du
traitement de donnes dans un cas particulier : I (Y , Z ) > I (X , Z ).
3. Sachant que Z Y X est galement une chane de Markov (voir exo
leon 1), montrer que I (X , Y ) > I (X , Z ).
4. En dduire lnonc gnral du thorme du traitement de donnes.
B.2 Fonction taux-distorsion : Cas extrmes.

On considre la fonction taux-distorsion R(D) pour une source sans m-
moire.
1. Cas D = 0 (codage sans pertes). Etablir la borne de Shannon R(D = 0)
dans ce cas. Commenter
2. Cas R = 0 (pas de transmission). Etablir D la borne de Shannon R(D) = 0
dans ce cas. Comenter.
35
B.3 Entropie dune source gaussienne.
1. Calculer lentropie diffrentielle H (X ) lorsque X est une v.a. gaussienne.
Commenter.
2. Montrer que lentropie dune v.a. X de variance 2 est maximale lorsque
X est gaussienne.
B.4 Fonction taux-distorsion : Cas gaussien.

On considre une source gaussienne sans mmoire de moyenne nulle et de
variance 2 .
1. Montrer que R(D) = H (X ) max H (X |Y ).
2. Trouver le maximum de lentropie conditionnelle sachant que H (X |Y ) =
H (X Y |Y ) 6 H (X Y ). Justifier que ce maximum peut tre effective-
ment atteint.
3. En dduire lexpression cherche de R(D).
36
Annexe C

Codage entropique longueur
variable
C.1 Condition du prfixe.

1. Justifier quun code vrifiant la condition du prfixe est dcodable de ma-
nire instantane.
2. Rciproquement, montrer quun code instantan vrifie la condition du
prfixe.
3. En utilisant les rsultats du cours sur lingalit de Kraft-McMillan, mon-
trer que tout code u.d. peut tre remplac par un code instantan ( pr-
fixe) de mme distribution de longueurs et donc de mme taux. Com-
menter.
C.2 Dmonstration de lingalit de Kraft-McMillan.

1. Montrer que pour un code u.d., toute squence de l bits peut se dcom-
poser dau plus une faon comme concatnation de mots de codes c i 1 c i 2 c i k
o l i 1 + l i 2 + + l i k = l .
2. En dduire que le nombre total Nl (k) de concatnations possibles de k
mots de codes donnant une squence code de longueur totale l bits v-
rifie lingalit : Nl (k) 6 2l .
3. Montrer par ailleurs que
M
x l i )k = Nl (k)x l
X X
(
i =1 l
37
4. Conclure en faisant x = 1/2 et k .
C.3 Construction dun code instantan.

On se donne une distribution de longueurs l 1 6 l 2 6 . . . 6 l M vrifiant lin-
galit de Kraft-McMillan. A chaque mot de code c i ( trouver) on associe le
nombre c i = 0, c i [0, 1[ dont les dcimales de lcriture en base 2 est forme
des bits de c i . On note I i lintervalle I i = [c i ; ci + 2l i [.
Par exemple, c i = 010 donne c i = 0, 010 = 14 . et I i = [0, 010; 0, 011[= [ 14 ; 83 [ est
lensemble des nombres de [0; 1[ dont les dcimales en base 2 commencent par
ci .
1. Montrer que c i dtermine I i , et rciproquement.

2. Montrer que le code est instantan si et seulement si les I i sont des inter-
valles disjoints.
3. Interprter lingalit de Kraft-McMillan sur les I i est en dduire un algo-
rithme de construction du code.
4. Prciser cet algorithme sur des exemples pour l 1 6 l 2 6 . . . 6 l M , en com-
menant par c 1 = 0.0 . . . 0, et en posant c i +1 = extrmit droite de I i
chaque tape.
5. Que se passe-t-il si les l i ne vrifient pas lingalit de Kraft-McMillan ?
Donner un exemple.
C.4 Algorithme de Huffman. Prliminaires

On considre un code VLC optimal pour une source de distribution de pro-
babilit p 1 > p 2 > > p M .
1. Montrer que ncessairement l 1 6 l 2 6 6 l M (raisonner par labsurde

en supposant p i > p j et l i > l j ). Commenter.
2. Montrer que ncessairement lingalit de Kraft McMillan est une galit
(raisonner par labsurde en supposant i 2l i < 1, et montrer qualors on
P
peut remplacer l M par l M 1).

3. Dduire du raisonnement de la question prcdente que l M 1 = l M , et
quon peut toujours se ramener au cas o les deux mots de codes c M 1 et
c M ne diffrent que par le dernier bit.
38
C.5 Algorithme de Huffman.
On considre une source M -aire de distribution de probabilit p 1 > p 2 >
> p M . La rduction de Huffman consiste considrer la source (M 1)-aire,
0
dite rduite, de distribution de probabilit p 1 , p 2 , , p M 2 , p M 1 = p M 1 +
p M (on combine les deux symboles les moins probables).
On note {c 1 , . . . , c M 1 , c M } le code optimal cherch ( lordre M ). Daprs ci-
dessus, c M 1 et c M ne diffrent que par le dernier bit ; on peut crire c M 1 =
0 0
[c M 1 0] et c M = [c M 1 1]
1. En comparant les taux de codage de la source initiale et de la source r-

duite aprs rduction de Huffman, montrer que le code
0
{c 1 , . . . , c M 2 , c M 1 }
est optimal pour la source rduite.

2. Donner un moyen de contruire le code optimal {c 1 , . . . , c M 1 , c M } partir
0
de {c 1 , . . . , c M 2 , c M 1 }.
3. Par rductions de Huffman successives jusquau cas M = 2 (o le code
{0,1} est optimal), obtenir un algorithme de construction du code {c 1 , . . . , c M 1 , c M }.
N.B. : Il faut rordonner chaque tape les probabilits aprs chaque r-
duction de Huffman.
39
40
Annexe D

Quantification scalaire.
D.1 Caractristique Dbit-Distorsion en haute rso-

lution
On effectue une quantification scalaire uniforme haute rsolution dune
source quelconque de variance 2 et de densit de probabilit support born
dans [A, A].
1. Calculer la distorsion en fonction du taux de quantification. On crira le
rsultat en fonction du facteur = A .
2. Expliquer le terme 6 dB par bit pour qualifier la caractristique dbit/distorsion.
D.2 Minima locaux de lalgorithme de Lloyd-Max.

On considre un signal alatoire X de densit de probabilit :

1 pour 1 6 x 6 1.5

p(x) = 2 pour 1.25 6 x 6 1

0 sinon.

Il est quantifi scalairement sur 3 niveaux. On considre les deux solutions sui-
vantes caractrises par la position des centrodes :
3 1 1 1 3
{1 , 1 , 1.25} et {1 , 1 + , 1 + }
16 16 8 8 8
1. Donner, pour chacune de ces solutions, les cellules de quantification op-
timales.
41
2. Vrifier que ces deux situations vrifient les conditions de convergence
(point stationnaire) de lalgorithme de Lloyd-Max.
3. Calculer la contribution la distorsion quadratique dune cellule du type
[q, q] correspondant une amplitude A de la densit de probabilit.
4. En dduire les valeurs des distorsions totales dans les deux cas consid-
rs. Quelle est la solution la meilleure ?
5. Quen dduire sur lalgorithme de Lloyd-Max ? La fonction log p(x) est-
elle concave ?
D.3 Densit des cellules de quantification

1
Justifier que (x) = M q(x) reprsente la densit des cellules en valuant
lintgrale I (x) d x prise sur un intervalle I .
R
D.4 Optimisation de la formule de Bennett

1
1. Dans la formule de Bennett, quelle est la densit des cellules (x) = M q(x)
qui minimise la distorsion ? Indication : Ecrire le lagrangien correspon-
dant.
2. Calculer la distorsion minimale correspondante.
3. Appliquer ces rsultats la source gaussienne.
D.5 Ralisation de la quantification scalaire non uni-

forme par non-linarits.
On ralise une quantification scalaire non uniforme dune source U de la
manire suivante : On transforme dabord la source X = f (U ) laide dune
fonction non lineaire f . On applique ensuite une quantification scalaire uni-
forme X qui fournit Y , et on applique enfin la non-linarit inverse V = f 1 (Y ).
1. Faire un dessin.
2. Sous les hypothses de haute rsolution, dterminer la densit des cel-
1
lules (u) = M q(u) en fonction de la non-linarit f .
3. En dduire la non-linarit optimale qui rend la distorsion quadratique
minimale, en fonction de la densit de probabilit de la source p(u). In-
dication : Utiliser lexercice prcdent.
42
D.6 Quantification vectorielle
En quantification vectorielle en dimension n, on attribue chaque vecteur
de source X = (X 1 , X 2 , . . . , X n ) une tiquette binaire correspondant un cen-
trode Y en dimension n.
1. Reprendre, dans le cas vectoriel, les conditions du plus proche voisin et
du centrode vues en cours.
2. En dduire lalgorithme de Lloyd-Max dans ce cas.
3. Montrer que lalgorithme de Lloyd-Max peut converger vers un minimum
local, mme si log p(x) est concave. On considrera pour cela une source
uniforme X dans lintervalle [1, 1] quantifie en dimension 2 sur 1 bit
par chantillon (cest dire 4 centrodes en 2 dimensions) et les deux si-
tuations suivantes :
1 1
centrodes y = ( , )
2 2
et
1 3
centrodes y = ( , 0) et ( , 0).
4 4
43
44
Annexe E

Codage par transforme
E.1 Gain de Codage

1. Donner lingalit de concavit du logarithme.
2. En dduire que le gain de codage par transforme est toujours > 1. Quel
est le cas dgalit ?
3. Donner un exemple de source pour laquelle le gain de codage est tou-
jours = 1.
E.2 Ingalit de Hadamard

Soit X un vecteur alatoire, de composantes X i de variance 2i . On dfinit
la matrice dautocovariance :
R = E (X X t ).
1. Donner les coefficients r i , j de la matrice R.

2. Quelle est la forme particulire de R pour des composantes X i dcorr-
les ?
Xi
3. Les composantes rduites sont X i0 = i
. Donner la matrice dautocova-
riance R 0 des X 0i en fonction de R.
4. En dduire det R en fonction de det R 0 et des 2i .

5. Montrer que det R 0 6 1 (raisonner sur les valeurs propres de R 0 ).
45
6. En dduire lingalit de Hadamard :
2i
Y
det R 6
i
7. Quel est le cas dgalit ?
E.3 Transforme de Karhunen-Love

1. En considrant le gain de codage, montrer que la transforme optimale
est celle qui minimise le produit des variances en sortie de la transforme.
2. A laide de lingalit de Hadamard, montrer que la transforme optimale
est celle qui dcorrle la sortie.
3. Comment obtenir la transforme optimale partir de R = E (X X t ) ?
XX
Cette transforme sappelle la transforme de Karhunen-Love.
4. Expliciter le gain de codage optimal.
5. Pour quel type de source le codage par transforme savre-t-il inutile ?
Est-il pour autant nuisible ?
E.4 Codage par transforme pour n = 2
U1
-
Q1 -
C1 -
source X
bits cods
-
T
U2-
Q2 - C2 -
On considre un schma de codage de source par transforme orthogonale

dontla partie codage est reprsente dans lafigure. Chaque bloc de source
X = XX 12 est transforme en deux chantillons U
1

U2 = U avant dtre quantifi
et cod. On a donc :
U = T X
o T est la matrice de la transforme orthogonale (TTt = I).
Les quantificateurs sont scalaires uniformes et les codeurs entropiques sont
des codeurs de Huffmann. Pour chaque branche i (i = 1, 2), la distorsion qua-
dratique moyenne de au quantificateur Q i est note D i et le taux binaire moyen
aprs codage de Huffmann C i est not R i .
46
On modlise les signaux en sortie de transforme par des sources lapla-
ciennes de variances 21 et 22 . On admet la relation :
D i = c2i 22Ri pour i = 1, 2
o c est une constante.

1. Justifier, daprs le cours, que les distorsion quadratique moyenne glo-
bale D et taux global R sont donns par :
D1 + D2 R1 + R2
D= et R=
2 2
2. Justifier (sans calcul), daprs le cours, quaprs optimisation des taux R 1

et R 2 la distorsion minimise est donn par la formule :
D = c1 2 22R
La matrice dautocorrlation du signal dentre X est donne par :
1

t
R = E(X X ) = 2X
1
o est un coefficient de corrlation (1 < < 1).

3. Calculer la matrice dautocorrlation de U en fonction de R et T.
4. En dduire la matrice dautocorrlation de U lorsque

1 1
T =
1 1
(On dterminera dabord la valeur de pour que T soit orthogonale).

5. Justifier que la transforme optimale est celle donne la question pr-
cdente. Sous quel nom est-elle connue ?
6. Donner lexpression de la distorsion D pour cette transforme en fonc-
tion de c, 2x , et R.
7. Quobserve-t-on si augmente ? Commenter.
47

Codage Et Source

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Codage Et Source

Transféré par

Droits d'auteur :

Formats disponibles

Information et Codage

Voie SIC (Systmes dInformation et de Communication)

Outils de la thorie de linformation

1.1 Description dun systme de codage de source.

tique moyenne (mean square error m.s.e.) par symbole de source :

o E dsigne lesprance de sorte disposer dun critre moyen sur len-

1.2 Rappels sur les variables alatoires.

1.3 Traitement et probabilits conditionnelles.

Cest une distribution de probabilit en y pour toute valeur fixe de x.

1.4 Suite de traitements et chane de Markov.

1.5 Divergence D(p, q).

1.6 Information mutuelle I (X , Y ).

Daprs le rsultat fondamental des divergences, I (X , Y ) > 0 et I (X , Y ) = 0 si et

1.7 Information mutuelle et entropie.

est appele entropie conditionnelle de Y sachant X . Cette dernire entropie

(symboles y quiprobables). On peut ainsi interprter H (Y ) comme une me-

Thorie de linformation applique

2.1 Thorme du traitement de donnes.

2.2 Fonction taux-distorsion (codage avec pertes). Tho-

Le minimum dinformation mutuelle seffectue sur n et sur le choix de p(y|x),

quon appelle fonction taux-distorsion R(D) de Shannon.

2.3 Entropie dune source (codage sans pertes).

2.4 Cas dune source sans mmoire.

p(x) = p(x 1 )p(x 2 ) p(x n ).

Dans la conception dun systme de codage de source on peut souvent se ra-

R(D) = min {I (X , Y ) | E ((X Y )2 ) 6 D}

En codage sans pertes il vient H = H (X ), lentropie de la v.a. X .

2.5 Cas dune source gaussienne.

On obtient une courbe thorique de performances optimales o le rapport si-

Codage entropique longueur

3.1 Description dun systme de codage longueur

On se donne une source discrte (donnes, fichier, . . . ) dont chaque sym-

3.2 Codes uniquement dcodables et instantans. Condi-

3.3 Ingalit de Kraft-McMillan.

2. Rciproquement, si lingalit de Kraft-McMillan est vrifie, alors il existe

3.4 Optimisation. Codes de Fano-Shannon et de Huff-

Si on applique brutalement la mthode du Lagrangien on trouve que R est

On obtient la famille des codes de Fano-Shannon, qui vrifient bien lingalit

Cependant ces codes ne sont pas toujours optimaux.

3.5 Thorme de Shannon.

Une autre possibilit est de coder la source par blocs de n symboles. On

3.6 Autres systmes de codage sans pertes.

4.1 Description dun systme de quantification sca-

On considrera ici (comme dans la plupart des applications) une distorsion

Afin doptimiser le systme de quantification, on cherche minimiser D pour

tants y i optimaux tels que la distorsion D soit minimale :

4.2 Conditions du plus proche voisin et du centrode

4.2.1 Condition du plus proche voisin

R i = {x tel que |x y i | 6 |x y j | pour tout j }

4.2.2 Condition du centrode

En annulant la drive de cette fonction quadratique on trouve la condition du

qui exprime que y i est le centrode (barycentre) de R i selon la distribution de

4.3 Algorithme de Lloyd-Max

4.4 Performances en haute rsolution

o q i est la longueur (pas de quantification) de la cellule R i et o p i est la va-

o (x) > 0 et (x) d x = 1.

La formule de Bennett donne les performances dune quantification sca-

On montre en exercice que, pour une source gaussienne de variance 2 , on a :

comparer avec la limite de Shannon D = 2 22R . La caractristique de rapport

4.5 Performances en prsence dun codeur entropique

lentropie de lindex de distribution de probabilit p(i ) = p i q i avec les nota-

que lon peut rapproximer comme une intgrale ; il vient :

o H (X ) est lentropie diffrentielle de la source. En utilisant lingalit de Jen-