Vous êtes sur la page 1sur 2

Chapitre 3

Codage de linformation
1. Codage de linformation
1.1. Les sources discrtes
Nous considrons les sources discrtes sans mmoire. La sortie dune telle source est une squence de lettres tires
dans un alphabet fini : A = {a
1
, a
2
, , a
n-1
}. Chaque lettre ai est choisie alatoirement daprs une loi de probabilit
p indpendantes du temps. Pour ai donne, la probabilit dapparition de ai est 0<Pr(ai)<1. Pr(.) vrifie :
1 ) Pr( =

i
a
i
a
On dit que Pr (.) est la loi de probabilit discrte sur lalphabet A. et (A, Pr) est lespace probabilis.
1.2. Entropie dune source discrtes
Lapparition dun vnement peu probable apporte plus dinformation que loccurrence dun vnement certain. Ce
dernier ne fournit aucune information. Si une lettre ai a une probabilit p(ai) dtre tire, linformation propre
correspondante est par dfinition :
I(ai) = -log
2
(Pr(ai)).
La valeur moyenne de linformation propre calcule sur lensemble de lalphabet est dfinie par lesprance de la
valeur alatoire I. Cette entit est lentropie de la source et est dfinie par :

=
A a
i i
i
a a A H )) (Pr( log ) Pr( ) (
2
Exemple : Si les lettres de lalphabet A sont quiprobable Pr(ai)=1/n, H(A) = log
2
(n).
Proprits :
i) H(A) dpend de la loi de probabilit de A mais nest pas fonction des valeurs prises par A.
ii) H(A) est exprim en bit ou en Shannon et reprsente le nombre moyen de bits ncessaires la codification
binaire des diffrentes ralisations de A.
iii) Lentropie dune alphabet A n valeurs possibles est maximum et vaut log
2
(n) lorsque la loi A est uniforme.
Donc, lincertitude sur A est la plus grande si toutes les valeurs possibles ont la mme probabilit de se raliser.
iv) Lentropie H(A) augmente lorsque le nombre de valeurs possibles augmentes.
Remarques :
Lentropie dune source A est parfois donne en bit/Seconde, si lentropie dune source discrte est H et si les
lettres sont mises toutes les Ts secondes, son entropie en bits/S est H(A)/Ts.
1.3. Codage de source
1.3.1. Dfinition
On sintresse au codage dune source discrte sans mmoire en une squence binaire. Le dcodage permet de
retrouver la squence de lettres mises par la source partir de la squence code binaire. Donc, le codage de
linformation est une bijection entre lensemble de lalphabet de la source dinformation et lensemble des mots
binaires (mots codes). Ce dernier ensemble est connu sous le nom code.
Si A est un alphabet fini, A* sera lensemble des mots sur lalphabet A. On compte parmi eux le mot ide, not .
La concatnation de deux mots u et v est note uv.
La taille dun mot u est le nombre dlments binaires du mot u et not |u|.
1.3.2. Le code
a. Dfinition
Un ensemble de mots finis C sur un alphabet A est appel code, ou encore code dchiffrage unique, ssi pour tous
mots u et v appartenant C : u = u
1
u
2
..u
n
, v = v
1
v
2
..v
m
, u = v implique que n = m et u
i
= v
i
pour tout i compris entre
1 et n.
Un ensemble prfixe de mots, d un ensemble de mots telque aucun mot nest le dbut dun autre, est un
code.
Un code prfix admet une reprsentation naturelle sous forme darbre n-aire, si n est la taille de lalphabet du code.
Cet arbre est forme de nuds que lon peut identifier un mot sur lalphabet du code. Le code est prfix ssi
lensemble des feuilles est le code.
b. Thorme de Kraft
18
Une condition ncessaire et suffisante pour quun code A puisse tre transform en un code prfix quivalent C
est :
1

C c
c
n
avec n = cardinal de A, c un mot code et |c| sa taille.
c. Thorme de Mac-Millan
Un Code C uniquement dchiffrable vrifie
1

C c
c
n
, avec n = Card C
d. Remarque :
Ces deux thormes nous permettent dafficher qu tout code uniquement dchiffrable, on peut associer un code
prfixe quivalent.
e. Efficacit du code
m
A H
E
) (
= , avec

=
C c
c p c m ) (
est taille moyenne des mots codes.
1.3.3. Quelques exemples de codes
Le codage des diffrents tats dun systme se base sur leurs statistiques. Si les tats sont quiprobables un codage
de longueur fixe (CLF) est utilis dans ce cas. La longueur du codage est la taille en binaire de chaque mot code.
Dans le cas contraire, on peut utilis un CLF ou un codage de longueur variable.
a. Les codes de longueur fixe
Chaque tat du systme est cod par des mots qui ont le mme nombre de bits. Par exemple avec 1 bit on peut
coder deux tats (binaires), et plus gnralement avec n bits on peut coder 2
n
tats. Si le nombre dtats N nest pas
une puissance de 2, on utilise la partie entire de log
2
(N)+1 bits pour coder ces tats.
Lefficacit du code est E = H(A)/log
2
(N)
b. Les codes de longueurs variables
Lorsque les tats de la source ne sont pas quiprobables, la quantit dinformation apporte par la connaissance
dun tat est dautant plus grande que cet tat a une faible probabilit de se raliser. La quantit moyenne
dinformation apporte par la connaissance dun tat, est lentropie donn par :

=
=
N
i
i i
p p H
1
2
) / 1 ( log
o pi reprsente la probabilit dapparition du symbole de rang i.
Lentropie reprsente la longueur moyenne optimale du codage de la source.
Exemple :
Dterminer lentropie de la source qui dlivre les symboles {a1, a2, a3, a4, a5, a6} avec les statistiques {45/100,
5/100, 26/100, 10/100, 8/100, 6/100}.
La littrature donne plusieurs algorithmes qui feront lobjet du chapitre 4.
a. Code de Shannon Fano : Il sagit du premier code utilis pour exploiter la redondance dune source.
Etape 1 : Classer les diffrents symboles coder suivant lordre dcroissant de leur probabilit.
Etape 2 : Diviser ces symboles en deux sous groupes de telle sorte que les probabilits cumules de ces deux
sous-groupes soient aussi proches que possible lune de lautre.
Etape 3 : On affecte 0 pour le 1
er
sous ensemble et 1 pour lautre.
Etape 4 : On divise les sous ensembles comme indiquer dans la premire tape et on procde comme dcrit la
seconde tape.
Lalgorithme prend fin lorsque les sous groupes ne contiennent quun lments. Tous les symboles ont alors
leurs codes
b. Code dHuffman : Le code dHuffman est construit sous forme dun arbre binaire.
Etape 1 : Classer les lettres de la source suivant lordre croissant de leurs probabilits.
Etape 2 : On cre un nud parent partir des deux lettres source de probabilits les plus faibles.
Etape 3 : On affecte au nud parent une probabilit gale la somme des deux probabilits des deux lettres
sources lorigine du nud parent.
Etape 4 : On limine de la liste les deux prcdentes lettres source et les remplace par le super symbole
constitu par le nud parent.
Pour les lettres sources restantes, on revient la deuxime tape jusqu ce quil ne reste plus de lettre.
La longueur moyenne dun code est

=
i
i i
p m m
avec mi et pi sont respectivement la taille du mot code et
probabilit dapparition du symbole de rang i
Lefficacit du code est :
m
A H
E
) (
= , avec H(A) est lentropie de lalphabet de la source.
19