Information, Source Et Entropie

Chapitre 1
Information, Source, Entropie

1.1 La mesure de linformation
Le but de loperation est dassigner une mesure à un message qui soit independante du sens du
message mais qui donne une evaluation quantitative de ce que le message nous apprend. A cette
n, on considère le message comme la realisation dune suite de variables aleatoires (V.A.)
1.1.1 Introduction
On considère un ensemble ni devènements elementaires:
[X] = (x
1
, x
2
, ..., x
n
) ; x
i
x
j
= , i, j, i ,= j
Levènement certain est
E = (x
1
x
2
... x
n
)
Chaque evènement possède une probabilite p(x
i
) telle que:
Pr(E) =
n
i=1
p(x
i
) = 1
1.1.2 Specication de i(x) = F (p(x))
La propriete essentielle de linformation est ladditivite, pour de evènements independants:
Si x
i
= x
i1
x
i2
, il est souhaitable que i(x
i
) = i(x
i1
) +i(x
i2
), soit F(p
i
) = F(p
i1
) +F(p
i2
).
Mais si x
i1
et x
i2
sont independants, alors p
i
= p
i1
p
i2
On obient donc lequation fonctionnelle
de linformation :
F(p
i1
p
i2
) = F(p
i1
) +F(p
i2
)
Dont la solution est:
F(p) = Log(p)
Le signe correspond au fait que, intuitivement, F(p) doit etre une fonction decroissante de
p.
1
2 CHAPITRE 1. INFORMATION, SOURCE, ENTROPIE
1.1.3 Unites dinformation
La constante est libre. Choisir consiste à choisir une unite dinformation:
i(x
i
) = lnp(x
i
)
Cela revient à choisir la base b du logarithme :
i(x
i
) = Log
b
p(x
i
) = (Log
b
e)(Log
e
p(x
i
)) =
Log
e
p(x
i
)
Log
e
b
et à poser
= Log
b
e =
1
Log
e
b
choix le plus frequent
On considère une alternative à deux possibilites, de probablites p
1
et p
2
avec p
1
+p
2
= 1. Si les
deux evènements possibles sont equiprobables, p
1
= p
2
=
1
2
, et :
i(x
1
) = i(x
2
) = Log
e
(1/2)
on pose cette information egale à 1, ce qui entrane:
=
1
ln(1/2)
,
do` u
i(x
1
) = i(x
2
) = Log
2
e Log
e
(1/2) = Log
2
(1/2) = 1
Lunite associee est le shannon , encore souvent appele bit(de binary unit).
autres choix dunites
- On pose = 1 . i(x
i
) = ln p(x
i
)
Lunite asociee est le nit (de natural unit).
1nit =
1
Ln2
bit = 1.44 bit
- On pose : i(x
i
) = Log
10
p(x
i
) lunite associee est le dit(de decimal unit ).
1dit =
1
Log
10
2
bit = 3, 32 bit
Sauf avis contraire, on utilise le bit ou shannon, deni par
i
bit
(x
i
) = Lb p(x
i
) = Lb
1
p(x
i
)
(on note Log
2
p(x
i
) : Lb p(x
i
))
1.2. NOTION DE SOURCE 3
Exemples et remarques
- Linformation apportee par un chire decimal est Lb
1
10
= 3, 32 bit, si les 10 chires
sont equiprobables, ce quon suppose a priori si lon na pas dinformation supplementaire.
- Attention à la distinction entre le shannon ou bit, unite dinformation, et le digit binaire,
lettre dun alphabet, objet de la transmission.
- Linformation en unites shannon est aussi le nombre de digits binaires necessaires pour
coder cette information : pour transmettre un chire decimal en code binaire (par exemple
en BCD), il faut en theorie 3,32 digits, et en pratique 4, lentier immediatement superieur.
- Linformation apportee par le tirage dune carte parmi 32 est Lb
1
32
= 5 bit
- Linformation contenue dans larmation un tel a le roi de pique (au bridge: 4 joueurs,
52 cartes) peut etre decomposee en :
un tel Lb
1
4
= 2 bit
et
roi de pique Lb
1
52
= 5, 7 bit,
soit un total de 7, 7 bit
- Si, dans la description de letat physique dun système, on passe dun etat initial à N
0
etats equiprobables à un etat nal à N
1
etats equiprobables, linformation acquise dans ce
changement de description est:
i
01
= Lb
1
N
1
(Lb
1
N
0
) = Lb
N
1
N
0
Lincertitude avant sest transformee en information après.
- Un chromosome de bacterie deplie a 1 mm de long. Il contient de linformation codee à
laide dun alphabet de 4 acides amines : thymine, guanine, adenine, et cytosine, de
longueur moyenne 3,4

A. Linformation contenue dans un chromosome est:
i =
10
3
3, 4 10
10
Lb 4 bit = 5, 882 Mbit
si lon suppose les 4 symboles equiprobables.
1.2 Notion de source
1.2.1 Denition
On dit quon a deni une source dinformation lorsquon a deni:
- un ensemble ni delements appeles symboles ou lettres
- un mecanisme demission des symboles selon une loi de probabilite donnee
- Les symboles sont emis à des instants donnes que lon peut numeroter. A chaque instant
est associe une V.A. distincte:
instant ... -2 -1 0 1 2 ...
V.A. ... X
2
X
1
X
0
X
1
X
2
...
Lemission dune suite de symboles est la realisation dune suite de variables aleatoires.
Classication des sources
La classication des sources se fait en fonction des caracteristiques de la suite X
n
.
Source quelconque
Une telle source est denie entièrement par :
- la donnee dun instant initial
- La donnee des lois conjointes ou conditionnelles
Pr(X
1
= x
i
) = p
i
Pr(X
2
= x
i
/X
1
= x
j
) = p
ij
Pr(X
3
= x
i
/(X
2
= x
j
X
1
= x
k
)) = p
ijk
etc...
Le modèle de la source quelconque est trop general pour etre utile. En particulier, si n est le
nombre de symbole de lalphabet, on aurait à denir 1 + n +n
2
+... lois de probabilite, ce qui
est trop.
Source simple
Une source est simple si toutes les V.A.X
i
sont:
- independantes
- de meme loi : Pr(X
1
= x
i
) = Pr(X
2
= x
i
) = Pr(X = x
i
)
La probabilite dune suite donnee de k symboles : s
kj
= x
1
, x
2
, ..., x
k
est alors :
Pr(s
k
) = Pr(X = x
1
) Pr(X = x
2
) ... Pr(X = x
k
)
Source homogène
Une source est dite homogène si toutes les lois conjointes sont invariantes par une translation
temporelle quelconque :
Pr(X
n
= x
n
) = Pr(X
n+h
= x
n
)
Pr(X
n
= x
n
, X
p
= x
p
) = Pr(X
n+h
= x
n
, X
p+h
= x
p
) etc n, p, h entiers
1.2. NOTION DE SOURCE 5
Source de Markov
La source de Markov est le cas le plus simple de source avec memoire ; on se limite au terme
precedent ou, plus generalement aux termes precedents. Pour une chane dordre 1, on a :
Pr(X
n
= x
n
/(X
1
= x
1
, X
2
=
2
, , X
n1
= x
n1
)) = Pr(X
n
= x
n
/X
n1
= x
n1
)
Exemple
Pour la langue francaise ecrite, on a :
Au premier ordre : Pr(X = espace)= 0, 184
Pr(X = e) = 0, 148
Pr(X = s) = 0, 077
Pr(X = n) = 0, 071
Pr(X = t) = 0, 068
etc ...
Mais il y a aussi des probabilites de couples, de triplets, etc...,
qui font partie de la signature de la langue employee. Par exemple:
Pr(ez) Pr(ze), ou
Pr(ch) Pr(hc)
Code Morse
Le code Morse a 4 symboles :
Le point : p le trait : t lintervalle entre lettres : i lintervalle entre mots : m
Il y a des contraintes du premier ordre evidentes : un intervalle i ou m ne peut etre suivi dun
2e intervalle. Do` u une matrice stochastique caracterisant la source :
` a p t i m
de
p x
11
x
12
x
13
x
14
t x
21
x
22
x
23
x
24
i x
31
x
32
0 0
m x
41
x
42
0 0
La presence de 0 dans la matrice exprime les contraintes. Il y a aussi des contraintes
dordre 4, plus compliquees à ecrire (pas de lettre de plus de 4 signes). On peut aussi decrire la
source à laide du schema suivant, o` u letat 1 est letat milieu de mot ou de lettre et letat
2 est letat n de mot ou de lettre.
Letude dune source de Markov est letude des puissances successives de la matrice de transition.
1.2.2 Extension dordre n dune source simple
Une source simple X est denie par lensemble des N symboles x
i
possibles et par lensemble
des probabilites p
i
. On considère alors lensemble des messages de longueur n (des mots de n
lettres) que peut emettre cette source : [X
n
] = s
1
, s
2
, , s
N
n, avec s
= x
1
x
2
x
n
.
Le nombre de messages dierents est N
n
, et la probabilite de chacun dentre eux peut etre
calculee simplement, car la source est simple : Pr(s
) = Pr(x
1
) Pr(x
2
) Pr(x
n
).
On a ainsi deni une nouvelle source, par lensemble des N
n
mots possibles et leurs probabilites
respectives. Cest par denition lextension dordre n de la source. On peut etendre sans
diculte cette denition à une source de Markov.
Exemple :
Soit S la source simple denie par lensemble de symboles :0, 1, 2, , 9 avec les probabilites
1
10
,
1
10
, ,
1
10
Lextension dordre n de cette source est denie par lensemble de symboles :0, 1, 2, , 10
n
1
et les probabilites
1
10
n
,
1
10
n
, ,
1
10
n
Lorsque la suite des decimales dun nombre reel peut etre considere comme une source simple
de ce type, on dit quil a la propriete de normalite. Par exemple est un nombre normal. Pour
2, on ne sait pas.
1.3 Entropie dune source
1.3.1 Denition
On etudie les chanes de symboles emis par une source simple : x
i
, p
i
, N.
Linformation apportee par lemission dun symbole x
i
est : i(x
i
) = Lb p
i
.
Linformation apprtee par la chane s
n
= x
1
x
2
x
n
est :
i(s
n
) =
n
j=1
Lb p
j
Supposons que n très grand, de manière que chaque symbole x
i
, si rare soit-il, gure dans la
chane un nombre n
i
de fois, lui-meme très grand. On a :
N
i=1
n
i
= n et i(s
n
) =
N
i=1
n
i
Lb p
i
Linformation moyenne par symbole, pour la chane s
n
, est :
i(s
n
)
n
=
N
i=1
n
i
n
Lb p
i
Cette moyenne a une limite lorsque n , car
n
i
n
est la frequence (proportion) du symbole
x
i
dans la chane :
lim
n
i(s
n
)
n
=
N
i=1
p
i
Lb p
i
Par denition, la quantite
H =
N
i=1
p
i
Lb p
i
= E(i(x
i
))
1.3. ENTROPIE DUNE SOURCE 7
est appelee lentropie de la source. Elle se mesure en bit par symbole. Lentropie mesure aussi
bien lincertitude moyenne par symbole (avant lemission) que linformation moyenne par sym-
bole (après lemission).
Exemples
- Alphabet de N lettres equiprobables : H =
N
i=1
1
N
Lb
1
N
= Lb N
- Alphabet de 2 lettres equiprobables : H =
2
i=1
1
2
Lb
1
2
= Lb 2 = 1 bit/symbole
- Alphabet de 2 lettres non equiprobables (loi de Bernoulli) : H = pLb p(1p)Lb (1p)
Avec la convention 0 Lb 0 = 0, on obtient :
H = 0 pour p = 0 ou p = 1 (Il ny a aucune incertitude sur le resultat)
H
max
= 1 pour p =
1
2
, qui correspond à lincertitude maximale. (Le meilleur menteur
ment une fois sur deux)
- Alphabet francais : Si on suppose les 27 lettres equiprobables, on trouve H = Lb 27 =
4, 75bit/symbole
En fait, la langue francaise nest pas une source simple. Il y a des probabilites conjointes
jusquà un ordre eleve. Si on en tient compte, on obtient H 1 à 2 bit/symbole
1.3.2 Proprietes de lentropie
Continuite, symetrie
Lentropie est continue par rapport aux p
i
car dans sa denition ninterviennent que les operations
elementaires + , , et la fonction continue Lb.
De meme, la symetrie, qui secrit :
i, j, H(p
1
, , p
i
, , p
j
, , p
n
) = H(p
1
, , p
j
, , p
i
, , p
n
)
est une consequence directe de la denition.
Majoration
Lemme : Soient p
i
, et q
i
deux ensembles de n reels positifs tels que :

n
i=1
p
i
=
n
i=1
q
i
= 1,
alors :
n
i=1
p
i
Ln
q
i
p
i
0
Demonstration : On utilise linegalite : x > 0, x 1 Lnx
On obtient :

n
i=1
p
i
Ln
q
i
p
i

n
i=1
p
i
(
q
i
p
i
1) =
n
i=1
q
i
n
i=1
p
i
= 1 1 = 0
Le lemme est vrai quelle que soit la base des log, puisque Log
b
q
i
p
i
= Log
b
eLn
q
i
p
i
Application : Si on pose : i, q
i
=
1
n
, alors :

n
i=1
p
i
(Lb
1
p
i
+Lb
1
n
) 0
Do` u :
n
i=1
p
i
Lb p
i
Lb n(
n
i=1
p
i
) = Lb n
H(p
i
) Lb n
Lb n est le maximum de lentropie. Ce maximum est atteint pour p
i
= q
i
=
1
n
1.3.3 Redondance
Denition : Lentropie relative dune source est denie par
H
Hmax
< 1. La redondance est alors
= 1
H
H
max
= 1 +
n
i=1
p
i
Lb p
i
Lb n
Une source pour laquelle les symboles sont strictement equiprobables est une source de redon-
dance nulle. On peut dire que mesure la dissymetrie de la distribution des p
i
.
1.3.4 Subdivision dun symbole
Considerons une source simple caracterisee par les symboles (evènements) x
i
et les probabilites
p
i
. On suppose alors que levènement x
n
se subdivise en m evènements distincts y
j
de proba-
bilites q
j
:
On passe de la source S
1
: x
1
x
i
x
n
p
1
p
i
p
n
à la source S : x
1
x
i
x
n1
y
1
y
j
y
m
p
1
p
i
p
n1
q
1
q
j
q
m
Avec

m
j=1
q
j
= p
n
Lentropie de S
1
est H
1
=
n
i=1
p
i
Lb p
i
1.3. ENTROPIE DUNE SOURCE 9
Lentropie liee à la subdivision de x
n
est H
2
=
m
j=1
q
j
p
n
Lb
q
j
p
n
, car

m
j=1
q
j
p
n
= 1
Lentropie de la nouvelle source S peut donc secrire :
H =
n1
i=1
p
i
Lb p
i
m
j=1
q
j
Lb q
j
H =
n
i=1
p
i
Lb p
i
+p
n
Lb p
n
m
j=1
q
j
Lb q
j
Comme p
n
=
m
j=1
q
j
,
H = H
1
+
m
j=1
q
j
(Lb p
n
Lb q
j
) = H
1
+
m
j=1
q
j
Lb
p
n
q
j
H = H
1
p
n
m
j=1
q
j
p
n
Lb
q
j
p
n
H = H = H
1
+p
n
H
2
Conclusion :
La subdivision dun symbole (le fait de distinguer des sous evènements) augmente lentropie
globale. Cest normal, puisquun plus grand discernement augmente lincertitude a priori, et
donc linformation moyenne a posteriori.
1.3.5 Entropie de lextension dune source simple
Soit une source simple : S = (x
i
, p
i
) de N symboles. Lextension :x
i
n
de cette source
emet des messages s
j
(en nombre N
n
) qui peuvent secrire :
s
j
= x
j
1
x
j
2
x
j
n
dont les probabilites sont
p(s
j
) = p
j
1
p
j
2
p
j
n
Lentropie de cette source secrit :
H(S
n
) =
N
n
j=1
p(s
j
)Lb p(s
j
) =
N
n
j=1
p(s
j
)
_
n
k=1
Lb p
jk
_
=
n
k=1
N
n
j=1
p(s
j
)Lb p
jk
Soit :
H(S
n
) =
_
_
N
n
j=1
p(s
j
)Lb p
j1
+
N
n
j=1
p(s
j
)Lb p
j
2
+ +
N
n
j=1
p(s
j
)Lb p
j
k
+ +
N
n
j=1
p(s
j
)Lb p
j
n
_
_
Mais
N
n
j=1
p(s
j
)Lb p(s
j
k
) =
N
j
1
=1
p
j
1
N
j
2
=1
p
j
2

N
j
k
=1
p
j
k
Lb p(s
j
k
)
N
jn=1
p(s
jn
) =
N
n
j=1
p(s
j
)Lb p(s
j
k
) = H(S)
Do` u :
H(S
n
) = nH(S)
1.4 Sources de Markov
1.4.1 Chanes de Markov
Denition:Une chane de Markov est denie par la donnee :
- dun système pouvant prendre M etats : x
1
, x
2
, , x
M
- dune matrice de transmission M entre ces etats :
` a x
1
x
2
x
j
x
M
de
x
1
p
11
p
12
p
1j
p
1M
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
i
p
i1
p
i2
p
ij
p
iM
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
M
p
M1
p
M2
p
Mj
p
MM
O` u les probabilites p
ij
sont les probabilites conditionnelles Pr(X
n
= x
j
/X
n1
= x
i
)
On a donc :
M
j=1
p
ij
= Pr
_
_
_
j
X
n
= x
j
/X
n1
= x
i
_
_
= 1
Par contre, en aucun cas on naura :
M
i=1
p
ij
= 1
.
1.4.2 Etat stationnaire dune chane de Markov
A un instant n, le système est caracterise par un jeu de probabilites p
1
(n), p
2
(n), , p
M
(n)
pour chacun des etats x
1
, x
2
, , x
M
. A linstant n+1, le jeu de probabilites change, et devient
p
1
(n + 1), p
2
(n + 1), , p
M
(n + 1).
Mais on sait que : p
j
(n + 1) = Pr(X
n+1
= x
j
)
Soit :
p
j
(n + 1) = Pr(X
n+1
= x
j
/X
n
= x
1
) Pr(X
n
= x
1
) + Pr(X
n+1
= x
j
/X
n
= x
2
) Pr(X
n
=
x
2
) + + Pr(X
n+1
= x
j
/X
n
= x
n
) Pr(X
n
= x
n
)
Soit :
p
j
(n + 1) =
M
i=1
p
ij
p
i
(n)
Ou encore :
< P(n + 1) >=< P(n) > M
O` u < P(n) > et < P(n+1) > designent les vecteurs lignes des probabilites respectivement aux
instants n et n+1.
On peut postuler un etat initial caracterise par un jeu de probabilites initiales < P(0) >. Dans
ce cas, on a :
< P(n) >=< P(0) > M
n
1.4. SOURCES DE MARKOV 11
On peut meme postuler un etat initial certain. Il sut pour cela que le jeu de probabilites
< P(0) > soit compose de m-1 0, et de un 1.
Theorème : Si la matrice de transition M dune chane de Markov ne comporte aucune colonne
de 0, alors on a :
lim
n
M
n
= M
La demonstration de ce theorème sort des limites de cet expose. Par contre, de lexistence de
M
, on peut deduire les proprietes suivantes:

Propriete 1 :
M
= M
M
Do` u
M
k=1
p
ik
p
kj
, j
Cette relation est veriee si p
kj
est independant de k. En eet

M
k=1
p
ik
= 1. M
a donc toutes
ses lignes identiques.
Propriete 2 :
Pour n très grand,
< P(n + 1) >=< P(0) > M
< P(n) >=< P(0) > M
Donc :
< P(n + 1) >=< P(n) > M
=< P(n) >

La chane atteint donc un etat stationnaire P
qui est le jeu de probabilites solution de :

< P >=< P > M
1.4.3 Chane dordre m.
Dans ce cas, on se donne les probabilites de transition dans letat x
j
sachant les m etats
precedents (et non plus seulement letat immediatement precedent). :
Pr(X
n
= x
j
/X
n1
= x
i
1
, X
n2
= x
i
2
, , X
nm
= x
i
m
)
On montre facilement que cela se ramène à une chane de Markov dordre 1 entre les M
m
symboles de lextension dordre m de la source.
1.4.4 Entropie dune source de Markov.
Considerons la matrice de transmission :
` a x
1
x
2
x
j
x
M
de
x
1
p
11
p
12
p
1j
p
1M
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
i
p
i1
p
i2
p
ij
p
iM
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
M
p
M1
p
M2
p
Mj
p
MM
avec p
ij
= Pr(X
n+1
= x
j
/X
n
= x
i
)
Linformation apportee par lapparition du symbole x
j
à linstant n + 1, sachant quon avait x
i
à linstant n, est : h
ij
= Lb p
ij
Linformation moyenne apportee par lapparition dun symbole à linstant n+1, sachant quon
avait x
i
à linstant n est :
H
i
=
M
j=1
p
ij
h
ij
=
M
j=1
p
ij
Lb p
ij
Lentropie de la source est obtenue en faisant la moyenne sur tous les etats initiaux x
i
des
informations H
i
. On obtient :
H(n) =
M
i=1
_
_
p
i
(n)
M
j=1
p
ij
Lb p
ij
_
_
=
M
i=1
M
j=1
p
i
(n)p
ij
Lb p
ij
On remarque que lentropie dune source de Markov evolue en fonction du temps n, tant que le
jeu des probabilites p
i
(n) evolue.
On peut egalement remarquer que :
p
i
p
ij
= Pr(X
n
= x
i
) Pr(X
n+1
= x
j
/X
n
= x
i
) = Pr(X
n
= x
j
X
n+1
= x
j
)
Si la source est une source simple, p
ij
= p
j
(n + 1) = p
j
(n)
On a alors, comme

p
i
= 1, H =
M
j=1
p
j
Lb p
j
. On se ramène bien à lentropie dune source
simple.
Chapitre 2
Canaux
Jusquici, on na considere linformation (individuelle ou moyenne) que comme la caracteristique
dune source, assimilee à un mecanisme qui realise une ou plusieurs variables aleatoires. On va
maintenant envisager la transmission des symboles à travers une voie ou canal qui va plus ou
moins les alterer, soit volontairement (codage), soit involontairement (bruit), pour produire un
signal de sortie.
Caracteriser un canal, cest caracteriser la liaison qui existe entre lentree et la sortie du
canal. On va donc travailler avec trois champs devènements : la source, la reception, et le
champ combine (ou conjoint) source-reception.
2.1 Entropie conjointe
On appelle X = x
1
, x
2
, , x
n
lensemble des symboles que le canal peut transmettre. Ces
symboles se presentent à lentree du canal avec les probabilites : p(x
1
), p(x
2
), , p(x
n
). Ces
probabilies ne sont pas une propriete du canal, mais une propriete de la source qui attaque le
canal. Leur optimisation est lun des problèmes important de la transmission de linformation.
On appelle = y
1
, y
2
, , y
m
lensemble des symboles que lon retrouve à la sortie du canal,
avec les probabilites : p(y
1
), p(y
2
), , p(y
m
).
Ce formalisme appelle quelques remarques de bon sens :
- Si tout va bien, on a une application biunivoque entre lentree X et la sortie Y (n=m):
13
14 CHAPITRE 2. CANAUX
- Les perturbations peuvent augmenter le nombre de symboles en sortie (n < m):
- Les perturbations peuvent entrainer des erreurs (x
1
y
2
au lieu de x
1
y
1
)
- Si m < n, il y a un gros problème : le canal est intrinsèquement incapable de transmettre
ce quon lui demande. Les lettres en sortie auront necessairement une certaine ambigute
Ayant deni le champ dentree X et le champ de sortie Y, on peut denir le champ conjoint
xy = x
y auquel est associe le tableau des probabilites conjointes P(X,Y) :

m colonnes
p(x
1
, y
1
) p(x
1
, y
2
) p(x
1
, y
j
) p(x
1
, y
m
) p(x
1
)
p(x
2
, y
1
) p(x
2
, y
2
) p(x
2
, y
j
) p(x
2
, y
m
) p(x
2
)
n
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
lignes p(x
i
, y
1
) p(x
i
, y
2
) p(x
i
, y
j
) p(x
i
, y
m
) p(x
i
)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
p(x
n
, y
1
) p(x
n
, y
2
) p(x
n
, y
j
) p(x
n
, y
m
) p(x
n
)
p(y
1
) p(y
2
) p(y
j
) p(y
m
)

p(x
i
, y
j
) = 1
On denit les probabilites marginales par:
p(x
i
) =
m
j=1
p(x
i
, y
j
) et p(y
j
) =
n
i=1
p(x
i
, y
j
)
Et on a les relations :
n
i=1
m
j=1
p(x
i
, y
j
) =
n
i=1
p(x
i
) =
m
j=1
p(y
j
) = 1
A chacun des champs X, Y , X, Y , on associe, par denition, une entropie : Lentropie à
lentree secrit :
H(X) =
n
i=1
p(x
i
) Lb p(x
i
)
2.2. ENTROPIES CONDITIONNELLES 15
Lentropie à la sortie secrit :
H(Y ) =
m
j=1
p(y
j
) Lb p(y
j
)
Lentropie conjointe secrit :
H(X, Y ) =
n
i=1
m
j=1
p(x
i
, y
j
) Lb p(x
i
, y
j
)
2.2 Entropies conditionnelles
2.2.1 Ambigute ou equivoque
Lorsquon a recu y
j0
, si tout allait bien, on pourrait dire avec certitude que x
i0
a ete emis.
Comme il y a du bruit, la seule proposition dont on peut etre certain est la suivante :
La donnee on a recu y
j0
a reduit lensemble des evenements possibles, initialement produit
cartesien x
i
..
n
y
j
..
m
de cardinal n m à lensemble de n evènements : x
i
..
n
y
j0
. .
1
.
Les probabilites associees sont les probabilites conditionnelles :
p(x
1
/y
j0
), p(x
2
/y
j0
), , p(x
n
/y
j0
)
Soit encore, daprès le theorème de Bayes :
p(x
1
, y
j0
)
p(y
j0
)
,
p(x
2
, y
j0
)
p(y
j0
)
, ,
p(x
n
, y
j0
)
p(y
j0
)
Ainsi, lentropie associee à la connaissance du fait quon a recu le symbole y
j0
est :
H(X/y
j0
) =
n
i=1
p(x
i
/y
j0
) Lb p(x
i
/y
j0
)
Cest lincertitude qui subsiste sur x après reception de y
j0
. Si tout allait bien, elle serait nulle
quel que soit j. La valeur moyenne de cette incertitude sur lensemble des valeurs possibles de
y est appelee ambigute ou equivoque du canal de transmission. Elle peut secrire :
H(X/Y ) =
m
j=1
p(y
j
)H(X/y
j
) =
m
j=1
p(y
j
)
n
i=1
p(x
i
/y
j
) Lb p(x
i
/y
j
)
H(X/Y ) =
n
i=1
m
j=1
p(x
i
, y
j
) Lb p(x
i
/y
j
)
Idealement, lambigute est nulle.
2.2.2 Erreur moyenne
Lorsquon a emis x
i0
, si tout allait bien, on serait s ur que y
j0
a ete recu. En fait, emettre x
i0
a seulement pour resultat de reduire lensemble des evènements possibles, initialement produit
cartesien x
i
..
n
y
j
..
m
de cardinal n m à lensemble de m evènements : x
i0
. .
1
y
j
..
m
.
Les probabilites associees sont les probabilites conditionnelles :
p(y
1
/x
i0
), p(y
2
/x
i0
), , p(y
m
/x
i0
)
Soit encore, daprès le theorème de Bayes :
p(y
1
, x
i0
)
p(x
i0
)
,
p(y
2
, x
i0
)
p(x
i0
)
, ,
p(y
m
, x
i0
)
p(x
i0
)
Lincertitude qui subsiste sur y lorsquon sait que x
i0
a ete emis secrit alors
H(Y/x
i0
) =
m
j=1
p(y
j
/x
i0
) Lb p(y
j
/x
i0
)
Si tout allait bien, elle serait nulle quel que soit i0. La valeur moyenne de cette incertitude sur
lensemble des valeurs possibles de x est appelee erreur moyenne du canal de transmission.
Elle peut secrire :
H(Y/X) =
n
i=1
p(x
i
)H(Y/x
i
) =
n
i=1
p(x
i
)
m
j=1
p(y
j
/x
i
) Lb p(y
j
/x
i
)
H(Y/X) =
n
i=1
m
j=1
p(x
i
, y
j
) Lb p(y
j
/x
i
)
Idealement, lerreur moyenne est nulle.
2.3 Relations entre les entropies
2.3.1 Egalites
On a deni 5 entropies :
H(X) =
n
i=1
p(x
i
) Lb p(x
i
)
H(Y ) =
m
j=1
p(y
j
) Lb p(y
j
)
H(X, Y ) =
n
i=1
m
j=1
p(x
i
, y
j
) Lb p(x
i
, y
j
)
H(X/Y ) =
n
i=1
m
j=1
p(x
i
, y
j
) Lb p(x
i
/y
j
)
2.3. RELATIONS ENTRE LES ENTROPIES 17
H(Y/X) =
n
i=1
m
j=1
p(x
i
, y
j
) Lb p(y
j
/x
i
)
En utilisant le theorème de Bayes :
p(x
i
, y
j
) = p(x
i
)p(y
j
/x
i
) = p(y
j
)p(s
i
/y
j
)
On peut ecrire :
H(X, Y ) =
n
i=1
m
j=1
p(x
i
, y
j
) ( Lb p(x
i
/y
j
) + Lb p(y
j
))
H(X, Y ) =
m
j=1
Lb p(y
j
)
n
i=1
p(x
i
, y
j
) +H(X/Y )
H(X, Y ) = H(Y ) +H(X/Y )
et de meme :
H(X, Y ) =
n
i=1
m
j=1
p(x
i
, y
j
) [ Lb p(y
j
/x
i
) + Lb p(x
i
)]
H(X, Y ) =
n
i=1
Lb p(x
i
)
m
j=1
p(x
i
, y
j
) +H(Y/X)
H(X, Y ) = H(X) +H(Y/X)
2.3.2 Inegalites
On peut remarquer que :
H(X) H(X/Y ) =
n
i=1
p(x
i
) Lb p(x
i
) +
n
i=1
m
j=1
p(x
i
, y
j
) Lb p(x
i
/y
j
)
soit encore :
H(X) H(X/Y ) =
n
i=1
m
j=1
p(x
i
, y
j
) [ Lb p(x
i
) Lb p(x
i
/y
j
)]
H(X) H(X/Y ) =
n
i=1
m
j=1
p(x
i
, y
j
)
Lb
p(x
i
)
p(x
i
/y
j
)
_
=
n
i=1
m
j=1
p(x
i
, y
j
)
Lb
p(x
i
)p(y
j
)
p(x
i
, y
j
)
_
Or, en utilisant le lemme du chapitre 1 ( 1.3.2), o` u lon prend p
i
p(x
i
, y
j
) et q
i
p(x
i
)p(y
j
),
on obtient :
H(X) H(X/Y )
n
i=1
m
j=1
p(x
i
, y
j
)
p(x
i
)p(y
j
)
p(x
i
, y
j
)
1
_
H(X) H(X/Y )
n
i=1
m
j=1
p(x
i
)p(y
j
) +
n
i=1
m
j=1
p(x
i
, y
j
) = 1 1 = 0
Do` u necessairement :
H(X) H(X/Y ), et de meme : H(Y ) H(Y/X)
2.3.3 Interpretation
Chacune des formules ci-dessus ( 2.3.1 et 2.3.2) peut sinterpreter sous forme dune phrase.
Ainsi :
Lincertitude sur lapparition du couple (X,Y) est egale à lincertitude sur lapparition de X à
lentree, aumentee de lincertitude qui subsiste sur la sortie Y lorsquon connait X. Cette dernière
est due aux erreurs de transmission et sidentie à lerreur moyenne du canal.
Lincertitude sur lapparition du couple X,Y, est aussi egale à lincertitude sur lapparition de
Y, aumentee de lincertitude qui subsiste sur X lorsquon connait Y. Cette dernière sidentie à
lequivoque du canal.
De plus :
Lincertitude sur le symbole emis est toujours diminuee (ou, au pire laissee inchangee)par la
connaissance du symbole qui a ete recu.
Lincertitude sur le symbole recu est toujours diminuee (ou, au pire laissee inchangee)par la
connaissance du symbole qui a ete emis.
On peut en deduire deux cas-limites :
- La transmission est parfaite, le canal est sans bruit, et n = m
Dans ce cas, H(X/Y ) et H(Y/X) sont nulles : le canal na ni erreur ni equivoque. Il en
resulte qu linformation à lentree et linformation à la sortie sont identiques, et il sut
de fournir lune ou lautre pour avoir toute linformation disponible : H(X) = H(Y ) =
H(X, Y ).
- La transmission est totalement brouillee : De connatre quelque chose sur lentree napprend
rien sur la sortie, et vice versa : H(Y/X) = H(Y ) et H(X/Y ) = H(X). Il en resulte que
pour avoir connaissance de lapparition dun couple, il faut connatre lapparition de X et
celle de Y separement. Do` u H(X, Y ) = H(X) +H(Y ).
2.3.4 Transinformation
Introduction :
Lincertitude sur levenement x
i
est par denition :
u(x
i
) = Lb p(x
i
)
2.3. RELATIONS ENTRE LES ENTROPIES 19
Lincertitude sur levenement x
i
lorsquon connat y
i
est par denition ;
u(x
i
/y
j
) = Lb p(x
i
/y
j
)
Linformation apportee par la connaissance de y
j
sur x
i
sera donc la dierence :
i(x
i
, y
j
) = u(x
i
) u(x
i
/y
j
) = Lb
p(x
i
/y
j
)
p(x
i
)
En utilisant la formule de Bayes, on a :
p(x
i
/y
j
) =
p(x
i
, y
j
)
p(y
j
)
=
p(y
j
/x
i
)p(x
i
)
p(y
j
)
et
i(x
i
, y
j
) = Lb
p(x
i
/y
j
)
p(x
i
)
= Lb
p(x
i
, y
j
)
p(x
i
)p(y
j
)
= Lb
p(y
j
/x
i
)
p(y
j
)
Denition :
On appelle transinformation ou information mutuelle dun canal la moyenne de i(x, y) sur touts
les couples (x
i
, y
j
) :
I(X, Y ) =
n
i=1
m
j=1
p(x
i
, y
j
)i(x
i
, y
j
) =
n
i=1
m
j=1
p(x
i
, y
j
) Lb
p(x
i
, y
j
)
p(x
i
)p(y
j
)
Remarques
- Si y
j
ne nous apprend rien sur x
i
, alors u(x
i
/y
j
) = u(x
i
), do` u i(x
i
, y
j
) = 0. La transin-
formation est nulle, et le canal ne transmet aucune information.
- Si y
j
nous apprend tout sur x
i
, alors u(x
i
/y
j
) = 0 : il ne subsiste aucune incertitude sur
x
i
. La transmission est optimale : i(x
i
, y
j
) = u(x
i
) et le canal est sans bruit.
Relations
En partant des denitions de I(X, Y ), H(X, Y ), H(X) et H(Y ), on peut observer que :
I(X, Y ) =
n
i=1
m
j=1
p(x
i
, y
j
) Lb
p(x
i
, y
j
)
p(x
i
)p(y
j
)
I(X, Y ) =
n
i=1
m
j=1
p(x
i
, y
j
) Lb p(x
i
, y
j
)
n
i=1
Lb p(x
i
)
m
j=1
p(x
i
, y
j
)
m
j=1
Lb p(y
j
)
n
i=1
p(x
i
, y
j
)
Do` u, en tenant compte des relations du 2.3.1. :
I(X, Y ) = H(X) +H(Y ) H(X, Y ) = H(X) H(X/Y ) = H(Y ) H(Y/X)
Figuration
Il est pratique dassocier aux champs dentree X et de sortie Y des ensembles dont la mesure est
guree par laire dun cercle (Diagrammes dits dEuler-Venn). On a alors une correspondance :
Lentropie est une mesure de
H(X) X
H(Y ) Y
H(X, Y ) X
Y
H(X/Y ) X

Y
H(Y/X)

X
X
I(X, Y ) X
Y
Remarque
On verie facilement que toutes les entropies, conjointes, conditionnelles, ainsi que la transin-
formation dependent des probabilites p(x
i
) des symboles de source, et ne caracterisent donc pas
le canal indepedamment de celle-ci.
Ce qui caracterise le canal, independamment de la source, cest exclusivement les matrices
des probabilites conditionnelles des symboles de sortie connaissant les symboles dentree ou vice
versa : p(y
j
/x
i
) ou p(x
i
/y
j
).
2.4 Capacite dun canal
2.4.1 denition
On considère un canal, avec son alphabet dentree x
i
, son alphabet de sortie : y
j
et sa
matrice de bruit :p(y
j
/x
i
).
La source qui attaque le canal est caracterisee par une certaine distribution de probabilites
pour les symboles x
i
: p(x
i
). On appelle alors capacite de ce canal la valeur maximale que peut
prendre la transinformation du canal, lorsquon fait varier les probabilites des symboles dentree.
C = max
p(x
i
)
[I(X, Y )]
2.4. CAPACIT
E DUN CANAL 21
Remarques
- Ce maximum est obtenu pour une certaine distribution des p(x
i
)
- On demontre lexistence de ce maximum
- Le calcul de la capacite dans le cas general est lourd
- La capacite se mesure, comme toute entropie, en bit par symbole. On peut egalement
lexprimer en fonction du temps, si chaque symbole a une duree moyenne :
C
t
=
max[I(X, Y )]
(bit/seconde)
On peut faire la meme remarque pour nimporte quelle source et parler du debit dune source
en bit/seconde.
A partir de la capacite dun canal, on peut denir le rendement dun canal : =
I(X,Y )
C
1 et
sa redondance : = 1
2.4.2 Canaux uniformes
Denition
On appelle canal uniforme par rapport ` a lentree un canal pour lequel toutes les lignes de la
matrice des probabilites conditionnelles P(Y/X) sont composees du meme jeu de probabilites.
On appelle canal uniforme par rapport ` a la sortie un canal pour lequel toutes les colonnes de la
matrice des probabilites conditionnelles P(Y/X) sont composees du meme jeu de probabilites.
Exemples :
Canal Uniforme par rapport à lentree :
P(Y/X) =
_
_
1 p q p q 0 0
0 1 p q p q 0
0 0 1 p q p q
_
_
Canal Uniforme par rapport à la sortie :
P(Y/X) =
_
_
1 0
0 1
1
2
1
2
_
_
Canal doublement uniforme:
P(Y/X) =
_
_
0, 5 0, 5 0 0 0 0
0 0 0, 5 0, 5 0 0
0 0 0 0 0, 5 0, 5
_
_
Remarques
- Toutes les lignes de la matrice P(Y/X) ont pour somme 1. En eet
j
p(y
j
/x
i
) =
j
p(x
i
, y
j
)
p(x
i
)
=
p(x
i
)
p(x
i
)
= 1
- Un canal uniforme par rapport à la sortie a necessairement un nombre de symboles en
sortie inferieur ou egal au nombre de symbole à lentree : m n.
- Un canal tel que m = n et doublement uniforme est parfois appele canal symetrique.
Lexemple-type est le canal binaire symetrique (CBS) :
P(Y/X) =
1 p p
p 1 p
_
2.4.3 Capacite dun canal sans bruit
Pour un canal sans bruit, on a I(X, Y ) = H(X). Par consequent, le jeu de probabilites à lentree
qui maximise I(X, Y ) est aussi celui qui maximise H(X), soit p(x
i
) =
1
n
, i. La valeur de la
capacite est evidemment H(X), soit C = max I(X, Y ) = max H(X) = Lb n. Lequiprobabilite
en entree assure la transmission la plus ecace.
Remarque :
Cette equiprobabilite nest, en general, pas assuree par la source primaire (par exemple, les
lettres de lalphabet). Il est donc souhaitable dinterposer entre la source primaire et lentree du
canal un codeur qui aura 2 fonctions :
- transformer lalphabet de source primaire en alphabet de lentree du canal (exemple : le code
morse),
- realiser, dans la mesure du possible, lequiprobabilite à lentree du canal.
Ces deux fonctions sont ce quon appelle ladaptation de la source au canal.
2.4. CAPACIT
E DUN CANAL 23
2.4.4 Capacite de quelques canaux bruites
Le calcul general de la capacite dun canal deni par sa matrice P(Y/X) quelconque est en
general lourd et fastidieux. Nous netudierons que quelques cas particuliers.
Canal uniforme par rapport à lentree
Il faut maximiser I(X, Y ) = H(Y ) H(Y/X), or toutes les lignes de P(Y/X) sont composees
du meme jeu de probabilites. On a donc :
H(Y/X) =
n
i=1
m
j=1
p(x
i
, y
j
)Lb p(y
j
/x
i
)
H(Y/X) =
n
i=1
m
j=1
p(x
i
)p(y
j
/x
i
)Lb p(y
j
/xi)
H(Y/X) =
n
i=1
p(x
i
)
m
j=1
p(y
j
/x
i
)Lb p(y
j
/x
i
)
Or, chaque terme H(Y/x
i
) =
m
j=1
p(y
j
/x
i
)Lb p(y
j
/x
i
) est identique aux autres : du fait que
le canal est uniforme par rapport à lentree, ces termes sont independants de i, et donc on a :
H(Y/X) = 1
m
j=1
p(y
j
/x
i
)Lb p(y
j
/x
i
)
Ce terme ne depend pas des probabilites p(x
i
) des symboles dentree, et I(X, Y ) est donc la
somme de deux termes :
- lun, H(Y/X), independant des p(x
i
),
- lautre, H(Y ), maximal lorsque les p(y
j
) sont tous identiques et egaux à
1
m
.
On aboutit ainsi au theorème suivant :
Pour un canal uniforme par rapport à lentree, sil existe un jeu de probabilites à lentree
p(x
i
) qui soit tel que lequiprobabilite des symboles de sortie soit realisee (p(y
j
) =
1
m
, j), alors,
la capacite du canal secrit :
C
0
= Lb m+
m
j=1
p(y
j
/x
i
)Lb p(y
j
/x
i
)
o` u le 2e terme peut etre calcule pour nimporte quelle ligne de la matrice du canal P(Y/X). Si
un tel jeu de probabilites à lentree nexiste pas, alors C C
0
.
Canal doublement uniforme
Dans ce cas, on peut etablir que le jeu de probabilitees p(x
i
) à lentree qui rend la sortie
equiprobable existe. En eet :
p(y
j
) =
n
i=1
p(x
i
, y
j
) =
n
i=1
p(x
i
)p(y
j
/x
i
)
Si p(x
i
) =
1
n
i, on a p(y
j
) =
1
n
n
i=1
p(y
j
/x
i
) (Le

est la somme de la j-ième colonne de
la matrice P(Y/X). Pour un canal qui est aussi uniforme par rapport à la sortie, ce terme est
independant de la colonne consideree, soit de j, et donc, p(y
j
) est independant de j. Il en resulte
que, pour un canal doublement uniforme :
C = Lb mH(Y/X)
Cette capacite est obtenue pour lequiprobabilite des symboles à lentree qui entrane lequiprobabilite
en sortie.
2.4.5 Exemples
Canal Binaire Symetrique (C.B.S.)
Cest un canal doublement uniforme, pour lequel on peut ecrire directement :
P(Y/X) =
1 p p
p 1 p
_
et C = Lb 2 + (1 p)Lb (1 p) +pLb p;
Si p = 1/2, le canal ne transmet rien du tout. Si p=1, ou p=0, le canal transmet au maximum
1 bit par symbole se presentant à lentree.
Generalisation : Canal n-aire Symetrique.
P(Y/X) =
_
_
1 p q q q
q 1 p q q
q q
.
.
. q
.
.
.
.
.
.
.
.
.
q 1 p
_
_
1 p + (n 1)q = 1 = q =
p
n 1
C = Lb n + (1 p)Lb (1 p) +
p
n 1
Lb
p
n 1
(n 1)
Remarque :
Si p = 1 q, on a
1 p = q =
1
n
et p =
n 1
n
= C = Lb n +
1
n
Lb
1
n
+
n 1
n
Lb
1
n
= 0
Si p = 0, C = Lb n
2.4. CAPACIT
E DUN CANAL 25
C.B.S. avec annulation
P(Y/X) =
1 p q p q
p 1 p q q
_
Ce canal est uniforme par rapport à lentree mais pas par rapport à la sortie. On a :
I(X, Y ) = H(Y )H(Y/X), et H(Y/X) = H(Y/x
i
) = [(1pq)Lb (1pq)+pLb p+qLb q]
ne depend pas de la distribution dentree car le canal est uniforme par rapport à lentree. Max-
imiser I(X,Y) revient à maximiser H(Y) par rapport aux probabilites à lentree.
Si on pose p(x
1
) = et p(x
2
) = 1 , on obtient :
p(y
1
) = (1 p q) + (1 )p = x
p(y
2
) = p + (1 )(1 p q) = y
p(y
3
) = q + (1 )q = q
Do` u :
H(Y ) = (xLb x +yLb y +qLb q), avec x +y +q = 1
En faisant :
H(Y )
x
= 0, on peut montrer que H(Y) est maximum pour p(y
1
) = p(y
2
) =
1q
2
;
ce jeu de probabilites en sortie est eectivement accessible lorsque = 1 = 1/2. On trouve :
C =
(1 q)Lb
1 q
2
+ (1 p q)Lb (1 p q) +pLb p
_
2.4.6 Canal quelconque (matrice carree)
Ce resultat sera admis sans demonstration.
Theorème : Soit un canal dont la matrice p(Y/X) est carree (n n) et inversible.
Posons :
1
= q
ij
, et S
i
=
n
k=1
q
ik
H(Y/x
k
)
La capacite du canal est alors :
C = Lb
n
i=1
2
S
i
et les probabilites à lentree correspondantes :
p
k
=
1
2
C
n
i=1
q
ik
2
S
i
Chapitre 3
Information dans le cas des signaux
continus
3.1 Entropie dun signal continu
3.1.1 Introduction
Une source continue est denie par le fait quelle emet des messages extraits dun ensemble
continu de possibles. Elle est caracterisee non plus par un jeu de probabilites, mais par une
densite de probabilite :
source discrète :
_
x
1
x
2
x
n
p(x
1
) p(x
2
) p(x
n
)
_
avec
n
i=1
p(x
i
) = 1
source continue : Pr(x < X x +dx) = f
X
(x)dx avec
_
+
f
X
(x)dx = 1
Un signal continu, est continu dans lespace de la variable et dans le temps. Cest la realisation
dune fonction aleatoire. Neanmoins, lorsquon parle de source continue en theorie de linformation,
on considère que les symbole sont emis à des instants discrets, et que seule la valeur de la vari-
able est continue. Ceci est justie par le fait que les signaux utilises dans les transmissions ont
toujours une bande passante limitee par f, et que donc le theorème dechantillonnage sapplique.
On peut donc toujours ecrire :
x(t) =
k=
k=
x
_
k
2f
_
sin2f(t
k
2f
)
2f(t
k
2f
)
qui signie quon peut se limiter à considerer le signal aux instants discrets
k
2f
, et cependant
reconstituer tout le signal si necessaire.
Si lon ne soccupe que de la partie du signal comprise entre 0 et T, on aura donc N = 2 f T
echantillons, qui seront considerees comme autant de realisations (en nombre ni) dune source
continue.
On pourra considerer quon fait passer les echantillons x
k
= x
_
k
2f
_
à travers un canal discret
qui restitue des echantillons y
j
, ou alors quon fait passer x(t) à travers un canal continu et
quon echantillonne ensuite y(t) pour obtenir les y
j
.
27
28 CHAPITRE 3. INFORMATION DANS LE CAS DES SIGNAUX CONTINUS
Remarques :
- Tout milieu propagatif peut etre considere comme un canal continu pour certains signaux
(portes par des ondes acoustiques, electromagnetiques, ou autres): air, eau, vide, solide, ligne
telegraphique, faisceau herzien, etc ...
- Le canal peut perturber le signal de nombreuses manières. On se limite souvent au cas le plus
simple, celui du bruit additif :
y(t) = s(t) +b(t)
- Lhomologue continu du codage est la modulation , celui du decodage est la detection
3.1.2 Denitions
Etant donnee une source continue, cest à dire une varible aleatoire X, de densite f(x), on peut
toujours lui associer de facon formelle une integrale :
H(X) =
_
+
f(x) Ln f(x) dx
Rien ne garantit cependant la convergence de cette integrale
Dans le cas des variables continues, on prend habituellement le Logartihme neperien, car rien
nincite à privilegier une base ou lautre. Lunite sera donc le nat/message. On prefère parler
de message plutot que de symbole, car l alphabet est un ensemble inni continu.
On appelle cette integrale lentropie de la source X.
Par analogie avec le cas discret, on considère deux sources X et Y, respectivement à lentree et
à la sortie dun canal, et on denit :
f
1
(x) : densite de probabilite de la source X
f
2
(x) : densite de probabilite de la source Y
f
3
(x, y) : densite de probabilite du couple X,Y
f
4
(x/y) =
f
3
(x,y)
f
2
(y)
: densite de probabilite conditionnelle de X sachant Y
f
5
(x/y) =
f
3
(x,y)
f
1
(y)
: densite de probabilite conditionnelle de Y sachant X
et les entropies formelles secrivent :
H(X) = E(Ln X) =
_
+
f
1
(x)Ln f
1
(x) dx
H(Y ) = E(Ln Y ) =
_
+
f
2
(y)Ln f
2
(y) dy
H(X, Y ) = E(Ln XY ) =
_
+
f
3
(x, y)Ln f
3
(x, y) dxdy
H(X/Y ) = E(Ln X/Y ) =
_
+
f
3
(x)Ln f
4
(x, y) dxdy =
_
+
f
3
(x)Ln
f
3
(x, y)
f
2
(x, y)
dxdy
H(Y/X) = E(Ln Y/X) =
_
+
f
3
(x)Ln f
5
(x, y) dxdy =
_
+
f
3
(x)Ln
f
3
(x, y)
f
1
(x, y)
dxdy
3.1. ENTROPIE DUN SIGNAL CONTINU 29
Toutes ces denitions sont cependant purement formelles et ne prejugent en rien de la conver-
gence des integrales. De plus il nest plus possible dattribuer à la fonction entropie le sens dune
information moyenne par symbole, en raison de dicultes mathematiques que nous examinons
ci-après.
3.1.3 Dicultes mathematiques
Lentropie peut devenir negative
En eet, dans lexpression :
_
+
f
(
x)Ln f(x) dx, rien noblige f(x) à rester inferieure ` a 1.
La seule contrainte est :
_
+
f(x) dx = 1. Dans le cas discret, en revanche, on a

n
i=1
p(x
i
) = 1,
mais aussi p(x
i
) < 1 x
i
.
Exemple
Soit une source continue, constituee par la variable aleatoire de densite de probabilite f(x) =
a
2
exp[ax[.
On a bien
_
+
f(x) dx = 1.
De plus la densite tend vers un pic de Dirac lorsque a 0.
Lentropie associee est :
H(X) =
_
+
a
2
exp[ax[Ln
a
2
exp [ax[ dx
Comme exp [ax[ est paire, H(X) = a
_

0
expax[Ln
a
2
ax] dx
Do` u :
H(X) = a
_
Ln
a
2
_

0
expaxdx
_

0
axexp axdx
_
H(X) = 1 Ln
a
2
On constate que pour a > 2e, H(X) < 0
Il ne saurait donc etre question de donner à H(X) la signication dinformation moyenne. H(X)
nest plus quune fonction abstraite associee à une source.
Lentropie continue nest pas la limite de lentropie discrète
Considerons une source continue de densite de probabilite f(x), quon suppose nulle en dehors
de lintervalle [a, b]. On a
Pr(c x < d) =
_
d
c
f(x) dx = F(d) F(c), et F(b) F(a) = 1
On peut associer à cette source continue une source discrète X
D
, telle que X
D
X : On divise
lintervalle [a, b] en n+1 intervalles disjoints : [a, a
1
], ]a
1
, a
2
], , ]a
n
, b], et egaux de longueur
x.
On a donc :
Pr(a x < a
1
) = F(a
1
) F(a) = p
1
x
Pr(a
1
x < a
2
) = F(a
2
) F(a
1
) = p
2
x
.
.
. =
.
.
. =
.
.
.
Pr(a
n
x < b) = F(b) F(a
n
) = p
n+1
x
La source discrète X
D
est ainsi denie par la variable aleatoire pouvant prendre les n+1 valeurs
a, a
1
, a
2
, , a
n
, b, avec les probabilites p
1
x, p
2
x, , p
n+1
x. On a bien
n+1
i=1
p
i
x = F(b) F(a) = 1
Lentropie associee à cette source discrète est :
H(X
D
) =
n+1
i=1
p
i
x Ln (p
i
x)
On pourrait legitimement sattendre à ce que H(X
D
) tende vers H(X), lorsque n et
x =
ba
n+1
0, or :
H(X
D
) =
n+1
i=1
p
i
x Lnp
i
n+1
i=1
p
i
x Lnx
Le premier terme tend bien vers
_
b
a
f(x) Lnf(x) dx lorsque n , par denition
de lintegrale de Riemann. En revanche, le second terme diverge, puisque x 0, et que
n+1
i=1
p
i
x = 1.
Conclusion :
- Lentropie quon a denie pour une source continue nest que la partie nie dune integrale qui
diverge fondamentalement.
3.1. ENTROPIE DUN SIGNAL CONTINU 31
- La signication de ce fait est quune variable continue contient potentiellement une information
innie . Seul le bruit vient limiter cette information, en introduisant une pseudo-quantication
entre les valeurs discernables de la variable.
3.1.4 Exemple :
Pour stocker la totalite des decimales de , il faut :
- tout lunivers, si nous voulons les ecrire
-un trait unique grave sur une barre, sous reserve que la longueur de la barre et la position du
trait (inniment mince) soient connus avec une precision innie.
3.1.5 Lentropie est variable dans un changement de variable
Si on considère un de à jouer comme une source discrète
1 2 3 4 5 6
1
6
1
6
1
6
1
6
1
6
1
6
Lentropie est entièrement determinee par le jeu de probabilites :
H(X) =
6
1
1
6
Lb
1
6
Un changement de variable qui remplace les valeurs des 6 faces ne modie evidemment pas H.
Cela est valable pour toute source discrète.
En revanche, pour une variable continue X, de densite de probabilite f
X
(x), si on associe à X
la variable aleatoire Y = g(X), la densite de probabilite de Y secrit, si g est monotone :
f
Y
(y) = f
X
(x)
dx
dy
Il en resulte que lentropie de la source Y secrit :

H(Y ) =
_
+
f
Y
(y)Lnf
Y
(y) dy =
_
+
f
X
(x)
dx
dy
Ln
_
f
X
(x)
dx
dy
_
dy
H(Y ) =
_
+
f
X
(x)Lnf
X
(x) dx
_
+
f
X
(x)Ln
dx
dy
dx = H(X)
_
+
f
X
(x)Ln
dx
dy
dx
Il en resulte que H(X) ,= H(Y )
Par exemple, si Y = aX +b, H(Y ) = H(X) +Ln a
Une dilatation de lechelle provoque une augmentation de lentropie. Pour toutes les raisons
presentees ci-dessus, il faut considerer lentropie dune source continue, et donc aussi la quantite
dinformation fournie par cette source, comme des grandeurs mal denies. Il en va de meme de
toutes les entropies conditionnelles et conjointes denies ci-dessus. En revanche, la transinfor-
mation possède des proprietes qui la rendent utilisable.
3.1.6 Transinformation
Denition
Par analogie avec le cas discret, on pose :
I(X, Y ) =
_
+
_
+
f
3
(x, y)Ln
f
3
(x, y)
f
1
(x)f
2
(y)
dxdy
On verie facilement quon a toujours I(X, Y ) = H(X) H(X/Y ) = H(Y ) H(Y/X).
De plus :
I(X, Y ) 0
I(X, Y ) nest pas inni, sauf dans le cas o` u f
1
(x) et f
2
(x) sont discontinues.
I(X, Y ) est invariante par transformation lineaire.
La transinformation pour un canal continu possède donc une denition coherente, contraire-
ment à lentropie dune source continue. Les proprietes de la transinformation discrète sont
conservees, notamment :
I(X, Y ) = I(Y, X)
I(X, Y ) = 0 si X et Y sont independantes
3.2 Maximisation de lentropie dune source
Le problème general est celui de la maximisation de lintegrale :
H(X) =
_
+
f(x)Lnf(x) dx avec
_
+
f(x) dx = 1
Ce problème ne peut etre aborde que si lon impose certaines conditions à f(x). Nous exami-
nerons successivement trois cas :
f(x) est nulle en dehors dun intervalle [a, b]
f(x) est nulle pour x negatif, et la variable aleatoire X possède une moyenne
La variable aleatoire X possède une moyenne et un moment dordre 2
Dans les trois cas, la methode est celle des multiplicateurs de Lagrange.
3.2.1 f(x) est nulle en dehors de lintervalle [a, b]
On cherche un extremum à la fonction : H(X) =
_
b
a
f(x)Lnf(x) dx avec
_
+
f(x) dx = 1
Daprès le theorème des multiplicateurs de Lagrange f(x) est alors solution de :

f
(fLnf ) +

f
f = 0 o` u est une constante
Do` u : 1 Lnf + = 0
Soit : f = e
1
: la densite de probabilite qui maximise lentropie est donc la densite constante
: f(x) =
1
ba
et lentropie maximum de la source est H(X) = Ln(b a).
3.2. MAXIMISATION DE LENTROPIE DUNE SOURCE 33
3.2.2 f(x) est nulle pour x < 0 et X possède une moyenne a
H(X) =
_

0
f(x)Lnf(x) dx avec
_

0
xf(x) dx = a et
_

0
f(x) dx = 1

f
(f(x)Lnf(x) ) +

f
f(x) +

f
xf(x) = 0 o` u et sont des constantes
On obtient :
1 Lnf +x + = 0 = f(x) = exp(1 +x)
En reportant dans les contraintes, on obtient nalement :
f(x) =
1
a
exp
_
x
a
_
La densite de probabilite qui maximise lentropie est la densite exponentielle, et lentropie de la
source est alors : 1 +Lna.
3.2.3 f(x) a une moyenne nulle et un ecart-type
H(X) =
_

0
f(x)Lnf(x) dx avec
_

0
x
2
f(x) dx = ,
_

0
xf(x) dx = 0 ,et
_

0
f(x) dx = 1

f
(f(x)Lnf(x) ) +

f
f(x) +

f
x
2
f(x) = 0 o` u et sont des constantes
1 Lnf + +x
2
= 0 = f(x) = e
(1)
e
x
2
En injectant cette solution dans les contraintes, on obtient :
_

0
e
(1)
e
x
2
dx = 1 e
(1)
_
= 1
et
_

0
x
2
e
(1)
e
x
2
dx =
do` u
f(x) =
1
2
exp(
x
2
2
2
), soit une densite gaussienne.
En conclusion, contrairement au cas discret, o` u lentropie maximale est toujours obtenue pour
une distribution uniforme des probabilites sur les divers symboles de la source, pour une source
continue, la densite de probabilite qui maximise lentropie nest pas toujours la meme. Elle
depend des contraintes imposees à la source.
3.3 Formule HTS (Hartley - Tuller - Shannon)
3.3.1 Degres de liberte dun signal continu
On a vu que le theorème dechantillonnage permet de ramener linnite continue des valeurs
dun signal à bande passante limitee à linnite discrète des echantillons de ce signal pris aux
instants
k
2f
o` u k varie de à + et o` u f est la frequence maximale presente dans le signal :
x(t) =
k=
k=
x
_
k
2f
_
sin2f(t
k
2f
)
2f(t
k
2f
)
Si lon netudie le signal emis par une source que pendant une duree limitee T, on naura donc
besoin que dun nombre ni N =
T
1
2f
= 2fT dechantillons. Un signal donne est ainsi entièrement
decrit par un point dun espace à N dimensions, le point S
n
de coordonnees x
1
, x
2
, , x
N
.
De plus, si lon admet que le signal est denergie nie, on peut choisir les unites de telle facon
que cette energie secrive :
E
S
= x
2
1
+x
2
2
+ +x
2
N
On peut donc admettre que le point representatif du signal emis, S
j
, se trouve à linterieur
dune hypersphère de rayon

E
S
.
3.3.2 Capacite dune voie bruitee
Supposons maintenant que ce signal soit transmis à travers un canal dont leet est dajouter (en
moyenne) un bruit denergie E
B
independante du signal emis. Le signal recu sera alors contenu
dans une sphère de rayon

E
S
+E
B
. La question se pose alors du nombre (necessairement
ni) de signaux emis distincts que lon peut encore distinguer lun de lautre à la reception.
Or, pour que deux signaux emis S
1
et S
2
puissent etre distingues à la reception, il faut que
leurs sphères de bruit ne se recouvrent pas. Il en resulte que le nombre total de signaux que
lon peut distinguer entre eux à la reception est necessairement inferieur, ou au mieux egal, au
nombre de sphères de bruit contenus dans la sphère des signaux recus. Ce nombre est lui meme
inferieur ou egal au rapport G des volumes de la sphère des signaux recus et de la sphère de
bruit :
G =
E
S
+E
B
N
E
B
N
=
_
1 +
E
S
E
B
_N
2
Si lon se ramène à lunite de temps, G peut aussi bien secrire en fonction de la puissance des
signaux :
G =
_
1 +
P
S
P
B
_N
2
Ce nombre est un maximum pour la taille de lalphabet de la source continue bruitee, qui se
ramène ainsi à une source discrète, emettant un symbole tous les T secondes.
On peut alors ecrire que la source bruitee emet au maximum
Lb G = Lb
_
1 +
P
S
P
B
_N
2
=
N
2
Lb
_
1 +
P
S
P
B
_
bits par symbole
3.3. FORMULE HTS (HARTLEY - TULLER - SHANNON) 35
Comme chaque symbole a une duree limitee à T =
N
2f
secondes, linformation maximum que la
source bruitee peut emettre par seconde, qui est aussi la capacite de la voie, peut encore secrire :
C = fLb
_
1 +
P
S
P
B
_
bits par seconde
quon a lhabitude decrire en utilisant les logarithmes naturels (comme il est dusage quand il
sagit de signaux continus) :
C = KfLn
_
1 +
P
S
P
B
_
nats par seconde
Cette expression constitue le theorème de Hartley - Tuller - Shannon dit HTS. Son impor-
tance reside dans le fait quil montre quil existe deux moyens daugmenter la capacite dune
voie bruitee : soit on peut augmenter la puissance du signal par rapport à celle du bruit, soit
on peut augmenter la bande passante du signal, ou, ce qui revient au meme, la duree allouee à
chaque symbole. Ceci est vrai quelles que soient les puissances respectives P
S
et P
B
, meme si
le signal est noye dans le bruit cest à dire si
P
S
P
B
1.
Chapitre 4
Codage pour les canaux sans bruit
4.1 Introduction : R ole du codage
On considère une source S, de symboles S = S
1
, S
2
, , S
N
dont les probabilites respectives
sont : p(S
1
), p(S
2
), , p(S
N
), dont linformation doit transiter dans un canal sans bruit, de
capacite C et dalphabet dentree : X = x
1
, x
2
, , x
D
. On sait que la capacite dun canal
sans equivoque est :
C = max
p(x
i
)
(H(X) H(X/Y )) = max H(X) = Lb D
O` u D est le nombre de symboles de lalphabet dentree.
Remarque : Cest aussi le cas pour un canal sans bruit et doublement uniforme.
Denition :
On dit quon a realise un codage de la source S lorsquon a deni une application des symboles
S
i
sur les chanes C
i
(ou les mots) composees de symboles (ou de lettres) x
j
.
Le role du codage est :
dadapter lalphabet de la source à lalphabet dentree du canal,
de realiser, autant que possible ladaptation statistique de la source au canal, en donnant
aux symboles x
j
les probabilites optimales (le plus souvent, on considère que loptimum
est atteint lorsque les x
j
sont equiprobables),
de crypter la source
Denitions :
S est la source primaire, X est la source secondaire
Lensemble X = x
1
, x
2
, , x
D
est lalphabet codeur
Une chane C
i
de symboles de lalphabet codeur est un mot-code sil lui est associe un
symbole de source primaire. En cas contraire, on dit que cest un mot depourvu de sens.
La longueur l(C
i
) = l
i
dun mot-code est le nombre de symboles x
j
de ce mot.
37
38 CHAPITRE 4. CODAGE POUR LES CANAUX SANS BRUIT
4.2 Classication des codes
On classe les codes en fonction des possibilites qui existent de les dechirer.
4.2.1 Codes reguliers
Un code regulier est un code qui nest pas singulier. Un code singulier est un code qui associe
le meme mot-code à plusieurs symboles de source primaire.
Exemple :
S = a, b, c, d X = 0, 1
C = 00, 01, 01, 11
b et c ne sont pas discernables après codage. Pour compenser la perte dinformation, on peut
faire de S une source de Markov, par exemple :
Le plus souvent, on prefère les codes reguliers.
4.2.2 Codes à dechirage unique (ou codes dechirables)
Un code peut etre regulier lorsquon le considère lettre par lettre, et pourtant etre singulier
lorsquon le considère globalement.
Exemple :
S = a, b, c, d X = 0, 1
C = 1, 10, 11, 01
Le mot 1011 peut signier (cest à dire avoir ete code à partir de) ada aussi bien que bc.
Un tel code est dicile à utiliser, car l nest pas à decodage unique. On lève en general cette
diculte en introduisant un separateur, ou alors en choisissant judicieusement le codage.
Un code pour lequel à chaque suite distincte de symboles de source primaire correspond
une suite distincte de symboles de source secondaire est appele code ` a decodage unique, ou code
dechirable.
Un code dechirable qui nutilise pas de separateur entre mots est dit code separable.
4.2.3 Codes instantanes (ou irreductibles)
Certains codes sont separables, mais la decision dattribuer telle ou telle signication à un mot
code ne peut etre prise immediatement. Il faut attendre larrivee de quelques symboles de source
secondaire de plus. Pour dautres codes, la decision peut etre prise immediatement, cest à dire
dès reception du dernier symbole de source secondaire composant ce mot. Ces codes sont dits
instantanes.
Exemple 1 :
S = a, b X = 0, 1
C = 0, 000001
Si on recoit le message 0000001, ce nest quà reception du 1 nal quon identiera le 1er 0
4.2. CLASSIFICATION DES CODES 39
du message comme etant le code dun a.
Exemple 2 :
S
1
S
2
S
3
S
4
C
1
0 10 110 1110
C
2
0 01 011 0111
Le premier code utilise 0 comme indicateur de n de mot. Il est donc instantane.
Le deuxième code utilise 0 comme indicateur de debut de mot. Il nest pas instantane.
On montre facilement que : Une condition necessaire pour quun code soit instantane est quil
satisfasse à la condition de prexe : aucun mot-code ne doit etre le prexe dun autre mot-code.
Un tel code est encore appele code irreductible.
4.2.4 Representation arborescente dun code
Tout code peut etre decrit par un arbre dont les noeuds sont des goupements (des mots) des
symboles de lalphabet de source primaire. Construire un code consiste à choisir un certain
nombre de noeuds de cet arbre comme mot-codes, les autres noeuds etant dits depourvus de
sens.
Exemple :
S
1
S
2
S
3
S
4
C
0
00 01 10 11
C
1
0 10 110 1110
C
2
0 01 011 0111
Les codes C
0
et C
1
sont irreductibles.
Le code C
2
ne lest pas, en eet, chaque mot est le prexe du suivant.
La condition de prexe revient à ne choisir comme mot-code que des extremites de branches de
larbre (des feuilles).
4.2.5 Procedure generale de construction dun code irreductible
Ce qui precède permet de denir une procedure generale pour construire un code irreductible
quon illustrera pour le cas particulier D=2 (codage binaire).
On commence par diviser lensemble S des symboles à coder en 2 (ou D) sous-ensembles S
0
et
S
1
. Le premier symbole de source secondaire des mots codes correspondant aux symboles de S
0
sera 0. Le premier symbole de source secondaire des mots codes correspondant aux symboles
de S
1
sera 1.
On recommence alors avec S
0
et S
1
, quon subdivise en sous-ensembles S
00
, S
01
,S
10
,S
11
.
On continue jusquà ce que tous les sous-ensembles obtenus ne contiennent quun seul symbole.
On voit que la construction dun code irreductible consiste essentiellement à eectuer des par-
titions successives de lensemble des symboles de source primaire. Une methode de codage
sera denie par les règles choisies pour eectuer les partitions successives. Ces règles seront
evidemment denie en fonction des probabilites des dierents symboles. On peut dejà prevoir
quun bon code sera construit de facon que les symboles les plus frequents soient codes à laide
des mots-codes les plus courts.
4.3 Inegalite de Kraft-Mac Millan
4.3.1 Theorème de Kraft
Etant donnee une source primaire S = S
1
, S
2
, , S
N
de N symboles, quon desire coder par un
code dalphabet X = X
1
, X
2
, , X
D
de D symboles, à laide des mots C
i
, avec i1, , N,
de longueurs respectives l
i
, alors :
Theorème :
Une condition necessaire et susante pour quil existe un code irreductible permettant le codage
ci-dessus est que
N
i=1
D
l
i
1
Demonstration :
- Condition necessaire :
Supposons quil existe un code irreductible compose de N mots-codes formes avec un alphabet
secondaire de D lettres, et de longueurs respectives l
i
. Ce code satisfait necessairement ` a la
condition de prexe. Soit alors la suite l
1
, l
2
, , l
N
la suite des longueurs classees par ordre
croissant. l
N
est alors la longueur du mot le plus long. Larbre sur lequel seront places les mots
du code a donc au plus N bifurcations, au terme desquelles il y a D
l
N
feuilles. Si on choisit un
mot de longueur l
i
, on rend inutilisables tous les mots qui ont ce mot pour prexe, soit toute la
partie de larbre qui est en aval de ce mot (voir gure). Il en resulte que D
l
N
l
i
sont à retirer
de la l
N
-ième colonne de larbre.
4.3. IN
EGALIT
E DE KRAFT-MAC MILLAN 41
Lhypothèse quil existe un code implique que le retrait de D
l
N
l
i
feuilles de la l
N
-ième
colonne de larbre est possible pour tous les mots-codes sucessivement. Or la l
N
-ième colonne
de larbre comporte D
l
N
elements. Il faut donc que
N
i=1
D
l
N
l
i
D
l
N
soit encore, en divisant par D
l
N
:
N
i=1
D
l
i
1
- Condition susante :
N, D, l
i
, sont les donnees, dont on suppose quelles satisfont à la relation de Kraft. On
demontre alors lexistence du code en le construisant :
On choisit un sommet arbitraire sur la l
1
-ième colonne de larbre. Ce faisant, on elimine D
l
N
l
1
feuilles de larbre. Comme la relation de Kraft est respectee, on a :D
l
N
l
1
< D
l
N
, il reste
donc forcement au moins une feuille, et donc un (ou des) trajet(s) y menant. Sur ce trajet,
on choisit arbitrairement un sommet sur la l
2
-ième colonne de larbre. La relation de Kraft
nous garantit que D
l
N
l
1
+ D
L
N
l
2
< D
l
N
, et donc quon peut continuer jusquà i = N. Au
terme du processus, on a ainsi construit un code irreductible, et demontre que la relation de
Kraft est susante pour son existence. Ceci demontre egalement lexistence dun code seulement
dechirable, puisque tous les codes irreductibles sont dechirables.
4.3.2 Theorème de Mac Millan
Ce theorème est lextension du theorème de Kraft au cas des codes simplement dechirables.
La condition necessaire a dejà ete demontree. Il reste à demontrer la condition susante, qui
senonce :
Sil existe un code dechirable (mais pas necessairement irreductible) de N mots-codes de
longueurs respectives l
i
, alors, on a la relation

N
i=1
D
l
i
1.
Demonstration
Formons lexpression :
K =
_
N
i=1
D
l
i
_
n
=
_
D
l
1
+ +D
l
N
_
n
K est un produit de n facteurs qui sont eux memes des sommes comportant chacune N termes.
K comprend donc en tout N
n
termes, dont chacun peut secrire:
D
(l
1
+l
2
++l
N
)
= D
m
o` u est le nombre de fois o` u lon a pris l
1
,
est le nombre de fois o` u lon a pris l
2
,
etc ...
avec + + + = n
si l est le plus grand des l
i
, on a n < m < nl. Un m donne peut etre obtenu de plusieurs facon
dierentes, suivant le choix des , , etc..., et des l
i
. Soit M
m
le nombre de facon distinctes
dobtenir m. On peut alors ecrire K sous la forme dune somme de nl n + 1 termes :
K =
m=nl
m=n
M
m
D
m
Mais le code est suppose dechirable. Or, M
m
peut etre considere comme le nombre de
facons distinctes de mettre bout-à-bout mots de longueur l
1
, mots de longueur l
2
, etc..., de
facon quau total on ait m symboles de source secondaire. Si le code est dechirable, ce nombre
ne saurait exceder le nombre de chanes distinctes de m symboles de source secondaire, soit D
m
.
Par consequent : M
m
D
m
, et donc :
K =
m=nl
m=n
M
m
D
m
m=nl
m=n
D
m
D
m
= nl n + 1
Soit encore :
_
N
i=1
D
l
i
_
n
nl n
Or, on sait que si a est un nombre superieur à 1, n tel que pour tout l xe, a
n
> nl. Donc
necessairement,
N
i=1
D
l
i
1
Do` u le theormème : Linegalite de Kraft est une condition necessaire et susante dexistence
dun code dechirable, meme non-instantane.
Dans la suite, et sauf specication explicite, nous ne considererons que les codes dechirables.
4.4 Longueur moyenne dun code
On considère une source :
S =
_
S
1
, , S
N
p(S
1
) , , p(S
N
)
_
codee par les mots codes C = C
1
, , C
N
de longueurs l
1
, , l
N
, formes avec lalphabet
x
1
, , x
D
.
La longueur moyenne dun mot-code est alors :
l =
N
i=1
l
i
p(C
i
) =
N
i=n
l
i
p(S
i
)
4.4.1 Limite inferieure de

l
Theorème : La longueur moyenne dun code est limitee inferieurement par
H(S)
Lb D
.
Demonstration :
Soit H(S) =
N
i=1
p(S
i
)Lb p(S
i
) linformation moyenne par symbole de source primaire.
Comme chaque symbole est code par un mot C
i
de longueur moyenne

l, linformation moyenne
4.5. CODES OPTIMAUX 43
par lettre de lalphabet du code est H(X) =
D
i=1
p(x
i
)Lb p(x
i
) = H(S)/
l. Par ailleurs,
lentropie de la source secondaire, H(X); ne peut depasser Lb D. Il en resulte que :
H(X) Lb D =
H(S)
l
Lb D =

l
H(S)
Lb D
4.4.2 Ecacite dun codage
Denition
On appelle ecacite dun codage:
=

l
min
l
=
H(S)
lLb D
=
H(X)
Lb D
On voit que = 1 lorsque les symboles de la source secondaire sont equiprobables.
La redondance du code est denie par :
= 1 =

lLb DH(S)
lLb D
=
Lb DH(X)
Lb D
On appelle parfois Lb D la capacite du code.
4.5 Codes optimaux
Lorsque les symboles de la source secondaire sont equiprobables, on a :p(x
1
) = p(x
2
) = =
p(x
N
) =
1
D
. Si lon considère les symboles du code comme independants, on sait alors que les
symboles de source primaire ont pour probabilites respectives : p(S
i
) = p(C
i
) = D
l
i
=
D
l
i
= 1.
Un tel code, dont lecacite est maximale et la longueur moyenne minimale est appele code
optimal. Pour un tel code, linegalite de Kraft-Mac Millan est une egalite.
4.6 Premier theorème de Shannon
4.6.1 Recherche dun code quasi-optimal
Trouver un code optimal consiste à ajuster la longueur du mot-code associe à chaque symbole de
source primaire de manière à associer aux symboles les plus rares les mots les plus longs. Cela
nest cependant pas susant. Il faudrait, pour chaque symbole de source primaire, de probabilite
p(S
i
), trouver un mot-code de longueur l
i
telle que p(S
i
) = D
l
i
. Dans ce cas, linegalite de
Kraft serait veriee. Mais comme l
i
est necessairement un entier, l
i
nexiste en general pas. On
a :
r
i
=
Lb
1
p(S
i
)
Lb D
avec r
i
non-entier.
Pour construire un code aussi proche que possible du code optimal, on choisit de prendre pour
l
i
lentier immediatement superieur à r
i
:
r
i
l
i
< r
i
+ 1
Un tel code existe, puisque linegalite de Kraft est veriee :
i,
Lb
1
p(S
i
)
Lb D
l
i
Lb
1
p(S
i
)
Lb D
l
i
p(S
i
) D
l
i
=

D
l
i
1
On choisit donc les l
i
de facon que :
Lb
1
p(S
i
)
Lb D
l
i
<
Lb
1
p(S
i
)
Lb D
+ 1
Soit, en multipliant par p
i
et en sommant sur i, :
H(S)
Lb D

l <
H(S)
Lb D
+ 1
Si maintenant, nous choisisson de coder avec le meme procede lextension dordre n de la source,
on aura :
H(S
n
)
Lb D

l
n
<
H(S
n
)
Lb D
+ 1
o` u

l
n
est la longueur moyenne du mot-code associ à un groupe de n symboles de la source
primaire. Comme on sait dautre part que H(S
n
) = n H(S), et que

l
n
= n

l, on obtient
nalement :
n
H(S)
Lb D
n
l < n
H(S)
Lb D
+ 1
Soit :
H(S)
Lb D

l <
H(S)
Lb D
+
1
n
Cette inegalite est la base du premier theorème de Shannon :
Theorème
Pour une source donnee, il est toujours possible de trouver un code aussi proche que lon veut
du code optimal, cest à dire un code :
- Decacite aussi proche de 1 que lon veut,
- De longueur moyenne aussi proche que lon veut de
H(S)
Lb D
,
- Tel que lentropie de la source secondaire H(X) soit aussi proche que lon veut de Lb D,
- Tel que les symboles secondaires x
i
soient aussi proches de lequiprobabilite que lon veut.
Formulation temporelle du 1er theorème de Shannon
Soient :
- C = Lb D la capacite dun canal sans bruit commande par la source secondaire,
- la dure moyenne dun symbole de source secondaire.
On denit alors la capacite temporelle C
t
du canal, en bit/secondes :
C
t
=
Lb D

4.7. TECHNIQUES DE CODAGE 45
La duree moyenne dun mot-code associe à un symbole de source primaire est
l =

T
Le nombre moyen de symboles de source primaire transmis par seconde est :
m
t
=
1
T
=
1

l

C
t
Lb D
Lb D
H(S)
On peut donc enoncer le theorème de Shannon sous la forme :
m
t
=
C
t
H(S)

Soit : On peut transmettre par unite de temps, à travers un canal capacite C
t
, à partir dune
source dentropie S, un nombre de symboles de source m
t
maximal de C
t
/H(S). Un codage
adequat permet de sapprocher de cette limite autant que lon veut.
4.7 Techniques de codage
Le theorème de Shannon enonce lexistence dun code aussi proche de loptimum que lon veut,
cest à dire tel que:
-

l est aussi proche que lon veut de
H(S)
Lb D
,
- est aussi proche que lon veut de 1,
-

N
i=1
D
l
i
est aussi proche que lon veut de 1.
Il ne donne neanmoins aucune indication quant à la realisation concrète dun code de bonne
ecacite. Nous donnons ci-après les 3 techniques couramment utilisees.
4.7.1 Codage de Shannon
Principe : Pour chaque symbole de source primaire S
i
, on cherche le plus petit entier l
i
tel que :
l
i

Lb (
1
p(S
i
)
)
Lb D
cest à dire tel que D
l
i
+1
> p(S
i
) D
l
i
Dans le cas du codage binaire, on a alors :
l
i
1 < Lb p(S
i
) l
i

l 1 < H(S)
H(S) <

l H(S) + 1
1
H(S)+1
<
1
l

1
H(S)

H(S)
H(S)+1
< 1
Ce codage est interessant lorsque H(S) 1
4.7.2 Codage de Shannon-Fano
Cas particulier : p(S
i
) = 2
l
i
Les probabilites des symboles de source primaire sont toutes des puissances entières de 1/2.
Dans ce cas, comme dans lexemple ci dessous, on peut diviser lensemble S des symboles de
source primaire en deux ensembles equiprobables S
0
et S
1
, puis recommencer loperation jusquà
obtenir des ensembles ne contenant que des elements isoles. On code ainsi chaque symbole de
source primaire avec un mot-code de longueur l
i
= Lb
1
p(S
i
)
. On a alors :
N
i=1
p(S
i
) = 1 =
N
i=1
2
l
i
Linegalite de Kraft est une egalite, et le code est optimal.
Exemple
Cas general : les probabilites sont quelconques
La methode consiste alors à classer les symboles par probabilites decroissantes, et a operer
de la meme facon que ci-dessus. On cree successivement les partition de S : S
0
, S1, puis
S
00
, S
01
, S
10
, S
11
, etc ...Jusquà ne plus obtenir que des symboles isoles.
4.7.3 Code de Human
La methode repose sur les observations suivantes :
- Un code instantane optimal est egalement optimal dans lensemble des codes à decodage unique.
Autrement dit, si on a un code optimal instantane, cest susant.
- Pour un code optimal, on a obligatoirement :p
i
> p
j
l
i
l
j
- Pour un code optimal, les deux mots les moins probables ont des longueurs egales
- Pour un code optimal, parmi les mots de longueur maximales, deux ne dièrent que par leur
dernière lettre.
La technique de construction sera exposee en TD.
Chapitre 5
Codage en presence de bruit. Codes
lineaires
5.1 Introduction : Le 2e theorème de Shannon
Le premier theorème de Shannon arme quon peut toujours, au prix dun codage complexe, ren-
dre le rendement dune transmission aussi proche quon le desire de 1. Cela concerne ladaptation
de la source au canal. Cependant, ce premier theorème etudie la manière de coder une source
sans redondance, ce qui nest pas forcement souhaitable. En eet, il peut etre preferable
dintroduire une redondance deliberement, en vue de diminuer lequivoque de la transmission,
ou, ce qui revient au meme, de diminuer sa vulnerabilite au bruit. On constate alors que lon
sera inevitablement amene à diminuer lentropie de la source primaire H(X). En eet :
Comme
I(X, Y ) = H(X) H(X/Y ),
on a :
min
p(x
i
)
H(X/Y ) = min
p(x
i
)
(H(X) I(X, Y )) ,
et donc
min
p(x
i
)
H(X/Y ) min
p(x
i
)
(H(X) C)
Dautre part, on constate que si lon diminue susamment H(X), H(X) C peut devenir
negatif, or H(X/Y ) ne le peut. Par consequent, pour minimiser H(X/Y ), il est necessaire de
diminuer H(X), mais pas trop.
Le deuxième theorème de Shannon enonce quon peut rendre H(X/Y) arbitrairement petit,
pourvu que H(X) C. Plus precisement :
Theorème:
Etant donnee une source dentropie H(X) et un canal de capacite C :
- Si H(X) C, il existe un procede de codage qui permet de realiser la transmission avec
une equivoque aussi petite que lon veut :
H(X/Y ) <
47
48 CHAPITRE 5. CODAGE EN PR
ESENCE DE BRUIT. CODES LIN
EAIRES
- Si H(X) > C, il existe un procede de codage permettant de realiser la transmission avec
une equivoque telle que :
H(X/Y ) < H(X) C +
mais il nexiste pas de procede de codage permettant dobtenir :
H(X/Y ) < H(X) C
Remarque
Tel quel, ce theorème na aucun interet. En eet, on peut toujours envisager, comme moyen de
lutte contre le bruit, la repetition. Par exemple sur un CBS, au lieu denvoyer un 1 ou un 0,
on enverra 111...111 ou 000...000, cest à dire 1 ou 0 2m+1 fois. La règle de decodage
à la reception sera alors tout naturellement :
Si le nombre de 1 dans le mot recu excède m, le mot est decode en 1, sinon, il est decode
en 0.
Dans ce cas Si la probabilite derreur du canal est p, la probabilite derreur deviendra ici :
P(e) = C
m+1
2m+1
p
m+1
(1 p)
m
+C
m+2
2m+1
p
m+2
(1 p)
m1
+
P(e) = C
m+1
2m+1
p
m+1
(1 p)
m
si p est susamment petit
On arrive bien à rendre P(e) aussi petit que lon veut, pour un symbole donne, mais on le paye
en faisant tendre la longueur des mots vers linni.
Le deuxième theorème de Shannon arme quelque chose de plus : il ny a pas besoin de
faire tendre le taux demission vers 0 pour rendre P(e) . Les gures suivantes illustrent ce
fait.
5.2. STRUCTURES DANS B
N
49
La zone hachuree est la zone dans laquelle se trouve tout message. Un codage adequat
permet datteindre sa limite inferieure. Shannon ne donne cependant aucune indication sur la
technique de construction dun code qui permette datteindre cette limite. Son theorème est
uniquement un theorème dexistence.
5.2 Structures dans B
n
Nous regroupons ici un certain nombre de notions qui nous serviront dans la construction de
codes capables de corriger les erreurs de transmission. Nous nous limiterons aux codes binaires,
dont tous les mots sont de longueur egale. Un mot du code est alors considere comme un element
de lensemble B
n
, o` u B est lensemble 0, 1.
5.2.1 Le corps B
Par denition, cest lensemble B = 0, 1 dans lequel on a deni deux operations :
- laddition binaire ( ou exclusif) notee , ou encore + mod 2, ou plus simplement +.
- la multiplication binaire ( et) notee , ou encore mod 2.
possedant les proprietes standard (associativite, commutativite, distributivite, element neutre,
element inverse). On a de plus les propriete suivantes :
le dierence est identique à laddition : a b = a b
lelevation à une puissance est lidentite, puisque a a = a
lelement 1 est son propre inverse. Lelement 0 na pas dinverse
5.2.2 Le groupe B
n
= 0, 1
n
Cest par denition lensemble des 2
n
mots binaires de longueur n, quon note :
u = a
1
a
2
a
3
a
i
a
n
avec a
i
B
dans lequel on a deni laddition binaire terme à terme comme suit : Si u = a
1
a
2
a
n
et
v = b
1
b
2
b
n
sont deux mots de B
n
, alors w = u v = c
1
c
2
c
n
est deni par :
c
1
= a
1
b
1
c
2
= a
2
b
2
etc...
On montre facilement que B
n
est un groupe commutatif pour lequel on a aussi equivalence entre
la soustraction et laddition, et pour lequel lelement neutre est u
0
= 00 0
. .
n
.
EAIRES
Denitions
Tout sous-ensemble de B
n
ferme pour laddition est appele sous-groupe de B
n
.
On appelle code de taille N tout ensemble de N n-mots
Si les mots dun code forment un sous-groupe de B
n
, on dit que est un code de groupe
Si un n-mot de B
n
appartient à , on dit quil a un sens. Sinon, il est dit depourvu de
sens.
On appelle poids dun n-mot le nombre de 1 de ce mot. Si u = a
1
a
2
a
n
, le poids de
u est :
(u) =
n
i=1
a
i
somme ordinaire
5.2.3 Lespace vectoriel B
n
Denition
Lespace vectoriel B
n
est le groupe B
n
sur lequel on a deni la multiplication par un scalaire
B :
u = u si = 1
u = u
0
si = 0
Un code de groupe est un sous-espace vectoriel de B
n
(car il est ferme pour les deux operations).
Cest pourquoi les codes de groupe sont encore appeles codes lineaires . Un n-mot devient ainsi
un vecteur quon peut ecrire en fonction des vecteurs dune base canonique ou non. Par exemple :
u = a
1
a
2
a
n
e
1
= 10 0
e
2
= 010 0
etc
e
n
= 00 01
Do` u :
u = a
1
e
1
+a
2
e
2
+ +a
n
e
n
Ainsi, un code lineaire est deni par ses m vecteurs de base (m < n), il possède donc 2
m
n-mots.
On peut egalement denir le produit scalaire de deux vecteurs : Si u = a
1
a
2
a
n
et v =
b
1
b
2
b
n
, on denit u.v par :
u.v = a
1
b
1
a
2
b
2
a
n
b
n
=
n
i=1
a
i
b
i
mod 2
On peut ainsi denir lorthogonalite de deux vecteur :
u v u.v = 0
et donc de deux sous-espaces de B
n
. Deux codes lineaires peuvent ainsi etre orthogonaux (si
tout vecteur de lun est orthogonal à tout vecteur de lautre).
On remarque quun vecteur peut etre orthogonal à lui-meme. Il sut pour cela quil ait un
poids pair.
5.3. DISTANCE DE HAMMING 51
5.3 Distance de Hamming
5.3.1 Denition
On appelle distance de Hamming de deux vecteurs de B
n
le poids de leur dierence :
d(u, v) = (u v) = (u v)
Cest le nombre de bits par lesquels ils dierent. On verie que cest bien une distance.
Theorème
La distance minimale entre mots dun code de groupe est le poids du mot de poids le plus faible
(` a part u
0
) du code.
Pour le demontrer, il sut de remarquer quun code de groupe est ferme pour . Donc
u, vu v
5.3.2 Application à la detection et à la correction des erreurs
Considerons un code de Groupe de 2
m
n-mots. Supposons quun mot de ce code, u =
a
1
a
2
a
n
soit transmis à travers un canal binaire symetrique de probabilite derreur p. On
peut alors calculer les probabilites respectives des dierents types derreurs :
Si p est susamment petit,
La probabilite pour quon ait 0 erreur est (1 p)
n
La probabilite pour quon ait 1 erreur est C
1
n
p(1 p)
n1
La probabilite pour quon ait 2 erreursest C
2
n
p
2
(1 p)
n2

La probabilite pour quon ait :k erreursest C
k
n
p
k
(1 p)
nk
Soit alors d
0
la distance minimum pouvant exister entre deux mots du code. Si
u
= a
1
a
2
a
n
est le mot recu alors quon a emis le mot u ci-dessus, alors la distance d(u, u
) entre mot emis et

mot recu est egale au nombre k derreurs commises dans la transmission. Or la probabilite pour
quon ait commis k erreurs est une fonction decroissante de k. Par consequent, lorsquon recoit
un mot qui ne fait pas partie du code, on corrigera ce mot en le remplacant par le mot-code le
plus proche , et ce faisant on appliquera une règle de decision du maximum de vraisemblance,
puisquon prendra le mot-code le plus probable. En eet, daprès lexemple du CBS ci-dessus,
on sait que :
Si d(u, u
) < d(v, u
), alors p(u
/u) > p(u
/v)
On en arrive ainsi au schema suivant :
EAIRES
Ici, d(u, v) = 9, d(u
, u) = 4, d(u
, v) = 5, dou la decision de choisir u comme origine

supposee de u
. On corrige ainsi 4 erreurs.

Si on a un code dont la distance minimale est d
0
= 9, alors on pourra detecter jusquà 8
erreurs, et corriger jusquà 4 erreurs.
De facon generale,:
Si d
0
= 2r + 1, le code detecte 2r erreurs et en corrige r
Si d
0
= 2r, le code detecte 2r-1 erreurs et en corrige r-1
5.3.3 Theorème de Hamming
Theorème
Une condition necessaire dexistence dun code de N n-mots de B
n
corrigeant r erreurs est que
N
2
n
r
i=0
C
r
i
En eet, un code qui corrige r erreurs doit necessairement avoir une distance minimale d
0
telle
que d
0
2r + 1. Il est clair que si N est trop grand, la densite de mots-codes sera trop grande
pour que la distance minimale puisse etre respectee. On va donc chercher un maximum pour N.
Dans B
n
, un mot quelconque possède :
C
1
n
= n voisins à distance 1 (dierant de lui par 1 digit et un seul)
C
2
n
voisins à distance 2 (dierant de lui par 2 digits exactement)

C
r
n
voisins à distance r (dierant de lui par r bits exactement)
Une boule de rayon r contient donc 1 +C
1
n
+C
2
n
+ +C
r
n
mots de B
n
.
Si on veut que les N mots du code soient chacun entoure dune boule de rayon r, et que ces
dernières soient toutes disjointes, il faut donc que B
n
comporte susamment de mots. Or B
n
comporte 2
n
mots. Donc une condition necessaire (mais pas susante !) dexistence dun code
dont chaque mot soit entoure dune boule de rayon r, et qui par consequent soit capable de
corriger r erreurs est que :
N(1 +C
1
n
+C
2
n
+ +C
r
n
) 2
n
soit encore :
N
2
n
r
i=0
C
i
n
Exemple :
On desire construire un code de 32 mots qui corrige 4 erreurs. Quelle est la taille minimum des
mots ?
On construit la fonction :
f(n) =
2
n
1 +C
1
n
+C
2
n
+C
3
n
+C
4
n
On observe que cette fonction est croissante avec n, et quelle depasse 32 à partir de n=17.
5.4. CONTR
OLE DE PARIT
E. CODES LIN
EAIRES 53
Denition :
Lorsquun code de groupe de B
n
de dimension m est tel que linegalite de Hamming est une
egalite, cest à dire que
2
m
(
r
i=0
C
i
n
) = 2
n
on dit que ce code est un code parfait.
5.4 Contr ole de parite. Codes lineaires
5.4.1 Principe du contr ole de parite
Les mots du code sont construits à partir de n 1 digits informatifs et dun bit de parite. Si
u = a
1
a
2
a
n
est un mot-code, alors ses digits verient lune des deux relations de parite :
n
i=1
a
i
= 0 ou
n
i=1
a
i
= 1
Cela revient à augmenter de 1 la dimension de lespace, en introduisant un mot depourvu de
sens entre chaque mot-code et ses voisins. La distance minimale est alors d
0
= 2 et le code
detecte les erreurs simples. Il ne corrige aucune erreur, mais permet de rejeter un mot-code
faux, et eventuellement de declencher une procedure de reemission du mot errone.
La redondance introduite est de
1
n
.
5.4.2 Generalisation : codes de Hamming
Le principe est de constituer les mots du code de longueur n en ajoutant à la suite des m digits
informatifs k = n m bits de controle. Le code est plonge dans B
n
, et comporte 2
m
mots.
Il est dit code (n, m) (n digits, dont m digits informatifs). Lidee de base de Hamming est
de numeroter à laide des k bits de controle les n possibilites derreur unique (plus labsence
derreurs, do` u au total n+1 possibilites). La redondance introduite par ce type de codage est
donc de
k
n
.
Pour realiser cela, il est necessaire que 2
k
soit superieur ou egal au nombre de possibilites à
coder, soit :
2
k
n + 1, ou encore 2
k
k 1 m
Si lon desire minimiser la redondance, il faut choisir le k le plus petit possible. On arrive
EAIRES
alors à denir les codes à redondance minimale, pour lesquels 2
k
k 1 = m. Do` u le tableau :
m digits informatifs k digits de controle 2
k
k 1 n: longueur totale Code
1 2 1 3 3,1 0,66
2 3 4 5 5,2 0,6
3 3 4 6 6,3 0,5
4 3 4 7 7,4 0,42
5 4 11 9 9,5 0,44
6 4 11 10 10,6 0,4
7 4 11 11 11,7 0,363
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11 4 11 15 15,11 0,26
12 5 26 17 17,12 0,29
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
26 5 26 31 31,26 0,29
27 6 57 33 33,27 0,18
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5.4.3 Exemple du code de Hamming (7,4)
Description
Un mot-code comporte 7 digits : u = a
1
a
2
a
3
a
4
a
5
a
6
a
7
Un mot recu, eventuellement aecte dune erreur secrit u
= a
1
a
2
a
3
a
4
a
5
a
6
a
7
On ne soccupe que des erreurs uniques. u et u
ne dièrent que par un digit au plus. On

convient alors de noter en binaire la place de lerreur, à laide dun mot de 3 digits, quon note
e
1
e
2
e
3
.
Do` u le tableau :
e
1
e
2
e
3
0 erreurs 0 0 0
erreur en position 1 1 0 0
Ainsi par exemple, e
1
est egal à 1 si a
1
ou a
3
ou a
5
ou a
7
est faux. Cela peut secrire :
e
1
= a
1
+a
1
+a
3
+a
3
+a
5
+a
5
+a
7
+a
7
5.4. CONTR
OLE DE PARIT
E. CODES LIN
EAIRES 55
e
2
= a
2
+a
2
+a
3
+a
3
+a
6
+a
6
+a
7
+a
7
e
3
= a
4
+a
4
+a
5
+a
5
+a
6
+a
6
+a
7
+a
7
Sur ces equations, on observe que e
1
, e
2
et e
3
pourront etre calcules uniquement à partir du mot
de sortie (les a
i
), sous reserve de respecter, à lemission, les relations suivantes :
a
1
+a
3
+a
5
+a
7
= 0 (1)
a
2
+a
3
+a
6
+a
7
= 0 (2)
a
4
+a
5
+a
6
+a
7
= 0 (3)
qui peut encore secrire :
a
5
= a
2
+a
3
+a
4
( 2+3 )
a
6
= a
1
+a
3
+a
4
( 1+3 )
a
7
= a
1
+a
2
+a
4
(1+2+3)
Ces equations permettent de calculer les 3 digits de controle a
5
, a
6
et a
7
en fonction des digits
informatifs a
1
, a
2
, a
3
, et a
4
. Cest la règle de construction du code à lemission.
Dès lors, à la reception on calculera e
1
, e
2
, et e
3
à laide des equations suivantes :
e
1
= a
1
+a
3
+a
5
+a
7
e
2
= a
2
+a
3
+a
6
+a
7
e
3
= a
4
+a
5
+a
6
+a
7
et on pourra ainsi localiser et corriger lerreur.
Exemple :
On recoit le mot : 1010101
On calcule : e
1
= 0, e
2
= 0, e
3
= 0
On en deduit quil ny a pas derreur, et que les digits dinformation sont les 4 premiers : 1010
On calcule : e
1
= 0, e
2
= 1, e
3
= 0
On en deduit quil y a une erreur en position 2 et donc que le mot emis etait 1010101
Les digits dinformation etaient donc : 1010
On calcule : e
1
= 0, e
2
= 1, e
3
= 1
On en deduit quil y a une erreur en position 6 et donc que le mot emis etait 1010101
Les digits dinformation etaient donc : 1010
On constate que le code permet de corriger toutes les erreur simples, quelles aectent les digits
dinformation ou les digits de controle.
EAIRES
Ecriture matricielle
Les calculs peuvent secrire sous une forme matricielle plus compacte. Ainsi :
[a
5
a
6
a
7
] = [a
1
a
2
a
3
a
4
]
_
_
0 1 1
1 0 1
1 1 0
1 1 1
_
_
est equivalent au système ci-dessus, qui permet de calculer les 3 digits de controle en fonction
des 4 digits informatifs. De facon plus generale, on peut ecrire :
1k
[digits de test]=
1m
[digits informatifs]
mk
[]
De la meme facon, lensemble des mots codes sobtient à partir des digits informatifs par :
[a
1
a
2
a
3
a
4
a
5
a
6
a
7
] = [a
1
a
2
a
3
a
4
]
_
_
1 0 0 0 0 1 1
0 1 0 0 1 0 1
0 0 1 0 1 1 0
0 0 0 1 1 1 1
_
_
qui peut encore secrire :
1n
[u] =
1m
[s] [I
m
[
mk
] = s
mn
G
o` u I
m
designe la matrice identite dordre m.
La matrice G est appelee generatrice du code. Ses vecteurs lignes forment une base du sous-
espace C constitue par les 2
m
mots-codes, plonge dans B
n
, lui-meme constitue de 2
n
mots.
La condition u = s G est donc une CNS dappartenance au code.
Remarques :
Si lon permute les colonnes de G, cela revient à placer les digits signicatifs en dautres places
quen tete du mot -code. Si, par exemple, on considère le code engendre par la matrice generatrice
ci-dessous, on aura :
[u
1
u
2
u
3
u
4
u
5
u
6
u
7
] = [s
1
s
2
s
3
s
4
]
_
_
1 0 0 1 0 1 0
0 1 1 0 0 1 0
0 1 0 1 1 0 0
0 1 0 0 0 1 1
_
_
Pour ce nouveau code C, dierent du precedent, les digits signicatifs sont en places 1, 3, 5,
7, et les bits de controle en place 2, 4, 6. Dans un tel cas, on dit que les codes C et C sont
equivalents.
Dans le cas o` u la matrice generatrice contient la matrice unite à gauche, on dit quelle est
canonique en echelons. Le code est alors dit systematique.
5.5. CAS G
EN
ERAL : CODES LIN
EAIRES 57
Matrice de contr ole
On a vu que les mots codes etaient denis par les relations que doivent respecter leurs digits,
soit :
a
1
+a
3
+a
5
+a
7
= 0 (1)
a
2
+a
3
+a
6
+a
7
= 0 (2)
a
4
+a
5
+a
6
+a
7
= 0 (3)
qui secrit encore :
_
_
1 0 1 0 1 0 1
0 1 1 0 0 1 1
0 0 0 1 1 1 1
_
_
_
a
1
a
2
a
3
a
4
a
5
a
6
a
7
_
_
= 0
Cette relation est, elle aussi une CNS dappartenance au code. On dit que cest une relation de
controle, et on lecrit en general :
kn
H
n1
T(u)= 0
o` u T(u) designe le vecteur-colonne transpose du vecteur-ligne u
H est appelee matrice de contr ole du code. Il est facile de verier que cette matrice nest pas
unique.
On peut remarquer que comme
u = s G = T(u) = T(G)T(s)
on a
H T(G) T(s) = 0 sB
4
et donc :
H T(G) = 0
Cela exprime lorthogonalite des deux sous-espaces engendres respectivement par G et H : tout
vecteur de lun est orthogonal à tout vecteur de lautre.
On verie de plus que lorsque le code est sous forme systematique, et donc que G secrit sous la
forme G = I
m
une matrice de controle peut secrire H = T()I
k
.
5.5 Cas general : codes lineaires
5.5.1 Denitions
Denition 1
Soient g
1
, g
2
, g
3
, , g
m
un ensemble de m vecteurs de B
n
lineairement independants. Ils for-
ment une base dun sous-espace C de dimension m de B
n
appele code lineaire (n,m). Le code C
est ainsi deni comme lensemble des combinaisons lineaires des m vecteurs de base. Le nombre
de telles combinaisons distinctes est evidemment de 2
m
. On peut ecrire :
C = u B
n
[ u = s G
EAIRES
avec
s = [s
1
s
2
s
m
] et
mn
G
=
_
_
g
1
g
2
.
.
.
g
m
_
_
=
_
_
g
11
g
12
g
1n
g
21
g
22
g
2nn
.
.
.
.
.
.
.
.
.
.
.
.
g
m1
g
m2
g
mn
_
_
G est appelee matrice generatrice du code.
Denition 2
Soit C
lensemble des vecteurs de B

n
orthogonaux à tout vecteur du code C deni ci-dessus. :
C
= v B
n
[u C, u T(v) = 0
Les resultats generaux dalgèbre lineaire permettent darmer que C
est un sous-espace
vectoriel de B
n
, de dimension k = n m. C
peut etre engendre par une base de k vecteurs

lineairement independants tous orthogonaux à tous les vecteurs de C. Reciproquement, C peut
etre considere comme lensemble des vecteurs othogonaux à tous les vecteurs de C
, donc en
particulier à ses k vecteurs de base. Si H est la matrice contituee par ces k vecteurs de base
ecrits en ligne, on peut denir C comme :
C =
_
u B
n
[
kn
H
k1
T(u)= 0
_
Remarques
- C
peut, lui aussi, etre considere comme un code. Cest un code (n,k) de matrice generatrice
H et de matrice de controle G.
- Si on remplace dans G les vecteurs lignes par des combinaisons de ces vecteurs lineairement
independantes, on opère un changement de base dans C, mais ce dernier reste inchange. En
revanche, si lon remplace les colonnes par des combinaisons lineaires de celles-ci, on remplace
le code par un code equivalent, dont les vecteurs sont dierents de ceux de C.
- On peut exprimer les denitions ci-dessus de la manière suivante :
C est limage de lapplication lineaire de B
m
dans B
n
qui a pour matrice G.
C est le noyau (lespace nul) de lapplication lineaire de B
k
dans B
n
qui a pour matrice H.
5.5.2 Poids minimum dun code lineaire
Theorème :
Soit C un code lineaire de matrice de contr ole H. Une CNS pour quil existe un mot -code de
poids w est quil existe w colonnes de H lineairement dependantes.
En eet, soit un mot-code v = v
1
v
2
v
n
, et soit :[H] = [h
1
, h
2
, , h
n
] la matrice de contr ole.
Les h
i
sont des colonnes de k elements.
Alors H T(v) = 0
n
i=1
h
i
v
i
= 0
Dire quil existe un mot-code de poids w revient donc à dire quil existe un ensemble de coe-
cients v
i
non tous nuls, tels que

n
i=1
h
i
v
i
= 0, avec w coecients v
i
dierents de 0 (et donc
5.5. CAS G
EN
ERAL : CODES LIN
EAIRES 59
egaux à 1).
Cet enonce est equivalent à dire quil existe un ensemble de w colonnes de H dont la somme est
nulle, cest à dire qui sont lineairement dependantes.
Corollaire :
Un code lineaire de matrice de controle H a un poids minimum w au moins si et seulement si
tout ensemble de w 1 colonnes de H est lineairement independant.
Exemple :
On a vu quune matrice de controle du code de Hamming (7,4) est :
H =
_
_
0 1 1 1 1 0 0
1 0 1 1 0 1 0
1 1 0 1 0 0 1
_
_
On observe que cette matrice na pas deux colonnes identiques. Donc, il nexiste pas de combi-
naison lineaire dependante de 2 colonnes, ni donc de mot-code de poids 2. De plus, il est facile
de trouver un ensemble de 3 colonnes telles que leur somme soit nulle (par exemple h
1
+h
2
+h
3
).
Par consequent il existe un mot-code de poids 3. Il en resulte que la distance minimale du code
de Hamming (7,4) est d
0
= 3. Il sagit donc dun code 1-correcteur et 2-detecteur.
5.5.3 Correction des erreurs dun code lineaire
Le schema de base est le suivant :
Le mot emis est un mot-code u = u
1
u
2
u
n
C
Le mot recu est u
= u
1
u
2
u
n
B
n
On suppose que u
resulte de laddition à u dun vecteur erreur :

u
= u +
EAIRES
Pour detecter la presence dune erreur, on calcule H T(u).
Si H T(u) ,= 0, on est s ur quil y a une erreur.
Si H T(u) = 0, on presume quil ny pas derreur.
Denition :
On appelle syndrome (ou encore vecteur de parite, ou encore correcteur) le vecteur-colonne à
k elements z = H T(u)
Cette appellation est justiee par le fait quon peut observer que :
Si u
(B
n
) = u(C) +(B
n
),
alors z = H T(u) +H T() = H (T()
car H T(u) = 0
Ainsi, le syndrome depend de la maladie, , mais pas du malade (u).
Remarques :
- Si est un mot-erreur et un mot-code, alors il engendre une erreur non-corrigeable, puisquil
transforme un mot-code en un autre mot-code.
- Il y a 2
k
1 syndromes non nuls distincts. On pourra donc corriger au plus 2
k
1 erreurs
distinctes.
Correction des erreurs
Une procedure de correction consiste à denir une correspondance biunivoque entre lensemble
des 2
k
1 syndromes non nuls et un sous-ensemble des vecteurs erreurs. Ce sous-ensemble sera
dit ensemble des erreurs corrigeables. Soit D cette correspondance :
D(z) =
La correction consiste ainsi à :
Calculer H T(u
) = z = H T(u +) = H()
Calculer = D(z)
Remplacer u
par u
+. En eet, puisque u
= u+, on a aussi u = u
+. Cest pourquoi
le vecteur-erreur est aussi appele correcteur de u
.
En pratique, on associe à chaque syndrome le vecteur erreur de poids le plus faible, ce qui
revient à faire une correction du type maximum de vraisemblance. On dresse alors le tableau
des classes voisines du code :
5.5. CAS G
EN
ERAL : CODES LIN
EAIRES 61
Vecteur erreur Classes voisines Syndrome (ecrit en ligne)
0
= 00 0 u
1
u
2
u
s
00 0
Erreurs simples
1
= 10 0 u
1
+
1
u
2
+
1
u
s
+
1
H T(
1
)
2
= 01 0 u
1
+
2
u
2
+
2
u
s
+
2
H T(
2
)

n
= 00 1 u
1
+
n
u
2
+
2
u
s
+
n
H T(
n
)
Erreurs doubles
n+1
= 11 0 u
1
+
n+1
u
2
+
n+1
u
s
+
n+1
H T(
n+1
)
n+2
= 101 0 u
1
+
n+2
u
2
+
n+2
u
s
+
n+2
H T(
n+2
)

2n1
= 10 01 u
1
+
2n1
u
2
+
2n1
u
s
+
2n1
H T(
2n1
)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
On continue jusquà epuisement des syndromes.
Remarques :
- Il est important de verier si deux mots-erreurs de meme poids mais dierents nont pas le
meme syndrome. Dans ce cas, le syndrome en question devient inutilisable pour la correction,
car lapplication D(z) nest plus univoque.
- Le nombre total de vecteurs recevables est 2
n
. Le nombre total de mots-codes est 2
m
. Le
nombre total de syndromes est 2
k
=
2
n
2
m
- On appelle codes de Hamming les codes pour lesquels le syndrome est la representation binaire
du rang dune erreur simple
Exemple :
On considère le code (5,2) systematique deni par les matrice generatrice et de controle suivan-
tes :
G =
1 0 1 0 1
0 1 1 1 0
_
H =
_
_
1 1 1 0 0
0 1 0 1 0
1 0 0 0 1
_
_
Les mots-codes sont au nombre de 4 :
00 00000
01 01110
10 10101
11 11011
Le tableau des classes voisines est alors le suivant :
EAIRES
Vecteur erreur Classes voisines Syndrome (ecrit en ligne)
0
= 00000 00000 01110 10101 11011 000
Erreurs simples
1
= 10000 10000 11110 00101 01011 101
2
= 01000 01000 00110 11101 10011 110
3
= 00100 00100 01010 10001 11111 100
4
= 00010 00010 01100 10111 11001 010
5
= 00001 00001 01111 10100 11010 001
Erreurs doubles
6
= 11000 11000 10110 011
7
= 10100 10100 11010 001
8
= 10010 10010 11100 111
9
= 10001 10001 11111 100
10
= 01100 01100 00010 010
11
= 01010 01010 00100 100
12
= 01001 01001 00111 111
13
= 00110 00110 01000 110
14
= 00101 00101 01011 101
15
= 00011 00011 01101 011
Erreurs triples
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
On remarque que les 5 premiers syndromes non nuls sont les colonnes de H. Les syndromes
suivants sont les sommes deux à deux des colonnes de H.
De plus, pour les erreurs doubles, il y a ambig uite : le meme syndrome peut etre d u à deux
vecteurs erreurs dierents. Par exemple, 011 peut etre d u à
6
= 11000 ou à
13
= 00101.
Chapitre 6
Codes Cycliques
6.1 Introduction
6.1.1 Denition
Un code cyclique C est un code lineaire tel que si u = a
0
a
1
. . . a
n1
fait partie du code, alors
u
= a
n1
a
0
a
1
. . . a
n2
, permute de u, en fait partie aussi. Il en resulte que tous les permutes
de u font aussi partie de C.
6.1.2 Representation polynomiale dun mot
On a lhabitude de representer le mot u = a
0
a
1
. . . a
n1
B
n
par le polynome
u(x) = a
0
+a
1
x + +a
n1
x
n1
u(x) est un element de B(x), anneau des polynomes à une indeterminee sur B.
N.B. : x et a
i
sont des elements de B.
6.2 Notions utiles sur les polyn omes
6.2.1 Classes residuelles
Denition
On appelle classe residuelle modulo P(x) lensemble de tous les polynomes qui ont meme reste
dans la division euclidienne par P(x).
A(x) = P(x)Q(x) +R(x) avec
R <
P
Le nombre de classes residuelles modulo P(x) est le nombre de polynomes de degre strictement
inferieur au degre de P(x). Si
P(x) = n, ce nombre est 2

n
, soit aussi le nombre de mots
binaires de longueur n.
63
64 CHAPITRE 6. CODES CYCLIQUES
Exemple
classes residuelles modulo 1 +x +x
2
0 1 +x +x
2
x(1 +x +x
2
) = x
3
+x
2
+x (1 +x)(1 +x +x
2
) = x
3
+ 1 etc
1 x +x
2
x(1 +x +x
2
) + 1 = x
3
+x
2
+x + 1 (1 +x) = (1 +x +x
2
) + 1 = x
3
etc
x 1 +x
2
x(1 +x +x
2
) +x = x
3
+x (1 +x)(1 +x +x
2
) +x = x
3
+x + 1 etc
1 +x x
2
x(1 +x +x
2
) +x + 1 = x
3
+x
2
+ 1 (1 +x)(1 +x +x
2
) +x + 1 = x
3
+x etc
Theorème
(A verier): Lensemble des classes residuelles modulo P(x) est une algèbre de dimension
P(x) = n, cest à dire:

un anneau (mais pas un corps)
un espace vectoriel
produit et multiplication par une constante commutent :
au(x)v(x) = u(x)av(x)
Le fait important est que lensemble ni B(x)/P(x), qui sidentie à B
n
est ferme, non seule-
ment pour laddition, mais aussi pour la multiplication.
Application importante :
u(x) = a
0
+a
1
x + +a
n1
x
n1
xu(x) = a
0
x +a
1
x
2
+ +a
n1
x
n
xu(x) = a
0
x +a
1
x
2
+ +a
n1
(x
n
+ 1) +a
n1
xu(x) = a
n1
+a
0
x +a
1
x
2
+ +a
n2
+a
n1
(x
n
+ 1)
xu(x) = u
(x) mod x
n
+ 1
Autrement dit : le permute u
dun mot u a pour polynome associe xu(x) dans B(x)/(x

n
+ 1)
6.2.2 Ideal dans un anneau
Denition
Considerons, dans lanneau des classes residuelles B(x)/(x
n
+1), un element non nul g(x). Soit
lensemble des multiples (modulo x
n
+1) de g(x). On verie aisement que est ferme pour
laddition et la multiplication. On appelle ideal dans un anneau tout sous-ensemble de cet
anneau qui verie ces proprietes.
Les sous-ensembles dun anneau qui sont constitues exclusivement des multiples dun element
donne sont appeles ideaux principaux. Il se trouve que certains anneaux, dont B(x)/(x
n
+ 1)
nont que des ideaux principaux.
On verie facilement quun ideal contient necessairement 0, element neutre de laddition.
6.3. TH
EOR
`
EME FONDAMENTAL 65
Proprietes
Soit un ideal de B(x)/(x
n
+ 1), et soit g(x) un element de de degre minimal.
Propriete 1 : g(x) est unique.
En eet, soit g
1
(x) un polynome de , dierent de g(x), et de meme degre que g(x). Comme
est un ideal principal, il existe a(x) tel que g(x) et g
1
(x) soient tous deux multiples
de a(x) (modulo x
n
+ 1). Donc g(x) = u(x)a(x) et g
1
(x) = u
1
(x)a(x). Donc, g(x) g
1
(x) =
(u(x) u
1
(x))a(x) fait partie de , et
(g(x) g
1
(x)) <
g(x), ce qui est en contradiction

avec lhypothèse de degre minimal de g(x).
Propriete 2 : g(x)divise x
n
+ 1.
En eet, on peut ecrire :
x
n
+ 1 = g(x)q(x) +r(x) mod x
n
+ 1 avec
r(x) <
g(x)
or, x
n
+1 = 0 mod x
n
+1, donc r(x) est un multiple de g(x), de degre inferieur à celui de g(x),
ce qui est en contradiction avec lhypothèse de degre minimal pour g(x). Donc, r(x) = 0, et
g(x) divise x
n
+ 1.
6.3 Theorème fondamental
6.3.1 Enonce :
Une CNS pour quun code lineaire C(n, m) soit cyclique est quil soit un ideal de B(n)/x
n
+ 1.
6.3.2 Demonstration :
C.N.
Soit C un code cyclique. Soit u(x) ,= 0 C. On a xu(x) C, et donc : x
i
u(x) Ci.
Comme C est lineaire, on a modulo x
n
+ 1,
n1
i=0
a
i
(x
i
u(x)) C a
i
B
u(x)
n1
i=0
a
i
x
i
C a
i
B
=Tous les multiples de u(x) modulo x
n
+ 1 sont C
Donc C, ferme pour laddition parcequil est lineaire lest aussi pour la multiplication parce quil
est cyclique. Cest donc un ideal de B(x)/x
n
+ 1.
C.S.
Soit C un ideal de B(x)/(x
n
+ 1). Alors,u C =
g(x), q(x) B(x)/(x
n
+ 1)[u(x) = g(x)q(x)
xu(x) = xg(x)q(x) = g(x)[xq(x)] mod x
n
+ 1
Donc x
i
u(x) C i et donc, C est cyclique.
6.4 Polyn ome generateur
6.4.1 Denition
Etant donne un code cyclique C(n,m), comme cest un ideal de B(x)/x
n
+1, cest aussi lensemble
des multiples (modulo x
n
+1) dun polynome g(x) de degre minimal, qui divise x
n
+ 1. On ap-
pelle g(x) le polynome generateur du code.
6.4.2 Proprietes
On verie facilement que, comme C(n, m) est de dimension m, on a :
x
n
+ 1 = g(x)h(x), avec
h(x) = m et
g(x) = k = n m
Tout diviseur de x
n
+ 1 est donc un generateur possible pour un code cyclique. Cest pourquoi
on trouve dans la litterature la liste des decompositions des polynomes x
n
+ 1 en facteurs
irreductibles jusquà n très grand. Chacun de ces facteurs et leurs produits sont un generateur
possible pour un code cyclique pour le n considere.
On a, par exemple :
x + 1 x
6
+ 1 = (x + 1)
2
(x
2
+x + 1)
2
x
2
+ 1 x
7
+ 1 = (x + 1)(x
3
+x + 1)(x
3
+x
2
+ 1)
x
3
+ 1 = (x + 1)(x
2
+x + 1) x
8
+ 1 = (x + 1)
8
x
4
+ 1 = (x + 1)
4
x
9
+ 1 = (x + 1)(x
2
+x + 1)(x
6
+x
3
+ 1)
x
5
+ 1 = (x + 1)(x
4
+x
3
+x
2
+x + 1) x
10
+ 1 = (x + 1)
2
(x
4
+x
3
+x
2
+x + 1)
2
etc...
6.4.3 Matrice generatrice dun code cyclique
Un code cyclique C(n, m) etant deni par son polynome generateur g(x), de degre k = n m,
tout mot u de C a pour polynome associe u(x), qui peut secrire:
u(x) = s(x)g(x), avec
g(x) = k,
u(x) n 1, et donc
s(x) n k 1 = m1
Pour coder le mot de m bits signicatifs associe au polynome s(x) de degre m-1, il sut donc
de multiplier s(x) par g(x), pour obtenir le polynome u(x) de degre n-1 associe au mot-code
u.
Posons alors: p(x) = a
0
+a
1
x + +a
m1
x
m1
Dans ce cas, u(x) = a
0
g(x) +a
1
xg(x) + +a
m1
x
m1
g(x)
Tout mot de C secrit donc comme une combinaison lineaire des m vecteurs :
g(x), xg(x), , x
m1
g(x)
On verie facilement que ces mots sont lineairement independants, et quils forment donc une
base de lespace vectoriel C dans B
n
. On en deduit donc une matrice generatrice (m lignes, n
colonnes) sous forme non-systematique du code:
G =
_
_
g
0
g
1
g
k
0 0 0
0 g
0
g
k1
g
k
0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 g
0
g
1
g
k1
g
k
_
_
6.5. POLYN
OME DE CONTR
OLE 67
ou encore:
G =
_
_
g(x)
xg(x)
x
2
g(x)
.
.
.
x
m1
g(x)
_
_
6.5 Polyn ome de contr ole
6.5.1 Denition
Un code cyclique est entièrement deni par le choix dun diviseur g(x) de x
n
+ 1 :
x
n
+ 1 = g(x)h(x)
Un mot-code est obtenu en multipliant un polynome quelconque s(x) de degre m1 ou moins
par g(x) (de degre k) :
u(x) = s(x)g(x)
Dans ce cas, on a: h(x)u(x) = h(x)s(x)g(x)
Soit : h(x)u(x) = s(x)(x
n
+ 1)
et donc: h(x)u(x) = 0 modulo x
n
+ 1
Pour verier si un mot de B
n
fait partie du code, il sut donc de le multiplier par h(x). Ce
produit doit etre nul. Cest pourquoi h(x) est appele polyn ome de contr ole du code.
Si le produit h(x)u(x) nest pas nul, il peut etre utilise comme syndrome.
Une autre methode pour verier si u(x) fait partie du code consiste evidemment à eectuer
la division euclidienne de u(x) par g(x). Le reste de cette division doit etre nul. Sil ne lest pas,
il peut, lui aussi etre utilise comme syndrome.
6.5.2 Exemple
On donne:
x
15
+ 1 = (1 +x)(1 +x +x
2
)(1 +x +x
4
)(1 +x
3
+x
4
)(1 +x +x
2
+x
3
+x
4
)
Choisissons comme polynome generateur g(x) = 1 +x
3
+x
4
.
On denit ainsi un code de 2
11
mots, de longueur 15, plonge dans B
15
. Un mot-code est obtenu
en multipliant un polynome de degre 10 au plus par g(x).
Ainsi, si le mot à coder est :s = 00101101100
s(x) = x
2
+x
4
+x
5
+x
7
+x
8
u(x) = s(x)g(x) = x
2
+x
4
+x
6
+x
8
+x
9
+x
10
+x
12
et le mot-code est : u = 001010101110100
On a : h(x) = (1 +x)(1 +x +x
2
)(1 +x +x
4
)(1 +x +x
2
+x
3
+x
4
)
Soit h(x) = 1 +x
3
+x
4
+x
6
+x
8
+x
9
+x
10
+x
11
Et on verie que h(x)u(x) = x
2
+x
4
+x
5
+x
7
+x
8
+x
17
+x
19
+x
20
+x
22
+x
23
Or x
17
= x
2
(x
15
+ 1) +x
2
et donc x
17
= x
2
mod x
15
+ 1,
Et de meme, x
19
= x
4
, x
20
= x
5
, x
22
= x
7
, x
23
= x
8
,
Do` u h(x)u(x) = 0 mod x
15
+ 1
On peut aussi verier, par division euclidienne de u(x) par g(x) que le reste est nul :
x
12
+ 0 + x
10
+ x
9
+ x
8
+ 0 + x
6
+ 0 + x
4
+ 0 + x
2
+ 0 + 0 x
4
+ x
3
+ 1

x
11
+ x
10
+ x
9
+ 0 + 0 + x
6
+ 0 + x
4
+ 0 + x
2
+ 0 + 0 x
8
+ x
7
+ x
5
+ x
4
+ x
2
x
9
+ 0 + x
7
+ x
6
+ 0 + x
4
+ 0 + x
2
+ 0 + 0
x
8
+ x
7
+ x
6
+ x
5
+ x
4
+ 0 + x
2
+ 0 + 0
x
6
+ x
5
+ 0 + 0 + x
2
+ 0 + 0
0 + 0 + 0 + 0 + 0 + 0 + 0
6.5.3 Matrice de contr ole
On verie aisement que si on pose :
h(x) = h
0
+h
1
x +h
2
x
2
+ +h
m
x
m
Lequation polynomiale u(x)h(x) = 0 mod x
n
+ 1 est equivalente à lequation matricielle:
H
t
u = 0
à condition de poser:
H =
_
_
h
m
h
m1
h
1
h
0
0 0
0 h
m
h
1
h
0
0
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
0 0 h
m
h
1
h
0
_
_
H est une matrice de controle du code que lon peut utiliser pour corriger un mot recu par
syndrome.
Chapitre 7
Circuits de codage
7.1 Introduction
7.1.1 Representation des sequences binaires
Soit une sequence binaire a = , a
i
, a
i+1
, , a
i+n
, , avec a
j
B On convient de la
representer par la serie formelle:
a(x) =
+
i=
a
i
x
i
Si la sequence binaire a tous ses elements nuls pour i < M, on la represente par :
a(x) =
+
i=M
a
i
x
i
On peut montrer que lensemble des series commencant à linstant 0 :
S
B
= a(x) =

i=0
a
i
x
i
avec a
i
B
peut etre muni dune structure de corps par laddition et la multiplication dans B.
Multiplier une serie par x
1
revient à la transformer en une serie identique retardee dun
top dhorloge.
Une sequence de digits binaires secrit :a
0
a
1
a
n
, ce qui signie a
0
suivi de a
1
suivi
de a
n
. A cette suite, on associe la sequence s(x) = a
0
+a
1
x
1
+ a
n
x
n
:
i 0 1 2 3 n
digit a
0
a
1
a
2
a
3
a
n
Dautre part, à la meme sequence, on associe le polynome a
0
+ a
1
x + a
n
x
n
= x
n
p(x)
avec p(x) = a
n
+a
n1
x
1
+ +a
1
x
(n1)
+a
0
x
n
. La serie p(x), est à son tour associee
à la suite de digits : a
n
a
n1
a
0
, qui signie a
n
suivi de a
n1
, suivi de , suivi de a
0
.
69
70 CHAPITRE 7. CIRCUITS DE CODAGE
i 0 1 2 3 n
digit a
n
a
n1
a
n2
a
n3
a
0
La representation polynomiale et la representation à laide dune serie ne sont donc iden-
tiques (à une translation temporelle près) quà condition de lire la sequence de digits
initiale de droite à gauche.
7.1.2 Elements de base des circuits codeurs et decodeurs
On considère des circuits construits à laide de 3 composants : La multiplication externe est
realisee par le composant :
Si a = 1, il y a connexion. Si a = 0 Il ny a pas de connexion.
Laddition est realisee par le composant :
qui nest rien dautre quun ou exclusif.
Le retard pur est represente par une bascule D, element qui transmet lentree à la sortie à chaque
top dhorloge :
Exemple
a(x) = 1 +x +x
3
+x
4
+x
5
=
0
i=5
a
i+5
x
i
x
1
a(x) = x
1
+ 1 +x
2
+x
3
+x
4
revient à dire que la sequence:
7.1. INTRODUCTION 71
i -6 -5 -4 -3 -2 -1 0 1
a
i
0 1 1 1 0 1 1 0
a ete transformee en :
i -6 -5 -4 -3 -2 -1 0 1 2
a
i
0 0 1 1 1 0 1 1 0
en traversant la bascule, ou encore que le mot binaire 110111, represente par le polynome
1 + x + x
3
+ x
4
+ x
5
a ete transmis à travers la bascule en commencant par le terme de plus
haut degre.
7.1.3 Fonction de transfert
Pour un circuit construit à laide des composants ci-dessus, on peut denir une fonction de
transfert qui permet de calculer la sequence de sortie en fonction de la sequence dentree.
Exemple 1
La fonction de transfert du circuit est b = a(1 +x
1
), do` u b(x) = a(x)(1 +x
1
)
Par exemple, si a(x) = 1 +x +x
3
+x
4
+x
5
Alors b(x) = x
1
+x +x
2
+x
5
= x
1
(1 +x
2
+x
3
+x
6
)
Ce qui signie que la sequence:
i -6 -5 -4 -3 -2 -1 0 1 2
a
i
0 1 1 1 0 1 1 0 0
a ete transformee en la sequence:
i -6 -5 -4 -3 -2 -1 0 1 2
b
i
0 1 0 0 1 1 0 1 0
Ce qui se verie sur le tableau :
i 0 1 2 3 4 5 6 7
a
i
0 1 1 1 0 1 1 0
m
i
0 0 1 1 1 0 1 1
b
i
= a
i
+m
i
0 1 0 0 1 1 0 1
Exemple 2 :
a) Etude du diagramme des temps pour une sequence donnee :
i -5 -4 -3 -2 -1 0 1 2 3 4 5
a
i
1 1 1 0 1 1 0 0 0 0 1
m
i
= b
i1
0 1 0 1 1 0 1 1 1 1 1
b
i
= a
i
+m
i
1 0 1 1 0 1 1 1 1 1 0
transitions t t - t t - - - - t
Remarques :
0 est une valeur initiale xee arbitrairement pour m
5
Le tableau se construit de proche en proche, contrairement au precedent qui se construit
ligne par ligne. Cela est d u à la retroaction.
les transitions des b
i
signalent la presence dun 1 à lentree a. On appelle cette transfor-
mation un codage dierentiel.
b)Expression algebrique :
b(x) = a(x) +x
1
b(x)
b(x) =
a(x)
1 +x
1
= a(x)
x
1 +x
Exemple : a(x) = 1 +x +x
3
+x
4
+x
5
= b(x) =
x+x
2
+x
4
+x
5
+x
6
1+x
Soit, en eectuant la division euclidienne :
b(x) = (x
5
+x
3
+x
2
+ 1) +
1
x + 1
= x
5
+x
3
+x
2
+

i=0
x
i
Le terme
1
x+1
exprime que b(x) se termine par une suite innie de 1. En eet, le fait que
lensemble des sequences puisse etre muni dune structure de corps permet dexprimer des suites
innies à laide de fractions rationnelles. Ainsi, on a :
1
1 +x
1
=
x
1 +x
=

i=0
x
i
et
1
1 +x
=
x
1
1 +x
1
=

i=1
x
i
7.2 Application au codage
7.2.1 Circuits multiplicateurs
Considerons une sequence representant le mot binaire s
0
s
1
s
2
s
m
, soit le polynome s
0
+s
1
x +
+s
m
x
m
. Cette sequence secrit, en tant que suite :
s(x) =
0
i=m
s
i
x
i
7.2. APPLICATION AU CODAGE 73
Faisons la passer à travers le circuit ci-dessus :
de fonction de transfert :
g
k
+g
k1
x
1
+ +g1x
k+1
+g
0
x
k
= x
k
(g
0
+g
1
x +g
2
x
2
+ +g
k
x
k
)
On obtient : u(x) = x
k
g(x)s(x), soit, au retard près, la sequence codee correspondant au mot
à coder s(x).
Un autre possibilite est le schema suivant :
La fonction de transfert est la meme. La dierence est quon ne transmet pas le signal
à travers une chane dadditionneurs en cascade, ce qui rend le circuit plus rapide (ou plus
systolique ).
Exemple
Circuit realisant le produit par
1+x+x
3
x
3
:
Si on prend pour sequence dentree : 1011 soit 1 +x
2
+x
3
,
on obtient comme sequence de sortie la sequence correspondant au produit
(1 +x
2
+x
3
)(1 +x +x
3
) = 1 +x +x
2
+x
3
+x
4
+x
5
+x
6
soit 1111111, ce qui peut se verier sur le tableau suivant:
e a
1
a
1
+e a
2
a
3
s = e +a
3
1 0 1 0 0 1
1 1 0 1 0 1
0 1 1 0 1 1
1 0 1 1 0 1
0 1 1 1 1 1
0 0 0 1 1 1
0 0 0 0 1 1
0 0 0 0 0 0
7.2.2 Circuits diviseurs
Considerons le circuit suivant :
On a :
_
s(x) = m(x)x
k
m(x) = e(x) +m(x)(g
k1
x
1
+g
k2
x
2
+ +g
0
x
k
)
Soit :
_
m(x) = x
k
s(x)
e(x) = m(x)(1 +g
k1
x
1
+g
k2
x
2
+ +g
0
x
k
)
e(x) = s(x)(x
k
+g
k1
x
k1
+ +g
1
x +g
0
)
Le circuit realise donc la division du polynome (ou de la sequence) e(x) par le polynome
x
r
+g
k1
x
r1
+ +g
1
x +g
0
.
Sa fonction de transfert secrit :
1
x
k
+g
k1
x
k1
+ +g
1
x +g
0
Il en va de meme pour le circuit suivant, plus rapide :
En eet, on a :
m
1
= e(x) +g
0
s(x)
m
2
= m
1
x
1
+g
1
s(x)
m
3
= m
2
x
1
+g
2
s(x)
.
.
.
.
.
.
.
.
.
m
k
= m
k1
x
1
+g
k1
s(x)
s = x
1
m
k
Do` u, en multipliant chaque ligne i par x
i1
et en additionnant toutes les lignes :
x
k
s(x) = e(x) + (g
0
+g
1
x + +g
k1
x
k1
)s(x)
s(x)(x
k
+g
k1
+ +g
0
) = e(x)
comme ci-dessus.
Exemple : Schema dun diviseur par 1 +x +x
2
+x
4
Si lentree est le polynome 1 + x + x
5
+ x
7
, soit la sequence 11000101, le circuit realise la
division de ce polynome par 1 +x +x
2
+x
4
. Or, on verie (par division euclidienne) que :
1 +x +x
5
+x
7
= (1 +x +x
2
+x
4
)(x
3
+ 1) + (x
3
+x
2
)
On doit donc retrouver en sortie la sequence correspondant au polynome quotient : x
3
+ 1, ce
que montre le tableau suivant :
e m
1
= s
1
= m
2
= s
2
= m
3
= m
4
= s =
e +s
1
m
1
i 1 s
1
+s m
2(i1)
s
2
+s m
3(i1)
m
4(i1)
0 0 0 0 0 0 0 0
1 1 0 0 0 0 0 0
0 0 1 1 0 0 0 0
1 1 0 0 1 1 0 0
0 0 1 1 0 0 1 0
0 1 0 1 1 0 0 1
0 0 1 1 1 1 0 0
1 1 0 0 1 1 1 0
1 0 1 0 0 1 1 1
0 0 0 1 0 1 1 1
On remarque egalement que le contenu du registre (s
1
s
2
s
3
(= m4)s
4
(= s)) au top dhorloge
suivant le calcul du quotient est le reste de la division, à savoir la polynome x
2
+x
3
ou le mot
0011.
7.2.3 Codage des codes cycliques
Procedure nave
On eectue la multiplication du polynome s(x) de degre m-1 par le polynome generateur g(x)
de degre k. Ce codage est rarement utilise, notamment parce quil nest pas systematique.
Codage par calcul du reste
On peut observer que la division euclidienne de x
nm
s(x) par g(x) secrit :
x
nm
s(x) = g(x)q(x) +r(x) avec d
r(x) < d
g(x) = k
Il en resulte que x
nm
s(x) +r(x) est un mot-code qui peut servir à coder s(x). Comme le terme
non nul de plus bas degre de x
nm
s(x) est de degre k, et que le terme de plus haut degre de r(x)
est de degre k 1, il sagit dun codage systematique. Le circuit correspondant est le suivant :
Le codage se deroule en deux phases:
La première (position 1) consiste à envoyer les bits informatifs (s(x)) en sortie, et en meme
temps à calculer le reste de la division de x
nm
s(x) par g(x), ce qui revient à faire tourner le
circuit diviseur en faisant entrer les bits informatifs sur un additionneur situe après la dernière
bascule du registre (le verier).
La seconde (position 2) consiste à vider le contenu du registre en ouvrant le circuit de retroaction.
Exemple : On considère le code cyclique (7,4) de generateur g(x) = 1 +x + x
3
, et on utilise le
circuit de codage suivant :
Codage de la sequence 1100:
e m
1
= s
1
= m
2
= m
3
= m
4
= sortie
e +m
4
m
1
i 1 m
1
+s
1
m
2(i1)
m
3(i1)
1ère 1 1 0 1 0 0 1
1 1 1 0 1 0 1
phase 0 1 1 0 0 1 0
0 0 1 1 0 0 0
2ème 0 0 0 0 1 0 0
0 0 0 0 0 1 1
phase 0 0 0 0 0 0 0
Codage par division par le polyn ome de contr ole
On utilise le circuit diviseur :
Si on initialise le contenu du registre par un suite f(x), le circuit produit la sequence periodique
a(x) = f(x)/h(x), qui peut encore secrire :
a(x) =
f(x)g(x)
x
n
1
=

i=1
f(x)g(x)x
in
Si on initialise le registre par les bits dinformation, on obtient donc un codage systematique,
comme precedemment.
Exemple : Code (7,4) g(x) = 1 +x +x
2
h(x) = 1 +x +x
2
+x
4
On prend comme circuit :
et comme mot à coder u = 0011, soit u(x) = x
2
+ x
3
. Le registre tourne alors de la facon
suivante :
s
1
s
2
s
3
s
4
e
0 0 1 1 0
0 0 0 1 1
1 0 0 0 0
0 1 0 0 1
1 0 1 0 1
1 1 0 1 0
0 1 1 0 0
0 0 1 1 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ce qui conduit à la meme sortie s
4
que le circuit precedent.
Table des Matières
1 Information, Source, Entropie 1
1.1 La mesure de linformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Specication de i(x) = F (p(x)) . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.3 Unites dinformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Notion de source . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 Extension dordre n dune source simple . . . . . . . . . . . . . . . . . . . 5
1.3 Entropie dune source . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Proprietes de lentropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.3 Redondance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.4 Subdivision dun symbole . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.5 Entropie de lextension dune source simple . . . . . . . . . . . . . . . . . 9
1.4 Sources de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.1 Chanes de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.2 Etat stationnaire dune chane de Markov . . . . . . . . . . . . . . . . . . 10
1.4.3 Chane dordre m. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.4 Entropie dune source de Markov. . . . . . . . . . . . . . . . . . . . . . . 12
2 Canaux 13
2.1 Entropie conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Entropies conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Ambigute ou equivoque . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.2 Erreur moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Relations entre les entropies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.1 Egalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.2 Inegalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.3 Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.4 Transinformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Capacite dun canal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.1 denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.2 Canaux uniformes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.3 Capacite dun canal sans bruit . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.4 Capacite de quelques canaux bruites . . . . . . . . . . . . . . . . . . . . . 23
2.4.5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
79
80 TABLE DES MATI
`
ERES
2.4.6 Canal quelconque (matrice carree) . . . . . . . . . . . . . . . . . . . . . . 25
3 Information dans le cas des signaux continus 27
3.1 Entropie dun signal continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.2 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.3 Dicultes mathematiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.4 Exemple : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.5 Lentropie est variable dans un changement de variable . . . . . . . . . . 31
3.1.6 Transinformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 Maximisation de lentropie dune source . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.1 f(x) est nulle en dehors de lintervalle [a, b] . . . . . . . . . . . . . . . . . 32
3.2.2 f(x) est nulle pour x < 0 et X possède une moyenne a . . . . . . . . . . . 33
3.2.3 f(x) a une moyenne nulle et un ecart-type . . . . . . . . . . . . . . . . 33
3.3 Formule HTS (Hartley - Tuller - Shannon) . . . . . . . . . . . . . . . . . . . . . 34
3.3.1 Degres de liberte dun signal continu . . . . . . . . . . . . . . . . . . . . . 34
3.3.2 Capacite dune voie bruitee . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Codage pour les canaux sans bruit 37
4.1 Introduction : Role du codage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Classication des codes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.1 Codes reguliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.2 Codes à dechirage unique (ou codes dechirables) . . . . . . . . . . . . . 38
4.2.3 Codes instantanes (ou irreductibles) . . . . . . . . . . . . . . . . . . . . . 38
4.2.4 Representation arborescente dun code . . . . . . . . . . . . . . . . . . . . 39
4.2.5 Procedure generale de construction dun code irreductible . . . . . . . . . 39
4.3 Inegalite de Kraft-Mac Millan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3.1 Theorème de Kraft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3.2 Theorème de Mac Millan . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4 Longueur moyenne dun code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.1 Limite inferieure de

l . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.2 Ecacite dun codage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5 Codes optimaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.6 Premier theorème de Shannon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.6.1 Recherche dun code quasi-optimal . . . . . . . . . . . . . . . . . . . . . . 43
4.7 Techniques de codage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.7.1 Codage de Shannon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.7.2 Codage de Shannon-Fano . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.7.3 Code de Human . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5 Codage en presence de bruit. Codes lineaires 47
5.1 Introduction : Le 2e theorème de Shannon . . . . . . . . . . . . . . . . . . . . . . 47
5.2 Structures dans B
n
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2.1 Le corps B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2.2 Le groupe B
n
= 0, 1
n
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2.3 Lespace vectoriel B
n
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.3 Distance de Hamming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
TABLE DES MATI
`
ERES 81
5.3.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3.2 Application à la detection et à la correction des erreurs . . . . . . . . . . 51
5.3.3 Theorème de Hamming . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.4 Controle de parite. Codes lineaires . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.4.1 Principe du controle de parite . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.4.2 Generalisation : codes de Hamming . . . . . . . . . . . . . . . . . . . . . 53
5.4.3 Exemple du code de Hamming (7,4) . . . . . . . . . . . . . . . . . . . . . 54
5.5 Cas general : codes lineaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.5.1 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.5.2 Poids minimum dun code lineaire . . . . . . . . . . . . . . . . . . . . . . 58
5.5.3 Correction des erreurs dun code lineaire . . . . . . . . . . . . . . . . . . . 59
6 Codes Cycliques 63
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1.2 Representation polynomiale dun mot . . . . . . . . . . . . . . . . . . . . 63
6.2 Notions utiles sur les polynomes . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2.1 Classes residuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2.2 Ideal dans un anneau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.3 Theorème fondamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.3.1 Enonce : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.3.2 Demonstration : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.4 Polynome generateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.4.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.4.2 Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.4.3 Matrice generatrice dun code cyclique . . . . . . . . . . . . . . . . . . . . 66
6.5 Polynome de controle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.5.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.5.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.5.3 Matrice de controle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7 Circuits de codage 69
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7.1.1 Representation des sequences binaires . . . . . . . . . . . . . . . . . . . . 69
7.1.2 Elements de base des circuits codeurs et decodeurs . . . . . . . . . . . . . 70
7.1.3 Fonction de transfert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Application au codage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.2.1 Circuits multiplicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.2.2 Circuits diviseurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.2.3 Codage des codes cycliques . . . . . . . . . . . . . . . . . . . . . . . . . . 76

Information, Source Et Entropie

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Information, Source Et Entropie

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 1

Information, Source, Entropie

, on peut deduire les proprietes suivantes:

< P(n) >=< P(0) > M

=< P(n) >

qui est le jeu de probabilites solution de :

y auquel est associe le tableau des probabilites conjointes P(X,Y) :

f(x) dx = 1. Dans le cas discret, en revanche, on a

Il en resulte que lentropie de la source Y secrit :

ESENCE DE BRUIT. CODES LIN

ESENCE DE BRUIT. CODES LIN

) entre mot emis et

/u) > p(u

ESENCE DE BRUIT. CODES LIN

, v) = 5, dou la decision de choisir u comme origine

. On corrige ainsi 4 erreurs.

ESENCE DE BRUIT. CODES LIN

ne di`erent que par un digit au plus. On

ESENCE DE BRUIT. CODES LIN

ERAL : CODES LIN

ESENCE DE BRUIT. CODES LIN

lensemble des vecteurs de B

peut etre engendre par une base de k vecteurs

ERAL : CODES LIN

resulte de laddition `a u dun vecteur erreur :

ESENCE DE BRUIT. CODES LIN

ERAL : CODES LIN

ESENCE DE BRUIT. CODES LIN

P(x) = n, ce nombre est 2

P(x) = n, cest `a dire:

dun mot u a pour polynome associe xu(x) dans B(x)/(x

g(x), ce qui est en contradiction

Vous aimerez peut-être aussi