Vous êtes sur la page 1sur 15

Illustrations de la notion d'entropie dans les deux

thormes de Claude Shannon en thorie de l'information


Jol Le Roux, leroux@essi.fr, April 2002
13 fvrier 2004

Table des matires


1 Rsum

2 Introduction

3 Illustration du premier thorme de Shannon dans un cas simple

3.1
3.2

3.3

3.4

Interpretation du premier thorme . . . . . . . . . . . . . . . . . . . . . . . . . . .


Approximation par la formule de Stirling du nombre de messages possibles . . . .
3.2.1 Approximation fonde sur la formule de Stirling . . . . . . . . . . . . . . .
3.2.2 Approximation gaussian . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 Ingalit de Bienaym Chebyshev: . . . . . . . . . . . . . . . . . . . . . . .
Quel est le nombre de message ayant exactement ou peu prs pL uns et (1 p)L
zros? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Approximation fonde sur la formule de Stirling . . . . . . . . . . . . . . .
3.3.2
Le nombre de bits donn par le premier thorme est susant pour coder
tous les messages pour lesquels la probabilit de 'uns' est plus petite que p
Le principle des techniques de compression . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Approximation de l'entropie pour les petites valeurs de p . . . . . . . . . .

4 Illustration du second thorme de Shannon dans un cas simple


4.1
4.2
4.3
4.4

Interpretation du second theorem . . . . . . . . . . . . . . . . . . . . . .


Formulation du problme dans un cas simple . . . . . . . . . . . . . . .
4.2.1 Codage alatoire . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Critre de dcodage . . . . . . . . . . . . . . . . . . . . . . . . .
Une borne suprieure sur le nombre de messages possibles de longueur L
Interpretation fonde sur la formule de Stirling . . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

3
3
4
4
5
5
6

7
8
9

10

10
11
11
12
12
12

5 Conclusion

13

6 Bibliography

14

6.1
6.2
6.3

Some historical references . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


Printed references . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Web sites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14
14
15

1 Rsum
Le dveloppement des thormes de Shannon est illustr dans le cas d'un bruit modiant un
message binaire transmis par un canal binaire symtrique. Ce dveloppement ne dbute pas par les
proprits de la notion d'entropie, qui bien sr apparatront au cours des calculs, et vite d'utiliser
l'entropie conjointe. L'outil principal dans ce dveloppement est l'approximation de la loi binomiale
fonde sur la formule de Stirling.
1

J. Le Roux

2 Introduction
Les dmonstrations des thormes de Shannon me paraissent abstraites et diciles comprendre
pour un bon nombre d'tudiants dans le domaine des transmissions numriques qui aimeraient
bien avoir une ide intuitive de ces thromes sans pour autant chercher devenir des experts en
thorie de l'information. Il est peut tre utile de prsenter une illustration de ces dmonstrations en
vitant l'utilisation de notions diciles et peu intuitives comme l'information mutuelle, l'entropie
jointe ou l'entropie conditionnelle.
L'objectif de ce cours est d'essayer d'illustrer dans le cas le plus simple (messages binaires et
canal binaire sans mmoire) le concept d'entropie et plus spcialement son utilisation dans les deux
thormes de C. Shannon en codage de source (section 3) et en codage de canal (section 4). L'outil
principal utilis dans ce dveloppemnt est l'approximation de densits de probabilits de loi binomiales par la formule de Stirling, comme l'a fait L. Boltzmann dans son interprtation statistique
de l'entropie. Cette approche a aussi utilise par D. MacKay dans son excellente prsentation.
Il est peut-tre utile de rappeler le rle historique fondamental de l'entropie dans le dveloppement de la science (sans citer tous les domaines o cette notion est un outil important). Rudolf
Clausius (1865)a invent la notion d'entropie dans le domaine de la thermodynamique. Il a driv le mot du grec   qui signie changement. Ludwig Boltzmann (1877) a donn une
interprtation de ce concept en termes de probabilits.
Max Plank (1901) a utilis cette interprtation statistique pour modliser la radiation du corps
noir, ce qui l'a conduit la dcouverte de la mcanique quantique, dcouverte qui fut ensuite enrichie par Albert Einstein (1905) qui lui aussi fonda son dveloppement sur la travail de Boltzmann.
Claude Shannon (1948) a lui aussi trouv son inspiration dans le travail de L. Boltzmann dans
la cration de la thorie de l'information, et dans l'tablissement des thormes fondamentaux
sur les bornes infrieures portant sur la compression de messages (codage de source), et la borne
supprieure donnant le nombre maximum d'erreurs qu'on peut accepter dans la transmission d'un
message de telle sorte que le message original puisse tre reconstitu intgralement. La borne
infrieure du codage de source est atteinte dans le codage arithmrique de J. Rissanen et G.
Langdon (1978) ; et les performances des turbocodes (C. Berrou et al., 1993) sont proches de la
borne suprieure de codage de canal.

3 Illustration du premier thorme de Shannon dans un cas


simple
On considre l'mission d'un message B(`) de longueur L compos de donnes binaires alatoires
indpendantes : des 'uns' avec la probabilit p infrieures 1/2 et des 'zros' avec la probabilit
(1 p) (g. 1).

B(`)
1.0
0.8
0.6
0.4
0.2

0.0
0

20

40

60

80

100

Figure 1: Exemple de message compos de '1' avec la probabilit p = 0.2 et de '0' avec la probabilit
(1 p) = 0.8.
D'aprs la loi des grands nombres, les messages mis ont la proprit suivante : dans un message
de longueur L, il y a peu prs pL '1's et (1 p)L '0's (g. 2).

Entropie

L'ide sur laquelle est fond le premier thorme est qu'il sut de coder les messages comportant
pL '1's et (1 p)L '0's parce que les autres messages n'apparaissent pratiquement jamais.

np (m)
20

15

10

m
0

1000

2000

3000

4000

Figure 2: Histogramme du nombre de 1s dans un message de longueur L = 5000 quand la


probabilit p d'mission d'un 1 est 0.2; ce nombres est presque toujours entre 900 et 1100 ;
d'aprs la loi des grands nombres, quand la longueur L est grande l'histogramme de ce nombre m
divis par L tend vers une distribution de Dirac en m/L = p.

3.1 Interpretation du premier thorme


Le premier thorme arme qu'il est possible de coder la squence B(`) avec seulement

L (1 p) log2

1
1p

+ p log2

1
p

bits

au lieu des L bits ncessaires au codage des 2L mots dirents. La quantit

HB (p) = (1 p) log2

1
1
+ p log2 ,
1p
p

(1)

est l'entropie de la squence B(`). C. Shannon suit dans son dveloppement l'ide de L. Boltzmann
qui suivait une dmarche similaire an de compter le nombre de molcules en mouvement dans un
volume de gaz donn. Nous allons illustrer les tapes principales du dveloppement :
1. Nous donnerons la distribution des messages probables et calculerons une approximation
(section 3.2);
2. Nous estimerons leur nombre et nous comparerons ce nombre au nombre de tous les messages
possibles (section 3.3) ;
3. Nou dduirons de ce nombre les bases des mthodes de compression (section 3.4).

3.2 Approximation par la formule de Stirling du nombre de messages


possibles
D'aprs la loi binomiale, le nombre de messages compos de m uns et de L m zros est donne
par (g 3)
L!
(1 p)Lm pm ,
(2)
np (m) =
m!(L m)!
lorsque la probabilit d'occurence d'un 'un' est p.

J. Le Roux

np (m)/2L
0.03

0.01

m
0

200

400

600

800

1000

Figure 3: Densit de probabilit du nombre de 1s dans des messages de longueur L = 1000 lorsque
la probabilit p d'mettre un 1 est 0.2; m est presque toujours entre 180 et 220 ; D'aprs la loi
des grands nombres, lorsque le nombre de donnes , L est grand , cette densit tend vers une loi
gaussienne de moyenne pL et de variance Lp(1p) , la densit de m/L tend vers une distribution
de Dirac en m
L =p .

3.2.1 Approximation fonde sur la formule de Stirling


D'aprs la formule de Stirling,

m! '
np (m) devient

s
np (m) '

ou bien

L
2m(L m)
s

np (m) '

1
2L m
(1

En nommant

2m

m m
e

(3)

L
Lm
L
e(1 p)
ep m
,
e
Lm
m

m
L)

1p
1 m
L

L(1 m

L)

p
m
L

L m
L
.

m
= q,
L

l'q. (5) devient

2Lq(1 q)

(5)

(6)

n0p (q) = np (m) ' p

(4)

1p
1q

L(1q) Lq
p
,
q

(7)

ou, exprim en termes de logarithmes

loge n0p (q) '


+

loge np (m) = loge p

2Lq(1 q)
L [(1 q) (loge (1 p) loge (1 q)) + q (loge (p) loge (q))] .

(8)

3.2.2 Approximation gaussian


D'aprs la loi des grands nombres, cette loi est proche de la loi gaussienne de moyenne Lp et de
variance Lp(1 p). Ceci se vrie en remplaant q par p + :

1
loge n0p (q) ' loge [2L(p + )(1 p )]
2
+ L [(1 p ) (loge (1 p) loge (1 p )) + (p + ) (loge (p) loge (p + ))] , (9)

n00p () =

Entropie

n00p ()

' loge (2Lp(1 p)) +


+
2
2(1 p) 2p

+ L (1 p )
(p + )
.
1p
p

(10)

Le second terme de l'eq. (10) peut tre nglig quand L est grand

1
2
n00p () ' loge (2Lp(1 p)) L
.
2
2p(1 p)
Le logarithme de la densit de

m
L

(11)

est (g 4)

log[np (m)]
0
-10
-20
-30
-40

m
0

200

400

600

800

1000

Figure 4: Densit de probabilit du nombre de 1s dans des messages de longueur L = 1000 lorsque
la probabilit p d'mettre un 1 est 0.2; mmes donnes que prcdemment prsentes sur une
chelle logarithmique. La forme parabolique de la fonction montre la validit de l'approximation
par une loi gaussienne.

2
L m
1
L
L p
loge

.
2
2p(1 p)
2p(1 p)

(12)

Quand L est grand le premier terme de la somme (11) peut aussi tre nglig. La plupart des
squences ont un nombre de uns compris entre L(p ) et L(p + ) o peut tre aussi petit que
l'on veut. Quand L est grand, la probabilit que m soit en dehors de ce domaine tend vers zro
(voir les g. 5 et 6).

3.2.3 Ingalit de Bienaym Chebyshev:


Il est peut-tre intressant de rappeler cette ingalit formule dans le cas de l'approximation
considre ici :

p(1 p)
m

.
(13)
probability that
p > s <
L
s2 L
Quand L est grand, la probabilit que m soit en dehors de ce domaine dcroit au moins aussi
vite que 1/L. Dans le cas particulier considr ici, cette probabilit dcroit bien plus vite, comme
e2(12p)L (voir la section 3.3.2).

3.3 Quel est le nombre de message ayant exactement ou peu prs pL


uns et (1 p)L zros?
D'aprs la loi binomiale, pL tant entier, le nombre de messages ayant pL '1's et (1 p)L '0's est :

n1/2 (p) =

L!
,
(pL)![(1 p)L]!

(14)

J. Le Roux

Nombre de messages avec m 1s


70

L=5000
30

L=1000

m/L
0.15

0.20

0.25

0.30

0.35

Figure 5: Densit de probability du nombre de 1s dans des messages de longueur L = 1000 et
L = 5000 lorsque la probabilit p d'mettre un 1 est 0.2.

Nombre de messages avec m 1s


10

-10

L=5000

-20

-30

L=1000

m/L
0.0

0.2

0.4

0.6

0.8

1.0

Figure 6: Densit de probabilit du nombre de 1s dans des messages de longueur L = 1000 et
L = 5000 quand la probabilit p d'mettre un 1 est 0.2; mmes donnes que prcdemment
L
prsentes sur une chelle logarithmique. La drive seconde de la parabole est 2p(1p)
.
alors que le nombre total de messages possibles est 2L . Nous avons
L
X

n1/2 (p) =

pL=0

L
X
pL=0

L!
= 2L .
(pL)![(1 p)L]!

(15)

3.3.1 Approximation fonde sur la formule de Stirling


D'aprs la formule de Stirling, ce nombre peut tre approxim par

n1/2 (p) =

2Lp

Lp
e

Lp p

Il peut s'crire

2L

L L
e

2L(1 p)

L(1p)
e

L(1p) .

n1/2 (p) = p

2Lp(1 p)pLp (1 p)L(1p)

ou bien

2Lp(1

(17)

n1/2 (p) = p

p)2L(p log2 p+(1p) log2 (1p))

(16)

(18)

Entropie

ou encore

n1/2 (p) = 2L(p log2 p+(1p) log2 (1p)) 2 log2 (2Lp(1p)) .

n1/2 (p)

(19)

-50

-100

-150

p
0.0

0.2

0.4

0.6

0.8

1.0

Figure 7: Proportion de messages de longueur L comportant exactement m uns, (chelle logarithmique); cette proportion est 2L(HB 1) .
Quand L est grand, le terme prpondrant dans l'exposant est proportionnel l'entropie (g.
7 et 8)

LHB (p) = L (p log2 p (1 p) log2 (1 p)).

(20)

HB (p)
1.1
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1

Figure 8: Fonction entropie.


Le nombre de messages avec Lp uns est infrieur 2L(HB (p)+) o peut tre aussi petit que
l'on veut. L(HB (p) + ) bits sont susants pour les coder.

3.3.2

Le nombre de bits donn par le premier thorme est susant pour coder
tous les messages pour lesquels la probabilit de 'uns' est plus petite que p

Nous considrons des messages pour lesquels la probabilit de 'uns' est


Lp
X
Lx=0

n1/2 (x) =

Lp
X
Lx=0

o x est dans le domaine [0, 1] et Lx est un entier.

L!
,
Lx!L(1 x)!

(21)

J. Le Roux
Nous voulons montrer que cette probabilit est borne par
Lp
X

n1/2 (x) n1/2 (p)(1 + ),

(22)

Lx=0

o peut tre rendu aussi petit qu'on le souhaite en choisissant L susamment grand. Quand L
est susamment grand, nous pouvons utiliser l'approximation suivante par une gaussienne :
r
2L 2L(x 21 )2
.
(23)
n1/2 (x) '
e

Quand x dcroit partir de p (x < p), cette fonction dcroit extrmement rapidement (si p n'est
pas trop prs de 0.5)
r

2L 2L(p 12 )2 2L (x 12 )2 (p 12 )2
n1/2 (x) '
e
,
(24)
e

ou

n1/2 (x) ' n1/2 (p)e2L[xp](x1+p) < n1/2 (p)e2(12p)L[xp] .


Par consquent,

Lp
X

1 e2Lp(12p)
n1/2 (p).
1 e2(12p)L )

(26)

n1/2 (x) < (1 + e2(12p)L )n1/2 (p).

(27)

n1/2 (x) <

Lx=0

ou bien pour L grand :

Lp
X

(25)

Lx=0

Ainsi les messages correspondant une probabilit infrieure p peuvent tre ngligs car leur
nombre est trs petit en comparaison du nombre de messages correspondant une probabilit
2
proche de p : la dcroissance de e2L(xp) est trs rapide lorsque (x p) dcroit (g 9 et 10).
Cette approximation nous sera utile pour l'illustration du deuxime thorme dans la section 4.

1
2L

PLp
Lx=0

n1/2 (x)

0
-30
-60
-90
-120
-150
-180
-210
-240
-270
-300

p
0.0

0.1

0.2

0.3

0.4

0.5

Figure 9: Proportion de messages o la probabilit de 'uns' est comprise entre 0 et p (chelle


logarithmique) en fonction de p pour L = 1000. Ce nombre est comparable au nombre de messages
ayant peu prs p 'uns', 2LH(p) .

3.4 Le principle des techniques de compression


Pour comprimer des messages,les messages improbables (ceux qui n'ont pas peu prs p uns, (ou
si l'on prfre plus de p + uns comme dans la section 3.3.2) sont carts (g 11), et les 2LHB (p)

Entropie

1
2L

PLp
Lx=0

n1/2 (x)

20
-20
-60
-100
-140
-180
-220

L
0

500

1000

1500

2000

2500

3000

Figure 10: Proportion de messages o la probabilit de 'uns' est comprise entre 0 et p = 0.2 (chelle
logarithmique) en fonction de L. Ce nombre est comparable au nombre de messages ayant peu
prs p 'uns'.

p+

-50

-100

-150
m
L

0.0

0.2

0.4

0.6

0.8

1.0

Figure 11: Proportion de messages de longueur L ayant exactement m uns, chelle logarithmique ;
il n'est pas ncessaire de coder les messages ayant plus de p + uns ou moins de p uns car ils
sont trs peu probables.
messages restants sont aects d'un numro, par exemple en utilisant le codage arithmtique de
Rissanen et Langdon.
Ces messages acceptables sont appels messages typiques . Etant donn le nombre de messages
dirents de cette forme, il sut d'une longueur lgrement suprieure LHB (p) pour les coder
en bits.

3.4.1 Approximation de l'entropie pour les petites valeurs de p


Il peut tre utile d'avoir l'esprit cette approximation qui en donne un ordre de grandeur. Quand
p est petit,
L
LHB (p) = Lp log2
L(1 p) log2 e loge (1 p),
(28)
Lp

L
+ log2 e .
LHB (p) ' Lp log2
Lp

(29)

Pour chaque Lp 'un's du message, le nombre de bits ncessaire au codage est donn par le nombre
L
de bits ncessaire pour coder la longueur moyenne sparant deux 'uns', soit Lp
plus log2 e.

10

J. Le Roux

4 Illustration du second thorme de Shannon dans un cas


simple
Un message d'entropie 1 (pM = 1/2) et de longueur M peut tre rallong en lui adjoignant un
syndrome an de construire un message de longueur L. Le syndrome se dduit du message original
par des operations dterministes. Il sera utilis pour corriger les erreurs de transmission.
Le message redondant de longueur L ne contient pas ncessairemnt le texte explicite du message
original de longueur M . Il peut s'obtenir par le choix de 2M mots parmi les 2L mots qui peuvent
tre transmis. Si le message cod contient explicitement le message original, on dit que le code est
systematique, mais ceci rduit bien sr le nombre des codes possibles.
L'entropie du message tendu est HM = M/L : il y a 2M messages et l'entropie HM d'un sous
ensemble de 2M lments pris parmi 2L lments est telle que

2M = 2LHM .

1p
p

30

p
1p

-1
s

(30)

Figure 12: Canal binaire symtrique avec une probabilit d'erreur p.

Ce message est transmis un rcepteur et modi par un bruit binaire indpendant du message
original. (g 12). Cette transmission est caractrise par une probabilit d'erreur p, ou une entropie
HB = p log2 p (1 p) log2 (1 p).
Dans la section 4.1,nous donnons une interprtation du thorme dans ce cas simple ; dans
la section 4.2 nous donnons la formulation correspondante du problme ; dans la section 4.3
nous dduisons le nombre maximum de messages possibles et dans la section 4.4 nous montrons
nalement que nous pouvons disposer d'un nombre possible de messages aussi proche qu'on le
dsire de cette borne.

4.1 Interpretation du second theorem


Le second thorme de Shannon dit que si la somme des entropies du message M et du bruit
independant B , soit HM + HB vrie

HM + HB < 1,

(31)

alors il est possible de trouver une mthode pour coder M de telle sorte que il est presque toujours
possible de reconstruire exactement le message M partir du message reu et perturb par le
bruit. La longueur de la redondance introduite dans le message, L M doit tre susante pour
dcrire le bruit, et ainsi pour dcoder le message original (g 13):

ou

L M > LHB ,

(32)

M
< 1 HB .
L

(33)

En bon mathmaticien, Claude Shannon montre qu'il existe certainement une mthode pour
eectuer le codage permettant le dcodage sans erreur, mais il ne propose aucune piste pour la
trouver ! Il ne dit pas s'il est possible de trouver des codeurs ecaces pour lesquels le dcodage
ne sera pas excessivement complexe... On peut dduire de la dmonstration de Shannon que la

Entropie

11

useful message

syndrome (redundancy)

length > LHB

L
Figure 13: Allongement du message par adjonction d'un syndrome de longueurs susante pour
que les erreurs de transmission puissent tre corriges. La longueur minimale du syndrome est
proportionnelle l'entropie du bruit B (nous supposons que l'entropie du message origianl de
longueur M est gale 1, et qu'en consquence il ne peut pas tre comprim.
plupart des codes sont probablement de bons codes, car en moyenne, ils atteignent l'objectif dsir ;
cependant, la complexit de leur dcodage empche d'envisager leur utilisation.
Trouver une mthode de codage pertinente, et plus particulirement une mthode de dcodage
raisonnablement complexe demeure un problme ouvert. Il a fallu attendre quarante cinq ans
pour voir une proposition de codage et de dcodage dont les performances sont proches de la
borne de Shannon : les turbocodes invents par Claude Berrou et ses collgues ... Les vrications
exprimentales sont convaincantes, mais il ne semble pas qu'il y ait pour le moment une justication
thorique rigoureuse des performances des turbocodes.
La dmonstration de Shannon est abstraite, lgante et concise. Le lecteur peut se rfrer
plusieurs ouvrages (voir par exemple les rfrences bibliographiques la n du document.) Ici le
but est seulement d'illustrer dans un cas simple les points principaux de cette dmonstration qui ne
me paraissent pas intuitifs ; ceci peut peut-tre aider des tudiants ou des personnes intresses par
le sujet qui ne dominent pas bien des notions qui sont probablement considres comme videntes
par les experts de la thorie de l'information et sur lesquelles ceux-ci insistent rarement. Le point
central du thorme est le suivant :

4.2 Formulation du problme dans un cas simple


On met des messages longs (longueur L). Ils sont reus avec au plus Lp bits faux. Les 2M messages
possibles sont cods par 2M mots parmi les 2L mots possibles ; si le rapport M
L est plus petit que
la borne (33) fonction de l'entropie du bruit, alors il est trs peu probable qu'un message cod et
entch de Lp erreurs puisse tre avec un des autes messages qui aurait pu tre mis ;  confondu
signiant que la distance de Hamming entre deux messages est infrieure Lp.

4.2.1 Codage alatoire


Le nombre de codeurs possibles est trs grand : un codeur transforme deux des 2M messages en
deux mots de code dierents parmi les 2L possibles. Le nombre de codeurs est
(2L )!
(2LM )!

q
or

2L
2LM

L (LM )2LM

2L2

e2L 2LM

Shannon suppose que tous ces codeurs peuvent tre choisis avec la mme probabilit. Ici nous
prenons un codeur au hasard. La probabitit qu'un des 2L mots est un mot du code est
2M
2L

car il y a 2L mots dierents et 2M messages possibles. Quand L augmente pour un M x, cette
proportion dcrot rapidement. Il sera possible de trouver des mots de code de telle sorte que la
distance entre deux mots de code soit plus grande qu'un seuil donn, ce qui permettra d'viter la
confusion entre ces mots de code.

12

J. Le Roux

4.2.2 Critre de dcodage


La probabilit d'une erreur de transmission est p. A la rception un mot de code est reconnu comme
un des 2M messages si la distance de Hamming entre le mot de code correspondant ce dernier
et le mot reu est infrieure Lp. Un mot reu correspondant l'mission d'un mot du code est
certainement reconnu correctement car il y a au plus Lp erreurs dans le mot reu. Mais il faut
encore trouver les conditions garantissant qu'il n'y a pas d'erreur la reconnaissance (de confusion
entre deux messages). Nous supposerons que le rcepteur ne reoit que des mots de code altrs
par du bruit.

4.3 Une borne suprieure sur le nombre de messages possibles de longueur L


Si la probabilit d'erreur est au plus p, il est possible de trouver un code tel qu'un mot de longueur
L (suppose trs grande) puisse tre utilis pour coder 2L(1HB (p)) messages : du fait des erreurs
de probabilit p, chacun des 2M messages peut tre transform en un des 2LHB messages altrs
possibles la reception : pour viter les confusions, M doit vrier

2M 2LHB 2L .

(34)

Lorsqu'il n'y a pas de bruit de transmission, (p = 0, HB (p) = 0), il est possible de coder 2L
messages ; si p = 21 et HB (p) = 1, il n'est pas possible de transmettre d'information par ce canal.
Il ne peut pas y avoir plus de 2LLHB (p) messages dierents, car il y a 2LHB (p)
congurations du bruit et 2L mots de code possibles.
Un plus grand nombre de messages impliquerait ncessairement des erreurs la reconnaissance.
Nous montrons maintenant que le nombre de messages peut tre aussi proche que l'on veut de
cette borne.

4.4 Interpretation fonde sur la formule de Stirling


Quand L est grand, de mots de code dirents pris au hasard parmi les 2M ont en moyenne L2
bits identiques. La distribution du nombre de bits identiques entre deux des 2L mots suit la loi
binomiale
L!
n1/2 (x) =
.
(35)
(xL)![(1 x)L]!
Aprs rception d'un mot du code, le mot de code erron correspondant a en moyenne L2 bits en
commun avec n'importe lequel des mots de code ; leur nombre suit toujours la loi binomiale (35).
On suppose qu'il y a 2M mots de code dirents : nous voulons voir si un des (2M 1) autres
mots du code, aprs reception, peut tre confondu avec celui qui a t mis, c'est dire si la
distance de Hamming entre un des (2M 1)2LHB mots reus et le M -th est infrieure L(p + ).
La probabilit que cette distance est infrieure Lp est

Q=


Lp
Lp
X
X
1
L!
1
n
(x)
=
,
1/2
L
2
xL!(L xL)! 2L

(36)

xL=0

xL=0

qu'on peut approximer par

Q=

Lp
X
xL=0

2L(1 x)x (1 x)L(1x) (x)Lx

1
2L

(37)

Nous avons vu dans la section 3.3.2, eq. (22 - 27), que l'ordre de grandeur de cette probabilt
d'erreur est donne par (g. 14)
n1/2 (p)
2LHB
'
.
(38)
Q'
L
2
2L

Entropie

13

PLp

1
Lx=0 2L n1/2 (x)

L = 1000

-50

-100

L = 5000
-150

p:
0.0

0.2

0.4

0.6

0.8

1
L

number of bit errors

1.0

Figure 14: Probabilit d'erreur entre deux mots (chelle logarithmique) : Quand L est susamment
grand, la probabilit de confondre un message avec un autre peut tre rendue aussi petite qu'on le
souhaite. Si cette probabilit dcroit plus vite que 2M quand L augmente, M
L restant constant, il
sera presque toujours possible de reconnaitre le mot mis.
On peut dduire de cette formule une borne sur la probabilit qu'aucun des 2M 1 mots est une
distance plus petite que Lp de ce mot : La probabilit qu'il y ait au moins une erreur est borne
par

S=

M
2X
1

Q ' 2M Q ' 2M +LHB L .

(39)

Nous supposons que la condition (33) est vrie :

M + LHB L < 0.
Si L est susamment grand, la fraction

M
L

(40)

restant constante, il existe un negatif tel que

S ' 2M +LHB L < 2 ,

(41)

< 1 HB + .
L
L

(42)

Si L augmente, la probabilit d'erreur dcroit lorsque la condition (33) :

HM =

M
< 1 HB ,
L

(43)

est vrie. Cette borne est la capacit du canal. Il peut tre intressant de montrer la redondance

L
1
=
,
M
1 HB

(44)

ncessaire pour vrier la borne de Shannon (g 15).

5 Conclusion
Nous avons propos deux illustrations simples des thormes de Shannon fondes sur l'utilisation
de la formule de Stirling.
Mme si le rsultats de Shannon sont bien plus gnraux, et en dpit de l'inlgance des dveloppements, nous esprons que cette prsentation peut aider la comprhension des aspects concrets
de ces thormes. Les suggestions d'amlioration et les corrections sont bienvenues, envoyez un
mail leroux@essi.fr.

14

J. Le Roux

Necessary redundancy
9
8
7
6
5
4
3
2
1
0
0.00

p
0.05

0.10

0.15

0.20

0.25

0.30

Figure 15: Redondance correspondant la borne de Shannon en fonction de la probabilt d'erreur


de transmission.

6 Bibliographie
6.1 Quelques references historiques
R. Clausius, Ueber verschiedene fr die anwendung bequeme formen der Hauptgleichungen
der mechanischen Wrmetheorie, (On dierent forms, convenient for application, of the main
equations of the mechanical heat theory) Annalen der physik und chemie, band CXX5, no 7, 1865,
pp 353-400.
L. Boltzmann, Uber die Beziehung zwischen dem zweiten Hauptsatze der mechanischen Wrmetheorie und der Wahrscheinlichkeitsrechnung, respective den Stzen ber das Wrmegleichgewicht, (On the Relation Between the Second Law of the Mechanical Theory of Heat and the Probability Calculus with Respect to the Theorems on Thermal Equilibrium), Sitzb. d. Kaiserlichen
Akademie der Wissenschaften, mathematich-naturwissen Cl. LXXVI, Abt II, 1877, pp. 373-435.
M. Planck, Uber des Gesetz der Energieverteilung im Normalspectrum, On the Law of Energy
Distribution in Normal Spectra, Annalen der Physik, 4, 1901, pp 553-563. (french translation : A
propos de la loi de distribution de l'nergie dans le spectre normal, Sources et volution de la
physique quantique, textes fondateurs, J. Leite-Lopes et B. Escoubs, edts, Masson, 1995. pp.
20-27.)
A. Einstein, Uber einen die Erzeugung und Verwandlung des Lichtes betreenden heuristischen
Gesichtspunkt, (On a Heuristic Viewpoint Concerning the Production and Transformation of
Light) Annalen der Physik, 17, 1905, pp. 132-148. (french translation : Un point de vue heuristique
concernant la production et la transformation de la lumire, Sources et volution de la physique
quantique, textes fondateurs, J. Leite-Lopes et B. Escoubs, edts, Masson, 1995. pp. 28-40.)
C. E. Shannon, A mathematical theory of communication, Bell System Technical Journal,
vol. 27, pp. 379-423 and 623-656, July and October, 1948.
L. Brillouin, Science and Information theory, Academic Press, 1962.
R. G. Gallager,The work of Claude Shannon, IEEE Trans. on IT, nov. 2001.

6.2

References imprimes

R.G. Gallager, Information theory and reliable communication, Wiley, 1968.


T. M. Cover and J.A. Thomas, Elements of information theory, Wiley, 1991.
G. Battail, Thorie de l'information, application aux techniques de communications, Masson,
1997 (in french).

Entropie

15

J. Rissanen and G.G. Langdon, Arithmetic coding, IBM J. Res. Develop., Vol. 23, No. 2, pp.
149-162, March 1979.
J. Rissanen and G.G. Langdon, Universal modeling and coding, IEEE Trans. on Information
Theory, Vol. 27, No. 1, pp. 12-23, January 1981.
C. Berrou, A. Glavieux and P. Thihimajshima, Near Shannon limit error-correcting coding
and decoding : turbo codes, Proc. 1993, Int. Conf. Comm., pp 1064-1070.
C. Berrou and A. Glavieux, Near Shannon limit error-correcting coding and decoding : turbo
codes, IEEE Trans. Comm., Oct. 1996, pp. 1261-1271.

6.3 Sites web


Articles de Shannon :
http: //cm.bell-labs.com/cm/ms/what/shannonday/paper.html
The courses of Marc Uro (Institute of telecommunications, Evry, France), in french :
http: //www-sim.int-evry.fr/ uro/old.htm
David J.C. MacKay, Information Theory, Inference and Learning Algorithms, Cavendish Laboratory, Cambridge, Great Britain, January 1995 :
http: //www.inference.phy.cam.ac.uk/mackay/info-theory/course.html
http: //www.inference.phy.cam.ac.uk/mackay/itprnn/book.html#book
Explanation of Stirling's formula on the page of B. Gourevitch about (in french) :
http: //membres.lycos.fr/bgourevitch/mathematiciens/moivre/moivre.html
Une traduction en anglais d'un des articles de Boltzmann :
http: //www.essi.fr/  leroux/boltztrad.ps