Vous êtes sur la page 1sur 23

Quelques mots sur l'entropie

Djalil Chafa

http://www.lsp.ups-tlse.fr/Chafai/
Compil le 23 octobre 2005 11:07 par

pdfLATEX

Le mot entropie vint du grec entrop, qui signie  retour . Le concept d'entropie a t introduit en thermodynamique par Clausius il y a cent cinquante ans.
La croissance au cours du temps pour un systme isol de cette variable thermodynamique extensive est sense exprimer l'irrversibilit, le  non-retour , certains
parlent mme de  che du temps  ce propos. Le concept gnral et dsormais
classique d'entropie a eu un succs sans prcdent bien au del de la physique et le
mot  entropie  est aujourd'hui assez galvaud. Notre objectif ici est de montrer
comment l'entropie utilise par Boltzmann en thorie cintique des gaz et par Shannon en thorie de l'information apparat naturellement. Nous en donnons les aspects
les plus importants, qui reposent sur des proprits lmentaires de combinatoire,
de convexit, et des fonctions x 7 log x et x 7 ex .
1

L'entropie selon Boltzmann

Soit r un systme  macroscopique  constitu de r particules  microscopiques  indiscernables pouvant tre chacune dans l'un des n tats possibles. L'tat
macroscopique du systme est donne par le nombre de particules dans chaque tat,
autrement dit, par le vecteur (r1 , . . . , rn ) o ri est le nombre de particules dans l'tat
i. Pour un tat macroscopique donn, le nombre de  degrs de libert  du systme
r est donn naturellement par le nombre d'tats microscopiques compatibles avec
l'tat macroscopique spci. Malheureusement, cette grandeur n'est pas extensive
car le nombre de degrs de libert de la juxtaposition de deux systmes est le produit
des degrs de libert de chacun des deux systmes, et pas leur somme. Il est donc
plus commode de considrer le logarithme du nombre de degrs de libert. Ainsi,
par dnition, l'entropie S(r ) du systme r est le logarithme du nombre d'tats
microscopiques compatibles avec l'tat macroscopique donn. Or il y a exactement
Crr1 ,...,rn :=

r!
r1 ! rn !

tats microscopiques possibles pour le systme r lorsque l'tat macroscopique


(r1 , . . . , rn ) est x. En vertu de de qui prcde, l'entropie moyenne du systme

par particule est alors donn par


S

moy

(r ) :=

1
log Crr1 ,...,rn .
r

Le vecteur r1 (r1 , . . . , rn ) est une loi de probabilit discrte puisque par dnition
r = r1 + + rn . Supposons que les frquences r1 (r1 , . . . , rn ) convergent vers la
loi de probabilit (p1 , . . . , pn ) lorsque le nombre de particules r tend vers l'inni.
La formule de Striling indique alors que l'entropie moyenne par particule pour le
systme inni est
1

Smoy ( ) := lim

r+

X
1
pi log pi .
log Crr1 ,...,rn =
r
i=1

Ce raisonnement est peu de chose prs celui qu'a fait Boltzmann. Nous dsignerons
la quantit
H(p1 , . . . , pn ) :=

n
X

(1)

pi log2 pi

i=1

par le terme  entropie de Boltzmann  de la loi de probabilit discrte (p1 , . . . , pn ).


En particulier, lorsque les n tats microscopiques possibles sont quiprobables, on a
p1 = = pn = n1 et S = log n, qui n'est qu'une forme de la clbre formule S =
log W . Boltzmann a utilis cette notion en thorie cintique des gaz. Considrons
un gaz constitu d'un trs grand nombre de particules identiques possdant chacune
une position et une vitesse repres par un vecteur (x, v) dans R6 . Le grand nombre
de particules fait qu'il n'est pas envisageable d'crire les quations du mouvement
pour chacune d'entre elles car le systme obtenu serait gigantesque et les conditions
initiales inconnues. Boltzmann adopte alors une approche probabiliste, on disait
 statistique  l'poque, d'o le nom de  mcanique statistique . Il considre
la densit de probabilit (x, v) R6 7 ft (x, v) qui reprsente la rpartition des
positions-vitesses des particules du systme l'instant t. Par homognit, il suppose
pour simplier que ft ne dpend pas de la position x. Il crit ensuite une quation
aux drives partielles qui exprime l'volution de cette densit au cours du temps
en tenant compte des chocs entre particules. Il montre enn en substance dans son
Rclbre  thorme-H  que sous certaines hypothses simplicatrices, la quantit
f (v) log ft (v) dv , analogue continu de l'entropie discrte H, dcroit au cours du
R3 t
temps vers une valeur minimale qui est atteinte lorsque f est gaussienne de la forme
N (u, T Id3 ) o T est la temprature absolue du gaz.
2

1 n!

2n en nn , formule qui peut s'tablir partir de la fonction (x) :=

tx1 et dt

R+

d'Euler.
2 O est une constante universelle appele  constante de Boltzmann , et o W est le nombre
d'tats d'nergie microscopiques possibles. Cette formule est grave sur la tombe de Boltzmann
Vienne. On peut rcrire la formule sous la forme loge1/ W .
3 On parle de distribution de Maxwell en physique dans ce contexte.

Dans toute la suite, l'entropie de Boltzmann H(f ) d'une densit de probabilit


f : Rd R par rapport la mesure de Lebesgue sur Rd est dnie par
Z
H(f ) :=
f (u) log f (u) du.
(2)
Rd

Boltzmann note H  son entropie   d'o le nom de son fameux thorme  sans
doute pour viter les confusions avec l'entropie en thermodynamique qui est note
traditionnellement S. Comme nous allons le voir dans la section 3 page 4, l'entropie
de Shannon est l'oppose en signe de l'entropie de Boltzmann. Elle est malheureusement note H par Shannon lui mme. Pour clarier les choses, nous avons choisit de
noter H l'entropie de Boltzmann et I l'entropie de Shannon. L'opposition de signe
entre H et I fait que l'entropie de Shannon est parfois appele ngentropie, on parle
aussi d'incertitude ou d'information (d'o notre notation).
2

Le logarithme et la notion intuitive d'information

Nous avons tous appris tt ou tard que le logarithme nprien log est la primitive
de la fonction x x1 sur R+ et que le logarithme logb de base b > 0 est la
fonction rciproque de la fonction x bx sur R+ . Le logarithme a cependant une
signication plus intuitive : pour tout b N et tout x > 1, la partie entire de
logb (x) reprsente le nombre de symboles ncessaires l'criture de x en base b.
Cette proprit lmentaire dcoule de la monotonie du logarithme et du fait que
pour tout n N
logb (bn ) = n.

Le cas 0 < x < 1 mne une interprtation similaire relative aux symboles  aprs
la virgule . Ainsi, le logarithme interpole entre n = logb (bn ) et n + 1 = logb (bn+1 )
de la mme manire que la fonction gamma d'Euler interpole entre n! et (n + 1)!.
La proprit de multiplicativit du logarithme logb (xy) = logb (x) + logb (y) exprime
alors le fait qu' peu de chose prs, en base b, le nombre de symboles ncessaires
l'criture de xy est la somme du nombre de symboles ncessaires l'criture de x et
de y .
Connatre x en base b revient donner les logb (x) symboles ncessaires son
criture en base b. Ainsi, logb (x) reprsente la quantit d'information ncessaire la
connaissance de x en base b. En informatique, on utilise en gnral la base b = 2 pour
des raisons videntes, et l'on parle de bit pour dsigner une unit. Ainsi, pour x > 1,
log2 x represente le nombre de bits d'information ncessaires la connaissance de x.
Considrons prsent un ensemble ni de cardinal || N . L'axiome du choix
le plus simple fait que l'on peut donc numroter les lments de , du n 1 au n ||.
Ainsi, il faut log2 || bits d'information pour dsigner un lment particulier de .
Comme l'ensemble des parties de est de cardinal 2|| , il faut || bits d'information
pour dsigner une partie de . On voit bien que la base 2 est la plus naturelle ici.
k
De mme, il faut log2 (C||
) bit d'information pour dsigner une partie de cardinal
k de .

La proprit de multiplicativit du logarithme fait qu'il faut log2 |1 | + log2 |2 |


bits d'information pour dsigner un lment particulier du produit cartsien 1 2 .
Si A , la quantit log2 || log2 |A| reprsente l'information rsiduelle ncessaire
pour dcrire aprs description de A. Si l'on pose pA := ||/|A| [0, 1], on a alors
log2 || log2 |A| = log2

||
= log2 pA .
|A|

Ainsi, si pA = 0 (i.e. ici A = ), la description de A n'a rien chang au problme de


la description de , tandisque lorsque pA = 1 (i.e. A = ), la description de A sut
entirement dcrire . Soit prsent A1 , . . . , An une partition de . On dnit
la loi de probabilit discrte (p1 , . . . , pn ) par pi := pAi . On peut dnir la quantit
moyenne en bits d'information ncessaire la description de aprs description de
l'un des Ai par :

n
X

pi log2 pi .

i=1

Cette quantit est exactement  au facteur log 2 et au signe prs  l'entropie de


Boltzmann (1). Le modle d'quiprobabilit ici est cach dans , et la formule pA =
|A|/|| correspond la sacro-sainte formule  cas favorables sur cas totaux .
3

L'entropie selon Shannon

Considrons un ensemble A := {a1 , . . . , an } de cardinal n, que l'on appelera


alphabet, et dont les lments seront appels symboles. Un message de longueur
r N crit avec cet alphabet ne sera qu'une suite nie de longueur r d'lments
de A. En d'autres termes, ces messages sont exactement les lments de Ar . Soit
x = xr xr un message de longueur r crit avec l'alphabet A. Si ri dsigne le nombre
d'occurrence du symbole ai dans le message x, on a forcment r = r1 + + rn et
la frquence d'apparition fr,i du symbole ai est donne par fr,i := r1 ri . Lorsque
A, r, r1 , . . . , rn sont xs, le nombre de messages possibles est donn par le coecient
multinomial suivant :
Crr1 ,...,rn :=

r!
.
r1 ! rn !

Pour transmettre un message de longueur quelconque r crit avec l'alphabet A, il


sut donc par simple numrotation de transmettre d'abord r1 , . . . , rn , ce qui require
d'aprs la section 2 moins de n log2 r bits, puis de transmettre un nombre plus petit
ou gal Crr1 ,...,rn . Le nombre I(r) de bits requis vrie donc
log2 Crr1 ,...,rn 6 I(r) 6 n log2 r + log2 Crr1 ,...,rn .

Supposons que lorsque la longueur r du message est grande, les frquences (fr,1 , . . . , fr,n )
d'apparitions des symboles de l'alphabet convergent vers une loi de probabilit discrte (p1 , . . . , pn ). La formule de Stirling donne alors
I(r) r
r=+

n
X
i=1

!
pi log2 pi .

Ainsi, la quantit moyenne d'information en bits par symbole ncessaire la transmission d'un message crit avec l'alphabet A est asymptotiquement donne par
l'entropie (1) o pi reprsente la probabilit d'apparition du symbole ai dans le
message.
Ce raissonnement peut alors tre invers de la faon suivante : si une source
met de faon i.i.d. des symboles de l'alphabet A := {a1 , . . . , an } avec probabilits
(p1 , . . . , pn ), alors la quantit d'information moyenne en bit par symbole ncessaire
la transmission de la sortie de cette source est donne par l'entropie (1).
Sur le plan combinatoire, le raisonnement est exactement celui qu'a fait Boltzmann : asymptotique de la loi multinmiale lorsque les frquences convergent, et
utilisation de la formule de Stirling pour faire apparatre la formule de l'entropie
discrte via la proprit cl log (m!) m log m.
Nous dnissons l'entropie de Shannon discrte de la loi discrte (p1 , . . . , pn ) par
la formule
n
I(p1 , . . . , pn ) :=

pi log2 pi ,

(3)

i=1

qui  au signe et au facteur log 2 prs  est exactement l'entropie de Boltzmann


dnie par (1). De mme, nous dnissons l'entropie de Shannon continue de la
densit de probabilit f : Rd R par rapport la mesure de Lebesgue par la
formule
Z
I(f ) :=
f (x) log2 f (x) dx,
(4)
Rd

qui  au signe et au facteur log 2 prs  est exactement l'entropie de Boltzmann


continue dnie par (2). Comme les entropies de Boltzmann H et de Shannon I sont
semblables, nous ne parleront que de celle de Shannon, et ce choix et tout fait
arbitraire. D'autre part, pour une variable alatoire X , on notera I(X) l'entropie
I(L(X)) de la loi de X . Remarquons que I(f ) est bien dnie seulement lorsque
f log2 f est Lebesgue intgrable.
Remarque 3.1 (Entropie relative de Kullback-Leibler). Soient et deux mesures positives dnies sur le mme espace mesurable (, F). L'entropie relative de
Kullback-Leibler Ent( | ) est dnie par la formule
Z
d log d d si 
d
d
.
Ent( | ) :=

+
sinon

Lorsque est une loi de probabilit, l'ingalit de Jensen entrane que Ent( | )
R+ {+}. De plus Ent( | ) = 0 si et seulement si = et Ent( | ) < + si
d
d
et seulement si d
log d
f L1 (, F, ; R).
4

Proprits de l'entropie discrte

L'entropie de Shannon I(p1 , . . . , pn ) d'une loi de probabilit discrte (p1 , . . . , pn )


est dnie par (3). On remarquera qu'elle ne dpend que des coecients pi , et pas

du support de la loi discrte considre. Elle est continue sur le simplexe n des lois
de probabilits discrtes de taille au plus n :
n := {(p1 , . . . , pn ) (R+ )n , p1 + + pn = 1}.

(5)

La convention 0 log 0 = 0 fait qu'il n'y a pas de problmes aux bord de n . La


fonction x R+ x log x tant strictement convexe, on a :
n
X
1
(pi log pi )
I(p1 , . . . , pn ) = n
n
i=1
!
!
n
n
X
X
pi
pi
6 n
log
n
n
i=1
i=1


1
1
,...,
.
= log n = I
n
n

La convexit stricte entrane que le cas d'galit n'a lieu que pour la mesure uniforme.
D'autre part, la fonction I est strictement concave sur n en tant que fonction de
n variables car x log x est strictement convexe. Ainsi, I : n [0, log n] atteint sa
valeur minimale 0 aux points extrmaux du convexe compact n de Rn , qui sont
exactement les masses de Dirac, et sa valeur maximale log n en un unique point qui
est la loi uniforme .
Comme expliqu dans les sections 2 et 3, l'entropie de Shannon I(p1 , . . . , pn )
mesure l'information (en bits) ncessaire au codage d'une source de loi (p1 , . . . , pn ).
Cependant, selon le point de vue adopt, elle mesure galement l'incertitude. Ainsi,
l'entropie I(p1 , . . . , pn ) est d'autant plus grande que son argument est  alatoire .
Une masse de Dirac reprsente la certitude tandis que la loi uniforme reprsente
l'incertitude totale. La certitude se code avec trs peu de bits tandisque que l'incertitude totale se code avec autant de bits que la taille du support. Ce qui prcde est
parfaitement cohrent avec ce qui est expliqu dans la section 2.
4

4.1 Extensivit de l'entropie


La fonction logarithme intervenant dans la dnition de I n'est pas vraiment
ncessaire l'obtention des proprits de monotonie, et l'on peut remplacer x log x
par une fonction strictement convexe quelconque de R+ dans R, s'anullant en 0 et en
1. En revanche, la fonction x log x fait de I une fonction extensive, comme l'exprime
le thorme suivant.
Thorme 4.1 (Extensivit de l'entropie).

valeurs dans {0, . . . , n}, alors

Si X et Y sont deux v.a. discrtes

I((X, Y )) 6 I(X) + I(Y ),

avec galit si et seulement si X et Y sont indpendantes.


4 Le

fait que l'ensemble des minima et l'ensemble des maxima soient invariants par permutation
des coordonnes est d la symtrie de I.

Dmonstration. Notons L(X) = p1 x1 + +pn xn la loi de X et L(Y ) = q1 y1 + +


qm ym la loi de Y . La proprit fondamentale du logarithme log(ab) = log a + log b

permet d'crire :
X
16i6n
16j6m

pi qj log(pi qj )

qj log(qj )

16j6m

pi +

16i6n

X
16i6n

| {z }

pj log(pj )

qj .

16j6m

| {z }

=1

=1

Ainsi, nous avons I(L(X)L(Y )) = I(X)+I(Y ). Posons ri,j := P(X = xi , Y = yj ).


La continuit de l'entropie I permet de se ramener au cas o les pi et les qj sont tous
strictement positifs. On a alors
I((X, Y )) I(L(X) L(Y ))


X  ri,j
ri,j
log
p i qj .
p
q
p
q
i
j
i
j
16i6n
16j6m

Pour terminer, il sut de remarquer que l'ingalit de Jensen pour la variable alatoire (i, j) 7 ri,j /pi qj , la fonction convexe x 7 x log x et la loi de probabilit
L(X) L(Y ) donne :

X  ri,j
ri,j
log
p i qj
p
q
p
q
i
j
i
j
16i6n

>

0.

16j6m

La convexit stricte entrane que l'galit n'a lieu que lorsque rij = pi qj pour
tous i et j , c'est--dire lorsque X et Y sont indpendantes, ce qui termine la
preuve. On remarquera que l'ingalit prcdente dcoule de la remarque 3.1 car
Ent(L(X, Y ) | L(X) L(Y )) > 0.
Cette proprit  extensive  est tout fait naturelle : l'incertitude d'un couple
de v.a. est toujours plus petite que la somme des incertitudes, avec galit si et
seulement si elles sont indpendantes. On vrie immdiatement que I((X, X)) =
I(X), en d'autres termes, la duplication d'une v.a. n'ajoute aucune incertitude. La
notion d'entropie de Shannon mne celles d'entropie conditionnelle et de capacit
d'un canal de communication, cf. [App96, chap. 6], [Rom92, Rom97] et [YY59].

4.2 Le problme du codage optimal sans bruit


4.2.1 Alphabets, mots et messages
Un n-alphabet A := {a1 , . . . , an } est la donne de n symboles a1 , . . . , an tous
dirents. Un message ou un mot x crit dans cet alphabet n'est qu'une suite nie
x1 , x2 , x2 , . . . , xm o les xi sont tous dans A. On note A l'ensemble des mots crits
avec l'alphabet A. On note |x| la longueur m du mot x. Les mots peuvent tre
concatns pour obtenir des mots plus longs. Par exemple, pour tout entier k, le
produit cartsien Ak s'injecte naturellement dans A par la concatnation
(ai1 , . . . , aik ) Ak ai1 aik A .

On parlera indistinctement de mots ou de messages car la notion d'espace ne nous


proccupe pas ici. On pourra tout naturellement penser l'exemple donn par des
messages en franais pour lesquels A est l'alphabet usuel enrichit de quelques symboles additionnels comme les signes de ponctuation par exemple.

4.2.2 Canal et signaux


Comment transmettre de tels messages travers un canal de communication ? Et
qu'est-ce qu'un  canal de communication  au juste ? Un canal de communication
sans bruit fonctionne la manire du tlgraphe : seuls un nombre nis de signaux
sont transmissibles. Pour le tlgraphe, on dispose de trois signaux qui sont : le point,
le tiret, et le temps de pause. De manire abstraite, un r-canal de communication
sans bruit ne sait transmettre que r signaux dirents s1 , . . . , sr , qui forment un
alphabet S := {s1 , . . . , sr }. Notre problme est alors d'utiliser ces r signaux  et
donc l'alphabet S  pour transmettre des messages crits dans l'alphabet A, qui
n'est pas S . Lorsque r 6 n, la solution au problme est triviale car alors A S .
En gnral, et tout comme dans l'exemple du tlgraphe, n est bien plus grand que
r, et c'est l tout le problme. En informatique, r vaut la plupart du temps 2. En
somme, nous cherchons en particulier un moyen pour communiquer rapidement du
Shakespeare en utilisant 2 grognements dirents. . . Comme nous allons le voir, cela
est algorithmiquement possible et qui plus est de manire optimale !

4.2.3 Formalisation du problme du codage


Le problme du codage consiste associer chaque symbole ai A un mot
ci := si,1 si,ri S crit dans l'alphabet S . On comprend aisment que la nature
exacte des signaux si n'a absolument pas d'importance et que seul leur nombre r est
pertinent, et il en est de mme pour A et n. La suite c := (c1 , . . . , cn ) (S )n est
appele un (r, n)-code, et chaque ci est le code de ai . Un message x := ai1 ai1 aim
A sera donc cod en un message ci1 ci2 . . . cim S en remplaant chaque occurrence
du symbole ai dans x par le mot ci S . Les ci sont donc concatns dans S . Ce
procd fournit au nal un message cod :
codage

ai1 ai1 aim A ci1 ci2 . . . cim S .


{z
}
{z
}
|
|

message d'origine

message cod

Le message cod n'est qu'une suite de signaux, qu'il faut ensuite dcoder pour retrouver le message d'origine. La longueur du message d'origine ai1 ai1 aim dans A
est m. En revanche, la longueur du message cod ci1 ci2 . . . cim dans S n'est pas m
mais |ci1 | + |ci2 | + + |cim |.

4.2.4 Solution nave au problme du codage


Une solution nave au problme du codage consiste choisir des codes ci qui sont
tous de mme longueur, et il est alors facile de voir que cette longueur vaut logr n

une unit prs, en vertu des explications de la section 2. Choisir des codes qui sont
tous de la mme longueur n'est pas trs satisfaisant car les symboles frquents de A
seront cods de la mme manire que les symboles rarement utiliss. Ce problme a
t rsolu pour le tlgraphe en utilisant des codes base de tirets et de points de
longueur inversement proportionnelle la frquence du symbole qu'ils codent dans
une langue de rfrence (l'anglais, en l'occurrence). C'est le fameux code Morse
invent vers 1835, et pour lequel r = 3. Le dcodage est garantit par l'utilisation
du temps de pause pour sparer les codes. En eet, lorsque les codes ne sont pas de
mme longueur, il faut tre en mesure de dterminer le dbut o la n de chaque
code lors de la rception des signaux.

4.2.5 Codes instantans et dcodage unique


Poursuivons notre dmarche quelque peu abstraite en donnant deux dnitions
lies la possibilit de dcoder un message cod en signaux par un (r, n)-code.
1. Codes dchirage unique. Un (r, n)-code est dit dchirage unique lorsque
le dcodage permet toujours de retrouver le message d'origine dans A de faon
unique aprs rception de la totalit de la version code du message dans S ;
2. Codes instantans. Un (r, n)-code est dit instantan lorsque le dcodage d'un
message peut tre fait au fur et mesure lors de la lecture des signaux constituant la version code du message.
Il est clair qu'un code instantan est dchirage unique, et les codes instantans sont de loin les plus pratiques. Kraft a montr en 1949 que si un (r, n)-code
(c1 , . . . , cn ) est instantan, il satisfait l'ingalit suivante :
n
X

rli 6 1,

i=1

o li = |ci |. Rciproquement, si l'on se donne des entiers naturels r, n, l1 , . . . , ln qui


satisfont la condition de Kraft, alors il existe un (r, n)-code instantan dont les
longueurs de codes sont prcisment ces l1 , . . . , ln . Enn, Mac Millan a montr en
1956 que tout code dchirage unique satisfait la condition de Kraft.
L'utilisation du temps de pause dans le code Morse pour sparer les codes garantit
le dcodage instantan. En ralit un (r, n)-code (c1 , . . . , cn ) est instantan si et
seulement si il a la proprit de prxe : aucun ci n'est le prxe d'un cj avec j 6= i.
En d'autres termes, si ck = si1 sik , alors pour tout j < k , si1 sij 6 {c1 , . . . , cn }.

4.2.6 L'entropie de Shannon et le problme du codage optimal


Supposons que les messages coder dans A sont tels que la probabilit d'apparition du symbole ai est pi . On a alors une loi de probabilit discrte (p1 , . . . , pn )
sur A qui dcrit les frquences d'apparitions des symboles. Si c := (c1 , . . . , cn ) est

un (r, n)-code, la longueur moyenne dans S du code d'un symbole de A par le code
c est donne par
L(c) :=

n
X

pi |ci |.

i=1

Soit C(r, n) l'ensemble des (r, n)-code instantans. Le problme du codage optimal
consiste construire un (r, n)-code instantan c tel que
opt.

L(c

opt.

)'

inf L(c).
cC(r,n)

Il est facile de voir par compacit (exercice !) que cet inmum est atteint et qu'un
tel code optimal c
existe. Naturellement, un tel code n'a aucune raison d'tre
unique (penser la symtrie) et il dpendra essentiellement de r et de la loi de probabilit discrte (p1 , . . . , pn ) qui dcrit la source des messages. Reste trouver des
mthode de constructions de codes optimaux, et cela fait l'objet des sections suivantes. Lorsque A est l'alphabet usuel, on pourra penser par exemple que (p1 , . . . , pn )
reprsente les frquences d'utilisation des lettres dans les textes en franais. Lorsque
l'on a aaire un message susamment long dans A , on peut galement imaginer que (p1 , . . . , pn ) est obtenue en calculant les frquences empiriques des symboles
de l'alphabet A dans le message en question. Le thorme de codage non-bruit de
Shannon arme que l'on a
opt.

I(p1 , . . . , pn ) 6

inf
cC(2,n)

L(c) 6 I(p1 , . . . , pn ) + 1.

La version pour un r 6= 2 s'obtient en remplaant log2 par logr dans la dnition


(3) de l'entropie de Shannon I. En codant des blocs de k symboles de A plutt que
les symboles eux-mmes, on obtient immdiatement en appliquant ce qui prcde
Ak et en vertu du thorme 4.1 que pour tout k N
I(p1 , . . . , pn ) 6

inf

cC(2,nk )

1
1
L(c) 6 I(p1 , . . . , pn ) + .
k
k

Notons que k1 L(c) est toujours une longueur moyenne par symbole de A car c
C(2, nk ) est un code qui concerne les symboles de Ak qui sont de longueur k dans A .
Ainsi, l'entropie de Shannon I(p1 , . . . , pn ) mesure la longueur moyenne du meilleur
(2, nk )-code, et cette mesure est d'autant plus ne que k est grand. Les preuves de
toutes les armations qui prcdent sont lmentaires et gurent par exemple dans
le premier chapitre de [Rom97]. On pourra consulter galement le chapitre 7 du trs
accessible [App96].

4.2.7 Codes de Shannon-Fano et de Human


FIXME:

10

function


[ c o d e , a r b r e , e n t r o p i e , l o n g m o y ]= h u f f m a n 2 ( P )

%
% Determine le code de Huffman binaire (2- ary en anglais )
% qui correspond a la distribution de probabilite P.
%
%
%% Exemple 7.11 page 125 du Applebaum , cf. aussi figure 7.6.
%
% [code ,arbre ,entrop , longmoy ]= huffman2 ([.14 ,.24 ,.33 ,.06 ,.11 ,.12])
%
% code =
%
[0.1400]
'101'
%
[0.2400]
'01'
%
[0.3300]
'11'
%
[0.0600]
'000'
%
[0.1100]
'001'
%
[0.1200]
'100'
%
% arbre =
%
0.1700
4.0000
5.0000
%
0.2600
6.0000
1.0000
%
0.4100
7.0000
2.0000
%
0.5900
8.0000
3.0000
%
1.0000
9.0000
10.0000
%
% entrop =
%
2.3800
%
% longmoy =
%
2.4300
%
%
%
%% Exemple 7.10 page 124 du Applebaum , cf. aussi figure 7.5.
%
% [code ,arbre ,entrop , longmoy ]= huffman2 ([1/2 ,1/4 ,1/8 ,1/16 ,1/16])
%
% code =
%
[0.5000]
'0'
%
[0.2500]
'10'
%
[0.1250]
'110'
%
[0.0625]
'1110 '
%
[0.0625]
'1111 '
%
% arbre =

11

%
0.1250
%
0.2500
%
0.5000
%
1.0000
%
% entrop =
%
1.8750
%
% longmoy =
%
1.8750
%%
entropie

4.0000
3.0000
2.0000
1.0000

5.0000
6.0000
7.0000
8.0000

sum ( P . log2 ( P ) ) ;

length ( P ) ;

n =

PP =

[P

ones (1 , n 1)];

arbre

zeros ( n 1 ,

1:n

for

[ index1 ,

index2 ]

arbre ( i ,

1)

PP( n +

3);

1 ,

i )

f i n d m i n s (PP ) ;

= PP( i n d e x 1 )

arbre ( i ,

arbre ( i ,

2)

index1 ;

arbre ( i ,

3)

index2 ;

PP( i n d e x 1 )

2;

PP( i n d e x 2 )

2;

end
%

codes

cell (

length (PP ) , 1 ) ;

1 ,2)}
1 ,3)}
n 2: 1:1 ,

codes { arbre (n

'0 ' ;

codes { arbre (n

'1 ' ;

for

end

codes { arbre ( i , 2 ) }

c o d e s { i +n }

'0 '

];

codes { arbre ( i , 3 ) }

c o d e s { i +n }

'1 '

];

code

longmoy

for

end

+ PP( i n d e x 2 ) ;

1);

c e l l (n , 2 ) ;
=

0.;

i =1:n ,
code { i , 1 }

= P( i ) ;

code { i , 2 }

longmoy

longmoy

codes { i };
+

length ( c o d e s { i } ) P ( i ) ;

return
%

12

function

[ index1 ,

index2 ]

f i n d m i n s (P)

min1

3;

min2

3;

n =

for

length ( P ) ;
i

if

1:n ,

P( i )

<

index1

end
end

min1

P( i n d e x 1 )

for

if

i ;

= P( i ) ;

2;

1:n ,

P( i )

<

index2

end
end

min1 ,
=

min2

min2 ,
=

i ;

= P( i ) ;

4.3 Entropie exponentielle de Shannon


L'entropie exponentielle de Shannon de la loi discrre (p1 , . . . , pn ) est dnie par
2I(p1 ,...,pn ) .

(6)

Elle correspond au  nombre de degrs de libert  voqu au dbut de la section 1


sur l'entropie de Botlzmann en physique, ou tout simplement || dans l'esprit de
la section 2. Ainsi, l'entropie exponentielle d'une masse de Dirac vaut 1, celle d'une
loi de Bernoulli symtrique vaut 2 et plus gnralement, celle de la loi uniforme de
taille n vaut n. Rappelons que parmis les lois discrtes de support de taille au plus
n, la loi uniforme maximise l'entropie de Shannon. Ainsi, l'entropie exponentielle de
Shannon 2I(p1 ,...,pn ) donne la taille de la loi uniforme qui a la mme entropie que la
loi (p1 , . . . , pn ). L'entropie exponentielle d'une loi de Bernoulli asymtrique est entre
1 et 2 car une telle loi favorise une des deux valeurs possibles et est donc  moins
incertaine  qu'une loi de Bernoulli symtrique.
Un gnrateur pseudo-alatoire idal pour la loi uniforme sur {0, . . . , n 1} devrait avoir une entropie exponentielle de n. Bien entendu, l'entropie des gnrateurs
existants est toujours plus petite que cette valeur maximale.

4.4 Information mutuelle et capacit d'un canal de communication


La preuve du thorme 4.1 sur l'extensivit de l'entropie de Shannon est essentiellement base sur le fait que pour deux variables alatoires discrtes valeurs
dans {0, . . . , n}
I(L(X) L(Y )) = I(X) + I(Y ) I((X, Y )).

13

Cette proprit suggre de dnir l'information mutuelle M(X, Y ) de X et Y par


la formule symtrique
M(X, Y ) := I(X) + I(Y ) I((X, Y )) = I(L(X) L(Y )).

Elle reprsente l'incertitude maximale que l'on peut obtenir pour un couple de v.a.
dont les incertitudes marginales sont celles de X et de Y . Dans la mme veine, on
dnit l'entropie conditionnelle I(X | Y ) par la formule
I(X | Y ) := I((X, Y )) I(Y ).

Elle reprsente en quelque sorte l'incertitude rsiduelle dans X lorsque l'on connat
Y . On a alors en vertu de ce qui prcde,
M(X, Y ) = I((X, Y )) I(X | Y ) I(Y | X).

Dans l'esprit de la section 2, les relations entre information mutuelle et entropies


conditionnelles se comprennent trs facilement en terme d'ensembles, comme expliqu sur la gure 1.

I(X|Y)

M(X,Y)

I(Y|X)
I(Y)

I(X)
I((X,Y))

1  Relations entre entropie de Shannon, entropies conditionnelles, et information mutuelle.


Fig.

FIXME: dnir la capacit


4.4.1 Thorme de codage bruit
FIXME:
4.5 Caractrisations axiomatiques de l'entropie discrte
L'entropie de Shannon dnie en (3) possde de trs belles caractrisations axiomatiques. Rappelons que n dsigne le simplexe dnit en (5). La seule famille de
fonction Fn : n R, n N , qui vrient
1. Pour tout n N , Fn est symtrique, positive et continue;
2. F2 (1/2, 1/2) = 1;

14

3. Pour tout n N et p n , Fn (p) = Fn1 (q, p3 , . . . , pn ) + q F2 (p1 /q, p2 /q) o


q := p1 + p2 ;
est l'entropie de Shannon I dnie en (3). Il existe d'autres caractrisations du mme
type. Ainsi, les seules familles de fonctions Fn : n R, n N , qui vrient pour
tout n N
1. Fn est positive et continue;
2. Fn (1/n, . . . , 1/n)) < Fn+1 (1/(n + 1), . . . , 1/(n + 1));
3. Pour tout (n1 , . . . , nk ) Nk avec n1 + + nk = n,

Fn

1
1
,...,
n
n


= Fk



k
nk  X ni
1
1
,...,
+
Fn
,...,
;
n
n
n i ni
ni
i=1

n

sont de la forme
Fn (p1 , . . . , pn ) =

n
X

pi logb pi ,

i=1

avec b . Ces axiomes sont tout fait naturels et rendent d'une certaine faon
l'entropie de Boltzmann-Shannon  canonique . La dmonstration de ce qui prcde
est lmentaire et a t donne par Shannon lui mme. On la trouvera par exemple
dans les premires pages de [Rom97].
R+

4.6 Maximum d'entropie discrte


Nous avons dj vu dans la section 4 que l'entropie de Shannon est maximise,
taille du support xe, par la loi uniforme. Que se passe-t-il lorsque l'on ajoute
une contrainte sur sa moyenne par exemple ? La rponse est donne par le thorme
suivant.

Soit Rn . Pour tout 0 R vriant


min(1 , . . . , n ) < 0 < max(1 , . . . , n ), il existe R tel que

Thorme 4.2 (Maximum d'entropie).

max
(p1 ,...,pn )n
1 p1 ++n pn =0



I(p1 , . . . , pn ) = I (q1 , . . . , qn ) ,

o (q1 , . . . , qn ) n est dnie par


qk := (Z )1 e k

o Z := ni=1 e i . De plus, est unique lorsque les 1 , . . . , n ne sont pas tous


gaux. Enn, le signe de (1 + + n )/n 0 , et vaut 0 en cas d'galit.
P

Dmonstration. Pour allger les notations, on notera q := (q1 , . . . , qn ) et p :=


(p1 , . . . , pn ) et enn Eq () := 1 q1 + + n qn pour tout q n . Il est clair que pour
5 Pourquoi ?

Exercice !

15

tout R, q n . Montrons que peut tre choisit tel que Eq () = 0 . Pour


cela, on considre la fonction : R R dnie par
Pn
i e i
() := Eq () := Pi=1
.
n
i
i=1 e

Cette fonction est clairement de classe C et (0) = (1 + + n )/n. D'autre part,


il existe toujours i dans {1, . . . , n} tel que i = min(1 , . . . , n ), et l'on a alors
() :=

i +

Pn

1+

(j i )
j=1 j e
Pn ( ) ,
j
i
j=1 e

qui converge vers min(1 , . . . , n ) lorsque tend vers +. De la mme manire, on


montre que () converge vers max(1 , . . . , n ) lorsque tend vers . Le thorme
des valeurs intermdiaires assure alors l'existence d'un R tel que () = 0 . Pour
montrer que est unique, il sut de montrer que est strictement dcroissante, or
nous avons par un simple calcul
0 () := Varq () 6 0,

avec galit si et seulement si les 1 , . . . , n sont tous gaux. Montrons prsent que
si p n vrie Ep () = 0 , alors I(p) 6 I(q ). On a
I(q ) I(p) =

n
X

pi

i=1

qi

log

pi
qi

!
qi ,

qui est exactement l'entropie relative de Kullback-Leibler Ent p | q . Elle est donc
positive et nulle si et seulement si p = q .


On remarquera que lorsque les 1 , . . . , n sont tous gaux, la condition sur 0


dans l'nonc du thorme prcdent n'est jamais satisfaite, et de toute manire, le
problme revient alors constater que l'entropie de Shannon est maximise par la
loi uniforme, ce que nous savons dj. De plus, la contrainte Ep () = 0 impose
l'entropie entrane immdiatement que min(1 , . . . , n ) 6 0 6 max(1 , . . . , n ),
ce qui montre donc que la condition impose sur n'est pas restrictive. Le cas o
0 = (1 + . . . + n )/n est intressant. Il entrane qu' taille du support xe et moyenne xe, l'entropie de Shannon est maximise par la loi uniforme. En langage
gomtrique, la contrainte impose l'entropie revient la considrer comme une
fonction dnie sur l'intersection du simplexe n avec l'hyperplan passant par 0
et orthogonal au vecteur . On voit alors qu'il sut de considrer les vecteurs
appartenant la sphre de Rn pour la norme kk1 , et l'on a donc 0 ] 1, +1[.
Les lois de probabilits de la forme q sont appeles  lois de Boltzmann-Gibbs .
On peut noncer un thorme similaire pour les lois de probabilits sur N ou Z. En
particulier, la loi gomtrique de paramtre p = 1/(m + 1) sur N maximise l'entropie
parmi toutes les lois sur N d'entropie nie et de moyenne m. Le thorme 15 possde
une version semblable 5.1 pour l'entropie continue (4).

16

4.7 Entropie de Shannon et complexit de Kolmogorov


Revenons prsent la notion de complexit de Kolmogorov, et faisons le lien
avec l'entropie de Boltzmann-Shannon. Soit m N un entier non nul, U une
machine universelle et Pm l'ensemble des programmes crits pour cette machine dont
la longueur de la sortie est de m. On note K(y|m) la complexit de Kolmogorov de
taille m d'une suite y = (y1 , . . . , ym ) de longueur m, dnie par :
K(y | m) :=

min

l(p).

pPm , s(p)=y

Soit prsent une suite de variables alatoires i.i.d. (Xi )iN de loi discrte p1 a1 +
+ pn an o les a1 , . . . , an sont tous dirents, et l'on note A := {a1 , . . . , an }
l'alphabet correspondant. Alors, on montre qu'il existe une constante c > 0 telle
que pour tout m N :
6

I(p1 , . . . , pn ) 6

n log m
c
1 X
py1 pym K(y | m) 6 I(p1 , . . . , pn ) +
+ ,
m yAm
m
m

o pz := P(X1 = z1 , . . . , Xm = zm ) pour tout z Am . Ainsi, on a :


1
E(K((X1 , . . . , Xm ) | m)) I(p1 , . . . , pn ).
m+
m

L'entropie de Boltzmann-Shannon apparat donc  asymptotiquement  comme une


 complexit de Kolmogorov moyenne . De ce point de vue, la complexit de Kolmogorov est est une notion plus fondamentale que l'entropie de Boltzmann-Shannon.

4.8 Quelques mots sur l'entropie en cryptographie


La mthode cryptographique la plus lmentaire  celle que tout le monde connait
 est sans doute le code  Csar . Elle consiste chirer le message avec une
permutation de l'alphabet, c'est--dire avec un lment du groupe symtrique S26 ,
dont le cardinal est de l'ordre de 1025 = 10 millions de milliards de milliards. Cette
mthode aurait t utilise par Jules Csar. Or on sait depuis le IX sicle que ce
procd est beaucoup trop simple pour tre ecace. En eet, permuter les lettres
de l'alaphabet ne fait que permuter leur frquence d'apparition. Cette observation
permet de retrouver facilement le message originel, s'il n'est pas trop court, en
utilisant les frquences d'apparition des lettres dans la langue du message. Ainsi,
la permutation n'a pas modi l'entropie de Shannon du message, qui dpend des
p1 , . . . , p26 mais pas des x1 = 'a', . . . , x26 = 'z'. Claude Shannon a montr dans
[Sha49] que l'entropie du message cod doit tre plus leve que celle du message
originel pour viter ce genre d'attaques (notion de diusion/confusion). C'est sur
ce principe que sont bass les algorithmes cryptographiques symtriques standards
e

6 Cf.
7 Le

[CT91, thorme 7.3.1 page 154] ou [LV97] pour une preuve.


fameux  Manuscrit sur le dchirement des messages cryptographiques  d'Al-Kindi.

17

comme le dj ancien DES (Data Encryption Standard) et le tout nouveau AES


(Advanced Encryption Standard), cf. par exemple [PlS02].
Augmenter l'entropie d'un message correspond le bruiter. Le principe de nombreuses mthodes cryptographiques dites symtriques est d'utiliser une fonction de
bruitage qui dpend d'une cl que seuls l'metteur et le rcepteur possdent. Ainsi,
seule la bonne personne sera mme d'eectuer le dbruitage. Le qualicatif symtrique rappelle que la mme cl sert au bruitage (cryptage) et au dbruitage (dcryptage), et la fonction de bruitage utilise est souvent son propre inverse, comme
dans le DES. Les mthodes de cryptographie symtrique sourent du problme de
la communication de la cl entre l'metteur et le rcepteur. C'est ce qui a motiv
l'introduction de mthodes asymtriques, comme l'algorithme RSA. Cet algorithme
est bas sur l'arithmtique modulo n, i.e. dans Z/nZ. Des nombres premiers de
plusieurs milliers de chires sont alors ncessaires, ce qui ncessite l'utilisation d'algorithme probabilistes de test de primalit, bien plus rapides que les algorithmes
dterministes.
Pour la petite histoire, le code Csar a t amlior au 16 sicle par Vigenre.
La nouvelle mthode consistait utiliser une permutation de l'alphabet dirente
chaque lettre du message coder, le choix de la permutation se faisant de faon
cyclique selon une cl prtablie de quelques lettres qui donne la translation de
l'alphabet utiliser. Ce code a rsist longtemps la cryptanalyse mais a t cass
par Charles Babbage vers 1850 en utilisant la priodicit engendre par l'utilisation
rpte de la cl.
Les cryptalgorithmes symtriques incassables existent. L'un des plus simples est
sans doute l'algorithme probabiliste symtrique invent par Vernam, qui a t utilis
en particulier pour le  tlphone rouge  entre Washington et Moscou pendant la
guere froide. Il consiste reprendre la mthode de Vigenre, mais en utilisant pour
chaque lettre du message coder un alphabet de substitution alatoirement choisit.
La cl est alors la suite alatoire utilise, qui est aussi longue que le message, et qui ne
doit bien entendu servir qu'une fois. On peut facilement imaginer d'autres variantes :
si le message crypter est converti en base 2, il devient une squence (xn )n de 0 et
de 1. La mthode consiste alors combiner cette suite une suite alatoire (an )n
constitue de ralisations i.i.d. de loi de Bernoulli symtrique (0 +1 )/2. Le message
crypt (yn )n est alors donn par yn = xn xor an , o xor est la notation standard du
 ou exclusif . Pour dcrypter, il sut de rpter l'opration avec la mme suite
(an )n , qui constitue la cl. Cette cl est malheureusement aussi longue que le message. . . Ces mthodes probabilistes sont trs sres condition de les pratiquer avec
rigueur : cl usage unique, gnrateur alatoire de bonne qualit avec une bonne
 entropie , etc. Notre socit de l'information numrique fait que la cryptographie
est en plein essor, et il se trouve mme que nous l'utilisons parfois notre insu. Son
champ d'application est trs vaste : scurisation des changes commerciaux sur In8

8 Cela constitue d'ailleurs un dveloppement classique de certaines leons orales d'algbre. . . Pour

rester dans l'informatique et les corps nis, vous pouvez aussi penser aux codes correcteurs d'erreur,
cf. [Rom92] et [Rom97] par exemple.

18

ternet, authentication des cartes bancaires, scurisation et signature des transferts


de donnes et des messages lectroniques, verouillage des portes et des moteurs de
voitures, . . .
5

Quelques proprits de l'entropie continue

L'entropie de Shannon continue est dnie en (4). On notera I(X) l'entropie


I(f ) d'un vecteur alatoire de densit f par rapport la mesure de Lebesgue sur
Rd . Certaines proprits de l'entropie discrte (3) sont perdues. Ainsi par exemple,
l'entropie continue peut prendre toutes les valeurs de R. En eet, si X est un vecteur
alatoire de Rd dont la loi a une densit par rapport la mesure de Lebesgue, on a
pour tout R :
I( X) = I(X) + d log2 ||,

et l'entropie de la loi gaussienne standard n'est pas nulle et vaut d2 log2 (4). L'entropie continue est invariante par translations : I(X + ) = I(X), et cette proprit
est le pendant de l'invariance de l'entropie discrte par rapport au support de son
argument. Tout comme l'entropie discrte, l'entropie continue est extensive :
I((X, Y )) 6 I(X) + I(Y ),

avec galit si et seulement si les deux vecteurs alatoires densit X et Y sont


indpendants. La preuve est identique celle du thorme 4.1 pour le cas discret.
Comme nous l'avons montr prcdemment, l'entropie continue, contrairement
l'entropie discrte, n'a pas de maximum et peut prendre toutes les valeurs dans
R. Comme 0 log 0 = 0, l'entropie d'une densit f support inclus dans le compact
K := [a1 , b1 ] [ad , bd ] Rd a un sens lorsque f log f est Lebesgue intgrable
sur K . Il se trouve que parmi toutes les lois de probabilits sur Rd dont le support
est dans K , l'entropie continue est maximise par la loi uniforme UK sur K . En eet,
si est une loi de probabilit support dans K et de densit f par rapport UK ,
on a en notant |K| la mesure de Lebesgue de K
Z

Z
I(UK ) I() = log |K| +

f (x) log(|K| f ) dx = Ent( | UK ) ,

f (x) log f (x) dx =


K

o le membre de droite est l'entropie relative de Kullback-Leibler, cf. remarque 3.1.


On a donc
Ent( | UK ) > 0,

avec galit si et seulement si = UK . Ainsi, la prescription d'un support compact


pour l'entropie continue est l'analogue de la prescription de la taille du support
pour l'entropie discrte, ce qui n'est pas surprenant. De manire gnrale, l'entropie
continue a un maximum sous contrainte de  moment  sur tout Rd , comme l'exprime
le thorme suivant. On notera que cette contrainte de moment est linaire en la loi,
exactement comme l'est la contrainte sur l'entropie discrte dans le thorme 4.2.

19

Soit : Rd R une fonction mesurable


telle que exp() soit Lebesgue intgrable sur Rd . Soit la loi de probabilits sur
Rd de densit (Z )1 exp() o Z est la constante de normalisation. Supposons
que soit intgrable, et notons 0 sa moyenne. Soit Vd l'ensemble des vecteurs
alatoires de Rd dont l'entropie de Shannon (4) est bien dnie et est est nie. On
a alors
Thorme 5.1 (Maximum d'entropie).

max

XVd
E((X))=0

I(X) 6 I( ) := 0 + log2 Z ,

et le maximum n'est atteint que pour les vecteurs alatoires de loi .


Dmonstration. La preuve est similaire celle du thorme 4.2. On a
I( ) I(X) = Ent(L(X) | ) ,

o le membre de droite est l'entropie relative de Kullback-Leibler, cf. remarque


3.1.
Les lois de probabilits de la forme sont appeles  lois de Boltzmann-Gibbs ,
et la fonction est parfois appele  potentiel  ou encore  hamiltonien  . Contrairement au cas discret du thorme 4.2, il n'est pas toujours possible de paramtrer
la contrainte par un paramtre . C'est cependant possible dans un certain nombres
de cas. En voici quelques exemples importants.
1. Lois exponentielles. Lorsque (x) = kxk1 avec R+ , la loi qui est
une loi de Laplace E() (ou double-exponentielle) de paramtre . On a alors
0 = , et le thorme exprime que les lois de Laplace maximisent l'entropie
moyenne xe. Notons que dans ce cas, I() = + d log2 (21 );
2. Lois gaussiennes. Lorsque (x) = 12 h1 x , xi o est une matrice symtrique d d dnie positive, la loi est une loi gaussienne N (0, ). On a
alors 0 = d2 , et le thorme exprime que les lois gaussiennes de covariance
maximisent l'entropie trace de la matrice de covariance xe. Par matrice de
covariance du vecteur
 X , on entend
 (Cov(Xi , Xj ))16i,j6d . Notons que dans ce
1/d
.
cas, I() = d2 log2 4Det()
9

3.

Lois gamma. Tout est explicitable en termes de la fonction gamma. Exercice !

On devrait retrouver la loi exponentielle comme cas particulier;


4. Lois de Weibull. Idem.
Remarque 5.2 (Principe de maximum d'entropie). Le principe gnral de maximum d'entropie, nonc par exemple par Jaynes dans les annes 1950, consiste
dire que la loi de probabilit choisir parmi un ensemble de lois possibles lors d'une
modlisation doit tre celle qui maximise l'entropie. Les contraintes proviennent
alors de l'information dont on dispose. Par exemple, sous contrainte de support,
on considrera une loi uniforme, sous contrainte de moyenne, on choisira une loi
exponentielle, sous contrainte de variance, on considrera une loi gaussienne, etc.
9 Et

pourquoi donc ?

20

Les lois gaussiennes sont trs importantes dans les applications, et remplacent sur
tout Rd les lois uniformes. Par analogie avec le cas discret (6), on dnit l'entropie
exponentielle de Shannon N(X) du vecteur alatoire X de la manire suivante :
N(X) :=

1 2 I(X)
2d
.
4

(7)

De cette manire N(N (m, )) = Det()1/d . L'entropie exponentielle de X donne


donc l'cart type de la loi gaussienne standard de mme entropie que X . Comme
le dterminant est un d-volume, ||1/d s'interprette comme une sorte de  rayon
d'incertitude . Le maximum d'entropie pour la loi gaussienne s'exprime alors de la
faon suivante : pour tout vecteur alatoire X de covariance ,
N(X) 6 Det()1/d .

De manire gnrale, on peut dnir l'quivalent de l'entropie exponentielle pour


chaque loi dans le thorme 5.1. Lorsque la loi de X a un support compact K
dans Rd , il serait par exemple prfrable d'utiliser comme rfrence la loi uniforme
sur K et de rednir N(X) en consquence. L'entropie I(UK ) de la loi uniforme UK
sur K valant log |K|, on pourrait donc dnir NUK (X) := exp(I(X)). Cependant,
dans la pratique, les lois continues support compact sont beaucoup moins utilises
que les lois gaussiennes.
L'entropie exponentielle de Shannon dnie en (7) possde une proprit de
sous-additivit trs importante appele  ingalit de l'entropie exponentielle de
Shannon , qui s'exprime comme suit : pour tous vecteurs alatoires indpendants
X et Y de Rd , d'entropies bien dnies et nies, on a
N(X + Y ) > N(X) + N(Y ),

avec galit si et seulement si leur lois sont gaussiennes et de covariances proportionnelles. Cette ingalit joue un rle cl dans l'tablissement du thorme de codage
bruit de Shannon, qui sort du cadre de notre propos. Nous renvoyons [CT91] et
[Rom97] pour en savoir plus.
FIXME: Donner la preuve du TCL via max d'entropie, cf. Barron.

Un peu d'Histoire. La notion d'entropie a t introduite ociellement en ther-

modynamique au milieux du XIX sicle par Clausius pour complter le principe de


conservation de l'nergie. La thorie cintique des gaz et plus gnralement la mcanique statistique on t tudies en particulier par Maxwell, Gibbs, Kelvin et
Boltzmann pendant la seconde moitie du XIX sicle. Boltzmann a t le premier
obtenir la formulation  probabiliste  de l'entropie que nous avons donne ici, qui
dcoule d'une hypothse de quantication des tats microscopiques. Cette ide fructueuse de quantication microscopique a sans doute t source d'inspiration pour
Planck, qui en introduisant l'hypothse quantique vers 1900 pour expliquer le rayonnement du corps noir, a jett les bases de ce qui deviendra plus tard la mcanique
e

21

quantique. D'une certaine manire, la physique a devanc les mathmatiques en utilisant des ides probabilistes bien avant que les probabilits ne soient formalises 
par Kolmogorov, dans les annes 1930  et la  mcanique statistique  serait sans
doute appele aujourd'hui  mcanique stochastique . L'entropie de Boltzmann a
t utilise par Shannon en 1948 dans un article devenu clbre , pour les besoins
de ce qui sera appel plus tard  thorie de l'information  ou encore  thorie de
la communication . Cette thorie va accompagner la naissance de l'informatique
pendant la seconde moitie du XX sicle. Le lecteur en trouvera une prsentation
gnrale dans l'ouvrage de rfrence [CT91] par exemple. Shannon prfrait l'origine le terme  incertitude , mais a t convaincu par John Von Neumann d'utiliser
le terme  entropie  car son  incertitude  n'est rien d'autre au signe prs que l'entropie de Boltzmann. Le lecteur pourra trouver par exemple dans [Zin96] et [Oll02]
quelques pages accessibles sur certains aspects mathmatiques de l'entropie. Le principe de maximum d'entropie joue un rle considrable aussi bien en physique qu'en
statistique, et peut tre utilis en particulier pour justier l'usage des lois gaussiennes et exponentielles. L'entropie de Boltzmann-Shannon apparat aujourd'hui
comme un cas particulier (important !) de l'entropie relative de Kullback-Leibler,
trs utile en thorie des probabilits, et qui intervient en particulier dans le principe
de grandes dviations de Sanov.
10

Rfrences

[App96]
[CT91]
[LV97]
[Oll02]
[PlS02]
[Rom92]
[Rom97]
[Sha48]
[Sha49]
10 Cf.

 Probability and information, an integrated approach,


Cambridge University Press, Cambridge, 1996.
T. M. Cover et J. A. Thomas  Elements of information theory, John
Wiley & Sons Inc., New York, 1991, A Wiley-Interscience Publication.
M. Li et P. Vitnyi  An Introduction to Kolmogorov Complexity and Its
Applications, second d., Graduate Texts in Computer Science, SpringerVerlag, New York, 1997.
Y. Ollivier   Aspects de l'entropie en mathmatiques , Document
non publi, http://www.eleves.ens.fr/home/ollivier/, 2002.
Pour la Science (d.)  La cryptographie, l'art du secret, Dossier horssrie, juillet-octobre, no. 36, Revue Pour la Science, Paris, 2002.
S. Roman  Coding and information theory, Springer-Verlag, New York,
1992.
 , Introduction to coding and information theory, Springer-Verlag, New
York, 1997.
C. E. Shannon   A mathematical theory of communication , Bell
System Tech. J. 27 (1948), p. 379423, 623656.
 ,  Communication theory of secrecy systems , Bell System Tech. J.
28 (1949), p. 656715.
D. Applebaum

[Sha48] et http://cm.bell-labs.com/cm/ms/what/shannonday/paper.html.

22

[YY59]
[Zin96]

et I. M. Yaglom  Probabilit et Information, Dunod,


1959, Traduit du russe par W. Mercourov.
M. Zinsmeister  Formalisme thermodynamique et systmes dynamiques
holomorphes, Panoramas et Synthses, vol. 4, Socit Mathmatique de
France. Paris, 1996.
A. M. Yaglom

23