Vous êtes sur la page 1sur 7

Rappels de la théorie de l’information 1

Chapitre 2

Rappels de la Théorie de l’Information

1. Définitions
 Un message est suite finie de symboles appartenant à un ensemble fini, prédéterminé : l’alphabet.
 Un alphabet est un ensemble fini de symboles.
o Lettres : a b c d e f…
o Chiffres : 1 2 3 4 5 …
o Alphabet binaire : 0 1
 Une source de messages est l’ensemble de tous les messages susceptibles d'être formés à partir d'un
alphabet

Exemple 1
1. Message : Demain temps clair le matin pluie l’après midi
 Alphabet : Ω1={a,c,d,D,e,i,l,m,n,p,r,s,t,u,è, ,’,}
 Code ascii du message donne l’alphabet
Ω2={97,99,100,68,101,105,108,109,110,112,114,115,116,117,232,32,39}

2. Modèle probabiliste
2.1. Modèle probabiliste d’une source discrète
Le destinataire ne connait pas à priori l’information-source émise ; la source a un comportement aléatoire et
peut donc être décrite par un modèle probabiliste. Dans le cas d’une source discrète X, celle-ci peut être
considérée comme une variable aléatoire, X, qui réalise les événements (émet les symboles) xi. Chaque symbole
xi peut prendre un nombre fini de valeurs dans un alphabet de sortie de taille finie, Ω, tel que p(xi) est la
probabilité que X = xi et  p ( xi )  1
. L’ensemble fini, Ω, muni de la probabilité discrète p est appelé
x i 

espace probabilisé et est noté (Ω, p).


 La loi de probabilité est dite uniforme si p(xi) = 1/n, où n = card(Ω), pour tout symbole xi de Ω.
 L’espérance de la variable aléatoire X, appelée également moyenne de X, est exprimée par :
[X ]   xi p ( xi )
(1)
xi  

2.2. Espace probabilisé conjoint - Règle de Bayes


Etant deux variables aléatoires X et Y, qui réalisent les événements xi et yi, et sont munies des probabilités
marginales p(x) et p(y), respectivement. La règle de Bayes est exprimée par :

p(x,y) = p(x|y).p(y) = p(y|x).p(x) (2)


 p(x,y) est la probabilité conjointe, c.à.d. la probabilité d’avoir simultanément X = x et Y = y ;
Rappels de la théorie de l’information 2

 p(x|y) est la probabilité conditionnelle pour que l’on ait X = x sachant que l’on a Y = y ;
 p(y|x) est la probabilité conditionnelle pour que l’on ait Y = y sachant que l’on a X = x ;

Les lois de distribution marginales p(x) et p(y) peuvent être définies par :

p ( x)   p ( x , y) et p ( y)   p ( x , y) (3)
y  x

Les variables aléatoires sont statistiquement indépendantes si l’on a :

p(x,y) = p(x).p(y) (4)

Exemple 2
Pour modéliser un canal discret, on considère l’espace A×B produit des deux ensembles A = {a1, . . . , an}
(Alphabet en entrée) et B = {b1, . . . , bm} (Alphabet en sortie). Le produit est formé des couples (a, b) avec a
dans A et b dans B. On munit cet ensemble d’une loi de probabilité discrète, notée pAB, appelée loi de
probabilité conjointe de A et B. L’espace de probabilité conjoint est aussi noté AB. La probabilité pAB(a,b) est
la probabilité d’avoir simultanément a en entrée et b en sortie.

Considérons le canal binaire symétrique


de probabilité de transition p avec des
entrées notées a1, a2 équiprobables et des
sorties b1, b2. La matrice de transition,
notée   ( i j ) , est définie par
i j  p (b j | ai ) .

La matrice de transition du canal binaire symétrique est donc :

1  q q 
  
 q  tq : p ( b1 | a 1 )  1  q ; p ( b1 | a 2 )  q ; p ( b2 | a 1 )  q ;
 1 q 

p ( b2 | a 2 )  1  q

Puisque les entrées sont équiprobables, p(a1) = p(a2) = 1/2 . On en déduit la loi conjointe en utilisant la
règle de Bayes : p(x,y) = p(x|y).p(y) = p(y|x).p(x)) :
1 q
p ( a1 , b1 )  p ( a 2 , b2 ) 
2
q
p ( a1 , b2 )  p ( a 2 , b1 ) 
2
La loi marginale sur B est calculée par :
p(b1) = p(a1, b1) + p(a2, b1) = ½ Et p(b2) = p(a1, b2) + p(a2, b2) = ½.

3. Mesure de l’information
Dans ce qui suit, on va considérer une source X, discrète, finie et stationnaire, comme une variable aléatoire X
qui réalise les événements xi (i = 1 , …, n), telle que p(xi) est la probabilité que X = xi. et  p ( xi )  1 .

3.1. Mesures quantitatives de l’information par évènements


Rappels de la théorie de l’information 3

La définition de l’information se base sur l’élément statistique qu’elle contient. Par exemple, un télégramme est
d’autant plus informatif qu’il est inattendu.

i. Information propre

La quantité d’information, I, que contient un symbole xi, généré par la source X, est étroitement liée à sa
probabilité d’occurrence p(xi) :
 1 
 ( xi )  log 2     log 2 ( p ( xi )) (bits) (5)
 p ( xi ) 
Remarque :
 L’information propre est toujours positive ou nulle.
 Plus un évènement est improbable, plus son information propre est grande.

Exemple 3
1. La réalisation d’un évènement certain n’apporte aucune information, c’est pourquoi son information
propre est nulle. En effet,  ( xi )   log 2 ( p ( xi ))   log 2 (1)  0 .

2. Cas d’équiprobabilité : Soit une source dont l’alphabet de sortie {a0,…,a15} avec p(ak) = 1/16.
L’information propre de l’une de ces sorties ak est égale à : I(ak) = log2(16) = 4 bits.
3. Cas de probabilités différentes : Soit une source qui produit deux symboles x1 et x2 avec les probabilités
respectives de 4/5 et 1/5. Les informations propres de x1 et x2 sont respectivement :
I(x1) = - log2(0,8) = 0,32 bits ; I(x2) = - log2(0,2) = 2,32 bits

ii. Information conjointe, conditionnelle, mutuelle

Etant deux variables aléatoires X et Y, munies des probabilités marginales p(x) et p(y), respectivement.
 Information conjointe :

I(x,y) = log2 (1/p(x, y)) = - log2 (p(x,y)) (6)

 Information conditionnelle : qui est la quantité d’information fournie par l’événement {X = xi} sachant
que l’événement {Y = yi } est réalisé :

I(x | y) = log (1/p(x | y)) = - log (p(x | y)) (7)

 Information mutuelle :

 p ( x| y)   p ( y|x)  p ( x , y) 
 ( x ; y )  log 2    log 2    log 2     ( y ; x ) (8)
 p ( x)   p ( y)   p ( x ). p ( y ) 

Discussion du signe de I (x ; y)
 I (x ; y) > 0 signifie que si l’un des deux événements se réalise, alors la probabilité de l’autre augmente ;

 I (x ; y) < 0 signifie que si l’un des deux événements se réalise, alors la probabilité de l’autre diminue ;

 I (x ; y) = 0 signifie que les deux événements sont statistiquement indépendants.


Exemple 4
Rappels de la théorie de l’information 4

Considérons le canal binaire symétrique de l’exemple 2 précédent. L’information mutuelle de chaque


couple (ai , bj) est exprimée par :
I(a1; b1) = I(a2; b2) = log2 (2 (1 − q)) = 1 + log2(1 − q)

I(a1; b2) = I(a2; b1) = log2 (2 q) = 1 + log2 (q)

3.2. Mesures quantitatives moyennes de l’information - Entropie


i. Entropie d’ordre zéro

La quantité d’information moyenne pour chaque symbole xi de la source X est la moyenne de l‘information
de chaque événement X = xi (i = 1, … , n) :
n n
 ( X )     ( X )     log 2 ( p ( x))   p (x i )  ( xi )    p (x i ) . log 2 ( p ( xi )) (9)
i 1 i 1

H est l’entropie de la source X (entropie moyenne par symbole), et est exprimée en bits par symbole.
L’entropie d’une source est quelquefois donnée en bits/seconde. Si l’entropie d’une source discrète est H et
si les symboles sont émis toutes les τ secondes, son entropie en bits/s est H/τ.

Propriétés :
 L’entropie H est positive ou nulle.
 L’entropie H est nulle si l’un des évènements est certain.
 L’entropie H est maximale pour une distribution uniforme, c.à.d. p(xi) = 1/n.
Exemple 5

1. Prenons l’exemple d’une variable aléatoire binaire X qui prend la valeur 1 avec la probabilité p et 0 avec
la probabilité (1-p). L’allure de sa courbe d’entropie en fonction des probabilités est illustrée ci-dessous,
où l’on atteint un maximum d’entropie pour p = ½ (distribution uniforme).

2. Soit X une variable aléatoire qui prend ses valeurs dans l’alphabet S = {1, 2, 3, 4}, muni de la loi de
probabilité p = {0.5, 0.25, 0.125, 0.125}.
 ( X )   0.5  log 2 (0.5 )  0.25  log 2 (0.25 )
 0.125  log 2 (0.125 )  0.125  log 2 (0.125 )  1.75 bits

3. Soit une source X qui produit deux symboles x1 et x2 avec les probabilités respectives de 4/5 et 1/5 à une
cadence de 80 symboles par minute :
 ( X )   0,8. log 2 (0,8)  0,2 . log 2 (0,2 )  0,72 bit / symbole ;
Rappels de la théorie de l’information 5

H(X) = 0.72 x 80/60 = 0.99 bit/s.

ii. Entropie conjointe

L’entropie conjointe de deux variables aléatoires X et Y qui réalisent les évènements xi (i = 1, … , n) et yj


(j = 1, … , m) est exprimée par :
n m n m
 ( X , Y )  [ ( X , Y )]     log 2 ( p ( x, y ))    p (x i , y j )  ( xi , y j )     p (x i , y j ) . log 2 ( p ( x
i 1 j 1 i 1 j 1

(10)
iii. Entropie conditionnelle

L’entropie conditionnelle de X sachant Y est définie telle que :


n m n m
 ( X | Y )  [ ( X | Y )]     log 2 ( p ( x | y ))    p (x , y i j )  ( xi | y j )     p (x , y i j ) . log 2 ( p ( x
i 1 j 1 i 1 j 1

(11)
Propriétés :

  ( X , Y )   ( X )   ( Y | X )   (Y )   ( X | Y ) ;

  ( X , Y )   ( X )   ( Y )  2.  ( X , Y )

  ( X | Y )   ( X ) ; on a égalité s’il y’a indépendance des variables aléatoires.

iv. Information mutuelle

L’information mutuelle de X e Y est définie telle que :


  p ( x | y )    p ( y|x)    p ( x , y ) 
 ( X ; Y )  E log 2    E log 2     E log 2     (Y ; X )
  p ( x )    p ( y)     p ( x ) . p ( y ) 
(12)
Démonstration
  p ( x | y ) 
E log 2    E  log 2 ( p ( x | y ) - log 2 ( p ( x)  E  log 2 ( p ( x | y )  E  log 2 ( p ( x)
  p ( x ) 
   ( X | Y)  H (X)

  p ( y | x ) 
E log 2    E  log 2 ( p ( y | x ) - log 2 ( p ( y )  E  log 2 ( p ( y | x )  E  log 2 ( p ( y )
  p ( y ) 
   (Y | X)  H (Y)

  p ( x , y ) 
E log 2     E  log 2 ( p ( x , y ) - log 2 (( p ( x ) . p(y))
  p ( x ) . p(y)  
 E  log 2 ( p ( x , y )  E  log 2 ( p ( x )  log 2 ( p ( y )
 E  log 2 ( p ( x , y )  E  log 2 ( p ( x )  E  log 2 ( p ( y )
  ( X , Y)  H (X)  H(Y)
Rappels de la théorie de l’information 6

Exemple 6
Etant donné deux sources binaires X et Y qui émettent les symboles 0 et 1 telles que :
1
p XY (0 ,1)  p XY (1, 0)  p XY (0 , 0)  3
; p XY (1,1)  0 ;
2 1
p X (0)  pY (0 )  3
; p X (1)  pY (1)  3

 ( X )    p X (0 ) . log 2 ( p X (0 ))  p X (1) . log 2 ( p X (1))   0.9183 bit

 (Y )    pY (0 ) . log2 ( pY (0 ))  pY (1) .log 2 ( pY (1))  0.9183 bit

 
n m n m
 ( X |Y )     p ( xi , y j ) . log 2 ( p ( xi | y j ))     p (x , y
p ( xi , y j )
i j ) . log 2 p(yj )
i 1 j 1 i 1 j 1


  p (0,0) . log 2  p (0 ,0)
p (0)   p(0,1) . log  2
p ( 0 ,1)
p (1)   p(1,0) . log  2
p (1 , 0 )
p (0)   p(1,1) . log  2
p (1 ,1)
p (1) 
2
   13 . log 2  12 // 33   1
3 . log 2  11 // 33   1
3 . log 2  12 // 33   0  bit
3

 ( X , Y )  1.585 bits   (Y )   ( X | Y )

4. Extension d’une source


Soit une source S codée par un alphabet D-aire. Par exemple D = 2 donne l’alphabet binaire [0,1].
 Une séquence de longueur k de symboles de cet alphabet constitue une nouvelle source Sk appelée kième
extension de S.
 Un bloc de k symboles de S est interprété comme un symbole de l’alphabet Dk-aire de Sk.
 D’une façon générale, il est possible de considérer la source Sk munie de la loi de probabilité produit,
pour k entier positif. On a alors : H(Sk) = k H(S).

Exemple 7
On considère une source binaire S, émettant les symboles 0 et 1 avec probabilités respectives q et 1- q (0 <
k 2
q < 0:5). On note S la source d'ordre k, émettant des k-uplets successifs de symboles de S ; ainsi, S émet les
symboles 00, 01, 10 et 11 avec probabilités respectives q2, q(1 - q), q(1 - q) et (1 - q)2. Les entropies de S, S2 et
S3, en fonction de q, peuvent être exprimées par :
H(S) = – q log2(q) – (1 – q) log2(1 – q) ;

H(S2) = 2. H(S) = –2(q log2(q) + (1 – q) log2(1 – q)) ;

H(S3) = 3. H(S) = –3(q log2(q) + (1 – q) log2(1 – q)) ;


Exemple 8
Rappels de la théorie de l’information 7

Soit une source S qui produit deux symboles x1 et x2 Є {A,B} avec les probabilités respectives de 4/5 et 1/5.

Symboles xi de S p(xi) Entropie

A 0.8
H(S) = 0.72 bit
B 0.2

 Une extension d’ordre 2 de S (grouper les symboles 2 par 2) nous donne la source S2, telle que :

Symboles xi de S2 p(xi) Entropie


AA 0.64
AB 0.16
H(S2) = 2 H(S) = 1.44 bits
BA 0.16
BB 0.04

 Une extension d’ordre 3 de S (grouper les symboles 3 par 3) nous donne la source S3, telle que :

Symboles xi de S3 p(xi) Entropie


AAA 0.512
AAB 0.128
ABA 0.128
BAA 0.128 H(S3) = 3 H(S) = 2.16 bits
ABB 0.032
BAB 0.032
BBA 0.032
BBB 0.008

Vous aimerez peut-être aussi