Vous êtes sur la page 1sur 44

Chapitre 2: Mesures d’information

et entropie

1
Introduction
• Avant de donner la définition des différents mesures de
l’information proposée par Shannon, nous allons essayer de
décrire le concept d’information.
• En suivant le modèle probabiliste, fournir une information
à un utilisateur consiste à choisir un événement parmi
plusieurs possibles.
• Qualitativement, fournir une information consiste donc à
lever une incertitude sur l’issue d’une expérience aléatoire.
• La notion d’information est déjà inhérente à celle de
probabilité conditionnelle.

2
Introduction
• Considérons les deux événements {A = a} et {B = b}.
• La probabilité P(a|b) peut être interprété comme la
modification apportée à la probabilité P(a) de l’événement
{A = a} lorsque l’on reçoit l’information que l’événement
{B = b} s’est réalisé. Ainsi:
– si P(a|b) ≤ P(a), l’incertitude sur a augmente,
– si P(a|b) ≥ P(a), l’incertitude sur a diminue.

• Pour mesurer la variation de l’incertitude, il faut choisir


une fonction décroissante de la probabilité. On choisit
également une fonction continue.

3
Information propre
• Soit « a » un événement (symbole) de probabilité non nulle
P(a)≠0. L’information I(a) apportée par la réalisation de « a »
est d'autant plus grande qu‘il est improbable. Elle peut
s'exprimer ainsi :
 1 
I(a)  f  
 P(a) 
• La fonction f() vérifie les contraintes suivantes :
– f() est décroissante;
– L’ info. apportée par un événement sûr est nulle :
lim f (p)  0
p1
– L’info. apportée par 2 événements indépendants est
cumulée :
f (p1.p2 )  f (p1 )  f (p2 )
4
• On peut démontrer que seul la fonction Log vérifie ces deux
conditions.
• Donc l’information propre est définie ainsi par:
1
I(a)  C.log( )  -C.log(P(a))
P(a)
• Avec C >0 une constante qui dépend de l’unité utilisé (la
base du logarithme).
• On utilise généralement le bit (Shanon) définie par :
« Un bit est égal à la quantité d’information fournie par le
choix d’une alternative parmi deux équiprobables »
Si une lettre est choisie dans l’alphabet A = {0, 1} muni
d’une loi de probabilité uniforme, alors la quantité
d’information fournie par la réalisation de l’événement
{A = a} est de « un » bit.
5
• Si on utilise le bit comme unité, on obtient :
I(a)  C.log(P(0) )  -C.log(1/2 )  C.log(2)  1
1
C
log(2)
-1 log( P(a ))
Donc I(a)  . log( P(a))     log 2 (P(a))
log(2) log(2)
 I(a)  -log 2 (P(a))

• Le bit est ici à comprendre dans son sens originel de «binary


unit» et non «binary digit».
• La confusion provient du fait que pour représenter une
information de n bits, il faut n symboles binaires.

6
Information propre :Exemple

• Soit A = {a0, . . . , a15} un alphabet de 16 lettres


équiprobables. L’information propre d’une lettre a
quelconque est I(a) = −log2(1/16) = 4.
• Dans ce cas particulier, l’information va consister à choisir
un entier i dans {0, 1, . . . , 15} et pour représenter cette
information il faut disposer de 4 bits.
• Il faut prendre garde au fait que ceci n’est vrai que parce
que les lettres sont équiprobables.
• En effet, si ce n’est pas le cas, l’information propre d’une
lettre sera généralement différente de 4 et l’information
propre moyenne peut même être strictement inférieure à 4.

7
• Si X est une variable aléatoire ; alors I(X)=-log2(P(X)) est
une mesure de :
• L’information fournit par X si X est connue
• L’incertitude sur X si X est inconnue
 Incertitude et Information sont Quantitativement
équivalentes.

• X = {0, 1, 2, . . . , 255}
– p(0) = p(1) = p(2) = . . . = p(255) = 1/256
I(0) = I(1) = . . . I(255) = log2 256 = 8 bits

• X = {0, 1, 2, . . . , 9}
– p(0) = p(1) = p(2) = . . . p(9) = 1/10
I(0) = I(1) = . . . I(9) = log2 10 = 3,32 bits
8
• X = {a, b, c, d, e, f, g, h}
p(a) = p(b) = 1/4
p(c) = p(d) = 1/8
p(e) = p(f) = p(g) = p(h) = 1/16

I(a) = I(b) = 2 bits
I(c) = I(d) = 3 bits
I(e) = I(f) = I(g) = I(h) = 4 bits
• La quantité d’information ainsi calculée est propre à
chaque symbole (événement) et non à la source entière.
• La quantité d’info. fournit par deux évènements
indépendants est la somme des deux quantité respectives :
I(ab)=I(a)+I(b) si ab.
9
I(a)  -log b (P(a))

• Ce graphe illustre la distribution de la quantité


d’information en fonction de la probabilité d’apparition de
l’évènement.
10
Information conditionnelle
• Dans le cas ou « a » et « b » ne sont pas indépendants, la
définition de la quantité d'information propre s'applique à la
réalisation conjointe de a et b. En remarquant que P(ab) =
P(b).P(a|b), on obtient :
I(ab)=-log2(P(ab))=-log2(P(b))-log2(P(a|b))

• On note que -log2P(a|b) correspond à la quantité


d'information propre de « a » que ne fournit pas
l'observation de « b ».
• Définition :
On appelle information conditionnelle de «a» sachant « b » la
quantité : I(a|b)=-log2(P(a|b))
soit en d’autres termes :
I(a|b)=I(a b)-I(b)
11
Information Mutuelle
• La définition de l'information conditionnelle amène
directement une autre définition, celle de l'information
mutuelle, qui correspond à la part d'incertitude commune
à deux événements:
• Définition :
On considère un espace probabilisé joint AxB où A = {a1, . .
. , an} et B = {b1, . . . , bm}.
L’information mutuelle entre les événements {A = a} et {B
= b} est définie par:

P(a | b)
I(a, b)  log 2 ( )
P(a)

12
Information Mutuelle
• On sait par définition que :
P(a,b)=P(ab)=P(a|b).P(b)=P(b|a).P(a)
donc
P(a  b)
I(a, b)  I(b, a)  Log 2 ( )
P(a).P(b)

• Nous allons discuter le signe de I(a, b):


– I(a, b) > 0 signifie que si l’un des deux événements se
réalise alors la probabilité de l’autre augmente ;
– I(a, b) < 0 signifie que si l’un des deux événements se
réalise alors la probabilité de l’autre diminue ;
– I(a, b) = 0 signifie que les deux événements sont
statistiquement indépendants.

13
• Exemple : Considérons le canal binaire symétrique de
probabilité de transition p avec des entrées notées a1, a2
équiprobables et des sorties b1, b2 :

• La matrice de transition, notée M = (Mij), est définie par Mij =


P(bj |ai), est définie par:
1 - p p 
M   
 p 1- p 
• Puisque les entrées sont équiprobables, P(a1) = P(a2) = 1/2.
On en déduit la loi jointe:
P(a1,b1)=P(a2,b2)=(1-p)/2 P(a,b)=P(b|a).P(a)
P(a1,b2)=P(a2,b1)=p/2 14
• On en déduit la loi marginale sur B : P(b1) = P(b2) = ½. Ceci
permet de calculer l’information mutuelle de chaque couple
(ai, bj).
I(a1,b1) = I(a2,b2) = log2 2(1 − p) = 1+log2(1 − p)
I(a1, b2) = I(a2, b1) = log2 2p = 1+log2 p.
• On constate que si p < 1/2 , I(a1, b1) est positif et I(a1, b2) est
négatif.
• Ceci signifie que lorsque l’on observe la lettre b1 à la sortie
du canal, la probabilité pour que a1 ait été émise en entrée
augmente. Si au contraire si b2 est observée, la probabilité
pour que la lettre a1 ait été émise diminue.
• Enfin lorsque p = 1/2 ,toutes les informations mutuelles sont
nulles et donc les alphabets d’entrée et de sortie sont
statistiquement indépendants, ce qui n’est pas souhaitable.
15
Considérons un cas particulier intéressant:
Quelle est l’information mutuelle entre l’événement {A = a}
et lui-même ?
Rigoureusement, ceci consiste à calculer I(a, b) lorsque
l’événement {B = b} spécifie de façon unique {A =a}, c’est-à-
dire lorsque P(a|b) = 1.

On a alors:
P(a | b) 1
I(a, b)  Log 2 ( )  Log 2 ( )  Log 2 (P(a ))  I(a)
P(a) P(a)
Il s’agit en fait de la quantité maximale d’information que
peut fournir {A = a}.
16
Info. Mutuelle ↔ Info Conditionnelle
On à également définie dans l’espace probabilisé joint AxB
l’information propre conditionnelle de « a » sachant « b ».
Il s’agit de la quantité d’information fournie par
l’événement {A = a} sachant que l’événement {B = b} est
réalisé par:
I(a|b)=-log2(P(a|b))
Donc l’information mutuelle entre les deux événements « a
» et « b » peut s’écrire :
I(a,b)=I(a)-I(a|b)=I(b)-I(b|a)

17
Information Mutuelle Moyenne
• On peut définir l’information mutuelle moyenne de A et B
dans l’espace probabilisé joint AxB par :
I(A, B)   P(a, b).I(a, b)
aA bB

et donc
 P(a, b) 
I(A, B)   P(a, b).log 2  
aA bB  P(a).P(b) 
• Cette quantité qualifie la relation statistique entre deux
sources d’informations A et B, elle sera reformuler en
fonction de l’entropie par la suite.
• Théorème :
I(A,B) 0  A, B avec égalité si A et B sont indépendants .

18
Quantité d’information: Recap.
Soit A={a1,..,an} et B={b1,…,bm} deux ensembles d’événements
(V.A discrètes), et AxB l’espace probabilisé jointe :

L’information propre : I(a)=-log2(P(a))


L’information conditionnelle : I(a|b)=-log2(P(a|b))
P(a | b)
L’information mutuelle : I(a, b)  log 2 ( )
P(a)
La relation Inf. Cond et Inf. Mut: I(a,b)=I(a)-I(a|b)

L’information mutuelle moyenne :


 P(a, b) 
I(A, B)   P(a, b).log 2  
aA bB  P(a).P(b) 
19
Entropie: Information moyenne
Soit une source A d'information sans mémoire sélectionnant
aléatoirement un symbole parmi les n éléments d'un
alphabet A={a1, …,an}, |A|=n.
ak
Source A

La quantité d'information moyenne associée à l'apparition de


chaque symbole possible est donnée par :

H(A)  I(a i )  E(I(a i ))


  P(a).log 2 (P(a))
aA

Elle est appelée Entropie de la source A


20
Entropie: Information moyenne
• Exemple 1:
Entropie d’une variable binaire (de Bernoulli)
A={0,1}, P(0)=p, P(1)=1-p
donc H(A)=-p.log2(p)-(1-p)log2(1-p)=H2(p)

21
Entropie: Information moyenne
• Exemple 2 :
A = {a1, a2, ...ak, ...,an} |A| = n
k p (ak) = 1
donc j, j≠k p(aj) = 0
n
H(A)   P(a i )Log 2 (P(a i ))   P(a i )Log 2 (P(a i ))  P(a k )Log 2 (P(a k ))
i 1 ik

  P(a i )Log 2 (P(a i ))


ik

lim x log x  0  H(A)  0


x 0

L’entropie d’une source constante est nulle. C’est la valeur


minimale possible de l’entropie.

22
Entropie: Information moyenne
• Exemple 3 :
A = {a1, a2, ...ak, ...,an} |A| = n
 k p (ak) = 1/n : distribution équiprobables
n
H(A)   P(a i )Log 2 (P(a i ))
i 1
n
1 1 1
  Log 2 ( )  -Log 2 ( )  Log 2 (n)
i 1 n n n

L’entropie d’une source équiprobable est valeur maximale


de l’entropie .

23
Entropie: Information moyenne
• Exemple 4 :
• On considère un alphabet de 29 symboles : 26 lettres,
l'espace, le point et les autres signes de ponctuation.
• Si on accorde la même probabilité 1/29 à chaque symbole
: H(U29) = log2(29)=4.848 bits.
• Si on prend des probabilités plus proches de la fréquence
empirique des lettres dans la langue française :
E, espace: 0.14 C, M, P: 0.02
ponctuation: 0.018 I, N, T :0.08
A, R, S: 0.06 D, L, O, U: 0.04
point: 0.014 12 autres lettres: 0.004
on obtient H(U)=4.05 bits, soit un peu plus de 80% de
l'entropie du système uniforme. 24
Entropie: Information moyenne
• Exemple 5 :
Soit la V.A X={a,b,c,d} avec P(a)=1/2 , P(b)=1/4 et P(c)
=P(d)=1/8
Alors H(X)=1/2.log2(2)+1/4.log2(4)+2.1/8.log2(8)=1.75

Soit le code a0,b 10,c 110, d 111


La longueur moyenne d’un mot de code est égale à :
1*1/2+2*1/4+3*1/8+3*1/8=1.75 = H(X)

On dit que ce code est de longueur minimale.


L’entropie d’une source est la borne minimale de la
longueur moyenne de n’importe quel code.
25
Entropie: Information moyenne
• Propriétés de l’entropie:
– H(A) ne dépend que de la loi de A, pas des valeurs prises
par A. Ainsi, si f est une bijection alors H(f(A)) = H(A).
– H(A) est une quantité positive: 0 ≤ P(a) ≤ 1 −log2 p(a) ≥ 0.
– Pour la loi uniforme, H(A) = log2|A|, où |A| est le
cardinal de A.
– H(X) = 0 ssi X est une variable déterministe, i.e. qui ne peut
prendre qu’une seule valeur. (source constante)
– Changement de base :Hn(A)=Logn(m).Hm(A)

– Soit A une v.a (source) définie sur n symboles:


si |A|=n alors : 0 ≤ H(A) ≤ log2(n) avec égalité si et
seulement si P(ai)=1/n i: 1 ≤i ≤n.
26
Entropie Conjointe (Mutuelle)
• Soit A et B deux sources , et soit AxB l’espace jointe munie
de la probabilité PAB(a,b)=P(ab)
L’entropie conjointe de (A,B) est définie par :

H(A, B)   PAB (a, b)Log 2 (PAB (a, b))


aA bB

• Cette définition est une application de la définition originale


à l’ensemble de toutes les paires possibles des valeurs de A
et B du produit AxB.
• Notons que l’entropie conjointe est symétrique, i.e., H(A, B )
= H(B, A).

27
Entropie Conjointe (Mutuelle)
• Propriétés de l’entropie conjointe :
1- Si A et B sont statistiquement indépendants alors :
H(A,B)=H(A)+H(B)

2- Pour tout sources A et B :


H(A,B) H(A) et H(A,B)  H(B)

Cette inégalité découle directement du fait que la


probabilité conjointe de deux événements est toujours
inférieure ou égale à la probabilité de chaque évènement :
PAB(a,b) ≤ P(a).

28
Entropie :Exemple
• Considérons la transmission d’une source binaire dans un
canal avec du bruit. La source S suit la loi de probabilité
suivante:
PS(0) = q = ¼ ; PS(1) = 1 - q = ¾.
• La sortie du canal O peut être en erreur avec probabilité
= 1/8 , et donc:
PO(0) = q(1 - ) + (1 - q)  = 0.3125
PO(1) = (1-q)(1 - ) + q  = 0.6875 = 1-0.3125.
• Nous avons donc l’entropie de la source et de la sortie du
canal
H(S) = 0.8113 bits
et
H(O) = 0.8960 bits
29
Entropie :Exemple
• La loi de probabilité conjointe de l’entrée (S) et de la sortie
(O) est :
PSO = [q(1- ), (1-q) , q , (1 - q)(1- )]
où nous avons ordonnée les quatre évènements possibles
de la façon suivante :
{(S =0,O =0);(S =1,O= 0);(S=0,O = 1);(S = 1;O = 1)}

L’entropie de cette loi est donc :


H(S,O) = 1.3548 bits
Et on remarque bien que :
H(S,O)>H(S)=0.8113
H(S,O)>H(O)=0.8960
30
Entropie :Exemple
• Cette courbe illustre la variation de l’entropie conjointe pour
les valeurs de q et  dans l’intervalle unitaire.

• Pour  = 0, la courbe coïncide avec l’entropie de la source


pour la valeur de q correspondante, il est claire que
l’entropie conjointe est toujours supérieure à l’entropie de la
source S
31
Première décomposition de l'information
mutuelle

On a une première relation de décomposition , qui spécifie la


relation entre l’entropie conjointe et l’information mutuelle
Moyenne :

H(A,B)=H(A)+H(B)-I(A,B)

Dans le cas ou AB, I(A,B)=0 et donc H(A,B)=H(A)+H(B) (ce


qui à été déjà démontré).

32
Entropie Conditionnelle
• Soit A et B deux V.A (source), avec une distribution
conjointe PAB(a,b) définie dans l’espace jointe AxB.
L’entropie conditionnelle de A sachant B est définie par :

H(A | B)  E(I(A | B))   P


aA,bB
AB (a, b).log 2 (P(a | b))

PAB (a, b)
   PAB (a, b).log 2 ( )
aA,bB P(b)

33
Entropie Conditionnelle: Propriétés
• H(A|B) ≤ H(A) : l’entropie diminue par conditionnement.

• H(A|B)  0 :Cette inégalité découle directement du fait que


l’entropie de chaque distribution est non-négative.

• H(A|B)=0  A=f(B) : A est totalement spécifié par B, ou


bien P(a|b)=1 a,b

• 0 ≤ H(A|B) ≤ H(A) ≤ H(A,B) ≤ H(A)+H(B) ≤ 2H(A,B)

• H(A|A)=0

• H(A|B)   PB (b).H(A|B  b)
bB

• H(A | B  b)    P(A  a | B  b).Log


aA
2 (P(A  a | B  b))
34
Entropie Conditionnelle: Exemple
• Nous considérons encore la transmission d’une source
binaire dans un canal avec des erreurs de l’exemple
précédent
• Nous avons calculé la loi conjointe de l’entrée et la sortie du
canal, nous voulons obtenir la loi de l’entrée sachant les
valeurs de la sortie: P(S/O), on sait que :
PS(0) = q et PS(1) = 1 – q
PO(0) = q(1 - ) + (1 - q)  et PO(1) = (1-q)(1 - ) + q 
PSO =[q(1- ), (1-q) , q , (1 - q)(1- )] (loi conjointe)
On peut calculer les valeurs de la distribution PS/O , en
utilisent la définition de la probabilité conditionnelle:
P(S, O)
P(S | O) 
P(O) 35
Entropie Conditionnelle: Exemple
PSO (S  0, O  0) q(1 - ε)
PS/O (S  0 | O  0)  
PO (O  0) q(1 - ε)  (1  q)ε
PSO (S  1, O  0) (1 - q)ε
PS/O (S  1 | O  0)  
PO (O  0) q(1  ε)  (1  q)ε
PSO (S  0, O  1) qε
PS/O (S  0 | O  1)  
PO (O  1) (1  q)(1  ε)  qε
PSO (S  1, O  1) (1  q)(1  ε)
PS/O (S  1 | O  1)  
PO (O  1) (1  q)(1  ε)  qε
pour q  1/4 et ε  1/8 on obtient
PS/O  0.7 , 0.3 , 0.045 , 0.955 
 P(0 | 0) , P(1 | 0), P(0 | 1), P(1 | 1) 36
Entropie Conditionnelle: Exemple
• Nous obtenons les entropies suivantes :
H(S|O = 0) = 0.8813 et H(S|O = 1) = 0.2661 bits
• L’entropie conditionnelle est donc:
H(S|O) = PO(0)H(S|O = 0) + PO(1)H(S|O = 1) = 0.4593
qui est strictement inférieur à H(S)=0.8113

Variation de l’entropie conditionnelle H(S|O) avec  sur l’intervalle


unitaire 37
Entropie Conditionnelle: Exemple

• Remarquez que pour  = 0 ou  = 1, c’est `a dire, quand la


sortie est une fonction déterministe de l’entrée, cette
entropie conditionnelle devient nulle.
• Sa valeur maximale , égale à l’entropie de la source, est
obtenue pour  = 1/2.
• Par le même principe on peut calculer l’entropie
conditionnelle P(O|S) et vérifier qu’elle est inférieur à
l’entropie de la sortie du canal :
P(O|S) ≤ P(O) (exercice TD)

38
Entropie : Relations
On peut facilement démontré que:
I(A,B)=H(A)-H(A|B)
Et que: H(A,B)=H(A)+H(B|A)=H(B)+H(A|B)
Règle de chaine pour l’entropie conjointe,
On peut démontré par récurrence que:
H(X1,...,Xn) = H(X1) + H(X2|X1) + . . . + H(Xn|X1, ...,Xn−1)
Et que
H(A)=I(A,B)+H(A|B) et H(B)=I(A,B)+H(B|A)
Mnémo-techniquement :

39
Entropie : Diagramme de Venn

40
Exemple d’illustration
• Exemple (Entropie et Codage) :
A = {a, b, c, d, e, f, g, h} une source discrète (SM)
p(a) = p(b) = 1/4  I(a) = I(b) = 2 bits
p(c) = p(d) = 1/8  I(c) = I(d) = 3 bits
p(e) = p(f) = p(g) = p(h) = 1/16 
I(e) = I(f) = I(g) = I(h) = 4 bits
H(A) = 2x2x1/4 + 2x3x1/8 + 4x4x1/16 = 2,75 bits

• Codage proposé:
f : X  {0,1}*
a  00 b  01 c  100 d  101
e  1100 f  1101 g  1110 h  1111

41
Exemple d’illustration
Soit « e » émis y = f(e) = 1100 = y1y2y3y4
On reçoit d’abord y1=1 : information partielle
Nouvelle distribution
P(a/y1) = P(b /y1) = 0 p(c /y1) = p(d /y1) = 1/4
P(e/y1) = P(f/y1) = P(g/y1) = P(h/y1) = 1/8
Ces valeurs sont obtenus comme suit :
P(a|b)=P(a,b)/P(b)P(c|y1)=P(c,y1=1)/P(y1=1) =P(c)/P(y1=1)
Avec : P(y1=1)=P(c)+P(d)+P(e)+P(f)+P(g)+P(h)
H(X/y1) = 2x1/4x2 + 4x1/8x3 = 2,5 bits
Représente l’incertitude restant sur X sachant y1
On a donc « appris » H(X) - H(X/y1) = 0,25 bits ce qui
représente l’information apportée par y1
42
Exemple d’illustration
On reçoit ensuite y2=1  nouvelle distribution
p(a/y1y2) = p(b/y1y2) = p(c/y1y2) = p(d/y1y2) = 0
p(e/y1y2) = p(f/y1y2) = p(g/y1y2) = p(h/y1y2) = 1/4
H(X/y1y2) = 4x1/4x2 = 2 bits incertitude restant sur X
On a donc « appris » H(X/y1) - H(X/y1y2) = 0,5 bits
On reçoit ensuite y3= 0  nouvelle distribution :
P(a/y1y2y3) =P(b/y1y2y3) =P(c/y1y2y3) = P(d/y1y2y3) =
P(g/y1y2y3)=P(h/y1y2y3)=0;P(e/y1y2y3)=P(f/y1y2y3) = ½
H(X/y1y2y3) = 1 bit incertitude restant sur X

On a donc « appris » H(X/y1y2) - H(X/y1y2y3) = 1 bit

43
Exemple d’illustration
On reçoit ensuite y4=0  nouvelle distribution
P(x/y1y2y3y4) = 0 pour x ≠ e P(e/y1y2y3y4) = 1
H(X/y1y2y3y4) = 0 bit incertitude restant sur X

On a donc « appris » H(X/y1y2y3) - H(X/y1y2y3y4) = 1 bit

Incertitude Information apprise


Synthèse Restante à l’étape Cumulée
Avant réception 2,75 bits 0 bit 0 bit
Après réception de y1 2,5 bits 0,25 bits 0,25 bits
Après réception de y2 2 bits 0,5 bits 0,75 bits
Après réception de y3 1 bit 1 bit 1,75 bits
Après réception de y4 0 bit 1 bit 2,75 bits

44

Vous aimerez peut-être aussi