Académique Documents
Professionnel Documents
Culture Documents
Chapitre 2 THI Mesures Dinformation Et Entropie
Chapitre 2 THI Mesures Dinformation Et Entropie
et entropie
1
Introduction
• Avant de donner la définition des différents mesures de
l’information proposée par Shannon, nous allons essayer de
décrire le concept d’information.
• En suivant le modèle probabiliste, fournir une information
à un utilisateur consiste à choisir un événement parmi
plusieurs possibles.
• Qualitativement, fournir une information consiste donc à
lever une incertitude sur l’issue d’une expérience aléatoire.
• La notion d’information est déjà inhérente à celle de
probabilité conditionnelle.
2
Introduction
• Considérons les deux événements {A = a} et {B = b}.
• La probabilité P(a|b) peut être interprété comme la
modification apportée à la probabilité P(a) de l’événement
{A = a} lorsque l’on reçoit l’information que l’événement
{B = b} s’est réalisé. Ainsi:
– si P(a|b) ≤ P(a), l’incertitude sur a augmente,
– si P(a|b) ≥ P(a), l’incertitude sur a diminue.
3
Information propre
• Soit « a » un événement (symbole) de probabilité non nulle
P(a)≠0. L’information I(a) apportée par la réalisation de « a »
est d'autant plus grande qu‘il est improbable. Elle peut
s'exprimer ainsi :
1
I(a) f
P(a)
• La fonction f() vérifie les contraintes suivantes :
– f() est décroissante;
– L’ info. apportée par un événement sûr est nulle :
lim f (p) 0
p1
– L’info. apportée par 2 événements indépendants est
cumulée :
f (p1.p2 ) f (p1 ) f (p2 )
4
• On peut démontrer que seul la fonction Log vérifie ces deux
conditions.
• Donc l’information propre est définie ainsi par:
1
I(a) C.log( ) -C.log(P(a))
P(a)
• Avec C >0 une constante qui dépend de l’unité utilisé (la
base du logarithme).
• On utilise généralement le bit (Shanon) définie par :
« Un bit est égal à la quantité d’information fournie par le
choix d’une alternative parmi deux équiprobables »
Si une lettre est choisie dans l’alphabet A = {0, 1} muni
d’une loi de probabilité uniforme, alors la quantité
d’information fournie par la réalisation de l’événement
{A = a} est de « un » bit.
5
• Si on utilise le bit comme unité, on obtient :
I(a) C.log(P(0) ) -C.log(1/2 ) C.log(2) 1
1
C
log(2)
-1 log( P(a ))
Donc I(a) . log( P(a)) log 2 (P(a))
log(2) log(2)
I(a) -log 2 (P(a))
6
Information propre :Exemple
7
• Si X est une variable aléatoire ; alors I(X)=-log2(P(X)) est
une mesure de :
• L’information fournit par X si X est connue
• L’incertitude sur X si X est inconnue
Incertitude et Information sont Quantitativement
équivalentes.
• X = {0, 1, 2, . . . , 255}
– p(0) = p(1) = p(2) = . . . = p(255) = 1/256
I(0) = I(1) = . . . I(255) = log2 256 = 8 bits
• X = {0, 1, 2, . . . , 9}
– p(0) = p(1) = p(2) = . . . p(9) = 1/10
I(0) = I(1) = . . . I(9) = log2 10 = 3,32 bits
8
• X = {a, b, c, d, e, f, g, h}
p(a) = p(b) = 1/4
p(c) = p(d) = 1/8
p(e) = p(f) = p(g) = p(h) = 1/16
I(a) = I(b) = 2 bits
I(c) = I(d) = 3 bits
I(e) = I(f) = I(g) = I(h) = 4 bits
• La quantité d’information ainsi calculée est propre à
chaque symbole (événement) et non à la source entière.
• La quantité d’info. fournit par deux évènements
indépendants est la somme des deux quantité respectives :
I(ab)=I(a)+I(b) si ab.
9
I(a) -log b (P(a))
P(a | b)
I(a, b) log 2 ( )
P(a)
12
Information Mutuelle
• On sait par définition que :
P(a,b)=P(ab)=P(a|b).P(b)=P(b|a).P(a)
donc
P(a b)
I(a, b) I(b, a) Log 2 ( )
P(a).P(b)
13
• Exemple : Considérons le canal binaire symétrique de
probabilité de transition p avec des entrées notées a1, a2
équiprobables et des sorties b1, b2 :
On a alors:
P(a | b) 1
I(a, b) Log 2 ( ) Log 2 ( ) Log 2 (P(a )) I(a)
P(a) P(a)
Il s’agit en fait de la quantité maximale d’information que
peut fournir {A = a}.
16
Info. Mutuelle ↔ Info Conditionnelle
On à également définie dans l’espace probabilisé joint AxB
l’information propre conditionnelle de « a » sachant « b ».
Il s’agit de la quantité d’information fournie par
l’événement {A = a} sachant que l’événement {B = b} est
réalisé par:
I(a|b)=-log2(P(a|b))
Donc l’information mutuelle entre les deux événements « a
» et « b » peut s’écrire :
I(a,b)=I(a)-I(a|b)=I(b)-I(b|a)
17
Information Mutuelle Moyenne
• On peut définir l’information mutuelle moyenne de A et B
dans l’espace probabilisé joint AxB par :
I(A, B) P(a, b).I(a, b)
aA bB
et donc
P(a, b)
I(A, B) P(a, b).log 2
aA bB P(a).P(b)
• Cette quantité qualifie la relation statistique entre deux
sources d’informations A et B, elle sera reformuler en
fonction de l’entropie par la suite.
• Théorème :
I(A,B) 0 A, B avec égalité si A et B sont indépendants .
18
Quantité d’information: Recap.
Soit A={a1,..,an} et B={b1,…,bm} deux ensembles d’événements
(V.A discrètes), et AxB l’espace probabilisé jointe :
21
Entropie: Information moyenne
• Exemple 2 :
A = {a1, a2, ...ak, ...,an} |A| = n
k p (ak) = 1
donc j, j≠k p(aj) = 0
n
H(A) P(a i )Log 2 (P(a i )) P(a i )Log 2 (P(a i )) P(a k )Log 2 (P(a k ))
i 1 ik
22
Entropie: Information moyenne
• Exemple 3 :
A = {a1, a2, ...ak, ...,an} |A| = n
k p (ak) = 1/n : distribution équiprobables
n
H(A) P(a i )Log 2 (P(a i ))
i 1
n
1 1 1
Log 2 ( ) -Log 2 ( ) Log 2 (n)
i 1 n n n
23
Entropie: Information moyenne
• Exemple 4 :
• On considère un alphabet de 29 symboles : 26 lettres,
l'espace, le point et les autres signes de ponctuation.
• Si on accorde la même probabilité 1/29 à chaque symbole
: H(U29) = log2(29)=4.848 bits.
• Si on prend des probabilités plus proches de la fréquence
empirique des lettres dans la langue française :
E, espace: 0.14 C, M, P: 0.02
ponctuation: 0.018 I, N, T :0.08
A, R, S: 0.06 D, L, O, U: 0.04
point: 0.014 12 autres lettres: 0.004
on obtient H(U)=4.05 bits, soit un peu plus de 80% de
l'entropie du système uniforme. 24
Entropie: Information moyenne
• Exemple 5 :
Soit la V.A X={a,b,c,d} avec P(a)=1/2 , P(b)=1/4 et P(c)
=P(d)=1/8
Alors H(X)=1/2.log2(2)+1/4.log2(4)+2.1/8.log2(8)=1.75
27
Entropie Conjointe (Mutuelle)
• Propriétés de l’entropie conjointe :
1- Si A et B sont statistiquement indépendants alors :
H(A,B)=H(A)+H(B)
28
Entropie :Exemple
• Considérons la transmission d’une source binaire dans un
canal avec du bruit. La source S suit la loi de probabilité
suivante:
PS(0) = q = ¼ ; PS(1) = 1 - q = ¾.
• La sortie du canal O peut être en erreur avec probabilité
= 1/8 , et donc:
PO(0) = q(1 - ) + (1 - q) = 0.3125
PO(1) = (1-q)(1 - ) + q = 0.6875 = 1-0.3125.
• Nous avons donc l’entropie de la source et de la sortie du
canal
H(S) = 0.8113 bits
et
H(O) = 0.8960 bits
29
Entropie :Exemple
• La loi de probabilité conjointe de l’entrée (S) et de la sortie
(O) est :
PSO = [q(1- ), (1-q) , q , (1 - q)(1- )]
où nous avons ordonnée les quatre évènements possibles
de la façon suivante :
{(S =0,O =0);(S =1,O= 0);(S=0,O = 1);(S = 1;O = 1)}
H(A,B)=H(A)+H(B)-I(A,B)
32
Entropie Conditionnelle
• Soit A et B deux V.A (source), avec une distribution
conjointe PAB(a,b) définie dans l’espace jointe AxB.
L’entropie conditionnelle de A sachant B est définie par :
PAB (a, b)
PAB (a, b).log 2 ( )
aA,bB P(b)
33
Entropie Conditionnelle: Propriétés
• H(A|B) ≤ H(A) : l’entropie diminue par conditionnement.
• H(A|A)=0
• H(A|B) PB (b).H(A|B b)
bB
38
Entropie : Relations
On peut facilement démontré que:
I(A,B)=H(A)-H(A|B)
Et que: H(A,B)=H(A)+H(B|A)=H(B)+H(A|B)
Règle de chaine pour l’entropie conjointe,
On peut démontré par récurrence que:
H(X1,...,Xn) = H(X1) + H(X2|X1) + . . . + H(Xn|X1, ...,Xn−1)
Et que
H(A)=I(A,B)+H(A|B) et H(B)=I(A,B)+H(B|A)
Mnémo-techniquement :
39
Entropie : Diagramme de Venn
40
Exemple d’illustration
• Exemple (Entropie et Codage) :
A = {a, b, c, d, e, f, g, h} une source discrète (SM)
p(a) = p(b) = 1/4 I(a) = I(b) = 2 bits
p(c) = p(d) = 1/8 I(c) = I(d) = 3 bits
p(e) = p(f) = p(g) = p(h) = 1/16
I(e) = I(f) = I(g) = I(h) = 4 bits
H(A) = 2x2x1/4 + 2x3x1/8 + 4x4x1/16 = 2,75 bits
• Codage proposé:
f : X {0,1}*
a 00 b 01 c 100 d 101
e 1100 f 1101 g 1110 h 1111
41
Exemple d’illustration
Soit « e » émis y = f(e) = 1100 = y1y2y3y4
On reçoit d’abord y1=1 : information partielle
Nouvelle distribution
P(a/y1) = P(b /y1) = 0 p(c /y1) = p(d /y1) = 1/4
P(e/y1) = P(f/y1) = P(g/y1) = P(h/y1) = 1/8
Ces valeurs sont obtenus comme suit :
P(a|b)=P(a,b)/P(b)P(c|y1)=P(c,y1=1)/P(y1=1) =P(c)/P(y1=1)
Avec : P(y1=1)=P(c)+P(d)+P(e)+P(f)+P(g)+P(h)
H(X/y1) = 2x1/4x2 + 4x1/8x3 = 2,5 bits
Représente l’incertitude restant sur X sachant y1
On a donc « appris » H(X) - H(X/y1) = 0,25 bits ce qui
représente l’information apportée par y1
42
Exemple d’illustration
On reçoit ensuite y2=1 nouvelle distribution
p(a/y1y2) = p(b/y1y2) = p(c/y1y2) = p(d/y1y2) = 0
p(e/y1y2) = p(f/y1y2) = p(g/y1y2) = p(h/y1y2) = 1/4
H(X/y1y2) = 4x1/4x2 = 2 bits incertitude restant sur X
On a donc « appris » H(X/y1) - H(X/y1y2) = 0,5 bits
On reçoit ensuite y3= 0 nouvelle distribution :
P(a/y1y2y3) =P(b/y1y2y3) =P(c/y1y2y3) = P(d/y1y2y3) =
P(g/y1y2y3)=P(h/y1y2y3)=0;P(e/y1y2y3)=P(f/y1y2y3) = ½
H(X/y1y2y3) = 1 bit incertitude restant sur X
43
Exemple d’illustration
On reçoit ensuite y4=0 nouvelle distribution
P(x/y1y2y3y4) = 0 pour x ≠ e P(e/y1y2y3y4) = 1
H(X/y1y2y3y4) = 0 bit incertitude restant sur X
44