Vous êtes sur la page 1sur 17

MESURE DE L'INFORMATION

Marc URO
TABLE DES MATIRES
INTRODUCTION............................................................................................................... 3
INCERTITUDE D'UN VNEMENT (OU SELF-INFORMATION).................... 7
INFORMATION MUTUELLE DE DEUX VNEMENTS .................................. 9
ENTROPIE D'UNE VARIABLE ALATOIRE DISCRTE.................................. 10
ENTROPIE ET INFORMATION LIES UN COUPLE DE
VARIABLES............................................................................................................. 13
INFORMATION MUTUELLE CONDITIONNELLE............................................ 16
3
INTRODUCTION
Les premires tentatives de dfinition de mesure de l'information datent des annes
vingt. Citons Nyquist pour l'aspect communication et Fisher d'un point de vue
statistique (l'information de Fisher figure dans la borne de Cramer-Rao qui est un
minorant de la variance d'une certaine classe d'estimateurs). Mais ce n'est qu' partir de
1948, grce aux travaux de Shannon, que la thorie de l'information a pris sa forme
actuelle.
Donner une dfinition prcise et complte de la thorie de l'information est une tche
difficile. Pour simplifier on peut noncer l'assertion suivante; La thorie de
l'information est une discipline fondamentale qui s'applique dans le domaine des
communications. Son objet consiste d'une part dterminer les limites imposes par les
lois de la nature lorsqu'on doit stocker ou transmettre le contenu d'une source
(d'information), d'autre part proposer des dispositifs permettant d'atteindre ou
d'approcher ces limites. La thorie de l'information ne cesse de se dvelopper car les
exigences actuelles s'orientent vers une augmentation constante de l'information
stocker ou transmettre.
Exemple: Norme 4.2.2 de la tlvision numrique (adopte en 1981 par le CCIR,
Comit Consultatif International des Radiocommunications)
Cas d'une image couleur fixe
Une image est caractrise par trois composantes Y, C
b
, C
r
que l'on appelle les
primaires. Y est la caractristique de luminance tandis que C
b
et C
r
sont des
caractristiques de chrominance. L'image est forme de points (ou pixels) qui sont au
nombre de 720 pour chacune des 576 lignes. Chaque primaire est code sur 8 lments
binaires correspondant 2
8
256 niveaux de quantification. D'autre part, l'oeil tant
moins sensible la couleur qu' la luminance, on estime qu'il est suffisant que les
primaires C
b
et C
r
ne soient prsentes qu'un point sur deux.
Ainsi on peut calculer le nombre d'lments binaires contenus dans une image:
576 720 8 + 576 360 8 ( ) 2 6, 63 10
6
eb soit
6, 63
8
0, 83 Moctet .
4___________________________________________________________ introduction
La capacit d' une disquette 3 pouces 1/2 haute densit tant d'environ 1,4 Moctet
aprs formatage, on constate qu'une telle disquette ne peut contenir qu'une seule
image.
Cas d'une image couleur anime
La frquence image est de 25 Hertz (25 images par seconde). Ainsi la transmission
d'une squence anime ncessite un dbit net de:
6, 63 10
6
25 166 Mbits / sec .
En fait ce dbit ne tient pas compte des signaux complmentaires indispensables la
synchronisation. En ajoutant ces signaux dits signaux de service, on obtient un dbit
brut de 216 Mbits / sec .
Sachant que sur le rseau numrique, le dbit maximum est de 144 Mbits / sec , on
constate que la transmission d'un tel signal ncessitera des traitements.
Le traitement du contenu d'une source d'information peut tre envisag sous deux
formes:
- sans perte d'information,
- avec perte d'information.
Nous nous limiterons, dans le cadre de ce fascicule, au traitement sans perte (ou
presque) d'information.
Le schma d'une communication peut tre reprsent comme suit: (il s'agit du
paradigme de Shannon)
SOURCE codage de source codage de canal
dcodage de canal
dcodage de source
C
A
N
A
L
mots source restitus
introduction ___________________________________________________________ 5
Le codage de source consiste liminer les redondances de la source afin d'en rduire le
dbit binaire.
Le codage de canal a un rle de protection contre les erreurs (dues la transmission sur
le canal) qui est assur en ajoutant de la redondance (codes correcteurs d'erreurs).
Les points de vue codage de source et codage de canal sont donc fondamentalement
diffrents.
Le plan du fascicule est organis comme suit:
CHAPITRE I
Dfinitions des grandeurs informationnelles concernant les vnements et les variables
alatoires.
CHAPITRE II
Extension de la notion d' entropie (incertitude moyenne) d'une variable alatoire la
notion d'entropie d'une source discrte. tude du problme pos par le codage de
source.
CHAPITRE III
Caractrisation et modlisation des supports de transmission du point de vue de leur
aptitude transmettre de l'information. Capacit d'un canal discret, codage de canal.
CHAPITRE IV
Aptitude des codes linaires dtecter et corriger des erreurs.
7
MESURE DE L'INFORMATION
INCERTITUDE D'UN VNEMENT (OU SELF-INFORMATION)
La difficult rencontre pour dfinir la self-information relative un vnement est lie
au caractre subjectif de l'information effectivement apporte par la ralisation de cet
vnement.
Pour gommer cet aspect subjectif, on peut considrer qu'a postriori la quantit
d'information reue est d'autant plus grande que l'on ne s'attendait pas observer la
ralisation d'un vnement. En d'autres termes on peut aussi noncer qu'a priori,
l'incertitude d'un vnement est d'autant plus grande que l'on ne s'attend pas ce qu'il se
ralise.
Prenant en compte la correspondance entre l'incertitude (ou self-information) d'un
vnement et son caractre plus ou moins probable, on est amen dfinir la mesure
d'incertitude (ou self-information) comme une fonction d'une application probabilit.
Ceci ncessite de disposer d'un espace probabilis.
Soient (, T, P) un espace probabilis et E un vnement de T. On se propose de dfinir
une mesure d'incertitude h(E) lie l'vnement E de telle sorte que:
- h(E) soit d'autant plus grande que P E { } est petite. On peut poser h E ( ) f
1
P E { }



_
,

avec f fonction croissante.
- h E ( ) 0 si P E { } 1. Il n'y a aucune incertitude quant la ralisation d'un
vnement certain. Donc f 1 ( ) 0.
- Si E et F sont deux vnements indpendants, h E F ( ) h E ( )+ h F ( ) c'est--dire:
f
1
P E F { }



_
,

f
1
P E { }

1
P F { }



_
,

f
1
P E { }



_
,

+ f
1
P F { }



_
,

.
On recherche donc une fonction f telle que:
8__________________________________________________ mesure de l'information
f : 1, +
[ [
IR
+
f est croissante
f xy
( )
f x ( ) + f y
( )
f 1 ( ) 0

'


On va tablir une quation diffrentielle vrifie par f .
En drivant les deux membres de l'quation f xy ( ) f x ( )+ f y ( ) par rapport x, on
obtient : y f ' xy ( ) f ' x ( ) x, y .
Soit, en prenant y
1
x
,
1
x
f ' 1 ( ) f ' x ( ).
On a donc f x ( )
1
x
f 1 ( ) avec f 1 ( ) > 0
La solution est de la forme: f x ( ) Ln x avec > 0 soit encore:
f x ( )
Ln x
Lna
avec > 0 et a > 1. On peut choisir 1.
Si on prend a e , f est la fonction logarithme nprien et l'unit d'incertitude est le
nat. Si on choisit a 2 , f est la fonction logarithme base deux et l'unit d'incertitude
est le bit ou le Shannon.). On notera dsormais log le logarithme base a.
Remarque : Ici bit est l'abrviation de binary unit qu'il ne faut pas confondre avec binary
digit.
On a donc h E ( ) log P E { } 1 ( )
et h E ( ) peut tre interprt:
- a priori, par l'incertitude qui rgne sur la ralisation de E.
- a postriori, par l'information apporte par la ralisation de E.
On peut bien sr tendre la dfinition de h E ( ) au cas d'une application probabilit
conditionnelle et on note alors: h F / E ( ) logP F / E { }. Remarquant que
P E F { } P E { } P F / E { }
,
on dduit:
h E F ( ) h E ( )+ h F / E ( ) E, F ( )T
2
2 ( )
.
mesure de l'information__________________________________________________ 9
Dans le cas particulier o E et F sont indpendants, on retrouve l'axiome:
h E F ( ) h E ( )+ h F ( ) 2 ( )
.
INFORMATION MUTUELLE DE DEUX VNEMENTS
L'information apporte par F sur E est la diminution de l'incertitude sur E lorsque F
est ralis.
I
FE
h E ( ) h E / F ( ) 3 ( )
I
FE
log P E { } + logP E / F { } logP E { }+ log
P E F { }
P F { }
I
FE
log
P E F { }
P E { } P F { }
log
P E { } P F / E { }
P E { } P F { }
logP F { }+ logP F / E { }
I
FE
h F ( )
h F / E ( )
I
EF
3 ( )
Comme I
EF
I
FE
, on appelle information mutuelle entre E et F la quantit:
I E;F ( )
I
EF
I
FE .
Si E et F sont indpendants, alors P F / E { } P F { } et I E; F ( ) 0 .
En combinant (2) et (3'), on obtient: h E F ( ) h E ( )+ h F ( ) I E; F ( ) 4 ( )
On peut rsumer les relations prcdentes sur un diagramme de Venn:
h(E)
h(F)
I(E;F)
10_________________________________________________ mesure de l'information
.
ENTROPIE D'UNE VARIABLE ALATOIRE DISCRTE
Soit X une variable alatoire valeurs dans x
1
, x
2
,. .., x
n
{ }
(avec ventuellement
n +) telle que p
i
P X x
i
{ }
i 1, n [ ].
L'entropie de X note H(X) est la moyenne des incertitudes calcule sur les vnements
X x
i
{ }
.
H X ( ) p
i
log p
i
i1
n

5 ( )
Remarques
- H(X) dpend de la loi de probabilit de X mais n'est pas fonction des valeurs prises
par X.
- H(X) correspond l'esprance mathmatique de la variable alatoire incertitude I
X
dfinie par I
X
logP X ( ) avec P X ( ) p
i
sur X x
i
{ }
. On a donc :
I
X
1I
X=x
i
{ }
log p
i
i1
n

. Soit H X ( ) E I
X
[ ]
E logP X ( )
[ ]
.
- Exprime en Shannons, H(X) reprsente le nombre moyen de bits ncessaires la
codification binaire des diffrentes ralisations de X.
Exemple
On extrait au hasard une carte d'un jeu de 32 cartes. A chacune des 32 cartes on associe
une valeur diffrente des 31 autres valeurs correspondant aux 31 autres cartes par le
biais d'une variable alatoire X. Les valeurs prises par X ne sont pas prcises car elles
n'interviennent pas dans le calcul de H(X). De plus on suppose que chaque carte a la
mme probabilit d'tre extraite.
On a H(X) 32
1
32
log
2
1
32
log
2
32 5 Sh .
mesure de l'information_________________________________________________ 11
Pour savoir quelle carte a t extraite, on peut demander si sa couleur est rouge ou
noire, s'il s'agit d'un coeur ou d'un carreau (resp un trfle ou un pique), si la carte
appartient au groupe (7, 8, 9, 10) ou (valet, dame, roi, as), puis quel sous-groupe
constitu de deux cartes elle appartient et enfin laquelle des deux cartes correspond la
carte tire. Les rponses ces cinq questions peuvent tre rsumes par cinq bits ('1'
pour oui et '0' pour non).
Une autre faon de modliser le problme consiste attribuer un numro (de 0 31)
chaque carte. L'criture de ces numros en base deux requiert log
2
32 log
2
2
5
5 bits
PROPRITS DE L'ENTROPIE
Lemme
Soient p
1
, p
2
, ... , p
n
( ) et q
1
, q
2
, .. ., q
n
( ) deux lois de probabilit, alors: p
i
log
q
i
p
i i 1
n

0 .
En effet x > 0 on a Ln x x 1
0 x
Ln x
x-1
1
D'o Ln
q
i
p
i

q
i
p
i
1, soit log
q
i
p
i

1
Lna
q
i
p
i
1



_
,

12_________________________________________________ mesure de l'information
donc p
i
log
q
i
p
i i 1
n

1
Lna
p
i
i 1
n

q
i
p
i
1



_
,

1
Lna
q
i

i 1
n

p
i
i 1
n




_
,

1
Lna
11 ( ) 0
Proprit 1
L'entropie d'une variable alatoire X n valeurs possibles est maximum et vaut log(n)
lorsque la loi de X est uniforme.
Il suffit d'appliquer le lemme prcdent avec q
1
q
2
... q
n

1
n
.
Ainsi, p
i
log
i 1
n

p
i
p
i
log
i1
n

1
n

1
n
log
i1
n

1
n
logn.
L'incertitude sur X est la plus grande si toutes les valeurs possibles ont la mme
probabilit de se raliser.
Proprit 2
L'entropie augmente lorsque le nombre de valeurs possibles augmente.
En effet soit X valeurs possibles x
1
, x
2
,. .., x
n
{ }
de loi p
1
, p
2
, ... , p
n
( ). Supposons que la
valeur x
k
de probabilit p
k
soit 'clate' en deux valeurs y
k
et z
k
de probabilits
k
,
k
avec
k
+
k
p
k

k
0 et
k
0 . Alors l'entropie de la nouvelle variable alatoire
X' ainsi obtenue s'crit H X ( ) H X ( ) + p
k
log p
k

k
log
k

k
log
k
. d'o
H X ( ) H X ( )
k
+
k
( )log p
k

k
log
k

k
log
k
H X' ( ) H X ( )
k
log p
k
+
k
log p
k

k
log
k

k
log
k
.
Or, la fonction logarithme tant strictement croissante, on a:
log p
k
> log
k
et log p
k
> log
k
soit H X ( ) H X ( )
> 0 , c'est--dire:
H X ( )> H X ( ).
Proprit 3
L'entropie est une fonction convexe de p
1
, p
2
, ... , p
n
( ).
En effet H X ( ) p
i
log p
i
i1
n

gof
i
i 1
n

p
1
, p
2
,... , p
n
( )
mesure de l'information_________________________________________________ 13
avec f
i
l'application projection sur l'axe i:
f
i
: 0,1 [ ]
n
0,1 [ ]
p
1
, p
2
, ... , p
n
( )
p
i
et
g: 0,1
[ ]
IR
+
p plog p
g est convexe car g p ( ) log p
1
Ln2
p
p

1
Ln2
log p et g p ( )
1
p
< 0 .
Comme f
i
est une forme linaire, gof
i
est convexe et H(X) est convexe car
somme de fonctions convexes.
ENTROPIE ET INFORMATION LIES UN COUPLE DE
VARIABLES
Soient X et Y deux variables alatoires discrtes respectivement valeurs dans
x
1
, x
2
,. .., x
n
{ }
et y
1
, y
2
, ... , y
m
{ }
. Si on dsigne par p
ij
P X x
i
Y y
j
{ }
la loi du
couple (X, Y), on peut sans difficult prolonger la dfinition de l'entropie d'une variable
alatoire l'entropie d'un couple de variables alatoires. Ainsi:
H(X, Y) p
ij
log
j 1
m

i 1
n

p
ij
(6)
On peut galement, en s'inspirant des grandeurs informationnelles relatives aux
vnements, dfinir les entropies conditionnelles et l'information mutuelle:
H X / Y y
j
( )
P X x
i
/ Y y
j
{ }
i 1
n

logP X x
i
/ Y y
j
{ } (7)
Par la suite, on notera p
i / j
P X x
i
/ Y y
j
{ }
.
H(X / Y) P Y y
j
{ }H X / Y y
j
( )
j 1
m

H X / Y ( ) P Y y
j
{ }P X x
i
/ Y y
j
{ }
i1
n

j 1
m

log P X x
i
/ Y y
j
{ }
14_________________________________________________ mesure de l'information
soit
H(X / Y) p
ij
log p
i / j
j 1
m

i 1
n

(8)
H X / Y ( ) reprsente l'incertitude sur X lorsqu'on connait Y.
De mme l'information mutuelle moyenne entre X et Y peut s'crire:
I X;Y ( ) H(X) H(X / Y) H(Y) H(Y / X) (9)
I(X;Y) correspond la diminution de l'incertitude sur X (resp. Y) lorsqu'on connait Y
(resp. X).
D'aprs (9), on a:
I X;Y ( ) p
i
log p
i
i 1
n

+ p
ij
log p
i/ j
(10)
i 1
n

j 1
m

or p
i
p
ij
j 1
m

donc
I(X;Y) p
ij
log p
i
j 1
m

i 1
n

+ p
ij
log p
i/ j
j 1
m

i 1
n

d'o
I(X;Y) p
ij
j 1
m

i1
n

log
p
i / j
p
i
p
ij
j 1
m

i 1
n

log
p
ij
p
i
p
. j
(11)
avec p
. j
p
ij
i 1
n

`
On a donc
I(X;Y) E log
P(X, Y)
P(X)P(Y)



1
]
1
(12)
Proprits
- L'information mutuelle moyenne de X et de Y est toujours positive (ce n'est pas le
cas pour l'information mutuelle entre deux vnements qui prend des valeurs ngatives
lorsque la ralisation de l'un des vnements rend l'autre moins probable).
On a I(X;Y) p
ij
log
p
i
p
. j
p
ij
j 1
m

i 1
n

1
Ln2
p
ij
j 1
m

i1
n

p
i
p
. j
p
ij
1



_
,
car Ln x x 1
mesure de l'information_________________________________________________ 15
d'o I(X;Y)
1
Ln2
p
i
j 1
m

i 1
n

p
. j
p
ij
j 1
m

i1
n




_
,

1
Ln2
1 1 ( ) 0
- Le conditionnement diminue l'incertitude
En d'autres termes cela signifie que H(X) H( X / Y) . Il suffit d'appliquer (9) en
utilisant la proprit prcdente.
- H(X) + H(Y) H(X, Y) + I(X;Y) (14)
En effet H(X) p
i
log p
i
i 1
n

p
j /i
p
i
i 1
n

j 1
m

log p
i
p
ij
log p
i
j1
m

i 1
n

De mme H(Y) p
. j
log p
. j
i1
n

p
ij
logp
. j
j 1
m

i 1
n

On a donc H(X) + H(Y) p


ij
log p
i
p
. j
j 1
m

i1
n

p
ij
log p
ij
+
j 1
m

i 1
n

p
ij
log
p
ij
p
i
p
. j j 1
m

i 1
n

D'o H(X) + H(Y) H(X, Y) + I(X;Y)


- H(X, Y) H(X) + H(Y / X) H(Y) + H(X / Y) (15)
Ce rsultat s'obtient facilement en combinant (9) et (14).
On peut illustrer ces relations par une reprsentation en diagramme de Venn:
I(X;Y)
H(X/Y)
H(X)
H(Y)
H(Y/X)
16_________________________________________________ mesure de l'information
Dans le cas particulier o X et Y sont indpendantes, en reprenant (7), (8), (9) et (14),
on obtient:
H(X / Y y) H(X)
H(X / Y) H(X) (16)
I(X;Y) 0 (17)
H(X) + H(Y) H(X, Y) (18)
INFORMATION MUTUELLE CONDITIONNELLE
Par extension de la formule (9), on peut introduire la notion d'information mutuelle
(moyenne) entre deux variables X et Y conditionnellement l'vnement Z z { } o Z
est une troisime variable:
I(X;Y / Z z) H(X / Z z) H(X / Y, Z z) (19)
En multipliant les deux membres de (19) par P Z z { } et en sommant sur toutes les
valeurs possibles de Z, on obtient:
P Z z { }
z

I(X;Y / Z z) H(X / Z) H( X / Y, Z)
Le membre de gauche pouvant tre interprt comme I X;Y / Z ( ), on dfinit
l'information mutuelle entre X et Y sachant Z par
I(X;Y / Z) H( X / Z) H( X / Y, Z) H(Y / Z) H(Y / X, Z) (20)
Nous allons maintenant montrer que:
I(X;(Y, Z)) I(X;Y) + I(X;Z / Y) (21)
En appliquant (9) au couple X, Y, Z ( ) ( ), on obtient
I(X;(Y, Z)) H(X) H(X / Y, Z), mais I(X;Z) H(X) H(X / Z) , soit:
H(X) I(X; Z) + H(X, Z) d'o:
I(X;(Y, Z)) I(X; Z) + H(X / Z) H(X / Y, Z). D'o en appliquant (20):
I(X;(Y, Z)) I(X; Z) + I(X;Y / Z)
mesure de l'information_________________________________________________ 17
Notons que si Y est indpendante de X sachant Z, ie P Y / X, Z { } P Y / Z { }, on a:
H(Y / X, Z) H(Y / Z) et ainsi I(X;Y / Z) 0.
Les relations nonces ci-dessus vont nous permettre d'tablir une proprit importante
vrifie par l'information mutuelle qui nous permettra de dfinir la capacit d'un canal.
Si on note p (p
1
, p
2
,. .. , p
n
) le vecteur reprsentant la loi de probabilit de X et Q celui
correspondant aux probabilits conditionnelles p
j / i
P Y y
j
/ X x
i
{ }
, on peut alors
considrer I(X;Y) comme une fonction des deux variables p et Q que l'on note I(p;Q).
Nous allons montrer que:
I( p;Q) est une fonction convexe de p et convexe de Q.
- Montrons tout d'abord que I(p;Q) est une fonction convexe de p. Pour cela on se
fixe le vecteur de probabilits de transition Q et on se donne p
0
et p
1
deux vecteurs de
probabilit pour X. Il nous faut montrer que 0,1 [ ], on a:
I( p
0
;Q) + (1 )I(p
1
;Q) I(p;Q) o p p
0
+ (1 )p
1
.
L'ide consiste interprter p
0
et p
1
comme des probabilits conditionnellement une
variable auxiliaire Z pouvant prendre les valeurs 0 et 1 avec les probabilits respectives
et 1 .
Ainsi la i
ime
composante de p
0
peut s'crire: p
0
(i) P X x
i
/ Z 0
{ }
.
De mme la i
ime
composante de p
1
peut s'crire: p
1
(i) P X x
i
/ Z 1
{ }
.
Le vecteur p reprsente la loi de X puisque:
p
0
(i) + (1 ) p
1
(i) P Z 0 { }P X x
i
/ Z 0
{ }
+ P Z 1 { }P X x
i
/ Z 1
{ }
p
0
(i) + (1 ) p
1
(i) P X x
i
Z 0
{ }
+ P X x
i
Z 1
{ }
P X x
i
{ }
p
i
(car les
vnements Z 0 { } et Z 1 { } sont complmentaires).
De plus, on peut imposer l'indpendance entre les deux variables Y et Z sachant X (ie
P Y / Z, X { } P Y / X { }), de telle sorte que I(p
0
;Q) (resp. I(p
1
;Q)) puisse tre
interprt comme I(X;Y / Z 0) (resp. I(X;Y / Z 1)).
18_________________________________________________ mesure de l'information
Ainsi le membre de gauche de l'ingalit s'crit:
P Z 0 { }I(X;Y / Z 0) + P Z 1 { }I(X;Y / Z 1) I(X;Y / Z).
On est donc conduit montrer que: I(X;Y / Z) I(X;Y) .
Or I(Y; X, Z) I(Y; X) + I(Y; Z / X) (1) , soit en permutant les rles de X et Z:
I(Y; X, Z) I(Y; Z) + I(Y; X / Z) (2) .
Or P Y / Z, X { } P Y / X) { } H(Y / Z, X) H(Y / X)
d'o I(Y; Z / X) H(Y / X) H(Y / Z, X) 0.
(1) I(Y;( X, Z)) I(Y; X) I(X;Y) et
(2) I(Y; X / Z) I(Y;(X, Z)) I(Y, Z) I(Y;(X, Z)) I(X;Y) (cqfd).
- Montrons maintenant que I(p;Q) est une fonction convexe de Q p fix.
Soient Q
0
et Q
1
deux probabilits de transition et 0,1 [ ]. Si on pose
Q Q
0
+ (1 )Q
1
, il faut montrer que I( p;Q
0
) + (1 )I(p;Q
1
) I(p;Q). On peut de
plus considrer Q
0
et Q
1
comme des lois condiditionnelles une variable binaire
auxiliaire Z indpendante de X et telle que:
Q
0
( j / i) P Y y
j
/ X x
i
Z 0
{ }
Q
1
(j / i) P Y y
j
/ X x
i
Z 1 { }
P Z 0 { } 1 P Z 1 { }
Ainsi le membre de gauche de l'ingalit montrer devient:
P Z 0 { }I(X;Y / Z 0) + P Z 1 { }I(X;Y / Z 1) I(X;Y / Z).
On doit donc tablir que I(X;Y / Z) I(X;Y) . Pour cela on utilise:
I(X;(Y, Z)) I(X;Y) + I( X; Z / Y) I(X;Z) + I(X;Y / Z) . Et l'indpendance de X et Z
entrane I(X;Z) 0 .
D'o I(X;Y / Z) I(X;(Y, Z)) I(X;Y) + I(X;Z / Y) I(X;Y) (cqfd).

Vous aimerez peut-être aussi