Vous êtes sur la page 1sur 13

La Théorie de l’ Information

Introduction
Premières tentatives de définition dans les années 1920 :
Nyquist (Communication).
Fisher (Statistique).

Travaux de Shannon en 1948 : La théorie de l’information prend sa forme actuelle.

9 Déterminer les limites imposées par les lois de la nature lorsque l’on
doit transmettre ou stocker le contenu d’une source (l’information).
9 Proposer des dispositifs permettant d’atteindre ou d’approcher ces
limites.

La théorie de l’information est donc en perpétuelle évolution…


Image couleur fixe Image couleur animée
• Luminance (Y), • 25 Hz (25 images / seconde). Transmission
chrominance (Cb, Cr) d’une séquence vidéo : 20 Mo / s …
• 720 pixels sur 576 lignes,
codés par 256 niveaux de • PLUS les signaux de synchronisation :
quantification. 27Mo / s …
• Chrominance codée une
ligne sur 2. Sur le réseau numérique, le débit max est
généralement de 18 Mo / s
576*720 *256 + (576*360*256)*2 ⇒ 0.83Mo

Laurent BOUILLAUT Théorie de l’Information – Chapitre 1 – Mesure de l’ Information 1


La Théorie de l’ Information

Il est donc nécessaire de traiter l’information.


- Sans perte d’information.
- Avec perte d’information.

Schéma d’une communication : Paradigme de Shannon

Elimination des
redondances de la Objectif : Protection contre les
source erreurs dues à la transmission
sur le canal
Source Codage de source Codage du canal

C
A
N
A
L
Mots source
restitués Décodage de source Décodage du canal

Laurent BOUILLAUT Théorie de l’Information – Chapitre 1 – Mesure de l’ Information 2


1. Incertitude d’un événement.
A priori, l’incertitude d’un événement est d’autant plus grande que l’on ne s’attend pas à ce qu’il
se réalise.

Mesure de l’incertitude h(E) :


Espace probabilisé : (Ω, T, P) et E, un événement de T
 1 
• h(E) doit être inversement proportionnelle à P{E}. h( E ) = f   avec f croissante.
 P { E } 
• h(E)=0 si P{E}=1 ⇒ f(1)=0.
• Si E et F sont 2 événements indépendants : h(E∩F)= h(E) + h(F).
 1   1   1   1 
f   = f   = f   + f  
 P {E, F }   P { E} * P { F }   P { E}   P {F } 

h(E) = -log P{E}


A priori, l’incertitude qui règne sur la réalisation de E.
A posteriori, l’information apportée par la réalisation de E.
Propriété :

h ( E ∩ F ) = h ( E ) + h ( F / E ) ∀ (E, F ) ∈ T 2
P ( E, F )
= h(F ) + h(E / F ) Preuve : P ( F / E ) =
P(E)
Si E et F sont indépendants : h ( E ∩ F ) = h ( E ) + h ( F )

Laurent BOUILLAUT Théorie de l’Information – Chapitre 1 – Mesure de l’ Information 3


2. Information mutuelle de deux événements.

L’information apportée par F sur E est la diminution de l’incertitude sur E lorsque F est réalisé.
I F →E = h ( E ) − h ( E / F )
= h ( F ) − h ( F / E ) = I E→F

I F→E = I E→F d’où Information mutuelle notée I(E;F)

Propriété : Si E et F sont indépendants, alors p ( F / E ) = p ( F ) et I(E;F)=0

A partir de la définition de l’incertitude conjointe h(E,F) et de I(E;F) :

h ( E , F ) = h ( E ) + h ( F ) − I ( E; F )

h(E) I(E;F)

h(F)
Diagramme de Venn :

Laurent BOUILLAUT Théorie de l’Information – Chapitre 1 – Mesure de l’ Information 4


3. Entropie d’une variable aléatoire discrète.

Soit X, une VA à valeur dans {x1, x2, … , xn} tel que pi=P(X=xi).
L’entropie de X, est la moyenne des incertitudes de X sur les événements xi:
n n
H ( X ) = −∑ pi log ( pi ) = ∑ pi h ( xi )
i =1 i =1

Remarque : Exprimée en Shannons (sh), H(X) représente le nombre moyen de bits pour la
codification binaire des différentes réalisations de X.

Exemple :
On extrait au hasard une carte d’un jeu de 32 cartes. Chaque carte a une valeur qui lui est
propre, caractérisée par la VA X (les valeurs prises par X ne sont pas fournies car elles
n’interviennent pas dans le calcul de H(X)…). Chaque carte a la même probabilité d’être
choisie.
pi=1/32 ⇒ H(x) = - 32* pi log pi = -32 * 1/32 * log 1/32 = log 32 = log2 32 = 5sh

Lemme :
n
 qi 
Soit (p1, p2, … , pn) et (q1, q2, … , qn) deux lois de probabilité, alors : ∑ pi log  ≤0
i =1  pi 
Propriété 1 :
L’ entropie d’une VA X à n valeurs possibles est maximum lorsque x~U[…] et vaut log(n).
L’incertitude sur X est plus grande si toutes les valeurs possibles ont la même probabilité d’arriver.

Laurent BOUILLAUT Théorie de l’Information – Chapitre 1 – Mesure de l’ Information 5


3. Entropie d’une variable aléatoire discrète.
Propriété 2 :
L’ entropie augmente lorsque le nombre de valeurs possible augmente.
Plus X peut prendre de valeurs plus son incertitude est grande.

Propriété 3 :
L’ entropie est une fonction ∩ convexe de (p1, p2, … , pn).

Laurent BOUILLAUT Théorie de l’Information – Chapitre 1 – Mesure de l’ Information 6


4. Entropie et Information liées à un couple de variables.

Soit X et Y , deux VA discrètes à valeur dans {x1, x2, … , xn}et {y1, y2, … , yn}. Si on désigne la loi du
couple (X,Y) par : pij = P(X=xi , Y=yj), on peut alors définir de nouvelles grandeurs caractérisant d’un
couple de variables :

Entropie d’un couple de VA :


n n
H ( X , Y ) = −∑∑ pij log ( pij )
i =1 j =1

Entropies conditionnelles :

( )
n
H ( X / Y = y j ) = −∑ P ( X = xi / Y = y j ) log P ( X = xi / Y = y j )
i =1

Incertitude sur X, connaissant Y :


n
H ( X / Y ) = ∑ P (Y = y j ) H ( X / Y = y j )
j =1
n n
= −∑∑ pij log ( pi / j ) (
avec pi / j = P X = xi / Y = y j )
i =1 j =1

Information mutuelle moyenne entre X et Y :


I ( X ; Y ) = H ( X ) − H ( X / Y ) = H (Y ) − H (Y / X )
Représente la diminution de l’incertitude sur X (resp. Y) lorsque l’on connaît Y (resp. X).

Laurent BOUILLAUT Théorie de l’Information – Chapitre 1 – Mesure de l’ Information 7


4. Entropie et Information liées à un couple de variables.
Information mutuelle moyenne entre X et Y (suite) :
  P ( X , Y ) 
I ( X ; Y ) = Ε  log   
  P ( X ) .P (Y )  

Propriétés :
9 L’information mutuelle moyenne I(X,Y) est toujours positive (contrairement à l’information
mutuelle entre deux événements IE→F qui est négative lorsque la réalisation de l’un des
événements rend l’autre moins probable).

9 Le conditionnement diminue l’incertitude (en d’autres termes, H(X)≥H(X/Y) ).

9 H ( X ) + H (Y ) = H ( X , Y ) + I ( X , Y )

9 H ( X , Y ) = H ( X ) + H (Y / X ) = H (Y ) + H ( X / Y )

H(X)
H(Y)
H(X/Y) I(X;Y)
H(Y/X)
Diagramme de Venn :
Laurent BOUILLAUT Théorie de l’Information – Chapitre 1 – Mesure de l’ Information 8
5. Information mutuelle conditionnelle.
Information mutuelle entre X et Y, conditionnellement à l’événement Z =z :

I ( X ;Y / Z = z ) = H ( X / Z = z ) − H ( X / Y , Z = z )

Information mutuelle moyenne entre X et Y, sachant Z :

I ( X ; Y / Z ) = I ( X ; Y / Z = z ) .P ( Z = z )
= H ( X / Z ) − H ( X /Y,Z )
= H (Y / Z ) − H (Y / X , Z )

Propriété : I ( X ;(Y , Z ) ) = I ( X ; Y ) + I ( X ; Z / Y )

Laurent BOUILLAUT Théorie de l’Information – Chapitre 1 – Mesure de l’ Information 9


6. Exercices.

Exercice 1

On considère un jeu de 32 cartes et une main de 4 cartes. Soient les événements suivants :
E1={La main ne contient aucune carte inférieure au valet}
E2={La main ne contient pas de figure}
E3={La main contient quatre cartes identiques (de même nom)}
E4={La main contient les quatre as}

1. Calculer l’incertitude (ou self-information) associée à chacun de ces événements ainsi que les
informations mutuelles : I(E1;E2) et I(E1;E3).

2. Evaluer approximativement le nombre d’éléments binaires nécessaires pour spécifier quatre


cartes et les comparer à l’entropie de la variable correspondant à une main.

Laurent BOUILLAUT Théorie de l’Information – Chapitre 1 – Mesure de l’ Information 10


6. Exercices.

Exercice 2

On considère 8 symboles équiprobables codés en huit mots binaires :

x1 = 0000 x4 = 0110 x7 = 1100


x2 = 0011 x5 = 1001 x8 = 1111
x3 = 0101 x6 = 1010
Ces mots code transitent sur un canal binaire symétrique de probabilité d’erreur p. On suppose
que le mot reçu est y=0000.

1. Calculer l’information apportée par la connaissance du premier bit reçu (‘’0’’) sur l’événement
{x1 a été émis}.

2. Calculer l’information apportée par la connaissance du second bit reçu (‘’0’’) sur l’événement {x1
a été émis} conditionnellement à la connaissance du premier bit reçu (‘’0‘’). Que constate-t-on?

3. Que peut-on déduire quant à l’information apportée par la connaissance du troisième (resp.
quatrième) bit reçu (‘’0’’) sur l’événement {x1 a été émis} conditionnellement à la connaissance
des deux premiers (resp. des trois premiers) bits reçus (‘’0’’)?

Laurent BOUILLAUT Théorie de l’Information – Chapitre 1 – Mesure de l’ Information 11


6. Exercices.

Exercice 3
On note X=1 (resp. X=0) l’événement désignant l’immobilisation d’une bille de jeu de roulette sur
une case rouge (resp. noire). La roulette étant parfaitement équilibrée, on a :
1
P { X = 1} = P { X = 0} =
2
Un croupier malhonnête a mis au point une stratégie pour escroquer le casino. Après des années
de patience, il a appris à prédire partiellement la couleur sur laquelle la bille va s’immobiliser en
observant la trajectoire de celle-ci jusqu’au moment où les derniers paris peuvent être
enregistrés. Il communique alors ses prédictions à un complice de la manière suivante :
- S’il tousse, on note lors cet événement Y=1, cela signifie qu’il prédit la couleur rouge,
- s’il cligne des yeux, on note cet événement Y=0, il prédit la couleur noire.
3
On suppose que : P { X = 1/ Y = 1} = P { X = 0 / Y = 0} =
4
1. Quelle est l’information moyenne apportée par le croupier à son complice?

2. Soit C0 le capital initial du complice et Cn après le nième jet de la bille. Lorsqu’un joueur gagne,
il double sa mise. Le complice décide de miser ma proportion (1-q) de son capital sur la
couleur prédite par le croupier et la proportion restante sur l’autre couleur. On note Zi la VA
égale à 1 si la couleur prédite au ième jet de la bille apparaît et 0 sinon.
Calculer Cn en fonction de C0, q et Z1, Z2, …, Zn.

3. Déterminer la valeur de q qui rend le gain moyen à l’issue du nième jet maximum.

Laurent BOUILLAUT Théorie de l’Information – Chapitre 1 – Mesure de l’ Information 12


6. Exercices.

Exercice 3 (suite)
1 Cn
4. On définit le taux de croissance du capital à l’issue du nième jet par :τ n = log 2
n C0
Calculer la valeur de q pour laquelle l’espérance du taux moyen est maximum.

5. Des valeurs de q déterminées aux questions 3 et 4, laquelle est-il préférable de choisir et


pourquoi?

Laurent BOUILLAUT Théorie de l’Information – Chapitre 1 – Mesure de l’ Information 13

Vous aimerez peut-être aussi