Vous êtes sur la page 1sur 41

Théorie de l’Information

Cours 7

Julien Lavauzelle
Université Paris 8
Master 1 ACC et CSSD – Théorie de l’Information
06/11/2020
Remarque :
Ce document est un support pour un cours donné en ligne.
Il n’est pas complet et peut contenir des typos.
Pour des notes de cours plus précises et complètes, se référer aux autres
documents disponible en ligne, comme le poly.
1. Retour sur l’interrogation

2. Poursuite de l’UE

3. Vers la compression de données


Processus stochastiques
Algorithme de Lempel-Ziv

4. TD codage canal
Plan

1. Retour sur l’interrogation

2. Poursuite de l’UE

3. Vers la compression de données


Processus stochastiques
Algorithme de Lempel-Ziv

4. TD codage canal

0/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Quelques remarques

Notes, énoncé et corrigé disponibles sur la page web :

https://www.math.univ-paris13.fr/∼lavauzelle/teaching/2020-21/theorie-information.html

I se référer au corrigé détaillé disponible en ligne ;


I les typos/fautes relevées lors de l’interro y sont corrigées.

Note informative. Évalué sur 25 points, ramené sur 20 points sans proportionnalité.
Chaque question sur 2 points, exceptée la question 4.1 sur 3 points.

1/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exercice 1

Soit m ≥ 1 et M = 2m . On considère un alphabet X = {x1 , . . . , xM }.


Question 1. Donner une majoration de l’entropie d’une variable aléatoire à valeurs dans
X . Quel type de variable atteint cette borne ?
Résultat du cours : H (X) ≤ log2 (|X |) = m, atteint par une variable uniforme

Souvent lu : H (X) ≤ `(C).

Soit X une source sur l’alphabet X . On suppose que X est uniforme.


Question 2. Donner la forme de l’arbre binaire du code de Shannon-Fano associé à la
source X.
D’après le cours : Les longueurs des mots du code sont d− log2 ( |X1 | )e = m.
Arbre parfait.

Question 3. Calculer la longueur moyenne de ce code. Est-il optimal ?


Comme tous les mots ont longueur m, le code a longueur moyenne m.
Optimal d’après Q1.

2/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exercice 2

Lors du tirage du loto, des boules numérotées de 1 à 49 sont tirées successivement,


uniformément et sans remise. On note X1 la variable aléatoire correspondant à la valeur
de la boule obtenue au premier tirage, et X2 celle obtenue au second tirage.

Question 1. Calculer H (X1 ) et H (X2 ).


X1 est uniforme sur {1, . . . , 49}, donc H (X1 ) = log2 (49) = 2 log2 (7).
Que dire de X2 ?
X2 est aussi uniforme sur {1, . . . , 49} !
H (X2 ) = log2 (49) = 2 log2 (7).

Souvent lu : H (X2 ) = log2 (48), car 48 valeurs possibles (toutes sauf celle de X1 )
=⇒ Non , car ces valeurs dépendent d’une variable aléatoire.

3/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exercice 2

Question 2. Calculer l’information mutuelle I (X1 ; X2 ).


Solution : Bien réussi : On peut utiliser

I (X1 ; X2 ) = H (X1 ) + H (X2 ) − H (X1 X2 )

ou
I (X1 ; X2 ) = H (X2 ) − H (X2 | X1 ) .
Moins bien réussi : La variable X1 X2 est uniforme sur l’ensemble

{(x1 , x2 ) ∈ {1, . . . , 49} | x1 6= x2 }

qui est de taille 49 × 48. On a donc :

I (X1 ; X2 ) = 2 log2 (49) − log2 (49 × 48) = log2 (49) − log2 (48)
= 2 log2 (7) − log2 (3) − 4 .

Souvent lu : H (X2 | X1 ) = 0 car X2 dépend de X1 .


Non , ce n’est pas une fonction déterministe de X1 .

4/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exercice 3

Pour les codes binaires suivants, déterminer en justifiant s’ils sont uniquement
décodables.
Question 1. Le code dont les mots sont :

{ 0, 001, 10, 101, 11111 }.

Solution : Le code n’est pas uniquement décodable car ses longueurs ne vérifient pas
l’inégalité de Kraft :
1 1 1 1 1 33
+ + + + = > 1.
2 8 4 8 32 32

Souvent lu : le code n’est pas préfixe donc il n’est pas uniquement décodable.
Non, (préfixe =⇒ uniquement décodable) mais la réciproque n’est pas vraie.

Exemple :
{0, 01} .

5/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exercice 3

Question 2. Le code dont les mots sont :

{ 01, 10, 111, 1101 }.

Solution : Le code est uniquement décodable car ses mots vérifient la condition du pré-
fixe. Bien réussie.

Question 3. Le code B défini sur l’ensemble N des entiers naturels, tel que le mot associé à
l’entier n = ∑ki=0 ni 2i est :
B(n) = (n0 , n1 , . . . , nk ),
où k = blog2 (n)c si n ≥ 1 et k = 0 sinon.
Solution : Le code n’est pas uniquement décodable car le codage associé n’est pas injectif.
Par exemple, 101 est le mot associé aux messages (2, 1) et (1, 0, 1).

Parfois lu : le code est injectif donc il est uniquement décodable.

Non, il faut vérifier si la fonction étendue de codage

B+ : N+ → {0, 1}+
(n1 , . . . , nm ) 7→ B(n1 ) . . . B(nm )

est injective.
6/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information
Exercice 4

Question 1. On considère une source suivant une loi dont la distribution est :

(0.6, 0.25, 0.09, 0.04, 0.02) .

Donner le codage de Huffman correspondant.


Solution : On obtient l’arbre suivant :

0.6
0.25
0.09
0.04 0.02

7/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exercice 4

Soit maintenant X une source de distribution p1 ≥ · · · ≥ pm . On suppose que

1
pi ≤ p
2 i−1
pour tout i ∈ {2, . . . , m}.
Question 2. Soit i ≥ 2. Comparer les valeurs de pi−1 , pi et ∑m
j=i+1 pj .

Solution : Pour j ≥ i + 1, on a les inégalités suivantes :

1 1 1
pj ≤ p ≤ 2 pj−2 ≤ · · · ≤ j−i pi .
2 j−1 2 2
Par conséquent,
m m m−i
1 1
∑ pj ≤ ∑ 2j−i
pi = pi ∑ j < pi .
2
j=i+1 j=i+1 j=1

Donc on obtient pi−1 > pi > ∑m


j=i+1 pj .

8/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exercice 4

Question 3. À quelle étape de l’algorithme d’Huffman la probabilité pi sera-t’elle


sélectionnée pour la construction de l’arbre ? Justifier.

Solution : Pour i ≤ m − 1, la probabilité pi est sélectionnée à l’étape m − i.


Justification : on peut faire une récurrence.
Une argumentation informelle suffisait :
La probabilité pm−1 est sélectionnée à l’étape 1.
Puis la probabilité pm0
−1 = pm−1 + pm < pm−2 (d’après Q2) est construite.
Donc pm−2 et pm 0 sont sélectionnées à l’étape suivante (numéro 2).
−1
0
Puis pm 0
−2 = pm−1 + pm−2 < pm−3 (d’après Q2) est construite, etc...

9/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exercice 4

Question 4. En déduire la forme de l’arbre binaire du code de Huffman associé à la source


X. Quelle est la longueur maximale d’un mot de code ? La longueur minimale ?

Solution : D’après Q3, pour k ≤ m − 1, la feuille correspondant à la probabilité pk devra


être positionnée à la hauteur k, tandis que celle correspondant à pm est à hauteur m − 1.
On a donc un arbre de la forme suivante :

p1
p2
...
...
pm−2
pm−1 pm
La longueur maximale de ses mots est donc m − 1, et leur longueur minimale est 1.

10/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Plan

1. Retour sur l’interrogation

2. Poursuite de l’UE

3. Vers la compression de données


Processus stochastiques
Algorithme de Lempel-Ziv

4. TD codage canal

10/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Évaluation

Deux « devoirs à la maison » seront proposés :


1. un sujet algorithmique/programmation + expérimentation, autour de la compression
de données
2. un sujet théorique, autour des canaux et processus stochastiques

Assez longs, à rendre avant les vacances de Noël.


En cours de rédaction (pour la semaine prochaine).

Suivant l’évolution de l’épidémie :


I ou bien une interrogation finale début janvier,
I ou bien un autre devoir à la maison.

11/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Plan

1. Retour sur l’interrogation

2. Poursuite de l’UE

3. Vers la compression de données


Processus stochastiques
Algorithme de Lempel-Ziv

4. TD codage canal

11/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Plan

1. Retour sur l’interrogation

2. Poursuite de l’UE

3. Vers la compression de données


Processus stochastiques
Algorithme de Lempel-Ziv

4. TD codage canal

11/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Contexte

Dans les cours précédents, le modèle était :


la source émet x1 , . . . , xn , où les xi les réalisations de variables aléatoires indépendantes
et de même loi.

C’est restrictif !
Exemples :
– En français, certaines suites de lettres sont plus fréquentes que d’autres, même si elles
contiennent les mêmes lettres.
ES SE LE EL DE ED QU UQ
3,05% 1,32% 2,22% 1,42% 2,17% 1,01 % 1,11 % 0,02%

– D’ordinaire, les fichiers informatiques sont structurés, pour une lecture plus efficace,
ou pour simplifier l’interprétation du langage.
Le début d’un document html :
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">

12/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Contexte

Conséquences :
1. on peut condenser les textes/fichiers si l’on souhaite les
stocker/envoyer,
2. pour cela il faut concevoir un autre modèle, où les réalisations de la
source sont inter-dépendantes.

13/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Processus stochastique

Un processus stochastique discret est une suite de variables aléatoires (Xn )n∈N définies
sur un même espace probabilisé (Ω, p).

X0 → X1 → · · · → Xn−1 → Xn → Xn+1 → . . .

Si n ≥ 1 est l’instant présent,


– {Xi }i<n désigne les réalisations « passées »,
– {Xi }i>n sont les réalisations « futures ».

Interprétation :

« Variables aléatoires = points » // « processus stochastique = chemin »

Exemple typique : marche aléatoire

14/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Processus stochastique

Un processus stochastique sur (Ω, P) est :


– sans mémoire si les variables {Xi } sont deux à deux indépendantes ;
– markovienne si pour tout n ≥ 1 et tout (xi )i∈N , on a
   
P Xn+1 = xn+1 | (Xn , . . . , X0 ) = (xn , . . . , x0 ) = P Xn+1 = xn+1 | Xn = xn ;

– stationnaire si pour tous n, m ≥ 0 et tout (xi )i∈N on a :


   
P Xn+m = xn , . . . , Xm = x0 = P Xn = xn , . . . , X0 = x0 .

Markovien :
« P(futur | présent, passé) = P(futur | présent) »
Stationnaire :
« les distributions jointes ne dépendent pas d’une translation dans le temps »

15/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exemple

Exemple : la collection de vignettes


– m vignettes v1 , . . . , vm ∈ V ,
– un collectionneur tire, à chaque pas de temps n, une vignette v ∈ V , et l’ajoute à sa
collection
– les tirages sont uniformes et indépendants, et notés Xn ,
– on note Cn l’ensemble qui caractérise l’état de la collection à l’instant n.

Le processus {Xn } est sans mémoire.

Que dire de {Cn } ?


On peut écrire formellement
Cn = Cn−1 ∪ {Xn }
Donc le processus {Cn } est markovien : pour tous sous-ensembles (Vi )i de V

P(Cn = Vn | Cn−1 = Vn−1 , . . . , C1 = V1 ) = P(Cn = Vn | Cn−1 = Vn−1 ) .

16/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exemple

Exercice. On tire successivement, uniformément et indépendamment des entiers dans


{1, . . . M}. On note :
– Xn la valeur tirée à l’étape n ≥ 1, – In = min{Xi | 1 ≤ i ≤ n},
– Yn = Xn + Xn−1 pour n ≥ 2„ – Xn la moyenne des {Xi | 1 ≤ i ≤ n},
– Zn = Xn + Xn−2 pour n ≥ 3, – An la médiane des {Xi | 1 ≤ i ≤ n}.
Question : quels sont les processus sans mémoire ? markoviens ? stationnaires ?

X = {Xn } est sans mémoire (donc markovien et stationnaire)


Y = {Yn } est stationnaire et markovien
Z = {Zn } est stationnaire mais non markovien
I = {In } est markovien mais non stationnaire :

In = min{In−1 , Xn }

X = {Xn } est markovien mais non stationnaire :

1
Xn = ((n − 1)Xn−1 + Xn )
n
A = {An } n’est ni markovien, ni stationnaire.

17/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Taux d’entropie

Question : peut-on quantifier l’information moyenne (par symbole) créée par un


processus stochastique ?
Pour une source sans mémoire :

H ( X0 . . . Xn ) = H ( X0 ) + · · · + H ( Xn )

Le taux d’entropie d’une source stationaire X est

1
H (X ) := lim H (X0 X1 . . . Xn ) ,
n→ ∞ n+1
où H (X0 X1 . . . Xn ) est l’entropie de la loi conjointe des variables X0 , . . . , Xn .

Remarque : Pour une source sans mémoire, H (X ) est la limite de la moyenne des
entropies.

On a également
H (X ) = lim H (Xn | X0 , . . . , Xn−1 ) .
n→ ∞

Interprétation : le taux d’entropie est « la quantité d’information résiduelle après


connaissance du passé ».

18/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exemple

X = {Xn } indépendantes et uniformes dans {0, 1}, et Y défini par Yn = Xn + Xn−1 .


Question : calculer H (Y ).
Comme Y est markovien et stationnaire, on a :

H (Yn | Y0 . . . Yn−1 ) = H (Yn | Yn−1 ) = H (Y2 | Y1 ) = H (Y ) .

X0 X1 X2 000 001 010 011 100 101 110 111


Y1 Y2 00 01 11 12 10 11 21 22

0 1 2 0 1 2
 
 
0 1/8 1/8 0 0 1/2 1/2 0
 
P ( Y 1 Y 2 = y1 y2 ) = P(Y2 = y2 | Y1 = y1 ) =

 1 1/8 1/4 1/8 
 1 1/4 1/2 1/4
2 0 1/8 1/8 2 0 1/2 1/2

Donc :
H (Y2 | Y1 = 0) = 1
H (Y2 | Y1 = 1) = 3/2
H (Y2 | Y1 = 2) = 1
Puis :
H (Y2 | Y1 ) = 1/4 + (1/2 × 3/2) + 1/4 = 5/4

19/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Code universel

Soit C = (Cn )n∈N une famille de codes telles que pour tout n ≥ 1, le code Cn encode
des séquences de n symboles. Alors, la famille C est dite universelle si
 
1
lim EX `(Cn (X0 , . . . , Xn )) = H (X )
n→ ∞ n

pour toutes les sources stationnaires X.

En termes informels : C est une famille de code universels si, asymptotiquement, sa


longueur moyenne par symbole est égale à l’entropie de la source.
C’est le mieux qu’on puisse espérer.

20/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Plan

1. Retour sur l’interrogation

2. Poursuite de l’UE

3. Vers la compression de données


Processus stochastiques
Algorithme de Lempel-Ziv

4. TD codage canal

20/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Présentation

– Dans les années 1970 par Lempel et Ziv.


– Premiers algorithmes : LZ77, LZ78,
– Utilisés comme brique de base dans beaucoup de logiciels de compression actuels.
Idée :
1. On parcourt la chaîne de caractères, que l’on découpe en mots distincts minimaux.
2. On tient à jour un dictionnaire des mots trouvés, et une liste ordonnée de réferences
vers ce dictionnaire (pointeurs).
3. On retourne cette liste.

Exemple typique : on considère la séquence :

aababbabbaabbababbabaabbabaaabbabaaa

On peut la découper en :

a|ab|abb|abba|abbab|abbaba|abbabaa|abbabaaa

Puis on la transforme en :
0a|1b|2b|3a|4b|5a|6a|7a
où le nombre i fait référence au i-ème mot de la liste.

21/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Algorithme

On présente ici l’algorithme LZW (pour Lempel-Ziv-Welch), une variante de LZ78.

Algorithme de Lempel-Ziv-Welch (LZW)

Entrée : une chaîne de caractères x ∈ X m


Sortie : une séquences de couples ((ij , aj ))j≥1 où ij ∈ N et aj ∈ X
res = []
dict = [””]
buffer = ””
i=0
Pour j allant de 1 à m :
Ajouter xj à la fin de buffer
Si : il existe k tel que buffer = dict[k]
Alors :
i=k
Sinon :
Ajouter buffer à dict
Ajouter (i, xj ) à res
Réinitialiser buffer à ””
Réinitialiser i à 0
Retourner : res

22/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Mise en application

Algorithme de Lempel-Ziv-Welch (LZW)

La chaîne en entrée est :


x = bbaabbabaaaaababbbbaaabbabb
res = [(0, b), (1, a), (0, a), (1, b), (3, b), (3, a), (6, a), (2, b), (4, b), (7, a), (8, b)]
dict = [b, ba, a, bb, ab, aa, aaa, bab, bbb, aaab, babb]
buffer =

x = |b|ba|a|bb|ab|aa|aaa|bab|bbb|aaab|babb|

23/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Analyse de LZW

Question :
Ce codage est-il « bon » ?

Deux analyses :
– en pire cas : existe-t-il des chaînes de caractères dont la taille augmente
grossièrement ?
– en cas moyen : pour un processus stochasique donné, quelle est la longueur
moyenne du codage LZW ?

24/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Analyse : pire cas

Objectif : trouver une chaîne de caractères x pour laquelle le codage LZW est
asymptotiquement le plus long.
=⇒ Faut-il que x soit divisée en mots petits ? en mots ressemblants et longs ?
Rappel : l’exemple typique donne un codage assez court

a|ab|abb|abba|abbab|abbaba|abbabaa|abbabaaa 7→ 0a|1b|2b|3a|4b|5a|6a|7a

car le n-ième mot, de longueur n, est codé avec ' log2 n bits.
Pour avoir un pire cas, il faut faire le contraire. Pour k ≥ 1, la chaîne

x(k) = a|b|aa|ab|ba|bb|aaa| · · · · · · | bbb


| {z. . . bb}
k fois

donne le mot

c(k) = [0]2 a | [0]2 b | [1]2 a | [1]2 b | [2]2 a | [2]2 b | [3]2 a | · · · · · · | [(k − 2)2k − 2]2 b

où [i]2 est l’écriture en base 2 de i (pour simplifier).

Question : quelle est la longueur de c(k) par rapport à celle de x(k) ?

25/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Analyse : pire cas

Soit x(k) = a|b|aa|ab|ba|bb|aaa| · · · · · · | bbb


| {z. . . bb}.
( k ) k fois
Question : que vaut uk := `(x ) ?

On a uk = ∑ki=1 i2i . Puis :

k k −1 k k
uk − 2uk−1 = ∑ i2i − 2 × ∑ i2i = ∑ i2i − ∑ (i − 1)2i = 2k+1 − 2
i=1 i=1 i=1 i=2

Puis, la quantité
     
uk − 2uk−1 + 2 · uk−1 − 2uk−2 + · · · + 2k−2 · u2 − 2u1

vaut d’une part uk − 2k−1 u1 = uk − 2k , et d’autre part

k −2 k −2
∑ 2j (uk−j − 2uk−j−1 ) = ∑ 2j (2k+1−j − 2) = (k − 1)2k+1 − 2k + 2 .
j=0 j=0

Donc
`(x(k) ) = uk = (k − 1)2k+1 + 2 .

26/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Analyse : pire cas

On note w(x(k) ) le nombre de mots dans la division de la chaîne x(k) . On a :

k
w ( x(k ) ) = ∑ 2i = 2k+1 − 2 .
i=1

Enfin, chaque indice de préfixe peut être codé sur dlog w(x(k) )e = k + 1 bits, donc la
longueur du mot c(k) associé à x(k) est

k+1
`(c(k) ) = w(x(k) ) × (k + 1) = (`(x(k) ) + 2) − 2 .
k−1
Le ratio qui nous intéresse est le rapport entre la longueur du mot encodé et celle du mot
initial. Si l’on note n = `(x(k) ), on a alors :

`(c(k) )
    
2 2 2 1
= 1+ 1+ − = 1+o .
`(x(k) ) k−1 `(x(k) ) `(x(k) ) n→ ∞ log2 n

Autrement dit, en pire cas l’algorithme LZW est asymptotiquement optimal.

27/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Analyse : cas moyen

On doit faire une hypothèse supplémentaire sur la source.


Processus ergodique : les statistiques de la source (par exemple, son entropie) peuvent
être approchées à partir d’une réalisation suffisamment longue.

Proposition. Soit C(xn ) le codage LZW d’un message xn de longueur n, issu d’un pro-
cessus stochastique X stationnaire et ergodique. Alors on a

1
lim `(C(xn )) = H (X ) .
n→+∞ n

L’hypothèse supplémentaire d’ergodicité de la source ne permet pas de dire que le codage


de Lempel-Ziv-Welch est universel. On le qualifie néanmoins de ponctuellement
universel.

28/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Plan

1. Retour sur l’interrogation

2. Poursuite de l’UE

3. Vers la compression de données


Processus stochastiques
Algorithme de Lempel-Ziv

4. TD codage canal

28/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exercice 4.2

Exercice : calcul de la capacité du canal à effacement

Le but de cet exercice est de calculer la capacité du canal à effacement d’entrée binaire
X = {0, 1} et de paramètre λ. On rappelle que ce canal est donné par la matrice de
transition  
1−λ 0
 λ λ .
0 1−λ
On note X l’entrée du canal et Y sa sortie.

Question 1. Exprimer H (Y | X) en fonction de λ.


Question 2. L’entrée du canal est une variable aléatoire X binaire, dont on note la
probabilité pX (0) = α. Démontrer que

H (Y ) = (1 − λ )h( α ) + h( λ ) .

Question 3. En déduire que la capacité du canal à effacement est 1 − λ.

29/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exo 4.2 — Question 1

Le canal d’entrée X et de sortie Y est donné par la matrice de transition


 
1−λ 0
 λ λ .
0 1−λ

Question 1. Exprimer H (Y | X) en fonction de λ.

1
H (Y | X ) = ∑ px ∑ py|x log2 p
x y y|x
| {z }
H (Y |X =x)

Question : que vaut H (Y | X = 0) ?


On « lit sur la colonne x = 0 » :
1 1
H (Y | X = 0) = (1 − λ) log2 + λ log2 = h(λ) .
1−λ λ
De même H (Y | X = 1) = h(λ).
Donc
H (Y | X ) = ∑ px · h(λ) = 1 · h(λ) = h(λ) .
x

30/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exo 4.2 — Question 2

Question 2. L’entrée du canal est une variable aléatoire X binaire, dont on note la pro-
babilité pX (0) = α. Démontrer que

H (Y ) = (1 − λ )h( α ) + h( λ ) .

Il faut calculer p(Y = 0), p(Y =⊥) et p(Y = 1) :

p(Y = 0) = ∑ p(X = x)p(Y = 0 | X = x) = α (1 − λ )


x
p(Y =⊥) = λα + λ(1 − α) = λ
p(Y = 1) = (1 − λ)(1 − α)

Puis :
     
1 1 1
H (Y ) = α(1 − λ) log2 + λ log2 + (1 − α)(1 − λ) log2
α (1 − λ ) λ (1 − α)(1 − λ)
   
1 1
= λ log2 + (α + (1 − α))(1 − λ) log2
λ (1 − λ )
 
1 1
+ α(1 − λ) log2 + (1 − α)(1 − λ) log2
α 1−α
= h( λ ) + (1 − λ )h( α ) .

31/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information


Exo 4.2 — Question 3

Question 3. En déduire que la capacité du canal à effacement est 1 − λ.

Question : définition de la capacité d’un canal ?


On maximise I (X ; Y) = H (Y) − H (Y | X) en fonction de α.
On a :
I (X ; Y ) = h( λ ) + (1 − λ )h( α ) − h( λ ) = (1 − λ )h( α ) .

La fonction α 7→ h(α) est maximale pour α = 1/2, et vaut 1 dans ce cas.


Donc la capacité du canal binaire à effacement est :

C = 1−λ.

32/32 J. Lavauzelle – TI-7 – M1 – Théorie de l’Information

Vous aimerez peut-être aussi