Vous êtes sur la page 1sur 77

Université Sultan Moulay Slimane

Faculté Polydisciplinaire
Département de Mathématiques et Informatique
Master Système de Télécommunications et Réseaux Informatiques
Année Universitaire : 2019/2020
V.1.3

Cours : Théorie de l'information et codage

Option : Master STRI (S3)

v.1.0 September 2017


Table des matières

1 Introduction et rappel de probabilité 2


1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Notion de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . 2
1.2 conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Source d'information 8
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Sources indépendants ou simples . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Sources quelconques . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.3 Sources homogènes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.4 Sources de Marcov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3 Mesure de l'information 13
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Tentative de dénition de l'information . . . . . . . . . . . . . . . . . . . . . 13
3.2.1 Incertitude et information : Dénition . . . . . . . . . . . . . . . . . . 13
3.2.2 Quantité de l'information . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.3 Résumé : Information et incertitude . . . . . . . . . . . . . . . . . . . 17
3.3 Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3.1 Contenu d'information d'une SDSM . . . . . . . . . . . . . . . . . . . 19
3.3.2 Contenu informatif moyen : entropie . . . . . . . . . . . . . . . . . . 20
3.3.3 entropie de la source de Markov . . . . . . . . . . . . . . . . . . . . . 22

i
TABLE DES MATIÈRES

3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4 Canaux Discrets Sans Mémoires 23


4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2 Dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3 L'entropie à l'entrée et à la sortie du canal . . . . . . . . . . . . . . . . . . . 24
4.4 Matrice de transition d'un canal . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.5 Exemple de canaux remarquables . . . . . . . . . . . . . . . . . . . . . . . . 28
4.5.1 Canal sans perte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.5.2 Canal déterministe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.5.3 Canal sans bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.5.4 Canal binaire symétrique . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.6 Relations entre les divers entropies . . . . . . . . . . . . . . . . . . . . . . . 32
4.6.1 Résumé : relation entre les diérents entropies dans un canal . . . . . 34
4.7 Capacité, redondance et ecacité d'un CDSM . . . . . . . . . . . . . . . . . 36
4.7.1 La capacité du canal . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.7.2 Capacité des canaux remarquables . . . . . . . . . . . . . . . . . . . 37
4.7.3 La redondance et l'ecacité du canal . . . . . . . . . . . . . . . . . . 38
4.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5 Information des signaux continus 40


5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2 modèle de canal continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.3 Entropie diérentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.4 Théorème de Shannon relatif à la capacité du canal continu . . . . . . . . . . 42
5.4.1 Premier théorème de Shannon . . . . . . . . . . . . . . . . . . . . . . 42
5.4.2 Formule de Shannon-Théorème fondamentale . . . . . . . . . . . . . 42
5.5 conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6 Principe de codage : Codage de source 46


6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

SAFI Said ii Information theory and coding


TABLE DES MATIÈRES

6.2 Codage de sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47


6.3 codes à décodages uniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.3.1 Dénition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.3.2 Classication des codes . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.4 Longueur moyenne d'un mot-code . . . . . . . . . . . . . . . . . . . . . . . . 53
6.4.1 Ecacité du codage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.4.2 Limite inférieure de la longueur moyenne d'un mot . . . . . . . . . . 55
6.4.3 Capacité, ecacité et redondance du code . . . . . . . . . . . . . . . 56
6.5 Code optimaux absolus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.5.1 Condition d'existence . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.5.2 L'inégalité de Kraft-Mc Millan . . . . . . . . . . . . . . . . . . . . . . 61
6.6 Codage entropique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.6.1 Codage de Shannon-Fano . . . . . . . . . . . . . . . . . . . . . . . . 64
6.6.2 Codage de Human . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

SAFI Said iii Information theory and coding


Table des gures

1 Extrait de l'article de C. E. Shannon publier en 1948 . . . . . . . . . . . . . vii


2 Modèle de Shannon - Communication . . . . . . . . . . . . . . . . . . . . . . vii

2.1 Source de Markov avec trois symboles . . . . . . . . . . . . . . . . . . . . . . 12

4.1 Canal discret sans mémoire (CDSM) . . . . . . . . . . . . . . . . . . . . . . 24


4.2 Représentation schématique d'un système de transmission . . . . . . . . . . 25
4.3 Exemple de canal sans perte . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.4 Exemple de canal sans déterministe . . . . . . . . . . . . . . . . . . . . . . . 30
4.5 Exemple de canal déterministe . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.6 Exemple de canal binaire symétrique . . . . . . . . . . . . . . . . . . . . . . 31
4.7 Relation entre les diérents entropies dans un canal . . . . . . . . . . . . . . 35
4.8 Avec p(x1 ) = p(x2 ) = 0.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.1 Modèle de canal continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40


5.2 Variation de la capacité d'un canal en fonction de la largeur du bande (dans
cette exemple nous avons pris : S/N0 = 10 . . . . . . . . . . . . . . . . . . . 44

6.1 Codage de source . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47


6.2 Codage DCB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.3 Codage de source . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.4 Code Morse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.5 Relation entre les codes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.6 Arbre de codage correspondant . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.7 Arbre de la deuxième façon de codage . . . . . . . . . . . . . . . . . . . . . 59

iv
TABLE DES FIGURES

6.8 Exemple de codage de Shannon-Fano . . . . . . . . . . . . . . . . . . . . . . 64


6.9 Exemple de codage de Human . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.10 Exemple de codage de Human . . . . . . . . . . . . . . . . . . . . . . . . . 66

SAFI Said v Information theory and coding


Introduction générale

Avant de décrire ce cours de théorie de l'information et codage, il est nécessaire de


signaler que le grand fondateur de cette théorie est Claude Elwood Shannon (date de
naissance 30/04/1916 à Petoskey ville de Michigan et décès en 24/04/2001 à Medford ville
de Massachusetts) est un ingénieur en génie électrique et mathématicien américain.
Pendant la Seconde Guerre mondiale, Shannon travaille pour les services secrets de l'armée
américaine, en cryptographie, chargé de localiser de manière automatique dans le code
ennemi les parties signiantes cachées au milieu du brouillage. Son travail est exposé dans un
rapport secret (déclassié dans les années 1980 seulement), qui donne naissance après-guerre
à un article, A Mathematical Theory of Communications (1948) (gure (1)), qui fut repris en
1949 sous forme de livre publié par l'université de l'Illinois avec les commentaires de Warren
Weaver, coordonnateur (A. Mattelart et M. Mattelart, 2004) dans les services secrets. Cet
ouvrage est centré autour de la problématique de la transmission du signal. Pour décrire la
communication entre machines, l'article de 1948 et le livre de 1949 commencent tous deux
par un "schéma", appelé schéma de Shannon ou modèle de Shannon et Weaver. Le schéma
modélise la communication entre machines (gure (2)) :
Ce schéma est la traduction "civile" d'un schéma préalable, utilisé dans le contexte militaire :
source → encodeur → signal → décodeur → destinataire, dans un contexte de brouillage.
Dans cette article C. E. Shannon dit que : "The choice of a logarithmic base corresponds to
the choice of a unit for measuring information. If the base 2 is used the resulting units may
be called binary digits, or more briey bits, a word suggested by J. W. Tukey. A device with
two stable positions, such as a relay or a ip-op circuit, can store one bit of information.
Après il donne un exemple : N such devices can store N bits, since the total number of
possible states is 2N and log2 (2N ) = N . If the base 10 is used the units may be called decimal

vi
TABLE DES FIGURES

Figure 1  Extrait de l'article de C. E. Shannon publier en 1948

Figure 2  Modèle de Shannon - Communication


digits. Since

SAFI Said vii Information theory and coding


TABLE DES FIGURES

log2 M = log10 (M )/log10 (2)

= 3.32log10 (M )

Une autre idées très importante introduite par C. E. Shannon concern la notion d'entropie
qui représente une moyenne de l'information de chaque message de la source. Si l'on
considère N événements de probabilité p1 , p2 , ... pN , indépendants les uns des autres, alors
leur entropie de Shannon est dénie comme :

N
X
Entropie : H = − pi log2 (pi ) (1)
i=1

A l'aide du théorie de l'information nous pouvons calculer la capacité C qu'un canal peut
accepter pour véhiculer un message porteur d'information à l'aide de la fameuse relation de
Schannon liant la capacité avec la bande B du canal et le rapport signal-to-noise ratio SN R.

C = Blog2 (1 + SN R) (2)

Dans ce cours de théorie de l'information et codage nous détaillons les points suivants :

 Introduction et rappel de probabilité


 Source de l'information
 Mesure de l'information
 Entropie
 Canaux discrets sans mémoire
 Matrice de transition d'un canal
 Transinformation (information mutuelle)
 La capacité du canal
 Redondance et ecacité des canaux
 Codage de l'information
 Types de codes
 Classication des codes
 Longueur moyenne d'un mot de code

SAFI Said viii Information theory and coding


TABLE DES FIGURES

 Ecacité du codage
 Capacité, ecacité et redondance du code
 Codes optimaux absolus

SAFI Said 1 Information theory and coding


Chapitre 1

Introduction et rappel de probabilité

1.1 Introduction
La théorie de l'information est liée à l'incertitude de sur la non réalisation d'un évènement
ou bien la probabilité de réalisation d'un évènement ("appelé dans la théorie de l'information
message") porteur de l'information. Il faut bien noté qu'un évènement certain (probabilité
égale à 1) ne porte pas d'information. Vu l'importance des probabilité dans ce cours de théorie
de l'information nous présentons dans ce chapitre quelques rappels sur les variables aléatoires
discrètes et continues.

1.1.1 Notion de variables aléatoires


Considérons une variable aléatoire X qu'on peut la dénir par une densité de probabilité
p(x). A noter que certain auteur note la densité de probabilité du variable aléatoire X par
pX (x).
En stochastique en distingue entre deux types de variables aléatoires : discrètes et continues.

Les variables aléatoires discrètes


Considérons un symbole M -aire modélisé par une variable aléatoire X qui peut prendre
M valeurs dans un alphabet X de taille. Donc nous pouvons comme exemple
X = {0, 1, ..., M − 1}

2
CHAPITRE 1. INTRODUCTION ET RAPPEL DE PROBABILITÉ

Si on adopte le codage binaire nous aurons donc M à une puissance de deux ; dans ce cas,
chaque symbole x dans l'alphabet X peut prendre une valeur de bloc de log2 (M ) bits.
Prenons l'exemple où M = 8 on peut adopter le code des symboles de l'alphabet X par

X = {000, 001, 010, 011, 100, 101, 110, 111}

Si on met en évidence le fait que l'apparition des symboles à un caractère probabiliste, on


peut donc dire que log2 (M ) représente un nombre moyen de bits par symbole.
Le caractère probabiliste de l'apparition des symboles de la source nous amène à associer à
chaque symbole x de l'alphabet X on associe une probabilité comme suit :

p(x) = P rob{X = x},

comprise entre 0 et 1, qui donne le pourcentage de chances que X prenne la valeur x. L'en-
semble des probabilités {p(x)}x∈X est la densité de probabilité (ou loi) de probabilité de la
variable aléatoire X .
La loi de probabilité (densité de probabilité) doit respecter les propriétés suivante :
Propriété 1 :
Quelque soit x ∈ X on :
p(x) ≥ 0 et
P
x∈X p(x) = 1
Propriété 2 :
Soit A un évènement (une réalisation de X ) alors sa probabilité est donnée par :
p(x).
P
P rob{X ∈ A} = x∈A

Remarque :
Il faut noter que les valeurs de x peuvent être vectorielles : x = (x1 , x2 , ..., xn ), ce qui nous
donne un formalisme de sommation multiples (n-uples) : x1 x2 ... xn p(x1 , x1 , ..., xn )
P P P

• Symboles équiprobables
Si les symboles x d'un alphabet M -aire sont équiprobables c'est à dire :

1
p(x) = M
(∀x ∈ X)

SAFI Said 3 Information theory and coding


CHAPITRE 1. INTRODUCTION ET RAPPEL DE PROBABILITÉ

Cette situation indique que la variable aléatoire est uniforme, ce qui correspond au cas le
plus "imprévisible" : tous les symboles ont la même chance d'etre réaliser.
• Symboles binaires
Dans le cas particulier où M = 2 on parle d'un symbole binaire, ou bit (abréviation de
"binary digit") (chire binaire) qui prend deux valeurs dans l'alphabet {0, 1}.
Cette situation peut être représenter comme suit (variable de bernoulli avec 0 < p < 1)


 p si x = 1
p(x) =
 1 − p si x = 0

Lorsque p = 12 , les bits 0 et 1 sont équiprobables.


• Symboles M -aires symétriques
Considérons maintenant une variable aléatoire M -aire avec X ∈ {0, 1, ..., M − 1} dénit par


 p si x 6= 0
p(x) = (1.1)
 1 − p si x = 0

La variable aléatoire est dite symétrique car toutes les valeurs non nulles de X sont
équiprobables (avec même probabilité = p).
Comme la somme des probabilité est = 1 donc la valeur P = P rob{X 6= 0} est donnée par
la formule : P = (M − 1)p.
• Symboles d'un alphabet
Si une variable aléatoire discrètes admet une innité de valeurs dans un alphabet inni
dénombrable (M = +∞).
Par exemple si X ∈ N suit une loi de Poisson lorsqu'on a la densité de probabilité
λx −λ
p(x) = x!
e avec bien sûr λ > 0 et pour tout x ∈ N.
• Symboles déterministes
Généralement on décrit un symbole d'un "alphabet" par une variable aléatoire, mais parfois
on peut la considérer comme une constante X = x0 (événement sûr avec une probabilité
P rob(X = x0 ) = 1). Le symbole sera donc déterministe (pas aléatoire), ca cas particulier
correspond à la densité de probabilité :

SAFI Said 4 Information theory and coding


CHAPITRE 1. INTRODUCTION ET RAPPEL DE PROBABILITÉ


 1 si x = x0
p(x) = (1.2)
 0 sinon

Remarquons que cette densité de probabilité correspond au symbole de Kronecker.


• Variables aléatoires continues
Si la source générant "l'alphabet" des symboles d'une manière continue, on peut le modélisé
par une variable aléatoire X pouvant prendre des valeurs réelles dans un intervalle X ⊂ R.
Il peut, par exemple, représenter par un échantillon d'un signal aléatoire.
La variable aléatoire X est dite absolument continue si elle est dénie par une densité de
probabilité qui est fonction intégrable p(x) ≥ 0 telle que pour tout événement (borélien)
A ≥ X,

R
P rob{X ∈ A} = x∈A
p(x)dx

avec

p(x) ≥ 0 et
R
x∈X
p(x)dx = 1

Remarque :
Si les valeurs de X sont des valeurs vectorielles de dimension n c'est à dire
x = (x1 , x2 , ..., xn ) ∈ Rn , ce qui implique que X est un vecteur aléatoire. Le
formalisme d'intégrale simple p(x)dx sera étendre vers un intégrale multiple
R

... p(x1 , x2 , ..., xn )dx1 dx2 ...dxn .


R R

• Échantillons uniformes :
On parle d'un échantillon uniforme ou bien à distribution uniforme un échantillon qui est re-
présenté par une variable aléatoire X , dénit sur l'intervale [a, b] par la densité de probabilité :

p(x) = 1
b−a
pour 0 ≤ x ≤ b

SAFI Said 5 Information theory and coding


CHAPITRE 1. INTRODUCTION ET RAPPEL DE PROBABILITÉ

Rb
et avec a
p(x)dx = 1
• Échantillons gaussiens
On dit qu'un échantillon est gaussien si on peut le représenter par une variable aléatoire X
ayant une densité de probabilité gaussienne :

1 (x−µ)2
p(x) = √ e− 2σ2
2πσ 2
Avec µ représente la moyenne et σ 2 > 0 est la variance de X . A noter qu'une variable
gaussienne est aussi appelée normale et on écrit

X ∼ N (µ, σ 2 )

Remarque :

On peut, comme avant, modéliser un vecteur gaussien de moyenne µ = E[X] ( avec


X = (X1 , X2, ..., Xn )t représente un bloc de n échantillons)et de matrice de covariance K =
E[(X −µ)(X −µ)t ], ce qui nous permet de donné la densité de probabilité du variable aléatoire
X par
1 1
p(x) = p exp(− (x − µ)t K −1 (x − µ))
(2π)n det(K) 2
• Échantillons complexes
Il est possible de généraliser les échantillons réels aux échantillons complexes. Soit une
variable aléatoire Z = X + jY gaussienne de parties réelle X et imaginaire Y centrée et i.i.d
est dénie par une densité de probabilité de la manière suivante

1 − |z|22
p(z) = p(x)p(y) = e 2σ z∈C
2πσ 2
• Échantillons déterministes
On peut considérer qu'un symbole à valeurs continues X comme une constante X = x0 .
Le symbole n'est plus aléatoire mais déterministe. Donc on peut représenter la densité de
probabilité par une distribution de Dirac

p(x) = δx0 (x)

SAFI Said 6 Information theory and coding


CHAPITRE 1. INTRODUCTION ET RAPPEL DE PROBABILITÉ

R∞
C'est une distribution nulle pour tout x0 6= 0 et avec δ (x)dx
−∞ x0
= 1.
• Échantillons (variable aléatoire mixte)
Dans un certains cas la variable aléatoire est un mélange de continues et discrètes, dont on
peut dénir cette variable X par la densité de probabilité

1 1 1 (x−µ)2
p(x) = δx0 (x) + √ e− 2σ2
2 2 2πσ 2

Dans ce cas là on peut écrire que


RP
p(x) = 1

1.2 conclusion
In this chapter we have presented some importent properties of theory of probability. This
chapter demonstrates its necessity because we can't study the information theory without
have a good understanding of theory of probability. But for more details the students should
return to the courses of "variables aléatoires et modélisation" (Master 1) for more details.

SAFI Said 7 Information theory and coding


Chapitre 2

Source d'information

2.1 Introduction
Le but essentiel d'un système de communication est de transmettre des informations
entre deux points avec le maximum d'ecacité et de abilité. La théorie d'information
permet d'évaluer quantitativement le contenu d'un signal porteur d'un message et de
déterminer la capacité d'un système de communication à acheminer des informations entre
le site de transmission et le site de réception. Grace au codage, sujet essentiel de la théorie
de l'information, on peut réduire les redondances du message utile de façon à exploiter au
mieux les performances des canaux de transmission disponibles. En revanche, l'introduction
de redondances systématiques dans le signal transmis (support du message) permet de
abiliser les liaisons.
En télécommunication, une source d'information tout dispositif émetteur qui génère d'une
manière aléatoire une suite de symbole (message), l'ensemble des symboles émis par la
source constitue ce qu'on appelle alphabet (alphabet-source).
Donc on peut dénir la source par un ensemble ni N de symboles appelés messages donnés
par :

S = m1 , m2 , ..., mN (2.1)

8
CHAPITRE 2. SOURCE D'INFORMATION

De plus on peut constituer des suites de messages à partir messages successifs comme suit :
X
sn = mα1 mα2 ...mαN (S = sn ) (2.2)
n

De plus dire que ces suites sn sont émis par la source à aux instants notés : 1, 2, ..., n. A noter
en fait, il n'a pas d'instant initial d'une manière générale, c'est à dire il n'a pas un origine de
temps ce qui implique qu'on a les instants :..., −1, 0, 1, ..., n, ....
Comme l'apparition des suites de messages est aléatoire nous pouvons liés à la suite (2.2)
une suite de variables aléatoires équivalente :

..., X1 , X0 , X1 , ..., Xn , ...

Les valeurs de cette suite sont nécessairement dans l'ensemble des symboles (2.1), avec une
loi de probabilité donnée. Donc toute réalisation de la variable aléatoire Xn implique que le
message mαn émis à l'instant n, sera désignée par xn .

2.1.1 Sources indépendants ou simples


Le cas le plus simple est celui où les variables aléatoires Xn sont indépendantes et de
même loi de probabilité
P (Xn = mi ) = pi (2.3)

Ceux-ci nous donne les probabilités de la suite (2.2) par

P (sn ) = pα1 pα2 ...pαn (2.4)

2.1.2 Sources quelconques


Dans le cas le plus général nous avons à partir d'un instant initial 1. La loi initiale :

P (Xn = mi ) = pi (2.5)

et les lois de probabilités conditionnelles successives :


P (X2 = x2 /X1 = x1 ) , P (X3 = x3 /X1 = x1 , X2 = x2 ), ..., P (Xn = xn /X1 = x1 , X2 =
x2 , ..., Xn−1 = xn−1 )

SAFI Said 9 Information theory and coding


CHAPITRE 2. SOURCE D'INFORMATION

ces probabilités conditionnelles explique que la source émet ses symboles avec un certain
rappel (conditionnelles) ou avec mémoire. Pour cette raison ce types de sources s'appelle
Sources Discrète Avec Mémoire (SDAM). La mémoire peut être d'ordre 1, 2,... ou N , et ceci
suivant les probabilités conditionnelles et leurs dépendances d'une variables ou bien deux ...
et ainsi de suite.

2.1.3 Sources homogènes


La situation la plus fréquente est celle d'un mécanisme indépendant du temps. Cependant
il n'a pas d'instant initial, ça veux dire que la loi conjointe d'un ensemble quelconque de k
variables aléatoires : Xi1 , ..., Xik est invariante par translation dans le temps.

P (Xn = xn ) = P (Xn+h = xn )

P (Xn = xn , Xp = xp ) = P (Xn+h = xn , Xp+h = xp )

...(∀n, p, ..., h ∈ Z) (2.6)

2.1.4 Sources de Marcov


C'est le cas le plus important qui joue un role très important dans les problèmes de
communication.
La mémoire du passé est résumée dans le dernier message émis :

P (Xn = xn /X1 = x1 , ..., Xn−1 = xn−1 ) = P (Xn = xn /Xn−1 = xn−1 ) (2.7)

Plus généralement une source de Markov peut être d'ordre r. Cela signie que la mémoire
régresse jusqu'aux seules r dernier messages.
La théorie de telles sources est la théorie classique des chaînes de Markov. Certaines chaînes
(chaînes régulières) sont des modèles commodes la description statistique des langues écrites
usuelles.
Pour la langue allemande elle caractérisé par la relation :

e+lettere et lettre +e

SAFI Said 10 Information theory and coding


CHAPITRE 2. SOURCE D'INFORMATION

Ce qui nous donne une source de Markov d'ordre 1

P (xin /xin , xin−1 , ...) = P (xin /xin−1 ) (2.8)

Avec xin , xin−1 , ...∈ [X].


A retenir que dans ce cas la génération d'un symbole à l'instant n ne dépend que de n − 1 et
pas de n − 2, n − 3, ....
On dit que la source se trouve dans l'état i au moment n − 1 (dans le présent), si au moment
n − 2 elle a générée le symbole xi . Dans la suite nous adoptons la notation suivante pour une
telle source de Markov
La probabilité P (xjn /xin−1 ) ≡ Pij s'appelle probabilité de transition de l'état i i à l'état
j.
PM
alors on aura j=1 Pij = 1 (ce qui est évident).
Alors la probabilité qu'au moment n la source se trouve dans l'état j est comme suit :
M
X
P (xjn ) = P (xjn , xin−1 )
i=1
M
X
= P (xin−1 )P (xjn /xin−1 )
i=1
XM
= P (xin−1 )Pij , j = 1, ..., N
i=1

Exemple
Considérons une source de Markov [X] = x1 , x2 , x3 . La source génère chaque T seconde un
symbole. Le graphe qui représente la source est représenté dans la gure (2.1) suivante
La question qui se pose : en déduire les probabilités des symboles P (xi ).
Response
In stationary case we have

P (x1 ) = P (x1 /x1 )P (x1 ) + P (x1 /x2 )P (x2 ) + P (x1 /x3 )P (x3 )

P (x2 ) = P (x2 /x1 )P (x1 ) + P (x2 /x2 )P (x2 ) + P (x2 /x3 )P (x3 )

and
P (x1 ) + P (x2 ) + P (x3 ) = 1

SAFI Said 11 Information theory and coding


CHAPITRE 2. SOURCE D'INFORMATION

Figure 2.1  Source de Markov avec trois symboles

where P (x1 /x2 ) for example represent the transition probability from the state x2 to state
x1 .
By representing the transition probabilities we can obtain the following equation system

P (x1 ) = 0.1P (x1 ) + 0.4P (x2 ) + 0.3P (x3 )

P (x2 ) = 0.5P (x1 ) + 0.2P (x2 ) + 0.3P (x3 )

P (x1 ) + P (x2 ) + P (x3 ) = 1

The solution of this equation system give us the following results :


P (x1 ) = 18/65, P (x2 ) = 21/65 and P (x3 ) = 26/65

2.2 conclusion
In this chapter we have presented the more useful information sources, like Markov source
and discret memoryless source. Generally, A source of information generates its symbols in a
discrete or continuous manner, or in some cases a mixte manner (discrete and continuous).
The information source generate its message with memory of the previous message or without
memory (memoryless) of the previous messages.

SAFI Said 12 Information theory and coding


Chapitre 3

Mesure de l'information

3.1 Introduction
Dans ce chapitre nous discutons la dénition d'une information ou bien c'est quoi une
information ? elle liée à quoi ? comment peut-on mesuré une information ? ces questions seront
détaillés dans les paragraphes qui suivent.

3.2 Tentative de dénition de l'information


3.2.1 Incertitude et information : Dénition
L'information, comme l'énergie d'ailleurs, est une notion fondamentale, qui fait partie
de vie quotidienne, mais il est dicile d'en donner une dénition rigoureuse et satisfai-
sante. Sans chercher à la dénir, on peut en utiliser divers aspects par les conditions suivantes :

1. Information signie littérairement : "donner une forme" ;

2. L'information est notion abstraite, de nature psychologique et philosophique à l'origine


(idées), reprise par la science et la technique pour en faire une grandeur évaluable.
Pour expliquer cette notion "information", on suppose que, dans une certaine situation
donnée, peuvent avoir lieu N événements diérents, également probables. la probabilité
de réalisation d'un évènement étant p = 1/N . La réalisation d'un événement parmi

13
CHAPITRE 3. MESURE DE L'INFORMATION

les N possibles signie que l'on obtient une information ;

3. L'information est un facteur d'ordre et et de structure, elle diminue l'inconnu et l'in-


certitude. Pour cette raison elle est liée, par antithèse, à la notion thermodynamique
d'entropie ;
4. La valeur d'une information réside dans l'eet de surprise qu'elle provoque : elle est
d'autant plus intéressante qu'elle est moins prévisible ;

5. L'information n'est pas conservative : elle peut se perdre ;

6. L'information peut etre transportée (transmission), stockée (mémorisation), transfor-


mée (traitement.

a) Description qualitative de l'information


Avant de trouver un moyen de mesurer quantitativement l'information, nous allons
essayer de préciser le concept d'information.
Dans une première tentative : prenons un signal sous forme d'un cosinus dont l'amplitude
est la fréquence sont connues. Nous avons vue en génie des télécommunications que ce n'est
pas nécessaire de transmettre ce signal il sut d'avoir l'amplitude et générer la fréquence
on peut générer le signal chez le récepteur dans ce cas on dit que : le signal ne porte pas
d'information : signal déterministe.
Cette première tentative nous amène à dire que la façon la plus appropriée de décrire un
système de communication est d'en donner un modèle probabiliste : c-à-d les signaux à
traiter 'porteur d'information doivent avoir un caractère aléatoire.
Qualitativement, fournir une information consiste à lever une partie de l'incertitude sur
l'issue d'une expérience aléatoire. Par exemple, l'observation d'un '0' à la sortie d'un canal
binaire bruité augmente la probabilité qu'un '0' ait été émis et diminue la probabilité qu'un
'1' ait été émis.
D'une façon générale, considérons un espace probabilisé joint XY et les deux événements
X = x et Y = y . La probabilité conditionnelle p(x/y) peut être interprétée comme la
modication apportée à la probabilité p(x) de l'événement x lorsque l'on reçoit l'information
que l'événement y est réalisé. L'information " y est réalisé" modie la probabilité de x,

SAFI Said 14 Information theory and coding


CHAPITRE 3. MESURE DE L'INFORMATION

c'est-à-dire l'incertitude sur la réalisation de x, de p(x) à p(x/y). Plus précisément :

 si p(x/y) ≤ p(x), l'incertitude sur x augmente,


 si p(x/y) ≥ p(x), l'incertitude sur x diminue.
Une diminution de l'incertitude sur x doit être comprise comme un gain d'information 'valeur
importante de l'information' sur x et inversement, une augmentation de l'incertitude sur x
doit être comprise comme une perte d'information sur x 'faible valeur d'information'.
Cette quantité sera appelée information mutuelle de x et y (car elle est liée à la probabilité
conditionnelle), et peut être positive ou négative. Nous verrons par la suite que sa moyenne
est toujours positive. Le gain d'information maximal sur x sera obtenu lorsque p(x/y) = 1,
c'est-à-dire essentiellement lorsque x = y . Cette quantité, fonction de la probabilité, sera
appelée information propre de x notée I(x) = f (p(x)). Pour quantier l'information, il
nous faudra spécier et dénir cette fonction f ().

b) Description quantitative de l'information


L'information propre de x doit être une fonction de sa probabilité : I(x) = f (p(x)). Pour
dénir f () nous admettrons :

1. L'information propre de x est une fonction décroissante de p(x) : en eet un évènement


certain n'apporte aucune information, alors qu'un évènement improbable en apportera
beaucoup.

2. L'information propre est une grandeur additive : si les évènements x et y sont statis-
tiquement indépendants alors l'information totale qu'ils peuvent fournir est la somme
des informations propres f (p(x, y)) = f (p(x)p(y)) = f (p(x)) + f (p(y)).

A partir des deux points précédentes, nous devrons donc choisir une fonction de la forme
I(x) = λlogp(x), avec λ < 0 pour assurer la décroissance par rapport à p(x). Le choix de λ
va dépendre de l'unité d'information que nous choisirons : soit le bit(est une abréviation de
binary digit) si le logarithme est est à base 2 (binaire), soit dit (Hartley) si le logarithme est
à base 10. Ces unité sont liées par les relations suivantes :
1nit = lb(e) = 1
ln(2)
= 1.44bit ;

SAFI Said 15 Information theory and coding


CHAPITRE 3. MESURE DE L'INFORMATION

1dit = lb(10) = 1
log10 (2)
= 3.32bit.
ln(x)
sans oublier la relation : logb (x) = ln(b
.
Exemple :
Un bit est égal à la quantité d'information fournie par le choix d'une alternative parmi deux
équiprobables. Cela signie que si X est un espace probabilisé dans l'espace des épreuves 0, 1
muni d'une loi uniforme (i.e. p(0) = p(1) = 1/2), alors la quantité d'information fournie
par la réalisation de l'événement X = 0 (ou X = 1) est de 1bit. On a I(0) = λlog(p(0)) =
−λlog(2) = 1, donc λ = −1/log(2) ce qui revient à choisir le logarithme en base 2 pour la
dénition de I(x) : I(x) = −log2 p(x).

3.2.2 Quantité de l'information


La quantité d'information (information content) I d'un symbole xi (porté par un message
i) est liée à la probabilité d'apparition p(xi ) de ce message en tenant compte des conditions
suivantes :

 Si le message est certain, son apparition n'apporte aucune information,


 Plus un message est improbable, il apporte plus d'information s'il apparaît,
 Deux messages statistiquement indépendants, s'ils apparaissent conjointement, cela
veux dire que leurs information I est la somme de leur quantité d'information respec-
tive.

Exemple
Considérons une Source Discrète Sans Mémoire (SDSM) transmet un alphabet
x1 , x2 , ..., xn . A noter que le contenu informatif d'un message (symbole) xi de l'alphabet
est donné par la formule suivante

1
I(xi ) = lb( ) = −lb(p(xi )) (3.1)
p(xi )

Cette quantité de l'information I doit vérier les propriétés suivantes :

I(xi ) = 0 pour p(xi ) = 1 (3.2)

SAFI Said 16 Information theory and coding


CHAPITRE 3. MESURE DE L'INFORMATION

I(xi ) ≥ 0 (3.3)

I(xi ) > I(xj ) sip(xi ) < p(xj ) (3.4)

I(xi , xj ) = I(xi ) + I(xj ) (xi et xj sont indépendants) (3.5)

3.2.3 Résumé : Information et incertitude


 Pour xer les idées, considérons un ensemble discrète est ni d'évènements possible
dans une expérience.
Sn
soit [X] = [x1 , x2 , ..., xn ] avec i=1 xi = E et xi ∩ xj = Φ pour i 6= j où E représente
l'événement sûr Φ représente l'évènement impossible.
On associe à la source X la matrice de probabilité [Px ] = [p(x1 )p(x2 )...p(xn )] où
Pn
i=1 p(xi ) = 1.

La mesure de l'incertitude sur la réalisation d'un événement xi noter par u(xi ) =


F (pi ) : fonction de probabilité de réalisation de l'évènement xi . Lorsque l'événement
xi se réalise, cette incertitude nous donne une information i(xi ) sur la réalisation de
xi . Cette information peut être dénie comme :
- l'information obtenue sur xi par la réalisation de xi ;
- l'annulation de l'incertitude sur la réalisation de xi soit réalisé, ce qui implique :
i(xi ) ≡ u(xi ), alors on a :
i(xi ) = F (p(xi )) (3.6)

 La mesure de l'information est une mesure de l'incertitude d'un système d'évènement.


 Elle ne concerne pas la valeur subjective de l'information. C'est une mesure objective
de l'incertitude du processus par lequel est réalisé un évènement parmi un ensemble
d'évènement possible
 Si le canal de transmission est perturbé, c'est à dire l'emission d'un xi et observation
d'un yi : A noter dans ce cas on a m 6= n avec [Y ] = [y1 y2 ...ym ] l'ensemble des éléments
'symboles' observés à la sortie du canal.
Remarque :si le nombre de symboles n émis par la source est diérent du nombre de
symbole m reçu on dit le canal est bruité.

SAFI Said 17 Information theory and coding


CHAPITRE 3. MESURE DE L'INFORMATION

 Lorsqu'on mesure l'incertitude (Uncertainty) U (xi /yj ) sur la réalisation de xi lorsque


yj est observé est donnée par

U (xi /yj ) = F [P (xi /yj )] (3.7)

 La détermination de l'information obtenue sur la réalisation de xi chaque fois que yj


est observé. Cette information représente la baisse de l'incertitude que l'on avait sur
la réalisation de xi entre l'état initial, lorsque yj n'était pas encore observé et l'état
nal fut observé et qu'il n'en reste qu'une incertitude à posteriori, à savoir :

i(xi ; yj ) = U (xi ) − U (xi /yj ) (3.8)

L'équation (3.8) montre deux choses :


- l'information sur xi quand on observe yj .
- la diminution de l'incertitude sur xi , due à la reception de yj .
Ce qui implique que s'il n'a pas de perturbations : on aura yj = xi ⇒ U (xi /yj ) = 0,
ce qui permet d'écrire
i(xi ; yj ) = U (xi ) (3.9)

si les perturbations sont très forte, on aura dans ce cas xi et yj indépendantes, alors
l'équation (3.8) devient :
i(xi ; yj ) = 0 (3.10)

C'est à dire : l'observation de yj ne donne aucune information sur xi 1 .


Dans le cas général on aura l'équation suivante :

i(xi ; yj ) = F (p(xi ))F (p(xi /yj )] (3.11)

Propriétés de la fonction de mesure


Comme nous avons déjà dit la fonction de mesure de l'information doit remplir les
propriétées suivantes :

1. Remarque :
Si p(xi ) = 0.5 alors i(xi ) = 1sh l'unité dénit Shannon (souvent désigné par bit). Il s'agit d'une pseudo-unité
sans dimension ! !

SAFI Said 18 Information theory and coding


CHAPITRE 3. MESURE DE L'INFORMATION

1. L'additivité :
si deux évènements xi1 et xi2 sont indépendante (c'est-à-dire) si on a : xi = xi1 ∩ xi2
alors F est additive ⇒ i(xi ) = i(xi1 ) + i(xi2 )

2. Continuité et dérivabilité (en probabilité) :


Alors F [p(xi1 ).p(xi2 )] = F (P (xi1 )) + F (P (xi2 )) une des fonctions qui peut verier
ces deux propriétés est la fonction logarithme alors : F (p) = −klog(p) ⇒ i(xi ) =
−klog(pi ).
En présence du bruit nous avons
i(xi ; yj ) = −klog(p(xi ) + klog(p(xi /yj )) ce qui implique
p(xi /yj )
i(xi ; yj ) = klog( ) (3.12)
p(xi )
En conclusion i(xi ) est appelé information propre, tandis que celle donnée par l'équa-
tion (3.12) est information mutuelle associé à xi et yj

3.3 Entropie
L'entropie d'une expérience aléatoire est une mesure de son indétermination à priori. L'in-
certitude a été introduite précédemment comme une caractéristique de chacun des résultats
de l'expérience. L'entropie est une appréciation numérique global attachée à l'expérience elle
même.

3.3.1 Contenu d'information d'une SDSM


La quantité d'information contenu dans un événement est lié au degré de certitude que
l'on attribue à cette information. Si un événement est certain (sa probabilité est égale à 1)
cette évènement n'apporte aucune information. Une mesure mathématique de l'information
doit prendre en compte la probabilité d'occurrence des événements et satisfaire aux axiomes :

1. L'information est proportionnelle à l'incertitude du résultat obtenue.

2. Les informations correspondants aux réalisation d'événements indépendants ont un


caractère additif.

SAFI Said 19 Information theory and coding


CHAPITRE 3. MESURE DE L'INFORMATION

3.3.2 Contenu informatif moyen : entropie


a : Dénition
La valeur moyenne de i(xi ) sur un alphabet de la source X composé de n symboles à pour
expression
n
X n
X
H(X) = E[i(xi )] = p(xi )i(xi ) = − p(xi )lb(p(xi ) (3.13)
i=1 i=1

d'unité sh : unité binaire par symbole : bit/symbole (par abus de langage on utilise le "bit").
H : est appelé entropie (entropy) de la source. Elle représente une mesure de l'information
moyenne par symbole de la source. (comme en thermodynamique : plus la source produit ses
messages de manière aléatoire plus sont entropie est élevée (information importante : entropie
positive) 2 .

b : Quantité de décision
Le choix que doit faire une source discrète parmi n caractères dont elle dispose correspond
à une certaine quantité de décision D (decision content) dénie par

D = lb(n) (3.14)

Si n = 2 (choix binaire), D = 1bit, pseudo-unité représentent le choix minimum entre deux


caractères.

c : Redondance
Dénition : La redondance est la diérence entre la valeur maximale possible de l'entropie
et sa valeur réelle.
Elle est dénie par la relation suivante :

R = Hmax (X) − H(X) (3.15)

El comme la valeur maximale de l'entropie est égale à la quantité de décision alors on peut
dénir la redondance d'une source discrète par la diérence entre la quantité de décision d'un
2. Dans ce qui suit les logarithmes sont pris en base 2, dans ce cas la l'unité de l'information adopté est
le bit

SAFI Said 20 Information theory and coding


CHAPITRE 3. MESURE DE L'INFORMATION

alphabet et l'entropie H de la source qui utilise cet alphabet :

R = D − H(X) (3.16)

Par dénition du mot redondance : ce qu'on possède moins ce qu'on utilise, donc :
D = nombre de bits disponibles,
H = nombre de bits utilisés.
On peut dénir la redondance relative en divisant la redondance par la valeur maximale de
l'entropie avec :
H(X)
ρ=1− (3.17)
Hmax (X)
Où Hmax (X) = lb(n) = D, avec n représente le nombre de lettres de l'alphabet de la source.

d : Débit d'information et de décision


Le débit d'information d'une source (où la vitesse d'information) est : le produit de
l'entropie (valeur moyenne de l'information propre par symbole) par le nombre moyen de
symbole par seconde.
Si la durée moyenne d'un symbole est τ , alors le débit d'information de la source sera dénit
comme suit :
H(X)
Ḣ(x) = (3.18)
τ
Si τ = 1, Ḣ(x) (débit de l'information) représente la quantité de l'information moyenne
produite par la source pendant l'unité du temps. Il sera exprimé en bit/s (Shannon par
seconde ! ).
De même on dénit la débit de décision (débit binaire : bit rate) par

Ḋ = D.r (3.19)

Avec r : représente le nombre moyen de caractères générés par l'unité de temps.


A noter que cette grandeur est très importante pour les systèmes de transmission numérique.
Elle s'exprime en bit/s qui est la capacité réelle du système de transmission.

SAFI Said 21 Information theory and coding


CHAPITRE 3. MESURE DE L'INFORMATION

3.3.3 entropie de la source de Markov


Si la source est dans l'état i, il y'aura une incertitude sur son état au moment suivant
(états possible 1, 2, ..., M ). La valeur moyenne de l'information contenue dans le symbole émis
à l'état i est donnée par :
M
X
Hi = − pij lb(pij ) (3.20)
j=1

Considérons tous les états de la source (au nombre de M ), l'entropie de la source sera donnée
par la moyenne des entropies de chaque état :
M
X M X
X M
H= p(xi )Hi = − p(xi )pij lb(pij ) (3.21)
i=1 i=1 j=1

3.4 Conclusion
In this chapter we have discussed how we can dene the "information", and we have
conclude that mesure is closed to symbole apparition probability or "uncertainty". So, the
symbole information value is more importent if its occurrence probability is close to zero.
Thus, information is connected with the element of surprise, which is a result of uncertainty,
or unexpectedness (inattendu).
We have also discussed the source entropy which represent the mean information quantity of
a given source.

SAFI Said 22 Information theory and coding


Chapitre 4

Canaux Discrets Sans Mémoires

4.1 Introduction
Un canal de transmission est dénit comme le support ou le milieu qui achemine le message
entre émetteur et récepteur. Cette dénition couvre également les milieux à mémoire par les
ordinateurs. Le canal opère une transformation entre l'espace des symboles à l'entrée et
l'espace des symboles à la sortie du canal.

4.2 Dénitions
Dans ce paragraphe nous présentons les dénitions de quelque canaux les plus utilisés.

1. Un canal est dit discret, si l'espace à l'entrée et celui à la sortie est discret

2. Le canal est dit continu, si les espaces à l'entrée et à la sortie sont continues.

3. Si la transmission à travers le canal a leu tout le temps, le canal est dit continue en
temps. Si la transmission se fait par moments de temps discrets, le canal s'appellera
discret.

4. Le canal est dit sans mémoire lorsque le symbole de sortie ne dépend que du dernier
symbole reçu en entrée, indépendamment de tous les symboles d'entrée précédents.

5. Si les transformations ne dépendent pas du choix de l'origine du temps, le canal est


stationnaire.

23
CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

Dans ce qui suit, nous allons considérer les Canaux Discrets Stationnaires sans Mémoire
(CDSM).
Dans la gure (4.1) on représente un CDSM à n entrée et m sorties. l'entrée se compose de n
symboles x1 , x2 , ..., xn . Les probabilités à priori p(xi ) de ces symboles sont supposés connu, la
sortie se compose de m symboles y1 , y2 , ..., ym . Chaque correspondance possible entrée/sortie

Figure 4.1  Canal discret sans mémoire (CDSM)

est dénie par une probabilité conditionnelle p(yj /xi ) d'obtenir yj en sortie du canal lorsque
xi à été transmis à l'entrée du canal. On l'appelle probabilité de transmission du canal.
Dans la gure (4.2) nous représentons un système de transmission qui est constitué par :

 Une source d'information


 Un canal de transmission
 Une source de perturbation du canal
 La reception (destination).

4.3 L'entropie à l'entrée et à la sortie du canal


On note [X] tous les symboles que le canal peut transmettre (que son équipement peut
former), et qui constitue un champ d'évènement.

 S'il s'agit d'un canal télégraphique utilisant un code morse, l'équipement du canal sera

SAFI Said 24 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

Figure 4.2  Représentation schématique d'un système de transmission

appelé à transmettre quatre symboles, à savoir : x1 (point), x2 (tiré), x3 (intervalle


entre lettres) et x4 (intervalle entre mots).
 S'il y'a n symboles, l'espace des symboles (l'alphabet) à l'entrée du canal sera :

[X] = [x1 , x2 , ..., xn ] (4.1)

Donc chaque symbole xi sera utilisé avec une probabilité pi

[Px ] = [p(x1 ), p(x2 ), ..., p(xn )] (4.2)

l'ensemble de tous les symboles à la sortie du canal est :

[Y ] = [y1 , y2 , ..., ym ] (4.3)

les probabilités de ces symboles de sorties du canal sont donnés par :

[Py ] = [p(y1 ), p(y2 ), ..., p(ym )] (4.4)

A noter qu'à cause des perturbations, l'espace [Y ] peut être diérent de [X], comme les
probabilités [Py ] peuvent être diérentes des probabilités à l'entrée [Px ].
Avec ces deux espaces ([X] et [Y ]), on peut dénir un espace-produit [X.Y ] par la matrice
suivante :

SAFI Said 25 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

 
x y x1 y2 ... x1 ym
 1 1 
 
 x2 y1 x2 y2 ... x2 ym 
[X.Y ] = 



 . . ... . 
 
xn y1 xn y2 ... xn ym

(4.5)

Où l'on a noté x ∪ yj par le produit xi yj , réalisation simultanée des événements xi et yj


(événement conjoint).
Alors la matrice (4.5) correspond à la matrice de probabilités suivante :

 
p(x , y ) p(x1 , y2 ) ... p(x1 , ym )
 1 1 
 
 p(x2 , y1 ) p(x2 , y2 ) ... p(x2 , ym ) 
[P (X, Y )] = 



 . . ... . 
 
p(xn , y1 ) p(xn , y2 ) ... p(xn , ym )

(4.6)

de cette matrice on peut déduire les probabilités :

p(xi ) = p(xi y1 ∪ xi y2 ∪ ... ∪ xi ym ) (4.7)

La condition d'apparition de xi quel que soit yj est donnée par l'équation suivante.
m
X
p(xi ) = p(xi , yj ) (4.8)
j=1

De la même façon, on a la condition d'apparition de yj quel que soit xi est donnée par
l'équation suivante.
n
X
p(yj ) = p(xi , yj ) (4.9)
i=1

Donc, dans le cas des canaux discrets on peut dénir trois champs d'événements :
 Le champ à l'entrée du canal déni par [X] et [Px ],

SAFI Said 26 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

 Le champ à la sortie du canal déni par [Y ] et [Py ],


 Le champ réuni entrée-sortie déni par [X.Y ] et [P (X, Y )].
A chacun de ces champs correspond une entropie, à savoir
 H(X) : L'entropie de l'évènement à l'entrée,
 H(Y ) : L'entropie de l'évènement à la sortie
 H(X, Y ) : L'entropie du champ réuni entrée-sortie.
Les expressions de ces entropies sont : l'entropie de la source d'entrée du canal ([X]
n
X
H(X) = − p(xi )lb(p(xi )) (4.10)
i=1

l'entropie à la sortie du canal


m
X
H(Y ) = − p(yi )lb(p(yj )) (4.11)
j=1

et l'entropie réuni entrée-sortie


n X
X m
H(X, Y ) = − p(xi , yj )lb(p(xi , yj )) (4.12)
i=1 i=1

4.4 Matrice de transition d'un canal


Un canal est dénit de façon complète en spéciant l'ensemble de ses probabilités de
transition. Le canal de la gure (4.2) est totalement déni par la matrice des probabilités
de transition [P (Y /X)] qui pour expression :

 
p(y /x ) p(y2 /x1 ) ... p(ym /x1 )
 1 1 
 
 p(y1 /x2 ) p(y2 /x2 ) ... p(ym /x2 ) 
[P (Y /X)] = 



 . . ... . 
 
p(y1 /xn ) p(y2 /xn ) ... p(ym /xn )

(4.13)

SAFI Said 27 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

Chaque symbole appliqué à l'entrée du canal correspond un symbole (au minimum) en sortie
alors on aura :
m
X
p(yj /xi ) = 1 (4.14)
j=1

Ce qui nous donne l'événement sûr.


L'ensemble des probabilités d'entrée est une matrice ligne :

[P (X)] = [p(x1 )p(x2 )...p(xn )] (4.15)

L'ensemble des probabilités de sortie est une autre matrice ligne :

[P (Y )] = [p(y1 )p(y2 )...p(ym )] (4.16)

En utilisant la relation de Bayes nous écrivons la relation matricielle suivante :

[P (X, Y )] = [P (X)]d [P (Y /X)] (4.17)

Avec [P (X)]d la matrice diagonale des probabilité de la source

 
p(x ) 0 ... 0
 1 
 
 0 p(x2 ) ... 0 
[P (X)]d = 



 . . ... . 
 
0 0 ... p(xn )

(4.18)

4.5 Exemple de canaux remarquables


4.5.1 Canal sans perte
Si la matrice d'un canal ne possède qu'un élément non nul par colonne, on dit que le
canal est sans perte (lorsque un symbole est émis en entrée je suis sur que je vais recevoir un

SAFI Said 28 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

Figure 4.3  Exemple de canal sans perte

symbole en sortie 'pas de perte de symbole'). La gure (4.3) représente un canal sans perte.
Sa matrice à pour expression :

 
3/4 1/4 0 0 0
 
[P (Y /X)]d =  0
 
0 1/3 2/3 0
 
0 0 0 0 1

(4.19)

4.5.2 Canal déterministe


Un canal dont la matrice ne possédant qu'un élément non nul par ligne est appelé ca-
nal déterministe. La gure (4.4) représente un canal déterministe. dont la matrice a pour
expression :

SAFI Said 29 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

Figure 4.4  Exemple de canal sans déterministe

 
1 0 0
 
1 0 0
 
 
[P (Y /X)] = 0
 
1 0
 
 
0 1 0
 
0 0 1

(4.20)

A noter dans ce type de canal en parle de bruit de la source.

4.5.3 Canal sans bruit


Le canal sans bruit représenté dans la gure (4.5) est à la fois sans perte et déterministe.
La matrice dénissant le canal à un seul élément par colonne (qui doit être égale à 1). Dans
ce cas, les alphabets d'entrée et de sortie ont même dimension.
Pour un canal sans bruit on a donc n = m. La matrice est donnée par

SAFI Said 30 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

Figure 4.5  Exemple de canal déterministe

 
1 0 0
 
[P (Y /X)] = 0 1 0
 
 
0 0 1

(4.21)

4.5.4 Canal binaire symétrique


Un canal binaire symétrique (CBS) est représenté dans la gure suivante (4.6 : La

Figure 4.6  Exemple de canal binaire symétrique

matrice de transition représentant le canal binaire symétrique est donnée par

SAFI Said 31 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

 
1−p p
[P (Y /X)] =  
p 1−p

(4.22)

Remarque :
La probabilité de recevoir un 1 si on émis un 0 est la même de recevoir 0 si on émis un 1

4.6 Relations entre les divers entropies


En se basant sur les probabilités en entrée p(xi ), les probabilités en sortie et les probabilités
conjointes p(xi , yj ) du canal, on peut dénir les diérents fonctions d'entropies relatives à un
n entrées et m sorties.
n
X
H(X) = − p(xi )lb(p(xi ) (4.23)
i=1
m
X
H(Y ) = − p(yj )lb(p(yj ) (4.24)
j=1
n X
X m
H(X/Y ) = − p(xi , yj )lb(p(xi /yj ) (4.25)
i=1 j=1
n X
X m
H(Y /X) = − p(xi , yj )lb(p(yj /xi ) (4.26)
i=1 j=1

En utilisant les cinq matrices de probabilités par rapport au canal de transmission, à savoir :
[P (X)] : matrice des probabilités de l'alphabet à l'entrée ;
[P (Y )] : matrice des probabilités de l'alphabet à la sortie ;
[P (X, Y )] : matrice des probabilités des alphabets réunis, entrée-sortie ;
[P (X/Y )] : matrice des probabilités conditionnelles (entrée conditionnée par la sortie) ;
P (Y /X)] : matrice des probabilités conditionnelles (sortie conditionnée par l'entrée).
A ces matrice de probabilités correspondent cinq entropies :
H(X) : entropie de l'alphabet à l'entrée ;
H(Y ) : entropie de l'alphabet à la sortie ;
H(X, Y ) : entropie des alphabets à l'entrée et à la sortie, réunis ;

SAFI Said 32 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

H(X/Y ) : équivoque (ambiguïté : ambiguity) ;


H(Y /X) : erreur moyenne.
Dans ce qui suit nous résumons l'interprétation de ces entropies comme suit :

 H(X) : représente l'incertitude moyenne relative à l'entrée du canal,


 H(Y ) : représente l'incertitude moyenne relative à la sortie du canal,
 H(X/Y ) : est une mesure de l'incertitude moyenne sur l'entrée du canal une fois que
l'on observe sa sortie. l'entropie H(X/Y ) est parfois appelée ambiguïté (ambiguity)
par rapport à Y ,
 H(Y /X) : représente l'incertitude moyenne (erreur moyenne) sur la sortie du canal
sachant que X a été transmise,
 H(X, Y ) : est une mesure de l'incertitude d'ensemble (en même temps) relative à
l'ensemble du canal de communication.
En utilisant la formule (4.12) de l'entropie H(X, Y ) qui lie l'entrée et la sortie
n X
X m
H(X, Y ) = − p(xi , yj )lb(p(xi , yj ))
i=1 i=1

Compte tenu de ce qui précède on peut démontrer les relations suivantes

H(X, Y ) = H(X) + H(Y /X) (4.27)

de même nous obtenons


H(X, Y ) = H(Y ) + H(X/Y ) (4.28)

Si le canal n'est pas perturbé c'est à dire H(Y /X) = H(X/Y ) = 0 ce qui nous donne

H(X, Y ) = H(Y ) = H(X) (4.29)

Si on est en présence de fortes perturbations dans le canal, alors nous aurons dans ce cas la
relation
H(X, Y ) = H(Y ) + H(X) (4.30)

Conclusion :
La relation (4.29) montre que pour les canaux sans bruits H(X, Y ) est faible, pour les canaux

SAFI Said 33 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

à fortes perturbations, l'incertitude sur l'ensemble du système croit pour atteindre la valeur
donnée par la relation (4.30), lorsque le champ à la sortie devient indépendant du champ à
l'entrée.
Entre l'entropie H(X) et l'entropie conditionnelle H(X/Y ) on peut écrire

H(X) ≥ H(X/Y ) (4.31)

Cette résultat (equation (4.31) est déduite du fait que l'incertitude moyenne a posteriori
(après) (conditionnelle) est plus faible, tout au plus égale à l'incertitude a priori (avant).
Pour les mêmes raisons nous avons

H(Y ) ≥ H(Y /X) (4.32)

A noter qu'il n'aura pas égalité sauf si X et Y sont indépendants.

4.6.1 Résumé : relation entre les diérents entropies dans un canal


En résumé, La transinformation I(X; Y ) est la valeur moyenne de l'information mutuelle,
c'est-à-dire de l'information que l'on obtient sur l'alphabet à l'entrée X par la

réception (connaissance) de l'alphabet à la sortie Y ; autrement dit la valeur de


l'information transmise à travers le canal, pour cette raison elle s'appelle transinformation.
La transinformation I(X; Y ) à comme propriétés :

 I(X; Y ) = I(Y ; X)
 I(X; Y ) ≥ 0
 I(X; Y ) = H(X) + H(Y ) − H(X, Y )
Dans la gure (4.7) nous résumons la relation entre les diérents entropies. La gure (4.7)
montre le niveau (l'emplacement) où chaque entropies intervient, on peut dire que :

 I(X; Y ) : représente la transinformation,


 H(X) : représente l'entropie à l'entrée,
 H(Y ) : représente l'entropie à la sortie,
 H(X/Y ) : représente l'entropie équivoque (perte),

SAFI Said 34 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

Figure 4.7  Relation entre les diérents entropies dans un canal

 H(Y /X) : représente l'entropie d'erreur moyenne (bruit du canal)


 H(X, Y ) : représente l'entropie conjointe.
Remarque :
Même s'il y'a perturbation on peut toujours transmettre l'information à travers le canal.
On a donc :
H(X) = H(X/Y ) + I(X; Y ), H(Y ) = I(X; Y ) + H(Y /X) et H(X, Y ) = H(Y ) + H(X/Y )
A noté que s'il y'à perturbation totale on aura I(X; Y ) = 0 pas d'information à transmettre ! !

Exercice 1 : Considérons un canal caractérisé par son diagramme et par les probabilités
de partition des symbole la source p(x1 ) et p(x2 ) (g. (4.8)) On donne la matrice de

Figure 4.8  Avec p(x1 ) = p(x2 ) = 0.5

probabilité de transition [P (Y /X)] :

SAFI Said 35 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

 
0.1 0.6 0.3
[P (Y /X)] =  
0.2 0.4 0.4

1. Donner la matrice de bruit

2. En déduire les probabilités p(yj )

3. Calculer les entropies suivantes :


 Entropie à l'entrée du canal
 Entropie à la sortie du canal
 L'erreur moyenne
 L'entropie conjointe
 L'équivoque
 La transinformation

4. Quel est le type du canal ?

4.7 Capacité, redondance et ecacité d'un CDSM


4.7.1 La capacité du canal
a) Capacité par symbole
L'ecacité avec laquelle l'information est transmise et de pouvoir trouver sa limite supé-
rieure, Shannon a introduit la notion de capacité du canal.
La capacité du canal est dénit par

C = max(I(X; Y ) = max[H(X) − H(X/Y ) = max[H(Y ) − H(Y /X)] bit/sym (4.33)

b) Capacité par seconde


Si r représente le débit du canal en symbole/seconde, le débit maximal d'information du
canal a pour capacité rC . On appelle cette quantité la capacité par seconde du canal. Elle

SAFI Said 36 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

est notée Ct (bit/s)


C max(I(X; Y )
Ct = = bit/s (4.34)
τ τ
I(X;Y )
τ est la durée moyenne d'un symbole, tandis que τ
est la transinformation par unité de
temps. Dans ce cas on dénit le débit de transinformation par
I(X; Y
It (X; Y ) = bit/s (4.35)
τ
Si τ = 1, alors
Ct = C bit/s (4.36)

A noter que les deux grandeurs sont numériquement égales. par la suite, on ne fera de dié-
rence entre les deux dénitions données pour la capacité du canal.

4.7.2 Capacité des canaux remarquables


a. Canal sans perte
Un canal sans perte est caractérisé par :
H(X/Y ) = 0 et H(X; Y ) = H(X).
Donc l'information mutuelle est égale à l'entropie de la source ce qui implique qu'il n'a pas
de perte d'information pendant le transfert des symboles de la source. Alors la capacité par
symbole du canal est :

C = maxp(xi ) [H(X)] = lb(n) bit/s (4.37)

où n est le nombre de symboles de X

b. Canal déterministe
Un canal déterministe est caractérisé par :
H(Y /X) = 0 ∀ p(xi ) alors I(X; Y ) = H(Y ).
Le transfert d'information est égal à l'entropie de la sortie. Alors la capacité par symbole du
canal a donc pour expression

C = maxp(yj ) [H(Y )] = lb(m) bit/s (4.38)

SAFI Said 37 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

où m est le nombre de symboles de Y

c. Canal sans bruit


Un canal sans bruit est sans perte et déterministe, alors :

I(X; Y ) = H(X) = H(Y ) (4.39)

Dans ce cas là la capacité par symbole du canal a pour valeur :

C = lb(n) = lb(m) bit/s (4.40)

d. Canal binaire symétrique


Dans un canal binaire symétrique (CBS), l'information mutuelle a pour expression :

I(X; Y ) = H(Y ) + plb(p) + (1 − p)lb(1 − p) (4.41)

ce qui nous donne la capacité par symbole du canal a pour expression

Cs = 1 + plb(p) + (1 − p)lb(1 − p) bit/s (4.42)

N.B :
Dans le cas de fortes perturbations nous avons p = 1/2 ce qui implique C = 0, ce qui
s'explique par le fait qu'un symbole peut apparaître à la sortie comme provenant, avec la
même probabilité autant de x1 que x2 ; alors sa réception ne modiera pas les connaissances
que nous avons à priori sur le symbole appliqué à l'entrée, (le canal est dit sans utilité).

4.7.3 La redondance et l'ecacité du canal


La redondance du canal sera dénie, par analogie avec la redondance de la source, comme
la diérence entre la capacité du canal et la transinformation (l'information transmise).

Re = C − I(X; Y ) (4.43)

On peut dénir la redondance relative en divisant la redondance par la capacité du canal


comme suit
I(X; Y )
ρe = 1 − (4.44)
C

SAFI Said 38 Information theory and coding


CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES

De la la même façon on peut dénir l'ecacité de l'utilisation du canal comme étant le


rapport entre la transinformation et la capacité du canal par

I(X; Y )
ηe = (4.45)
C

A partir des équations (4.44) et (4.45) nous concluons

ηe = 1 − ρe ⇒ η≤1 (4.46)

En conclusion L'ecacité de l'utilisation du canal est une mesure de l'écart entre


la transinformation et sa valeur maximale

4.8 Conclusion
In this chapter we have discussed the information emitted by a source through channel to
the receiving source. And we have discussed the expression the channel eciency, the channel
redundancy and the channel capacity for dierent discret channel.
In conclusion the channel capacity is the property of a particular physical channel over which
the information is transmitted. This is true provided the term channel is correctly interpreted.
A channel means not only the transmission medium but it also includes the specications of
the kind of signals (binary, r-ary, ... etc) and the kind of receiver used (the receiver determines
the error probability). All these specications are included in the channel matrix.
A channel matrix completely species a channel. If we decide to use, for example, 4-ary
digits instead of binary digits over the same physical channel, the channel matrix changes
(it becomes a 4 × 4), as does the channel capacity. Similarly, a change in the receiver or the
signal power or noise power will change the channel matrix and, hence, the channel capacity.

SAFI Said 39 Information theory and coding


Chapitre 5

Information des signaux continus

5.1 Introduction
La source qui alimente un canal analogique est un signal continu x(t). L'ensemble de ces
messages forme une famille de signaux engendrés par un processus aléatoire ergodique.
On suppose que x(t) à partir de ses échantillons périodiques. A tout instant, la collection
des échantillons susceptibles d'être observé constitue une variable continu X que l'on peut
d'écrire au moyen de sa densité de probabilité p(x)

5.2 modèle de canal continu


Considérons un canal continu à parturbation représenté dans la gure (5.1).

Figure 5.1  Modèle de canal continu

40
CHAPITRE 5. INFORMATION DES SIGNAUX CONTINUS

A l'entrée du canal on applique le signal x(t) et à la sortie on obtient le signal y(t) qui
est diérent de x(t) à cause des perturbations.

5.3 Entropie diérentielle


La quantité moyenne d'information par échantillon de x(t) et y(t) sont respectivement
Z +∞
H(X) = − p(x)lb(p(x))dx (5.1)
−∞
Z +∞
H(Y ) = − p(y)lb(p(y))dy (5.2)
−∞

tandis que la transinformation est donnée par :


Z +∞ Z +∞
p(x, y)
I(X; Y ) = p(x, y)lb( )dxdy (5.3)
−∞ −∞ p(x)p(y)

ou bien
Z +∞ Z +∞ Z +∞ Z +∞
I(X; Y ) = p(x, y)lb(p(x, y))dxdy − p(x)lb(p(x))dx − p(y)lb(p(y))dy
−∞ −∞ −∞ −∞
(5.4)
La relation (5.4) peut s'écrire en fonction des entropies comme suit

I(X; Y ) = H(X) + H(Y ) − H(X, Y ) (5.5)

Avec Z +∞ Z +∞
H(X, Y ) = − p(x, y)lb(p(x, y))dxdy (5.6)
−∞ −∞

De la même manière, on peut dénir les entropies conditionnelles avec


Z +∞ Z +∞
H(X/Y ) = − p(x, y)lb(p(x/y))dxdy (5.7)
−∞ −∞
Z +∞ Z +∞
H(Y /X) = − p(x, y)lb(p(y/x))dxdy (5.8)
−∞ −∞

SAFI Said 41 Information theory and coding


CHAPITRE 5. INFORMATION DES SIGNAUX CONTINUS

5.4 Théorème de Shannon relatif à la capacité du canal


continu
5.4.1 Premier théorème de Shannon
Considérons un canal aecté par un bruit gaussien additif, à la sortie du canal on a :

Y =X +n (5.9)

Où X désigne l'entrée du canal et n un bruit additif à bande limitée de valeur moyenne nulle
et de variance σ 2 .
Lorsque X est connu, toute connaissance sur Y est en fait une connaissance sur le bruit seul.
Cette situation peut être modéliser par

H(Y /X) = H(n/X) (5.10)

spéciquement, on peut écrire :

I(X; Y ) = H(Y ) − H(Y /X) = H(Y ) − H((X + n)/X) (5.11)

Mais si le bruit n(t) et indépendants du signal d'entrée X(t) on aura

H(Y /X) = H(n) (5.12)

Ce qui implique
I(X; Y ) = H(Y ) − H(n) (5.13)

La formule (5.13) est appelée parfois premier théorème de Shannon.

5.4.2 Formule de Shannon-Théorème fondamentale


Si Pn = N représente la puissance du bruit et Px = S : la puissance moyenne de la
source. L'erreur moyenne ne dépendrait que de la puissance moyenne Pn du bruit. Si S a une
densité de probabilité p(x) de distribution gaussienne, la quantité d'information transmise
sera maximale lorsque ce qui est injecté à l'entrée est maximal c'est à dire de distribution

SAFI Said 42 Information theory and coding


CHAPITRE 5. INFORMATION DES SIGNAUX CONTINUS

gaussienne.
Si S est la puissance de ce signal, l'entropie à l'entrée sera

H(X) = lb( 2πeS) (5.14)

La somme de deux processus gaussiens de variances σ12 et σ22 est un processus gaussien de
variance (σ12 + σ22 ), le signal de sortie a une puissance (S + N ) donc
p
H(Y ) = lb( 2πe(S + N )) (5.15)

Donc le bruit aura enn une entropie



H(N ) = lb( 2πeN (5.16)

La quantité maximale d'information qui peut être transmise par le canal s'écrit

r
p S
I(X; Y ) = lb( 2πe(S + N ) − lb( 2πeN ) = lb( 1 + ) (5.17)
N

La formule (5.17) peut s'écrire sous la forme de capacité de canal (equation (5.18).
Ltransinformation I(X; Y ) est une entropie alors elle représente une quantité moyenne d'in-
formation par message. Si le signal est de bande de fréquence B (c-à-d 0 < f < B , il sut
de connaître 2B échantillons chaque seconde pour le dénir complètement. A raison de 2B
échantillons par seconde toute l'information est donc transmise. A noter échantillonner plus
rapidement ne fait qu'accroître la redondance.
Chaque seconde la quantité moyenne d'information qu'il est possible d'acheminer sur un
canal de largeur de bande B et donc : la capacité maximale du canal sera
r
S
Ct = 2B × I(X; Y ) = 2B × lb( 1 + )
N
S
= Blb(1 + ) (5.18)
N

La formule (5.18) représente la formule fondamentale de Shannon, sont intéret est fon-
damentale car elle xe une limite dont il souvent très dicile de s'approcher.
A partir de la relation (5.18) on peut dire que : La capacité du canal augmente avec la largeur
de bande B et avec la puissance du signal S , par contre, elle diminue avec la puissance du
bruit. La capacité ainsi dénie est mesurée en bit/s.

SAFI Said 43 Information theory and coding


CHAPITRE 5. INFORMATION DES SIGNAUX CONTINUS

Lorsque le canal est aecté par un bruit blanc de densité spectrale de puissance N0 alors on
peut écrire : N = BN0 , donc la relation (5.18) devient :
r
S
Ct = Blb( 1 + )
BN0
Cette règle souligne les rôles fondamentaux que jouent la bande passante et le rapport signal
sur bruit en télécommunication. Elle montre aussi que pour une capacité de canal donnée,
bande passante et puissance présentent des aspects complémentaires lorsqu'il faut trouver un
compromis.
Pour des très grandes largeurs de bande B , la capacité du canal s'approche lentement de la
limite comme suit
r
S 1 S S
C∞ = limB→∞ Blb( 1 + )= = 1.44 bit/s
BN0 ln(2) BN0 N0
Il s'en suit de ce qui précède qu'il n'est pas nécessaire d'augmenter la largeur de band au
dessus d'une certaine limite, car la capacité croit très peut (gure 5.2)

Figure 5.2  Variation de la capacité d'un canal en fonction de la largeur du bande (dans
cette exemple nous avons pris : S/N0 = 10

5.5 conclusion
According to the result derived in this chapter, theoretically we can communicate error-
free up to C bit/s. There are, however, practical diculties in achieving this rate. In proving

SAFI Said 44 Information theory and coding


CHAPITRE 5. INFORMATION DES SIGNAUX CONTINUS

the capacity formula, we assumed that communication is eected (eectué) by signals of du-
ration T . This means we must wait T seconds to accumulate the input data and then encode
it by one of the waveforms of duration T .
Because the capacity rate is achieved only in the limit as T → ∞, we have to wait a long time
at the receiver to get the information. Moreover, because the number of possible messages
that can be transmitted over interval T increases exponentially with T , the transmitter and
receiver structures increase in complexity beyond imagination as T → ∞.
The channel capacity indicated by Shannon's equation (5.19) is the maximum error-free
communication rate achievable on an optimum system without any restrictions (except for
bandwidth B , signal power S , and gaussian white channel noise power N ). If we have any
other restrictions, this maximum rate will not be achieved. For example, if we consider a
binary channel (a channel restricted to transmit only binary signals), we will not be able to
attain Shannon's rate, even if the channel is optimum. The channel capacity formula ( eq.
(5.19)) indicates that the transmission rate is a monotonically increasing function of signal
power S . If we use a binary channel, however, we know that increasing the transmitted power
beyond a certain point buys very little advantage. Hence, on a binary channel, increasing S
will not increase the error-free communication rate beyond some value. This does not mean
that the channel capacity formula has failed. It simply means that when we have a large
amount of power (with a nite bandwith) available, the binary scheme is not the optimum
communication scheme.
One last comment : Shannon's results tell us the upper theoretical limit of error-free com-
munication. But they do not tell us precisely how this can be achieved. To quote the words
of Abramson ;"This is one of the problems which has persisted to mock information theorists
since Shannon's original paper in 1948. Despite an enormous amount of eort spent since that
time in quest of this Holy Grail of information theory. a deterministic method of generating
the codes promised by Shannon is still to be found" 1 .

1. N. Abramson, Information theory and Coding, McGraw-Hill, New York, 1963

SAFI Said 45 Information theory and coding


Chapitre 6

Principe de codage : Codage de source

6.1 Introduction
Avant d'entrée dans les détails de ce cours nous notons que :
 Les messages délivrés par la source ne sont pas en général sous une forme compatible
avec le canal.
 Les rendre compatibles : coder en utilisant un certain nombre de symbole acceptés
par le canal, par exemple 0 ci 1 dans le cas d'un canal binaire (autres possibilités Sont
par exemple : fréquence f1 et f2 , phase ϕ1 et ϕ2 , amplitude A1 et A2 .
 En général, l'alphabet de la source dière de l'alphabet du canal et donc, le but
primordial du codage de source sera celui de permettre le passage de l'alphabet de la
source à la Sortie à l'alphabet du canal.
Donc, Pour atteindre l'ecacité maximale, il est souhaitable que la transinformation soit
maximale et dans ce but il faut faire en sorte que les symboles générées par la source se-
condaire (la sortie du codeur) aient des probabilités qui puissent assurer ce maximum il faut
adopté une réalisation d'une adaptation statistique de la source au canal.
Dans le cas des canaux sans perturbation : cette ecacité est atteint lorsque l'entropie de la
source secondaire maximale.
C = maxH(X) = lb(n) (6.1)

où n est le nombre de symbole de l'alphabet du canal (donc du code). La relation (6.1) est
délivrée de la relation du chapitre précédent lorsque H(X/Y ) = 0.

46
CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

6.2 Codage de sources


Une source (SDSM) délivre des messages d'un alphabet suivant une loi de probabilité.
Chaque messages de l'alphabet source est apparu avec une probabilité donné, donc la conver-
sion du message de sortie d'une (SDSM) est appelée codage source (g. 6.1). N.B :

Figure 6.1  Codage de source

L'objectif principale du codage de source est de modier le débit d'information moyen du


canal en réduisant la redondance des informations émise par la source.
Donc, chaque caractère de l'alphabet est représenté une seule suite binaire appelée mot de
code (code word), cette opération est appelé codage.
A noter qu'un code est un ensemble de mot de code.
Exemple :
Le codage décimal codé binaire, couramment noté DCB, est une manière de représentation
des nombres décimaux en numérotation binaire pondérée (g. 6.2). On peut citer d'autre
code comme le code American Standard Code for Information Interchange (Code américain
normalisé pour l'échange d'information), plus connu sous l'acronyme ASCII, est une norme
informatique de codage de caractères apparue dans les années 1960. C'est la norme de codage
de caractères la plus inuente à ce jour (g. 6.3).
Un autre exemple de code plus ancien Le code Morse (inventé par Samuel Morse (1791 −
1872)) est un code télégraphique utilisant un alphabet conventionnel (g. 6.4) fait de traits
et de points, et, quant au son, de longues et de brèves. Depuis le 1er février 1999, le code
Morse a été abandonné pour les communications maritimes au prot d'un système satelli-
taire. Remarque :

SAFI Said 47 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

Figure 6.2  Codage DCB

Dans un canal sans perturbations, la diminution de la redondance nous permet


d'accroître l'ecacité.
Pour les canaux réels, on introduit une redondance pour s'assurer d'une certaine
protection contre les perturbations (code détecteur ou (correcteur) d'erreur.
Si on est dans un cas de fortes perturbations : La redondance introduite est
grande ! ! !

SAFI Said 48 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

Figure 6.3  Codage de source

6.3 codes à décodages uniques


6.3.1 Dénition
Considérons une SDSM, qui fournit des symboles pris sur son alphabet [S] :
[S] = [s1 s2 ...sN ]
De probabilités :
[P ] = [p(s1 )p(s2 )...p(sN )]
est [X] représente l'alphabet ni du code (donc du canal) :
[X] = [x1 x2 ...xn ]
Alors, avec ces lettres on forme un nombre N de mots-codes :
[C] = [c1 c2 ...cN ]
Les mots-codes sont des successions nies de lettres de l'alphabet [X]. Le codage est
équivalent à une correspondance biunivoque entre les symboles sk ∈ [S] et les mots ck ∈ [C].
En conclusion :
La totalité des mots ck constitue un code.

 Au moyen de l'alphabet [X] on peut former des mots qui ne possèdent pas de corres-

SAFI Said 49 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

Figure 6.4  Code Morse


pondant dans les symboles de l'alphabet de la source ! ! ! !. ça veut dire que ces mots
sont des mots dépourvus de sens. Les autres ayant un sens ou mots-code.
 Si les mots-code sont choisis convenablement, on peut faire en sorte qu'à chaque suc-
cession de mots corresponde une seule succession de lettres (mots) de la source. Dans
ce cas, le code appelle code a décodage unique.

6.3.2 Classication des codes


Pour expliquer la notion d'un code, on considère le tableau suivant représentant le codage
au moyen des symboles 0 et 1 d'une source de dimension 4.

SAFI Said 50 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

si code 1 code 2 code 3 code 4 code 5 code 6


s1 00 00 0 0 0 1
s2 01 01 1 10 01 01
s3 00 10 00 110 011 001
s4 11 11 11 111 0111 0001

1. Code de longueur xe


Un code de longueur xe est un code dont lequel tous les mots ont la même longueur.
Exemple : codes 1 et 2 du Tableau (6.3.2) sont de longueur xe égale à 2, se sont des codes
à décodage très simple.

2. Code de longueur variable


Un code de longueur variable est un code dont les mots n'ont pas tous la même longueur.
Exemple : les codes 3, 4, 5 et 6 du Tableau (6.3.2) sont des codes de longueur variables.

3. Code univoque
Un code univoque est un code dont lequel chaque mot est distinct de tous les autres mots.
Exemple : les codes 2 à 6 du tableau (6.3.2) représente des codes univoque.
Contre-exemple le code 1 pour lequel les codages des symboles s1 et s3 sont identiques.

4. Code sans préxe


Dénition du préxe :
Soit cN = xi1 xi2 ...xim est un mot du vocabulaire d'un code. La suite de lettre ci = xi1 xi2 ...xik
où k < m, s'appelle le préxe du mot cN .
Un code est dite sans préxe si aucun mot ne peut être formé à partir d'un autre par addition
de symboles.
Exemple : les codes 2, 4 et 6 du tableau (6.3.2).

SAFI Said 51 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

5. Code déchirable de façon unique


Un code est déchirable de façon unique est un code qui permet de reconstituer dans son
intégrité et sans ambiguïté une séquence de symboles d'entrés à partir de la séquence des
codes binaires qui leur sont associés.
Exemple :
Le code 3 du tableau (6.3.2) n'est pas déchirable de façon unique puisque la séquence 1001
peut correspondre a une suite d'entrée s2 s3 s2 aussi bien qu'une suite s1 s2 s2 s1 .
Une condition susante pour qu'un code possède cette qualité est qu'aucun de ses mots ne
soit pas le préxe d'un autre mot.
Exemple :
Les codes 2, 4 et 6 du tableau (6.3.2) sont des codes déchirables de façon unique.
N.B :
Cette condition n'est pas nécessaire à l'unicité de déchirage. le code 5 du tableau (6.3.2)
n'est pas un code sans préxe, il est pourtant à déchirage de façon unique ; le bit 0 est
préxe de chacun des antres mots du code.
Exemple :

Message Codage
A 0
B 11
C 100
D 101

Prenons la suite BACDBAD en n'utilisant aucun signe d'espacement soit : 110100101110101.


Il n'y a aucune ambiguïté à la lecture, seul B commence par 11, ensuite le 0 ne peut appartenir
qu'à A car aucun autre mot ne commence par 0 etc.

6. Code instantané
Un code à déchirage unique est dit code instantané si à la n de tout code est identiable
sans examen des symboles du mot de code qui suit. Les codes instantanés sont des

SAFI Said 52 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

Figure 6.5  Relation entre les codes


codes sans préxe, pour cela ces dernier sont parfois appelés codes instantanés.
La condition nécessaire est susante pour qu'un code soit instantané est qu'aucun mot du
code ne soit un préxe d'un autre mot-code.

1. Un code instantané ne possède pas la propriété de préxe ou qu'il est irréductible.

2. Un code instantané est un code à décodage unique, la réciproque n'est pas toujours
vraie ! ! !

Une illustration de la relation ces deux catégories est donnée en gure (6.5).

6.4 Longueur moyenne d'un mot-code


6.4.1 Ecacité du codage
A noter que, par le codage on cherche à accroître l'ecacité de la transmission de l'in-
formation, la notion d'ecacité étant dénie dans ce qui suit. Dans le cas des canaux sans
bruits, quand on dit accroître l'ecacité on pense généralement à la minimisation d'une cer-
tain fonction de coût.
On peut obtenir l'une des plus simples fonctions de coût en associant à chaque mot-code ci

SAFI Said 53 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

un certain coecient de coût ti . Dans un cas particulier, le coecient de coût peut être la
durée du mot-code ci , car le prix de l'exploitation d'un système de transmission peut être
considéré comme croissant de façon approximativement linéaire avec le temps.
Dans ce cas, le coût moyen par message devient :
N
X N
X
C= = ti p(si ) (6.2)
i=1 i=1

La transmission la plus ecace sera celle qui minimise le coût moyen C .


Comme on peut le voir de la relation (6.2), le coût moyen dans le cas considéré est égale à
la durée moyenne d'un mot-code.
Si tous les lettres xi de l'alphabet [X] du code ont la même durée τ et si sans restreindre
le caractère générale du problème, cette durée peut être considérée comme égale à l'unité
(τ = 1), alors :

ti = li × τ = li ) (6.3)

autrement dit, la durée d'un mot est égale au nombre de lettres qui constituent le mot en
question.
Dans ce cas, le coût moyen devient :
N
X
C= p(si )li = l (6.4)
i=1

Le paramètre l représente le nombre moyen de bits par symbole source utilisé dans le processus
de codage. Autrement dit, le coût moyen est égal à la longueur moyenne d'un mot-code. En
résumé :
L'ecacité de la transmission peut être accrue en attribuant de manière rationnelle, à chaque
message si donné par la source, un mots-code ci où le nombre de lettres li sera choisi de
manière à ce que la longueur moyenne l des mots soit aussi faible que possible. A cet eet,
l'ecacité de la transmission ne peut être dénie que l'on connaît la limite inférieure de la
longueur moyenne l.

SAFI Said 54 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

6.4.2 Limite inférieure de la longueur moyenne d'un mot


Considérons une source caractérisé par l'ensemble des messages :

[S] = [s1 s2 ...sN ] (6.5)

avec les probabilités :


[P ] = [p(s1 )p(s2 )...p(sN )] (6.6)

Soit les mots-code :


[C] = [c1 c2 ...cN ] (6.7)

qui apparaissent avec les mêmes probabilités que les messages de la source, à savoir :

[Pc ] = [P ] = [p1 p2 ...pN ] (6.8)

opi = p(si ).
Les longueurs des mots-code sont :

[L] = [l1 l2 ...lN ] (6.9)

Où li est égale de lettre de l'alphabet du code (nombre des bits) qui composent le mot ci
supposées de la même durée τ = 1.
L'alphabet du code est :

[X] = [x1 x2 ...xn ] (6.10)

L'entropie de la source est :


N
X
H(S) = H(C) = − p(si )lb(p(si )) (6.11)
i=1

Où H(C) est l'entropie des mots-codes [C].


Alors que l'entropie de l'alphabet [X] est :
n
X
H(X) = − p(xi )lb(p(xi )) (6.12)
i=1

SAFI Said 55 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

L'information moyenne par mot-code est donnée par le produit du nombre moyen de lettres
l et l'information moyenne par lettre, et donc :

H(S) = H(C) = lH(X) (6.13)

La valeur maximale de l'entropie s'obtient lorsque les probabilités p(xi ) sont égaux, à savoir
lorsque :
1
p(x1 ) = p(x2 ) = ... = p(xn ) = (6.14)
n
cette valeur est lb(n), donc on aura :

H(X) ≤ lb(n) (6.15)

Compte tenu de cette inégalité, la relation (6.13) devient :

H(S) = H(C) = lH(X) ≤ llb(n) (6.16)

d'où en déduit la relation suivante :

H(S)
l≥ = lmin (6.17)
lb(n)

La dernière relation (eq. 6.17) montre que la longueur moyenne l d'un mot-code a une marge
inférieur égale à l'entropie de la source, divisée par la valeur maximale de l'entropie de
l'alphabet du code. Autrement dit, l'information moyenne par lettre de l'alphabet du code
H(S)/l ne peut dépasser la valeur maximale de l'entropie de l'alphabet du code lb(n).
H(S)
≤ lb(n) (6.18)
lb(n)

6.4.3 Capacité, ecacité et redondance du code


On appelle capacité du code, la valeur maximale de l'entropie de l'alphabet du code :

C = max(H(X)) = lb(n) (6.19)

Compte tenu de ce qui précède, l'ecacité du code (du codage) peut être dénie par le
rapport entre la longueur moyenne minimale et la longueur moyenne d'un mot-code :

lmin
η= (6.20)
l

SAFI Said 56 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

Avec lmin est la valeur minimale que peut prendre l. Lorsque η s'approche de la valeur de 1.
On dit que le code est ecace.
Comme on l'a déjà montré, la limite inférieure de la longueur d'un mot-code est :

H(S) H(S)
lmin = = (6.21)
lb(n) C
tandis que la longueur moyenne d'un mot-code est :
H(S)
l= (6.22)
H(X)
Il s'ensuit des relations (6.20) et (6.21) que :
H(S)
η= (6.23)
llb(n)
ou bien, tenons compte tenu de la relation (6.22) on obtient :
H(X)
η= (6.24)
lb(n)
On appelle redondance du code la longueur complémentaire de l'ecacité, telle que dénie
par la relation :

H(S)
γ =1−η =1− (6.25)
llb(n)
Ou bien
lb(n) − H(X)
γ= (6.26)
lb(n)

Exemple 1
Considérons la source dont l'alphabet est : [S] = [s1 , s2 , s3 , s4 ]
et les probabilités :
[P ] = [1/2, 1/4, 1/8, 1/8]
L'entropie de la source est donc :

4
X
H(S) = − p(si )lb(p(si ) = −1/2lb(1/2) − 1/4lb(1/4) − 2(1/8lb(1/8)) = 7/4 bit/symbole
i=1
Supposons que l'alphabet du code est formé de deux symboles :
[X] = [0, 1]

SAFI Said 57 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

Figure 6.6  Arbre de codage correspondant

et supposons que l'on fasse le codage suivant :


s1 → 00
s2 → 01
s3 → 10
s4 → 11
Ce codage est représenté par le graphe de la gure (6.6) Dans ce cas on obtient la longueur
moyenne des mots code :
l = 4i=1 pi li = 2
P

Compte tenu de la relation (6.23), l'ecacité est

7/4 7
η= = = 0.875
2lb(2) 8

et la redondance
γ = 1 − η = 0.125

Mais on peut faire également un autre codage, à savoir :


s1 → 0
s2 → 10
s3 → 110

SAFI Said 58 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

s4 → 111
Ce codage est illustré par le graphe représenté dans la gure (Fig. 6.7). Dans ce cas on
obtient pour la longueur moyenne moyenne des mots :
Pour ce deuxième type de codage on a :

Figure 6.7  Arbre de la deuxième façon de codage

4
X
l= pi li = 1.75
i=1

Pour l'ecacité nous avons


7/4
η= =1
1.75lb(2)
et pour la redondance nous avons :

γ =1−1=0

Dans ce procédé de codage, la valeur maximale de l'ecacité a été atteinte en attribuant le


mot-code de la moindre longueur au message avant la plus grande probabilité et vice versa
et de la sorte que l'entropie de l'alphabet a été porté à sa valeur maximale.

SAFI Said 59 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

Exemple 2
Considérons un source discrète sans mémoire à trois symboles [S] = [s1 , s2 , s3 ] avec
p(s1 ) = 0.5, p(s2 ) = 0.25 et p(s3 ) = 0.25. La source produit chaque T secondes un symbole.
Ces symboles sont codés comme indique le tableau suit :
s1 → 1
s2 → 01
s3 → 00
l'entropie de la source est :
H(S) = −(0.5lb(0.5) + 0.25lb(0.25) + 0.25lb(0.25)) = 1.5bit/sy
l'entropie par unité de temps est :
Ht (S) = 1.5bit/sy × 1/T sy/S = 1.5T bit/s
La longueur moyenne d'un mot-code est :
l = 1 × 0.5 + 2 × 0.25 + 2 × 0.25 = 1.5
L'ecacité sera donc égale à :

1.5
η= =1
1.5lb(2)
Si l'aplphbet du code est formé par deux symboles [X] = [1, 0] (alphabet de source secondaire)
avec la même probabilité, l'entropie du codeur sera donc :
H(X) = −(0.5lb(0.5) + 0.5lb(0.5)) = 1bit/sy
l'entropie par unité de temps sera donc :
Ht (X) = 1bit/sy × 1.5sy/s = 1.5bit/s
L'alphabet de la source est constitué de 3 symboles, l'entropie maximale sera donc :
Hmax (S) = −3 31 lb( 31 )bit/sy
A l'entrée (source primaire), il y'a redondance R = Hmax (S)−H(S) = 0.085bit/sy . A la sortie
(source secondaire) Hmax (X) = H(X) = lb(2) c'est à dire la redondance est nul (γ = 0) et
l'ecacité de codage est maximale. On peut dire que le code utilisé est optimal.

SAFI Said 60 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

6.5 Code optimaux absolus


6.5.1 Condition d'existence
L'égalité de la relation (6.17) donne la valeur minimale pouvant être obtenue pour la
longueur moyenne l ; en d'autres mots, elle est la relation qui donne la condition de l'ecacité
maximale :
H(S) = H(C) = lmin lb(n) (6.27)

Cette égalité a lieu seulement si les lettres de l'alphabet du code seront utilisées avec des
probabilité égaux c'est -à- dire :

1
p(x1 ) = p(x1 ) = ... = p(xn ) = (6.28)
n

Dans ce cas H(X) prend la valeur maximale lb(n), et l'ecacité sera :

H(X)
η= (6.29)
lb(n)

Résumé :
Les codes dont l'ecacité est égale à l'unité s'appellent codes optimaux absolus. La longueur
moyenne, l, prend la valeur moyenne

H(S)
lmin = (6.30)
lb(n)
Car H(S) est xe (déterminé par la source).

6.5.2 L'inégalité de Kraft-Mc Millan


Les lettres de l'alphabet du code étant considérées comme indépendantes. En attribuant
le mot-code de la moindre longueur au message ayant la plus forte probabilité, il s'ensuit
que :
1
p(si ) = p(ci ) = ( )li = n−li (6.31)
n
ou puisque
N
X
p(si ) = 1 (6.32)
i=1

SAFI Said 61 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

on obtient
N
X
n−li = 1 (6.33)
i=1
La relation (6.33) donne le rapport qui doit exister entre les longueurs li et le nombre de
lettre n de l'alphabet du code, dans le cas d'un code optimal absolu.
Si, pour un code quelconque, la relation (6.33) était satisfaite, il ne s'ensuivra pas obligatoi-
rement que le code en question soit un code optimal absolu. Mais on peut armer dans ce
cas qu'avec l'alphabet et les longueurs données on peut former un code optimal absolu.
Donc, la relation (6.33) représente un cas particulier du théorème de l'existence des codes
irréductibles, exprimé par l'inégalité de Kraft-McMillan.
L'inégalité de Kraft-McMillan
Soit [S] une source discrète sans mémoire (SDSM) d'alphabet [s1 s2 ...sN ]. On désigne par li
la longueur du code correspondant à si .
Une condition nécessaire d'existence d'un code (binaire) instantané a pour expression
N
X
K= 2−li ≤ 1 (6.34)
i=1

On remarquera que l'inégalité de Kraft-McMillan nous assure qu'il existe bien un code
instantané (irréductible) déchirable dont la longueur des mots satisfait à l'inégalité (6.34)
en question. Elle ne nous dit rien sur la façon d'engendrer un tel code, pas plus qu'elle ne
nous garantit qu'un code satisfaisant à cette inégalité est décodable de façon univoque.

Exercice
On considère une source [S] (SDSM) produisant les symboles si , i = 1, 2, 3, 4. Le tableau
suivant propose quatre codages binaires possibles.

si code A code B code C code D


s1 00 0 0 0
s2 01 10 11 100
s3 10 11 100 110
s4 11 110 110 111

SAFI Said 62 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

1. Montrer que les codes A, C et D satisfont à l'inégalité de Kraft McMillan et que le


code B ne la satisfait pas.

2. Montrer que les codes A et D sont déchirables de façon unique tandis le code C ne
l'est pas et le code B n'est pas optimal.

Réponse
1. En utilisant la relation (6.34) nous obtenons les résultats suivants :
- Pour le code A nons avons l1 = l2 = l3 = l4 = 2, ce qui nous donne :

4
X 1
K= 2−li = 4 = 1
i=1
4
- Pour le code B nons avons l1 = 1, l2 = l3 = 2 et l4 = 3, ce qui nous donne :

4
X 1 1 1 1
K= 2−li = +2 + =1+ >1
i=1
2 4 8 8
- Pour le code C nons avons l1 = 1, l2 = 2 et l3 = l4 = 3, ce qui nous donne :

4
X 1 1 1
K= 2−li = + +2 =1
i=1
2 4 8
- Pour le code D nons avons l1 = 1, l2 = l3 = l4 = 3, ce qui nous donne :

4
X 1 1 7
K= 2−li = +3 = <1
i=1
2 8 8
Tous les codes sauf le code B satisfont à l'inégalité de Kraft-McMillan.

2. Les codes A et D sont des codes sans préxe. Ils sont par conséquent déchirables de
façon unique. Le code B ne satisfait pas à l'inégalité de Kraft-McMillan et n'est pas
donc pas optimal.
Bien que le code C satisfait à l'inégalité de Kraft-McMillan, il n'est pas déchirable
de façon unique.
Exemple :
prenons la séquence binaire 0110110 : une telle séquence peut correspondre aussi bien
à la suite s1 s2 s1 s4 qu'à la suite s1 s4 s4 des symboles émis par la source.

SAFI Said 63 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

En résumé, cela veut dire que l'inégalité de Kraft-McMillan nous assure seulement sur l'exis-
tence d'un code optimal.

6.6 Codage entropique


On appel codage entropique l'élaboration d'un codage dont la longueur des mots reète
l'entropie d'une source discrète sans mémoire. Nous allons étudier dans ce qui suit deux types
de codage entropique.

6.6.1 Codage de Shannon-Fano


Ce codage est dite 'ecace', il est obtenu par la procédure suivante :
 Lister les symboles de la source par probabilités décroissantes.
 Partager l'ensemble en deux sous-ensembles aussi équilibré que possible au sens de la
sommation des probabilités élémentaires des symboles.
 Répéter le processus de partage pour chaque sous ensemble en assurant au mieux
l'équilibre jusqu'à ce que l'opération devienne impossible.
 Attribuer le bit 0 pour les sous ensembles supérieurs et les 1 pour les sous ensembles
inférieurs.
Exemple :
Dans la gure (6.8) nous présentons les étapes de codage entropique de Shannon-Fano.

Figure 6.8  Exemple de codage de Shannon-Fano

SAFI Said 64 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

6.6.2 Codage de Human


Le codage de Human produit généralement un code optimal. C'est le plus ecaces des
codes entropique. La méthode de codage de Human est la suivante :

1. Lister les symboles de la source par probabilités d'occurrence décroissante.

2. Additionner les probabilités des deux éléments de probabilités les plus faibles et réor-
donner la liste. Cette étape appelée réduction du niveau 1. Répéter cette procédure.
Jusqu'au niveau où il ne reste dans le tableau que deux positions classées dans l'ordre
de leurs probabilités.

3. Commencer le codage au dernier niveau de réduction sur le couple de probabilités


obtenu. On attribue le bit 0 comme premier digit des mots codés de tous les symboles
de la source associés à la première probabilité et 1 comme premier digit des mots codés
de tous les symboles associes à la seconde probabilité.

4. On descend d'un niveau et l'on attribue les bits 0 et 1 comme deuxième digit des
mots codés associés aux deux éléments qui ont été combinés au niveau précédent, en
maintenant les aectations obtenues à l'étape 3.

5. Opérer de façon régressive jusqu'à ce que l'on atteigne la première colonne.

Exemple
Considérons la source [S] ayant la distribution suivante : [S] = [s1 , s2 , s3 , s4 , s5 , s6 ]
[P ] = [0.3, 0.25, 0.2, 0.12, 0.08, 0.05]
On arrange dans tableau les probabilités de la source [S] et des sources restreintes. La suc-
cession des opérations est montrée au tableau de la gure (6.9) suivante : Ou bien sous forme
d'arbre comme présenté dans la gure (6.10)

6.7 Conclusion
The source encoding theorem says that to encode a source with entropy H(S), we need,
on the average, a minimum of H(S) binary digits per message, or Hr (S) r-ary digits per
message, where Hr (S) is the entropy computed with r as the base of the logarithm.

SAFI Said 65 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

Figure 6.9  Exemple de codage de Human

Figure 6.10  Exemple de codage de Human

The number of digits in the code word is the length of the code word. Thus, the average word
length of an optimum code is H(S). Unfortunately, to attain this length, in general, we have
to encode a sequence of N message (N → ∞) at a time. If we wish to encode each message
directly without using longer sequences, then, in general, the average length of the code word
per message will be greater than H(m). In practice, it is not desirable to use long sequences,

SAFI Said 66 Information theory and coding


CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE

as they cause transmission delay and add to equipment complexity. Hence, it is preferable to
encode messages directly, even if the price has to be paid in term of increased word length.
In most cases, the price turns out to be small. We have demonstrates that we can nd the
optimum source code like the Human code. And we have discussed that, if a given code
verify the Kraft-McMillan inequality we can conrm the existence of the optimum code.

SAFI Said 67 Information theory and coding


Conclusion générale

Dans ce cous, nous avons présenter les principes de bases de la théorie de l'information
et des techniques de codage (principalement codage de source).
Après avoir dénit la notion d'information et source d'information, nous avons présenter
comment peut-on mesuré une information et avec quelle unité peut−on la mesurée. Par la
suite nous avons vue les types de supports de cette information à savoir les canaux discret
sans mémoire ou avec mémoire ainsi les canaux continu. Pour ce dernier, nous avons calculé
la matrice de transition du canal qui nous permettra de calculer les diérents entropie carac-
térisant un canal de transmission. Ainsi le calcul de la matrice de transition du canal nous
permettra de calculer la matrice de transition qui nous aidera à calculer la capacité d'un canal
(débit d'information à travers le canal), cette dernière nous a donné la limite qu'on peut pas
la dépasser quelque soit les condition. Finalement nous avons traité le problème de codage
de source, en étudiant principalement les types de codage optimales ou bien entropiques à
savoir : le codage de homan et Shannon−Fano.

68

Vous aimerez peut-être aussi