Faculté Polydisciplinaire
Département de Mathématiques et Informatique
Master Système de Télécommunications et Réseaux Informatiques
Année Universitaire : 2019/2020
V.1.3
2 Source d'information 8
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Sources indépendants ou simples . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Sources quelconques . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.3 Sources homogènes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.4 Sources de Marcov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Mesure de l'information 13
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Tentative de dénition de l'information . . . . . . . . . . . . . . . . . . . . . 13
3.2.1 Incertitude et information : Dénition . . . . . . . . . . . . . . . . . . 13
3.2.2 Quantité de l'information . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.3 Résumé : Information et incertitude . . . . . . . . . . . . . . . . . . . 17
3.3 Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3.1 Contenu d'information d'une SDSM . . . . . . . . . . . . . . . . . . . 19
3.3.2 Contenu informatif moyen : entropie . . . . . . . . . . . . . . . . . . 20
3.3.3 entropie de la source de Markov . . . . . . . . . . . . . . . . . . . . . 22
i
TABLE DES MATIÈRES
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
iv
TABLE DES FIGURES
vi
TABLE DES FIGURES
= 3.32log10 (M )
Une autre idées très importante introduite par C. E. Shannon concern la notion d'entropie
qui représente une moyenne de l'information de chaque message de la source. Si l'on
considère N événements de probabilité p1 , p2 , ... pN , indépendants les uns des autres, alors
leur entropie de Shannon est dénie comme :
N
X
Entropie : H = − pi log2 (pi ) (1)
i=1
A l'aide du théorie de l'information nous pouvons calculer la capacité C qu'un canal peut
accepter pour véhiculer un message porteur d'information à l'aide de la fameuse relation de
Schannon liant la capacité avec la bande B du canal et le rapport signal-to-noise ratio SN R.
C = Blog2 (1 + SN R) (2)
Dans ce cours de théorie de l'information et codage nous détaillons les points suivants :
Ecacité du codage
Capacité, ecacité et redondance du code
Codes optimaux absolus
1.1 Introduction
La théorie de l'information est liée à l'incertitude de sur la non réalisation d'un évènement
ou bien la probabilité de réalisation d'un évènement ("appelé dans la théorie de l'information
message") porteur de l'information. Il faut bien noté qu'un évènement certain (probabilité
égale à 1) ne porte pas d'information. Vu l'importance des probabilité dans ce cours de théorie
de l'information nous présentons dans ce chapitre quelques rappels sur les variables aléatoires
discrètes et continues.
2
CHAPITRE 1. INTRODUCTION ET RAPPEL DE PROBABILITÉ
Si on adopte le codage binaire nous aurons donc M à une puissance de deux ; dans ce cas,
chaque symbole x dans l'alphabet X peut prendre une valeur de bloc de log2 (M ) bits.
Prenons l'exemple où M = 8 on peut adopter le code des symboles de l'alphabet X par
comprise entre 0 et 1, qui donne le pourcentage de chances que X prenne la valeur x. L'en-
semble des probabilités {p(x)}x∈X est la densité de probabilité (ou loi) de probabilité de la
variable aléatoire X .
La loi de probabilité (densité de probabilité) doit respecter les propriétés suivante :
Propriété 1 :
Quelque soit x ∈ X on :
p(x) ≥ 0 et
P
x∈X p(x) = 1
Propriété 2 :
Soit A un évènement (une réalisation de X ) alors sa probabilité est donnée par :
p(x).
P
P rob{X ∈ A} = x∈A
Remarque :
Il faut noter que les valeurs de x peuvent être vectorielles : x = (x1 , x2 , ..., xn ), ce qui nous
donne un formalisme de sommation multiples (n-uples) : x1 x2 ... xn p(x1 , x1 , ..., xn )
P P P
• Symboles équiprobables
Si les symboles x d'un alphabet M -aire sont équiprobables c'est à dire :
1
p(x) = M
(∀x ∈ X)
Cette situation indique que la variable aléatoire est uniforme, ce qui correspond au cas le
plus "imprévisible" : tous les symboles ont la même chance d'etre réaliser.
• Symboles binaires
Dans le cas particulier où M = 2 on parle d'un symbole binaire, ou bit (abréviation de
"binary digit") (chire binaire) qui prend deux valeurs dans l'alphabet {0, 1}.
Cette situation peut être représenter comme suit (variable de bernoulli avec 0 < p < 1)
p si x = 1
p(x) =
1 − p si x = 0
p si x 6= 0
p(x) = (1.1)
1 − p si x = 0
La variable aléatoire est dite symétrique car toutes les valeurs non nulles de X sont
équiprobables (avec même probabilité = p).
Comme la somme des probabilité est = 1 donc la valeur P = P rob{X 6= 0} est donnée par
la formule : P = (M − 1)p.
• Symboles d'un alphabet
Si une variable aléatoire discrètes admet une innité de valeurs dans un alphabet inni
dénombrable (M = +∞).
Par exemple si X ∈ N suit une loi de Poisson lorsqu'on a la densité de probabilité
λx −λ
p(x) = x!
e avec bien sûr λ > 0 et pour tout x ∈ N.
• Symboles déterministes
Généralement on décrit un symbole d'un "alphabet" par une variable aléatoire, mais parfois
on peut la considérer comme une constante X = x0 (événement sûr avec une probabilité
P rob(X = x0 ) = 1). Le symbole sera donc déterministe (pas aléatoire), ca cas particulier
correspond à la densité de probabilité :
1 si x = x0
p(x) = (1.2)
0 sinon
R
P rob{X ∈ A} = x∈A
p(x)dx
avec
p(x) ≥ 0 et
R
x∈X
p(x)dx = 1
Remarque :
Si les valeurs de X sont des valeurs vectorielles de dimension n c'est à dire
x = (x1 , x2 , ..., xn ) ∈ Rn , ce qui implique que X est un vecteur aléatoire. Le
formalisme d'intégrale simple p(x)dx sera étendre vers un intégrale multiple
R
• Échantillons uniformes :
On parle d'un échantillon uniforme ou bien à distribution uniforme un échantillon qui est re-
présenté par une variable aléatoire X , dénit sur l'intervale [a, b] par la densité de probabilité :
p(x) = 1
b−a
pour 0 ≤ x ≤ b
Rb
et avec a
p(x)dx = 1
• Échantillons gaussiens
On dit qu'un échantillon est gaussien si on peut le représenter par une variable aléatoire X
ayant une densité de probabilité gaussienne :
1 (x−µ)2
p(x) = √ e− 2σ2
2πσ 2
Avec µ représente la moyenne et σ 2 > 0 est la variance de X . A noter qu'une variable
gaussienne est aussi appelée normale et on écrit
X ∼ N (µ, σ 2 )
Remarque :
1 − |z|22
p(z) = p(x)p(y) = e 2σ z∈C
2πσ 2
• Échantillons déterministes
On peut considérer qu'un symbole à valeurs continues X comme une constante X = x0 .
Le symbole n'est plus aléatoire mais déterministe. Donc on peut représenter la densité de
probabilité par une distribution de Dirac
R∞
C'est une distribution nulle pour tout x0 6= 0 et avec δ (x)dx
−∞ x0
= 1.
• Échantillons (variable aléatoire mixte)
Dans un certains cas la variable aléatoire est un mélange de continues et discrètes, dont on
peut dénir cette variable X par la densité de probabilité
1 1 1 (x−µ)2
p(x) = δx0 (x) + √ e− 2σ2
2 2 2πσ 2
1.2 conclusion
In this chapter we have presented some importent properties of theory of probability. This
chapter demonstrates its necessity because we can't study the information theory without
have a good understanding of theory of probability. But for more details the students should
return to the courses of "variables aléatoires et modélisation" (Master 1) for more details.
Source d'information
2.1 Introduction
Le but essentiel d'un système de communication est de transmettre des informations
entre deux points avec le maximum d'ecacité et de abilité. La théorie d'information
permet d'évaluer quantitativement le contenu d'un signal porteur d'un message et de
déterminer la capacité d'un système de communication à acheminer des informations entre
le site de transmission et le site de réception. Grace au codage, sujet essentiel de la théorie
de l'information, on peut réduire les redondances du message utile de façon à exploiter au
mieux les performances des canaux de transmission disponibles. En revanche, l'introduction
de redondances systématiques dans le signal transmis (support du message) permet de
abiliser les liaisons.
En télécommunication, une source d'information tout dispositif émetteur qui génère d'une
manière aléatoire une suite de symbole (message), l'ensemble des symboles émis par la
source constitue ce qu'on appelle alphabet (alphabet-source).
Donc on peut dénir la source par un ensemble ni N de symboles appelés messages donnés
par :
S = m1 , m2 , ..., mN (2.1)
8
CHAPITRE 2. SOURCE D'INFORMATION
De plus on peut constituer des suites de messages à partir messages successifs comme suit :
X
sn = mα1 mα2 ...mαN (S = sn ) (2.2)
n
De plus dire que ces suites sn sont émis par la source à aux instants notés : 1, 2, ..., n. A noter
en fait, il n'a pas d'instant initial d'une manière générale, c'est à dire il n'a pas un origine de
temps ce qui implique qu'on a les instants :..., −1, 0, 1, ..., n, ....
Comme l'apparition des suites de messages est aléatoire nous pouvons liés à la suite (2.2)
une suite de variables aléatoires équivalente :
Les valeurs de cette suite sont nécessairement dans l'ensemble des symboles (2.1), avec une
loi de probabilité donnée. Donc toute réalisation de la variable aléatoire Xn implique que le
message mαn émis à l'instant n, sera désignée par xn .
P (Xn = mi ) = pi (2.5)
ces probabilités conditionnelles explique que la source émet ses symboles avec un certain
rappel (conditionnelles) ou avec mémoire. Pour cette raison ce types de sources s'appelle
Sources Discrète Avec Mémoire (SDAM). La mémoire peut être d'ordre 1, 2,... ou N , et ceci
suivant les probabilités conditionnelles et leurs dépendances d'une variables ou bien deux ...
et ainsi de suite.
P (Xn = xn ) = P (Xn+h = xn )
Plus généralement une source de Markov peut être d'ordre r. Cela signie que la mémoire
régresse jusqu'aux seules r dernier messages.
La théorie de telles sources est la théorie classique des chaînes de Markov. Certaines chaînes
(chaînes régulières) sont des modèles commodes la description statistique des langues écrites
usuelles.
Pour la langue allemande elle caractérisé par la relation :
e+lettere et lettre +e
Exemple
Considérons une source de Markov [X] = x1 , x2 , x3 . La source génère chaque T seconde un
symbole. Le graphe qui représente la source est représenté dans la gure (2.1) suivante
La question qui se pose : en déduire les probabilités des symboles P (xi ).
Response
In stationary case we have
P (x1 ) = P (x1 /x1 )P (x1 ) + P (x1 /x2 )P (x2 ) + P (x1 /x3 )P (x3 )
P (x2 ) = P (x2 /x1 )P (x1 ) + P (x2 /x2 )P (x2 ) + P (x2 /x3 )P (x3 )
and
P (x1 ) + P (x2 ) + P (x3 ) = 1
where P (x1 /x2 ) for example represent the transition probability from the state x2 to state
x1 .
By representing the transition probabilities we can obtain the following equation system
2.2 conclusion
In this chapter we have presented the more useful information sources, like Markov source
and discret memoryless source. Generally, A source of information generates its symbols in a
discrete or continuous manner, or in some cases a mixte manner (discrete and continuous).
The information source generate its message with memory of the previous message or without
memory (memoryless) of the previous messages.
Mesure de l'information
3.1 Introduction
Dans ce chapitre nous discutons la dénition d'une information ou bien c'est quoi une
information ? elle liée à quoi ? comment peut-on mesuré une information ? ces questions seront
détaillés dans les paragraphes qui suivent.
13
CHAPITRE 3. MESURE DE L'INFORMATION
2. L'information propre est une grandeur additive : si les évènements x et y sont statis-
tiquement indépendants alors l'information totale qu'ils peuvent fournir est la somme
des informations propres f (p(x, y)) = f (p(x)p(y)) = f (p(x)) + f (p(y)).
A partir des deux points précédentes, nous devrons donc choisir une fonction de la forme
I(x) = λlogp(x), avec λ < 0 pour assurer la décroissance par rapport à p(x). Le choix de λ
va dépendre de l'unité d'information que nous choisirons : soit le bit(est une abréviation de
binary digit) si le logarithme est est à base 2 (binaire), soit dit (Hartley) si le logarithme est
à base 10. Ces unité sont liées par les relations suivantes :
1nit = lb(e) = 1
ln(2)
= 1.44bit ;
1dit = lb(10) = 1
log10 (2)
= 3.32bit.
ln(x)
sans oublier la relation : logb (x) = ln(b
.
Exemple :
Un bit est égal à la quantité d'information fournie par le choix d'une alternative parmi deux
équiprobables. Cela signie que si X est un espace probabilisé dans l'espace des épreuves 0, 1
muni d'une loi uniforme (i.e. p(0) = p(1) = 1/2), alors la quantité d'information fournie
par la réalisation de l'événement X = 0 (ou X = 1) est de 1bit. On a I(0) = λlog(p(0)) =
−λlog(2) = 1, donc λ = −1/log(2) ce qui revient à choisir le logarithme en base 2 pour la
dénition de I(x) : I(x) = −log2 p(x).
Exemple
Considérons une Source Discrète Sans Mémoire (SDSM) transmet un alphabet
x1 , x2 , ..., xn . A noter que le contenu informatif d'un message (symbole) xi de l'alphabet
est donné par la formule suivante
1
I(xi ) = lb( ) = −lb(p(xi )) (3.1)
p(xi )
I(xi ) ≥ 0 (3.3)
si les perturbations sont très forte, on aura dans ce cas xi et yj indépendantes, alors
l'équation (3.8) devient :
i(xi ; yj ) = 0 (3.10)
1. Remarque :
Si p(xi ) = 0.5 alors i(xi ) = 1sh l'unité dénit Shannon (souvent désigné par bit). Il s'agit d'une pseudo-unité
sans dimension ! !
1. L'additivité :
si deux évènements xi1 et xi2 sont indépendante (c'est-à-dire) si on a : xi = xi1 ∩ xi2
alors F est additive ⇒ i(xi ) = i(xi1 ) + i(xi2 )
3.3 Entropie
L'entropie d'une expérience aléatoire est une mesure de son indétermination à priori. L'in-
certitude a été introduite précédemment comme une caractéristique de chacun des résultats
de l'expérience. L'entropie est une appréciation numérique global attachée à l'expérience elle
même.
d'unité sh : unité binaire par symbole : bit/symbole (par abus de langage on utilise le "bit").
H : est appelé entropie (entropy) de la source. Elle représente une mesure de l'information
moyenne par symbole de la source. (comme en thermodynamique : plus la source produit ses
messages de manière aléatoire plus sont entropie est élevée (information importante : entropie
positive) 2 .
b : Quantité de décision
Le choix que doit faire une source discrète parmi n caractères dont elle dispose correspond
à une certaine quantité de décision D (decision content) dénie par
D = lb(n) (3.14)
c : Redondance
Dénition : La redondance est la diérence entre la valeur maximale possible de l'entropie
et sa valeur réelle.
Elle est dénie par la relation suivante :
El comme la valeur maximale de l'entropie est égale à la quantité de décision alors on peut
dénir la redondance d'une source discrète par la diérence entre la quantité de décision d'un
2. Dans ce qui suit les logarithmes sont pris en base 2, dans ce cas la l'unité de l'information adopté est
le bit
R = D − H(X) (3.16)
Par dénition du mot redondance : ce qu'on possède moins ce qu'on utilise, donc :
D = nombre de bits disponibles,
H = nombre de bits utilisés.
On peut dénir la redondance relative en divisant la redondance par la valeur maximale de
l'entropie avec :
H(X)
ρ=1− (3.17)
Hmax (X)
Où Hmax (X) = lb(n) = D, avec n représente le nombre de lettres de l'alphabet de la source.
Ḋ = D.r (3.19)
Considérons tous les états de la source (au nombre de M ), l'entropie de la source sera donnée
par la moyenne des entropies de chaque état :
M
X M X
X M
H= p(xi )Hi = − p(xi )pij lb(pij ) (3.21)
i=1 i=1 j=1
3.4 Conclusion
In this chapter we have discussed how we can dene the "information", and we have
conclude that mesure is closed to symbole apparition probability or "uncertainty". So, the
symbole information value is more importent if its occurrence probability is close to zero.
Thus, information is connected with the element of surprise, which is a result of uncertainty,
or unexpectedness (inattendu).
We have also discussed the source entropy which represent the mean information quantity of
a given source.
4.1 Introduction
Un canal de transmission est dénit comme le support ou le milieu qui achemine le message
entre émetteur et récepteur. Cette dénition couvre également les milieux à mémoire par les
ordinateurs. Le canal opère une transformation entre l'espace des symboles à l'entrée et
l'espace des symboles à la sortie du canal.
4.2 Dénitions
Dans ce paragraphe nous présentons les dénitions de quelque canaux les plus utilisés.
1. Un canal est dit discret, si l'espace à l'entrée et celui à la sortie est discret
2. Le canal est dit continu, si les espaces à l'entrée et à la sortie sont continues.
3. Si la transmission à travers le canal a leu tout le temps, le canal est dit continue en
temps. Si la transmission se fait par moments de temps discrets, le canal s'appellera
discret.
4. Le canal est dit sans mémoire lorsque le symbole de sortie ne dépend que du dernier
symbole reçu en entrée, indépendamment de tous les symboles d'entrée précédents.
23
CHAPITRE 4. CANAUX DISCRETS SANS MÉMOIRES
Dans ce qui suit, nous allons considérer les Canaux Discrets Stationnaires sans Mémoire
(CDSM).
Dans la gure (4.1) on représente un CDSM à n entrée et m sorties. l'entrée se compose de n
symboles x1 , x2 , ..., xn . Les probabilités à priori p(xi ) de ces symboles sont supposés connu, la
sortie se compose de m symboles y1 , y2 , ..., ym . Chaque correspondance possible entrée/sortie
est dénie par une probabilité conditionnelle p(yj /xi ) d'obtenir yj en sortie du canal lorsque
xi à été transmis à l'entrée du canal. On l'appelle probabilité de transmission du canal.
Dans la gure (4.2) nous représentons un système de transmission qui est constitué par :
S'il s'agit d'un canal télégraphique utilisant un code morse, l'équipement du canal sera
A noter qu'à cause des perturbations, l'espace [Y ] peut être diérent de [X], comme les
probabilités [Py ] peuvent être diérentes des probabilités à l'entrée [Px ].
Avec ces deux espaces ([X] et [Y ]), on peut dénir un espace-produit [X.Y ] par la matrice
suivante :
x y x1 y2 ... x1 ym
1 1
x2 y1 x2 y2 ... x2 ym
[X.Y ] =
. . ... .
xn y1 xn y2 ... xn ym
(4.5)
p(x , y ) p(x1 , y2 ) ... p(x1 , ym )
1 1
p(x2 , y1 ) p(x2 , y2 ) ... p(x2 , ym )
[P (X, Y )] =
. . ... .
p(xn , y1 ) p(xn , y2 ) ... p(xn , ym )
(4.6)
La condition d'apparition de xi quel que soit yj est donnée par l'équation suivante.
m
X
p(xi ) = p(xi , yj ) (4.8)
j=1
De la même façon, on a la condition d'apparition de yj quel que soit xi est donnée par
l'équation suivante.
n
X
p(yj ) = p(xi , yj ) (4.9)
i=1
Donc, dans le cas des canaux discrets on peut dénir trois champs d'événements :
Le champ à l'entrée du canal déni par [X] et [Px ],
p(y /x ) p(y2 /x1 ) ... p(ym /x1 )
1 1
p(y1 /x2 ) p(y2 /x2 ) ... p(ym /x2 )
[P (Y /X)] =
. . ... .
p(y1 /xn ) p(y2 /xn ) ... p(ym /xn )
(4.13)
Chaque symbole appliqué à l'entrée du canal correspond un symbole (au minimum) en sortie
alors on aura :
m
X
p(yj /xi ) = 1 (4.14)
j=1
p(x ) 0 ... 0
1
0 p(x2 ) ... 0
[P (X)]d =
. . ... .
0 0 ... p(xn )
(4.18)
symbole en sortie 'pas de perte de symbole'). La gure (4.3) représente un canal sans perte.
Sa matrice à pour expression :
3/4 1/4 0 0 0
[P (Y /X)]d = 0
0 1/3 2/3 0
0 0 0 0 1
(4.19)
1 0 0
1 0 0
[P (Y /X)] = 0
1 0
0 1 0
0 0 1
(4.20)
1 0 0
[P (Y /X)] = 0 1 0
0 0 1
(4.21)
1−p p
[P (Y /X)] =
p 1−p
(4.22)
Remarque :
La probabilité de recevoir un 1 si on émis un 0 est la même de recevoir 0 si on émis un 1
En utilisant les cinq matrices de probabilités par rapport au canal de transmission, à savoir :
[P (X)] : matrice des probabilités de l'alphabet à l'entrée ;
[P (Y )] : matrice des probabilités de l'alphabet à la sortie ;
[P (X, Y )] : matrice des probabilités des alphabets réunis, entrée-sortie ;
[P (X/Y )] : matrice des probabilités conditionnelles (entrée conditionnée par la sortie) ;
P (Y /X)] : matrice des probabilités conditionnelles (sortie conditionnée par l'entrée).
A ces matrice de probabilités correspondent cinq entropies :
H(X) : entropie de l'alphabet à l'entrée ;
H(Y ) : entropie de l'alphabet à la sortie ;
H(X, Y ) : entropie des alphabets à l'entrée et à la sortie, réunis ;
Si le canal n'est pas perturbé c'est à dire H(Y /X) = H(X/Y ) = 0 ce qui nous donne
Si on est en présence de fortes perturbations dans le canal, alors nous aurons dans ce cas la
relation
H(X, Y ) = H(Y ) + H(X) (4.30)
Conclusion :
La relation (4.29) montre que pour les canaux sans bruits H(X, Y ) est faible, pour les canaux
à fortes perturbations, l'incertitude sur l'ensemble du système croit pour atteindre la valeur
donnée par la relation (4.30), lorsque le champ à la sortie devient indépendant du champ à
l'entrée.
Entre l'entropie H(X) et l'entropie conditionnelle H(X/Y ) on peut écrire
Cette résultat (equation (4.31) est déduite du fait que l'incertitude moyenne a posteriori
(après) (conditionnelle) est plus faible, tout au plus égale à l'incertitude a priori (avant).
Pour les mêmes raisons nous avons
I(X; Y ) = I(Y ; X)
I(X; Y ) ≥ 0
I(X; Y ) = H(X) + H(Y ) − H(X, Y )
Dans la gure (4.7) nous résumons la relation entre les diérents entropies. La gure (4.7)
montre le niveau (l'emplacement) où chaque entropies intervient, on peut dire que :
Exercice 1 : Considérons un canal caractérisé par son diagramme et par les probabilités
de partition des symbole la source p(x1 ) et p(x2 ) (g. (4.8)) On donne la matrice de
0.1 0.6 0.3
[P (Y /X)] =
0.2 0.4 0.4
A noter que les deux grandeurs sont numériquement égales. par la suite, on ne fera de dié-
rence entre les deux dénitions données pour la capacité du canal.
b. Canal déterministe
Un canal déterministe est caractérisé par :
H(Y /X) = 0 ∀ p(xi ) alors I(X; Y ) = H(Y ).
Le transfert d'information est égal à l'entropie de la sortie. Alors la capacité par symbole du
canal a donc pour expression
N.B :
Dans le cas de fortes perturbations nous avons p = 1/2 ce qui implique C = 0, ce qui
s'explique par le fait qu'un symbole peut apparaître à la sortie comme provenant, avec la
même probabilité autant de x1 que x2 ; alors sa réception ne modiera pas les connaissances
que nous avons à priori sur le symbole appliqué à l'entrée, (le canal est dit sans utilité).
Re = C − I(X; Y ) (4.43)
I(X; Y )
ηe = (4.45)
C
ηe = 1 − ρe ⇒ η≤1 (4.46)
4.8 Conclusion
In this chapter we have discussed the information emitted by a source through channel to
the receiving source. And we have discussed the expression the channel eciency, the channel
redundancy and the channel capacity for dierent discret channel.
In conclusion the channel capacity is the property of a particular physical channel over which
the information is transmitted. This is true provided the term channel is correctly interpreted.
A channel means not only the transmission medium but it also includes the specications of
the kind of signals (binary, r-ary, ... etc) and the kind of receiver used (the receiver determines
the error probability). All these specications are included in the channel matrix.
A channel matrix completely species a channel. If we decide to use, for example, 4-ary
digits instead of binary digits over the same physical channel, the channel matrix changes
(it becomes a 4 × 4), as does the channel capacity. Similarly, a change in the receiver or the
signal power or noise power will change the channel matrix and, hence, the channel capacity.
5.1 Introduction
La source qui alimente un canal analogique est un signal continu x(t). L'ensemble de ces
messages forme une famille de signaux engendrés par un processus aléatoire ergodique.
On suppose que x(t) à partir de ses échantillons périodiques. A tout instant, la collection
des échantillons susceptibles d'être observé constitue une variable continu X que l'on peut
d'écrire au moyen de sa densité de probabilité p(x)
40
CHAPITRE 5. INFORMATION DES SIGNAUX CONTINUS
A l'entrée du canal on applique le signal x(t) et à la sortie on obtient le signal y(t) qui
est diérent de x(t) à cause des perturbations.
ou bien
Z +∞ Z +∞ Z +∞ Z +∞
I(X; Y ) = p(x, y)lb(p(x, y))dxdy − p(x)lb(p(x))dx − p(y)lb(p(y))dy
−∞ −∞ −∞ −∞
(5.4)
La relation (5.4) peut s'écrire en fonction des entropies comme suit
Avec Z +∞ Z +∞
H(X, Y ) = − p(x, y)lb(p(x, y))dxdy (5.6)
−∞ −∞
Y =X +n (5.9)
Où X désigne l'entrée du canal et n un bruit additif à bande limitée de valeur moyenne nulle
et de variance σ 2 .
Lorsque X est connu, toute connaissance sur Y est en fait une connaissance sur le bruit seul.
Cette situation peut être modéliser par
Ce qui implique
I(X; Y ) = H(Y ) − H(n) (5.13)
gaussienne.
Si S est la puissance de ce signal, l'entropie à l'entrée sera
√
H(X) = lb( 2πeS) (5.14)
La somme de deux processus gaussiens de variances σ12 et σ22 est un processus gaussien de
variance (σ12 + σ22 ), le signal de sortie a une puissance (S + N ) donc
p
H(Y ) = lb( 2πe(S + N )) (5.15)
La quantité maximale d'information qui peut être transmise par le canal s'écrit
√
r
p S
I(X; Y ) = lb( 2πe(S + N ) − lb( 2πeN ) = lb( 1 + ) (5.17)
N
La formule (5.17) peut s'écrire sous la forme de capacité de canal (equation (5.18).
Ltransinformation I(X; Y ) est une entropie alors elle représente une quantité moyenne d'in-
formation par message. Si le signal est de bande de fréquence B (c-à-d 0 < f < B , il sut
de connaître 2B échantillons chaque seconde pour le dénir complètement. A raison de 2B
échantillons par seconde toute l'information est donc transmise. A noter échantillonner plus
rapidement ne fait qu'accroître la redondance.
Chaque seconde la quantité moyenne d'information qu'il est possible d'acheminer sur un
canal de largeur de bande B et donc : la capacité maximale du canal sera
r
S
Ct = 2B × I(X; Y ) = 2B × lb( 1 + )
N
S
= Blb(1 + ) (5.18)
N
La formule (5.18) représente la formule fondamentale de Shannon, sont intéret est fon-
damentale car elle xe une limite dont il souvent très dicile de s'approcher.
A partir de la relation (5.18) on peut dire que : La capacité du canal augmente avec la largeur
de bande B et avec la puissance du signal S , par contre, elle diminue avec la puissance du
bruit. La capacité ainsi dénie est mesurée en bit/s.
Lorsque le canal est aecté par un bruit blanc de densité spectrale de puissance N0 alors on
peut écrire : N = BN0 , donc la relation (5.18) devient :
r
S
Ct = Blb( 1 + )
BN0
Cette règle souligne les rôles fondamentaux que jouent la bande passante et le rapport signal
sur bruit en télécommunication. Elle montre aussi que pour une capacité de canal donnée,
bande passante et puissance présentent des aspects complémentaires lorsqu'il faut trouver un
compromis.
Pour des très grandes largeurs de bande B , la capacité du canal s'approche lentement de la
limite comme suit
r
S 1 S S
C∞ = limB→∞ Blb( 1 + )= = 1.44 bit/s
BN0 ln(2) BN0 N0
Il s'en suit de ce qui précède qu'il n'est pas nécessaire d'augmenter la largeur de band au
dessus d'une certaine limite, car la capacité croit très peut (gure 5.2)
Figure 5.2 Variation de la capacité d'un canal en fonction de la largeur du bande (dans
cette exemple nous avons pris : S/N0 = 10
5.5 conclusion
According to the result derived in this chapter, theoretically we can communicate error-
free up to C bit/s. There are, however, practical diculties in achieving this rate. In proving
the capacity formula, we assumed that communication is eected (eectué) by signals of du-
ration T . This means we must wait T seconds to accumulate the input data and then encode
it by one of the waveforms of duration T .
Because the capacity rate is achieved only in the limit as T → ∞, we have to wait a long time
at the receiver to get the information. Moreover, because the number of possible messages
that can be transmitted over interval T increases exponentially with T , the transmitter and
receiver structures increase in complexity beyond imagination as T → ∞.
The channel capacity indicated by Shannon's equation (5.19) is the maximum error-free
communication rate achievable on an optimum system without any restrictions (except for
bandwidth B , signal power S , and gaussian white channel noise power N ). If we have any
other restrictions, this maximum rate will not be achieved. For example, if we consider a
binary channel (a channel restricted to transmit only binary signals), we will not be able to
attain Shannon's rate, even if the channel is optimum. The channel capacity formula ( eq.
(5.19)) indicates that the transmission rate is a monotonically increasing function of signal
power S . If we use a binary channel, however, we know that increasing the transmitted power
beyond a certain point buys very little advantage. Hence, on a binary channel, increasing S
will not increase the error-free communication rate beyond some value. This does not mean
that the channel capacity formula has failed. It simply means that when we have a large
amount of power (with a nite bandwith) available, the binary scheme is not the optimum
communication scheme.
One last comment : Shannon's results tell us the upper theoretical limit of error-free com-
munication. But they do not tell us precisely how this can be achieved. To quote the words
of Abramson ;"This is one of the problems which has persisted to mock information theorists
since Shannon's original paper in 1948. Despite an enormous amount of eort spent since that
time in quest of this Holy Grail of information theory. a deterministic method of generating
the codes promised by Shannon is still to be found" 1 .
6.1 Introduction
Avant d'entrée dans les détails de ce cours nous notons que :
Les messages délivrés par la source ne sont pas en général sous une forme compatible
avec le canal.
Les rendre compatibles : coder en utilisant un certain nombre de symbole acceptés
par le canal, par exemple 0 ci 1 dans le cas d'un canal binaire (autres possibilités Sont
par exemple : fréquence f1 et f2 , phase ϕ1 et ϕ2 , amplitude A1 et A2 .
En général, l'alphabet de la source dière de l'alphabet du canal et donc, le but
primordial du codage de source sera celui de permettre le passage de l'alphabet de la
source à la Sortie à l'alphabet du canal.
Donc, Pour atteindre l'ecacité maximale, il est souhaitable que la transinformation soit
maximale et dans ce but il faut faire en sorte que les symboles générées par la source se-
condaire (la sortie du codeur) aient des probabilités qui puissent assurer ce maximum il faut
adopté une réalisation d'une adaptation statistique de la source au canal.
Dans le cas des canaux sans perturbation : cette ecacité est atteint lorsque l'entropie de la
source secondaire maximale.
C = maxH(X) = lb(n) (6.1)
où n est le nombre de symbole de l'alphabet du canal (donc du code). La relation (6.1) est
délivrée de la relation du chapitre précédent lorsque H(X/Y ) = 0.
46
CHAPITRE 6. PRINCIPE DE CODAGE : CODAGE DE SOURCE
Au moyen de l'alphabet [X] on peut former des mots qui ne possèdent pas de corres-
3. Code univoque
Un code univoque est un code dont lequel chaque mot est distinct de tous les autres mots.
Exemple : les codes 2 à 6 du tableau (6.3.2) représente des codes univoque.
Contre-exemple le code 1 pour lequel les codages des symboles s1 et s3 sont identiques.
Message Codage
A 0
B 11
C 100
D 101
6. Code instantané
Un code à déchirage unique est dit code instantané si à la n de tout code est identiable
sans examen des symboles du mot de code qui suit. Les codes instantanés sont des
2. Un code instantané est un code à décodage unique, la réciproque n'est pas toujours
vraie ! ! !
Une illustration de la relation ces deux catégories est donnée en gure (6.5).
un certain coecient de coût ti . Dans un cas particulier, le coecient de coût peut être la
durée du mot-code ci , car le prix de l'exploitation d'un système de transmission peut être
considéré comme croissant de façon approximativement linéaire avec le temps.
Dans ce cas, le coût moyen par message devient :
N
X N
X
C= = ti p(si ) (6.2)
i=1 i=1
ti = li × τ = li ) (6.3)
autrement dit, la durée d'un mot est égale au nombre de lettres qui constituent le mot en
question.
Dans ce cas, le coût moyen devient :
N
X
C= p(si )li = l (6.4)
i=1
Le paramètre l représente le nombre moyen de bits par symbole source utilisé dans le processus
de codage. Autrement dit, le coût moyen est égal à la longueur moyenne d'un mot-code. En
résumé :
L'ecacité de la transmission peut être accrue en attribuant de manière rationnelle, à chaque
message si donné par la source, un mots-code ci où le nombre de lettres li sera choisi de
manière à ce que la longueur moyenne l des mots soit aussi faible que possible. A cet eet,
l'ecacité de la transmission ne peut être dénie que l'on connaît la limite inférieure de la
longueur moyenne l.
qui apparaissent avec les mêmes probabilités que les messages de la source, à savoir :
opi = p(si ).
Les longueurs des mots-code sont :
Où li est égale de lettre de l'alphabet du code (nombre des bits) qui composent le mot ci
supposées de la même durée τ = 1.
L'alphabet du code est :
L'information moyenne par mot-code est donnée par le produit du nombre moyen de lettres
l et l'information moyenne par lettre, et donc :
La valeur maximale de l'entropie s'obtient lorsque les probabilités p(xi ) sont égaux, à savoir
lorsque :
1
p(x1 ) = p(x2 ) = ... = p(xn ) = (6.14)
n
cette valeur est lb(n), donc on aura :
H(S)
l≥ = lmin (6.17)
lb(n)
La dernière relation (eq. 6.17) montre que la longueur moyenne l d'un mot-code a une marge
inférieur égale à l'entropie de la source, divisée par la valeur maximale de l'entropie de
l'alphabet du code. Autrement dit, l'information moyenne par lettre de l'alphabet du code
H(S)/l ne peut dépasser la valeur maximale de l'entropie de l'alphabet du code lb(n).
H(S)
≤ lb(n) (6.18)
lb(n)
Compte tenu de ce qui précède, l'ecacité du code (du codage) peut être dénie par le
rapport entre la longueur moyenne minimale et la longueur moyenne d'un mot-code :
lmin
η= (6.20)
l
Avec lmin est la valeur minimale que peut prendre l. Lorsque η s'approche de la valeur de 1.
On dit que le code est ecace.
Comme on l'a déjà montré, la limite inférieure de la longueur d'un mot-code est :
H(S) H(S)
lmin = = (6.21)
lb(n) C
tandis que la longueur moyenne d'un mot-code est :
H(S)
l= (6.22)
H(X)
Il s'ensuit des relations (6.20) et (6.21) que :
H(S)
η= (6.23)
llb(n)
ou bien, tenons compte tenu de la relation (6.22) on obtient :
H(X)
η= (6.24)
lb(n)
On appelle redondance du code la longueur complémentaire de l'ecacité, telle que dénie
par la relation :
H(S)
γ =1−η =1− (6.25)
llb(n)
Ou bien
lb(n) − H(X)
γ= (6.26)
lb(n)
Exemple 1
Considérons la source dont l'alphabet est : [S] = [s1 , s2 , s3 , s4 ]
et les probabilités :
[P ] = [1/2, 1/4, 1/8, 1/8]
L'entropie de la source est donc :
4
X
H(S) = − p(si )lb(p(si ) = −1/2lb(1/2) − 1/4lb(1/4) − 2(1/8lb(1/8)) = 7/4 bit/symbole
i=1
Supposons que l'alphabet du code est formé de deux symboles :
[X] = [0, 1]
7/4 7
η= = = 0.875
2lb(2) 8
et la redondance
γ = 1 − η = 0.125
s4 → 111
Ce codage est illustré par le graphe représenté dans la gure (Fig. 6.7). Dans ce cas on
obtient pour la longueur moyenne moyenne des mots :
Pour ce deuxième type de codage on a :
4
X
l= pi li = 1.75
i=1
γ =1−1=0
Exemple 2
Considérons un source discrète sans mémoire à trois symboles [S] = [s1 , s2 , s3 ] avec
p(s1 ) = 0.5, p(s2 ) = 0.25 et p(s3 ) = 0.25. La source produit chaque T secondes un symbole.
Ces symboles sont codés comme indique le tableau suit :
s1 → 1
s2 → 01
s3 → 00
l'entropie de la source est :
H(S) = −(0.5lb(0.5) + 0.25lb(0.25) + 0.25lb(0.25)) = 1.5bit/sy
l'entropie par unité de temps est :
Ht (S) = 1.5bit/sy × 1/T sy/S = 1.5T bit/s
La longueur moyenne d'un mot-code est :
l = 1 × 0.5 + 2 × 0.25 + 2 × 0.25 = 1.5
L'ecacité sera donc égale à :
1.5
η= =1
1.5lb(2)
Si l'aplphbet du code est formé par deux symboles [X] = [1, 0] (alphabet de source secondaire)
avec la même probabilité, l'entropie du codeur sera donc :
H(X) = −(0.5lb(0.5) + 0.5lb(0.5)) = 1bit/sy
l'entropie par unité de temps sera donc :
Ht (X) = 1bit/sy × 1.5sy/s = 1.5bit/s
L'alphabet de la source est constitué de 3 symboles, l'entropie maximale sera donc :
Hmax (S) = −3 31 lb( 31 )bit/sy
A l'entrée (source primaire), il y'a redondance R = Hmax (S)−H(S) = 0.085bit/sy . A la sortie
(source secondaire) Hmax (X) = H(X) = lb(2) c'est à dire la redondance est nul (γ = 0) et
l'ecacité de codage est maximale. On peut dire que le code utilisé est optimal.
Cette égalité a lieu seulement si les lettres de l'alphabet du code seront utilisées avec des
probabilité égaux c'est -à- dire :
1
p(x1 ) = p(x1 ) = ... = p(xn ) = (6.28)
n
H(X)
η= (6.29)
lb(n)
Résumé :
Les codes dont l'ecacité est égale à l'unité s'appellent codes optimaux absolus. La longueur
moyenne, l, prend la valeur moyenne
H(S)
lmin = (6.30)
lb(n)
Car H(S) est xe (déterminé par la source).
on obtient
N
X
n−li = 1 (6.33)
i=1
La relation (6.33) donne le rapport qui doit exister entre les longueurs li et le nombre de
lettre n de l'alphabet du code, dans le cas d'un code optimal absolu.
Si, pour un code quelconque, la relation (6.33) était satisfaite, il ne s'ensuivra pas obligatoi-
rement que le code en question soit un code optimal absolu. Mais on peut armer dans ce
cas qu'avec l'alphabet et les longueurs données on peut former un code optimal absolu.
Donc, la relation (6.33) représente un cas particulier du théorème de l'existence des codes
irréductibles, exprimé par l'inégalité de Kraft-McMillan.
L'inégalité de Kraft-McMillan
Soit [S] une source discrète sans mémoire (SDSM) d'alphabet [s1 s2 ...sN ]. On désigne par li
la longueur du code correspondant à si .
Une condition nécessaire d'existence d'un code (binaire) instantané a pour expression
N
X
K= 2−li ≤ 1 (6.34)
i=1
On remarquera que l'inégalité de Kraft-McMillan nous assure qu'il existe bien un code
instantané (irréductible) déchirable dont la longueur des mots satisfait à l'inégalité (6.34)
en question. Elle ne nous dit rien sur la façon d'engendrer un tel code, pas plus qu'elle ne
nous garantit qu'un code satisfaisant à cette inégalité est décodable de façon univoque.
Exercice
On considère une source [S] (SDSM) produisant les symboles si , i = 1, 2, 3, 4. Le tableau
suivant propose quatre codages binaires possibles.
2. Montrer que les codes A et D sont déchirables de façon unique tandis le code C ne
l'est pas et le code B n'est pas optimal.
Réponse
1. En utilisant la relation (6.34) nous obtenons les résultats suivants :
- Pour le code A nons avons l1 = l2 = l3 = l4 = 2, ce qui nous donne :
4
X 1
K= 2−li = 4 = 1
i=1
4
- Pour le code B nons avons l1 = 1, l2 = l3 = 2 et l4 = 3, ce qui nous donne :
4
X 1 1 1 1
K= 2−li = +2 + =1+ >1
i=1
2 4 8 8
- Pour le code C nons avons l1 = 1, l2 = 2 et l3 = l4 = 3, ce qui nous donne :
4
X 1 1 1
K= 2−li = + +2 =1
i=1
2 4 8
- Pour le code D nons avons l1 = 1, l2 = l3 = l4 = 3, ce qui nous donne :
4
X 1 1 7
K= 2−li = +3 = <1
i=1
2 8 8
Tous les codes sauf le code B satisfont à l'inégalité de Kraft-McMillan.
2. Les codes A et D sont des codes sans préxe. Ils sont par conséquent déchirables de
façon unique. Le code B ne satisfait pas à l'inégalité de Kraft-McMillan et n'est pas
donc pas optimal.
Bien que le code C satisfait à l'inégalité de Kraft-McMillan, il n'est pas déchirable
de façon unique.
Exemple :
prenons la séquence binaire 0110110 : une telle séquence peut correspondre aussi bien
à la suite s1 s2 s1 s4 qu'à la suite s1 s4 s4 des symboles émis par la source.
En résumé, cela veut dire que l'inégalité de Kraft-McMillan nous assure seulement sur l'exis-
tence d'un code optimal.
2. Additionner les probabilités des deux éléments de probabilités les plus faibles et réor-
donner la liste. Cette étape appelée réduction du niveau 1. Répéter cette procédure.
Jusqu'au niveau où il ne reste dans le tableau que deux positions classées dans l'ordre
de leurs probabilités.
4. On descend d'un niveau et l'on attribue les bits 0 et 1 comme deuxième digit des
mots codés associés aux deux éléments qui ont été combinés au niveau précédent, en
maintenant les aectations obtenues à l'étape 3.
Exemple
Considérons la source [S] ayant la distribution suivante : [S] = [s1 , s2 , s3 , s4 , s5 , s6 ]
[P ] = [0.3, 0.25, 0.2, 0.12, 0.08, 0.05]
On arrange dans tableau les probabilités de la source [S] et des sources restreintes. La suc-
cession des opérations est montrée au tableau de la gure (6.9) suivante : Ou bien sous forme
d'arbre comme présenté dans la gure (6.10)
6.7 Conclusion
The source encoding theorem says that to encode a source with entropy H(S), we need,
on the average, a minimum of H(S) binary digits per message, or Hr (S) r-ary digits per
message, where Hr (S) is the entropy computed with r as the base of the logarithm.
The number of digits in the code word is the length of the code word. Thus, the average word
length of an optimum code is H(S). Unfortunately, to attain this length, in general, we have
to encode a sequence of N message (N → ∞) at a time. If we wish to encode each message
directly without using longer sequences, then, in general, the average length of the code word
per message will be greater than H(m). In practice, it is not desirable to use long sequences,
as they cause transmission delay and add to equipment complexity. Hence, it is preferable to
encode messages directly, even if the price has to be paid in term of increased word length.
In most cases, the price turns out to be small. We have demonstrates that we can nd the
optimum source code like the Human code. And we have discussed that, if a given code
verify the Kraft-McMillan inequality we can conrm the existence of the optimum code.
Dans ce cous, nous avons présenter les principes de bases de la théorie de l'information
et des techniques de codage (principalement codage de source).
Après avoir dénit la notion d'information et source d'information, nous avons présenter
comment peut-on mesuré une information et avec quelle unité peut−on la mesurée. Par la
suite nous avons vue les types de supports de cette information à savoir les canaux discret
sans mémoire ou avec mémoire ainsi les canaux continu. Pour ce dernier, nous avons calculé
la matrice de transition du canal qui nous permettra de calculer les diérents entropie carac-
térisant un canal de transmission. Ainsi le calcul de la matrice de transition du canal nous
permettra de calculer la matrice de transition qui nous aidera à calculer la capacité d'un canal
(débit d'information à travers le canal), cette dernière nous a donné la limite qu'on peut pas
la dépasser quelque soit les condition. Finalement nous avons traité le problème de codage
de source, en étudiant principalement les types de codage optimales ou bien entropiques à
savoir : le codage de homan et Shannon−Fano.
68