Vous êtes sur la page 1sur 30

La théorie de l’information

 La théorie de l’information donne un sens précis à la notion


d’information, de façon à ce quelle devienne techniquement
utilisable

 Fournit des outils de modélisation et d’analyse dans le domaine


de traitement de l’information

 C’est fut conçue par Claude Shannon en 1948 pour répondre à


certaines interrogations fondamentales dans le domaine des
techniques de communication
Plan du cours
 Introduction au systèmes de communication
 Modélisation probabiliste de l’information
Système de communication

Source d’information destination


message message

signal

source de bruit
émetteur
recepteur
Système de communication
 Information : séquence de signaux, correspondants à des règles
de combinaisons précises, transmises entre une source et un
récepteur par l’intermédiaire d’un canal

 Message : lot d’information formant un tout intelligible ou


exploitable et transmis en une seule fois

 Signal : phénomène physique porteur d’une information et


pouvant représenter des données
Système de communication
Schéma de communication idéal
Phase de codage

Signal codeur de canal


codeur de source
original discret

modulatio
n
Canal continu

démodulation

Phase de décodage

décodeur de canal Signal


discret décodeur de source
reçu
Système de communication
 Codeur source : code les messages émis de façon à éliminer
la redondance

 Codeur canal discret : code les message à l’entrée du canal


en introduisant la redondance sous forme appropriée pour
permettre l’utilisation du canal sans erreurs

 Modulation/Démodulation : conversions physiques


nécessaires à l’utilisation du canal.
Codage source/canal
 Efficacité : Pour faire parvenir une quantité donnée
d'information a l'utilisateur, utiliser le minimum de ressources.

 Fiabilité : Restituer a l'utilisateur une information suffisamment


fidèle a celle produite par la source.
Codage de l’information
 La théorie de codage développe des techniques visant
à concevoir des systèmes de stockage et de
transmission de l’information

 Le codage vise à développer des algorithmes de


représentation de l’information
 Atteindre les limites de possible définies par la théorie de
l’information
 Répondre aux préoccupations techniques (mémoire,
vitesse, robustesse)
La théorie de l’information
 Objectif:
 Déterminer les performances limites d’un système de
communication en présence de perturbation aléatoires

 Résultats fondamentaux:
 Réaliser une transmission d’information exempte d’erreur,
malgré l’existence du bruit de fond
La théorie de l’information
 Donner une définition quantitative à la notion d’information

 Aspects :
 Incertitude (comportement imprévisible)
 mesurable  notion quantitative de l’information

 un message est plus significatif s’il est moins


probable

 Interprétation : véracité, valeur,…,


 dépend du contexte et de l’observateur  non mesurable
La redondance
 Généralement, on peut écrire :

signal = information + redondance.

 Une partie de la redondance vient de la dépendance


entre les événements consécutifs.
 Exemple :
 une suite de caractère lue à partir d’un fichier ou d’un
canal de transmission quelconque est :
Monsieu

 Le prochain caractère, r, est connu à l’avance de


façon certaine.
14
Formulation
 On suppose qu’un signal est la  Exemple (Pile/Face)
suite de N réalisations d’une Message = "PFPFFPF"
7 réalisations de X dans A ={P,F} (avec S
variable aléatoire discrète X, = 2) de loi de probabilité uniforme
appelée source d’information
sans mémoire (chaque  Exemple (Texte)
symbole est indépendant des Message = "‘Bonjour’"
précédents) 7 réalisations de X dans A = alphabet
français (avec S = 26)

 X prend ses valeurs dans un


alphabet A={X0, X1,…, XS-1} de
S symboles et suit une certaine
loi de probabilité :
pi  Prob x  xi , i  0  S  1
15
Formulation
 Un mot de code ci est une  Une fonction de décodage FD
chaîne binaire de longueur li est la réciproque de la fonction
(en nombre de bits). de codage associée :

 Un code C est un ensemble de FD : C  A


L mots de code :
ci  xi
C  ci 0i  L 1 Exemples de sources
 Un texte A = Codes ASCII ;
 Une fonction de codage Fc est
 Un son A = [0 : 216 − 1];
bijective et associe un mot de
s’il est codé sur 16 bits.
code à un événement de la
 Une image :
source :
 Niveaux de gris (A = [0 :
255]) ;
Fc : A  C  Couleur (A = [0 : 255]3) ;
xi  ci  La sortie d’un quantificateur.

16
Eléments de la théorie de l’information
 Probabilité d’occurrence des caractères

 Quantité d’information:
Soit X une v.a. La quantité
d’information associée à
la réalisation x = xi est :

hi  x   log 2  pi   Quantité d’information des caractères

 La quantité
d’information se mesure
en bits (logarithme à base
2).
ln  x 
log 2  x  
17
ln 2 
Source : Biographical Essays de Thomas de Quincey
L’entropie dans la théorie de l’information
 En physique, l’entropie est une grandeur mesurant l’« incertitude » .
 En théorie de information, l’entropie est nulle lorsqu’il y a une certitude et est
maximale quand le signal est aléatoire.
 Tout signal transporte de l’information.
 Cette grandeur, que l’on perçoit de façon intuitive, n’est pas facile à définir
quantitativement, il est cependant naturel de lui attribuer certaines propriétés :
 c’est une grandeur toujours positive,
 elle est additive, toute contribution du signal apporte une quantité d’information
qui s’ajoute à celle que l’on possède déjà,
 elle est liée à la probabilité associée à l’évènement : la quantité d’information
doit être d’autant plus grande que la probabilité est faible.

 L’idée principale de la théorie de l’information est de dire que s’il n’y a pas
d’incertitude vis à vis du message émis par la source, il n’y a pas d’information à
la réception du message.

18
L’entropie
 Pour une source X émettant un message comportant N symboles, tel
que un symbole xi a une probabilité pi d'apparaître (la fréquence
d’apparition du symbole xi dans le signal), l'entropie H de la source X est
définie comme:
H  X    pi hi ( x )   pi log 2 ( pi )
i i

 Avec pi=ni /N , où ni est le nombre d’occurrences du symbole xi dans


le message composé de N symboles
 Cette quantité ne dépend que de la source, c’est son entropie.
 L’entropie est nulle pour un évènement certain.
 Application:
 Soit une source qui transmet les résultats obtenus par lancer de dés
(résultats équiprobables pi= 1/6 quelque soit i). Calculez son
entropie? 19
Entropie et codage
 Soit un message constitué de N symboles.
Supposons qu’on veut construire un «code» C qui, à chaque
symbole xi, associe un «mot code» ci dont la longueur li varie
selon sa probabilité d’apparition. On montre alors que:

 L’entropie est la limite inférieure du nombre moyen de


bits juste nécessaires au codage binaire d’un fichier.

20
Efficacité de codage
 Définissons l'efficacité d'un codage par:

H X 
E

L
i 1
pi li

 Premier théorème de Shannon : Pour toute source discrète


sans mémoire, il existe un codage permettant de coder la
source et dont l'efficacité est très proche de 1.

21
Théorème de Shannon
 En pratique, on ne peut négliger la contrainte li entier, et il est
donc souvent impossible d’atteindre l’optimum. Cependant, on
peut prouver qu’il est possible de s’en approcher:

 Si H(X) est l’entropie de la source, alors

𝑛̄ = 𝑝𝑙
Propriétés souhaitées des codes
 non singulier (régulier): xi  x j  C  xi   C x j  
– permet de décoder un symbole unique, mais pas une suite de symboles
– pour décoder une suite, il faut introduire un symbole de ponctuation.

 uniquement décodable (déchiffrable) :


– C* est le code étendu tel que C *  x1 , , xn   C  x1 C  x2  C xn 
– C est uniquement décodable si C* est non singulier

 instantanément décodable :
– Chaque symbole C peut être décodé sans référence aux symboles
suivants
– Condition préfixe: aucun mot code n’est le préfixe d’un autre mot code
Condition de préfixe
 Soit une source X générant des symboles xk d’un alphabet Q-aire (k{1,…,Q} )

 Soit C(xk) le mot-code correspondant au symbole xk de la source

 C(xk), de longueur nk, peut s’écrire C(xk ) = (ck,1, ck,2 …, ck,nk), où ck,i représente
une lettre aj de l’alphabet q-aire du code (j {1,…,q} ).

 Toute séquence de lettre construite par la partie initiale de C(xk) est appelée
préfixe

 La condition de préfixe stipule que dans un code aucun mot-code n’est le


préfixe d’un autre mot-code
Condition de préfixe

 Les codes à condition de préfixe sont à décodage unique

 Tous les codes à décodage unique ne satisfont pas nécessairement la


condition de préfixe

 La condition de préfixe permet de reconnaître la fin d’un mot-code,


donc un décodage sans retard (codes instantanés)
Construction d’un code à préfixe
 Un code préfixe q-aire peut être représenté par un arbre q-aire dont les feuilles
sont les mots du code
Inégalité de Kraft
 Propriété des codes préfixes:
 Pour tout code préfixe de K mots sur un alphabet de q symboles dont les mots
codes ont pour longueur n1, n2, …, nK , ces entiers satisfont

 1
q  nk

k 1

 Inversement, étant donnés des entiers n1, n2, …, nK qui satisfont cette
inégalité, on peut construire un code préfixe dont les mots code ont ces
longueurs
Inégalité de Kraft : Preuve
 Soit nmax la longueur du mot le plus long du code
 On considère l’arbre q-aire de profondeur nmax , les feuilles au niveau nmax
sont soit
– des mots code (1)
– des descendants de mots code (2)
– aucun des deux (3)
 Un mot code de longueur nk a q nmax  ndescendants.
k

 La condition de préfixe implique que l’ensemble de ces descendants doit être


disjoint pour tous les mots codes.
 Si l’on considère l’ensemble des feuilles de niveau nmax qui sont ou
descendent d’un mot code, soit (1)+(2), il y en a donc

 1
nx log 1
 px
Inégalité de Kraft : Preuve
 Cet ensemble (1)+(2) de feuilles étant ou descendant de mots-codes est évidemment
inclus dans l’ensemble (1)+(2)+(3) de toutes les feuilles de niveau nmax. On a donc

 q nmax  nk

k 1
 q nmax

 Et en divisant par , on obtient bien l’inégalité de Kraft


q nmax

q
k 1
 nk
1
Inégalité de Kraft
 L’inégalité de Kraft constitue un résultat fondamental en
théorie des codes. Elle fournie en effet une condition nécessaire
et suffisante d’existence de codes déchiffrables et instantanés,
exprimée en fonction de la longueur des mots du codes

 Théorème Mac Millan : Il existe un code à décodage unique


dont les K mots ont pour longueur n1, n2, …, nK
ssi

 1
q  nk

k 1

Vous aimerez peut-être aussi