Vous êtes sur la page 1sur 64

Théorie de l’information et du

Codage
Objectifs du Cours

Etude de la mesure de l’Information


selon les théories de Claude Shannon et
ses applications dans deux domaines :
- Détection et correction d’erreurs
- Compression de données
Sommaire
• Introduction, historique et principe de la THI (1)
• Principes des systèmes de communications (1)
• Mesures de la quantité d’information et Entropie (3)
• Codage de la source (discrète sans mémoire ) (5)
– Codes et Codage (codage optimale,prefixe , Huffman, 1ier
Théorème de Shanon)
– Redondance et compression (Lampel Ziv, Shannon,…)
• Codage du canal (Discret symétrique ) (5)
– Codage du canal
– Capacité d’un canal (2ième Théorème de Shanon)
– Correction et codes correcteurs (Représentation, Hamming,
Linéaire, Polynomiaux,…)
Ce dont on va parler dans ce cours . . .
• Notions mathématiques : entropie, information mutuelle
• Codage et décodage : codes, déchiffrabilité, efficacité
d'un code
• Transmission de l'information : comment transmettre
correctement une information en présence d'erreurs de
transmission
• Compression des données : essentiellement, compression
sans pertes (conservative)
• Le langage mathématique est celui de la théorie des
probabilités : variables aléatoires et processus discrets
(élémentaires)
Chapitre 1: Introduction, historique et
principes de la THI
Introduction

• La théorie de l’information donne des bases


formelles et quantitatives à la notion
d’information, de façon à ce que celle-ci
devienne techniquement utilisable dans un
certain nombre de disciplines qui traitent de
l’information.
• La théorie de l’information fournit essentiellement
des outils de modélisation et d’analyse dans le
domaine du traitement de l’information.
• C’est une théorie probabiliste permettant de
quantifier le contenu moyen en information d'un
ensemble de messages, dont le codage
informatique satisfait une distribution statistique
précise.
• Elle fournit une mesure quantitative de la notion
d'information apportée par un message (ou une
observation).
• Dans un sens plus général, une théorie de
l'information est une théorie visant à
quantifier et qualifier la notion de contenu en
information présent dans un ensemble de
donnée.
Objectifs
Parmi les objectifs importantes de la THI, on peut citer :
• le codage de l'information,
• la mesure quantitative de redondance d'un texte,
• Evaluation et minimisation des coûts de
– Transmission
– Stockage (Compression)
• Contrôle des erreurs de transmission
– Détection
– Correction
• Cryptologie
– Cryptographie
– Cryptanalyse
Applications
• Informatique
– Compression, codage, cryptologie
– Reconnaissance des formes (I.A.)
• Physique
– Modèles quantiques
– Théorie des trous noirs et du « big bang »
• Biologie moléculaire
– A.D.N.
• Sociologie
– Communication
Applications
• Compression
- Code MORSE, - Huffman, - Lampel-Ziv, -RLE....

• Contrôle des erreurs de transmission


- Codes de parité, - Codes à répétition,-
Hamming, -Reed Solomon....

• Cryptologie
- Crypte de CÆSAR, - DES, - AES,- RSA.....
Relations…
Historique
• Cette théorie fut conçue par Claude E. Shannon
peu après la seconde guerre mondiale pour
répondre à certaines interrogations
fondamentales dans le domaine des techniques
de communication.
• Comme le suggère l’intitulé de l’article fondateur
de Shannon (The mathematical theory of
communication, 1948), cette théorie peut être vue
comme une discipline mathématique.
Historique
• L'information est un concept physique nouveau
qui a surgi dans un champ technologique.
• Le concept théorique d'information a été
introduit à partir de recherches théoriques sur
les systèmes de télécommunication.
• L'origine de ces recherches remonte aux études
entreprises dès la fin du 19e siècle, en physique
et en mathématique par Boltzmann, et Markov
sur la notion de probabilité d'un événement et
les possibilités de mesure de cette probabilité.
Historique
• Plus récemment, après la Seconde Guerre
mondiale, les contributions les plus importantes
sont dues à la collaboration des
mathématiciens (Von Numan, Turing,…) et des
ingénieurs des télécommunications (Shanon,…),
qui ont été amenés à envisager les propriétés
théoriques de tout système de signaux utilisé
par les êtres, vivants ou techniques, à des fins
de communication.
Historique
• Rudolf Clausius (1822-1888) : définit l'entropie comme
une mesure du désordre d'un système
• Ludwig Boltzmann (1844-1906) : l'entropie d'un état
macroscopique est proportionnelle au logarithme du
nombre d'états microscopiques correspondants
• Ronald Fisher (1890-1962) : utilise le mot information
dans un contexte mathématique
• Harry Nyquist (1889-1976) (bruit, fréquence
d'échantillonnage), Ralph Hartley (1888-1970)
• Claude Shannon (1916-2001), premiers théorèmes sur
l'information en théorie de la communication
Historique
• Les trois principales questions auxquelles elle
apporte une réponse sont les suivantes :
1. Quelle est la limite ultime en matière de
compression des données digitales réversible
(Codage d’une source de transmission);
2. Quel est le débit maximal de transmission fiable
de ce type d’information sur un canal bruité
(la capacité C d’un canal de transmission);
3. Sous quelles conditions un code de chiffrement
est-il sûr (Cryptologie)
• Cette théorie est née de préoccupations
technologiques pratiques.
• La société Bell cherche à transmettre les messages de
la façon à la fois la plus économique et la plus fiable.
• Le cadre originel de la théorie est celui d'un système
de communications où un émetteur transmet un
message à un récepteur à travers un canal donné.
• Émetteur et récepteur ont par hypothèse un
répertoire commun, un code qui contient les
catégories de signaux utilisables.
• Ainsi le message codé est transmis, de l'émetteur au
récepteur à travers le canal, sous forme de signes ou
signaux portés par de le Canal.
• Ainsi, le concept d'information a été l'objet
d'une théorie, appelée "théorie de
l'information".

• Elle a été élaborée plus spécialement par


Claude Shannon, ingénieur à la Compagnie des
Téléphones Bell et reste jusqu'à nos jours la
base du concept dit scientifique d'information.
• Dans sa conception originale, la théorie de
l'information s'est limitée à analyser les moyens
et les techniques de télécommunication pour
transmettre l'information le plus rapidement
possible et avec le maximum de sécurité.
• Elle s'est donc efforcée de développer des
méthodes susceptibles de minimiser la
probabilité d'erreur dans la reconnaissance du
message.
• Une notion fondamentale sera nécessaire pour
développer ces méthodes : la mesure de
l'information, au sens mathématique du terme.
Notion d’information
• Considérons le problème de la communication
entre une source et un récepteur : la source
émet un message que le récepteur lit.
Canal de transmission
Source Récepteur

Données Emises Données Reçus

• On voudrait quantifier l'« information » que


contient chaque message émis. Par exemple, il
est clair que si l'émetteur dit toujours la même
chose, la quantité d'information apportée par
une répétition supplémentaire est nulle.
Notion d’information
Le cas le plus simple est le suivant : le récepteur
attend une information de type oui/non, le oui et
le non étant a priori aussi vraisemblables l'un que
l'autre.
Lorsque la source transmet soit un oui soit un non,
on considère que le récepteur reçoit une unité
d'information (un bit). Autrement dit : une unité
d'information, c'est quand on a a priori un
ensemble de deux possibilités, et que l'une d'elles
se réalise.
Notion d’information :Exemple
Une information désigne, parmi un ensemble
d'événements, un ou plusieurs événements
possibles.
En théorie, l'information diminue l'incertitude. En
théorie de la décision, on considère même qu'il ne
faut appeler information que ce qui est susceptible
d'avoir un effet sur nos décisions.
En pratique, l'excès d'information, tel qu'il se
présente dans les systèmes de messagerie
électronique, peut aboutir à une saturation, et
empêcher la prise de décision.
Notion d’information :Exemple
Premier exemple
Soit une source pouvant produire des tensions
entières de 1 à 10 volts et un récepteur qui va
mesurer cette tension. Avant l'envoi du courant
électrique par la source, le récepteur n'a aucune
idée de la tension qui sera délivrée par la source. En
revanche, une fois le courant émis et réceptionné,
l'incertitude sur le courant émis diminue. La théorie
de l'information considère que le récepteur possède
une incertitude de 10 états
Notion d’information :Exemple
Second exemple
• Problème:
• Une bibliothèque possède un grand nombre:
 d'ouvrages,
 des revues,
 des livres
 et des dictionnaires.
• Nous cherchons un cours complet sur la théorie de
l'information.
Notion d’information :Exemple
• Tout d'abord, il est logique que nous ne trouverons
pas ce dossier dans des ouvrages d'arts ou de
littérature; nous venons donc d'obtenir une
information qui diminuera notre temps de recherche.
• Il est précisé que nous voulions aussi un cours
complet, nous ne le trouverons donc ni dans une
revue, ni dans un dictionnaire.
• nous avons obtenu une information supplémentaire
(nous cherchons un livre), qui réduira encore le temps
de notre recherche.
Notion de quantité d’information
Problème
Considérons N boîtes numérotées de 1 à N.
• Un individu « A » a caché au hasard un objet
dans une de ces boîtes.
• Un individu « B » doit trouver le numéro de la
boîte où est caché l'objet.
• Pour cela, « B » a le droit de poser des questions
à l'individu « A »
• « A » doit répondre sans mentir par OUI ou NON.
• Mais chaque question posée représente un coût
à payer par l'individu « B » (par exemple un euro).
Notion de quantité d’information
• Un individu « C » sait dans quelle boîte est caché
l'objet. Il a la possibilité de vendre cette information à
l'individu « B ».
• « B » n'acceptera ce marché que si le prix de « C » est
inférieur ou égal au coût moyen que « B » devrait
dépenser pour trouver la boîte en posant des
questions à « A ».
• L'information détenue par « C » a donc un certain prix
qui représente: « la quantité d'information
représentée par la connaissance de la bonne boîte :
c'est le nombre moyen de questions à poser pour
identifier cette boîte ». Nous la noterons I.
Notion de quantité d’information
Exemple :
• Si N = 1, I = 0 : Il n'y a qu'une seule boîte. Aucune
question n'est nécessaire.
• Si N = 2, I = 1: On demande si la bonne boîte est la
boîte n°1. La réponse OUI ou NON détermine alors
sans ambiguïté quelle est la boîte cherchée.
• Si N = 4, I = 2: On demande si la boîte porte le n°1 ou
2. La réponse permet alors d'éliminer deux des boîtes
et il suffit d'une dernière question pour trouver quelle
est la bonne boîte parmi les deux restantes.
Notion de quantité d’information
• Si N = 2k, I = k : On écrit les numéros des boîtes en
base 2. Les numéros ont au plus k chiffres binaires, et
pour chacun des rangs de ces chiffres, on demande si
la boîte cherchée possède le chiffre 0 ou le chiffre 1.
• En k questions, on a déterminé tous les chiffres
binaires de la bonne boîte. Cela revient également à
poser k questions, chaque question ayant pour but de
diviser successivement le nombre de boîtes
considérées par 2 (méthode de dichotomie).
• On est donc amené à poser I = log2(N), mais cette
configuration ne se produit que dans le cas de N
événements équiprobables.
Notion de quantité d’information
• Supposons maintenant que les boîtes soient
colorées, et qu'il y ait n boîtes rouges.
• Supposons également que C sache que la boîte où
est caché l'objet est rouge. Quel est le prix de cette
information?
• Sans cette information, le prix à payer est log2(N).
Muni de cette information, le prix à payer n'est plus
que log2(n). Le prix de l'information « la boîte
cherchée est rouge » est donc :
• log2(N) − log2(n) = log2(N / n).
Notion de quantité d’information
• On définit ainsi la quantité d'information comme une
fonction croissante de N/n avec :
• N : le nombre d'évènements possibles
• n : le cardinal du sous-ensemble délimité par
l'information
• Afin de mesurer cette quantité d'information, on
pose :
I=log2(N/n)
• I est exprimé en bit (ou logon, unité introduite par
Shannon), ou bien en « Nat » si on utilise le
logarithme naturel à la place du logarithme de base 2.
Notion de quantité d’information
Supposons maintenant que les boîtes soient de diverses
couleurs :

n1 boîtes de couleur C1,


n2 boîtes de couleur C2,
...,
nk boîtes de couleurs Ck,

avec n1 + n2 + ... + nk = N.
Notion de quantité d’information
La personne « C » sait de quelle couleur est la boîte
recherchée.
Quel est le prix de cette information ?

L'information « la boîte est de couleur C1 » vaut


log (N/n1), et cette éventualité a une probabilité n1/N.
L'information « la boîte est de couleur C2 » vaut
log (N/n2), et cette éventualité a une probabilité n2/N...
……………,
……………,
L'information « la boîte est de couleur Ck » vaut
log (N/nk), et cette éventualité a une probabilité nk/N...
Notion de quantité d’information
Le prix moyen de l'information est donc:

(n1/N)log(N/n1)+ (n2/N)log(N/n2)+ ... + (nk/N)log(N/nk)

Plus généralement, si on considère k évènements


disjoints de probabilités respectives p1, p2, ..., pk avec :
p1 + p2 + ... + pk = 1, alors la quantité d'information
correspondant à cette distribution de probabilité est:
p1 log 1/p1 + ... + pk log 1/pk.

Cette quantité s'appelle « Entropie de la distribution de


probabilité »
Entropie d’information (Shanon)
L’entropie permet donc de mesurer la quantité
d'information moyenne d'un ensemble d'évènements
(en particulier de messages) et de mesurer son
incertitude. On la note H :
1
H   p i .Log 2 ( )  - p i .Log 2 (pi )
iI pi iI
ni
avec p i  N la probabilité associée à l'apparition de
l'évènement i.
Entropie d’information (Shanon)

L'entropie de Shannon, est une fonction mathématique


qui, intuitivement, correspond à la quantité
d’information contenue ou délivrée par une source
d'information.
Cette source peut être un texte écrit dans une langue
donnée, un signal électrique ou encore un fichier
quelconque (collection d'octets).
Entropie d’information (Shanon)

Du point de vue d'un récepteur, plus la source émet


d'informations différentes, plus l'entropie (ou
incertitude sur ce que la source émet) est grande, et
vice versa.
Plus le récepteur reçoit d'information sur le message
transmis, plus l'entropie (incertitude) vis-à-vis de ce
message décroît, en lueur de ce gain d'information.
Entropie d’information (Shanon)
La définition de l'entropie d'une source selon Shannon
est telle que plus la source est redondante, moins elle
contient d'information.
En l'absence de contraintes particulières, l'entropie H
est maximale pour une source dont tous les symboles
sont équiprobables.

Dans le cas particulier d'un système de


télécommunication, l'entropie de la source
d'information (le transmetteur) indique l'incertitude du
récepteur par rapport à ce que la source va transmettre.
Entropie d’information :Exemple
Une source qui envoi toujours le même symbole, disons
la lettre « a », a une entropie nulle, c'est-à-dire
minimale (H=0).
En effet, un récepteur qui connait seulement les
statistiques de transmission de la source est assuré que
le prochain symbole sera un « a », sans jamais se
tromper.
Le récepteur n'a pas besoin de recevoir de signal pour
lever l'incertitude sur ce qui a été transmis par la source
car celle-ci n'engendre pas d'hasard.
Entropie d’information :Exemple
Par contre, si la source envoi un « a » la moitié du temps
et un « b » l'autre moitié, le récepteur est incertain de la
prochaine lettre à recevoir.
L'entropie de la source dans ce cas est donc non nulle
(positive) et représente quantitativement l'incertitude
qui règne sur l'information émanant de la source.
« Du point de vue du récepteur, l'entropie indique
la quantité d'information qu'il lui faut obtenir pour
lever complètement l'incertitude (ou le doute) sur
ce que la source a transmis »
Notion d’incertitude
• Pour Shannon, l'information présente un caractère
essentiellement aléatoire. Un événement aléatoire
est par définition incertain. Cette incertitude est prise
comme mesure de l'information.
• Une information sera donc uniquement définie par sa
probabilité (I = - log p). Donc l'information est la
mesure de l'incertitude calculée à partir de la
probabilité de l'événement.
Notion d’incertitude
• Shannon a donc confondu la notion d'information et de
mesure d'incertitude.
• Il faut remarquer que dans cette définition l'information
est bien synonyme de mesure d'incertitude. Plus une
information est incertaine, plus elle est intéressante, et
un événement certain ne contient aucune information.
• En théorie de l'information de Shannon, il s'agit donc de
raisonner en probabilité et non en logique pure.
Notion d’incertitude : Exemple
• Considérons une urne contenant plusieurs boules de
différentes couleurs, dont on tire une boule au hasard.
• Si toutes les boules ont des couleurs différentes, alors
notre incertitude sur le résultat d'un tirage est
maximale. En particulier, si nous devions parier sur le
résultat d'un tirage, nous ne pourrions pas privilégier
un choix plutôt qu'un autre.
Notion d’incertitude : Exemple
• Par contre, si une certaine couleur est plus
représentée que les autres (par exemple si l'urne
contient davantage de boules rouges), alors notre
incertitude est légèrement réduite : la boule tirée a
plus de chances d'être rouge. Si nous devions
absolument parier sur le résultat d'un tirage, nous
miserions sur une boule rouge.
• Ainsi, révéler le résultat d'un tirage fournit en
moyenne davantage d'information dans le premier
cas que dans le second, parce que l'entropie du
"signal" (calculable à partir de la distribution
statistique) est plus élevée.
Notion d’incertitude : Exemple
• Prenons un autre exemple : considérons un texte en
français codé comme une chaîne de lettres, d'espaces et
de ponctuations (notre signal est donc une chaîne de
caractères).
• Comme la fréquence de certains caractères n'est pas très
importante (ex : 'w'), tandis que d'autres sont très
communs (ex : 'e'), la chaîne de caractères n'est pas si
aléatoire que ça.
• D'un autre côté, tant qu'on ne peut pas prédire quel est le
caractère suivant, d'une certaine manière, cette chaîne
est aléatoire, c’est ce que cherche à quantifier la notion
d'entropie de Shannon.
Incertitude <–> Quantité d’information

• L’incertitude est équivalente à la Quantité


d’information (Quantitativement)
• Soit x une source d’information alors :
I(X) : (=-log2(pxi))
-la quantité d’information de X si il’ est connue (A
posteriori)

- l’incertitude sur X si X est inconnue (A priori)


Entropie <-> Quantité d’information

• L’entropie et la valeur moyenne de la quantité


d’information observé sur la sortie d’une source
de données
• Formellement c’est l’espérance mathématique de
la quantité d’information :
H(X)=E(I(X))
Pour une source de données X (Var. Aléatoire)
Conclusion
• Théorie de l’information => Quantifier
l’information en fonction de la probabilité
d’apparition de chaque élément (levé l’incertitude)
• Calcule de l’entropie permet de connaitre la nature
de la source en vu de faire un meilleur codage
(compression)
• L’entropie permet aussi de connaitre la nature du
canal (meilleur transmission)
Maitriser la THI Avoir une bonne maitrise de la
théorie de probabilité
Canaux et codeur de canal
• Pour modéliser un canal de transmission, il est
nécessaire de spécifier l’ensemble des entrées
et l’ensemble des sorties possibles.
• La cas le plus simple est celui du canal discret
sans mémoire:
L’entrée est une lettre prise dans un alphabet
fini A = {a1, . . . , an} et la sortie est une lettre
prise dans un alphabet fini B = {b1, . . . , bm} .
𝑎𝑖 ∈ 𝐴 𝑏𝑖 ∈ 𝐵
Canal de transmission

50
• Ces lettres sont émises en séquence, et, le canal
est sans mémoire si chaque lettre de la séquence
reçue ne dépend statistiquement que de la lettre
émise de même position.
• Ainsi un canal discret sans mémoire est
entièrement décrit par la donnée des probabilités
conditionnelles p(b|a) pour toutes les lettres a de
l’alphabet d’entrée et toutes les lettres b de
l’alphabet de sortie.

51
• Définition :
Un canal discret est défini par la donnée de:
– un alphabet d'entrée X = {a1,…. , an}
– Un alphabet de sortie Y={b1,…,bm}
– une loi de transition P(Y|X), i.e. une matrice
b , ……….………………… b
stochastique: 1 m

 P(b1 | a1 ) ...... P (bm | a1 )  a..


  ...
1

M      ....
 P (b | a ) ...... P(b | a )  ...
 1 n m n 

Si on a k symbole en entrée et l symbole en


sorite alors il sont liées par :
P(y1,….yl|x1,…..xk) modèle trop
52
• Pour simplifier, on définit le canal causal:
un canal est di causale si :
P(y1,….yl|x1,…..xk)= P(y1,….yl|x1,…..xl) avec l≤k
toute sortie est indépendante des entrées
futures

• Un canal discret causal est sans mémoire si pour tout


(x1,….xl) transmis (en entrée) et (y1,….yl) reçu,
l
on à :
P(y1,….yl|x1,…..xl)=P(y1|x1)x…xP(yl|xl) =  P(y
i 1
i | xi )

un symbole reçu ne dépend que du symbole


transmis au même moment.
53
• Un canal est dit symétrique si sa matrice de
transitions est symétrique par rapport à sa
diagonale : P(ai|bj)=P(aj|bi) i,j.
• Dans la suit de ce cours, on étudiera plus
particulièrement les canaux discrets causales sans
mémoire symétriques définie par leurs matrice de
transitions symétriques, ayant un alphabet
d’entrée X = {a1,…. , an} et un alphabet de sortie
Y={b1,…,bm}.

54
Exemples de canal discret sans mémoire: « le
canal binaire symétrique »

• Le plus connu est le canal binaire symétrique défini


par X= Y = {0, 1} et dont les probabilités de
transition sont représentées dans la Figure.
55
• Dans ce modèle, la probabilité pour qu’un
symbole soit inchangé est 1 − p, où p est un réel
compris entre 0 et 1, et la probabilité pour qu’il
soit changé est p.
• Ce canal est entièrement décrit par sa matrice
de transitions :

1 - p p 
M   
 p 1- p 

56
Exemples de canal discret sans mémoire:
« le canal à effacement »

1  p p 0 
M   
 0 p 1- p 
57
Exemples de canal discret sans mémoire:
« le canal en Z»

1 0 
M   
 p 1 p
58
• On peut également considérer des canaux
discrets à mémoire dans lesquels chaque lettre
de la séquence de sortie peut dépendre de
plusieurs lettres de la séquence d’entrée.

• Il existe une classe de modèles de canaux


appelés canaux continus, beaucoup plus
proches des canaux physiques.
• L’entrée et la sortie sont alors des fonctions
continues du temps. Pour les canaux de cette
classe, il est commode de séparer le codeur et
le décodeur en deux parties :
59
Schéma général d’un Canal Continu
La première partie du codeur, que nous appellerons
codeur de canal discret, transforme une séquence
binaire en une séquence de lettres d’un alphabet fini
A={a1,…,an}. La seconde partie du codeur: le modulateur
de données digitales, envoie pendant un temps τc sur le
canal une des fonctions de temps s1(t),…, sn(t). 60
• La durée τc est l’intervalle de temps séparant
l’émission de deux lettres par le codeur de canal
discret.
• L’ensemble de ces fonctions du temps mises bout à
bout est converti à la sortie du canal par le
démodulateur de données digitales en une séquence
de lettres d’un alphabet de sortie B = {b1,…, bm} au
rythme, là encore, d’une lettre toutes les τc secondes.

61
Capacité d’un canal
• Nous verrons que l’un des paramètres les plus
importants pour décrire un canal est sa capacité
que nous définirons plus tard.
• On peut montrer que l’on peut transmettre de
l’information à travers un canal à n’importe quel
taux de transmission inférieur à la capacité avec
une probabilité d’erreur arbitrairement faible.
• Le taux de transmission est le nombre de
symboles émis en entrée divisé par le nombre de
symboles reçus en sortie.
62
Conclusion
• Un système de communication est basé
principalement sur le modèle de la source et du
canal de transmission.
• La source est une variable aléatoire définie sur un
alphabet et munie d’une loi de probabilité, notre
but pour celle-ci est:
Assurée un meilleur codage de la source en terme
de représentation d’une longueur minimale
(codage de la source, compression ), on s’intéresse
d’avantage aux source discrètes sans mémoire.

63
Conclusion
• Le canal est modéliser par une association
Entrées/Sorties définies sur deux alphabets X et Y ,
et munie d’un loi de probabilité conditionnelle
spécifiée par une matrice stochastique de
transitions. Nous cherchons à assuré:
Une transmission avec le minimum d’erreurs
possibles sur un canal bruité, tout en mesurant la
capacité maximale de transmission de ce canal qui
le permet. (codes correcteurs et capacité de canal)

64

Vous aimerez peut-être aussi