11.2-Theorie de L'information

Théorie du signal et de l’information
Notes de cours
Laurent Oudre
laurent.oudre@ens-paris-saclay.fr
ENS Paris Saclay

M1 Parcours Jacques Hadamard
2022 - 2023
2
Table des matières
Introduction générale 5
1 Organisation du cours 5
2 Contenu du cours 5
2.1 Théorie du signal : conversion analogique-numérique . . . . . . . . . . . . . . . . . . 6
2.2 Théorie de l’information : information et entropie . . . . . . . . . . . . . . . . . . . 9
2.3 Codage source : compression de l’information . . . . . . . . . . . . . . . . . . . . 10
2.4 Codage canal : transmission de l’information . . . . . . . . . . . . . . . . . . . . . 11
2.5 Théorie du signal [le retour] : vers les communications numériques . . . . . . . . . . . . . 12
3 Plan du cours 13
4 Références 13
I Théorie de l’information 14
1 Variables aléatoires sur un espace probabilisé discret 15
1.1 Espace probabilisé discret . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Couple de variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Schéma de Shannon 21
2.1 Système de communication . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Source discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Canal discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 Information et entropie 27
3.1 Information élémentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Entropie d’une source. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.2 Interprétation de l’entropie . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.3 Divergence de Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.4 Propriétés de l’entropie . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Entropies conjointe et conditionnelles, information mutuelle 33

4.1 Entropie conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2 Entropies conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Théorie du signal et de l’information — Laurent Oudre — 2022-2023

3
4.3 Diagramme de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.4 Information mutuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.5 Extension à plusieurs variables aléatoires . . . . . . . . . . . . . . . . . . . . . . 43
4.5.1 Information mutuelle conditionnelle . . . . . . . . . . . . . . . . . . . . . . 43
4.5.2 Formules des conditionnements successifs . . . . . . . . . . . . . . . . . . . . 45
5 Propriété asymptotique d’équirépartition (AEP) 46

5.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2 Ensemble des séquences typiques . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.2 Conséquences sur le codage source . . . . . . . . . . . . . . . . . . . . . . 51
5.3 Ensemble des séquences conjointement typiques . . . . . . . . . . . . . . . . . . . 52
5.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.3.2 Application au codage canal . . . . . . . . . . . . . . . . . . . . . . . . 56
II Codage source 58
1 Classes de codes source 60
1.1 Quelques définitions importantes . . . . . . . . . . . . . . . . . . . . . . . . . 60
1.2 Code non singulier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
1.3 Code déchiffrable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
1.4 Code instantané . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2 Propriétés des codes binaires instantanés 65

2.1 Inégalité de Kraft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.2 Longueur moyenne minimale . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.3 Rendement et redondance d’un code . . . . . . . . . . . . . . . . . . . . . . . 70
3 Premier théorème de Shannon 71

3.1 Première version . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.2 Extension d’une source et deuxième version . . . . . . . . . . . . . . . . . . . . . 73
4 Code de Huffman 75
4.1 Algorithme de codage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Optimalité du codage de Huffman . . . . . . . . . . . . . . . . . . . . . . . . 78
III Codage canal 80

1 Principe du codage canal 80
1.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
1.2 (M, n)-code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
2 Inégalité de Fano 85
2.1 Théorème du traitement de l’information . . . . . . . . . . . . . . . . . . . . . . 86
2.2 Inégalité de Fano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3 Capacité d’un canal 89

3.1 Capacité d’un canal binaire symétrique . . . . . . . . . . . . . . . . . . . . . . . 90
3.2 Capacité d’un canal multi-usages . . . . . . . . . . . . . . . . . . . . . . . . . 92
4 Deuxième théorème de Shannon 94
5 Théorème de séparation source-canal 95

4
6 Codes détecteurs et correcteurs d’erreurs 97

6.1 Propriétés des codes canal . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 Codes linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .102
6.2.1 Distance minimale d’un code linéaire . . . . . . . . . . . . . . . . . . . . .102
6.2.2 Matrice génératrice . . . . . . . . . . . . . . . . . . . . . . . . . . .103
6.2.3 Matrice de contrôle . . . . . . . . . . . . . . . . . . . . . . . . . . .104
6.2.4 Décodage par syndrome . . . . . . . . . . . . . . . . . . . . . . . . . .106
6.3 Bornes théoriques de codage . . . . . . . . . . . . . . . . . . . . . . . . . .106
6.4 Codes de Hamming . . . . . . . . . . . . . . . . . . . . . . . . . . . . .108
IV Théorie du signal 111

1 Théorie des signaux déterministes 112
1.1 Energie et puissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . .113
1.2 Signaux à énergie finie . . . . . . . . . . . . . . . . . . . . . . . . . . . .114
1.2.1 Produit de convolution . . . . . . . . . . . . . . . . . . . . . . . . . .115
1.2.2 Transformée de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . .116
1.2.3 Spectre et largeur de bande. . . . . . . . . . . . . . . . . . . . . . . . .120
1.2.4 Fonction porte . . . . . . . . . . . . . . . . . . . . . . . . . . . . .121
1.2.5 Filtrage linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . .123
1.3 Distributions tempérées . . . . . . . . . . . . . . . . . . . . . . . . . . . .125
1.3.1 Notion de distribution tempérée . . . . . . . . . . . . . . . . . . . . . . .125
1.3.2 Distribution de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . .127
1.3.3 Peigne de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . .129
2 Echantillonnage et quantification 132

2.1 Signaux analogiques et numériques . . . . . . . . . . . . . . . . . . . . . . . .132
2.2 Échantillonnage uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . .134
2.3 Echantillonneur idéal . . . . . . . . . . . . . . . . . . . . . . . . . . . . .136
2.4 Théorème de Shannon-Nyquist . . . . . . . . . . . . . . . . . . . . . . . . .138
2.5 Reconstruction idéale . . . . . . . . . . . . . . . . . . . . . . . . . . . . .139
2.6 Quantification uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . .143
3 Théorie des signaux aléatoires 147

3.1 Chaîne de communication réelle . . . . . . . . . . . . . . . . . . . . . . . . .147
3.2 Notion de signal aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . .148
3.3 Stationnarité et ergodisme . . . . . . . . . . . . . . . . . . . . . . . . . . .149
3.4 Puissance moyenne et densité spectrale de puissance . . . . . . . . . . . . . . . . . .151
4 Canaux gaussiens réels 154
Références 156

5
Introduction générale
Plan de la partie
1 Organisation du cours 5
2 Contenu du cours 5
2.1 Théorie du signal : conversion analogique-numérique . . . . . . . . . . . . . . . . 6
2.2 Théorie de l’information : information et entropie . . . . . . . . . . . . . . . . . 9
2.3 Codage source : compression de l’information . . . . . . . . . . . . . . . . . . 10
2.4 Codage canal : transmission de l’information . . . . . . . . . . . . . . . . . . . 11
2.5 Théorie du signal [le retour] : vers les communications numériques . . . . . . . . . . . 12
3 Plan du cours 13
4 Références 13
1 Organisation du cours
Quelques informations pratiques
— 10 séances de CM/TD
— Contrôle continu : devoirs maison + participation active en TD
— Examen :
— Questions de cours : 1h sans documents
— Exercices : 2h avec documents
E1 + 2E2 + CC
— Note finale :
4
Tous les supports de cours sont disponibles en ligne :

http://www.laurentoudre.fr/tsi.html
2 Contenu du cours
Révolution numérique

Passage du monde analogique au monde numérique : traitement et transport d’une information numérique (séries
de 0 et 1)
Un peu d’histoire
Claude Shannon (1916 - 2001) est un ingénieur électricien et un mathématicien américain.

— Shannon comprend que toute donnée, même la voix ou les images, peut se transmettre à l’aide d’une suite de 0 et de 1 (les bits),
ouvrant la voie aux communications numériques et non plus analogiques.
— Il étudie les propriétés théoriques des messages numériques binaires et de leur transmission, ce qui donne lieu à des applications
en cryptographie, en compression de données mais également pour la correction d’erreurs de transmission.
— Il s’intéresse également à l’intelligence artificielle et conçoit le premier ordinateur qui joue aux échecs.
— Son article fondateur, publié en 1948, fut une avancée conceptuelle parmi les plus importantes du XXe siècle, et a permis le
développement, l’étude et le perfectionnement des systèmes de communication que nous utilisons chaque jour (Internet, téléphonie,
satellite...)
Contributions de Shannon
— Théorie du signal : chaque signal à envoyer peut être représenté comme une série de symboles discrets...
— Théorie de l’information : ...chaque symbole émis est associé à une quantité d’information...
— Codage source : ...grâce à cette notion d’information, on peut compresser au mieux le message que l’on veut
transmettre...
— Codage canal : ... pour ensuite le transmettre à un destinataire, en limitant le plus possible les erreurs de
transmission
2.1 Théorie du signal : conversion analogique-numérique

Système de communication
Canal
Emetteur (source) Récepteur (destinataire)
— Emetteur : signal x(t)

— Canal de transmission : fibre optique, liaison hertzienne, câble électrique...
— Récepteur : signal y(t)

Système de communication
Canal
Emetteur (source) Récepteur (destinataire)
— Notion de bruit qui perturbe la communication

— On a x(t) 6= y(t)
— Transmission peu robuste et source d’erreurs
De l’analogique au numérique
— Systèmes analogiques :
— Transmission d’un signal continu x(t) : continuum de temps et de valeurs possibles
— Dispositifs difficiles à réaliser et sensibles aux perturbations
— Systèmes numériques :
— Transmission d’un signal discret x[n] : discrétisation du temps et des valeurs possibles
— Permet l’utilisation d’un alphabet fini (exemple : 0 ou 1)
Conversion analogique-numérique
1.2 1.2
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
-0.2 -0.2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
t (secondes) t (secondes)
Etape d’échantillonnage : on n’enregistre la valeur du signal qu’à certains instants

1.2 1.2
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
-0.2 -0.2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Etape d’échantillonnage : on n’enregistre la valeur du signal qu’à certains instants
O
1.2 1.2
N
M
1 1
L
K
0.8 0.8
J
I
0.6 0.6
H
G
0.4 0.4
F
E
0.2 0.2
D
C
0 0
B
A
-0.2 -0.2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Etape de quantification : on n’autorise qu’un certain nombre de valeurs possibles
1.2
0.8
0.6
0.4
HHFJJKFKFKDHGHCCJDFF
0.2
-0.2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
t (secondes)
Un signal physique x(t) est représenté comme une série de symboles

Théorie du signal
Inversibilité de la conversion analogique-numérique ?

Comment reconstruire le signal à partir des symboles ?
Possibilité d’une reconstruction parfaite ?
Comment choisir les pas de temps et d’amplitude ?
Théorème de Shannon-Nyquist
2.2 Théorie de l’information : information et entropie

Théorie de l’information
Il n’y a pas une, mais plusieurs théories de l’information ! Le concept d’information a été introduit et utilisé dans
différents domaines :
— Télécommunications : Shannon
— Physique et thermodynamique : Boltzmann
— Informatique et algorithmique : Kolmogorov, Solomonov et Chaitin
— Economie : Ozga et Stigler
— ...
La plus utilisée et celle que nous allons étudier dans ce cours est la théorie de l’information de Shannon.
Modélisation de la source
— Le signal numérique devient une série de symboles, plus ou moins probables
— Modélisation de la source comme une variable aléatoire discrète X dans un alphabet fini X
— Chaque symbole envoyé transmet une information, dont la quantité peut être mesurée
— Exemple : journal télévisé avec trois annonces possibles X = {A, B, C} A - La Terre va exploser demain B - Il va
pleuvoir en Bretagne demain C - Demain nous allons tous devenir bleus
Qu’est-ce que l’information ?

Considérons deux annonces :
A - La Terre va exploser demain B - Il va pleuvoir en Bretagne demain

— Laquelle contient le plus d’information ? Clairement l’annonce A !
— Pourquoi ? Parce que c’est une information qui nous surprend, et qui nous semble impossible ou du moins très
peu probable
— On voudrait donc que A soit associée à une quantité d’information très élevée et B à une quantité d’information
faible
Qu’est-ce que l’information ?

Considérons maintenant les deux annonces :
A - La Terre va exploser demain C - Demain nous allons tous devenir bleus
— Les deux annonces contiennent beaucoup d’information, mais difficile de trancher

— Pourquoi ? Parce qu’en réalité ce qui compte ici, ce n’est pas le contenu ou le sens de l’information, mais plutôt
la surprise que cela va créer chez le destinataire. Dans les deux cas, comme les deux annonces sont très peu
probables, elles nous apportent beaucoup d’information.
— Shannon est parti de la même supposition : la quantité d’information d’un message ne doit pas dépendre du
sens ou de la sémantique de ce message, mais uniquement de la probabilité d’apparition du message.

Théorie de l’information : information et entropie

— La quantité d’information d’un symbole x de X ne dépend que de sa probabilité d’apparition pX (x) et non de
sa valeur
— La quantité d’information moyenne envoyée par une source est appelée entropie et caractérise ce qui se passe
à l’émetteur
Comment définir la notion d’information et d’entropie ?

Comment comparer et mesurer l’information apportée par plusieurs sources ?
Comment s’assurer que l’information a bien été transmise ?
Quelle propriétés asymptotiques pour des messages de très grandes tailles ?
2.3 Codage source : compression de l’information

Codage source
— Chaque élément de l’alphabet peut être codé sous forme d’un message binaire de longueur variable
— Fonction de codage source
c: X → S+
x 7→ c(x)
— X est l’alphabet source (ex : X = {A, B, C})
— S est l’alphabet code (ex : S = {0, 1})
— S + est l’ensemble des séquences de S de longueur finie non nulle
— Exemple : c(A) = 0, c(B) = 10, c(C) = 110
Codage source
La définition de la fonction de codage c a une influence forte sur la transmission des données et notamment sur :
— La capacité à décoder ou pas le message
— Exemple : c(A) = 0, c(B) = 10, c(C) = 10 : impossible à décoder car c n’est pas injective
— On cherchera des codes faciles à coder/décoder et si possible dont le décodage peut se faire à la volée
— La longueur des messages à transmettre
— Exemple : c1 (A) = 0, c1 (B) = 10, c1 (C) = 110 c2 (A) = 0010, c2 (B) = 1001, c2 (C) = 1010
— L’émetteur est caractérisé par un débit binaire nominal (bits/sec) : plus les messages sont courts, plus on
peut transmettre rapidement l’information
Codage source
Considérons une source X ayant comme alphabet X = {A, B, C, D} et deux fonction de codage c1 et c2
x pX (x) c1 (x) c2 (x)

1
A 4 10 01
1
B 8 110 00
1
C 8 111 11
1
D 2 0 10
Lequel est le plus performant ?

Longueur moyenne d’un code

— Fonction donnant la longueur d’un mot code
lc : X → N∗
x 7→ |c(x)|
— Pour une fonction de codage c, on définit la longueur moyenne d’un code

Lc = EX [lc (X)]
— Ici, Lc1 = 1.75 bits et Lc2 = 2 bits
Codage source : compression de l’information
Codage source
Comment construire un code facilement décodable avec la longueur moyenne la plus petite possible ?
Quelle est la limite théorique pour la longueur moyenne ?
Est-il possible d’atteindre cette limite théorique et si oui, comment ?
Premier théorème de Shannon
2.4 Codage canal : transmission de l’information

Canal et bruit
— Canal de transmission bruité
00101011101001 → 01101001001101
— Cas d’erreurs indépendantes et symétriques :
— Probabilité d’erreur sur un bit p : loi de Bernouilli
— Nombre d’erreurs E dans un message de n bits : loi binomiale
P(E = k) = Cnk pk (1 − p)n−k
Probabilité d’erreur
Loi binomiale - n=128 - p=0.01 Loi binomiale - n=128 - p=0.1
0.4 0.12
0.35
0.1
0.3
0.08
0.25
P(E=k)
P(E=k)
0.2 0.06
0.15
0.04
0.1
0.02
0.05
0 0
0 5 10 15 20 25 30 0 5 10 15 20 25 30
k k
E [E] = np var [E] = np(1 − p)
Réduire la probabilité d’erreur

— Pour réduire la probabilité d’erreur, il faut diminuer p
— Problème : cette probabilité est fixée par le canal de transmission
— Solution : agir en amont lors de l’émission pour rendre le message envoyé plus robuste aux perturbations
— Ré-encodage du message : codage canal

Code à répétition
Exemple du code à répétition :
— Répétition de chaque bit 2m + 1 fois
m=1: 0 → 000 1 → 111
— Décodage par vote majoritaire

m=1: 001 → 0 011 → 1, . . .
— Probabilité d’erreur sur un bit
X
2m+1
Pe = k
C2m+1 pk (1 − p)2m+1−k
k=m+1
m=1: Pe ≈ 0.028 pour p = 0.1
0.1
0.09
0.08
0.07
0.06
pbit
0.05
0.04
0.03
0.02
0.01
0
0 2 4 6 8 10 12 14 16 18 20
m
— On peut faire diminuer pbit autant qu’on veut, à condition de répéter suffisamment chaque bit
— Notion de rendement d’un code
nombre de bits utiles
R=
nombre de bits envoyés
1
— Pour le code à répétition R = 2m+1
— Pe → 0 est-il conditionné à R → 0 ?
Codage canal : transmission de l’information
Codage canal
Est-il possible d’avoir Pe nulle avec un rendement non nul ?

Quel est le rendement maximal permettant d’avoir Pe aussi petite que l’on veut ?
Comment détecter et corriger les erreurs de transmission ?
Deuxième théorème de Shannon
2.5 Théorie du signal [le retour] : vers les communications numériques

Vers les communications numériques
— Toute la modélisation de Shannon est basée sur des communications discrètes
— Problème : dans la vraie vie les canaux de communications, ce sont des câbles électriques, des liaisons sans fil,
etc...

Théorie du signal - suite
Comment transmettre des symboles discrets sur des canaux réels ?

Comment étudier les propriétés de ces signaux ?
Quid des probabilités d’erreurs sur les canaux réels ?
Deuxième théorème de Shannon pour les canaux réels
3 Plan du cours
Plan du cours
1. Théorie de l’information : information et entropie
2. Codage source : compression de l’information
3. Codage canal : transmission de l’information
4. Théorie du signal : conversion analogique-numérique + communications numériques
4 Références
Références
— Cover, T. M. (1999). Elements of information theory. John Wiley & Sons. http://staff.ustc.edu.cn/~cgong821/Wiley.Interscience.Elements.
of.Information.Theory.Jul.2006.eBook-DDU.pdf
— Andersson, K. G. (2015). Finite Fields and Error-Correcting Codes. Lund University. http://www.matematik.lu.se/matematiklu/personal/sigma/
Andersson.pdf
— Shannon, C. E. (1948). A mathematical theory of communication. The Bell system technical journal, 27(3), 379-423. https://culturemath.ens.
fr/sites/default/files/p3-shannon.pdf
— MacKay, D. J., & Mac Kay, D. J. (2003). Information theory, inference and learning algorithms. Cambridge University Press. https://www.inference.
org.uk/itprnn/book.pdf
— Yeung, R. W. (2008). Information theory and network coding. Springer Science & Business Media.
— Dai, W. (2019). Coding theory. Imperial College London.
— De Marçay, F. Analyse de Fourier. Université Paris Saclay. https://www.imo.universite-paris-saclay.fr/~merker/Enseignement/Analyse-de-Fourier/
fourier-pdflatex.pdf
— Ling, C. (2019). Information Theory. Imperial College London. http://www.commsp.ee.ic.ac.uk/~cling/IT/InformationTheory.htm
— Polyanskiy, Y. & Wu, Y. (2015). Lecture Notes on Information Theory. MIT. http://people.lids.mit.edu/yp/homepage/data/itlectures_v5.pdf
— Fabre, E. (2000). Théorie de l’information & Codes correcteurs d’erreurs. ENS Cachan. http://people.rennes.inria.fr/Eric.Fabre/Papiers/
polynew.pdf

14
Première partie
Plan de la partie
1 Variables aléatoires sur un espace probabilisé discret 15
1.1 Espace probabilisé discret . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Couple de variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . 18
1.4 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Schéma de Shannon 21
2.1 Système de communication . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Source discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Canal discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 Information et entropie 27
3.1 Information élémentaire . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Entropie d’une source. . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.2 Interprétation de l’entropie . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.3 Divergence de Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . 31
3.2.4 Propriétés de l’entropie . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Entropies conjointe et conditionnelles, information mutuelle 33

4.1 Entropie conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2 Entropies conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 Diagramme de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.4 Information mutuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.5 Extension à plusieurs variables aléatoires . . . . . . . . . . . . . . . . . . . . 43
4.5.1 Information mutuelle conditionnelle . . . . . . . . . . . . . . . . . . . . 43
4.5.2 Formules des conditionnements successifs . . . . . . . . . . . . . . . . . . 45
5 Propriété asymptotique d’équirépartition (AEP) 46

5.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2 Ensemble des séquences typiques . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.2 Conséquences sur le codage source . . . . . . . . . . . . . . . . . . . . 51

Première partie - Théorie de l’information 15
5.3 Ensemble des séquences conjointement typiques . . . . . . . . . . . . . . . . . 52

5.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.3.2 Application au codage canal . . . . . . . . . . . . . . . . . . . . . . 56
Signal numérique
— Comme nous le verrons dans la dernière partie (petit spoiler !), sous de bonnes hypothèses, tout signal x(t) du
monde réel peut se représenter de façon numérique sous la forme d’une série de valeurs prises dans un ensemble
fini (souvent 2b valeurs lorsque l’on quantifie chaque échantillon sur b bits)
— En plus de ces données numérisées (son, image, etc...), on peut également considérer les données nativement
numériques comme le texte (caractères alpha-numériques)
— Chaque échantillon du signal x[n] est donc pris dans un alphabet fini, noté X
— Un signal de durée finie correspond à une série de symboles de cet alphabet et forme ainsi un message à
transmettre
Information contenu dans un message

— Etant donnés deux signaux à valeurs dans X = {0, 1, 2, 3}, lequel contient le plus d’information ?
320212110103230332113003222113
101210300101002000012001003030
— Idée (géniale !) de Shannon : la quantité d’information d’un message ne doit pas dépendre du sens ou de la
sémantique de ce message, mais uniquement de la probabilité d’apparition du message.
Principe de base de la théorie de l’information

— Toutes les notions d’information et les considérations pour savoir comment les compresser et les transmettre
se basent sur une vision probabiliste des données
— Un symbole envoyé peut être vu comme la réalisation d’une variable aléatoire discrète prise dans un dictionnaire
fini
X∈X
Avant de rentrer dans le vif du sujet... un petit rappel de probas !
1 Variables aléatoires sur un espace probabilisé discret

1.1 Espace probabilisé discret
Espace probabilisé discret
Définition 1.1 : Espace probabilisé discret
Un espace probabilisé discret (Ω, P(Ω), P) est un triplet où

— Ω = {ω1 , . . . , ωN } est l’univers (ou espace fondamental), supposé ici fini de cardinal N (noté aussi |Ω|
ou card(Ω))
— P(Ω) est la tribu des parties de Ω, c’est à dire l’ensemble des événements possibles
P(Ω) = {A tel que A ⊂ Ω}
— P est une mesure de probabilité sur P(Ω)
P : P(Ω) → [0, 1]

Calcul de probabilités
Soit (Ω, P(Ω), P) un espace probabilisé discret. Comme Ω est fini,
— Tout événement A de P(Ω) peut s’écrire comme l’union de zéro, un ou plusieurs événements élémentaires
{ωi }1≤i≤N
[
A= {ωi } avec I ⊂ {1, 2, . . . , N }
i∈I
— On a donc d’après la définition de la mesure de probabilité (et parce que les ωi sont incompatibles deux à
deux) : !
[ X
P(A) = P {ωi } = P({ωi })
i∈I i∈I
— Dans ce cas, il suffit de connaître P({ω1 }), . . . , P({ωN }) pour déterminer intégralement la fonction P de P(Ω)
dans [0, 1]
1.2 Variable aléatoire discrète

Variable aléatoire discrète
Définition 1.2 : Variable aléatoire discrète
Étant donné un espace probabilisé discret (Ω, P(Ω), P), une variable aléatoire discrète X est une application
X : Ω → R, telle que :
— L’image de Ω par X (que l’on appellera X dans la suite du cours), est dénombrable (et même finie dans
notre cas car Ω est supposé fini). On notera card(X ) le nombre d’éléments de X
— Chaque événement élémentaire ω de Ω est associé à une valeur (et une seule) de la variable aléatoire,
qu’on notera X(ω)
— A l’inverse, pour tout intervalle J de R, X −1 (J) est un événement de P(Ω)
Distribution de probabilité
Définition 1.3 : Distribution de probabilité
Étant donnés un espace probabilisé discret (Ω, P(Ω), P) et une variable aléatoire discrète X à valeurs dans X ,
on définit une mesure de probabilité PX sur R qui est l’image de la mesure de probabilité P par l’application
X :
∀x ∈ X , PX (X = x) , P({ω ∈ Ω tel que X(ω) = x}) , P X −1 (x)
La famille {PX (X = x)}x∈X est appelée la distribution de probabilité (ou loi de probabilité) de la variable
aléatoire X
X
— On a PX (X = x) = 1
x∈X
— On note parfois pX (x) , PX (X = x) ou simplement p(x) lorsque le contexte est évident
Espérance
Définition 1.4 : Espérance d’une variable aléatoire
Soit X une variable aléatoire discrète à valeurs dans X . On appelle espérance et on note E[X] la quantité :
X
E[X] = x PX (X = x)
x∈X

— Cette quantité correspond à la valeur moyenne espérée par un observateur lors d’une réalisation de la variable
aléatoire X
— Si Y est la variable aléatoire définie par Y = ϕ(X), alors
X X
E[Y ] = ϕ(x) PX (X = x) = y PY (Y = y)
x∈X y∈Y
Propriétés de l’espérance
Théorème 1.1 : Propriétés de l’espérance
(1) (Linéarité) E [aX + bY ] = aE[X] + bE[Y ]

(2) (Inégalité de Jensen) Soit ϕ une fonction convexe, alors
ϕ (E[X]) ≤ E [ϕ(X)]
Si ϕ est strictement convexe, alors on a égalité si et seulement si X est une constante
Preuve : Propriétés de l’espérance
(1) Trivial
(2) Notons X = {x1 , . . . , xM } et pi = PX (X = xi ).
PM
— En remarquant que pi > 0 et i=1 pi = 1 et en appliquant l’inégalité de Jensen classique, on
obtient !
XM X
M
ϕ pi x i ≤ pi ϕ(xi )
i=1 i=1
— Si ϕ est strictement convexe, il y a égalité si et seulement si tous les xi sont égaux, donc ssi X est
un singleton.
Variance
Définition 1.5 : Variance d’une variable aléatoire

Soit X une variable aléatoire discrète à valeurs dans X . On appelle variance et on note var[X] la quantité :
X 2
var[X] = (x − E[X]) PX (X = x)
x∈X
— Cette quantité mesure la déviation moyenne autour de la moyenne espérée. On a :

h i
2 2
var[X] = E (X − E[X]) = E X 2 − (E [X])
Inégalités utiles
Théorème 1.2 : Inégalité de Markov
Soit X une variable aléatoire positive, alors
E[X]
∀α > 0, P(X ≥ α) ≤
α

Théorème 1.3 : Inégalité de Bienaymé-Tchebychev
Soit α > 0, alors

var[X]
P(|X − E[X]| ≥ α) ≤
α2
Preuve : Inégalité de Markov
Soit α > 0 et X une variable aléatoire positive. Soit A lévénement défini par :
A = {X ≥ α}
— On note 1A la fonction indicatrice de lévénement A

— Comme X est positive on a
X ≥ α1A
— Donc on a
E[X] ≥ E [α1A ]
— Or on peut calculer
E [α1A ] = α (1 × P(A) + 0 × (1 − P(A)))

= αP(A)
Preuve : Inégalité de Bienaymé-Tchebychev
— Appliquer l’inégalité de Markov avec la variable Y = (X − E[X])2 (qui est bien positive) et α2

— Remarquer que P (X − E[X])2 ≥ α2 = P (|X − E[X]| ≥ α)
1.3 Couple de variables aléatoires discrètes

Loi jointe
Définition 1.6 : Loi jointe d’un couple de variables aléatoires
Étant données deux variables aléatoires discrètes X et Y respectivement à valeurs dans X et Y, on appelle
loi jointe (ou conjointe) et on note PXY la loi :

∀x ∈ X , ∀y ∈ Y PXY (X = x, Y = y) , P X −1 (x) ∩ Y −1 (y)
— Il s’agit de la probabilité que X vaille x et Y vaille y.

— La loi PXY est une loi de probabilité, on a donc :
XX
PXY (X = x, Y = y) = 1
x∈X y∈Y
— On note parfois pXY (x, y) , PXY (X = x, Y = y) ou p(x, y) lorsque le contexte est évident
Loi jointe

[
— Comme tous les événements Y −1 (y) y∈Y
sont incompatibles deux à deux et que Ω = Y −1 (y), on peut
y∈Y
écrire grâce à la loi des probabilités totales :
X X
PXY (X = x, Y = y) = P X −1 (x) ∩ Y −1 (y)
y∈Y y∈Y

= P X −1 (x)
= PX (X = x)
— De la même façon, on a : X
PXY (X = x, Y = y) = PY (Y = y)
x∈X
Indépendance
Définition 1.7 : Indépendance d’un couple de variables aléatoires
Deux variables aléatoires discrètes X et Y respectivement à valeurs dans X et Y sont indépendantes si et

seulement si :
∀x ∈ X , ∀y ∈ Y PXY (X = x, Y = y) = PX (X = x)PY (Y = y)
Deux lancers à pile ou face
X : nombre de fois où l’on a tiré pile

Y : nombre de fois où l’on a tiré face
X, Y Y =0 Y =1 Y =2
X=0 0 0 0.25
X=1 0 0.5 0
X=2 0.25 0 0
PX (X = 0) = 0.25 et PY (Y = 0) = 0.25 et pourtant PXY (X = 0, Y = 0) = 0 !

X et Y ne sont pas indépendantes !
Lois conditionnelles
Définition 1.8 : Loi conditionnelle

Soient deux variables aléatoires discrètes X et Y respectivement à valeurs dans X et Y et telles que PY (Y =
y) 6= 0. On appelle loi conditionnelle de X sachant Y = y et on note PX|Y =y la loi :
PXY (X = x, Y = y)
∀x ∈ X PX|Y =y (X = x|Y = y) =
PY (Y = y)
Théorème 1.4 : Propriétés des lois conditionnelles
— PX|Y =y est une loi de probabilité et on a :

X
PX|Y =y (X = x|Y = y) = 1
x∈X
— X et Y sont indépendantes si et seulement si :
∀x ∈ X , ∀y ∈ Y PX|Y =y (X = x|Y = y) = PX (X = x)

1.4 Loi des grands nombres

Convergence en probabilité
Définition 1.9 : Convergence en probabilité
Considérons une suite de variables aléatoires (Xn )n∈N∗ évoluant toutes dans un même espace probabilisé
discret. On dit que cette suite converge en probabilité vers X si
∀ϵ > 0, lim P(|Xn − X| ≥ ϵ) = 0

n→∞
et on note
p
Xn −
→X
Loi faible des grands nombres
Théorème 1.5 : Loi faible des grands nombres (Khintchine)
Considérons une suite de variables aléatoires (Xn )n∈N∗ indépendantes et identiquement distribuées de loi PX
et la suite (Yn )n∈N∗ définie par
1X
n
Yn = Xi
n i=1
Alors
∀ϵ > 0, lim P(|Yn − E[X]| ≥ ϵ) = 0
n→∞
ou
p
Yn −
→E[X]
Autrement dit, la loi faible des grands nombres (Khintchine) affirme que (Yn ) converge en probabilité vers
l’espérance E[X]
Preuve : Loi faible des grands nombres (Khintchine)
— Calcul de l’espérance de Yn
1X
n
E[Yn ] = E[Xi ]
n i=1
= E[X]
— Calcul de la variance de Yn
1 X
n
var[Yn ] = var[Xi ]
n2 i=1
1
= var[X]
n
— D’après Bienaymé-Tchebychev on a donc
var[X]
P(|Yn − E[X]| ≥ ϵ) ≤
nϵ2
Il suffit ensuite de faire tendre n → +∞

2 Schéma de Shannon
2.1 Système de communication
Systèmes de communication
— Une des contributions de Shannon dans son article de 1948 fut un schéma qui modélisait de façon formelle la
communication entre deux machines.
— Ce schéma est désormais très largement utilisé en télécommunications, mais également parfois pour modéliser
la communication humaine.
— Il met en évidence 3 acteurs indispensables à la transmission de l’information : la source (celui qui envoie
l’information), le canal (qui transmet l’information) et le destinataire (qui reçoit l’information).
Schéma général
Source Emetteur Canal Recepteur Destinataire
Bruit
Source
Bruit
La source envoie un message, souvent constitué d’une série de symboles pris dans un alphabet donné. On parle dans
ce cas de message numérique.
— Données discrètes : texte, numéros...
— Données analogiques numérisées : image, voix, vidéo...
Emetteur
Bruit
Lémetteur prend ce message numérique et réalise les étapes suivantes :

— Codage source (deuxième partie du cours) : compression des données pour qu’elles prennent le moins de place
possible. Cela revient à remplacer le message à envoyer par un message le plus court possible, souvent représenté sous
forme d’une série de 0 et de 1.
— Codage canal (troisième partie du cours) : rajout de bits d’information supplémentaires dans le message pour permettre
de corriger les éventuelles erreurs de transmission
— Communications numériques (quatrième partie du cours) : transformation du message numérique en un signal
physique (onde électromagnétique, signal électrique, etc...) qui puisse être transmis sur le canal de transmission

Canal
Bruit
Le canal achemine le signal physique d’un point à l’autre

— Le canal peut être de différents types : câbles coaxiaux, paires torsadées, réseau hertzien, infrarouge, fibres
optiques,....
— Généralement perturbé par un bruit qui dépendra de l’environnement et de la nature du canal : perturbations
électriques, réflexion d’ondes, détérioration du câble, etc...
— Ce bruit a pour conséquence une dégradation du signal voire la perte de parties du signal
Récepteur
Bruit
Le récepteur prend le signal physique et réalise les étapes suivantes :

— Transformer le signal physique en un message numérique
— Inverser les étapes de codage canal et de canal source pour reconstituer le message envoyé par la source
Destinataire
Bruit
Le destinataire reçoit le message
2.2 Source discrète

Source discrète
Pour modéliser un système de communication on supposera dans le cadre de ce cours, que
— La source est discrète et prend ses valeurs dans un ensemble X , souvent appelé alphabet ou alphabet de
source.
— L’envoi d’un symbole peut être modélisé par une variable aléatoire discrète X à valeurs dans X .
— Un message de longueur n est une suite de n symboles
x1:n = x1 x2 x3 x4 . . . xn
appartenant à X n
— L’émission d’un message de longueur n fait donc intervenir n variables aléatoires qu’on pourra noter X1:n =
X1 , X 2 , X 3 , X 4 , . . . X n .
— Xi est la variable aléatoire correspondant au symbole émis par la source à l’instant i

Illustration
i=1 i=2 i=3
A ... C ... C
X = {A, B, C}
Source
X1 X2 X3
— X : ensemble des symboles possibles (alphabet)

— x1 x2 x3 = ACC : message envoyé
— X1 , X2 et X3 : variables aléatoires associées respectivement au premier, deuxième et troisième symbole envoyé.
Processus stochastique
Définition 1.10 : Processus stochastique
On appelle processus stochastique une séquence indexée (Xn )n∈N∗ de variables aléatoires. Le processus est
caractérisé par la loi jointe
P (X1 X2 X3 X4 . . . Xn = x1 x2 x3 x4 . . . xn ) = pX1:n (x1 , x2 , x3 , x4 , . . . , xn )
— L’envoi d’un message de n symboles peut ainsi être modélisé sous la forme d’un processus stochastique
— On notera dans la suite X1:n = X1 X2 X3 X4 . . . Xn le processus et x1:n = x1 x2 x3 x4 . . . xn ∈ X n le message
Modélisation de la source
— Il existe un très grand nombre de processus stochastiques qui peuvent être utilisés pour modéliser le compor-
tement d’une source
— On verra dans le cours trois principaux modèles :
— Processus stationnaire
— Processus de Markov
— Source sans mémoire
— Les deux premiers permettent de gérer une dépendance entre les symboles envoyés successivement, alors que
le troisième suppose un envoi indépendant
Processus stationnaire
Définition 1.11 : Processus stationnaire

Un processus stochastique (Xn )n∈N∗ est dit stationnaire si
∀n, ∀l, ∀x1:n , P(X1:n = x1:n ) = P(X1+l:n+l = x1:n )
— Par extension, une source est dite stationnaire si ses propriétés statistiques n’évoluent pas au cours du temps
— Il s’agit d’un modèle générique qui inclut un grand nombre de modélisations de source
— Cette hypothèse de stationnarité peut n’être valide que sur une plage de temps donnée . Nous reviendrons sur
cette notion de stationnarité dans la partie dédiée à la théorie du signal.

Processus de Markov
Définition 1.12 : Processus de Markov

Un processus stochastique (Xn )n∈N∗ est appelé processus ou chaîne de Markov si
∀n, ∀x1:n P (Xn = xn |X1:n−1 = x1:n−1 ) = P (Xn = xn |Xn−1 = xn−1 )
— Le futur ne dépend que de l’état à l’instant présent

— Cas particulier : On dit qu’un processus de Markov est invariant temporellement si les probabilités de
transition P (Xn = xn |Xn−1 = xn−1 ) ne dépendent pas de n
∀n, ∀n, ∀x, x′ P (Xn+1 = x′ |Xn = x) = P (Xn = x′ |Xn−1 = x)
On l’écrit dans ce cas X1 → X2 → . . . → Xn
Processus de Markov invariant temporellement

— Un processus de Markov invariant temporellement est caractérisé par :
— Sa distribution initiale π 1 (x) = PX1 (X1 = x)
— Sa matrice de transition Πx,x′ telle que
∀x, x′ ∈ X , Πx,x′ = P (Xn+1 = x′ |Xn = x)
— Attention : un processus de Markov invariant temporellement n’est pas nécessairement stationnaire (voir Pro-
blème 1)
Source discrète sans mémoire
Définition 1.13 : Source sans mémoire

On dit qu’une source est sans mémoire si et seulement si toutes les variables aléatoires X1 , X2 , X3 , X4 . . . Xn
sont indépendantes et identiquement distribuées.
Y
n Y
n
∀x1:n , P (X1:n = x1:n ) = pXi (xi ) = pX (xi )
i=1 i=1
— Pour une source sans mémoire, l’étude de l’émission d’un message est ramenée à celle d’une seule variable
aléatoire X correspondant à l’émission d’un seul symbole.
— Les symboles émis à chaque instant ne dépendent pas de ceux qui ont été envoyés précédemment, d’où le terme
sans mémoire. C’est comme si à chaque instant, la source oubliait le symbole qu’elle avait envoyé avant.
— Une source sans mémoire est toujours stationnaire
Illustration
i=1 i=2 i=3
A ... C ... C
X = {A, B, C}
Source
X1 X2 X3
— Sans mémoire : les variables aléatoires X1 , X2 et X3 sont toutes indépendantes et identiquement distribuées : X1 ∼ X,
X2 ∼ X et X3 ∼ X
Par exemple, PX1 (X1 = A) = PX2 (X2 = A) = PX3 (X3 = A) = PX (X = A)

Exemple : Source binaire
— Dans le cas d’une source binaire, on aura X ∈ {0, 1}.

— Si on suppose que la source est sans mémoire, c’est que par exemple dans le message 001100, tous les bits sont envoyés
de façon indépendante, et on a donc :
P(001100) = pX (0)4 pX (1)2
Exemple : Langue française
— Dans le cas d’un mot en langue française, on a X ∈ {A, B, C, D, . . . , X, Y, Z}.

— Bien souvent dans ce cas, on ne peut pas supposer que la source est sans mémoire. Par exemple si le message émis pour
le moment est AX, on sait que la prochaine lettre envoyée ne peut pas être un Z. Les symboles envoyés ne sont donc
pas indépendants.
2.3 Canal discret

Canal discret
Pour modéliser un système de communication on supposera dans le cadre de ce cours, que
— Le canal est discret et transforme le message envoyé par la source en un autre message, qui sera reçu par le
destinataire
— Les symboles reçus par le destinataire seront également modélisés par une variable aléatoire discrète Y à valeurs
Y.
— Comme le récepteur ne fait que recevoir les symboles émis par la source, on pourrait penser que X = Y, mais
à cause des perturbations sur le canal, on peut créer des symboles qui n’existaient pas à l’entrée.
— Un message émis par la source
x1:n ∈ X n
sera transformé en message
y1:n ∈ Y n
Canal discret sans mémoire
Définition 1.14 : Canal sans mémoire

Un canal est dit sans mémoire si la valeur du symbole yn ne dépend que de la valeur du symbole xn émis
au même instant, indépendamment de l’instant n
Y
n Y
n
∀n, x1:n , y1:n , P (Y1:n = y1:n |X1:n = x1:n ) = pYi |Xi (yi |xi ) = pY |X (yi |xi )
i=1 i=1
— Si l’on suppose en plus que la source est également sans mémoire, il suffit d’étudier l’émission, la transmission
et la réception d’un symbole unique.
Matrice de transfert
— Dans le cas d’un canal sans mémoire, la loi pY |X (y|x) caractérise complètement les perturbations du canal :
elle donne la loi régissant la transformation des symboles de X en symboles de Y

— On peut donc représenter le canal par un schéma fléché ou une matrice PY |X=x (Y = y|X = x) x∈X ,y∈Y
qu’on appelle matrice de transfert.

Illustration
X = {A, B, C} Y = {A, B, C}
Canal
AABACBABC ACBACBAAC
— Matrice de transfert :
Y |X Y =A Y =B Y =C
3 1
X=A 4
0 4
1 2
X=B 3 3
0
X=C 0 0 1
— Plus les perturbations sont importantes, plus les symboles de la sortie ont tendance à être différents de ceux de l’entrée.
Canal binaire sans bruit
Supposons qu’on envoie un bit (0 ou 1) à travers un canal sans bruit et sans mémoire. On suppose que la source est également
sans mémoire. Dans ce cas, on a :
— Pour modéliser le canal, il suffit de considérer l’émission, la transmission et la réception d’un seul bit.
— X ∈ {0, 1} et Y ∈ {0, 1}
— Comme il n’y a aucune perturbation, on sait que si un 0 a été émis, c’est un 0 qui a été reçu (et idem pour le 1). La loi
conditionnelle pY |X (y|x) modélisant l’action du canal peut donc s’écrire :
Y |X Y =0 Y =1
X=0 1 0
X=1 0 1
Canal binaire symétrique
1−ϵ
0 0
ϵ
ϵ
1 1
1−ϵ
— Canal binaire : X = {0, 1} et Y = {0, 1}

— Symétrique : même loi conditionnelle pour les deux symboles d’entrée
— ϵ ∈ [0, 1] : probabilité d’erreur
Canal en Z

1−ϵ
0 0
ϵ
1 1
1
— Canal binaire : X = {0, 1} et Y = {0, 1}

— En Z : asymétrie des erreurs. On ne fait des erreurs que sur le bit 0 (ou 1)
— ϵ ∈ [0, 1] : probabilité d’erreur
Canal à effacement
1−ϵ
0 0
ϵ
e
ϵ
1 1
1−ϵ
— Entrée dans : X = {0, 1} mais trois symboles de sortie Y = {0, e, 1}

— Soit le bit est bien transmis, soit il est perdu (il devient alors le symbole e)
— ϵ ∈ [0, 1] : probabilité de perte de données.
3 Information et entropie
3.1 Information élémentaire
Information élémentaire
— Comme nous l’avons vu dans l’introduction, l’un des buts de Shannon était d’associer une valeur calculable à
la quantité d’information contenue dans un événement ou dans un message.
— Nous allons considérer un événement élémentaire A, ayant une probabilité d’apparition p, et construire une
fonction I(.) qui associe à A une quantité d’information élémentaire I(A)
— La vision de Shannon de l’information est une vision probabiliste : le sens et la sémantique n’interviennent pas.
La quantité d’information contenue dans un événement (ou un message) ne dépendra que de sa probabilité
d’apparition.
— Postulat 1 : La quantité d’information d’un événement élémentaire ne dépend que de sa probabilité d’apparition
(cf introduction). I(A) est donc une fonction de p. On appellera dans la suite cette fonction Ψ
I(A) = Ψ(p)
— Postulat 2 : Un événement certain n’apporte aucune information
Ψ(1) = 0

— Postulat 3 : Plus un événement est probable, moins il apporte d’information

Ψ(p) est une fonction décroissante
— Postulat 4 : Un événement impossible apporte une information infinie
Ψ(0) = +∞
Il reste encore beaucoup de fonctions possibles... Et que se passe-t-il si on nous transmet non pas une, mais deux
informations ?
A : Il va pleuvoir demain
B : Il y a un examen demain
— Les deux informations n’ont aucun rapport entre elles, on reçoit donc la somme des deux informations.
— A et B sont indépendants, il n’y a pas de relations entre eux
— Postulat 5 : L’information I(A ∩ B) apportée par deux événements indépendants correspond à la somme des
informations apportées par l’un et l’autre
I(A ∩ B) = I(A) + I(B)
— Quelle conséquence sur la fonction Ψ ?
— Notons q la probabilité de l’événement B :
I(A ∩ B) = Ψ (P(A ∩ B))
= Ψ (P(A) × P(B)) car A et B indépendants
= Ψ (pq)
— Or, on a également par le postulat 5 :
I(A ∩ B) = I(A) + I(B)
= Ψ (p) + Ψ (q)
— On a donc :
Ψ (pq) = Ψ (p) + Ψ (q)
— Etant donnés les postulats...
Ψ (pq) = Ψ (p) + Ψ (q)
Ψ(1) = 0, Ψ(0) = +∞ et Ψ décroissante
— ... il ne reste qu’une possibilité !
Ψ(p) = −λ ln(p) avec λ > 0
1
— La valeur couramment choisie pour λ est , ce qui nous ramène à un logarithme en base 2, pratique pour
ln(2)
traiter les communications binaires
Définition 1.15 : Information élémentaire
Étant donné un événement A ayant une probabilité P(A), on définit son information élémentaire I(A)
comme la quantité :
I(A) = − log2 (P(A))

Cette quantité est exprimée en bits.

3.2 Entropie d’une source

3.2.1 Définition
Entropie d’une source
— Considérons une source modélisée par une variable aléatoire X à valeurs dans X .
— Chacun des symboles de l’alphabet de source est associé à une certaine information élémentaire
— Comment caractériser l’information apportée en moyenne par une source ?
Source binaire
On considère une source binaire avec X dans X = {0, 1}.

On suppose que PX (X = 0) = 0.9.
— L’information élémentaire du symbole 0 est I0 = − log2 (0.9) = 0.1520 bits
— L’information élémentaire du symbole 1 est I1 = − log2 (0.1) = 3.3219 bits
— Information moyenne apportée par la source ?
I0 +I1
— 2
?? NON car en pratique, le symbole 0 sera envoyé beaucoup plus fréquemment !
— Il faut pondérer l’information élémentaire du symbole par sa probabilité d’apparition si on veut rendre compte de la
vraie information moyenne
Définition 1.16 : Entropie d’une source
Étant donnée une source modélisée par une variable aléatoire X à valeurs dans X , on définit l’entropie de
la source et on note H(X) la quantité :
X
H(X) = − pX (x) log2 (pX (x))
x∈X
Cette quantité est exprimée en bits.
— Remarque : On peut remarquer que
H(X) = E [− log2 (pX (x))]
c’est à dire que l’entropie correspond à l’espérance (moyenne statistique) de l’information élémentaire, d’où
l’interprétation en terme d’information moyenne.
— On prend la convention 0 log2 (0) = 0 : un événement impossible n’intervient pas dans la somme
Comparaison de deux sources
On considère deux sources X et X ′ à valeurs dans X = {1, 2, 3} dont les lois de probabilités sont données par le tableau suivant :
pX (x) pX ′ (x)
1 1
1 2 3
1 1
2 4 3
1 1
3 4 3

— H(X) = − 12 log2 1
2
− 14 log2 14 − 14 log2 14 = 1.5 bits
1
— H(X ′ ) = − 3 log2 3 − 3 log2 13 − 13 log2 13 = 1.6 bits
1 1
— Pourquoi l’entropie de la deuxième source est-elle plus élevée ?

3.2.2 Interprétation de l’entropie

Entropie et incertitude
— On a vu que l’entropie correspond à l’information moyenne apportée par une source
— Mais on a également vu que la quantité d’information d’un événement était liée à la surprise qu’il procurait
pour le destinataire
— Ainsi, plus l’entropie d’une source est élevée, plus elle est susceptible de surprendre le destinataire
— L’entropie de la source est donc liée au degré d’incertitude pour le destinataire
Source binaire
On considère une source binaire avec X dans X = {0, 1}.

On suppose que PX (X = 0) = p (loi de Bernouilli)
— L’entropie est donc : H(X) = −p log2 (p) − (1 − p) log2 (1 − p)
— Si p = 1, on envoie que des symboles 0 et on a : H(X) = 0 bits
Normal car le destinataire n’a aucune incertitude sur ce qu’il va recevoir !
— Si p = 0, on envoie que des symboles 1 et on a : H(X) = 0 bits
Normal car le destinataire n’a aucune incertitude sur ce qu’il va recevoir !
— En revanche si p = 12 , on a : H(X) = 1 bit
En effet, le destinataire a une vraie incertitude : il ne sait pas ce qu’il va recevoir !
Source binaire (suite)
0.9
0.8
0.7
0.6
H(X)
0.5
0.4
0.3
0.2
0.1
0
0 0.2 0.4 0.6 0.8 1
p
H(X) = −p log2 (p) − (1 − p) log2 (1 − p)

1
— On voit que l’entropie est maximale ici pour p = 2
— Logique, car c’est la configuration où il y a le plus d’incertitude pour le destinataire
— Cette entropie sera très utilisée dans la suite et on la notera souvent simplement h(p)
Nombre de questions

ACJK
ZSnh
Nombre de questions oui/non pour trouver la couleur ♡, ♢, ♣, ♠ d’une carte tirée au hasard ?
Nombre de questions
— On a intérêt à demander dans l’ordre ♢, ♡, ♣, ♠
— ♢ : 1 chance sur 2 de ne poser qu’une question
— ♡ : 1 chance sur 4 de ne poser que deux questions
— ♣ : 1 chance sur 8 de ne poser que trois questions
— ♠ : 1 chance sur 8 de poser également trois questions
Nombre moyen de question : 1.75 = H(X)
Entropie de la langue anglaise

— En 1949, Zipf a conjecturé une loi de probabilité pour les mots de la langue anglaise écrite. Le neme mot le
plus courant a une probabilité d’apparition
(
0.1
si n ≤ 12367
pn ≈ n
0 sinon
On a d’ailleurs vérifié empiriquement cette expression sur plusieurs langages, même entre animaux ! (avec
éventuellement des constantes différentes)
— Grâce à cette loi, on peut estimer l’entropie de la langue anglaise H(X) ≈ 9.7 bits par mot
— Le codage ASCII sur 7 bits est donc très sous-optimal (longueur moyen d’un mot : 4.5 lettres) donc 31.5 bits
par mot !
3.2.3 Divergence de Kullback-Leibler

Comparaison de deux sources
Considérons deux sources X et X ′ à valeurs dans le même alphabet de source X .
— Elles ont le même alphabet de source, mais pas la même loi de probabilité.
— Comment comparer ces deux sources ?
— On va introduire une mesure de dissimilarité, appelée divergence de Kullback-Leibler, qui permet d’évaluer
la proximité de leurs distributions de probabilité
Définition
Définition 1.17 : Divergence de Kullback-Leibler
Etant données deux variables aléatoires discrètes X et X ′ à valeurs dans X , dont on notera respectivement
pX (x) = PX (X = x) et qX ′ (x) = PX ′ (X ′ = x) leurs lois de probabilité. On appelle divergence de
Kullback-Leibler (ou entropie relative) la quantité :
X
pX (x)
DKL (p||q) = pX (x) log2
qX ′ (x)
x∈X

Inégalité de Gibbs
Théorème 1.6 : Inégalité de Gibbs
Etant données deux variables aléatoires discrètes X et X ′ à valeurs dans X , dont on notera respectivement
pX (x) = PX (X = x) et qX ′ (x) = PX ′ (X ′ = x) leurs lois de probabilité. On a
DKL (p||q) ≥ 0
avec une égalité si et seulement si ∀x ∈ X , pX (x) = qX ′ (x)
Preuve : Inégalité de Gibbs
— La fonction − log2 est strictement convexe
d log2 (x) 1 d ln(x)

− = −
dx ln(2) dx
1
= −
x ln(2)
d2 log2 (x) 1 d x1
− = −
dx2 ln(2) dx
1
= 2
>0
x ln(2)
— Utilisation de l’inégalité de Jensen.

X
pX (x)
DKL (p||q) = pX (x) log2
qX ′ (x)
x∈X
X
qX ′ (x)
= pX (x) − log2
pX (x)
x∈X
!
X qX ′ (x)
≥ − log2 pX (x)
pX (x)
x∈X
≥ 0

qX ′ (x)
— Égalité si et seulement si les pX (x) sont tous égaux. Il existe donc une constante λ telle que
∀x ∈ X , qX ′ (x) = λ × pX (x)
Comme les {pX (x)}x∈X et les {qX ′ (x)}x∈X sont des distributions de probabilités, elles somment à 1
et on a forcément λ = 1
Donc l’égalité a lieu si et seulement si ∀x, pX (x) = qX ′ (x)

Interprétation
— La divergence de Kullback Leibler peut être interprétée comme une mesure de dissimilarité entre deux lois de
probabilité discrètes.
— Mathématiquement en revanche, il ne s’agit pas d’une distance car elle ne vérifie ni la propriété de symétrie,
ni l’inégalité triangulaire. En revanche on a bien la propriété de séparation :
DKL (p||q) = 0 ⇐⇒ ∀x ∈ X , pX (x) = qX ′ (x)
— La quantité DKL (p||q) est toujours positive, et plus elle est proche de 0, plus cela signifie que les distributions
de probabilité pX (x) et qX ′ (x) sont proches
— L’inégalité de Gibbs est fondamentale en théorie de l’information et servira à la démonstration de nombreux
théorèmes
3.2.4 Propriétés de l’entropie

Propriétés de l’entropie
Théorème 1.7 : Propriétés de l’entropie
Soit X une variable aléatoire définie sur X on a :

(1) H(X) ≥ 0 avec égalité ssi X est une variable déterministe
(2) H(X) ≤ log2 (|X |) avec égalité ssi X suit une loi uniforme
(3) Soit ϕ : X → Y, on a
H (ϕ(X)) ≤ H (X)
avec égalité ssi ϕ est injective.
Preuve : Propriétés de l’entropie
(1) Comme ∀x, 0 ≤ PX (X = x) ≤ 1, on a −PX (X = x) log2 (PX (X = x)) ≥ 0. Comme somme de

termes positifs ou nuls, l’entropie est nulle ssi tous les termes sont nuls donc si X est déterministe
(2) Considérons une distribution quelconque p(x) et la distribution uniforme ∀x, q(x) = 1
|X | et comparons
les grâce à la divergence de Kullback-Leibler.
X
p(x)
DKL (p||q) = p(x) log2
q(x)
x∈X
X X
= p(x) log2 (p(x)) − p(x) log2 (q(x))
x∈X x∈X
= −H(X) + log2 (|X |)
Or d’après l’inégalité de Gibbs, on sait que cette quantité est toujours positive, avec égalité ssi les
distributions sont égales.
(3) Voir plus loin : nous n’avons pas encore tous les outils...
4 Entropies conjointe et conditionnelles, information mutuelle

4.1 Entropie conjointe
4.1.1 Définition
Passage à deux variables aléatoires

— On a vu que l’entropie mesurait l’information moyenne apportée par une source (ou de façon équivalente par
une variable aléatoire)
— Nous allons dans ce cours estimer l’information moyenne apportée par un système de deux variables aléatoires
— Cela va nous servir à étudier deux sources, mais surtout à étudier les liens entre l’entrée et la sortie d’un canal
de communication.
Entropie conjointe
Définition 1.18 : Entropie conjointe
Étant données deux variables aléatoires X et Y à valeurs respectivement dans X et Y, on définit l’entropie
conjointe des variables aléatoires X et Y et on note H(X, Y ) la quantité :
XX
H(X, Y ) = − pXY (x, y) log2 (pXY (x, y))
x∈X y∈Y
— H(X, Y ) correspond à l’information apportée par le système (X, Y )
4.1.2 Propriétés
Propriétés de l’entropie conjointe
Théorème 1.8 : Propriétés de l’entropie conjointe
(1) H(X, Y ) = H(Y, X)

(2) H(X, Y ) ≥ 0
(3) H(X, Y ) ≤ H(X) + H(Y ) avec égalité ssi X et Y sont indépendantes
(4) H(X, Y ) ≥ max (H(X), H(Y ))
Preuve : Propriétés de l’entropie conjointe
(1) Trivial
(2) Même démonstration que pour H(X)
(3) En remarquant que pXY (x, y) = PXY (X = x, Y = y) et qXY (x, y) = PX (X = x)PY (Y = y) sont des
lois de probabilité on calcule
XX
pXY (x, y)
DKL (p||q) = pXY (x, y) log2
pX (x)pY (y)
x∈X y∈Y
XX
= pXY (x, y) log2 (PXY (X = x, Y = y))
x∈X y∈Y
XX
− pXY (x, y) log2 (pX (x)pY (y))
x∈X y∈Y
X X
= −H(X, Y ) − log2 (pX (x)) pXY (x, y)
x∈X y∈Y
X X
− log2 (pY (y)) pXY (x, y)
y∈Y x∈X
= −H(X, Y ) + H(X) + H(Y )
Le résultat découle de l’inégalité de Gibbs.

Preuve : Propriétés de l’entropie conjointe
(4)
XX
x∈X y∈Y
XX
= − pY |X (y|x)pX (x) log2 pY |X (y|x)pX (x)
x∈X y∈Y
XX
= − pY |X (y|x)pX (x) log2 pY |X (y|x)
x∈X y∈Y
XX
− pY |X (y|x)pX (x) log2 (pX (x))
x∈X y∈Y
Or pY |X (y|x) ≤ 1 donc le premier terme est ≥ 0

XX
H(X, Y ) ≥ − pY |X (y|x)pX (x) log2 (pX (x))
x∈X y∈Y
X X
≥ − pX (x) log2 (pX (x)) pY |X (y|x)
x∈X y∈Y
X
≥ − pX (x) log2 (pX (x)) = H(X)
x∈X
Par symétrie on peut démontrer la même chose avec Y , d’où le résultat.
Interprétation propriété 3 : H(X, Y ) ≤ H(X) + H(Y )
Cette propriété nous dit que, si l’on considère deux sources X et Y ensemble, elles ne peuvent pas apporter plus
d’information que la somme des apports d’information de chacune
Prévisions météo
X source qui nous dit s’il fera soleil ou pluie

Y source qui nous dit s’il fera chaud ou froid
X, Y Y = chaud Y = froid
X = soleil 0.3 0.2
X = pluie 0.1 0.4
H(X, Y ) = 1.8464 bits, X(X) = 1 bit, H(Y ) = 0.9710 bits

H(X, Y ) < H(X) + H(Y )
Individuellement les sources nous donnent beaucoup d’information, mais ensemble on a finalement moins d’information que la
somme des deux informations car il existe un lien entre elles.
Interprétation propriété 4 : H(X, Y ) ≥ max (H(X), H(Y ))

— Cette propriété nous dit que deux sources donnent forcément plus d’information qu’une seule source, ce qui est
conforme à notre intuition
— On a une égalité si les deux sources contiennent exactement la même information (cf suite du cours)
4.2 Entropies conditionnelles

4.2.1 Définition
Liens entre variables aléatoires

— On a vu que ce n’était pas parce qu’on considérait deux sources qu’on obtenait beaucoup plus d’information
— On a en effet :
max (H(X), H(Y )) ≤ H(X, Y ) ≤ H(X) + H(Y )
— Qu’est-ce qui explique les variations de H(X, Y ) entre ces deux bornes ?
— Les liens éventuels entre les variables : il arrive parfois que connaissant Y , la source X donne moins d’informa-
tion, tout simplement parce que Y nous a déjà transmis une partie de l’information contenue dans X
— Pour étudier ceci, on va introduire la notion d’entropie conditionnelle
Entropie conditionnelle
Définition 1.19 : Entropie conditionnelle
Étant données deux variables aléatoires X et Y à valeurs respectivement dans X et Y, on définit l’entropie
conditionnelle de X sachant Y et on note H(X|Y ) la quantité :
XX
H(X|Y ) = − pXY (x, y) log2 pX|Y (x|y)
x∈X y∈Y
— H(X|Y ) correspond à l’incertitude restante sur X lorsqu’on connait Y .

— Si on appelle X et Y respectivement l’entrée et la sortie d’un canal de communication, H(X|Y ) représente
l’incertitude restant sur le symbole émis une fois qu’on l’a reçu
4.2.2 Propriétés
Propriétés de l’entropie conditionnelle
Théorème 1.9 : Propriétés de l’entropie conditionnelle
(1) H(X|Y ) ≥ 0 avec égalité ssi ∃ψ, X = ψ(Y )

(2) H(X, Y ) = H(X) + H(Y |X) = H(Y ) + H(X|Y )
(3) H(X) ≥ H(X|Y ) avec égalité ssi X et Y sont indépendantes
Preuve : Propriétés de l’entropie conditionnelle
(1) H(X|Y ) est une somme de termes positifs, elle donc nulle ssi tous les termes sont nuls donc ssi la loi
PX|Y =y (X = x|Y = y) est singulière (c’est à dire nulle partout sauf pour une valeur de X = x où elle
vaut 1). X est donc une fonction déterministe de Y .
(2)
XX
x∈X y∈Y
XX
= − pXY (x, y) log2 pY |X (y|x)pX (x)
x∈X y∈Y
XX
= − pXY (x, y) log2 pY |X (y|x)
x∈X y∈Y
XX
− pXY (x, y) log2 (pX (x))
x∈X y∈Y
X X
= H(Y |X) − log2 (pX (x)) pXY (x, y)
x∈X y∈Y
= H(Y |X) + H(X)

Preuve : Propriétés de l’entropie conditionnelle
(3) On a démontré précédemment que que H(X, Y ) ≤ H(X) + H(Y ) avec égalité ssi X et Y sont indépen-
dantes. Or on a également H(X, Y ) = H(X|Y ) + H(Y ) donc a bien
H(X|Y ) ≤ H(X)
avec égalité ssi X et Y sont indépendantes.
Interprétation propriété 2 : H(X, Y ) = H(X) + H(Y |X)
Considérons deux sources X et Y : cette propriété nous dit que l’information fournie par les deux sources est la
somme de l’information fournie par l’une des sources et de l’incertitude restante sur l’autre source
Prévisions météo

X, Y Y = chaud Y = froid Y |X Y = chaud Y = froid

X = soleil 0.3 0.2 X = soleil 0.6 0.4
X = pluie 0.1 0.4 X = pluie 0.2 0.8
H(X, Y ) = 1.8464 bits, X(X) = 1 bit, H(Y |X) = 0.8464 bits et H(Y ) = 0.9710 bits
H(X, Y ) = H(X) + H(Y |X)
| {z } | {z } | {z }
inf ormation f ournie par les deux sources inf ormation f ournie par X incertitude restante sur Y
On vérifie ici que si l’on connaît déjà X, Y donne moins d’information que si on avait aucune information a priori
Interprétation propriété 3 : H(X|Y ) ≤ H(X)

— Le conditionnement réduit l’entropie : observer une variable Y liée à X nous apporte de l’information sur X
— Cela signifie qu’une connaissance a priori ne peut que diminuer l’incertitude que l’on a, ce qui est conforme à
notre intuition
Retour sur une propriété de l’entropie

Retour sur la propriété (3) du théorème 1.7 :
Preuve : Propriétés de l’entropie (suite)
(3) Soit ϕ : X → Y, on a
H(X, ϕ(X)) = H(X) + H(ϕ(X)|X) = H(ϕ(X)) + H(X|ϕ(X))

— Or on sait que H(ϕ(X)|X) = 0 et H(X|ϕ(X)) ≥ 0 donc on a bien
H (ϕ(X)) ≤ H (X)
— Egalité ssi H(X|ϕ(X)) = 0 donc ssi ∃ψ telle que X = ψ(ϕ(X)), donc ssi ϕ est injective
Propriété utile

Théorème 1.10 : Autre formulation de l’entropie conditionnelle
Soient X et Y deux variables aléatoires

X
H(X|Y ) = H(X|Y = y)pY (y)
y∈Y
P
où H(X|Y = y) = − x∈X PX|Y (X = x|Y = y) log2 PX|Y (X = x|Y = y)
Démonstration triviale, mais souvent utile !
4.3 Diagramme de Venn

Diagramme de Venn
H(X) : Entropie de X
— Information moyenne fournie par X
— Incertitude sur la variable aléatoire X
Diagramme de Venn
H(Y ) : Entropie de Y
— Information moyenne fournie par Y
— Incertitude sur la variable aléatoire Y
Diagramme de Venn

H(X, Y ) : Entropie conjointe de X et Y

— Information moyenne fournie par le système (X, Y )
— Attention, non égale à priori à la somme de H(X) et H(Y )
Diagramme de Venn
H(X|Y ) : Entropie conditionnelle de X sachant Y

— Incertitude restante sur X si l’on connaît Y
— Information manquante sur X malgré la connaissance de Y
Diagramme de Venn
H(Y |X) : Entropie conditionnelle de Y sachant X

— Incertitude restante sur Y si l’on connaît X
— Information manquante sur Y malgré la connaissance de X

Diagramme de Venn
Il reste une quantité à considérer :

— Elle représente l’information contenue à la fois dans X et dans Y
— On lappellera information mutuelle (ou transinformation)
4.4 Information mutuelle

4.4.1 Définition
Information mutuelle
Définition 1.20 : Information mutuelle
Étant données deux variables aléatoires X et Y à valeurs respectivement dans X et Y, on définit l’information
mutuelle de X et Y (ou la transinformation) et on note I(X; Y ) la quantité :
XX
pXY (x, y)
I(X; Y ) = pXY (x, y) log2
pX (x)pY (y)
x∈X y∈Y
Interprétation
— On peut remarquer que : I(X; Y ) = DKL (pXY (x, y)||pX (x)pY (y))
— I(X; Y ) est donc un indicateur d’indépendance de variables aléatoires.
— Plus pXY (x, y) ressemble à pX (x)pY (y), plus I(X, Y ) sera faible et moins les variables seront corrélées.
4.4.2 Propriétés
Propriétés de l’information mutuelle
Théorème 1.11 : Propriétés de l’information mutuelle
(1) I(X; Y ) = I(Y ; X)

(2) I(X; Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X)
Interprétation : l’information mutuelle correspond à la diminution du degré d’incertitude sur X due à Y
(ou l’inverse)
(3) I(X; Y ) = H(X) + H(Y ) − H(X, Y )
(4) I(X; Y ) ≥ 0 avec égalité ssi X et Y sont indépendantes
(5) I(X; Y ) ≤ min (H(X), H(Y )) avec égalité ssi l’une est une fonction de l’autre

Preuve : Propriétés de l’information mutuelle
(1) Trivial
(2) Même principe que la (2) du théorème 1.9
(3) Idem
(4) Vient du fait que I(X; Y ) = DKL (pXY (x, y)||pX (x)pY (y)) et de l’inégalité de Gibbs
(5) H(X|Y ) et H(Y |X) sont positives d’où l’inégalité. Elles sont nulles ssi l’une est fonction de l’autre (voir
(1) du théorème 1.9)
Prévisions météo

X, Y Y = chaud Y = froid
X = soleil 0.3 0.2
X = pluie 0.1 0.4
H(X, Y ) = 1.8464 bits, X(X) = 1 bit, H(Y ) = 0.9710 bits donc I(X; Y ) = 0.1246 bits
Exprime le fait qu’il y a une dépendance entre X et Y et mesure l’information commune aux deux sources.
Cas d’un canal binaire symétrique
Canal binaire symétrique
1−ϵ
0 0
1 1
1−ϵ
On suppose que les symboles 0 et 1 sont équiprobables à l’émission

— H(X) = − 12 log2 12 − 12 log2 12 = 1 bit
— pY (0) = pY |X (0|0)pX (0) + pY |X (0|1)pX (1)
= 1−ϵ
2
+ 2ϵ = 12
1
— pY (1) = 2
— H(Y ) = 1 bit
1−ϵ ϵ 1−ϵ ϵ
H(Y |X) = − log2 (1 − ϵ) − log2 (ϵ) − log2 (1 − ϵ) − log2 (ϵ)
2 2 2 2
I(X; Y ) = 1 + (1 − ϵ) log2 (1 − ϵ) + ϵ log2 (ϵ)
Cas d’un canal binaire symétrique

Canal binaire symétrique (suite)
0.9
0.8
0.7
0.6
I(X;Y)
0.5
0.4
0.3
0.2
0.1
0
0 0.2 0.4 0.6 0.8 1
ε
I(X; Y ) = 1 + (1 − ϵ) log2 (1 − ϵ) + ϵ log2 (ϵ)

1
— Si ϵ = 2
, il y a tellement d’erreurs qu’il n’y a plus de liens entre X et Y
— Si ϵ = 0, X = Y donc X et Y contiennent la même information : leur information mutuelle est donc maximale
— Si ϵ = 1, X est exactement l’inverse de Y donc ils contiennent d’une certaine façon la même information
— Plus I(X; Y ) est faible, plus on aura du mal à retrouver la valeur de X à partir de Y
Jeu du Qui-est-ce ?
Quelles questions à poser, et dans quel ordre ?
Jeu du Qui-est-ce ?
On considère ici des questions ouvertes, par exemple Quelle est sa couleur de cheveux ? :
— Cheveux ∈ {blond, brun, roux, chauve}
— Lunettes ∈ {oui, non}
— Yeux ∈ {bleus, verts, marron}
— Pilosité ∈ {rien, moustache, barbe}
— Peau ∈ {claire, foncée}
Jeu du Qui-est-ce ?
— Entropie totale du jeu : 3.5069 bits
— Question 1 : question avec l’entropie maximale → cheveux (1.7232 bits)
— Question 2 : question avec l’entropie conditionnelle maximale sachant les cheveux → yeux (1.1170 bits supplé-
mentaires soit 2.8402 bits)

— Question 3 : question avec l’entropie conditionnelle maximale sachant les cheveux et les yeux → lunettes ou
pilosité équivalents (0.2667 bits supplémentaires soit 3.1069 bits)
— Question 4 : question avec l’entropie conditionnelle maximale sachant les cheveux, les yeux et les lunettes →
pilosité (0.2667 bits supplémentaires soit 3.3736 bits)
— Question 5 : dernière question restante → peau (0.1333 bits supplémentaires soit 3.5069 bits)
4.5 Extension à plusieurs variables aléatoires

Extension des notions
— Toutes les notions vues précédemment peuvent s’étendre à 3, 4 ou n variables aléatoires
— On pourra ainsi définir des entropies de plusieurs variables conditionnement à d’autres, ou même la notion
d’information mutuelle conditionnelle
— Pour les preuves à 3 variables, la solution la plus efficace est de passer par un diagramme de Venn (même s’il
peut s’avérer parfois trompeur !). Pour n variables, on raisonnera par récurrence.
4.5.1 Information mutuelle conditionnelle

Information mutuelle conditionnelle
Définition 1.21 : Information mutuelle conditionnelle
Étant données trois variables aléatoires X, Y et Z à valeurs respectivement dans X , Y et Z, on définit

l’information mutuelle entre X et Y sachant Z et on note I(X; Y |Z) la quantité :
!
X X X pXY |Z (x, y|z)
I(X; Y |Z) = pXY Z (x, y, z) log2
x∈X y∈Y z∈Z
pX|Z (x|z)pY |Z (y|z)
Il s’agit de l’information commune à X et Y lorsque Z est connu
Propriétés
Théorème 1.12 : Propriétés de l’information mutuelle conditionnelle
(1) I(X; Y |Z) ≥ 0 avec égalité ssi X → Z → Y forment une chaîne de Markov
(2) De nombreuses équivalences peuvent être démontrées grâce à un diagramme de Venn :
I(X; Y |Z) = H(X|Z) + H(Y |Z) − H(X, Y |Z)

= H(X|Z) − H(X|Y, Z)
= H(Y |Z) − H(Y |X, Z)
(3) Corollaire
H(X|Z) ≥ H(X|Y, Z)
Plus on conditionne, plus on réduit l’entropie

Preuve : Propriétés de l’information mutuelle conditionnelle
(1) Il suffit de remarquer que

I(X; Y |Z) = DKL pXY Z (x, y, z)||pX|Z (x|z)pY |Z (y|z)pZ (z)
et que les deux termes sont bien des distributions de probabilité. La nullité a lieu si p(x, y|z) = p(x|z)p(y|z)
donc si X et Y sont indépendantes conditionnement à Z.
(2) Toujours le même raisonnement...
(3) Direct à partir de (1) et (2)
Diagramme de Venn
H(X) H(Y)
H(Z)
Diagramme de Venn
Diagramme de Venn
H(X,Y|Z)
I(X;Y|Z)
H(X) H(Y)
H(X|Z) H(Y|Z)
H(Z)
I(X; Y |Z) = H(X|Z) + H(Y |Z) − H(X, Y |Z)
Diagramme de Venn

H(X|Y,Z)
I(X;Y|Z)
H(X) H(Y)
H(X|Z)
H(Z)
I(X; Y |Z) = H(X|Z) − H(X|Y, Z)
Diagramme de Venn
H(Y|X,Z)
I(X;Y|Z)
H(X) H(Y)
H(Y|Z)
H(Z)
I(X; Y |Z) = H(Y |Z) − H(Y |X, Z)
4.5.2 Formules des conditionnements successifs

Formules des conditionnements successifs
Théorème 1.13 : Formules des conditionnements successifs

Etant données n variables aléatoires X1:n = X1 . . . Xn dans X et Y dans Y, on a :
(1) Entropie conjointe
X
n X
n
H (X1:n ) = H(Xi |X1:i−1 ) ≤ H(Xi )
i=1 i=1
avec égalité ssi tous les Xi sont indépendants
(2) Entropie conditionnelle
X
n
H (X1:n |Y ) = H(Xi |X1:i−1 , Y )
i=1
(3) Information mutuelle

X
n
I (X1:n ; Y ) = I(Xi ; Y |X1:i−1 )
i=1

Preuve : Formules des conditionnements successifs
(1) Par récurrence on montre facilement
H (X1:n ) = H (X1:n−1 , Xn )
= H (X1:n−1 ) + H (Xn |X1:n−1 )
Egalité lorsque ∀i, H(Xi |X1:i−1 ) = H(Xi ) donc lorsque tous les Xi sont indépendants deux à deux
(2) D’après (1) et en notant X0 = Y
H (X1:n |Y ) = H (Y, X1:n ) − H(Y )

= H (X0:n ) − H(X0 )
Xn
= H(Xi |X0:i−1 ) − H(X0 )
i=0
X
n
= H(X0 ) + H(Xi |X1:i−1 , Y ) − H(X0 )
i=1
Preuve : Formules des conditionnements successifs
(3) D’après (1) et (2)
I (X1:n ; Y ) = H (X1:n ) − H (X1:n |Y )

Xn Xn
= H(Xi |X1:i−1 ) − H(Xi |X1:i−1 , Y )
i=1 i=1
X
n
= I(Xi ; Y |X1:i−1 )
i=1
Formules des conditionnements successifs

Dans le cas de 3 variables aléatoires X, Y et Z on a
— Entropie conditionnelle
H(X, Y |Z) = H(X|Y, Z) + H(Y |Z)

= H(Y |X, Z) + H(X|Z)
— Information mutuelle
I(X, Y ; Z) = I(X; Z|Y ) + I(Y ; Z)

= I(Y ; Z|X) + I(X; Z)
5 Propriété asymptotique d’équirépartition (AEP)

Cas d’un message de longueur n
— Le schéma de Shannon définit les notions fondamentales de source et canal de transmission et leur modélisation
sous forme probabiliste
— L’entropie et l’information mutuelle permettent de quantifier en terme d’information l’ensemble des phénomènes
sur la chaîne de traitement et de transmission
— Nous allons dans la suite du cours considérer l’envoi d’un message de longueur n (potentiellement long) et
étudier les propriétés asymptotiques en terme d’information

Cadre
Source Canal Destinataire
X1:n ∈ X n Y1:n ∈ Y n
Dans la suite du cours on considère :

— Un alphabet de source X et de destinataire Y
— Une source discrète sans mémoire de loi pX
Y
n
∀x1:n , p (x1:n ) = pX (xi )
i=1
— Un canal discret sans mémoire de loi conditionnelle pY |X
Y
n
∀n, x1:n , y1:n , p (y1:n |x1:n ) = pY |X (yi |xi )
i=1
5.1 Définition
Conséquence de la loi des grands nombres
Théorème 1.14 : Propriété asymptotique d’équirépartition (AEP)
Soient X1:n n variables aléatoires i.i.d., alors on a :

1
∀ϵ > 0, lim P − log2 (p(X1:n )) − H(X) ≥ ϵ = 0
n→∞ n
Théorème 1.15 : Corollaire de l’AEP

Soit X1:n n variables aléatoires i.i.d., alors on a :
p
→2−nH(X)
p(X1:n )−
Preuve : Propriété asymptotique d’équirépartition (AEP)
— Considérons la variable aléatoire Zn définie par

1
Zn = − log2 (p(X1:n ))
n
1X
n
= − log2 (p(Xi ))
n i=1
— D’après la loi faible des grands nombres, la variable Zn converge en probabilité vers une variable déter-
ministe égale à
E [− log2 (p(Xi ))] = H(X)
Propriété asymptotique d’équirépartition (AEP)

— Cette propriété fondamentale est appelée propriété asymptotique d’équirépartition (AEP en anglais)

— Elle nous indique que pour une source sans mémoire, lorsque n → ∞ toutes les séquences concentrant l’essentiel
de la probabilité deviennent équiprobables et qu’on peut grossièrement estimer leur probabilité à
p(x1:n ) ≈ 2−nH(X)
— Comme nous allons le voir dans la suite, on va pouvoir diviser l’ensemble des séquences de X n en séquences
1
typiques pour lesquelles − log2 (p(x1:n )) est proche de H(X) et les autres appelées séquences atypiques
n
— Cette propriété va avoir des conséquences très importantes notamment pour le codage et la compression des
données au niveau de la source
5.2 Ensemble des séquences typiques

5.2.1 Définition
Ensemble des séquences typiques
Définition 1.22 : Ensemble des séquences typiques
Soit ϵ > 0. On appelle ensemble des séquences typiques de longueur n (ou typical set en anglais) et on note
(n)
Tϵ l’ensemble défini par
n o
Tϵ(n) = x1:n ∈ X n , t.q 2−n(H(X)+ϵ) ≤ p (x1:n ) ≤ 2−n(H(X)−ϵ)

1
= x1:n ∈ X n , t.q H(X) − ϵ ≤ − log2 (p(x1:n )) ≤ H(X) + ϵ
n
Propriétés de l’ensemble des séquences typiques
Théorème 1.16 : Propriétés de l’ensemble des séquences typiques

Qn
Soit ϵ > 0, ϵ′ > 0 et une séquence x̃1:n ∈ X n générée par une source sans mémoire x̃1:n ∼ i=1 pX (xi ), on
a:
> 1 − ϵ′ lorsque n → ∞
(n)
(1) P x̃1:n ∈ Tϵ
(n)
(2) |Tϵ | ≤ 2n(H(X)+ϵ)
(n)
(3) |Tϵ | ≥ (1 − ϵ)2n(H(X)−ϵ) lorsque n → ∞
Preuve : Propriétés de l’ensemble des séquences typiques
(1) Cette propriété découle directement de l’AEP et de la définition de la convergence en probabilité.

(2) On a
X
1 = p (x1:n )
x1:n ∈X n
X
≥ p (x1:n )
(n)
x1:n ∈Tϵ
X
≥ 2−n(H(X)+ϵ)
(n)
x1:n ∈Tϵ
= 2−n(H(X)+ϵ) |Tϵ(n) |

Preuve : Propriétés de l’ensemble des séquences typiques
(3) Pour n suffisamment grand on a (voir propriété 1)

1 − ϵ < P x1:n ∈ Tϵ(n)
X
= p (x1:n )
(n)
x1:n ∈Tϵ
X
≤ 2−n(H(X)−ϵ)
(n)
x1:n ∈Tϵ
= 2−n(H(X)−ϵ) |Tϵ(n) |
Interprétation
— Lorsque n → ∞ la probabilité d’avoir une séquence typique est quasiment de 1
— Il y a approximativement 2nH(X) séquences typiques qui ont toutes approximativement une probabilité d’ap-
parition 2−nH(X) : comme si l’on considérait un sous ensemble de taille 2nH(X) muni d’une loi uniforme
— Intuitivement vu qu’il est peu probable qu’une séquence soit atypique, en terme de compression et de trans-
mission, il suffit donc de s’intéresser aux séquences typiques, ce qui va considérablement simplifier les choses !
— La proportion de séquences typiques dépend de l’entropie de la source
2nH(X)
= 2n(H(X)−log2 (|X |))
2n log2 (|X |)
Interprétation
Expérimentation
— Source sans mémoire suivant une loi de Bernouilli de probabilité p = 0.2

— On a H(X) = h(0.2) = 0.72 bits

— Prenons n = 100, il a donc 2100 séquences possibles. Néanmoins, parmi elles, beaucoup auront la même
probabilité d’apparition car il y en a seulement n + 1 différentes
pindividuelle = pk (1 − p)n−k avec k = 0, . . . , n
— Parmi ces probabilités, certaines ne représentent que très peu de séquences (par exemple k = 0 ou k = n où il
n’y a qu’une séquence de concernée), et contribuent donc très peu à la probabilité globale
— La contribution à la probabilité globale des séquences ayant k fois le bit 1 est
Cnk pk (1 − p)n−k
Expérimentation
Loi binomiale - n=100 - p=0.2

0.1
0.09
0.08
0.07
0.06
P(E=k)
0.05
0.04
0.03
0.02
0.01
0
0 10 20 30 40 50 60 70 80 90 100
k
Si je tire au hasard une séquence générée selon ce modèle, il y a presque 80% de chances qu’elle contienne entre 15
et 25 bits égaux à 1, donc que sa probabilité individuelle d’apparition soit comprise entre p25 (1 − p)75 et p15 (1 − p)85
Expérimentation
— On va tracer, pour chaque valeur de k entre 0 et n, la quantité − n1 log2 (p(x1:n )) (probabilité individuelle
d’apparition) en fonction de Cnk pk (1 − p)n−k (contribution à la probabilité globale)
(n)
— On va mettre en rouge les séquences appartenant au typical set Tϵ avec ϵ = 0.1, donc celles pour lesquelle
on a − n1 log2 (p(x1:n )) compris entre 0.62 et 0.82
— En sommant leurs contributions à la probabilité globale, on pourra estimer la probabilité pour une séquence
tirée aléatoirement selon ce modèle d’appartenir au typical set
Expérimentation

N = 1 - p = 0.2 - Probabilité Typical Set = 0 N = 10 - p = 0.2 - Probabilité Typical Set = 0.3

0.8
0.3
0.7
0.25
0.6
0.2
0.5
Ck pk (1-p)n-k
n-k
Cn p (1-p)
0.4 0.15
k
n
k
0.3
0.1
0.2
0.05
0.1
0 0
0 0.5 1 1.5 2 2.5 0 0.5 1 1.5 2 2.5
k n-k
-log (p(x ))/n avec p (1:n)=p (1-p) -log (p(x ))/n avec p (1:n)=pk (1-p)n-k
2 1:n x 2 1:n x
Expérimentation
N = 20 - p = 0.2 - Probabilité Typical Set = 0.39 N = 50 - p = 0.2 - Probabilité Typical Set = 0.62
0.14
0.2
0.12
0.18
0.16 0.1
0.14
Ckn pk (1-p)n-k
n-k
0.08
Cn p (1-p)
0.12
k
0.1
0.06
k
0.08
0.06 0.04
0.04
0.02
0.02
0 0
0 0.5 1 1.5 2 2.5 0 0.5 1 1.5 2 2.5
k n-k
-log (p(x ))/n avec p (1:n)=p (1-p) -log (p(x ))/n avec p (1:n)=pk (1-p)n-k
2 1:n x 2 1:n x
Expérimentation
N = 100 - p = 0.2 - Probabilité Typical Set = 0.78 N = 200 - p = 0.2 - Probabilité Typical Set = 0.92
0.1 0.08
0.09
0.07
0.08
0.06
0.07
0.05
Ckn pk (1-p)n-k
n-k
0.06
Cn p (1-p)
0.05 0.04
k
k
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0 0
0 0.5 1 1.5 2 2.5 0 0.5 1 1.5 2 2.5
k n-k
-log2(p(x1:n))/n avec px(1:n)=p (1-p) -log2(p(x1:n))/n avec px(1:n)=pk (1-p)n-k
5.2.2 Conséquences sur le codage source

Conséquences sur le codage source

— Les propriétés statistiques de la source tendent à favoriser l’apparition de séquences typiques, pour lesquelles
on va pouvoir concevoir un traitement spécifique
— Nous allons maintenant nous intéresser au codage source, c’est à dire à la représentation de chaque séquence
de X n sous la forme d’une série de 0 ou 1
— Si l’on utilise une approche naïve, sachant qu’il y a en tout |X |n séquences possibles, il faudra dn log2 (|X |)e
bits pour coder chaque séquence
— Nous allons voir qu’en traitant séparément les séquences typiques et atypiques, on peut arriver à réduire
considérablement le nombre de bits moyen utilisé pour envoyer une séquence
Codage différencié
On va donc mettre en place la stratégie de codage suivante :
— Séquences typiques. On sait qu’il y a au plus 2n(H(X)+ϵ) séquences typiques. Si on décide de les coder
indépendamment des séquences atypiques il faudra donc utiliser dn (H(X) + ϵ)e bits
— Séquences atypiques. Pour les séquences atypiques on va utiliser l’approche naïve (sous-optimale) et donc
utiliser dn log2 (|X |)e
— Pour éviter qu’un code puisse être utilisé deux fois, on va utiliser le bit 0 en préfixe si la séquence est typique
et 1 si elle est atypique
Stratégie de codage
— Une séquence typique est donc codée au maximum sur n (H(X) + ϵ) + 2 bits tandis qu’une séquence atypique
est codée au maximum sur n log2 (|X |) + 2
— En notant l(x1:n ) le nombre de bits pour coder la séquence x1:n , on a donc une longueur moyenne
X
L̄ = p(x1:n )l(x1:n )
x1:n ∈X n
X X
≤ p(x1:n ) [n (H(X) + ϵ) + 2] + p(x1:n ) [n log2 (|X |) + 2]
(n) (n)
x1:n ∈Tϵ x1:n ∈T
/ ϵ

= P x1:n ∈ Tϵ(n) [n (H(X) + ϵ) + 2] + P x1:n ∈
/ Tϵ(n) [n log2 (|X |) + 2]
≤ n (H(X) + ϵ) + ϵn log2 (|X |) + 2
= n (H(X) + ϵ′ )
Interprétation
— Grâce un choix judicieux de ϵ et de n on peut rendre ϵ′ = ϵ + ϵ log2 (|X |) + n2 aussi petit que l’on veut
— Il nous faudra donc en moyenne nH(X) bits pour coder une séquence de n symboles, soit H(X) bits pour un
symbole
— Nouvelle interprétation de l’entropie : nombre moyen de bits qu’il faut pour coder la source
— Comme on sait que H(X) ≤ log2 (|X |), on peut donc parler de compression
— En revanche la stratégie de codage proposée est sous optimale et uniquement intéressante d’un point de vue
asymptotique
— Nous verrons dans la troisième partie du cours qu’il existe des codages plus performants : c’est l’objet de ce
que l’on appelle le codage source
5.3 Ensemble des séquences conjointement typiques

5.3.1 Définition
Canal
— De la même façon que les propriétés statistiques de la source vont avoir tendance à générer des séquences d’un
certain type, celles du canal vont conditionner le type de séquences que l’on retrouve à la sortie
— Sachant que le but de la transmission est de pouvoir retrouver le message envoyé x1:n ∈ X n à partir du message
reçu y1:n ∈ Y n , ces liens forts vont être extrêmement utiles pour garantir une bonne transmission
— On va étendre le concept de séquences typiques à celui de séquences conjointement typiques

Ensemble des séquences conjointement typiques
Définition 1.23 : Ensemble des séquences conjointement typiques

(n)
Soit ϵ > 0. On appelle ensemble des séquences conjointement typiques de longueur n et on note Tϵ (X, Y )
l’ensemble défini par
Tϵ(n) (X, Y ) = {(x1:n , y1:n ) ∈ X n × Y n , t.q

2−n(H(X)+ϵ) ≤ p (x1:n ) ≤ 2−n(H(X)−ϵ) ;
2−n(H(Y )+ϵ) ≤ p (y1:n ) ≤ 2−n(H(Y )−ϵ) ;
o
2−n(H(X,Y )+ϵ) ≤ p (x1:n , y1:n ) ≤ 2−n(H(X,Y )−ϵ)
Ensemble des séquences conjointement typiques

— Deux séquences x1:n et y1:n sont donc conjointement typiques si elles sont chacune typique dans leur ensemble
(n) (n)
de définition, c’est à dire si x1:n ∈ Tϵ (X) et y1:n ∈ Tϵ (Y ) et si leur co-occurrence est également typique
— Les séquences conjointement typiques rendent compte d’un comportement typique à la fois de la source et du
canal et nous allons voir que pour des messages de grande taille, elle concentrent la majorité de la probabilité
(exactement comme ce que l’on avait vu pour les séquences typiques)
— Ces propriétés vont ici nous permettre de mettre en place des stratégies de décodage performantes et de
retrouver sans erreur le message envoyé à partir du message reçu
Propriétés de l’ensemble des séquences conjointement typiques
Théorème 1.17 : Propriétés de l’ensemble des séquences conjointement typiques
Soit ϵ > 0, ϵ′ > 0 et des Qn séquences x̃1:n ∈ X et ỹ1:n ∈ Y générées selon le modèle source/canal sans
n n
mémoire (x̃1:n , ỹ1:n ) ∼ i=1 pXY (xi , yi ), on a :

(1) P (x̃1:n , ỹ1:n ) ∈ Tϵ (X, Y ) > 1 − ϵ′ lorsque n → ∞
(n)
(n)
(2) |Tϵ (X, Y )| ≤ 2n(H(X,Y )+ϵ)
(n)
(3) |Tϵ (X, Y )| ≥ (1 − ϵ)2n(H(X,Y )−ϵ) lorsque n → ∞
Interprétation
— Les démonstrations sont exactement les mêmes que pour l’ensemble des séquences typiques
— Il y a environ 2nH(X,Y ) séquences conjointement typiques, qui ont toutes une probabilité d’apparition conjointe
d’environ 2−nH(X,Y )
— Bien qu’il y ait environ 2nH(X) séquences d’entrée typiques et 2nH(Y ) séquences de sortie typiques, il n’y a
que 2nH(X,Y ) séquences conjointement typiques : toutes les paires de séquences typiques ne sont donc pas
conjointement typiques
— Le fait que l’on quasiment sûr que les deux séquences soient conjointement typiques vient du fait que l’une
est générée à partir de l’autre : il existe donc un lien fort entre elles. On verra par la suite que si les deux
séquences n’étaient pas générées selon un modèle source/canal sans mémoire, il y aurait beaucoup moins de
liens entre elles.
Interprétation

Exemple
1−p
0 0
p pY (y) = [0.65, 0.35]

0.6 0.15
pXY (x, y) =
0.05 0.2
p Séquences conjointement typiques
1 1
1−p x1:20 = 11111000000000000000
y1:20 = 11110111000000000000
p = 0.2
pX (x) = [0.75, 0.25]
Propriétés de l’ensemble des séquences conjointement typiques
Théorème 1.18 : Appartenance à l’ensemble des séquences conjointement typiques pour des sé-
quences générées individuellement
Soit ϵ > 0 et des séquences x̃1:n ∈ X n et ỹ1:n ∈ Y n générées individuellement selon (x̃1:n , ỹ1:n ) ∼
Q n
i=1 pX (xi )pY (yi ), on a :

(1) P (x̃1:n , ỹ1:n ) ∈ Tϵ (X, Y ) ≤ 2−n(I(X;Y )−3ϵ)
(n)

(2) Pour n suffisamment grand, P (x̃1:n , ỹ1:n ) ∈ Tϵ (X, Y ) ≥ (1 − ϵ)2−n(I(X;Y )+3ϵ)
(n)
Démonstration en exercice
Interprétation

— Etant données deux séquences x1:n et y1:n de grande taille et typiques chacune dans leur ensemble d’ori-
(n)
gine, alors leur probabilité d’appartenir à l’ensemble des séquences conjointement typiques Tϵ (X, Y ) dépend
fortement de leur mode de génération.
Qn
— Si elles sont créées conjointement selon la loi i=1 pXY (xi , yi ), alors leur probabilité d’y appartenir est environ
égale à 1
Qn
— Alors que d’après le théorème précédent, si elles sont générées séparément selon la loi i=1 pX (xi )pY (yi ),
cette probabilité est de l’ordre de 2−nI(X;Y )
— Nous verrons dans le Problème 4 que cette propriété est fondamentale et l’une des bases de la démonstration
du deuxième théorème de Shannon
Séquence conditionnement typique
Question : Etant donnée une séquence typique x̃1:n , combien y-a-t-il de séquences y1:n conjointement typiques avec
(n)
elle ? (on notera Tϵ (Y |x1:n ) cet ensemble)
X
1 = p (y1:n |x̃1:n )
y1:n ∈Y n
X
≥ p (y1:n |x̃1:n )
(n)
y1:n ∈Tϵ (Y |x1:n )
X p (x̃1:n , y1:n )
=
(n)
p(x̃1:n )
y1:n ∈Tϵ (Y |x̃1:n )
X
≥ 2−n(H(X,Y )+ϵ) 2+n(H(X)−ϵ)
(n)
y1:n ∈Tϵ (Y |x̃1:n )
≥ |Tϵ(n) (Y |x̃1:n )|2−n(H(Y |X)+2ϵ)
Séquence conditionnement typique
Question : Etant donnée une séquence typique x̃1:n , combien y-a-t-il de séquences y1:n conjointement typiques avec
(n)
elle ? (on notera Tϵ (Y |x̃1:n ) cet ensemble)
|Tϵ(n) (Y |x̃1:n )| ≤ 2n(H(Y |X)−2ϵ)

— Il y a environ 2nH(Y |X) séquences de sortie conjointement typiques pour une séquence (typique) d’entrée
— Inversement pour une séquence de sortie y1:n donnée, il y a environ 2nH(X|Y ) séquences d’entrée conjointement
typiques
Interprétation

5.3.2 Application au codage canal

Conséquences sur le codage canal
— Une des problématiques fondamentales de la théorie de l’information est liée à la transmission sans erreur de
messages sur un canal potentiellement bruité
— Le but est, si possible sans erreurs, de retrouver la séquence x1:n envoyée à partir de la séquence y1:n reçue
— A quelle condition pourra-t-on ne pas faire d’erreurs ? Ou en d’autres termes, parmi les X n séquences d’entrée
possibles, lesquelles pourra-t-on décoder sans erreur ?
— Il faut construire des couples (x1:n , y1:n ) de séquences conjointement typiques et pour lesquels il n’y a pas
dambiguïté possible
Conséquences sur le codage canal

— Chaque séquence typique d’entrée x1:n produit environ 2nH(Y |X) séquences de sortie conjointement typiques
avec elle
— Or il y a en tout environ 2nH(Y ) séquences de sorties typiques
— Afin d’éviter toute ambiguïté il faut qu’aucune séquence de sortie ne soit conjointement typique avec plusieurs
séances d’entrée
— Ceci limite le nombre de couples (x1:n , y1:n ) que l’on peut construire et permettant une transmission sans
erreur
2nH(Y )
= 2nI(X;Y )
2nH(Y |X)
Interprétation

Interprétation
— L’information mutuelle I(X; Y ) donne une limite théorique au nombre de couples de séquences conjointement
typiques (x1:n , y1:n ) que l’on peut définir pour une transmission sans erreur
— Il faut dans ce cas choisir judicieusement les séquences d’entrée x1:n , afin de faire en sorte que les ensembles
des séquences de sortie conjointement typiques avec chacune aient une intersection nulle
— La conception et l’implémentation de telles stratégies est appelée codage canal et il s’agit d’une thématique
de recherche actuellement très active, qui sera l’objet de la troisième partie du cours
— Attention, encore une fois toutes ces propriétés sont uniquement asymptotiques et donc pas nécessairement
implémentables en pratique

58
Deuxième partie
Codage source
Plan de la partie
1 Classes de codes source 60
1.1 Quelques définitions importantes . . . . . . . . . . . . . . . . . . . . . . . 60
1.2 Code non singulier . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
1.3 Code déchiffrable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
1.4 Code instantané . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2 Propriétés des codes binaires instantanés 65

2.1 Inégalité de Kraft . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.2 Longueur moyenne minimale . . . . . . . . . . . . . . . . . . . . . . . . 69
2.3 Rendement et redondance d’un code . . . . . . . . . . . . . . . . . . . . . 70
3 Premier théorème de Shannon 71

3.1 Première version . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.2 Extension d’une source et deuxième version . . . . . . . . . . . . . . . . . . . 73
4 Code de Huffman 75
4.1 Algorithme de codage. . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Optimalité du codage de Huffman . . . . . . . . . . . . . . . . . . . . . . 78
Emetteur
Bruit

— Codage source (deuxième partie du cours) : compression des données pour qu’elles prennent le moins de place
possible. Cela revient à remplacer le message à envoyer par un message le plus court possible, souvent représenté sous
forme d’une série de 0 et de 1.
— Codage canal (troisième partie du cours) : rajout de bits d’information supplémentaires dans le message pour permettre
— Communications numériques (quatrième partie du cours) : transformation du message numérique en un signal
physique (onde électromagnétique, signal électrique, etc...) qui puisse être transmis sur le canal de transmission
Travaux de Shannon
La théorie de l’information et les travaux de Shannon ont permis de répondre à deux questions fondamentales sur
les systèmes de communication :

Deuxième partie - Codage source 59
— Codage source : étant donnée une source, à quel point peut-on compresser les données lors du codage, tout en
faisant en sorte que le destinataire puisse toujours déchiffrer les messages que l’on envoie ? Premier théorème
de Shannon
— Codage canal : étant donné un canal de communication bruité, jusqu’à quel débit d’information peut-on
envoyer les données en conservant une probabilité d’erreur à la sortie qui soit limitée ? Deuxième théorème
de Shannon
Rappel : cadre du cours

Dans le cadre de ce cours, on considérera uniquement :
— Des sources discrètes sans mémoire où les symboles envoyés successivement sont indépendants et identiquement
distribués
— Des canaux discrets sans mémoire
— Un système de communication sera donc entièrement déterminé par :
— Les alphabets X et Y des symboles d’entrée et de sortie
— La loi de probabilité pX (x) de la source
— La loi de probabilité conditionnelle pY |X (y|x) : matrice de transfert du canal
Codage source
Considérons une source discrète sans mémoire, modélisée par une variable aléatoire discrète X à valeurs dans un
alphabet X .
— X est appelé l’alphabet source
— On va définir un deuxième alphabet S appelé alphabet code, qui va nous servir à coder les messages envoyés
par la source. Dans la majorité des cas (et dans la suite de ce cours), on va choisir S = {0, 1}
— Chaque symbole de l’alphabet source X va être associé à un symbole ou une suite de symboles de l’alphabet
de code S, que l’on appelle mot-code
— Le but du codage source est, qu’une fois codés dans S, les mots aient la longueur la plus petite possible. Il
s’agit donc d’introduire la notion de compression.
Codage source
Codage d’une source alphanumérique
Considérons une source ayant comme alphabet X = {A, B, C} et un message à envoyer AAAABAAAAC. On considère deux
codes différents ayant le même alphabet code S = {0, 1} :
Code n1 Code n2
A −→ 0 A −→ 11
B −→ 10 B −→ 1
C −→ 11 C −→ 00
— Avec le code n1, le message codé est : 000010000011. Il contient 12 bits

— Avec le code n2, le message codé est : 1111111111111111100. Il contient 19 bits. Il y a également un problème supplé-
mentaire : si on considère les deux premiers bits reçus 11, on ne peut pas savoir s’il s’agit du symbole A ou du groupe de
symboles BB...
— Le symbole A est ici beaucoup plus fréquent que les deux autres : si l’on veut compresser correctement le message, on a
intérêt à lui associer un mot de longueur faible.
Principe du codage source

— Le but du codage source est, à partir d’une source X , de trouver une correspondance symbole/mot qui minimise
le nombre de bits utilisés pour coder un message
— Pour cela, on va utiliser les probabilités d’apparition des symboles et faire en sorte que les mots associés aux
symboles très fréquents soient de longueur faible.
— Néanmoins, ceci n’est pas suffisant, car nous verrons que pour que le message une fois codé puisse être décodé,
on ne peut pas choisir n’importe quels mots.

1 Classes de codes source

1.1 Quelques définitions importantes
Fonction de codage source
Définition 2.1 : Fonction de codage source
Etant donnés un alphabet source X et un alphabet code S, on appelle fonction de codage source (ou
simplement code source) une fonction
c : X → S+
x 7→ c(x)
où S + est l’ensemble des séquences de S de longueur finie non nulle
Extension d’un code source
Définition 2.2 : Extension d’un code source

Etant donnée une fonction de codage source c, on appelle extension d’ordre n du code c la fonction
c(n) : Xn → S+
(x1 , x2 , . . . , xn ) 7 → c(x1 )c(x2 ) . . . c(xn )
où c(x1 )c(x2 ) . . . c(xn ) est la concaténation des mots c(x1 ), c(x2 ), etc...
Définition 2.3 : Longueur d’un mot code
Etant donnée une fonction de codage source c, la longueur du code lc est la fonction
lc : X → N∗
x 7→ |c(x)|
où |c(x)| représente le nombre de caractères du mot c(x)
Définition 2.4 : Longueur moyenne d’un code
Etant donnée une fonction de codage source c, la longueur moyenne du code c, notée Lc est la quantité
Lc = EX [lc (X)]
Si l’alphabet code S = {0, 1}, cette quantité s’exprime en bits par symbole.

— Plus la longueur moyenne du code Lc est petite, plus on aura réussi à compresser les données
— Un des buts en codage source, est de construire des codes ayant la longueur moyenne la plus petite possible
— Ceci implique de choisir avec soin les mots à associer à chacun des symboles.
— Intuitivement, il faudra réserver les mots de petite taille aux symboles les plus probables si l’on veut minimiser
la longueur moyenne

Exemple
Considérons une source X ayant comme alphabet X = {0, 1, 2, 3}
X pX (x) Code 1 Code 2

1
X=0 4
10 01
1
X=1 8
110 00
1
X=2 8
111 11
1
X=3 2
0 11
— L̄code1 = 1
4
×2+ 1
8
×3+ 1
8
×3+ 1
2
× 1 = 1.75 bits
— L̄code2 = 1
4
×2+ 1
8
×2+ 1
8
×2+ 1
2
× 2 = 2 bits
— Même s’il y a des mots plus longs dans le code 1, la longueur est moyenne est plus petite car on a affecté un mot très
court (0) au symbole le plus probable.
Optimalité d’un code
Définition 2.5 : Optimalité d’un code
Soit une source X d’alphabet source X . Un code c : X → S + est dit optimal si et seulement si
∀c′ , L c ≤ L c′
— Un code optimal permet d’avoir la longueur moyenne la plus petite possible étant données les propriétés
statistiques de la source
Principe du codage source

— Le but du codage source est de concevoir des codes de longueur moyenne la plus petite possible et si possible
optimaux
— L’autre contrainte est liée à la déchiffrabilité du message et notamment au fait de pouvoir décoder à la volée
le message
— Nous allons voir dans la suite plusieurs types de codes plus ou moins faciles à décoder
— Nous verrons également que si l’on veut pouvoir décoder facilement le message, il y aura des contraintes fortes
sur les longueurs que l’on peut utiliser...
1.2 Code non singulier

Code non singulier
Définition 2.6 : Code non singulier
Un code c : X → S + est non singulier si et seulement si la fonction c est injective
— Un code est non singulier si les mots utilisés pour coder les symboles sont tous différents.
— Si la taille de l’alphabet source est M , et que l’on utilise un code en bloc de taille k, il faut donc définir M k
mots différents.
Codage d’une source alphanumérique (suite)
Les codes n1 et n2 présentés précédemment sont tous deux des codes non singuliers : les messages associés à tous les symboles
sont bien différents.

1.3 Code déchiffrable

Code déchiffrable
Définition 2.7 : Code déchiffrable

Un code c : X → S + est déchiffrable (ou à décodage unique) si et seulement si toutes ses extensions sont
injectives
— Un code non singulier est déchiffrable si toute suite de mots ne correspond qu’un seul message.
— Cela signifie qu’un message codé sous forme de 0 et 1 ne peut se déchiffrer que d’une seule façon.
— n1 est bien déchiffrable car quelque soit le mot, il n’y a qu’une seule façon de le déchiffrer
— A l’inverse n2 n’est pas déchiffrable. Si l’on reçoit 11, on ne peut pas savoir si cela correspond à A ou à BB...
1.4 Code instantané

Code instantané
Définition 2.8 : Code instantané

Un code c : X → S + est instantané (ou prefixe) si et seulement si aucun mot de code n’est prefixe d’un
autre
— On peut donc le déchiffrer de façon instantanée, sans utiliser de renseignements fournis par la suite du texte.
Code n1 Code n3
A −→ 0 A −→ 0
B −→ 10 B −→ 01
C −→ 11 C −→ 011
— n1 est instantané
— n3 n’est pas instantané (par exemple ici le mot associé à A est le début du mot associé à B), mais il est en revanche tout
de même déchiffrable car le bit 0 sert d’indicateur de début de mot.
Construction d’un code instantané binaire

Supposons que l’on souhaite construire un code instantané binaire et que l’on ait 5 symboles à coder {x1 , . . . , x5 }
— Comme le code est instantané, il est également non singulier, donc il va falloir définir 5 mots différents.
— Si l’on souhaite utiliser le mot 0, on sait d’avance que tous les autres mots doivent commencer par 1.
x1 → 0 x2 , x 3 , x 4 , x 5 → 1 . . .
— Je ne peux pas choisir le mot 1 pour x2 car sinon je n’ai plus aucune possibilité pour les autres
— Je peux par exemple choisir le mot 10 pour x2 , mais dans ces cas là tous les autres mots doivent commencer
par 11
x2 → 10 x3 , x4 , x5 → 11 . . . etc...

0 0 1 1
00 0 1 01 10 0 1 11
0 1 0 1 0 1 0 1
000 001 010 011 100 101 110 111
— On peut tout résumer en considérant un arbre binaire (ici à 3 niveaux).

— Les mots se lisent en commençant à la racine de l’arbre et en descendant à la feuille considérée
— A chaque fois que l’on choisit un mot, comme le code est instantané il faudra effacer les branches de niveaux
inférieurs qui partent de cette feuille.
0 0 1 1
00 0 1 01 10 0 1 11
0 1 0 1 0 1 0 1
000 001 010 011 100 101 110 111
— Si je choisis le mot 0, tous les mots des niveaux inférieurs sont interdits pour la suite.
0 0 1 1
10 0 1 11
0 1 0 1
100 101 110 111
— Si je choisis le mot 0, tous les mots des niveaux inférieurs sont interdits pour la suite.

0 0 1 1
10 0 1 11
0 1
110 111
— Si pour le deuxième mot, je choisis 10, je dois enlever les branches correspondantes, etc...
Liens entre les codes

— Etant donné un code c, on a les relations suivantes :
instantané =⇒ déchiffrable =⇒ non singulier
— Dans ce cours, nous allons nous focaliser sur les codes instantanés, qui permettent de pouvoir déchiffrer de
façon unique le message, mais également de pouvoir le faire à la volée en temps réel.
— On verra dans la suite comment créer un code instantané permettant de compresser au mieux les données.
— Trouver un bon code instantané revient à supprimer les bonnes branches dans l’arbre binaire
Propriétés des codes binaires instantanés optimaux
Théorème 2.1 : Propriétés des codes binaires instantanés optimaux
Soit X une source définie sur un alphabet source X = {x1 , . . . , xM }. On note pi = pX (xi ) et on suppose
p1 ≥ p2 ≥ . . . ≥ pM . Tout code binaire instantané c optimal vérifie :
(1) lc (x1 ) ≤ lc (x2 ) ≤ . . . ≤ lc (xM )
(2) lc (xM −1 ) = lc (xM )
Preuve : Propriétés des codes binaires instantanés optimaux
Soit c un code binaire instantané optimal

(1) Supposons ∃(j, k) tels que pj ≥ pk et lj > lk , alors soit c′ le code c où l’on a échangé les mots-codes
des symboles xj et xk , alors c′ est également instantané (les mots-codes sont les mêmes) et on a
L c′ − L c = p j l k + pk l j − pj l j − pk l k
= (pj − pk )(lk − lj )
Cette quantité est négative ce qui signifie que Lc′ < Lc , ce qui contredit l’optimalité de c.
(2) Supposons que lc (xM −1 ) 6= lc (xM ), alors comme aucun mot code n’est prefixe de c(xM ), ceci signifie
que le dernier bit de c(xM ) est inutile : ceci contredit donc l’optimalité de c.

2 Propriétés des codes binaires instantanés

2.1 Inégalité de Kraft
Existence d’un code instantané
— Pour construire un code binaire efficace, il faut faire en sorte que les longueurs lc (x) des mots codes soient les
plus petites possibles
— En revanche, si on veut construire un code instantané, il faut également que l’on puisse construire un arbre
binaire où chaque mot-code (modélisé par une noeud) n’ait aucun fils (ce qu’on appelle en informatique une
feuille)
— Ainsi, tous les choix de longueurs de mot code ne permettront pas de construire un code instantané : nous
allons voir une condition d’existence d’un tel code que l’on appelle l’inégalité de Kraft
Inégalité de Kraft
Théorème 2.2 : Inégalité de Kraft

+
(1) Soit c : X → {0, 1} un code binaire instantané, alors on a
X
2−lc (x) ≤ 1
x∈X
(2) Soient l1 , . . . , lM , M entiers positifs vérifiant
X
M
2−li ≤ 1
i=1
alors il existe un code binaire instantané de M mots satisfaisant ces longueurs
Inégalité de Kraft
— Attention, ce n’est pas parce qu’un code vérifie cette inégalité qu’il est instantané !
— En revanche, un code instantané doit vérifier cette propriété
— Toute la suite de ce chapitre consiste en la démonstration de ces deux propriétés
Démonstration de l’inégalité de Kraft (1)

Considérons un code binaire instantané sur un alphabet X de cardinal M .
— On suppose qu’il contient M mots (il est instantané donc non singulier).
— Notons Nj le nombre de mots de longueur j du code, et m la longueur maximale des mots du code
— On a donc :
X
m
Nj = M
j=1
— Nous allons, en reprenant une construction par arbre binaire, conjecturer du nombre maximal de mots de
longueur j que l’on peut définir.

Cas j = 1. Quel est le nombre maximal de mots de longueur 1 que l’on peut définir ?
0 1

— Il y a au maximum deux mots de longueur 1 que l’on peut définir : 0 ou 1

— On a donc forcément :
N1 ≤ 2

0 1
0 1 0 1
— Si N1 = 0, tous les mots de longueur 2 sont potentiellement possibles

— Il y a au maximum quatres mots de longueur 2 que l’on peut définir : 00, 01, 10 et 11

0 1
0 1
— En revanche si N1 = 1, une moitié de l’arbre n’est plus accessible, et on ne peut donc définir que 2 mots de
taille 2
— Dans l’exemple ci-contre, on a supposé que le mot 0 avait été choisi : dans ce cas on a uniquement deux mots
de taille 2 possibles : 10 et 11

0 1
— Si N1 = 2 il est impossible de définir un mot de longueur 2

— On peut résumer les trois étapes précédentes par la formule :
N2 ≤ 4 − 2N1
N2 ≤ 22 − 21 N1


Considérons le cas j = 3 Quel est le nombre maximal de mots de longueur 3 que l’on peut définir ?
0 1
0 1 0 1
0 1 0 1 0 1 0 1
On suppose que N1 = 0
— Si N2 = 0, on a 8 mots de longueur 3 possibles : 000, 001, 010, 011, 100, 101, 110 et 111

0 1
0 1 0 1
0 1 0 1 0 1
On suppose que N1 = 0
— Si N2 = 1, on a 2 mots en moins de longueur 3 possibles
— Dans l’exemple ci-contre, on a supposé que le mot 01 avait été choisi : dans ce cas les mots 010 et 011 ne sont
plus possibles
— Dans le cas général, si N2 est non nul, on enlève donc 2N2 mots de longueur 3

0 1
0 1
0 1 0 1

On suppose maintenant que N1 est non nul

— Si N2 = 1, on a 4 mots en moins de longueur 3 possibles
— Dans l’exemple ci-contre, on a supposé que le mot 0 avait été choisi : dans ce cas les mots 000, 001, 010 et
011 ne sont plus possibles
— Dans le cas général, si N1 est non nul, on enlève donc 4N1 mots de longueur 3
— On peut résumer les étapes précédentes en :
N3 ≤ 23 − 22 N1 − 2N2

— Par récurrence on a donc :
Nm ≤ 2m − 2m−1 N1 − 2m−2 N2 − . . . − 2Nm−1
— En divisant cette expression par 2m , on a :
2−m Nm + 2−(m−1) Nm−1 + . . . + 2−2 N2 + 2−1 N1 ≤ 1
— Parmi les longueurs {l1 , . . . , lM }, il y en a N1 égales à 1, N2 égales à 2, etc..., ce qui fait qu’on retrouve
immédiatement la relation :
XM
2−li ≤ 1
i=1

La démonstration du (2) est basée sur le même principe. Soient l1 , . . . , lM , M entiers positifs : on supposera que
l 1 ≤ . . . ≤ lM .
— On peut construire un arbre binaire de profondeur lM (qui est la longueur maximale d’un mot-code), il définit
2lM mots-codes différents. Pour qu’un code instantané existe il faut juste que l’on puisse placer sur l’arbre M
mots-codes avec ces longueurs en faisant en sorte que chaque mot-code n’ait aucun fils
— On peut commencer par choisir au hasard un mot-code de longueur l1 : ceci revient à couper l’arbre et supprime
donc 2lM −l1 mots-codes : il reste donc 2lM − 2lM −l1 mots-codes possibles
PM
— A la fin de la procédure il reste 2lM − i=1 2lM −li mots : pour qu’on puisse construire un code instantané il
faut que cette quantité soit ≥ 0 donc que
X
M
2l M ≥ 2lM −li
i=1
ce qui est bien assuré car les li vérifient cette inégalité.
Inégalité de McMillan
— L’inégalité de Kraft fournit une contrainte sur les longueurs que l’on peut utiliser pour construire un code
instantané
— Une question légitime est : si l’on décide de relâcher la contrainte d’instantanéité et de construire un code
déchiffrable, peut-on faire mieux ?
— Réponse : NON ! La même inégalité est valable pour les codes déchiffrables : il s’agit de l’inégalité de McMillan
(démonstration en exercice)
— En réalité si on peut construire un code déchiffrable avec certaines longueurs, alors on peut toujours construire
un code instantané avec les mêmes longueurs

2.2 Longueur moyenne minimale

Longueur moyenne minimale
Définition 2.9 : Longueur moyenne minimale
Etant donnée une source modélisée par une variable aléatoire discrète X sur un alphabet source X et un code
+
binaire instantané c : X → {0, 1} , alors on a
Lc ≥ H(X)
Avec égalité si et seulement si ∀x, p(x) = 2−lc (x) (on dit dans ce cas que le code est absolument optimal)
— La plus petite longueur moyenne possible pour un code instantané est l’entropie : attention ce minimum peut
ne pas être atteignable
— La même contrainte est valable pour les codes déchiffrables (McMillan vs. Kraft)
Preuve : Longueur moyenne minimale
— Considérons un alphabet source de cardinal M , X = {x1 , . . . , xM } et un code binaire instantané c de

longueurs l1 , . . . , lM .
— En notant
— pi = PX (X = xi )
X
M
— Q= 2−li
i=1
−li
2
— qi =
Q
— On a
X
M
— qi = 1 donc q est une loi de probabilité
i=1
X
M
— Lc = pi l i
i=1
— Q ≤ 1 d’après Kraft

X
M
pi
DKL (p||q) = pi log2
i=1
qi
X
M X
M
1
= pi log2 (pi ) + pi log2
i=1 i=1
qi
X
M
1
= −H(X) + pi log2
i=1
qi
X
M
Q
= −H(X) + pi log2
i=1
2−li
= −H(X) + Lc + log2 (Q)
D’après l’inégalité de Gibbs on a donc
Lc ≥ H(X) − log2 (Q) ≥ H(X)
— D’après l’inégalité de Gibbs égalité si et seulement si pi = qi , c’est à dire
PX (X = xi ) = 2−li ⇐⇒ li = − log2 (PX (X = xi ))
— Dans ce cas on a Q = 1, et donc Lc = H(X).

— Il faut dans ce cas là, que toutes les quantités li soient entières, donc que toutes les probabilités
dapparition des symboles soient des puissances (négatives) de 2.
Code absolument optimal
Exemple de code absolument optimal
On considère une source X à valeurs dans X = {1, 2, 3} dont les lois de probabilités sont données par le tableau suivant :
pX (x) Code
1
1 2
1
1
2 4
01
1
3 4
00

— On a H(X) = − 12 log2 1
2
− 1
4
log2 1
4
− 1
4
log2 1
4
= 1.5 bits
— On a L̄ = 1
2
×1+ 1
4
×2+ 1
4
× 2 = 1.5 bits
— Toutes les probabilités d’apparition sont des puissances de 2, on peut donc trouver un code absolument optimal et l’on
atteint la borne inférieure pour la longueur moyenne.
2.3 Rendement et redondance d’un code

Rendement et redondance d’un code

Définition 2.10 : Rendement d’un code

+
binaire c : X → {0, 1} , alors on appelle rendement (ou efficacité) d’un code la quantité
H(X)
ν=
Lc
Pour un code instantané (ou déchiffrable) on a ν ∈ [0, 1]
Définition 2.11 : Redondance d’un code

+
binaire c : X → {0, 1} , alors on appelle redondance d’un code la quantité
ρ=1−ν
Pour un code instantané (ou déchiffrable) on a ρ ∈ [0, 1]
Rendement et redondance d’un code

— Ces quantités permettent d’évaluer à quel point la longueur moyenne d’un code permet d’approcher l’entropie
— Le rendement caractérise le pourcentage de bits envoyés qui contiennent de l’information tandis que la redon-
dance mesure à l’inverse le pourcentage de bits inutiles lors de l’envoi du message
— Pour un code absolument optimal, on a ν = 100% et ρ = 0% : il s’agit du meilleur code possible
3 Premier théorème de Shannon

3.1 Première version
Premier théorème de Shannon
Théorème 2.3 : Premier théorème de Shannon ou Théorème du codage de source
Etant donnée une source modélisée par une variable aléatoire discrète X sur un alphabet source X , alors il
+
existe un code binaire instantané c : X → {0, 1} , tel que
H(X) ≤ Lc < H(X) + 1

Preuve : Premier théorème de Shannon

— Notons comme précédemment pi = PX (X = xi )
— On a vu précédemment que si les probabilités d’apparition des symboles sont des puissances de 2, on
peut atteindre la borne inférieure de la longueur minimale en prenant li = − log2 (pi ).
— Mais dans le cas général, on ne peut pas utiliser directement ceci car les li doivent être des entiers.
Considérons les longueurs
li = d− log2 (pi )e
et montrons qu’on peut construire un code instantané ayant ces longueurs.
— On a :
li ≥ − log2 (pi ) ⇐⇒ 2−li ≤ pi
— Donc
X
M X
M
2−li ≤ pi = 1
i=1 i=1
— D’après Kraft, il existe donc un code instantané avec les longueurs li = d− log2 (pi )e
Preuve : Premier théorème de Shannon

— Considérons donc un code instantané ayant les longueurs
— On a :
− log2 (pi ) ≤ li < − log2 (pi ) + 1
— Donc :
− log2 (pi ) pi ≤ li pi < − log2 (pi ) pi + pi
— En sommant :
X
M X
M X
M X
M
− log2 (pi ) pi ≤ l i pi < − log2 (pi ) pi + pi
i=1 i=1 i=1 i=1
— Et finalement :
H(X) ≤ Lc < H(X) + 1
Conséquences du théorème
— La démonstration du théorème nous a permis non seulement de prouver le résultat, mais également de construire
un code vérifiant cette double inégalité.
— En effet, étant donnée une source à M symboles ayant comme probabilités d’apparition p1 , . . . , pM , on sait
qu’en considérant les longueurs
on sera capable de construire un code instantané dont la longueur moyenne sera proche de l’entropie de la
source.
— Un code binaire déchiffrable (ou instantané) dont la longueur moyenne L̄ vérifie
H(X) ≤ Lc < H(X) + 1
est appelé un code compact.

— Par construction, un code absolument optimal est un code compact.

Exemple de construction de code
On considère une source X à valeurs dans X = {1, 2, 3} dont les lois de probabilités sont données par le tableau suivant :
pX (x)
1
1 3
1
2 3
1
3 3

— Grâce à la démonstration précédente, on sait qu’en prenant l1 = l2 = l3 = ⌈− log2 1
3
⌉ = 2 bits, on va pouvoir construire
un code instantané qui sera compact.
— En prenant par exemple 1 → 00, 1 → 01 et 2 → 10, on a bien un code déchiffrable de longueur moyenne L̄ = 2 bits
— Or H(X) = log2 (3) = 1.6 bits, donc on a bien : H(X) ≤ L̄ < H(X) + 1
3.2 Extension d’une source et deuxième version

Deuxième version ?
— La première version du théorème de Shannon comporte une borne supérieure un peu décevante
— Il une deuxième version, qui donne des informations sur les propriétés asymptotiques des codes instantanés (et
proche de ce que nous avions vu dans le cadre de l’AEP).
— On a vu qu’on pouvait définir un code instantané tel que :
H(X) ≤ L̄ < H(X) + 1
— En réalité, on peut s’approcher aussi proche que l’on veut de l’entropie... à condition de ne pas coder directement
la source, mais de coder des blocs de longueur n
Extension d’une source
Définition 2.12 : Extension d’une source

Etant donnée une source sans mémoire modélisée par une variable aléatoire X sur un alphabet source X , on
appelle extension de degré n et on note X [n] la source émettant des paquets de n symboles de la source X
— La source X [n] a un alphabet source X n composé de |X |n symboles différents

— Attention de ne pas confondre avec la notion d’extension d’un code !
Considérons une source ayant comme alphabet X = {A, B, C} et un message à envoyer

ABACCABC
— On peut soit envoyer chaque symbole séparément. Dans ces cas là, on définira 3 mots, un pour chaque symbole.
A B A C C A B C
— Soit on peut transmettre le message en faisant des paquets de 2 symboles. Dans ces cas là, on aura 32 = 9 mots, un pour
chaque groupe de symboles.
AB AC CA BC
— C’est virtuellement comme si l’on considérait une source ayant non pas un alphabet à 3 symboles, mais à 9 symboles.
— Dans le deuxième cas, on dit que l’on travaille non pas sur la source X, mais sur son extension d’ordre 2, que l’on note
X [2]

Considérons une source ayant comme alphabet X = {A, B, C} et un message à envoyer

ABAC
— Chaque symbole peut être associé à un mot :

Code n1
A −→ 0
B −→ 10
C −→ 11
Dans ce cas le message codé sera : 010011
— Ou alors le codage se fait à partir d’un groupe de 2 symboles :
Code n3
AA −→ 0 BA −→ 01 CA −→ 011
AB −→ 010 BB −→ 10 CB −→ 11
AC −→ 111 BC −→ 100 CC −→ 1
Dans ce cas, le message codé sera : 010111
— Dans le premier cas, on travaille directement sur la source X, et dans le deuxième cas sur son extension d’ordre 2 notée
X [2] .
Entropie de l’extension d’une source
Théorème 2.4 : Entropie de l’extension d’une source
Etant donnée une source sans mémoire modélisée par une variable aléatoire X sur un alphabet source X , et
X [n] son extension de degré n, on a
H X [n] = n H(X)
Preuve : Entropie de l’extension d’une source
— Notons X1:n la séquence de variables aléatoires composée de n symboles

H X [n] = H(X1:n )
— Grâce à la formule des conditionnements successifs on a

X
n
H (X1:n ) = H(Xi |X1:i−1 )
i=1
— Comme les Xi sont tous indépendants et identiquement distribués (car la source est sans mémoire) on
a bien
X n
H X [n] = H(Xi ) = nH(X)
i=1
Conséquences sur le premier théorème de Shannon

— Considérons l’extension d’ordre n notée X [n] d’une source discrète sans mémoire X D’après le premier théorème
+
de Shannon, il existe un code instantané c : X n → {0, 1} , tel que

H X [n] ≤ Lc < H X [n] + 1

— Sauf que si l’on code une extension d’ordre n, la longueur moyenne L̄c correspond à la longueur moyenne pour
coder un bloc de n symboles. Donc en réalité, la longueur moyenne du code Lsymc pour coder un seul symbole
est
L̄c
Lsym
c =
n
— On a donc finalement
1
H(X) ≤ Lsym
c < H(X) +
n
Premier théorème de Shannon (bis)
Théorème 2.5 : Premier théorème de Shannon ou Théorème du codage de source (bis)
Etant donnée une source modélisée par une variable aléatoire discrète X sur un alphabet source X , alors pour
tout n ∈ N∗ il existe un code binaire instantané c de longueur moyenne pour coder un seul symbole Lsymc tel
que
1
H(X) ≤ Lsymc < H(X) +
n
Interprétation
1
H(X) ≤ Lsym
c < H(X) +
n
— Quand n → +∞ on a Lsym c = H(X) : on retrouve ici la propriété asymptotique déjà vue dans le chapitre
AEP. L’entropie est le nombre asymptotique moyen de bits qu’il faut envoyer un symbole.
— Le premier théorème de Shannon nous indique donc qu’on peut construire un code binaire instantané de
longueur moyenne par symbole L̄sym aussi près que l’on veut de l’entropie H(X), à condition de coder des
blocs de taille n suffisamment grande.
4 Code de Huffman
Conception d’un code instantané optimal
— Nous avons vu que l’entropie constituait une borne inférieure pour la longueur moyenne d’un code instantané
— La question qui suit est : comment construire un code instantané optimal, c’est à dire un code instantané de
longueur moyenne minimale, ayant un rendement maximal et une redondance minimale ?
— Le problème a été résolu en 1952 par David Albert Huffman qui a conçu un code instantané optimal aujourd’hui
utilisé dans de nombreux standard (MP3, JPEG, ZIP, PNG...) souvent en deuxième couche après un codage
propre au type de données
— Il existe bien entendu d’autres codes optimaux car il n’y a pas unicité dans le cas général, mais il s’agit
indéniablement du plus populaire
4.1 Algorithme de codage

Code de Huffman

Définition 2.13 : Algorithme du code de Huffman
Soit X une source sans mémoire dont les propriétés statistiques sont connues.
1. On classe les probabilités d’apparition des symboles par ordre décroissant
2. On regroupe les deux symboles de probabilités les plus faibles pour en faire un nouveau symbole dont
la probabilité est la somme des probabilités de ces deux symboles. On classe ce nouveau symbole parmi
les autres, toujours par ordre décroissant de probabilité
3. On représente cette fusion sous forme d’un arbre où chacun des fils est l’un des deux symboles fusionnés
et où la racine est le nouveau symbole formé.
4. On réitère cette opération et à chaque étape le nombre de symboles diminue et l’arbre se construit.
5. On affecte le bit 0 à toutes les branches de gauche et 1 à toutes les branches de droite (ou l’inverse).
On lit les mots associés en partant de la racine et allant jusqu’à la feuille considérée.
Code de Huffman : déroulé
On considère une source X à valeurs dans {x1 , x2 , x3 , x4 , x5 }, avec les probabilités d’apparition
{0.1, 0.3, 0.2, 0.1, 0.3}
Etape 1 : On classe les symboles par probabilité d’apparition décroissante
x2 x5 x3 x1 x4
0.3 0.3 0.2 0.1 0.1

Etape 2 & 3 : On fusionne les 2 symboles avec les probabilités les plus faibles. On construit l’arbre
x1 x4 : 0.2
x1 : 0.1 x4 : 0.1
x2 x5 x3 x1 x4 x2 x5 x1 x4 x3
→
0.3 0.3 0.2 0.1 0.1 0.3 0.3 0.2 0.2

x1 x4 x3 : 0.4
x3 : 0.2 x1 x4 : 0.2
x1 : 0.1 x4 : 0.1
x2 x5 x1 x4 x3 x1 x4 x3 x2 x5
→
0.3 0.3 0.2 0.2 0.4 0.3 0.3


x1 x4 x3 : 0.4
x2 x5 : 0.6 x3 : 0.2 x1 x4 : 0.2
x2 : 0.3 x5 : 0.3 x1 : 0.1 x4 : 0.1
x1 x4 x3 x2 x5 x2 x5 x1 x4 x3
→
0.4 0.3 0.3 0.6 0.4

x2 x5 x1 x4 x3 : 1
x2 x5 : 0.6 x1 x4 x3 : 0.4
x2 : 0.3 x5 : 0.3 x3 : 0.2 x1 x4 : 0.2
x1 : 0.1 x4 : 0.1
x2 x5 x1 x4 x3 x2 x5 x1 x4 x3
→
0.6 0.4 1

Etape 4 : On forme le code en affectant le bit 0 aux branches de gauche et le bit 1 aux branches de
droite
x2 x5 x1 x4 x3 : 1
0 1
x2 x5 : 0.6 x1 x4 x3 : 0.4
0 1 0 1
x2 : 0.3 x5 : 0.3 x3 : 0.2 x1 x4 : 0.2
0 1
x1 : 0.1 x4 : 0.1
x1 x2 x3 x4 x5
110 00 10 111 01


x1 110
x2 00
x3 10
x4 111
x5 01
— On a H(X) ≈ 2.1710 bits et Lc = 2.2 bits

— Rendement 98.7% et redondance 1.3%
4.2 Optimalité du codage de Huffman

Optimalité du codage de Huffman
— Nous allons maintenant démontrer que le code Huffman est optimal, c’est à dire qu’il s’agit du code binaire
instantané permettant d’obtenir la longueur moyenne minimale
— Pour cela nous allons utiliser une vision récursive du code d’Huffman.
— Supposons que l’on ait construit un code de Huffman pour une source de loi de probabilité (0.5, 0.3, 0.2),
alors construire un code de Huffman pour la source de loi probabilité (0.5, 0.3, 0.1, 0.1) revient à ajouter
un 0 et un 1 au mot-code associé à 0.2 : ceci s’apparente à la construction d’une extension de code
— Dans le cas où l’on aurait une nouvelle source (0.5, 0.2, 0.15, 0.15), il faudrait faire la même chose avec le
mot-code associé à 0.3. L’important étant que les symboles soient bien classés par probabilité décroissante
dans la nouvelle source
— Nous allons prouver dans la suite que cette extension d’Huffman permet bien de passer d’un code optimal à
un autre code optimal
Forme canonique
Théorème 2.6 : Forme canonique
p1 ≥ p2 ≥ . . . ≥ pM . Il existe un code binaire instantané optimal c tel que :
(1) lc (x1 ) ≤ lc (x2 ) ≤ . . . ≤ lc (xM )
(2) lc (xM −1 ) = lc (xM )
(3) c(xM −1 ) et c(xM ) ne diffèrent que par le dernier bit
Un code binaire instantané optimal vérifiant ces propriétés est dit canonique (ou sous forme canonique)
Preuve : Forme canonique
Les deux premières assertions sont forcément vraies, car elles sont vraies pour tout code binaire instantané
optimal.
(3) On peut faire en sorte que cette propriété soit vérifiée en inversant des mots codes. En réarrangeant
l’arbre de codage on peut faire en sorte que les deux symboles les moins probables (qui d’après (1) et
(2) sont associés à deux mots de même taille) soit associés à deux mots codes qui ont la même racine.
Cette modification n’influence pas la longueur moyenne du code (car on échange un mot-code avec un
mot-code de même longueur)

Optimalité du code de Huffman
Théorème 2.7 : Optimalité du code de Huffman
Le code de Huffman est un code binaire instantané optimal, c’est à dire que pour tout code binaire instantané
c on a
Lc ≥ LHuf f man
Preuve : Optimalité du code de Huffman
p1 ≥ p2 ≥ . . . ≥ pM . Le résultat va être démontré par récurrence sur M
— Pour M = 2, trivial
— On note X ′ la source définie sur l’alphabet X ′ = {x1 , . . . , xM −1 xM } (les deux symboles les moins
probables sont fusionnés). Notons c′ un code binaire instantané optimal sur X ′ et l1′ , . . . , lM
′
−1 les
longueurs des mots codes associés.
— Construisons un code c sur la source X où
c(xM −1 ) = c′ (xM −1 xM ) 0 ′
donc lM −1 = lM −1 + 1
c(xM ) = c′ (xM −1 xM ) 1 ′
donc lM = lM −1 + 1
— Alors on a
Lc = Lc′ + pM −1 + pM
Preuve : Optimalité du code de Huffman
— Partons maintenant de l’autre sens. On note c∗ un code optimal sous forme canonique de la source X.
Nous allons construire à partir de ce code un code c′′ de la source X ′ , en utilisant pour le symbole
xM +1 xM le préfixe des mots codes c∗ (xM −1 ) et c∗ (xM ) (qui ne différent que par leur dernier bit)
— Alors on a
Lc′′ = Lc∗ − pM −1 − pM
— Finalement on a
(Lc′′ − Lc′ ) + (Lc − Lc∗ ) = 0
— Comme c′ et c∗ sont optimaux respectivement pour X ′ et X, il s’agit de la somme de deux termes
positifs ou nuls, ce qui implique que les deux termes sont nuls et donc que c′′ et c sont également
optimaux respectivement pour X ′ et X
— La procédure d’extension du code de c′ à c permet donc de passer d’un code optimal à M −1 mots-codes
à un code optimal à M mots codes grâce à l’extension de Huffman
Inconvénients du code de Huffman

— Ce code est basé sur le concept de source discrète sans mémoire : on suppose que les propriétés statistiques de
la source sont fixes, et surtout connues !
— Le stockage de la correspondance symboles/mots-codes peut s’avérer prohibitif lorsque la taille de l’alphabet
source est trop grande
— Pour s’approcher de l’entropie, il faut coder des blocs de symboles (extensions de source d’ordre élevé), ce qui
peut faire exploser la taille du dictionnaire source et rendre l’estimation empirique des probabilités des blocs
encore plus ardue

80
Troisième partie
Codage canal
Plan de la partie
1 Principe du codage canal 80
1.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
1.2 (M, n)-code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
2 Inégalité de Fano 85
2.1 Théorème du traitement de l’information . . . . . . . . . . . . . . . . . . . . 86
2.2 Inégalité de Fano . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3 Capacité d’un canal 89

3.1 Capacité d’un canal binaire symétrique . . . . . . . . . . . . . . . . . . . . . 90
3.2 Capacité d’un canal multi-usages . . . . . . . . . . . . . . . . . . . . . . . 92
4 Deuxième théorème de Shannon 94
5 Théorème de séparation source-canal 95
6 Codes détecteurs et correcteurs d’erreurs 97

6.1 Propriétés des codes canal . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 Codes linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.2.1 Distance minimale d’un code linéaire . . . . . . . . . . . . . . . . . . . 102
6.2.2 Matrice génératrice . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.2.3 Matrice de contrôle . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.2.4 Décodage par syndrome . . . . . . . . . . . . . . . . . . . . . . . . 106
6.3 Bornes théoriques de codage . . . . . . . . . . . . . . . . . . . . . . . . 106
6.4 Codes de Hamming . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
1 Principe du codage canal

Cadre du cours
— Dans le chapitre précédent, on a représenté chaque symbole (ou groupe de symboles) de la source sous forme
d’une série de 0 et de 1.
— En utilisant les propriétés de la source (notamment les probabilités d’apparition des symboles), on a pu faire
en sorte de compresser au maximum les données
— Nous allons maintenant étudier la suite de la communication, c’est à dire la transmission à travers le canal.
— On sait que la transmission à travers le canal va être source d’erreurs et de pertes.
— La question que l’on doit se poser est : comment à partir de la sortie d’un canal, retrouver le message que l’on
avait envoyé ?

Troisième partie - Codage canal 81
Émetteur
Bruit

— Codage source : compression des données pour qu’elles prennent le moins de place possible. Cela revient à
remplacer le message à envoyer par un message le plus court possible, souvent représenté sous forme d’une
série de 0 et de 1.
— Codage canal : rajout de bits d’information supplémentaires dans le message pour permettre de corriger les
éventuelles erreurs de transmission
— Transformer le message numérique en un signal physique (onde électromagnétique, signal électrique, etc...) qui
puisse être transmis sur le canal de transmission
Travaux de Shannon
La théorie de l’information et les travaux de Shannon ont permis de répondre à deux questions fondamentales sur
les systèmes de communication :
— Codage source : étant donnée une source, à quel point peut-on compresser les données lors du codage, tout en
faisant en sorte que le destinataire puisse toujours déchiffrer les messages que l’on envoie ? Premier théorème
de Shannon
— Codage canal : étant donné un canal de communication bruité, jusqu’à quel débit d’information peut-on
envoyer les données en conservant une probabilité d’erreur à la sortie qui soit limitée ? Deuxième théorème
de Shannon
Principe du codage canal

— L’étape de codage source a permis de transformer les |X | symboles de l’alphabet source X en des mots codes
pris dans S + (on a souvent S = {0, 1})
— Le canal de transmission étant bruité, le récepteur va recevoir un message où certains bits auront été perdus
ou modifiés
— Lorsqu’on décodera le message, il y a donc certains symboles qu’on ne pourra pas retrouver
— Pour éviter ou limiter ces erreurs, on va introduire des bits supplémentaires dont le rôle va être de détecter ou
— Avec le codage source on a essayé de limiter le plus possible le nombre de bits... avec le codage canal on va au
contraire en rajouter
1.1 Exemple introductif

— Pour comprendre le principe du codage canal, nous allons dérouler un exemple simple.
— Imaginons une salle extrêmement bruyante, avec une personne à chaque bout de la salle. Comment faire en
sorte que le message transmis de l’une à l’autre soit transmis sans erreur ?
— Idée 1 : Parler plus fort ou crier. Cela revient à augmenter la puissance d’émission
— Idée 2 : Répéter plusieurs fois jusqu’à ce que le message passe. Cela revient à introduire une redondance
dans le message envoyé.
— Formalisons maintenant cet exemple par un schéma de communication.

— Considérons une source, qui après l’étape de codage source, peut être vue comme une variable aléatoire X à
valeurs dans {0, 1} où les deux symboles sont équiprobables.
— On considère le canal de transmission suivant :
0.9
0 0
0.1
0.1
1 1
0.9
Le bruit est modélisé par une probabilité d’erreur de 0.1
On appellera Y la sortie (ce que recevra le destinataire) à valeurs dans {0, 1}
— On suppose que la source répète deux fois chaque bit
— Lorsque le destinataire reçoit 00, il peut supposer que c’est 0 qui a été envoyé
— Idem pour 11
— Mais si le destinataire reçoit 01 ou 10, c’est impossible à trancher
— Une meilleure solution est que la source répète trois fois chaque bit
— Il suffit dans ce cas de compter le nombre de 0 et de 1 reçus
— S’il y a plus de 0 que de 1, on suppose que c’est 0 qui a été envoyé
— Idem pour 1
Quelle est la probabilité de faire une erreur sur le bit envoyé ?
— Ce sera la même pour 0 et 1 car le canal est symétrique
— Si on a une erreur, c’est par exemple que l’on a plus de 1 que de 0 dans le message reçu, alors qu’on avait
envoyé un 0
— Si on suppose que tous les bits envoyés successivement sont indépendants et identiquement distribués, le nombre
d’erreur dans un groupe de 3 bits suit une loi binomiale avec n = 3 et p = 0.1.
— Faire une erreur revient à avoir soit 2, soit 3 bits erronés dans le groupe.
Perr = C32 p2 (1 − p) + C33 p3 = 0.028
— En multipliant par 3 le nombre de bits envoyés, on a divisé par 3.6 la probabilité d’erreur (0.1 → 0.028)
— On peut faire la même chose en considérant 5 répétitions au lieu de 3, et dans ce cas, on a une probabilité
d’erreur de 0.0086, ce qui revient à diviser par 11.7 la probabilité d’erreur (0.1 → 0.0086)
— Le codage canal utilise ce principe : il s’agit d’introduire de la redondance, qui va augmenter la longueur des
messages envoyés, mais permettre de diminuer (ou annuler) la probabilité d’erreur.

1.2 (M, n)-code

Codage canal
— Le codage canal va effectuer un ré-encodage de la sortie du codage source.
— On va par exemple former des blocs de k bits, et les ré-encoder sous forme de blocs de n bits avec n > k, afin
d’introduire de la redondance
— Virtuellement, c’est comme si l’on passait d’une source à |X | éléments à une nouvelle source virtuelle qui peut
envoyer 2k éléments
— Nous allons donc devoir introduire de nouvelles notations pour la suite du cours : on appellera W cette nouvelle
source, qui cette fois-ci n’est plus nécessairement sans mémoire
Nouvelles notations
a = f (w) ∈ An b ∈ Bn Fonction de ŵ = g(b) ∈ W
w∈W Fonction de
Canal décodage
codage canal f
canal g
— Source W ∈ W avec |W| = M : on supposera pour simplifier que W = {1, 2, . . . , M }. Attention cette source n’est
plus nécessairement sans mémoire.
— Encodage canal f injective qui transforme un symbole w en une série de n symboles tirés dans A, notée a. Contrairement
au codage source, la longueur n du mot-code est la même pour tous les symboles. On prendra classiquement A = {0, 1}
— Canal sans mémoire qui transforme a en b où b est une série de n symboles tirés dans B donc
∏
n
P (b|a) = pB|A (bi |ai )
i=1
— Décodage canal g qui estime le message envoyé w à partir de la série de n symboles b reçue
Cas classique
— Fonction de codage source qui transforme des symboles en des mots-code binaires de longueur variable
— Lors de l’envoi d’un message constitué de plusieurs symboles, on concatène ces mots-code, ce qui forme un
nouveau message, cette fois-ci binaire
— On tronçonne ce message en blocs de k bits, formant ainsi M = 2k nouveaux symboles
— On détermine une fonction de codage canal qui va transformer chaque bloc de k bits en un bloc de n
— A la réception certains de ces bits vont être transmis correctement et certains non. La fonction de décodage
canal g a pour but de deviner quel message avait été envoyé
(M, n)-code : définition
Définition 3.1 : (M, n)-code
Etant donné un canal sans mémoire caractérisé par A, pB|A (b|a) et B, on appelle (M, n)-code un triplet
caractérisé par :
— Un alphabet W = {1, 2, . . . , M } de messages à envoyer
— Une fonction de codage canal injective
f: W 7→ An
w → a
— Une fonction de décodage canal
g: Bn 7→ W
b → ŵ

Taux d’un (M, n)-code
Définition 3.2 : Taux d’un (M, n)-code
Le taux (ou rendement) d’un (M, n)-code est noté R et est défini par :
log2 (M )
R=
n
Codage source + codage canal
— Dans le cas classique où l’étape de codage canal a lieu après un codage source en formant des blocs de k bits, on a
M = 2k et donc
log2 (M ) k
R= =
n n
— R peut donc être interprété comme un débit d’information. Sur les n bits envoyés sur le canal, il n’y en a symboliquement
que k qui contiennent de l’information : les n − k autres sont juste de la redondance.
Exemple du code à répétition
Dans notre exemple du code à répétition :

011000 −→ 0 1 1 0 0 0 −→ 000 111 111 000 000 000
— On divise en blocs de taille 1, et on affecte à chaque bloc un mot-code de taille 3
— On a donc A = {0, 1}, M = 2 et f (0) = 000 et f (1) = 111
1
— (2, 3)-code avec un rendement R = 3
Probabilités d’erreur
Définition 3.3 : Probabilité d’erreur sur un symbole
Soit un message w ∈ W = {1, 2, . . . , M }, un schéma de codage canal (f, g) et un canal sans mémoire
caractérisé par A, pB|A (b|a) et B, on appelle probabilité d’erreur sur le message w et on note λw la probabilité
λw = P (g(b) 6= w|a = f (w))

X
= pB|A (b|f (w))
b∈Bn
g(b)̸=w
Probabilités d’erreur
Définition 3.4 : Probabilité d’erreur

(n)
Soit un (M, n)-code, on appelle probabilité d’erreur et on note Pe la probabilité
X
M
Pe(n) = λw pW (w)
w=1
Définition 3.5 : Probabilité d’erreur maximale

(n)
Soit un (M, n)-code, on appelle probabilité d’erreur maximale et on note λmax la probabilité
λ(n)
max = max λw
w∈{1,2,...,M }

(n) (n)
On montre facilement que Pe ≤ λmax

— On a B = A = {0, 1}
— Lorsquon reçoit un message de 3 bits, on compte le nombre de 0 et de 1.
— Si on a plus de 0 que de 1, on suppose qu’on a envoyé le bit 0, associé au mot-code 000.
— Idem pour 1.
— On a donc :
000 → 000, 001 → 000, 010 → 000, 100 → 000
110 → 111, 011 → 111, 101 → 111, 111 → 111
— La règle de décodage est donc :

1 si nombre de 1 dans b > nombre de 0 dans b
g (b) =
0 si nombre de 0 dans b > nombre de 1 dans b

— λ0 = pB|A (110|000) + pB|A (011|000) + pB|A (101|000) + pB|A (111|000)
2
— Or comme le canal est sans mémoire : pB|A (110|000) = pB|A (1|0) pB|A (0|0) = p2 (1 − p)
— Si on suppose que la probabilité d’erreur sur un bit est p = 0.1, on a
(3)
λ0 = λ1 = λmax = 0.028
Taux réalisable
Définition 3.6 : Taux réalisable

Soit R > 0 et un canal sans mémoire caractérisé par A, pB|A (b|a) et B. On dit que le taux R est réalisable
si et seulement si il existe une suite de d2nR e, n codes tels que
lim λ(n)
max = 0
n→+∞
Taux réalisable
— La possibilité d’une transmission sans erreur va donc dépendre de la valeur du taux. Si le taux est réalisable,
on sait qu’on pourra (au moins de façon asymptotique) rendre la probabilité d’erreur aussi petite que l’on veut
— Attention en revanche, si le taux R = 13 est réalisable pour un canal, ce n’est pas pour autant que ceci aura une
implication concrète. Pour avoir une probabilité d’erreur faible il faudra peut etre prendre des blocs de taille
1010 et les coder sur des blocs de taille 3 × 1010 !
— Le deuxième théorème de Shannon que nous allons voir dans ce cours permet de déterminer les taux réalisables
et de les relier à des notions de théorie de l’information
2 Inégalité de Fano
Taux réalisable ?
— Afin de comprendre quelles sont les contraintes qui font qu’un taux est réalisable ou pas, il nous faut ré-
interpréter toute la chaîne de codage canal grâce à des notions issues de la théorie de l’information : entropies,
entropies conditionnelles, information mutuelle...

— Afin d’avoir une probabilité d’erreur très faible, il faut intuitivement que W et Ŵ (les variables aléatoires
associées à l’entrée et à la sortie de la chaîne) aient beaucoup d’information en commun : est-il possible grâce
à des traitements astucieux, d’augmenter I(W, Ŵ ) ?
(n)
— Autre piste : tenter de trouver une inégalité impliquant la probabilité d’erreur Pe et des quantités liées à la
théorie de l’information, afin de comprendre où se situent les barrières
2.1 Théorème du traitement de l’information

— Première piste : travailler sur l’information mutuelle
— Tout au long de la chaîne de traitement de codage canal, nous avons 4 variables aléatoires
— W ∈ {1, 2, . . . , M }
— A = f (W ) ∈ An
— B ∈ Bn
— Ŵ = g(B) ∈ {1, 2, . . . , M }
— Afin d’assurer un minimum d’erreur, il est nécessaire que les variables gardent une information mutuelle avec
W la plus élevée possible
Théorème du traitement de l’information
Théorème 3.1 : Théorème du traitement de l’information

Soient X, Y et Z trois variables aléatoires formant une chaîne de Markov X → Y → Z, alors
I(X; Z) ≤ I(X; Y )
— Si les variables forment une chaîne de Markov, quel que soit le traitement que l’on fait sur Y , on ne pourra
pas retrouver de l’information supplémentaire sur X
— Toute information perdue est définitivement perdue...
Preuve : Théorème du traitement de l’information

— On peut écrire I(X; Y, Z) de deux façons différentes
I(X; Y, Z) = I(X; Y |Z) + I(X; Z)
I(X; Y, Z) = I(X; Z|Y ) + I(X; Y )

— Comme X et Z sont indépendantes conditionnellement à Y (Markov), on a I(X; Z|Y ) = 0
— Sachant que I(X; Y |Z) ≥ 0, on a bien le résultat
Conséquences
w∈W Fonction de
Canal décodage
codage canal f
canal g
— On peut observer en regardant ce schéma que

W → A → B → Ŵ
— Les différentes variables présentes ici forment une chaîne de Markov, dans le sens où chacune de dépend que
de la précédente
— Malheureusement, d’après le théorème précédent, l’information mutuelle avec W ne va faire que décroître tout
au long de la chaîne...

Conséquences

w∈W Fonction de
Canal décodage
codage canal f
canal g
— On a d’après le théorème du traitement de l’information
I(W ; A) ≥ I(W ; B) ≥ I(W ; Ŵ )
— Or I(W ; B) = I(A; B) car A = f (W ) est une fonction injective de W

— L’information mutuelle I(W ; Ŵ ) est donc limitée par le terme I(A; B) qui est lié aux caractéristiques du canal
I(W ; Ŵ ) ≤ I(A; B)
2.2 Inégalité de Fano

Probabilité d’erreur moyenne
(n)
— Deuxième piste : minorer Pe
— Toujours en utilisant des considérations liées à la théorie de l’information, nous allons tenter de déterminer une
(n)
borne inférieure pour la probabilité d’erreur moyenne Pe
— Encore une fois, il va s’agir de remarquer que nos variables
W → A → B → Ŵ
forment une chaîne de Markov, ce qui va créer des contraintes fortes
Inégalité de Fano
Théorème 3.2 : Inégalité de Fano
Soient X, Y et X̂ trois variables aléatoires formant une chaîne de Markov X → Y → X̂, et telles que X et
X̂ ont le même alphabet X .
(1) Alors, en notant Pe = P(X̂ 6= X), on a :
h(Pe ) + Pe log2 (|X |) ≥ H(X|X̂) ≥ H(X|Y )
où h(z) = −(1 − z) log2 (1 − z) − z log2 (z)

(2) Sous une forme dégradée
H(X|Y ) − 1
Pe ≥
log2 (|X |)

Preuve : Inégalité de Fano
(1) Notons E la variable aléatoire binaire telle que

(
1 si X 6= X̂
E=
0 si X = X̂
Alors en écrivant H(E, X|X̂) de deux façons, on a
H(E, X|X̂) = H(E|X, X̂) + H(X|X̂) = H(X|E, X̂) + H(E|X̂)
Or :
— H(E|X, X̂) = 0 : aucune incertitude sur E si X et X̂ connues
— H(E|X̂) ≤ H(E) = h(Pe ) : conditionner réduit l’entropie
—
H(X|E, X̂) = P(E = 0)H(X|X̂, E = 0) + P(E = 1)H(X|X̂, E = 1)

≤ (1 − Pe ) × 0 + Pe H(X)
≤ Pe log2 (|X |)
On a donc
H(X|X̂) ≤ h(Pe ) + Pe log2 (|X |)
Preuve : Inégalité de Fano
(1) (suite) En écrivant l’entropie H(X) de deux façons
H(X) = H(X|X̂) + I(X; X̂) = H(X|Y ) + I(X; Y )
et en utilisant le théorème du traitement de l’information on a bien
H(X|X̂) ≥ H(X|Y )
(2) Il suffit de remarquer que h(Pe ) ≤ log2 (2) = 1
Conséquences

w∈W Fonction de
Canal décodage
codage canal f
canal g
— En utilisant l’inégalité de Fano pour W → B → Ŵ , on a
H(W |Ŵ ) − 1
Pe(n) ≥
log2 (M )
— Cette probabilité d’erreur est donc limitée par le terme H(W |Ŵ ) qui caractérise l’incertitude restante sur W
lorsque l’on connaît Ŵ et qui doit être la plus petite possible
— Comme H(W |Ŵ ) = H(W )−I(W ; Ŵ ), on retrouve le fait que plus I(W ; Ŵ ) va être grande, plus la probabilité
d’erreur va être faible

Bilan des opérations

— Inégalité de Fano
H(W |Ŵ ) − 1
Pe(n) ≥
log2 (M )
— Théorème du traitement de l’information
I(W ; Ŵ ) ≤ I(A; B)
— Tout se joue dans le lien entre W et Ŵ , qui est limité par la quantité I(A; B)
— Question : quelle est la valeur maximale de I(A; B) ?
3 Capacité d’un canal

Modélisation du canal
A Canal B
Bruit
— On considère un canal discret sans mémoire.

— L’entrée du canal est modélisée par la nouvelle source A, plus nécessairement sans mémoire, dont l’alphabet
est A
— La sortie du canal est modélisée par la variable aléatoire B. Elle prend ses valeurs dans B qui n’est pas
nécessairement identique à A
— Dans un canal non bruité, on a exactement B = A, et les variables A et B contiennent exactement la même
information
— Dans le cas général, on a vu que l’information mutuelle I(A; B) représentait la quantité d’information commune
à A et B.
— I(A; B) nous permet donc de quantifier le lien entre l’entrée et la sortie du canal
— Si I(A; B) est très élevée, cela signifie que B a beaucoup d’information en commun avec A : il sera donc facile
d’estimer A à partir de B
— En revanche si I(A; B) est très faible, il n’y a pas ou peu de liens entre A et B, et on aura du mal à retrouver
l’entrée A à partie de la sortie B
— Intuitivement, la quantité I(A; B) dépend du niveau du bruit, donc des propriétés du canal
— On peut donc se demander : étant donné un canal, quelle est la valeur maximale de I(A; B), c’est à dire celle
permettant d’avoir le lien maximal entre l’entrée et la sortie ?
— On va donc définir une quantité, dépendant uniquement du canal (et pas de l’entrée), représentant l’information
mutuelle maximale, c’est à dire le meilleur cas de figure possible.
Capacité d’un canal
Définition 3.7 : Capacité d’un canal
Étant donné un canal discret sans mémoire, ayant pour entrée A ∈ A, et pour sortie B ∈ B, on appelle
capacité du canal et on note C la quantité :
C = max I(A; B)
pA (a)

Interprétation
— La capacité d’un canal quantifie le lien maximal possible entre l’entrée et la sortie du canal
— Le terme de capacité fait donc sens, car le canal ne peut pas créer plus de lien entre A et B, il n’en est pas
capable
— Nous verrons dans la deuxième partie du cours que grâce au théorème de Shannon, on peut donner une autre
interprétation à cette quantité
Propriétés de la capacité d’un canal
Théorème 3.3 : Propriétés de la capacité d’un canal
(1) 0 ≤ C ≤ min (log2 (|A|), log2 (|B|))

(2) I(A; B) est une fonction concave de pA (a) à pB|A (b|a) fixé
Preuve : Propriétés de la capacité d’un canal
(1) Voir propriétés de l’information mutuelle

P
(2) I(A; B) = H(B) − H(B|A) = H(B) − a∈A pA (a)H(B|A = a). Pour pB|A (b|a) fixé, pB (b) est une
fonction linéaire de pA (a) donc H(B) l’est également. Comme H(B) est une fonction concave de pB (b),
c’est également une fonction concave de pA (a). Comme différence d’une fonction concave de pA (a) et
d’une fonction linéaire en pA (a), I(A; B) est donc bien concave en pA (a)
3.1 Capacité d’un canal binaire symétrique

Calcul de la capacité d’un canal binaire symétrique
1−ϵ
0 0
ϵ
ϵ
1 1
1−ϵ
— On suppose que pA (0) = p et pA (1) = 1 − p

— On va calculer I(A; B) et regarder pour quelle valeur de p (donc pour quelle distribution de A) elle est maximale
— La valeur maximale de I(A; B) sera la capacité du canal

1−ϵ
0 0
ϵ
ϵ
1 1
1−ϵ
— pB (0) = pB|A (0|0)pA (0) + pB|A (0|1)pA (1) = (1 − ϵ)p + ϵ(1 − p) = p + ϵ − 2pϵ
— pB (1) = 1 − p − ϵ + 2pϵ
H(B) = −(p + ϵ − 2pϵ) log2 (p + ϵ − 2pϵ) − (1 − p − ϵ + 2pϵ) log2 (1 − p − ϵ + 2pϵ)

1−ϵ
0 0
ϵ
ϵ
1 1
1−ϵ
H(B|A) = −(1 − p)ϵ log2 (ϵ) − pϵ log2 (ϵ) − p(1 − ϵ) log2 (1 − ϵ) − (1 − p)(1 − ϵ) log2 (1 − ϵ)
= −ϵ log2 (ϵ) − (1 − ϵ) log2 (1 − ϵ)
— On a :
I(A; B) = H(B) − H(B|A)
— Donc :
I(A; B) = −(p + ϵ − 2pϵ) log2 (p + ϵ − 2pϵ) − (1 − p − ϵ + 2pϵ) log2 (1 − p − ϵ + 2pϵ)
+ϵ log2 (ϵ) + (1 − ϵ) log2 (1 − ϵ)

— Pour calculer le maximum, on annule la dérivée par rapport à p
dI(A; B)
=0 ⇐⇒ −(1 − 2ϵ) log2 (p + ϵ − 2pϵ) + (1 − 2ϵ) log2 (1 − p − ϵ + 2pϵ) = 0
dp
⇐⇒ log2 (p + ϵ − 2pϵ) = log2 (1 − p − ϵ + 2pϵ)
⇐⇒ p + ϵ − 2pϵ = 1 − p − ϵ + 2pϵ
⇐⇒ 2p(1 − 2ϵ) = 1 − 2ϵ
1
⇐⇒ p=
2
1
La valeur de p = 2 est ici logique, car le canal est symétrique

On a donc :
C = 1 + ϵ log2 (ϵ) + (1 − ϵ) log2 (1 − ϵ)

— Si ϵ = 0, il n’y a aucune erreur et C = 1 bit
— Si ϵ = 21 , les bits sont indifféremment transmis sous forme de 0 ou de 1. On a donc C = 0 bit et les variables
d’entrée et de sortie sont indépendantes
— Si ϵ = 1, les 0 deviennent 1 et inversement, on a C = 1 bit. B est exactement l’inverse de A !

— On aurait pu éviter un long calcul en remarquant que comme H(B) est le seul terme dépendant de p, il suffit
pour que I(A; B) soit maximale que H(B) le soit
— Or H(B) est l’entropie d’une variable aléatoire binaire dans un alphabet {0, 1} à M = 2 éléments, elle est
donc maximale pour
1
pB (0) = pB (1) = et vaut dans ce cas H(B) = log2 (2) = 1 bit
2
— On a donc
I(A; B) ≤ 1 + ϵ log2 (ϵ) + (1 − ϵ) log2 (1 − ϵ)
et l’on retrouve donc naturellement la capacité du canal

Capacité d’un canal binaire symétrique
Théorème 3.4 : Capacité d’un canal binaire symétrique
La capacité C d’un canal binaire symétrique de probabilité d’erreur ϵ est
C = 1 + ϵ log2 (ϵ) + (1 − ϵ) log2 (1 − ϵ)
ou
C = 1 − h(ϵ)
où h(z) = −(1 − z) log2 (1 − z) − z log2 (z)
3.2 Capacité d’un canal multi-usages

Capacité d’un canal multi-usages

w∈W Fonction de
Canal décodage
codage canal f
canal g
— La capacité d’un canal caractérise le lien maximal qu’il peut y avoir entre A et B (émission/réception d’un seul
symbole)
— Dans notre étude nous avions vu que I(W ; Ŵ ) ≤ I(A, B), nous touchons donc au but... mais nous ne
connaissons pas la capacité du canal lors de n usages successifs
Capacité d’un canal multi-usages
Théorème 3.5 : Capacité d’un canal multi-usages
Soit un canal sans mémoire caractérisé par A, pB|A (b|a) et B et de capacité C. Alors la capacité du canal
sans mémoire caractérisé par An , pB|A (b|a) et B n correspondant à n usages successifs du canal est nC
— Corollaire : ce résultat montre en particulier qu’en utilisant n canaux identiques en parallèle, on multiplie par
n la capacité. C’est une propriété très utilisée dans les chaînes de communication

Preuve : Capacité d’un canal multi-usages
— On a I(A; B) = H(B) − H(B|A)

— Comme le canal est sans mémoire on a
Y
n
pB|A (b|a) = pB|A (bi |ai )
i=1
donc
X X
H(B|A) = − pAB (a, b) log2 pb|A (b|a)
a∈An b∈Bn
!
X X Y
n
= − pAB (a, b) log2 pB|A (bi |ai ) canal sans mémoire
a∈An b∈Bn i=1
X
n X X

= − pAB (a, b) log2 pB|A (bi |ai )
i=1 a∈An b∈Bn
X
n X X

= − pAB (ai , bi ) log2 pB|A (bi |ai )
i=1 ai ∈A bi ∈B
X
n
= H(Bi |Ai )
i=1
Preuve : Capacité d’un canal multi-usages
— Pour H(B) on a
H(B) = H(B1 , . . . , Bn )
Xn
≤ H(Bi )
i=1
avec égalité ssi les Bi sont indépendantes

— Finalement
X
n X
n
I(A; B) ≤ H(Bi ) − H(Bi |Ai )
i=1 i=1
Xn
= I(Ai ; Bi )
i=1
≤ nC
L’égalité est atteinte si les Ai sont i.i.d de distribution p∗A (a) = argmaxpA (a) I(A; B)
Conclusion
— On a finalement
I(W ; Ŵ ) ≤ I(A; B) ≤ nC
— Le lien entre le message envoyé W et le message décodé Ŵ est donc contraint par la capacité du canal
— Comme nous allons le voir, c’est effectivement cette capacité qui va former la limite théorique pour les taux
réalisables

4 Deuxième théorème de Shannon

Deuxième théorème de Shannon
Théorème 3.6 : Deuxième théorème de Shannon ou Théorème du codage canal
Soit un canal discret sans mémoire de capacité C, alors

(1) Tout taux de code R tel que R < C est réalisable
(n)
(2) Si une suite de d2nR e, n codes vérifie limn→+∞ λmax = 0 alors R ≤ C
Preuve : Deuxième théorème de Shannon ou Théorème du codage canal
(1) Cette assertion sera démontrée dans le Problème 4 : il s’agit d’une démonstration fleuve basée sur la
notion de séquences conjointement typiques. Le principe est le suivant
— On construit une fonction de codage f totalement aléatoire où chaque mot-code est tiré aléatoirement
— Pour décoder on utilise le principe des séquences conjointement typiques en recherchant un mot-code conjointement
typique avec la séquence reçue. D’après la propriété de l’AEP, il est très probable que le mot-code envoyé et la séquence
reçue soit conjointement typique : on montre ainsi qu’en moyenne on peut faire baisser la probabilité d’erreur aussi
bas que l’on veut
— Il s’agit ensuite de faire des tris parmi tous les codes aléatoirement crées pour sélectionner les meilleurs
Preuve : Deuxième théorème de Shannon ou Théorème du codage canal
(2) Pour simplifier on supposera que 2nR est entier, on a donc M = 2nR , et que W est muni de la loi
uniforme, soit H(W ) = nR
(n) (n) (n)
— Comme on a 0 ≤ Pe ≤ λmax on a bien limn→+∞ Pe =0
— D’après l’inégalité de Fano décrite dans la section précédente, on a
(n) H(W |Ŵ ) − 1

Pe ≥
log2 (M )
soit
(n)
nRPe ≥ H(W |Ŵ ) − 1
= H(W ) − I(W ; Ŵ ) − 1
= nR − I(W ; Ŵ ) − 1
≥ nR − nC − 1
Au final on a
(n) 1
R ≤ C + RPe +
n
Il suffit de prendre la limite pour avoir le résultat
Conséquences
— La capacité porte bien son nom : on ne pourra émettre sans erreur que si l’on choisit un taux inférieur à la
capacité : il s’agit de la redondance minimale nécessaire pour corriger les erreurs dues au canal
— Attention, ceci reste une propriétés asymptotique : pour un R < C donné il n’est pas forcément possible en
pratique d’implémenter un code canal permettant d’annuler la probabilité d’erreur !
— Dans la démonstration du (2) on retrouve également l’expression
C 1
Pe(n) ≥ 1 − −
R nR
(n)
Lorsque R > C, on voit donc bien qu’il est impossible d’avoir Pe = 0, même de façon asymptotique.

Conséquences
5 Théorème de séparation source-canal

Deux théorèmes de Shannon
Grâce aux deux théorèmes de Shannon, nous savons désormais que :
— Etant donnée une source, quitte à encoder des blocs de taille n aussi grands que l’on veut, on peut construire
un code binaire instantané c de longueur moyenne pour coder un symbole Lsymc tel que
Lsym
c ≈ H(X)
— Etant donné un canal, si le débit d’information R est strictement inférieur à la capacité du canal C, on peut
construire une suite de codes tels que pour n suffisamment grand on a
Pe(n) ≈ 0
Pourrait-on fusionner ces deux principes ?
Séparation source-canal
Etant donné un message de longueur n, on peut envisager deux solutions :
— Construire directement un bon ré-encodage du message pour l’envoyer sur le canal
— Utiliser deux étapes successives : compresser le message grâce à un codage source, puis le ré-encoder avec un
codage canal
Ces deux stratégies sont-elles équivalentes ?
Hypothèses
Nous allons considérer :
— Une source sans mémoire X dans un alphabet X , d’entropie H(X)
— Un canal sans mémoire avec un alphabet d’entrée A et un alphabet de sortie B, et de capacité C
— Une fonction de codage f , déterministe ou aléatoire qui associe à un message x1:n de longueur n un mot-code
de longueur n, noté a
f : X n 7→ An
x1:n → a
— Une fonction de décodage g, déterministe ou aléatoire qui associe à un message reçu b de longueur n une
estimation du mot-code envoyé x̂1:n
g : B n 7→ X n
b → x̂1:n
— On s’intéressera à la probabilité d’erreur P(x1:n 6= x̂1:n )

Théorème de séparation source-canal

x1:n ∈ X n Fonction de a = f (x1:n ) ∈ An b ∈ Bn Fonction de x̂1:n = g(b) ∈ X n
Canal
codage f décodage g
Théorème 3.7 : Théorème de séparation source-canal
Etant donnés une source sans mémoire X et un canal sans mémoire de capacité C, alors
(1) Si H(X) < C, il existe une stratégie de codage (f, g) telle que P(x1:n 6= x̂1:n ) → 0 quand n → +∞
(2) Si H(X) > C, cette probabilité d’erreur reste forcément éloignée de 0 et il n’est pas possible d’envoyer
le message avec une probabilité d’erreur aussi petite que l’on veut
Preuve : Théorème de séparation source-canal
(1) Pour créer cette stratégie, nous allons nous servir successivement du premier et deuxième théorèmes de
Shannon
— Comme la source est sans mémoire, nous savons que l’AEP est valide. On peut donc définirl’ensemble des séquences
(n) (n)
typiques Tϵ qui concentre la majorité de la probabilité. On a en effet que P x1:n ∈ Tϵ > 1 − ϵ lorsque n → ∞.
Nous allons donc coder uniquement ces séquences là, et l’erreur qui sera commise ne sera que de l’ordre de ϵ (donc
aussi petite que l’on souhaite).
(n)
— On sait également que |Tϵ | ≤ 2n(H(X)+ϵ) , donc on a au maximum M = 2n(H(X)+ϵ) séquences à envoyer. Si on
les ré-encode ensuite chacune sur n bits, on aura créé un code avec un rendement
log2 (M )
R= = H(X) + ϵ
n
— D’après le deuxième théorème de Shannon, on sait que si R < C, on pourra faire tendre la probabilité d’erreur sur la
séquence envoyée vers 0. Si H(X) < C, on a donc bien R < C et ceci termine la démonstration.
Preuve : Théorème de séparation source-canal
(2) Pour la deuxième assertion, on va utiliser une démonstration très proche de celle du deuxième théorème
de Shannon.
— En remarquant que X1:n → A → B → X̂1:n est une chaîne de Markov, on a d’après le théorème du traitement de
l’information
I(X1:n ; X̂1:n ) ≤ I(X1:n ; B) ≤ I(A; B) ≤ nC
et d’après l’inégalité de Fano
H(X1:n |X̂1:n ) ≤ 1 + Pe log2 (|X |n )
— Or, comme la source est sans mémoire
H(X1:n |X̂1:n ) = nH(X) − I(X1:n ; X̂1:n ) ≥ nH(X) − nC
— On a donc finalement
1
H(X) ≤
+ Pe log2 (|X |) + C
n
et le résultat est obtenu en faisant tendre n vers +∞
Bilan
— D’après ce théorème, on voit que l’on peut concevoir indépendamment la partie codage source et la partie
codage canal
— A partir du moment où H(X) < C, on pourra construire une stratégie de codage optimale qui permettra
d’avoir une probabilité d’erreur aussi petite que l’on veut
— Ce théorème nous permet de lier les deux grands principes de la théorie de l’information : la compression de
données et la transmission de données

6 Codes détecteurs et correcteurs d’erreurs

Codes détecteurs et correcteurs d’erreurs
— Le seul codage canal que nous avons vu en pratique pour le moment est le code à répétition : nous avions vu
(n)
qu’il était relativement mauvais vu que son taux était R = n1 . Ainsi il était possible de faire tendre λmax → 0
mais on a également R → 0
— Dans cette partie nous allons voir quelques exemples de bons codes canal relativement simples, qui permettent
de détecter ou corriger des erreurs de transmission (tout en ayant un taux fixe)
— Dans la pratique, la plupart des codes utilisés en téléphonie mobile et en communications satellite sont des
variantes des turbo-codes, inventé par un Français Claude Berrou dans les années 90... mais beaucoup plus
complexes. Ces turbo codes permettent de s’approcher aussi près que l’on souhaite de la limite de Shannon.
Codes détecteurs, codes correcteurs

Il existe plusieurs types de codages canal :
— Ceux qui vont introduire de la redondance pour diminuer la probabilité d’erreur (par exemple code à répétition
que nous avons traité en exemple)
— Ceux qui vont détecter la présence d’erreurs pour pouvoir éventuellement demander à la source de ré-envoyer
le message : codes détecteurs d’erreurs
— Ceux qui vont détecter et corriger les bits erronés : codes correcteurs d’erreurs
Codes détecteurs, codes correcteurs

— Détection d’erreurs : Lors de la réception d’une séquence b, le récepteur va vérifier si elle correspond à un des
mots codes possibles a. Si ce n’est pas le cas, il détecte une erreur et peut par exemple demander le renvoi du
message. Ceci nécessite bien entendu qu’il y ait moins de mots-code que d’éléments dans B n donc M < |B|n :
il faut donc introduire de la redondance.
— Correction d’erreurs : Lors de la réception d’une séquence b, le récepteur va estimer quel mot code possible
a est le plus proche de la séquence envoyée. Si le code est bien conçu, cette règle de décodage peut corriger
un certain nombre d’erreurs : là encore, c’est la redondance qui va jouer, en créant des mots-code éloignés les
uns des autres.
Quelques exemples
Quelques exemples
Message à envoyer : 011000

— Code à répétition de longueur 3 : On divise en bloc de taille 1 et on repète chaque bloc 3 fois :
011000 −→ 0 1 1 0 0 0 −→ 000 111 111 000 000 000
On a M = 2 mots-code possibles : 000 et 111
Ce code est correcteur et détecteur d’erreurs : il peut corriger une erreur et détecter deux erreurs.
— Code de parité de longueur 3 : On divise en bloc de taille 2 et on ajoute un 3 ème bit égal à la somme binaire des deux
bits du bloc :
011000 −→ 01 10 00 −→ 011 101 000
On a M = 4 mots-code possibles : 000, 110, 101, 011
Ce code est un détecteur d’erreurs : si on ne reçoit pas l’un de ces 4 mots-code, on sait qu’il y a eu une erreur sur 1 bit
Visualisation du code à répétition

011 111
010 110
001 101
000 100
Les mots codes 000 et 111 sont les plus éloignés possible : toutes les autres séquences permettent de détecter une
ou deux erreurs. Ce code permet de corriger 1 erreur et de détecter jusqu’à 2 erreurs.
Contexte du cours
— Afin de simplifier, nous allons nous placer en sortie de codage source : chaque élément de l’alphabet source X
+
est associé à un mot-code dans S + = {0, 1, . . . , q − 1} (avec q = 2 dans le cas binaire).
— Lors de l’envoi d’un message, on fait ensuite des paquets de k symboles, et chaque paquet est codé sur n
symboles avec n > k (ajout de redondance)
— On a donc S = A = B = {0, 1, . . . , q − 1} et M = q k
— On réutilisera la notation a pour désigner un message composé de plusieurs bits
— Dans la plupart des exercices on considèrera uniquement le cas binaire où q = 2
Anneau Z/qZ
Théorème 3.8 : Anneau Z/qZ
Soit q ≥ 2, on appelle Zq = Z/qZ l’ensemble des classes résiduelles modulo q.

— (Z/qZ, +, ×) est un anneau commutatif (où les opérations + et × sont définies modulo q)
— En notant m la classe de l’entier relatif m dans Zq , on a
Zq = {0, . . . , q − 1}
— A vérifier en exercice
— Dans la suite on omettra la notation .̄ afin de simplifier les écritures et on confondra l’entier 0 ≤ m < q et sa
classe m
Corps fini Fq
Théorème 3.9 : Corps fini Fq
L’anneau Zq est un corps (fini) si et seulement si q est un nombre premier. On notera ce corps fini Fq .

Preuve : Corps fini Fq
La seule propriété à démontrer est l’existence d’un inverse m−1 pour tous les éléments de Zq . On s’intéressera
ici aux entiers naturels 0 ≤ m < q (en tant que représentants de leurs classes respectives).
1. Supposons q premier. m et q sont donc premiers entre eux, et d’après le théorème de Bézout, il existe
deux entiers relatifs x et y tels que xm + yq = 1, donc on a xm ≡ 1(mod q) et x est un inverse de m
2. Supposons que tous les éléments de Zq admettent un inverse. Soit m un entier naturel tel que 0 ≤ m < q.
Comme m × m−1 ≡ 1(mod q), il existe un entier relatif x tel que mm−1 + xq = 1. Le PGCD de m
et q divise m et q, donc 1, on a donc forcément PGCD(m, q) = 1. Supposons maintenant que q n’est
pas premier, il existe donc 1 < a, b < q tels que ab = q. Comme a > 1 est un diviseur de a et q on a
contradiction.
Corps fini F2
Théorème 3.10 : Corps fini F2
L’ensemble {0, 1} muni de l’addition + (modulo 2) et de la multiplication × (modulo 2) forme un corps fini,
noté F2
+ 0 1 × 0 1
0 0 1 0 0 0
1 1 0 1 0 1
6.1 Propriétés des codes canal

Distance de Hamming
Définition 3.8 : Distance de Hamming
Soit a, b ∈ Fnq , on appelle distance de Hamming la distance
X
n
d(a, b) = δai ̸=bi
i=1
— Il s’agit du nombre de symboles différents dans a et b

— Si a et b correspondent à des séquences d’entrée et de sortie d’un canal, il s’agit du nombre de symboles erronés
Définition 3.9 : Poids

Soit a ∈ Fnq , on appelle poids de a
w(a) = d(a, 0)
— Il s’agit du nombre de symboles différents de 0

Preuve : Distance de Hamming

Pn
Seule l’inégalité triangulaire est à prouver. En remarquant d(a, b) = i=1 d(ai , bi ), on peut raisonner pour
n = 1. On doit donc montrer
d(a, c) ≤ d(a, b) + d(b, c)
— Si a = c alors le terme de gauche vaut 0 donc OK
— Si a ̸= c alors le terme de gauche vaut 1 et on a trois cas
— b = a et dans ce cas le terme de droite vaut d(b, c) = d(a, c) = 1
— b = c, idem
— b différent de a et c, et dans ce cas là le terme de droite vaut 2
Exemples
Pour un code binaire à répétition de longueur 3, on a deux mots-code {000, 111}. La distance de Hamming entre deux mots-code
est 3.
Code de parité
Pour un code binaire de parité de longueur 3, on a quatre mots-code {000, 110, 011, 101}. La distance de Hamming entre deux
mots-code est 2.
Intuitivement, afin d’éviter les erreurs, il va falloir concevoir des codes où les mots-code soient les plus éloignés les
uns des autres.
Fonction de codage canal

— Dans notre contexte, une fonction de codage canal f est donc une fonction injective
f : Fkq 7→ Fnq
avec n > k où
— k est le nombre de bits par blocs
— n est la longueur des mots-code
— Fq = {0, . . . , q − 1}
— La notation diffère un peu de celle utilisée précédemment car on avait un ensemble d’entrée {1, . . . , M }. Comme
ici M = q k , on sous entend une bijection de {1, . . . , M } dans Fkq qui correspond à la représentation binaire du
message envoyé.
Fonction de décodage canal

— On notera C = f (Fkq ) l’ensemble des mots-code, qui est un sous ensemble de Fnq . Il s’agit de l’ensemble
image de l’application f .
— Etant donnée une séquence reçue b ∈ Fnq , la fonction de décodage g est caractérisée par :
g : Fnq 7→ Fkq
−1
b → f argmina∈C d(a, b)
— Etant donnée une séquence b de n symboles reçue, on décode en regardant le mot-code de C qui est le plus
proche au sens de la distance de Hamming
— Là encore on sous entend une bijection finale de Fkq dans {1, . . . , M }
— Très souvent, on identifiera l’ensemble C au (q k , n)-code défini par f et g. En effet la connaissance de C
caractérise entièrement les deux fonctions. On parlera donc de code C

Distance minimale d’un code
Définition 3.10 : Distance minimale d’un code

On appelle distance minimale (ou séparation) d’un code C la distance de Hamming minimale entre deux
mots du code :
d(C) = min {d(a, a′ ), a, a′ ∈ C, t.q. a 6= a′ }
Définition 3.11 : Code q−aire de paramètres [n, k, d]
On appelle code q−aire de paramètres [n, k, d] un code canal C où f : Fkq 7→ Fnq et d(C) = d
Exemples
Un code binaire à répétition de longueur n est un code de paramètres [n, 1, n]
Code de parité
Un code binaire de parité de longueur n est un code de paramètres [n, n − 1, 2]
Le pouvoir détecteur/correcteur d’un code va dépendre grandement de la distance minimale du code, donc de la
distance qui existe entre les mots-code.
Pouvoir détecteur/correcteur d’un code
Théorème 3.11 : Pouvoir détecteur/correcteur d’un code
Soit C un code q−aire de distance minimale d(C) alors

(1) Si d(C) ≥ m + 1, le code peut détecter jusqu’à m erreurs par séquence de n symboles
(2) Si d(C) ≥ 2m + 1, le code peut corriger jusqu’à m erreurs par séquence de n symboles
Preuve : Pouvoir détecteur/correcteur d’un code
(1) D’après la définition de d(C) , deux mots-code de C ont au moins d(C) symboles de différence. Lors de
l’envoi d’un mot-code avec m ≤ d(C) − 1 erreurs, on est sûr de ne pas retomber sur un mot-code donc
on pourra détecter qu’il y a une erreur de transmission
(2) Supposons que l’on envoie un mot-code a ∈ C et qu’on reçoit b qui contient m erreurs. Si on utilise le
décodage par distance minimale alors il n’y a pas d’autre mots-code plus près de b. Supposons qu’il existe
a′ ∈ C, plus proche de b alors
d(a′ , b) ≤ d(a, b) = m
Or par l’inégalité triangulaire on a
d(a, a′ ) ≤ d(b, a) + d(b, a′ )

≤ m+m
≤ 2m
ce qui est impossible car a, a′ ∈ C donc d(a, a′ ) ≥ d(C) ≥ 2m + 1

Exemples
Pour un code à répétition de longueur 3, on a d = 3, on peut donc détecter 2 erreurs et corriger 1 erreur.
Code de parité
Pour un code de parité de longueur 3, on a d = 2, on peut donc détecter 1 erreur
6.2 Codes linéaires

Codes linéaires
— Nous allons maintenant étudier une classe particulière de codes canal, qui couvre la quasi totalité des codes
correcteurs utilisés en pratique
— On va mettre des contraintes supplémentaires sur l’ensemble des mots-code C en imposant une structure de
sous-espace vectoriel de Fn2
— Ainsi toute combinaison linéaire de mots-code restera un mot-code, ce qui permettra de réaliser le codage/dé-
codage grâce à un produit matriciel extrêmement rapide et simple à mettre en oeuvre
Codes linéaires
Définition 3.12 : Code linéaire

Un code q−aire C est linéaire si et seulement si C est un sous-espace vectoriel de dimension k dans Fnq , donc
ssi
∀a, a′ ∈ C, ∀λ, µ ∈ Fq , λ × a + µ × a′ ∈ C
Pour un code binaire, il suffit de montrer que la somme de deux mots-code est encore un mot-code
Exemple
Code de parité
Pour un code binaire de parité de longueur 3, on a C = {000, 110, 011, 101}
000 + 110 = 110 110 + 011 = 101

000 + 011 = 011 110 + 101 = 011
000 + 101 = 101 011 + 101 = 110
Le code est donc bien linéaire
6.2.1 Distance minimale d’un code linéaire

Distance minimale d’un code linéaire
Théorème 3.12 : Distance minimale d’un code linéaire

Pour un code q−aire linéaire C de paramètres [n, k, d] on a :
(1) d = d(C) = mina∈C ∗ w(a) où C ∗ est le code C privé du mot de poids nul
(2) d(C) ≤ n + 1 − k

Preuve : Distance minimale d’un code linéaire
(1) Il suffit de remarquer que pour a, a′ ∈ C on a d(a, a′ ) = w(a − a′ ) et a − a′ ∈ C

(2) Considérons D le sous-espace vectoriel de Fn2 formé des mots où les k − 1 dernières lettres sont égales à
zéro. Comme dim(D) = n − (k − 1) et dim(C) = k leur intersection est non nulle donc C contient au
moins un mot de D qui est donc de poids ≤ n − (k − 1)
6.2.2 Matrice génératrice

Matrice génératrice
Définition 3.13 : Matrice génératrice
Etant donné un code linéaire C de paramètres [n, k, d], on appelle matrice génératrice la matrice G ∈ Fk×n
q
telle que ses lignes forment une base du code C.
∀a ∈ C, ∃x ∈ Fkq , a = xG
Exemple
Exemple
Considérons le code binaire C :

00000 10011
00101 10110
01010 11001
01111 11100
— On vérifie aisément qu’il s’agit d’un code binaire linéaire de paramètres [5, 3, 2]
— On peut définir plusieurs matrices génératrices pour ce code
   
0 0 1 0 1 1 0 0 1 1
0 1 0 1 0 0 1 0 1 0
1 1 1 0 0 0 0 1 0 1
Code systématique
Définition 3.14 : Code systématique
Lorsque la matrice génératrice G d’un code C de paramètres [n, k, d] s’écrit sous la forme

G = Ik | B
où
— Ik est la matrice identité de taille k × k
— B est une matrice de taille k × (n − k)
on dit que le code est systématique. Dans ce cas :
— Les k premiers symboles sont appelés symboles d’information
— Les n − k derniers symboles sont appelés symboles de contrôle
Exemple

Exemple
— Si l’on considère le code C précédent, la matrice génératrice

 
1 0 0 1 1
G = 0 1 0 1 0
0 0 1 0 1
forme un code systématique
— Si on appelle d1 , d2 , d3 les bits d’information et p1 , p2 les bits de contrôle, on a :
p1 = d1 + d2
p2 = d1 + d3
6.2.3 Matrice de contrôle

Produit scalaire et code dual
Définition 3.15 : Produit scalaire

Le produit scalaire ha, bi entre deux éléments a et b de Fnq est défini par :
X
n
ha, bi = a i × bi
i=1
où + et × sont les opérations définies modulo q
Définition 3.16 : Code dual

Le code dual C ⊥ d’un code q−aire linéaire C de paramètres [n, k, d] est le code q−aire linéaire défini par :

C ⊥ = b ∈ Fnq , ha, bi = 0, ∀a ∈ C
Matrice de contrôle
Définition 3.17 : Matrice de contrôle
du code dual C ⊥ est appelée matrice de contrôle du code linéaire

(n−k)×n
Une matrice génératrice H ∈ Fq
C.
Théorème 3.13 : Liens entre matrices génératrice et de contrôle
Soit C un code q−aire linéaire de paramètres [n, k, d] et G et H respectivement des matrices génératrice et
de contrôle
(1) On a GHt = 0
(2) aHt = 0 ⇐⇒ a ∈ C

(3) De plus, si le code est systématique et G = Ik | B , alors

H = Bt | In−k

Preuve : Liens entre matrices génératrice et de contrôle
(1) Définition de G et H
(2) Idem
(3) En posant  
B
Ik | B  _  = Ik B + BIn−k = 0
In−k
Exemple
Exemple
— Si l’on considère le code C précédent, la matrice génératrice

 
1 0 0 1 1
G = 0 1 0 1 0
0 0 1 0 1
forme un code systématique
— La matrice de contrôle associée s’écrit donc

1 1 0 1 0
H=
1 0 1 0 1
Notion de syndrome
Soit un code q−aire linéaire C de paramètres [n, k, d] et soit b une séquence reçue
— Si b ∈ C alors
bHt = 0
— Si b ∈
/ C, alors notons a ∈ C le mot-code qui avait été envoyé et e la séquence d’erreurs commises On peut
donc écrire
bHt = (a + e)Ht = eHt
— La quantité bHt , appelée syndrome, est donc caractéristique du type d’erreur qui a été commise : si elle nulle,
cela signifie qu’il n’y a eu (a priori) aucune erreur, et dans le cas contraire en étudiant sa valeur on peut deviner
le type d’erreur
Propriétés des matrices de contrôle
Théorème 3.14 : Propriétés des matrices de contrôle
Soit C un code q−aire linéaire de matrice de contrôle H. Alors les propositions suivantes sont équivalentes
(1) d(C) = d
(2) Il existe d colonnes de H qui sont linéairement dépendantes et d − 1 colonnes différentes de H sont
toujours linéairement indépendantes

Preuve : Propriétés des matrices de contrôle
Notons hi la i-ème colonne de H. Soit a ∈ C et I l’ensemble des indices pour lesquels ai 6= 0, on a :
X
n X
aHt = ai h i = ai h i = 0
i=1 i∈I
— (1) ⇒ (2). Il existe un mot code de poids d = |I| (par définition de la distance minimale) : on a le résultat en appliquant
l’équation précédente à ce mot-code
— (1) ⇒ (2′ ). Supposons qu’il existe d − 1 colonnes qui soient linéairement dépendantes, alors on peut trouver un mot-code
a de poids d − 1 ce qui contredit la distance minimale
— (2)&(2′ ) ⇒ (1). Si d − 1 colonnes toujours indépendantes on ne peut pas créer un mot-code de poids d − 1, et si d
colonnes dépendantes on peut créer un mot-code de poids d, donc distance minimale égale à d
6.2.4 Décodage par syndrome

Décodage par syndrome
Etant donnée une séquence reçue b,
1. Calculer le syndrome
s = bHt
2. Chercher le vecteur d’erreur e∗ de poids minimal tel que
e∗ Ht = s
3. Décoder le message par :

â = b − e∗
Exemple
Exemple
Si l’on considère le code C précédent de matrice de contrôle

1 1 0 1 0
H=
1 0 1 0 1
Syndrome e∗
00 00000
01 00100
10 01000
11 10000
En fonction du syndrome, on peut estimer si l’erreur a lieu sur le bit d1 , d2 ou d3 .
Construction des codes linéaires

— En se servant des propriétés de sous-espace vectoriel d’un code linéaire, on peut construire un code linéaire à
partir d’un ou plusieurs codes linéaires, ce qui permet d’obtenir les paramètres [n, k, d] voulus : ces techniques
seront explorées en exercices (perforation, rallongement, juxtaposition, sélection d’un sous-code...)
— La question qui se pose maintenant est : peut-on améliorer indéfiniment les propriétés d’un code ? Intuitivement,
il existe des bornes théoriques en terme de performances pour ces stratégies, que nous allons maintenant décrire
6.3 Bornes théoriques de codage

Borne de Hamming

Théorème 3.15 : Borne de Hamming
Soit un code q−aire linéaire C de paramètres [n, k, d], alors on a
qn
M ≤ P d−1
⌊ 2 ⌋
i=0 Cni (q − 1)i
Un code pour lequel cette inégalité est une égalité est appelé un code parfait.
Preuve : Borne de Hamming
Commençons par introduire la notion de sphère de Hamming. Pour tout entier r, on appelle sphère de centre
x ∈ Fnq et de rayon r

S(x, r) = y ∈ Fnq , d(x, y) ≤ r
2 c pour faciliter la démonstration.

où d() est la distance de Hamming. On notera t = b d−1
— Etape 1 : Les sphères S(a, t) avec a ∈ C sont disjointes.
Soient a et b distincts dans C et x ∈ S(a, t) Par l’inégalité triangulaire, on a
d ≤ d(a, b) ≤ d(a, x) + d(x, b)
donc
d(x, b) ≥ d − d(a, x)
≥ d−t>t
ce qui implique que x ∈

/ S(b, t)
Preuve : Borne de Hamming (suite)
— Etape 2 : Comme chaque mot code interdit tous les messages à n symboles dans un rayon de t autour
de lui, le nombre maximal de mots code que l’on peut définir correspond au nombre de sphères de rayon
t que l’on peut caser dans q n
Pt
— Chaque sphère S(a, t) a un cardinal i=0 Cni (q − 1)i , on a donc forcément
X
t
M Cni ≤ q n
i=0
Borne de Gilbert-Varshamov
Théorème 3.16 : Borne de Gilbert-Varshamov

Soient n et d (avec d < n). On note Mq (n, d) le nombre maximal de mots-code d’un code q−aire linéaire C
de longueur n et distance minimale d. On a
qn
Mq (n, d) ≥ Pd−1
i=0 Cni (q − 1)i
Contrairement à la borne de Hamming, il s’agit ici d’une borne garantissant l’existence d’un code, et non une borne
valide pour tous les codes !

Preuve : Borne de Gilbert-Varshamov

— Soit C un code q−aire linéaire C de longueur n et distance minimale d ayant le nombre maximal de
symboles Mq (n, d)
— Pour tout xßFnq , il existe un mot-code à une distance ≤ d − 1 (sinon cela signifierait que l’on peut
rajouter un mot-code, ce qui rentre en contradiction avec le nombre maximal de mots-code)
— Ainsi, l’ensemble Fnq est exactement l’union des sphères de rayon d − 1 centrées sur les différents
mots-code et on a
[ X
q n = Fnq = S(a, d − 1) ≤ |S(a, d − 1)|
a∈C a∈C
— D’ou le résultat !
Borne de Singleton
Théorème 3.17 : Borne de Singleton
Soient n et d (avec d < n). On note Mq (n, d) le nombre maximal de mots-code d’un code q−aire linéaire C
de longueur n et distance minimale d. On a
Mq (n, d) ≤ q n−d+1
Un code qui atteint cette borne est appelé un code à distance séparable maximale (MDS en anglais).
Preuve : Borne de Singleton
— Soit C un code q−aire linéaire C de longueur n et distance minimale d ayant le nombre maximal de
symboles Mq (n, d)
— Tous les mots-code sont espacés d’une distance d : si on considère a et a′ distincts dans C on a
d ≤ d(a, a′ ) = d(a1:d−1 , a′1:d−1 ) + d(ad:n , a′d:n )
— Or on a forcément d(a1:d−1 , a′1:d−1 ) ≤ d − 1, donc d(ad:n , a′d:n ) ≥ 1, ce qui signifie qu’aucune paire de
mots-code n’a les mêmes n − d + 1 derniers symboles
— On a donc
Mq (n, d) ≤ q n−d+1
Quelques codes MDS

On peut construire facilement des codes MDS triviaux :
— Code de paramètres [n, 1, n] où l’on répète n fois chaque symbole (code à répétition)
— Code de paramètres [n, n, 1] avec tous les éléments de Fnq
— Code de paramètres [n, n − 1, 2] avec un bit de parité
6.4 Codes de Hamming

Codes de Hamming

Définition 3.18 : Code de Hamming
On appelle code de Hamming un code linéaire binaire dont les colonnes de la matrice de contrôle contiennent
tous les messages binaires de poids non nul et de longueur r ∈ N∗
Théorème 3.18 : Propriétés du code de Hamming
Un code de Hamming a pour paramètres [2r − 1, 2r − 1 − r, 3] avec r ∈ N∗ . Un code de Hamming est parfait.
Preuve : Propriétés du code de Hamming

— La matrice H est de taille (n − k) × n : vu qu’il y a 2r − 1 messages binaires de poids non nul et de longueur r, on a
donc n = 2r − 1. Comme n − k = r on a le résultat pour n et k
— Comme on travaille sur des messages binaires et que toutes les colonnes de H sont différentes, on sait que 2 colonnes
sont toujours indépendantes. D’autre part comme H recense tous les vecteurs possibles de Fr2 , on peut facilement trouver
trois vecteurs dont la somme est nulle. On a donc bien d(C) = 3
— Pour le caractère parfait, il suffit de faire quelques calculs !
Exemple du code de Hamming H[7, 4, 3]

— Pour un code de Hamming H[7, 4, 3] la matrice de contrôle peut s’écrire
 
0 0 0 1 1 1 1
H = 0 1 1 0 0 1 1
1 0 1 0 1 0 1
— On peut la mettre sous forme systématique

 
1 1 0 1 1 0 0
H = 1 0 1 1 0 1 0
0 1 1 1 0 0 1
donnant une matrice génératrice  

1 0 0 0 1 1 0
0 1 0 0 1 0 1
G=
0

0 1 0 0 1 1
0 0 0 1 1 1 1
Exemple du code de Hamming H[7, 4, 3]
 
1 0 0 0 1 1 0
0 1 0 0 1 0 1

G= 
0 0 1 0 0 1 1
0 0 0 1 1 1 1

Décodage par syndrome

— Le choix de la matrice de contrôle " #
0 0 0 1 1 1 1
H= 0 1 1 0 0 1 1
1 0 1 0 1 0 1
peut se révéler particulièrement pratique pour le décodage par syndrome. En effet, la j-ème colonne correspond
à la représentation binaire du nombre j sur r bits.
— Supposons que l’on ait fait une erreur sur le bit j, alors
X
n
eHt = ei h i = h j
i=1
— Comme il n’existe pas de message de poids plus faible non nul, on en déduit que le décodage par syndrome va
permettre de localiser directement la place de l’erreur
— Le syndrome obtenu donne directement la représentation binaire de la position de l’erreur
Exemple
— Supposons que l’on reçoive b = 1110111 alors
bHt = 100
soit la représentation binaire de 4

— On identifie donc directement une erreur sur le 4 ème bit et le message décodé sera donc
1111111

111
Quatrième partie
Théorie du signal
Plan de la partie
1 Théorie des signaux déterministes 112
1.1 Energie et puissance . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
1.2 Signaux à énergie finie . . . . . . . . . . . . . . . . . . . . . . . . . . 114
1.2.1 Produit de convolution . . . . . . . . . . . . . . . . . . . . . . . . 115
1.2.2 Transformée de Fourier . . . . . . . . . . . . . . . . . . . . . . . . 116
1.2.3 Spectre et largeur de bande. . . . . . . . . . . . . . . . . . . . . . . 120
1.2.4 Fonction porte . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
1.2.5 Filtrage linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
1.3 Distributions tempérées . . . . . . . . . . . . . . . . . . . . . . . . . . 125
1.3.1 Notion de distribution tempérée . . . . . . . . . . . . . . . . . . . . . 125
1.3.2 Distribution de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . 127
1.3.3 Peigne de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
2 Echantillonnage et quantification 132

2.1 Signaux analogiques et numériques . . . . . . . . . . . . . . . . . . . . . . 132
2.2 Échantillonnage uniforme . . . . . . . . . . . . . . . . . . . . . . . . . 134
2.3 Echantillonneur idéal . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
2.4 Théorème de Shannon-Nyquist . . . . . . . . . . . . . . . . . . . . . . . 138
2.5 Reconstruction idéale . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
2.6 Quantification uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . 143
3 Théorie des signaux aléatoires 147

3.1 Chaîne de communication réelle . . . . . . . . . . . . . . . . . . . . . . . 147
3.2 Notion de signal aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . 148
3.3 Stationnarité et ergodisme . . . . . . . . . . . . . . . . . . . . . . . . . 149
3.4 Puissance moyenne et densité spectrale de puissance . . . . . . . . . . . . . . . . 151
4 Canaux gaussiens réels 154
Théorie du signal
— Dans tous le cours, nous avons considéré des sources et des canaux discrets
— Pourtant certaines informations que l’on veut transmettre sont continues (ex : son) et la majorité des canaux
de communication sont également continus (ex : ondes hertiziennes, câbles électriques)
— Le but de cette dernière partie est de répondre à deux questions :
— Comment transformer un signal continu du monde réel en une série de symboles discrets à transmettre ?
A quelle condition est-on capable de le faire avec une erreur minimale ?
— Etant donné un message numérique, comment former un signal continu capable de transporter l’informa-
tion sur un canal continu ? Quelles sont les propriétés spectrales des signaux ainsi formés ?

Quatrième partie - Théorie du signal 112
1 Théorie des signaux déterministes

Rappels d’analyse de Fourier
— Nous allons commencer par mentionner quelques rappels rapides en analyse de Fourier afin de ré-introduire les
concepts qui seront importants dans notre contexte : transformée de Fourier, produit de convolution, théorie
des distributions, peigne de Dirac...
— Le vocabulaire utilisé ainsi que les notations peuvent varier par rapport au cours de L3
— La plupart des théorèmes seront proposés uniquement avec quelques idées de preuve : on se référera au cours
de L3 pour des démonstrations plus complètes
Qu’est-ce qu’un signal ?
Un signal (temporel) est une quantité observable variant en fonction du temps
— Le son issu d’un piano

— La température au sommet de la Tour Eiffel
— Le cours en bourse d’une action
— La tension électrique dans un câble USB
— Une onde hertzienne...
Remarque : La définition générale d’un signal inclut aussi les quantités variant en fonction de l’espace et/ou du temps,
comme les images ou les vidéos (voir cours M1 de traitement des images). Dans ce cours, on se limitera aux signaux
temporels.
Signaux analogiques et numériques

Il existe deux types de signaux temporels :
— Analogique : fonction de la variable réelle à valeurs réelles (ou complexes)
x(t) avec t ∈ R
t : temps (souvent exprimé en secondes) Ex : onde électromagnétique, signal électrique, ...

— Numérique : suite indexée par Z à valeurs dans un ensemble fini
x[n] avec n ∈ Z
n : échantillon (sans unité) Ex : taux de précipitations enregistré chaque jour, cours de la bourse enregistré
chaque heure, ...
Signaux analogiques et numériques

En pratique
— Signaux analogiques x(t)
— Non stockables sur ordinateur (continuum de temps et de valeurs)
— Utiles pour formuler des modèles théoriques
— Modélisent des phénomènes physiques : ondes acoustiques, signaux électriques...
— Signaux numériques x[n]
— Stockables sur ordinateur (si nombre d’échantillons fini)
— Tableau de nombres où chaque valeur est codée sur un certain nombre de bits
— Souvent associé à un vecteur temps qui contient tous les instants t[n] où l’on connaît le signal

Exemples
1 1
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
x[n]
x(t)
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 1 2 3 4 5 6 7 8 9 10
t (secondes) n (echantillons)
Signal analogique x(t) Signal numérique x[n]

t ∈ [0, 1] n ∈ J0, 10K
Dans le cours, les signaux numériques seront représentés par des segments terminés par des cercles (cf figure
ci-dessus)
1.1 Energie et puissance

Puissance instantanée
Définition 4.1 : Puissance instantanée

Etant donné un signal analogique x(t) (resp. numérique x[n]), on appelle puissance instantanée la quantité
|x(t)|2 (resp |x[n]|2 )
1 1
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
2
|xn|2
|x(t)|
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 1 2 3 4 5 6 7 8 9 10
t (secondes) n (echantillons)
Signal analogique Signal numérique

|x(t)|2 |x[n]|2
Energie totale

Définition 4.2 : Energie totale
L’énergie totale Ex (lorsqu’elle existe) correspond à la somme de la puissance instantanée sur R (pour les
signaux analogiques) ou sur Z (pour les signaux numériques)
— Cas analogique : Z +∞
Ex = |x(t)|2 dt
−∞
— Cas numérique :
X
+∞
Ex = |x[n]|2
n=−∞
Puissance moyenne (totale)
Définition 4.3 : Puissance moyenne (totale)
La puissance moyenne (totale) Px (lorsqu’elle existe) correspond à la valeur moyenne de la puissance

instantanée sur R (pour les signaux analogiques) ou sur Z (pour les signaux numériques)
— Cas analogique. Z τ
1
Px = lim |x(t)|2 dt
τ →+∞ 2τ −τ
— Cas numérique.
1 Xm
Px = lim |x[n]|2
m→+∞ 2m + 1
n=−m
Si le signal est à support temporel borné ou fini, sa puissance moyenne totale est donc nulle (sauf cas exceptionnels)
Classification des signaux

— Si Ex < +∞, on dit que le signal est à énergie finie. En pratique, c’est le cas de tous les signaux physiquement
réalisables. Un signal à énergie finie a une puissance moyenne totale nulle.
— Si Ex = +∞ et Px < +∞, on dit que le signal est à puissance finie. Bien que ces signaux n’existent pas dans
le monde réel, ils sont utiles pour construire des modèles. Un signal à puissance finie et de puissance moyenne
totale non nulle ne peut pas être d’énergie finie.
But du cours
— Comprendre comment transformer un signal x(t) analogique du monde réel en un signal numérique x[n]
stockable sur ordinateur
— Permet le passage du monde réel physique au monde informatique binaire : première révolution numérique de
Shannon
— On ne considérera dans le cours que le cas des signaux à énergie finie : dans la pratique, on traite les signaux
sous forme de trames temporelles de durée finie, d’où cette supposition
1.2 Signaux à énergie finie

Signaux à énergie finie
Un signal à énergie finie x(t) est une fonction de la variable réelle t ∈ R, à valeurs dans R ou C et appartenant
à L2 (R)

Théorème 4.1 : Espace L2 (R)
L’espace L2 (R) est un espace de Hilbert muni du produit scalaire

Z +∞
hx | yiL2 = x(t)y ∗ (t)dt
−∞
— La norme au carré du signal est égale à son énergie

Z +∞
kxkL2 = hx | xiL2 =
2
|x(t)|2 dt = Ex
−∞
— Inégalité de Cauchy-Schwartz
|hx, yiL2 | 6 kxkL2 kykL2
Espace des signaux considérés

— Dans la suite du cours, la supposition x ∈ L2 (R) va poser des problèmes dans certaines démonstrations (par
exemple pour une définition propre du produit de convolution, il faut x ∈ L1 (R))
— Dans la pratique, les signaux considérés dans le cours appartiendront tous à L1 (R) ∩ L2 (R), ce qui va considé-
rablement simplifier les considérations d’existence et de convergence des différentes quantités
— Sauf mention spécifique, on supposera que toutes les quantités sont correctement définies : on se référera au
cours de L3 pour le détail des conditions d’existence qui ne sont pas l’objet de ce cours
— Cas typique d’un signal à support temporel borné, très régulier et défini presque partout
1.2.1 Produit de convolution

Produit de convolution
Définition 4.4 : Produit de convolution

Pour x et y dans L1 (R) ∩ L2 (R), on appelle produit de convolution de x et y (ou convolée, ou convoluée) et
on note x ∗ y la fonction Z +∞
(x ∗ y)(t) = x(t − τ ) y(τ )dτ
−∞
Théorème 4.2 : Propriétés du produit de convolution
(1) kx ∗ ykL1 ≤ kxkL1 kykL1

(2) Commutativité : x ∗ y = y ∗ x
(3) Distributivité : x ∗ (y + z) = x ∗ y + x ∗ z
(4) Associativité : (x ∗ y) ∗ z = x ∗ (y ∗ z)

Preuve : Propriétés du produit de convolution
(1) La fonction (t, τ ) 7→ x(t − τ ) y(τ ) est sommable sur R2 car

Z +∞ Z +∞ Z +∞ Z +∞
|x(t − τ ) y(τ )|dτ dt = |y(τ )|dτ |x(t − τ )|dt
−∞ −∞ −∞ −∞
Z +∞ Z +∞
= |y(τ )|dτ |x(t′ )|dt′
−∞ −∞
= kxkL1 kykL1
Grâce à Fubini-Tonelli, toute fonction tranche (τ ) 7→ x(t − τ ) y(τ ) est donc sommable (pour presque tout
R +∞
t), et la fonction définie par (x ∗ y)(t) = −∞ x(t − τ ) y(τ )dτ est elle-même sommable. On a également
Z +∞
kx ∗ ykL1 = |(x ∗ y)(t)|dt
−∞
Z +∞ Z +∞
≤ |x(t − τ )| |y(τ )|dτ dt
−∞ −∞
= kxkL1 kykL1
En réalité comme x et y sont dans L1 (R) ∩ L2 (R), on pourrait même montrer que x ∗ y est également
dans L1 (R) ∩ L2 (R)
Preuve : Propriétés du produit de convolution
(2) Changement de variable τ ′ = t − τ

(3) Linéarité de l’intégrale
(4) En utilisant le théorème de Fubini et le fait que x ∗ y et y ∗ z soient sommables
Z +∞ Z +∞
((x ∗ y) ∗ z)(t) = x(t − τ − τ ′ ) y(τ ′ )dτ ′ z(τ )dτ
−∞ −∞
Z +∞ Z +∞
= x(t − τ ′′ ) y(τ ′′ − τ )z(τ )dτ dτ ′′
−∞ −∞
Z +∞ Z +∞
= x(t − τ ′′ ) y(τ ′′ − τ )z(τ )dτ dτ ′′
−∞ −∞
= (x ∗ (y ∗ z))(t)
1.2.2 Transformée de Fourier

Transformée de Fourier
Définition 4.5 : Transformée de Fourier

Pour x ∈ L1 (R) ∩ L2 (R), on appelle transformée de Fourier de x et on note x̂ = F {x} la fonction
Z +∞
x̂(f ) = x(t)e−j2πf t dt
−∞

Définition 4.6 : Transformée de Fourier inverse

Si x̂ ∈ L1 (R) ∩ L2 (R), on peut inverser cette transformation grâce à la transformée de Fourier inverse
x = F −1 {x̂}
Z +∞
x(t) = x̂(f )ej2πf t df
−∞
Remarques
— La transformation de Fourier F est une bijection linéaire isométrique de L2 (R) dans L2 (R) (voir théorèmes
suivants)
— En revanche elle est uniquement une application linéaire continue de L1 (R) dans L∞ (R). L’hypothèse x̂ ∈ L1 (R)
n’est donc pas triviale (mais sera supposée dans le cours pour simplifier les considérations)
Propriétés de la transformée de Fourier
Théorème 4.3 : Théorèmes de Plancherel-Parseval

Z +∞ Z +∞
∗
x(t)y (t)dt = x̂(f )ŷ ∗ (f )df
−∞ −∞
Z +∞ Z +∞
kxk2L2 = kx̂k2L2 = |x(t)| dt =
2
|x̂(f )|2 df
−∞ −∞
Théorème 4.4 : Théorèmes de convolution
(1) F {x ∗ y} = F {x} × F {y}

(2) F {x × y} = F {x} ∗ F {y}
Preuve : Théorèmes de Plancherel-Parseval
(1) Si l’on suppose toutes les fonctions et leurs TF dans L1 (R) ∩ L2 (R), (t, f ) 7→ x(t)ŷ ∗ (f )e−j2πf t est
sommable et par Fubini et on a
Z +∞ Z +∞ Z +∞
∗ ∗ −j2πf t
x(t)y (t)dt = x(t) ŷ (f )e df dt
−∞ −∞ −∞
Z +∞ Z+∞
= ŷ ∗ (f ) x(t)e−j2πf t dt df
−∞ −∞
Z +∞
= x̂(f )ŷ ∗ (f )df
−∞
(2) Il suffit de prendre y(t) = x(t)

Preuve : Théorèmes de convolution
(1) Comme (t, τ ) 7→ x(t − τ )y(τ ) est sommable (Fubini-Tonelli) on vérifie que x ∗ y est bien sommable et
admet donc une TF (déjà démontré). Puis par Fubini on a
Z +∞ Z +∞
F {x ∗ y} (f ) = x(t − τ )y(τ )dτ e−j2πf t dt
−∞ −∞
Z +∞ Z +∞
= y(τ )e−j2πf τ x(t − τ )e−j2πf (t−τ ) dt dτ
−∞ −∞
Z +∞
= y(τ )e−j2πf τ F {x} (f )dτ
−∞
= F {x} (f ) × F {y} (f )
(2) Même raisonnement
Interprétation
— Dans la suite du cours, on utilisera la notion X(f ) pour désigner la transformée de Fourier x̂(f ) = F {x} (f )
— Le module |X(f )| est lié à l’amplitude de la sinusoïde de fréquence fondamentale f dans la décomposition de
x(t) comme une somme infinie de sinusoïdes. Si cette quantité est élevée, c’est que la sinusoïde de fréquence
fondamentale f a une place importante dans la décomposition de x(t).
— L’argument arg {X(f )} est lié au déphasage de la sinusoïde de fréquence fondamentale f dans la décomposition
de x(t) comme une somme infinie de sinusoïdes.
— Pour un signal réel, seules les fréquences positives ont un vrai sens physique
Propriétés de la transformée de Fourier
Théorème 4.5 : Propriétés de la transformée de Fourier
Pour x ∈ L1 (R) ∩ L2 (R) on a :
(1) x(t) réel X(−f ) = X ∗ (f ) (symétrie hermitienne)

(
X(f ) ∈ R réel
(2) x(t) réel et pair
X(−f ) = X(f ) pair
(
X(f ) ∈ C\R∗ imaginaire pur
(3) x(t) réel et impair
X(−f ) = −X(f ) impair
Propriétés de la TF (suite)

Théorème 4.6 : Propriétés de la transformée de Fourier (suite)
Pour λ, µ, t0 réels, α 6= 0 réel, et x, y dans L1 (R) ∩ L2 (R), on a :
(4) Linéarité z(t) = λx(t) + µy(t) Z(f ) = λX(f ) + µY (f )
(5) Translation y(t) = x(t − t0 ) Y (f ) = e−i2πf t0 X(f )

1 f
(6) Contraction/dilatation y(t) = x(αt) Y (f ) = X
|α| α
(7) Produit z(t) = x(t) × y(t) Z(f ) = X(f ) ∗ Y (f )
(8) Produit de convolution z(t) = x(t) ∗ y(t) Z(f ) = X(f ) × Y (f )
Preuve : Propriétés de la transformée de Fourier
(1) Comme x est réel
x(t) = x∗ (t)
Z +∞ ∗
j2πf t
= X(f )e df
−∞
Z +∞
= X ∗ (f )e−j2πf t df
−∞
Z +∞
′
= X ∗ (−f ′ )ej2πf t df ′
−∞
Donc X(f ) = X ∗ (−f )

(2) Comme x est réel et pair
x(t) = x(−t)
Z +∞
= X(f )e−j2πf t df
−∞
Z +∞
= X(−f )ej2πf t df
−∞
Donc X(f ) = X(−f ) = X ∗ (−f )
Preuve : Propriétés de la transformée de Fourier (suite)
(3) Même démonstration

(4) Déjà démontré
(5) Changement de variable t′ = t − t0 (cf exercice)
(6) Changement de variable t′ = αt avec distinction des cas α > 0 et α < 0 (cf exercice)

1.2.3 Spectre et largeur de bande

Notion de spectre
— Comme X(f ) est une quantité complexe, on trace en général la quantité |X(f )|2 appelée spectre.
— Ceci permet d’étudier l’amplitude des différentes sinusoïdes dans la décomposition
x(t) 5
x 10 |X(f)|2
0.5 8
0.4
7
0.3
6
0.2
0.1 5
0 4
−0.1
3
−0.2
2
−0.3
1
−0.4
−0.5 0
−0.2 0 0.2 0.4 0.6 0.8 1 1.2 −30 −20 −10 0 10 20 30
t (secondes) f (Hz)
Interprétation d’un spectre

x(t) 5
x 10 |X(f)|2
0.5 8
0.4
7
0.3
6
0.2
0.1 5
0 4
−0.1
3
−0.2
2
−0.3
1
−0.4
−0.5 0
−0.2 0 0.2 0.4 0.6 0.8 1 1.2 −30 −20 −10 0 10 20 30
t (secondes) f (Hz)
— Signal lent : le module au carré |X(f )|2 est élevé dans les basses fréquences
— Les sinusoïdes de basses fréquences fondamentales contribuent plus que les autres
Interprétation d’un spectre

x(t) 5
x 10 |X(f)|2
0.5 8
0.4
7
0.3
6
0.2
0.1 5
0 4
−0.1
3
−0.2
2
−0.3
1
−0.4
−0.5 0
−0.2 0 0.2 0.4 0.6 0.8 1 1.2 −30 −20 −10 0 10 20 30
t (secondes) f (Hz)
— Signal plus rapide : le module au carré |X(f )|2 est élevé aussi dans les fréquences plus élevées
— Les sinusoïdes de plus hautes fréquences fondamentales contribuent aussi

Notion de largeur de bande

5
x 10 |X(f)|2 5
x 10 |X(f)|2
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
−30 −20 −10 0 10 20 30 −30 −20 −10 0 10 20 30
f (Hz) f (Hz)
— Si on compare ces deux spectres, on voit que les valeurs élevées sont comprises entre −10 Hz et 10 Hz pour le
premier, et entre −20 Hz et 20 Hz pour le second
Notion de largeur de bande
Définition 4.7 : Largeur de bande
On appelle largeur de bande d’un signal et on note B = [fmin , fmax ] avec fmin ≥ 0 et fmax ≥ 0 la plage
de fréquences qu’un signal occupe.
— Dans notre exemple, on a :

B1 = 0 − 10 Hz B2 = 0 − 20 Hz
— Attention, pour déterminer la largeur de bande, il ne faut considérer que les fréquences positives !
— Dans le cas où fmin = 0 on dit que le signal est en bande de base, et on note plus simplement B = fmax
1.2.4 Fonction porte

Fonction porte
Définition 4.8 : Signal porte
On appelle signal porte de durée L et on note

ΠL (t) le signal
(
1 si − L2 ≤ t < L2
ΠL (t) =
0 sinon
0
La définition aux points t ± L
2 peut varier
−L/2 0 L/2
t (en secondes)
Fonction porte
— Si on prend un signal quelconque
x(t) et qu’on le multiplie par un signal porte, cela revient à étudier le signal
x(t) uniquement sur la plage − L2 , L2

1 1 1
0.8 0.8 0.8
0.6 0.6 0.6
0.4 × 0.4 = 0.4
0.2 0.2 0.2
0 0 0
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5 −0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5 −0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
t (secondes) t (en secondes) t (en secondes)
— De façon équivalente, un signal quelconque de support temporel borné égal à L peut être vu comme le produit
d’un signal à support temporel non borné et d’une fonction porte
Transformée de Fourier de la fonction porte

x(t) X(f)
1
L
−L/2 0 L/2 −3/L −2/L −1/L 0 1/L 2/L 3/L

t (en secondes) f (en Hz)
Théorème 4.7 : TF de la fonction porte
F {ΠL (t)} = L sinc (Lf )

où sinc est le sinus cardinal normalisé :
(
1 si t = 0
sinc(t) = sin(πt)
πt sinon

Preuve : TF de la fonction porte
Z +∞
F {ΠL (t)} = ΠL (t)e−j2πf t dt
−∞
Z +L
2
= e−j2πf t dt
−L
2
+ L2
e−j2πf t
=
−j2πf − L
2
1 −jπf L
= e − ejπf L
−j2πf
1 ejπf L − e−jπf L
= ×
πf 2j
1
= × sin (πf L)
πf
sin (πf L)
= L×
πf L
= L sinc (Lf )
Transformée de Fourier de la fonction porte

|X(f)|2
L^2
−3/L −2/L −1/L 0 1/L 2/L 3/L

f (en Hz)
— La largeur de bande de la fonction porte est en théorie infinie, mais si l’on trace le module au carré de la
transformée de Fourier, on voit que la majorité des intensités se situe dans l’intervalle − L1 , + L1
— En première approximation on peut donc utiliser B ≈ 1
L (on utilise ici la notation de la bande de base)
— Plus ce signal a un support temporel important (L grand), plus sa largeur de bande est petite (et inversement).
1.2.5 Filtrage linéaire

Qu’est-ce que le filtrage ?
x(t) Ψ y(t)
— Transformation Ψ d’un signal d’entrée x(t) en un signal de sortie y(t)
y(t) = Ψ (x(t))
— En traitement du signal on se focalise en général sur des traitements homogènes, linéaires et invariants tem-
porellement : c’est ce que l’on appelle le filtrage linéaire

Filtrage linéaire
x(t) h(t) y(t)
Définition 4.9 : Filtrage linéaire
Etant donné un signal d’entrée x dans L1 (R) ∩ L2 (R), l’opération de filtrage linéaire consiste à convoluer le
signal x avec une fonction h ∈ L1 (R) ∩ L2 (R) appelée réponse impulsionnelle. Le signal de sortie y a pour
expression
y(t) = h(t) ∗ x(t)
où ∗ est le produit de convolution
Filtrage linéaire
— On a y(t) = h(t) ∗ x(t) donc grâce au théorème de convolution, on a
Y (f ) = H(f ) × X(f )
— Le filtrage linéaire revient à amplifier ou atténuer certaines fréquences du signal

— En particulier, le filtrage linéaire ne créé par de nouvelles fréquences
Fonction de transfert et bande passante
Définition 4.10 : Fonction de transfert

Etant donné un filtre linéaire de réponse impulsionnelle h(t), on appelle fonction de transfert, lorsqu’elle est
définie, la fonction
H(f ) = F {h(t)}
Définition 4.11 : Bande passante
On appelle bande passante d’un filtre et on note W = [fmin , fmax ] avec fmin ≥ 0 et fmax ≥ 0 la plage de
fréquences qu’un filtre laisse passer.
W peut parfois être une union d’intervalles
Filtres idéaux
|H(f)|² |H(f)|² |H(f)|² |H(f)|²
0 fc f 0 fc f 0 fc1 fc2 f 0 fc1 fc2 f
— On peut définir 4 types de filtres idéaux (passe-bas, passe-haut, passe bande et coupe bande)
— Pour un filtre idéal on suppose que {
1 si |f | ∈ W
H(f ) =
0 sinon

1.3 Distributions tempérées

Extension aux distributions
— La classe des signaux considérés ici est assez limitée L1 (R)∩L2 (R) : il est en effet difficile d’assurer que tous les
concepts de l’analyse de Fourier (produit de convolution, transformée de Fourier...) soient proprement définis
— Afin de pouvoir étendre ces concepts à un ensemble de fonctions plus vaste (par exemple les fonctions pério-
diques), une autre théorie mathématique peut être introduite : la théorie des distributions
— La formalisation mathématique des distributions par Laurent Schwartz est contemporaine des travaux de Shan-
non (années 50), qui d’ailleurs ne les utilise pas dans les démonstrations de ses théorèmes.
— Encore une fois, le cours se limitera à rappeler les concepts importants nécessaires à la démonstration du
théorème de Shannon-Nyquist, et la plupart des propriétés seront admises. On se référera à des cours sur les
distributions pour plus de détails.
1.3.1 Notion de distribution tempérée

Distribution tempérée
Définition 4.12 : Espace de Schwartz S(R)
On appelle espace de Schwartz l’ensemble des fonctions C ∞ à décroissance rapide

n o
S(R) = x ∈ C ∞ (R) | ∀(k, l) ≥ 0 supt∈R |t|k |x(l) (t)| < +∞
Définition 4.13 : Distribution tempérée
— Une distribution tempérée est une forme linéaire continue de S(R) dans R (ou C).
— L’ensemble des distributions tempérées est noté S ′ (R)
— Etant donnée une distribution tempérée T on note
hT, φi = T (φ)
l’image d’une fonction test φ ∈ S(R) par T
Notion de distribution
— On peut voir l’espace de Schwartz comme un ensemble de fonctions test, permettant de définir des fonctions
généralisées : les distributions tempérées
— Les distributions n’auront pas nécessairement de valeurs ponctuelles, mais seront définies au travers de leurs
valeurs contre les fonctions test hT, φi
— Il existe plusieurs espaces possibles de fonctions test, définissant d’autres types de distributions (cf D utilisé en
L3 : fonctions C ∞ à support compact). On peut d’ailleurs remarquer que D ⊂ S(R).
Quelques propriétés de l’espace de Schwartz

Tous les opérateurs suivants sont des applications linéaires continues de S(R) dans lui-même :
— Translation
— Dilatation/contraction
— Dérivation
— Convolution par un élément de S(R)
— Multiplication par un élément de S(R) (en réalité valide également avec une fonction à croissance lente)
— Multiplication par un polynôme
— Transformée de Fourier
— Transformée de Fourier inverse
On peut également remarquer que S(R) ⊂ Lp (R) pour 1 ≤ p ≤ +∞

Exemples de distributions tempérées

— Pour toute fonction x ∈ L1 (R) (ou L2 (R)), la distribution Tx définie par
Z +∞
∀φ ∈ S(R), hTx , φi = Tx (t)φ(t)dt
−∞
est une distribution tempérée. Par abus de notation on identifie souvent x et Tx

— Pour toute fonction x périodique et sommable sur une période, la distribution Tx définie par
Z +∞
∀φ ∈ S(R), hTx , φi = Tx (t)φ(t)dt
−∞
est une distribution tempérée. Par abus de notation on identifie souvent x et Tx

— Distribution de Dirac (voir plus tard)
— Peigne de Dirac (voir plus tard)
Opérations sur les distributions tempérées
Définition 4.14 : Egalité de deux distributions
Deux distributions T1 et T2 sont dites égales si et seulement si
∀φ ∈ S(R), hT1 , φi = hT2 , φi .
Définition 4.15 : Produit d’une distribution avec une fonction test

On peut définir la notion de produit au sens des distributions
∀T ∈ S ′ (R) ∀x, φ ∈ S(R) hx × T, φi = hT, x × φi .
Définition 4.16 : Produit de convolution d’une distribution avec une fonction test
On peut étendre la définition du produit de convolution au sens des distributions
∀T ∈ S ′ (R) ∀φ ∈ S(R) T ∗ φ = t 7→ hT, φ̃t i
où φ̃t : τ 7→ φ(t − τ )
Transformée de Fourier pour les distributions tempérées
Définition 4.17 : Transformée de Fourier d’une distribution

On peut étendre la définition de la transformée de Fourier au sens des distributions
∀T ∈ S ′ (R) ∀φ ∈ S(R) hFT, φi = hT, Fφi .
Définition 4.18 : Transformée de Fourier inverse d’une distribution

La transformée de Fourier inverse au sens des distributions est définie par
∀T ∈ S ′ (R) ∀φ ∈ S(R) F −1 T, φ = T, F −1 φ .
Quelques propriétés des distributions tempérées

Tous les opérateurs suivants sont des applications linéaires continues de S ′ (R) dans lui-même :
— Dérivation
— Convolution par un élément de S(R)

— Multiplication par un élément de S(R) (en réalité valide également avec une fonction à croissance lente)
— Transformée de Fourier
— Transformée de Fourier inverse
Distributions utiles en traitement du signal

— Deux distributions tempérées sont très utiles en traitement du signal, notamment pour établir les théorèmes
d’échantillonnage :
— le Dirac δ
— le peigne de Dirac XT
— Ces distributions n’ont pas été utilisées par Shannon pour démontrer le fameux théorème d’échantillonnage
(qui est l’objet de ce cours), mais elles ont depuis façonné la façon de modéliser et de raisonner autour de cette
question
1.3.2 Distribution de Dirac

Distribution de Dirac
Définition 4.19 : Distribution de Dirac

La distribution de Dirac est l’application linéaire δ qui à toute fonction φ de S(R) fait correspondre sa
valeur en 0
∀φ ∈ S(R), hδ, φi = φ(0)
Théorème 4.8 : Propriétés de la distribution de Dirac
(1) Transformée de Fourier

F {δ} = 1
(2) Produit de convolution : δ est l’élément neutre du produit de convolution
∀φ ∈ S(R), φ∗δ =φ
Preuve : Propriétés de la distribution de Dirac
(1) Soit φ ∈ S(R)
hF δ, φi = hδ, Fφi
= F {φ} (0)
Z +∞
= φ(t)dt
−∞
= hT1 , φi
où T1 est la distribution associée à la fonction constante égale à 1. Donc F {δ} = 1

(2) Soit φ ∈ S(R)
δ∗φ = t 7→ hδ, φ̃t i

= t 7→ φ̃t (0)
= t 7→ φ(t − 0)
= φ

Vision fonctionnelle
Par abus de notation, on a coutume en traitement du signal d’assi-
miler cette distribution à une fonction qui serait définie par :
1
(
+∞ si t = 0
δ(t) =
0 sinon
— On le représente par une flèche entre 0 et 1 (attention à ne
pas confondre avec un signal discret). La valeur 1 représente
la masse (ou amplitude) du Dirac.
— Il s’agit d’un signal infiniment bref, d’intégrale égale à 1 et
0
d’énergie infinie. Il vérifie la propriété suivante (totalement
abusive) :
0
t (en secondes)
Z +∞
δ(t)dt = 1
−∞
Distribution de Dirac translatée
Définition 4.20 : Distribution de Dirac translatée

Soit t0 un réel, la distribution de Dirac translatée de t0 est l’application linéaire δt0 qui à toute fonction φ
de S(R) fait correspondre sa valeur en t0
∀φ ∈ S(R), hδt0 , φi = φ(t0 )
Toujours par abus de notation et en assimilant cette distribution à une fonction, il s’agit d’une translation de t0
de la fonction Dirac :
δt0 (t) = δ(t − t0 )
Distribution de Dirac translatée
Théorème 4.9 : Distribution de Dirac translatée
(1) Multiplication par un signal
∀φ ∈ S(R), φ × δt0 = φ(t0 )δt0 ou φ(t) × δ(t − t0 ) = φ(t0 )δ(t − t0 )
(2) Convolution par un signal

∀φ ∈ S(R), φ(t) ∗ δ(t − t0 ) = φ(t − t0 )
(3) Transformée de Fourier
F {δt0 } = e−j2πf t0
Démonstration en exercice
Transformée de Fourier de l’exponentielle complexe
Théorème 4.10 : Transformée de Fourier de l’exponentielle complexe

F ej2πf0 t = δf0

Preuve : Transformée de Fourier de l’exponentielle complexe
En utilisant la transformée de Fourier inverse, on a pour φ ∈ S(R)
F −1 δf0 , φ = δf0 , F −1 φ
Z +∞
= δ f0 , φ(f )ej2πf t df
−∞
Z +∞
= φ(f )ej2πf f0 df
−∞
Z +∞
= φ(t)ej2πtf0 dt
−∞
j2πf0 t
= e ,φ
1.3.3 Peigne de Dirac

Peigne de Dirac
Définition 4.21 : Peigne de Dirac
Soit T > 0, on appelle peigne de Dirac la distribution définie par :
X
+∞
XT = δnT
n=−∞
On a donc en écriture fonctionnelle

X
+∞
XT (t) = δ(t − nT )
n=−∞
Peigne de Dirac
X
+∞
XT (t) = δ(t − nT )
... ... n=−∞
Version périodisée du Dirac : un Dirac de masse 1

apparaît à chaque temps t = nT
−3T −2T −T 0 T 2T 3T
t (en secondes)
Peigne de Dirac
Théorème 4.11 : Décomposition en série de Fourier du peigne de Dirac
Le peigne de Dirac, en tant que distribution périodique de période T admet une décomposition en série de
Fourier (résultat admis) et l’on a
1 X j2πn t
+∞
XT (t) = e T
T n=−∞

Preuve : Décomposition en série de Fourier du peigne de Dirac
En supposant admise l’existence de cette décomposition, on a
X
+∞
t
XT (t) = cn (XT )ej2πn T
n=−∞
où les coefficients de Fourier cn (XT ) se calculent de la façon suivante

Z + T2
1
XT (t)e−j2π T dt
nt
cn (XT ) =
T − T2
Z + T2
1
δ(t)e−j2π T dt
nt
=
T − T2
1D E
δ, 1[− T ,+ T ] × e−j2π T
nt
=
T 2 2
1
=
T
Peigne de Dirac
Théorème 4.12 : Transformée de Fourier du peigne de Dirac
1 X
+∞
F {XT } = δk
T T
k=−∞
On a donc en écriture fonctionnelle

1 X
+∞
k
F {XT (t)} = δ f−
T T
k=−∞
Preuve : Transformée de Fourier du peigne de Dirac
— En utilisant la décomposition en série de Fourier du peigne de Dirac, on a :
1 X j2πn t
+∞
XT (t) = e T
T n=−∞
— En prenant ensuite la transformée de Fourier (définie au sens des distributions), on en déduit
1 X
+∞
F {XT } = δk
T T
k=−∞
n t
o
car F ej2πn T =δ f− n
T
Une démonstration alternative avec la formule sommatoire de Poisson est proposée en exercice.
Peigne de Dirac

— Par analogie avec le Dirac, on a
X
+∞
x(t) × XT (t) = x(nT ) × δ(t − nT )
n=−∞
— Le peigne de Dirac est très utile pour modéliser de façon théorique le processus d’échantillonnage : on voit ici
que l’on ne garde que les valeurs de x(t) que pour les temps t multiples de la période T
— Il permet également de définir de façon naturelle la transformée de Fourier au sens des distributions des signaux
périodiques (voir corollaire suivant)
Corollaire important
x(t)
1
0.9
0.8
0.7
0.6
0.5
... ...
0.4
0.3
0.2
0.1
0
-2T -T 0 T 2T 3T
t (en secondes)
Soit x(t) un signal périodique de période T .

— Notons xT (t) la restriction du signal x(t) sur une période de durée T
— Comme le signal se répète à l’infini, il est entièrement caractérisé par son expression sur une période et on a :
X
+∞
x(t) = xT (t − nT )
n=−∞
X
+∞
= xT (t) ∗ δ(t − nT )
n=−∞
En prenant la transformée de Fourier au sens des distributions on a :
 
 X
+∞ 
F {x(t)} = F xT (t) ∗ δ(t − nT )
 
n=−∞
 
 +∞
X 
= F {xT (t)} × F δ(t − nT )
 
n=−∞
X
+∞
1 k
= XT (f ) × δ f−
T k=−∞
T
X
+∞
1 k
= XT (f )δ f −
T k=−∞
T
X
+∞
1 k k
= XT δ f−
T k=−∞
T T

x(t) |X(f)|
1 0.07
0.9
0.06
0.8
0.7 0.05
0.6
0.04
0.5
... ... 0.03
0.4
0.3 0.02
0.2
0.01
0.1
0 0
-2T -T 0 T 2T 3T -5/T -4/T -3/T -2/T -1/T 0 1/T 2/T 3/T 4/T 5/T
t (en secondes) f (en Hz)

1 X
+∞
k k
F {x(t)} = XT δ f−
T T T
k=−∞
— Le spectre d’un signal périodique est donc composé de raies fréquentielles situées en des fréquences multiples
de T1
— On pourrait au passage trouver un lien également avec les coefficients de Fourier issus de la décomposition en
série de Fourier ck (x) = T1 XT Tk
2 Echantillonnage et quantification
2.1 Signaux analogiques et numériques
Signal numérique
— Pour qu’un signal puisse être stocké sur un ordinateur il faut :
— Que le nombre d’échantillons qu’il contient soit fini : le signal doit être discret et à support temporel fini
— Que le nombre de possibilités pour les valeurs du signal soit fini : chaque valeur du signal doit pouvoir
être codée sur un nombre fini de bits
— Il faut donc un nombre fini de valeurs à stocker et un nombre fini de valeurs possibles. On appelle un tel signal
un signal numérique
Conversion analogique/numérique
Pour pouvoir convertir un signal analogique en un signal numérique, il faut :
— Échantillonnage. Choisir un ensemble fini de N temps t[n] où l’on va stocker les valeurs (conversion continu
vers discret).
x[n] = x(t[n]) où t[n] représentent les temps où le signal va être enregistré
n ∈ J0, N − 1K
— Quantification. Choisir un ensemble fini de valeurs possibles et stocker en mémoire la valeur la plus proche
de la valeur observée.
Exemple
Supposons qu’on veuille stocker en mémoire le signal analogique suivant :
x(t) = sin (2πf0 t) t ∈ [0, 5[ avec f0 = 440 Hz
1. On va uniquement observer le signal à des instants t[n]. On prend une valeur toutes les 10−3 secondes.
t[n] = 10−3 n n ∈ J0, 4999K → 5000 échantillons
2. On va coder chaque valeur x[n] = x(t[n]) sur 4 bits. Comme on sait que les valeurs sont comprises entre -1 et
15
1, on définit 24 = 16 valeurs possibles de la façon suivante :− 16 , − 13
16 , . . . , − 16 , 16 , . . . 16 . Chaque valeur est
1 1 15
associée à un code binaire comportant 4 bits.

x[10] = x 10 × 10−3 = x(0.01) = 0.587785252292471... → 0.5625 → 1101

3. En tout, ce signal sera représenté numériquement sur
5000 × 4 = 20000 bits ≈ 2.44 Ko
Bilan :
— En entrée, un signal analogique physique du monde réel
— En sortie, après échantillonnage et quantification, un vecteur binaire composé de 0 et 1 stockable et analysable
par ordinateur
Exemples :
— Enregistrement d’un son
— Enregistrement d’une photo numérique
1.5
0.5
x(t)
-0.5
-1
-1.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
t (secondes)
Etape 1 : échantillonnage dans le domaine du temps
1.5
0.5
x(t)
-0.5
-1
-1.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
t (secondes)
Etape 2 : détermination des intervalles de quantification dans le domaine des amplitudes

1.5
0.5
x(t)
-0.5
-1
-1.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
t (secondes)
Etape 3 : arrondi des échantillons à la valeur quantifiée la plus proche
1.5
0.5
x(t)
-0.5
-1
-1.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
t (secondes)
Bilan des opérations
2.2 Échantillonnage uniforme

Qu’est-ce que l’échantillonnage ?
— Principe : Convertir un signal continu en un signal discret en ne stockant que ce qui se passe à certains instants
t[n]
x[n] = x(t[n])
— On ne va considérer ici que l’échantillonnage uniforme, c’est à dire qu’on prend une valeur toutes les Te
secondes, où Te > 0 est fixe
n
t[n] = nTe =
Fe
Définition 4.22 : Période et fréquence d’échantillonnage
— Te est appelée la période d’échantillonnage (en secondes)

1
— Fe = Te est appelée la fréquence d’échantillonnage (en Hertz)

Echantillonnage uniforme
— Si on souhaite échantillonner un signal avec une fréquence d’échantillonnage Fe , on stocke ceci :
Echantillon Temps Valeur stockée
n t[n] x[n]
0 0 x(0)
1 Te x(Te )
2 2Te x(2Te )
3 3Te x(3Te )
.. .. ..
. . .
— Moyen mnémotechnique : une seconde de signal correspond à Fe échantillons
— Si on considère un signal d’une durée de d secondes, il faut donc prévoir de stocker d × Fe échantillons (plus
éventuellement les temps correspondant dans un vecteur temps).
Exemple
1.2
0.8
0.6
0.4
— Signal analogique x(t) défini sur t ∈ [0, 1[
0.2
-0.2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
t (secondes)
Exemple
1.2
— On prend une valeur toutes les 0.05 secondes en com-

0.8
mençant par t = 0 et en s’arrêtant à t = 0.95 :
0.6
— Te = 0.05 secondes
— Fe = 20 Hz
0.4 — Temps t[n] définis par
n
0.2 t[n] = nTe = pour n ∈ J0, 19K
Fe
0
t0 = 0, t1 = 0.05, t2 = 0.1, · · ·
-0.2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
t (secondes)
Exemple

1.2
0.8
— On range chaque valeur

0.6 n
x(t[n]) = x(nTe ) = x
Fe
0.4
dans un vecteur (ou un tableau)
— x[n] = x(t[n]) avec n ∈ J0, 19K
0.2
— Le signal est stocké sur N = 20 échantillons
0
-0.2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
t (secondes)
Limites de l’échantillonnage : approche qualitative

— Intuitivement si Te est trop grand (donc Fe trop petite), on va perdre de l’information.
— En particulier, si le signal x(t) varie très rapidement, si l’on veut garder toute l’information, il va falloir prendre
une fréquence d’échantillonnage très élevée
— A l’inverse, si le signal x(t) varie lentement, on n’aura pas besoin de prendre beaucoup de points
−→ Comment choisir la fréquence d’échantillonnage ?

Théorème de Shannon-Nyquist
2.3 Echantillonneur idéal

Domaine temporel
1
0.9
x(t)
0.8
— On considère un signal x(t) analogique, en
0.7
bande de base et de largeur de bande B, c’est
à dire que
0.6
0.5 X(f ) = 0 pour f ∈

/ [−B, +B]
0.4
0.3
— Echantillonner ce signal de façon uniforme,
avec une période d’échantillonnage Te revient
0.2
à multiplier ce signal par un peigne de Dirac
0.1 de période Te .
0
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
t (secondes)
Domaine temporel

0.15
X
+∞
Te δ(t − kTe )
k=−∞
— Pour des questions d’homogénéité, on utilisera

0.1
ici un peigne de Dirac multiplié par Te
X
+∞
Te XTe (t) = Te δ(t − nTe )
0.05 n=−∞
— Un Dirac de poids Te pour tous les temps mul-

tiples de Te
0
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
Ici Te = 0.1s
Domaine temporel
0.1
0.09
xe (t) — Le signal après échantillonnage peut s’écrire
0.08 xe (t) = x(t) × Te XTe (t)
 
0.07 X
+∞
= x(t) × Te δ(t − nTe )
0.06
n=−∞
0.05
X
+∞
0.04 = Te x(nTe )δ(t − nTe )

n=−∞
0.03
— Pour étudier l’échantillonnage, on peut déterminer les
0.02
propriétés de xe (t)
0.01
X
+∞
0
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 xe (t) = x(t) × Te δ(t − nTe )
t (secondes) n=−∞
Ici Te = 0.1s
Domaine fréquentiel
— On a donc
xe (t) = x(t) × Te XTe (t)
— En prenant la transformée de Fourier on a
( )
X
+∞
Xe (f ) = X(f ) ∗ F Te δ(t − nTe )
n=−∞
X
+∞
k
= X(f ) ∗ δ f−
Te
k=−∞
X
+∞
k
= X f−
Te
k=−∞
— On peut donc écrire

X
+∞
Xe (f ) = X (f − kFe )
k=−∞

2.4 Théorème de Shannon-Nyquist

Représentation visuelle
— Signal x(t) à largeur de bande finie B

— Pour aider la visualisation on suppose que X(f ) est réel
X
+∞
Xe (f ) = X (f − kFe ) avec Fe > 2B
k=−∞
— Le spectre de x(t) se répète tous les Fe

— Comme Fe > 2B, ces répétitions ne se chevauchent pas
X
+∞
Xe (f ) = X (f − kFe ) avec Fe < 2B
k=−∞
— Le spectre de x(t) se répète tous les Fe

— Comme Fe < 2B, ces répétitions se chevauchent

X
+∞
Xe (f ) = X (f − kFe ) avec Fe < 2B
k=−∞
— Sur les zones de chevauchement, l’information est détruite de façon irréversible. On appelle ce phénomène
recouvrement ou repliement de spectre (en anglais aliasing)
— Il n’est plus possible de retrouver X(f ) à partir de Xe (f )
Théorème d’échantillonnage de Shannon-Nyquist
Théorème 4.13 : Théorème d’échantillonnage de Shannon-Nyquist
Soit x(t) un signal suffisamment régulier tel que
X(f ) = 0 pour f ∈
/ [−B, +B]
et un réel Te > 0.
On peut reconstruire de façon exacte x(t) à partir de ses échantillons x[n] = x(nTe ) si et seulement si la
fréquence d’échantillonnage Fe = T1e vérifie
Fe > 2B
Corollaire : on peut reconstruire un signal échantillonné à la fréquence Fe si et seulement si il ne contient aucune

fréquence supérieure à F2e , appelée fréquence de Nyquist
Fe
: fréquence de Nyquist
2
Théorème d’échantillonnage de Shannon-Nyquist

X
+∞
— La formulation Xe (f ) = X (f − kFe ) fournit donc une démonstration du théorème de Nyquist
k=−∞
— En pratique, avant de concevoir un système d’échantillonnage, on regarde la plus haute fréquence présente dans
le spectre du signal analogique et on choisit la fréquence d’échantillonnage en fonction
— En particulier, un signal à largeur de bande infinie ne peut jamais vérifier scrupuleusement le critère de Nyquist :
il y a donc nécessairement repliement de spectre.
2.5 Reconstruction idéale

Reconstruction
— Après l’étape d’échantillonnage idéal, le signal initial x(t) devient le signal xe (t) qui peut s’écrire
X
+∞
xe (t) = Te x(nTe )δ(t − nTe )
n=−∞
— Ce signal est uniquement défini par la période d’échantillonnage Te et les échantillons du signal numérique
x[n] = x(nTe )
— Comment faire pour reconstruire le signal x(t) à partir des échantillons x[n] ?

Echantillonneur idéal : vision temporelle

1
0.9
x(t)
0.8
0.7
0.6
0.5
0.4
0.3 Echantillonneur idéal

0.2 [ ]
0.1
∑
+∞
0
xe (t) = x(t) × Te δ(t − kTe )
-5Te -4Te -3Te -2Te -Te 0 +Te +2Te +3Te +4Te +5Te
t k=−∞
0.15
xe (t)
∑
+∞
0.1 xe (t) = Te x(kTe )δ(t − kTe )

k=−∞
0.05
0
-5Te -4Te -3Te -2Te -Te 0 +Te +2Te +3Te +4Te +5Te
t
Echantillonneur idéal : vision fréquentielle
0.8
0.6
|X(f)|2
0.4
Echantillonneur idéal
0.2
∑
+∞
Xe (f ) = X (f − kFe )
0
-Fe/2 0 +Fe/2 k=−∞
f
1 — Le spectre du signal est recopié sur toutes les fré-

quences multiples de Fe
0.8
— Si le critère de Nyquist est vérifié, tous les spectres

sont disjoints
|Xe(f)|2
0.6
0.4
0.2
0
-2Fe -Fe 0 +Fe +2Fe
f
Reconstruction d’un signal
X
+∞
Xe (f ) = X (f − kFe ) avec F e > 2B
k=−∞

— Considérons le cas où la condition de Nyquist est vérifiée

— Comment peut-on reconstruire le signal x(t) à partir du signal échantillonné ?
— Il suffit de remarquer qu’entre − F2e et + F2e , on a exactement le spectre du signal original x(t)
Fe
— En filtrant avec un filtre passe-bas idéal de fréquence de coupure fc = 2 , on retrouve donc exactement le
spectre du signal X(f )
H(f ) = ΠF e (f )
X̃(f ) = Xe (f ) × ΠF e (f )
donc x̃(t) = xe (t) ∗ [Fe sinc (Fe t)]

— Le signal reconstruit x̃(t) peut donc s’écrire
x̃(t) = xe (t) ∗ [Fe sinc (Fe t)]

" #
X
+∞
1 t
= Te x(nTe )δ(t − nTe ) ∗ sinc
n=−∞
T e T e
X
+∞
t
= x(nTe ) δ(t − nTe ) ∗ sinc
n=−∞
T e
X
+∞
t − nTe
= x(nTe ) sinc
n=−∞
Te
— Si la condition de Nyquist est vérifiée, on peut donc totalement reconstruire le signal x(t) uniquement à partir
des échantillons x(nTe )
X
+∞
t − nTe
x̃(t) = x(nTe ) sinc
n=−∞
Te
Cette formule est appelée formule d’interpolation de Shannon-Nyquist

Formule d’interpolation de Shannon-Nyquist
Théorème 4.14 : Formule d’interpolation de Shannon-Nyquist
Soit x(t) un signal suffisamment régulier tel que
X(f ) = 0 pour f ∈
/ [−B, +B]
1
et un réel Te < 2B .
On peut reconstruire de façon exacte x(t) à partir de ses échantillons x[n] = x(nTe ) grâce à la formule dite
d’interpolation de Shannon-Nyquist
X
+∞
t − nTe
x̃(t) = x[n] sinc
n=−∞
Te
Exemple
1
0.9
x(t)
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
t (secondes)
Signal x(t) à largeur de bande finie B = 4 Hz, échantillonné à Fe = 10 Hz Condition de Nyquist vérifiée
Exemple
1 1
0.5 0.5
0 0
-0.5 -0.5
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
1 1
0.5 0.5
0 0
-0.5 -0.5
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
1 1
0.5 0.5
0 0
-0.5 -0.5
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
1 1
0.5 0.5
0 0
-0.5 -0.5
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
1 1
0.5 0.5
0 0
-0.5 -0.5
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
X
+∞
t − nTe
x̃(t) = x(nTe ) sinc
n=−∞
Te
Sinus cardinaux décalés et pondérés par les valeurs des échantillons, que l’on va sommer

Exemple
1
0.9
x̂(t)
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
t (secondes)
Reconstruction parfaite du signal x(t)
x̃(t) = x(t)
2.6 Quantification uniforme

Qu’est-ce que la quantification ?
— Principe : Au lieu d’avoir un signal pouvant prendre n’importe quelle valeur, on va définir un ensemble fini de
valeurs que le signal peut prendre
— Nous allons définir des intervalles de valeurs, et associer toutes les valeurs du signal comprises dans l’intervalle
à une valeur quantifiée correspondant au milieu de l’intervalle Exemple : toutes les valeurs comprises entre 0.1
et 0.3 seront associées à la valeur 0.2
— Chacune des valeurs quantifiée sera associée à un code binaire composé de 0 et 1
— En partant d’un signal discret quelconque, on arrive ainsi à un signal numérique composé de 0 et de 1
Echantillonnage vs. quantification

— Attention à ne pas confondre échantillonnage et quantification !
— L’échantillonnage a lieu dans le domaine du temps, tandis que la quantification dépend uniquement de l’am-
plitude !
— Ainsi la quantification peut également être utilisée en traitement des images, pour arrondir des notes etc...
1.5 1.5
1 1
0.5 0.5
x(t)
x(t)
0 0
-0.5 -0.5
-1 -1
-1.5 -1.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Echantillonnage Quantification
Amplitudes d’un signal

— La quantification nécessite de connaître les amplitudes minimales et maximales possibles
— xmin : amplitude la plus petite possible pour le signal
— xmax : amplitude la plus grande possible pour le signal

xmax
x(t)
x(t)
0
xmin
tmin tmax 0
Support temporel [tmin , tmax ] Support des amplitudes [xmin , xmax ]
Quantification uniforme
— Il existe de nombreuses façons de choisir les intervalles pour quantifier un signal, qui dépendent fortement du
type du signal
— Pour définir au mieux les intervalles, il faut savoir l’ordre de grandeur des valeurs prises par le signal
— Nous n’allons voir ici que la quantification uniforme : chaque intervalle de valeurs a la même taille.
— Largeur d’un intervalle constante q appelée pas de quantification
— Supposons que notre signal prend des valeurs comprises entre xmin et xmax et que l’on souhaite coder ces valeurs sur
b bits.
— Si on veut coder sur b bits, on va définir 2b intervalles.
— Afin de couvrir toutes les valeurs possibles du signal, la taille de chaque intervalle sera :
xmax − xmin
q=
2b
— Les intervalles seront donc définis comme
[xmin , xmin + q[, [xmin + q, xmin + 2q[, · · · , [xmax − q, xmax ]
— Les valeurs une fois quantifiées seront choisies sur une grille
q 3q q
xmin + , xmin + , · · · , xmax −
2 2 2
xmin xmin + q ... xmax

xmin + q
2 xmin + 3q
2
... xmax − q
2
4
3.5
2.5
xq[n]
1.5
0.5
0
0 0.5 1 1.5 2 2.5 3 3.5 4
x[n]
xmin = 0, xmax = 4, b = 2bits

Théorème 4.15 : Quantification uniforme sur b bits

x[n] − xmin q xmax − xmin
xq [n] = q + xmin + avec q =
q 2 2b
Exemple
Supposons ici que les valeurs à quantifier sont comprises entre 0 et 1, et que l’on souhaite coder chaque valeur
sur 2 bits.
1−0
— 22 = 4 intervalles chacun de longueur q = = 0.25
22
— 4 valeurs quantifiées possibles : 0.125, 0.375, 0.625, 0.875 (milieux des intervalles)
q = 0.25
0 0.25 0.5 0.75 1

0.125 0.375 0.625 0.875
00 01 10 11
Erreur de quantification
— Plus on quantifie sur peu de bits, plus on perd de l’information
— Erreur de quantification : différence entre la valeur originelle et la valeur quantifiée
— Dans le cas d’une quantification uniforme, l’erreur de quantification maximale pour une valeur est
q
erreur maximale =
2
xmin xmin + q ... xmax

xmin + q
2 xmin + 3q
2
... xmax − q
2
q
Errmax = 2
Exemple
1.5 +1
+q/2
1
0.5
xq[n] - x[n]
x(t)
0 0
-0.5
-1
-q/2
-1.5 -1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 1 2 3 4 5 6 7 8 9 10
t (secondes) n (echantillon)
Quantification sur b = 1 bit

× : avant quantification, ◦ : après quantification
Erreur de quantification xq [n] − x[n]

Exemple
1.5 +1
+q/2
0.5
xq[n] - x[n]
x(t)
0 0
-0.5
-q/2
-1
-1.5 -1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 1 2 3 4 5 6 7 8 9 10
Quantification sur b = 2 bits

Exemple
1.5 +1
0.5
+q/2
xq[n] - x[n]
x(t)
0 0
-q/2
-0.5
-1
-1.5 -1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 1 2 3 4 5 6 7 8 9 10

Exemple
1.5 +1
0.5
xq[n] - x[n]
+q/2
x(t)
0 0
-q/2
-0.5
-1
-1.5 -1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 1 2 3 4 5 6 7 8 9 10


3 Théorie des signaux aléatoires

3.1 Chaîne de communication réelle
Retour vers le schéma de Shannon
Bruit
— Jusqu’à présent nous avons supposé que le canal et l’émetteur étaient discrets... que se passe-t-il s’ils sont
continus ?
Chaîne de transmission
Considérons l’exemple d’un signal sonore (téléphone)
— Le son est d’abord échantillonné et quantifié pour être transformé en séquence de symboles discrets
— A partir des propriétés statistiques de la source, on va compresser l’information (codage source)
— Afin de limiter les erreurs de transmission, on va réencoder le signal afin d’y rajouter de la redondance (codage
canal)
— Problème : Le canal sur lequel on souhaite transmettre le message est réel et non discret (onde, câble, etc...).
Il va donc falloir former un nouveau signal physique x(t) à partir des symboles, que l’on puisse transmettre.
Chaîne de transmission réelle
ak x(t) Canal de y(t) âk

Emetteur trans- Récepteur
mission
— Au lieu d’envoyer directement les symboles ak , on va d’abord former un signal physique x(t) qui sera transmis
sur le canal
— Et le canal sera donc un canal réel et non discret...
Exemple des codes à formant

— Entrée : suite de symboles M -aires ak . Un symbole émis toutes les T secondes
X
a(t) = ak δ(t − kT )
k∈Z
— Principe : associer un signal physique x(t) à cette suite de symboles en convoluant a(t) par la réponse impul-
sionnelle he (t) d’un filtre de mise en forme (aussi appelé filtre d’émission).
— Codes à formant : même filtre de mise en forme pour tous les symboles
X
x(t) = a(t) ∗ he (t) = ak he (t − kT )
k∈Z
Modélisation d’un canal réel continu

X(t) Filtre de Y (t)
+
canal hc (t)
B(t)

Un canal réel continu est caractérisé par

— Un bruit B(t), supposé de moyenne nulle et caractérisé par sa variance σ 2
— Un filtre de canal hc (t) caractérisé par sa bande passante W (équivalent de la notion de largeur de bande
pour les systèmes). Il s’agit de la bande de fréquence que le canal va laisser passer.
Nécessité des signaux aléatoires

— On souhaiterait étudier les propriétés des signaux x(t) ainsi formés : peut-on les échantillonner ? Sont-ils à
largeur de bande finie ?
— Ceci est impossible avec les outils classiques car les ak sont aléatoires...
— Il va donc falloir introduire une nouvelle théorie du signal, adaptée cette fois aux signaux aléatoires
— Intuitivement, toutes les notions vues précédemment (transformée de Fourier, puissance moyenne, etc...) vont
être définies au sens de la moyenne (statistique)
3.2 Notion de signal aléatoire

Signal aléatoire
Définition 4.23 : Signal aléatoire
Un signal aléatoire X(t) est un ensemble de variables aléatoires paramétrées par le temps t continu.
— Dans la suite du cours, on supposera que X(t) est un signal réel

— Lorsque la variable de temps est discrète (par exemple dans le cas d’un signal échantillonné avec X[n] =
X(nTe ), on retrouve la définition d’un processus stochastique.
— Une réalisation d’un signal aléatoire est souvent appelée une trajectoire.
Notion de trajectoire : exemple
X(t) = A cos(2πf0 t) avec A tiré aléatoirement de façon uniforme entre 0 et 1

1
0.8
0.6
0.4
0.2
x(t)
-0.2
-0.4
-0.6
-0.8
-1
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
t
10 réalisations (ou trajectoires) de ce signal aléatoire
X
9
X(t) = ak δ(t − kTe ) avec ak tiré aléatoirement de façon uniforme dans {−1, +1}
k=0

1 1
0 0
-1 -1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 1
0 0
-1 -1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 1
0 0
-1 -1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 1
0 0
-1 -1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 1
0 0
-1 -1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
X(t) où chaque valeur X(t) est tirée aléatoirement selon une loi gaussienne de moyenne 0 et de variance 1
5 5
0 0
-5 -5
0 20 40 60 80 100 0 20 40 60 80 100
5 5
0 0
-5 -5
0 20 40 60 80 100 0 20 40 60 80 100
5 5
0 0
-5 -5
0 20 40 60 80 100 0 20 40 60 80 100
5 5
0 0
-5 -5
0 20 40 60 80 100 0 20 40 60 80 100
5 5
0 0
-5 -5
0 20 40 60 80 100 0 20 40 60 80 100
3.3 Stationnarité et ergodisme

Stationnarité
— Dans un signal aléatoire X(t), chaque valeur X(t0 ) est une variable aléatoire, que l’on peut étudier grâce aux
outils issus des probabilités
— Pour étudier la moyenne statistique d’un signal aléatoire il faut donc calculer E [X(t)]
— En revanche, dans le cas général la quantité E [X(t)] n’est pas constante et varie en fonction du temps
E [X(t)] = µ(t)
— Intuitivement on se rend bien compte que si les propriétés statistiques des v.a. X(t) sont toutes différentes, il
sera impossible de travailler. Nous allons donc devoir faire quelques hypothèses supplémentaires.
Stationnarité d’ordre 1
Définition 4.24 : Stationnarité d’ordre 1

Un signal aléatoire X(t) est stationnaire d’ordre 1 si
∀t, E [X(t)] = µ
— On suppose donc que toutes les v.a. X(t) ont la même moyenne statistique

Fonction d’autocorrélation
On peut également étudier les liens statistiques qui existent entre les variables aléatoires X(t1 ) et X(t2 )
Définition 4.25 : Fonction d’autocorrélation

La fonction d’autocorrélation γX (t1 , t2 ) d’un signal aléatoire X(t) est définie par
γX (t1 , t2 ) = E [X(t1 )X(t2 )]
— Dans le cas général la quantité γX (t1 , t2 ) dépend des deux variables t1 et t2

— Lorsque cette quantité ne dépend que de l’écart τ = t2 − t1 entre les instants t1 et t2 , on dit que le signal est
stationnaire d’ordre 2
∀t1 , t2 , γX (t1 , t2 ) = γX (t2 − t1 )
— Dans ce cas, il est courant d’écrire
RX (τ ) = E [X(t)X(t − τ )]
et la quantité ne dépend plus que d’une seule variable temporelle τ
Stationnarité au sens large
Définition 4.26 : Stationnarité au sens large
Un signal aléatoire X(t) est stationnaire au sens large si

— ∀t, E [X(t)] = µ (stationnarité d’ordre 1)
— ∀t, τ E [X(t)X(t − τ )] = γX (τ ) (stationnarité d’ordre 2)
Stationnarité au sens large
3 8
2.5 6
2
4
1.5
2
1
0
0.5
-2
0
-4
-0.5
-1 -6
-1.5 -8
0 2 4 6 8 10 0 2 4 6 8 10
Time (s) Time (s)
— Aucun de ces signaux n’est stationnaire au sens large

— Intuitivement, il sera dans ce cas impossible de moyenner les phénomènes, et on ne pourra donc pas définir de
notion de transformée de Fourier, largeur de bande, etc...
— L’hypothèse de stationnarité au sens large est donc fondamentale et sera supposée dans toute la suite du cours
Propriétés de la fonction d’autocorrélation
Théorème 4.16 : Propriétés de la fonction d’autocorrélation
Soit X(t) un signal aléatoire stationnaire au sens large. On a

1. γX (−τ ) = γX (τ )
2. |γX (τ ) ≤ γX (0)

Ergodisme
— Etant donné un signal aléatoire X(t) stationnaire au sens large, on souhaiterait donc pouvoir estimer sa valeur
moyenne et sa fonction d’autocorrélation
— Si l’on ne ne connaît pas les lois de probabilité des X(t), il nous faudrait donc moyenner sur un très grand
nombre de réalisations, ce qui n’est pas possible. On n’a en effet souvent accès qu’à une seule trajectoire...
— On va donc devoir faire une hypothèse supplémentaire, appelée ergodisme, qui nous assure que l’on peut estimer
ces moyennes statistiques grâce à des moyennes temporelles
Ergodisme d’ordre 1
Définition 4.27 : Ergodisme d’ordre 1
Soit X(t) un signal aléatoire stationnaire d’ordre 1 et de moyenne statistique µ. Soit x(t) une trajectoire du
signal X(t) de moyenne temporelle finie. X(t) est ergodique d’ordre 1 si
Z +T
1
lim x(t)dt = µ
T →+∞ 2T −T
— Intuitivement il s’agit de remplacer l’estimation statistique de E [X(t)] par une estimation temporelle sur une
trajectoire.
Ergodisme d’ordre 2
Définition 4.28 : Ergodisme d’ordre 2
Soit X(t) un signal aléatoire stationnaire au sens large et de moyenne statistique µ et de fonction d’autocor-
rélation γX (τ ). Soit x(t) une trajectoire du signal X(t) de moyenne temporelle finie et telle que la fonction
d’autocorrélation temporelle est bien définie. X(t) est ergodique d’ordre 2 si il est ergodique d’ordre 1 et
que
Z +T
1
lim x(t)x(t − τ )dt = γX (τ )
T →+∞ 2T −T
— Cette propriété est très difficile à vérifier dans la pratique... mais sera toujours admise
3.4 Puissance moyenne et densité spectrale de puissance

Puissance moyenne d’un signal aléatoire
— Nous avions défini la notion de puissance moyenne d’un signal déterministe comme la quantité
Z +T
1
Px = lim |x(t)|2 dt
T →+∞ 2T −T
— En supposant que le signal X(t) est stationnaire au sens large et ergodique d’ordre 2, on s’aperçoit
que toutes
ses réalisations ont la même puissance moyenne Px , et quelle est égale à γX (0) = E |X(t)|2
Définition 4.29 : Puissance moyenne d’un signal aléatoire
La puissance moyenne d’un signal aléatoire X(t) stationnaire au sens large et erdogique d’ordre 2 est la
quantité
Px = E |X(t)|2

Transformée de Fourier ?
— Nous avons vu que pour les signaux déterministes, il était important de les étudier dans le domaine fréquentiel
pour mieux comprendre leurs propriétés
— Comment faire pour un signal aléatoire ? Par définition, à chaque nouveau signal que l’on génère, on aura un
signal différent et on aura une transformée de Fourier différente !
— Pour un signal déterministe à énergie finie, on a vu que le spectre |X(f )|2 jouait le rôle d’une densité spectrale
R +∞
d’énergie (on avait Ex = −∞ |X(f )|2 df par Parseval)
— On va définir par analogie un outil similaire, également appelé densité spectrale de puissance (DSP),
permettant d’observer le contenu fréquentiel d’un signal aléatoire en moyenne
— Dans la suite on considèrera un signal aléatoire X(t) stationnaire au sens large, ergodique d’ordre 2 et de
moyenne nulle.
Construction de la densité spectrale de puissance

— Considérons la quantité
Z +T
ST (f ) = X(t)e−j2πf t dt
−T
— Il s’agit d’une variable aléatoire, et grâce au théorème de Parseval on a

Z +T Z +∞
|X(t)| dt =
2
|ST (f )|2 df
−T −∞
— En divisant par 2T et en prenant l’espérance, on obtient

Z Z
1 +T +∞
E |ST (f )|2
E |X(t)|2 dt = df
2T −T −∞ 2T
E[|ST (f )|2 ]
— En notant ΓX (f ) = limT →+∞ 2T (en supposant qu’elle existe et qu’elle est intégrable sur R) et en
faisant tendre T vers +∞, on a Z +∞
Px = ΓX (f )df
−∞
Densité spectrale de puissance
Définition 4.30 : Densité spectrale de puissance
La densité spectrale de puissance d’un signal aléatoire X(t) stationnaire au sens large, ergodique d’ordre
2 et de moyenne nulle est, lorsqu’elle existe, la quantité

E |ST (f )|2
ΓX (f ) = lim
T →+∞ 2T
— Dans la pratique, cette définition ne sera jamais utilisée car il existe une caractérisation beaucoup plus évidence
de la densité spectrale de puissance grâce à la fonction d’autocorrélation
Théorème de Wiener-Kintchine
Théorème 4.17 : Théorème de Wiener-Kintchine

La densité spectrale de puissance d’un signal aléatoire X(t) stationnaire au sens large, ergodique d’ordre
2 et de moyenne nulle est, lorsqu’elle existe égale à
ΓX (f ) = F {γX (τ )}

Preuve : Théorème de Wiener-Kintchine

— En partant de la définition on a
Z +T Z +T
′
|ST (f )|2 = ST (f )ST∗ (f ) X(t)X(t′ )e−j2πf (t−t ) dtdt′
−T −T
— En prenant l’espérance on obtient

Z Z
+T +T
′
E |ST (f )|2 = γX (t − t′ )e−j2πf (t−t ) dtdt′
−T −T
Z Z !
+2T min(+T,+T +τ )
= γX (τ )e−j2πf τ dt dτ
−2T max(−T,−T +τ )
Z +2T
= (2T − |τ |)γX (τ )e−j2πf τ dτ
−2T
— En divisant les deux membres par 2T et en faisant tendre T → +∞, on obtient bien le résultat
Filtrage des signaux aléatoires
x(t) h(t) y(t)
X(f ) H(f ) Y (f )
— Dans le cas déterministe, on a Y (f ) = X(f )H(f )

— Si l’on suppose maintenant que le signal X(t) est aléatoire, que devient l’expression ?
— h(t) est la réponse impulsionnelle d’un filtre, c’est donc une quantité déterministe dont on peut prendre la
transformée de Fourier
— En revanche, Y (t) dépend de X(t), il est donc également aléatoire !
Théorème de Wiener-Lee
Théorème 4.18 : Théorème de Wiener-Lee

Soit X(t) un signal aléatoire de densité spectrale de puissance ΓX (f ). Soit Y (t) le signal obtenu par filtrage
linéaire par le filtre de fonction de transfert H(f ), on a
ΓY (f ) = |H(f )|2 ΓX (f )

Preuve : Théorème de Wiener-Lee

— On a ∫ +∞
Y (t) = h(t′ )X(t − t′ )dt′
−∞
— Donc on peut poser

∫ +∞ ∫ +∞
Y (t)Y (t + τ ) = h(t1 )h(t2 )X(t − t1 )X(t + τ − t2 )dt1 dt2
−∞ −∞
— En prenant l’espérance on a
∫ +∞ ∫ +∞
E [Y (t)Y (t + τ )] = h(t1 )h(t2 )γX (τ + t1 − t2 )dt1 dt2
−∞ −∞
— On vérifie au passage que cette quantité ne dépend pas de t et que Y (t) est bien stationnaire au sens large. En
prenant la transformée de Fourier on a
∫ +∞ ∫ +∞ ∫ +∞
ΓY (f ) = h(t1 )h(t2 )γX (τ + t1 − t2 )e−j2πf τ dt1 dt2 dτ
−∞ −∞ −∞
— En posant t3 = τ + t1 − t2 on obtient
∫ +∞ ∫ +∞ ∫ +∞
ΓY (f ) = h(t1 )h(t2 )γX (t3 )e−j2πf (t3 +t2 −t1 ) dt1 dt2 dτ
−∞ −∞ −∞
— Cette intégrale est séparable et comme F {h ∗ (−t)} = H ∗ (f ) on obtient bien le résultat
4 Canaux gaussiens réels

Notion de bruit blanc
Définition 4.31 : Notion de bruit blanc

On appelle bruit blanc un signal aléatoire B(t) stationnaire au sens large, de moyenne nulle et tel que deux
valeurs B(t1 ) et B(t2 ) avec t1 6= t2 sont décorrélées
Théorème 4.19 : Propriétés d’un bruit blanc
1. La fonction d’autocorrélation d’un bruit blanc est γB (τ ) = σ 2 δ(τ ) où σ 2 est la variance du bruit
2. La densité spectrale de puissance d’un bruit blanc est une constante ΓB (f ) = σ 2
Canal gaussien réel à temps discret
Définition 4.32 : Canal gaussien réel à temps discret
On appelle canal gaussien réel à temps discret un canal qui transforme les valeurs d’entrées X[n] réelles en
valeurs de sorties Y [n] réelles telles que
Y [n] = X[n] + B[n]
où les B[n] sont des variables i.i.d. suivant une loi normale de moyenne nulle et de variance σ 2 , décorrélées
des X[n]
Canal gaussien réel à temps continu et à bande passante limitée

Définition 4.33 : Canal gaussien réel à temps continu et à bande passante limitée
On appelle canal gaussien réel à temps continu et à bande passante limitée un canal qui transforme un signal
aléatoire X(t) réel en un signal aléatoire Y (t) réel tel que
Y (t) = (X(t) + B(t)) ∗ h(t)
où
— B(t) est un bruit blanc additif gaussien décorrélé du signal X(t)
— h(t) est un filtre passe-bas idéal de bande passante [−W, +W ]
H(f ) = Π2W (f )
Equivalence des deux modèles

— Grâce à des considérations liées au théorème d’échantillonnage, nous allons voir qu’il existe un lien fort entre
les deux modèles
— Supposons que le signal X(t) soit à la largeur de bande finie égale à W , c’est à dire que
ΓX (f ) = 0 pour |f | > W
alors on sait que le signal (continu) à transmettre peut être parfaitement reconstruit en échantillonnant à
Fe = 2W
— L’envoi d’un signal à largeur de bande finie W de durée T est donc équivalent à l’envoi de 2W T échantillons
discrets réels
— Ainsi, l’utilisation d’un canal gaussien à temps continu et à bande passante limitée est équivalent à 2W usages
par seconde d’un canal gaussien à temps discret !
Capacités des canaux gaussiens
Théorème 4.20 : Capacité d’un gaussien réel à temps discret
La capacité C d’un canal gaussien

réel à temps discret pour un bruit blanc additif gaussien de variance σ 2
sous la contrainte E |X[n]|2 ≤ P est égale à

1 P
C = log2 1 + 2 bits par transmision
2 σ
Théorème 4.21 : Capacité d’un canal gaussien réel à temps continu et à bande passante limitée
La capacité C d’un canal gaussien réel à temps continu et à bande passante limitée W pour un signal de
puissance moyenne Px et un bruit blanc additif gaussien de densité spectrale de puissance N20 est égale à

Px
C = W log2 1 + bits par seconde
N0 W
Capacités des canaux gaussiens

— La démonstration de ces capacités fait intervenir des versions continues de l’entropie et l’information mutuelle
et sera faite en dans le Problème 8.
— Cette capacité est à la base de toutes les communications numériques actuelles et permettent de lier la capacité à
transmettre sans pertes (C), la bande passante du canal W (souvent fixée par exemple lors de communications
sans fil), la puissance du signal Px (donc la dépense énergétique), et le niveau de bruit N0 du canal de
communication

156
Références
Références
[1] Cover, T. M. (1999). Elements of information theory. John Wiley & Sons. http://staff.ustc.edu.cn/
~cgong821/Wiley.Interscience.Elements.of.Information.Theory.Jul.2006.eBook-DDU.pdf
[2] Andersson, K. G. (2015). Finite Fields and Error-Correcting Codes. Lund University. http://www.matematik.
lu.se/matematiklu/personal/sigma/Andersson.pdf
[3] Shannon, C. E. (1948). A mathematical theory of communication. The Bell system technical journal, 27(3),
379-423. https://culturemath.ens.fr/sites/default/files/p3-shannon.pdf
[4] MacKay, D. J., & Mac Kay, D. J. (2003). Information theory, inference and learning algorithms. Cambridge
University Press. https://www.inference.org.uk/itprnn/book.pdf
[5] Yeung, R. W. (2008). Information theory and network coding. Springer Science & Business Media.
[6] Dai, W. (2019). Coding theory. Imperial College London.
[7] De Marçay, F. Analyse de Fourier. Université Paris Saclay. https://www.imo.universite-paris-saclay.fr/
~merker/Enseignement/Analyse-de-Fourier/fourier-pdflatex.pdf
[8] Ling, C. (2019). Information Theory. Imperial College London. http://www.commsp.ee.ic.ac.uk/~cling/IT/
InformationTheory.htm
[9] Polyanskiy, Y. & Wu, Y. (2015). Lecture Notes on Information Theory. MIT. http://people.lids.mit.edu/
yp/homepage/data/itlectures_v5.pdf
[10] Fabre, E. (2000). Théorie de l’information & Codes correcteurs d’erreurs. ENS Cachan. http://people.
rennes.inria.fr/Eric.Fabre/Papiers/polynew.pdf

11.2-Theorie de L'information

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

11.2-Theorie de L'information

Transféré par

Droits d'auteur :

Formats disponibles

Théorie du signal et de l’information

ENS Paris Saclay

Table des matières

4 Entropies conjointe et conditionnelles, information mutuelle 33

Théorie du signal et de l’information — Laurent Oudre — 2022-2023

4.3 Diagramme de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5 Propriété asymptotique d’équirépartition (AEP) 46

2 Propriétés des codes binaires instantanés 65

3 Premier théorème de Shannon 71

III Codage canal 80

3 Capacité d’un canal 89

4 Deuxième théorème de Shannon 94

5 Théorème de séparation source-canal 95

Théorie du signal et de l’information — Laurent Oudre — 2022-2023

6 Codes détecteurs et correcteurs d’erreurs 97

IV Théorie du signal 111

2 Echantillonnage et quantiﬁcation 132

3 Théorie des signaux aléatoires 147

4 Canaux gaussiens réels 154

Théorie du signal et de l’information — Laurent Oudre — 2022-2023

Tous les supports de cours sont disponibles en ligne :

Théorie du signal et de l’information — Laurent Oudre — 2022-2023

Claude Shannon (1916 - 2001) est un ingénieur électricien et un mathématicien américain.

2.1 Théorie du signal : conversion analogique-numérique

Emetteur (source) Récepteur (destinataire)

— Emetteur : signal x(t)

Théorie du signal et de l’information — Laurent Oudre — 2022-2023

Emetteur (source) Récepteur (destinataire)

— Notion de bruit qui perturbe la communication

Etape d’échantillonnage : on n’enregistre la valeur du signal qu’à certains instants

Théorie du signal et de l’information — Laurent Oudre — 2022-2023

Etape d’échantillonnage : on n’enregistre la valeur du signal qu’à certains instants

Etape de quantiﬁcation : on n’autorise qu’un certain nombre de valeurs possibles

Un signal physique x(t) est représenté comme une série de symboles

Théorie du signal et de l’information — Laurent Oudre — 2022-2023

Inversibilité de la conversion analogique-numérique ?

2.2 Théorie de l’information : information et entropie

Qu’est-ce que l’information ?

A - La Terre va exploser demain B - Il va pleuvoir en Bretagne demain

Qu’est-ce que l’information ?

— Les deux annonces contiennent beaucoup d’information, mais diﬃcile de trancher

Théorie du signal et de l’information — Laurent Oudre — 2022-2023

Théorie de l’information : information et entropie

Comment déﬁnir la notion d’information et d’entropie ?

2.3 Codage source : compression de l’information

x pX (x) c1 (x) c2 (x)

Lequel est le plus performant ?

Théorie du signal et de l’information — Laurent Oudre — 2022-2023

Longueur moyenne d’un code

— Pour une fonction de codage c, on déﬁnit la longueur moyenne d’un code

— Ici, Lc1 = 1.75 bits et Lc2 = 2 bits

Codage source : compression de l’information

2.4 Codage canal : transmission de l’information

E [E] = np var [E] = np(1 − p)

Réduire la probabilité d’erreur

Théorie du signal et de l’information — Laurent Oudre — 2022-2023

m=1: 0 → 000 1 → 111

— Décodage par vote majoritaire

m=1: Pe ≈ 0.028 pour p = 0.1

Codage canal : transmission de l’information

Est-il possible d’avoir Pe nulle avec un rendement non nul ?

2.5 Théorie du signal [le retour] : vers les communications numériques

Théorie du signal et de l’information — Laurent Oudre — 2022-2023