Vous êtes sur la page 1sur 15

CHAPITRE 1

INFORMATION ET CODAGE
CHAPITRE 1 : INFORMATION ET CODAGE (3 semaines)

I.THEORIE DE L’INFORMATION

Introduction [1]

- La théorie de l'information élaborée par l'ingénieur américain Claude Elwood Shannon en

1948, représente une partie importante de la théorie des probabilités.

- Elle affirme une communication sans erreur malgré des bruits perturbateurs affectant la

transmission.

- Elle est une mesure quantitative de l'information et étudie sa représentation, sa transmission et

sa dégradation.

- L’information désigne un ou plusieurs événements parmi un ensemble fini d’événements. Son

rôle est de diminuer l’incertitude.

- Le but de la théorie de l’information est de mesurer cette incertitude avant la réception.

II. MODELE D’UN SYSTEME DE COMMUNICATION

Message

EMETTEUR CANAL de RECEPTEUR


(SOURCE) Transmission (Destinataire)

Perturbations (Bruits, parasites, …)

Fig 1. Système de communication fondamental.


(Paradigme de Shannon)

Fig 2. Système de communication détaillé.


Le système de communication est un moyen de transmettre une information de la source jusqu’à

l’utilisateur en passant par différents éléments du système, comme par exemple :

- Source : voix, signal électromagnétique, séquences de symboles binaires,…

- Canal : ligne téléphonique, liaison radio, disque compact,…

- Bruit : perturbateur du canal : Perturbations électriques, rayures,…

- Codeur : ensemble d’opérations effectuées sur la sortie de la source avant transmission :

(Modulation, compression)  Le but est de combattre le bruit.

- Décodeur : restituer l’information de la source.

Le but d’un système de communication est de transmettre des informations entre 2 points avec le

maximum d’efficacité et de fiabilité.

Source : siège d'évènements aléatoires qui constituent le message émis : Entropie.

Canal : transmet et dégrade le message : Capacité.

Des messages différents portent la même information, le codage cherche le message avec les

meilleures propriétés.

➢ Le codage de source : permet de représenter les informations à transmettre en séquence binaire

la plus économique possible d’où « efficacité ».

➢ Le codage de canal : permet de reproduire la plus fidèlement possible cette séquence binaire

malgré le passage à travers un canal bruité (Détection- Correction d’erreur) d’où la « Fiabilité ».

- But du codage de source : supprime la redondance, réduit le coût.

- But du codage de canal : protège contre les perturbations.

La théorie de l’information est un modèles mathématiques (probabilités, codes,…) des systèmes de

communications.
Remarque : En général, on considère « Bruit Blanc » gaussien additif.

III. QUANTITE D’INFORMATION D’UNE SOURCE DISCRETE SANS MEMOIRE [2]

Une source discrète délivre un ensemble fini de symbole appelé « alphabet ».

Exemple 1 :

- Source de message → alphabet A, Z

- Source binaire → alphabet 0,1

- Source décimal → 0, 1, 2,…,9

Il existe 2 catégories de source discrètes :

1- Source avec mémoire : délivre des symboles dont chacun dépend du précédent.

2- Source sans mémoire : émet des symboles indépendants.

→ Une source discrète X est une variable aléatoire (v.a) définie par :

1- Un alphabet A=x1, x2,…, xi, ou Xi est un symbole.

2- Une distribution de probabilité : P=P(x1), P(x2),…, P(xi). On note P(x=xi)=P(xi), avec :

∑𝒏𝒊=𝟏 𝐏(𝐱𝐢) = 𝟏 (Condition de distribution).

3- Un taux de transmission de symbole : (symbole/s).

IV. QUANTITE D’INFORMATION PROPRE D’UN SYMBOL [2]

- Source d’information : siège d’événements aléatoires qui constituent le message.

- Quantité d’information d’un message : mesure son imprévisibilité.

Soit I(x) la quantité d’information apportée par le message x. I(x) est une fonction f de

1
probabilité , avec f croissante et f(1)=0, d’où I(x)= f (P(x)).
𝑃

- I(x)>0
- Si (et seulement si) les événements x et y sont indépendants  I (x  y) = I(x) + I(y) d’où :

I(x) doit être additive : I(x+y) = I(x) + I(y).

I(xi)=logb (1/p(xi)) = - logb(p(xi)) (Quantité d’information propre d’un symbole).

• Si b=2 →L’unité « Bit »

• Si b=10→ L’unité « Hartley »

• Si b=e → L’unité « Nat ».

1
Exemple 1 : Soit x une source binaire d’alphabet A=0,1 tel que : p(0)= et b=2.
4

Calculer la quantité d’information de chaque symbole ?

1
❖ Pour le symbole 0  I(0)= -log2( 4 )  I(0)=2 bits.

1 𝟑
P(1)= 1-4  P(1)=𝟒 (∑𝒏𝟏 𝐏(𝐱𝐢) = 𝟏 (Condition de distribution)).

𝟑
❖ Pour le symbole 1  I(1)= -log2 (𝟒)  I(1)=0.415 bits.

Exemple 2 :

1
Soit une source dont l’alphabet de sortie S= {a ,…,a }, a 16 éléments, avec P(ak)=
0 15 16

L’information propre de l’une des sorties ak est égale à :

1
I(ak)= log2( )= log2(16)= 4 bits.
1/16

Remarque : choisir k dans l’alphabet de {0,…,15} => on a besoin de 4 bits.

V. SOURCES DISCRETES [1]

Il existe plusieurs types de sources discrètes parmi elles :

Source discrète d'information : suite de variables aléatoires discrètes X1, X2, … Xn.

Source discrète sans mémoire : la probabilité d'apparition d'un symbole ne dépend pas

des symboles précédents. P (Xin/Xin-1, Xin-2,...)=P(Xin)


Source discrète à mémoire : la probabilité d'apparition d'un symbole dépend des symboles

précédents.

Source stationnaire : les probabilités d'apparition des différents symboles ne dépendent

pas de l'origine des temps. P(Xin)=P(Xin+k), k.

Source à débit contrôlable : source générant des messages comme suite à une commande

externe (Télégraphe,…).

Source à débit non contrôlable : source générant des messages avec un débit fixé,

propriété de la source (CD audio)

Source discrète à contraintes fixes : certains symboles ne peuvent être utilisés qu'en des

conditions déterminées (Morse, …)

Source discrète à contraintes probabilistes : source à mémoire qui peut générer des

symboles avec une probabilité qui dépend des symboles précédents (texte …)

Source de Markov : la probabilité de générer un symbole ne dépend que du symbole à

𝑋1𝑛 𝑋1𝑛
l'instant n-1. Avec : 𝑝 ( ) = 𝑝( ).
𝑋1𝑛−1, 𝑋1𝑛−2 ,… , 𝑋1𝑛−1

VI. QUANTITE D’INFORMATION MOYENNE D’UNE SOURCE (INFORMATION

MUTUELLE MOYENNE OU ENTROPIE) [1] – SOURCE ET CODAGE DE SOURCE

VI.1 Entropie d’une source d’information [1], [5]

L’entropie H(x) mesure la quantité moyenne d’information contenue dans un message. Elle mesure

l’incertitude globale sur la source.

L’information mutuelle moyenne (entropie): est la quantité d’information moyenne que la

connaissance d’un message reçu apporte sur le message émis.


Soit X une variable aléatoire d’une source d’information discrète stationnaire et sans mémoire,

d’alphabet (x1, x2, …xn) et de distribution Pi =( P(x1),P(x2),…P(xn)), Pour (x = 0, x log2(x) = 0).

La quantité d'information moyenne associée à chaque symbole de la source représente :

l’entropie, donnée par la relation suivante :

H(x) = - ∑𝒏𝒊=𝟏 𝐏(𝐱𝐢)𝒍𝒐𝒈𝒃 𝐏(𝐱𝐢) Entropie de X.

L’unité d’entropie H(x), lorsque la base b=2 est le (bit/symbole).

VI.2 Entropie d’une source binaire [3], [5]

Exemple : Soit l’entropie d’une source binaire 0,1, ou P(0)=P.

- Calculer H(x) et trouver son maximum ?

1- Calcul de H(x) :

On a : p(0)=p, p(1)=1-p

H(x)= - ∑2𝑖=1 P(xi) log2 P(xi)= - P(0) log2P(0) - P(1) log2P(1)= - (P log2 P + (1-P) log2 (1-P)).

D’où : H(x)= - P log2 P - (1-P) log2 (1-P) …...(1) Entropie d’une source binaire.

2- Maximum de H(x) :

𝒅𝑯(𝒙)
=? (Avec la base b=2)
𝐝𝐩

d(𝑙𝑜𝑔𝑏 (p)) ln 𝑝 1 1
= (logb(p))’= ( )’= * ………………..(a)
𝑑𝑝 ln 𝑏 ln 𝑏 𝑝

𝒅𝑯(𝒙) ln (1−𝑝) 1 1
= (logb(1-p))’ =( )’= -
𝐝𝐩 𝑙𝑛 𝑏 1−𝑝 𝑙𝑛 𝑏

𝒅𝑯(𝒙) 1 1 1 1
On a : ln1=0, d’où : = -(𝑙𝑜𝑔2 p + p. − 𝑙𝑜𝑔2 (1 − 𝑝) − (1 − 𝑝) )
𝐝𝐩 𝑙𝑛2 𝑝 1−𝑝 𝑙𝑛2

ln (1−𝑝) 1 1
Et (logb(1-p))’=( )’= - …………….. (b)
𝑙𝑛 𝑏 1−𝑝 𝑙𝑛 𝑏

𝒅𝑯(𝒙) 𝑝
= -(log2(p)-log2(1-p))= -log2 ( ).
𝐝𝐩 1−𝑝
𝒅𝑯(𝒙) 𝑝 𝑝 𝑝 𝟏
=0  log2( )=0  ln ( )=0  =1 P=
𝐝𝐩 1−𝑝 1−𝑝 1−𝑝 𝟐

(Avec ln1=0), on remplace P dans l’équation (1), d’où : H(x)max = 1 bit/symbole.

𝐩 = 𝟏 (é𝐯é𝐧𝐞𝐦𝐞𝐧𝐭 𝐜𝐞𝐫𝐭𝐚𝐢𝐧, 𝐬𝐲𝐦𝐛𝐨𝐥𝐞 « 𝟎 »)


Remarque : H(x)=0 = { }
𝐩 = 𝟎 (é𝐯é𝐧𝐞𝐦𝐞𝐧𝐭 𝐜𝐞𝐫𝐭𝐚𝐢𝐧, 𝐬𝐲𝐦𝐛𝐨𝐥𝐞 « 𝟏 »).

−𝒑 . 𝒍𝒐𝒈(𝒑) − (𝟏 − 𝒑) 𝒍𝒐𝒈(𝟏 − 𝒑) 𝒑𝒐𝒖𝒓 𝟎 < 𝒑 < 𝟏


𝐇(𝐗) = { }
𝟎 𝒔𝒊 𝒑 = 𝟎 𝒐𝒖 𝒑 = 𝟏

H(P)

Hmax(P)=H(P)=1

H2(P) P(0)=P
P(1)=1-P

(P)

Fig 3. Représentation de l’entropie H2(p) pour une source binaire x en fonction de la

probabilité P=P(x=0).

VI.3 Propriétés de l’entropie [1]

Quelques propriétés générales de l’entropie :

- Additivité : par définition de l'information propre : H(x,y)=H(x)+H(y/x)= H(y)+H(x/y) .

- Positive : H(X)= h(P1,P2,…,Pn)  0 d’où : H(X) ≥ 0.

𝟏 𝟏 𝟏
- Bornée : Si X est un système simple à n symboles, alors : H(X) ≤ H(𝐧 , 𝐧 , … , 𝐧 )=𝐥𝐨𝐠 𝟐 (𝐧).

avec égalité si et seulement si pi = 1=n pour tout i, 1  i  n.

- Continuité : l'entropie est une fonction continue de chaque variable pi.


- Limites inférieures et supérieures : 0 ≤ H(X) ≤ log2 Q pour une source d’alphabet {𝑥1 , 𝑥2 , … , 𝑥𝑄 }.

Exemple [5] : Démontrez que : 0 ≤ H(X) ≤ log2 Q pour une source d’alphabet {𝑥1 , 𝑥2 , … , 𝑥𝑄 }.

Preuve :

Limite inferieure :
1 1 1 1
0 ≤ P(𝑥𝑖 ) ≤ 1  𝑝(𝑥 ) ≥ 0  logb 𝑝(𝑥 ) ≥ 0  P(𝑥𝑖 )𝑙𝑜𝑔2 𝑝(𝑥 ) ≥ 0 (avec log2 𝑝 = - log2 P )
𝑖 𝑖 𝑖

𝑄 1 𝑄
D’où : ∑𝑖=1 P(𝑥𝑖 )𝑙𝑜𝑔2 𝑝(𝑥 ) ≥ 0  - ∑𝑖=1 P(𝑥𝑖 )𝑙𝑜𝑔2 P(𝑥𝑖 ) ≥ 0  H(x) ≥ 0 .
𝑖

Limite supérieure :

Soient deux distributions de probabilités respectives {𝑝1 , 𝑝2 , … , 𝑝𝑄 } et {𝑞1 , 𝑞2 , … , 𝑞𝑄 }, on

𝑞
a: ∑𝑸
𝒊=𝟏 𝐏(𝒙𝒊 )𝒍𝒐𝒈𝟐 𝑝 ≤ 0 
𝑖
Intégralité de Gibbs.
𝑖

Preuve :

Faisons la démonstration pour le logarithme népérien, la généralisation peut se faire facilement pour logb,

on utilise : ln x ≤ x-1.

𝑞𝑖 𝑞
Nous avons : ln ≤ 𝑝𝑖 -1
𝑝𝑖 𝑖

𝑞𝑖 𝑞
𝑝𝑖 ln ≤ 𝑝𝑖 (𝑝𝑖 − 1 ) ≤ 𝑞𝑖 − 𝑝𝑖
𝑝𝑖 𝑖

𝑸 𝑞𝑖
D’où : ∑𝒊=𝟏 𝑝𝑖 ln ≤ ∑𝑸
𝒊=𝟏 𝑞𝑖 − 𝑝𝑖
𝑝𝑖

≤ ∑𝑸 𝑄
𝒊=𝟏 𝑞𝑖 − ∑𝑖=1 𝑝𝑖

≤1–1

≤ 0. cqfd pour l’intégralité de Gibbs.


1
Maintenant pour démontrer que H(X) ≤ log2 Q, il suffit de mettre 𝑞𝑖 = 𝑄 dans l’intégralité de Gibbs.
𝑸
𝑞𝑖 𝑸
∑ 𝐏𝐢 𝒍𝒐𝒈𝟐 ≤ 𝟎 1
𝑝𝑖  ∑ Pi 𝑙𝑜𝑔2 ≤ 0
𝒊=𝟏
1 𝑄 𝑝𝑖
𝒊=𝟏
𝑞𝑖 =
{ 𝑄 }
1
 ∑𝑄𝑖=1 Pi 𝑙𝑜𝑔2 − ∑𝑄𝑖=1 Pi 𝑙𝑜𝑔2 𝑄 ≤ 0
𝑝𝑖

Avec : (Condition de distribution ∑𝑄𝑖=1 Pi = 1).

 H(X) ≤ 𝑙𝑜𝑔2 𝑄 ∑𝑄𝑖=1 Pi  H(X) ≤ log2 Q.

Y=x-1

Ln x

Fig 4. Convexité de la fonction y=ln x et de la tangente au point x=1.

▪ H(x)est maximale : lorsque les évènements xi sont équiprobables (c-à-d distribution

1
uniforme). i=1,…, Q ; 𝑝𝑖 =
𝑄

𝑄 1 1 1 1
et H(x)= ∑𝑖=1 Pi 𝑙𝑜𝑔2 = ∑𝑄𝑖=1 𝑙𝑜𝑔2 𝑄 = 𝑙𝑜𝑔2 𝑄 ∑𝑄𝑖=1 1  𝐻(𝑋) = 𝑄 𝑙𝑜𝑔2 𝑄. 𝑄
𝑝𝑖 𝑄 𝑄

 H(X) =𝒍𝒐𝒈𝟐 𝑸.

▪ H(x) est nulle : Lorsqu’un événement est certain (probabilité=1).

 i / pi=1  H(X) = 0. Avec : ∑𝑄𝑖=1 𝑝𝑖 = 1 , 𝑑 ′ 𝑜𝑢 ∀ 𝑗 ≠ 𝑖, 𝑝𝑗 = 0 . (On remplace Pi=1

dans l’équation de Gibbs).


VII. DEBIT D’INFORMATION ET REDONDANCE D’UNE SOURCE [1]

VII.1 Débit d’information [3]

Le débit d’information d’une source (ou vitesse d’information) est définit par le produit de son

entropie (valeur moyenne de l’information/symbole) divisé par le nombre moyen de symbole par

seconde, ce qui équivaut à : D=H(X)/ (avec  est la durée moyenne d’un symbole).

L’unité du débit D est le (bit/s).

Le débit d'information d'une source est aussi donné par la relation suivante : D = *H(x)

Avec  taux de transmission donné par : (symbole/s).

On peut écrire aussi que : D= Ht(X).

VII.2 Redondance d’une source [3]

En théorie de l’information, la redondance correspond au nombre de bits nécessaires pour

transmettre un message auquel on soustrait le nombre de bits correspondant aux informations

réellement contenues dans ce même message.

La redondance correspond à « l’espace » utilisé mais non occupé pour transmettre certaines

données. La compression de données permet de réduire ou d’éliminer la redondance que

l’utilisateur ne désire pas conserver, alors que les sommes de contrôle permettent d’ajouter une

redondance souhaitée pour les besoins du code correcteur lorsque l’utilisateur communique sur un

canal bruyant à capacité limitée.

Si l’on convient que =1, alors Ht(X) et H(X) deviennent numériquement égales. Pour

indiquer l’écart entre l’entropie d’une source et sa valeur maximale possible (lorsque les

probabilités des symboles sont égales entre elles), on définit la redondance comme la différence
entre la valeur maximale possible de l’entropie d’une source et sa valeur réelle, qui sera donnée

par : R = Hmax(X) - H(X).

La redondance rapportée à l’entropie maximale s’appelle « redondance relative » donnée par :

 = 1- H(X)/Hmax(X)

Ou : Hmax(X)=log(n), Avec n : nombre de lettre de l’alphabet de la source S.

VIII. ENTROPIE D’UN SYSTEME A « N » ETATS NON EQUIPROBABLES [4]

Supposons une probabilité P =1/N que l’image vue soit l’une particulaire des N possibles, la mesure

de l’information s’exprime par : H = log2 (N) = log2 (1/P) = - log2 (P).

L’info nécessaire pour d’écrire un événement est d’autant plus élevée que cet événement est rare.

Exemple : Soit un ensemble de 256 boules, dont 255 blanches et 1 noire. Tirez une boule au hasard,

il y a deux cas possibles : soit vous tirez une boule noire, soit vous en tirez une blanche. Le système

a donc 2 états (événements possibles), leurs probabilités sont respectivement 1/256 et 255/256.

L’événement « tirage d’une boule noire » définit l’état ultérieur du système car il ne restera que

des boules blanches. Le « tirage d’une boule blanche », est plus probable, donc il apportera moins

d’information.

• Propriétés de I(X) :

- I(X) 0, I(X) =0 si l’événement est certain, I1+2 (X) = I1(X) + I2(X).

L’information nécessaire pour décrire un système de N états est obtenue en sommant les

contributions individuelles he de chacun des états donnée par :𝐻 = ∑𝑛𝑖=1 𝑝𝑒 𝑙𝑜𝑔2 𝑝𝑒

Calculons la valeur de H pour les deux systèmes A et B :


1
- Un système A à 2 états équiprobables : 𝑝𝑎1 = 𝑝𝑎2 = 2.
255 1
- Un système B à 2 états pour lequel : 𝑝𝑏1 = 256 𝑒𝑡 𝑝𝑏2 = 256.

1 1 1 1 1 1
Ha= - ( log2 + log2 ) = + = 1 (bits/symbole)
2 2 2 2 2 2

255 255 1 1
Hb= - . log2 ( )- log2 ( ) = 0.00565+0.03125 = 0.0369 (bits/symbole).
256 256 256 256

Pour des états équiprobables Pe=1/N, on retrouve bien la première expression donnée par :

𝟏 𝟏
H= - k ∑𝑵
𝒊=𝟏 𝒍𝒐𝒈𝟐 ( ) = 𝒌. 𝒍𝒐𝒈𝟐 𝑵.
𝑵 𝑵

IX. CODAGE D’UN MESSAGE ET VITESSE DE TRANSMISSION [4]

IX.1 Codage optimal

Soit un message codé sur 4 lettres (les symboles A, B, C, D) dont les probabilités respectives sont :

1/2, 1/4, 1/8, 1/8. La source du message est un système à 4 états possibles (4 symboles) son entropie
1 1 3 3 7
H vaut : 𝐻 = − ∑𝑛𝑖=1 𝑝𝑒 𝑙𝑜𝑔2 𝑝𝑒 = 2 + 2 + 8 + 8 = 4 = 1.75

Pour transmettre des messages de cette source efficacement, il faut réduire le minimum le nombre

de bits par symbole. Dans le tableau suivant, on va voir deux exemples de codage, l’un a nombre

fixe de bits par symboles (deux), l’autre à nombre variables de bits par symbole (de 1 à 3).

Symboles A B C D Entropie H

Pe 1/2 1/4 1/8 1/8

-log2 Pe 1 2 3 3 H=7/4

𝑯 = − 𝒑𝒆 𝒍𝒐𝒈𝟐 𝒑𝒆 1/2 1/2 3/8 3/8

Codage fixe 00 01 10 11

Nombre de bits 2 2 2 2 H=2bits/symb

Codage optimal 0 10 110 111

Nombre de bits 1 2 3 3 H=7/4 bits/symb


Avec le codage de longueur variable illustré dans les deux dernières lignes du tableau, on a pris

pour chaque symbole un nombre de bits égale à - log2 Pe. Ceci permet d’égaliser le nombre moyen de

bits par symbole à l’entropie de la source. Shannon a démontrer que : le nombre moyen de bits par symbole

est égal ou supérieur à l’entropie de la source.

X. INFORMATION MUTUELLE ET ECART ENTROPIQUE [4]

X.1 Différence d’entropie entre deux sources

Soit deux sources de même nombre d’état, mais de probabilités différentes, on va démontrer que

l’entropie d’une source est maximale quand ses états sont équiprobables.

Soit Hm l’entropie d’une source, calculée en supposant que ses N états sont équiprobables, donc

chacun des probabilités Qi=Q (constante)=1/N.

Hm= − ∑𝑛𝑖=1 𝑄𝑖 𝑙𝑜𝑔2 𝑄𝑖 avec Qi=Q ,  i, ∑ 𝑄𝑖 = 1, Hm=log2 N

Soit H l’entropie de cette source, calculée en connaissant les probabilités individuelles de ses

différents états : H= − ∑𝑛𝑖=1 𝑃𝑖 𝑙𝑜𝑔2 𝑃𝑖 avec Pi variable selon i et ∑ 𝑃𝑖 = 1.

La différence entre les deux entropies vaut :

Hm-H=− ∑𝑛𝑖=1 𝑄𝑖 𝑙𝑜𝑔2 𝑄𝑖 + ∑𝑛𝑖=1 𝑃𝑖 𝑙𝑜𝑔2 𝑃𝑖

Comme les Qi sont tous égaux : Hm-H =−𝑙𝑜𝑔2 𝑄 ∑𝑛𝑖=1 𝑄𝑖 + ∑𝑛𝑖=1 𝑃𝑖 𝑙𝑜𝑔2 𝑃𝑖

Comme ∑ 𝑄𝑖 = ∑ 𝑃𝑖 = 1 : Hm-H =−𝑙𝑜𝑔2 𝑄 ∑𝑛𝑖=1 𝑃𝑖 + ∑𝑛𝑖=1 𝑃𝑖 𝑙𝑜𝑔2 𝑃𝑖

𝑃
On peut factoriser Hm-H : Hm-H =+ ∑𝑛𝑖=1 𝑃𝑖 𝑙𝑜𝑔2 (𝑄𝑖𝑖 )

X.2 Distance entropique de Kullback – Lieber [4]

Soit une source à N états de probabilités Pi, on appelle distance de Kullback-Lieber la valeur

𝑷
donnée par : K = ∑𝒏𝒊=𝟏 𝑷𝒊 𝒍𝒐𝒈𝟐 (𝑸𝒊𝒊 ).

K : Quantité d’information apportée par une source par la connaissance exacte de sa répartition de

probabilité erronée Qi. C’est une distance mathématique, car elle est toujours positive (ou nulle),
et relie deux points de coordonnées formées respectivement par les Qi et les Pi dans un espace à N

dimensions.

Exemple d’application [4] :

Démontrer que la distance de Kullback – Lieber est une valeur positive  Qi et  Pi.

Indice : Démonter d’abord que : ∑𝑛𝑖=1 𝑄𝑖 𝑙𝑜𝑔2 𝑄𝑖 ≤ ∑𝑛𝑖=1 𝑃𝑖 𝑙𝑜𝑔2 𝑃𝑖 ,  Qi et  Pi, en définissant

la différence des probabilités : Ui=Qi-Pi dans l’expression de Log2 Qi.

Solution de l’exemple d’application [4] :

Soit Ui=Qi-Pi (la différence entre deux probabilité).

∑𝑛𝑖=1 𝑝𝑖 𝑙𝑜𝑔2 𝑄𝑖 = ∑𝑛𝑖=1 𝑝𝑖 𝑙𝑜𝑔2 (𝑝𝑖 + 𝑈𝑖 ) Avec Pi+Ui=Qi

𝑈𝑖
= ∑𝑛𝑖=1 𝑝𝑖 𝑙𝑜𝑔2 [𝑃𝑖 (1 + )]
𝑝𝑖

𝑈𝑖 𝑈𝑖
= ∑𝑛𝑖=1 𝑝𝑖 [ 𝑙𝑜𝑔2 𝑝𝑖 + 𝑙𝑜𝑔2 (1 + )]. On pose : =𝑋
𝑝𝑖 𝑝𝑖

𝑈𝑖
= ∑𝑛𝑖=1 𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖 + ∑𝑛𝑖=1 𝑝𝑖 [ 𝑙𝑜𝑔2 (1 + )]
𝑝𝑖

Or : 𝑙𝑜𝑔2 (1 + 𝑋) = ln(1 + 𝑋) /𝑙𝑛2 et ln (1+X) ≤ X pour tout X  𝑙𝑜𝑔2 (1 + 𝑋) ≤ 𝑋/𝑙𝑛2 pour tout X.

𝑈𝑖 𝑈𝑖
 𝑝𝑖 𝑙𝑜𝑔2 (1 + ) ≤ 𝑃𝑖 𝑃𝑖 𝑙𝑛2
𝑝𝑖

𝑈𝑖 1
 ∑𝑛𝑖=1 𝑝𝑖 [ 𝑙𝑜𝑔2 (1 + )] ≤ (𝑙𝑛2 ) ∑𝑛𝑖=1 𝑈𝑖
𝑝𝑖

Or d’après la définition de Ui on voit que ∑𝑛𝑖=1 𝑈𝑖 0. (car ∑𝑛𝑖=1 𝑈𝑖 = ∑𝑛𝑖=1 𝑝𝑖 = 1 𝑒𝑡 1 − 1 = 0).

𝑈𝑖
 ∑𝑛𝑖=1 𝑝𝑖 [ 𝑙𝑜𝑔2 (1 + )] ≤0.
𝑝𝑖

Et en revenant à l’expression du départ cala implique que : ∑𝑛𝑖=1 𝑝𝑖 𝑙𝑜𝑔2 𝑄𝑖 ≤ ∑𝑛𝑖=1 𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖
𝒑
 ∑𝑛𝑖=1 𝑝𝑖 ( 𝑙𝑜𝑔2 𝑄𝑖 − 𝑙𝑜𝑔2 𝑝𝑖 ) ≤0.  𝐊 = ∑𝒏𝒊=𝟏 𝒑𝒊 𝒍𝒐𝒈𝟐 ( 𝑸𝒊 ) ≥ 𝟎
𝒊

Vous aimerez peut-être aussi