Vous êtes sur la page 1sur 3

Thorie de linformation

Chapitre 2 : Estimation quantitative de l'information


1. Quantit d'information : cas lmentaire
Considrons N botes numrotes de 1 N. Un individu A a cach au hasard un objet dans une de ces botes. Un individu B doit trouver le numro de la bote o est cach l'objet. Pour cela, il a le droit de poser des questions l'individu A auxquelles celui-ci doit rpondre sans mentir par OUI ou NON. Mais chaque question pose reprsente un cot payer par l'individu B (par exemple un euro). Un individu C sait dans quelle bote est cach l'objet. Il a la possibilit de vendre cette information l'individu B. B n'acceptera ce march que si le prix de C est infrieur ou gal au cot moyen que B devrait dpenser pour trouver la bote en posant des questions A. L'information dtenue par C a donc un certain prix. Ce prix reprsente la quantit d'information reprsente par la connaissance de la bonne bote : c'est le nombre moyen de questions poser pour identifier cette bote. Nous la noterons I. EXEMPLE : Si N

= 1, I = 0. Il n'y a qu'une seule bote. Aucune question n'est ncessaire.

Si N = 2, I = 1. On demande si la bonne bote est la bote n1. La rponse OUI ou NON dtermine alors sans ambigut quelle est la bote cherche. Si N = 4, I = 2. On demande si la bote porte le n1 ou 2. La rponse permet alors d'liminer deux des botes et il suffit d'une dernire question pour trouver quelle est la bonne bote parmi les deux restantes. Si N = 2 , I = k. On crit les numros des botes en base 2. Les numros ont au plus k chiffres binaires, et pour chacun des rangs de ces chiffres, on demande si la bote cherche possde le chiffre 0 ou le chiffre 1. En k questions, on a dtermin tous les chiffres binaires de la bonne bote. Cela revient galement poser k questions, chaque question ayant pour but de diviser successivement le nombre de botes considres par 2 (mthode de dichotomie). On est donc amen poser I = log cas de N vnements quiprobables.
2(N), k

mais cette configuration ne se produit que dans le

2. Quantit d'information relative un vnement


Supposons maintenant que les botes soient colores, et qu'il y ait n botes rouges. Supposons galement que C sache que la bote o est cach l'objet est rouge. Quel est le prix de cette information ? Sans cette information, le prix payer est log(N). Muni de cette information, le prix payer n'est plus que log(n). Le prix de l'information la bote cherche est rouge est donc log(N) log(n) = log(N / n).

Thorie de linformation

On dfinit ainsi la quantit d'information comme une fonction croissante de


avec :

N le nombre d'vnements possibles n le nombre d'lments du sous-ensemble dlimit par l'information

Afin de mesurer cette quantit d'information, on pose :

I est exprim en bit (ou logon , unit introduite par Shannon, de laquelle, dans les faits, bit
est devenu un synonyme), ou bien en nat si on utilise le logarithme naturel la place du logarithme de base 2. Cette dfinition se justifie, car l'on veut les proprits suivantes : 1. l'information est comprise entre 0 et ; 2. un vnement avec peu de probabilit reprsente beaucoup d'information (exemple : Il neige en janvier contient beaucoup moins d'information que Il neige en aot pour peu que l'on soit dans l'hmisphre nord) ; 3. l'information doit tre additive. Remarque : lorsqu'on dispose de plusieurs informations, la quantit d'information globale n'est pas la somme des quantits d'information. Ceci est d la prsence du logarithme. Voir aussi : information mutuelle, information commune deux messages, qui, dans l'ide, explique cette sous-additivit de l'information.

3. Entropie, formule de Shannon


Supposons maintenant que les botes soient de diverses couleurs : n1 botes de couleur C1, n2 botes de couleur C2, , nk botes de couleurs Ck, avec n1 + n2 + + nk = N. La personne C sait de quelle couleur est la bote recherche. Quel est le prix de cette information ? L'information la bote est de couleur C1 vaut log N/n1, et cette ventualit a une probabilit n1/N. L'information la bote est de couleur C2 vaut log N/n2, et cette ventualit a une probabilit n2/N Le prix moyen de l'information est donc n1/N log N/n1 + n2/N log N/n2 + + nk/N log N/nk. Plus gnralement, si on considre k vnements disjoints de probabilits respectives p1, p2, , pk avec p1 + p2 + + pk = 1, alors la quantit d'information correspondant cette distribution de probabilit est p1 log 1/p1 + + pk log 1/pk. Cette quantit s'appelle entropie de la distribution de probabilit. L'entropie permet donc de mesurer la quantit d'information moyenne d'un ensemble d'vnements (en particulier de messages) et de mesurer son incertitude. On la note H :

Thorie de linformation

avec

la probabilit associe l'apparition de l'vnement i.