Académique Documents
Professionnel Documents
Culture Documents
Master 1 Cryptographie
Universit de Rennes 1
oumar.diao@univ-rennes1.fr
Janvier 2012
Introduction
Ethymologie : information vient du verbe latin informare qui signifie
"donner forme " (ou "se former une ide de").
Actuellement, le mot "information" est troitement li aux notions de
donne, de connaissance, de communication, de signification, de perception,
de reprsentation, etc.
La thorie de linformation soccupe de la transformation, de la
transmission et de la conservation de donne (ou information). Ds lors, elle
se proccupe de lefficacit des systmes dinformation et de communication.
Pour traiter mathmatiquement les problmes soulevs par la thorie de
linformation, il faut dabord dfinir une mesure pour linformation.
Ds les annes 20, citons les tentatives de dfinition de mesure pour
linformation par Nyquist (comm.), Fisher (stat.) et Hartley (lec.).
En 1948, Shannon formalise la dfinition de la mesure pour linformation
et pose ainsi les bases de la thorie de linformation.
Codage de linformation : motivation
Lobjectif originel de la thorie de linformation est le transport et la
conservation "sans perte" dinformation : elle doit pouvoir tre restituer dans
son intgralit.
Les informations que nous recevons journalirement, sous forme de
messages (ou de nouvelles), sont stockes, transformes et traites par le
cerveau. La reproduction fidle de ses informations est difficile et pose le
problme de la quantification de linformation contenue dans une nouvelle.
Pour pouvoir messure la quantit dinformation contenue dans un
message, nous devons faire abstraction de sa forme et de son contenue.
Par exemple, lemploy des Postes qui doit mettre un message est
totalement indiffrent la signification du message, ce qui compte pour lui,
cest de faire payer un service dpendant exclusivement du nombre de mots.
Ds lors, un texte incohrent, i.e. une suite arbitraire de caractres est un
message.
Codage de linformation : introduction
Pour pouvoir tre mesurer, linformation doit dabord tre coder. Exemple :
etc.
Binaire : {0, 1}
Hexadcimal : {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, a, b, c, d, e, f }
Codage de linformation : dfinition
Un alphabet A est un ensemble fini ou "dnombrable" (de symboles), on
note A = {a1 , , aq }. Un mot M est une suite finie dlments de A. Un
mot de longueur ` est alors de la forme M = ai1 ai` . On note par A?
lensemble des mots dfini sur A. Sur lensemble A? , la "concatnation"
permet de dfinir une loi de composition interne et fait de A? un monode.
Une information peut tre dfini comme une jaxtoposition finie et alatoire
de mots. Si A contient la ponctuation, alors une information est un mot.
Msurer une information M = dfinir une "mesure mathmatique" sur M.
Donc une information M peut tre considr comme un vnement form
dune rptitition dexpriences alatoires et "indpendantes".
La quantit dinformation apporte par la ralisation dun vnement est
quivalente lincertitude sur cet vnement :
si a = 10, alors lunit dincertitude est le ban (ou dit : decimal unit) ;
F E := h(E) h(E/F ).
(E; F ) = (F ; E) = EF = F E .
n
X n
X
H(M)
e := Pr(mi )h(mi ) := Pr(mi ) log(p(mi )).
i=1 i=1
H(M)
e ne dpend que de la loi de probabilit de M
e
k
` X
X
H(X , Y ) = pij log(pij ).
i=1 j=1
` `
X X pij pij
H(X /yj ) = Pj (i) log(Pj (i)) = log .
qj qj
i=1 i=1
k k
` X
X X pij
H(X /Y ) := HY (X ) = qj H(X /yj ) := pij log .
qj
j=1 i=1 j=1
` k
` X
X X pij
H(Y /X ) := HX (Y ) = pi H(Y /xi ) := pij log .
pi
i=1 i=1 j=1
Le canal peut subir des perturbations comme les bruits, les erreurs
dcriture/lecture, etc.
Lmteur et le destinataire doivent se comprendre, ils doivent utiliser le
mme systme de codeur/dcodeur.
Avant lenvoie de linformation (considre comme un message), lmteur
doit la coder dans un alphabet A, on dit parfois alphabet de la source. Alors,
mettre un message revient faire un choix "alatoire" dun lment de A? .
Pour le rcepteur, deux conditions doivent tre ralise :
Soit (Xn )nN? la suite de v.a. dune source de mmoire m. Posons la v.a.
Pr(Zn /Zn1 , Zn2 , ..., Znm ) = Pr(Xn , Xn1 , ..., Xnm+1 /Xn1 , ..., X2 , X1 )
= Pr(Xn , Xn1 , ..., Xnm+1 /Xn1 , ..., Xnm+1 , Xnm )
= Pr(Zn /Zn1 ).
1
:= lim H(X1 , ..., Xq ).
q q
La limite existe car la suite (H(Xq /Xq1 , .., X1 )) est dcroissante et minore.
En effet, comme le conditionnement diminue lincertitude, alors pour tout q :
H(Xq /X1 , X2 , ..., Xq1 ) H(Xq /X2 , ..., Xq1 ) := H(Xq1 /X1 , ..., Xq2 ).
Soit S une source sur un alphabet A = {a1 , ..., aq }. Si les lments ai nont
pas la mme proba. alors on peut dire que A est mal utilis, car linformation
fournit par la source est infrieure au maximum possible (H(A) loga (q)).
Codage de source = transformer lalphabet de la source en un alphabet o
les symboles sont "presques" quiprobables et indpendants :
1
A B := {b1 , ..., bt } avec p(bi ) (loi uniforme).
t
Soit S = {s1 , ..., sn } une source sur A et soit B = {b1 , ..., bt } un alphabet de
rfrence (en gnral B = {0, 1} alphabet binaire).
un codage de S par B = fonction c : S B? tq c(si sj ) = c(si )c(sj )
un mot-code est limage c(si ) B? du mot si de S.
un code C sur lalphabet B est un sous-ensemble de B? , C = c(S).
C est dit rgulier (ou non-singulier) si c est une application injective
C est dit uniquement dchiffrable si et seulement si pour tout entier n, la
fonction nk=1 S k B? est injective : si u1 , .., u` C et v1 , ..., vk C, alors
u1 u2 u` = v1 v2 vk = ` = k et i, ui = vi .
C est dit prfixe si aucun mot de C nest le dbut dun autre mot de C.
C est dit de longueur fixe si tous ses mots ont la mme longueur.
C est un code de long. fixe = C est un code prfixe = C est dchiffrable.
Codage de source : exemple
{0, 11, 110, 111} nest pas un code prfixe car 11 est le debut de 110.
H
Efficacit : Lefficacit de C, dentropie H est dfinie par E = .
n loga (t)
dbit littral de la source DS = nombre de symboles mis par seconde
dbit dinformation est linformation moy. par seconde DI = DS H/n.
redondance (utile contre le bruit des canaux) est r = 1 E
comme lentropie H log2 (t) donc lefficacit E 1
Codage de source : exemple
ai Pr(ai ) C1 C2
a1 1/2 00 0
Soit A = {a1 , a2 , a3 , a4 } et deux codes a2 1/4 01 10 .
a3 1/8 10 110
a4 1/8 11 111
H(A)
log2 (q) m < 1 + log2 (q), avec une efficacit E = .
m
Pour amliorer lefficacit, on peut coder avec les paires A2 = {00, ..., 99}.
La source peut tre coder avec un code de longueur 7 et defficacit
Soit S = {s1 , ..., sn } une source discrte et soit S ` la source des `uplets. La
source S k peut tre coder avec un code rgulier de longueur mk tel que
mk 1
log2 (n) < + log2 (n).
k k
H(S)
Comme limk `k = log2 (n), alors limk E(k ) = .
log2 (n)
Impossible de sapprocher dun codage optimal avec un code rgulier.
Pour une source munie dune loi uniforme, lefficacit est proche de 1.
Lefficacit croit mais le codage et le dcodage se complexifient
Source : code de longueur variable
Pour construire des codes dchiffrables et plus particulirement des codes
irrductibles aussi conomiques que possible, nous avons :
`
X
q ni 1.
i=1
`
X
q ni 1.
i=1
1) Pour toute source S code par un code dchiffrable sur B = {b1 , ..., bq },
la longueur moyenne n des mots-code vrifie
H(S) n log(q).
`(U) log(qU )
.
`(T ) log(qT )
p2 pq qp q 2
Les canaux : proprits
Linformation transmise par le canal (A, B, T ) est
log(N)
R := .
n