Académique Documents
Professionnel Documents
Culture Documents
2.1 Introduo
1
Hartley, R.V.L., "Transmission of Information", Bell Syst. Tech. Journal, 7, 535-63, 1928.
2
Shannon, C.E., "A Mathematical Theory of Communication", Bell Syst. Tech. Journal, 27, 379-423 e 623-56, 1948.
2.1
Departamento de Engenharia Eltrica INFORMAO, CODIFICAO E
Faculdade de Tecnologia SEGURANA DE DADOS
Universidade de Braslia Prof. Joel G. Silva Filho
e-mail: joelgf@ene.unb.br ENE - UnB
Tel. (061)273-5977 - Fax. (061)274-6651
Exemplo 2.1:
Considere uma fonte binria que emite 0's e 1's de forma independente e equiprovveis. Ento, a quantidade de
informao obtida pelo conhecimento de que os primeiros n dgitos gerados formam uma seqncia alternada de
0's e 1's ser dada por
1
I(Sn) = -log2 = n bits,
2n
que, por sinal, a mesma quantidade de informao contida em qualquer outra sequncia de n dgitos binrios
gerados por fonte semelhante. Dizemos portanto, apropriadamente, que este evento contem n-bits de informao.
2.3 Entropia
Dada uma varivel aleatria X, a qual pode assumir um nmero finito de valores possveis
xi, 1 i n, com probabilidades pi associadas a cada um destes valores, e Spi = 1, denomina-se de
entropia, representada por H(X), a esperana matemtica para a quantidade de informao contida
em um evento possvel qualquer, ou seja, a informao mdia contida neste espao probabilstico.
Para melhor entendimento, considere as seguintes proposies:
a) Um campeonato entre trs equipes menos incerto que um entre seis equipes, se as equipes
so equivalentes;
b) O resultado da rodada de uma roleta mais incerto que o lanamento de um dado;
c) O resultado da rodada de um roleta equilibrada mais incerto que o de uma roleta "viciada",
onde ocorra vermelho com 80% de probabilidade e preto com apenas 20% de chances.
Como uma medida da incerteza que temos a respeito do resultado de determinado experi-
2.2
INFORMAO, CODIFICAO E Departamento de Engenharia Eltrica
SEGURANA DE DADOS Faculdade de Tecnologia
Prof. Joel G. Silva Filho Universidade de Braslia
e-mail: joelgf@ene.unb.br
ENE - UnB Tel. (061)273-5977 - Fax. (061)274-6651
mento, devemos esperar que a entropia seja uma funo apenas da distribuio de probabilidades
para o experimento X, p1,p2,...,pn, e assim sendo, representada por H(p1,p2,...,pn). Para entender-
mos este aspecto, suponha duas variveis aleatrias distintas X e Y que podem assumir dois valores
distintos cada, X = {0,1} e Y = {100,200}. Considere tambm que p(X = 0} = p(Y = 100} = p e p(X
= 1} = p(Y = 200} = 1-p. Assim, as incertezas acerca de X e Y devem ser iguais, embora estas
variveis assumam valores completamente distintos.
As seguintes propriedades podem ser estabelecidas para a funo entropia, com base neste
conhecimento intuitivo:
1
P1) H(p1,p2,...,pn) mxima quando p1 = p2 =... = pn =
n
P2) Para qualquer permutao p de {1,2,...,n},
H(p1,p2,...,pn) = H(pp(1),pp(2),...,pp(n)),
P3) H(p1,p2,...,pn) 0, sendo zero sse pi = 1 para algum i;
P4) H(p1,p2,...,pn,0) = H(p1,p2,...,pn);
1 1 1 1 1 1
P5) H , ,..., H , ,..., ;
n n n n +1 n +1 n + 1
P6) H(p1,p2,...,pn) deve ser funo contnua dos argumentos, ou seja, uma pequena
variao em um dos argumentos no deve alterar significativamente o valor de H;
1 1 1 1 1 1 1 1 1
P7) H , ,..., = H , ,..., + H , ,..., ;
mn mn mn m m m n n n
P8) Seja p = p1 + p2 +...+ pm e q = q1 + q2 +...+ qn, onde pi,qj 0 e p+q = 1. Ento
p p p q q q
H(p1,p2,...,pn,q1,q2,...,qm) = H(p,q) + p H 1 , 2 ,..., m + q H 1 , 2 ,..., n .
p p p q q q
A propriedade (P1) nos diz que a entropia mxima quando os eventos considerados so
equiprovveis. J (P2) nos garante que o importante a distribuio de probabilidades, no
importando a ordem em que os eventos so considerados. Em (P3) estabelece-se que a incerteza
eminentemente positiva, sendo nula apenas se no houver aleatoriedade presente. A caracterstica
apresentada em (P4) assegura que apenas os eventos com probabilidade no-nula so significativos,
por exemplo, a incerteza em um dado normal de seis faces a mesma de um dado de 'sete faces', no
qual a stima face nunca ocorre. (P5) estabelece que, entre espaos probabilsticos equiprovveis,
ter maior entropia, ou ser mais incerto, aquele que contiver o maior nmero de eventos possveis
de ocorrer. A condio de linearidade da entropia estabelecida por (P7), indicando que, por
2.3
Departamento de Engenharia Eltrica INFORMAO, CODIFICAO E
Faculdade de Tecnologia SEGURANA DE DADOS
Universidade de Braslia Prof. Joel G. Silva Filho
e-mail: joelgf@ene.unb.br ENE - UnB
Tel. (061)273-5977 - Fax. (061)274-6651
exemplo, a incerteza no lanamento de dois dados deve ser a mesma que a soma das incertezas no
lanamento de cada dado, separadamente. Por ltimo, e no to bvia quanto as demais, a condio
(P8) indica que a incerteza pode ser distribuda entre sub-espaos, como, por exemplo, se
considerarmos uma corrida entre m carros brancos e n carros pretos, com pi a probabilidade de
ganhar o i-simo carro branco e qj a probabilidade de ganhar o j-simo carro preto, ento a incerteza
global ser a incerteza de ganhar um carro branco ou preto, mais a soma ponderada das incertezas
dentro de cada grupo individualmente.
Formalmente definimos a entropia de uma varivel aleatria X, que pode assumir um
nmero finito de valores, com probabilidades p1,p2,...,pn, como
funo esta que satisfaz a todos os requisitos estabelecidos pelas propriedades P1 a P8. Na
realidade, esta a nica funo satisfazendo todos estes postulados, aparte a base do logaritmo, que
poderia ser qualquer outra, e foi escolhida por convenincia, e, eventualmente, uma constante multi
plicativa. Ser sempre assumido, por problemas de continuidade, que o somatrio expresso pela
equao 1.3 calculado apenas para os valores pi estritamente positivos, ou seja, pi > 0. Podemos
ter as seguintes interpretaes para a entropia H(X):
Exemplo 2.2:
Considere o experimento de lanamento de uma moeda. Supo-nha
que tenhamos P(cara ) = p e P(coroa ) = 1-p, 0 p 1, para as
probabilidades dos resultados possveis. Usualmente, em uma
situao como esta, onde temos apenas dois eventos poss-veis,
representa-se a entropia simplesmente por h(p), ao invs de
H(p,1-p). Assim, segue-se que h(p) = -[p.log2(p) + (1-p).log2(1-
p)] e, por definio, assume-se que h(0) = h(1) = 0, de modo que
h(p) seja contnua no intervalo fechado [0,1]. Se variarmos p de 0
a 1, podemos traar um grfico da funo h(p), como mostrado na
figura 2.1 a seguir, onde claramente se observa o mximo da
funo quando os eventos so equiprovveis.
Exemplo 2.3
Considere a funo entropia para trs eventos possveis, com probabilidades associadas p1, p2 e p3. Ento,
podemos traar um grfico, tridimensional, para H(p1, p2, p3), fazendo-se p1 variar de 0 a 1, p2 de 0 a (1 -p1), e
p3, que no independente, neste caso, assumindo o valor 1 - (p1 + p2). Obtemos ento
2.4
INFORMAO, CODIFICAO E Departamento de Engenharia Eltrica
SEGURANA DE DADOS Faculdade de Tecnologia
Prof. Joel G. Silva Filho Universidade de Braslia
e-mail: joelgf@ene.unb.br
ENE - UnB Tel. (061)273-5977 - Fax. (061)274-6651
Teorema 2.1
Para qualquer inteiro positivo n e distribuio de probabilidade P = (p1,p2,...,pn),
q q i - p i
pi
i log e i
pi
p i
i
pi
= q - p
i
i
i
i = 0 , ou
Eq. 2.5 p
i
i log e (q i ) p i
i log e (p i ) ,
1
p
i
i log 2
n p i
i log 2 p i
1
log 2
n p log
i
i 2 pi
2.5
Departamento de Engenharia Eltrica INFORMAO, CODIFICAO E
Faculdade de Tecnologia SEGURANA DE DADOS
Universidade de Braslia Prof. Joel G. Silva Filho
e-mail: joelgf@ene.unb.br ENE - UnB
Tel. (061)273-5977 - Fax. (061)274-6651
- p i log 2 p i log 2 n
i
C.Q.D.
Teorema 2.2
Se X e Y so duas variveis aleatrias que assumem um nmero finito de valores, ento
Eq. 2.8 H(X,Y) H(X) + H(Y)
com a igualdade prevalecendo se e somente se X e Y forem independentes.
Prova: suponha que pi = P(X = xi), 1 i n; qj = P(Y = yj), 1 j m; rij = P(X = xi,Y = yj),
1 i n, 1 j m.. Ento,
H(X) + H(Y) = - p i log 2 p i + q j log 2 q j
i j
= - rij log 2 p i + rij log 2 q j
i j i j
2.6
INFORMAO, CODIFICAO E Departamento de Engenharia Eltrica
SEGURANA DE DADOS Faculdade de Tecnologia
Prof. Joel G. Silva Filho Universidade de Braslia
e-mail: joelgf@ene.unb.br
ENE - UnB Tel. (061)273-5977 - Fax. (061)274-6651
Considere X e Y duas variveis aleatrias que podem assumir um nmero finito de valores. A
incerteza acerca de X dado que Y = y pode ser definida, naturalmente, como
Eq. 2.9 H( X / Y = y ) = - p( X = x i / Y = y ) log 2 p( X = x i / Y = y )
i
A Eq. 2.9 pode ser interpretada como a quantidade de informao esperada de um evento em
X, dado que a ocorrncia de y em Y j conhecida. A entropia condicional H(X/Y), ou
equivocao de X em relao a Y, ser o valor mdio esperado, ponderado para todas as
possveis ocorrncias de Y, e, assim, escrevemos,
Eq. 2.10 H(X / Y) = H(X / Y = y j )p(Y = y j )
j
= H(X/Y) + H(Y)
o que se verifica ser um resultado natural, quando interpretamos que a equivocao de X (Y)
em relao a Y (X) igual incerteza total do espao conjunto (X,Y), do qual retirada a
2.7
Departamento de Engenharia Eltrica INFORMAO, CODIFICAO E
Faculdade de Tecnologia SEGURANA DE DADOS
Universidade de Braslia Prof. Joel G. Silva Filho
e-mail: joelgf@ene.unb.br ENE - UnB
Tel. (061)273-5977 - Fax. (061)274-6651
Corolrio 2.4
Se X e Y so duas variveis aleatrias independentes, ento:
i) H(X/Y) = H(X);
ii) H(Y/X) = H(Y).
Prova: Repita a prova do teorema 2.3, considerando p(xi,yj) = p(xi).p(yj), ou ainda faa uso
de que H(X,Y) = H(X) + H(Y), neste caso.
p(x i )p(y j )
= - p(x i , y j ) log 2
i, j
p(x i , y j )
p(x i )
= - p(x i , y j ) log 2
i, j
p(x i / y j )
p(y j )
= - p(x i , y j ) log 2 = I(Y;X)
i, j
p(y j / x i )
Teorema 2.4
Dadas duas variveis aleatrias X e Y, podemos escrever que a informao mtua ligando as duas
variveis ser dada por:
2.8
INFORMAO, CODIFICAO E Departamento de Engenharia Eltrica
SEGURANA DE DADOS Faculdade de Tecnologia
Prof. Joel G. Silva Filho Universidade de Braslia
e-mail: joelgf@ene.unb.br
ENE - UnB Tel. (061)273-5977 - Fax. (061)274-6651
2.5.1 Alfabetos
2.9
Departamento de Engenharia Eltrica INFORMAO, CODIFICAO E
Faculdade de Tecnologia SEGURANA DE DADOS
Universidade de Braslia Prof. Joel G. Silva Filho
e-mail: joelgf@ene.unb.br ENE - UnB
Tel. (061)273-5977 - Fax. (061)274-6651
Uma seqncia de n-letras sobre um dado alfabeto dita ser um n-grama sobre este alfabeto.
A partir de um dado alfabeto ns podemos gerar um novo alfabeto pela construo de n-
gramas sobre o alfabeto original, obtendo um alfabeto extenso. Seja
A = {a0,a1, ... ,am-1}
onde |A| = m a cardinalidade de A, ou seja, o nmero de elementos contidos no conjunto,
sendo A portanto um alfabeto de m letras. Podemos ento gerar o alfabeto A2 contendo m2 2-
gramas (di-gramas) de A, ou seja,
A2 = {a0a0,a0a1, ... ,am-1am-1}
e o alfabeto A3 contendo m3 3-gramas (tri-gramas) de A, ou seja,
A3 = .{a0a0a0,a0a0a1, ... ,am-1am-1am-1}
Generalizando, concatenando-se n letras de A, ai0ai1...ai(n-1), 1 i < m, obtemos o alfabeto An
2.10
INFORMAO, CODIFICAO E Departamento de Engenharia Eltrica
SEGURANA DE DADOS Faculdade de Tecnologia
Prof. Joel G. Silva Filho Universidade de Braslia
e-mail: joelgf@ene.unb.br
ENE - UnB Tel. (061)273-5977 - Fax. (061)274-6651
alfabeto A = { a0,a1,a2, ... ,am-1} teria suas letras associadas aos inteiros mdulo-m, na forma
a i i, i = 0,1,2,...,m-1
e portanto, sendo |A| = m, podemos representar A por Zm. Por exemplo, podemos substituir o
alfabeto A = {A,B,C, ... ,Z} pelo alfabeto Z26 = {0,1,2, ... ,25} atravs de uma
correspondncia trivial. O conjunto de todos os n-gramas de Zm ser ento denotado por Zmn.
Observe-se que Zmn pode ser entendido como um novo alfabeto de mn letras. No que se segue,
usaremos ambas as representaes para um alfabeto, conforme indique a convenincia e no
haja possibilidade de interpretao incorreta.
2.5.2 Textos
podemos dizer que uma linguagem um subconjunto de Zm*. Genericamente, ento, um texto
sobre Zm pode ser visto como
Eq. 2.16 M = (x0,x1,x2, ... ,xn-1), xi Zm, 0 i < n.
Como exemplos de textos podemos ter:
Tabela 2.1: Relao alfabeto/texto.
Alfabeto Texto
{A,B,C, ... ,Z} /E/X/E/M/P/L/O/D/E/T/E/X/T/O/
{AA,AB,AC, ... ,ZZ} /EX/EM/PL/OD/ET/EX/TO/
{A,...,Z,a,...Z, } /E/x/e/m/p/l/o/ /d/e/ /T/e/x/t/o/
{0,1} /0/1/0/1/1/0/1/1/1/0/0/1/0/0/0/1/
{Palavras do Aurlio} /exemplo/de/texto/
Consideramos como uma fonte de texto, ou gerador de texto, S, como um modelo matemtico
capaz de reproduzir, o mais fielmente possvel, textos aceitveis como pertencentes a uma
determinada linguagem, ou seja, que estejam de acordo com as regras desta linguagem.
Definimos ento uma fonte finita (infinita) de texto S em Zm como um processo estocstico,
uma seqncia finita (infinita) de variveis aleatrias:
S: (Xj0,Xj1,Xj2, ... ,Xj(n-1)), j = 0,1,2,... e n = 1,2,...
2.11
Departamento de Engenharia Eltrica INFORMAO, CODIFICAO E
Faculdade de Tecnologia SEGURANA DE DADOS
Universidade de Braslia Prof. Joel G. Silva Filho
e-mail: joelgf@ene.unb.br ENE - UnB
Tel. (061)273-5977 - Fax. (061)274-6651
2.12
INFORMAO, CODIFICAO E Departamento de Engenharia Eltrica
SEGURANA DE DADOS Faculdade de Tecnologia
Prof. Joel G. Silva Filho Universidade de Braslia
e-mail: joelgf@ene.unb.br
ENE - UnB Tel. (061)273-5977 - Fax. (061)274-6651
Eq. 2.20 pi = 1.
i
Exemplo 2.4:
Uma estimativa para a freqncia de caracteres em Portugus, considerando o alfabeto Z27, est apresentada na
Tabela 2.2 a seguir. Usando este modelo, poderamos ento obter o seguinte texto em Portugus:
S: CCENNIEPTSE UQOCCAMS AEJRNV DDA CTRAA.
Se tomarmos, por exemplo, os 4-gramas FADO e FAOD, e os 2-gramas QU e QR, podemos calcular, com base
na Tabela 2.2, as seguintes probabilidades:
p(FADO) = p(F) x p(A) x p(D) x p(O)
= 0,010 x 0,114 x 0,046 x 0,080 4,20x10-6;
p(FAOD) = p(F) x p(A) x p(O) x p(D)
= 0,010 x 0,114 x 0,080 x 0,046 4,20x10-6;
p(QU) = p(Q) x p(U) = 0,007 x 0,030 2,10x10-4;
p(QR) = p(Q) x p(R) = 0,007 x 0,053 3,71x10-4.
2.13
Departamento de Engenharia Eltrica INFORMAO, CODIFICAO E
Faculdade de Tecnologia SEGURANA DE DADOS
Universidade de Braslia Prof. Joel G. Silva Filho
e-mail: joelgf@ene.unb.br ENE - UnB
Tel. (061)273-5977 - Fax. (061)274-6651
Observamos que, pela lei dos grandes nmeros, devemos esperar que a fonte de texto do
exemplo anterior deve gerar, em mdia, 420 ocorrncias de FADO e 420 ocorrncias de
FAOD a cada amostra de 108 4-gramas, assim como 210 ocorrncias de QU e 371 de QR, a
cada 106 2-gramas. Claramente, tal situao est longe dos valores esperados para a
linguagem real (Portugus). O problema est em que a atribuio de probabilidades a um
n-grama pelo modelo de primeira ordem no leva em conta a dependncia intersmbolos
existentes na estrutura de uma linguagem real. Assim, para o portugus, os 4-gramas FADO e
FAOD devem ter probabilidades distintas, bem como os 2-gramas Q, com U, devem ter
probabilidades nulas, diferentemente do que ocorre no modelo aqui empregado.
p(t, s) = 1.
s,t
Exemplo 2.5::
Considere a Tabela 2.3, onde apresentada uma distribuio de freqncias de 2-gramas para o Portugus.
Agora, se calcularmos as probabilidades atribudas por esta fonte para FADO, FAOD, QU e QR, vamos
encontrar:
P(FADO) = p(FA) x p(DO) = 0,0013 x 0,0110 1,43x10-5
P(FAOD) = p(FA) x p(OD) = 0,0013 x 0,0022 2,86x10-6
P(QU) = p(QU) = 0,0072 e p(QR) = p(QR) = 0,0000.
Desta forma, FADO passa a ter uma probabilidade de ocorrncia diferente de FAOD, e QR descartado como
um possvel 2-grama, como seria de se esperar para a linguagem 'Portugus'.
2.14
INFORMAO, CODIFICAO E Departamento de Engenharia Eltrica
SEGURANA DE DADOS Faculdade de Tecnologia
Prof. Joel G. Silva Filho Universidade de Braslia
e-mail: joelgf@ene.unb.br
ENE - UnB Tel. (061)273-5977 - Fax. (061)274-6651
2.15
Departamento de Engenharia Eltrica INFORMAO, CODIFICAO E
Faculdade de Tecnologia SEGURANA DE DADOS
Universidade de Braslia Prof. Joel G. Silva Filho
e-mail: joelgf@ene.unb.br ENE - UnB
Tel. (061)273-5977 - Fax. (061)274-6651
Isto ocorre porque o sistema S no tem memria, sendo as probabilidades dos eventos
consideradas independentes. Outra forma de considerarmos uma fonte de texto S
modelando-se a mesma como um processo Markoviano, onde a probabilidade de ocorrncia
de um dado evento depende dos eventos anteriormente ocorridos.
Aqui tambm podemos modelar a fonte com complexidades crescentes, obtendo modelos
cada vez mais refinados, conforme indique a necessidade e a capacidade de processamento
disponvel. Uma fonte de texto S gera 1-gramas sobre Zm por uma cadeia de Markov de 1a
ordem com matriz de transio
e distribuio de equilbrio
se
p(x0,x1,...,xn-1) = p(0)p(x1/x0)p(x2/x1)...p(xn-1/xn-2)
" n = 1,2,... e n-gramas (x0,x1,...,xn-1).
p(t) 0, 0t<m
p( t) = 1 , 0t<m
t
2.16
INFORMAO, CODIFICAO E Departamento de Engenharia Eltrica
SEGURANA DE DADOS Faculdade de Tecnologia
Prof. Joel G. Silva Filho Universidade de Braslia
e-mail: joelgf@ene.unb.br
ENE - UnB Tel. (061)273-5977 - Fax. (061)274-6651
Exemplo 2.6:
Podemos construir um modelo Markoviano de 1a ordem para a fonte S do exemplo da Tabela 2.3, obtendo a
matriz de transio
2.17
Departamento de Engenharia Eltrica INFORMAO, CODIFICAO E
Faculdade de Tecnologia SEGURANA DE DADOS
Universidade de Braslia Prof. Joel G. Silva Filho
e-mail: joelgf@ene.unb.br ENE - UnB
Tel. (061)273-5977 - Fax. (061)274-6651
2.18
INFORMAO, CODIFICAO E Departamento de Engenharia Eltrica
SEGURANA DE DADOS Faculdade de Tecnologia
Prof. Joel G. Silva Filho Universidade de Braslia
e-mail: joelgf@ene.unb.br
ENE - UnB Tel. (061)273-5977 - Fax. (061)274-6651
desejada. Abra aleatoriamente o livro, e considere o primeiro caractere como x1. Abra
novamente o livro, de forma aleatria, e procure a primeira ocorrncia de x1 - o caractere que
se seguir a x1 ser tomado como x2. Repita para x2, obtendo x3, e assim por diante, obtenha
sucessivamente uma seqncia de caracteres, que satisfazem ao modelo Markoviano de 1a
ordem. Usando-se a obra "Sagarana" de Guimares Rosa, poderamos ento obter o seguinte
texto:
S: 'DE TADER A STEMERARA DANA CUR MESTE'.
Podemos aperfeioar o nosso modelo, representando a linguagem selecionada atravs de um
processo Markoviano de ordem superior, dado pelas probabilidades de transio
p(xn/(x0,x1,x2,...,xn-1))
onde a probabilidade de ocorrncia de um determinado caractere passa a ser dependente
diretamente dos n caracteres gerados imediatamente antes, obtendo um modelo Markoviano
de ordem-n. Obviamente, medida que n cresce, a matriz de transio cresce em proporo
geomtrica, passando de uma matriz mxm, m a dimenso do alfabeto, quando n = 1 (modelo
de ordem-1), para uma matriz mnxm, para o caso geral de um modelo de ordem-n. Como
exemplo, para um alfabeto de 27 letras apenas e n = 4, precisaremos armazenar uma matriz
de 531.441 x 27 elementos ( 4,3 x 106). Tal fato limita a complexidade do modelo que
manusevel, porm os exemplos que se seguem ilustram que no requerido um modelo
muito complexo, para obtermos uma aproximao "razovel" da linguagem, onde razovel
significa: aparentemente reproduz a estrutura da linguagem.
Uma vez admitido o modelo estatstico para uma dada linguagem, como vimos
anteriormente, podemos calcular a entropia da linguagem. Se chamarmos de HP a entropia da lngua
portuguesa, e considerando-se um alfabeto de 27 letras, como existem 27n n-gramas possveis em
Z27 e log227 4,76, podemos dizer ento que
HP 4,76 bits/letra.
Se utilizarmos o modelo de 1a ordem descrito pela Tabela 2.1, teremos ento uma melhor
aproximao, obtendo,
2.20
INFORMAO, CODIFICAO E Departamento de Engenharia Eltrica
SEGURANA DE DADOS Faculdade de Tecnologia
Prof. Joel G. Silva Filho Universidade de Braslia
e-mail: joelgf@ene.unb.br
ENE - UnB Tel. (061)273-5977 - Fax. (061)274-6651
Tabela 2.5: Entropia do Ingls (Shannon). Tabela 2.6: Entr. do Ingls - Mod. Markoviano Exp. (Shannon).
Z26 Z27 n Limite Inferior Limite Sup
nH
Eq. 2.23 l(n ) =
log 2 m
sendo l(n) denominado o comprimento mdio dos cdigos necessrios para representar um
n-grama tpico.
Exemplo 2.8
Considere uma fonte binria que gere os smbolos a e b com probabilidades p(a) = e p(b) = . Temos ento
que h() = 0,8113 e m = 2. Assim, para representarmos 2-gramas desta fonte, podemos utilizar, em mdia, sobre
um alfabeto binrio {0,1},
l(2) 20,8113 = 1,6226 bits/2-grama, ou, l(1) = 0,8113 bits/smbolo.
Efetivamente, podemos codificar os smbolos da fonte conforme a tabela abaixo:
Tabela 2.7: Codificao da fonte por 2-gramas.
de forma que o comprimento mdio da codificao ser l(2) = 3.(1/16) + 3.(3/16) + 2.(3/16) + 1.(9/16) = (27/16)
= 1,6875 bits/digrama ou l(1) = 0,8437 bits/smbolo.
2.21
Departamento de Engenharia Eltrica INFORMAO, CODIFICAO E
Faculdade de Tecnologia SEGURANA DE DADOS
Universidade de Braslia Prof. Joel G. Silva Filho
e-mail: joelgf@ene.unb.br ENE - UnB
Tel. (061)273-5977 - Fax. (061)274-6651
Estudos para avaliar a redundncia da lngua inglesa estimam que RE 40%, e que o
comprimento mdio das palavras em Ingls de w = 4,5 letras. Shannon estimou que,
considerando efeitos mais amplos, a entropia do Ingls poderia se reduzir a cerca de apenas 1 bit por
letra, o que resultaria em uma redundncia de cerca de 75%.
Nas prximas sees teremos oportunidade de estudar a relao entre a entropia/redun-
dncia de uma linguagem e a codificao de mensagens escritas nessa linguagem, com a finalidade
de armazenamento, transmisso ou proteo criptogrfica das mesmas.
1. Prove que o resultado de uma roleta mais incerto que o lanamento de um dado.
2. Qual preo de corrida de cavalos tem resultado mais incerto: um com 7 cavalos onde 3 tm
probabilidade 1/6 de ganhar e 4 tm probabilidade 1/8, ou outro com 8 cavalos, onde 2 tm
probabilidade 1/4 de ganhar e os outros 6 tm probabilidade 1/12?.
3. Considere uma fonte de informao binria onde p(1) = p e p(0) = 1-p. Qual a quantidade de
informao contida em uma sequncia de n-bits consecutivos onde j-bits so 1s (j n)? Qual a
informao mdia carregada por cada smbolo emitido pela fonte?
4. Um par de dados jogado. Seja X o resultado do primeiro e Y o resultado do segundo. Mostre
que H(X,Y) = H(X) + H(Y). Se Z = X+Y, mostre que H(Z) < H(X,Y).
5. Um dado jogado.
a) Calcule a quantidade de informao acerca do resultado, uma vez sabido que o mesmo par;
b) Repita (a) para o caso do conhecimento de que o resultado primo (1,2,3 ou 5).
6. Considere a lngua portuguesa descrita sobre um alfabeto de 27 letras: A =
{A,B,C,...,Z,'espao'}.
a) Qual a probabilidade de encontrarmos um texto de 27 letras (27-grama) no qual no ocorra
espao, tomando-se um modelo de ordem-zero para a linguagem;
b) Repita (a) para o modelo de ordem-1 da seo 2.5.5;
c) Ainda utilizando o mesmo modelo de ordem-1, compute:
i. o comprimento mdio das palavras em portugus, w ;
ii. a informao mdia contida em uma letra de um texto em portugus;
iii. a redundncia da linguagem.
7. Uma boa aproximao para uma linguagem natural foi proposta pelo linguista G.K. Zipf,
2.22
INFORMAO, CODIFICAO E Departamento de Engenharia Eltrica
SEGURANA DE DADOS Faculdade de Tecnologia
Prof. Joel G. Silva Filho Universidade de Braslia
e-mail: joelgf@ene.unb.br
ENE - UnB Tel. (061)273-5977 - Fax. (061)274-6651
conhecida como "Lei de Zipf". Esta lei estabelece o seguinte: para uma linguagem com um
nmero finito de palavras, w1,w2,...,wN, com probabilidades de ocorrncia p1,p2, ...,pN, uma
boa aproximao para estas probabilidades dada por
A
pn = , 1 n N,
n
onde A uma constante que depende da linguagem em questo. Considerando-se que a lngua
portuguesa possua 16000 palavras significativas, calcule:
i. O valor da constante A, neste caso;
ii. A entropia de palavras do portugus;
iii. A informao mdia por letra, considerando-se que w = 4,5 o tamanho mdio das
palavras em portugus.
8. Prove que a redundncia de uma linguagem modelada por uma fonte sem memria de ordem
zero nula.
9. O que contm mais informao: uma sequncia de 10 letras de um alfabeto de 26 letras ou uma
sequncia de 26 dgitos decimais? Considere as letras e dgitos como equiprovveis em seus
respectivos universos.
10. Mostre que, para qualquer varivel aleatria X, X R , temos H(X2 / X) = 0, contudo, d um
2.23