Dialnet InformacionYEntropiaEnEconomia 3812950

INFORMACIN Y ENTROPA EN
ECONOMA
lvaro Montenegro*
D esde el punto de vista econmico, transmitir, recibir y procesar

(entender) un texto o mensaje tiene un costo y exige un es-
fuerzo que solo se justifica si el beneficio esperado es mayor que el
costo. El beneficio depende del nivel de informacin contenido en
el mensaje.
La teora de la informacin, tambin conocida como estadstica
de la informacin o teora de la comunicacin, adems de estudiar las
formas ms eficientes de almacenar, codificar, transmitir y procesar la
informacin, se ocupa de la tarea de definir qu es informacin.
El concepto de entropa, cercano al de informacin, y asociado
con el caos, tuvo origen en la termodinmica, donde describe la
variacin de la energa no utilizable de un sistema (la cual crece en
los sistemas cerrados), y en estadstica mecnica, donde el concepto
se reformul para que fuera proporcional al nmero de estados que
puede tomar potencialmente un sistema; en este sentido, es similar a
un espacio muestral. En una formulacin posterior, la cual se sigue en
este artculo, el contenido de informacin es funcin del inverso de
las probabilidades de los eventos del espacio muestral, y la entropa
es el promedio o valor esperado de dicha informacin.
Para ilustrar esta definicin, relacionada con el grado de sorpresa
del contenido de un mensaje, veamos algunos ejemplos. Si recibimos el
mensaje maana el sol se elevar sobre el horizonte, pensaremos que
el mensaje no da mucha informacin y no vale la pena gastar recursos
en transmitirlo y procesarlo pues solo reporta el hecho predecible de
* Doctor en economa, profesor titular del Departamento de Economa de
la Pontificia Universidad Javeriana, Bogot, Colombia, [amontene@javeriana.
edu.co]. Fecha de recepcin: 14 de julio de 2011, fecha de modificacin: 27
de octubre de 2011, fecha de aceptacin: 28 de octubre de 2011.
Revista de Economa Institucional, vol. 13, n. 25, segundo semestre/2011, pp. 199-221
200 lvaro Montenegro
que la tierra continuar girando sobre su eje, trayendo el da y la noche

tal como ha ocurrido durante millones de aos. Pero, maana el sol
no se elevar sobre el horizonte transmite algo que no esperbamos,
con un alto grado de sorpresa y de informacin.
Intuimos que cuanto mayor sea la sorpresa de lo que se transmi-
te mayor ser la cantidad de informacin que contiene el mensaje,
y viceversa. El grado de sorpresa se puede asociar al concepto de
probabilidad matemtica; la sorpresa es mayor cuanto menor sea la
probabilidad de ocurrencia del evento reportado, y viceversa. Espec-
ficamente, la cantidad de informacin es inversamente proporcional
a la probabilidad de ocurrencia del evento en cuestin. Si es cercana
a 1, es decir, si se anuncia algo esperado, como en maana el sol
se elevar sobre el horizonte o el gobierno lamenta la muerte del
Papa, la informacin es cercana a 0. Pero si la probabilidad es ms
baja, como en maana temblar en Bogot o Colombia invade a
Estados Unidos, el contenido de informacin es mayor.
Desde el punto de vista de la eficiencia, es razonable esperar que la
transmisin de eventos probables requiera menos tiempo (un menor
costo promedio) que la transmisin de eventos sorpresivos. Un ejem-
plo es el cdigo Morse, cuyos signos ms comunes (ms probables)
se representan en general con menos caracteres y con ms caracteres
los que menos se usan (cuadro 1). Los caracteres son rayas y puntos,
o sus representaciones binarias. Algunas vocales, especialmente la e, y
otras letras muy usadas en ingls, tienen cdigos cortos de dos o tres
caracteres. Hay un mensaje en Morse que contiene una gran cantidad
de informacin, compuesto por pocos smbolos fciles de reproducir:
el pedido de auxilio, SOS, que se transmite como una secuencia de
tres puntos, tres rayas y tres puntos:
... ... ... ... ... ... ... ...
Cuadro 1
Cdigo Morse
A . M Y . 6 ....
B ... N . Z .. 7 ...
C .. O .. 8 ..
D .. P . . . 9 .
E . Q . .. . ...
F ... R .. Ch , ..
G . S ... 0 ? .. ..
H .... T 1 . ! .._ _.
I .. U .. 2 .. : ...
J . V ... 3 ... ....
K . W . 4 .... . .
L ... X .. 5 ..... = ...
Informacin y entropa en economa 201
MTRICA DE LA INFORMACIN
Los primeros intentos de enmarcar el tema de la informacin en una

teora formal surgieron en los aos veinte, con el trabajo de Hartley
(1928), y luego con el trabajo de Shannon (1948), quien subray los
conceptos probabilsticos en el tratamiento de la informacin y de
su transmisin1.
Ya se mencion que la cantidad de informacin de un mensaje se
relaciona con la probabilidad de ocurrencia del evento reportado: a
mayor sorpresa ms informacin. En trminos formales, sea I la can-
tidad de informacin y P la probabilidad del evento. I es entonces una
funcin del inverso de P, I = f(1/P), como se ilustra en la grfica 1.
Grfica 1
I
0 1 P
Adems, es razonable suponer que la informacin I es una cantidad

positiva, continua en P, y que la informacin contenida en dos eventos
independientes es la suma de la informacin individual. Se puede
mostrar que la nica funcin que cumple estas propiedades es la
logartmica (ver, p. ej., Chen y Alajaji, 2005, cap. 2). As, la cantidad
de informacin de un mensaje I se define como:
I = log(1/P) = logP
donde I es igual a 0 cuando P es igual a 1 (el evento ya se conoca o la

noticia se esperaba con total certeza), y muy grande cuando P tiende
a 0 (para eventos sorprendentes, como los milagros).
La probabilidad P depende en gran parte de la frecuencia con la
que el evento en cuestin haya ocurrido anteriormente y de la manera
como va cambiando la percepcin de la gente. En consecuencia, la
cantidad de informacin I puede cambiar en el tiempo. Por ejemplo,
1
Para mayores detalles de la formalizacin de estos conceptos, ver Lathi (1974),
Thomas (1975), Krippendorff (1986), Brmaud (1988), Chen y Alajaji (2005),
y Gray (2009). Para una extensin del concepto de informacin a documentos
pblicos y noticias, ver Montenegro (1995).
la probabilidad de que maana el sol no se eleve sobre el horizonte

es casi 0, pero si maana no se eleva, la probabilidad de que no se
eleve pasado maana aumenta, a la vez que disminuye el contenido
de informacin de ese mismo mensaje en el futuro.
ENFOQUE TCNICO
Se puede llegar a una definicin tcnica del contenido de informacin

similar a la que se obtiene de manera intuitiva.
El problema es similar a un problema de optimizacin sujeto a
restricciones impuestas por la tecnologa disponible y la naturaleza,
como el ruido. Los mensajes se originan en una fuente y deben trans-
mitirse a travs de un medio o canal hasta llegar a su destino o receptor.
Esto se debe hacer minimizando la distorsin que puedan causar el
medio de transmisin y el ruido y, a la vez, maximizando el nmero
de mensajes enviados por unidad de tiempo, o costo. Es, en resumen,
un problema de eficiencia. Por tanto, la cantidad de informacin de
un mensaje es proporcional al costo de transmisin.
Desde el punto de vista tcnico, la teora de la informacin se
concentra en la transmisin binaria, es decir, en la transmisin de
unos y ceros, pulsos y no pulsos, rayas y puntos, etc. Un bit (binary
unit) es algo que puede tomar uno de esos dos estados.
Cuando solo hay dos mensajes posibles, por ejemplo, {llovi, no
llovi}, basta enviar un uno o un cero. Uno si llovi y cero si no llovi,
o viceversa; en todo caso, esta asignacin, llamada codificacin, debe
ser conocida por el receptor. Este uno o cero enviado es un bit. En
otras palabras, para enviar un mensaje con dos posibilidades solo es
necesario un bit. Pero si se trata de ms posibilidades, por ejemplo, {no
llovi, llovi poco, llovi el promedio y llovi mucho}, necesitamos
dos bits de informacin para transmitir estos cuatro mensajes, un uno
o un cero seguido por otro uno o cero. As formamos los cdigos 00,
01, 11 o 10, a los que podemos asignar los cuatro mensajes.
Si fueran ocho mensajes necesitaramos tres bits de informacin
para formar los ocho cdigos, 000, 001, 011, 111, 110, 100, 101, 010, ne-
cesarios para distinguir los ocho mensajes. En resumen, para enviar
2i mensajes se requieren I = log22i = i bits de informacin.
Cuando los mensajes tienen diferentes probabilidades de ocu-
rrencia pueden existir esquemas distintos para asignar cdigos con
el mismo nmero de dgitos binarios a cada mensaje de modo que
la transmisin sea ms eficiente, es decir, que los mensajes se puedan
transmitir con menos de log22i bits en promedio. En esta formulacin
es conveniente expresar el contenido de informacin directamente

en trminos de probabilidades.
Supongamos que podemos enviar uno de 8 mensajes: A, B, C, D,
E, F, G, H, los cuales tienen diferente probabilidad de ocurrencia. En
principio, como ya se seal, se podran codificar con tres dgitos
binarios asignndoles los cdigos 000, 001, 011, 111, 110, 100, 101, 010,
lo que requerira log23 = 3. Pero como los mensajes tienen diferentes
probabilidades se puede encontrar un esquema ms eficiente (que
requiera menos bits). Siguiendo un ejemplo que se encuentra en
Touretzky (2004), supongamos que los 8 mensajes tienen probabili-
dades, 1/2, 1/4, 1/8, 1/16, 1/32, 1/64, 1/128, 1/128, que suman 1. En vez de
codificar con tres dgitos cada mensaje, usamos un cdigo de longitud
variable. Si enviamos el mensaje A transmitimos 0, si enviamos B
transmitimos 10; as, 010 representa AB, y as sucesivamente, como se
muestra a continuacin:
A 0
B 10
C 110
D 1110
E 11110
F 111110
G 1111110
H 1111111
En la codificacin anterior no se usan, por ejemplo, los cdigos 1 para

B o 00 para C porque en una secuencia de transmisin no se sabra
dnde empiezan y dnde terminan los cdigos de cada mensaje, donde
el 0 indica el fin de un mensaje (excepto para H, el cual se reconoce
fcilmente que est compuesto por siete unos). La transmisin de
cada mensaje individual requiere tantos bits como dgitos binarios
tenga su cdigo, pero el valor esperado del esquema de codificacin
es menor que 3; segn esta codificacin la transmisin requerira, en
promedio:
1 2 3 4 5 6 7 7
+ + + + + + + = 1,98 bits,
2 4 8 16 32 64 128 128
menos de 3 bits. El resultado anterior debe entenderse en el contexto

de un gran nmero de repeticiones, de un promedio o valor esperado,
pues la transmisin de un solo mensaje requiere un costo proporcional
a la longitud de su cdigo. Es en la repeticin donde se obtienen aho-
rros en trminos del costo promedio por mensaje. En otras palabras,
en el ejemplo anterior la transmisin de 1.000 mensajes requerira

1.980 bits en promedio, en vez de 3.000. El promedio anterior es la
entropa que se discute a continuacin.
ENTROPA
El resultado anterior se formaliza partiendo de un conjunto de mensa-

jes independientes {m1, m2,..., mn} llamados alfabeto, con probabilidades
{P1, P2,..., Pn}. Los mensajes pueden ser las letras A, B,, H del ejemplo
anterior o los smbolos del alfabeto Morse.
Si se enva una serie N de estos mensajes, donde N es grande,
habr aproximadamente P1N mensajes m1, P2N mensajes m2 y as su-
cesivamente. Todas las secuencias S tendrn la misma probabilidad
de ocurrencia porque contendrn el mismo nmero de mensajes mi,
probabilidad que ser expresada por el producto de las probabilidades
de repetir cada mi, donde i = 1, 2,..., n:
P(S) = (P1 ) P1 N(P2 ) P2 N (Pn ) Pn N
Como ejemplo, supongamos los eventos {llovi, no llovi} con

probabilidades {0,1, 0,9}. Si N es grande la probabilidad de cualquier
secuencia ser la misma: (0,1)0,1N(0,9)0,9N, aunque el orden de envo de
los mensajes cambia de una serie otra.
Retomando la definicin de informacin como el logaritmo del
inverso de la probabilidad P(S), podemos escribir la informacin de
la secuencia S como:
P1 N P2 N Pn N
1 1 1 P12 N
P1 N
1 1
Pn N
n n
1 1
I (S)I (S) = log12 = log
= log = log12 = N= NP log Pi log 2
P(S)P(S) P1 P1 P2 P2 Pn Pn Pi Pi
2 2 i 2
i=1 i=1
Ahora definimos:
n n
I (S)I (S) n= P log1 1 n
H =H = N = Pi logi 2 2=P = Pi log Pi log P
2 Pi 2 i
N i =1 i =1 Pi i i =1 i =1
como el contenido promedio de informacin por mensaje, o sea la

esperanza matemtica de cada mensaje. Tambin se puede interpretar
como el contenido promedio de la incertidumbre asociada a la fuente
de mensajes. La variable H fue introducida por Shannon (1948), quien
la llam entropa, tomando prestado el nombre de un concepto de la
mecnica estadstica que usa la misma frmula. La entropa representa
el mnimo nmero de bits (costo) que se requiere en promedio para
transmitir un mensaje.
limPlim
P0+loPg P
log=P0= 0
P 0+
En la frmula de H se considera que si la probabilidad de uno de

los mensajes es 0 su contribucin a la entropa tambin es 0, lo cual
se justifica matemticamente porque:
lim P log P = 0
P 0+lim P log P = 0
P 0+
En general, en trminos de una variable x y su probabilidad, definimos

la entropa como el valor esperado del contenido de informacin:
H(X ) = E[ log 2 P(x)] = P(x)log 2 P(x)

H(X ) = E[ log 2 P(x)] =x X P(x)log 2 P(x)
x X
La entropa H(X) es mayor cuanto ms uniforme (ms equiprobable) es

la distribucin de X, y llega a un mximo cuando todos los elementos
de X tienen la misma probabilidad. Si X puede tomar un nmero L
de valores o estados posibles, se puede demostrar que la entropa est
acotada como sigue:
0 H(X) logL logL
0 H(X)
0 H(X) logL
expresin que es igual a 0 si P(x)=1, lo que implica que X es determi-
nstica y tiene 0 incertidumbre, e igual a logL si P(x)=1/L para todo x
(ver Massey, 1998, cap. 1). Es decir, la mxima entropa se alcanza
cuando todos los estados posibles tienen la misma probabilidad de
ocurrencia.
Como se seal antes, las unidades se denominan bits cuando la base
del logaritmo es 2. Pero se puede utilizar una base diferente; para el
logaritmo natural las unidades de informacin se denominan nats.
En adelante se usa la base 2 salvo que se indique lo contrario.
LA ENTROPA EN LA FSICA
El concepto de entropa se desarroll en la segunda mitad del siglo

XIX, primero en termodinmica por Rudolf Clausius, quien acu
el trmino, y luego en mecnica estadstica por Ludwig Boltzmann,
quien la present en trminos probabilsticos. En fsica, la entropa es
una variable de estado, como la temperatura, el volumen, la presin o
la energa interna, que describe el estado del sistema en un momento
dado, en contraste con variables como velocidad, posicin o masa que
pueden describir las condiciones individuales de las molculas que
conforman el sistema.
En termodinmica, y de manera informal, la entropa tiene que
ver con el hecho de que no toda la energa que entra en un proceso
(p. ej., el accionar de un motor) se aprovecha para realizar trabajo ya
que parte se pierde en forma de calor o ruido. Si bien la energa se

conserva, parte se transforma en formas menos tiles para realizar
trabajo. La frmula derivada en termodinmica relaciona el cambio
en la entropa con la transferencia de calor Q realizada a una tempe-
ratura T, y se expresa como:
Q
H=
T
Se puede demostrar que esta formulacin es compatible con la defi-

nicin de entropa en mecnica estadstica:
H = k log
en apariencia ms cercana a la frmula de Shannon que a la frmula

termodinmica. En la formulacin de mecnica estadstica k es la
constante de Boltzmann y es el nmero de estados que puede tomar
un sistema. Por ejemplo, si se lanza un dado, es 6; si se lanzan dos
y se registra el resultado de las caras, es 36. En fsica, un sistema
puede contener billones de molculas, cada una de las cuales puede
ser descrita con la ayuda de varias coordenadas de manera que
alcanza fcilmente el orden de billones de billones. Si suponemos
estados equiprobables y notamos que, en esencia, el inverso de es
la probabilidad de cada uno de ellos (P = 1/) y hacemos k = 1, nos
acercamos a la nocin de entropa de la informacin:
1 1 1
H = log =
log = log
En fsica, la entropa es una medida del desorden o del caos del siste-
ma. En teora de la informacin, es una medida de la incertidumbre
asociada a la fuente de mensajes. No hay consenso sobre si hay o
no hay relacin entre ambos tipos de entropa, excepto que tienen
frmulas similares.
La primera ley de la termodinmica dice que la energa se conser-
va. La segunda ley de la termodinmica, o ley de la entropa, implica
que, si bien la energa se conserva, el tipo de energa utilizable para
hacer trabajo disminuye o al menos no aumenta en un sistema ce-
rrado. La entropa en un sistema cerrado mide la cantidad de energa
inutilizable. La segunda ley implica que el calor fluye del cuerpo con
ms temperatura al cuerpo con menos temperatura y no al contrario.
Hoy es menos popular la definicin de entropa como aumento del
desorden o caos y ms popular la definicin de dispersin espontnea
de energa o como medida de procesos irreversibles.
ENTROPA MULTIVARIADA
La definicin de entropa puede extenderse a vectores de variables.

Para el vector X, Y, caracterizado por la distribucin de probabilidad
conjunta , la y)log
H(X ,Y) = P(x, y)P(x, entropa
P(x, y) conjunta se escribe:

x X,y Y
H(X ,Y) = P(x, y)logP(x, y)
x X,y Y
Para variables independientes, cuya distribucin conjunta se puede

expresar como P(x, y) = P(x)P(y), la entropa es aditiva:
H(X, Y ) = H(X) + H(Y )
H(X, Y ) = H(X) + H(Y )
H(X, Y ) = H(X) + H(Y )
De manera similar, se puede definir la entropa condicional como una
cantidad que indica el comportamiento de la informacin o incerti-
dumbre de una variable cuando se conoce otra:
H(X / Y) = P(x, y)log P(x / y)

x X,y Y
H(X / Y) = P(x, y)log P(x / y)
Recordemos que estamos escribiendo el valor esperado de P(x/y), que
x X,y Y
es una funcin de x y y, de modo que la distribucin de probabilidad

apropiada es la distribucin conjunta de x y y, P(x, y). Si X puede tomar
un nmero de L valores o estados posibles, se puede demostrar que:
0 H(X/Y ) logL
igual a 0 si P(x/y) = 1 para algn x e igual a logL si P(x/y) = 1/L para todo
x.
Haciendo uso de P(x, y) = P(x)P(y/x) = P(y)P(x/y), la entropa conjunta
puede relacionarse con la entropa condicional a travs de:
H(X, Y ) = H(X) + H(Y/X) = H(Y ) + H(X/Y )
Se puede demostrar que H(X/Y ) H(X), cumpliendo la igualdad cuando

X y Y son independientes (ver Chen y Alajaji, 2005); el conocimiento
de Y da informacin adicional que puede reducir la incertidumbre
sobre X (pero nunca aumentarla). En el extremo, H(X/Y ) = 0 indicara
que X se torna determinstica luego de conocer Y. De lo anterior se
deduce que H(X, Y ) H(X) + H(Y ), cumpliendo la igualdad cuando X
y Y son independientes.
El concepto de informacin mutua se define como:
P(x, y)
I (X ;Y) = H(X ) H(X / Y) = H(Y) H(Y / X ) = P(x, y)log P(x)P( y)
x X y Y
208 P(x, y) lvaro Montenegro
I (X ;Y) = H(X ) H(X / Y) = H(Y) H(Y / X ) = P(x, y)log P(x)P( y)
x X y Y
donde el ltimo trmino de la derecha carece de signo negativo por-

que equivale a H(X/Y ) H(X). Ntese que la expresin es simtrica,
es decir, I(X; Y ) = I(Y; X). La informacin mutua refleja la informacin
que una variable proporciona acerca de la otra; mide la dependencia
entre X y Y. En general:
0 I(X; Y ) min[H(X), H(Y )]
que es igual a 0 cuando X y Y son independientes e igual a min[H(X),

H(Y )] cuando X y Y se relacionan determinsticamente. Otra formu-
lacin es:
I(X; Y ) = H(X) + H(Y ) H(X, Y )
denotando la informacin mutua como la interseccin de H(X) y

H(Y ).
Otro concepto muy til es el de entropa relativa de Kullback-
Leibler, que mide la divergencia o distancia entre dos distribuciones
de probabilidad definidas sobre los mismos valores de x:
P(x) P(x)
DKL (P,Q) = E log
Q(x)
= P(x)log Q(x)
x X
Se puede demostrar que DKL(P, Q) 0 e igual a 0 si ambas distribucio-

nes son iguales para todo x (ver, p. ej., Massey, 1998, cap. 1). Por otro
lado, la entropa relativa de Kullback-Leibler no es simtrica, DKL(P,
Q) DKL(Q, P); si P(x) es diferente de 0 mientras algn Q(x) es 0, DKL(P,
Q) = pero DKL(Q, P) no. Ntese que la informacin mutua puede
expresarse como:
I(X; Y ) = DKL(P(x, y), (P(x)P(y))
La grfica 2, tomada de Chen y Alajaji (2005, 37), muestra un diagra-

ma de Venn que ilustra la interrelacin de estos conceptos.
Grfica 2
H(X, Y)
H(X) H(X/Y) I(X; Y) H(Y/X) H(Y)
Tambin existen versiones de entropa para variables continuas:
H(X)==
H(X) (x)log
X(x)log
X
X(x)dx
X(x)dx
H( X, Y ) = f X,Y ( x , y ) log f X,Y ( x , y )dxdy
f X ,Y (x, y)
H(X / Y) = H(X ,Y) H(Y) = f X ,Y (x, y)log dx dy
f Y ( y)
f X ,Y (x, y)
I (X ;Y) = H(X ) + H(Y) H(X ,Y) = f X ,Y (x, y)log dx dy
f X (x) f Y ( y)
las cuales no necesariamente son positivas porque las funciones de

densidad continuas pueden tomar valores mayores de 1.
APUESTAS
Una de las primeras aplicaciones de estos conceptos de informacin

y entropa a un campo distinto de la codificacin y transmisin de
informacin se encuentra en un artculo de Kelly (1956) sobre las
apuestas con informacin privilegiada. Kelly trata varios casos. En
todos, un apostador obtiene informacin sobre el resultado de una
apuesta a travs de un canal de comunicacin contaminado por ruido
que puede inducir errores. El apostador recibe la informacin antes
que el pblico en general.
El primer caso trata de dos posibles resultados, es decir, un resultado
binario donde el mensaje transmitido tiene una probabilidad p de ser
transmitido con error y una probabilidad 1 p de ser transmitido sin
error. Si el apostador apuesta todo su capital (a todo o nada) en cada
una de las N rondas, maximiza su valor esperado:
EVN = [2(1 p)]NV0
donde V0 es el capital inicial y VN el final. Sin embargo, si N es grande

el apostador perder todo en algn momento con una probabilidad
igual a 1. Si en vez de apostar todo apuesta una fraccin de su ca-
pital tenemos:
VN = (1+)W (1-)LV0
donde W es el nmero de veces que gana y L es el nmero de veces

que pierde en las N rondas. La tasa de ganancia exponencial ser:
1 1 VNVN WW LL
G =Glim
= lim loglog
1 = NVlim
=Nlim log(1
W+ +) + )N+ log(1
log(1 L ) =) (1= (1p)log(1
log(1 + +) + )plog(1
p)log(1 + plog(1 ) )
N NN V N
N V
G = lim 0 log0 N N
= lim log(1 + N) + log(1 ) = (1 p)log(1 + ) + plog(1 )
N N V0 N N N
donde G es la ganancia por perodo en 2GN = VN/V0 (si en vez del lo-
garitmo en base 2 usamos el logaritmo natural, la expresin es eGN
= VN/V0). Esta expresin se maximiza con respecto a derivando e
igualando a 0, y se obtiene:
1 1p p p p
= 0=, 0de donde
, de donde = 1= 12 p 2 p
1 +1 + 1 1 p1 p = 0 , de donde = 1 2 p
1+ 1
Remplazando en G, obtenemos:
Gmax = (1 p)log2(1 p)+plog2p = 1 + (1 p)log(1 p)+plogp
Gmax
Gmax= (1 p)log2(1
= (1 p)+plog2p
p)log2(1 = 1= +1 (1
p)+plog2p p)log(1
+ (1 p)+plogp
p)log(1 p)+plogp
Gque
max = (1 p)log2(1 p)+plog2p = 1 + (1 p)log(1 p)+plogp
depende de la entropa de la transmisin. Ntese que, por ser una
entropa binaria, la cantidad (1 p)log(1 p)+plogp vara entre 0 y -1, con
lo cual 0 Gmax 1. Kelly muestra que, en el largo plazo, un apostador
que escoja la fraccin as obtenida, superar a otro que invierta una
fraccin diferente.
Generalizando, en el segundo caso Kelly supone varios mensajes
de entrada excluyentes, s, y no necesariamente equiprobables. La
informacin privilegiada en el sentido de que al apostador se le
transmite el resultado (de una carrera de caballos, p. ej.) antes que el
pblico en general lo conozca puede estar distorsionada por ruido
o porque el apostador no confa plenamente en su fuente. Por ello se
involucran probabilidades condicionales en el clculo. Kelly supone
que el apostador mantiene invertido todo su capital:
a(saa(s
/ r)/ r)
=1 1
r ) =/=
(s /a(s 1r) = 1
s
s s
s
donde a(s/r) es la proporcin del capital que apuesta a s despus de

recibir el mensaje r. El capital del apostador evoluciona as:
VN = [a(s / r ) ] V0
W
s
r ,s
donde W es el nmero de veces que se transmite s y se recibe r, y s

son relaciones de probabilidades (odds ratio), esto es, el nmero de
veces que se multiplica el valor apostado si ocurre s.
Al final de la primera ronda, V1 ser igual a V0 multiplicado por
a(s/r)s (con los datos del s que haya ganado en esa ronda); al final de
la segunda ronda, V2 ser igual a V1 multiplicado por a(s/r)s (con los
datos del s que haya ganado en la segunda ronda), y as sucesivamente.
Para el s ganador, el capital aumenta en las rondas donde a(s/r)s > 1 y

disminuye en las rondas donde a(s/r)s < 1.
Tomando logaritmos y un N grande, obtenemos la tasa de ganancia
exponencial:
1 V
G = lim 1 log VN = P(s,r )log a(s / r )
G = Nlim N log VN0 = r ,s P(s,r )log ssa(s / r )
N1 N V V
G = Vlim log N =0 P(s,r r ,s
)log sa(s / r )
log NN =N WV
V =0 G
P(s)log
1
log
,s = lim
0 V
1sa(s
+
r ,s
/Vr )
P(s,r
= )log a(s )log
/ r ) a(s / r )
log s +log P(s,r
N
G =1 lim rP(s)log
V
s
N
= r ,s P(s,r P(s,r )log
)loga(ssa(s
/ r )/ r )s
G = lim N
s
log NNN
= N0P(s,r
V V0
r ,sr ,s)log r ,sa(s / r )
N
= P(s)log
s
+
N 1 V0 VN r ,s r ,s
s P(s,r )log sa(s / r )
G = lim
s log
= V P(s)log= P(s,r+)logP(s,r a(s / r )a(s / r )
N= NP(s)log
0 s +r ,s
P(s,r
s )logs a(s)log/ r)
= P(s)log s s +
s P(s,rr ,s)log a(s / r )
r ,s
s
= P(s)log sr ,s+ P(s,r )log a(s / r )
s r ,s
donde P(s,r) es la probabilidad conjunta de s y r, y P(s) es la probabi-

lidad de s.
1
Suponiendo
G = P(s)log que1 + lasP(s,rapuestas
) log a(s / rsean justas
) = H(X ) + P(s,r (fair) logodds),
a(s / r ) esto es s =
G = s P(s)log P(s) + r ,s P(s,r ) log a(s / r ) = H(X ) + r ,s P(s,r ) log a(s / r )
G =, tenemos:
1/P(s) 1 P(s)
P(s)log
s
+ P(s,r
r ,s
) log a(s / r ) = H(X ) + P(s,rr ,s
) log a(s / r )
s P(s) 1 r ,s 1 r ,s
G = GP(s)log = P(s)log + P(s,r ) log a(s / r ) = H(X ) + P(s,r ) log a(s / r )
1 s P(s) + P(s)P(s,rr ,s) log a(s / r ) = H(X ) + P(s,rr ,s) log a(s / r )
G = P(s)log s 1
+ P(s,rr ,s) log a(s / r ) = H(X ) + P(s,rr ,s) log a(s / r )
H(X )P(s)
= P(s)log 1
G s= H(X P(s)log ) = s 1P(s)log r ,s
+ 1P(s,rP(s) ) log a(s / r ) = H(X )r ,s+ P(s,r ) log a(s / r )
P(s) r ,s P(s)
H(X s ) = P(s)log s
r ,s
s P(s) 1 1
donde H(X ) H(X = P(s)log) = P(s)log es la entropa de la fuente.
1 s P(s) P(s) L
H(X ) = P(s)log a(s / r ) = 1
s
P(s) 1 L s
a(s / r ) = 1
s
H(X ) = P(s)log a(s se
/ r )maximiza
=1
Dado un resultado s
recibido
P(s) Lr , la ganancia G
s
escogiendo
s
L =. LaP(s,r expresin
) log a(s / r )del(1lagrangiano L , sujetoa(s a / r) = 1 , es:
a(s/r) L a(s / r ) = 1
a(s / Lr ))
L = s P(s,r ) log a(s / r ) (1 L s
a(s / r )) a(s / rs ) = 1 s
L = P(s,r s
) log a(s / r ) (1 a(s
s
/ rL)) s
a(s / r ) = 1
s s s
L =
L = P(s,r ) log a(s / r ) (1 P(s,r ) log a(s / r ) (1
a(s / r ))a(s / r ))
L = P(s,rs ) log a(s s / r) (1 a(s / rs )) s
cuyas
s condiciones
L = P(s,r ) log a(s / r ) (1
de sprimer orden son:
a(s / r ))
Ls P(s,r ) s
L = P(s,r ) =0
a(s / r ) = a(s / r ) =0
La(s / r )P(s,r a(s) / r )
= =0
a(s / r )L a(s L/P(s,r r ) ) P(s,r )
=) = =0 =0
L L P(s,r
L ==/1r )a(sa(s
a(s /a(s
r )//=rr)a(s
0) = 0/ r )
a(s / r )L =a(s 1 /P(s,r
r ) a(s ) / r) = 0
L = ss =0
a(s= /1r ) a(s a(s//rr)) = 0
L s L
L = 1 = a(s 1 / r )a(s = 0/ r ) = 0
= 1De la a(sprimera
/ rs ) = 0 s condicin se obtiene:
L
= 1s a(s / r ) = 0
s 1
a(s / r ) = 1 P(s,r )
a(s / r ) = P(s,r )
s
1 s
a(s
s
/ r) = P(s,r
s
)
s s1 1
a(s1/ r ) = a(s / r ) =P(s,r ) P(s,r )
a(s / rs ) = s P(s,rs ) s
s 1
a(s / r ) = s P(s,r )
= P(s,r )s
s
= s P(s,r
Revista de )Economa Institucional, vol. 13, n. 25, segundo semestre/2011, pp. 199-221
= P(s,r s
)
s
= P(s,r = ) P(s,r )
= P(s,rs ) s
s
= P(s,r )
1
a(s / r ) = P(s,r )
s s
Y sustituyndola en la segunda se llega a:

= P(s,r )
P(s,rs )
P(s,r ) P( j / r ) = 0
a(s / r ) P(j j / r ) = 0
a(sP(s,r
/ r) ) j
As, la primera P( j / r ) = 0se transforma en:
P(s,r
a(s / r)) j
P( j / r ) = 0
P(s,r
a(s / r )) j
P( j / r ) = 0
a(s / r ) j
P(s,r ) P(s,r )
a(s / r ) =P(s,r ) = )
P(s,r = P(s / r )
Finalmente,
a(s / r ) = P( jdespejando
,r
= ) P(r=) P(s / a(s/r)
r) obtenemos:
P(s,r
P(j j ,r ) P(s,r
P(r ) )
a(s / r ) = j = = P(s / r )
P( j ),r ) P(s,r
P(s,r P(r ))
a(s / r ) = j = = P(s / r )
P(s,r
P( j ,r)) P(r P(s,r
))
a(s / r ) = j = = P(s / r )
P( j ,r ) P(r )
j
lo que implica que el apostador maximiza su ganancia escogiendo cada

a(s/r) de manera proporcional a la probabilidad de s dado el mensaje
recibido r.)El
Gmax = H(X + valor mximo
P(s,r )log P(s / r ) = de
H(Xla) tasa
H(X de
/ Y)ganancia ser:
Gmax = H(X ) + P(s,r r ,s )log P(s / r ) = H(X ) H(X / Y)
Gmax = H(X ) +r ,s P(s,r )log P(s / r ) = H(X ) H(X / Y)
Gmax = H(X ) + r ,s P(s,r )log P(s / r ) = H(X ) H(X / Y)
Gmax = H(X ) + r ,s P(s,r )log P(s / r ) = H(X ) H(X / Y)
donde H(X) r,s H(X/Y ) = I(X; Y ) es la informacin
mutua antes descrita,
que mide la dependencia entre variables y tiende a 0 cuando hay in-
dependencia total y es mayor que 0 segn el grado de dependencia.
Aun si s 1/P(s), lo que quiere decir que las probabilidades no
corresponden a las apuestas hechas por el pblico (unfair odds), Ke-
lley demuestra que la ganancia G se mxima escogiendo a(s/r) = P(s/r),
es decir, que el apostador ignora las probabilidades implcitas en las
apuestas que hace el pblico s,
Gmax = P(s,r )log P(s / r ) + P(s)log (s) = H(X / Y) + H( )
Gmax = P(s,r r ,s )log P(s / r ) + P(s)log
s (s) = H(X / Y) + H( )
Gmax =r ,s P(s,r )log P(s / r ) +s P(s)log (s) = H(X / Y) + H( )
Gmax = r ,s P(s,r )log P(s / r ) + s P(s)log (s) = H(X / Y) + H( )
donde H( ) = P(s)log (s) .
GmaxH(
= r,s
) P(s,r )log
= P(s)log
s P(s/ (s)
r ) + s P(s)log (s) = H(X / Y) + H( )
r ,s s
H( ) = s P(s)log (s)
En otros contextos, las apuestas pblicas (odds) podran corresponder a
las predicciones de los analistas del mercado burstil, mientras que las
probabilidades s condicionales P(s/r) podran ser las que surgen del an-
lisis propio del inversionista, incluyendo informacin privilegiada.
ALGUNAS APLICACIONES ECONMICAS
En economa, el concepto de entropa se aplica en dos reas: aquellas

que tienen semejanzas con la termodinmica, como la degradacin
de las habilidades productivas, y aquellas que se refieren al contenido

de la informacin y su utilizacin en el anlisis de datos.
El creciente inters en la combinacin de conceptos econmicos
y fsicos se aprecia en publicaciones como la revista Physica A, cuya
seccin permanente titulada Econophysics incluye estudios que ana-
lizan variables econmicas desde la ptica de la mecnica estadstica
y usando conceptos tericos de la fsica: entropa, leyes de potencia,
movimiento browniano, etc.
Georgescu-Roegen (1971) examina los lmites que la entropa
impone al crecimiento econmico; su analoga del reloj de arena ilustra
cmo un sistema cerrado, sin intercambio de energa con el exterior,
pierde capacidad para hacer trabajo productivo. La arena que va ca-
yendo pierde su energa potencial o habilidad para realizar trabajo.
Puede argumentarse que nuestro sistema no es cerrado ya que recibe
energa del sol. Sin embargo, esta energa fluye a una tasa finita, como
la arena que cae por la restriccin en la mitad del reloj. El autor subraya
que este concepto de restriccin en la tasa de transmisin de energa
est ausente en los modelos neoclsicos, empezando por el diagrama
tradicional del flujo circular de la produccin y la distribucin.
Samuelson (1986) y Smith y Foley (2002) encuentran analogas
entre la teora econmica neoclsica y las leyes de la termodinmica.
En un estudio de la sostenibilidad del crecimiento econmico, Mc-
Mahon y Mrozek (1997) aceptan que la teora neoclsica incluye el
efecto de la primera ley de la termodinmica sobre la conservacin
de la materia y la energa, pero consideran necesario complementarla
con el concepto de entropa o segunda ley de la termodinmica, segn
la cual los procesos son irreversibles en el tiempo. Esto implica que
si bien la energa y la materia se conservan en un sistema cerrado,
como el sistema solar, la calidad y el tipo de insumos nunca se re-
cuperan a partir del producto, degradando paulatinamente el acervo
de recursos.
Por otra parte, la economa de la informacin estudia la infor-
macin y el conocimiento como bienes econmicos; su calidad, su
mercado, y cmo afectan las decisiones de los agentes. La economa de
la informacin tiene orgenes en los trabajos de Hayek (1945), donde
se diferencia la informacin que se mantiene en las torres de marfil
y la informacin econmicamente til, y cmo opera esta ltima a
travs del sistema de mercado. En este sentido, difiere del enfoque
de la teora de la informacin que se expone en este artculo, porque
la informacin como inverso de la probabilidad y la entropa como
informacin promedio son conceptos ms adecuados para medir la
cantidad de informacin que la calidad, el uso o el tipo de informa-

cin, y ms apropiados para estudios estadsticos. Con un enfoque
ms semejante al de Hayek, Domenech (1989) presenta una visin
filosfica del papel de la informacin en la sociedad, y cmo se res-
tringe y se filtra segn el sistema poltico-econmico.
Aplicaciones en finanzas
Se han hecho intentos para adaptar los conceptos asociados a la me-

dicin del contenido de informacin al estudio de temas financieros y
burstiles. La hiptesis de que los mercados responden al nivel de in-
certidumbre o al elemento sorpresa tiene analoga con la entropa.
Darbellay y Wuertz (2000) recuerdan que las series de rendimien-
tos financieros no siguen distribuciones normales sino distribuciones
con colas gruesas, de mayor probabilidad, y que es difcil aplicar el
teorema del lmite central a estas series por la dependencia serial de los
rendimientos (p. ej., en sus cuadrados, como en los modelos ARCH).
El concepto de entropa es til para estudiar esta dependencia por-
que no se limita a la dependencia lineal. Estos autores estudian, por
separado, dos series de rendimientos financieros: la tasa de cambio
dlar-marco entre octubre de 1992 y mayo de 1997 registrada cada
30 minutos y el ndice diario Dow Jones en el periodo 1901-1998.
Usando diversos rezagos en cada serie, observan pocas diferencias
entre la estimacin de la informacin mutua I(r(t); r(t )) y la esti-
macin de la informacin mutua del valor absoluto I(|r(t)|;|r(t )|), y
concluyen que prcticamente toda la informacin de los rendimientos
en t se encuentra en los valores absolutos de los rendimientos pasados
y no en sus signos, excepto para rezagos muy cortos. Este ejercicio
es similar a la estimacin de la funcin de autocorrelacin, ACF, pero
difiere en que recoge todo tipo de dependencia, no solo la lineal. Al-
gunos autores se refieren a la informacin mutua acerca de la misma
serie como funcin de autoinformacin.
En un estudio similar, Maasoumi y Racine (2002) aplicaron la
entropa para encontrar dependencias no lineales de los rendimientos
de los precios burstiles y sus predicciones. Por su parte, Chen (2002)
discute la similitud entre los conceptos de teora de la informacin
y el valor econmico de la informacin con respecto a los mercados.
La cantidad de informacin recibida por un inversionista depende
de su entrenamiento, y entenderla es un proceso de aprendizaje que
toma tiempo, por lo cual, aunque la informacin est pblicamente
disponible, su difusin, evaluacin y uso apropiado no son inmediatos
como supone la hiptesis del mercado eficiente.
La medida de desigualdad de T heil

TLa= entropa
yi log Nyi se presta como medida de heterogeneidad. Theil (1967)
TT
=i = yi log NyNy
y log
la adapt
T = i yi ilogi Ny para
i
i
i construir su conocido ndice de desigualdad del in-
T greso:
= i
yi log Nyi
i
T= yi log Nyi
T= i yi log Nyi
i
H( y) = yi log yi
Para y) ello,
H(H( = i = en
y) y la
yi loglogyi frmula
yi de la entropa remplaz la probabilidad por
yH( y) =proporcin
i y logi y
,i la ii i del ingreso total correspondiente al individuo i. Con
H( y) = i
yi log yi
esta notacin,
i
la entropa del ingreso es:
H( y) = yi log yi
H( y) = i yi log yi
i
La mxima equidad se alcanza cuando todos los yi son iguales, diga-

mos yi = 1/N 1 , donde
1 N es el nmero de individuos de la sociedad, que
H( y) = log
1 =1 log N
al remplazar
H( y) = i N en 1N la 1=frmula
log log N anterior da:
H( y) = i 1N log 1 = log N
H( y) = log N=Nlog N
i N
1 N 1 N
H( y) = i
log = log N
i N N
1 1
H( y) = 1N log 1N = log N
LaH(medida
y) = i de logdesigualdad
= log N de Theil, T, es la entropa mxima menos
i N N
la entropa
T = log N H( y) = log N + de la distribucin yi log yi del ingreso:
TT = log
= log N H( y) = log N + yi log
N H( y) = log N i+ yi y
y log
T = log N H( y) = log N + i yi ilogi yi i
T = log N H( y) = log N + iyi log yi
yi = 1 i
YTpuesto yi =y 1= 1 se llega a frmula usual:

= log N que
i
H(iy) = 1i N ++ i yyilog
log N log yi
T = log N H(i y)yi=i =log i yi
yi = 1 i
T= yi log Ni + yi log yi = yi log Nyi
TT =i = yi log y NN
log i+
+ yi log
y logyi =i
y = yi log NyNy
y log
y = 1 i
T = i yi ilogi N i+ y i =i y1i ilogi yi = i i yi ilogi Nyi i
i
T = iyi log N +i iyi log yi = iyi log Nyi
El mtodo
i
dei estimacin i
de mxima entropa
T= yi log N + yi log yi = yi log Nyi
Sea
T ={xii, yii}log una N + muestra i yi log yi =dei tamao yi log Nyi N, donde xi es un vector de varia-
bles explicativas y yi la variable dependiente. El objetivo es estimar la
i i i
funcin de probabilidad condicional P(y/x). La distribucin emprica

es:
1
P(x, y) =
y)N= 1 1(# de veces que x, y ocurre en la muestra)
P(x,
P(x, y)1=
P(x, y) = N N
1
P(x, y) = N
Supongamos
N adems que se conocen las condiciones o caractersticas
P(x, y) = 1
especficas de algunos de los N eventos. Por ejemplo, si es frecuente
1N
quey)y= aumente
P(x,
N
cuando x1 es mayor que x2. Estas condiciones, compa-
tibles con la muestra y tiles para la estimacin, se pueden expresar

por medio de variables dummy R(x, y). Por ejemplo, R(x, y) = 1 si y y
x cumplen la condicin, y R(x, y) = 0 si no la cumplen. A partir de la
muestra se construye el valor esperado de R(x, y):
P(R) =
P(x, y)R(x, y)
P(R) = x,y
P(x, y)R(x, y)
x,y
P(R) =
P(x, y)R(x, y)
x,y
el cual hacemos igual a la probabilidad que debe arrojar el modelo,

es decir, imponemos la restriccin:
P(R) =
P(x, y)R(x, y) = P( y / x)R(x, y) = P(R)
P(x)
P(R)
P(R) y)R(x,
,y P(x,
== xP(x, y)R(x, = x P(
y) = y)P(x) y / x)R(x,
, y P(x) P( y y)
/ x)R(x,
= P(R) y) = P(R)
x , yx , y x,y x,y
donde P (x) es la distribucin de x en la muestra.

El criterio de mxima entropa elije, sujeto a las restricciones, la
distribucin condicional P(y/x) ms cercana a la distribucin unifor-
me, porque implementa el criterio bsico del mtodo: no suponer
lo que no se sabe. Recordando que la entropa es proporcional a la
uniformidad de una distribucin (cuanto ms uniforme mayor la
entropa), maximizamos la entropa condicional encontrando P(y/x)
en la siguiente funcin objetivo:

P(x)P ( y / x)log P( y / x) + [
P(x, y)R(x, y)
P(x)P( y / x)R(x, y)] + [ P( y / x) 1]
x,y x,y x,y y

P(x)P ( y / x)log P( y / x) + [ P(x, y)R(x, y)
P(x)P( y / x)R(x, y)] + [ P( y / x) 1]

donde y son multiplicadores de Lagrange.y / x)R(x, y)] + [
P(x)P
x,y ( y / x)log P( y / x) + [ x , y P(x, y)R(x, y) x , y P(x)P( y P( y / x) 1]
x,y x,y x,y y
Una comparacin de los mtodos de mxima entropa y de m-
nimos cuadrados ordinarios se encuentra en Eruygur (2005). En
Colombia, Morley et al. (1998) utilizan este mtodo para estimar la
movilidad de ingresos.
Otras aplicaciones economtricas
El conocido criterio de informacin de Akaike para identificar mode-

los se basa en el concepto de informacin de Kullbak-Leibler2. Para
una densidad que representa el modelo verdadero y una densidad g
del modelo que se va a probar, la entropa relativa de Kullback-Leibler
puede escribirse como:
f (x)
DKL = f (x)log = E f log f (x) log g(x)
x X g(x)
2
Ver Akaike (1974) o Anderson et al. (2000).
Suponiendo que el modelo que f (x)

representa la realidad es desco-
nocido pero constanteD ante
=
losg(x)modelos
f (x)log
KL
x X alternativos, la expresin
= E log f (x) log g(x)
f
anterior se simplifica:
DKL = C Ef[log g(x)]
donde C es una constante. La idea es entonces probar modelos g para

minimizar la prdida con respecto al verdadero . Al minimizar el
valor esperado de la prdida de informacin dado por DKL, se deriva
la expresin del criterio de Akaike, 2n + 2kn 3, donde l es la verosimilitud
logartmica maximizada, k el nmero de parmetros estimados y n el
nmero de observaciones utilizadas en la estimacin (ver Burnham,
2004).
El concepto de Kullback-Leibler tambin se ha aplicado a la
interpretacin del R2 como contenido de informacin, es decir, de la
incertidumbre explicada por el modelo estimado. Cameron y Wind-
meijer (1995) proponen un seudo R2 para modelos de regresin no
lineales basado en la reduccin de la incertidumbre generada por la
inclusin de variables explicativas, donde dicha reduccin es medida
por la divergencia de Kullback-Leibler.
Ejercicio economtrico
El siguiente ejercicio ilustra el uso de las variables relacionadas con el

contenido de la informacin en la prediccin de los precios burstiles.
Para ellos se toman las variaciones porcentuales del precio de cierre
de la accin de Alcoa, la empresa productora de aluminio que es el
primer componente de los 30 que forman el ndice Dow Jones. La
serie se muestra en la grfica 3. En el ejercicio se hace una regresin de
la variacin de los precios contra sus rezagos, sus rezagos al cuadrado
y los rezagos de una variable derivada del contenido de informacin
de la serie de variaciones porcentuales del precio.
La razn para incluir el cuadrado de la variacin del precio es que
la variable de informacin tiene un comportamiento similar al del
cuadrado de los precios (a mayor varianza mayor contenido de infor-
macin) y que, en presencia de estos cuadrados, podra ser redundante.
As, la inclusin del cuadrado de los precios en las regresiones hace
ms exigente la prueba de la variable de informacin.
Grfica 3
Alcoa variacin porcentual del precio diario de cierre
(26 de septiembre de 2006-14 de septiembre de 2010)
0,3
0,2
0,1
0,0
-0,1
-0,2
250 500 750
Como las variaciones de los precios pueden ser positivas o negativas,

mientras que la informacin es positiva, la variable de informacin que
se utiliza es el producto de la informacin por la variacin porcentual
del precio de la accin. Si dt es la variacin porcentual del precio de
la accin, la variable de informacin es:
dt(-logP(dt))
La grfica 4 muestra la estimacin de la distribucin de probabilidad

de la serie de la variacin porcentual del precio de Alcoa, la grfica
5 el contenido de informacin -logP(dt) y la grfica 6 la variable de
informacin dt(-logP(dt)).
Grfica 4
Estimacin Kernel de la distribucin de probabilidad de la
variacin porcentual del precio de Alcoa
0,016
0,012
0,008
0,004
-0,20 -0,10 0,00 0,10 0,20
Grfica 5
Alcoa contenido de informacin de la variacin del precio vs. tiempo
12
11
10
9
8
7
250 500 750
Grfica 6
Variable de informacin
-1
250 500 750
Los datos se tomaron de la pgina financiera de Yahoo y correspon-

den a observaciones diarias del 25 de septiembre de 2006 al 14 de
septiembre de 2010. La regresin se representa as:
40
2
dt = c + d
s t s + d
s t s + d ( log P(dt s ) +
s t s t
s=1
La significancia conjunta de los coeficientes de los 40 rezagos de las

tres variables explicativas se prob con el estadstico F. Adems, se
prob la significancia de los 40 coeficientes de la variable de infor-
macin. Los resultados fueron los siguientes:
P-Wald (infor- P-Wald

Accin R2 adj R2 F-stat p-F-stat
macin) (ruido)
Alcoa 0,262 0,157 2,483 0,000 0,000 0,927
La regresin es estadsticamente significativa, como indican las

columnas 4 y 5. Por su parte, la variable de informacin es estads-
ticamente significativa para predecir el precio de la accin, como
muestra la columna 6. A manera de contraste, la columna 7 muestra
el resultado de la repeticin de la regresin aadiendo 40 rezagos
de una serie de ruido blanco como variable explicativa, los cuales no
resultaron significativos.
CONCLUSIN
El concepto de informacin, aunque tiene diferentes interpretacio-

nes segn la disciplina, se puede interpretar en trminos de costo-
beneficio. Transmitir, recibir y entender textos o mensajes requiere
un esfuerzo que se justifica si el beneficio esperado es superior al
costo. El beneficio depende del nivel de informacin contenido en
el mensaje y este, a su vez, se relaciona con el grado de sorpresa del
mensaje transmitido. Cuanto ms baja es la probabilidad de ocurren-
cia del evento comunicado, mayor es su contenido de informacin, y
viceversa; de modo que existe una relacin inversa entre probabilidad
e informacin. Esta relacin probabilstica tiene muchas aplicaciones.
En economa, por ejemplo, para modelar el desarrollo y sus limitacio-
nes; en econometra, para disear ndices y mtodos de estimacin,
y en el campo financiero, para explicar el comportamiento de los
mercados burstiles.
REFERENCIAS BIBLIOGRFICAS
1. Akaike, H. A New Look at the Statistical Model Identification, Tran-
sactions on Automatic Control 19, 1974, pp. 716-723.
2. Anderson D., K. Burnham y W. Thompson. Null hypothesis testing:
Problems, prevalence and an alternative, Journal of Wildlife Management
64, 4, 2000, pp. 912-923.
3. Brmaud, P. An introduction to probabilistic modeling, Springer-Verlag,
1988.
4. Burnham, K. Multimodel inference: Understanding AIC and BIC in
model selection, paper presented at the Amsterdam Workshop on Model
Selection, August 27-29, 2004.
5. Cameron C. y F. Windmeijer. An R squared measure of goodness of fit
for some common nonlinear regression models, Department of Econo-
mics, University of California, Davis, 1995.
6. Chen, J. Information, entropy and evolutionary finance, Working Paper,
School of Business, University of Northern British Columbia, 2002.
7. Chen P. y F. Alajaji. Lecture notes on information theory, Department
of Communications Engineering, National Chiao Tung University, and
Department of Mathematics & Statistics, Queens University, 2005.
8. Darbellay G. y D. Wuertz. The entropy as a tool for analyzing statistical

dependence in financial time series, Physics A 287, 2000, pp. 429-439.
9. Domenech, A. De la tica a la poltica, Barcelona, Editorial Crtica,
1989.
10. Eruygur, O. Generalized maximum entropy (GME) estimator: Formulation
and a Monte Carlo study, MPRA Paper 12459, 2005.
11. Georgescu-R. N. The entropy law and the economic process, Cambridge,
Harvard University Press, 1971.
12. Gray, R. Entropy and information theory, New York, Springer-Verlag,
2009.
13. Hartley, R. Transmission of information, Bell System Technical Journal
7, 1928, pp. 535-563.
14. Hayek, F. The use of knowledge in society, American Economic Review
35, 4, 1945, pp. 519-530.
15. Krippendorff, K. Information theory: Structural models for qualitative data,
Beverly Hills, Sage Publications, 1986.
16. Kelly, J. L. A new interpretation of information rate, Bell System Tech-
nical Journal 35, 1956, pp. 917-926.
17. Lathi, B. P. Sistemas de comunicacin, Mxico, Limusa, 1974.
18. Maasoumi, E. y J. Racine. Entropy and predictability of stock market
returns, Journal of Econometrics 107, 2002, pp. 291-312.
19. Massey, J. Applied digital information theory, Lecture Notes, ETH
(Instituto Federal de Tecnologa), Zrich, 1998.
20. McMahon G. y J. Mrozek. Economics, entropy and sustainability,
Hydrological Sciences Journal 4, 24, 1997, pp. 501-512.
21. Montenegro, . El contenido de informacin en documentos y mensajes,
Documentos CEDE 95-06, 1995.
22. Morley, S., S. Robinson y R. Harris. Estimating income mobility in
Colombia using maximum entropy econometrics, TMD Discussion Paper
26, 1998.
23. Samuelson, P. Collected economics papers, vol. 5, Cambridge, MIT Press,
1986.
24. Shannon, C. A mathematical theory of communication, The Bell System
Technical Journal 27, 1948, pp. 379-423 y 623-656.
25. Smith, D. y D. Foley. Is utility theory so different from thermodyna-
mics?, SFI Working Paper 02-04-016, 2002.
26. Theil, H. Economics and information theory, Amsterdam, North Holland,
1967.
27. Thomas, J. Information, communication, noise and interference, D. Fink,
ed., Electronics engineers handbook, New York, McGraw-Hill, 1975.
28. Touretzky, D. S. Basics of information theory, 2004, [http://www.
cs.cmu.edu/~dst/Tutorials/Info-Theory/], consulta en diciembre de
2009.

Dialnet InformacionYEntropiaEnEconomia 3812950

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Dialnet InformacionYEntropiaEnEconomia 3812950

Transféré par

Droits d'auteur :

Formats disponibles

INFORMACIN Y ENTROPA EN

D esde el punto de vista econmico, transmitir, recibir y procesar

que la tierra continuar girando sobre su eje, trayendo el da y la noche

... ... ... ... ... ... ... ...

Los primeros intentos de enmarcar el tema de la informacin en una

Adems, es razonable suponer que la informacin I es una cantidad

donde I es igual a 0 cuando P es igual a 1 (el evento ya se conoca o la

la probabilidad de que maana el sol no se eleve sobre el horizonte

Se puede llegar a una definicin tcnica del contenido de informacin

es conveniente expresar el contenido de informacin directamente

En la codificacin anterior no se usan, por ejemplo, los cdigos 1 para

menos de 3 bits. El resultado anterior debe entenderse en el contexto

en el ejemplo anterior la transmisin de 1.000 mensajes requerira

El resultado anterior se formaliza partiendo de un conjunto de mensa-

Como ejemplo, supongamos los eventos {llovi, no llovi} con

como el contenido promedio de informacin por mensaje, o sea la

En la frmula de H se considera que si la probabilidad de uno de

En general, en trminos de una variable x y su probabilidad, definimos

H(X ) = E[ log 2 P(x)] = P(x)log 2 P(x)

La entropa H(X) es mayor cuanto ms uniforme (ms equiprobable) es

El concepto de entropa se desarroll en la segunda mitad del siglo

que parte se pierde en forma de calor o ruido. Si bien la energa se

Se puede demostrar que esta formulacin es compatible con la defi-

en apariencia ms cercana a la frmula de Shannon que a la frmula

La definicin de entropa puede extenderse a vectores de variables.

Para variables independientes, cuya distribucin conjunta se puede

H(X / Y) = P(x, y)log P(x / y)

es una funcin de x y y, de modo que la distribucin de probabilidad

Se puede demostrar que H(X/Y ) H(X), cumpliendo la igualdad cuando

donde el ltimo trmino de la derecha carece de signo negativo por-

que es igual a 0 cuando X y Y son independientes e igual a min[H(X),

denotando la informacin mutua como la interseccin de H(X) y

Se puede demostrar que DKL(P, Q) 0 e igual a 0 si ambas distribucio-

La grfica 2, tomada de Chen y Alajaji (2005, 37), muestra un diagra-

H(X) H(X/Y) I(X; Y) H(Y/X) H(Y)

Tambin existen versiones de entropa para variables continuas:

H( X, Y ) = f X,Y ( x , y ) log f X,Y ( x , y )dxdy

las cuales no necesariamente son positivas porque las funciones de

Una de las primeras aplicaciones de estos conceptos de informacin

donde V0 es el capital inicial y VN el final. Sin embargo, si N es grande

donde W es el nmero de veces que gana y L es el nmero de veces

donde a(s/r) es la proporcin del capital que apuesta a s despus de

donde W es el nmero de veces que se transmite s y se recibe r, y s

Para el s ganador, el capital aumenta en las rondas donde a(s/r)s > 1 y

donde P(s,r) es la probabilidad conjunta de s y r, y P(s) es la probabi-

Y sustituyndola en la segunda se llega a:

lo que implica que el apostador maximiza su ganancia escogiendo cada

ALGUNAS APLICACIONES ECONMICAS

En economa, el concepto de entropa se aplica en dos reas: aquellas

de las habilidades productivas, y aquellas que se refieren al contenido

cantidad de informacin que la calidad, el uso o el tipo de informa-

Se han hecho intentos para adaptar los conceptos asociados a la me-

La medida de desigualdad de T heil

La mxima equidad se alcanza cuando todos los yi son iguales, diga-

YTpuesto yi =y 1= 1 se llega a frmula usual:

funcin de probabilidad condicional P(y/x). La distribucin emprica

tibles con la muestra y tiles para la estimacin, se pueden expresar

el cual hacemos igual a la probabilidad que debe arrojar el modelo,

donde P (x) es la distribucin de x en la muestra.

Otras aplicaciones economtricas

El conocido criterio de informacin de Akaike para identificar mode-

Suponiendo que el modelo que f (x)

donde C es una constante. La idea es entonces probar modelos g para