Vous êtes sur la page 1sur 38

I.

INTRODUCCIN

Las variables denominadas de bajo nivel de medicin


(nominales) vienen siendo objeto ltimamente de desarrollos
estadsticos multivariados de un nivel de complejidad y
sofisticacin comparable al de la estadstica multivariada para
variables continuas. Entre otros muchos, se encuentra el
denominado Anlisis Logartmico Lineal, un procedimiento de
anlisis para variables categoriales organizadas en tablas de
contingencia multidimensionales. Esta tcnica tiene especial
inters para la investigacin educativa, ya que con frecuencia,
bien sea por la carencia de instrumentos de medida ms precisos
o bien por la propia naturaleza de los constructos estudiados,
nuestras investigaciones incluyen variables de este tipo, tambin
conocidas como variables cualitativas.
Este trabajo de investigacin tiene ese propsito divulgador. Se
dirige al lector/lectora que ya conozca los procedimientos de
construccin y anlisis de tablas de contingencia bidimensionales
(ndices de asociacin bivariada, pruebas de independencia,
ndices de asociacin parcial, etc.). Estos procedimientos son
vlidos y tiles cuando se analizan slo dos variables o, todo lo
ms, se controla una tercera. No lo son, en cambio, para analizar
las interacciones complejas que pueden subyacer en tablas de
contingencia multidimensionales, donde se manejan tres o ms
variables nominales simultneamente. Presentaremos, pues, una
descripcin general del procedimiento, acompaada de ejemplos
que faciliten su comprensin.
En las Ciencias Sociales y de la Salud muchas de las variables
utilizadas son categricas (es decir, presentan un nivel de medida
nominal o, presentando un mayor nivel de medida, han sido
categorizadas) y se presentan en Tablas de Contingencia. Hasta
mediados del siglo pasado slo se han utilizado distintos ndices
de asociacin (Q de Yule, de Pearson,...) para el estudio de las
Tablas de Contingencia bidimensionales. Los modelos logartmicolineales o, abreviadamente, log-lineales (saturados y jerrquicos)
representan una alternativa para el estudio de Tablas de
Contingencia multidimensionales que permiten, adems de
estudiar la asociacin, obtener estimaciones para los efectos que
puedan resultar de inters.

En este trabajo se pretende ofrecer una informacin bsica


sobre estos modelos y la adquisicin de las competencias
necesarias, mediante la realizacin de ejemplos concretos, para el
anlisis de datos categricos provenientes de la investigacin y la
prctica profesional en Ciencias Sociales y de la Salud.

II.OBJETIVOS

Conocer la utilidad de las tcnicas de anlisis de datos


categricos (modelos log-lineales) en distintas reas de las
ciencias sociales y de la salud.
Manejar con soltura las condiciones de aplicacin de estas
tcnicas, su terminologa, su elaboracin, su utilizacin
mediante un programa de ordenador asi como la interpretacin
de los resultados obtenidos.
Sentar las bases para el estudio posterior de otros modelos
(logit, probit...) derivados de los modelos log-lineales.

III.BREVE HISTORIA
Hasta fines de 1960, tablas de contingencia - bidireccional cruz
formada por las tablas de clasificacin variables categricas normalmente se analizaron mediante el clculo de chi-cuadrado los
valores de prueba la hiptesis de la independencia. Cuando los
cuadros consista de ms de dos variables, los investigadores que
calcular el chi-cuadrados de tablas de dos vas y, a continuacin, de
nuevo por mltiples sub-cuadros formados a partir de ellos, a fin de
determinar si las asociaciones y / o interacciones que tienen lugar
entre las variables.
Birch en (1963) da origen indirecto a los modelos logartmico
lineales, a raz de un trabajo sobre problemas de asociacin entre
tres variables categoriales. Desde entonces, este procedimiento ha
venido siendo desarrollado y/o difundido por una serie de autores,
como Baker (1981), Benedetti y Brown (1978a; 1978b), Bishop,
Fienberg y Rolland (1975), Brown (1975; 1976), Fienberg (1977),
Goodrnan (1968; 1970; 1971; 1972a; 1972b; 1973; 1979; 1984),
Haberman (1974; 1978; 1979), Knoke y Burke (1982), Kotze (1982) y
Upton (1978), entre otros. En la dcada de 1970 el anlisis de las
transferencias de datos clasificados cambiado de manera
espectacular con la publicacin de una serie de documentos sobre
loglinear modelos de Luisiana Goodman. Aparecido muchos otros
libros en esa poca sobre la base de la labor de Goodman (Bishop,
Finberg y Holanda 1975; Haberman 1975).
Ahora los investigadores se introdujeron a una amplia variedad de
modelos que podran ser montados en los cruzan con los datos. Por
lo tanto, la introduccin del modelo loglinear siempre con un
compromiso formal y riguroso mtodo de seleccin de un modelo o
modelos para describir las asociaciones entre las variables.
Hasta los aos 60 las tablas de contingencia de 22 eran analizadas
calculando estadsticos tipo _2 para testear independencia. Cuando
las tablas involucraban ms variables se sola repetir este anlisis
para las subtablas para determinar las interacciones o asociaciones
entre las variables. A partir de los 70 con los trabajos de Goodman y
la difusin de estos en libros como el de Bishop, Finberg y Holland
(1975) y Haberman (1975) hubo un cambio sustancial en el
tratamiento de estos problemas, en particular con la inclusin de los
modelos loglineales.
El modelo loglineal puede ser visto como un caso del GLM para datos
con distribucin Poisson. Los modelos loglineales se usan con

frecuencia para analizar la relacin de dos, tres o ms variables


categricas en una tabla de contingencia.
Todas las variables que se analizan son vistas como variables de
respuesta, es decir que no se hace distincin entre variables
independientes y dependientes.
Es por ello, que estos modelos solo estudian asociacin. Cuando
interesa estudiar algunas variables como independientes y otras
como dependientes es ms adecuado un modelo lineal generalizado,
como el modelo logstico. Lo mismo es cierto si las variables
estudiadas son continuas y no se pueden discretizar apropiadamente.
La estrategia bsica en el modelado ajusta las frecuencias observadas
en la tabla cruzada. Los modelos son representados por las
frecuencias esperadas y podrn ser descriptos por las restricciones
que imponen a las asociaciones o interacciones entre las variables.
Los patrones de asociacin entre las variables pueden describirse en
trminos de los odds y los odds ratios.

IV.MARCO TEORICO

IV.1. Qu es la Regresin Loglineal?


Los Modelos Loglineal, a diferencia de los Modelos de Regresin
Mltiple, permiten un mejor anlisis para el caso de variables
cualitativas (categricas) dicotmicas o politmicas (Una variable
dicotmica (tal como Con Vista al Mar = 1 Sin Vista al Mar = 0)
es un ejemplo de una variable cualitativa / categorial. Debido a que la
variable cualitativa y dicotmica Vista al Mar no es lineal, al
combinarlas con otras variables independientes, sean cuantitativas o
cualitativas (tales como rea de construccin, edad del inmueble,
etc.) en un modelo de regresin lineal mltiple, ser muy poco
probable estimar o predecir correctamente la variable Precio
Unitario en funcin a dichas variables mixtas)
En Anlisis Loglineal, se podra entonces definir como un
Mtodo cuyo objetivo consiste en el estudio de las relaciones
entre las variables cualitativas (o no numricas).
La Regresin o Anlisis Loglineal, es un mtodo estadstico cuyo
objetivo consiste en estudiar la Clasificacin 1 de las Variables
Cualitativas.
La Regresin Loglineal, es esencialmente un Modelo de
Regresin Lineal Mltiple entre las Variables Cualitativas y el
Logaritmo Neperiano de la Frecuencia de los datos
(referenciales), de la forma:
Ln( frecuencia ) A B C AxB AxC BxC AxBxC

Donde A, B y C; son Variables Cualitativas


El uso fundamental del anlisis Loglineal, consiste en determinar la
contribucin de las diferentes variables categoriales seleccionas, en la
conformacin de una Tabla de Contingencia.
El AL es un mtodo cuyo objetivo consiste en estudiar las relaciones
entre variables cualitativas. La literatura sobre este mtodo de
anlisis es abundante.
1

Cuando se utilizan variables cuantitativas (o numricas) se habla de Tcnicas de Prediccin o


Estimacin; mientras que cuando se utilizan variables cualitativas o categoriales se hablara entonces de
Tcnicas de Clasificacin

El AL no descompone el X 2 sino el logaritmo de las frecuencias de


cada casilla por medio de un modelo lineal. En el caso de una tabla de
contingencia de triple entrada, el logaritmo de la frecuencia absoluta
de cada casilla es expresable como suma de la contribucin de los
distintos parmetros o factores que intervienen en su formacin:
de un elemento constante, que lo es para todas las
casillas de una misma tabla y que depende de la
frecuencia total y del nmero de casillas;
de la contribucin de cada fila, columna y nivel,
correspondientes a la casillapara cada variable;
de las posibles asociaciones entre pares entre filas,
columnas y niveles (parmetros
de primer orden de interaccin),
y de la posible triple asociacin (parmetro de segundo
orden de interaccin).
En total, en el caso de que se trate de un modelo completo (o
saturado) hay ocho parmetros que componen el logaritmo de cada
casilla. La relacin entre parmetros est sujeta a una condicin
similar a la del anlisis de varianza: la suma cero para cada uno ellos
extendida a una fila, columna o nivel. La ecuacin para un modelo
saturado y la dependencia de los parmetros, con tres variables, est
dada por una ecuacin lineal:

Esto supone un nmero de I x J x K ecuaciones. Evidentemente, el


modelo saturado precedente siempre se cumple, la igualdad pasa a
ser una identidad, pero la cuestin interesante consiste, por un
principio elemental de parsimonia, en suponer y encontrar modelos
ms simples que den cuenta de dichas frecuencias con un grado de
precisin aceptable dentro de un nivel dado de confianza. Para el caso
de una tabla de contingencia de tres variables hay cuatro conjuntos
de modelos globales posibles: aqul en el que el logaritmo de cada
casilla se reduce a una constante; un conjunto de modelos de
independencia (la ecuacin correspondiente se reduce a los
elementos de cada fila, columna o nivel); un conjunto de modelos en
los que se da la asociacin entre dos variables (primer orden de
interaccin), y, por fin, el modelo saturado (segundo orden de
interaccin). El modelo es jerrquico en el sentido de que si un
parmetro es nulo lo son todos aquellos trminos de orden inferior
que tengan los mismos ndices.
Segn el problema que se examine se puede validar el modelo
deseado. Existen tests globales para ello, el de X 2 de Pearson y el de
L2 de mxima verosimilitud, que proporcionan pruebas de bondad de
ajuste. Hay dos intereses fundamentales en el AL: el seleccionar,
validar e interpretar un modelo presupuesto y, dado el primero, el

validar e interpretar los parmetros, que dan lugar a la estimacin de


parmetros y de errores.
Para interpretar los parmetros, es decir, para ver la contribucin de
los distintos rdenes factoriales al modelo, es imprescindible haber
validado el modelo correspondiente. Pero el objetivo puede reducirse
al primer inters, esto es, a examinar solamente cul es el modelo
ms adecuado sin interpretar los parmetros.
Es lo que se suele buscar en particular cuando el nmero de variables
es elevado y/o el nmero de valores de cada una es grande. Hay
varias razones para ello: la escala no es lineal sino logartmica,
muchas veces el objetivo consiste en saber simplemente si las
variables estn relacionadas y no en un anlisis local y, sobre todo, la
dificultad de interpretar parmetros de interaccin de orden superior
a dos y tanto ms cuanto ms elevado sea el orden. As pues, si
solamente se desea conocer la validez de los modelos el AL es un
mtodo ideal, superior a otros aunque sea elevado el nmero de
variables en juego. En este sentido es ms preciso que el AC y sus
mtodos aparejados precedentes. Si deseamos adems interpretar la
relacin entre los distintos valores de las variables, es decir, los
parmetros de diferentes rdenes de interaccin, el AL no es
aconsejable cuando el nmero de variables y el de categoras es
elevado, exigiendo de forma paralela un nmero suficiente de
efectivos totales.
En el proceso de elaboracin de un modelo log-lineal se seguirn los
siguientes pasos:
Formulacin del modelo que podra dar cuenta de las
frecuencias observadas
Obtencin de las frecuencias esperadas que se derivan
del modelo formulado
Evaluacin del ajuste del modelo (comparando las
frecuencias esperadas con las observadas)
Estimacin de los parmetros del modelo (mxima
verosimilitud)
En este proceso resultar imprescindible la utilizacin de
algn programa de ordenador (LEM,...) o de algn
paquete estadstico que recoja estos modelos (SPSS).

IV.2. OBJETIVOS Y FASES


LOGARTMICO LINEAL

GENERALES

DEL

ANLISIS

El objetivo es obtener un modelo que se ajuste a las


frecuencias observadas de una tabla de contingencia
multidimensional, describiendo adecuadamente las relaciones
entre los factores (o ndices o variables) de la tabla. Estas
relaciones pueden ordenarse por su importancia, es decir, por su
contribucin al ajuste del modelo, y se pueden determinar sus
parmetros y comprobar su significacin.
A diferencia de la mayora de los mtodos, en este procedimiento
la unidad de anlisis no son las puntuaciones individuales, sino
conjuntos de sujetos. Estos conjuntos vienen definidos por
determinadas caractersticas o combinaciones de las categoras de
las variables implicadas. Tampoco lo que se entiende aqu por
variable dependiente es lo usual, ya que no es una variable sino
una probabilidad de casilla: la probabilidad de que un individuo
seleccionado al azar pertenezca a determinadas categoras de
inters. Es decir, la probabilidad de que tenga una determinada
combinacin de caractersticas (Knoke y Burke, 1982). Por ejemplo,
en una tabla IxJxK, Pijk es la probabilidad de que un sujeto
pertenezca a la categora i de la primera variable, a la categora j
de la segunda y a la categora k de la tercera. Este conjunto de
probabilidades, o alguna funcin derivada, es lo que sirve como
variable dependiente.
La finalidad del anlisis es la de obtener un modelo o ecuacin que
explique las variaciones en las
probabilidades de las casillas,
postulando una serie de relaciones e interacciones entre las
variables.
El proceso de encontrar un modelo satisfactorio se lleve siguientes
etapas:
1) Proponer un modelo para explicar los datos observados. El
modelo hipotetiza una serie de relaciones entre las variables. Por
ejemplo, si se piensa que las variables son mutuamente
independientes, el modelo no debe contener elementos de
interaccin. Normalmente, el investigador se apoya en un sustrato
terico previo para proponer su modelo o hiptesis, aunque hay
procedimientos ms inductivos para ello, sumamente tiles en
estudios exploratorios, por ejemplo las pruebas de asociacin parcial,
marginal, simultneas, etc. (Brown, 1976).

2) A partir de la suposicin de que el modelo propuesto es cierto, se


deriva un conjunto de expectativas sobre cmo tendran que ser los
datos para que se ajustasen a dicho modelo. Siguiendo con el ejemplo
de independencia mutua, se procedera a estimar cmo tendra que
ser una muestra de tamao dado si perteneciera a una poblacin
donde las variables fuesen mutuamente independientes.
3) A continuacin se comparan las expectativas derivadas del
modelo con los datos observados en la muestra y se decide si el
modelo es o no aceptable. En nuestro ejemplo, si la muestra
perteneciera realmente a una poblacin donde las variables
analizadas son independientes, cualquier posible discrepancia entre
los datos observados y las expectativas tendra que deberse al azar.
Esto supone someter a prueba nuestro modelo y esa comprobacin se
realiza en base a algn estadstico, como ji2 o la razn de
verosimilitud de ji2), (G)2 que comparan las frecuencias esperadas
segn el modelo, o frecuencias tericas, y las observadas en la
muestra, o frecuencias empricas.
4) Si las discrepancias son pequeas, se mantiene el modelo y se
da el siguiente paso. De lo contrario, habra que volver al paso 1 y
proponer otro modelo. Naturalmente, ello podra llevarnos a un
replanteamiento de nuestra teora, o del procedimiento, o de los
instrumentos utilizados para obtener los datos.
5) Finalmente, y como en otros procedimientos de construccin de
modelos, se estimaran los parmetros del modelo aceptado, sus
errores tpicos, intervalos de confianza, etc. Estos parmetros pueden
ser traducidos a trminos sustantivos y servir de base para proceder a
explicaciones y hacer predicciones.
Detallaremos este proceso a medida que presentemos los
diversos
modelos
rtmicos
lineales,
organizando
esta
presentacin en base al tamao de la tabla.

IV.2.1. MODELOS PARA TABLAS BIVARIADAS

En una tabla bidimensional, se propone un modelo para Pij:


probabilidad de estar en la fila i y la columna j de la tabla. En
lugar de probabilidades, tambin se puede trabajar con las
frecuencias esperadas de esa casilla (Fij) o con su logaritmo
(Lij). Formular un modelo para probabilidades, para frecuencias
esperadas o para logaritmos de esas frecuencias es slo una
cuestin de conveniencia, ya que un modelo para uno de estos
elementos puede ser fcilmente traducido a un modelo para
cualquiera de los otros.
Las frecuencias esperadas o sus logaritmos se representan
como una funcin de una serie de parmetros. De la misma
forma que en ANOVA, hay parmetros de efectos principales y
de interaccin. Estos efectos nos proporcionan dos tipos de
informacin, bsicamente. En primer lugar, su presencia o
ausencia del modelo nos indica la estructura de los datos. Un
efecto de interaccin entre X e Y, por ejemplo, nos indica una
relacin entre esas dos variables. En segundo lugar, se pueden
estimar los valores numricos de los efectos (parmetros), lo
que nos indicar la intensidad de las relaciones entre las
variables.

IV.2.1.1.

Modelo de No Efectos

El modelo ms sencillo para una tabla IxJ (de dos variables X e Y) es


el que sostiene que todas las probabilidades de casilla (o las
frecuencias esperadas, o sus logaritmos) son iguales a una
constante, es decir, que no hay efectos de ningn tipo. El modelo de
no efectos se representara simblicamente como: Fij = ',
o bien : Lij = .
El parmetro p representa la media aritmtica de los logaritmos
de todas las casillas. Es anlogo a la media general del ANOVA o al
trmino de ordenada en el origen de la ecuacin de regresin, e
indica que las frecuencias de cada una de las casillas de la tabla
en la poblacin son iguales a una constante. Una muestra extrada
de esa poblacin tendra la misma frecuencia en todas las casillas,
excepto por variaciones del azar. Adoptar el modelo de no efectos,
de forma sustantiva, significara mantener que: a) las variables X e

Y son estadsticamente independientes; b) todas las categoras de


X son igualmente probables; y c) todas las categoras de Y son
igualmente probables.
Si X tiene tres categoras, por ejemplo, es igualmente probable
pertenecer a Xl que a X2 que a X3. Dicho de otra forma, una tercera
parte de los casos estar en X1, otra tercera parte en X2 y otra
tercera parte en X3. Si Y es dicotmica, la probabilidad de estar en Y1
ser igual a la probabilidad de Y2, es decir 1/2.
Ya que lo habitual en la investigacin suele ser hipotetizar que
existe algn tipo de relacin entre las variables, no es frecuente
adoptar el modelo de no efectos.

IV.2.1.2.

Modelos de Efectos Principales

Los efectos principales se definen como alejamientos de la media


general. Pueden postularse efectos debidos a la variable fila (Y) o a la
variable columna (X). En este sentido, existen similitudes con los
efectos de tratamiento en el ANOVA. Y de la misma forma que en el
ANOVA, tanto la suma de los efectos de fila como la suma de los
efectos de columna es igual a cero.
IV.2.1.3.

Modelo de Efectos de fila

Este modelo incluye una serie de parmetros que indican una


cierta cantidad de alejamiento de la equiprobabilidad en la variable
fila. Los efectos de isla pueden ser interpretados como medida del
sesgo de los casos contenidos en las distintas categoras de la
variable fila: si es ms probable pertenecer a Y 1 que a Y2, entonces
la distribucin de Y es desigual, est sesgada: hay un efecto de fila. El
modelo de efectos de fila se simbolizara: : F ij = '. 'iy. , o bien : Lij =
+ iy.
El superndice indica un efecto principal de esa variable, en este
caso de la variable fila Y. La presencia de un subndice indica que los
efectos de fila son un conjunto de trminos, uno para cada nivel de la
variable. Es decir, hay varios trminos correspondientes a un efecto
de fila: desde i=1 hasta I. As, + iy
serian los trminos de la
ecuacin correspondientes a la primera fila. Finalmente, obsrvese
que el primer modelo es multiplicativo y el segundo sumativo. Esto es
debido a que el logaritmo de un producto es igual a la suma de los
logaritmos de los trminos de ese producto. Es sencillo volver al

estado inicial: simplemente se hallan antilogaritmos; es decir, un


modelo para Lij se puede convertir en un modelo para las frecuencias
esperadas (Fij) hallando la inversa del logaritmo. En adelante nos
centraremos en la forma aditiva, de la cual deriva precisamente el
nombre logartmico lineal: los trminos p estn en mtrica logartmica
y en forma lineal Algunos autores (Knoke y Burke, 1982, por ejemplo)
prefieren desarrollar las ecuaciones de los modelos en su forma
multiplicativa, pero eso, aunque introduce diferencias simblicas, no
cambia el significado bsico ni la finalidad del proceso.
En trminos sustantivos, el modelo de efectos de fila postulara
que: a) hay independencia estadstica entre X e Y; b) las categoras
de la variable X son igualmente probables; y c) las categoras de la
variable Y no son igualmente probables.

IV.2.1.4.

Modelo de Efectos de Columna

De la misma forma, aplicando lo dicho a la variable columna X,


se obtiene el modelo de Efectos de columna, que vendra
representado por: Lij = +jx. Este modelo aseverara que: a) hay
independencia estadstica entre X e Y; b) las categoras de Y son
igualmente probables; y c) las categoras de X no son igualmente
probables.

IV.2.1.5.

Modelo de Independencia

Este modelo contiene efectos principales tanto de fila como de


columna, adems del parmetro de la media general, pero no
efectos de interaccin, por tanto establece independencia
estadstica entre X e Y y se simbolizara: : Lij = + jy + jx.
La suposicin ms importante del modelo es que X e Y no estn
asociadas. Eso significa que el parmetro que representara esa
relacin se iguala a cero y, por tanto, no se incluye en el modelo. La
ausencia de relacin, sin embargo, no impide que haya efectos de
columna y de fila. En suma, el modelo asegura que: a) X e Y no estn
relacionadas; y b) ni las categoras de X ni las de Y son equiprobables.

Volviendo a las analogas con ANOVA, pueden interpretarse los


trminos de los modelos vistos hasta ahora como: es una frecuencia
constante en todas las casillas; jy es la contribucin a la frecuencia de
casilla debida al factor fila y jx. es la contribucin a la frecuencia de
casilla debida al factor columna. En suma, la presencia de estos
coeficientes en un modelo tiene un significado claro: indic no
equiprobabilidad de las categoras. Pero sus valores numricos son
algo difciles de interpretar, ya que no tienen lmites superior e
inferior. Simplemente, cuanto ms se alejen de cero, en ambas
direcciones, mayor ser el efecto.

IV.2.1.6.

Modelo saturado

Se puede ampliar el modelo anterior estableciendo una relacin


entre X e Y; esto supone aadir un efecto de interaccin:
Lij = + jy + jx+ jjyx
El modelo obtenido se llama saturado porque contiene tantos
parmetros independientes como casillas hay en la tabla. Dicho de
otra forma, y como su nombre indica, no se pueden aadir ms
parmetros a un modelo ya saturado. La media general y los efectos
principales tienen el significado que ya hemos visto anteriormente. A1
nuevo componente jjyx, que mide la asociacin entre X e Y, se le
llama interaccin de primer orden o tambin interaccin de dos
factores. Algunos autores la llaman de segundo orden, quiz porque
incluye dos variables. En realidad, la interaccin mnima o primaria
que podemos encontrar es entre dos variables. Una sola variable
puede presentar sesgo, es decir, un efecto principal, pero no
interaccin. Por tanto, denominamos de primer orden a la interaccin
mnima posible, es decir, entre dos variables. Incluir esta interaccin
en un modelo significa hipotetizar la no independencia estadstica. En
concreto, el modelo saturado en tablas de dos variables X e Y
mantiene que:
existe relacin entre X e Y;
ni las categoras de X ni las de Y son equiprobables.
El modelo saturado siempre se ajusta los datos observados, en el
sentido de que las frecuencias esperadas bajo ese modelo siempre

son iguales a las frecuencias observadas. Esto no garantiza que


siempre sea el modelo ms adecuado, porque si a nuestros datos
subyace realmente la independencia entre X e Y, cualquier parmetro
de interaccin que calculsemos siguiendo el modelo saturado, dara
siempre cero. Si hemos postulado un modelo saturado y al hacer los
clculos encontramos que los parmetros de interaccin dan cero, la
conclusin obvia e inmediata a extraer es que no resulta un buen
modelo. De hecho, se acepta el modelo saturado slo si no se obtiene
un buen ajuste con modelos ms sencillos o parsimoniosos. En el
ANOVA, un modelo equivalente a nuestro modelo saturado sera de
tipo probabilstico, porque incluye un componente error. El modelo
logartmico lineal saturado, en cambio, no contiene trmino error, es
determinstico. Por eso se ajusta totalmente a las frecuencias
observadas.
A estas alturas, el investigador podra preguntarse si se podra
formular un modelo que contenga interacciones de dos factores pero
no efectos de fila o de columna. En realidad s, pero sus matemticas
son mucho ms complejas. Por tanto, los modelos permisibles estn
limitados por el principio jerrquico. Este principio puede ser
enunciado de diversas formas, significando todas lo mismo. Reynolds
(1977:66) lo define en base a los smbolos contenidos en el modelo: `
`Si un trmino p de un modelo contiene (en su `exponente') un
conjunto de letras representando diferentes variables, entonces el
modelo tambin debe contener los trminos p correspondientes a
todos los subconjuntos de esas letras." Baker (1981:84) lo define de
forma prctica: "un modelo dado implica que todos los submodelos
legtimos fueron ajustados antes que el modelo de inters". Brown
(1976:39) destaca sus propiedades para simplificar la notacin de los
modelos: ` `Los modelos jerrquicos pueden especificarse
simplemente por las interacciones de ms alto orden, cuya presencia
implica la de los efectos restantes. Este conjunto [de efectos] ser el
conjunto definitorio mnimo para el modelo".
Es decir, para una tabla de dos variables, el modelo pl presupone
la inclusin de y y x , ya que las letras X e Y son subconjuntos de XY.
Dicho de otra forma, si no est y en el modelo, tampoco estar yx .
En una tabla de 3 variables, el "conjunto definitorio mnimo" para el
modelo saturado sera ijk . Bien, pues a los modelos que siguen este
principio se les denomina jerrquicos y a los que no lo siguen, no
jerrquicos. El mtodo logartmico lineal puede ser aplicado a
tambin a los modelos no jerrquicos, lo que requiere de un reajuste
de los procedimientos. De todas formas, la modalidad jerrquica es
ms utilizada que la no jerrquica. En suma, "algunos mtodos de

estimacin logartmico lineales no permiten al investigador incluir


interacciones de un cierto orden mientras omita los trminos de orden
inferior que estn anidados en l" (Knoke y Burke, 1982:20). Es cierto
que hay ocasiones en que es preciso trabajar con modelos no
jerrquicos, pero en este trabajo nos limitaremos a los que cumplen
dicho principio.

IV.2.2. Modelos para tablas de tres variables

Consideremos una tabla IxJxK. A1 igual que en el caso anterior se


podra considerar un modelo de no efectos, o un modelo de efectos
de una sola de las variables (bien sea X, Y o Z). Otros modelos
posibles seran los siguientes:

IV.2.2.1.

Modelo de Independencia Mutua

Este modelo slo contiene efectos principales y, claro, la media


general. Es decir: Lijk = + jy + jx+ kz , siendo Lijk el logaritmo de
la frecuencia esperada Fijk en la casilla ijk de la tabla. El modelo
asegura la independencia mutua entre las tres variables. Eso
significa que no hay relacin entre ninguna de todas las posibles
combinaciones de dos variables de la tabla (XY,XZ,YZ), aunque s
efectos principales debidos a cada una de las tres variables.

IV.2.2.2.

Modelos con una Interaccin de dos Factores

Este modelo, adems de la media general y los efectos principales,


presentara una interaccin de primer orden (o de dos factores), bien
sea XY, YZ o XZ. P. ej.: Lijk = + jy + jx+ kz+ jjyx . Este modelo
asegura, entre otras cosas, que:
a) existe relacin entre X e Y;
b) esta relacin no depende de Z (es la misma en cualquiera de las
categoras de Z); c) ni X ni Y se relacionan por su parte con Z.
Adems, asegura que ninguna de las variables tiene categoras
equiprobables: estn presentes todos los efectos principales, ya que
el modelo es jerrquico.

IV.2.2.3.
Modelos con dos Interacciones de dos
Factores

El modelo anterior se puede ampliar hasta establecer dos


interacciones de dos variables, simplemente aadiendo el trmino
correspondiente. Por ejemplo: Lijk = + jy + jx+ kz+ jjyx+ jkxz
Este modelo afirma que:
a) ninguna de las variables tiene categoras equiprobables;
b) existe relacin entre X e Y;
c) existe relacin entre X y Z;
d) no existe relacin directa entre Y y Z, pero ya que ambas estn
relacionadas con X, guardan entre s una relacin indirecta o
esprea.
Este ltimo punto tiene connotaciones importantes. Analizando
slo Y y Z podramos encontrar que estn asociadas, pero esta
asociacin se debera a X. Suponiendo que no hayan ms variables
importantes desconocidas, y por decirlo en trminos "causales", un
cambio en X producira un cambio en Y y en Z, dando la impresin de
que estas dos ltimas variables covaran. Slo ser evidente la
independencia entre Y y Z cuando se tome en cuenta explcitamente
a X. Por ello se dice que este modelo asegura la independencia
condicional entre Y y Z. Dicho de otra forma: controlando X se elimina
la relacin. Tambin se podra expresar como: Y y Z son
condicionalmente independientes.
Naturalmente, se podra haber incluido en el modelo a ikyz, en
lugar de jkxz. Se pueden elaborar diferentes versiones del modelo
de una interaccin de dos factores o del modelo de dos
interacciones de dos factores, dependiendo de cules se incluyan y
cules no.

IV.2.2.4. Modelo

con

todas

las

Interacciones

de

dos

Factores

Se trata, sencillamente, de aadir la interaccin que el modelo


anterior dej fuera:
Lijk = + jy + jx+ kz+ jjyx+ jkxz + ikyz
La aseveracin fundamental del modelo es que: a) cada variable
est relacionada con cada una de las otras. Controlar cualquiera de

las variables no esconde ni altera las relaciones entre las otras.


Adems, el hecho de que, bien se controle X, Y o Z, las relaciones se
sigan manteniendo igual, implica que no hay interaccin de 3
factores.

IV.2.2.5.

Modelo Saturado

Cuando se incluye la interaccin de tres factores, o de segundo


orden, se llega al modelo saturado, donde el nmero de
parmetros independientes coincide con el nmero de casillas de la
tabla y se representa:
Lijk = + jy + jx+ kz+ jjyx+ jkxz + ikyz+ ijkxyz
El modelo afirma, como novedad adicional a los anteriores, que:
a) todas las variables estn relacionadas entre s. Dicho de otro modo,
la presencia de una interaccin de tres factores indica que cualquiera
de las asociaciones entre dos variables cambia de acuerdo con los
cambios en los niveles de la tercera variable. Por ejemplo, para una
categora de Z, la relacin entre X e Y es fuerte; y para la otra
categora de Z, esa misma asociacin es dbil.

IV.3. GENERALIZACIN DE LOS


TABLAS MULTIVARIADAS

MODELOS

BSICOS

Aunque ya con tres variables una tabla se puede considerar


multivariada, preferimos, por razones de claridad en la
presentacin, distinguir primero el caso multivariado ms sencillo.
Los elementos bsicos (independencia mutua o condicional,
equiprobabilidad, interaccin) se pueden aplicar a tablas de ms de
3 variables. La inclusin de nuevos ndices, simplemente aumenta
la variedad de modelos.
El significado del modelo puede extraerse de un anlisis de los
parmetros p que incluye o excluye. Por ejemplo, un modelo para
una tabla IxJxKxL como el siguiente:
Lijk = + jy + jx+ kz+ lw +jjyx+ jkxz + ikyz+ ijkxyz

reflejara que:

las variables X, Y y Z estn relacionadas unas con otras (de


dos en dos);

adems, esas tres estn relacionadas entre s (es decir, que


cualquiera de las relaciones entre dos de esas variables
depende de los niveles de la tercera);

ninguna variable tiene categoras equiprobables;

la variable W no se relaciona con ninguna otra.

Como se observa, el modelo sigue el principio jerrquico: si se


incluye un trmino cualquiera, tambin se incluyen los
"subtrminos" contenidos en l. En este modelo no se ha incluido la
interaccin de 4 factores (lo que hubiera dado lugar al modelo
saturado). De incluirse, hubiera significado que el esquema de
relaciones entre las tres variables dependera de los niveles de una
cuarta variable.
Hasta ahora hemos usado una notacin o simbolizacin que
podramos calificar de exhaustiva, representando los modelos
mediante la especificacin de todos sus efectos, con el fin de
aclarar el significado mismo de los modelos. Pero normalmente los
modelos logartmico lineales se expresan mediante una notacin

simplificada
o
caractersticas:

estandarizada,

que

tiene

las

siguientes

oSe prescinde de la media general, entendiendo que siempre


est presente.
o Se representan los efectos principales de una variable
cualquiera por la inicial del nombre de esa variable.
o Se representan los efectos de interaccin de primer
orden con las dos iniciales correspondientes.
o Se prescinde de especificar un efecto principal cuando la
inicial correspondiente est incluida en una interaccin de
primer orden. Esto nos lo permite el principio jerrquico.
S sera preciso, en cambio, para aquellas variables que
no figuren en ningn efecto de interaccin.
o Por la misma razn, se prescinde de especificar un
efecto de primer orden (de dos factores) cuando las dos
iniciales correspondientes estn ya incluidas en una
interaccin de segundo orden (de tres factores).
o Generalizando: no es preciso especificar los efectos de
menor orden cuando estn contenidos en un efecto de
orden superior.
o Si se habla de variables "abstractas" las iniciales de los
nombres se sustituyen por letras arbitrarias (A,B,C,...;
X,Y,Z,...).
Las ventajas son considerables. Por ejemplo, en el caso de una
tabla de 4 variables (Y, X, Z, W) IxJxKxL el modelo con todos los
efectos principales se representara: Y,X,Z,W. Un modelo con dos
interacciones de primer orden se representara: W,YX,XZ. Un
modelo con una interaccin de segundo orden se representara:
W,YXZ. Y el modelo saturado se representara: YXZW. Igualmente,
pueden encontrarse modelos representados por nmeros,
correspondiendo cada nmero a una variable. Por ejemplo, el
modelo 12,13,23 sera el modelo con todas las interacciones de
primer orden en una tabla de 3 variables. Tambin es habitual
encontrar en la notacin estandarizada el uso de parntesis o
corchetes o llaves. Por ejemplo, el modelo de todas las
interacciones de dos variables en el caso de 4 variables, puede
encontrarse como YX, YZ, YW, XZ, XW, ZW, como (YX, YZ, YW, XZ,
XW, ZW) o como [YX] [YZ] [YWl [XZ] [XWI [ZW].

IV.4. QU SON LAS TABLAS DE CONTINGENCIA?


Se define como Tabla de Contingencia (Crosstabulation Tables), a
una combinacin de dos o mas tablas de distribucin de frecuencia,
arregladas de manera que cada celda o casilla de la Tabla resultante
represente una nica combinacin de las variables cruzadas
(crosstabuled).
De tal manera que la Tabla de Contingencia nos permita examinar
las frecuencias observadas que pertenecen a cada una de las
combinaciones especficas de dos o ms variables.

Por ejemplo:
Tabla de Contingencia del anlisis de la relacin que existe entre la
preferencia de la poblacin de vivir en casa o apartamento en Dos
principales ciudades:

VIVIR EN CASAS

VIVIR EN APART.

CARACAS

10

40

50

VALENCIA

30

20

50

50

50

100

Examinando estas frecuencias, podemos identificar las relaciones


entre las variables de la Tabla de Contingencia (por ejemplo, La
poblacin de Caracas claramente prefiere vivir en apartamentos).
La Regresin Loglineal, nos proporciona una manera ms sofisticada
de analizar las Tablas de Contingencia y determinar las
interacciones estadsticas de las variables seleccionadas.
IV.4.1. Modelos loglineales para tablas de contingencia

Vamos a empezar nuestro razonamiento a partir de una tabla para


dos variables con I filas y J columnas. Llamamos

a la proporcin

total de sujetos clasificados como i en las filas y j en las columnas,


y
a la proporcin total de sujetos en la categora i para la

variable filas (olvidndonos de la otra variable, como si no existiera,


es decir juntando todas las columnas) y a la proporcin total de
sujetos

en la categora j para la variable columnas (juntando

todas las filas). Hemos visto ms arriba que bajo la hiptesis de


independencia la proporcin de cada celda se estima como:

Y por lo tanto para estimar la frecuencia F ij multiplicaremos por el


tamao global N

Si tomamos logaritmos obtenemos:

Vamos a llamar X a la variable representada en las filas, Y a la


variable correspondiente a las columnas. La frmula anterior, que
representa el modelo matemtico para estimar la frecuencia de cada
celda en la hiptesis de independencia, la reescribimos entonces
como sigue:

donde cada sumando se corresponde directamente con los de la


frmula anterior.
En este modelo podemos introducir un tercer trmino para
considerar la presencia de asociacin, y tendremos entonces un
modelo en el que ya no se cumplira la hiptesis de independencia:

Por lo tanto la hiptesis de independencia es equivalente a plantear

Si estuviramos analizando tres variables, aadimos una

tercera con nombre Z, podemos generalizar el modelo anterior:

Este tipo de modelos se conoce con el nombre de modelos


loglineales.
Denominamos variables cualitativas a aquellas cuyo resultado es un
valor o categora de entre un conjunto finito de respuestas posibles. El
sexo, el estado civil o el grupo sanguneo son ejemplos de variables
cualitativas. Cuando se analizan variables cualitativas es habitual
representar en tablas las frecuencias de casos observados para cada
una de las diferentes categoras de las variables, las cuales se
denominan tablas de contingencia.
En la siguiente figura se presenta un ejemplo de tabla de contigencia
para dos variables: en las filas se encuentra la variable ESTUDIOS,
clasificada segn tres categoras, y en las columnas representamos la
variable HTA,. Los datos corresponden a un conjunto de pacientes
diabticos.
Tabla 1
HTA II a HTA Normal
IV *
I
alta
30
117 94

Sin
estudios
1 grado 39
2 y 3 11
grado
Total
80

Norm Opti
al
ma
49
11

Tot
al
301

123
35

110
58

60
39

21
24

353
167

275

262

148

56

821

* Los niveles de HTA II a IV se han agrupado en una sola categora.


En este tipo de tablas habitualmente se desea conocer si existe
asociacin entre las dos variables, o si por el contrario se pueden
considerar independientes. Dicho de otra forma: queremos saber si la
proporcin de casos para cada categora de una de las variables es
independiente del valor que toma la otra variable. En la tabla del
ejemplo nos interesa saber si la proporcin de sujetos en cada una de
las categoras de la variable HTA es diferente segn el nivel de
estudios o si, por el contrario, se pueden considerar independientes.
El razonamiento para contrastar si existe o no asociacin entre dos
variables cualitativas se basa en calcular cul seran los valores de
frecuencia esperados para cada una de las celdas en el caso de que
efectivamente las variables fuesen independientes, y compararlos

con los valores realmente observados. Si no existe mucha diferencia


entre ambos, no hay razones para dudar de que las variables sean
independientes.
En el ejemplo, la proporcin de pacientes con HTA nivel I en nuestra
muestra es
275 / 821 = 33.5%
Si las variables son independientes esta proporcin debiera
mantenerse (al menos de forma aproximada) en cada nivel de
estudios. As como tenemos 167 pacientes con estudios de 2 o 3
grado, el nmero de casos esperado con HTA nivel I es
167 x 0.335 = 55.9
mientras que el valor observado es slo 35.
De forma general la frecuencia esperada para cada una de las celdas,
cumplindose la hiptesis de independencia, se calcula multiplicando
el total de la fila por el total de la columna correspondiente, y
dividindolo por el tamao global.
El contraste estadstico ms utilizado para evaluar si las diferencias
entre las frecuencias observadas y las esperadas pueden atribuirse al
azar, bajo la hiptesis de independencia, es el denominado chi de
Pearson:

donde Fij representa la frecuencia esperada para la celda situada en la


fila i columna j, y fij representa la frecuencia efectivamente observada
para esa celda. En la hiptesis de independencia este estadstico se
distribuye de forma aproximada segn una chi con grados de libertad
(I-1)(J-1), siendo I el nmero de filas y J el nmero de columnas.
El estudio de la asociacin entre dos variables cualitativas en
ocasiones puede ser insuficiente, ya que la presencia de una tercera
variable puede modificar las conclusiones respecto a esa asociacin,
e incluso puede interesar evaluar la influencia de ms variables
adicionales. En el ejemplo anterior si se calcula el valor del chi
obtenemos 35.6, que con 8 grados de libertad corresponde a un valor
de probabilidad de 0.00002, lo que indica que los datos obtenidos
estn en clara contradiccin con la hiptesis de independencia y
debemos por lo tanto concluir, a partir de la evidencia de nuestros

datos, que existe asociacin entre el grado de HTA y el nivel de


estudios de los pacientes.
Sin embargo, por las caractersticas sociales de nuestro pas,
sabemos que las personas de edad avanzada no tienen el mismo
perfil educativo que las ms jvenes, siendo en general su nivel de
estudios inferior. Si, por otro lado, la prevalencia de la HTA aumenta
con la edad, pudiera ser que la asociacin observada se explique
porque en las categoras con nivel de estudios inferiores se
encuentran ms personas de edad avanzada, mientras que en las
categoras con mayor nivel de estudios tengamos predominio de
personas jvenes. Por ello nos puede interesar en este caso incluir en
nuestro anlisis una tercera variable que recoja la edad del paciente,
y que vamos a clasificar en los siguientes intervalos: Hasta 50 aos,
entre 50 y 64, entre 65 y 74, ms de 74 aos.
Puesto que ahora tenemos tres variables, HTA, ESTUDIOS y EDAD,
vamos a ver cmo podemos analizar de forma conjunta la asociacin
entre tres o ms variables cualitativas y para ello empezaremos con
un poco de teora. Estimado lector no se asuste porque encuentre en
el texto frmulas con letra grande, lo razn es para que se vean mejor
en el navegador, y adems son frmulas muy sencillas, donde lo ms
complicado que encontramos es la presencia de algn logaritmo.

IV.4.2. Variables de Diseo vs. Variables de Respuesta


En las tcnicas de Regresin Mltiple, se hablan de Variables
Independientes y Variable Dependiente, definiendo a la Variable
Dependiente como aquella que es explicada por la combinacin de
Variables Independientes.
En la Regresin Loglineal, no se pueden hablar de Variables
Dependientes o Independientes, ya que se trata de relacionar
nicamente el Logaritmo Neperiano de la Frecuencia (ocurrencia o
conteo de datos) en funcin de una serie de variables categoriales
(cualitativas).
Entonces, hablaramos de Variables de Diseo y Variable de
Respuesta; siendo las Variables de Diseo aquellas variables
categoriales (Dicotmicas o politmicas) que seleccionamos para
construir nuestra Tabla de Contingencia y la Variable de Respuesta
la frecuencia o ocurrencia de la data.

IV.4.3. Medidas residuales y medidas componentes

El procedimiento de anlisis logartmico lineal consiste en una


comparacin de diferencias: diferencias entre las frecuencias
observadas y las esperadas bajo cierto modelo; es decir, se intenta
ajustar ambas frecuencias y comprobar la "calidad" de ese ajuste. La
medida de calidad del ajuste es, por tanto, una medida residual. Si los
"residuos" que quedan al intentar ajustar son demasiado grandes
(valores grandes de ji2de G, es que las diferencias entre los datos
observados y los esperados son tan grandes que no hay manera de
que ambas cosas puedan considerarse iguales (ajustables), ni an por
errores del azar. Es decir, el ajuste sera forzado, de "mala calidad", el
modelo no se ajusta a nuestros datos, por tanto, es un mal modelo,
luego, lo rechazamos. El hecho de que valores grandes de ji 2 o G2
vayan asociados a probabilidades muy pequeas (inferiores a 0,05 o a
0,01) indica que lo que es "significativo" es el "residuo", es decir, el
desajuste del modelo con nuestros datos. Por el contrario, valores
pequeos de ambas pruebas van asociados con probabilidades muy
altas. Se podra concluir, en estos caso'!, que el residuo es muy
pequeo: nuestros datos se parecen mucho a lo que se espera bajo el
modelo y, por consiguiente, el desajuste no es significativo, de forma
que aceptamos el modelo. Ayuda a aclararlo mejor la distincin entre
los conceptos de ji2 (o G2)residual y ji2 (o G2) componente (Baker,
1981). Adems, estas dos nociones permiten explorar ms a fondo los
resultados de un anlisis logartmico lineal, extrayendo informacin
adicional acerca de los datos. La medida de calidad del ajuste que se
obtiene en los listados, es una medida residual, bien sea ji 2 o bien G2.
Imaginemos un modelo Ml, para el cual hemos hallado su ji 2 residual,
al que llamamos rl. Supongamos otro modelo M2 que contiene todos
los trminos de M1 ms uno o varios trminos adicionales. Tambin
calculamos su ji2 residual correspondiente y lo llamamos r2. Pues
bien, a la diferencia r1 -r2 se le llama ji2 componente. Esta medida
componente se debe (se adscribe, se corresponde) exclusivamente a
los nuevos trminos aadidos a M2, y es un ndice de en qu medida
esos nuevos trminos colaboran o contribuyen a la calidad del ajuste
de M2. Es decir, se resta el residual del modelo que no tenga una
determinada interaccin AB pero s las otras, del residual del modelo
que las tiene todas. Eso nos da la medida componente de ese trmino
AB que falta en el modelo ms completo. Cuanto mayor sea la
medida componente de un determinado efecto menor ser su
residual. Y a mayor componente, mayor importancia de ese efecto en
el ajuste del modelo.
En sntesis, la calidad del ajuste de un modelo se determina
mediante su residual, mientras que la importancia en dicho ajuste
de un trmino cualquiera (bien sea un efecto principal o un efecto

de interaccin de cualquier orden) se determina mediante su


componente. Y este ndice se obtiene restando el valor residual de
un modelo que no contenga ese trmino del residual de un modelo
mayor que s lo contenga. Naturalmente, puede haber ms de un
modelo que contenga el trmino de inters, pero slo se pueden
utilizar para hacer el clculo aquellos modelos que slo se
diferencien precisamente en dicho trmino.

IV.4.4. La Bondad de Ajuste


La bondad de ajuste de una Regresin Loglineal, se basa en la
significancia de la desviacin (residuo) entre la Frecuencia
Observada de los datos y la Frecuencia Esperada que genera el
modelo loglineal.
Es decir, el modelo ser mejor en funcin de la minimizacin de la
diferencia entre la Frecuencia Observada y la Esperada2.

FREC OBSERV FREC ESPERADA 0

Se evaluar las Significancia (p) o Bondad de Ajuste de un Modelo


Loglineal particular, mediante:

Concepto anlogo a la Teora de los Residuos que se utiliza en los Mtodos de Regresin Mltiple para
identificar los Datos Atpicos contenidos en una serie de datos.

El Test del Chi -Cuadrado ( 2 ) Tradicional3 y Estadstico de Mxima


Verosimilitud de Pearson ( L2 )4 (o Pearson Likelihood Ratio Chi-square
como es su denominacin en ingls).
De tal manera, que se cumplan los siguientes parmetros:
1) Chi Cuadrado ( 2 ): Mximo
2) Estadstico de Mxima Verosimilitud de Pearson ( L2 ): Mximo
3) Significancia (Sig.): Mnima ( p 0.0001)

Seleccin del modelo


Procederemos a ajustar diferentes modelos a nuestros datos y
ver cul se adecua mejor a los valores observados.
Para contrastar dos modelos diferentes se utiliza el estadstico
denominado cociente de verosimilitud
(likelihood ratio), que se calcula como:

donde f es la frecuencia observada y F la frecuencia esperada segn


3

DISTRIBUCIN PROBABILIDAD CHI CUADRADO

La prueba de Mxima Verisimilitud de Pearson (LRT, L2 G2 tal como se le conoce en diferentes textos),
es una prueba estadstica de la bondad de ajuste entre dos modelos. Un modelo relativamente ms
complejo se compara a un modelo ms simple para ver si se comparan significativamente bien para un
juego de datos en particular. El LRT slo es vlido si compara a modelos jerrquicamente anidados. Es
decir, el modelo ms complejo slo debe diferir del modelo simple por la adicin de una o ms variables;
de tal forma que agregando variables adicionales se obtenga una bondad de ajuste mayor. Sin embargo, se
llega a un punto cuando agregar variables adicionales NO mejorar significantemente la bondad de ajuste
del modelo ms simple. El LRT mantiene un criterio objetivo seleccionando entre los posibles modelos.
El LRT se inicia con una comparacin de los Chi Cuadrados de la forma:

L2 2 * ( Ln 2 1 Ln 2 2 )
Es decir, se evala la diferencia de los logaritmos neperianos de los Chi-Cuadrados, basados en la
diferencia de los Grados de Libertad. El LRT sigue aproximadamente al 2 del modelo.

el modelo. Este estadstico se distribuye segn una chi en la


hiptesis de que el modelo es correcto, con grados de libertad que
dependen de los parmetros utilizados para ajustar el modelo. En la
salida de los programa de estadstica ingleses se suele presentar
tambin como Deviance (desviacin respecto al modelo observado,
tambin conocido como modelo saturado, porque en l se incluyen
todos los trminos de asociacin posibles y se ajusta por tanto
perfectamente a los datos observados). Valores elevados de G
reflejan un mal ajuste del modelo a los datos, lo que corresponder a
un valor de probabilidad bajo.

IV.5. EL MODELO LOGLINEAL SATURADO

IV.5.1. Definicin de un Modelo Saturado


El Anlisis o Regresin Loglineal, analiza el Logaritmo Neperiano (Ln)
de la Frecuencia de cada celda o casilla de una Tabla de Contingencia,
por medio de un modelo lineal.
Por lo tanto, el Ln de la frecuencia de cada celda o casilla se puede
expresar como la suma de las contribuciones de las diferentes
variables que intervienen en la formacin del Modelo Loglineal.
DISTRIBUCIN PROBABILIDAD
CHI CUADRADO

La prueba de Mxima Verisimilitud de Pearson (LRT, L 2 G2 tal como


se le conoce en diferentes textos), es una prueba estadstica de la
bondad de ajuste entre dos modelos. Un modelo relativamente ms
complejo se compara a un modelo ms simple para ver si se
comparan significativamente bien para un juego de datos en
particular. El LRT slo es vlido si compara a modelos jerrquicamente
anidados. Es decir, el modelo ms complejo slo debe diferir del
modelo simple por la adicin de una o ms variables; de tal forma que
agregando variables adicionales se obtenga una bondad de ajuste
mayor. Sin embargo, se llega a un punto cuando agregar variables
adicionales NO mejorar significantemente la bondad de ajuste del
modelo ms simple. El LRT mantiene un criterio objetivo
seleccionando entre los posibles modelos. El LRT se inicia con una
comparacin de los Chi Cuadrados de la forma:

L2 2 * ( Ln 2 1 Ln 2 2 )
Es decir, se evala la diferencia de los logaritmos neperianos de los
Chi-Cuadrados, basados en la diferencia de los Grados de Libertad. El
LRT sigue aproximadamente al 2 del modelo.
Se define como Modelo Saturado (o Completo) a aquel que contiene
TODOS los posibles efectos principales y TODAS las posibles
combinaciones (efectos de 2do., 3er. o ensimo orden) de la Variables
seleccionadas que lo componen.
Debido a que el Modelo Loglineal Saturado, puede reproducir
perfectamente la data estudiada, debido a que contiene todas las

posibles combinaciones de las variables seleccionadas; se supone en


un modelo pesado y complejo, y usualmente no es el modelo ms
deseable.
Por un principio elemental de parsimonia, se debe encontrar uno o
mas modelos mas simples, que generen un resultado con un grado
aceptable de precisin y los definimos como Modelos Jerrquicos y
que sern analizados mas adelante.

IV.5.2. Ejemplo de un Modelo Loglineal Saturado


Supongamos que para un estudio de valoracin de apartamentos
vacacionales en una ciudad costera, queremos estudiar la relacin
entre las Variables Categoriales:
X: Vista al Mar
Y: Edificio con Piscina
Z: Edificio con Puestos de Estacionamiento para visitantes
La ecuacin para un Modelo Loglineal Saturado, esta dado por:

Ln( frecuencia ) X Y Z XxY XxZ YxZ XxYxZ

Donde:
( frecuencia ) : Representa la Frecuencia de cada celda o cuadrcula de la

Tabla de Contingencia producto de la interaccin de los


Datos (referenciales) y Variables seleccionadas

Representa el Trmino Independiente de la Ecuacin

X :

Representa el efecto principal


Cuantitativa o Categorial X

de

la

Variable

Y :

Representa el efecto principal


Cuantitativa o Categorial Y

de

la

Variable

Z :

Representa el efecto principal


Cuantitativa o Categorial Z

de

la

Variable

XxY :

Representa el efecto de segundo orden o combinacin


de las Variables Categoriales X Y

XxZ :

Representa el efecto de segundo orden o combinacin


de las Variables Categoriales X Z

YxZ :

Representa el efecto de segundo orden o combinacin


de las Variables Categoriales Y Z

XxYxZ :

Representa el efecto de tercer orden o combinacin de


las Variables Categoriales X, Y Z

IV.5.3. Desventaja del Modelo Saturado


EL Modelo Saturado, aunque evidentemente siempre se cumple,
supone un nmero inmanejables de ecuaciones; por ejemplo para el
caso anterior Nueve Ecuaciones. Por lo tanto es un modelo pesado y
sumamente complejo.
Por lo tanto, es necesaria la bsqueda de uno o varios modelos mas
simples que den cuenta de dichas frecuencias con un grado de
precisin aceptable para un nivel dado de confianza 5.

Cuando se analizan Tablas de Contingencias de Cuarto Orden o


mayor, la determinacin del mejor modelo de Regresin Loglineal
puede resultar altamente dificultoso. Aqu entrara la bsqueda de
una Modelo de Correlacin ms simple.
Los Modelos Loglineal Jerrquicos
Definicin
Se define como Modelos Loglineal Jerrquicos, a los diferentes
modelos, todos sub-juegos (ecuaciones de menor orden que el Modelo
Saturado) provenientes del Modelo Loglineal Saturado, que cumplan
las condiciones siguientes:
a) Si un parmetro es nulo, tambin los sern aquellos trminos de
orden inferior.
b) Que exista completa independencia entre las variables
seleccionadas6
5

Se puede citar la analoga de este concepto al del Anlisis Factorial para la Regresin Mltiple. El
Anlisis Factorial, permite obtener un Modelo de Regresin Lineal Mltiple ms simple y con menos
variables, mediante la eliminacin de Variables No Significativas, pero a la vez manteniendo un
resultado aceptable a un nivel de confianza predeterminado.
6
EL test de Completa Independencia implica que en el modelo jerrquico todas las variables sean
independientes entre s. Esto se obtiene al comparar los Chi-Cuadrados de cada variable, con la

Si estas condiciones se cumplen, se genera un Modelo Loglineal ms


sencillo, ms elegante y con un grado aceptable de precisin

Relacin Jerrquica
Para un Modelo con Tres (3) Variables de Diseo A, B C, se pueden
obtener una gran cantidad de Modelos Jerrquicos de Orden Inferior,
como por ejemplo los siguientes:

Modelo Jerrquico de Tercer Orden (Modelo Saturado):


Ln( frecuencia ) A B C AxB AxC BxC AxBxC

Modelos Jerrquico de Segundo Orden


Ln( frecuencia ) A AxB

Ln( frecuencia ) AxB C


Ln( frecuencia ) B C AxC
Ln( frecuencia ) B BxC AxC

Modelos Jerrquicos de Primer Orden

Ln ( frecuencia ) A B C
Ln( frecuencia ) B C
Ln ( frecuencia ) C

Hiptesis Nula ( 2 obtenido de la Tabla para su correspondiente Grados de Libertad). Donde se debe
cumplir que:

2 i 2 0 y p 0.0001
Si lo anterior se cumple, indica que el Modelo Jerrquico independiente es significantemente diferente del
Modelo Saturado, sugiriendo que ese Modelo Jerrquico contiene la variable o variables necesarias para
obtener una buena correlacin o ajuste

O cualquier combinacin vlida:

AxBxC

AxB

AxC

BxC

IV.5.4. Obtencin del Modelo Jerrquico de Mejor Ajuste


Si lo anterior se cumple, indica que el Modelo Jerrquico
independiente es significantemente diferente del Modelo Saturado,
sugiriendo que ese Modelo Jerrquico contiene la variable o variables
necesarias para obtener una buena correlacin o ajuste
Mtodo General
El Mtodo de bsqueda del Mejor Modelo Jerrquico ms utilizado por
los paquetes estadsticos dedicados en el conocido como Retroeliminacin (Backward Elimination).
Esta metodologa combina el uso de los k(simo)-ordenes y el test Chi
- cuadrado para encontrar un Modelo Jerrquico o varios Modelos
Jerrquicos significativos
La lgica del proceso es la siguiente:
a) Se comienza calculando el Modelo Saturado.
b) Se analiza el Modelo Jerrquico o los Modelos Jerrquicos de
ms alto orden
c) Se elimina el Modelo o Modelos de ese orden que no sean
significativos ( 2 i 2 0 y p 0.01 )
d) Se eliminan los Modelos Jerrquicos de Orden Inferior en las
mismas variables
e) Se analizan los Modelos Jerrquicos restantes

f) El proceso se contina hasta el punto en que no puedan seguir


eliminndose mas efectos sin sacrificar el poder predictivo del
modelo ( 2 ( y / o) p ) permanezcan constantes o tiendan a
disminuir 2 o aumentar p .

INICIO

Calcular Modelo Saturado

Analizar Modelo Jerrquico de ms alto orden

Tiende a disminuir Chi-Cuadrado


O aumentar p
o ambos permanecen constantes .

Modelo Jerrquico hallado

FIN
Eliminar Modelo no significativo
2i 2 0

p 0.01

Eliminar Modelos de Orden Inferior


en las mismas variables

Analizar Modelos Jerrquicos restantes

El ajuste de modelos

Un vez determinado el modelo, se procede a su ajuste, es decir,


a comparar las frecuencias esperadas bajo ese modelo con las
frecuencias empricas obtenidas en la investigacin.
En algunos modelos existen frmulas explcitas para la estimacin
de las frecuencias esperadas. Por ejemplo, en una tabla bivariada los
estimadores bajo el modelo de independencia se calcularan
mediante:
Fij =( fi+ f+j )/N, donde fi+ y f+j son los totales marginales de Y y X.
En general, en una tabla bivariada se pueden estimar de esta
forma las frecuencias esperadas para todos los modelos, excepto el
saturado. Para tablas mayores no existen estimadores directos

para la mayora de los modelos y en su lugar el clculo se realiza


mediante el ajuste proporcional iterativo (Bishop et al, 1975; Haber
y Brown, 1986).
Una vez determinadas las frecuencias esperadas, se procede al
ajuste del modelo, bien con la prueba ji2 o bien con G2. Esta ltima
tiene la ventaja de poder ser dividida en diversos componentes
para probar subhiptesis dentro de un modelo ms amplio
(Shaffer,1973a,1973b; Halperin, Nehrke, Hulicka y Morganti,1976;
Fienberg,1977). No obstante, ambos estadsticos normalmente
tienen casi el mismo valor numrico y se llega generalmente a las
mismas conclusiones.
Como en la prueba ji2 tpica, pequeos valores de la medida indican
un satisfactorio ajuste, mientras que valores grandes sugieren la
inadecuacin del modelo. Se puede usar la tabla de la distribucin ji 2
para encontrar la probabilidad de obtener un valor de ji 2 tan grande
como el observado o ms grande que el observado bajo la hiptesis
de que el modelo es cierto. Para ello, se determinan los grados de
libertad restando al nmero de casillas el nmero de parmetros
independientes incluidos en el modelo.
Ya que ambas pruebas slo se aproximan a una distribucin ji2, el
investigador debe estar seguro que la aproximacin es
razonablemente buena. El mtodo "funciona" con muestras al azar
suficientemente grandes con ninguno o alguno de los marginales
fijados. Qu se entiende por "suficientemente grandes" es difcil de
precisar. Una regla emprica es que si N (el tamao de la muestra)
dividido por el nmero de casillas de la tabla es mayor que cinco, la
prueba sera exacta. Pero, como cualquier generalizacin, sta podra
tener excepciones, especialmente si las observaciones se amontonan
en unas pocas casillas, lo cual dara lugar a otro problema
(frecuencias esperadas muy pequeas) que tambin afecta a la
validez del uso de ambos estadsticos.

Vous aimerez peut-être aussi