Vous êtes sur la page 1sur 180

RE-VISION DE ANLISIS DE TABLAS e INTRODUCCIN A MODELOS LOGLINEARES (2010, v3).

MARCELO BOADO

Prefacio Este no es un libro de estadstica o matemtica, sino un curso destinado a aprenderlas y aplicarlas a situaciones de investigacin. Como curso se ha basado en la bibliografa internacional sobre el tema disponible en las bibliotecas e internet, en general siempre en ingls y en programas de anlisis de datos poco amistosos. Por ello partiendo de un supuesto nivel bsico obtenido en el grado, desarrollamos muchos razonamientos y aplicaciones que no son muy frecuentes en espaol. Y por ello tambin desarrollamos todos los ejemplos de aplicaciones de algoritmos y modelos en SPSS y Excel, que son ms populares entre los estudiantes y los profesionales. Pero asimismo muchos ejemplos son fcilmente traducibles y aplicables a STATA. El objetivo del trabajo es aclarar los procedimientos y su aproximacin a las hiptesis que se persiguen. En este sentido se adscribe a toda la reflexin que entiende que una vez que el experimento natural ha pasado (como en el 99,99% de nuestras investigaciones), la tarea es abocarnos al DGP (Data Generation Process), procurando obtener aproximaciones verosmiles de nuestras hiptesis dados los datos que obtuvimos. En buen romance, el objetivo especfico es desarrollar habilidades y conocimientos para las situaciones ms cotidianas de investigacin y trabajo profesional, cuando se debe analizar tablas de varias categoras, o relacionar tres o ms variables, o resolver distribuciones que presentan particularidades, o comparar muestras sucesivas sobre una misma poblacin. Este curso se ha beneficiado de las observaciones y comentarios de 3 generaciones de alumnos de la Maestra, y de 2 generaciones del Doctorado, del departamento de Sociologa de FCS UDELAR en Uruguay, y de 1 generacin del doctorado de Sociologa del Instituto de Investigaciones Gino Germani de la UBA en Argentina, una generacin de la escuela de verano de CEE/Colmex/CEEY. Los defectos persistentes pertencen al autor.

CLASE 1: NOTACIN, DEFINICIONES, y CONCEPTOS PRINCIPALES. El presente curso se dirige al uso y anlisis de datos generados por variables llamadas nominales, atributivas, discretas, segn ciertos autores cualitativas (ver Anexo 0). 1.1. REPRESENTANDO NUESTROS DATOS EN UNA TABLA. 1.1.1. DISTRIBUCIN DE FRECUENCIAS CONJUNTAS EN UNA TABLA Esta es una de las varias formas posibles de representar cmo estaran relacionadas dos variables nominales. Es la combinacin de variables a travs de todas las categoras que las representan.
VARIABLE FILA VARIABLE COLUMNA

j=1

j=2

. . . .

. .

j=c

TOTAL VAR FILA

i= 1 i= 2 . . . . . . i= l
TOTAL VAR COLUMNA

n11 n21 . . . . . nl1 n+1

n12 n22 . . . . . nl2 n+2

. . .

. .

. .

. .

n1c n2c . . . . . nlc n+c

n1+ n2+ . . . . . nl+ n++

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . .

. . . . . . . . . . . . . . . .

. . . .

c Total M arginal Fila = n = n ij i+ 1 l Total M arginal Columna = n = n ij + j 1 c l Total Casos = n = N = n ij ++ 1 1

1.1.2. DISTRIBUCIN DE PROBABILIDADES CONJUNTAS EN UNA TABLA

VARIABLE FILA

VARIABLE COLUMNA

j=1

j=2

. . . .

. .

j=c

Prob Marginal VAR FILA

i= 1 i= 2 . . . . . . i= l
Prob Marginal VAR COLUMNA

p11 p21 . . . . . pl1 p+1

p12 p22 . . . . . pl2 p+2

. . .

. .

. .

. .

p1c p2c . . . . . plc p+c

p1+ p2+ . . . . . pl+ p++

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . .

. . . . . . . . . . . . . . . .

. . . .

DEFINICIONES: PROBABILIDAD CONJUNTA: proporcin de casos en una celda ij en relacin al total de casos. PROBABILIDAD MARGINAL: Suma de las probabilidades conjuntas de una categora a travs de las categoras de la otra variable. Se representa como la proporcin de una categora de la variable de inters (fila o columna) en el total de casos. PROBABILIDAD CONDICIONAL: es la probabilidad de que ser i dado que solo interesan los j. Se representa como la proporcin de casos de una celda respecto de su total de categora fila (o columna).

Pr .Conjunta

p ij = n

ij

/N

c c Pr . M arg inal Fila = p = p ij i+ 1 1

Pr . M arg inal Columna

l l = p = p ij + j 1 1

Pr .

c l c l p = p = p + p =1 ij i+ ++ + j 1 1 1 1

Pr . Condiciona l ( Fila ) = p / p ij i + Pr . Condiciona l (Columna ) = p / p ij + j

1.1.3. OTRAS FORMAS DE TABLAS. Tabla mltiple distribucin condicional PROPIEDAD DE MMPP APOYO AL PROPIETARIOS GOBIERNO ESTRATO SOCIAL MEDIO BAJO FAVOR 44 16 CONTRA 36 4 Total 80 20 NO PROPIETARIOS ESTRATO SOCIAL MEDIO BAJO 4 32 16 48 20 80

Total 96 104 200

Tabla mltiple en forma de arbolito o matriz de conteos ej. en el excel.

Prop MMPP Prop Prop Prop Prop No Prop No Prop No Prop No Prop

Estr.Soc Medio Medio Bajo Bajo Medio Medio Bajo Bajo

Apoyo Gob Favor Contra Favor Contra Favor Contra Favor Contra

Frecs 44 36 16 4 4 16 32 80

La re-codifico y la exporto al SPSS, ponindoles 1 y 2 a cada categora. Es ms fcil exportar la planilla sin etiquetas ni labels, porque siempre las puedo poner luego con doble clic en el cabezal de columna. As me quedar una base de datos con 4 columnas, 3 de categoras y una de frecuencias o conteos. Siempre que use una base as debo indicar la variables que tenga las frecuencias en el comando ponderar del Spss.

Prop MMPP 1 1 1 1 2 2 2 2

Estr.Soc 1 1 2 2 1 1 2 2

Apoyo Gob 1 2 1 2 1 2 1 2

Frecs 44 36 16 4 4 16 32 80

1.2. ASOCIACIN E INDEPENDENCIA. Cuando se tienen 2 o mas variables nominales y se procede a examinar cmo estn relacionadas estas variables por medio de tablas de contingencia, de cualquiera de los tipos que recin vimos, se ingresa dentro de lo que suele llamarse anlisis de asociacin. Todos los mtodos que veremos seguidamente nos ayudan en esta direccin, pero suele suceder, segn la escala y tipo de pregunta o hiptesis de nuestra investigacin, que tengamos varias alternativas. La particularidad de los mtodos que veremos en este curso para el anlisis de asociacin es que no permiten distinguir entre variable explicada (response, o dependiente) y variable explicativa (o regresor, o independiente). Por ello las relaciones observadas en los datos van a indicar modalidades de variacin conjunta, pero no una direccin de antecedencia o causalidad. Si esta existe, ser en todo caso producto de nuestra interpretacin de los datos, no una consecuencia de los mtodos aplicados. No obstante, en varios mtodos sofisticados que veremos, se usarn procedimientos o formulaciones analgicas con el modelo causal ms simple - que es el modelo lineal general, que vieron en cursos recientes-, pero con una finalidad enunciativa y comunicativa. Cuando se analiza la informacin que aportan las variables nominales de una encuesta, o un registro, o un censo, o un conjunto de cualquiera de ellos, suelen predominar dos preguntas: esas variables tienen relacin entre s?, o esas variables no tienen relacin entre s? Estas preguntas reflejan un objetivo de la investigacin que es hallar evidencia confiable, plausible, a favor o en contra de una hiptesis. Suele simplificarse con demasa la cuestin a la oposicin entre Asociacin o Independencia estadstica, una dicotoma del tipo algo que ver vs nada que ver. En general veremos que nunca nuestra hiptesis estar perfectamente formulada, y que, en el mejor de los casos, ella es una aproximacin imperfecta a la distribucin que presentan los datos que relevamos. Vamos a ver que podremos dar muchos pasos entre la asociacin y la independencia para encontrar un modelo que explique nuestros datos. Un modelo, es una hiptesis precisa, con condiciones y restricciones claras. Un modelo es a la realidad lo mismo que una maqueta es a una casa... una forma de representar lo que pas, pasa, o pasara. Por qu tienen importancia los conceptos de asociacin e independencia? Porque suelen indicar si es plausible sostener que dos atributos observados de una poblacin guardan algn grado de referencia recproca. En general, no hay hiptesis precisas para la asociacin de 2 o ms atributos. Lo que s hay son hiptesis precisas para la independencia de 2 o ms atributos, o para otras situaciones. Es decir, condiciones y restricciones que permiten saber cual sera la distribucin terica de la independencia. Porque muchas veces, al analizar la informacin, es tan necesario saber cundo algo esta asociado como cuando no lo est.

1.3. CONCEPTO DE INDEPENDENCIA Dos variables nominales y aleatorias- son independientes s y slo si para cualquier valor de una de las variables, la probabilidad condicional de la otra es igual a su probabilidad marginal. O de otra forma, cuando la probabilidad conjunta es igual al producto de las probabilidades marginales respectivas. Dos variables -A y B- son independientes: Si la probabilidad de la categora i (de A) dada la categora j (de B) - que es la probabilidad conjunta de la celda ij dividida una probabilidad marginal de la categora j (de B) - iguala a la probabilidad marginal de la categora i (de A).

P(i|j) = pij / p+j= pi+ (1)


de donde es fcil advertir, y enunciar de manera genrica, que cuando:

pij = pi+ * p+j

(2)

estamos ante un caso de independencia estadstica. Qu quiere decir esto? Que los valores que asume una variable no estn condicionados por los que asume la otra. O en otras palabras, los valores que se observan en las variables A y B en la muestra de esa poblacin no permiten inferir que estn asociados entre s, aunque las variables pueden ser igualmente significativas en esa muestra, consideradas cada una por su lado. Precisamente la importancia de este concepto permite considerar para el anlisis a las variables que son independientes entre s, cada una por separado sin tener que sospechar o referir condicionalidad recproca, porque como vimos la distribucin condicional es igual, o casi igual, a la marginal. La frmula (2) constituye una derivacin de la anterior (1) para el clculo, pero ambas permiten arribar al concepto de valor esperado, que no es otro que el de valor promedio sin efecto o asociacin alguna.

La suma por fila, o columna, de los valores observados (nij) permite estimar los totales marginales de cada fila (ni+), o columna (n+j). La proporcin de cada total fila, o columna, en relacin al total de casos (n++) como vimos nos da la probabilidad marginal (alternativamente pi+ o p+j). A partir de estos ltimos se puede estimar las probabilidades conjuntas esperadas y los valores esperados. Dado que: pi+= ni+/N (3); y p+j= n+j/N (4) Entonces pij = pi+*p+j (2) sustituyendo es = (ni+/N ) (n+j/N) 2 = (ni+ * n+j) / N

Y para las frecuencias o valores esperados la estimacin es

Feij = N * (pi+* p+j) es claro que cuando sustituyo Feij = N * (ni+/N) * (n+j/N) = N * (ni+ * n+j) / N2 = (ni+ * n+j)/ N (5)
y cuando se cumple pij = pi+*p+j (2), entonces

Feij = N * pi+ (6)


Cuando 2 variables son independientes las frecuencias esperadas, o valores esperados, igualan (o se aproximan mucho), a las frecuencias observadas. Las frecuencias esperadas son la distribucin terica de las variables si ellas no estuvieran asociadas, y como vemos se estima a partir de las proporciones de las categoras en la muestra (1). Las frecuencias esperadas de una tabla son una hiptesis sobre cual sera la distribucin de los datos si no hubiera una relacin asociativa... Por ello la llaman hiptesis nula. Como veremos ambos criterios no alcanzan para ir a fondo en el anlisis de los datos.

Que como veremos y explicaremos mas adelante son llamados MLE, o Estimativas de Mxima Verosimilitud. 8

1.4. APLICANDO EL OJO. Un primer paso, cuando tenemos dicotomas es el examen visual (ojmetro) a los datos, que nos permite una forma de estimar asociacin e independencia. Se trata de saber si las proporciones condicionales y marginales son homogneas o similares. O en otras palabras, que tan lejos estn las probabilidades condicionales observadas de las probabilidades marginales observadas. Por un lado sabemos que las proporciones marginales son idnticas en los datos observados y en los esperados. Y por otro lado, por la hiptesis de independencia, sabemos que las probabilidades condicionales esperadas deben ser iguales a sus probabilidades marginales. Entonces, un contraste visual en el que las probabilidades condicionales observadas no se alejen mucho de las marginales, ya nos brinda una idea de la situacin que enfrentamos. Otro procedimiento usual y popular son las diferencias entre las proporciones condicionales de los pares de celdas. Cuando estas diferencias son 0 estamos en situacin de independencia. Y slo cuando esta diferencia supera el 20% estamos ante una relacin asociativa considerable. Esta inspeccin visual se dificulta notoriamente cuando nos alejamos de las dicotomas o de tablas de 2 x C categoras. Y no es aplicable cuando representamos los datos con una tabla mltiple en la que estn presentes muchas variables.

1.5 TEST DE INDEPENDENCIA CON DOS VARIABLES. En el sentido que se induce arriba queda claro que independencia y asociacin se oponen, y el procedimiento a seguir en una tabla bidimensional es estimar la distancia entre el valor esperado y el observado. En las disciplinas observacionales este procedimiento es claro y notorio, porque como sugiere King (1998) el experimento ya pas (2), y las variables estn aleatorizadas por el muestreo que aplicamos, mientras que en las disciplinas experimentales ello supone una estimacin necesaria de los casos y las combinaciones de los mismos como para poder poner a prueba la independencia como una de las hiptesis posibles (3). En realidad el procedimiento tiene la siguiente lgica: Dada la Hiptesis nula (H0) que seala los parmetros de independencia: Es posible rechazarla, y proponer una Hiptesis alternativa para explicar el resultado? Slo que en nuestro caso, el de las ciencias observacionales, habitualmente invertimos el proceder. De lo que se trata entonces es de una evaluacin global de la diferencia entre la H0 y la Hiptesis alternativa. En primer lugar a la diferencia entre valores observados (nij, o tambin fo) y esperados (Fij, o tambin Fe) se le llama residuo (fo-Fe). (Cualquier paquete convencional de estadsticas ofrece este y otros tipos de residuos que son de utilidad para el examen de la hiptesis nula). Que tipo de residuo debemos preferir? Como claramente se ve dado que la suma de los valores esperados iguala a los observados en los marginales respectivos y en el total, es lgico esperar que la suma de los residuosque tienen alternativamente signos positivos y negativos- sea 0. Por lo que los residuos puros en su conjunto no son preferibles para describir los datos. No obstante, como veremos seguidamente, su signo (- o +), que estar indicando sobre o sub representacin de los datos observados en relacin a la distribucin terica, s es importante (4).

Se trata de un experimento natural o cuasi-experimento; en el que slo se infieren resultado posteriores a la aplicacin de las variables independientes, pero no hay mediciones (informacin) previas. Ver tambin Shadish,Cook y Campbell (2001), o al menos Cambell y Stanley (1963) 3 Otra prueba interesante es la de homogeneida de muestras, se ver mas adelante. En el fondo lo nico que importa es la bondad de ajuste, todos los ejemplos son formas derivadas de ella. 4 Por razones de claridad y estrategia de procedimiento retomaremos el examen de los diferentes tipos de residuos mas adelante. 10

1.5.1. Test de Bondad de ajuste. Hay dos propuestas de solucin que prueban si el conjunto de la informacin presente en la tabla se aproxima a una distribucin conocida o imputable, que son llamados test de bondad de ajuste, o, corrientemente e inconvenientemente- : test de independencia. Uno es el X2 de Pearson, usualmente nombrado como test ji cuadrado, y el otro es la Razn de verosimilitud,el G2 o L2 segn sea el libro. La solucin de Pearson, que conduce a la bondad de ajuste de la informacin que poseemos SI la independencia fuese verdadera, tiene la formula:

X 2 = (( nij Fij ) 2 / Fij )


i =1 j =1

(7 )

Y, la solucin de la Razn de Verosimilitud, que es parecida, y su frmula es:

G = 2 (( nij * ln( nij / Fij )) ( 8 )


2 i =1 j =1

Para ambos ejemplos: nij: valores observados en la celda Fij: valores esperados en la celda

11

Ambas frmulas son formas de contrastacin de la informacin en las celdas, y arrojan un valor que sigue una distribucin similar a la distribucin Ji Cuadrado, dadas ciertas restricciones. Y mantienen entre s una diferencia pequea de valores. (Ver Anexo 1, pp 7-10 Razn de Verosimilitud), (Ver Anexo2: Tabla de Ji cuadrado). La diferencia entre ambas pruebas no es menor en lo conceptual, aunque suele serlo en los valores obtenidos. La prueba X2 de Pearson estandariza la diferencia cuadratizada entre el valor observado y el valor terico de la probabilidad. De ese modo mide la distancia o brecha en base a una escala. Esta explicacin est sobradamente difundida en todos los libros de texto corrientes. La prueba de la Razn de Verosimilitud, que ha ganado popularidad en los ltimos 30 aos, responde a un planteo algo mas complejo, que invitamos a seguirlo en el Anexo 2 de este manual. Bsicamente la Razn de verosimilitud contrasta dos modelos de diferente nmero de parmetros. Modelos que estn anidados, que tienen los mismos trminos salvo uno. Por eso la Razn de verosmilitud es un contraste proporcional entre una hiptesis mas simple y otra mas compleja. Esto la hace preferible a X2 para modelar hiptesis sobre los datos.

12

1.5.2. Aplicacin a un Ejemplo. Estimaremos a partir d elos datos observados probabilidad conjunta, frecuencias esperadas, probabilidad conjunta esperada, probabilidades condicionales, bondad de ajuste, y disimiliaridad. Y lo pondremos en una tabla resumen, usando un formato de conteo en un excel. VALORES OBSERVADOS Var fila 1 1 50 2 43 3 80 Total 173

Var col 2 73 21 19 113

Total 123 64 99 286

VALORES ESPERADOS Var fila 1 2 3 Total 1 74,4 38,8 59,8 173

Var col 2 48,6 25,2 39,2 113

Total 123 64 99 286

PROB CONJUNTAS OBSERVADAS Var fila 1 1 0,175 2 0,150 3 0,280 Total 0,605 PROB CONJUNTAS ESPERADAS Var fila 1 1 0,260 2 0,136 3 0,209 Total 0,605

Var col 2 0,255 0,073 0,066 0,395

Total 0,430 0,223 0,346 1

Var col 2 0,170 0,088 0,137 0,395

Total 0,430 0,223 0,346 1

13

PROB CONDICIONALES OBSERVADAS Var fila Var col 1 2 1 0,289 0,646 2 0,248 0,186 3 0,462 0,168 Total 1 1 PROB CONDICIONALES ESPERADAS Var fila 1 1 0,430 2 0,223 3 0,346 Total 1

Total 0,430 0,223 0,346 1

Var col 2 0,430 0,223 0,346 1

Total 0,430 0,223 0,346 1

Es posible volcar los datos anteriores para las estimaciones necesarias en la siguiente planilla (5).
Celda nij Fo Fe pij peij
Resid (fo-Fe)
Disim (pij-peij)

X2 Pearson

%P*

Ln(fo/Fe) fo*Ln(fo/Fe)

1,1 1,2 2,1 2,2 3,1 3,2 Total

50 73 43 21 80 19 286

74,6 48,6 38,9 25,4 59,8 39,1 286

17,5 25,5 15 7,3 28 6,6 100

26,0 -24,6 17,0 +24,3 13,6 + 4,1 8,9 -4,4 20,9 +20,2 13,6 -20,1 100 0

-8,6 +8,4 +1,4 -1,6 +7,1 -7,1 0

8,11 12,16 0,43 0,76 6,82 10,33 38,61

21 31,5 1,1 2 17,7 26,7 100

-0,400 0,407 0,100 -0,190 0,291 -0,721

-20,0 29,71 4,3 -3,99 23,28 -13,71 2*19,59= 39,18

%P*: contribucin de la celda al X2 Veros: fo*Ln(fo/Fe) Disim (pij-peij)

Segn el presente ejemplo pretender explicar los datos con el modelo (hiptesis) de independencia no es recomendable.
Esta es una planilla o tabla de conteos o tabla tipo arbolito, veremos mas adelante que resulta de suma utilidad. Tenga presente, y ello se mostrar mas adelante que en tanto ella es una forma de representar la informacin tambin se volver un tipo de base de datos, ingresable en los programas de clculo tal cual esta all, y las columnas de las estimaciones que ahora vemos tambin las podemos obtener de esos programas (excel o SPSS). 14
5

El valor del X2 de Pearson seala una brecha importante para 2 grl entre los datos observados y el modelo o hiptesis de independencia. Y lo mismo ocurre con G2, la Razn de verosimilitudes. (Los datos quedan a la derecha de la distribucin Ji Cuadrado). Advirtase que ambas pruebas tienen valores muy cercanos, y ambas siguen distribuciones aproximadas a la Ji Cuadrado, por ello es indistinto usarlas en este caso. Esta brecha nos estima - de manera relativa a la cantidad y calidad de la informacin cuanto se alejan entre s los datos observados y el modelo de independencia, propuesto por defecto como explicacin. Como veremos mas adelante, el modelo de independencia es mas restringido porque pretende usar menos parmetros que el observado, y con ello entonces la perdida de informacin es sustantiva y no es recomendable (6).

Veremos, ms adelante, que aunque la propuesta de Pearson y de la verosimilitud convergen, implican modos diferentes de ver el ajuste a los datos.
15

1.5.3. Disimilaridad. Un proceder semejante al de los residuos entre fo y Fe es examinar la brecha entre las probabilidades conjuntas observadas y esperadas, que no es ms que la discrepancia o disimilaridad entre los porcentajes que arrojan las fo (nij) y las Fe (Fij) en relacin al N en cada caso. Para este proceder numerosos autores proponen un Indice de Disimilaridad para complementar el criterio de la bondad de ajuste. (7) Dos caminos para hacerlo: Sumar las diferencias absolutas - sin signo- entre las probabilidades observadas y las esperadas de todas las celdas, y dividir por 2.

| pij peij | / 2
Slo sumar las diferencias positivas entre las probabilidades observadas y las esperadas. O si prefiere, o slo las negativas. Su resultado indica la discrepancia entre lo observado y lo esperado. Este resultado es la proporcin de casos que debera reclasificarse para llegar a la situacin de independencia desde la situacin observada. En nuestro ejemplo habra que reclasificar al 17,2% de los casos para lograr el modelo de independencia, lo cual es indicativo de que ese modelo es una alternativa muy mala para lo que observamos. La literatura mas recibida recomienda preferir un modelo segn el ndice de disimilaridad cuando su valor es inferior al 2%.

Este es un ndice que ya vimos en otros cursos!! Y es una versin corregida de la diferencia porcentual entre condicionales que vimos en 1.4.
16

1.6. LAS CHANCES Y CHANCES RELATIVAS (odds y odds ratio). 1.6.1. Generalidades. Una forma alternativa y equivalente a la fundada en las probabilidades estimadas y esperadas es la basada en las chances y chances relativas. Tambin se les denomina ventajas y ventajas relativas, o momios y razones de momios, u odds y odds ratio, en la literatura convencional. Su estimacin es ms directa y como se ver mas adelante los paquetes de clculo las prefieren. La chance es la ventaja de ser i dado j frente a ser j dado j. Es una razn que se estima entre dos valores. Da una idea de competencia u oportunidad. Obviamente se deriva de una tradicin matemtica vinculada a los juegos de azar. Y a los efectos de los clculos, como se ver, permite muchas mas opciones que los procedimientos anteriores. Cuando se aplica a los valores marginales se denomina chance marginal. Cuando se aplica a los valores internos de la tabla se denomina chance condicional. Las chances condicionales son muy importantes, y sirven para estimar las ventajas de un resultado frente a otro. Por ejemplo ser Bi antes que Bj dado que se es Ai. Las chances o ventajas o momios u odds no son proporciones como vimos hasta ahora sino razones. Las proporciones se estiman sobre el total fila, o columna, y sobre el total de la tabla. Y por ello son indicativas de los tipos de probabilidad que ya vimos (condicional y conjunta). Las chances u odds son razones que relacionan dos resultados (o probabilidades) observados. Chance y probabilidad implican conceptos diferentes, pero relacionados entre s: Uno, trata una ventaja de ocurrencia (o mejor dicho, de lo ocurrido); y el otro, la proporcin de los casos de una combinacin en el total de casos, o en el total de casos por fila o columna. As es fcil ver que: odd = probabilidad/(1 - probabilidad); y alternativamente: probabilidad = odd/(1 + odd). Haga esta prueba por su bien. Es usual que entre los diversos resultados que aporta una tabla, se relacione las chances que se observan. La nueva forma de comparacin que surge es una razn de chances, o sea una razn de las razones previamente observadas, y se la denomina chance relativa, o ventaja relativa, u odds ratio, o razn de momios. La chance relativa es idntica al producto cruzado de una ttrada de celdas, por razones aritmticas claras.
17

1.6.2. Qu comparo cuando leo una razn de chances, o chance relativa? La ventaja de ser Bi antes que Bj dado que se es Ai, frente a ser Bi antes que ser Bj dado que se es Aj. La razn de chances, u odds ratio, estima y mide una ventaja que nos interesa en relacin a una base de comparacin. Es propio de las apuestas complejas como se ve, pero tambin de la realidad compleja, como la de las CCSS y otras ciencias observacionales. Volvamos a nuestro ejemplo anterior, y pongamos sustancia: VALORES OBSERVADOS Var fila Voto 1=Pcol 2=Pnal 3=FA Total 1=Joven 50 43 80 173 Var col: generaciones 2=Viejo 73 21 19 113 Total 123 64 99 286

La chance de 1,1 frente a 1,2 , es decir de ser 1 antes que 2 dado que son ambos 1, o en categoras de ser joven y votar colorado respecto a ser viejo y votar colorado, es (50/73) = 0,68. La chance de ser joven y votar colorado es casi un tercio menor para los jvenes respecto de los viejos. La chance de 3,1 frente a 3,2 , es decir de ser 1 antes que 2 dado que son ambos 3, o en categoras de ser joven y votar FA respecto a ser viejo y votar FA, es (80/19)=4,21. La chance de ser joven y votar FA es 4 veces mayor para los jvenes que para los viejos. La chance relativa u odds ratio es la razn de ambas razones. As: (50/73) / (80/19), que equivale a (50 x 19) / (80 x 73), da por resultado 0,16. Entonces la chance de votar colorado en los jvenes se reduce a 1/6, y por su parte la chance de votar FA en los viejos se reduce a 1/6. O, puesto de otra manera mas contundente: la chance relativa de votar FA antes que colorado es casi 6 veces superior en los jvenes que en los viejos, y viceversa la chance relativa de votar colorado antes que FA en los viejos es 6 veces mayor que en los jvenes. Esta forma de examinar los datos permite partir la tabla en aquellas regiones que nos sean de inters, y localizar componentes asociativos de importancia.

18

1.6.3. PROPIEDADES DE LAS CHANCES RELATIVAS U ODDS RATIO. Como veremos mas adelante las chances relativas u odds ratio son preferidas para realizar estimaciones de modelos para datos tabulares por dos razones fundadas: por un lado tienen propiedades deseables, y por otro lado permiten realizar estimaciones en base a mtodos de clculo -llamados algoritmos-. Podemos enumerar las siguientes propiedades de las odds ratio: 1. Son siempre positivas. 2. Son invariantes, porque Si se multiplica cada celda por una constante k (50*k/73*k) / (80*k/19*k) = (50/73) / (80/19) y si luego, si se multiplica cada columna (o fila) por una constante diferente (50*c/73*k) / (80*c/19*k) = (50/73) / (80/19) y como ya vimos es indistinto el orden en que consideremos a las filas y columnas. Esta propiedad es muy importante!! porque las chances relativas u odds ratio son invariantes a los cambios en las distribuciones marginales de cada categora. (8) 3. Cuando el resultado de la chance relativa adquiere valor igual a 1 es sinnimo de independencia (NO asociacin) en la dicotoma o ttrada de celdas que se considera. 4. Cuando adquiere valor mayor o menor que 1 es sinnimo de asociacin. 5. Si bien su distribucin se sesga hacia la derecha, porque la chance relativa u odds ratio vara entre 0 y + , ello se corrige en los paquetes estadsticos convencionales estimando el log odds ratio, o logaritmo natural de la razn de chances, que vara entre - y + , con el valor 0 como indicativo de independencia. 6. (Regla no escrita) Cuando la chance relativa adquiere valores menores que 0,45 o mayores que 2,25, se puede estar seguro que en esa dicotoma, o en esa ttrada de celdas de una tabla l x c como fue nuestro ejemplo, se est frente a una relacin asociativa considerable.

Quiere decir que la muestra puede crecer, pero la relacin observada permanece constante; esto es muy importante para el trabajo con algoritmos!! 19

CLASE 2: PROPIEDADES DE JI CUADRADO APLICACIONES DE LA BONDAD DE AJUSTE.


2. 1. RECUERDOS DE JI CUADRADO.

La distribucin

La distribucin es una distribucin terica de probabilidad como la distribucin normal que toma sus parmetros de los grados de libertad. No es simtrica y comienza en 0. Cuanto mas grados de libertad mas se achata la distribucin y mas a la derecha se desplaza la distribucin. Las probabilidades son reas bajo la curva. Las reas bajo la curva corresponden a la probabilidad de que el valor caiga en el intervalo de importancia. Por ejemplo, el 50% de las veces una variable 0-4.35,

2 con 5 gr.l estar en un rango de

pero el 99% de las veces el valor caer bajo 15.09, lo que significa que slo hay 1% de chance obtener al azar una variable

2 con 5 gr.l por encima de este nivel.

20

21

2.2. PROPIEDADES DE

2 .

1. Una distribucin de 2 con v grados de libertad esta definida como: Ji cuadrado = sumatoria de v variables normales estandarizadas.

2 2 v2 = Z 1 + Z 2 + ...... Z v2

2. El valor medio de una distribucin 2 con v grados de libertad es v. Y su desvo estndar es 2v. Por ello la distribucin 2 se aproxima a la normal cuando v es grande; es decir mayor que 30.

3. Otra propiedad derivada es que si G y H son variables aleatorias independientes, cada una con distribuciones d y e, entonces la reunin de ambas en una nueva variable W tiene una distribucin ji cuadrado igual a d+e.

4. A partir de 1 y 3 es claro que cuando se tiene una distribucin 2 con v grados de libertad, ella puede descomponerse en un nmero v de elementos independientes que tambin se distribuyen como 2 con 1 grado de libertad.

22

2.3. LOS GRADOS DE LIBERTAD.


El nmero de celdas de la tabla (las combinaciones posibles de categoras) es el producto del nmero de celdas en las filas por el nmero de celdas en las columnas. Este nmero de celdas equivale a la suma de los grados de libertad (gr.l) y de las restricciones impuestas (o nmero de parmetros de clculo necesarios), y tiene la siguiente forma general: nmero de filas x nmero de columnas nmero de restricciones + grados de libertad l x c = 1+(l-1)+(c-1)+(l-1)(c-1) = = nmero de celdas nmero de celdas (9)

Es fcil ver que los grados de libertad son la diferencia entre el nmero de celdas y el nmero de parmetros para una tabla bidimensional. En consecuencia para cualquier tabla bidimensional los grados de libertad son: gr.l= (l x c) l c +1 = (l x c) (l +c 1) = (l-1) (c-1) (10)

Vemos que la formula 10 corresponde a los grados de libertad necesarios para la testar la hiptesis de independencia estadstica. Ejemplo para una tabla l x c = 2 x 2 2 x 2 = 1+ (l-1)+(c-1)+(l-1)(c-1) = 1+2-1+2-1+(2-1)(2-1)=1+1+1+1=4 gr.l. (2-1) (2-1) = 2 x 2 [1+ (2-1)+(2-1)]= 1 1 x 1 = 2 x 2 1 1 1 = 1.

23

2.4. DESCOMPONIENDO TABLAS Y TEST DE BONDAD DE AJUSTE. 2.4.1. Por qu descomponer la tabla y el test de ji cuadrado? Por varios motivos: 1. El principal, es el de rastrillar dnde se encuentran los principales puntos de apoyo al resultado del test. Y, ello obviamente supone formas de evaluar esos puntos de apoyo. 2. El segundo, es que si bien puedo rechazar a nivel global el test, en un ejemplo dado cualquiera, puedo reconocer que a nivel de ciertas regiones de la tabla tengo relaciones entre las categoras de las dos variables en cuestin, que son apreciables. 2.4.2. Como lo puedo hacer?: DE VARIAS MANERAS. A partir del siguiente ejemplo, donde se examina la relacin entre la Condicin de actividad econmica y el acuerdo o desacuerdo con la aplicacin de golpes a los nios para disciplinarlos (Lo trae SPSS!!!), veremos hasta dnde podemos llegar con las estimaciones de probabilidades conjuntas y condicionales, y cmo los diferentes tipos de residuos pueden ayudarnos a explorar nuestros datos. No es una teora, es slo un ejemplo forzoso de cmo recuperar la informacin una vez que el experimento ya pas. Nuestro punto de partida es la siguiente hiptesis: Existe una cierta asimetra en las preferencias de los adultos por el mtodo de disciplinamiento de los nios dada su condicin de actividad. De manera intuitiva esta hiptesis sostiene que cunto se est ms lejos de los nios se prefiere un mtodo disciplinario diferente a cunto ms cerca de ellos se est. O en palabras mundanas, quin est mas cerca de ellos en el hogar sera mas blando que quien trabajara todo el da fuera del hogar. 2.4.2.a Arrancando con lo que sabemos... La tabla 1 tiene las frecuencias observadas, La tabla 2 estima las frecuencias esperadas. No se detenga en el test de bondad de ajuste ahora, haga como que no lo tiene. La tabla 3 acerca la probabilidad conjunta, cunto es la probabilidad conjunta esperada? Haga el ndice de disimilaridad Se aproximan los ejemplos a la independencia segn hiptesis? Siga adelante, si slo tuviera las tablas 4 y 5... qu observa respecto de la hiptesis de independencia?
24

UN EJEMPLO CONMOVEDOR: GOLPEAR A LOS NIOS PARA DISCIPLINARLOS POR CONDICION DE ACTIVIDAD DEL ENTREVISTADO.
TABLA 1: FRECUENCIAS OBSERVADAS Golpear a los nios para disciplinarlos Muy de acuerdo De Acuerdo En Desacuerdo Muy en desacuerdo Total Fulltime 102 254 100 33 489 Condicin de actividad Part time Desocup Retirado Cuidado de hogar 28 11 47 28 55 28 10 121 29 11 4 55 75 25 7 154 71 26 10 135 Total 216 484 190 64 954

Chi-Square Tests Value Df Asymp. Sig. (2-sided) Pearson Chi-Square 9,788 12 ,635 Likelihood Ratio 9,568 12 ,654 Linear-by-Linear Association 1,460 1 ,227 N of Valid Cases 954 a 1 cells (5,0%) have expected count less than 5. The minimum expected count is 3,69.

TABLA 2: FRECUENCIAS ESPERADAS Golpear a los nios para disciplinarlos Muy de acuerdo De Acuerdo En Desacuerdo Muy en desacuerdo Total
Condicin de actividad

Fulltime 110,7 248,1 97,4 32,8 489

Part time 27,4 61,4 24,1 8,1 121

Desocup 12,5 27,9 10,9 3,7 55

Retirado 34,9 78,1 30,7 10,3 154

Cuidado de hogar 30,6 68,5 26,9 9,1 135

Total 216 484 190 64 954

25

TABLA 3: PROBABILIDADES CONJUNTAS (% del Total ) Golpear a los nios para disciplinarlos Muy de acuerdo De Acuerdo En Desacuerdo Muy en desacuerdo Total Fulltime 10,7 26,6 10,5 3,5 51,3 Condicin de actividad Part time Desocup Retirado 2,9 5,8 2,9 1,0 12,7 1,2 3,0 1,2 ,4 5,8 4,9 7,9 2,6 ,7 16,1 Cuidado de hogar 2,9 7,4 2,7 1,0 14,2 Total 22,6 50,7 19,9 6,7 100,0 %

TABLA 3b : PROBABILIDADES CONJUNTAS ESPERADAS (% del Total ) Golpear a los nios para disciplinarlos Muy de acuerdo De Acuerdo En Desacuerdo Muy en desacuerdo Total Fulltime 11,6 26,0 10,2 3,4 51,3 Condicin de actividad Part time Desocup Retirado 2,9 6,4 2,5 0,8 12,7 1,3 2,9 1,1 0,4 5,8 3,7 8,2 3,2 1,1 16,1 Cuidado de hogar 3,2 7,2 2,8 1,0 14,2 Total 22,6 50,7 19,9 6,7 100,0

26

PROBABILIDADES CONDICIONALES TABLA 4: % SEGN CONDICION DE ACTIVIDAD Golpear a los nios para disciplinarlos Muy de acuerdo De Acuerdo En Desacuerdo Muy en desacuerdo Total Fulltime 20,9 51,9 20,4 6,7 100,0% Condicin de actividad Part time Desocup Retirado 23,1 45,5 23,1 8,3 100,0% 20,0 52,7 20,0 7,3 100,0% 30,5 48,7 16,2 4,5 100,0% Cuidado de hogar 20,7 52,6 19,3 7,4 100,0% Total 22,6 50,7 19,9 6,7 100,0%

TABLAS 5: % POR GOLPEAR A LOS NIOS PARA DISCIPLINARLOS Golpear a los nios para disciplinarlos Muy de acuerdo De Acuerdo En Desacuerdo Muy en desacuerdo Total Fulltime 47,2 52,5 52,6 51,6 51,3 Condicin de actividad Part time Desocup Retirado 13,0 11,4 14,7 15,6 12,7 5,1 6,0 5,8 6,3 5,8 21,8 15,5 13,2 10,9 16,1 Cuidado de hogar 13,0 14,7 13,7 15,6 14,2 Total 100,0% 100,0% 100,0% 100,0% 100,0%

27

2.4.2.b Aplicando los diferentes tipos de RESIDUOS. Como en el anlisis de regresin - en el curso anterior- el anlisis de los residuos es importante porque conduce a la inspeccin visual o grfica de cmo ajustan los datos a la hiptesis con la cual queremos representar la informacin. Las siguientes varias formas de proceder nos aportan la contribucin por celda a la bondad de ajuste de la hiptesis que proponemos y los datos que obtuvimos en nuestra muestra. 1) La forma mas elemental es el examen de los residuos no estandarizados. Como vimos ellos nos aportan un signo, que al indicar sobre o sub representacin en la celda seala una direccin asociativa en ella. Pero no olvidemos que la suma de todos ellos es igual a 0. Este residuo nos la aporta el SPSS y podemos pedirle una tabla con ellos. Tabla 6.

TABLA 6: RESIDUOS NO STANDARIZADOS (fo-Fe) Golpear a los nios para disciplinarlos Muy de acuerdo De Acuerdo En Desacuerdo Muy en desacuerdo Fulltime -8,7 5,9 2,6 ,2 Condicin de actividad Part time Desocup Retirado ,6 -6,4 3,9 1,9 -1,5 1,1 ,1 ,3 12,1 -3,1 -5,7 -3,3 Cuidado de hogar -2,6 2,5 -,9 ,9

2) Una segunda forma es la estimacin porcentual de la contribucin de cada celda al test de bondad de ajuste. En este caso tenemos los residuos cuadratizados estandarizados por su valor esperado en el caso del test X2, Tabla 7 (o bien podramos haber hecho el producto del valor observado por el Ln del cociente entre los valores observados y los esperados en el caso de G2) (Hgalo en casa con la frmula de la tabla pp14!!). La Tabla 8 indica el peso en la contrinucin al test X2 de cada celda.

28

TABLA 7: RESIDUOS CUADRATIZADOS: (fo-Fe)2 /Fe Golpear a los nios para disciplinarlos Muy de acuerdo De Acuerdo En Desacuerdo Muy en desacuerdo Fulltime ,64 ,16 ,09 ,001 Condicin de actividad Part time Desocup Retirado ,01 ,64 ,64 ,49 ,16 ,04 ,009 ,04 4,41 ,16 1 1 Cuidado de hogar ,25 ,09 ,04 ,09

TABLA 8: PROPORCIONES DE LOS RESIDUOS CUADRATIZADOS EN X2 Golpear a los nios para disciplinarlos Muy de acuerdo De Acuerdo En Desacuerdo Muy en desacuerdo Fulltime 0,06 0,02 0,01 0,00 Condicin de actividad Part time Desocup Retirado 0,00 0,06 0,06 0,05 0,02 0,00 0,00 0,00 0,44 0,02 0,10 0,10 Cuidado de hogar 0,03 0,01 0,00 0,01

29

3) La siguiente forma es la de los residuos tipificados o standarizados (eij), que tambin nos la ofrece el programa SPSS. Tabla 9. Y su frmula es:

eij = (foij -Feij )/ Feij

TABLA 9: RESIDUOS STANDARIZADOS: (foij -Feij )/ Feij Golpear a los nios para disciplinarlos Muy de acuerdo De Acuerdo En Desacuerdo Muy en desacuerdo Fulltime -,8 ,4 ,3 ,035 Condicin de actividad Part time Desocup Retirado ,1 -,8 ,8 ,7 -,4 ,2 ,09 ,2 2,1 -,4 -1,0 -1,0 Cuidado de hogar -,5 ,3 -,2 ,3

4) Otra forma de analizar los datos es la de los residuos ajustados (adjusted) o corregidos (o residuos de Haberman) (dij ) que es el residuo standarizado de Pearson divido el desvo standard de cada celda (o sea normalizado); que tambin lo aporta SPSS. Este es un mecanismo mas formal porque incluye en si mismo un test del residuo. Y su frmula es:

dij= eij / vij = {(foij -Feij )/ Feij} / vij = (foij -Feij )/ Feij vij = = (foij -Feij )/ (Feij )(vij) con vij= (1- pi+)(1- p+j)
En este caso si las variables son independientes, para cada combinacin o celda, el residuo ajustado tiene distribucin normal con media 0 y desvo 1; en caso contrario, valores superiores a 1,96 o a inferiores a 1,96, indican que la combinacin que expresa la celda es sustantiva a niveles convencionales de confianza en la tabulacin que estoy usando. En este caso, y en el anterior tipo de residuo, el signo (+ o -) es importante porque esta indicando... una direccin de la asociacin.
30

TABLA 10: RESIDUOS AJUSTADOS {(foij -Feij )/ Feij} / vij Golpear a los nios para disciplinarlos Muy de acuerdo De Acuerdo En Desacuerdo Muy en desacuerdo Fulltime -1,3 ,8 ,4 ,1 Condicin de actividad Part time Desocup Retirado ,1 -1,2 1,0 ,7 -,5 ,3 ,0 ,2 2,6 -,6 -1,2 -1,2 Cuidado de hogar -,6 ,5 -,2 ,4

Los valores que asumen los residuos standarizados y ajustados nos informan acerca de la sobre-representacin, o de la sub-representacin, de casos que implica la combinacin que estamos observando. En especial los residuos ajustados nos indican cuan probable es la combinacin que implica la celda, y sobre todo cuan significativa puede ser ella para nuestras necesidades tericas!! Por ello con valores entre -1,96 y 1,96, podemos afirmar que la informacin de la celda es insuficiente para rechazar el efecto del azar, o insuficiente para aceptar la presencia de asociacin. En coclusin, el test X2 nos seala que el modelo de independencia ajusta mejor a los datos que nuestra hiptesis inicial, por ello no es recomendable sostener que segn la cercana a los nios dada la condicin de actividad seran los mtodos de disciplinamiento que prefieren los adultos. No obstante hemos visto, probabilidades conjuntas y condicionales, residuos tpificados y ajustados, y pese a que el modelo de independencia es el que ajusta a los datos, advertimos que hay celdas que desajustan con la hiptesis nula vencedora. Mas adelante volveremos sobre esto.

31

2.5. APLICANDO LOS ODDS. Otra forma alternativa y muy usual -cuando puedo establecer qu variable es la dependiente (o explicada o resultado), y qu variable es la independiente (o explicativa)- es el ejemplo de los odds, momios chances ventajas . Ya vimos que un odd, o chance, es una forma de estimacin de la ventaja proporcional entre combinaciones de celdas que nos interesan. Podemos fijar un par de celdas que nos interesen como base de comparacin, es decir un odd o chance, y comparar todos los pares de celdas correspondientes de las mismas categoras a travs de las otras tantas categoras. Y extraer una conclusin. Ejemplo: Veamos la reproduccin con colores de la tabla 1 de esta seccin: El odd de preferir metodos duros de disciplinamiento (muy de acuerdo en golpear a los nios para disciplinarlos) frente a mtodos blandos (muy en desacuerdo en golpear a los nios para disciplinarlos) para quienes hacen los cuidados del hogar es 2,80 (28/10). Mientras que entre los activos full time es 3,09. Claramente podemos apreciar que los activos son algo ms duros en el disciplinamiento que quienes estn a cargo de los cuidados del hogar, y por ende ms cerca de los nios, si bien no puede negarse que ambos grupos de personas comparten la tendencia dura en el disciplinamiento de los nios. El odds ratio, la razn de momios, o ventaja relativa, tomando como base de comparacin (baseline en la jerga) a quienes hacen los cuidados del hogar, es 1,10 = (3,09 / 2,80). En los hechos hicimos una sub-tabla dicotmica, que arroja un ndice de asociacin bien bajo y cercano a la independencia como ya vimos antes.
FRECUENCIAS OBSERVADAS (tabla 1) Condicin de actividad Part time Desocup Retirado Cuidado de hogar 28 11 47 28 55 28 10 121 29 11 4 55 75 25 7 154 71 26 10 135

Golpear a los nios para disciplinarlos Muy de acuerdo De acuerdo En Desacuerdo Muy en desacuerdo Total

Fulltime 102 254 100 33 489

Total 216 484 190 64 954

32

Los datos indican que no puede esperarse que tenga lugar una sustancial diferencia de tendencia en los mtodos disciplinarios entre quienes se dedicaban a los cuidados del hogar y quienes estaban empleados todo el da fuera del hogar. Pero qu pasa con los retirados y los desempleados? Entonces este ejemplo podemos generalizarlo para todas las categoras de condicin de actividad... Y vemos que: Las preferencias por los mtodos de los que trabajan part time respecto de las de quienes hacen los cuidados del hogar, arrojan una razn de momios igual a 1!! ([28/10] / [28/10]). Las preferencias de los desocupados respecto de las de quienes hacen los cuidados del hogar, arrojam una razn de momios 0,98 = ([11/4] / [28/10]), muy cercana a 1!!! Y finalmente, las preferencias de los retirados respecto de las de quienes hacen los cuidados del hogar, la razn de momios es 2,398 = ([47/7] / [28/10]) !!!!. Vemos que en la base de comparacin la asociacin de condicin de actividad y mtodos de disciplinamiento no hay sustanciales diferencias en la preferencia por los mtodos para los que estn en el hogar y los que estn fuera de l, porque casi todas las razones de momios son iguales a 1 o estn cercanas. Slo vemos diferencias en el caso de los retirados, pero ello nos sugiere otras cosas y no la presencia en el hogar como fundamento para la distincin de las preferencias. Claramente en cualquier caso que introduzcamos la celda de los retirados siempre ellos estarn, tal vez, por razones de otra formacin cultural, mas decididos al disciplinamiento mas duro en comparacin con los dems grupos de condicin de actividad. Como vemos tuvimos 4 odds ratio, es decir 5-1 categoras de la tabla en este caso, si lo hiciramos en el otro sentido tendramos 3 odds ratios, tambin 4-1. CONCLUSIN: SI SLO HUBIRAMOS VISTO LA BONDAD DE AJUSTE (EL TEMIBLE CHICUADRADO, Y/O SUS COEFICIENTES) HABRAMOS DESECHADO LA TABLA BUSCANDO SLO ASOCIACIN... PERO VEMOS QUE: EL MODELO DE INDEPENDENCIA AJUSTA A LOS DATOS. ES DECIR NO HAY MAYOR DIFERENCIA ENTRE ESTAR CERCA DE LOS NIOS Y LA CONDICIN DE ACTIVIDAD, Y QUE LAS CELDAS QUE S REFLEJAN ASOCIACIN APORTAN UNA INFORMACIN SIGNIFICATIVA SUBYACENTE, O LOCALIZADA, EN UNA REGIN DE LA TABLA: LOS RETIRADOS: ELLOS TIENEN UNA VISIN DIFERENTE, QUE NO AJUSTA A LOS DATOS. SIN DUDA TUVIERON OTRA FORMACIN O CULTURA Y SON CLARAMENTE PARTIDARIOS DE LOS METODOS DUROS. COMO VEMOS RASTRILLANDO ADECUADAMENTE PESE A NO PODER SOSTENER UNA TEORA COMO LA INICIAL, NO SE TIRA LA BAERA CON EL NIO DENTRO.
33

En este ltimo ejemplo de anlisis usamos pares de odd ratios condicionales, sin necesariamente fijarlos. Cuando los fijamos esos odds ratios se les llaman local odds ratios. Los modelos loglineares fijan los odds ratios. Los modelos de regresin logistica, como se ver mas adelante en otro curso, no lo hacen as, permitiendo la comparacin de todas las combinaciones a travs de las categoras de la variable independiente que interese.

34

2.6. DESCOMPONIENDO TABLAS. Aplicando LAS PROPIEDADES DE JI CUADRADO, cuando tenemos una tabla como las siguientes, podemos descomponerlas en tantas subtablas como grados de libertad tengamos en la tabla original, con tal de que la suma de los grados de libertad de las subtablas igualen ese total de grados de libertad. ATENTI: El test G2 tiene una particin exacta en las subtablas que podamos elaborar, mientras que X2 de Pearson no la tiene. 3 principios deben ser respetados: a. Cada una de las frecuencias observadas en las celdas de la tabla original debe aparecer en una y solo una de las subtablas posibles. b. Y que, el total marginal de cada sub-tabla debe aparecer como frecuencia en la otra o debe haber sido el total marginal de la tabla original. c. La tcnica no debe se aplicada mecnicamente, por mas que varios autores han detallado procedimientos. Para que los componentes sean analticamente tiles debe precisarse consideraciones tericas substantivas (Silva, 1990).

Ejemplo 1 de Agresti y SPSS.


SEXO

MUJERES HOMBRES Total

IDENTIFICACIN POLITICA DE ELECTORES EN USA DEMCRATAS INDEPENDIENTES REPUBLICANOS Total 279 73 225 577 165 444 47 120 191 416 403 980

El estadstico tiene G2 =7 con 2 gr.l, entonces esta tabla se puede partir en las siguientes 2 sub-tablas A y B: cada una de ellas tiene 1 gr.l como indican las condiciones generales.

35

TABLA: A. SEXO MUJERES HOMBRES Total IDENTIFICACIN POLITICA DE ELECTORES EN USA DEMCRATAS INDEPENDIENTES Total 279 73 352 165 444 47 120 212 564

TABLA: B IDENTIFICACIN POLITICA DE ELECTORES EN USA SEXO DEMCRATAS+ REPUBLICANOS Total INDEPENDIENTES MUJERES 352 225 577 HOMBRES Total 212 564 191 416 403 980

TABLA A B * pasa ,05

MODELO o COMPONENTE Gnero y voto progresista


Gnero Voto progresista vs conservador

TOTAL

gr. l 1 1 2

G2 0,16 6,84 * 7 *

%Total 2,3 97,7 100

Claramente no puede presumirse un padrn asociativo en la tabla A, por lo que no hay elementos para rechazar en este caso la H0 de independencia. Sin embargo en el caso de la tabla B, la situacin es bien diferente y puede presumirse padrones por gnero diferentes en la identificacin poltica cuando se comparan todos contra los republicanos. Este es un ejemplo de particin tal como sealan las reglas tcnicas y la recomendacin de Silva (1990). Observe que la particin de G2 es exacta. Haga la prueba con X2 para ver qu sucede

36

Ejemplo 2 de Silva (1990).


ORIGEN SOCIAL

RURAL MANUAL NO MANUAL Total

RURAL 178 7 12 197

POSICIN ACTUAL MANUAL NO MANUAL 156 61 80 40 276 40 75 176

Total 395 127 127 649

El estadstico tiene G2 =164,8 con 4 gr.l, entonces esta tabla se puede partir en las siguientes 4 sub-tablas C, D, E, y F: cada una de ellas tiene 1 gr.l como indican las condiciones generales. POR QU? Silva (1990) asigna un significado explcito a cada una de ellas: Tabla C estima la significacin de la herencia intra-clase trabajadora; Tabla D estima la significacin de la movilidad ascendente; Tabla E estima la significacin de la movilidad descendente; Tabla F estima la significacin de la herencia interclases.

TABLA C: HERENCIA INTRA CLASE TRABAJADORA ORIGEN SOCIAL RURAL MANUAL Total POSICIN ACTUAL RURAL MANUAL 178 7 197 156 80 276 Total 334 87 421

37

TABLA D: MOVILIDAD ASCENDENTE ORIGEN SOCIAL RURAL MANUAL Total POSICIN ACTUAL RURAL NO MANUAL +MANUAL 334 61 87 421 40 101 Total 395 127 522

TABLA: E MOVILIDAD DESCENDENTE ORIGEN SOCIAL RURAL +MANUAL NO MANUAL Total POSICIN ACTUAL RURAL MANUAL 185 12 197 236 40 276 Total 421 52 473

TABLA F: HERENCIA INTERCLASES ORIGEN SOCIAL RURAL +MANUAL NO MANUAL Total POSICIN ACTUAL RURAL NO MANUAL +MANUAL 421 101 52 473 75 176 Total 552 127 649

TABLA C D E F * pasa ,05

MODELO o COMPONENTE Herencia intra clase trabajadora Movilidad Ascendente Movilidad Descendente Herencia interclases TOTAL

gr. L 1 1 1 1 4

G2 67* 14,6* 9* 74,2* 164,8*

%Total 40,7 8,8 5,5 45 100

Claramente no puede proponerse independencia o movilidad en las tablas C y F, es muy sostenida la herencia en todas las clases; pero tampoco puede sostenerse la independencia para los ejemplos de movilidad D y E. En todo caso la movilidad a explorar no deja de estar afectada por la herencia de modo sustantivo.
38

Lo que acabamos de ver puede entenderse, como muchos aspectos en la estadstica aplicada, de dos formas por un lado hemos particionado el test de bondad de ajuste, pero por el otro hemos colapsado la tabla. En cada caso hemos claramente sacrificado grados de libertad. Estos aspectos reunidos a las condiciones que observamos en esta seccin son de utilidad para lo que veremos mas adelante en la elaboracin de modelos o hiptesis ms complejas.

39

CLASE 3: TABLAS MULTIDIMENSIONALES Y TEST DE BONDAD DE AJUSTE. 3.1. INTRODUCCIN.


En las clases anteriores hemos visto conceptos y elementos que pueden ser generalizados a tablas de dos dimensiones, sin embargo para tablas de tres y ms dimensiones se deben hacer precisiones. Lo que trataremos a continuacin es muy importante para la comprensin de modelos de tres y ms dimensiones, que es la situacin que generalmente enfrentamos en nuestro trabajo profesional. Y resulta imprescindible para la comprensin y aplicacin de los modelos loglineares. La notacin ser similar a la empleada desde el inicio. El objetivo es doble. Por un lado, trataremos las hiptesis sobre independencia y las estimaciones de cada una de ellas, siguiendo un procedimiento de descarte sucesivo de las hiptesis. Porque el objetivo es encontrar una hiptesis que AJUSTE A LOS DATOS (fit the data). No se trata simplemente de encontrar que no hay independencia, y en consecuencia que hay cualquier asociacin, sino de poder hipotetizar qu tipo de independencia se rechaza y qu asociacin se acepta. Y por otro lado, sealaremos las limitaciones de un proceder que nos dejan en la puerta de una tcnica ms general para el anlisis de la asociacin en las tablas. Nos guiaremos con una aplicacin de modo que la secuencia sea ms amena.

40

ESQUEMA GENERAL DE TABLA MLTIPLE CON CONDICIONALES Y MARGINALES FRECUENCIAS Y MARGINALES

C (Nivel) k=1 B (Columna) j=1 A F i l a i=1 i=2 St n111 n211 j=2 n121 n221 St j=1 k=2 B j=2 St n1++ n2++

n1+1 n112 n2+1 n212

n122 n1+2 n222 n2+2

n+11 n+21 n++1 n+12 n+22 n++2 n+2+ n11+ n+1+

N=n+++

41

PROBABILIDADES CONJUNTAS Y MARGINALES

C k=1 B j=1 A i=1 j=2 St j=1 k=2 B j=2 St p1++

p111 p211

p121 p1+1 p112 p221 p2+1 p212

p122 p1+2 p222 p2+2

i=2

p2++

St

p+11 p+21 p++1 p+12 p+22 p++2


p+2+ p11+ p+1+

1= p+++

42

3.2. INDEPENDENCIA MUTUA.


La definicin de independencia para dos variables puede fcilmente extrapolarse para el caso de 3 variables: Sean A (filas), B (columnas), y C (nivel) 3 variables aleatorias nominales, cuyas probabilidades marginales genricas por categoras, son respectivamente:

pi++, p+j+, y p++k


Entonces de acuerdo a la hiptesis de independencia de la clase 1: la probabilidad conjunta esperada es igual al producto de las 3 probabilidades marginales correspondientes. Es en consecuencia nuestra hiptesis nula, y tiene la forma:

H0 : pijk = pi++ * p+j+ * p++k

(1)

Cuando H0 es verdadera para todas las celdas de la tabla trivariada se dice que las variables A, B, y C, son mutuamente independientes. Se igualaron probabilidades conjuntas observadas y esperadas, y las frecuencias observadas y esperadas, y obviamente sus respectivos saldos y residuos son nulos. Las Feijk se estiman en este caso tambin de forma anloga a la ya vista, y cuando H0 es verdadera, entonces:

Feijk = N * pijk = N * {pi++ * p+j+ * p++k } (2)


Con las estimativas MLE para

pi++ = ni++ / N (3a);


as sustituyendo en (2)

p+j+ = n+j+ / N (3b); y p++k = n++k / N (3c)

Feijk = N * pijk = N * {pi++ * p+j+ * p++k } = N (ni++ / N) (n+j+ / N) (n++k / N) = (ni++ * n+j+ * n++k ) / N2 . (4)
43

Nuestros conocidos Test de bondad de ajuste, ahora, respectivamente, son:

X 2 = ((nijk Fijk )2 / Fijk ) ( 5 )


i =1 j=1k=1
y

c m

G = 2 (( nijk * ln( nijk / Fijk )) ( 6 )


2 i =1 j =1 k =1

Para la hiptesis de Independencia Mutua los grados de libertad son:

lcm l c m + 2

(7)

44

Sea el siguiente ejemplo numrico sacado de Silva (1990) (9). PROPIEDAD DE MMPP {C} PROPIETARIOS NO PROPIETARIOS ESTRATO SOCIAL {B} ESTRATO SOCIAL {B} MEDIO BAJO MEDIO BAJO 44 16 4 32 36 4 16 48 80 20 20 80

APOYO AL GOBIERNO {A} FAVOR CONTRA Total

Total 96 104 200

Siendo H0 verdadera, entonces Feijk = (ni++ * n+j+ * n++k ) / N2 .


Lo que conduce a las siguientes frecuencias esperadas: PROPIEDAD DE LOS MMPP {C} PROPIETARIOS NO PROPIETARIOS ESTRATO SOCIAL {B} ESTRATO SOCIAL {B} MEDIO BAJO MEDIO BAJO 24 24 24 24 26 26 26 26 50 50 50 50

APOYO AL GOBIERNO {A} FAVOR CONTRA Total

Total 96 104 200

Los clculos de la Bondad de ajuste son X2 =83,59 y G2 = 96,22, para 4 gr.l. Y ambos test superan ampliamente el valor crtico de 2 (9,49 para 0,05; y 13,30 para 0,01), por lo que la H0 sobre Independencia Mutua no ajusta a los datos y debe ser rechazada.

Cuando todas las variables son nominales una tabla multidimensional presenta los datos, esto ya se vio en clase 1. En el presente ejemplo lo hacemos descomponiendo la relacin entre A y B a travs de los niveles de la variable C, que usualmente es llamada tabla de parciales. En este tipo de tabla la variable C est controlada. Dado que nos interesa la relacin conjunta que A B y C podran mantener, las tablas bivariadas de A y B, A y C, B y C, se llaman tablas marginales, y se elaboran a partir de la combinacin de la informacin que aqu vemos. Tratndose de una tabla multidimensional, la tabla parcial, puede exhibir entre las variables que nos interesan diferente asociacin que las sucesivas tablas marginales, consecuentemente puede ser inconveniente y errneo analizar slo las tablas marginales. 45

Pero... por qu, sin buscar el valor 2 de para cualquier test, ya deberamos rechazar la H0 como modelo de hiptesis para los datos? (recuerde la tabla al inicio de este captulo!) En particular las distribuciones univariadas esperadas de cada variable reproducen los valores marginales observados. F1++= n111 + n121 + n112 + n122 = n1+1 + n1+2 = 24 + 24 + 24 + 24 = 48 + 48 = 96 = n1++ Pero si elaborramos a partir de las tablas trivariadas de observadas y de esperadas las subtablas marginales bivariadas correspondientes veramos 2 cosas... que en aquellas sub-tablas marginales indicativas de asociacin a nivel bivariado, la brecha entre observadas y esperadas es grande; y, que no se cumple a nivel bivariado la reproduccin de los totales marginales.

FORMULAS {A} {C} PROP MMPP APOYO PROP NO PROP AL GOB FAVOR n111+ n121 n112+ n122 CONTRA n211+ n221 n212+ n222 {B} {C} PROP MMPP ESTRATO PROP NO PROP SOCIAL MEDIO n111+ n211 n112+ n212 BAJO n121+ n221 n122+ n222 {A} APOYO AL GOB FAVOR CONTRA {B}ESTRATOSOCIAL MEDIO BAJO n111+ n112 n211+ n212 n121+ n122 n221+ n222

46

APOYO AL GOB FAVOR CONTRA

OBSERVADAS PROP MMPP PROP NO PROP 44+16=60 4+32=36 36+4=40 16+48=64

ESPERADAS PROP MMPP Prop No prop 24+24=48 24+24=48 26+26=52 26+26=52 PROP MMPP PROP NO PROP 24+26=50 24+26=50 24+26=50 24+26=50 ESTRATO SOCIAL MEDIO BAJO 24+24=48 24+24=48 26+26=52 26+26=52

ESTRATO PROP MMPP SOCIAL PROP NO PROP MEDIO 44+36=80 4+16=20 BAJO 16+4=20 32+48=80 APOYO AL GOB FAVOR CONTRA ESTRATO SOCIAL MEDIO BAJO 44+4=48 16+32=48 36+16=52 4+48=52

As que los marginales correspondientes a las 3 tablas de las esperadas no son iguales a los totales de las 3 tablas de las observadas.

Es algo bsico recordar que los marginales de cada variable son los MLE, y por ende no se cumpliran la serie de condiciones de los MLE (3a, 3b, y 3c).
(10)

Como vemos si la independencia mutua ajustara a los datos entonces las sub tablas marginales esperadas deben igualar las observadas, y no solamente los totales marginales univariados como es el caso. Como esto no se cumple para nuestro ejemplo, se rechaza el modelo de Independencia Mutua (H0) para este anlisis, porque claramente no ajusta a los datos. En otras palabras, no me sirve que slo el modelo me arroje marginales univariados, ya que slo las aceptara como explicacin en caso de independencia mutua... y no es el caso. Entonces debo buscar otras tablas posibles.

O sea no puede haber MLE diferentes para estimar los mismos parmetros, entre otras cosas porque tenemos una sola muestra! Y los que tenemos en la muestra son... los que hay, valor! (segn R.A. Fisher).
10

47

Y, consecuentemente, cuando sepamos por algn mtodo o test que debe rechazarse la hiptesis de Independencia Mutua, ya estaremos sabiendo por qu ella no ajusta a los datos.

En conclusin, los marginales univariados son fijos para la hiptesis de la independencia mutua; y este modelo se escribe tambin como {A}{B}{C}. Pero en este ejemplo lo rechazamos porque efectivamente hay asociacin.
Por el contrario cuando no se rechaza la H0 queda poco por hacer si uno esta probando una propuesta asociativa. Aunque en ciertos casos la H0 bien puede ser una alternativa terica sustantiva por ejemplo para demostrar que el voto conservador no guarda relacin con el sexo y la localidad geogrfica, ni estas entre s.

48

3.3. Independencia parcial.


Cuando la H0 de independencia mutua es rechazada es necesario avanzar en un modelo hipottico de mayor complejidad. Rechazar que no es posible sostener independencia mutua, automticamente no nos conduce a sostener que todo tiene relacin. Mas concretamente, rechazar la independencia mutua no implica que necesariamente haya asociacin entre todas las variables en cuestin. Es posible que haya relacin entre dos de las 3 variables pero la tercera sea independiente de las anteriores, aunque tambin tenga significacin en los datos. Esta situacin hipottica se denomina Independencia Parcial (11). En este caso desde el punto de vista combinatorio, no necesariamente terico, ni probabilstico, hay 3 hiptesis nulas que corresponden a la independencia parcial, a saber: Que las variables columna y nivel estn asociadas, y la variable lnea sea independiente. Y se escribe:

a. H0: Pijk= pi++ * p+jk (8a)


Que las variables lnea y nivel este asociadas, y la variable columna sea independiente. Y se escribe:

b. H0: Pijk= p+j+ * pi+k (8b)


Que las variables lnea y columna este asociadas, y la variable nivel sea independiente. Y se escribe:

c. H0: Pijk= p++k * pij+ (8c)


Consideremos el ejemplo c, donde la variable nivel (C) es independiente de las variables lnea (A) y columna (B), las cuales estn asociadas entre s. As la probabilidad de que una observacin caiga en la ijk-sima celda es producto de que caiga en el k-simo nivel veces la probabilidad de caer en la i-sima lnea y j-sima columna, que es tomada como fija a priori por hiptesis. Pero debe reparase en las hiptesis auxiliares que implica la hiptesis c. Por ejemplo que: S1 H0: Pi+k= pi++ * p++k (8d) S2 H0: p+jk = p+j+ * p++k (8e)

11

O si hay mas de tres variables, ej 4 y mas, mltiple)


49

El test de independencia parcial sigue el procedimiento habitual ya visto, y para las Fe de una muestra N es: H0: Feijk= N p++k * pij+ (9) Los MLE de las probabilidades sealadas son respectivamente: p++k = n++k / N (10a) sustituyendo en (9) Feijk= N * p++k * pij+ = N *(n++k / N)*( nij+ / N) = n++k * nij+ / N y pij+ = nij+ / N (10b)

Y sus gr.l son = lcm-lc-m+1= {2x2x2}-{2x2}-2+1=8-4-2+1=3 (11)

Lo que conduce a las siguientes frecuencias esperadas: PROPIEDAD DE LOS MMPP {C} APOYO AL PROPIETARIOS NO PROPIETARIOS GOBIERNO ESTRATO SOCIAL {B} ESTRATO SOCIAL {B} {A} MEDIO BAJO MEDIO BAJO FAVOR 24 24 24 24 CONTRA 26 26 26 26 Total 50 50 50 50

Total 96 104 200

Los clculos de la Bondad de ajuste son X2 =83,59 y G2 = 96,22, para 3 gr.l. De nuevo ambos test superan ampliamente el valor crtico de 2 (7,81 para 0,05; y 11,30 para 0,01), por lo que la H0 sobre Independencia Parcial tampoco ajusta a los datos y debe ser rechazada.

50

Aplicndolos al ejemplo numrico veremos los marginales implicados en la hiptesis de independencia parcial seleccionada. Advirtase que al fijar los marginales observados en n++k y nij+, las distribuciones de las frecuencias esperadas correspondientes deben ser idnticas.

{C} = n++k = n++1=100

= n++2=100 {AB} = nij+ = n11+= n111 +n112= 44+ 4=48 = n12+ =n121 +n122= 36+16=52 = n21+=n211 +n212= 16+32=48 = n22+=n221 +n222= 4+48=52

Y as ocurre efectivamente:

{} = Fe++k = Fe++1=24+24+26+26=100= n++1 = Fe++2=24+24+26+26=100= n++2 {^AB} = Feij+ = Fe11+=Fe111+Fe112 =48= n11+ = Fe12+=Fe121+Fe122 = 52=n12+ = Fe21+=Fe211+Fe212 =48= n21+ = Fe22+=Fe221+Fe222 = 52=n22+

51

Pero... los otros marginales bivariados estimados pueden variar libremente respecto de los observados como es el caso de {^BC} respecto de {BC}.

{^BC} = Fe+jk = Fe+11=50 = Fe+21=50 = Fe+12=50 = Fe+22=50 {BC} = n+jk = n+11=80 = n+21=20 = n+12=80 = n+22=20

En consecuencia entonces podemos sealar que el modelo correspondiente a la hiptesis de Independencia Parcial, en este caso de variable nivel en relacin a lnea y columna no ajusta a los datos. Y se escribe:

{C} {AB}
Nuevamente debemos re-iniciar nuestra bsqueda.

52

3.4. Independencia condicional.


Es frecuente que ocurra, cuando se estudian 3 o ms variables, que dos de ellas sean independientes en cada categora de la tercera; si bien cada una de ellas por su lado, esta asociada a esa tercera. Este es un ejemplo de Independencia condicional. Se dice que hay dos variables condicionalmente independientes dada una tercera variable. Pensando en una tabla trivariada vista como una de control y dos bivariadas para cada categora de la anterior. En cada categora de la de control la relacin bivariada previa se vuelve independiente. Ejemplo: la variable nivel (C) es de control y lnea (A) y columna (B) son condicionalmente independientes dada las categoras de nivel (C). La hiptesis nula o de independencia condicional en este caso se expresa as:

H0: pijk = pi+k p+jk / p++k (12)


Indica expresamente la independencia de lneas y columnas condicionadas a nivel. Para esta hiptesis precisamos los MLE de pi+k , p+jk , y p++k , que son:

p++k = n++k / N (13a),


por cuanto las Fe son

pi+k = ni+k / N (13b), y p+jk = n+jk / N (13c)

Feijk = N pi+k p+jk / p++k ,


y sustituyendo:

(14)

Feijk = N (ni+k / N)(n+jk / N) / ( n++k / N) = ni+k n+jk / n++k (15a)


COMO ES LOGICO ESPERAR APARTE DE ESTE EJEMPLO: HAY OTRAS 2 COMBINACIONES POSIBLES DE INDEPENDENCIA CONDICIONAL.

Feijk = N (ni+k / N)(n+jk / N) / ( n++k / N) = ni+k n+jk / n++k (15b) Feijk = N (ni+k / N)(n+jk / N) / ( n++k / N) = ni+k n+jk / n++k (15c)
53

La formula genrica del Test de Bondad de ajuste es:

=
2

k =1

(n
j =1 i =1

ijk

Feijk ) 2 / Feijk

pero como ya vimos que :

v2 = Z12 + Z 22 + ...... Z v2
entonces :

=
2

j =1

(n
i =1

ij 1

Feij1 ) / Feij 1 + ..... +


2

j =1

(n
i =1

ijr

Feijr ) 2 / Feijr

o sea la suma de la bondad de ajuste de las subtablas que me int eresan , como ' m ' es 2, en nuestro ejemplo entonces tengo 2 tr min os a sumar

=
2

j =1

(n
i =1

ij 1

Feij1 ) / Feij 1 +
2

j =1

i =1

( nij 2 Feij 2 ) 2 / Feij 2

v2 = X 12 + X 22
por lo que estimo un test para cada subtabla ... y los sumo

Y los gr.l para esta hiptesis son:

m (l-1) (c-1)

porque son m veces los grados de libertad de cada subtabla.

54

FREC. ESPERADAS EN INDEPENDENCIA CONDICIONAL

PROPIEDAD DE LOS MMPP {C} PROP NO PROP ESTRATO SOCIAL {B} ESTRATO SOCIAL {B}

APOYO AL GOBIER NO {A}

i=1 i=2 St

j=1 48 32 80

j=2 12 8 20 100

St 60 40 100

j=1 7,2 12,8 20 100

j=2 28,8 51,2 80

St 36 64 100

96 104 200

Los clculos de la Bondad de ajuste son X2 =6,94 y G2 = 7,47, para 2 gr.l. Otra vez, aunque por menor margen, ambos test superan el valor crtico de 2 (5,99 para 0,05), por lo que la H0 sobre Independencia Condicional no ajusta a los datos y debe ser rechazada. La H0 de la independencia condicional en C supone fijar los marginales en las sub tablas AC y BC - y consecuentemente en C que es fijo, pero advirtase que A y B tambin estn incluidos como C en los trminos de mayor orden. La tabla marginal {AC} estimada da:

C A i=1 i=2 St k=1 48 + 12 = 60 32 + 8 = 40 100 k=2 7,2 + 28,8 = 36 12,8 + 51,2 = 64 100 96 104 200

Y no discrepa con la tabla marginal {AC} observada:

C A i=1 i=2 St k=1 44 + 16 = 60 36 + 4 = 40 100


55

k=2 4 + 32 = 36 16 + 48 = 64 100

96 104 200

La tabla marginal {BC} estimada da:

C B j=1 j=2 St k=1 48 + 32 = 80 12 + 8 = 20 100 k=2 7,2 + 12,8 = 20 28,8 + 51,2 = 80 100 100 100 200

Y tampoco discrepa con la tabla marginal {BC} observada:

C B j=1 j=2 St k=1 44 + 36 = 80 16 + 4 = 20 100 k=2 4 + 16 = 20 32 + 48 = 80 100 100 100 200

56

3.5. Conclusiones
1. Hemos visto en cada ejemplo cuan imperfecto resultaba el ajuste a los datos de las Hiptesis nulas. El recorrido de los modelos que hicimos, no es slo un descarte, sino un avance implantando mayores exigencias en las condiciones hipotticas, desde la independencia mutua, a travs de la independencia parcial, hasta a la independencia condicional. En cada caso hemos impuesto condiciones de ajuste, que casi siempre se cumplieron, pero el peso de las variaciones en las subtablas no fijadas fue sustantivo. En consecuencia los Test de bondad de ajuste, nos han sealado los lmites, y hemos visto cuando los resultados han tendido a converger. Pero, no podemos reducir los datos a ninguna de las hiptesis vistas hasta ahora.

2. Estamos frente a un tipo de hiptesis, o modelo, que no tiene solucin manual, de clculo simple, como hasta ahora a partir de los totales marginales. Este nuevo de modelo se denomina de interaccin homognea, y el mismo hace necesario estimar las frecuencias esperadas por mecanismos de clculo iterativo: por un algoritmo (12). Es necesario estimar un modelo de segundo orden, que supone evidencia de que las variables estn asociadas de modo condicionado de a dos. Esto supone que la relacin de A y B se mantiene en todos los niveles de C, o a lo sumo expresa algn grado de mayor asociacin en uno que en lo restante niveles. Lo cual ya hace pensar que las variables estn fuertemente asociadas y por ello slo existir una sola hiptesis nula a diferencia de lo que vimos hasta ahora.

12

Usualmente son: el IPFA (Iterative Proportional Fitting Algorithm) o Algoritmo de Deming y Stephan, y el Algoritmo de Newton-Raphson. Todos los programas de computacin los incluyen. 57

3. Como se enunciara lo que hicimos hasta ahora? FORMATO DE TABLA Y NOTACIN CONVENCIONAL HIPOTESIS Independencia Mutua Independencia Parcial Independencia Condicional Interaccin MODELO {A}{B}{C} {AB}{C} {AC}{BC} ?????? G2 96,22 96,22 7,47 ???? p ,00 ,00 ,05 ??? gr.l. Resultado 4 Rechazo 3 Rechazo 2 Rechazo 1 ?????

4. Para solucionar esta dificultad de estimacin de las frecuencias esperadas en un modelo que nos brindara mejor ajuste de las hiptesis y los datos, y para solucionar otros problemas como las paradojas de agregacin y nivel, existen los modelos Loglineares. Que resuelven las estimaciones necesarias, en base a la secuencia de hiptesis que vimos, aplicadas a algoritmos de clculo. Las paradojas de agregacin y nivel son viejas conocidas de la investigacin. Vimos desde un inicio que no haba relacin, si sta se consideraba de manera unilateral entre estrato social y apoyo al gobierno, pero esa conclusin no resulta vlida una vez que rechazamos la independencia mutua entre las 3 variables. No es lo nico que puede ocurrir. La conocida exploracin de la espureidad, en nuestra profesin es un ejemplo de ello cuando una relacin est disfrazada de asociacin. Pero tambin como lo ilustran Silva (1990) y Agresti (1996) puede ocurrir que las agregaciones de subtablas sean inadecuadas -y como vimos los modelos las suponenexpresando asociaciones de sentido contrapuesto si se agregan o se desagregan los datos en funcin de una u otra variable. IR A EJERCICIO 1 EN EXCEL!!

58

CLASE 4: APRENDIENDO A USAR UN ALGORITMO: IPFA (Iterartive Proportional Fitting Algorithm) o Mtodo de Deming y Stephan. 4.1. Presentacin. Como se seal en el ejemplo de la clase anterior no es posible obtener de modo directo el modelo de Interaccin Homognea, y por ello es necesario recurrir a un mtodo iterativo. Preferimos por sencillez el IPFA (Iterative Proportional Fitting Algorithm), tambin llamado por algunos IPFP o simplemente mtodo de Deming y Stephan (circa 1940) . Este mtodo es muy til para varios usos, en este captulo se mencionan slo algunos que directamente se vinculan con el objetivo del curso, pero hay otros varios. Cuando existen frmulas directas para estimar la hiptesis nula, como las 3 que vimos en el captulo pasado, deben preferirse al uso del IPFA, ya que como siempre cuando ms clculos se hacen, si no se est muy entrenado, ms fcil es equivocarse. Por definicin cuando hay frmulas directas la solucin se obtiene en 1 iteracin. Cuando no las hay es necesario dar varios pasos de aproximacin. El IFPA (Algoritmo Iterativo de Ajuste Proporcional; o Iterative Proportional Fitting Algorithm). Es un mtodo iterativo de ajuste proporcional permite estimar las probabilidades o las frecuencias de las celdas de una tabla de contingencia cualquiera donde los marginales son conocidos y fijos. 4.2. Aplicando IPFA a Tablas mltiples r*c*l. La solucin a nuestro problema anterior no tiene frmula que nos permita modelar la independencia y entonces estimar el ajuste a los datos. Debemos aplicar IPFA y para ello debemos definir una secuencia de pasos en las estimaciones de las frecuencias esperadas y los marginales correspondientes. Ms adelante se presentan ejemplos de otros tipos, ms sencillos dada la cantidad de variables, pero en este caso para culminar con la expectativa enunciaremos la solucin. Como tenemos k (k=3) variables, y debemos reproducir todos los marginales de las subtablas posibles debemos dar tantos pasos como variables tenemos. Cuando completamos los k pasos, cumplimos un ciclo, y reiniciamos el proceso. Nos detendremos cuando alcancemos los valores previstos. Y cules son los valores previstos? Es necesario fijarse a priori un valor de convergencia para las celdas de la tabla y para los valores marginales, que segn sea el caso, son la suma de los anteriores, y que como ya vimos son los MLE. O sea que vamos a aproximarnos a los MLE y a reproducirlos. Las iteraciones se pueden reiterar ad infinitum, pero nos detendremos cuando los valores que obtengamos tengan una diferencia mnima con los valores observados de celdas y marginales, por ejemplo 0,1 o 0,01.

59

La siguiente expresin sirve para proceder a estimar la hiptesis de interaccin homognea Fe(1)ijk = Fe(0)ijk Fe(2)ijk = Fe(1)ijk Fe(3)ijk = Fe(2)ijk [ n*ij+ / Fe(0) ij+ ] [ n*i+k / Fe(1) i+k ] [ n*+jk / Fe(2) +jk ]

Fe(0)ijk=1; Fe(0)ij+>1; n*ij+, n*i+k, n*+jk,: son los marginales observados. Advierta que cada ciclo implica obtener las esperadas para una tabla marginal, como en el ejemplo tenamos 3 variables, tendremos 3 tablas marginales. Como punto de partida iguala todas las frecuencias esperadas a 1 (Fe(0)ijk), y pondera por el cociente entre el marginal observado correspondiente y el marginal correspondiente de frecuencia esperada En este primer ciclo del algoritmo ud. va a obtener 3 resultados que sucesivamente se reingresan al proceso de clculo. Repita hasta converger, es decir hasta que la diferencia que espera para marginales de las tablas, o las Feijk de las celdas es inferior al lmite que se fij. Siga el ejemplo en Excel Introduzca la tabla del captulo anterior en forma arbolito una columna para cada variable, y la cuarta para las frecuencias. En las siguientes 3 columnas estime los marginales para cada una de las 3 tablas: fila y columna, colapsa nivel; fila y nivel, colapsa columna; columna y nivel, colapsa fila. Asgnelos a cada celda, recuerde que habr 2 iguales por celda porque cada variable tiene 2 categoras. En la siguiente columna iguale (set) a 1 todas las celdas. Los marginales de esa columna de esperadas sern todos iguales al nmero de celdas por fila, o por columna o por nivel. En este caso como las 3 variables tienen 2 categoras (=2). Ahora estime nuevo el esperado como el producto de 1 por el cociente entre el marginal fila columna y 2. Salve esa columna. Estime los nuevos marginales con la misma regla que estim fila nivel. Estime el nuevo esperado reiterando el producto del estimado anterior y el cociente del marginal fila nivel observado y el fila nivel estimado. Salve el resultado. Estime los nuevos marginales con la misma regla que estim columna nivel. Estime el nuevo esperado reiterando el producto del estimado anterior y el cociente del marginal columna nivel observado y el columna nivel estimado. Salve el resultado. Ha completa un ciclo de 3 iteraciones. Reitere hasta converger al valor deseado. Luego estime la bondad de ajuste entre los valores obtenidos y el valor observado. Use cualquier test.

60

4.3. Otra aplicacin de la IPFA. El IPFA es un mtodo sencillo de probar el ajuste a los de las muestras a sus marcos muestrales. A partir de ello vamos a examinar un ejemplo clsico de una tabla bi-variada de movilidad. Rudamente vamos a probar si hay movilidad social perfecta, si hay movilidad social estructural, o si hay si hay movilidad social circulatoria. La primera aplicacin supone la hiptesis de independencia clsica para el ajuste a los datos. Y como para ella existe una frmula directa es sencilla su estimacin. La segunda hiptesis es algo ms compleja porque que no haya habido movilidad estructural supone la de igualdad de frecuencias marginales en los destinos y los orgenes. En pocas palabras los marginales seran iguales en todas las categoras de las 2 variables. La tercera hiptesis, tambin tiene su dificultad, supone que no hubo movilidad circulatoria, por eso la distribucin marginal de destinos debe ser igual a la de los orgenes. Se sostiene la invariancia de marginales. Cada categora del origen es igual a la de destino. Se toma como base del ejemplo la tabla de movilidad social en Brasil aportada por Silva (1973). Tiene 6 categoras de status que no importa distinguir por el momento (T1). Se estima la probabilidad conjunta observada (pij= nij / N) (T2).

T1
Origen 1 2 3 4 5 6 T 1 12911 288 195 704 80 27 14205 2 5002 727 616 642 84 44 7116 Frecuencias observadas Actual 3 4 6039 3797 1081 634 1910 891 1156 2211 213 394 111 239 10510 8166 5 718 226 359 873 394 199 2769 6 288 97 155 527 208 266 1542 T 28755 3053 4125 6114 1374 886 44307

T2
Origen 1 1 2 3 4 5 6 T
0,2914 0,0065 0,0044 0,0159 0,0018 0,0006 0,3206

Probabilidades conjuntas observadas Actual 2 3 4 5


0,1129 0,0164 0,0139 0,0145 0,0019 0,001 0,1606 0,1363 0,0244 0,0431 0,0261 0,0048 0,0025 0,2372 0,0857 0,0143 0,0201 0,0499 0,0089 0,0054 0,1843 0,0162 0,0051 0,0081 0,0197 0,0089 0,0045 0,0625

6
0,0065 0,0022 0,0035 0,0119 0,0047 0,006 0,0348

T
0,649 0,069 0,093 0,138 0,031 0,020 1

61

Resultados. Para la primer hiptesis sabemos por teorema de independencia que la probabilidad conjunta esperada es: (pij = pi+*p+j). T3 O-E
Origen 1 1 2 3 4 5 6 T
0,208 0,022 0,030 0,044 0,010 0,006 0,3206

Probabilidades conjuntas esperadas Actual 2 3 4 5


0,104 0,011 0,015 0,022 0,005 0,003 0,1606 0,154 0,016 0,022 0,033 0,007 0,005 0,2372 0,120 0,013 0,017 0,025 0,006 0,004 0,1843 0,041 0,004 0,006 0,009 0,002 0,001 0,0625

6
0,023 0,002 0,003 0,005 0,001 0,001 0,0348

T
0,649 0,069 0,093 0,138 0,031 0,020 1

Para la segunda hiptesis se aplica IPFA para mostellerizar (ver seccin siguiente), o sea igualar a todos los marginales entre s. La frmula para iterar es: pij1 = pij0 * (pi+& / p+j0), con la condicin que: pi+& = p+j& = 1; y el criterio de convergencia inferior a 0,001 para los marginales a estimar. T4 O-O
Origen 1 1 2 3 4 5 6 T
0,0903 0,0217 0,0118 0,0255 0,0118 0,0056 0,1667

Probabilidades conjuntas estandarizadas Actual 2 3 4 5


0,0339 0,0531 0,0361 0,0225 0,0120 0,0090 0,1667 0,0210 0,0405 0,0573 0,0208 0,0156 0,0115 0,1667 0,0140 0,0252 0,0283 0,0422 0,0307 0,0264 0,1667 0,0048 0,0162 0,0206 0,0301 0,0554 0,0397 0,1667

6
0,0027 0,0099 0,0126 0,0256 0,0413 0,0746 0,1667

T
0,1667 0,1667 0,1667 0,1667 0,1667 0,1667 1,0000

62

Para la tercer hiptesis se aplica IPFA para forzar los marginales, o sea igualar entre s a cada categora; en este caso al destino con el origen. La frmula para iterar es: pij1 = pij0 * (pi+& / p+j0), con la condicin que: pi+& = p+j&, y y el criterio de convergencia inferior a 0,001 para los marginales a estimar. T5 O-O
Origen 1 1 2 3 4 5 6 T
0,534 0,026 0,021 0,056 0,008 0,003 0,649

Probabilidades conjuntas forzadas Actual 2 3 4 5


0,035 0,011 0,011 0,009 0,001 0,001 0,069 0,034 0,013 0,028 0,013 0,003 0,002 0,093 0,039 0,014 0,024 0,044 0,010 0,007 0,138 0,004 0,003 0,005 0,010 0,006 0,003 0,031

6
0,002 0,001 0,003 0,006 0,003 0,005 0,020

T
0,649 0,069 0,093 0,138 0,031 0,020 1,000

Lo que en realidad una vez ms vemos son las hiptesis que pretendemos ajustar a los datos. El producto de la probabilidad conjunta en cada caso por el N da la frecuencia que se ajustar en cada tabla. Con lo cual si lo deseo puedo estimar el X2 o el G2 para cada tabla y evaluar la bondad de ajuste de cada hiptesis a los datos. (hgalo con Excel en casa!!) En este ejemplo, para variar un poco preferimos a que es el Indice de disimilaridad, que ya vimos, que suma las diferencias positivas entre las probabilidades observadas y cualquiera de las otras hipotetizadas. Y qu pas? para T3 O-E es 20,1% de casos, entonces hay que reclasificar esa proporcin de casos para decir que no hay relacin entre origen y destinos. O sea no hay independencia de orgenes y destinos.

63

para T4 O-O es 49,5 % de casos, entonces hay que reclasificar esa proporcin de casos para decir que no hubo siquiera movilidad estructural. La hiptesis est muy lejos de los datos observados. para T5 O-O es 33,4 % de casos, entonces hay que reclasificar esa proporcin de casos para decir que la estructura esta cristalizada y no hubo movilidad circulatoria. En conclusin: no podemos sostener ninguno de estos modelos excluyentes como explicacin de los datos, hubo movilidad estructural, no fue intrascendente la movilidad circulatoria, y claramente no se puede decir que destinos y orgenes no tienen nada que ver. Sin duda debemos examinar otras alternativas para explorar la movilidad social observable.
IR A: EJERCICIO_2_IPFA.xls 4.4. Mostellerizacion (oestandarizacin) de tablas. 4.4.1. Problema y Solucin. Un importante factor de perturbacin en el anlisis de asociacin son los marginales de la tabla. En principio las distribuciones marginales de una tabla no pueden ser consideradas un factor que afecte la relacin intrnseca entre las variables porque son las que obtuvimos en la muestra-. Sin embargo, como ya vimos X2 (y una serie de ndices relacionados con ella (13) son muy sensibles a las variaciones en los marginales. Concretamente la asimetra en los marginales afecta negativamente el valor de estas medidas. Esto ocurre muchas veces cuando queremos comparar la asociacin de variables que nos interesan entre muestras -no sesgadas- de diferente tamao para un mismo pas, por ejemplo, tomadas en distintas pocas; o de diferentes tamaos para varios pases en un mismo momento. O tambin cuando queremos referir los resultados de nuestra muestra a un censo que explor previamente esa relacin de variables. Una forma de resolver el problema de las asimetras de las distribuciones marginales entre varias tablas es estandarizar las tablas de forma de atender a distribuciones marginales uniformes. La estandarizacin fue sugerida por Mosteller (1968), y permite obtener lo que este autor llama ncleo de la asociacin. Supongamos que tenemos dos tablas, elaboradas con las mismas 2 variables nominales, pero corresponden a diferentes pases y tienen diferente tamao muestral. Nos referiremos al proceso en singular pero aplica a las 2 tablas por igual. La aplicacin del IFPA se inicia en la seleccin de los totales marginales deseados. Para la estandarizacin de una tabla, todos los marginales son igualados al valor 1, de esa manera se elimina el efecto de sus diferencias sobre el anlisis de asociacin entre las variables. De all en adelante se va ajustando las frecuencias observadas primero en la
13

Ver en Silva 1990 cap 2 y 3: phi, p, y r, 64

direccin de un marginal y luego el otro. Cada ajuste, en el sentido de la variable, se denomina Paso. (Hay tantos pasos como variables en la tabla!) Se llama Ciclo a cada vez de dimos todos los pasos (ajuste) en c/u de las variables de la tabla. A cada ajuste de las frecuencias al marginal de una variable, desajustamos las frecuencias respecto del marginal de la otra variable, pero notaremos que cada desajuste es menor que en el paso previo. Sucesivamente volveremos a ajustar los marginales para cada variable, reiterndose un nmero finito de veces los pasos y los ciclos hasta que se converge a una distribucin en la tabla que satisface a los marginales que nos propusimos (en este caso 1). Como se trata de un mtodo iterativo, la convergencia no es igualacin exacta sino una aproximacin confiable. Para esta convergencia en general se fija a priori un valor de convergencia o muy pequeo y menor a la unidad (0,001, por ejemplo). La convergencia es sobre una diferencia mnima y despreciable a nuestros fines. La prueba de la convergencia se encuentra en Fienberg (1970). 4.4.2. Formalizacin: p*i+ y p*+j sern nuestros marginales fijos a priori.

Entonces : p*i+ = p*+j = 1

(1)

Y tenemos nij observaciones en la celda ij de manera que: nij = N. i j Partiremos de los valores iniciales de las frecuencias de la tabla que queremos estandarizar porcentualizndolas en relacin a N (es decir tomando la probabilidad conjunta) as:

p(0)ij = nij / N

ij

(2)

De manera genrica en el m-simo paso (m 1) se toma:

p(m)ij = p(m-1)ij [ p*i+ / p(m-1) i+]

ij

(3)

pero como p*i+ es fijo por restriccin y en este caso es igual a 1, entonces:

p(m)ij = p(m-1)ij / p(m-1) i+

ij

(4)

La iteracin recomienza cada vez que se vuelve a (3) para cada conjunto de probabilidades (condicionales) de cada variable, y finalizar cuando dos conjuntos sucesivos de probabilidades en las celdas sean suficientemente semejantes. O sea, los valores p(k)ij obtenidos en la k-sima iteracin satisfagan los totales marginales fijados a priori. (En nuestro caso igualen a 1, con 0,001 de diferencia).
65

4.4.3. Ejemplo. Cuadro original Tabla 4.1 Voto a partido Tipo de Ciudad Poco Muy Total Industrial Industrial Izquierda 10 9 19 Derecha 31 7 38 Total 41 16 57 p(0)ij = nij / N Tabla 4.2 Voto a partido

Restricciones p*i+ = p*+j = 1, Paso 0 (el arranque!)

Tipo de Ciudad Poco Muy Industrial Industrial pi+ Izquierda 0,175 0,158 0,333 Derecha 0,544 0,123 0,667 p+j 0,719 0,281 1

Ciclo 1, Paso 1: p(1)ij = p(0)ij [ p*i+ / p(0) i+] y p*i+= 1

Clculos: (en direccin de las filas) p(1)11 = p(0)11 / p(0) 1+ = 0,175 / 0,333 = 0,526 p(1)12 = p(0)12 / p(0) 1+ = 0,158 / 0,333 = 0,474 p(1)21 = p(0)21 / p(0) +2 = 0,544 / 0,667 = 0,816 p(1)22 = p(0)22 / p(0) +2 = 0,123 / 0,667 = 0,184 Resultado Paso 1: Tabla 4.3 Voto a partido Tipo de Ciudad Poco Muy Industrial Industrial p* i+ Izquierda 0,526 0,474 1 Derecha 0,816 0,184 1 p+j 1,342 0,658

66

Paso 2 p(2)ij = p(1)ij [ p*+j / p(1) +j] y p*+j= 1

Clculos: (en direccin de las columnas) p(2)11 = p(1)11 / p(1) +1 = 0,526 / 1,342 = 0,392 p(2)21 = p(1)12 / p(1) +1 = 0,816 / 1,342 = 0,608 p(2)12 = p(1)21 / p(1) 2+ = 0,474 / 0,658 = 0,720 p(2)22 = p(1)22 / p(1) 2+ = 0,184 / 0,658 = 0,280 Resultado Paso 2: Tabla 4.4 Voto a partido Tipo de Ciudad Poco Muy Industrial Industrial pi+ Izquierda 0,392 0,720 1,112 Derecha 0,608 0,280 0,888 * p +j 1 1

Reiterando los procedimientos como hasta ahora entonces: Ciclo 2: Paso 3 Tabla 4.5 Voto a partido Tipo de Ciudad Poco Muy Industrial Industrial p*i+ Izquierda 0,352 0,648 1 Derecha 0,685 0,315 1 p+j 1,038 0,962

Paso 4 Tabla 4.6 Voto a partido Tipo de Ciudad Poco Muy Industrial Industrial pi+ Izquierda 0,340 0,673 1,013 Derecha 0,660 0,327 0,987 * p +j 1 1

67

Ciclo 3: Paso 5 Tabla 4.7 Voto a partido Tipo de Ciudad Poco Muy Industrial Industrial p*i+ Izquierda 0,336 0,664 1 Derecha 0,669 0,331 1 p+j 1,005 0,995

Paso 6 Tabla 4.8 Voto a partido Tipo de Ciudad Poco Muy Industrial Industrial pi+ Izquierda 0,334 0,667 1,001 Derecha 0,666 0,333 0,999 * p +j 1 1

Ciclo 4: Paso 7 Tabla 4.9 Voto a partido Tipo de Ciudad Poco Muy Industrial Industrial p*i+ Izquierda 0,334 0,666 1 Derecha 0,666 0,334 1 p+j 1 1

Se detiene la iteracin porque obtuvimos la restriccin de partida p*i+ = p*+j = 1

68

4.4.4. Interpretando. Con los resultados obtenidos en el paso 7 alcanzamos la restriccin para comparar los datos y con ello se obtiene el ncleo de la asociacin. Seguidamente se divide toda la tabla entre 2 (que es el tamao de la variable de ms categoras), y, se obtiene: la estimacin de la probabilidad conjunta subyacente a los datos en condiciones de marginales equiprobables. Tipo de Ciudad Poco Muy Industrial Industrial pi+ Izquierda 0,167 0,333 0,500 Derecha 0,333 0,167 0,500 p+j 0,500 0,500 1 Esto permite reconstruir la tabla en trminos de los marginales equiprobables ya que Feij = pij(7) * N. Tipo de Ciudad Poco Muy Total Industrial Industrial Izquierda 9,5 19 28,5 Derecha 19 9,5 28,5 Total 28,5 28,5 57 Qu vemos? Advertimos que todos los estadsticos utilizados basados en los marginales varan sustancialmente entre la tabla original y la estandarizada: Por ejemplo para la tabla estandarizada la X2: 6,333, el valor mximo que puede alcanzar en los datos; mientras que en los observados fue X2: 5,257. Atendiendo a la razn de ventajas relativas, las chances de votar a la izquierda es casi 4 veces menor en ciudades poco industrializadas que en las muy industrializadas, y lo inverso es vlido para votar a la derecha. Y que la Mostellerizacin, o estandarizacin, mantuvo la razn de chances vista en la tabla inicial 0,251. El algoritmo de estandarizacin descrito arriba tiene la importante propiedad de no alterar la relacin inherente a los datos. Por ello es un procedimiento fundamental cuando se quiere comparar la asociacin en tablas provenientes de muestras de varios pases y diferentes tamaos, o de una misma poblacin en diferentes pocas. Puede ser generalizado a tablas con cualquier nmero de filas y columnas, y tambin para tablas de cualquier nmero de variables. Importante: Los autores que sostienen esta posicin de invariancia marginal son proclives a desarrollar enfoque basados en la chance relativa, o razn de momios.
69

Voto a partido

Voto a partido

CLASE 5: INTRODUCCION AL ANALISIS LOGLINEAR.


5.1. DEFINICION Es recomendable el Anlisis Loglinear cuando se desarrolla un estudio que usa ms de dos variables nominales que se supone estn relacionadas. La idea principal es encontrar un modelo que mejor represente nuestros datos. Esto quiere decir una frmula que permita explicar el conjunto de relaciones entre las variables en cuestin de la manera ms simple posible. 5.1.1. Propsito. Cuando tenemos ms de dos variables no es sencillo explorar las asociaciones entre ellas. Es inconveniente pensar que slo con sostener asociacin frente a independencia en los datos es suficiente. Y como vimos en la clase 4 es necesario explorar varios modelos de hiptesis sobre la independencia. Loglinear es una tcnica de estimacin de los parmetros de las variables involucradas al mismo tiempo (sus efectos principales y las diversas interacciones entre ellas) en funciones que predicen resultados. A partir de esos resultados se aplican las tradicionales pruebas de bondad-de-ajuste. El algoritmo usado (14) genera las frecuencias esperadas para las celdas de cada modelo y las estadsticas de bondad de ajuste. La estadstica preferida por los programas, y la bibliografa mas recibida, es la Razn de Verosimilitud nombrada generalmente como G2 (aunque SPSS la nombra como L2). La estadstica X2 (tambin conocida como Ji cuadrado de Pearson), tambin se incluye en los paquetes pero existen divergencias entre los autores en el aprecio de su virtud multivariada, porque sealamos que ella no es particionable de manera proporcional para el conjunto de modelos posibles entre las 3 o ms variables que nos pueden interesar. Este aspecto es importante como veremos mas adelante, pero de momento es slo necesario recordar las propiedades de 2 para su descomposicin (ver clase 2). 5.1.2 Ventajas de Usar Loglinear Hay dos ventajas para usar el Anlisis Loglinear: proporciona una aproximacin sistemtica al anlisis de tablas multidimensionales y complejas; proporciona estimaciones de la magnitud de los efectos que nos interesan, por consiguiente ello permite juzgar la importancia relativa de diferentes efectos en cuestin.

Segn los paquetes estadsticos sern: el IPFA (Iterative Proportional Fitting, tambin llamado mtodo de Deming y Stephan), que ya vimos como se aplica; el Newton-Raphson.

14

70

5.2. BASE CONCEPTUAL 5.2.1 La Idea Bsica: La tarea principal en Loglinear es buscar los modelos que mejor ajustan a los datos. Para esto se necesita especificar modelos, y luego compararlos entre s. El Anlisis de Loglinear consiste en un procedimiento anlogo al Anlisis de la Varianza (ANOVA) y al de Regresin Mltiple. A cada conjunto de variables que especifico para predecir los datos se le denomina modelo, y no es ms que una hiptesis sobre estos. La idea inicial fue propuesta Goodman (1965) para una tabla bivariada, con ello quera enunciar una funcin de prediccin de las celdas, que le permitiera estimar las frecuencias esperadas bajo ciertas condiciones. Procediendo de manera anloga a la formulacin del modelo ANOVA. Sostuvo este autor que las Feij de cada celda en la tabla podran estimarse como la funcin linearizada- de un conjunto de parmetros indicativos de las variables consideradas y las relaciones entre ellas. Concretamente el producto de un conjunto de factores: el total de casos de la tabla, del efecto fila, del efecto columna, y del efecto de pertenecer a fila y columna. As, por ejemplo, tratndose de una tabla de dos variables habra 4 trminos en involucrados: Feij= N (f) (c) (fc) Que habitualmente se representan en su forma multiplicativa como: ij =G F CFC (1) con: G: la media geomtrica de casos en la tabla(15) F: Efecto filas C: Efecto columnas FC: Efecto filas y columnas (casos que pertenecen simultneamente a filas y columnas). Quienes gustan de desarrollar este anlisis dentro de la perspectiva multiplicativa, representan a los parmetros de los efectos por medio de las letras tau (). Pero, como el clculo multiplicativo es mas dificultoso de desarrollar manualmente, el producto se transforma en una igualdad lineal de base logartmica, y lo anterior puede formularse como una suma ta como propuso Goodman inicialmente: LnFe= Ln M + Ln (f)+ Ln (c)+Ln (fc) (2)

15

La media geomtrica es la raz ensima de un producto de n nmeros. Ejemplo en una tabla 2x2 el valor es la raz cuarta del producto de las 4 frecuencias; en una tabla de 2x3 es la raz sexta del producto de las frecuencias de las 6 celdas. 71

De ah su denominacin de log lineal: es una expresin no lineal vuelta lineal en sus logaritmos. No obstante, es posible reconocer en la bibliografa el uso alternativo de las dos denominaciones al referirse a este procedimiento de anlisis: modelo Loglinear o modelo multiplicativo (16). Para simplificar la representacin de cada trmino del lado derecho de la funcin, sin tener que mencionar a los Ln cada vez, Goodman sugiri la letra lambda (), los ndices (que no son potencias en este caso) para identificar cada variable, y los subndices para identificar las categoras. (Es posible que en los diversos libros se prefieran otras letras a los lambdas por razones de practicidad). En nuestro ejemplo bivariado: LnFeij= N+ F+ C+FC (3) N: Log natural de media geomtrica de N F: Log natural de parmetro de casos fila C: Log natural de parmetro de casos columna FC: Log natural de parmetro de casos que pertenecen simultneamente a A y B. Entonces se trata de desarrollar modelos que estimen de manera genrica las Feij de las celdas. Veremos que casi siempre hay un modelo de partida que suele ser llamado modelo saturado, que ajusta a los datos, porque usa todos los parmetros posibles. El anlisis loglineal procurar obtener de manera genrica una estimacin del valor de cada celda utilizando menos parmetros que el modelo saturado. Muchas veces se llama a esto suavizar (smooth) los datos. Es una tcnica que procura entonces resumir los efectos presentes y simplificar la interpretacin de un conjunto complejo de datos.

OJO! La analoga con ANOVA y con la regresin NO conlleva a que los parmetros que se estiman sean coeficientes que multiplican los valores de las vars como en la regresin.

16

El Ln es el exponente al cual sera necesario elevar a la constante 2,718.... para obtener otro nmero cualquiera. Algunas propiedades de los logaritmos naturales o neperianos, permiten transformar una relacin multiplicativa en una aditiva, o lineal: ln(ab) = ln(a) + ln(b) ln(a/b) = ln(a) - ln(b) Si x = ab/c, entonces ln (x) = ln(a) + ln(b) ln(c) 72

5.2.2 Qu Son Exactamente Mis Modelos? Consideremos una tabla de contingencia con dos variables: A y B. Para esta tabla tendramos como mnimo cinco posibles modelos, que se corresponden con otras 5 hiptesis formales o nulas. En todos los modelos, Ln Feij representa el logaritmo de la frecuencia esperada en la ijsima celda (o sea cualquier celda de la tabla), y como se trata de descartar hiptesis de independencia en procura de la asociacin... las Feij deben igualar a las fo y entonces se sustituye una por otra. A cada modelo corresponde un tipo de formulacin (especificacin) de los efectos que estaran determinando el valor de la Feij , y consecuentemente, un tipo de hiptesis nula (H0). Sean : G: ln de la media geomtrica del nmero de casos. F.: ln del parmetro de efecto fila o variableA. C: ln del parmetro de efecto columna o variable B. FC: ln del parmetro de efecto de asociacin fila (A) y columna (B). (O como vimos alternativamente los taus en versin multiplicativa). Imaginemos una tabla con 2 variables: das de la semana (7 categoras: Lun, Mar, Mie, Jue, Vie, Sab y Dom); y estaciones del ao (4 categoras, Verano, Otoo, Invierno y Primavera). Las frecuencias en las celdas son nmero de suicidios. A. El primer modelo:

ln Feij = G (3)

Este es un modelo sin efecto de variable alguna, que significa que el log de la frecuencia esperada es el Ln de promedio general de casos, y es la misma para cada una de todas las celdas. G representa en este caso el efecto promedio global de casos por celda.

Y su H0: F= C= FC=0 (4)


Es decir que los efectos de las variables A y B, y la asociacin de ambas, son iguales a 0. (Si lo expresamos en el formato multiplicativo los efectos nulos sera iguales a 1). Es el modelo de equiprobabilidad, donde no puedo distinguir por categoras, y la mejor explicacin que se propone para los datos es el promedio de casos por celda. En nuestro ejemplo del suicidio, corresponde a la hiptesis que sostuviera que el nmero de suicidios diarios es igual todos los das de la semana en cualquier estacin del ao (!!)

73

B. El segundo modelo:

ln Feij = G+ F (5)

Este modelo significa que el log de la frecuencia esperada es la suma del ln N y del ln del efecto principal de la variable A (Filas). En otras palabras, representa el efecto principal de variable A en la ij-sima celda. La notacin corriente escribe este modelo como: [A] o{A}.

Y su H0: C= FC=0 (6)


Es decir que el ln del efecto de la variable B, y el ln de la asociacin de A y B, son iguales a 0. (Nuevamente, si lo expresramos en el formato multiplicativo los efectos nulos sera iguales a 1). En el ejemplo del suicidio, corresponde a la hiptesis que sostuviera que el nmero de suicidios diarios es diferente cada da de la semana, pero es igual en cualquier estacin del ao (!!). Vea como al igual que en el modelo lineal se trata de una desviacin respecto del promedio general, condicionada por el da de la semana.

C. El tercer modelo:

ln Feij = G+ C (7)

Este modelo representa una situacin similar a la anterior, pero que seala que el log de la frecuencia esperada este caso se debe al ln de N y del efecto principal de la variable B (columnas) en la ij-sima celda. La notacin corriente lo escribe como: [B] {B}.

Y su H0: F= FC=0 (8)


Es decir que el ln del efecto de la variable A, y el ln de la asociacin de A y B, son iguales a 0. Nuevamente en el ejemplo del suicidio, corresponde a la hiptesis que sostuviera que el nmero de suicidios diarios es igual cada da de la semana pero diferente segn la estacin del ao (!!). Aqu se trata de una desviacin respecto del promedio general, condicionada por la estacin del ao.

74

D. El cuarto modelo:

ln Feij = G+ F+ C (9)

Este modelo significa que el log de la frecuencia esperada es la suma del ln de N, y de los ln de los efectos principales de las variables A (columnas) y B (filas) en la ij-sima celda Aqu, las variables A y B tienen un efecto significativo en los datos, pero ellas no estn asociadas entre s (no interactan). La notacin corriente lo escribe como: [A] [B] {A}{B}.

Y su H0: FC=0 (10)


As, este es el modelo de Independencia estadstica para 2 variables. Otra vez en el ejemplo del suicidio, corresponde a la hiptesis que sostuviera que el nmero de suicidios diarios es diferente cada da de la semana, y es diferente segn la estacin del ao (!!). Aqu se trata de una desviacin respecto del promedio general, condicionada por el da de la semana y por la estacin del ao.

E. El ltimo modelo:

lnFeij = G+ F+ C+FC (11)

ste significa que el log de la frecuencia esperada incluye el efecto del ln de N, los ln de efectos principales de A (columnas) y B (filas), y el ln de la asociacin efectiva de A y B ( interaccin de columnas por filas). En este caso tambin se le llama modelo saturado, porque incluye todos los efectos posibles (enseguida veremos que significa esto). Sin embargo, normalmente, no es el modelo ms parsimonioso (simple) ni deseable. Y la notacin corriente es: [AB] {AB}. Finalmente, en el ejemplo del suicidio, corresponde a la hiptesis que sostuviera que el nmero de suicidios diarios es diferente cada da de la semana segn la estacin del ao (!!). Aqu se trata de una desviacin respecto del promedio general, condicionada por el da de la semana segn la estacin del ao. (Ejemplo: los lunes de verano seran diferentes de los de invierno, etc) Vea el ejemplo del suicidio en Excel, y examine cmo se ajustan a los datos cada una de las hiptesis, vea el X2 y el Indice de disimilaridad.

75

El modelo saturado: Incluye todos los parmetros posibles, y tiene una propiedad importante: los valores esperados son iguales a los observados. Como incluye todos los parmetros de efectos posibles... ajusta perfectamente a los datos. Pero la asociacin es tan compleja que no puede pensarse en un modelo explicativo para el conjunto de las celdas sino en una propia explicacin para cada una de ellas. Ello se opone al objetivo general de encontrar un modelo explicativo genrico para todas las celdas. En este caso no hay grados de libertad y el nmero de parmetros iguala el nmero de celdas (l x c) (Esto quiere decir que los us todos y note que por ende no hay H0). Hay otros modelos para la tabla bidimensional ms complejos y sofisticados que veremos mas adelante. Sirva como adelanto que la formulacin de loglin surgi a partir de lo que hoy se considera un caso especial, que luego fue generalizado. Y que lo trataremos luego.

5.2.3 Restricciones. Como cualquier tcnica de anlisis Loglinear tiene restricciones, las mismas tienen el fin de permitir la operacin de estimacin tanto manual como computacional; son sencillas se pueden expresar en va aditiva o multiplicativa, y es bueno tenerlas presentes. Algunos autores las denominan restricciones de normalidad y su interpretacin es clara. Expresadas estas restricciones de los parmetros a estimar para cada celda en logaritmos deben sumar 0; y alternativamente en versin multiplicativa deben dar producto 1.

76

1. Para las filas


A A A A A = 1 = 2 de donde 1 + 2 = 0 , A = 0 ( 12 )

o
A A A A A = 1 = 1 / 2 de donde 1 2 = 1 , A = 1 A A es claro que cuando 1 = 0 o 1 = 1

ya hay evidencia de independencia en esa fila 2. Para las columnas


B B B = 1 = B de donde 1 + B = 0 ( 13 ) 2 2

o
B B B B B = 1 = 1 / 2 de donde 1 2 = 1

3. Para la int eraccin


AB AB AB AB AB AB = 11 12 21 + 22 = 0 , ij = 0 ( 14 )

o
AB AB AB AB AB = 11 = 22 = 1 / 12 = 1 / 21

77

5.2.4 Ejemplo de estimacin de las frecuencias esperadas en un modelo saturado 2x2.

Integra organizaciones polticas (columnas) Decisin votar (Filas) 1=Vot 2=No vot total 1= Si 689 232 921 2= No 298 254 552 Total 987 486 1473

Recuerde que en el modelo saturado fo=Fe, entonces los ln de las celdas son:

Integra organizaciones polticas Decisin votar 1=Vot 2=No vot 1= Si 2= No Media marginal
(LnFe11+LnFe12)/2:

LnFe11:6,535 LnFe21:5,447

LnFe12: 5,697 LnFe21:5,537

(5,697+6,535)/2= 6,116 (LnFe21+LnFe22)/2: (5,447+5,537)/2= 5,492

Gran media de logs de celdas (LnFe11+LnFe12+LnFe21 (LnFe11+LnFe21)/2: (LnFe12+LnFe22)/2: +LnFe22) / 4: Media marginal (6,535+5,447)/2= (5,697+5,537)/2=

5,991

5,617

(5,697+6,535+5,447 +5,537) / 4= 5,804

78

Y la media de los logs de las celdas es el log de la media geomtrica: G Integra organizaciones polticas Decisin votar 1=Vot 2=No vot 1= Si 2= No

Ln Fe11 =G +F1 +C1 +FC11 Ln Fe12 =G +F1 +C2 +FC12 Ln Fe11 =G +F2 +C1 +FC21 Ln Fe22 =G +F2 +C2 +FC22

Los ln de los marginales fila o columna son las medias aritmticas de las celdas por fila o columna:

Ln Fe1+ ={(G +F1 +C1 +FC11)+(G +F1 +C2 +FC12)} / 2

(15)

Aplicando las restricciones 12, 13, y 14 es fcil sustituir ver que:

Ln Fe1+ =2 G +2 F1 -C2 +C2 +FC12 -FC12 / 2 = 2( G + F1) / 2 = G + F1 (16)


En consecuencia de manera general:
l

LnM LnM LnM asi :

i+

= =

LnFe LnFe
c

i=1 c

ij

/ l / c

( 17 ) ( 18 ) / lc ( 19 )

+ j

j=1

ij

++

LnFe

i=1 j=1

ij

F+ = LnM i C j = LnM + FC = LnFe ij

i+ + j ij

LnM LnM

++ ++

( 21 ) ( 22 )
++

F+ C j + LnM i +

( 23 )

79

Operando con las expresiones antes mencionadas: LnM1+ = (6,535 + 5,697) / 2 = 6,116 LnM2+ = (5,447 + 5,537) / 2 = 5,492 LnM+1 = (6,535 + 5,447) / 2 = 5,991 LnM+2 = (5,697 + 5,537) / 2 = 5,617 LnM++ = (LnM1+ + LnM2+) /2 = (6,116 + 5,492) /2 = (LnM+1 + LnM+2)/2 = (5,991+ 5,617) /2 = 11,608 /2 = 5,804 y aplicando 16, 21, 22, y 23:

F1 = 6,116 5,804= ,312 C1 = 5,991 5,804 = 0,187 FC11 = 6,535-6,116-5,991+5,804= 0,232


sustituyendo en el orden de los trminos del modelo:

Ln Fe11 =G +F1 +C1 +FC11 = 5,804+0,312+0,187+0,232= 6,535


Y as sucesivamente se despejan los siguientes lambdas de las dems celdas. Por lo cual queda claro que la idea conceptual de loglineal es que los parmetros lambda representan incrementos o decrecimientos de la media general debido al hecho de estar en la categora i de la variable fila, en la categora j de la variable columna, y de pertenecer a las categoras i y j de las variables columna y fila.

80

Tambin puede expresarse la estimacin anterior en su versin multiplicativa apoyada en los momios y razones de momios. Esta mayor simplicidad es preferida por muchos textos bsicos.

Integra organizaciones polticas (Columnas) Decisin votar (Filas) 1=Vot 2=No vot 1= Si 2= No

Fe11 =G F1 C1 FC11 Fe21 =G F2 C1 FC21

Fe12 =G F1 C2 FC12 Fe22 =G F2 C2 FC22

G = (fo11 fo12 fo21 fo22)1/4 (24) F1 =1 / F2 = (fo11 fo12)1/2 / G = (fo11 fo12)1/2 / (fo11 fo12 fo21 fo22)1/4 (25) C1 =1 / C2 = (fo11 fo21)1/2 / G = (fo11 fo21)1/2 / (fo11 fo12 fo21 fo22)1/4 (26) FC11 = FC22 = 1 / FC12 = 1 / FC21 = (fo11 fo22 / fo12 fo21)1/4 (27)

81

4. La chance relativa esperada es : Fe 11 xFe 22 / Fe 12 xFe 21 que sustituyen do da :

AB

AB AB AB AB = 11 22 / 12 21

por lo que ( Fe 11 xFe 22 / Fe 12 xFe 21 ) = ( pero en el mod elo saturado estimacion es , as : ( Fe 11 xFe 22 / Fe 12 xFe 21 ) = ( ( Fe 11 xFe 12 / Fe 21 xFe 22 ) = (
AB AB

) 1 / 4 ( 28 )

fo = Fe

por lo que desde las chances relativas se deducen todas las

)1 / 4

( 29 ) ( 30 )

)1 / 4

( Fe 11 xFe 21 / Fe 12 xFe 22 ) = ( B ) 1 / 4 ( 31 ) y finalmente ( Fe 11 xFe 21 xFe 12 xFe 22 ) 1 / 4 = gm ( 32 )

82

Clase 6: El Modelo Trivariado.


6.1. Hiptesis y modelos. Consideremos ahora una tabla de contingencia con 3 variables: A (filas) B (columnas) y C (nivel). Para esta tabla tendramos mas modelos que en el caso anterior, a los cuales corresponden sus hiptesis formales o nulas. Recordando el desarrollo de la clase 4 vemos que tenemos la secuencia de hiptesis de: independencia mutua, independencia parcial, independencia condicional, interaccin homognea y modelo saturado. Nuevamente a cada modelo corresponde un tipo de formulacin (especificacin) de los efectos que estaran determinando el valor de la Feij , y consecuentemente, un tipo de hiptesis nula (H0). Sean : G: ln de la media geomtrica del nmero de casos. F.: ln del parmetro de efecto fila o variableA. C: ln del parmetro de efecto columna o variable B. R: ln del parmetro de efecto nivel o variable C. FC: ln del parmetro de efecto de asociacin fila (A) y columna (B). FR: ln del parmetro de efecto de asociacin fila (A) y nivel (C). CR.: ln del parmetro de efecto de asociacin columna (B) y nivel (C). FCR: ln del parmetro de efecto de asociacin fila (A), columna (B) y nivel (C).

A. Modelo de Independencia Mutua:

ln Feijk = G+ F+ C+R (1) y su H0: FC=CR=FR=FCR=0 (2)


Este es el modelo sin asociacin entre las variables. Es decir que todos los efectos asociativos de las variables A B y C, son iguales a 0. (Si lo expresamos en el formato multiplicativo los efectos nulos sera iguales a 1 ).Y se escribe {A}{B}{C}

83

B. El modelo de Independencia Parcial.

ln Feijk = G+ F+ C+R+FC (3) Y su H0: CR=FR=FCR=0 (4)


Este modelo significa que el log de la frecuencia esperada, representa el efecto asociativo de A y B, y del efecto slo de C. La notacin corriente escribe este modelo como: {AB}{C}. (Atencin, como ya vimos en la clase 3 puede haber otras dos alternativas de independencia parcial, aqu slo enunciamos una, las otras son fcilmente deducibles).

C. El Modelo de Independencia Condicional:

ln Feijk = G+ F+ C+R+FR+CR (5) Y su H0: FC=FCR=0 (6)


Este modelo representa el log de la frecuencia esperada al efecto asociativo de filas y nivel y de columnas y nivel, o sea A y B estn condicionalmente asociadas a C, pero son independientes entre s. Se escribe como: {AC}{BC}. (Atencin, como ya vimos en la clase 4 puede haber otras dos alternativas de independencia condicional, aqu slo enunciamos una, las otras son fcilmente deducibles). D. El Modelo de interaccin:

ln Feijk = G+ F+ C+R+FR+CR+FC (7) Y su H0: FCR=0 (8)


Este modelo significa que el log de la frecuencia esperada es la suma de la gran media, de los efectos principales de las variables A B y C, y las interacciones bivariadas de las variables A B y C. Este modelo expresa la asociacin constante de dos de las variables a travs de las categoras de la tercera. Este rasgo se cumple en cualquier caso, o combinacin de variables, siempre que dos variables estn asociadas a travs de las categoras de la tercera. Usualmente se conoce como modelo de asociacin homognea. La notacin corriente lo escribe como: {AB}{BC}{AC}.
84

E. El Modelo Saturado:

ln Feijk = G+ F+ C+R+FR+CR+FC+FCR (10)


El modelo de saturado incluye todos los efectos posibles. El modelo saturado incluye todos los parmetros posibles, y los valores esperados son iguales a los observados, por ello ajusta perfectamente a los datos. Es un modelo que expresa asociaciones no homogneas de dos de las variables a travs de la tercera variable de inters. Pero la asociacin es tan compleja que no puede pensarse en un modelo explicativo para el conjunto de las celdas sino en una propia para cada una de ellas, lo cual se opone al objetivo general de encontrar un modelo explicativo mas sencillo para todas las celdas. En este caso no hay grados de libertad y el nmero de parmetros iguala el nmero de celdas (l x c).

6.2. RESTRICCIONES PARA EL MODELO TRIVARIADO.

1. Para efectos principale s

F i

L = C = k = 0 (11) j

2 . Para int eracciones bi var iadas

FC ij

FC LF LF = ij = ik = ik = CL = CL = 0 (12 ) jk jk j i k j k

3 . Para la int eraccin tri var iada

FCL ijk

FCL FCL = ijk = ijk = 0 j k

(13 )

85

6.3. COMO SE HACE? 6.3.1. La Jerarqua. Como puede verse, los modelos se construyen en relacin unos con otros, segn nuestros objetivos de investigacin, y al igual que en el ANOVA la inclusin de efectos de orden ms altos presuponen la inclusin de sus efectos del orden ms bajos correspondientes (las sucesivas interacciones incluyen a los efectos principales). Por eso aqu slo hablaremos de modelos loglineares jerrquicos. Los modelos jerrquicos son una variante completa de los modelos anidados. 6.3.2 La Bondad de ajuste. Ajustado a los datos significa que un modelo es capaz de reproducir los datos observados con el menor nmero de parmetros que sea posible. Entonces lo que busca el Anlisis Loglinear es un modelo, que mejor reproduzca los datos observados, con el menor nmero de parmetros que sea posible. Y ser aquel modelo en el que las frecuencias esperadas igualen a las observadas, o la diferencia (residuo) entre ambas sea mnima y casi despreciable (17) . 6.3.3 Suficiencia y Parsimonia. Cuando se evala el ajuste de los modelos a los datos, generalmente se usan 2 criterios: suficiencia y parsimonia (parsimony) (tambin llamada simplicidad). Usualmente un modelo es considerado adecuado si su nivel de significacin es superior a 0,05, y se acepta la hiptesis nula. Alternativamente, tambin puede ser considerado adecuado un modelo cuando su valor de G2 ( L2) es aproximadamente igual a sus grados de libertad. Sin embargo, slo el modelo que considera ms efectos en los datos, y que al mismo tiempo es el ms parsimonioso (simple), puede ser considerado como el modelo mejor. En definitiva el modelo ms simple es el que tiene menor nmero de efectos y combinaciones de stos.

17 En general uno puede fijar esta cantidad mnima de convergencia entre las fo y Fe en los comandos respectivos, en todos los paquetes estadsticos convencionales. No quiere decir que los residuos que uno acepte sern iguales en cada celda, sino que no sern en ningn caso superiores a dicha cantidad. El algoritmo opera hasta que todos los residuos sean inferiores a esa cantidad que se fija, o que est fijada por defecto en cada paquete.

86

6.3.4 La Idea Bsica Es necesario comparar los diferentes modelos para determinar qu efectos son los responsables de las diferencias entre las frecuencias observadas y esperadas. Es decir que siempre se tiene que comparar modelos que incluyen diferentes efectos, combinaciones de stos, para que se pueda determinar apropiadamente qu efecto tiene la mayor influencia.

Como queda claro cada modelo es un hiptesis sobre cmo estn conformados los datos. Y el mismo modelo se aplica para la estimacin del LnFe de todas y cada una de las celdas, cada vez.
La comparacin de los modelos estimados es sencilla: se hace tomando los modelos de a dos. Es decir se buscan las diferencias entre dos modelos. Cmo??? Por un lado, se resta el valor de G2 ( L2) de uno del G2 ( L2) del otro; y por otro lado, se resta los grados de libertad de uno de los grados de libertad del otro. Entonces se evalan las cantidades halladas (llamados, segn los autores G2, o residuos de G2, y de gr.l.) respecto de los valores crticos de la distribucin Ji Cuadrado. Si la diferencia no es significativa de acuerdo a la tabla Ji Cuadrado se siguen probando otros modelos hasta lograrla. Me detendr cuando la diferencia en G2 entre el ltimo modelo y el anterior sea significativa. En general suele tomarse como punto de partida algn modelo de inters terico para nosotros que se denomina modelo base o baseline. Cuando esto no existe, porque uno est explorando los datos, suele tomarse como punto de partida el modelo terico extremo que es el modelo saturado, y se realiza un procedimiento tipo Backward (ver infra). 6.3.5. Una confusin ya aclarada. Un aspecto que confunde en el Anlisis Loglinear es que los valores p sobre 0,05, que indican la bondad de ajuste, sealan que el modelo se ajusta a los datos. Este proceder es diferente de la interpretacin usual del valor pen otras tcnicas, que es considerado como significativo a 0,05 menos. Lo que confunde es que cmo se est procurando reducir el nmero de efectos (parmetros) interactivos en la prediccin de las celdas, a cada modelo entonces le corresponde una Ho, es decir una hiptesis sobre el comportamiento de un parmetro, generalmente jerrquico, que es lo que se esta poniendo a prueba. De lo que se trata es de aceptar la Ho y no de rechazarla. En otras palabras, que sea cierto que lo que se excluye del modelo no tiene efecto, y as poder reducir los parmetros. En consecuencia, es claro que, dado que a cada nivel de parmetros corresponde un tipo de tabla marginal, de lo que se trata al tener el menor nmero de parmetros, o sea de tener el menor nmero de tablas vlidas posibles (18).
Un razonamiento semejante tiene lugar cuando tratndose de slo dos variables, se procura cancelar algunas celdas en la tabla. Loglinear es en consecuencia un poderoso mtodo de reduccin de variables y de espacios.
18

87

6.3.6 Otros procedimientos tiles y bsicos. Hay dos procedimientos tiles y bsicos para acercarse a un modelo mejor, pero debe tenerse en cuenta que los mismos no aseguran su significacin terica, ellos son procedimientos automticos de seleccin de modelos: el Backward y el Forward. En Backward ( Eliminacin Dirigida Hacia Atrs), se empieza con el modelo ms complejo (normalmente el modelo saturado), y sucesivamente se va eliminando efectos uno por uno, de forma semejante al conocido step-wise de la regresin. En Forward (Incorporacin Hacia Delante) se empieza con el modelo ms simple, por ejemplo con slo un efecto principal incorporado, y sucesivamente se examina que cada uno de los efectos que se incorporan que representan modelos cada vez ms complejosproduzca un mejor ajuste a los datos. 6.4. REQUISITOS

6.4.1 Una cosa importante del Anlisis de Loglinear es que est relativamente libre de supuestos Dado que es una extensin de Ji Cuadrado, no hace supuestos sobre las distribuciones de la poblacin, excepto que las observaciones sean independientes (Poisson, etc). 6.4.2 Loglinear requiere que por lo menos todas las celdas de la tabla de contingencia tengan frecuencias esperadas mayores que 1, y que no ms del 20% de las celdas tengan frecuencias esperadas de menos de 5. Matrices dispersas son, precisamente, aquellas tablas de contingencia con muchas celdas vacas, lo cual es problemtico, recuerde clase 5 sobre IPFA. Mientras que las celdas vacas no afectan sustancialmente el error de tipo I, ciertamente reducirn su poder explicativo. Si se tienen algunas celdas vacas hay varias soluciones (!!): incremente su muestra, si le es posible..., colapse (agrupe) categoras, si le es posible, sume una constante pequea a la cantidad de cada celda (generalmente llamada delta 19) as desaparecen las celdas vacas (!!!).

El inverso del nmero de celdas de la variable que se considere intuitivamente como dependiente, por eso en una tabla bivariada 2x2 es 0,5, y en una bivariada 6x6 es 0,16. Cunto ms pequea la cantidad mejor porque menos afecta el N, y en consecuencia la verosimilitud. La importancia de adicionar esta cantidad es a efectos de los procedimientos de iteracin de los algoritmos.

19

88

6.5. UN EJEMPLO DE ANALISIS LOGLINEAR. TOTAL CELDAS: 6x6x2=72 O: ORIGEN SOCIAL: (OCUPACION DEL JEFE DE HOGAR CUANDO EL ENTREVISTADO TENIA 14 AOS) (6 CATEGORIAS). D: POSICIN ACTUAL DEL ENTREVISTADO (6 CATEGORIAS). A: AO DE INGRESO A LA PRIMERA OCUPACIN (ANTES DE 1974, y, A PARTIR DE 1974) (2 CATEGORIAS).

Modelo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Especificacin de gr.l. Efectos {A} {D} {O} {O}{A} {O}{D} {D}{A} {O}{D}{A} {OA} {OD} {DA} {OA}{D} {OD}{A} {DA}{O} {OD}{OA} {AD}{OA} {OD}{DA} {OD}{OA}{DA} {ODA} 70 66 66 65 61 65 60 60 36 60 55 35 55 30 50 30 25 0

G2
755 728 605 416 388 538 196 413 256 503 196 66 164 63,7 161 31,8

TIPO MODELO
1 INDEP y 2 EQUIP 2 INDEP y 1 EQUIP INDEP. MUTUA ASOC y 1 EQUIP INDEP. PARCIAL

.000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000

.000 INDEP. CONDICIONAL .000 .370


INTERACCION SATURADO

29,51 .240 0 1

89

6.6. Cmo se selecciona un modelo? 6.6.1 Como vemos en el ejemplo, cualquier programa competente puede ofrecernos estimaciones de combinaciones de parmetros que expresen TODOS los modelos lgicamente posibles. Pero ya sabemos que desde el punto de vista de nuestra teora slo algunos pueden ser sustantivos. Igualmente, una vez que se aprenda a utilizar el programa es posible hacer un ejemplo paso a paso en vez de preferir la seleccin automtica backward o fordward, de manera de construir el ejemplo al menos una vez. 6.6.2 La seleccin de los modelos puede hacerse de dos maneras, pero siempre teniendo presente nuestras preocupaciones sustantivas. a. Por un lado de la forma presentada en la tabla anterior, en la que la evaluacin del G indica el ajuste del modelo a los datos. Esto supone que los residuos, o diferencias, entre las frecuencias observadas y las esperadas ajustadas por el algoritmo (ver supra) para cada modelo son mnimas. Este es el procedimiento ms popular.
2

b. Y por otro lado, por medio de la evaluacin de significacin de los parmetros de los efectos en cada celda, calculados para el modelo saturado. Este es otro procedimiento mas dificultoso de analizar e interpretar (ver Silva 1990). 6.6.3 Mirando la columna de significacin se ve que slo los modelos 16 y 17 aportan un ajuste adecuado a los datos, porque solo ellos tienen valores p por sobre 0,05%, y tambin porque el valor de G2 iguala o se aproxima a los gr.l como ya dijimos. Obviamente el modelo 18 es el modelo saturado, por ello es el que mejor ajusta los datos, es el ms complicado de interpretar como se dijo porque incluye todos los efectos posibles, y tambin el que menos nos interesa. De hecho indicara que las relaciones entre orgenes y destinos variaran segn las generaciones. El modelo 17 ajusta casi perfectamente, incluye todos los efectos interactivos entre las 3 variables, si bien no nos da una indicacin clara de cuales efectos seran ms importantes. El modelo 16 omite la asociacin de OA, tambin provee un ajuste adecuado; es un ejemplo de independencia condicional. Este modelo muestra que la interaccin entre las variables O y A sera innecesaria para dar cuenta de la estructura de los datos. Por lo que desde el punto de vista de la parsimonia el nmero de parmetros de efectos que se usan- el modelo 16 es el mas adecuado en proveer un ajuste a los datos (!!??). Pero vemos que es insuficiente para nuestra hiptesis de estabilidad temporal de la asociacin de orgenes y destinos (!!). Los restantes modelos del ejemplo claramente no ajustan a los datos pese a usar pocos parmetros.
90

Es notorio, de acuerdo a lo que vimos sobre descomposicin de la ji cuadrado, que la diferencia en G2 y gr.l., entre los modelos 16 y 17 es mnima y no significativa, por lo que puedo quitar parmetros para ganar grados de libertad y simplificar el modelo. Pero en los dems modelos (del 15 al 1) ello no es as, cualquier reduccin de parmetros es significativa, por lo que perdera ajuste a los datos porque estara perdiendo informacin. El modelo de equiprobabilidad, que tampoco ajustara a los datos, en este caso no fue incluido. 6.6.4 Si bien la cosa parece resuelta por alguna de las vas antes mencionadas, sin embargo el Anlisis Loglinear nos permite un examen adicional e interesante, y es que adems se puede examinar los modelos que no proporcionaron ajuste adecuado y por qu. Por ejemplo, comparando pares de modelos que incluyen efectos principales e interacciones de las mismas variables. Dando cuenta de porqu fracasaron las hiptesis rivales. Por ejemplo entre los modelos 15 y 7. El 15 es identificado en la literatura como modelo de movilidad estructural, pero en razn del tiempo, los autores lo prefieren como simil de la movilidad perfecta. Sin embargo la movilidad perfecta bien podra considerar la independencia mutua de orgenes, posiciones actuales y generaciones de ingreso o sea el 7. El modelo 7 es ms simple que el 15. Para ver si el modelo 15 ajusta a los datos mejor que el modelo 7, otra vez, substraemos los G2 y los gr.l. del modelo 15 de los valores correspondientes al modelo 7, y nuevamente evaluamos la significacin de la diferencia con la distribucin de valores criticos de Ji-cuadrado. Haciendo esto se puede ver que la reduccin de G2 del modelo 7 al 15 NO es significativa dado el costo de 10 grados de libertad. G2 = (196 - 161) = 35, df = (60-50) = 10 p >\0.100. Por consiguiente, podemos concluir a partir de nuestros datos, que el modelo 15 (de independencia condicional), que da cuenta de algunas interacciones entre las variables, no sera preferible en significacin al modelo 7 (independencia mutua) que slo considera efectos principales de las variables en cuestin.

6.7. Un regalo para los algortmicos: ciclo 1 del modelo de interaccin homognea. Fe(1)ijk = Fe(0)ijk Fe(2)ijk = Fe(1)ijk Fe(3)ijk = Fe(2)ijk
Basic Tips: Fe

[ n*ij+ / Fe(0) ij+ ] [ n*i+k / Fe(1) i+k ] [ n*+jk / Fe(2) +jk ] & Fe(0)ij+>1, y los n*ij+ son siempre los marginales fijos observados!!

(0) ijk=1

Repita hasta converger.


91

6.8. Para estimar los grados de libertad: Siendo: l: nmero de lneas c: nmero de columnas , y r: nmero de niveles , entonces l x c x r (la tabla) = 2 x 2 x 2, y as: 2 x 2 x 2 = 1+ (l-1)+(c-1)+(r-1)+(l-1)(c-1)+(l-1)(r-1)+(c-1)(r-1)+(l-1)(c-1)(r-1) = 1+ 2-1 + 2-1 + 2-1 +(2-1)(2-1)+(2-1)(2-1)+(2-1)(2-1)+(2-1)(2-1)(2-1) = 1+1 + 1 + 1 + 1 + 1 + 1 + 1 =8.

6.8.1 Independencia mutua: el nmero de gr.l. necesarios para testar la hiptesis de independencia estadstica es: lcr {(l-1)(c-1)+(l-1)(r-1)+(c-1)(r-1)+ (l-1)(c-1)(r-1)} = 1+ (l-1)+(c-1)+(r-1) 8 { 1 * 1 + 1 * 1 + 1 * 1 + 1 * 1 * 1 } = 1+ 1 + 1 + 1 = 4. o en su forma abreviada para trivariado: lcr l c r + 2.

6.8.2 Independencia parcial: el nmero de gr.l necesarios para testar la hiptesis de independencia parcial es: lcr {1+ (l-1)+(c-1)+(r-1)+(l-1)(c-1)} = (l-1)(r-1)+(c-1)(r-1)+ (l-1)(c-1)(r-1) 8 {1+ 1 + 1 + 1 + 1 * 1} = 1 * 1 + 1 * 1 + 1 * 1 * 1 = 3. o en su forma abreviada para trivariado: (r-1)(lc-1).

92

6.8.3 Independencia condicional: el nmero de gr.l necesarios para testar la hiptesis de independencia condicional es: lcr {1+ (l-1)+(c-1)+(r-1)+(l-1)(c-1)+(l-1)(r-1)} = (c-1)(r-1)+ (l-1)(c-1)(r-1) 8 {1+ 1 + 1 + 1 + 1 * 1 + 1 * 1 } = 1 * 1 + 1 * 1 * 1 = 2. o en su forma abreviada para trivariado: l (c-1)(r-1) .

6.8.4 Interaccin Homognea: el nmero de gr.l necesarios para testar la hiptesis de interaccin homognea es: lcr {1+ (l-1)+(c-1)+(r-1)+(l-1)(c-1)+(l-1)(r-1)+(c-1)(r-1)} = (l-1)(c-1)(r-1) 8 {1 + 1 + 1 + 1 + 1 * 1 + 1 * 1 + 1 * 1 } = 1 * 1 * 1 = 1. o en su forma abreviada para trivariado: (l-1)(c-1)(r-1).

93

CLASE_7: UNA 1era. APLICACIN. (BASE: Trabajo.sav de B. VISAUTA VINACUA)


ESTO ES EJERCICIO_3 7.1. UNA PROPUESTA... NUESTRA PREGUNTA DE INVESTIGACIN ES: HACE EL DINERO LA FELICIDAD? Y CONSECUENTEMENTE CON ELLO: EL GRADO DE FELICIDAD PUEDE SER DIFERENTES POR SEXO? DEPENDE DE LO QUE GANEN HOMBRES O MUJERES? VAMOS A EXPLORAR UN MODELO LOGLINEAL PARA ESTE TEMA. Descripcin de variables para el modelo Grado de Felicidad Actual CATEGORAS Frecuencias % Valido Nada feliz 15 1,6 Poco feliz 165 14,2 Bastante feliz 680 75,9 Muy feliz 74 8,3 Total 896 Sexo CATEGORAS Hombre Mujer Total

Frecuencias % Valido 439 49 457 51 896 100,0

Grandes tramos de ingreso CATEGORAS Frecuencias % Valido Bajo 240 26,8 Mediobajo 437 48,8 MedioAlto 163 18,2 Alto 56 6,2 Total 896 100,0

94

TABLA DE FRECUENCIAS OBSERVADAS


SEXO GRADO DE FELICIDAD ACTUAL Nada feliz Poco feliz Bastante feliz Muy feliz Total Hombre GDES_TRAMOS_INGRESO Bajo Medio Medio Alto bajo alto 2 1 0 0 22 26 8 5 71 174 69 25 10 17 8 1 105 218 85 31 Mujer GDES_TRAMOS_INGRESO Bajo Medio Medio Alto bajo alto 7 2 3 0 34 24 7 1 86 173 61 21 8 20 7 3 135 219 78 25

896 casos CARGUE ESTA TABLA EN SPSS COMO LE FUE ENSEADO. 7.2. Vamos a construir la serie de modelos que ya conocemos.

Iniciaremos un anlisis loglinear desde el comando: General Loglinear de SPSS. Siga fotocopia que le fue entregada
Independencia Mutua {S}{Y}{F}
GENERAL LOGLINEAR ANALYSIS - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Data Information 896 cases are accepted. 304 cases are rejected because of missing data. 896 weighted cases will be used in the analysis. 32 cells are defined. 0 structural zeros are imposed by design. 3 sampling zeros are encountered. Variable Information Factor A8 Levels 4 1 2 3 4 C1 2 Value Grado de Felicidad Actual Nada feliz Poco feliz Bastante feliz Muy feliz

Sexo 1 Hombre 2 Mujer gdes_tramos_ingreso bajo mediobajo medioalto alto

C18

4 1 2 3 4

Model and Design Information Model: Poisson Design: Constant + A8 + C1 + C18

95

NO VEREMOS ESTOS PARAMETROS ESTA VEZ SINO LA CLASE SIGUIENTE!


Correspondence Between Parameters and Terms of the Design Parameter 1 2 3 4 5 6 7 8 Aliased Term Constant [A8 = 1] [A8 = 2] [A8 = 3] [A8 = 4] [C1 = 1] [C1 = 2] [C18 = 1]

x x

Convergence Information Maximum number of iterations: 20 Relative difference tolerance: ,001 Final relative difference: 3,18353E-06 Maximum likelihood estimation converged at iteration 5. Goodness-of-fit Statistics Chi-Square Likelihood Ratio Pearson 49,8102 53,4484

DF 24 24

Sig. ,0015 ,0005

NO USAREMOS X2 (Pearson) SINO L2 (Likelihood Ratio).


Generaremos 2 variables de estimaciones las Predicted Cell Frecuencies (predicted values) y los adjusred Residuals
Note: 2 new variables have been added. Variable Contents ADJ_1 Adjusted Residual PRE_1 Predicted Cell Frequency

Independencia Parcial {SF}{Y}


Model and Design Information Model: Poisson Design: Constant + A8 + C1 + C18 + A8*C1 Convergence Information Maximum number of iterations: 20 Relative difference tolerance: ,001 Final relative difference: ,0007 Maximum likelihood estimation converged at iteration 4. Goodness-of-fit Statistics Chi-Square Likelihood Ratio Pearson 44,1327 44,7148

DF 21 21

Sig. ,0022 ,0019

Note: 2 new variables have been added. Variable Contents ADJ_2 Adjusted Residual PRE_2 Predicted Cell Frequency

96

Independencia Parcial {SY}{F}


Model and Design Information Model: Poisson Design: Constant + A8 + C1 + C18 + C1*C18 Convergence Information Maximum number of iterations: 20 Relative difference tolerance: ,001 Final relative difference: 2,42523E-06 Maximum likelihood estimation converged at iteration 5. Goodness-of-fit Statistics Chi-Square Likelihood Ratio Pearson 45,4650 47,1940

DF 21 21

Sig. ,0015 ,0009

Note: 2 new variables have been added. Variable ADJ_3 PRE_3 Contents Adjusted Residual Predicted Cell Frequency

Independencia Parcial {S}{YF}


Model and Design Information Model: Poisson Design: Constant + A8 + C1 + C18 + A8*C18 Convergence Information Maximum number of iterations: 20 Relative difference tolerance: ,001 Final relative difference: ,0004 Maximum likelihood estimation converged at iteration 7. Goodness-of-fit Statistics Chi-Square Likelihood Ratio Pearson 16,5876 14,9490

DF 15 15

Sig. ,3441 ,4551

Note: 2 new variables have been added. Variable ADJ_4 PRE_4 Contents Adjusted Residual Predicted Cell Frequency

97

Independencia Condicional {SY}{SF}


Model and Design Information Model: Poisson Design: Constant + A8 + C1 + C18 + A8*C1 + C1*C18 Convergence Information Maximum number of iterations: 20 Relative difference tolerance: ,001 Final relative difference: ,0007 Maximum likelihood estimation converged at iteration 4. Goodness-of-fit Statistics Chi-Square Likelihood Ratio Pearson 39,7874 39,7182

DF 18 18

Sig. ,0022 ,0023

Note: 2 new variables have been added. Variable ADJ_5 PRE_5 Contents Adjusted Residual Predicted Cell Frequency

Independencia condicional{SF}{YF}
Model and Design Information Model: Poisson Design: Constant + A8 + C1 + C18 + A8*C1 + A8*C18 Convergence Information Maximum number of iterations: 20 Relative difference tolerance: ,001 Final relative difference: ,0007 Maximum likelihood estimation converged at iteration 7. Goodness-of-fit Statistics Chi-Square Likelihood Ratio Pearson 10,9102 10,0571

DF 12 12

Sig. ,5366 ,6110

Note: 2 new variables have been added. Variable ADJ_6 PRE_6 Contents Adjusted Residual Predicted Cell Frequency

98

Independencia Condicional {SY}{YF}


Model and Design Information Model: Poisson Design: Constant + A8 + C1 + C18 + A8*C18 + C1*C18 Convergence Information Maximum number of iterations: 20 Relative difference tolerance: ,001 Final relative difference: ,0004 Maximum likelihood estimation converged at iteration 7. Goodness-of-fit Statistics Chi-Square Likelihood Ratio Pearson 12,2423 10,7058

DF 12 12

Sig. ,4264 ,5543

Note: 2 new variables have been added. Variable ADJ_7 PRE_7 Contents Adjusted Residual Predicted Cell Frequency

Interaccion homognea {SY}{YF}{SF}


Model and Design Information Model: Poisson Design: Constant + A8 + C1 + C18 + A8*C1 + A8*C18 + C1*C18 Convergence Information Maximum number of iterations: 20 Relative difference tolerance: ,001 Final relative difference: ,0006 Maximum likelihood estimation converged at iteration 7. Goodness-of-fit Statistics Chi-Square Likelihood Ratio Pearson 7,4212 6,5091 DF 9 9 Sig. ,5934 ,6881

Note: 2 new variables have been added. Variable ADJ_8 PRE_8 Contents Adjusted Residual Predicted Cell Frequency

99

7.3. Cmo elegir el modelo que mejor ajuste a los datos? Si no tenemos una buena teora, nuestra situacin es muy comprometida, ya que ni General Loglinear Anlisis, ni Backward en Model Selection Loglinear Anlisis, nos ofrecen una. Podemos tomar varios caminos... Por un lado, podemos examinar la bondad de ajuste de los modelos elaborados. Y, por otro lado podemos examinar las Fe y los residuos en la serie de tablas correspondientes a cada modelo. Esta opcin de examinar Fe y residuos ajustados es muy importante. Por sobre todo estos caminos son buenos tambin para no olvidar que algunas veces puede haber mas de una solucin!, y ella depende de nuestro criterio y no slo de la bondad de ajuste (Don Chi cuadrado!). 7.3.1. Tablas de Bondad de Ajuste. El siguiente es un Cuadro tpico de resumen de resultados de Bondad de Ajuste, que suele observarse en general en la mayora de los trabajos. En el se observa el tipo de hiptesis, que a veces lleva algn nombre, la especificacin de factores, la H0 no siempre es exhibida, el G2, sus gr. de libertad, el valor p, su aceptacin o rechazo, el coeficiente Seudo R2, el Indice , y el coeficiente BIC. Las definiciones se incluyen en la siguiente seccin.

TIPO DE MODELO HIPOTESIS Independencia {S}{Y}{F} {SY}{F} Independencia Parcial {SF}{Y} {S}{YF} {SY}{SF} Independencia Condicional {SF}{YF} {SY}{YF} Interaccin {SY}{YF}{SF}

HIPTESIS NULA {SYF}{SY} {SF}{YF}=0 {SYF}{SF} {YF}=0 {SYF}{SY} {YF}=0 {SYF}{SY} {SF}=0 {SYF} {YF}=0 {SYF} {SY}=0 {SYF} {SF}=0 {SYF}=0

G2 49,81 44,13 45,46 16,58 39,78 10,91 12,24 7,42

df 24 21 21 15 18 12 12 9

p ,00 ,00 ,00 ,34 ,00 ,53 ,42 ,49

RESUL SEUDO TADO R2 R R R A R A A A

BIC

100

: Indice de Disimilaridad: Suma de saldos positivos de diferencias entre Prob conjuntas observadas y esperadas (son el % de casos a reclasificar del modelo restringido para igualar el modelo sin restricciones). Seudo R2= 1 - (G2m1/G2m0). G2m1: G2 del modelo alternativo o restringido, G2m0: G2 del modelo base R: Rechazo de Ho A: Aceptacin de Ho Bic: G2 (df * lnN). 7.3.2 Tablas de anlisis de las estimaciones de los modelos. Puedo generar tablas para cada uno de los 8 modelos y as contrastar los datos observados y los estimados (fo vs FE), y para la localizacin de los Residuos Ajustados (RA). Esto puedo hacerlo... con el comando Basic Tables de SPSS poniendo a las variables Felicidad Actual, Tramos de Ingreso y Sexo en donde pide las filas y columnas, y a las estimadas de Fe y RA que salve en la base, que son (PRE_x) y (ADJ_x) respectivamente, en donde dice Sumaries. La x indica un nmero que corresponde a la estimacin de modelo que realic. Es bueno ser ordenado as recuerdo cul corresponde a cada modelo y no me mareo. La tabla de frecuencias observadas la saco de la misma manera slo que dejo libre la casilla sumaries. Como ya vimos la TABLA DE FRECUENCIAS OBSERVADAS no la repetiremos aqu. Ni haremos una para cada hiptesis por razones de tiempo, voy a mostrar slo una para el modelo de Independencia Mutua con Frecuencias Estimadas (Fe) y residuos Ajustados (RA) para... Modelo independencia {S}{Y}{F}
SEXO GRADO DE FELICIDAD ACTUAL Hombre Mujer GDES_TRAMOS_INGRESO GDES_TRAMOS_INGRESO Bajo Medio Medio Alto Bajo Medio Medio Alto bajo alto bajo alto 1,97 3,58 , , 2,05 3,73 1,39 , Nada feliz Fe ,02 -1,57 , , -1,04 1,44 , RA 3,74 16,67 30,35 11,32 3,89 17,35 31,59 11,78 4,05 Poco feliz Fe 1,46 -,95 -1,08 ,59 -1,64 -1,52 -1,60 RA 4,49 89,24 162,49 60,61 20,82 92,90 169,16 63,10 21,68 Bastante feliz Fe 1,46 1,47 1,19 -1,03 ,48 -,36 -,19 RA -2,75 9,71 17,68 6,60 2,27 10,11 18,41 6,87 2,36 Muy feliz Fe ,10 -,19 ,59 -,87 -,73 ,44 ,05 ,43 RA Este modelo NO AJUSTA A LOS DATOS porque vemos que hay celdas RA que indican asociacin
101

A nuestro juicio, es bueno para el lector (y para el profesor) que el trabajo presente un resumen de la informacin de todas las tablas posibles, o de inters, en un tipo de recurso, que llamamos el Tabln del Modeln. El mismo en forma de planilla excel nos acerca los valores celda que nos interesen (fo, Fe, RA, etc) y los coeficientes preferidos. Forma de resumir la informacin sobre la tabla original y las frecuencias estimadas para cada modelo de hiptesis (tabla mltiple, o tipo arbolito).
Felicidad Actual
Nada feliz

Tramos de ingreso
Bajo Mediobajo MedioAlto Alto

Sexo fo
Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer 2 7 1 2 0 3 0 0 22 34 26 24 8 7 5 1 71 86 174 173 69 61 25 21 10 8 17 20 8 7 1 3

Feij en el conjunto de modelos


{S}{F} {Y} {SF} {SY} {YF} 1,97 ,80 1,76 4,41 ,72 1,80 3,94 1,65 2,05 3,21 2,26 4,59 3,54 7,20 5,06 7,35 3,58 1,46 3,65 1,47 1,49 ,60 1,50 ,65 3,73 5,85 3,67 1,53 5,75 2,40 1,50 2,35 , , , , , , , , 1,39 2,18 1,31 1,53 2,05 2,40 1,44 2,30 , , , , , , , , , , , , , , , , 16,67 16,34 14,88 27,44 14,59 26,90 24,50 24,93 17,35 17,68 19,14 28,56 19,50 29,10 31,50 31,07 30,35 29,75 30,90 24,50 30,29 24,02 24,94 24,90 31,59 32,19 31,04 25,50 31,63 25,98 25,06 25,10 11,32 11,10 12,05 7,35 11,81 7,20 7,82 7,86 11,78 12,01 11,06 7,65 11,26 7,80 7,18 7,14 3,89 3,81 4,39 2,94 4,31 2,88 3,32 3,30 4,05 4,13 3,54 3,06 3,61 3,12 2,68 2,70 89,24 90,80 79,69 76,92 81,08 78,27 68,69 70,53 92,90 91,34 102,46 80,08 100,73 78,73 88,31 86,47 162,49 165,34 165,45 170,01 168,34 172,99 173,10 174,27 169,16 166,31 166,21 176,99 163,41 174,01 173,90 172,73 60,61 61,67 64,51 63,69 65,64 64,81 67,79 68,67 63,10 62,03 59,20 66,31 58,20 65,19 62,21 61,33 20,82 21,19 23,53 22,54 23,94 22,93 25,46 25,52 21,68 21,31 18,97 23,46 18,65 23,07 20,54 20,48 9,71 9,64 8,67 8,82 8,61 8,76 7,87 7,89 10,11 10,18 11,15 9,18 11,23 9,24 10,12 10,11 17,68 17,56 18,00 18,13 17,88 18,00 18,46 18,17 18,41 18,53 18,09 18,87 18,21 19,00 18,54 18,83 6,60 6,55 7,02 7,35 6,97 7,30 7,82 7,76 6,87 6,91 6,44 7,65 6,49 7,70 7,18 7,24 2,27 2,25 2,56 1,96 2,54 1,95 2,21 2,18 2,36 2,38 2,06 2,04 2,08 2,05 1,79 1,82 {SF} {Y} {SY} {F} {YF} {S} {SY} {SF} {SF} {FY} {FY} {SY}

Poco feliz

Bajo Mediobajo MedioAlto Alto

Bastante feliz

Bajo Mediobajo MedioAlto Alto

Muy feliz

Bajo Mediobajo MedioAlto Alto

102

Resulta ms til todava para el anlisis, resumir, cuando es posible, la informacin sobre la tabla original, con los Residuos Ajustados para cada modelo de hiptesis, ms los test de bondad de ajuste G2, grados de libertad, valores p, seudo R2, ndice de disimilaridad, y Bic.
RAij en el conjunto de modelos {SY} {YF} {SY} {SF} {FY} {F} {S} {SF} {FY} {SY}

Felicidad Actual

Tramos de ingreso Bajo

Sexo Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer

Nada feliz

Medio Bajo MedioAlto Alto Bajo

Poco feliz

Medio Bajo MedioAlto Alto Bajo

Bastante feliz

Medio Bajo MedioAlto Alto Bajo

Muy feliz

Medio Bajo MedioAlto Alto G2 gr.l p SR2 ID BIC

{S} {SF} {F} {Y} fo {Y} 2 ,02 1,56 7 3,74 2,48 1 -1,57 -,54 2 -1,04 -2,24 , , , 3 1,44 ,62 , , , , , , 22 1,46 1,70 34 4,49 4,71 26 -,95 -1,00 24 -1,64 -2,10 8 -1,08 -1,06 7 -1,52 -1,66 5 ,59 ,65 1 -1,60 -1,65 71 -2,75 -3,08 86 -1,03 -,83 174 1,46 1,19 173 ,48 ,92 69 1,47 1,31 61 -,36 -,18 25 1,19 1,08 21 -,19 -,09 10 ,10 ,14 8 -,73 -,82 17 -,19 -,19 20 ,44 ,49 8 ,59 ,64 7 ,05 ,04 1 -,87 -,88 3 ,43 ,43 0 49,81 44,13 0 24 21 1 ,00 ,00 ... 11,4 ... ... ... ... ...

,20 -1,61 1,74 ,26 -1,33 1,61 -,26 1,33 3,45 2,22 -1,61 -,54 -,57 ,65 -,58 -1,01 ,54 ,58 -2,20 -,65 , , , , , 1,56 1,70 ,74 ,97 1,82 , , , , , , , , , , -,77 2,12 -1,50 2,40 -1,75 1,50 1,75 ,77 3,98 4,23 -1,09 ,44 -1,18 ,72 ,32 -1,57 -,44 -2,03 -,72 -,32 -1,32 ,34 -1,33 ,44 ,10 -1,38 -,34 -1,51 -,44 -,10 ,32 1,69 ,37 1,77 1,46 -1,48 -1,69 -1,53 -1,77 -1,46 ,63 -2,11 -1,04 -2,69 -1,32 -,63 -3,59 1,04 -3,47 1,32 1,56 ,55 1,29 ,16 ,21 1,23 -,55 -,16 -,21 2,06 1,20 1,01 ,97 ,82 ,47 ,50 -1,01 ,80 -,82 -,47 ,63 ,75 ,47 ,63 -,33 ,96 -,75 1,11 -,63 ,33 ,50 ,56 ,57 ,67 1,05 -1,07 -,56 -1,20 -,67 -1,05 -,28 -,38 -,31 -,47 -,50 ,54 ,38 ,61 ,47 ,50 ,41 ,34 ,45 ,41 ,10 ,24 -,34 ,23 -,41 -,10 -1,04 -,96 -1,05 -,97 -1,27 ,69 ,96 ,69 ,97 1,27 45,46 16,58 39,78 10,91 12,24 21 18 15 12 12 ,00 ,00 ,34 ,53 ,42 8,7 20,1 66,7 78,1 75,4 ... ... ... -85,39 ... -70,66 -69,33 -53,76

{SF} {SY} {YF} ,47 -,47 ,55 -,55 , 1,10 , , -1,17 1,17 ,43 -,43 ,08 -,08 1,51 -1,51 ,16 -,16 -,09 ,09 ,14 -,14 -,38 ,38 1,20 -1,20 -,57 ,57 ,15 -,15 -1,26 1,26 7,42 9 ,49 85,1

103

7.3. Ejemplo de interpretacin del resultado. Como dijimos sin teora no se va a ningn lado en materia de anlisis de datos. Un criterio puede ser, como ocurre en muchas actividades, partir de los antecedentes ms inmediatos, y proceder a confirmarlos o a explorar alternativas. Por ejemplo partir de posiciones documentadas que sostengan que la felicidad no depende del nivel de riqueza ni del gnero. O de posiciones que sostengan que la felicidad est, como el ingreso, condicionada por el gnero, pero entre ingreso y felicidad no hay relacin alguna... Estas dos posiciones que corresponden a los modelos {S}{F}{Y}, y {SF}{SY} respectivamente, no slo no ajustan a los datos sino que claramente indican que contienen combinaciones de informacin que discrepan fuertemente con los valores esperados correspondientes. La sola asociacin no sostiene un modelo sino que debe permitir indicar cul ajusta (o sostiene) a los datos a partir de los valores esperados... porque, como en la regresin, estamos representando la relacin entre las variables, a partir de los datos, y es importante que los residuos no descarten la forma mas simple que propongo para indicar como estn relacionados. En el ejemplo que vemos los residuos ajustados en negrita (mayores que 2, o menores que -2) sealan asociacin, como ya sabemos. En los modelos que no ajustan a los datos, porque tienen residuos significativos, sus valores de G2 son obviamente significativos... y es cierto que hay asociacin, pero slo sabemos donde.... pero debido a qu? En los modelos que ajustan a los datos {YF}{S}, {SF}{YF}, {YS}{FY}, y {SF}{SY}{FY}) los residuos se hallan entre 2 y 2, y sus valores de G2 se aproximan a los grados de libertad, los valores p superan el 5% y en ello exhiben la aceptacin de la hiptesis nula, que es la que excluye relaciones o factores del modelo. Ello nos permite afirmar, que lo que queda en el modelo, los efectos que enunci y no exclu, constituyen una aproximacin o ajuste a la informacin que tengo en la tabla mltiple. Puedo sostener una explicacin ms sencilla de las relaciones presentes en los datos. Y puedo resumir la informacin en tablas que cancelen los efectos interactivos que no estn relacionados (esto es colapsar). En el presente ejemplo la situacin es compleja y la bondad de ajuste de la informacin amerita ms de una solucin. La mas sencilla directamente suprime el efecto del sexo con el ingreso y la felicidad, mientras estas dos variables s se relacionan de manera aceptable {FY}{S}. Pero adems estas dos variables s tienen relaciones con el sexo como vemos {FS}{FY} y {YS}{YF}, lo que no funciona claramente es el condicionamiento de ellas al sexo {YS}{FS} como si fuera esprea su relacin. El ejemplo de la interaccin homognea significa que la relacin del ingreso y la felicidad sera pareja para hombres y mujeres {YF}{YS}{FS}. Claramente el modelo terico mas radical llegara a sostener el modelo saturado como explicacin, es decir una efectiva desigualdad de felicidad y dinero por gnero {YFS}, pero claramente hay mejores opciones de ajuste a los datos.
104

Todas las opciones interpretables en el ejemplo tienen sostn en la bondad de ajuste, pero hay criterios adicionales. Como ya vimos ellos son el Indice de disimilaridad, el seudo R2, y el BIC. El seudo R2 de Goodman que estima la variabilidad de los modelos alternativos respecto de un modelo base (en este caso us el de independencia que sostendra que las proporciones poblacionales representadas en la muestra sobre la felicidad el ingreso y el sexo no tienen relacin). Es 1 menos el cociente entre el G2 del modelo alternativo y G2 del baseline; indica cuanto mejor explica el nuevo modelo que el base (como es una proporcin cuanto mas elevado mejor!). El BIC (Bayesian Information Criteria) de Raftery, es particularmente til en muestras grandes, de 2000 casos y ms, donde la convergencia de G2 en un modelo trivariado se ha visto que impide frecuentemente rechazar el modelo saturado (es lgico por ello que G2 se escape respecto de los grados de libertad). Es un criterio de penalizacin al G2, por ello su formula es G2 menos el producto de los grados de libertad y el Ln del tamao muestral. Cuanto menos y ms negativo mejor es el modelo. Las formulas ya fueron presentadas previamente! Esta vez dejamos a que Ud estime para cada tabla el Indice de Disimilaridad... G2 seala como preferible al modelo de interaccin homognea, pero hay modelos plausibles mucho mas simples con valores de G2 aceptables aunque mayores. El Seudo R2, tambin nos seala al mismo modelo de interaccin homognea; sera un 85% mejor que el baseline. El BIC, por su parte nos seala al modelo mas simple posible -el de independencia parcial- como el mejor. En este caso debe recordarse que N no es tan grande como para preferir BIC.

7.4 SECCIN REGALOS... UN TABLN CON LOS MODELOS, LOS PARMETROS, LOS gr.l, Y DEMAS DE TODOS LOS MODELOS TRIVARIADOS!!!

105

ENUNCIACION DE MODELOS LOGLINEARES TRIVARIADOS JERARQUICOS


NUMERO 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 NOMBRE SATURADO INTERACCION HOMOGENEA INDEP. CONDICIONAL INDEP. PARCIAL INDEP. MUTUA BIVAR OD, S EQUIP BIVAR OS, D EQUIP BIVAR DS O EQUIP INDEP, OyD S EQUIP INDEP O y S D EQUIP INDEP D y S O EQUIP UNIVAR O D y S EQUIP UNIVAR D O y S EQUIP UNIVAR S D y O EQUIP EQUIPROBABILIDAD NOTACION [O*D*S] [O*D,O*S,D*S] [O*D,O*S] [O*D,D*S] [O*S,D*S] [O*D,S] [O*S,D] [D*S,O] [O],[D],[S] [O*D] [O*S] [D*S] [O],[D] [O],[S] [D],[S] [O] [D] [S] FUNCION PARA LnFe=... +O+D+S+OD+OS+DS +ODS +O+D+S+OD+OS+DS +O+D+S+OD+OS +O+D+S+OD+DS +O+D+S+DS+OS +O+D+S+OD +O+D+S+OS +O+D+S+DS +O+D+S +O+D+OD +O+S+OS +S+D+DS +O+D +O+S +D+S +O +D +S Ho:........=0 ODS DS=ODS OS=ODS OD=ODS OS=DS=ODS OD=DS=ODS OD=OS=ODS OD=OS=DS=ODS S=OS=DS=ODS D=OD=DS=ODS O=OS=OD=ODS Gl. 0 (c-1)(l-1)(r-1) [c(l-1)(r-1)] [l(c-1)(r-1)] [r(l-1)(c-1)] [(r-1)(lc-1)] [(c-1)(lr-1)] [(l-1)(rc-1)] [lcr-l-c-r+2] cl(r-1) lr(c-1) cr(l-1) Nmero de parmetros Ajustados c*l*r [1+(l-1)+(c-1)+(r-1) +(l-1)(c1)+(c-1)(r-1) +(l-1)(r-1)] [1+(l-1)+(c-1)+(r-1)+ (l-1)(c1)+(c-1)(r-1)] [1+(l-1)+(c-1)+(r-1)+ (l-1)(c1)+(l-1)(r-1)] [1+(l-1)+(c-1)+(r-1)+ (c-1)(r1)+(l-1)(r-1)] [1+(l-1)+(c-1)+(r-1) +(l-1)(c1)] [1+(l-1)+(c-1)+(r-1)+ (l-1)(r1)] [1+(l-1)+(c-1)+(r-1)+ (c-1)(r1)] [1+(l-1)+(c-1)+(r-1)] [1+(l-1)+(c-1)+ (l-1)(c-1)] [1+(l-1)+(r-1)+ (l-1)(r-1)] [1+(c-1)+(r-1)+ (c-1)(r-1)] [1+(l-1)+(c-1)] [1+(l-1)+(r-1)] [1+(c-1)+(r-1)] 1+(l-1) 1+(c-1) 1+(r-1) 1

S=OD=OS=DS=ODS (c*r*l)-c-l+1 D=OD=OS=DS=ODS (c*r*l)-l-r+1 O=OD=OS=DS=ODS (c*r*l)-c-r+1 D=S=OD=OS=DS= ODS O=S=OD=OS=DS= ODS D=O=OD=OS=DS= ODS O=D=S=OD=OS= DS =ODS 106 (c*r*l)-l (c*r*l)-c (c*r*l)-r (c*r*l)-1

M.Boado 2005; FCS

Clase 8: EJEMPLOS ESPECIALES: PROFUNDIZANDO EL MODELO LOGLINEAL


El objetivo de la presente exposicin es PRESENTAR: Una forma de examinar los componentes asociativos del modelo que se propone para representar a los datos. Un anlisis de parmetros para un modelo que no ajusta a los datos muy bien.

8.1. El Anlisis de la tabla de Asociacin. Otra forma de decidir entre la significacin prctica y estadstica proviene del inventor de Loglinear Don Leo Goodman. Mas precisamente de su caja de herramientas (toolbox). Algo que es muy til, inclusive cuando G2 no se aproxima mucho a la distribucin Ji cuadrado (muestras muy grandes). Se propone usar G2 desde el modelo de independencia como medida de la asociacin total en los datos, y de este modo ver cuanta asociacin aportan ciertos efectos.

Efecto Modelos MS MW SW MSW Base Donde:


2

df 1 1 1 1 4

(M,S,W) - (MS,W) (MS,W) - (MS,MW) (MS,MW) - (MS,MW,SW) (MS,MW,SW) - (MSW) (M,S,W)

p - Porcentaje Porcentaje value acumulado 82.40 .000 69. 8% 69. 8% 30.21 .000 25. 6% 95. 4% 5.33 .021 4. 6% 100. 0% .06 .800 0. 0% 0. 0% 118.00 .000 G

G = es la diferencia entre las bondades de ajuste de los modelos indicados. df = la diferencia de grados de libertad de los modelos. la columna p -value realmente no debera estar pero refleja cuanto vale o cuesta la diferencia. Porcentaje = G / 118.00; que es le valor de G (M, S,W) en independencia mutua. Porcentaje acumulado = suma de Porcentajeactual y previos. La lgica es similar a cuando se contrastan modelos, slo que en este caso se trata de identificar cunto aporta una interaccin especfica en el conjunto del modelo asociativo.
2 2

107

Se compara el que aporta mas desde el modelo de independencia MS, W frente a M,S,W, es decir que no son independientes y MS puede aportar el 69,8% del ajuste pero esta muy lejos este modelo de dar cuenta de toda la asociacin subyacente. Ya vimos que MS es muy importante... Cmo es MW?, pues veamos cuanto aporta MW a lo que ya sabemos que hace MS. As MS, MW, se eleva un 25.6% por sobre MS, W, mostrando con ello que MW es un efecto y no puede sostenerse que W no tenga que ver con M. Llegaramos as a un modelo que ajusta 95,4% a los datos; casi podramos darnos por satisfechos... Finalmente SW, tal como esperbamos aporta poco comparado con los efectos anteriores. Claramente nunca sera preferible a los otros, ni podra sustituirles parcialmente. No obstante su aporte es sustantivo porque permite alcanzar el ajuste ptimo a los datos. Efectivamente, adicionndole obtenemos un modelo que alcanza el ajuste a los datos originales. Con ello podemos prescindir de una explicacin compleja y particular para cada combinacin o celda, por una genrica o comn para todas las celdas. Podemos incluso decir cmo se habran generado los datos a modo de una secuencia para-experimental.

Vea el procedimiento para el ejemplo que vimos la clase pasada sobre la felicidad (Ejercicio 3). Vea los comandos de General loglinear, para pedir esto a Don SPSS. Interprtelo.
TIPO MODELO EFECTO {YF} {SF} {SY} {SYF} BASE {S}{Y}{F} - {S}{YF} {S}{YF} - {SF}{YF} {SF}{YF} - {SY}{YF}{SF} {SY}{YF}{SF} - {SYF} {S}{Y}{F}

df
9 3 3 9 24

p - Porcentaje Porcentaje value acumulado


,00001 ,11 ,50 ,60 0 66,7 11,4 7,0 14,89 100 66,7 78,1 85,1 100

33,23 5,67 3,49 7,42 49,81

108

8.2. Modelo de interaccin heterognea, o qu hacer antes de desesperar con el modelo saturado! Puede ocurrir que el modelo de Interaccin homognea tenga dificultades para ajustar a los datos, y ello pasa cuando las asociaciones parciales de 2 de las variables, en lugar de ser constantes a travs de todas las categoras de la tercera variable, exhiben algn caso de variacin, precisamente en alguna categora de la tercera variable. Si no examinamos los residuos y la distribucin claramente todo parece indicarnos que no logramos salir del modelo saturado. Aunque para algunos autores hay una rule thumb (regla del pulgar), que dice que tratndose de muestras grandes (pero muy grandes), hasta el 5% del total de celdas puede estar desajustadas... Antes de desesperar es bueno ver los residuos porque este puede ser un ejemplo que se ha denominado asociacin heterognea; lo que requiere que se modele las interacciones trivariadas. El siguiente ejemplo hecho con SPSS sigue los pasos de Powers y Xie (2001), con diferencias mnimas en las estimaciones de bondad de ajuste. Se aportan las salidas de SPSS que reproducen adecuadamente la tabla 4.20 de los autores. Es el Ejercicio 4, y los datos estn al final de la seccin en esta clase. Powers y Xie aplican varios modelos, de las clases vistas y uno nuevo, para analizar los datos. En su caso slo los parmetros de interaccin del ltimo modelo no son idnticos porque SPSS toma por defecto (ATENCION !!!) el orden alfabtico de las variables que pusimos en el comando, lo cual confunde un poco, pero el resto de las estimaciones son correctas e iguales a las de los autores. El ejemplo es un clsico de la bibliografa, trata de examinar si hay discriminacin por gnero en el examen de ingreso de una Universidad de USA segn las facultades que hay. Se trata de una tabla de 2x2x6 celdas, con sexo, admisin, y tipo de facultad. La secuencia de los modelos es: Independencia mutua de las 3 vars (1), Independencia parcial (2), Independencia condicional (3) y Interaccin homognea (4) Interaccin heterognea (5), un modelo alternativo al de asociacin homognea, que Powers y Xie sealan, pero no incluyen en su libro, pero aqu a los presentes efectos didcticos s lo hicimos. El modelo de Independencia mutua 1, es claramente rechazable, no puede decirse que las variables no estn relacionadas entre s, pero en este caso es necesario como baseline o modelo de comparacin para los otros modelos. El modelo 2 de Independencia parcial permite la relacin entre sexo y tipo de facultad, con admisin independiente de ambos. En particular, para examinar la interaccin objetivo, se
109

separ el hecho de que existiera una segregacin por facultad. Este modelo mejora respecto del 1, pero igual es malo. En el modelo 3, vamos tras la interaccin del sexo y la facultad, y de la facultad y las admisiones, arribando a un modelo de Independencia condicional. El resultado es igualmente claro, no puede sostenerse que haya asociacin neta entre sexo y admisin condicionada al tipo de facultad, pese a que el modelo ajusta a los datos mejor que los anteriores al grado de poder sostener que sera mnimamente aceptable como modelo de hiptesis con independencia condicional. Y como ya vimos que las mujeres parecen tener ventajas en ciertas facultades... (muchos casos en ciertas celdas), es que el modelo 4 de Interaccin homognea tampoco ajusta a los datos. Claramente no podemos decir que haya admisiones a las facultades homogneas por sexo... As estamos en manos del modelo saturado!!! Es preciso entonces modelar mejor los datos. Buscarmos un recurso para explorar la chance entre el modelo de interaccin homognea y el modelo saturado. Para ello hay que buscar la o las celdas, que tienen excesiva representacin en los datos. Un tipo de combinacin excesivamente frecuente que desconpagina todo el esfuerzo que hacemos. Ya sabemos que de manera general el modelo saturado destaca la heterogeneidad de las tablas condicionales; pero en nuestro ejemplo veremos que no se trata de todas las tablas sino de algunos, o algn caso aislado. Y lo encontramos, las mujeres, admitidas, en la facultad A. Entonces, creo una variable dummy (variable muda o indicativa) en la base, que indica que la celda donde coincide mujer+admitido+facultad A= 0, y =1 para cualquier otro caso (el resto de la tabla). Vuelvo al comando loglinear, mantengo en el Model el modelo de interaccin homognea... e incorporo al comando cellweight la variable que cre. De esta forma testeo este modelo de interaccin heterognea, y veo que este quinto modelo exhibe un ajuste mucho mayor que los vistos al momento. As todos nuestros valores esperados son similares a los del libro!! Este modelo final significa que la Interaccin Homognea se mantiene para todas las facultades excepto para la fac A donde hay una diferencia en la admisin muy favorable a las mujeres, en contra de la discriminacin masculina que se sostena. El examen de parmetros de interaccin que hacemos muestra que las mujeres estan sub-representadas en facultades A y B, pero estn sobrerrepresentadas en el resto de las facultades. Es decir que, los resultados se deben, por un lado, hacia qu facultades van las mujeres, y por otro, al perfil de seleccin de cada facultad, pero no a que exista un plan genrico. Precisamente entran proporcionalmente ms mujeres donde menos concurren, y se mantienen en la media donde ms concurren y as superan a los hombres.

110

En definitiva lo que hice fue desechar una celda, y sacrifiqu un grado de libertad localizado, que es el que impide, por desusada sobrerrepresentacin, un modelo que ajuste a los datos. Hecha esa salvedad todo queda bien. Es el principio de los modelos de ceros estructurales, o de QI. Lo que hice fue cancelar el efecto localizado y rescatar el resto de la relacin entre las variables que me permite hacer una estimacin genrica. Esto es EJERCICIO 4 INGRESE ESTOS DATOS A SPSS TABLA ORIGINAL. Ri=Hombres L=Facultad Ci=Si Cj=No Sub Total A 512 313 825 B 353 207 560 C 120 205 325 D 138 279 417 E 53 138 191 F 22 351 373 Total 1198 1493 2691

Rj=Mujeres Ci=Si Cj=No Sub Total 89 19 108 17 8 25 202 391 593 131 244 375 94 299 393 24 317 341 557 1278 1835

Total general 933 585 918 729 584 714 4526

111

APLICACIN EN COMANDO HILOG SELECCIN FORWARD MANUAL


* * * DATA H I E R A R C H I C A L L O G L I N E A R * ** * * * *

Information 24 unweighted cases accepted. 0 cases rejected because of out-of-range factor values. 0 cases rejected because of missing data. 4526 weighted cases will be used in the analysis. FACTOR Information Factor Level Label FACU 6 SEXO 2 ADMI 2 DESIGN 1 has generating class MODELO ADMI FACU SEXO 1 DE INDEPENDENCIA RECPROCA

The Iterative Proportional Fit algorithm converged at iteration 2. The maximum difference between observed and fitted marginal totals is ,000 and the convergence criterion is ,512 Goodness-of-fit test statistics Likelihood ratio chi square = 2097,67071 DF = 16 P = ,000 * * * * * * * * * * * * * * * DESIGN 1 has generating class MODELO ADMI FACU*SEXO 2 DE INDEP PARCIAL

The Iterative Proportional Fit algorithm converged at iteration 2. The maximum difference between observed and fitted marginal totals is ,000, and the convergence criterion is ,512 Goodness-of-fit test statistics Likelihood ratio chi square = 877,05641 DF = 11 P = ,000 * * * * * * * * * * * * * * * DESIGN 1 has CONDICIONAL ADMI*FACU FACU*SEXO The Iterative Proportional Fit algorithm converged at iteration 2. The maximum difference between observed and fitted marginal totals is ,000, and the convergence criterion is ,512 Goodness-of-fit test statistics Likelihood ratio chi square = 21,73553 DF = 6 P = ,001.
112

generating

class

MODELO

DE

INDEPENDENCIA

DESIGN 1 has generating class MODELO 4 INTERACCION HOMOGNEA ADMI*FACU ADMI*SEXO FACU*SEXO The Iterative Proportional Fit algorithm converged at iteration 8. The maximum difference between observed and fitted marginal totals is ,263, and the convergence criterion is ,512. Goodness-of-fit test statistics Likelihood ratio chi square = 20,20436 DF = 5 P = ,001 * * * * * * * * * * * * * * * DESIGN 1 has generating class MODELO 5 INTERACCION HETEROGENEA ADMI*FACU ADMI*SEXO FACU*SEXO + DUMMY que para MUJERES, en FACU=1, y ADM=1....=0, y =1 en cualquier otro caso (*). The Iterative Proportional Fit algorithm converged at iteration 6. The maximum difference between observed and fitted marginal totals is ,323, and the convergence criterion is ,512 Goodness-of-fit test statistics Likelihood ratio chi square = 2,55681 DF(UNADJUSTED)= 5 P= ,768 DF(ADJUSTED)= 4 P= ,634 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

El Indice de Disimilaridad (DELTA) vale en este caso 0,78, menos del 1% a reclasificar!!; y el BICque es: L2-DF*Ln N= -39,53 !! Como vemos introducir la Dummy nos cuesta un grado de libertad (DF) (Adjusted), porque agregamos un parmetro mas slo para cancelar esa celda. Cmo se hace esto, lo vemos en la siguiente clase aplicando uma matriz de diseo, que no es mas que uma variable Dummy, o Muda, o indicativa, que se introduce en el comando Cellweight del comando Hilog o Genlog.

113

TABLAS DE DATOS ORIGINALES Y MODELO AJUSTADO (5)


Observed, Expected Frequencies and Residuals. Factor Code OBS. count FACU SEXO ADMI ADMI SEXO ADMI ADMI FACU SEXO ADMI ADMI SEXO ADMI ADMI FACU SEXO ADMI ADMI SEXO ADMI ADMI FACU SEXO ADMI ADMI SEXO ADMI ADMI 1 1 1 2 2 1 2 2 1 1 2 2 1 2 3 1 1 2 2 1 2 4 1 1 2 2 1 2 & PCT. EXP. count & PCT. Residual Std. Resid.

512,00 (11,54) 313,00 ( 7,05) ,00 ( 19,00 ( ,00) ,43)

511,90 (11,54) 313,10 ( 7,06) ,00 ( 19,00 ( ,00) ,43)

,102 -,102 ,000 ,000

,004 -,006 ,000 ,000

353,00 ( 7,96) 207,00 ( 4,67) 17,00 ( 8,00 ( ,38) ,18)

354,31 ( 7,99) 205,69 ( 4,64) 15,63 ( 9,37 ( ,35) ,21)

-1,311 1,311 1,368 -1,368

-,070 ,091 ,346 -,447

120,00 ( 2,70) 205,00 ( 4,62) 202,00 ( 4,55) 391,00 ( 8,81)

115,55 ( 2,60) 209,45 ( 4,72) 206,54 ( 4,65) 386,46 ( 8,71)

4,452 -4,452 -4,542 4,542

,414 -,308 -,316 ,231

138,00 ( 3,11) 279,00 ( 6,29) 131,00 ( 2,95) 244,00 ( 5,50)


114

143,05 ( 3,22) 273,95 ( 6,17) 125,98 ( 2,84) 249,02 ( 5,61)

-5,054 5,054 5,021 -5,021

-,423 ,305 ,447 -,318

Factor

Code

OBS. count

& PCT.

EXP. count

& PCT.

Residual

Std. Resid.

FACU SEXO ADMI ADMI SEXO ADMI ADMI

5 1 1 2 2 1 2

53,00 ( 1,19) 138,00 ( 3,11) 94,00 ( 2,12) 299,00 ( 6,74)

48,86 ( 1,10) 142,14 ( 3,20) 98,19 ( 2,21) 294,81 ( 6,64)

4,136 -4,136 -4,187 4,187

,592 -,347 -,423 ,244

FACU SEXO ADMI ADMI SEXO ADMI ADMI

6 1 1 2 2 1 2

22,00 ( ,50) 351,00 ( 7,91) 24,00 ( ,54) 317,00 ( 7,14)

24,38 ( ,55) 348,62 ( 7,86) 21,63 ( ,49) 319,37 ( 7,20)

-2,375 2,375 2,367 -2,367

-,481 ,127 ,509 -,132

115

APLICACION EN General Loglinear APLICACIN MANUAL DE MODELO 5.


ES SIEMPRE MANUAL Y DE A 1 MODELO. LO APLICAMOS PARA OBTENER LOS PARMETROS LOGLINEARES ESTIMADOS Y MOSTRAR COMO REPRODUCEN LOS DATOS!!!

Data Information 24 cases are accepted. 0 cases are rejected because of missing data. 4526 weighted cases will be used in the analysis. 24 cells are defined. 1 structural zeros are imposed by design. 0 sampling zeros are encountered. Variable Information Factor FACU Levels 6 Value 1 2 3 4 5 6 SEXO 2 1 2 ADMI 2 1 2 Model and Design Information Model: Multinomial Design: Constant + FACU*ADMI + SEXO*ADMI + FACU*SEXO Goodness-of-fit Statistics Chi-Square 2,5564 DF 4 Sig. ,6346

Likelihood Ratio

Convergence Information Maximum number of iterations: 20 Relative difference tolerance: ,001 Final relative difference: 2,01211E-05 Maximum likelihood estimation converged at iteration 3.

116

Table Information OBSERVADOS Y ESPERADOS POR HIPOTESIS.


Factor FACU SEXO ADMI ADMI SEXO ADMI ADMI FACU SEXO ADMI ADMI SEXO ADMI ADMI FACU SEXO ADMI ADMI SEXO ADMI ADMI FACU SEXO ADMI ADMI SEXO ADMI ADMI FACU SEXO ADMI ADMI SEXO ADMI ADMI Value 1 1 1 2 2 1 2 2 1 1 2 2 1 2 3 1 1 2 2 1 2 4 1 1 2 2 1 2 5 1 1 2 2 1 2 Observed Count % Expected Count %

512,00 ( 11,54) 313,00 ( 7,05) ,00 ( 19,00 ( ,00) ,43)

512,00 ( 11,54) 313,00 ( 7,05) ,00 ( 19,00 ( ,00) ,43)

353,00 ( 207,00 ( 17,00 ( 8,00 (

7,96) 4,67) ,38) ,18)

354,36 ( 205,64 ( 15,64 ( 9,36 (

7,99) 4,63) ,35) ,21)

120,00 ( 205,00 ( 202,00 ( 391,00 (

2,70) 4,62) 4,55) 8,81)

115,47 ( 209,53 ( 206,53 ( 386,47 (

2,60) 4,72) 4,65) 8,71)

138,00 ( 279,00 ( 131,00 ( 244,00 (

3,11) 6,29) 2,95) 5,50)

142,99 ( 274,01 ( 126,01 ( 248,99 (

3,22) 6,18) 2,84) 5,61)

53,00 ( 138,00 ( 94,00 ( 299,00 (

1,19) 3,11) 2,12) 6,74)

48,82 ( 142,18 ( 98,18 ( 294,82 (

1,10) 3,20) 2,21) 6,64)

FACU SEXO ADMI ADMI SEXO ADMI ADMI

6 1 1 2 2 1 2

22,00 ( 351,00 ( 24,00 ( 317,00 (

,50) 7,91) ,54) 7,14)

24,36 ( 348,64 ( 21,64 ( 319,36 (

,55) 7,86) ,49) 7,20)

117

Table Information RESIDUOS, RESIDUOS AJUSTADOS, Y DEVIANCE.


Factor FACU SEXO ADMI ADMI SEXO ADMI ADMI FACU SEXO ADMI ADMI SEXO ADMI ADMI FACU SEXO ADMI ADMI SEXO ADMI ADMI FACU SEXO ADMI ADMI SEXO ADMI ADMI FACU SEXO ADMI ADMI SEXO ADMI ADMI FACU SEXO ADMI ADMI SEXO ADMI ADMI Value 1 1 1 2 2 1 2 2 1 1 2 2 1 2 3 1 1 2 2 1 2 4 1 1 2 2 1 2 5 1 1 2 2 1 2 6 1 1 2 2 1 2 Resid. Adj. Resid. Dev. Resid.

,00 ,00 , ,00

,00 ,00 , ,00

,00 ,00 , ,00

-1,36 1,36 1,36 -1,36

-,59 ,59 ,59 -,59

-1,65 1,65 1,68 -1,58

4,53 -4,53 -4,53 4,53

,82 -,82 -,82 ,82

3,04 -2,99 -2,99 3,02

-4,99 4,99 4,99 -4,99

-,92 ,92 ,92 -,92

-3,13 3,17 3,19 -3,14

4,18 -4,18 -4,18 4,18

,94 -,94 -,94 ,94

2,95 -2,87 -2,86 2,90

-2,36 2,36 2,36 -2,36

-,75 ,75 ,75 -,75

-2,12 2,18 2,23 -2,17

118

QU SON Y QUE ME DICEN LOS PARMETROS QUE ME DA GENERAL LOGLINEAR? ESTOS SON LOS PARAMETROS DE LAS FUNCIONES QUE REPRESENTAN A CADA CELDA Y QUE VIMOS EN LA CLASE 5 y 6. CMO S CUAL CORRESPONDE A CADA CELDA?

GENERAL LOGLINEAR ANALYSIS - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Correspondence Between Parameters and Terms of the Design Parameter 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Aliased Term Constant [FACU = 1]*[ADMI [FACU = 1]*[ADMI [FACU = 2]*[ADMI [FACU = 2]*[ADMI [FACU = 3]*[ADMI [FACU = 3]*[ADMI [FACU = 4]*[ADMI [FACU = 4]*[ADMI [FACU = 5]*[ADMI [FACU = 5]*[ADMI [FACU = 6]*[ADMI [FACU = 6]*[ADMI [SEXO = 1]*[ADMI [SEXO = 1]*[ADMI [SEXO = 2]*[ADMI [SEXO = 2]*[ADMI [FACU = 1]*[SEXO [FACU = 1]*[SEXO [FACU = 2]*[SEXO [FACU = 2]*[SEXO [FACU = 3]*[SEXO [FACU = 3]*[SEXO [FACU = 4]*[SEXO [FACU = 4]*[SEXO [FACU = 5]*[SEXO [FACU = 5]*[SEXO [FACU = 6]*[SEXO [FACU = 6]*[SEXO

x x x x x x x x x

= = = = = = = = = = = = = = = = = = = = = = = = = = = =

1] 2] 1] 2] 1] 2] 1] 2] 1] 2] 1] 2] 1] 2] 1] 2] 1] 2] 1] 2] 1] 2] 1] 2] 1] 2] 1] 2]

Note: 'x' indicates an aliased (or a redundant) parameter. These parameters are set to zero.

ESTA ES LA FORMA COMO ESPECIFICA SPSS PARA ESTIMAR LOS PARAMETROS. NO SE ASUSTE SI ENCUENTRA LIBROS CON OTRA FORMA... ES EQUIVALENTE. ALIASED QUIERE DECIR QUE LO TOMA COMO BASE DE COMPARACIN, RECUERDE LAS RESTRICCIONES PARA EL CALCULO DE PARAMETROS DE LOGLINEAR CLASES 5 y 6.

119

ESTOS SON LOS PARAMETROS ESTIMADOS DEL MODELO QUE AJUSTA MEJOR A LOS DATOS!! Parmetros que resultan significativos (Z >= 2, o, Z=< -2) estn en fondo sombreado (Amarillo en Word). Los Aliased van en blanco.
Constant 1 Estimate 5,7663

Note: Constant is not a parameter under multinomial assumption. Therefore, standard errors are not calculated. Asymptotic 95% CI Lower Upper -2,87 -3,28 -3,43 -3,96 -,60 ,05 -1,12 -,41 -1,39 -,23 -3,00 , -,10 -,06 , , 2,23 , 2,56 , -,91 , -,20 , -1,05 , , , -1,85 -2,36 -2,60 -3,10 -,27 ,33 -,74 -,09 -,97 ,07 -2,38 , ,33 ,23 , , 3,20 , 3,44 , -,49 , ,22 , -,59 , , ,

Parameter 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

Estimate -2,3605 -2,8219 -3,0164 -3,5299 -,4359 ,1907 -,9300 -,2489 -1,1795 -,0799 -2,6918 ,0000 ,1184 ,0877 ,0000 ,0000 2,7140 ,0000 3,0020 ,0000 -,6999 ,0000 ,0080 ,0000 -,8170 ,0000 ,0000 ,0000

SE ,2624 ,2359 ,2126 ,2198 ,0853 ,0732 ,0964 ,0805 ,1062 ,0785 ,1592 , ,1105 ,0751 , , ,2479 , ,2231 , ,1049 , ,1061 , ,1169 , , ,

Z-value -9,00 -11,96 -14,19 -16,06 -5,11 2,61 -9,65 -3,09 -11,10 -1,02 -16,91 , 1,07 1,17 , , 10,95 , 13,46 , -6,67 , ,08 , -6,99 , , ,

Ejemplo para fac=2, Sex=1, Adm=2 (parmetros en negrita y subrayados)! SON LOS PARMETROS: CTE, 5,15 y 20. 5,7663 + 3,0020 + 0,0877 3,5299 = 5,3261, que es un LN entonces = 205,64! Bsquelo en la tabla de hace 3 pp Ajusta bien con leve sobre-representacin de hombres no admitidos en esa facu2.
120

CLASE 9: LOS OTROS MODELOS: 9.1. Tablas Cuadradas

Las Tablas cuadradas tienen


o o

2 dimensiones y el mismo nmero de categoras en cada dimensin.

Las tablas cuadradas son usadas cuando se quiere:


o

Medir el mismo atributo en diferentes momentos (voto en elecciones sucesivas; actividades de las personas antes y despus de un evento crucial, etc). Comparar las opiniones de 2 jueces, o grupos de tasadores, (o de candidatos?) Comparar el mismo concepto (clase social) a travs de observaciones relacionadas (Tablas de movilidad que relacionan la clase de los padres (origen social) con la clase de los entrevistados (destino). Pero aplica tambin a las migraciones o a la movilidad urbana.

Ser cuadrada supone en este tipo de tabla una estructura especial que permite aprovechar algunos modelos especiales que precisamente apuntan a tratar con las siguientes situaciones: Generalmente la diagonal est muy sobrepoblada porque:
o o o o

Los jueces, o grupos de tasadores, concuerdan en los fallos... El entrevistado vot lo mismo... o hace las mismas cosas que antes del infarto... o tiene la misma clase social que su padre.
121

Algunas veces la distribucin marginal de las 2 variables observadas es casi la misma: y surge la homogeneidad marginal, por ejemplo cuando no hay movilidad social estructural, o cuando dos tasadores tratan de dar las proporciones correctas a cada evento... Algunas veces hay simetra porque los movimientos desde Ai hacia Bj

son tan probables como los movimientos desde Aj hacia Bi y la tabla es simtrica en torno a la diagonal principal.

Todos estos ejemplos dan lugar a modelos algo diferentes a los que vimos hasta el momento. Que sirven para dar cuenta distribuciones simtricas o casi simtricas, cuando son tantos los que van hacia como los que vienen desde. O cuando opinan candidatos, jueces, tasadores. O en el ejemplo de distribuciones que ponen de manifiesto el predomino, o la ausencia, de ciertos atributos en reas de la estructura social.

122

PERO OCURRE QUE AJUSTANDO MODELOS A TABLAS CUADRADAS....

Si las tablas cuadradas tienen slo 2 variables...como ya vimos, entonces solamente los siguientes modelos pueden ser ajustados (!!):
LnFeij= N+ F+ C+FC
o

Promedio gral:

LnFeij= N LnFeij= N + F

Equiprobabilidad en 1 variable: o en

LnFeij= N + C

Independencia: LnFeij=

N+ F+ C

Asociacin:

LnFeij= N+ F+ C+FC

El modelo de asociacin es el modelo SATURADO, y generalmente el modelo de independencia se ha visto tiene usualmente poco ajuste en tablas cuadradas: necesitamos modelar un formato reducido de la asociacin.

123

9.2. MODELOS DE CUASI-INDEPENDENCIA.


9.2.1. GENERAL. Los Modelos de Cuasi-Independencia fueron propuestos para estimar el ajuste de modelos loglineares a datos que estn incompletos, o que es ilgico suponer que se encuentran combinados de manera plena, o para cancelar combinaciones de categoras en celdas de manera hipottica y examinar los efectos. Si bien se trata de modelos especiales y suelen exponerse al final de los cursos, mas all de las complejidades del clculo de sus parmetros, es fcil percibir que su viabilidad, como siempre, se basa en la descomposicin de la bondad de ajuste inicial del modelo. Si bien se suele nombrar 3 propsitos como vimos arriba, las consecuencias para el clculo son las mismas en cualquier caso: cada cancelacin de celda cuesta 1 grado de libertad. a. Cuando se trata de celdas cuya combinacin es imposible desde el punto de vista emprico, estamos ante una combinacin que es cero estructural, est en el marco de combinaciones... pero no puede ocurrir! Mejor sacarla de la estimacin de la bondad de ajuste del modelo que buscamos... Es el caso propio de los 5 tipos de actividades que desempeaban y desempean pacientes de mutualistas que han sufrido un infarto. En un extremo de las combinaciones habr sujetos que slo desempean una, pero no todas las actividades como antes del infarto, y en el otro extremo sujetos que desempean todas las actividades como antes del infarto. Es inconveniente estimar parmetros en toda la tabla as como aplicar la bondad de ajuste a toda la tabla cuando casi la mitad de ella est vaca, porque hay eventos que no ocurrirn. b. Cuando por el tamao muestral tengo celdas vacas ello me puede afectar la bondad de ajuste...si esas categoras representan una fraccin de muestreo pequea y no relevante para mi estudio, mejor declararlas cero muestrales... calcular, y fundamentar la opcin terica . (Ojo puede haber otras soluciones como se dijo en clase 6! La decisin es del investigador). c. Los estudios de movilidad aportaron el inicio del tratamiento del tema a partir de un trabajo de Goodman, donde propuso estudiar cunto de la movilidad social observable podra aproximarse a la independencia estadstica, si sta fuera el modelo de movilidad perfecta. Para ello propuso excluir de la bondad de ajuste a los herederos. Este modelo ha sido conocido como cuasi o casi independencia, porque significa independencia en cualquier parte excepto en la diagonal. Siguiendo su ejemplo otros propusieron excluir a los mviles de corta distancia de la cumbre y la base de la sociedad (Hout), y otros a herederos y mviles de corta distancia (Hauser).
124

Precisamente por ser una de las temticas ms complejas y preocupadas por el asunto es que se escoge este tema para la ilustracin. Pero es bien claro que es particularmente til para ejemplos de anlisis de la estabilidad de cualquier tipo de consumo, o del comportamiento poltico, o de la estabilidad o cambio de los valores de la cultura (20). El caso mas simple tal como lo propuso Goodman originalmente se llamaba modelo mover-stayer; porque en la tabla hay 2 tipos de casos: los que se mueven, para quienes hay independencia (todos los destinos seran igualmente probables) y los que permanecen. Advirtase que igualmente algunos mviles quizs terminen en el mismo lugar por azar, por lo que la diagonal incluir mviles y permanentes. Pero fuera de la diagonal solo habra mviles, y por ende independencia. Entonces para Goodman haba 2 tipos de personas, los que tenan probabilidad mayor que 0 de moverse, y los que no se movan. Cancelando la diagonal se excluye a los inmviles, y se puede probar la independencia de los mviles.

Ln Feij= 0+iF+jC+ ij

ij = 1, i=j

= 0, ij

Con gr de libertad igual a (I-1)(J-1)-I

La nica condicin que suele observarse es que se cumpla el principio de identidad, que permite sostener que la escala de clasificacin es la misma para cada aplicacin independientemente que se trate de antes o despus de la eleccin, de un ao u otro de productos de consumo, de ocupaciones de padres o de hijos.

20

125

9.2.2. Cmo la hago? Todas estas situaciones implican la elaboracin de una variable dummy o indicativa, que con los valores 0 seala las celdas o combinaciones a cancelar, y con los valores 1 las que se mantienen. Y se salva en la base. Se puede hacer manual cuando tenemos conteos; y, por el comando Compute o por el If de SPSS cuando tenemos una base de individuos. Y cuando necesito aplicarla la introduzco en la ventana que dice cell weight, en cualquiera de los menes de loglinear. Recuerde que... Cancelar la diagonal equivale a ajustar exactamente los valores esperados a los observados. Pero como ya dijimos Cancelar, o blank-out, o Weight out, las celdas reduce los grados de libertad porque excluimos datos. La deviance es la misma porque cuando las celdas son canceladas tienen residuo 0. Este procedimiento es til para comparar pares de modelos (por ejemplo, cancelar equivale a incluir parmetros, por lo cual equivale a tratar modelos anidados).

126

EJERCICIO 5: Volvamos al ejemplo de la movilidad, Ingrese datos Boado 2003 Tras los pasos de Labbens y Solari (El Uruguay desde la Sociologa Vol. II). General Loglinear
Data Information 72 cases are accepted. 0 cases are rejected because of missing data. 2318 weighted cases will be used in the analysis. 72 cells are defined. 0 structural zeros are imposed by design. 0 sampling zeros are encountered. Variable Information Factor Levels Value ORIG 6 origen_s_yo 1 2 3 4 5 6 ACTUAL 6 1 2 3 4 5 6 YEAR 2 0 1 HOMOGENEIDAD TEMPORAL Model: Multinomial Design: Constant + ORIG*ACTUAL + ACTUAL*YEAR + ORIG*YEAR Goodness-of-fit Statistics Chi-Square DF Sig. Likelihood Ratio 30,0229 25 ,2234 year actual

General Loglinear
HOMOGENEIDAD TEMPORAL CON GOODMAN Data Information 72 cells are defined. 12 structural zeros are imposed by design. Model: Multinomial Design: Constant + ORIG*ACTUAL + ACTUAL*YEAR + ORIG*YEAR Goodness-of-fit Statistics Chi-Square Likelihood Ratio 26,8059
127

DF 19

Sig. ,1093

General Loglinear
HOMOGENEIDAD TEMPORAL CON HOUT Data Information 72 cells are defined. 20 structural zeros are imposed by design. Model: Multinomial Design: Constant + ORIG*ACTUAL + ACTUAL*YEAR + ORIG*YEAR Goodness-of-fit Statistics Chi-Square Likelihood Ratio 13,3340

DF 15

Sig. ,5765

General Loglinear
HOMOGENEIDAD TEMPORAL CON HAUSER Data Information 32 structural zeros are imposed by design. Model: Multinomial Design: Constant + ORIG*ACTUAL + ACTUAL*YEAR + ORIG*YEAR Goodness-of-fit Statistics Chi-Square DF Sig. Likelihood Ratio 9,6900 9 ,3762

General Loglinear
HOMOGENEIDAD TEMPORAL SOLO ASC+HERENCIA 72 cells are defined. 30 structural zeros are imposed by design. Model: Multinomial Design: Constant + ORIG*ACTUAL + ACTUAL*YEAR + ORIG*YEAR Goodness-of-fit Statistics Chi-Square Likelihood Ratio 8,8795

DF 10

Sig. ,5436

General Loglinear
HOMOGENEIDAD TEMPORAL SOLO DESC+HERENCIA 72 cells are defined. 30 structural zeros are imposed by design. Design: Constant + ORIG*ACTUAL + ACTUAL*YEAR + ORIG*YEAR Goodness-of-fit Statistics Chi-Square Likelihood Ratio 12,2921

DF 10

Sig. ,2660

128

RESUMEN DE MODELOS AJUSTADOS. No. MODELO CONCEPTO 1 CNSF Estabil. Temp.de OyD 2 QI_GOODMAN Estab. Temp. de OyD moviles 3 QI_HOUT Estab. Temp. de OyD moviles+esq. 4 QI_HAUSER Estab. Temp. OyD mov lga distancia 5 QI_HER+ASC Estab. Temp. OyD her+Asc 6 QI_HER+DESC Estab. Temp. OyD her+Desc 7 1-2 Solo herencia 8 1-3 Solo herencia+ esqu 9 1-4 Solo herencia+cta distancia 10 1-5 Solo desc 11 1-6 Solo asc 12 2-3 Solo esquinas 13 2-4 Solo cta distancia G 30 26,8 13,33 9,69 8,87 12,29 3,2 16,7 20,3 21,2 17,7 13,5 17 DF 25 19 15 9 10 10 6 10 16 15 15 4 10 P ,223 ,103 ,57 ,37 ,54 ,26 >,10 >,05 >,10 >,10 >,10 ,01 >,10

129

9.2.3. MATRICES DE DISEO Son los diseos de cancelacin de celdas que busco en el ajuste de los datos. Es bueno tenerlo claro porque as tambin veo cuantos grados de libertad cancelo. Cada vez que cancelo meto un parmetro para poder estimar, en este caso aplican siempre que establezco que i=j. Reglas 1. Es mejor entrarlas en forma de arbolito en una base de conteos, pero mismo asi se puede hacer por comando If Compute cuando tengo una base de datos de persona por renglon. 2. Atencin nunca cerar una categora (v.gr. toda la fila, o toda la columna) porque se anula la estimacin de Don Algoritmo, se le acabarian los MLE! (ver clase 1 y 3!!) GOODMAN ORIGEN SOCIAL 1 2 3 4 5 6 HOUT ORIGEN SOCIAL 1 2 3 4 5 6 HAUSER ORIGEN SOCIAL 1 2 3 4 5 6 DESTINO 3 4 1 1 1 1 0 1 1 0 1 1 1 1 DESTINO 3 4 1 1 1 1 0 1 1 0 1 1 1 1

1 0 1 1 1 1 1

2 1 0 1 1 1 1

5 1 1 1 1 0 1

6 1 1 1 1 1 0

1 0 0 1 1 1 1

2 0 0 1 1 1 1

5 1 1 1 1 0 0

6 1 1 1 1 0 0

1 0 0 1 1 1 1

2 0 0 0 1 1 1

DESTINO 3 4 1 1 0 1 0 0 0 0 1 0 1 1
130

5 1 1 1 0 0 0

6 1 1 1 1 0 0

HERENCIA+ASC ORIGEN SOCIAL 1 2 3 4 5 6

1 1 1 1 1 1 1

2 0 1 1 1 1 1

DESTINO 3 4 0 0 0 0 1 0 1 1 1 1 1 1

5 0 0 0 0 1 1

6 0 0 0 0 0 1

HERENCIA + DESCEND ORIGEN SOCIAL 1 1 1 0 2 0 3 0 4 0 5 0 6 Ejemplo de a) en clase 9 ANTES DEL INFARTO..... HACIA A HACIA B HACIA C HACIA D HACIA E HACIA F HACE A 1 1 1 1 1 1

2 1 1 0 0 0 0

DESTINO 3 4 1 1 1 1 1 1 0 1 0 0 0 0

5 1 1 1 1 1 0

6 1 1 1 1 1 1

DESPUS DEL INFARTO ... HACE HACE HACE HACE HACE B C D E F 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 1 1 1 0 0 1 1 1 1 0 1 1 1 1 1

131

9.2.4. FORMAS DESEABLES DE LA QUASI INDEPENDENCIA. A continuacin veremos dos tipos de situaciones de inters para la investigacin sobre la cuasi-independencia: sin y con restriciones. 9.2.4.1. QI SIN RESTRICCIONES Este ejemplo nos permite 2 cosas. Primero nos permite sostener que los efectos de los orgenes sociales no son similares en la afectacin de los destinos d elos entrevistados. Lo cual parece plausible. Y lo segundo, nos permite saber los valores de los parmetros que indican las celdas canceladas. Puedo aplicar esta alternativa a los ejemplos de Goodman y Hout (Esq Queb). Usando slo el ejemplo de Goodman tengo que crear tantas variables como parmetros cre en la diagonal principal (en este caso eran 6).
ORIGEN SOCIAL 1 2 3 4 5 6 1 1 0 0 0 0 0 2 0 2 0 0 0 0 DESTINO 3 4 0 0 0 0 3 0 0 4 0 0 0 0 5 0 0 0 0 5 0 6 0 0 0 0 0 6

As, con valor 1 para la celda de inters, y 0 para todas las restantes. Ejemplo de una de las variables, hay que hacer tantas como celdas en la diagonal.
ORIGEN SOCIAL 1 2 3 4 5 6 1 1 0 0 0 0 0 2 0 0 0 0 0 0 DESTINO 3 4 0 0 0 0 0 0 0 0 0 0 0 0 5 0 0 0 0 0 0 6 0 0 0 0 0 0

Las 6 variables dummies van como covariables, y en el modelo entran como los efectos principales. En este caso no puedo usar el comando cellweight y su dummy. Los grados de libertad sern (I-1)(J-1)-I, dado que I=J en este caso e indica el nmero de variables que agregu. Este modelo se enuncia muchas veces como QI-S
132

As tendr un modelo:

Ln Feij= 0+iF+jC+ ij
Con ij= Suma de todas las dummies introducidas.

Este modelo me muestra lo que cellweight no me deja ver: cules seran los parmetros del modelo para las celdas a las que les forc, les impuse, la frecuencia esperada. 9.2.4.2. QI CON RESTRICCION. Otra forma alternativa para la QI es imponer una restriccin, por ejemplo que todos los parmetros de la diaginal sean iguales. En otras palabras que reflejen la misma asociacin de todos los orgenes en su reproduccin para todos los destinos. Algo difcil. Se enuncia de manera parecida

Ln Feij= 0+iF+jC+ ij
Con ij =1 cuando i=j, y 0 en cualquier otro caso.

Con gr de libertad igual a (I-1)(J-1)-I


ORIGEN SOCIAL 1 2 3 4 5 6 DESTINO 3 4 0 0 0 0 1 0 0 1 0 0 0 0

1 1 0 0 0 0 0

2 0 1 0 0 0 0

5 0 0 0 0 1 0

6 0 0 0 0 0 1

Este modelo suele enunciarse como QI-C

133

CLASE 10: LOS OTROS MODELOS II. Suele ocurrir que muchas veces, como con cuasi independencia, sea necesario precisar las
hiptesis a medir, dado que es necesario incorporar argumentos sobre la distribucin que se espera. Estos modelos a nivel bivariado tambin se encuentran entre la asociacin y la independencia y suelen ser llamados modelos de asociacin. Los trataremos dentro de la gira loglinear, aunque algunos de ellos estrictamente pueden no serlo. 10.1. SIMETRA y CUASI SIMETRIA (Con permiso de Brendan Halpin, 2003). 10.1.1. SIMETRA.

Simetra implica que pij = las celdas ij y ji son idnticas

pji , que las probabilidades conjuntas de

En espaol... que la chance de cambiar de la categora i a la categora j es la misma que de cambiar de la categora j a la categora i. Una forma de ajustar este modelo es crear una variable con diferente valor para cada celda en cada mitad de la tabla de manera de generar un espejo entre cada mitad: o sea para cada par de celdas nij, nji hay un valor identificatorio de la nueva variable.

Y como para la diagonal hay una celda para cada pii generalmente se la cancela.
Qu nos dice este modelo sobre los datos? Este modelo tiene una similitud con el modelo mover-stayer porque excluye la diagonal totalmente. Las celdas de la diagonal sern canceladas y no importar que valor tengan.

En su forma loglinear se enuncia:

Ln Fij = Ln Fji= 0 + i +j + ij Para todo ij = ji


y con gr.l : I (I-1) / 2 Advierta que como los parmetros son simtricos por hiptesis no tienen identificacin de filas y columnas...

134

Este es un modelo raro. Si consideramos el trmino de simetra como una interaccion bivariada, es siempre ajustar el trmino de interaccion sin sus trminos de primer orden, lo cual tiene consecuencias para los totales fila y columna porque deben coincidir. Las categorias Fila i y columna i tendran el mismo total, entonces habr homogeneidad marginal!!! Iguales marginales. Algo raro en serio. Es un modelo de aplicabilidad restringida a casos de evaluacin de jueces o tasadores y a variantes sicolgicas. As algunos autores optan por resumirlo de la siguiente forma:

Ln Fij = Ln Fji= 0 + ij
Con ij= Suma de todas las dummies introducidas. Primero debo construir tantas dummies como pares de celdas simtricas tenga. Con un dibujo de la tabla a mi lado para no equivocarme, dando as el valor correspondiente para cada celda, creo un comando if para cada variable diseo, tendr tantas variables dummies como pares haya contado. Estas sern las variables de simetra. Las mismas ponderan cada par de celdas, dando el peso ij, por eso la Ln Fe es la media ms este efecto!! Este modelo suele enunciarse como S. Recuerde lleva las variables de simetra, el bloqueo de la diagonal, y suprime los efectos fila y columna. COMO LO HAGO? Ms adelante se pone el ejemplo en el ejercicio 6.

135

10.1.2. QUASI-SIMETRA. Cuando no es posible sostener la homogeneidad marginal, tampoco es posible sostener la verdadera simetra. Cuando una categora crece generalmente no es posible para los flujos de salida de la categora igualar a los de entrada. O sea van ms de reaccionarios a progresistas que de progresistas a reaccionarios. Hay modelos para probar directamente la hiptesis que sostiene la homogeneidad marginal pero no son loglineares. Y requieren un enfoque diferente para el ajuste (GLZM: Modelos Lineares Generalizados), que no se expondr aqu. Entonces, cuando no es posible sostener la homogeneidad marginal el modelo de simetra no ajustar los datos, y debemos preferir un modelo de cuasi simetra. Este modelo permite sostener que habra tanta simetra como sea posible dado el cambio en los marginales de la tabla. De manera genrica el modelo se especifica como:

Ln Fij = Ln Fji= 0 + iF +jC con ijFC = jiCF y con gr.l : (I-1) (I-2) / 2
En SPSS para ajustar este modelo simplemente hay que incorporar las vars fila y columna al ex - modelo de simetra:

Ln Feij= 0+iF+jC+ ij
Con ij= Suma de todas las dummies introducidas. Este modelo puede ser interpretado como el modelo de independencia que sostendra que el alejamiento de la independencia es simtrico. Vea que tienen efectos principales (columna y fila) y las dummies. Por ejemplo, luego de tomar en cuenta la cada de reaccionario y el aumento de progresista, y el Saldo neto de reaccionario a progresista creciente desde que:

Fcons,lab > Flab,cons


Habria igualdad en los (logs) de flujos de reaccionario a progre y de progre a reaccionario. Cmo lo Hago?? Vea el ejercicio 6!!

136

10.2. MODELOS DE DISTANCIAS y TOPOLGICOS.

Existen otros modelos de inters ms flexibles que los modelos de simetra y cuasi simetra. Son los modelos topolgicos, los cuales permiten de diferentes maneras modelar los resultados que nuestra teora esperara... Si bien los anteriores (Simetra y QuasiSimetra) pueden reconocerse como una variante de los modelos topolgicos, estos ltimos tienen el honor de permitir matizar les Feij de la tabla de acuerdo a nuestras teoras. Podemos sostener cules combinaciones pueden ser ms frecuentes y qu rigideces pueden esperarse en la distribucin en una tabla... (Modelo Hauser, y Core Model). Otro modelo de inters es el modelo de distancias, que puede ser aplicado cuando nos parece, o podemos hipotetizar, que debe haber un orden entre las categoras de manera que los movimientos entre categoras adyacentes son ms factibles que a travs de varias categoras. Modelo Crossings Para usar estos modelos es necesario nuevamente recurrir a variables diseo, variables intermedia que son un paso previo al ajuste del modelo. Y en funcin de ellas crear las dummies necesarias.

137

10.2.1. Modelo Topolgico de Hauser Este modelo se parece a los anteriores pero no tiene restricciones sobre los marginales. Y si bien comparte orientaciones de los movimientos, no hay simetras, porque las categoras no tienen porqu ser simtricas, por ejemplo en la movilidad es ms fcil subir que bajar, o en la poltica es ms difcil votar a la izquierda que a la derecha. El siguiente ejemplo es una tabla que hipotetiza que podemos esperar en los valores ms bajos ms rigidez y ms herencia, y los otros un gradiente de lo opuesto. Es decir que introducimos aqu valores como indicadores de ms rigidez, o ms fluidez.

ORIGEN SOCIAL 1 2 3 4 5

1
2 4 5 5 5

2
3 4 5 5 5

DESTINO 3
5 5 5 5 5

4
5 5 5 4 4

5
5 5 5 4 1

A partir de este diseo creo 5 dummies que con 1 o 0 me indican el concepto de cada situacin. Ej.: T1: 1=1 y otro caso=0; T2: 2=1 y otro caso=0. y etctera. Este modelo se especifica as:

Ln Feij= 0+iF+jC+ ij
Con ij= Suma de todas las dummies introducidas menos 1, que ser la base de comparacin de las distancias. Usar (I-1)(J-1)-(I-1) gr l.

138

10.2.2. MODELO CROSSINGS. Otro modelo muy apreciado, combina elementos de los de simetra y de los topolgicos. Es el modelo CROSSINGS o de distancias. No tiene una expresin sencilla porque su fin es indicar que hay intercambios entre las celdas que son ms difciles que otros. En otras palabras hay dificultades para cambiar entre ciertas clases, o entre ciertos partidos. Es una elaboracin interesante de los intercambios, que puede complejizarse mucho. Aqu expondremos una versin sencilla. El modelo propone que

Ln Fij = Ln Fji= 0 + iF +jC+vijFC


Con diferentes valores de vij
FC

segn se trate de casos en que i<j, i>j o i=j.

Los grados de libertad son diferentes segn se use o no la cancelacin de la diagonal principal. Y como ya vimos hay dos propuestas para ello con restriccin o sin ella. Sin cancelar la diagonal principal son gr.l: (I-1)(J-1) - (I-1); Cancelando la diagonal principal son gr.l: (I-1)(J-1) - (I+2). La diferencia subyace a las restricciones para identificar los parmetros

139

Este modelo conforma la siguiente hiptesis sobre las distancias que se pueden recorrer en la movilidad. E implica nuevamente la elaboracin de matrices de diseo para variables dummies.

ORIGEN SOCIAL 1 2 3 4 5

DESTINO 3

1 v1 v1v2 v1v2v3 v1v2v3v4

v1 2 v2 v2v3 v2v3v4

v1v2 v2 3 v3 v3v4

v1v2v3 v2v3 v3 4 v4

v1v2v3v4 v2v3v4 v3v4 v4 5

No es sencilla la elaboracin y se parece el procedimiento al Core Model de Goldthorpe. Entran todas las dummies creadas en el modelo! En este caso las matrices de diseo seran las siguientes. ORIGEN SOCIAL 1 2 3 4 5 ORIGEN SOCIAL 1 2 3 4 5 DESTINO 3 1 0 0 0 0 DESTINO 3 1 1 0 0 0
140

1 0 1 1 1 1 1 0 0 1 1 1

2 1 0 0 0 0 2 0 0 1 1 1

4 1 0 0 0 0 4 1 1 0 0 0

5 1 0 0 0 0 5 1 1 0 0 0

ORIGEN SOCIAL 1 2 3 4 5 ORIGEN SOCIAL 1 2 3 4 5

1 0 0 0 1 1

2 0 0 0 1 1

DESTINO 3 0 0 0 1 1 DESTINO 3 0 0 0 0 1

4 1 1 1 0 0

5 1 1 1 0 0

1 0 0 0 0 1

2 0 0 0 0 1

4 0 0 0 0 1

5 1 1 1 1 0

141

10.3 MODELOS CON VARIABLES ORDINALES.


Si las variables fila o columna tienen las categoras ordenadas (grupos de ingreso, o edad, o escalas Likert, etc) entonces debe usarse cdigos de categoras para lograr modelos ms parsimoniosos. En este caso el orden es conocido, cuando el orden de la informacin es desconocido hay otros modelos que se detallan mas adelante. 10.3.1. Modelo de Asociacin Lnea por Lnea. Este modelo asume que las variables fila y columna son ordinales. Entonces ser el coeficiente de regresin estimado del producto de los cdigos de las categoras de las variables fila y columna. Estos cdigos que se vuelven scores, no tienen por qu ser similares, ni tienen por qu ser la misma secuencia de scores. Slo deben estar ordenados.

Ln Feij= 0+iF+jC+ xiyj


Con ij= Producto de la variable fila por la variable columna

Sus gr. l son: (I-1) (J-1) 1 porque uso un solo parmetro adicional.
Entonces como paso previo a aplicar el modelo en SPSS: Transform, Compute y haga : B = var fila*var columna; luego ir a Analyze, Loglinear, General, ingrese var fila y var columna como Factores, pero ingrese B como Covariate; clickee Model, Custom, y especifique un modelo de efectos principales con las 3 variables as: var fila + var columna+ . El estimado del coeficiente de regresin de se muestra entre los parmetros estimados del modelo. Si la bondad de ajuste no es significativa entonces el resultado de ajuste a los datos del modelo se debe a haber incorporado al modelo de independencia el efecto interactivoB de asociacin por lneas.

Cuando no hay mayores restricciones se le llama a este modelo como Modelo de Asociacin Uniforme. Se pueden introducir scores como una sucecin de nmeros naturales enteros, o sea la distancia entre categoras adyacentes es uniforme para ambas variables, y su forma es:

Ln Fij = Ln Fji= 0 + iF +jC+ij


142

10.3.2. Modelos de efecto fila o columna. Es cuando se asume que slo la varfila (o slo la varcolumna) es ordinal. Se les llama efecto fila, o columna, porque incorporan al modelo de independencia el efecto interactivo de la variable fila que no es ordinal con la variable columna que es ordinal; o viceversa. En este caso se asume que la var ordinal que se agregar est correctamente ordenada. Esta interaccin es tratada como una variable continua en lugar de una interaccin de variables nominales. Para lo cual se crea la var C, que es una copia de la var ordinal columna, en el comando Compute. Compute C=var columna.

Ln Feij= 0+iF+jC+ ij
Con ij= Producto de la variable fila por la variable columna ordinal

Y sus grados de libertad son: (I-1)(J-2)


En SPSS, Analyze, Loglinear, General, e ingrese a var fila y var columna en los Factores, y a C en los covariables; clickee Model, Custom, y especifique 1modelo con efectos principales var fila y var columna e incorpore la interaccin entre var fila (nominal) y C . En consecuencia, en un modelo de efecto fila el Design es: Constant + variable fila + variable columna + variable fila*C. Los parmetros estimados del modelo mostrarn los efectos principales y la interaccin. Si la var fila fuera ordinal y la columna nominal el procedimiento es idntico.

143

10.3.3. Modelos de Goodman o RC models.


Bsicamente son 2 el RC I y el RC II y fcilmente se advierte que resultan de la conjuncin de los modelos de la seccin anterior. En estos casos se asume que las dos variables exhiben ordinalidad o jerarqua, pero las diferencias que los distinguen subyacen a cmo concebimos esa ordinalidad. Como punto de partida tenemos scores adscriptos a las categoras, pero los mismos son una dimensin latente que al momento del anlisis es intuida aunque desconocida. A diferencia de los modelos lnea por lnea y asociacin homognea los puntajes entre las categoras aqu son de momento desconocidos.

RC I
Este modelo especifica el trmino de interaccin como la suma de los scores latentes que podemos imputar a las categoras, cualquiera que estos sean, por ejemplo una secuencia de nmeros enteros positivos.

Ln Feij= 0+iF+jC + ij+ji


Con ij= score de la variable fila ordinal*var columna Con ji= score de la variable columna ordinal*var fila

Y sus grados de libertad son: (I-2)(J-2)


En comado compute haga copias de las var fila y columna, pongales nuevo nombre a c.u., y slvelas como vars ordinales o intervales En SPSS, Analyze, Loglinear, General, e ingrese a var fila y var columna en los Factores, y a las vars creadas en las covariables; clickee Model, Custom, y especifique 1 modelo con: efectos principales var fila y var columna, e incorpore como 2 sumandos en lugar del trmino de la interaccin a c.u. de los productos de las vars score con los efectos principales. En consecuencia, en un modelo de efecto fila el Design es: Constant + var fila + var columna + score fila* var columna +score columna* var fila.

144

RC II
Este modelo especifica el trmino de interaccin como el producto de los scores latentes que podemos imputar a las categoras, cualquiera que estos sean, por ejemplo una secuencia de nmeros que no tienen que ser ni enteros ni positivos.

Ln Feij= 0+iF+jC + ij ji
Con ij= score de la variable fila ordinal Con ji= score de la variable columna ordinal

Y sus grados de libertad tambin son: (I-2)(J-2).


En consecuencia, en un modelo de efecto fila el Design es: Constant + variable fila + variable columna + score fila *score columna. En este caso suele complejizarse la solucin porque en el fondo se presume que se busca un orden subyacente a las categoras que puede no ser en el que estn presentados los datos. Es decir puede emerger otro orden para las categoras producto de la estimacin de la escala latente. Por ello algunas veces se expresa as.

Ln Feij= 0+iF+jC + m im jm
Con im= score de la variable fila ordinal Con jm= score de la variable columna ordinal Con m= coeficiente de momento desconocido, que mide la fuerza de la relacin para mesima dimensin. El modelo RCII, y su generalizacin el RC(m) no tienen solucin en el SPSS, para estimarlos debe recurrirse a Lem o a el mdulo de modelos multiplicativos unidiff de STATA.

145

CLASE 11: LOS OTROS MODELOS III (ReLoaded!!).


Vimos en la clase pasada el desarrollo de modelos bivariados anidados pero no jerrquicos, a continuacin vamos a desarrollar modelos trivariados que combinan la jerarqua y el anidamiento. Se han generado a partir de un caso muy concreto como la movilidad social, pero aportan para numerosas aplicaciones. Y nuevamente constituyen un ejercicio de trabajo terico.

11. 1. La movilidad social como partida: Core Model y Unidiff. Los desarrollos tericos de Goldthorpe sobre movilidad han impulsado el surgimiento de numerosos modelos loglineares que hemos visto. La fluidez constante es una hiptesis o modelo que sostiene que las diferencias de herencia y movilidad social entre las generaciones de los ocupados de UK eran constantes. Habra un patrn asociativo similar en todas las tablas de Origen y Destino que pueden formarse, agrupando la estructura de edades de la muestra en categoras a manera de generaciones. Tcnicamente la fluidez constante, es decir, los coeficientes de asociacin (los odds ratios o razones de momios), son similares, o estables, entre las generaciones. Pero ocurre que este modelo no ajusta a los datos muchas veces porque existen diferencias, entre las generaciones, o complejidades inobservables en los datos. En particular la hiptesis de la fluidez constante presenta dificultades para ajustar a los datos cuando es propuesta como modelo general, en contraposicin a las perspectivas funcionalista-liberal y marxista, que segn Goldthorpe sostendran, respectivamente, el mejoramiento creciente y el empeoramiento creciente de las sociedades. As el proceso de prueba para Goldthorpe consisti en formular y ajustar modelos de fluidez constante en cada pas, en todos los pases juntos, y entre los pases. Bsicamente sostuvo dos variantes: CnSF (en cada pas, y en todos los pases juntos,) y CMSF (entre los pases). Los resultados indicaron que CnSF no ajust en los pases ms esperados, aunque s en aquellos de desigualdades sociales pronunciadas. S ajust en todos los pases juntos. Y reconoci diferencias entre los pases y no una homogeneidad entre estos. En consecuencia fue necesario dar algunos pasos ms a favor de la teora de la fluidez, que van en la direccin de lo que hemos estado viendo previamente. El Core Model es un modelo que profundiza los conceptos de la fluidez constante, de manera parecida a la solucin de 1988 con el modelo topolgico de Hauser, que ya vimos. En este caso se busca hacer un modelo de dimensiones latentes, es decir dimensiones subyacentes y no observables de manera directa. Si ellas no son tomadas en cuenta en el modelo, es decir especificadas de alguna forma, sus efectos influiran para que el modelo CnSF se aparte de los datos. El Core Model, o Ncleo de la Fluidez, es un modelo que toma en cuenta el influjo de 3 dimensiones, que son latentes y por ello directamente inobservables, pero que a su juicio atraviesan la desigualdad de la estructura social: la deseabilidad de las posiciones
146

sociales, los recursos para ocuparlas, y las barreras al acceso a esas posiciones. Y para ello los autores definieron que 4 sets de variables daban cuenta de estas dimensiones: Herencia de posiciones, jerarqua, sector de actividad, y afinidad. En la estructura de clases sociales los 4 sets de variables identificadas respondan en diversos niveles a las 3 dimensiones postuladas en un inicio. Haba 3 niveles posibles de ponderacin de la herencia; 2 niveles posibles de ponderacin de la jerarqua; un slo nivel posible de ponderacin del sector de actividad; y 2 niveles de ponderacin de la afinidad. Vea prxima seccin. Este modelo dara cuenta de las diferencias entre los pases, sin derivar a tener que hacer un modelo topolgico propio de cada pas.

Unidiff es un modelo que busca ajustar el CnSF mejorado con el Core Model tomando en cuenta las diferencias entre las generaciones en cada pas. Es decir las diferencias entre los pases no seran las nicas tambin habra diferencias en el tiempo que representan las generaciones. As Unidiff busca mostrar que pese a que los coeficientes de asociacin no sean iguales o aproximados en cada generacin, tal como sostiene CnSF, es posible esperar que exista un patrn o tendencia en las diferencias entre los coeficientes de asociacin de las generaciones que observamos en los pases. Este modelo dara cuenta de las diferencias entre las generaciones, sin derivar a tener que hacer un modelo topolgico propio para cada generacin.
11. 2. Cmo se hacen? Como venimos desarrollando en las ltimas 2 clases, lo que hay que mirar siempre es el nmero de parmetros que se usan dado el tamao de tabla. Ejemplo, supongamos un modelo jerrquico: Tengo un tamao de tabla de l*c*r celdas, y dado que estoy en el modelo de interaccin homognea (mi ltima parada antes del modelo saturado!!), estoy jugando con agregar un nmero de parmetros menor a (l-1)(c-1)(r-1) celdas. Cuantos menos parmetros mejor por aquello de la parsimonia. Pero veamos las especificaciones con la secuencia completa de modelos, partiendo del de Movilidad perfecta que en este caso es de independencia condicional, seguido del CnSF, el Core Model y el Unidiff. Suponga una tabla de con 7 clases sociales en el Origen Social (O) y en el Destino Social (D) y la Generacin de nacimiento (Y) en 3 categoras. De manera que fcilmente ve que la tabla mltiple tiene 7*7*3=147 celdas. Y recuerde tambin que ese es el nmero de parmetros del modelo saturado. Lo primero que se ve es que si el CnSF no ajusta a los datos el costo del trmino que falta para el modelo saturado, donde nuestra reflexin se termina, es de 72 parmetros. Sin exagerar que haya 71 parmetros para agregar, lo cual dista de la parsimonia, hay un espacio muy grande para teorizar sobre nuestras hiptesis como para exigirles mejor robustez y precisin.

147

MODELOS Especificacin Mov.Perfecta +iO+jD+kS+ikOY+jkDY CnSF Core Model Unidiff 1 (additive) Unidiff 2 (linnear add) Unidiff 3 (multipl) Core Model+ Unidiff 3 Saturado

parmetros

gr.l

39 75 83 77

108 72 64 70

+iO+jD+kS+ikOY+jkDY+ijOD
+nijH1+nijH2+nijH3+nijJ1+nijJ2+nijSE+nijA1+nijA2

+iO+jD+kS+ikOY+jkDY+ijOD

+iO+jD+kS+ikOY+jkDY+ijOD + ijk +iO+jD+kS+ikOY+jkDY+ijOD + ij Svk v +iO+jD+kS+ikOY+jkDY+YOD


+nijH1+nijH2+nijH3+nijJ1+nijJ2+nijSE+nijA1+nijA2+YOD

+iO+jD+kS+ikOY+jkDY+

+iO+jD+kS+ikOY+jkDY+ijOD+ijkODY

147

Referencias. O. Origen social; D: Posicin actual; Y: Generaciones nijH1+nijH2+nijH3: coeficientes que indican el efecto de la heredabilidad, nijJ1+nijJ2: coeficientes que indican el efecto de la jerarqua, nijSE: coeficiente que indica el efecto del sector de actividad, nijA1+nijA2: coeficientes que indican el efecto de la afinidad, ijk: trmino de coeficientes que indican el efecto aditivo de la variable Layer o de capas, ij Svk vexpresin que indica el efecto aditivo de la variable Layer o de capas cuando hay scores de variables latentes que diferencian a las capas YOD:coeficientes que indican el efecto multiplicativo de ls capas por ejemplo de las diferencias generacionales. Para hacer el Core model hay que hacer nuevamente matrices de diseo como ya vimos. La secuencia de ponderacin es de 8 matrices El efecto herencia es el ms claro de todos y usa 3 matrices: la primer matriz representa solo la herencia, es la propensin a encontrar ms herederos que mviles (slo la diagonal) (H1). La matriz 2a destaca donde hay especial propensin a heredar, por ejemplo basado en la propiedad; as tienen los que ocurre con las clases I, II, IVa, IVb y IVc (H2). Finalmente la matriz 3 destaca slo la herencia en el campo IVc (H3). El efecto de una frontera jerarquizada aplica para la diagonal y algunas cercanas, pero en la mayora de las celdas fuera de la diagonal (J1). La segunda matriz aplica en los casos de movimiento posible solo en base a 2 escalones, lo que expresa la dificultad de movilidad de muy larga distancia (J2). El efecto del Sector de actividad es una nica matriz. Se trata de cruzar la frontera campo ciudad, que es difcil y afecta a todos disminuyendo el logro o chance. Entonces esta matriz diseo marca las fronteras de los que vinieron del campo como un lmite (SE1).
148

El efecto de Afinidad refiere a tratar de capturar los efectos sobre la movilidad que derivan de ligazones o discontinuidades especficas entre las clases. Hay dos ejemplos de afinidad. Primero hay una desafinidad notoria entre ser clase I y terminar como clase VII, y viceversa, (A1). Segundo hay una afinidad de cercana entre clases I+II, y III; otra entre I+II y IVa+IVb; otra entre clases IVa, IVb, y IVc; otra entre clases V+VI y VIIa; y finalmente otra entre IVc y VIIb (A2). En consecuencia las siguientes matrices de diseo aportan a qu celdas corresponden los efectos mencionados y cmo se hacen. Recuerde que entran como covariates, porque arrojarn coeficientes que se suman a los parmetros estimados. En consecuencia entran al modelo CnSF, que es el de interaccin homognea, TODOS como sumandos Este modelo s se puede hacer con SPSS.
H1 I+II I+II III IVab IVc farmpro V+VI skill VIIa unsk VIIb farmLab H2 I+II I+II III IVab IVc farmpro V+VI skill VIIa unsk VIIb farmLab H3 I+II I+II III IVab IVc farmpro V+VI skill VIIa unsk VIIb farmLab III IVab III IVab III IVab IVc V+VI farmpro skill VIIa unsk VIIb farmLab

1 0 0 0 0 0 0

0 1 0 0 0 0 0

0 0 1 0 0 0 0

0 0 0 1 0 0 0

0 0 0 0 1 0 0

0 0 0 0 0 1 0
VIIa unsk

0 0 0 0 0 0 1
VIIb farmLab

IVc V+VI farmpro skill

1 0 0 0 0 0 0

0 0 0 0 0 0 0

0 0 1 0 0 0 0

0 0 0 1 0 0 0

0 0 0 0 0 0 0

0 0 0 0 0 0 0
VIIa unsk

0 0 0 0 0 0 0
VIIb farmLab

IVc V+VI farmpro skill

0 0 0 0 0 0 0

0 0 0 0 0 0 0

0 0 0 0 0 0 0

0 0 0 1 0 0 0

0 0 0 0 0 0 0

0 0 0 0 0 0 0

0 0 0 0 0 0 0

J1 I+II III IVab IVc farmpro V+VI skill VIIa unsk VIIb farmLab

I+II

III

IVab

IVc V+VI farmpro skill

VIIa unsk

VIIb farmLab

0 1 1 1 1 1 1

1 0 0 1 0 1 1

1 0 0 1 0 1 1
149

1 0 0 1 0 1 1

1 0 0 1 0 1 1

1 1 1 0 1 0 0

1 1 1 0 1 0 0

J2 I+II I+II III IVab IVc farmpro V+VI skill VIIa unsk VIIb farmLab III IVab

IVc V+VI farmpro skill

VIIa unsk

VIIb farmLab

0 0 0 1 0 1 1

0 0 0 0 0 0 0

0 0 0 0 0 0 0

0 0 0 0 0 0 0

0 0 0 0 0 0 0

1 0 0 0 0 0 0

1 0 0 0 0 0 0

SE1 I+II I+II III IVab IVc farmpro V+VI skill VIIa unsk VIIb farmLab III IVab

IVc V+VI farmpro skill

VIIa unsk

VIIb farmLab

0 0 0 1 0 0 1

0 0 0 1 0 0 1

0 0 0 1 0 0 1

1 1 1 0 1 1 0

0 0 0 1 0 0 1

0 0 0 1 0 0 1

1 1 1 0 1 1 0

A1 I+II I+II III IVab IVc farmpro V+VI skill VIIa unsk VIIb farmLab A2 I+II I+II III IVab IVc farmpro V+VI skill VIIa unsk VIIb farmLab III IVab III IVab

IVc V+VI farmpro skill

VIIa unsk

VIIb farmLab

0 0 0 0 0 0 1

0 0 0 0 0 0 0

0 0 0 0 0 0 0

0 0 0 0 0 0 0

0 0 0 0 0 0 0

0 0 0 0 0 0 0
VIIa unsk

1 0 0 0 0 0 0
VIIb farmLab

IVc V+VI farmpro skill

0 1 1 0 0 0 0

1 0 0 0 0 0 0

1 0 0 1 0 0 0

0 0 1 0 0 0 0

0 0 0 0 0 1 0

0 0 0 1 1 0 1

0 0 0 0 0 0 0

Para una generacin cualquiera las celdas en su conjunto quedaran afectadas por los coeficientes introducidos de la siguiente manera que aporta Vallet (2007), basado Goldthorpe y Erikson 1993. Advierta que slo 7 celdas (-) no reportaran efectos de los coeficientes que ponderan el modelo.(En este caso IN=H; H=J; SE=SE y AF=A)

150

151

El modelo Unidiff es una generalizacin del modelo RC II para tres o ms variables, y tal como ocurre con ese modelo no se puede estimar con SPSS, y debe usarse STATA, u otro programa algo rustico pero muy potente que es LEM, que adems es shareware. Como dijimos Unidiff es un modelo que busca mostrar que pese a que los coeficientes de asociacin no sean iguales, es posible esperar que exista un patrn o tendencia creciente (o decreciente), ligera y no muy pronunciada en las diferencias entre los coeficientes de asociacin. Por eso se llama efecto capas o layer. Cada generacin es una capa o layer, slo por el hecho de ser contigua. Pero una se tomar como base de comparacin, o sea ser la unidad de medida de las diferencias. O sea las capas son proporcionales a una de ellas. Y se expresa con el trmino YOD, donde el primer factor expresa la unidad de medida de ls diferencias y el segundo el patrn asociativo. Tal como se hacen en los dems modelos es necesario hacer matrices de diseo. En este caso se deben crear tantas dummies en la base como generaciones se tengan (en este caso concebimos 3 generaciones y habr 3 dummies). Cada dummy marca con 1 a todas las celdas de esa generacin y con 0 a las restantes en una base formato como las del ejemplo actual. Si es base de individuos marca a los individuos de cada generacin. Si tengo m generaciones tendr m dummies, pero en el diseo del modelo entran solamente m-1 dummies, porque hay una que se usa como contraste, tal como en Modelo Lineal Gral y Logit, cada generacin contra la baseline. Por eso despus los autores grafican los momios obtenidos en una lnea de tiempo: valor observado por aos de edad o generaciones. Y siempre el baseline se fija en 1. Se prefiere una generacin extrema, la mayor o la menor para examinar la secuencia de momios, que se supone suavizan, y explican las diferencias entre razones de momios que deberan ser constantes entre las generaciones. Es decir, si CnSF ajustara a los datos, en realidad los momios observados seran estables (o similares) entre las generaciones porque estaran multiplicados por un coeficiente igual a 1 (!!!). Cuando esto no es as, entra Unidiff, que salva la petisa indicando que seran estables (similares) si la diferencia no fuera tan pequea como indica el coeficiente estimado para cada generacin. Unidiff es un modelo al que se le reconoce autora conjunta por Golthorpe y Erikson (1993) y por Yu Xie (1992), quien lo llama layer effect model en su artculo de ese ao en AJS y en su libro conjunto con Dan Powers, que est en la bibliografa. Unidiff es un modelo que suele ser aplicado en 3 variantes en la literatura de movilidad, por lo que hay que estar atento a que el recurso suele ser llamado del mismo modo, pero no siempre se trata del mismo men: a). Se ha aplicado siguiendo y anidando al CnSF para ajustar los efectos de las generaciones; b) se ha aplicado, como en este captulo, siguiendo y anidando al Core model, para ajustar el efecto de las generaciones; y, se ha aplicado siguiendo y anidando al Core model, para ajustar el efecto de los pases.

152

Ejercicio 6 Se aplican todos los modelos de clases 9 y 10 con la siguiente base de datos, con 2 variables. Como se dijo desde el inicio estaremos modelando hiptesis entre el modelo de independencia y el modelo saturado, es decir metiendo parmetros y sacando grados de libertad, entre el desajuste y el ajuste perfecto y redundante. DATOS ORIGINALES EXTRAIDOS DE HAUSER POR POWER Y XIE (2001). Ingrese estos datos como ya sabe en SPSS.
ORIGEN SOCIAL BAJO NO ALTO BAJO MANUAL MANUAL MANUAL GRANJERO 724 798 759 409 524 648 914 357 254 856 771 441 703 1676 3325 1611 48 108 237 1832

POSICION ACTUAL ALTO NO MANUAL BAJO NO MANUAL ALTO MANUAL BAJO MANUAL GRANJERO

ALTO NO MANUAL 1414 521 302 643 40

General Loglinear INDEPENDENCIA


Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL 25 0 19915 25 0 0 5 5

Convergence Information(a,b) Maximum Number of 20 Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference Number of Iterations ,00100 1,4872E006(c) 1,3039E006

5 a Model: Poisson b Design: Constant + ACTUAL + ORIGEN Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 6167,188 df 16 Sig. ,000

Tenemos una tabla de 5x5=25 celdas esta hiptesis supone9 parmetros y deja 16 grados de libertad
153

MATRIZ QI GOODMAN
ORIGEN SOCIAL ALTO BAJO MANUAL MANUAL
1 1 0 1 1 1 1 1 0 1

POSICION ACTUAL ALTO NO MANUAL BAJO NO MANUAL ALTO MANUAL BAJO MANUAL GRANJERO

ALTO NO MANUAL
0 1 1 1 1

BAJO NO MANUAL
1 0 1 1 1

GRANJERO
1 1 1 1 0

Una vez creada la variable Dummy que indica la cancelacin de celda de la diagonal Goodman, va colocada en el comando estructura de celdas o cellweight. Es fcil deducir que por defecto cellweight es 1 para todas las celdas, por ende lo que importa es poner los 0s. Atencin observe de aqu en mas las Cells del Output, ver los Structural Zeros que indic. General Loglinear QUASI INDEPENDENCIA GOODMAN
Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL 25 0 11964 25 5 0 5 5

Convergence Information(a,b) Maximum Number of Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference Number of Iterations

20

,00100 ,00126 ,00085(c) 5

a Model: Poisson b Design: Constant + ACTUAL + ORIGEN c The iteration converged because the maximum relative changes of parameter estimates is less than the specified convergence criterion. Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 682,076 df 11 Sig. ,000

Vea como los df bajaron de 16 a 11. Quiere decir que est usando 14 parmetros
154

HOUT ESQUINAS QUEBRADAS


POSICION ACTUAL ALTO NO MANUAL BAJO NO MANUAL ALTO MANUAL BAJO MANUAL GRANJERO ALTO NO MANUAL
0 0 1 1 1

BAJO NO MANUAL
0 0 1 1 1

ORIGEN SOCIAL ALTO BAJO MANUAL MANUAL


1 1 0 1 1 1 1 1 0 0

GRANJERO
1 1 1 0 0

General Loglinear HOUT CORNERS MODEL


Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL 25 0 8871 25 9 0 5 5

Convergence Information(a,b) Maximum Number of 20 Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference Number of Iterations ,00100 6,4671E005(c) 3,4585E005

6 a Model: Poisson b Design: Constant + ACTUAL + ORIGEN c The iteration converged because the maximum absolute changes of parameter estimates is less than the specified convergence criterion. Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 49,590 df 7 Sig. ,000

Y aqu los df bajaron a 7 y comenz la mejoradel modelo. Est usando 18 parmetros.

155

FJH CORTA DISTANCIA.


ORIGEN SOCIAL ALTO BAJO MANUAL MANUAL
1 0 0 0 1 1 1 0 0 0

POSICION ACTUAL ALTO NO MANUAL BAJO NO MANUAL ALTO MANUAL BAJO MANUAL GRANJERO

ALTO NO MANUAL
0 0 1 1 1

BAJO NO MANUAL
0 0 0 1 1

GRANJERO
1 1 1 0 0

General Loglinear FJH CORTA DISTANCIA


Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL 25 0 5522 25 13 0 5 5

Convergence Information(a,b) Maximum Number of Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference 20 ,00100 1,2796E005(c) 7,2195E006

Number of Iterations 6 a Model: Poisson b Design: Constant + ACTUAL + ORIGEN c The iteration converged because the maximum absolute changes of parameter estimates is less than the specified convergence criterion. Goodness-of-Fit Tests(a,b) Value 15,197 df 3 Sig. ,002

Likelihood Ratio

Aqu los df bajaron a 3!! Est usando 22 parmetros Pero el modelo mejor mucho aproximndose a los datos!! Prcticamente slo hay movilidad social (independencia) en la muy larga distancia.

156

Ahora la idea es un tanto diferente por tratamos, de manera algo ruda, de examinar la movilidad en un solo sentido y herencia. Observe que nunca cancelamos toda una fila o columna, porque supondra cancelar el marginal, que es el MLE!!
ORIGEN SOCIAL ALTO BAJO MANUAL MANUAL
0 0 1 1 1 0 0 0 1 1

POSICION ACTUAL ALTO NO MANUAL BAJO NO MANUAL ALTO MANUAL BAJO MANUAL GRANJERO

ALTO NO MANUAL
1 1 1 1 1

BAJO NO MANUAL
0 1 1 1 1

GRANJERO
0 0 0 0 1

General Loglinear HERENCIA + ASCENDENTE MODEL


Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL Convergence Information(a,b) Maximum Number of Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference Number of Iterations a Model: Poisson b Design: Constant + ACTUAL + ORIGEN Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 72,847 df 6 Sig. ,000 25 0 15383 25 10 0 5 5 20 ,00100 4,9801E-005(c) ,00040 5

Ac usamos 19 parmetros, pero no nos acercamos tanto.

157

General Loglinear HERENCIA + DESCENDENTE MODEL

POSICION ACTUAL ALTO NO MANUAL BAJO NO MANUAL ALTO MANUAL BAJO MANUAL GRANJERO

ALTO NO MANUAL
1 0 0 0 0

BAJO NO MANUAL
1 1 0 0 0

ORIGEN SOCIAL ALTO BAJO MANUAL MANUAL


1 1 1 0 0 1 1 1 1 0

GRANJERO
1 1 1 1 1

Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL Convergence Information(a,b) Maximum Number of Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference Number of Iterations a Model: Poisson b Design: Constant + ACTUAL + ORIGEN Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 19,109 df 6 Sig. ,004 25 0 12483 25 10 0 5 5

20 ,00100 ,00014(c) 7,2900E-005 6

Nuevamente hacemos lo anterior pero en sentido opuesto considerando 19 parmetros.

158

SIMETRA Y CASI SIMETRA.


ORIGEN SOCIAL ALTO BAJO MANUAL MANUAL 3 4 6 0 9 10 7 9 0 11

POSICION ACTUAL

ALTO NO MANUAL BAJO NO MANUAL ALTO MANUAL BAJO MANUAL GRANJERO

DISEO SIMETRIA DISEO SIMETRIA DISEO SIMETRIA DISEO SIMETRIA DISEO SIMETRIA

ALTO NO MANUAL 0 2 3 4 5

BAJO NO MANUAL 2 0 6 7 8

GRANJERO 5 8 10 11 0

En este modelo hay tantas matrices de diseo como pares de celdas simtricos identificados. Entonces: hacer 1 dummy para cada par de celdas de la simetria. En este caso son 10 (de 2 a 11 pares). Cada par lleva valor 1 y 0 en otro caso. General Loglinear Simetria ADVIERTA QUE LA DIAGONAL VA CANCELADA COMO EN GOODMAN!!
Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL Convergence Information(a,b) Maximum Number of 20 Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference Number of Iterations ,00100 4,3080E006(c) 2,8380E006 5 25 0 11964 25 5 0 5 5

a Model: Poisson b Design: Constant + SS02 + SS03 + SS04 + SS05 + SS06 + SS07 + SS08 + SS09 + SS10 + SS11 Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 2805,344 df 10 Sig. ,000

Las variables dummies entran como covariates y suplen en este modelo de simetra a los efectos principales. Adems va la var Goodman en el cellweight! Es otro modelo que exige muchos parmetros por lo que cuesta varios grados de libertad. 1 por c.u.de las 10 dummies, y 5 por la qi goodman, es un modelo rarsmo por lo exigente, y porque supone, ya dijimos homogeneidad marginal!! Que responde a: I (I-1) / 2 grados de libertad!!

159

LA BASE DE LAS VARIABLES DUMMIES ES LA MISMA, PERO NO VA LA QI GOODMAN! General Loglinear QUASI SIMETRY MODEL
Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL 25 0 19915 25 0 0 5 5

Convergence Information(a,b) Maximum Number of 20 Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference ,00100 ,00042(c) ,00147

Number of Iterations 6 a Model: Poisson b Design: Constant + ACTUAL + ORIGEN + SS02 + SS03 + SS04 + SS05 + SS06 + SS07 + SS08 + SS09 + SS10 + SS11 . Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 27,111 df 6 Sig. ,000

Las dummies van en comando covariates. Cada una cuesta 1 df. No hay variable de qi (goodman, o hout, o fhj) en este caso. Y en el comando model entran las variables de inters y las dummies, todas juntas together como efectos principales!!. O sea es el de independencia + las dummies!! Por eso deja 6 dfs!! Que responde a: (I-1) (I-2) / 2

160

HAUSER TOPOLOGICAL MODEL Este es un modelo clsico y difcil, como el que usa Goldthorpe en el libro de 1988. Es un modelo de distancias que pondera las celdas en funcin de un rationale o modelo ideal de las celdas. UFF!
ORIGEN SOCIAL ALTO BAJO MANUAL MANUAL 5 5 5 5 5 5 5 5 4 4

POSICION ACTUAL ALTO NO MANUAL BAJO NO MANUAL ALTO MANUAL BAJO MANUAL GRANJERO

ALTO NO MANUAL 2 4 5 5 5

BAJO NO MANUAL 3 4 5 5 5

GRANJERO 5 5 5 4 1

Nuevamente debe hacerse para cada tipo de celda una dummy, como ya vimos. Aqu hay 5 pero son necesarias 4 porque 1 cualquiera se toma como referencia de comparacin. Las variables dummies entran en el comando covariates. En el comando model doy customs e ingreso todas las variables y las dummies como efectos principales. Advierta que us 4 de las 5 dummies tx que cree, t1 es baseline de comparacin. Estim 4 parmetros interactivos que me permiten ajustar los valores por celdas. Como us 13 parmetros entonces: (I-1)(J-1) - (I-1) gr l. General Loglinear
Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL Convergence Information(a,b) Maximum Number of 20 Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference ,00100 7,0747E005(c) 3,8988E005 25 0 19915 25 0 0 5 5

Number of Iterations 6 a Model: Poisson b Design: Constant + ACTUAL + H_02 + H_03 + H_04 + H_05 + ORIGEN Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 66,142 df 12 Sig. ,000

161

General Loglinear CROSSING MODEL NOT BLOCKIN DIAGONAL Este es un modelo de distancias socials entre las posiciones mas elaborado que el anterior. Pasos: Nuevamente debe hacerse para cada tipo de celda una dummy. Aqu hay 4 dummies y todas son necesarias. Las variables origen y actual entran como factors. Todas las dummies creadas entran como covariates. En este modelo hay dos opciones, operar con o sin cancelacin del efecto herencia. Operar con cancelacin de la herencia implica incorporar en el cellweight la variable Goodman. Todas las variables en el comando model custom van como efectos principales. Los grados de libertad son diferentes segn se use o no la cancelacin de la diagonal principal: Sin cancelar la diagonal principal son (I-1)(J-1) - (I-1); y Cancelando la diagonal principal son (I-1)(J-1) - (I+2). La diferencia subyace a las restricciones para identificar los parmetros... Modelos similares a este uso EO Wright en el libro Class Counts que vimos para analizar la permeabilidad. Ayudado por los inventores claro.
Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL 25 0 19915 25 0 0 5 5

Convergence Information(a,b) Maximum Number of 20 Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference Number of Iterations ,00100 4,2387E005(c) ,00021 6

a Model: Poisson b Design: Constant + ACTUAL + D_02 + D_03 + D_04 + D_05 + ORIGEN Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 89,238 df 12 Sig. ,000

162

General Loglinear CROSSING MODEL WITH NO DIAGONAL (LAS VARS CREADAS EN CROSSING + GOODMAN QI)
Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL 25 0 11964 25 5 0 5 5

Convergence Information(a,b) Maximum Number of 20 Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference Number of Iterations ,00100 2,7028E006(c) 3,2000E006

6 a Model: Poisson b Design: Constant + ACTUAL + D_02 + D_03 + D_04 + D_05 + ORIGEN Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 63,543 df 9 Sig. ,000

163

MODELOS ORDINALES Los siguientes ejemplos suponen una, o ambas variables ordinales. General Loglinear ASOCIACION UNIFORME Entonces como paso previo a aplicar el modelo en SPSS: Transform, Compute y haga : B = var fila*var columna; luego ir a Analyze, Loglinear, General, ingrese var fila y var columna como Factores, pero ingrese B como Covariate; clickee Model, Custom, y especifique un modelo de efectos principales con las 3 variables as: var fila + var columna+ B.

Sus gr. l son: (I-1) (J-1) 1 porque uso un solo parmetro adicional.
Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL Convergence Information(a,b) Maximum Number of Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference Number of Iterations 25 0 19915 25 0 0 5 5

20

,00100 ,00060(c) ,00512 5

a Model: Poisson b Design: Constant + ACTUAL + LxL + ORIGEN Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 2280,873 df 15 Sig. ,000

164

General Loglinear EFECTO COLUMNA ORDINAL Es cuando slo la varcolumna es ordinal y la otra sigue nominal. Incorporan al modelo de independencia el efecto interactivo de la variable fila que no es ordinal con la variable columna que es ordinal. Pero esta interaccin es tratada como una variable continua en lugar de una interaccin de variables nominales. Se crea la var C, que es una copia de la var ordinal columna, en el comando Compute. Compute C=var columna. En consecuencia, en un modelo de efecto fila el Design es: Constant + variable fila + variable columna + variable fila*C. Y sus grados de libertad son: (I-1)(J-2) En SPSS, Analyze, Loglinear, General, e ingrese a var fila y var columna en los Factores, y a C en los covariables; clickee Model, Custom, y especifique 1modelo con efectos principales var fila y var columna, e incorpore la interaccin entre var fila (nominal) y C .
Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL Convergence Information(a,b) Maximum Number of Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference Number of Iterations 25 0 19915 25 0 0 5 5

20

,00100 ,00015(c) 2,7549E005 7

a Model: Poisson b Design: Constant + ACTUAL + ORIGEN + ACTUAL * C Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 903,330 df 12 Sig. ,000

165

General Loglinear EFECTO FILA ORDINAL Idem anterior!!


Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL 25 0 19915 25 0 0 5 5

Convergence Information(a,b) Maximum Number of 20 Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference Number of Iterations ,00100 ,00023(c) 9,8670E005

5 a Model: Poisson b Design: Constant + ACTUAL + ORIGEN + ORIGEN * C2 Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 2079,072 df 12 Sig. ,000

166

General Loglinear ORDINAL FILAS DIAGONAL FUERA Idem anterior + QI Goodman


Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL Convergence Information(a,b) Maximum Number of Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference Number of Iterations 25 0 11964 25 5 0 5 5

20

,00100 1,7461E005(c) 7,3561E005

6 a Model: Poisson b Design: Constant + ACTUAL + ORIGEN + ORIGEN * C2 Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 34,508 df 7 Sig. ,000

Y sus grados de libertad son: (I-1)(J-2) I.

167

General Loglinear ASOCIACION UNIFORME DIAGONAL FUERA


Data Information N Cases Valid Missing Weighted Valid Cells Defined Cells Structural Zeros Sampling Zeros Categories ORIGEN SOCIAL POSICION ACTUAL Convergence Information(a,b) Maximum Number of Iterations Converge Tolerence Final Maximum Absolute Difference Final Maximum Relative Difference Number of Iterations 25 0 11964 25 5 0 5 5

20

,00100 3,1386E006(c) 2,6219E006

6 a Model: Poisson b Design: Constant + ACTUAL + LxL + ORIGEN Goodness-of-Fit Tests(a,b) Likelihood Ratio Value 72,226 df 10 Sig. ,000

Sus gr. l son: (I-1) (J-1) (1+I).

168

RC I MODEL (HASTA DONDE SPSS NOS DEJA LLEGAR!!)


Informacin sobre los datos N Casos Vlidos Perdidos Vlidos ponderados Casillas Casillas definidas Ceros estructurales Ceros de muestreo Categoras ORIGEN SOCIAL POSICION ACTUAL 25 0 19912 25 0 0 5 5

Informacin sobre la convergencia(a,b) Nmero mximo de iteraciones Tolerancia de convergencia Mxima diferencia absoluta final Mxima diferencia relativa final Nmero de iteraciones 20 ,00100 ,00041(c) ,00426 7

a Modelo: Poisson b Diseo: Constante + ACTUAL + ORIGEN + ACTUAL * OC_Or + ORIGEN * OF_Ac Contrastes de bondad de ajuste(a,b) Valor 877,808 gl 9 Sig. ,000

Razn de verosimilitudes

Para los que no creen, chequeen los resultados con el Powers y Xie de la biblioteca cap4, o con Hout (1983).

169

BIBLIOGRAFA.
Agresti, A. 1996 Introduction to Categorical Data Analysis; John Wiley, NY. Agresti, A; Finlay, B. 2008 Statistical Methods for the Social Sciences Pearson/Prentice Hall, NY. Anderson, C. 2001 Loglinear Models for contingency tables; Educational Psychology Department; Univ of Illinois at Urbana Champaign Bishop, YM; Fienberg, S; Holland, PW 2007(1975) Discrete Multivariate Analysis. Theory and applications; Springer, NY. De Roij, M 2002 Logit and Loglinear Models; Psychologie Dept., Leiden University Holland Esteban S; Tun, I. 1997 Movilidad ocupacional femenina durante la coyuntura de crisis econmica1994-1995. El uso del loglineal, un enfoque desde la demanda de empleo; Materiales de Trabajo/Estudios Metodolgicos/ FCS/ UBA. Esteve Pals, A. 2004 Tendencias en homogamia educacional en Mxico Estudios Demograficos y Urbanos vol 20 , 2, CEDDUA, Colmex Mxico. Esteve, A.; Cortina, C. 2005 Homogamia educativa en la Espaa contempornea: Pautas y Tendencias DT 257, Centre d Estudis Demogrfics. Fienberg, S. 2007 (1979) The analysis of cross classified categorical data, Springer, NY. Garson, D. 2003 Log-Linear, Logit, and Probit Models. North Carline State Univesity.
http://faculty.chass.ncsu.edu/garson/PA765/statnote.htm

Halpin, B. 2003 Modelling Categorical Data: Loglinear models and logistic regression; G&S, Dept of Sociology, Limerick University; Eire. Psychology Department (sf) The zoo of loglinear analysis; Richmond University. King, G. 1998 Unifying Polititcal Methodology; Cambridge University Press. Mass. caps 1 a 4. Piol Puppio, R. La Regresin Loglineal para modelos Saturados y Jerrquicos aplicada al Avalo Inmobiliario Rev. Soitave 260. Caracas. Powers, D; Xie, Y. 2001 Statistical Methods for categorical data Analysis; Academic Press; NY. Silva, N. 1990 Introducao ao analise de dados qualitativos.; Ed. Vertice Universitaria, Sao Paulo. Caps 1 a 8. Sloane, D. Morgan, P. 1996 Introduction to categorical data analysis Annual Review of Sociology vol 22; Annual Rev Inc. SPSS 1999 SPSS Advanced Models 10.0; SPSS Inc, Chicago. Caps 4,5, 15 y 16. Vallet, L. 2007 How we can analyze temporal dyanmics in statistical associations characterized by very strong inertia? Recent advances in log multiplicative models Mimeo. Vermunt, J. Loglinear Modelling Department of Methodology and Statistics, Tilburg University. Visauta Vinacua, B. 1999 Anlisis Estadstico con SPSS para Windows. Vol II: Estadstica Multivariante.; Mc Graw Hill, Madrid. Cap 3.

170

ANEXO 0: Los modelos muestrales subyacentes a los estudios con variables nominales. 3 modelos muestrales sostienen las investigaciones con variables nominales en tablas de contingencia: Poisson, Multinomial y Producto-multinomial. Observamos procesos de Poisson , uno para cada celda de una clasificacin cruzada, cuando no tomamos ningn a priori sobre el nmero de casos que debe haber en ellas. Es decir no tenemos restricciones sobre el tamao de la observacin que representa cada celda, y cada una de ellas se concibe como un proceso independiente de las dems. Tenemos un modelo Multinomial cuando tenemos un tamao fijo de muestra, y los casos forman una clasificacin cruzada de acuerdo a los valores de las variables preferidas. Ahora las celdas no seran observaciones independientes unas de otras. Cuando para cada categora de una variable en particular tomamos una muestra multinomial y los clasificamos de acuerdo a las categoras de la otra variable ya las celdas no seran observaciones independientes unas de otras. Es una extensin de la anterior, se toman tantas muestras como categoras tiene la variable dependiente. Esto es bsico para logit. Atenti si slo tuviramos 2 categoras no podemos tener las proporciones distribuidas 90-10!!. Lo que importa es que los 3 modelos muestrales conducen al mismo tipo de valores esperados para las celdas y usan el mismo tipo de test de bondad de ajuste. Pueden distinguirse las distribuciones segn se analice y modele la asociacin entre las variables. Cuando no se puede distinguir antecedencia, las distribuciones de Poisson y la multinomial son apropiadas, cuando hay una, o ms variables dependientes, es preferible la tercera.

171

Anexo 1.

Estimacin de Mxima Verosimilitud y Razn de Verosimilitud


La idea fundamental de este mtodo es tomar como estimacin del parmetro estudiado el valor que haga mxima la probabilidad de obtener la muestra observada. Para ilustrar este mtodo, imaginemos la siguiente situacin: queremos estimar la probabilidad p de que sea comunista un individuo de la poblacin, a partir de una muestra aleatoria. Para ello procedemos de la siguiente manera visitamos 5 barrios al azar de la ciudad y entrevistamos al azar a una persona en cada uno de ellos y obtenemos la siguiente secuencia: C+CC+ C: comunista ; y +: cualquier otro caso Antes de suponer que estamos en Korea del Norte una manera aparentemente razonable de estimar p sera evaluar la probabilidad de obtener esta muestra para diferentes valores de p y quedarnos con el valor que haga mxima dicha probabilidad. En nuestro caso, debemos calcular :

para todos los posibles valores de p, es decir, para todo valor real entre 0 y 1. Es lo que se muestra en la siguiente tabla, en la que se han simplificado los posibles valores de p tomando incrementos de 0,1: Valor de p 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Probabilidad de la muestra observada 0,0000 0,0008 0,0051 0,0132 0,0230 0,0313 0,0346 0,0309 0,0205 0,0073 0,0000
172

Como puede observarse, el valor para el que se obtiene la mxima probabilidad es 0,6. Por tanto, dicho valor ser la estimacin mximo verosmil (EMV) de p.

Si analizamos este resultado es fcil darse cuenta que la EMV obtenida coincide con la frecuencia relativa del nmero de comunistas (Fr (C) = 3/5 = 0,6), por lo que podemos preguntarnos se trata de un resultado casual o es generalizable? Para responder a esta cuestin vayamos al clculo de la probabilidad de nuestra muestra, pero aprovechemos para hacerlo de manera ms general. Supongamos que hemos efectuado N entrevistas y que C han sido comunista, sin que importe el orden, en que han salido siempre que (C <= N). As la probabilidad de dicho suceso viene dada por:

C C Pr( Comunista en muestra ) = p (1 p ) N C = L ( p ) N


y, como los valores N y C son conocidos (5 y 3 respectivamente), esta probabilidad puede expresarse como una funcin L(p), del parmetro p, exclusivamente. A la funcin L(p) se le llama funcin de verosimilitud . Y puede definirse como la funcin de densidad conjunta de la muestra (probabilidad de obtener la muestra observada, en nuestro caso), pero considerada como funcin del parmetro. (Es por ello que suele considerarse que la verosimilitud supone la hiptesis dados los datos, y no los datos dada la hiptesis. Veremos que este enfoque resulta de mucha utilidad cuando debemos estimar numerosas hiptesis, ms complejas que la presente.) Es posible maximizar la Verosimilitud utilizando las tcnicas conocidas de clculo, asumiendo la restriccin de que 0 <= p <= 1. Entonces vamos a derivar L(p) igual a cero. Recuerde que los clculos suelen facilitarse al aplicar el hecho de que si una funcin (positiva) alcanza un mximo en un punto dado, el logaritmo de dicha funcin alcanzar un mximo en el mismo punto:

173

Para ser rigurosos debemos comprobar que se trata de un mximo. Y la forma de hacerlo es demostrar que la derivada segunda de L(p) (o de su logaritmo) en el punto k/n es negativa. En nuestro caso es fcil ver que la segunda derivada siempre es negativa:

Acabamos de demostrar que la frecuencia relativa es el estimador mximo verosmil de la probabilidad de un determinado suceso (en nuestro ejemplo que salga comunista). La metodologa que acabamos de utilizar para determinar el estimador mximo verosmil se denomina mtodo de la mxima verosimilitud. RESUMEN: Como vimos siendo la muestra insesgada y de observaciones independientes entre s (MAS, o MAE), por ejemplo una buena encuesta de opinin (21), la probabilidad conjunta se calcula como el producto de las probabilidades individuales y de esa forma obtenemos la funcin de verosimilitud, que tiene en cuenta todos los datos de forma global, y ser funcin nicamente de los coeficientes. Seguidamente se calcular la derivada de esa funcin, se igualar a cero y se obtendrn los valores de los coeficientes que maximizan esa funcin. Luego se estimar la segunda derivada, para estar seguro que la previa fue el mximo (!!). No se preocupe lo hacen los programas de clculo. As Ud. puede concluir que efectivamente est en Korea del Norte.

21

No puede ser el ejemplo de cotizaciones de monedas o bienes!! Donde las observaciones no son independientes. 174

CMO SE INTERPRETAN ESTOS RESULTADOS?? Tratndose de observaciones independientes en el clculo de la funcin de verosimilitud interviene el producto de las probabilidades individuales, por lo que es mejor tomar logaritmos, ya que stos transforman los productos en sumas y los cocientes en restas (22). Por eso vemos en las salidas de los programas de pc el trmino Loglikehood, que es el logaritmo de la verosimilitud. Al tratarse de productos de probabilidades la funcin de verosimilitud ser siempre menor que 1 y por tanto su logaritmo ser negativo (23). La funcin de verosimilitud nos permite comparar modelos, por ejemplo dos modelos, o explicaciones hipotticas, suelen diferenciarse cuando en uno de ellos se incluye una variable adicional con respecto al primer modelo, o cuando se propone una interaccin entre 2 variables que previamente se consideraban por separado. Como las diferencias en la funcin de verosimilitud se alteran con la escala de medida, es conveniente compararlas mediante cocientes. Entonces cuando se comparan modelos que han sido estimados mediante este procedimiento se habla de RAZON O COCIENTE DE VEROSIMILITUD o Likelihood ratio. Cuando se trata de estimar modelos para saber cul resulta ms ajustado a los datos, suelen contrastarse (compararse) modelos (hiptesis) con diferente cantidad de variables, parmetros. Cuando no tenemos un modelo rival es usual recurrir al concepto de de Modelo Saturado (24). Un Modelo Saturado utiliza tantos parmetros como observaciones hemos efectuado y por tanto se ajusta perfectamente a los datos.

22 23

As, por ejemplo la gente se equivoca menos. Cuantas ms combinaciones de variables y sus categoras, ms celdas en la tabla ms pequeo su log likelihood 24 Esto es usual en Loglinear, que es un modelo clsico, y es lo que hace el comando HILOGLINEAR en SPSS, por defecto. 175

Es corriente comparar el modelo que estimamos con ese modelo terico perfecto mediante la expresin:

esa cantidad D (o G2) es llamada desviacin (deviance en ingls;). La desviacin nos permite comparar modelos, por ejemplo un modelo que incluye una variable adicional:

G=D(modelo 1 sin la variable) D(modelo 2 con la variable) =


que se distribuye como una 2 con grados de libertad igual a la diferencia de parmetros entre modelos (25). Se le denomina Contraste de verosimilitud. Si el contraste resulta ser no significativo, conviene aceptar que la incorporacin de la nueva variable no mejora sensiblemente la verosimilitud del modelo y por tanto no vale la pena incluirla. La lgica es bien sencilla: La nueva hiptesis mejora y simplifica la interpretacin de los datos, o es redundante? CONCLUSION GENERAL. El mtodo es bastante general, y su procedimiento de contraste de hiptesis es bastante sencillo cuando las situaciones son simples, pero resulta de mucha utilidad cuando la situacin de partida es muy compleja, o cuando se pretende complejizar la explicacin que dio origen a los datos (DGP: Data Generation Process) Como puede advertirse la Razn de Verosimilitud, que se construy con las verosimilitudes de cada modelo, es un resumen directo, un ndice de la informacin que se estima (modela) para los datos; y por ello sus partidarios entienden que es lo nico que importa atender. Nosotros, en nuestro curso, ya vimos situaciones en las que es conveniente recapacitar sobre el alcance de las observaciones (celdas) y la oportunidad de examinar la topografa de la tabla. En los hechos los modelos loglineares y logit permiten colapsar los datos en tablas ms pequeas que responden a hiptesis ms sencillas.
25

No olvide que para esto depende del nmero de celdas de la tabla y del nmero de categoras de las variables en cuestin. 176

Aclaraciones: a) en las salidas (outputs) de SPSS del comando HiLoglinear y GenLoglinear, de no mediar indicacin en contrario por comando, siempre por defecto se contrasta el modelo estimado con el modelo saturado. Pero en Genloglinear es posible contrastar modelos entre s con ms facilidad. b) En las salidas de SPSS en los comandos Logit, Logit Multinomial, NomReg, suele aparecer el Likelihood ratio o Cociente de Verosimilitud para el modelo, sin que se especifique que se est contrastando el modelo estimado, con las variables elegidas, frente al modelo que slo incluye el trmino constante (no contra el saturado como en loglinear). Como pasos siguientes se estiman las verosimilitudes para las variables elegidas, y se compara con el modelo que nicamente tiene la constante, la diferencia en caso de cada variable siempre se distribuye como una 2. Al igual que antes, si el contraste resulta no significativo, incluir las variables X no mejora significativamente la verosimilitud del modelo y por lo tanto se tratara de un modelo alternativo sin utilidad.

177

Anexo 2.

TABLA DE DISTRIBUCION DE VALORES CRITICOS DE JI CUADRADO ( 2 ). (alfa= a la derecha de 2) (df,alfa)


Nivel de Significacin 0.10 0.05 0.025 2.7055 4.6052 6.2514 7.7794 9.2363 10.6446 12.0170 13.3616 14.6837 15.9872 17.2750 18.5493 19.8119 21.0641 22.3071 23.5418 24.7690 25.9894 27.2036 28.4120 29.6151 30.8133 32.0069 33.1962 34.3816 35.5632 36.7412 37.9159 39.0875 40.2560 41.4217 42.5847 43.7452 44.9032 46.0588 47.2122 48.3634 49.5126 50.6598 51.8050 52.9485 54.0902 55.2302 56.3685 3.8415 5.9915 7.8147 9.4877 11.0705 12.5916 14.0671 15.5073 16.9190 18.3070 19.6752 21.0261 22.3620 23.6848 24.9958 26.2962 27.5871 28.8693 30.1435 31.4104 32.6706 33.9245 35.1725 36.4150 37.6525 38.8851 40.1133 41.3372 42.5569 43.7730 44.9853 46.1942 47.3999 48.6024 49.8018 50.9985 52.1923 53.3835 54.5722 55.7585 56.9424 58.1240 59.3035 60.4809 5.0239 7.3778 9.3484 11.1433 12.8325 14.4494 16.0128 17.5345 19.0228 20.4832 21.9200 23.3367 24.7356 26.1189 27.4884 28.8453 30.1910 31.5264 32.8523 34.1696 35.4789 36.7807 38.0756 39.3641 40.6465 41.9231 43.1945 44.4608 45.7223 46.9792 48.2319 49.4804 50.7251 51.9660 53.2033 54.4373 55.6680 56.8955 58.1201 59.3417 60.5606 61.7767 62.9903 64.2014
178

df 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44

0.01 6.6349 9.2104 11.3449 13.2767 15.0863 16.8119 18.4753 20.0902 21.6660 23.2093 24.7250 26.2170 27.6882 29.1412 30.5780 31.9999 33.4087 34.8052 36.1908 37.5663 38.9322 40.2894 41.6383 42.9798 44.3140 45.6416 46.9628 48.2782 49.5878 50.8922 52.1914 53.4857 54.7754 56.0609 57.3420 58.6192 59.8926 61.1620 62.4281 63.6908 64.9500 66.2063 67.4593 68.7096

0.005 7.8794 10.5965 12.8381 14.8602 16.7496 18.5475 20.2777 21.9549 23.5893 25.1881 26.7569 28.2997 29.8193 31.3194 32.8015 34.2671 35.7184 37.1564 38.5821 39.9969 41.4009 42.7957 44.1814 45.5584 46.9280 48.2898 49.6450 50.9936 52.3355 53.6719 55.0025 56.3280 57.6483 58.9637 60.2746 61.5811 62.8832 64.1812 65.4753 66.7660 68.0526 69.3360 70.6157 71.8923

45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99

57.5053 58.6405 59.7743 60.9066 62.0375 63.1671 64.2954 65.4224 66.5482 67.6728 68.7962 69.9185 71.0397 72.1598 73.2789 74.3970 75.5141 76.6302 77.7454 78.8597 79.9730 81.0855 82.1971 83.3079 84.4179 85.5270 86.6354 87.7431 88.8499 89.9561 91.0615 92.1662 93.2702 94.3735 95.4762 96.5782 97.6796 98.7803 99.8805 100.980 102.0789 103.1773 104.2750 105.3723 106.4689 107.5650 108.6606 109.7556 110.8501 111.9442 113.0377 114.1307 115.2232 116.3153 117.4069

61.6562 62.8296 64.0011 65.1708 66.3387 67.5048 68.6693 69.8322 70.9934 72.1532 73.3115 74.4683 75.6237 76.7778 77.9305 79.0820 80.2321 81.3810 82.5287 83.6752 84.8206 85.9649 87.1080 88.2502 89.3912 90.5313 91.6703 92.8083 93.9453 95.0815 96.2167 97.3510 98.4844 99.6170 100.7486 101.8795 103.0095 104.1387 105.2672 106.3949 107.5217 108.6479 109.7733 110.8980 112.0220 113.1452 114.2679 115.3898 116.5110 117.6317 118.7516 119.8709 120.9897 122.1077 123.2252

65.4101 66.6165 67.8206 69.0226 70.2224 71.4202 72.6160 73.8099 75.0019 76.1921 77.3804 78.5671 79.7522 80.9356 82.1174 83.2977 84.4764 85.6537 86.8296 88.0040 89.1772 90.3488 91.5193 92.6885 93.8565 95.0231 96.1887 97.3530 98.5162 99.6784 100.8393 101.9992 103.1581 104.3159 105.4727 106.6285 107.7834 108.9373 110.0902 111.2422 112.3933 113.5436 114.6929 115.8415 116.9890 118.1359 119.2820 120.4270 121.5714 122.7152 123.8580 125.0001 126.1414 127.2821 128.4219
179

69.9569 71.2015 72.4432 73.6826 74.9194 76.1538 77.3860 78.6156 79.8434 81.0688 82.2920 83.5136 84.7327 85.9501 87.1658 88.3794 89.5912 90.8015 92.0099 93.2167 94.4220 95.6256 96.8277 98.0283 99.2274 100.4251 101.6214 102.8163 104.0098 105.2019 106.3929 107.5824 108.7709 109.9582 111.1440 112.3288 113.5123 114.6948 115.8762 117.0566 118.2356 119.4137 120.5909 121.7672 122.9422 124.1162 125.2893 126.4616 127.6330 128.8032 129.9725 131.1411 132.3089 133.4756 134.6415

73.1660 74.4367 75.7039 76.9689 78.2306 79.4898 80.7465 82.0006 83.2525 84.5018 85.7491 86.9940 88.2366 89.4770 90.7153 91.9518 93.1862 94.4185 95.6492 96.8779 98.1049 99.3303 100.5538 101.7757 102.9961 104.2148 105.4323 106.6473 107.8619 109.0742 110.2854 111.4954 112.7037 113.9107 115.1163 116.3209 117.5240 118.7261 119.9270 121.1262 122.3244 123.5218 124.7176 125.9123 127.1060 128.2987 129.4902 130.6812 131.8705 133.0589 134.2466 135.4327 136.6188 137.8030 138.9869

100 120 140 150 160 180 200 240 300 400 500

118.498 140.200 161.800 172.581 183.300 204.700 226.000 268.500 331.7885 436.6490 540.9303

124.3421 146.6000 168.6000 179.5803 190.5000 212.3000 234.0000 277.1000 341.43951 447.6324 553.1269

129.5613 152.2000 174.6000 185.800 196.9000 219.0000 241.1000 284.8000 349.8745 457.3056 563.8514

135.8069 159.0000 181.8000 193.2075 204.5000 227.1000 249.4452 293.9000 359.9064 468.7244 576.4931

140.1697 163.5000 186.8000 198.3591 209.8000 232.6000 255.2636 300.2000 366.8439 476.6068 585.2060

USOS SEGN TIPO DE PRUEBAS de 2. Para rea de rechazo en cola derecha usar el de la tabla Para rea de rechazo en cola izquierda usar 1- de la tabla Para rea de rechazo en las 2 colas usar /2 para derecha y (1-)/2 para la izquierda.

(Material extrado por Prof M.Boado de: J. de Leeuw, NWP Associates, J. Pezzullo, J. Walker (2000), UCLA (2000), NIST/SEMATECH (2001).

180

Vous aimerez peut-être aussi