Académique Documents
Professionnel Documents
Culture Documents
VI-1
UNIVERSIDAD DE JAN
Material del curso Anlisis de datos procedentes de investigaciones mediante programas informticos
Manuel Miguel Ramos lvarez
ndice 6.
MATERIAL VI INTRODUCCIN AL ANLISIS DE DATOS CATEGRICOS MATERIAL VI INTRODUCCIN AL ANLISIS DE DATOS CATEGRICOS ATERIAL NTRODUCCIN AL ANLISIS DE DATOS CATEGRICOS
MARCO GENERAL DEL ANLISIS DE DISEOS CON VARIABLES CATEGRICAS .......................2 6.1. EJEMPLOS DE APLICACIN DE LA PERSPECTIVA DE ANLISIS CATEGRICO PARA DIFERENTES TIPOS DE DISEOS DE INVESTIGACIN. ........................................................................................................................................4 6.2. LA CODIFICACIN E INTERPRETACIN ANALTICA DE LAS VARIABLES CATEGRICAS .......................................5 6.3. LA CODIFICACIN DE INFORMACIN EN DISEOS CATEGRICOS MEDIANTE PROGRAMAS INFORMTICOS. .......6 6.4. EVALUAR DIFERENTES TIPOS DE HIPTESIS ESTADSTICAS EN EL CONTEXTO CATEGRICO ..............................8 6.5. ANEXO. TABLAS DE CONTINGENCIA: ESTADSTICOS EN LOS PROGRAMAS DE ANLISIS ..................................13
VI-2
F ~F
50 20 70
nk = n jk
j
Total Marginales de A
n j = n jk
k
Frecuencias Conjuntas
njk
Es decir, el estudio presenta dos variables, fumar y desarrollar cncer de pulmn, que son categricas y por lo tanto los datos se miden ms bien a partir de la frecuencia de aparicin de los valores de sendas variables ( njk). Objetivo: Hasta qu punto las dos variables se relacionan entre s: los casos que confirman la idea de asociacin son de la diagonal principal y los casos que no la confirman seran los de la diagonal secundaria. En principio, hay ms casos favorables y por ende nos inclinaramos a pensar que dichos datos apoyan la idea de que las dos variables del estudio estn relacionadas. Podemos trazar una analoga con el planteamiento bsico de variables cuantitativas, donde: La frecuencia total n sera comparable a la gran media o media total Y . Las frecuencias conjuntas n jk seran comparables a las puntuaciones individuales Y jk . Y las frecuencias marginales n j y nk seran comparables a las medias marginales Y e Y k respectivamente.
j
VI-3
Lgica estadstica: Conceptos probabilsticos bsicos. Dos sucesos son independientes cuando la probabilidad de la conjuncin equivale al producto de sus probabilidades individuales:
p jk =
n j nk i = p j i pk n n
Si nuestro modelo estadstico especificara la independencia entre las dos variables categricas, para cada casilla esperaramos obtener como frecuencia:
n jk m jk = n j k
Es decir, desde probabilidades ( P vs ) a frecuencias ( n jk vs m jk ), multiplicamos por n. Las frecuencias esperadas con la letra eme y Phi para las probabilidades o frecuencias relativas en la poblacin. La ecuacin bsica que subyace al modelo es multiplicativa en lugar de ser aditiva pero si rescribimos las ecuaciones en logaritmos entonces volvemos a las bases estadsticas de tipo lineal-aditivo.
Podramos mantenernos, pues, dentro de la perspectiva lineal general pero incluir una funcin de enlace que nos permitiese ir desde las predicciones del modelo lineal hacia la variable criterio: o o o
Y = g ( ) , donde expresa los valores esperados en la variable criterio, la esperanza a partir de las frecuencias observadas ( E ( y ) ).
En el modelo lineal clsico dicha funcin es del tipo identidad En los diseos categricos la funcin de enlace podra ser del tipo logartmico:
Y = log( ) .
Este tipo de modelos se denomina logartmico-lineal y el planteamiento analtico es la perspectiva lineal generalizada (GLM). En el contexto explicativo, la regresin de var. criterio de tipo categrico se puede realizar tambin dentro del contexto del Modelo Lineal Generalizado, especificando una funcin de enlace del tipo Logit: Y = log
= log N
Se hacen predicciones probabilsticas a partir de la ecuacin de regresin, es decir toda una gama posible de valores entre 0 y 1. As, pues, en lugar de hacer predicciones sobre jk podramos hacerlas ms bien sobre el cociente entre dicha probabilidad y su complementaria (una razn de probabilidades, en ingls odds).
Los estimadores se pueden deducir fcilmente a partir de la teora de sucesos: En el caso de una tabla de contingencia bidimensional, la independencia vendr dada por:
log(m jk ) = + A + B
n jk m jk = n j k
Es decir, para cada casilla esperaramos obtener como frecuencia: Sustituimos las probabilidades por sus estimadores y nos quedara:
m jk = n i
n j nk n j nk i = n n n
VI-4
6.1. Ejemplos de aplicacin de la perspectiva de anlisis categrico para diferentes tipos de diseos de investigacin.
VARIABLES Categricas todas. Sin diferenciar estatus variables. Categricas todas. Unas son var.ind. y otra es var.dep. (mm. independientes) MODELO Log-lineal Logit Probit DISEO DE APLICACIN Descriptivo Explicativo(i.e. Experimental)
Logit-GSK
Predictores
Cuasiexperi-
Logit-Markov
Logit-Latente
VI-5
SISTEMA FICTICIO (DUMMY) INFORMAC. a1b1 a1b2 a2b1 a2b2 CONST. 1 1 1 1 A 0 0 1 1 B 0 1 0 1 A*B 0 0 0 1
VI-6
en
diseos
categricos
Cmo se obtienen las tablas de contingencia a partir de la matriz de informacin original? Los mdulos de anlisis estadstico relacionados con diseos categricos son muy diversos en el programa SPSS y adems funcionan segn una estructura diferente. Esto hace por ejemplo que a veces el programa nos pida las variables de anlisis en bruto, es decir las combinaciones de las variables categricas para cada uno de los sujetos medidos; mientras que en otras ocasiones se nos pide la tabla de contingencia subyacente (el cmputo de las frecuencias para cada combinacin). A continuacin se expone cmo pasar de un tipo de codificacin a la otra, Para facilitar la exposicin proponemos un ejemplo, como el que se resumen en la siguiente figura:
Fichero Frecuencias 3 variables y 4 casos: entona: Valores 1 y 2. signifi: Valores 1 y 2. Freq: Los valores de frecuencias
las
Fichero Datos Bruto 2 variables y 187 casos: entona: Valores 1 y 2. signifi: Valores 1 y 2.
Para obtener el Fichero de Frecuencias a partir del fichero de Datos en bruto, abrimos el correspondiente fichero de datos en bruto y entonces realizamos una reestructuracin de datos segn el comando [Datos|Reestructurar], lo que nos despliega un asistente de 5 pasos. En el primer paso elegimos la opcin Reestructurar los casos seleccionados en variables. En el segundo paso, definimos las dos variables como variables de identificacin. En el 3 paso, elegimos la opcin superior (que viene por defecto) de ordenacin. En el paso 4 hay que definir la nueva variable que contendr la frecuencia conjunta de aparicin (Freq), es decir:
VI-7
En el sexto y ltimo paso elegimos reestructurar los casos ahora y pulsamos el botn [Finalizar]. El programa cierra entonces el fichero original y nos crea uno nuevo con las variables deseadas. No olvidemos grabar el nuevo fichero. En el programa Statistica, todo es ms simple a travs del mdulo especializado de anlisis log-lineal. En concreto para obtener el Fichero de Frecuencias a partir del fichero de Datos en bruto, abrimos el correspondiente fichero de datos en bruto y entonces Statistics Advanced Linear/NonLinear Models Log-Linear Analysis of Frequency Tables Variables: Var1-Var2 OK Input File: Raw Data OK Pestaa Revew/Save Save the table
VI-8
A) ndice de Bondad de Ajuste Informacin: Sobre el ajuste entre frecuencias observadas y esperadas a partir de algn Modelo estadstico o Hiptesis. Por ejemplo, el grado de ajuste a la Normal. Las frecuencias esperadas se obtienen a partir de lo especificado en tal Hiptesis o Modelo. Matriz de Frecuencias Matriz de Frecuencias n in observadas (njk) mij = j k Esperadas (mjk)
a1 a2 nj
b1 75 30 105
b2 125 70 195
mj
Analizar Pruebas no paramtricas Chi-cuadrado Filas: VarA; Columnas: VarB Estadsticos (seleccionar los asociados a ChiCuadrado) Casillas Frecuencias Esperadas Aceptar (anlisis). Statistics Basicd Statistics Tables and Banners OK Specify Tables List1: VAR1; List2: VAR2 OK OK Pestaa Options: Pearson & M-L Chi-square; Expected frequencies Pestaa Advanced Detailed two-way tables.
Interpretacin Ejemplo:
Hiptesis: 0: Ajuste. 1: No Ajuste. Pruebas: Chi-Cuadrado Pearson (1900) Razn Verosimilitud Wilks (1935) G2 Mnimos Cuadrados Ponderados Neyman (1949).
0 : jk = k ; k 1 : jk k ; k /
VARIABLE A
1 0
VI-9
Ver ejemplo de Excel: ContrProporMMRA.xls En Statistica: Statistics tests: r, %, means OK between two proportions
A.1.) Pruebas de Contraste de Hiptesis para Proporciones Una muestra. o Pequea (n<25): P = X/n; B (n, 0) o
Difference Difference
Intermedia (n 25):
Z=
( P 0,5/n) - 0 ; N(0,1)
+: P > - : P<
Interpretacin Ejemplo:
Dos Muestras. o Independientes Sobre diferencia nula : P1 - P 2 Z= ; N(0,1) n1 P 1 + n 2 P 2 1- n 1 P 1 + n 2 P 2 1 + 1 n1 + n 2 n1 + n 2 n1 n 2 Sobre diferencia no nula (k):
Z=
( P1 - P 2 ) - k
VI-10
B) ndices de Homogeneidad Informacin: Se fijan las frecuencias marginales de una de las variables, por ejemplo, A y se clasifican las observaciones dentro de cada categora de A en funcin de la otra variable considerada, B. Si la distribucin de frecuencias de la variable que no estaba fijada es homognea no a travs de los niveles o categoras de la variable fijada. Ejemplo. la eficacia teraputica de un nuevo mtodo de tratamiento de la ansiedad en funcin del sexo. Si en el estudio fijamos un determinado nmero de varones, i.e. 200, y de mujeres, i.e. 100, entonces las Hiptesis estarn condicionadas por la variable que se ha fijado. Matriz Probabilidades observadas b2 b1 0,375 0,625 0,300 0,700 0,375 0,625 p(k/j)=njk/nj Matriz Probabilidades Esperadas b1 b2 Pk 0,350 0,650 0,350 0,650 0,350 0,650 0,075
Analizar Pruebas no paramtricas Chi-cuadrado Filas: VarA; Columnas: VarB Estadsticos (seleccionar los asociados a McNemar y Cochran) Casillas Frecuencias Esperadas Aceptar (anlisis). En Statistica todo como en cuadro previo pero con los estadsticos: Fisher exact, Yates, McNemar (2x2). Aparte, la prueba de Cochran se encuentra en Statistics Nonparametrics.
Interpretacin Ejemplo:
a1 a2 pj
Pj
Hiptesis: 0: Todas las (sub)poblaciones tienen la misma Distribucin. 1: No todas las (sub)poblaciones tienen la misma Distribucin. Estadsticos: Generales ; G ;W X2 en 2x2
2 2 2
0 : jk = k ; k 1 : jk k ; k /
Razn de Productos Cruzados (RPC) Razn Probabilidades (odds) y Logaritmo RPC (Log odd) Diferencia Probabilidades (Ver Pruebas Contraste Proporciones). Prueba McNemar (1955) para 2 muestras relacionadas (con frecuencias
muy bajas).
Prueba Cochran para k muestras relacionadas.
VI-11
C) ndices de Independencia Informacin: Se fija el tamao de la muestra y se clasifica a los participantes simultneamente en funcin de las variables de inters. Cuando los variables varan aleatoriamente, es decir no estn prefijadas, la Hiptesis fundamentalmente suele versar sobre la posible Independencia o Dependencia de las variables del estudio. Comparable al concepto de interaccin: Los cambios de la frecuencia provocados por una de las variables son alterados o modulados por otras variables del estudio?
Matriz de Frecuencias observadas (njk) b2 nk b1 75 125 200 30 70 100 105 195 300
Analizar Pruebas no paramtricas Chi-cuadrado Filas: VarA; Columnas: VarB Estadsticos (seleccionar los asociados a Chi-Cuadrado, Correlaciones y Nominal) Casillas Frecuencias Esperadas Aceptar (anlisis). En Statistica todo como en cuadro previo pero con los estadsticos: Fisher exact, Yates, McNemar (2x2) y Phi (2x2 tables) & Cramrs V & C.
p(jk)=njk/N Conjuntas
a1 a2 nj
Pj
Interpretacin Ejemplo:
Hiptesis: 0: Las variables son independientes. 1: Las variables son dependientes. Pruebas:
0 : jk = j i k ; j ,k 1 : jk j i k ; j ,k /
Generales ; G ;W Coeficiente de Correlacin Rho PHI (preferibles a las anteriores). Correccin de Yates, Cochran y Upton y la Prueba exacta de Fischer; que introducen la correccin por continuidad (si alguna de las fr. esperadas es menor que 1 y menos del 20% de las mismas es mayor que 5).
2 2 2
Aclaraciones: Homogeneidad es como Regresin ya que se toman muestras de varias poblaciones y el objetivo es demostrar si la respuesta es similar en dichas poblaciones. Independencia es como Correlacin ya que una poblacin se clasifica en dos categoras o atributos y el objetivo es evaluar si la respuesta a uno de los atributos es o no independiente de la respuesta al otro. El hecho de que las variables sean independientes estadsticamente es equivalente a afirmar que su asociacin es nula y a la inversa. D) ndices de Concordancia Anlogos a las medidas de asociacin, pero aplicables cuando las variables se computan en funcin de acuerdos-desacuerdos o concordancias-discrepancias. Son de utilidad para estimar la fiabilidad interjueces. Estadsticos: ndice Concordancia ( Porcentaje Acuerdos). Coef. Kappa de Cohen.
Analizar Pruebas no paramtricas Chicuadrado Filas: VarA; Columnas: VarB Estadsticos (seleccionar los asociados a Kappa) Casillas Frecuencias Esperadas Aceptar (anlisis). Ver tambin captulo de Diseos categricos en libro texto recomendado.
VI-12
Analizar Pruebas no paramtricas Chi-cuadrado Filas: VarA; Columnas: VarB Estadsticos (seleccionar los asociados a Correlaciones, Nominal, Ordinal y Nominal por intervalo) Casillas Frecuencias Esperadas Aceptar (anlisis). En Statistica todo como en cuadro previo pero con los estadsticos: Coefficient Phi (2x2 tables), Cramer's V and C, Kendall Tau, Gamma, Spearman R (rank order correlation), Sommer's d, Uncertainty Coefficients.
E) ndices de Asociacin Informacin: Para cuantificar el grado de asociacin cuando se piensa que las variables estn relacionadas que no son independientes Se fija el tamao de la muestra y se clasifica a los participantes simultneamente en funcin de las variables de inters. Es comparable a RPE en Modelizacin o estimacin del Efecto de Tratamiento.
Interpretacin Ejemplo:
VI-13
VI-14
orden cero. Para las tablas de tres o ms factores de clasificacin, se muestran las gammas condicionales. o d de Somers. Medida de asociacin entre dos variables ordinales que toma un valor comprendido entre -1 y 1. Los valores prximos a 1, en valor absoluto, indican una fuerte relacin entre las dos variables. Los valores prximos a cero indican que hay poca o ninguna relacin entre las dos variables. La d de Somers es una extensin asimtrica de gamma que difiere slo en la inclusin del nmero de pares no empatados en la variable independiente. Tambin se calcula una versin simtrica de este estadstico. o Tau-b de Kendall. Medida no paramtrica de la correlacin para variables ordinales o de rangos que tiene en consideracin los empates. El signo del coeficiente indica la direccin de la relacin y su valor absoluto indica la magnitud de la misma, de tal modo que los mayores valores absolutos indican relaciones ms fuertes. Los valores posibles van de -1 a 1, pero un valor de -1 o +1 slo se puede obtener a partir de tablas cuadradas. o Tau-c de Kendall. Medida no paramtrica de asociacin para variables ordinales que ignora los empates. El signo del coeficiente indica la direccin de la relacin y su valor absoluto indica la magnitud de la misma, de tal modo que los mayores valores absolutos indican relaciones ms fuertes. Los valores posibles van de -1 a 1, pero un valor de -1 o +1 slo se puede obtener a partir de tablas cuadradas. Nominal por intervalo. Cuando una variable es categrica y la otra es cuantitativa, seleccione Eta. La variable categrica debe codificarse numricamente. o Eta. Medida de asociacin cuyo valor siempre est comprendido entre 0 y 1. El valor 0 indica que no hay asociacin entre las variables de fila y de columna. Los valores cercanos a 1 indican que hay gran relacin entre las variables. Eta resulta apropiada para una variable dependiente medida en una escala de intervalo (por ejemplo, ingresos) y una variable independiente con un nmero limitado de categoras (por ejemplo, sexo). Se calculan dos valores de eta: uno trata la variable de las filas como una variable de intervalo; el otro trata la variable de las columnas como una variable de intervalo. Kappa. La kappa de Cohen mide el acuerdo entre las evaluaciones de dos jueces cuando ambos estn valorando el mismo objeto. Un valor igual a 1 indica un acuerdo perfecto. Un valor igual a 0 indica que el acuerdo no es mejor que el que se obtendra por azar. Kappa slo est disponible para las tablas cuadradas (tablas en las que ambas variables tienen el mismo nmero de categoras y utilizan los mismos valores de categora). Riesgo. Para las tablas 2 x 2, medida del grado de asociacin entre la presencia de un factor y la ocurrencia de un evento. Si el intervalo de confianza para el estadstico incluye un valor de 1, no se podr asumir que el factor est asociado con el evento. Cuando la ocurrencia del factor es poco comn, se puede utilizar la razn de ventajas como estimacin del riesgo relativo. McNemar. Prueba no paramtrica para dos variables dicotmicas relacionadas. Contrasta los cambios en las respuestas utilizando la distribucin de chi-cuadrado. Es til para detectar cambios en las respuestas debidas a la intervencin experimental en los diseos del tipo "antes-despus". Para tablas cuadradas mayores, se utiliza la prueba de simetra de McNemar-Bowker. Estadsticos de Cochran y de Mantel-Haenszel. Estos estadsticos se pueden utilizar para contrastar la independencia entre una variable dicotmica de factor y una variable dicotmica de respuesta, condicionada por los patrones en las covariables, los cuales vienen definidos por la variable o variables de las capas (variables de control). Tenga en cuenta que mientras que otros estadsticos se calculan capa por capa, los estadsticos de Cochran y Mantel-Haenszel se calculan una sola vez para todas las capas.
VI-15
Pearson Chi-square Maximum-Likelihood (M-L)Chi-square Fisher Exact Test Yates Correction McNemar Chi-square Coefficient Phi (2x2 tables) Cramer's V and C Kendall Tau Gamma Spearman R (rank order correlation) Sommer's d Uncertainty Coefficients