Vous êtes sur la page 1sur 46

CURSO DE CAPACITACIN: ANLISIS ESTADSTICO CON SPSS PARA WINDOWS (PAQUETE ESTADSTICO PARA LAS CIENCIAS SOCIALES)

SPSS PARA WINDOWS


(VERSIN 13.0)

TOMO II: Anlisis Estadstico

Lic. Andrea Blazsek Ing. Augusto Norte MENDOZA, NOVIEMBRE DE 2006

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

INDICE

INDICE.................................................................................................................................... 3 INTRODUCCIN .................................................................................................................... 4 1. ESTADSTICA DESCRIPTIVA........................................................................................ 5 1.1. ANLISIS UNIVARIADO .................................................................................................. 5 1.1.1. Distribucin de frecuencias ................................................................................... 5 1.1.2. Medidas de tendencia central: media, moda, mediana. ........................................ 9 1.1.3. Medidas de dispersin ........................................................................................ 11 ANLISIS BIVARIADO ............................................................................................................. 12 1.1.4. Asociacin entre dos variables ........................................................................... 12 1.1.5. Coeficientes de asociacin ................................................................................. 16 2. ESTADSTICA INFERENCIAL...................................................................................... 18 2.1. PRUEBAS NO PARAMTRICAS .................................................................................... 18 2.1.1. Chi cuadrado de Pearson ................................................................................... 18 2.2. PRUEBAS PARAMTRICAS .......................................................................................... 26 2.2.1. Medias ................................................................................................................ 26 2.2.2. Contraste sobre una media................................................................................. 30 2.2.3. Contraste sobre dos medias independientes ...................................................... 32 2.2.4. Anlisis de varianza de un factor ........................................................................ 37 2.2.5. Correlaciones Bivariadas .................................................................................... 41 BIBLIOGRAFA .................................................................................................................... 47

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Introduccin
El presente manual ilustra los procedimientos para anlisis de datos ms utilizados en ciencias sociales que ofrece el paquete estadstico SPSS. El mismo no pretende ser un libro de estadstica ni de metodologa y por lo tanto no contiene explicaciones ni conceptos de tales materias. Para la mejor comprensin de los procedimientos y la correcta interpretacin de sus resultados, se sugiere revisar los siguientes conceptos metodolgicos y estadsticos: Poblacin, Muestra, Distribucin de la muestra, Distribucin muestral, Teorema central del lmite, Parmetro de la poblacin y estadstico de la muestra, Prueba de hiptesis, Hiptesis nula e hiptesis alternativa, Distribucin Normal, Distribucin t de Student, Distribucin Chi cuadrado, Nivel de significancia e intervalo de confianza.

Nota: Se recuerda a los usuarios que al trabajar con la versin de prueba de SPSS que se brinda junto con este manual, se puede pedir que los resultados sean generados en otros idiomas ya que la misma se encuentra en ingls. Para los ejemplos utilizados en este manual se ha configurado la salida de resultados en espaol. Para cambiar el idioma en el que se generarn los resultados se debe ingresar en el men Edicin / Opciones ( Edit / Options) y en la pestaa General dentro del recuadro Resultados (Output) seleccionar Espaol (Spanish) en donde dice Idioma (Language).

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

1. Estadstica Descriptiva
1.1. Anlisis univariado
1.1.1. Distribucin de frecuencias El procedimiento Frecuencias (Frequencies) proporciona estadsticos y representaciones grficas que resultan tiles para describir muchos tipos de variables. Es un buen procedimiento para una inspeccin inicial de los datos. Particularmente, la distribucin de frecuencias muestra el nmero de veces que ocurre cada valor (o categora) de una variable. Se representa mediante conjuntos de pares (xi, fi) en donde xi representan los valores de la variable (categoras, en el caso en que la variable es cualitativa) y fi el nmero de veces que ocurre la categora o el valor xi. Para los informes de frecuencias y los grficos de barras, puede organizar los diferentes valores en orden ascendente o descendente u ordenar las categoras por sus frecuencias. Es posible suprimir el informe de frecuencias cuando una variable posee muchos valores diferentes. Puede etiquetar los grficos con las frecuencias (la opcin por defecto) o con los porcentajes. Para obtener una distribucin de frecuencias en SPSS, se procede de la siguiente manera: se elige en el men Analizar (Analyze) la opcin Estadsticos descriptivos (Descriptive Statistics), y luego la opcin Frecuencias (Frequencies).
Datos: Utilice cdigos numricos o cadenas cortas para codificar las variables categricas (medidas de nivel nominal u ordinal). Supuestos: Las tabulaciones y los porcentajes proporcionan una descripcin til para los datos de cualquier distribucin, especialmente para las variables con categoras ordenadas o desordenadas. Muchos de los estadsticos de resumen optativos, tales como la media y la desviacin tpica, se basan en la teora normal y son apropiados para las variables cuantitativas con distribuciones simtricas. Los estadsticos robustos, tales como la mediana, los cuartiles y los percentiles son apropiados para las variables cuantitativas que pueden o no cumplir el supuesto de normalidad.

Para utilizar el procedimiento Frecuencias (Frequencies) accedemos a travs del men Analizar / estadsticos descriptivos / Frecuencias... (Analyze / Descriptive Statistics / Frequencies) y nos encontramos con el cuadro de dilogo:

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

A la izquierda del cuadro se ubica el listado de variables: las variables contenidas en la matriz de datos. Las variables aparecen segn el orden que tienen en la matriz de datos (se puede optar por el orden alfabtico en el men Edit: Options....). De este listado se deben seleccionar las variables para el anlisis univariado, en este caso, la distribucin de frecuencias. Para seleccionar las variables, se utilizan los procedimientos habituales de seleccin empleados en las aplicaciones Windows. Para seleccionar una sola variable, se apunta con el mouse a la misma y se aprieta el botn izquierdo del mouse. La variable quedar seleccionada. Para seleccionar varias variables contiguas, se apunta con el mouse a la primera, se aprieta el botn izquierdo y se arrastra la flecha del mouse hasta seleccionar todas las variables. Tambin se pueden utilizar las teclas Shift y . Para seleccionar variables que se ubican en lugares discontinuos, se mantiene apretada la tecla Ctrl y se las selecciona con el mouse (apretando el botn izquierdo). En el centro del cuadro de dilogo se ubica un cuadro de texto que lleva el nombre Variables. En este cuadro se ubicarn las variables que se han seleccionado para el anlisis. Para pasarlas del listado de variables a este cuadro, se acciona la flecha negra que separa el listado del cuadro de texto. Para volver a pasar las variables al listado de variables, se las selecciona y se las pasa al listado accionando la pequea flecha negra. El botn Estadsticos (Statistics...) Al activarlo, se generar un cuadro que contiene las instrucciones de clculo de medidas de tendencia central, de posicin, de dispersin y de distribucin. El botn Grficos (Charts...) Permite la obtencin de grficos de barra, de sectores e histogramas. El botn Formato (Format...). Permite cambiar el formato del cuadro de distribucin de frecuencias (por ejemplo, ordenar los resultados de manera descendente o ascendente segn los cdigos o las frecuencias). Los botones OK, Pegar (Paste), Reset, Cancel y Help. A continuacin realizaremos un ejemplo simple para ilustrar este procedimiento. Accedemos a travs del men Analizar / estadsticos descriptivos / Frecuencias... (Analyze / Descriptive Statistics / Frequencies) Trasladamos las variables Lnea de pobreza [LIN_POB] y lnea de indigencia [LIN_IND] a la lista Variable(s).

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Luego hacemos clic en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretacin: El primer cuadro nos muestra por defecto algunos estadsticos descriptivos relacionados con esta prueba. En l se puede ver un resumen en donde se indica la cantidad de casos que fueron procesados y los que fueron excluidos del anlisis.
Estadsticos LINEA DE POBREZA 3625 196 LINEA DE INDIGENCIA 3625 196

Vlidos Perdidos

Los siguientes dos cuadros son las tablas de distribucin de frecuencias propiamente dichas de cada una de las variables seleccionadas.
LINEA DE POBREZA Porcentaje vlido 59,2 40,8 100,0 Porcentaje acumulado 59,2 100,0

Vlidos

Perdidos Total

Pobre No pobre Total Ns/Nc

Frecuencia 2145 1480 3625 196 3821

Porcentaje 56,1 38,7 94,9 5,1 100,0

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

LINEA DE INDIGENCIA Porcentaje vlido 28,9 71,1 100,0 Porcentaje acumulado 28,9 100,0

Vlidos

Perdidos Total

Pobre No pobre Total Ns/Nc

Frecuencia 1047 2578 3625 196 3821

Porcentaje 27,4 67,5 94,9 5,1 100,0

Los cuadros de distribucin de frecuencias generados en SPSS contienen los siguientes elementos: La descripcin (etiqueta) de la variable como ttulo del cuadro El sistema de categoras de la variable (las etiquetas de valores) La frecuencia absoluta, es decir, el nmero de ocurrencia de cada categora. En la misma columna aparece tambin el total de casos de la poblacin o muestra (3821 en el ejemplo). El porcentaje que se obtiene dividiendo la frecuencia absoluta de cada categora al total de casos, y multiplicando el resultado por 100. El porcentaje vlido es el porcentaje que se obtiene al designar alguna categora o valor de la variable como valor perdido por el usuario. El porcentaje acumulado es la suma de los porcentajes vlidos. La sumatoria empieza con el porcentaje del primer valor, al cual se suma el porcentaje del segundo valor, etc.

La diferencia entre el porcentaje y el porcentaje vlido


LINEA DE POBREZA Porcentaje vlido 59,2 40,8 100,0 Porcentaje acumulado 59,2 100,0

Vlidos

Perdidos Total

Pobre No pobre Total Ns/Nc

Frecuencia 2145 1480 3625 196 3821

Porcentaje 56,1 38,7 94,9 5,1 100,0

En el caso en que determinados valores de la variable se definen como valores perdidos (en el ejemplo, la categora Ns/Nc de la variable Lnea de pobreza se defini como valor perdido, en realidad esta categora indica que no se dispone de los datos de ingresos del hogar), el clculo del porcentaje vlido se realiza tomando como base el total del cual se resta la cantidad de casos perdidos. Es decir, la base de clculo del porcentaje vlido ser 3821 196 = 3625. Al realizar este clculo, se acepta implcitamente el hecho de que los valores perdidos se distribuyen en la poblacin con la misma proporcin que los restantes valores de la variable.

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Cuando se definen ciertos cdigos o valores como valores perdidos siempre hay que evaluar el porcentaje de dichos casos en la distribucin de frecuencias de la variable. Si el porcentaje excede el 5%, la distribucin de estos casos segn la frecuencia vlida puede sesgar los resultados, sobre todo por el hecho de que a veces los casos de no respuesta tienen alguna caracterstica que los diferencia del resto de la muestra y por ende, no se reparten en la misma proporcin que los casos vlidos. La distribucin de frecuencias se puede utilizar para todos los niveles de medicin: nominal, ordinal, intervalar y de razn. Para los niveles de medicin intervalar y de razn se aconseja presentar los datos bajo forma agrupada, es decir, obteniendo variables con intervalos. El procedimiento de recodificacin de las variables (vase el captulo 6) permite agrupar una variable cuantitativa en una variable con intervalos de clase. 1.1.2. Medidas de tendencia central: media, moda, mediana. Para calcular la media de una variable cuyo nivel de medicin es intervalar o de razn (recurdese que el clculo de la media no tiene sentido para variables nominales y ordinales), se procede de la siguiente manera: se elige la opcin Estadsticos Descriptivos (Descriptive Statistics) del men Analizar (Analyze). En la opcin Estadsticos Descriptivos se elige Descriptivos... (Descriptives)

Al seleccionar esta opcin, se genera un cuadro de dilogo que contiene en la parte izquierda el listado de variables de la matriz. Al activar el botn Opciones (Options) se puede visualizar el cuadro que contiene algunos estadsticos relacionados con las medidas de tendencia central y de dispersin. Para el clculo de la media se hace clic con el mouse en la opcin Media (Mean) (al elegir la opcin, aparece una tilde en la casilla correspondiente). Para desactivar las otras opciones seleccionadas, se hace un clic con el mouse en las casillas correspondientes. Despus se hace clic en el botn Continue, volvindose al cuadro inicial. El procedimiento de seleccin de variables para las cuales se quiere calcular la media es el mismo que en el caso de las distribuciones de frecuencias. Para calcular la moda y la mediana se debe utilizar la opcin Frecuencias... En esta opcin tambin se puede calcular la media. Recurdese que la moda se puede calcular para todos los niveles de medicin, e indica el valor o categora que tiene la frecuencia mxima en la distribucin. La mediana se puede calcular a partir del nivel ordinal, e indica el valor que divide a la serie de datos (ordenada de manera ascendente o descendente) en dos partes numricamente iguales.

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Accedemos a travs del men Analizar / estadsticos descriptivos / Frecuencias... (Analyze / Descriptive Statistics / Frequencies)

En el cuadro de dilogo correspondiente a las distribuciones de frecuencias, se eligen las variables para las cuales se quieren obtener las medidas de tendencia central. Luego en el cuadro que se activa desde el botn Estadsticos (Statistics) se eligen las opciones contenidas en Tendencia Central (Central Tendency): Media (Mean), Mediana (Median) y Moda (Mode). Se pulsa el botn Continue, volvindose al cuadro inicial. En el caso en que no se quiere obtener una distribucin de frecuencias de las variables (solamente se quieren calcular las medidas de tendencia central) se desactiva la opcin Mostrar tablas de frecuencia (Display frequency tables) en el cuadro inicial, haciendo un solo clic con el botn izquierdo del mouse en la casilla tildada.

10

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Ejemplo: (con la tabla de frecuencias desactivada) Clculo de la media, mediana y moda del ingreso total familiar, en base a la EPH, onda octubre de 2002.
Estadsticos MONTO DEL INGRESO TOTAL FAMILIAR N Vlidos 983 Perdidos 72 Media 739,7294 Mediana 502,0000 Moda 300,00

El clculo se ha realizado sobre el total de hogares relevados en la EPH En el mismo cuadro de dilogo correspondiente a la opcin Estadsticos del cuadro Frecuencias se pueden calcular los valores correspondientes a diferentes medidas de posicin: cuartiles, quintiles, deciles, percentiles. Los cuartiles (dividen a la serie ordenada en cuatro partes iguales) se obtienen al elegir la opcin Cuartiles (Quartiles). Los quintiles (dividen a la serie ordenada en 5 partes iguales), los deciles (dividen a la serie en 10 partes iguales), etc., se pueden obtener al teclear en la casilla correspondiente a Puntos de corte para ... grupos iguales (Cut points for .. equal groups) la cantidad de divisiones iguales que se quiere aplicar a la serie de datos. 1.1.3. Medidas de dispersin Las medidas de dispersin se pueden calcular recurriendo a la opcin Frequencies (pulsando el botn Statistics en el cuadro de dilogo correspondiente a Frequencies) o la opcin Descriptives (eligiendo Options... en el cuadro de dilogo). Se pueden calcular las siguientes medidas de dispersin: La amplitud o rango (Range) es la diferencia entre el valor mximo y el mnimo de un conjunto de datos. La varianza (Variance) es la media de las desviaciones que tienen los casos con respecto a la media de la serie de datos, elevadas al cuadrado. La desviacin tpica (Std. Deviation) es la raz cuadrada de la varianza.

Para calcular las medidas descritas, se hace clic con el mouse en las siguientes opciones: Desviacin tpica, Varianza, Amplitud. Ejemplo: Clculo del rango, desviacin tpica y varianza del ingreso total familiar, en base a la EPH, onda octubre de 2002.
Estadsticos descriptivos N MONTO DEL INGRESO TOTAL FAMILIAR N vlido (segn lista) 983 983 Rango 6730,00 Mnimo 20,00 Mximo 6750,00 Desv. tp. 730,0916 Varianza 533033,7

11

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Anlisis bivariado
1.1.4. Asociacin entre dos variables Para poder analizar la asociacin entre dos variables, en primer lugar se deben comparar porcentajes. Dichos porcentajes se obtienen mediante una tabulacin cruzada (un cruce) de las dos variables que se quieren analizar. La tabulacin cruzada es una tabla de dos entradas, que permite examinar conjuntamente el comportamiento de dos variables. Ejemplo de tabla de asociacin 2x2 (con dos variables dicotmicas): Variable X x1 x2 f11 f12 f21 f22 f11 + f21 f12 + f22

Variable Y Y1 Y2 Total columna

Total Fila f11 + f12 f21 + f22 N

En el ejemplo se han cruzado dos variables dicotmicas X e Y, con sus correspondientes categoras: x1 x2; y1 y2. Las frecuencias f11, f12, f21 y f22 corresponden a la cantidad de casos observada en cada una de las cuatro combinaciones de las categoras de las dos variables: x1y1, x2y1, x1y2, x2y2, respectivamente. Las frecuencias correspondientes al total marginal de las columnas (total columna) y al total marginal de las filas (total fila) se llaman frecuencias marginales, y en realidad, representan la distribucin de frecuencias para cada variable en parte. As, la frecuencia marginal de la columna representa la distribucin de frecuencias de la variable X, sin tener en cuenta la influencia de la variable Y. N representa el total de la poblacin o de la muestra. En una tabla de asociacin se pueden calcular tres tipos de porcentajes. Los porcentajes por fila se obtienen dividiendo el valor absoluto de cada celda al total marginal de la fila correspondiente y multiplicando por 100, es decir f11/(f11+ f12) *100; f12(/f11 + f12)* 100 para la primera fila del cuadro y f21(/f21 + f22)*100; (f22/f21 + f22)*100 para la segunda fila. Los porcentajes as obtenidos deben sumar 100 horizontalmente. Los porcentajes por columna se obtienen dividiendo el valor absoluto de cada celda al total marginal de la columna correspondiente y multiplicando el resultado por 100, es decir f11/(f11 + f21)*100; f21/(f11 + f21)*100 para la primera columna del cuadro y f12/(f12 + f22)*100; (f22/f12 + f22)*100 para la segunda columna. Los porcentajes as obtenidos deben sumar 100 verticalmente. Los porcentajes totales se obtienen dividiendo el valor de cada celda a n y multiplicando el resultado por 100: f11/n*100, f 12/n*100, f21/n*100 y f22/n*100. La suma de dichos porcentajes debe dar 100. Para efectuar de una manera correcta la comparacin de los porcentajes por columna y por fila, en el caso en que se quiere estudiar el efecto que produce una variable sobre la otra, se debe seguir la regla de Zeisel. Segn esta regla, la comparacin de los porcentajes siempre se debe hacer en el sentido opuesto al que han sido sacados. As, en el caso en que el porcentaje se obtuvo por columna (utilizando como base de clculo los totales marginales de columna), la comparacin se hace horizontalmente, y a la inversa, si los porcentajes se han sacado en el sentido de la fila, la comparacin se debe hacer verticalmente.

12

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

A continuacin se ilustra la lgica subyacente a esta forma de comparacin. Variable X Variable Y y1 y2 Total columna x1 a c a+c x2 b d b+d Total Fila a+c c+d a+b+c+d

Si se calculan los porcentajes por columna se obtienen los siguientes resultados: a/(a+c)*100 y c/(a+c)*10 para la primera columna y b/(b+d)*100 y d/(b+d)*100 para la segunda columna. Si la diferencia porcentual se calcula en el mismo sentido en que han sido sacados los porcentajes, se obtiene: (1) a/(a+c)*100 - c/(a+c)*100 = (a-c) / (a+c) *100

o para la segunda columna (2) b/(b+d)*100 - b/(b+d)*100 = (b-d) / (b+d) *100

Cabe destacar que el resultado (1) es independiente de b y d, es decir si la comparacin se hace en el mismo sentido en que se han calculado los porcentajes, no se toma en cuenta toda la informacin contenida en la tabla. Lo mismo sucede con el resultado (2), en tanto que es independiente de a y c. Si los porcentajes se comparan en el sentido opuesto al que han sido sacados, los resultados son: (1) (2) a/(a+c)*100 - b/(b+d)*100 = (ad-bc)/(a+c)(b+d)*100 c/(a+c)*100 - d/(b+d)*100 = (bc-ad)/(a+c)(b+d)*100 En este caso el resultado obtenido refleja los valores contenidos en toda la tabla. La diferencia porcentual calculada de este modo representa un coeficiente de asociacin, llamado Epsilon. Si bien no es del todo riguroso y es muy simple, tiene ventajas prcticas, ya que es muy fcil de calcular. Esta diferencia porcentual se calcula en sentido contrario al que han sido sacados los porcentajes. Por ejemplo, si los porcentajes han sido sacados verticalmente, el coeficiente Epsilon se obtiene, restando horizontalmente, dos a dos, los porcentajes de las columnas. Si la tabla es 2x2, es suficiente calcular un solo coeficiente Epsilon. En el caso de tablas que tienen dimensiones ms grandes, se deben calcular varios coeficientes. Para obtener una tabla de asociacin entre dos variables en el SPSS, accedemos a travs del men Analizar / Estadsticos Descriptivos / Tablas de contingencia... (Analyze / Descriptive Statistics / Crosstabs) y de esta manera nos encontramos con el siguiente cuadro de dilogo:

13

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

En el cuadro de dilogo que se genera se eligen del listado de variables las dos variables que se quieren asociar. Una de ellas se ubicar horizontalmente (por fila) y la otra, verticalmente (por columna) en la tabla de dos entradas. La variable que se ubicar por fila se debe pasar al cuadro correspondiente a Filas (Rows) y la variable que se situar por columna, se debe pasar al cuadro llamado Columnas (Columns). Para poder calcular los porcentajes en el interior de cada celda, se elige en el cuadro de dilogo correspondiente a las tablas de asociacin la opcin Casillas (Cells....) En el cuadro que se genera al activar esta opcin, se hace clic con el mouse en las casillas correspondientes a Porcentajes (Percentages) indicando el tipo de porcentajes que se quiere obtener: Fila (Row) (calculado sobre el total de la fila), Columna (Column) (calculado sobre el total de la columna), Total (calculado sobre el total de la poblacin). Una vez activadas las opciones, se hace clic en el botn Continue y se vuelve al cuadro inicial. En el caso en que una de las variables (o ambas) contienen valores perdidos (del sistema o definidos por el usuario), estos valores se omitirn de la tabla de asociacin. Dado que se pueden sacar tres tipos de porcentajes, es importante establecer cul de los tres presenta mayor inters para el anlisis. Tambin es muy importante, antes de efectuar la asociacin, formular la hiptesis asociativa que vincula las dos variables que se estudian. Generalmente el porcentaje sobre el total no se utiliza para la interpretacin de la relacin de asociacin, excepto cuando se analizan tipologas obtenidas con las categoras de las dos variables. Un ejemplo podra ser la tipologa de pobreza obtenida a partir del cruce de la variable Lnea de pobreza (Hogares encima de la lnea de pobreza y hogares debajo de la lnea de pobreza) con la variable Necesidades bsicas insatisfechas. Esta asociacin permite obtener los siguientes tipos de pobreza: pobreza crnica (Hogares que se ubican debajo de la lnea de pobreza y tienen por lo menos una necesidad bsica insatisfecha), nueva pobreza (hogares que son pobres por lnea de pobreza pero no tienen carencias crticas), pobreza inercial (hogares pobres por NBI, pero cuyos

14

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

ingresos los ubican encima de la lnea de pobreza) y hogares no pobres (no presentan carencias crticas y se ubican encima de la lnea de pobreza). Para analizar la proporcin de cada uno de estos tipos en los hogares estudiados, se realiza el cruce correspondiente y se calculan los porcentajes sobre el total. Ejemplo: Cruce de la variable NBI con la variable Pobreza por ingresos para establecer tipos de pobreza. Datos de la EPH onda octubre de 1996 (total hogares)
NBI Pobre No pobre 93 210 9,5% 21,5% 40 635 4,1% 64,9% 133 845 13,6% 86,4%

LINEA DE POBREZA Pobre No pobre Total

Recuento % del total Recuento % del total Recuento % del total

Total 303 31,0% 675 69,0% 978 100,0%

En el cuadro del ejemplo se puede observar que el 9,5% de los hogares se encuentra en pobreza crnica, el 21,5% debajo de la lnea de pobreza (nuevos pobres), el 4,1% son pobres inerciales y un 64,9% del total de los hogares no son pobres. Cuando se desea comparar porcentajes por fila o columna, en primer lugar se debe establecer cul de las dos variables es la independiente (la causa) y cul es la dependiente (el efecto). Obviamente no en todas las situaciones es posible establecer la causa de un fenmeno, sobre todo en ciencias sociales, donde la mayora de los fenmenos tienen causas mltiples, y generalmente las relaciones no son asimtricas (de causa a efecto), sino recprocas (una de las variables influye en la otra, y viceversa). Pese a estas dificultades, en ciertas situaciones se puede establecer con precisin cul es la variable independiente. Generalmente las variables de base y de personalidad son independientes en relacin con las variables de opinin y comportamiento, ya que las suelen determinar. Ejemplos de variables de base son: edad, sexo, ocupacin, nivel educativo, raza, religin, etc. Las variables de personalidad son de tipo psicolgico, a saber, coeficiente de inteligencia, motivacin, rasgos de personalidad, etc. La relativa permanencia de una variable con respecto a la otra (los cambios en la primera no ocurren con frecuencia, mientras que la segunda vara a menudo) hace que se pueda asumir que la primera es la independiente y la segunda la dependiente. La anterioridad temporal de una variable con respecto a la otra. La variable anterior puede considerarse como variable independiente. A veces, los objetivos de la investigacin permiten plantear cul es la variable independiente, y cul la dependiente.

En todas estas situaciones, cuando se conoce cul es la variable independiente, segn la regla de Zeisel, los porcentajes se deben obtener en el sentido de la variable independiente, efectundose la comparacin de porcentajes en el sentido opuesto. Para facilitar la lectura de los porcentajes, generalmente la variable independiente se suele ubicar en la columna. Esta ubicacin es solamente una convencin y no influye en los datos. En el caso de haber ubicado la variable

15

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

independiente por columna, la comparacin se hace horizontalmente, dado que los porcentajes se han calculado en el sentido vertical. En el siguiente ejemplo se muestra el procedimiento.
Resumen del procesamiento de los casos Casos Perdidos N Porcentaje 61 5,8%

N LINEA DE POBREZA * NIVELREC

Vlidos Porcentaje 994 94,2%

Total Porcentaje 100,0%

1055

Jefes de hogar por nivel educativo segn lnea de pobreza


NIVELREC Secundario Superior Universitario 195 14 29 53,1% 27,5% 16,7% 172 37 145 46,9% 72,5% 83,3% 367 51 174 100,0% 100,0% 100,0%

LINEA DE POBREZAPobre

Total

Recuento % de NIVELREC No pobre Recuento % de NIVELREC Recuento % de NIVELREC

Primario 254 63,2% 148 36,8% 402 100,0%

Total 492 49,5% 502 50,5% 994 100,0%

Los porcentajes han sido sacados verticalmente, pero la comparacin se debe hacer por fila. Leyendo dichos porcentajes, se puede observar que a menor nivel educativo, aumenta el porcentaje de los jefes de hogar que estn en situacin de pobreza (se comparan los porcentajes en sentido horizontal: 63,2%, 53,1%, 27,5% y 16,7%). A la inversa, a mayor nivel educativo, desciende el porcentaje de jefes de hogar pobres. 1.1.5. Coeficientes de asociacin Los coeficientes de asociacin se utilizan para evaluar la intensidad de la asociacin. Estos coeficientes varan entre 0 y 1 para variables nominales, y 1 y 1 para variables ordinales. En el caso de las variables nominales, 0 indica la ausencia de asociacin y 1 la presencia de una asociacin perfecta. En el caso de las variables ordinales es posible establecer la direccin de la asociacin, -1 indicando una asociacin perfecta negativa, y +1, una asociacin perfecta positiva. Se utilizan distintos coeficientes en funcin del nivel de medicin de las variables. En el caso en que las variables son nominales y dicotmicas, el coeficiente ms utilizado es el Phi. Si la tabla tiene dimensiones ms grandes, se recomienda el uso del coeficiente V de Cramer. En el caso de dos variables ordinales, se pueden utilizar los coeficientes Tau-b y Tau-c de Kendall. Para las tablas simtricas (igual cantidad de filas y columnas) se debe utilizar el Tau-b. Para las tablas asimtricas (la cantidad de filas no coincide con la cantidad de columnas) se debe utilizar el Tau-c. Si se asocia una variable ordinal con una nominal, se debe utilizar un coeficiente correspondiente al nivel nominal.

16

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Para calcular estos coeficientes, se debe activar la opcin Statistics de la instruccin Tablas de contingencia (Crosstabs) y se hace clic en los nombres de los coeficientes que se desea calcular (Phi y V de Cramer; Tau-b de Kendall; Tau-c de Kendall).

17

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

2. Estadstica Inferencial
2.1. Pruebas No Paramtricas
2.1.1. Chi cuadrado de Pearson Para evaluar si hay alguna relacin entre las variables, comnmente se recurre a la diferencia de porcentajes. Tambin se pueden obtener coeficientes de asociacin, que indican la intensidad de la asociacin. Sin embargo, antes de interpretar las diferencias porcentuales y los eventuales coeficientes, se debe evaluar la significacin estadstica de la relacin e inferir su validez respecto a la poblacin. La prueba estadstica que permite realizar esto es el Chi-cuadrado. El mtodo tradicional de la prueba de hiptesis consiste en los siguientes pasos: Se formula la hiptesis de investigacin que afirma una relacin entre dos variables. Se formula la hiptesis nula segn la cual no hay relacin entre las dos variables, es decir, las variables son independientes. Se elige la prueba: Chi-cuadrado. Se elige un nivel de significacin (). indica el riesgo de equivocarse y rechazar la hiptesis nula, cuando en realidad sta es verdadera. En lenguaje estadstico se llama error tipo I. Generalmente el nivel de significacin con el cual se trabaja en las ciencias sociales es 0,05. Esto significa que de 100 muestras que se podran seleccionar a partir de la poblacin considerada, en 5 se rechaza errneamente la hiptesis nula. En el caso de la asociacin, esto significa que en 5 muestras de 100, si bien se ha obtenido una relacin, sta se debe al azar y no refleja la existencia una relacin en la poblacin. Se determinan los grados de libertad de la tabla de asociacin. La distribucin Chi-cuadrado es una familia de distribuciones que depende de los grados de libertad, los cuales se obtienen mediante un clculo. Los grados de libertad indican la cantidad de datos que se pueden emplear en el clculo estadstico sin restricciones. En el caso de las distribuciones univariadas, los grados de libertad son n-1. En el caso de las tablas de asociacin, los grados de libertad se calculan utilizando la frmula (c-1)(r-1), en donde c representa la cantidad de columnas del cuadro, y r la cantidad de filas. Por ejemplo, si la tabla tiene 2 columnas y 3 filas, los grados de libertad son 2. Conociendo y los grados de libertad, se puede obtener el valor crtico del estadstico 2 , recurriendo a las tablas de la distribucin de Chi-cuadrado. El valor crtico correspondiente al nivel de significacin seleccionado y a los grados de libertad de la tabla de asociacin se encuentra en la interseccin de la fila (grados de libertad) con la columna (nivel de significacin). Determinacin de la zona de rechazo de la hiptesis nula. El valor crtico delimita la zona de aceptacin de la zona de rechazo. Todos los valores observados del estadstico 2, que son mayores al valor crtico se ubicarn en la zona de rechazo de la hiptesis nula. Se calcula el valor observado del 2 y se compara con el valor crtico. Toma de decisin: si el valor observado es mayor que el valor crtico, se puede rechazar la hiptesis nula, es decir la hiptesis de independencia entre las variables consideradas. Esto significa que la relacin entre las variables es estadsticamente significativa, a un nivel de significacin del 5%.

El clculo del estadstico Chi-cuadrado se hace comparando las frecuencias observadas con las frecuencias esperadas, que se obtienen en el caso en que las dos variables fueran independientes. Las frecuencias esperadas se calculan multiplicando las frecuencias marginales de

18

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

las columnas y filas, correspondientes a cada una de las celdas de la tabla de asociacin y dividiendo el producto a la cantidad de casos. Para la tabla de asociacin general que se presenta a continuacin, la frecuencia esperada para la primera celda de la tabla con la frecuencia observada f11 es (f11 + f12)(f11 + f21) / n. Cuanto mayor es la diferencia entre las frecuencias observadas y esperadas, mayor ser la probabilidad de que la muestra provenga de una poblacin en la que las variables estn relacionadas.

Variable X Variable Y Y1 Y2 Total columna X1 f11 f21 f11 + f21 x2 f12 f22 f12 + f22 Total Fila f11 + f12 f21 + f22 N

Para efectuar la Prueba de Chi cuadrado accedemos a travs del men Analizar / Estadsticos Descriptivos / Tablas de contingencia... (Analyze / Descriptive Statistics / Crosstabs) y de esta manera nos encontramos con el siguiente cuadro de dilogo:

La lista de variables contiene un listado con todas las variables del archivo de datos. Para llevar a cabo un contraste con las especificaciones que el procedimiento tiene establecidas por defecto: Trasladar al menos una variable al cuadro de Filas (Row(s)) y una variable al cuadro de Columnas (Column(s)).

19

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Luego hacer click en el botn Estadsticos (Statistics) y tildar la opcin Chi cuadrado (Chisquare).

Tambin se pueden obtener las frecuencias esperadas. Para esto se debe hacer click en el botn Casillas (Cells) y tildar la opcin Esperadas (Expected). Se puede observar que la opcin Observadas (Observed) est predeterminada. Esta opcin permite obtener las frecuencias absolutas observadas en cada celda de la tabla de asociacin.

Advertencia: El estadstico Chi-cuadrado puede estar sesgado y no se recomienda su utilizacin en el caso en que haya celdas con valores esperados menos de 1, y haya ms del 20% de las celdas con valores esperados menos de 5. Esta situacin se produce en los casos en que la

20

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

muestra es pequea, o las variables cruzadas contienen muchas categoras. En el ltimo caso conviene agrupar las categoras, reduciendo la cantidad de las mismas. A continuacin realizaremos dos ejemplos para este procedimiento. Se plantea la siguiente hiptesis de investigacin: las mujeres tienen mayor probabilidad de estar desocupadas que los hombres. Se quiere contrastar la hiptesis utilizando los datos de la base EPH2002.sav. La poblacin en estudio es la poblacin econmicamente activa (PEA). Se formula la hiptesis nula: no hay relacin entre el sexo y la desocupacin. Para realizar esta prueba de hiptesis, previamente se debe acondicionar la base de datos. En este caso, se debe realizar un filtro para seleccionar solamente la PEA. La expresin que se introducir en la opcin del filtro es la siguiente: estado = 1 | estado = 2. Una vez aplicado el filtro, Trasladamos al recuadro Fila(s) (Row(s)) la variable Condicin de actividad [estado] Trasladamos al recuadro Columna(s) (Column(s)) la variable Sexo

Luego damos click en el botn Casillas (Cells), tildamos las opciones Esperadas (Expected) y Columna (Column) y damos click en Continuar (Continue).

21

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Luego damos click en el botn Estadsticos (Statistics), tildamos la opcin Chi cuadrado (Chi-square) y damos click en Continuar (Continue).

Luego damos click en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

22

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Tabla de contingencia CONDICION DE ACTIVIDAD * SEXO SEXO Varn Mujer 787 527 782,2 531,8 89,0% 87,7% 97 74 101,8 69,2 11,0% 12,3% 884 601 884,0 601,0 100,0% 100,0%

CONDICION DE ACTIVIDAD

Ocupado

Desocupado

Total

Recuento Frecuencia esperada % de SEXO Recuento Frecuencia esperada % de SEXO Recuento Frecuencia esperada % de SEXO

Total 1314 1314,0 88,5% 171 171,0 11,5% 1485 1485,0 100,0%

Pruebas de chi-cuadrado Valor ,630b ,506 ,627 gl 1 1 1 Sig. asinttica (bilateral) ,427 ,477 ,429 ,456 ,630 1485 1 ,427 ,238 Sig. exacta (bilateral) Sig. exacta (unilateral)

Chi-cuadrado de Pearson Correccin a por continuidad Razn de verosimilitud Estadstico exacto de Fisher Asociacin lineal por lineal N de casos vlidos

a. Calculado slo para una tabla de 2x2. b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 69,21.

Interpretacin: Si se analiza la tabla de asociacin obtenida, se distinguen los siguientes valores: las frecuencias absolutas observadas en cada celda. Por ejemplo, hay 787 varones ocupados y 74 mujeres desocupadas. los totales de cada fila y columna, es decir, las frecuencias marginales que representan la distribucin de frecuencia simple de cada una de las variables cruzadas. el segundo valor de la celda indica la frecuencia esperada (por ejemplo, 782,2 en el caso de los varones ocupados). Si se analizan dichas frecuencias, se puede notar que la diferencia entre los valores observados y esperados es muy reducida. los porcentajes por columna. Se puede observar que la diferencia porcentual entre varones y mujeres segn las dos categoras de la condicin de actividad (ocupado y desocupado) es muy reducida.

El Chi-cuadrado utilizado en la evaluacin de la significacin estadstica de la relacin es el Chi-cuadrado (Chi-Square) de Pearson. El SPSS efecta otros dos contrastes tambin: Likelihood Ratio (Razn de Mxima Verosimilitud) y Linear-by-Linear Association. La razn de mxima verosimilitud se utiliza en el contexto de modelos lineales logartmicos (que representa un sistema

23

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

general de anlisis de tablas de asociacin), y para muestras grandes tiene valores semejantes al Chi-cuadrado de Pearson. Tambin se indica la frecuencia mnima esperada (Minimum Expected Frequency), que en ninguna celda debe ser menor de 1. Si en el 20% de las celdas se obtienen valores esperados entre 1 y 5, la salida de resultados indicar esta situacin. En nuestro ejemplo se consigna que no hay ninguna celda que tenga una frecuencia esperada inferior a 5. Si las variables que se han cruzado son dicotmicas, en vez de leer el valor del Chi-Cuadrado (Chi-Square), se debe leer el valor del Continuity Correction que es la correccin de Yates (correccin por continuidad) aplicada al clculo del Chi-Cuadrado de las tablas dicotmicas. En el ejemplo presentado, el Chi-cuadrado de Pearson es 0,630 y la correccin por continuidad introduce una leve modificacin al valor del Chi-cuadrado: 0,506. Cabe notar que en la salida del SPSS se registran los valores de las pruebas de contraste en la columna correspondiente a Valor (se lee la fila correspondiente al Chi-cuadrado de Pearson / correccin por continuidad), los grados de libertad en la columna llamada gl (grados de libertad) y los valores-P en la columna Sig. Asinttica (significacin asinttica bilateral) El valor-P mide la probabilidad de obtener al azar un determinado estadstico. En el ejemplo presentado, el valor-P representa la probabilidad de obtener el valor 0,506 del estadstico de Chicuadrado al azar. Observamos que el valor-P de este estadstico es 0,477, casi 0,5. Esto significa que la probabilidad de rechazar la hiptesis nula equivocadamente a partir de los resultados del ejemplo es 0,5; probabilidad significativamente mayor que = 0,05. En consecuencia, la evaluacin de los resultados de la salida de SPSS para el Chi-cuadrado se puede hacer de dos formas: Se compara el valor crtico del estadstico 2 (obtenido de las tablas, en funcin del nivel de significacin y los grados de libertad) con el valor observado obtenido en la salida de resultados. Si el valor observado es mayor que el valor crtico, se puede rechazar la hiptesis nula de independencia. A la inversa, si el valor observado es menor que el valor crtico, hay que aceptar la hiptesis nula. Se compara el valor del (generalmente 0,05) con el valor-P (Significacin) obtenido en la salida de resultados. Si el valor-P es mayor que =0,05, hay que aceptar la hiptesis nula de independencia (es decir, no hay relacin entre las variables estudiadas). Si el valor-P es menor que =0,05, se rechaza la hiptesis nula, confirmndose de este modo la existencia de una relacin entre las dos variables.

En este ejemplo, el valor-P es significativamente mayor que =0,05, por lo tanto se acepta la hiptesis nula, es decir, se puede inferir, que a nivel de la poblacin en cuestin, no hay relacin entre las dos variables estudiadas: sexo y condicin de actividad. Veamos otro ejemplo, en donde trabajamos con una variable dicotmica y otra, policotmica (que tiene ms de dos categoras). Planteamos la siguiente hiptesis de investigacin: existe relacin entre sexo y categora ocupacional. La hiptesis nula correspondiente es: no hay relacin entre sexo y categora ocupacional. Nuevamente se debe acondicionar la base, seleccionando, esta vez, al conjunto de ocupados. Se obtiene la siguiente tabla de asociacin:

24

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Tabla de contingencia CATEGORIA OCUPACIONAL * SEXO SEXO CATEGORIA Patrn OCUPACIONAL Cta. propia Recuento Frecuencia esperada % de SEXO Recuento Frecuencia esperada % de SEXO Recuento Frecuencia esperada % de SEXO Recuento Frecuencia esperada % de SEXO Recuento Frecuencia esperada % de SEXO Varn 36 28,2 4,6% 225 195,9 28,6% 510 549,4 64,9% 15 12,6 1,9% 786 786,0 100,0% Mujer 11 18,8 2,1% 102 131,1 19,4% 407 367,6 77,4% 6 8,4 1,1% 526 526,0 100,0% Total 47 47,0 3,6% 327 327,0 24,9% 917 917,0 69,9% 21 21,0 1,6% 1312 1312,0 100,0%

Asalariado

Trabaj. sin salario

Total

Si se realiza un mero examen de los porcentajes, se pueden notar diferencias porcentuales por categora ocupacional: entre los patrones y los trabajadores por cuenta propia se observa una cierta predominancia de los varones, y entre los asalariados, sobresalen las mujeres.
Pruebas de chi-cuadrado Valor 24,425a 25,144 18,035 1312 gl 3 3 1 Sig. asinttica (bilateral) ,000 ,000 ,000

Chi-cuadrado de Pearson Razn de verosimilitud Asociacin lineal por lineal N de casos vlidos

a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 8,42.

En cuanto a la prueba Chi-cuadrado, se observa que el valor del estadstico es 24,4 y la significacin o valor-P correspondiente a este valor del Chi-cuadrado es 0,000, es decir, bastante menor que =0,05. Esto significa, que esta vez, la hiptesis nula se rechaza y se acepta la existencia de una relacin entre sexo y categora ocupacional

25

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

2.2. Pruebas Paramtricas


Presuposiciones de la estadstica paramtrica: La distribucin poblacional de la variable dependiente es normal: el universo tiene una distribucin normal. El nivel de medicin de la variable es por intervalos o de razn. Cuando dos o ms poblaciones son estudiadas, stas tienen una varianza homognea: las poblaciones en cuestin tienen una dispersin similar en sus distribuciones. (Test de Levene)

Comparacin de medias
La opcin Comparar medias (Compare Means) del men Analizar (Analyze) contiene varios de los procedimientos estadsticos diseados para efectuar contrastes de hiptesis sobre medias, en concreto, la prueba T y el anlisis de varianza de un factor. En las pruebas para comparacin de medias la Hiptesis nula que se formula es del tipo las medias de las poblaciones comparadas son iguales. Evaluando la probabilidad de que esta H0 se cumpla podemos responder a preguntas tales como Son distintas las medias de las poblaciones en estudio? , Qu tan distintas podran ser en el universo? , Con qu porcentaje de confiabilidad puedo asegurarlo? 2.2.1. Medias El procedimiento Medias calcula medias de subgrupo y estadsticos univariados relacionados para variables dependientes dentro de las categoras de una o ms variables independientes. Si lo desea, puede obtener el anlisis de varianza de un factor, la eta y pruebas de linealidad. Este procedimiento en particular es utilizado mayormente para un anlisis exploratoriodescriptivo de primera instancia ya que, si no se seleccionan el anlisis de varianza de un factor, la eta o las pruebas de linealidad que se ofrecen accesoriamente a este procedimiento, se calculan las medias de los subgrupos sin hacer ninguna prueba de hiptesis.
Datos: Las variables dependientes son cuantitativas y las independientes son categricas. Los valores de las variables categricas pueden ser numricos o de cadena corta. Supuestos: Algunos de los estadsticos opcionales de subgrupo, como la media y la desviacin tpica, se basan en la teora normal y son adecuados para variables cuantitativas con distribuciones simtricas. Los estadsticos robustos, tales como la mediana y el rango, son adecuados para las variables cuantitativas que pueden o no cumplir el supuesto de normalidad. El anlisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos de cada casilla deberan ser simtricos. El anlisis de varianza tambin supone que los grupos proceden de poblaciones con la misma varianza. Para comprobar este supuesto, utilice la prueba de homogeneidad de las varianzas de Levene, disponible en el procedimiento ANOVA de un factor.

Si ud todava no abre ningn archivo de datos, abra el archivo EPH 2002.sav. Para utilizar el procedimiento Medias accedemos a travs del men Analizar / Comparar medias / Medias... (Analyze / Compare Means / Means) y de esta manera nos encontramos con el siguiente cuadro de dilogo:

26

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Para obtener los estadsticos que el procedimiento ofrece debe: Trasladar a la lista Dependientes (Dependent list) la/s variable/s que interesa describir o aquellas en las que se van a comparar los grupos. Trasladar a la lista Independientes (Independent list) la/s variable/s que definen los grupos que interesa describir o comparar.

El botn Opciones (Options) permite seleccionar los estadsticos descriptivos concretos que interese obtener y algunos contrastes sobre medias o linealidad.

Tambin es posible combinar ms de una variable independiente para, dentro de los grupos definidos por una primera variable, formar subgrupos definidos por una segunda variable (o una tercera, o una cuarta, etc.). Es decir, cada estadstico solicitado puede calcularse en cada uno de los

27

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

subgrupos resultantes de combinar dos o ms variables independientes. Esto se consigue definiendo capas (layers). Para definir capas (layers) utilice los botones Siguiente y Anterior (Next , Previous) del apartado Capa x de n (Layer x of n) donde x se refiere al nmero de capa en el que nos encontramos y n al nmero total de capas definidas. A continuacin realizaremos un ejemplo simple para ilustrar este procedimiento. Accedemos a travs del men Analizar / Comparar medias / Medias... (Analyze / Compare Means / Means) Trasladamos la variable Aos cumplidos a la lista de variables dependientes y la variable Sexo a la lista de variables independientes.

28

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

En el botn Opciones (Options) seleccionamos los siguientes estadsticos:

Una vez seleccionados los estadsticos hacemos click en Continuar (Continue) y luego en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretacin: El primer cuadro nos muestra por defecto algunos estadsticos descriptivos relacionados con esta prueba. En l se puede ver un resumen en donde se indica la cantidad de casos que fueron procesados y los que fueron excluidos del anlisis (que para nuestro ejemplo no se excluye ninguno)
Resumen del procesamiento de los casos Casos Excluidos N Porcentaje 0 ,0%

N AOS CUMPLIDOS * SEXO

Incluidos Porcentaje 100,0%

N 3821

Total Porcentaje 100,0%

3821

En el segundo cuadro se puede observar el valor de los 4 estadsticos seleccionados para la variable edad calculados por separado para el grupo de varones y para el grupo de mujeres (ya que se utiliz la variable sexo como variable de agrupacin)

29

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Informe AOS CUMPLIDOS SEXO Varn Mujer Total Media 30,03 33,30 31,81 Desv. tp. 21,179 22,518 21,975 N 1742 2079 3821 % del total de N 45,6% 54,4% 100,0%

2.2.2. Contraste sobre una media El procedimiento Prueba T para una muestra contrasta si la media de una sola variable difiere de una constante especificada.
Datos: Para contrastar los valores de una variable cuantitativa con un valor de contraste hipotetizado, elija una variable cuantitativa e introduzca un valor de contraste hipotetizado. Supuestos: Esta prueba asume que los datos estn normalmente distribuidos; sin embargo, esta prueba es bastante robusta frente a las desviaciones de la normalidad.

Atencin: Antes de realizar el prximo ejemplo aplicamos un filtro estado = 1 para trabajar con los ocupados Para utilizar el procedimiento Prueba T para una muestra accedemos a travs del men Analizar / Comparar medias / Prueba T para una muestra... (Analyze / Compare Means / OneSample T test) y de esta manera nos encontramos con el siguiente cuadro de dilogo:

La lista de variables contiene un listado con todas las variables del archivo de datos excepto las que tienen formato cadena. Para llevar a cabo un contraste con las especificaciones que el procedimiento tiene establecidas por defecto:

Trasladar a la lista Contrastar variables (Test variable(s)) la/s variable/s cuya media poblacional se desea contrastar. Indicar el Valor de prueba (Test value) el valor poblacional concreto que se desea contratar. Este valor se utiliza para todas las variables seleccionadas en la lista Contrastar variables.

En el botn Opciones(Options) se permite controlar algunos aspectos de este anlisis:

30

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Intervalo de confianza (Confidence Interval): k %. Esta opcin permite establecer en escala porcentual, el nivel de confianza (1-) con el que deseamos obtener el intervalo de confianza para la diferencia entre la media muestral y el Valor de prueba. El valor de k es, por defecto, 95, pero es posible seleccionar cualquier otro valor comprendido entre 0,01 y 99,99. Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los casos con valores perdidos:

o o

Excluir casos segn anlisis (Exclude cases analysis by analysis). Esta opcin excluye de cada anlisis (de cada prueba T) los casos con valor perdido en la variable concreta que se est contrastando. Excluir casos segn lista (Exclude cases listwise). Esta opcin excluye de todos los anlisis los casos con algn valor perdido en cualquiera de las variables seleccionadas en la lista Contrastar variables.

A continuacin realizaremos un ejemplo para este procedimiento. Trasladamos la variable Ingreso total individual [p47t] a la lista Contrastar variables (Test variables) y asignamos un Valor de prueba (Test value) igual a 330.

Luego damos click en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretacin: La Hiptesis nula (H0) que se plantea en esta prueba nos dice que las medias de las poblaciones comparadas son iguales. En este caso bien la podemos enunciar como : la diferencia entre la media de la poblacin y el valor de prueba es nula o bien como la media de la poblacin es igual al valor de prueba

31

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

El primer cuadro nos muestra por defecto algunos estadsticos descriptivos relacionados con esta prueba.
Estadsticos para una muestra N INGRESO TOTAL INDIVIDUAL 1314 Media 451,51 Desviacin tp. 502,200 Error tp. de la media 13,854

En el segundo cuadro nos encontramos con los resultados de la prueba para una muestra propiamente dicha.
Prueba para una muestra Valor de prueba = 330 Intervalo de confianza para la diferencia (95%) Inferior Superior 94,33 148,69

t INGRESO TOTAL INDIVIDUAL 8,771

gl 1313

Sig. (bilateral) ,000

Diferencia de medias 121,51

Se encuentra el valor calculado para el estadstico t que en nuestro ejemplo es 8,771. Los grados de libertad (gl = N-1) que junto con el nivel de significacin alfa (en el SPSS se define como intervalo de confianza en %) se utilizan para entrar en la tabla de la distribucin t y de esta manera comparar con el valor obtenido para t en nuestra prueba y as determinar la aceptacin o el rechazo de la Hiptesis nula. En nuestro ejemplo para gl = 1313 y alfa = 0,05 La Significacin bilateral nos indica directamente (sin necesidad de recurrir a la tabla) la probabilidad de que la hiptesis nula sea cierta. Para nuestro ejemplo, es la probabilidad de obtener una media en la poblacin igual al valor de prueba. Siendo este valor en nuestro ejemplo igual a 0,000 determinamos el rechazo de la hiptesis nula. La Diferencia de medias es la diferencia entre la media de la muestra y el valor de prueba. El Intervalo de confianza para la diferencia nos indica los valores entre los cuales puede oscilar la diferencia de medias con una confiabilidad igual al porcentaje que hayamos indicado en el botn opciones en intervalo de confianza. Nos dice: Podemos asegurar con una confiabilidad del 95% (o del % que se haya indicado) que la media poblacional se encuentra comprendida entre: (Valor de prueba + Lm. Inferior) y (Valor de prueba + Lm. Superior) ( 330 + 94,33 ) y ( 330 + 148,69 ) , o sea, entre: 424,33 y 478,69.

2.2.3. Contraste sobre dos medias independientes El procedimiento Prueba T para muestras independientes permite contrastar hiptesis referidas a la diferencia de las medias de dos grupos de casos. Para esta prueba, idealmente los sujetos deben asignarse aleatoriamente a dos grupos.

32

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Datos: Los valores de la variable cuantitativa de inters se hallan en una nica columna del archivo de datos. El procedimiento utiliza una variable de agrupacin con dos valores para separar los casos en dos grupos. La variable de agrupacin puede ser numrica (valores como 1 y 2, o 6,25 y 12,5) o de cadena corta (como S y NO). Tambin puede usar una variable cuantitativa, como la EDAD, para dividir los casos en dos grupos especificando un punto de corte (el punto de corte 21 divide la EDAD en un grupo de menos de 21 aos y otro de ms de 21). Supuestos: Para la prueba t de igualdad de varianzas, las observaciones deben ser muestras aleatorias independientes de distribuciones normales con la misma varianza de poblacin. Para la prueba t de varianzas desiguales, las observaciones deben ser muestras aleatorias independientes de distribuciones normales. La prueba t para dos muestras es bastante robusta a las desviaciones de la normalidad.

Para utilizar el procedimiento Prueba T para muestras independientes accedemos a travs del men Analizar / Comparar medias / Prueba T para muestras independientes (Analyze / Compare Means / Independent-Samples T test) y nos encontramos con el cuadro de dilogo:

La lista de variables contiene un listado con todas las variables numricas y de cadena corta del archivo de trabajo. Para llevar a cabo un contraste con las especificaciones que el procedimiento tiene establecidas por defecto: Trasladar a la lista Contrastar variables (Test variable(s)) la/s variable/s en la que desea comparar los grupos. Todas estas variables deben ser de tipo numrico. Cada variable seleccionada genera una prueba T acompaada de su nivel crtico y del intervalo de confianza para la diferencia entre las medias. Trasladar al cuadro Variable de agrupacin (Grouping variable) la variable que define los grupos que se desean comparar. Esta variable puede ser de tipo numrico o de cadena corta.

Definir grupos (Define Groups). Tras seleccionar una variable de agrupacin, es necesario iniciar cules son los cdigos que definen los dos grupos que se desea comparar. Para ello: Pulsar el botn Definir Grupos (Define Groups) para acceder al subcuadro de dilogo Definir grupos (Define Groups) que se muestra a continuacin:

33

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

o o

Usar valores especificados (Use specified values). Si la variable de agrupacin posee cdigos que definen los dos grupos que deseamos comparar, esos cdigos deben introducirse en los cuadros de texto Grupo 1 y Grupo 2 (Group 1, Group 2). Los casos que posean otros cdigos sern excluidos del anlisis. Punto de corte (Cut point). Si se desea utilizar como variable de agrupacin una variable cuantitativa continua, esta opcin permite introducir un valor como punto de corte: los casos con puntuacin igual o mayor que el punto de corte forman un grupo; el resto de los casos forman el otro grupo. Esta opcin no est disponible si, como variable de agrupacin, se elige una variable de tipo cadena corta.

En el botn Opciones(Options) se permite controlar algunos aspectos de este anlisis:

Intervalo de confianza (Confidence Interval): k %. Esta opcin permite establecer, en escala porcentual, el nivel de confianza (1-) con el que deseamos obtener el intervalo de confianza para la diferencia entre la media muestral y el Valor de prueba. El valor de k es, por defecto, 95, pero es posible seleccionar cualquier otro valor comprendido entre 0,01 y 99,99. Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los casos con valores perdidos:

o o

Excluir casos segn anlisis (Exclude cases analysis by analysis). Esta opcin excluye de cada anlisis (de cada prueba T) los casos con valor perdido en la variable concreta que se est contrastando. Excluir casos segn lista (Exclude cases listwise). Esta opcin excluye de todos los anlisis los casos con algn valor perdido en cualquiera de las variables seleccionadas en la lista Contrastar variables.

A continuacin realizaremos un ejemplo para este procedimiento. Para este ejemplo mantendremos aplicado el filtro estado = 1 Accedemos a travs del men Analizar / Comparar medias / Prueba T para muestras independientes ( Analyze / Compare Means / Independent-Samples T test)

34

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Trasladamos la variable Ingreso total individual [p47t] a la lista Contrastar variables (Test variable(s)) Trasladamos la variable [sexo] al cuadro Variable de agrupacin (Grouping variables).

Pulsamos el botn Definir Grupos (Define Groups)

Usar valores especificados (Use specified values). Introducimos el valor 1 para el Grupo 1 y el valor 2 para el Grupo 2

Hacemos click en Continuar (Continue) y Luego en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretacin: La Hiptesis nula (H0) que se plantea en esta prueba nos dice que las medias de las poblaciones comparadas son iguales. El primer cuadro nos muestra por defecto algunos estadsticos descriptivos relacionados con esta prueba.

35

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Estadsticos de grupo SEXO Varn Mujer N 787 527 Media 488,65 396,05 Desviacin tp. 504,990 493,296 Error tp. de la media 18,001 21,488

INGRESO TOTAL INDIVIDUAL

En el segundo cuadro nos encontramos con los resultados de la prueba de muestras independientes propiamente dicha.
Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas

Prueba T para la igualdad de medias Error tp. de 95% Intervalo de confianza para la Diferen la diferencia cia de diferen Inferior Superior medias cia 92,592 28,162 37,345 147,840 92,592 28,032 37,593 147,592

F INGRESO Se han asumido 7,445 TOTAL varianzas iguales INDIVIDUAL No se han asumido varianzas iguales

Sig.

gl 1312

Sig. (bilateral) ,001 ,001

,006 3,288

3,303 1145,7

La t y los gl se calculan de distinta manera para varianzas iguales que para varianzas desiguales. Es por eso que en primer lugar nos encontramos con la Prueba de Levene para la igualdad de las varianzas . Dicho test da un valor F que relaciona ambas varianzas muestrales indicndonos la homogeneidad de las mismas. Si el valor de F se aproxima a 1 entonces las varianzas sern similares, a mayor valor de F mayor diferencia entre las varianzas. La HF postula que las varianzas de las subpoblaciones son iguales. El nivel de significancia (Sig.) nos indica la probabilidad de que se cumpla la HF. Un valor mayor a 0,05 nos indica que se debe aceptar esta hiptesis. A partir de aqu estudiamos el cuadro siguiendo la fila que indica que se han asumido varianzas iguales o desiguales segn corresponda. En nuestro ejemplo el nivel de significancia es igual a 0,006 o sea mucho menor que 0,05 con lo cual rechazamos la HF y asumimos varianzas desiguales (o sea que leemos los valores de la segunda fila). El anlisis que se hace de los dems valores de la tabla es el mismo que se hizo para Contraste sobre una media.
Nota: Las diferencias de ingresos medios pueden estar sometidas a la influencia de factores como los estudios y no solamente el sexo. En estas situaciones, debe asegurarse de que las diferencias en otros factores no enmascaren o resalten una diferencia significativa entre las medias.

36

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

2.2.4. Anlisis de varianza de un factor El procedimiento ANOVA de un factor genera un anlisis de varianza de un factor para una variable dependiente cuantitativa respecto a una nica variable de factor (la variable independiente). El anlisis de varianza se utiliza para contrastar la hiptesis de que varias medias son iguales. Esta tcnica es una extensin de la prueba t para dos muestras.
Datos: Los valores de la variable de factor deben ser enteros y la variable dependiente debe ser cuantitativa. Supuestos: Cada grupo es una muestra aleatoria independiente procedente de una poblacin normal. El anlisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos debern ser simtricos. Los grupos deben proceder de poblaciones con varianzas iguales. Para contrastar este supuesto, se utiliza la prueba de Levene de homogeneidad de varianzas.

Para utilizar el procedimiento ANOVA de un factor accedemos a travs del men Analizar / Comparar medias / ANOVA de un factor... (Analyze / Compare Means / One-Way ANOVA) y nos encontramos con el cuadro de dilogo:

La lista de variables contiene un listado con todas las variables numricas del archivo de trabajo (No figuran las variables de cadena). Para llevar a cabo un ANOVA de un factor con las especificaciones que el procedimiento tiene establecidas por defecto: Trasladar a la lista Dependientes (Dependent List) la/s variable/s en la que desea comparar los grupos. Se generar un ANOVA de un factor para cada una de las variables seleccionadas. Trasladar al cuadro Factor (Factor) la variable que define los grupos que se desean comparar. Esta variable debe ser categrica (nominal u ordinal).

En el botn Opciones(Options) se permite controlar algunos aspectos de este anlisis:

37

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Estadsticos (Statistics). Este recuadro incluye algunos estadsticos descriptivos y la prueba de Levene para contrastar la hiptesis de homogeneidad de varianzas: Descriptivos (Descriptive): Ofrece estadsticos descriptivos referidos tanto a cada grupo como al total muestral: nmero de observaciones, media, desviacin tpica, error tpico de la media, intervalo de confianza para la media al 95% y valores mnimo y mximo. Efectos fijos y aleatorios (Fixed and random effects): Muestra la desviacin tpica, el error tpico de la media, intervalo de confianza para la media al 95% para los modelos de efectos fijos, y el error tpico de la media, intervalo de confianza para la media al 95% y la varianza entre componentes para los modelos de efectos aleatorios. Homogeneidad de varianzas (Homogeneity of variance test): El estadstico F del ANOVA de un factor se basa en el cumplimiento de dos supuestos fundamentales: normalidad y homocedasticidad. Normalidad significa que la variable dependiente se distribuye normalmente en todas las poblaciones muestreadas (tantas como grupos definidos por la variable independiente o factor). No obstante, si los tamaos de los grupos son grandes, el estadstico F se comporta razonablemente bien incluso con distribuciones poblaciones sensiblemente alejadas de la normalidad. Homocedasticidad o igualdad de varianzas significa que todas las poblaciones muestreadas (tantas como grupos definidos por la variable independiente o factor) poseen la misma varianza. Con grupos de distinto tamao, el incumplimiento de este supuesto debe ser cuidadosamente vigilado. La opcin Homogeneidad de varianzas (Homogeneity of variance test) permite contrastar este supuesto mediante la prueba de Levene.  Los test para igualdad de medias de grupo de Brown-Forsythe y de Welch son preferibles al estadstico de F cuando no se pueden asumir varianzas iguales.

Grfico de las medias (Means Plot). Esta opcin permite obtener un grfico de lneas con la variable factor en el eje de abscisas y la variable dependiente en el de ordenadas

Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los casos con valores perdidos:

38

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

o o

Excluir casos segn anlisis (Exclude cases analysis by analysis). Esta opcin excluye de cada ANOVA los casos que tienen algn valor perdido en la variable factor o en la variable dependiente que est siendo analizada. Excluir casos segn lista (Exclude cases listwise). Esta opcin excluye de todos los ANOVA solicitados los casos con algn valor perdido en la variable factor o en cualquiera de las variables seleccionadas en la lista Dependientes. A continuacin realizaremos un ejemplo para este procedimiento. Para este ejemplo mantendremos aplicado el filtro estado = 1

Accedemos a travs del men Analizar / Comparar medias / ANOVA de un factor... (Analyze / Compare Means / One-Way ANOVA) Trasladamos la variable Ingreso total individual [p47t] a la lista Dependientes (Dependent List) Trasladamos la variable Mximo nivel que cursa o curs [nivel] al cuadro Factor (Factor)

Luego presionamos el botn Opciones (Options) y seleccionamos Descriptivos (Descriptives).

39

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Hacemos click en Continuar (Continue) y Luego en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretacin: La Hiptesis nula (H0) que se plantea en esta prueba nos dice que las medias de los grupos comparados son iguales. Es decir que toda la varianza de los ingresos es atribuible a otros factores, independientes del nivel educativo, lo cual implica que los promedios poblacionales de ingresos son iguales en todos los niveles educativos, y que la varianza entre los grupos es igual a cero. El primer cuadro nos muestra por defecto algunos estadsticos descriptivos relacionados con esta prueba.
Descriptivos INGRESO TOTAL INDIVIDUAL Intervalo de confianza para la media al 95% Lmite Lmite inferior superior Mnimo 98,20 236,80 10 245,16 290,34 0 246,20 342,47 0 350,39 443,66 0 233,41 473,12 0 379,30 523,12 0 203,09 414,83 0 472,55 664,41 0 683,69 854,75 0 -550,44 883,78 0 424,33 478,69 0

N preescolar 10 primario 360 nacional 128 comercial 215 normal 34 tcnica 135 otra enseanza media 26 superior 96 universitaria 307 9 3 Total 1314

Media 167,50 267,75 294,34 397,03 353,26 451,21 308,96 568,48 769,22 166,67 451,51

Desviacin tpica 96,875 217,963 275,218 346,911 343,509 422,449 262,121 473,454 761,574 288,675 502,200

Error tpico 30,634 11,488 24,326 23,659 58,911 36,359 51,406 48,322 43,465 166,667 13,854

Mximo 300 1800 1500 2000 1500 3000 1000 2950 5900 500 5900

En el segundo cuadro nos encontramos con los resultados del Anlisis de Varianza propiamente dicho.

40

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

ANOVA INGRESO TOTAL INDIVIDUAL Suma de cuadrados 50165019,152 280979675,219 331144694,371 gl 9 1304 1313 Media cuadrtica 5573891,017 215475,211 F 25,868 Sig. ,000

Inter-grupos Intra-grupos Total

Se presenta la Suma de cuadrados (es decir la suma de las diferencias respecto a la media, elevadas al cuadrado) entre los grupos (Inter-grupos, varianza explicada) y dentro de los grupos (o varianza residual). Los grados de libertad Inter-grupos (gl = cant. grupos 1) e Intra-grupos (gl = N-1). La Media cuadrtica es el promedio de la suma de cuadrados obtenida como la suma de cuadrados / grados de libertad. El valor que obtenemos de F que nos permite verificar la aceptacin o rechazo de la Hiptesis nula (H0) se calcula como el cociente: media cuadrtica Inter-grupos / media cuadrtica Intra-grupos) La Significacin es la probabilidad asociada a ese valor de F. Siendo este valor igual a 0,000 determinamos el rechazo de la hiptesis nula, y se concluye que a nivel del universo de referencia el nivel educativo es un factor significativo para explicar las diferencias de ingreso. Nota: Para calcular qu porcentaje de la variable dependiente es explicada por la variable independiente puede realizarse un cuadro como el siguiente: Suma de cuadrados 50165019,152 280979675,219 331144694,371 Porcentaje de la varianza 15,1% 84,9% 100%

Inter-grupos(Varianza explicada) Intra-grupos(Varianza residual) Total

En este cuadro se calcula qu porcentaje corresponde a la Varianza explicada y qu porcentaje corresponde a la Varianza residual sobre el Total de la Varianza. De esta manera se puede decir que un 15,1% de la variabilidad de ingresos es atribuible al nivel educativo. Resta explicar el 84,9% con otras variables independientes.

2.2.5. Correlaciones Bivariadas El procedimiento Correlaciones Bivariadas estudia la relacin entre variables cuantitativas y permite calcular el coeficiente de correlacin de Pearson, la rho de Spearman y la tau-b de Kendall con sus niveles de significacin. Las correlaciones miden cmo estn relacionadas las variables o los rdenes de los rangos. Antes de calcular un coeficiente de correlacin, inspeccione los datos para detectar valores atpicos (que pueden producir resultados equvocos ) y evidencias de una relacin lineal.
Datos: Utilice variables cuantitativas simtricas para el coeficiente de correlacin de Pearson y variables cuantitativas o variables con categoras ordenadas para la rho de Spearman y la tau-b de Kendall.

41

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Supuestos: El coeficiente de correlacin de Pearson asume que cada pareja de variables es normal bivariada.

Para utilizar el procedimiento Correlaciones Bivariadas accedemos a travs del men Analizar / Correlaciones / Bivariadas... (Analyze / Correlate / Bivariate) y nos encontramos con el siguiente cuadro de dilogo:

La lista de variables contiene un listado con todas las variables numricas del archivo de trabajo (No figuran las variables de cadena). De este cuadro de dilogo es posible obtener varios coeficientes de correlacin y algunos estadsticos descriptivos bsicos. Para ello: Trasladar a la lista Variables (Variables) la/s variable/s cuyo grado de relacin se desea estudiar. Es necesario trasladar el menos dos variables.

Coeficientes de correlacin (Correlation coefficients). Los valores de los coeficientes de correlacin varan entre -1 y 1. El signo del coeficiente indica la direccin de la relacin. Su valor absoluto indica la intensidad. Los valores absolutos mayores indican que la relacin es ms estrecha.  Pearson. Medida de asociacin lineal entre dos variables medidas en un nivel por intervalos o de razn: Dos variables pueden estar perfectamente relacionadas, pero si la relacin no es lineal, el coeficiente de correlacin de Pearson no ser un estadstico adecuado para medir su asociacin. Tau b de Kendall. Medida no paramtrica de asociacin para variables ordinales o de rangos que tiene en consideracin los empates. Un valor de -1 o +1 slo se puede obtener a partir de tablas cuadradas. Spearman. Versin no paramtrica del coeficiente de correlacin de Pearson, que se basa en los rangos de los datos en lugar de hacerlo en los valores reales. Resulta apropiada para datos ordinales, o los de intervalo que no satisfagan el supuesto de normalidad.

Prueba de significacin (Test of Significance).

42

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Junto con cada coeficiente de correlacin se presenta la informacin necesaria para contrastar la hiptesis nula de que el valor poblacional del coeficiente es cero.

Bilateral (Two-tailed) Opcin apropiada para cuando no existen expectativas sobre la direccin de la relacin. Indica la probabilidad de obtener coeficientes tan extremos como el obtenido, y en cualquier direccin, cuando la hiptesis nula es cierta. Un nivel de significacin bilateral (de dos colas) contrasta una hiptesis nula en la que la direccin del efecto no se especifica de antemano. Unilateral. (One-tailed). Opcin apropiada para cuando existen expectativas sobre la direccin de la relacin. Indica la probabilidad de obtener coeficientes tan extremos como el observado, y en la misma direccin, cuando la hiptesis nula es cierta. Contrasta la hiptesis nula en la que se especifica con antelacin la direccin del efecto.

Marcar las correlaciones significativas. Marca con un asterisco los coeficientes de correlacin significativos al nivel 0,05 y, con dos asteriscos, los significativos al nivel 0,01. En el botn Opciones(Options) se permite controlar algunos aspectos de este anlisis:

Estadsticos (Statistics). Si se ha elegido el coeficiente de correlacin de Pearson, este recuadro permite seleccionar una o ms de las siguientes opciones:   Medias y desviaciones tpicas (Means and Standard deviations). Muestra, para cada variable, la media aritmtica, la desviacin tpica insesgada y el nmero de casos vlidos Productos cruzados y covarianzas. (Cross-products deviations and covariances). Muestra, para cada par de variables, el numerador del coeficiente de correlacin de Pearson (es decir, los productos cruzados de las desviaciones de cada puntuacin respecto a su media) y ese mismo numerador dividido por n-1 (es decir, la covarianza).

Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los casos con valores perdidos:

Excluir casos segn pareja (Exclude cases pairwise). Se excluyen del clculo de cada coeficiente de correlacin los casos con valor perdido en alguna de las dos variables que se estn correlacionando.

43

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Excluir casos segn lista (Exclude cases listwise). Se excluyen del clculo de todos los coeficientes de correlacin los casos con valor perdido en cualquiera de las variables seleccionadas.

A continuacin realizaremos un ejemplo para este procedimiento.

Atencin: Para este ejemplo desactivamos todos los filtros que puedan estar activos. Accedemos a travs del men Analizar / Correlaciones / Bivariadas... (Analyze / Correlate / Bivariate) Trasladamos al cuadro Variables las siguientes variables del archivo de trabajo:

AOS CUMPLIDOS [edad] INGRESO TOTAL INDIVIDUAL [p47t] MONTO DEL INGRESO TOTAL FAMILIAR [itf] MONTO DEL INGRESO PER CAPITA FAMILIAR [ipcf] CANTIDAD DE PERSONAS EN EL HOGAR [pob_tot]

Hacemos click en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretacin: La Hiptesis nula (H0) que se plantea en esta prueba es de independencia lineal y se puede enunciar como el coeficiente de correlacin vale cero en la poblacin. La Hiptesis alternativa a probar es correlacional del tipo A mayor X, mayor Y , A mayor X, menor Y.

44

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

La prueba en s no considera a una variable como independiente y a otra como dependiente, ya que no se trata de una prueba que evala la causalidad. El siguiente cuadro ofrece la informacin referida al coeficiente de correlacin de Pearson:
Correlaciones CANTIDAD DE MONTO DEL MONTO DEL INGRESO INGRESO INGRESO PERSONAS EN EL TOTAL PER CAPITA TOTAL AOS HOGAR CUMPLIDOS INDIVIDUAL FAMILIAR FAMILIAR Correlacin de Pearson 1 ,346** ,037* ,185** -,369** Sig. (bilateral) ,000 ,025 ,000 ,000 N 3821 3821 3585 3821 3821 Correlacin de Pearson 1 ,469** ,583** -,186** ,346** Sig. (bilateral) ,000 ,000 ,000 ,000 N MONTO DEL INGRESO Correlacin de Pearson TOTAL FAMILIAR Sig. (bilateral) N MONTO DEL INGRESO Correlacin de Pearson PER CAPITA FAMILIAR Sig. (bilateral) CANTIDAD DE PERSONAS EN EL HOGAR N Correlacin de Pearson Sig. (bilateral) N

AOS CUMPLIDOS

INGRESO TOTAL INDIVIDUAL

3821
,037* ,025 3585 ,185** ,000 3821

3821 ,469** ,000 3585 ,583** ,000 3821 -,186** ,000 3821

3585 1

3821 ,804** ,000 3585 1 3821 -,304** ,000 3821

3821 ,037* ,027 3585 -,304** ,000 3821 1 3821

3585 ,804** ,000 3585

-,369** ,000 3821

,037* ,027 3585

**. La correlacin es significativa al nivel 0,01 (bilateral). *. La correlacin es significante al nivel 0,05 (bilateral).

Cada celda contiene tres valores referidos al cruce entre cada dos variables: Correlacin de Pearson: El valor del coeficiente de correlacin de Pearson. Sig. (Bilateral): El nivel crtico bilateral que corresponde a ese coeficiente. N: El nmero de casos vlidos sobre el que se han efectuado los clculos.

Rechazaremos la hiptesis nula de independencia (y concluiremos que existe relacin lineal significativa) cuando el nivel crtico (Sig.) sea menor que el nivel de significacin establecido (si se establece 0,05 entonces se tiene un 95% de confianza en que la correlacin sea verdadera y 5% de probabilidad de error. Si fuera menor que 0,01 tendramos un 99% de confianza y un 1% de probabilidad de error) En nuestro ejemplo hemos resaltado con colores tres situaciones particulares: En verde una correlacin significativa entre la variable aos cumplidos y la variable Ingreso total individual. Esta correlacin tiene una intensidad de 0,346 en el rango de 0 a 1, es una relacin directa, es decir, del tipo A mayor edad, mayor ingreso ya que su signo es positivo, y es significativa al 99% ya que presenta un nivel crtico (Sig) igual a 0,000.

45

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

En rojo una correlacin significativa entre la variable aos cumplidos y la variable Cantidad de personas en el hogar. Esta correlacin tiene una intensidad de 0,369 en el rango de 0 a 1, el signo negativo indica que es una relacin inversa, es decir, del tipo A mayor edad del sujeto, menor cantidad de personas en su hogar, y es significativa al 99% ya que presenta un nivel crtico (Sig) igual a 0,000. En amarillo una correlacin poco significativa entre la variable Ingreso total familiar y la variable Cantidad de personas en el hogar. Esta correlacin tiene una intensidad muy baja de solo 0,037 en el rango de 0 a 1, el signo positivo indica que es una relacin directa, es decir, del tipo A mayor cantidad de personas en el hogar, mayor Ingreso Total familiar, y es significativa al 95% ya que presenta un nivel crtico (Sig) igual a 0,027. Concluimos que existe una correlacin entre ambas variables pero de una intensidad tan baja que la torna insignificante.

En el mismo cuadro se encuentran correlaciones con coeficientes ms altos que los resaltados, sin embargo, esto se debe a que una de estas variables ha sido calculada a partir de la otra con la cual existe una correlacin tan alta. A continuacin se presenta una clasificacin del grado de correlacin: Correspondencia entre el grado de correlacin y el valor de r r menor que 0,200 r de 0,200 a 0,400 r de 0,400 a 0,700 r de 0,700 a 0,900 r de 0,900 a 1,000 Correlacin leve, casi insignificante. Baja correlacin, definida, pero baja. Correlacin moderada, sustancial. Correlacin marcada, alta. Correlacin altsima, muy significativa.

Consideracin Importante: elevando el coeficiente de Pearson al cuadrado (r2) se obtiene la varianza de factores comunes, es decir, el porcentaje de la variacin de una variable debido a la variacin de la otra.

46

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Bibliografa

Briones, G. Mtodos y Tcnicas de Investigacin para las Ciencias Sociales. Mxico, Limusa, 1982. Carrin Snchez, Juan Javier Manual de anlisis de datos. Madrid, Alianza Editorial, 1995. Hernndez Sampieri R., Fernndez Collado C., Baptista Lucio P. Metodologa de la Investigacin. Colombia, McGrawHill, 1994. Galtung J Teora y Mtodos de Investigacin Social, tomo I y II. Buenos Aires, Eudeba, 1973.

47

Vous aimerez peut-être aussi