03 Estudios de Casos MGPP 2012

UNIVERSIDAD DE CHILE MAGISTER EN GESTION Y POLITICAS PBLICAS
ESTADSTICA APLICADA Y ECONOMETRA APLICACIONES DE SPSS
Profesora : Sara Arancibia C. Profesora Auxiliar: Carlos Andrade G
Primer Semestre 2012
FORMULAS PARA TRIUNFAR LA FORMULA BSICA. Los investigadores se han dedicado a averiguar cul ha sido la idea, el secreto que ha llevado al triunfo a los grandes personajes de la historia. Y han encontrado una frmula que todos los triunfadores practicaron, y sin la cual no habran llegado a ser grandes ni famosos. Esta frmula consiste en los siguientes cinco puntos: a) Dirigir el pensamiento hacia una meta fija que se desea conseguir. Saber bien cul es esa meta que se desea alcanzar y no desviar la atencin de ella. b) Elaborar un plan para lograr conseguir esa meta, un plan cuidadoso y detallado que se va siguiendo da por da, y que hace que nuestra actividad sea organizada y llena de entusiasmo. c) Desarrollar un sincero deseo de realizar aquello que se desea conseguir. El deseo ardiente es el ms importante motivador de las acciones. El deseo de lograr xitos consigue la costumbre de conseguir xitos. d) Adquirir una confianza grande en s mismo; confianza en las propias capacidades y habilidades para lograr el xito, concedindole muchsima mayor importancia a las cualidades positivas que se tiene que a las debilidades o a las posibilidades de derrota. e) Dedicarse a una accin tenaz e incansable para lograr obtener la meta que se busca conseguir, sin desanimarse por los obstculos, las crticas, las circunstancias adversas, o lo negativo que los dems piensen, hagan o digan. Esa energa concentrada hacia la consecucin de una meta, trae enormemente las oportunidades, las cuales no se dejan atrapar por los que estn sin hacer nada, pero se acercan generosamente a quienes se atreven a atacar, a trabajar fuertemente por conseguir el xito. Esta frmula bsica Meyer la llam El plan del xito personal a base de automotivacin, para desarrollar al mximo el potencial de cada uno. Meyer resume la frmula bsica en la siguiente frase:
Todo lo bueno que: vivamente imaginamos, ardientemente deseamos, sinceramente creamos, y entusiastamente emprendamos, de una manera impresionantemente favorable se transformar en algo placentero y beneficioso para nosotros
(Elicer Salesman. 100 Frmulas para llegar al xito) Si una de tus metas es APRENDER aplica esta frmula y comienza con la mente abierta. La cualidad ms importante que afectar tu xito en el curso es tu ACTITUD. sta determinar lo que ests dispuesto a hacer en el curso, y la calidad de ese esfuerzo contribuir de la manera ms significativa a tu xito.
Contenido
I II
Anlisis Inicial de los datos y repaso de herramientas de SPSS. ANOVA de un factor. Caso EnfermerasCaso Premio colegios ( SIMCE)
III IV V VI VII
Anlisis de regresin simple y modelos lin-log y log-lin Anlisis de regresin mltiple Modelos de regresin mltiple con variables cualitativas (dummy) Anlisis de regresin logstica Anlisis factorial
Anlisis Inicial de los datos
Cuando nos enfrentamos por primera vez a la realizacin de un anlisis estadstico la mxima preocupacin es profundizar en la tcnica estadstica seleccionada, sin .embargo, existe una etapa previa incluso ms compleja y esencial que consiste en realizar un examen exhaustivo de los datos recabados. La depuracin de los datos o deteccin de problemas ocultos en los datos supondr un gran avance en la consecucin de resultados lgicos consistentes. Dichos problemas se pueden subsanar comenzando por una inspeccin visual de las representaciones grficas de los datos, completndose con un anlisis de datos ausentes o perdidos y de los casos atpicos (conocidos bajo la denominacin de outliers) y finalizando con la comprobacin de que se cumplen ciertas hiptesis de partida: en el caso de anlisis multivariable nos referimos a; normalidad, linealidad y homocedasticidad, supuestos subyacentes en todos los mtodos multivariantes.
Representaciones grficas para el anlisis de datos

La difusin experimentada en los ltimos aos por los programas estadsticos ha facilitando la incorporacin de mdulos especficamente diseados para la inspeccin grfica de los datos. El estudio de cada variable es fundamental para conocer sus caractersticas y comprobar si es oportuna y relevante su inclusin en el anlisis. Para ello se aconseja observar la forma de su distribucin. Esto se consigue mediante el histograma, que representa grficamente los datos mostrando en barras la frecuencia de los casos en cada variable. Si a su vez se pretende evaluar la normalidad de la variable, se efectuar superponiendo la curva normal sobre la distribucin o realizando grficos P-P o Q-Q. Mediante el grfico de dispersin se podr examinar la relacin entre dos o ms variables. Se trata de un grfico de puntos de datos basados en dos variables, representadas una en el eje horizontal y la otra en el vertical. El posicionamiento de los puntos a lo largo de una lnea recta se debe a la existencia de correlacin lineal. Si los puntos siguen distintas formas la relacin no podr calificarse de lineal. La inexistencia de relacin se podr constatar si la nube de puntos es aleatoria y dispersa. ( Mediante correlaciones bivariadas Pearson se podr determinar mediante una prueba de hiptesis si la correlacin entre dos variables de escala es significativa). Mediante el grfico de cajas o boxplot se puede llevar a cabo un anlisis de las diferencias entre grupos, si lo que se pretende es apreciar la existencia de dos o ms grupos en una variable mtrica, como ocurre en el anlisis discriminante o en el anlisis de la varianza. Este grfico distribuye los datos de tal forma que los lmites superior e inferior de la caja marcan los cuartiles superior e inferior. La longitud de la caja es la distancia entre el primer y tercer cuartil; as, la caja contiene el 50 por ciento de los datos centrales de la distribucin. La mediana se representa mediante una lnea dentro de la caja. Existir asimetra si la mediana se aproxima al final de la caja. El tamao de la caja depender de la distancia entre las observaciones. Tambin se representa la distancia entre la mayor y la menor de las observaciones mediante unas lneas que salen de la caja denominadas bigotes. En este tipo de grfico los casos atpicos se pueden detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja.
Diagrama de caja simple: Contiene un nico diagrama de caja para cada categora o variable del eje de categoras. Los diagramas de caja muestran la mediana, los cuartiles y los valores extremos para la categora o variable. Diagrama de caja agrupado: Tipo de grfico en el que un grupo de diagramas de caja representa cada categora o variable del eje de categoras. Los diagramas de caja dentro de cada agrupacin vienen definidos por una variable de definicin distinta.
Aos de escolarizacin por raza

899 20 718 634
Nmero de aos de escolarizacin
15
10
691 1.366 244 5 620 596 702 693 688 765 1.476
735
Blanca
Negra
Otra
Raza del encuestado
Aos de escolarizacin por raza agrupados por sexo

634 20 960 961 718
Sexo del encuestado

Hombre Mujer
Nmero de aos de escolarizacin
15
10 1.404
804 244 5 620 596 821 621 1.448 695 693 688 765
735
Blanca
Negra
Otra
Raza del encuestado
Deteccin de variables con categoras mal codificadas

En muchos archivos de datos se detectan problemas en variables nominales con categoras en formato cadena sin un cdigo asociado. Para detectar este problema es aconsejable realizar tablas de frecuencia de las variables y observar si las categoras presentan errores de digitacin, como por ejemplo la variable sexo podra presentar problemas si las categoras estn mal digitadas; Hombre, HOMBRE, hombre representan a la misma categora, sin embargo en una tabla de frecuencia aparecern como categoras diferentes. Para solucionar este problema se recomienda recodificar automticamente asignndole a las categoras de la variable un cdigo numrico y luego con recodificar en distinta variable asignar correctamente los cdigos.
Anlisis de datos ausentes

En este proceso de depuracin de datos (anterior a la utilizacin de los mtodos multivariables) el analista debe ser consciente de que se enfrenta a una informacin que puede no existir en determinadas observaciones y variables. Esto es lo que conocemos por datos ausentes o missing values. El porqu de la existencia de datos ausentes puede deberse a distintas razones como errores al codificar los datos e introducirlos en el computador, fallas del encuestador al completar el cuestionario, negacin del encuestado a responder ciertas preguntas calificadas de controvertidas Razones comunes y muy habituales en todo proceso investigador. El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en los resultados y sus efectos en el tamao de la muestra disponible para el anlisis, dado que esta ausencia puede convertir lo que era una muestra adecuada en inadecuada. Por ello es necesario depurar esos casos y buscar soluciones. Si se puede suponer que los fundamentos tericos de la investigacin no se alteran sustancialmente, una opcin sera suprimir aquellas variables y/o casos que peor se comportan respecto a los datos ausentes. En este caso el investigador deber sopesar lo que gana con la exclusin de esta informacin y lo que pierde al no contar posteriormente en el anlisis multivariante con la misma. Mediante este proceder se asegura de que su matriz de datos est completa y posee observaciones vlidas. Otra posibilidad sera la estimacin de valores ausentes empleando relaciones conocidas entre valores vlidos de otras variables y/o casos de la muestra. Por tanto, se tratara de imputar o sustituir los datos ausentes por valores estimados (bien sea la media o un valor constante) en base a otra informacin existente en la muestra. Un porcentaje bajo de valores missing no es un problema que influya decisivamente en los resultados. Por el contrario, la falta reiterada de respuesta puede alterar seriamente el anlisis. No existe una estimacin respecto al porcentaje de missing que produce dificultades en una muestra determinada. Segn Tabachnik y Fidell (1983) ms importante que el nmero de valores missing es la existencia de un patrn de comportamiento en stos. En efecto, la presencia de missing que se distribuyen aleatoriamente no produce sesgos, sin embargo, la falta de respuesta sistemtica asociada a ciertas variables puede generar distorsin en los resultados. La existencia de datos ausentes nunca debe impedir la aplicacin del anlisis multivariable o limitar la posibilidad de generalizar los resultados de una investigacin. La principal tarea del analista consistir en identificar su presencia, y desempear las acciones necesarias para minimizar sus efectos. En datos correspondientes a encuestas es habitual encontrar cdigos como los siguientes. 7= No procede, 8= No sabe , 9= No contesta
97= No procede, 98= No sabe, 99= No contesta 997= No procede, 998= No sabe, 999= No contesta Se utilizan estos cdigos cuando no son parte de los posibles datos de la variable. El SPSS tiene un men especial para tratar los valores perdidos. El SPSS hace diferencia para los valores perdidos por el usuario y valores perdidos por el sistema.
Deteccin de outliers
Al examinar los datos recabados despus de un proceso muestral el investigador puede detectar la existencia de ciertas observaciones que no siguen el mismo comportamiento del resto, enfrentndose de este modo a ciertos casos que, por ser claramente diferentes de otras observaciones de la muestra, son calificados como outliers o atpicos. El objetivo ante esta situacin es identificar esa diferencia sustancial entre el valor real de la variable criterio y su valor previsto, puesto que da lugar a observaciones que no son representaciones apropiadas de la poblacin de la cual se extrae la muestra. Los casos atpicos se deben a errores en el procedimiento, o lo que es lo mismo, a falta al introducir los datos o al codificar. Pero tambin pueden ser consecuencia de un evento extraordinario que hace destacar esa observacin. Este acontecimiento anormal puede tener o no una explicacin. En cualquiera de estas situaciones, una vez que: los outliers el analista debe juzgar qu es lo ms apropiado: si evaluar toda la incluyendo estas perturbaciones o eliminadas del anlisis. Estas decisiones han de justificarse, dado que determinados casos atpicos: aunque diferentes a la mayor parte de la muestra, pueden contener informacin representativa de un segmento dominante. No obstante, habr situaciones donde lo ms acertado sea su supresin porque pueden distorsionar seriamente los tests estadsticos dados los problemas que presentan. La deteccin de los casos atpicos desde una perspectiva univariable pasa por la observacin de aquellos casos que caigan fuera de los rangos de la distribucin. Si lo que se pretende es evaluar conjuntamente pares de variables se utilizar el grfico de dispersin. Este mtodo bivariable permite identificar los casos atpicos al venir representado como puntos aislados. Por su parte, la deteccin multivariable supone evaluar cada observacin a lo largo de un conjunto de variables. Esto se consigue mediante el uso de la Mahalanobis, puesto que es una medida de la distancia de cada observacin en un espacio multidimensional respecto del centro medio de las observaciones.
Cuando se descubren errores

Si se encuentran errores, el primer paso es regresar a la hoja de registro de datos o a los cuestionarios. Los errores sencillos se pueden corregir; en algunos casos se pueden corregir errores de un sujeto con base en sus respuestas a otras preguntas. Si no se puede hacer esto, entonces se pueden codificar esos reactivos como valores perdidos y se excluirn de los anlisis. Es importante mencionar que la funcin Valores Perdidos de SPSS puede realizar esta tarea. Otras herramientas muy tiles para limpiar los datos
Recodificar automticamente:
El cuadro de dilogo Recodificacin automtica le permite convertir los valores numricos y de cadena en valores enteros consecutivos. Si los cdigos de la categora no son secuenciales, las casillas vacas resultantes reducen el rendimiento e incrementan los requisitos de memoria de muchos procedimientos. Adems, algunos procedimientos no pueden utilizar variables de cadena y otros requieren valores enteros consecutivos para los niveles de los factores. La nueva variable, o variables, creadas por la recodificacin automtica conservan todas las etiquetas de variable y de valor definidas de la variable antigua. Para los valores que no tienen una etiqueta de valor ya definida se utiliza el valor original como etiqueta del valor recodificado. Una tabla muestra los valores antiguos, los nuevos y las etiquetas de valor. Los valores de cadena se recodifican por orden alfabtico, con las maysculas antes que las minsculas. Los valores perdidos se recodifican como valores perdidos mayores que cualquier valor no perdido y conservando el orden. Por ejemplo, si la variable original posee 10 valores no perdidos, el valor perdido mnimo se recodificar como 11, y el valor 11 ser un valor perdido para la nueva variable.
Recodificar en la misma variable /distinta variable

El cuadro de dilogo Recodificar en las mismas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores. Por ejemplo, podra agrupar los salarios en categoras que sean rangos de salarios. El cuadro de dilogo Recodificar en distintas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores para una variable nueva. Puede recodificar variables numricas en variables de cadena y viceversa. Si selecciona mltiples variables, todas deben ser del mismo tipo. No se pueden recodificar juntas las variables numricas y de cadena. Una vez que se han limpiado los datos podemos pasar a la parte ms interesante del proceso, el anlisis de datos.
Supuestos subyacentes en los mtodos multivariables

Es lgico pensar que de una buena materia prima podremos obtener un buen producto; de igual modo, de unos buenos datos obtendremos un buen anlisis. En este proceso de depuracin de la informacin, el ltimo eslabn consiste en comprobar que se cumplen ciertas hiptesis de partida, puesto que asegurarn la consecucin de un anlisis multivariante ptimo. Estos anlisis se caracterizan por su gran complejidad al integrar y combinar numerosas variables que pueden producir distorsiones y sesgos potenciales. Por ello es imprescindible que dentro de lo posible los datos respeten ciertos supuestos.
Normalidad
La hiptesis de partida que debe cumplir cualquier anlisis multivariable es la normalidad de los datos. Por tanto, el investigador debera comenzar su anlisis evaluando la normalidad de todas y cada una de las variables que pasen a formar parte del estudio. Si este supuesto no se cumple, el resto de tests estadsticos diferenciadores de cada tcnica multivariable no sern vlidos, puesto que se requiere la normalidad para el uso de los estadsticos de la t y de la F. La herramienta ms simple que sirve para diagnosticar la normalidad es el histograma, previamente explicado, mediante el cual se comparan los valores de los datos observados con la distribucin normal. Adems de hacer esta comprobacin visual, se pueden utilizar los tests de asimetra y curtosis, disponibles en todos los programas en la parte de estadsticos descriptivos bsicos. Sealar que en aquellas situaciones en las que las distribuciones sean no normales ser necesaria la realizacin de transformaciones de los datos. La condicin de distribucin normal se puede referir a una variable en particular o a un conjunto de variables. Para evaluar normalidad en una variable se estudia la forma de la distribucin mediante la prueba de Kolmogorov-Smirnov. Evaluar distribucin normal en un conjunto de variables simultneamente no es fcil. En primer trmino, la representacin grfica de ms de tres variables en un plano es prcticamente imposible. En segundo lugar, condicin necesaria de normalidad multivariable es que cada variable se distribuya normalmente, sin embargo, no es condicin suficiente. En efecto, que cada variable separada se distribuya segn la ley normal no implica que todas juntas 10 hagan. En la literatura se presentan diversas pruebas elaboradas para verificar normalidad multivariable. No obstante, los paquetes de procesamiento de informacin no han incorporado tales pruebas. En la prctica el estudio de cada variable por .separado es la nica manera de examinar limitadamente esta materia. Para estos efectos se utilizan diversos grficos.
Linealidad
Nuevamente y con la intencin de resolver problemas potenciales antes de comenzar con el anlisis multivariable conviene examinar si las relaciones entre las variables que intervienen en el estudio son lineales. La linealidad indica que el modelo a contrastar predice los valores de la variable(s) dependiente(s) siempre que se produzca una modificacin en las variables independientes. Tcnicas estadsticas como la regresin mltiple, el anlisis factorial o los sistemas de ecuaciones estructurales se basan en medidas de correlacin. Esto significa que es condicin necesaria la existencia de asociaciones lineales entre variables para obtener coeficientes de correlacin que las representen y ejecutar los modelos utilizando estas tcnicas. La relacin lineal entre dos variables se representa a travs de una lnea recta; por tanto, para comprobar que este supuesto se cumple basta con analizar los grficos de dispersin de las variables e intentar identificar si los datos siguen ese trazado lineal. Otra opcin es examinar los residuos despus de efectuar un anlisis de regresin mltiple (como se ver en el Captulo 7),
dado que stos reflejan la parte no explicada de la variable dependiente, o lo que es lo mismo, la parte no lineal de la relacin. En aquellos casos en que la consecucin de los datos sea no lineal se debe optar por transformar una o ambas variables para conseguir la linealidad. Un procedimiento vlido es efectuar transformaciones mediante la utilizacin de la raz cuadrada, o bien crear una nueva variable, denominada polinmica, que represente la parte no lineal de la relacin.
Homocedasticidad
La homocedasticidad es el ltimo supuesto que deben cumplir los datos antes de iniciar su tratamiento multidimensional. Concretamente, se verifica esta hiptesis cuando la varianza de los errores es constante. Es decir, la variacin de la variable dependiente que se intenta explicar a travs de las variables independientes -finalidad de tcnicas como la regresin mltiple-, no se concentra en un pequeo grupo de valores independientes. El objetivo es conseguir una dispersin por igual de la varianza de la variable dependiente a lo largo del rango de los valores de la variable independiente. En aquellos casos en que este supuesto no se cumpla estaremos ante una perturbacin conocida como heterocedasticidad. Tcnicamente suele deberse a muestras en las que aparecen asimetras importantes en los valores de las variables porque toman valores anormalmente altos o bajos respecto a la media. Se puede comprobar la existencia de homocedasticidad grficamente, observando que no hay ningn punto que se aleje mucho del resto. Si, por el contrario, se constatan observaciones extremas habr que convertir esas variables en variables especiales que se llaman dummy o ficticias. Esta transformacin de los datos de las variables hace que todos los valores tengan un efecto potencialmente igual en la prediccin. De forma complementaria, todos los paquetes estadsticos vienen provistos de tests estadsticos de homocedasticidad, como el test de Levene y el test M de Box, ambos usados para evaluar si la varianza de la variable dependiente permanece constante. El supuesto de homocedasticidad dice relacin con la dispersin de los datos. En particular, con la igualdad de varianzas en todos los grupos de la poblacin origen de la muestra. La homocedasticidad multivariable se evala en la matriz de varianzas y covarianzas. Cabe destacar que en el contexto multivariable medir relacin entre pares de variables da lugar a una matriz de correlaciones que presenta la relacin de todos los pares de variables. Para que los resultados sean fiables las matrices no deben ser singulares ni multicolineales. Existe multicolinealidad en una matriz de correlaciones cuando los coeficientes asumen valores extremadamente altos. La presencia de multicolinealidad es indicadora de relacin intensa entre pares de variables. El determinante de matrices con multicolinealidad es prximo a cero. Existe singularidad cuando el determinante de una matriz es cero. El valor del determinante debe ser distinto de cero para calcular la inversa de una matriz. El clculo de la inversa es necesario para efectuar el equivalente entre matrices a la divisin entre nmeros. Una matriz con determinante cero o prximo a cero no permite el clculo de su inversa -o un clculo fiable de sta. En consecuencia, no es posible efectuar el proceso matricial equivalente a la divisin.
10
Diversas estrategias son posibles de implementar para resolver la presencia de multicolinealidad o singularidad. El procedimiento ms simple es borrar la variable que produce el problema. Solucin legtima dado que la presencia de una variable correlacionada con otra u otras indica que sta es combinacin lineal de las dems y, en consecuencia, su eliminacin no significa prdida de informacin. Otro procedimiento es ingresar en forma sucesiva las variables a analizar de modo que no participen en el modelo variables correlacionadas con otras previamente incluidas. Respecto a las condiciones de aplicacin, ms importante que evaluar su cumplimiento, es saber en cada tcnica especfica cules son los efectos que genera la violacin de los supuestos. En opinin de Harris (1975) las tcnicas multivariables no se ven seriamente afectadas cuando se violan los supuestos en muestras suficientemente grandes. En tal caso, son procedimientos resistentes y robustos. Resistentes a la presencia de valores extremos y robustos ante distribuciones distintas a la ley normal. Bibliografa: Anlisis Estadstico Multivariable de Manuel Vivanco. Editorial Universitaria Anlisis Multivariable para las Ciencias Sociales de Lvy. Editorial Pearson Introduccin a la Econometra de Jeffrey Wooldridge. Editorial Thomson
Repaso de herramientas de SPSS

Considere el archivo consumo de agua potable.sav correspondiente a una muestra aleatoria de hogares de la regin Metropolitana que contiene el consumo de agua potable del mes de Enero del 2005. Considere adems el archivo Ingresos hogares.sav correspondientes al ingreso familiar del hogar de los mismos hogares de la muestra considerada para el consumo de agua potable. Prepare un informe para un ejecutivo que necesita la siguiente informacin respecto al consumo de agua del mes de Enero de los hogares de la base de datos con sus respectivos ingresos. Suponga que se ha realizado la verificacin de los datos. Responda las siguientes preguntas: a) Crear una variable que indique el gasto en agua potable de cada hogar, sabiendo que el gasto depende del lmite de sobreconsumo (LSC= 60 m3). El valor del m3 de agua es $270 si el consumo es menor o igual al lmite de sobreconsumo (LSC=60m3) Para los metros cbicos de agua que excede al LSC el valor por m 3 es $560. Mostrar la sintaxis correspondiente.
b) Mostrar una tabla que contenga el nmero de casos, la media, mediana, desv. estndar del gasto en agua potable y de los ingresos de los hogares para las comunas de Cerrillos (1), El Bosque (4) y Providencia (22). Muestre la sintaxis de todo el procedimiento. c) Crear una variable rangconsu que considere los hogares con sobreco nsumo (consumo>60), con consumo normal (20<consumo<=60) y bajo consumo (consumo<=20). Mostrar la sintaxis correspondiente. d) Crear una tabla que muestre el nmero de comunas y porcentaje respecto al total de hogares con ingresos menores o iguales a $500. 000 y mayores a $500.000 versus rango de consumo.
11
e) Crear un archivo que muestre por comuna y por rangos de consumo (sobreconsumo, normal y bajo) el promedio de los gastos de agua potable y el promedio del ingreso de hogares. Muestre la sintaxis del procedimiento e identifique las comunas con mayor promedio de gastos por rangos de consumo. f) Determine mediante un grfico si las variables gasto e ingreso siguen una tendencia lineal REPASO PRUEBAS DE HIPOTESIS Prueba T- Kolmogorov Smirnov- Levene
g) Determine si existen diferencias significativas del gasto promedio en agua potable para las comunas Vitacura (32) y Las Condes (13). Mostrar las tablas y argumentar su respuesta. h) Determine si las variables Ingreso, habitantes , gasto consumo se siguen una distribucin normal.
Solucin:
a) Crear una variable que indique el gasto en agua potable de cada hogar, sabiendo que el gasto depende del lmite de sobreconsumo (LSC= 60 m3). El valor del m3 de agua es $270 si el consumo es menor o igual al lmite de sobreconsumo (LSC=60m3) Para los metros cbicos de agua que excede al LSC el valor por m 3 es $560. Mostrar la sintaxis correspondiente.
IF (consumo <= 60) gasto = 270 * consumo . VARIABLE LABELS gasto 'gasto consumo de agua potable' . EXECUTE . IF (consumo > 60) gasto = 270 * 60+560 * (consumo - 60) . VARIABLE LABELS gasto 'gasto consumo de agua potable' . EXECUTE .
b) Mostrar una tabla que contenga el nmero de casos, la media, mediana, desv. estndar del gasto en agua potable y de los ingresos de los hogares para las comunas de Cerrillos (1), El Bosque (4) y Providencia (22). Muestre la sintaxis de todo el procedimiento. Ordenar en forma ascendente la variable clave. Fundir archivos y luego Seleccionar comparar media/ medias y hacer tabla seleccionando las tres comunas solicitadas.
12
Para archivo consumo de agua potable SORT CASES BY id_hogar (A) .

Informe Comuna donde se enc uentra el hogar CERRILLOS gas to en consumo de agua potable 31 47854,1806 21240,0000 49861,12054 33 48226,1576 28116,8000 48102,31021 16 72221,1750 51771,2000 61026,33408 831 50438,9338 32440,0000 47495,05844 Ingreso del hogar 31 494340,11 285355,32 420754,9 33 498187,25 328828,24 393996,4 16 709947,18 536311,29 516956,7 831 526677,52 387124,20 382120,2
EL B OSQUE
PROVIDENCIA
Total
N Media Mediana Des v. tp. N Media Mediana Des v. tp. N Media Mediana Des v. tp. N Media Mediana Des v. tp.
Para archivo Ingresos hogares SORT CASES BY id_hogar (A) . A partir del archivo Consumo agua potable MATCH FILES /FILE=* /FILE='D:\AIE 2005\Solemnes \Ingreso hogares.sav' /BY id_hogar. EXECUTE. MEANS TABLES=gasto ingreso BY comu /CELLS COUNT MEAN MEDIAN STDDEV
Otra forma : Hacer un cubo OLAP USE ALL. COMPUTE filter_$=(comu = 1 | comu = 4 | comu = 22). VARIABLE LABEL filter_$ 'comu = 1 | comu = 24 | comu = 22 (FILTER)'. VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FORMAT filter_$ (f1.0). Cubos OLAP FILTER BY filter_$. Comuna donde se gast o en consumo EXECUTE .
encuentra el hogar CERRILLOS
OLAP CUBES gasto ingreso BY comu /CELLS=COUNT MEAN MEDIAN STDDEV /TITLE='Cubos OLAP'.
EL BOSQUE
PROVIDENCIA
Total
N Media Mediana Des v. tp. N Media Mediana Des v. tp. N Media Mediana Des v. tp. N Media Mediana Des v. tp.
de agua pot able 31 47854,1806 21240,0000 49861,12054 33 48226,1576 28116,8000 48102,31021 16 72221,1750 51771,2000 61026,33408 80 52881,0200 27198,4000 51799,61604
Ingreso del hogar 31 494340,11 285355,32 420754,873 33 498187,25 328828,24 393996,449 16 709947,18 536311,29 516956,682 80 539048,47 341093,04 433874,646
13
c) Crear una variable rangconsu que considere los hogares con sobreconsumo (consumo>60), con consumo normal (20<consumo<=60) y bajo consumo (consumo<=20). Mostrar la sintaxis correspondiente RECODE consumo (Lowest thru 20=1) (20.001 thru 60=2) (60.001 thru Highest=3) INTO rangcons . VARIABLE LABELS rangcons 'rangos de consumo'. EXECUTE . En def de variables 1= bajo consumo 2= consumo normal 3=sobreconsumo d) Crear una tabla que muestre el nmero de comunas y porcentaje respecto al total de hogares con ingresos menores o iguales a $500. 000 y mayores a $500.000 versus rango de consumo. RECODE ingreso (Lowest thru 500000=1) (500000.01 thru Highest=2) INTO raningreso . VARIABLE LABELS raningreso 'rangos de ingresos'. EXECUTE .
Tabla de contingencia rango de consumo * rangos de ingresos rangos de ingresos hasta mayor a 500.000 500.000 21 1 2,5% ,1% 225 1 27,1% ,1% 245 338 29,5% 40,7% 491 340 59,1% 40,9%
Total 22 2,6% 226 27,2% 583 70,2% 831 100,0%
rango de consumo
hasta 20 20,001 a 60 mayor a 60
Total
Recuento % del total Recuento % del total Recuento % del total Recuento % del total
e) Crear un archivo que muestre por comuna y por rangos de consumo (sobreconsumo, normal y bajo) el promedio de los gastos de agua potable y el promedio del ingreso de hogares. Muestre la sintaxis del procedimiento e identifique las comunas con mayor promedio de gastos por rangos de consumo. AGGREGATE /OUTFILE='D:\AIE 2005\Solemnes 1 2005-1\AGR comu gastos ingresos.sav' /BREAK=comu rangcons /gasto_mean = MEAN(gasto) /ingreso_mean = MEAN(ingreso) . EXAMINE VARIABLES=gasto_mean BY rangcons /ID= comu /PLOT BOXPLOT STEMLEAF
14
/COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.
Val ores ex tremos gas to_mean May ores rangos de c onsumo Bajo consumo Nmero del caso 42 28 73 76 45 43 57 32 26 71 81 58 62 35 16 Comuna donde se enc uentra el hogar MACUL LA REINA SAN MIGUEL SAN RAMON MAIPU MACUL PROVIDENCIA LAS CONDES LA P INTANA SAN JOAQUIN VITA CURA PROVIDENCIA QUILICURA LO BARNE CHEA HUE CHURABA Valor 5313,60 5248,80 5227,20 5216,40 5184,00 15390,00 14382,00 14040,00 13543,20 12957,69 95301,87 92287,20 88189,65 87406,61 82689,42
Consumo normal
Sobreconsumo
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
i)
Determine mediante un grfico si las variables gasto e ingreso siguen una tendencia lineal
15
PRUEBAS DE HIPOTESIS
f) Determine si existen diferencias significativas del gasto promedio en agua potable para las comunas Vitacura (32) y Las Condes (13). Mostrar las tablas y argumentar su respuesta.
Esta dsticos de grupo Comuna donde se enc uentra el hogar LAS CONDES VITACURA N 47 30 Media 74515,74 95301,87 Des viacin tp. 58634,62025 98739,12261 Error tp. de la media 8552,73838 18027,2149
gas to en consumo de agua potable
Prueba de muestras independi entes Prueba de Levene para la igualdad de varianzas
Prueba T para la igualdad de medias 95% Intervalo de confianza para la diferencia Inferior Superior -56478,7 -61048,3 14906,45 19476,03
F gast o en consumo de agua pot able Se han asumido varianzas iguales No s e han asumido varianzas iguales ,988
Sig. ,324
t -1,160 -1,042
gl 75 42,177
Sig. (bilateral) ,250 ,303
Diferencia de medias -20786,122 -20786,122
Error tp. de la diferencia 17917,04140 19953,19051
La significancia obtenida para la prueba de Levene es superior a 0,05 lo que indica con un 95% de confianza que no hay evidencias que permitan descartar la hiptesis de que las varianzas son iguales. De esta forma nos debemos fijar en la primera lnea de la tabla de la prueba T para la igualdad de medias.
En esta tabla nos encontramos con una significancia superior a 0,05 lo que indica con un 95% de confianza que no hay evidencias que permitan descartar la hiptesis de que las medias son iguales. Esto tambin se puede observar del intervalo de confianza al 95% para la diferencia entre las medias. El intervalo contiene el valor cero lo que indica que no hay evidencia que permita descartar que la diferencia entre las medias sea cero, ie., que las medias son iguales.
j) Determine si las variables Ingreso, habitantes , gasto consumo se siguen una distribucin normal. Segn la prueba de K-S las variables no siguen una distribucin normal, dado que se rechaza la hiptesis de normalidad
Pruebas de norm alidad Kolmogorov-Smirnov Estadstico gl Sig. N de Habitantes del Hogar Consumo de Agua Potable Ingreso del hogar ,140 ,181 ,150 831 831 831 ,000 ,000 ,000
a
Estadstico ,934 ,849 ,873
Shapiro-Wilk gl 831 831 831
Sig. ,000 ,000 ,000
a. Correccin de la s ignificacin de Lilliefors
16
17
II
Anlisis ANOVA de un factor
Estudio de Caso: Satisfaccin Laboral de Enfermeras.

A la Asociacin Nacional de Salud de Saludlandia le preocupa la escasez de enfermeras que parece estarse previendo para el futuro. Para investigar el grado actual de satisfaccin con la profesin entre las enfermeras, se ha patrocinado un estudio en hospitales por todo Saludlandia. Como parte de este estudio, se pidi a 50 enfermeras que indicaran su grado de satisfaccin en el trabajo, en el sueldo y en las oportunidades de ascenso. Cada uno de los tres aspectos de satisfaccin fue medido en una escala de 0 a 100, y los mayores valores representan mayores niveles de satisfaccin. Los datos de la muestra se clasificaron segn el tipo de hospital de las enfermeras. Los tipos fueron privados, geritricos y universitarios. Para obtener los datos bajar el archivo ENFERMERAS.SAV . Responder las siguientes preguntas respaldando sus respuestas con las tablas y grficas de SPSS que considere convenientes.
a) Muestre un grfico que permita visualizar el grado de satisfaccin de las enfermeras

segn tipo de hospital. Comente.
f) Con base en las tres variables de satisfaccin laboral (sin considerar el tipo de hospital)
qu aspecto laboral satisface ms a las enfermeras? Cul parece ser el que menos las satisface? En que reas, si es que las hay, siente usted que deben introducirse mejoras? Argumente con los estadsticos descriptivos y diagrama de tallo y hojas. Describa sus razonamientos.
g) Determine un intervalo de confianza del 95% para la media de cada uno de los
indicadores de satisfaccin laboral para la poblacin de enfermeras. Interprete. (Muestre una tabla con media, intervalos de confianza, y la media recortada al 5%)
h) Para la variable satisfaccin con el trabajo. Determine si existen diferencias

significativas entre las medias de los tres grupos de tipo de hospital; privados, geritricos y universitarios.
i) Para la variable satisfaccin con el sueldo. Determine si existen diferencias

significativas entre las medias de los tres grupos de tipo de hospital; privados, geritricos y universitarios
j) Determine si existe correlacin significativa entre los indicadores de satisfaccin

laboral. Argumente su respuesta.
k) Determine si las variables de satisfaccin; con el trabajo, con el sueldo, y con

oportunidades de ascenso siguen una distribucin normal. Argumente su respuesta.
18
Solucin:
l) El grfico agrupado muestra la media de los indicadores de satisfaccin laboral de

las enfermeras consideradas en el estudio por tipo de hospital. Las enfermeras de los tres tipos de hospital muestran un alto promedio en satisfaccin con su trabajo, alcanzando un valor aproximado a 80%. En los hospitales privados se observa que el indicador ms bajo en promedio es la satisfaccin con el sueldo 46% siendo adems el ms bajo al comparar con hospitales geritricos y universitarios (los que indican un promedio 55% y 62% respectivamente). La satisfaccin con oportunidades de ascenso se observa similar en promedio entre los hospitales privados y geritricos (59 % en promedio) y algo menor para los hospitales universitarios ( 53% en promedio)
Satisfaccin laboral de enfermeras por tipo de hospital

90
80 79 70
80
80
Satisfaccin con el 60 59 55 50 59 53 trabajo (%) 62 Satisfaccin con el sueldo (%) Satisfaccin con oportunidades de asc privados geritricos universitarios
Mean
46 40
Tipo Hospital
*** Grficos Barras. Resmenes para variables separables . GRAPH /BAR(GROUPED)=MEAN(sattraba) MEAN(satsalar) MEAN(satascen) BY tiphospi /MISSING=LISTWISE REPORT.
m) Si consideramos los indicadores sin importar el tipo de hospital se puede apreciar que la
mayora de las enfermeras muestran un alto nivel de satisfaccin con el trabajo alcanzando un promedio de 79,80 y una mediana de 82 que indica que el 50% de las enfermeras tienen un nivel de satisfaccin superior o igual a 82 con un mnimo 63. El tallo y hojas muestra que 40 de 50 enfermeras tiene un nivel de satisfaccin con el trabajo entre 70 y 89. Seis enfermeras con un superior o igual a 90.
19
Esta dsticos Satisfaccin con oportunidad es de ascenso (% ) 50 0 57,28 57,50 17,594 86 6 92 48,50 57,50 68,00
N Media Mediana Des v. tp. Rango Mnimo Mx imo Perc entiles
Vlidos Perdidos
25 50 75
Satisfaccin con el trabajo (%) 50 0 79,80 82,00 8,288 32 63 95 72,00 82,00 87,00
Satisfaccin con el sueldo (%) 50 0 53,26 54,00 16,462 88 2 90 42,75 54,00 60,00
Satisfaccin con el trabajo (%) Stem-and-Leaf Plot Frequency 2,00 2,00 14,00 6,00 8,00 12,00 5,00 1,00 Stem & Leaf 6 . 34 6 . 59 7 . 01111222223444 7 . 567789 8 . 22244444 8 . 555667788899 9 . 00004 9. 5 10 1 case(s)
Stem width: Each leaf:
La media para satisfaccin con el sueldo muestra un nivel moderado de 53,26. El 25% de las enfermeras muestra un nivel bajo de satisfaccin con el sueldo, hasta 42,5. La mitad de las enfermeras muestra para este indicador un valor hasta 54. De las 50 enfermeras 28 muestran un nivel entre 51 y 80 observndose slo 2 valores extremos altos desde 89.
20
Satisfaccin con el sueldo (%) Stem-and-Leaf Plot Frequency Stem & Leaf (=<2)
1,00 Extremes ,00 3,00 ,00 6,00 3,00 7,00 5,00 9,00 5,00 3,00 3,00 2,00 1,00 2.
2 . 578 3. 3 . 667778 4 . 223 4 . 5778999 5 . 11233 5 . 566677999 6 . 00000 6 . 666 7 . 024 7 . 66 8. 0 (>=89)
2,00 Extremes
Respecto al indicador satisfaccin con oportunidades de ascenso se observa levemente superior al indicador de sueldo en media y mediana con valores 57,28 y 57,5 respectivamente. El tallo y hojas muestra 35 personas con niveles entre 51 y 86 y 2 con niveles superiores a 90. Satisfaccin con oportunidades de ascenso (%) Stem-and-Leaf Plot Frequency Stem & Leaf (=<16)
2,00 Extremes 2,00 2,00 7,00 14,00 12,00 7,00 2,00 2,00 Stem width: Each leaf: 2 . 39 3 . 77
4 . 0125679 5 . 11222444556789 6 . 122334467788 7 . 0224589 8 . 26 9 . 12 10 1 case(s)
21
Se observa una mayor variabilidad en opinin entre las enfermeras en el indicador de satisfaccin con el sueldo con un rango 88 (diferencia entre el mximo y el mnimo ) y un coeficiente de variacin 30,9% ( ( 16,46/53,26)*100) el cual determina el grado de dispersin de los datos relativo a su media . Se recomienda estudiar estrategias para mejorar el rea que tiene relacin con el sueldo. Por ejemplo bonos de incentivo segn desempeo que mejoren el sueldo de las enfermeras.
n) El intervalo de confianza para la media de satisfaccin con el trabajo para la poblacin

de enfermeras indica que con un 95% de confianza la media de satisfaccin con el trabajo estar entre 77,44 y 88,16.
Asimismo el intervalo de confianza para la media de satisfaccin con el sueldo para la poblacin de enfermeras indica que con un 95% de confianza la media de satisfaccin con el sueldo estar entre 48,58 y 57,94. El intervalo de confianza para la media de satisfaccin con oportunidades de ascenso para la poblacin de enfermeras indica que con un 95% de confianza la media de satisfaccin con oportunidades de ascenso estar entre 52,28 y 62,28.
Descriptive s Stat istic 79,80 77,44 82,16 79,92 53,26 48,58 57,94 53,41 57,28 52,28 62,28 57,88
Sati sfaccin con el trabajo (% )
Mean 95% Confidence Interval for M ean 5% Trimmed Mean Mean 95% Confidence Interval for M ean 5% Trimmed Mean Mean 95% Confidence Interval for M ean 5% Trimmed Mean
Lower Bound Upper Bound
Sati sfaccin con el sueldo (% )
Sati sfaccin con oportunidades de ascenso (% )
o) Para esta pregunta se realiza una prueba ANOVA donde H0: 1= 2=

Descriptivos Satisfaccin con el trabajo (%)
N privados geritricos universitarios Total 19 17 14 50
Media 79,32 80,41 79,71 79,80
Des viacin tpic a 8,035 9,702 7,269 8,288
Error tpico 1,843 2,353 1,943 1,172
Intervalo de confianza para la media al 95% Lmite Lmite inferior superior 75,44 83,19 75,42 85,40 75,52 83,91 77,44 82,16
Mnimo 64 63 69 63
Mx imo 90 95 90 95
La prueba entrega los descriptivos bsicos de la variable satisfaccin con el trabajo para la muestra por tipo de hospital
22
Prueba de homogeneida d de varianza s Satisfaccin con el trabajo (%) Estadstico de Levene ,796 gl1 2 gl2 47 Sig. ,457
Para la variable satisfaccin en el trabajo, la prueba de homogeneidad de varianzas nos permite no rechazar la hiptesis nula de igualdad de varianzas entre los tres tipos de hospital .
ANOVA Satisfaccin con el trabajo (%) Suma de cuadrados 10,920 3355,080 3366,000 gl 2 47 49 Media cuadrtica 5,460 71,385 F ,076 Sig. ,926
Inter-grupos Intra-grupos Total
El nivel de significancia de la prueba ANOVA nos permite no rechazar la Ho de igualdad de medias entre los tres tipos de hospital (Ho: 1= 2= 3 ). Por lo tanto, para la variable satisfaccin con el trabajo no existen diferencias significativas entre las medias de los tres grupos de tipo de hospital; privados, geritricos y universitarios.
Com paraciones m ltiple s Variable dependiente: Sat isfaccin con el trabajo (%) HSD de Tuk ey Intervalo de confianza al 95% Lmite Lmite inferior superior -7,92 5,73 -7,60 6,80 -5,73 7,92 -6,68 8,08 -6,80 7,60 -8,08 6,68
(I) Tipo Hos pital privados geritricos universitarios
(J) Tipo Hos pital geritricos universitarios privados universitarios privados geritricos
Diferencia de medias (I-J) -1,10 -,40 1,10 ,70 ,40 -,70
Error tpico 2,821 2,976 2,821 3,049 2,976 3,049
Sig. ,920 ,990 ,920 ,972 ,990 ,972
La prueba de Tukey confirma lo dicho en la prueba ANOVA en la que no existen diferencias significativas entre los grupos ( de a pares )
p) La prueba entrega los descriptivos bsicos de la variable satisfaccin con el sueldo para
la muestra por tipo de hospital
Descriptivos Satisfaccin con el sueldo (%) Intervalo de confianza para la media al 95% Lmite Lmite inferior superior 38,39 53,18 46,78 62,51 52,65 70,78 48,58 57,94
N privados geritricos universitarios Total 19 17 14 50
Media 45,79 54,65 61,71 53,26
Des viacin tpic a 15,343 15,301 15,696 16,462
Error tpico 3,520 3,711 4,195 2,328
Mnimo 2 27 36 2
Mx imo 66 76 90 90
Prueba de homogeneida d de varianza s Satisfaccin con el sueldo (%) Estadstico de Levene ,120 gl1 2 gl2 47 Sig. ,887
23
Para la variable satisfaccin con el sueldo, la prueba de homogeneidad de varianzas nos permite no rechazar la hiptesis nula de igualdad de varianzas entre los tres tipos de hospital .
ANOVA Satisfaccin con el sueldo (%) Suma de cuadrados 2093,723 11185,897 13279,620 gl 2 47 49 Media cuadrtica 1046,861 237, 998 F 4,399 Sig. ,018
Inter-grupos Intra-grupos Total
El nivel de significancia de la prueba ANOVA nos permite rechazar la Ho de igualdad de medias entre los tres tipos de hospital (Ho: 1= 2= 3 ) con un nivel de significancia del 0.05 para la variable satisfaccin con el sueldo. Por lo tanto existen diferencias significativas entre las medias de los tres grupos de tipo de hospital; privados, geritricos y universitarios. La prueba de Tukey nos muestra que existen diferencias significativas entre las medias los hospitales privados y geritricos y entre los geritricos y universitarios, pero entre los privados y universitarios no existen diferencias significativas
Com paraciones m ltiple s Variable dependiente: Sat isfaccin con el sueldo (%) HSD de Tuk ey Intervalo de confianza al 95% Lmite Lmite inferior superior -21, 32 3,61 -29, 08 -2,77 -3,61 21,32 -20, 54 6,41 2,77 29,08 -6,41 20,54
(I) Tipo Hos pital privados geritricos universitarios
(J) Tipo Hos pital geritricos universitarios privados universitarios privados geritricos
Diferencia de medias (I-J) Error tpico -8,86 5,150 -15, 92* 5,434 8,86 5,150 -7,07 5,568 15,92* 5,434 7,07 5,568
Sig. ,209 ,014 ,209 ,419 ,014 ,419
*. La diferencia entre las medias es signific ativa al nivel .05.
q) La matriz de correlaciones bivariadas nos muestra que los tres indicadores no se

correlacionan pues el nivel de significancia de cada uno de ellos es mayor que 0,05, por lo tanto no se rechaza Ho que establece que no hay correlacin entre las variables
Correlaciones Satisfaccin con oportunidad es de ascenso (% ) -,222 ,122 50 ,010 ,946 50 1 . 50
Satisfaccin con el trabajo (% ) Satisfaccin con el sueldo (% ) Satisfaccin con oportunidades de ascenso (% )
Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N
Satisfaccin con el trabajo (%) 1 . 50 ,141 ,329 50 -,222 ,122 50
Satisfaccin con el sueldo (%) ,141 ,329 50 1 . 50 ,010 ,946 50
24
r) La prueba de Shapiro Wilk nos muestra que las variables satisfaccin con el sueldo y
satisfaccin con oportunidades de ascenso siguen una distribucin normal pues el nivel de significancia es mayor que 0,05 por tanto no se rechaza Ho que establece que la distribucin se ajusta a una curva normal, en cambio la variable satisfaccin con el trabajo no se ajusta a una distribucin normal
Pruebas de norm alidad Kolmogorov-Smirnov Estadstico gl Sig. Satisfaccin con el trabajo (% ) Satisfaccin con el s ueldo (% ) Satisfaccin con oportunidades de asc enso (% ) ,154 ,121 ,101 50 50 50 ,005 ,064 ,200*
a
Sig. ,033 ,414 ,339
*. Este es un lmite inferior de la significac in verdadera. a. Correccin de la s ignificacin de Lilliefors
Grfico Q-Q normal de Satisfaccin con el trabajo (%) 3
Normal esperado
-1
-2
-3 60 70 80 90 100
Valor observado
25
Grfico Q-Q normal de Satisfaccin con el sueldo (%) 3
Normal esperado
-1
-2
-3 0 20 40 60 80 100
Valor observado
Grfico Q-Q normal de Satisfaccin con oportunidades de ascenso (%) 3
Normal esperado
-1
-2
-3 0 20 40 60 80 100
Valor observado
26
Estudio de caso: Premio Colegios

Objetivo del caso:
Utilizar herramientas de anlisis descriptivo e inferencial para conocer informacin til de la unidad de anlisis, en este caso colegios y aplicar posibles criterios para asignar algn tipo de beneficio por segmentos o grupos con perfiles similares.
Enunciado del caso: Suponga que usted es un asesor del Ministerio de Educacin y debe preparar un informe en relacin a los rendimientos de los estudiantes de enseanza media del ao 2006. Entre los diversos informes que debe realizar se le ha pedido que sugiera qu colegios premiar con un estmulo por los resultados de la prueba SIMCE de los segundos medios. El SIMCE es el sistema nacional de medicin de resultados de aprendizaje del Ministerio de Educacin de Chile. Su propsito principal es construir al mejoramiento de la calidad y equidad de la educacin, informando sobre el desempeo de los alumnos y alumnas en algunas reas del curriculum nacional y relacionndolos con el contexto escolar y social en el que ellos aprenden. Las pruebas SIMCE evalan el logro de los Objetivos Fundamentales y Contenidos Mnimos Obligatorios del Marco Curricular en diferentes subsectores de aprendizaje, a travs de una prueba comn que se aplica a nivel nacional, una vez al ao, a los estudiantes que cursan un determinado nivel educacional. Hasta el 2005 la aplicacin de las pruebas se alternaron entre 4 Bsico, 8 Bsico y 2 Medio. Desde el 2006, las pruebas evalan todos los aos el nivel del 4 Bsico y se alternan los niveles de 8 Bsico y 2 Medio. (Fuente: Resultados nacionales SIMCE 2006. MINEDUC) Se dispone de un archivo con los datos de los 2319 colegios evaluados en la prueba SIMCE 2 Medio del 2006. Algunas de las variables de inters son: VARIABLE Idest Regin Comuna ddca ETIQUETA DE VARIABLE Identificador del establecimiento Nombre de la Regin Nombre de la comuna Dependencia CP: Corporacin Privada MC; Corporacin Municipal MD; DAEM (Departamento de Administracin de Educacin Municipal) PP: Particular Pagado PS: Particular Subvencionado ETIQUETA DEVALOR
1
TP
Caso elaborado por Sara Arancibia
27
ruralida
Caracterizacin del establecimiento
1= Rural 2=Urbano
socioeconmico
Grupo socioeconmico establecimiento
del
A Bajo B Medio Bajo C Medio D Medio Alto E Alto
prom_len prom_mat
Promedio puntaje de lenguaje Promedio puntaje de matemticas
Despus de mltiples reuniones con expertos en educacin, usted ha llegado a definir junto con los expertos un criterio para premiar a las escuelas; crear grupos homogneos de escuelas y definir puntajes de corte para cada grupo. De esta forma se estar distinguiendo a los colegios que se destacan entre colegios con similares caractersticas. El premio se otorgar a los colegios con puntajes promedios mayores o iguales al percentil 75 (para cada grupo). Los grupos homogneos se definieron en base a dos criterios: la dependencia del establecimiento definido como Municipal, Privado y Subvencionado y la caracterizacin del establecimiento Rural y Urbano Los grupos homogneos definidos por el grupo experto son, 1: Municipal y Rural 2: Municipal y Urbano 3: Privado y Rural 4: Privado y Urbano 5: Subvencionado y Rural 6: Subvencionado y Urbano
Usted como asesor del Ministerio de Educacin debe aplicar los criterios definidos con los expertos para crear los grupos de colegios homogneos e identificar cules son los establecimientos premiados realizando distintas comparaciones por dependencia, tipo y zona (Norte, Central y Sur). Adems debe determinar si existen diferencias significativas entre los tipos de colegios y por dependencia Para realizar su anlisis deber realizar las siguientes etapas:
1. Limpiar y ordenar la base de inters para el anlisis

a) b) Crear la variable Dependencia considerando slo tres categoras: Crear la variable zona considerando Zona Norte, Centro y Sur Municipalizado, Privado y Subvencionado c) Crear la variable puntprom correspondiente al puntaje promedio entre matemtica y lenguaje
28
d) Crear la variable grupo correspondiente a cada grupo homogneo. Para esto deber crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los cdigos 1 al 6 segn corresponda. e) f) Determinar para cada grupo el percentil 75. Con otra sintaxis (sintaxispremio) crear la variable premio donde segn el criterio mencionado 1=SI recibe premio y 0=NO recibe premio.
2. Realizar un anlisis descriptivo de los datos

a) Cuntos establecimientos rurales y urbanos existen en el archivo de datos y qu porcentaje representan del total? Qu tipo de dependencia se observa con mayor y menor frecuencia? Qu grupo homogneo de establecimientos presenta mayor frecuencia? b) Cuntos colegios obtuvieron puntajes promedio en Matemticas inferior o igual a 250 puntos; entre 251 y 300 puntos y superior a 300 puntos c) Qu porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a 300 puntos? Cuntos de ellos son Municipalizados y Urbanos? Qu puede decir de los Municipalizados y Rurales? d) Qu porcentaje representa el total de colegios premiados respecto al total de colegios? Qu porcentaje de los colegios Municipalizados resultaron premiados? Qu porcentaje de los colegios premiados son Subvencionados? Qu porcentaje de los premiados son de la zona Norte, Centro y Sur? Qu porcentaje de la zona Centro son premiados? Qu porcentaje del total son premiados y del Sur? e) A qu zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural y urbana?. Realice un grfico que permita observar la forma de la distribucin de los puntajes promedio SIMCE para los colegios rurales y los urbanos y muestre adems un diagrama de caja (boxplot) por tipo para el puntaje promedio Qu puede observar? Determine mediante una grfica si hay diferencias entre las medias de los puntajes en lenguaje y en matemticas por dependencia para el grupo de colegios en estudio. Existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y matemticas es similar si se compara los segmentos rural y urbano Determine los estadsticos bsicos de tendencia central, de dispersin y de forma de la distribucin de los puntajes promedios SIMCE para los distintos grupos homogneos, y muestre grficamente la media de los puntajes promedios SIMCE por grupo homogneo. Realice un grfico considerando a todos los colegios en estudio y otro grfico considerando slo el segmento de premiados, que permitan observar la posicin del grupo en relacin al resto de los grupos en cuanto a los descriptivos bsicos. Interprete. Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE.
f)
g)
h)
i)
3.
Realizar pruebas de hiptesis
Asuma que la base de datos corresponde a la poblacin de todos los colegios que dieron la SIMCE en el ao 2006. Considere una muestra aleatoria de aproximadamente el 20% de los colegios considerados y realice pruebas de hiptesis que permita responder las siguientes preguntas.
29
a) Existen diferencias significativas entre los puntajes promedios de la los colegios de tipo Rural y Urbano?
SIMCE entre
b) Existen diferencias significativas entre los puntajes promedios de Matemticas por dependencia? c) Existen diferencias significativas entre los puntajes promedios de Lenguaje por dependencia? d) Para cada grupo de dependencia, Existen diferencias significativas entre los promedios de lenguaje y matemticas? e) Existe relacin entre el grupo socioeconmico del establecimiento y la dependencia? Si existe relacin determine si la relacin es alta, moderada o dbil.
4. Concluir
a) Realice resumidamente un anlisis descriptivo bsico para los colegios premiados usando medidas de tendencia central y medidas de dispersin. b) Sintetizar sus comentarios acerca de los vnculos que explica. c) Sugiera otra alternativa para determinar cmo premiar a los colegios por su rendimiento en la prueba SIMCE. DESARROLLO: 1. a) Limpiar y ordenar la base de inters para el anlisis Crear la variable Dependencia considerando slo tres categoras:
Municipalizado, Privado y Subvencionado En primer lugar observamos que la variable de dependencia ddcia de la base de datos viene con formato cadena o string. Recodificaremos automticamente y luego llevaremos las cinco categoras slo a tres categoras. Para esto ir al Men: Transformar/ recodificacin automtica AUTORECODE VARIABLES=ddcia /INTO depend /PRINT.
Old Value New Value Value Label CP MC MD PP PS 1 Corporacin Privada 2 Corporacin Municipal 3 DAEM 4 Particular Pagado 5 Particular Subencionado
Para crear tres categoras juntaremos las categoras Corporacin Municipal y DAEM en Municipalizado y las categoras Corporacin Privada y Particular pagado en Privado Para esto ir al Men: Transformar/Recodificar en distinta variable
30
RECODE depend (4=2) (5=3) (1=2) (2 thru 3=1) INTO dependencia . VARIABLE LABELS dependencia 'Tipo de dependencia'. EXECUTE .
En definicin de la variable Asignar etiquetas de valor a los cdigos 1 al 3 1= Municipalizado 2=Privado 3=Subvencionado b) Crear la variable zona considerando Zona; Norte, Centro y Sur
En primer lugar se observa que la variable Regin viene en formato de cadena. Se recodificar automticamente. Men: Transformar/Recodificacin automtica AUTORECODE VARIABLES=region /INTO reg /PRINT
En el visor de resultados se puede observar los cdigos de cada categora Old Value New Value Value Label 1 Regin de Aisn del General 1 Carlos Ibaez del Campo 2 Regin de Antofagasta 3 Regin de Atacama 4 Regin de Coquimbo 5 Regin de la Araucana 6 Regin de Los Lagos 7 Regin de Magallanes y de la 7 Antrtica Chilena 8 Regin de Tarapac 9 Regin de Valparaso 10 Regin del Biobo 11 Regin del Libertador General 11 Bernardo O' Higgins 12 Regin del Maule 13 Regin Metropolitana
Regin de Aisn del General Carlos Ibaez del Campo Regin de Antofagasta Regin de Atacama Regin de Coquimbo Regin de la Araucana Regin de Los Lagos Regin de Magallanes y de la Antrtica Chilena Regin de Tarapac Regin de Valparaso Regin del Biobo Regin del Libertador General Bernardo O' Higgins Regin del Maule Regin Metropolitana
Para crear las categoras de zona se recodificar en distintas variables
31
Men: Transformar/Recodificar en distinta variable
RECODE
region (1=3) (8=1) (9=2) (10=3) (2 thru 4=1) (5 thru 7=3) (11 thru 13=2) INTO zona . VARIABLE LABELS zona 'zona'. EXECUTE . En definicin de variables 1= Norte 2= Centro 3= Sur c) Crear la variable puntprom correspondiente al puntaje promedio entre matemtica y lenguaje Al ver el formato de las variables prom_len y prom_mat se observa que viene con tipo: String o cadena y medida nominal. Lo primero que debemos hacer antes de sacar el promedio es cambiar en vista de variables el tipo String a numrico. Para crear la variable puntprom seleccione Men: Transformar/Calcular Variable destino: puntprom Tipo: numrico Etiqueta: Promedio de Matemticas y Lenguaje Expresin: MEAN(prom_len,prom_mat)
COMPUTE puntprom = MEAN(prom_len,prom_mat) . VARIABLE LABELS puntprom 'puntaje promedio entre lenguaje y matemticas. EXECUTE .
d) Crear la variable grupo correspondiente a cada grupo homogne o. Para esto deber crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los cdigos 1 al 6 segn corresponda. Para crear la variable de grupo primero recodificaremos automticamente la variables ruralida a cdigo numrico con nombre caract Donde caract=1 Rural caract=2 Urbano Men: Transformar/Recodificacin automtica
AUTORECODE VARIABLES=ruralida /INTO caract /PRINT.
32
Ahora formamos los seis grupos segn criterio dado
Creacin de la variable grupo *** Sintaxis Grupo ***.

IF IF IF IF IF IF (dependencia = 1 & caract = 1) grupo = 1 . (dependencia = 1 & caract = 2) grupo = 2 . (dependencia = 2 & caract = 1) grupo = 3 . (dependencia = 2 & caract = 2) grupo = 4 . (dependencia = 3 & caract = 1) grupo = 5 . (dependencia = 3 & caract = 2) grupo = 6 .
EXECUTE . Luego en la definicin de variables en valores se define:

1: Municipal y Rural 2: Municipal y Urbano 3: Privado y Rural 4: Privado y Urbano 5: Subvencionado y Rural 6: Subvencionado y Urbano e) Determinar para cada grupo el percentil 75. Para el clculo de los percentiles por grupo: Datos/Segmentar, variable: grupo. Luego Men: Analizar/Frecuencias [Estadsticos]: Percentil 75 SORT CASES BY grupo . SPLIT FILE LAYERED BY grupo . FREQUENCIES VARIABLES=puntprom /FORMAT=NOTABLE /PERCENTILES= 75 /ORDER= ANALYSIS .
No olvide volver a Datos/ Segmentar archivo/ Analizar todos los casos. f) Con otra sintaxis (sintaxispremio) crear la variable premio donde segn el criterio mencionado 1=SI recibe premio y 0=NO recibe premio.
Se consider el siguiente criterio para premiar a los colegios (donde 1=SI, 0=NO)
33
Estadsticos puntaje promedio entre lenguaje y matemticas Municipalizado y Rural N Vlidos Perdidos Percentiles 75 Municipalizado y Urbano N Vlidos Perdidos Percentiles 75 Privado y Rural N Vlidos Perdidos Percentiles 75 Privado y Urbano N Vlidos Perdidos Percentiles 75 Subvencionado y Rural N Vlidos Perdidos Percentiles 75 Subvencionado y Urbano N Vlidos Perdidos Percentiles 75 68 0 225,6250 587 0 246,0000 19 0 322,0000 388 0 324,0000 86 0 246,3750 1171 0 286,0000
*** Sintaxis Premio ***.

IF (grupo = 1 & puntprom >= 225.625) premio = 1 . IF (grupo = 1 & puntprom < 225.625) premio = 0 . IF (grupo = 2 & puntprom >= 246) premio = 1 . IF (grupo = 2 & puntprom < 246) premio = 0 . IF (grupo = 3 & puntprom >= 322.5) premio = 1 . IF (grupo = 3 & puntprom < 322.5) premio = 0 . IF (grupo = 4 & puntprom >= 324) premio = 1 . IF (grupo = 4 & puntprom < 324) premio = 0 . IF (grupo = 5 & puntprom >= 246.375) premio = 1 . IF (grupo = 5 & puntprom < 246.375) premio = 0 . IF (grupo = 6 & puntprom >= 286) premio = 1 . IF (grupo = 6 & puntprom < 286) premio = 0 . En definicin de variables se agrega la etiqueta de valor VARIABLE LABELS premio 'premio (SI=1, NO=0)' . 1=SI EXECUTE . 0=NO
2. Grficos
a) Determine mediante una grfica si hay diferencias entre las medias de los puntajes en lenguaje y en matemticas por dependencia para el grupo de colegios en estudio. Existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y matemticas es similar si se compara los segmentos rural y urbano Para realizar esta grfica se selecciona Men: Grafico/barras/Para distintas variables/Agrupado GRAPH /BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia /MISSING=LISTWISE .
34
Media de puntajes de lenguaje y matemticas por dependencia

prom_len prom_mat
300
Media
200
291,3
306,1 259,5 256,9
235,5
226,6
100
0 Municipalizado Privado Subvencionado
Tipo de dependencia
Del grfico se observa que tanto para lenguaje como para matemticas los colegios privados tiene mejores resultados observndose sin embargo diferencias en casi 15 puntos a favor del promedio de matemticas. Los colegios subvencionados presentan puntajes intermedios si comparamos los privados y los municipalizados con puntajes en torno a 257 puntos en matemticas y con una diferencia de solo 2 puntos a favor del puntaje promedio en lenguaje. Los colegios municipalizados presentan los puntajes promedios mas bajos en ambas pruebas con una diferencia de cerca de 9 puntos a favor de lenguaje. Para responder a la pregunta si existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano hacemos un grfico de barras agrupados seleccionando resmenes para grupos de casos.
GRAPH /BAR(GROUPED)=MEAN(prom_len) BY dependencia BY caract
35
Media de puntajes promedios en lenguaje por dependencia agrupados por caracterizacin Rural y Urbano
300

Rural Urbano
250
Media prom_len
200
150
272,9 237,1 221,3
292,2 261,4 234
100
50
Tipo de dependencia
Se observa una clara diferencia entre los grupos con caracterizacin rural y urbana, notndose en los tres grupos de dependencia un promedio en lenguaje bastante mas bajo en los colegios rurales en relacin a los colegios urbanos. Para comparar el comportamiento en los resultados de ambas pruebas por dependencia entre la caracterizacin de Rural y Urbano es conveniente hacer un grfico en dos paneles. Para esto vamos a Men: Grficos/ barras agrupadas/ resumen para distintas variables GRAPH /BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia /PANEL ROWVAR=caract ROWOP=CROSS /MISSING=LISTWISE .
36
Media de puntajes de lenguaje y matemticas por dependencia para colegios urbanos y rurales
prom_len 300 prom_mat
Urbano
Media
200
292,2 237,1 307 261,4 259,3
100
228,5
300
Media
Rural
200
272,9 286,8 234 224,7
100
221,3
210,6
Tipo de dependencia
El grfico nos muestra un comportamiento muy similar por dependencia entre los urbanos y rurales en cuanto a que los puntajes promedios ms altos se observan en los colegios privados, los puntajes intermedios en los subvencionados y los puntajes ms bajos en los municipalizados. En todos los casos los urbanos presentan mayor puntaje promedio si se compara con los puntajes de los colegios rurales. g) Realice un grfico considerando a todos los colegios en estudio y otro grfico considerando slo el segmento de premiados, que permitan observar la posicin del grupo en relacin al resto de los grupos en cuanto a los descriptivos bsicos. Interprete. Para esto realizaremos un diagrama de cajas por grupo. Men: Analizar/ Explorar/grficos EXAMINE VARIABLES=puntprom BY grupo /PLOT BOXPLOT HISTOGRAM /COMPARE GROUP /STATISTICS NONE /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.
37
Puntajes promedios SIMCE por grupo de colegios
350
2175 2173 2174 2176 853 1097
Puntaje SIMCE promedio
300
1301
285 250
1657 200 1684
Municipalizado y Rural
Municipalizado Privado y Rural y Urbano
Privado y Urbano
Subvencionado Subvencionado y Rural y Urbano
Grupo
Del grfico se puede apreciar que los mayores puntajes se concentran en los colegios privados, alcanzando la mayor mediana los colegios privados urbanos, aunque se observa que existen algunos colegios con puntajes extremos muy bajos. Por otra parte se puede ver que los puntajes ms bajos se concentran en los colegios municipalizados y rurales presentando la menor de las medianas y es el grupo que presenta la menor variabilidad en los puntajes, es decir son bastante homogneos en cuanto al resultado promedio SIMCE, mostrando slo un caso sobre los 250 puntos en promedio. Se observa que el grupo de municipalizados urbanos a pesar de tener la mayora de los colegios concentrados en puntajes bajos es el nico grupo que presenta varios colegios con puntajes atpicos y un extremo en la parte alta de puntajes. Respecto a los subvencionados se ve clara diferencia entre los urbanos y rurales donde hay una marcada diferencia a puntajes ms bajos en los colegios rurales. Para obtener el diagrama de cajas para los premiados, primero se selecciona a los colegios que obtuvieron premio y una vez filtrada la base se procede a realizar la grfica.
USE ALL. COMPUTE filter_$=(premio = 1). VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .
38
Es claro que la posicin de cada grupo en general se mantiene en relacin a la grfica analizada anteriormente. Los puntajes de los premiados con mayor puntaje se concentran en los privados, observndose muy concentrados, bastante homogneos entre si. Sin embargo los puntajes de los premiados con menor puntaje se concentran en los municipalizados rurales con un puntaje extremo pero que no pasa a la mediana del grupo de municipalizados urbanos. El grupo de los municipalizados urbanos premiados es el que presenta mas variabilidad en los puntajes, mostrando seis colegios con puntajes atpicos superiores en el rango de puntajes del grupo de los privados. El 50% de los colegios que cae en la caja del rango intercuartil (entre el percentil 25 y el percentil 75) del grupo de municipalizados urbanos se comporta de una manera muy similar a los colegios que se encuentran en la caja del rango intercuartil del grupo de subvencionados rurales. Se observa ms notoriamente la diferencia en los puntajes de los colegios premiados que pertenecen al grupo de los subvencionados rurales y los que pertenecen a los subvencionados urbanos.
Puntaje promedio para los colegios premiados por grupo de colegios

360 2175 2173 340 2174 2169 2172 2190
1097
Puntaje SIMCE promedio
320
300
280
260
285
240
220
Municipalizado y Rural
Municipalizado Privado y Rural y Urbano
Privado y Urbano
Subvencionado Subvencionado y Rural y Urbano
Grupo
Si consideramos la base de datos como si fuera la poblacin de colegios que rinde la SIMCE, podramos decir que claramente se observa diferencias significativas entre las medias de puntajes entre los diferentes grupos de colegios.
39
3. Pruebas de hiptesis
Asuma que la base de datos corresponde a la poblacin de todos los colegios que rindieron la prueba SIMCE en el ao 2006. Considere una muestra aleatoria de aproximadamente el 20% de los colegios considerados y realice pruebas de hiptesis que permita responder las siguientes preguntas. En primer lugar se debe seleccionar una muestra aleatoria. Para esto ir a Men: Seleccionar/ Muestra aleatoria de datos
Sintaxis
USE ALL. COMPUTE filter_$=(uniform(1)<=.20). VARIABLE LABEL filter_$ 'Approximately 20 % of cases (SAMPLE)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .
a) Existen diferencias significativas entre los puntajes promedios de la los colegios de tipo Rural y Urbano?
SIMCE entre
Esta pregunta corresponde a realizar una prueba T para muestras independientes. Dado que es una prueba paramtrica veremos previamente si se verifica la normalidad de la variable puntprom en ambos grupos Rural y Urbano. Men: Analizar/ Explorar/ Grficos con prueba de normalidad EXAMINE VARIABLES=puntprom BY caract /ID= Idest /PLOT BOXPLOT HISTOGRAM NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES EXTREME /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.
Pruebas de normalidad Caracterizacin del establecimiento Rural Urbano Kolmogorov-Smirnov Estadstico gl Sig. ,201 45 ,000 ,078 425 ,000
a
puntaje promedio entre lenguaje y matemticas
Estadstico ,797 ,964
Shapiro-Wilk gl 45 425
Sig. ,000 ,000
a. Correccin de la s ignificac in de Lilliefors
Dado que la significancia en la prueba K-S es menor a 0,05, tanto para el grupo de colegios rurales como urbanos se rechaza la hiptesis nula de normalidad, donde H0: La variable puntaje promedio distribuye normal Sin embargo, la prueba T es robusta a desviaciones de la normalidad, por tanto veremos si existen valores extremos o atpicos y los filtraremos segn sea la cantidad 2, para luego solicitar el coeficiente de asimetra. Si ste est cerca de cero se considerar que la distribucin es simtrica y en consecuencia se podr aplicar la prueba T.
Si son muchos los casos extremos y atpicos seguramente la distribucin no ser simtrica y no podramos aplicar la prueba T 2
40
Para lo anterior consideremos el diagrama de cajas que se seleccion en el men explorar en la sintaxis anterior.
Media de puntajes promedios SIMCE por caracterizacin Rural y Urbano
puntaje promedio entre lenguaje y matemticas
350,00
760,00
300,00 1190,00 1195,00
250,00
200,00
Rural
Urbano
En la grfica se puede apreciar que hay valores atpicos y extremos en el grupo de colegios rurales. Al editar la grfica se puede ver que dentro de los extremos aparecen tres promedios extremos con identificacin 1171, 754 y 760
Adems se puede apreciar dos atpicos con identificacin, 1190, 1195 Filtremos estos cinco valores y verifiquemos si se cumple la asimetra Men: Datos/Seleccionar casos USE ALL. COMPUTE filter_$=(Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 & Idest ~= 1195). VARIABLE LABEL filter_$ 'Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 & Idest ~= 1195 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .
41
Una vez filtrados los valores extremos y atpicos solicitemos el coeficiente de asimetra para cada grupo de caracterizacin; Rural y Urbano Par esto conviene segmentar por caract y luego en Frecuencias/ Estadsticos solicitar el coeficiente de asimetra. Men: Datos/ Segmentar archivo SPLIT FILE LAYERED BY caract . FREQUENCIES VARIABLES=puntprom /FORMAT=NOTABLE /STATISTICS=SKEWNESS SESKEW /ORDER= ANALYSIS .
SORT CASES BY caract . SPLIT FILE LAYERED BY caract . FREQUENCIES VARIABLES=puntprom /FORMAT=NOTABLE /STATISTICS=SKEWNESS SESKEW /ORDER= ANALYSIS .
Coe ficiente de asimetra para l a varia ble puntaje promedi o punt aje promedio entre lenguaje y matemticas Rural N Vlidos Perdidos Asimetra Urbano N Vlidos Perdidos Asimetra
40 0 ,553 425 0 ,258
Dado que el coeficiente de asimetra est cerca de cero podemos considerar la variable puntprom simtrica en ambos grupos Rural y Urbano y por tanto podemos aplicar la prueba T para muestras independientes: Previamente debemos sacar la segmentacin y tomar todos los casos, dejando el filtro realizado anteriormente para los extremos y atpicos. Para realizar la prueba T: Men: Analizar/Comparar medias/Prueba T para muestras independientes ***Sintaxis*** T-TEST GROUPS = caract(1 2) /MISSING = ANALYSIS /VARIABLES = puntprom /CRITERIA = CI(.95) .
42
Esta dsticos de grupo Caracterizacin del establecimiento Rural Urbano N 40 425 Media 216, 2125 260, 4612 Des viacin tp. 16,63827 39,08043 Error tp. de la media 2,63074 1,89568
punt aje promedio entre lenguaje y matemticas
Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas
Prueba T para la igualdad de medias 95% Intervalo de confianza para la diferencia Inferior Superior -56, 50412 -50, 69281 -31, 99323 -37, 80454
F punt aje promedio entre lenguaje y matemticas Se han asumido varianzas iguales No s e han asumido varianzas iguales 42,153
Sig. ,000
t -7,095 -13, 646
gl 463 87,838
Sig. (bilateral) ,000 ,000
Diferencia de medias -44, 24868 -44, 24868
Error tp. de la diferencia 6,23655 3,24259
En la tabla de estadsticos de grupo se observa el nmero de casos por cada grupo en la muestra y la media y dispersin del puntaje promedio para los datos de la muestra de colegios. La tabla de la prueba T para muestras independientes entrega en primer lugar el resultado de la prueba de Levene para la igualdad de varianzas. En este caso dado que la significancia es menor a 0,05 se rechaza la hiptesis nula.
H0 :
2 1
2 2
que indica que la varianza del puntaje promedio para el grupo Rural no difiere
de la varianza del puntaje promedio para el grupo Urbano. Por tanto no se asume varianzas iguales y en este caso se lee la prueba T de la segunda fila de la tabla. Dado que la significancia es menor a 0,05 se rechaza la hiptesis nula de igualdad de medias
H0 :
que indica que no hay diferencias significativas en las medias del promedio de
puntajes SIMCE para el grupo Rural y Urbano. Por tanto, existe evidencia para afirmar que existen diferencias significativas en la media de los promedios de puntajes entre el grupo de colegios rurales y los colegios urbanos con un nivel de significancia del 5%.Por otra parte la tabla entrega un intervalo de confianza del 95% para la diferencia de medias. En este caso la diferencia de medias para los promedios de puntajes entre los colegios urbanos y rurales est entre 38 puntos y 51 puntos aproximadamente con un 95 % de confianza. b) Existen diferencias significativas entre las medias de los puntajes promedios de Matemticas por dependencia? La variable dependencia es una variable nominal con tres categoras. Por tanto se trata de una Prueba ANOVA de un factor, donde la hiptesis nula es H 0 : 1 2 3 es decir, las medias de los puntajes promedios de matemticas de los colegios municipalizados, privados y subvencionados no difieren significativamente entre s. Previamente verificaremos la hiptesis de normalidad. Dado que la prueba es robusta a desviaciones de la normalidad por lo menos se debe verificar que los datos se comportan de manera simtrica. Para verificar la normalidad, solicitamos la prueba de K-S en;
43
Men: Analizar/ Explorar/ Grficos EXAMINE VARIABLES=prom_mat BY dependencia /ID= Idest /PLOT BOXPLOT HISTOGRAM NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.
Se obtiene la tabla con la prueba K-S

Pruebas de norm alidad Kolmogorov-Smirnov Estadstico gl Sig. ,083 128 ,032 ,120 82 ,005 ,072 260 ,002
a
prom_mat
Tipo de dependenc ia Municipaliz ado Privado Subvencionado
Sig. ,000 ,002 ,000
a. Correccin de la significac in de Lilliefors
Claramente se observa que la variable puntaje de matemticas no distribuye normal en ninguno de los grupos de dependencia. Entonces veremos el diagrama de caja correspondiente al puntaje promedio para cada grupo de dependencia.
Media de puntajes promedios de matemticas por dependencia

400
350 250,00 661,00
prom_mat
300
575,00
250
200
150
Municipalizado
Privado
Subvencionado
Tipo de dependencia
44
Se puede apreciar del diagrama de cajas que en el grupo de colegios municipalizados hay tres colegios con valores atpicos, cuya identificacin corresponden a 250, 661 y 575. Filtraremos estos valores Men: Datos/ seleccionar USE ALL. COMPUTE filter_$=(Idest ~= 250 & Idest ~= 661 & Idest ~= 575). VARIABLE LABEL filter_$ 'Idest ~= 250 & Idest ~= 661 & Idest ~= 575 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .
Ahora veamos los coeficientes de asimetra para comprobar que los datos distribuyen en forma simtrica en cada grupo. Men: Datos/ Segmentar archivo/ Frecuencias SORT CASES BY dependencia . SPLIT FILE LAYERED BY dependencia . FREQUENCIES VARIABLES=prom_mat /FORMAT=NOTABLE /STATISTICS=SKEWNESS SESKEW /ORDER= ANALYSIS .
Esta dsticos prom_mat Municipaliz ado N Asimetra N Asimetra N Asimetra Vlidos Perdidos Vlidos Perdidos Vlidos Perdidos
Privado
Subvencionado
125 0 ,309 82 0 -,592 260 0 ,102
Se puede apreciar que los coeficientes de asimetra son cercanos a cero y por tanto podemos considerar las distribuciones simtricas para cada grupo de dependencia. Ahora podemos aplicar la prueba ANOVA de un factor. Previamente consideramos todos los casos (sacar la segmentacin por dependencia). Men: Analizar/comparar medias/ ANOVA de un factor ONEWAY prom_mat BY dependencia /STATISTICS DESCRIPTIVES HOMOGENEITY /MISSING ANALYSIS .
45
En primer lugar vemos la prueba de Levene de igualdad de varianzas, donde la hiptesis nula es
H0 :
2 1
2 2
2 3
Es decir no existen diferencias significativas en la variabilidad del puntaje promedio de matemticas entre los tres grupos de dependencia
Prueba de homogeneida d de varianza s prom_mat Estadstico de Levene 38,170 gl1 2 gl2 464 Sig. ,000
De la tabla obtenemos que la significancia es menor a 0,05, por tanto se rechaza la hiptesis nula de igualdad de varianzas y en consecuencia no podemos ver la tabla ANOVA (que exige que se cumpla la hiptesis anterior). En este caso veremos la prueba de Welch, que representa una alternativa robusta al estadstico F del ANOVA cuando no se puede asumir varianzas iguales 3 Para esto en Opciones activamos Welch, donde la hiptesis nula correspondiente es H 0 : 1 2 3
Pruebas robustas de igualdad de las m edias prom_mat Welch Estadstico 177, 550
a
gl1 2
gl2 205, 874
Sig. ,000
a. Dist ribuidos en F asintticamente.
De la tabla vemos que la significancia es menor a 0,05, por tanto se rechaza la hiptesis de igualdad de medias y en consecuencia hay diferencias significativas entre las medias del puntaje promedio de matemticas por dependencia. Para conocer entre qu grupos de dependencia hay diferencias, solicitamos en Post-Hoc la opcin de Games-Howell que es un mtodo que se basa en la distribucin del rango estudentizado y en un estadstico T. Es el mejor mtodo que permite controlar la tasa de error en diferentes situaciones.
Tanto el estadstico de Welch como el de Brown- Forsythe se distribuyen segn el modelo de probabilidad F, pero con grados de libertad corregidos
46
Com paraciones m ltiple s Variable dependiente: prom_mat Games-Howell Intervalo de confianza al 95% Lmite Lmite inferior superior -96, 39 -73, 48 -43, 98 -28, 12 73,48 96,39 36,56 61,21 28,12 43,98 -61, 21 -36, 56
(I) Tipo de dependencia Municipaliz ado Privado Subvencionado
(J) Tipo de dependencia Privado Subvencionado Municipaliz ado Subvencionado Municipaliz ado Privado
Diferencia de medias (I-J) Error tpico -84, 934* 4,824 -36, 050* 3,371 84,934* 4,824 48,884* 5,206 36,050* 3,371 -48, 884* 5,206
Sig. ,000 ,000 ,000 ,000 ,000 ,000
Dado que todas las significancias son menores a 0,05 se puede concluir que existen diferencias significativas en los puntajes promedios de matemticas entre todos los pares posibles de grupos de dependencia. Adicionalmente la tabla entrega un intervalo de confianza para la diferencia de medias poblacionales del puntaje promedio de matemticas para cada par de grupos considerados en el anlisis con un 95% de confianza. c) Existen diferencias significativas entre los puntajes promedios de Lenguaje por dependencia? Repitiendo el mimo procedimiento para los puntajes de matemticas se realiza un diagrama de caja para ver los atpicos en los puntajes de lenguaje por dependencia obteniendo que existen dos atpicos en el grupo de municipalizados y un caso atpico en los privados
Media de los puntajes promedio de lenguaje por dependencia
250,00
300 661,00
prom_len
250
54,00 200
Municipalizado
Privado
Subvencionado
Tipo de dependencia
47
Se filtran para luego pedir el coeficiente de asimetra. USE ALL. COMPUTE filter_$=(Idest ~= 250 & Idest ~= 661 & Idest ~= 54). VARIABLE LABEL filter_$ 'Idest ~= 250 & Idest ~= 661 & Idest ~= 54 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . SORT CASES BY dependencia . SPLIT FILE LAYERED BY dependencia . FREQUENCIES VARIABLES=prom_len /FORMAT=NOTABLE /STATISTICS=SKEWNESS SESKEW /ORDER= ANALYSIS .
Esta dsticos prom_len Municipaliz ado N Asimetra N Asimetra N Asimetra Vlidos Perdidos Vlidos Perdidos Vlidos Perdidos
Privado
Subvencionado
126 0 ,445 81 0 -,535 260 0 -,024
Se puede observar que la variable puntaje promedio de lenguaje distribuye en forma simtrica en los tres grupos de dependencia pues los tres coeficientes de asimetra estn cercanos a cero. Por tanto podemos aplicar la prueba ANOVA. Previamente consideramos todos los casos (sacar la segmentacin por dependencia). Men: Analizar/comparar medias/ ANOVA de un factor ONEWAY prom_len BY dependencia /STATISTICS DESCRIPTIVES HOMOGENEITY /MISSING ANALYSIS . En primer lugar vemos la prueba de Levene de igualdad de varianzas, donde la hiptesis nula es
H0 :
2 1
2 2
2 3 .
Es decir no existen diferencias significativas en la variabilidad del
puntaje promedio de lenguaje entre los tres grupos de dependencia

Prueba de homogeneida d de varianza s prom_len Estadstico de Levene 29,956 gl1 2 gl2 464 Sig. ,000
48
De la tabla obtenemos que la significancia es menor a 0.05, por tanto se rechaza la hiptesis nula de igualdad de varianzas y en consecuencia no podemos ver la tabla ANOVA (que exige que se cumpla la hiptesis anterior). En este caso veremos la prueba de Welch, que representa una alternativa robusta al estadstico F del ANOVA cuando no se puede asumir varianzas iguales 4 Para esto en Opciones activamos Welch, donde la hiptesis nula correspondiente es H 0 : 1 2 3
Pruebas robustas de igualdad de las m edias prom_len Welch Estadstico 183, 227
a
gl1 2
gl2 208, 914
Sig. ,000
a. Dist ribuidos en F asintticamente.
De la tabla vemos que la significancia es menor a 0,05, por tanto se rechaza la hiptesis de igualdad de medias y en consecuencia hay diferencias significativas entre las medias del puntaje promedio de lenguaje por dependencia. Para conocer entre qu grupos de dependencia hay diferencias, solicitamos en Post-Hoc la opcin de Games-Howell que es un mtodo que se basa en la distribucin del rango estudentizado y en un estadstico T. Es el mejor mtodo que permite controlar la tasa de error en diferentes situaciones.
Com paraciones m ltiple s Variable dependiente: prom_len Games-Howell Intervalo de confianza al 95% Lmite Lmite inferior superior -66, 27 -50, 77 -33, 59 -22, 32 50,77 66,27 22,40 38,74 22,32 33,59 -38, 74 -22, 40
(I) Tipo de dependencia Municipaliz ado Privado Subvencionado
(J) Tipo de dependencia Privado Subvencionado Municipaliz ado Subvencionado Municipaliz ado Privado
Diferencia de medias (I-J) Error tpico -58, 521* 3,265 -27, 955* 2,396 58,521* 3,265 30,566* 3,452 27,955* 2,396 -30, 566* 3,452
Sig. ,000 ,000 ,000 ,000 ,000 ,000
Dado que todas las significancias son menores a 0,05 se puede concluir que existen diferencias significativas en los puntajes promedios de lenguaje entre todos los pares posibles de grupos de dependencia. Adicionalmente la tabla entrega un intervalo de confianza para la diferencia de medias poblacionales del puntaje promedio de lenguaje para cada par de grupos considerados en el anlisis con un 95% de confianza. d) Para cada grupo de dependencia, Existen diferencias significativas entre los promedios de lenguaje y matemticas?. Esta prueba corresponde para cada grupo de dependencia a una prueba T para muestras 0 es decir la diferencia relacionadas, donde la hiptesis nula corresponde a H 0 : 1 2 de las medias poblacionales del puntaje promedio de matemticas y de lenguaje es cero.
4
Tanto el estadstico de Welch como el de Brown- Forsythe se distribuyen segn el modelo de probabilidad F, pero con grados de libertad corregidos
49
Previamente segmentaremos por dependencia. SORT CASES BY dependencia . SPLIT FILE SEPARATE BY dependencia . Calcularemos la variable diferencia entre ambos puntajes difpunt. Luego veremos si la diferencia entre las dos variables consideradas distribuye normal. Al igual que la prueba T para muestras independientes es robusta a desviaciones de la normalidad, por tanto bastara filtrar los casos extremos o atpicos si es que la cantidad es marginal y luego probar que es simtrica. Men; Transformar/Calcular Luego de calcular la diferencia se procede a verificar si distribuye normal Men; Analizar/ Explorar/ grficos COMPUTE difpunt = prom_mat - prom_len . EXECUTE . EXAMINE VARIABLES=difpunt /ID= Idest /PLOT BOXPLOT HISTOGRAM NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.
Para cada grupo de dependencia se observa de la prueba K-S que no se rechaza la normalidad de la variable diferencia entre los puntajes, en consecuencia se verifica la hiptesis de la prueba T para muestras relacionadas. Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante a una distribucin normal.
b Pruebas de norm alidad
difpunt
Kolmogorov-Smirnov Shapiro-Wilk Estadstico gl Sig. Estadstico gl ,053 128 ,200* ,995 128
Sig. ,942
*. Este es un lmite inferior de la significacin verdadera. a. Correccin de la significac in de Lilliefors b. Tipo de dependenc ia = Municipalizado
Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante a una distribucin normal .
50
Histograma
Tipo de dependencia= Municipalizado 25
20
Frecuencia
15
10
0 -50,00 -40,00 -30,00 -20,00 -10,00 0,00 10,00 20,00
Mean = -9,8125 Std. Dev. = 12,76792 N = 128
difpunt
difpunt
Kolmogorov-Smirnov Estadstico gl Sig. ,097 82 ,054
Estadstico ,978
Shapiro-Wilk gl 82
Sig. ,173
a. Correccin de la significac in de Lilliefors b. Tipo de dependenc ia = Privado
Histograma
Tipo de dependencia= Privado 20
15
Frecuencia
10
0 -40,00 -20,00 0,00 20,00 40,00 60,00
Mean = 16,6585 Std. Dev. = 17,67276 N = 82
difpunt
51
Para los colegios privados se puede apreciar en el histograma de la variable que existe un colegio con una diferencia entre los puntajes matemticos y lenguaje bastante amplio, siendo el caso atpico con el valor negativo mayor. Sin embargo la prueba Kolmogorov- Smirnov nos permite no rechazar la normalidad de la variable diferencia, dado que la significancia es mayor a 0,05.
difpunt
Kolmogorov-Smirnov Shapiro-Wilk Estadstico gl Sig. Estadstico gl ,046 260 ,200* ,990 260
Sig. ,082
*. Este es un lmite inferior de la significacin verdadera. a. Correccin de la significac in de Lilliefors b. Tipo de dependenc ia = Subvencionado
Histograma
Tipo de dependencia= Subvencionado 40
30
Frecuencia
20
10
0 -40,00 -20,00 0,00 20,00 40,00 60,00
Mean = -2,6654 Std. Dev. = 18,13696 N = 260
difpunt
En el caso de los subvencionados se observa un puntaje muy alto en el histograma, correspondiendo a un colegio con una diferencia promedio entre matemticas y lenguaje cercano a 60 puntos. Sin embargo se comporta con un buen ajuste a la distribucin normal pues la significancia es 0,200 mayor a 0,05. Ahora para cada grupo de dependencia aplicaremos la prueba T para muestras relacionadas. T-TEST PAIRS = prom_mat WITH prom_len (PAIRED) /CRITERIA = CI(.95) /MISSING = ANALYSIS. a Esta dsticos de muestra s rela cionadas
Media 223,27 233,09 N 128 128 Des viacin tp. 25,380 19,010 Error tp. de la media 2,243 1,680
Par 1
prom_mat prom_len
a. Tipo de dependencia = Municipalizado
52
En primer lugar se aprecia la tabla con estadsticos bsicos de la muestra para colegios con dependencia municipalizado, mostrando que las medias muestrales tienen una diferencia de aproximadamente 10 puntos entre los puntajes promedios a favor de lenguaje.
a Correlaciones de muestras rel aciona das
N Par 1 prom_mat y prom_len 128 a. Tipo de dependenc ia = Municipalizado
Correlacin ,873
Sig. ,000
La tabla de correlaciones indica que para los colegios municipalizados el puntaje de matemticas y de lenguaje se correlacionan linealmente, con una fuerza de asociacin positiva alta
a Prueba de muestras rel aciona das
Diferencias relacionadas 95% Intervalo de confianza para la diferencia Inferior Superior -12, 046 -7,579
Par 1
prom_mat - prom_len
Media -9,813
Des viacin tp. 12,768
Error tp. de la media 1,129
t -8,695
gl 127
Sig. (bilateral) ,000
a. Tipo de dependenc ia = Municipalizado
De la prueba T para muestras relacionadas, se rechaza la hiptesis nula de igualdad de medias (diferencia igual a cero), dado que la significancia es menor a 0.05, por tanto existen diferencias significativas entre el promedio de matemticas y el promedio de lenguaje para los colegios municipalizados. Del intervalo de confianza para la diferencia se puede deducir que con un 95% de confianza la media poblacional del puntaje promedio de lenguaje es superior al de matemticas y la diferencia est entre aproximadamente 7,5 puntos y 12 puntos. De manera equivalente se realiza una prueba T para muestras relacionadas para los colegios con dependencia privado y subvencionado, obtenindose en ambos casos diferencias significativas entre los promedios de matemticas y lenguaje. e) Existe relacin entre el grupo socioeconmico del establecimiento y la dependencia? Si existe relacin determine si la relacin es alta, moderada o dbil. Ambas variables pueden ser consideradas como nominales. En este caso la hiptesis nula a probar es H0: Las variables grupo socioeconmico del establecimiento es independiente de la dependencia del colegio. En primer lugar solicitemos la tabla de contingencia para ambas variables, considerando tanto la frecuencia observada y la frecuencia esperada.
53
Tabla de contingencia Grupo Socioe conm ico de l establecimie nto * Tipo de dependencia Tipo de dependenc ia Municipali Subvenci zado Privado onado 56 2 40 26,7 17,1 54,2 57 9 53 32,4 20,8 65,8 13 1 101 31,3 20,1 63,6 2 18 61 22,1 14,1 44,8 0 52 5 15,5 9,9 31,5 128 82 260 128,0 82,0 260,0
Total 98 98,0 119 119,0 115 115,0 81 81,0 57 57,0 470 470,0
Grupo Socioeconmico del establecimient o
Bajo Medio Bajo Medio Medio Alto Alto
Total
Rec uento Frec uencia Rec uento Frec uencia Rec uento Frec uencia Rec uento Frec uencia Rec uento Frec uencia Rec uento Frec uencia
esperada esperada esperada esperada esperada esperada
Se puede observar que las frecuencias esperadas son muy diferentes de las frecuencias observadas, caracterstica de variables no independientes. Apliquemos la prueba chi-cuadrado de independencia. CROSSTABS /TABLES=socioeconomico BY dependencia /FORMAT= AVALUE TABLES /STATISTIC=CHISQ CC /CELLS= COUNT EXPECTED /COUNT ROUND CELL .
Pruebas de chi-cuadra do Valor 368,714a 331,315 470 gl 8 8 Sig. asinttica (bilateral) ,000 ,000
Chi-cuadrado de Pearson Raz n de verosimilitud N de casos vlidos
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuenc ia mnima esperada es 9,94.
De la prueba chi cuadrado se desprende que las variables estn relacionadas, no son independientes dado que la significancia es menor a 0,05. Para conocer el grado de la intensidad de la relacin vemos el valor del coeficiente de contingencia. Se puede apreciar que este coeficiente es significativo y alcanza un valor 0,663
Medidas simtricas Valor Nominal por nominal N de casos vlidos Coeficiente de contingenc ia ,663 470 Sig. aproximada ,000
a. Asumiendo la hiptesis alternativa. b. Empleando el error tpico asintt ico bas ado en la hiptesis nula.
moderado alto.
54
4. Concluir
a) Realice resumidamente un anlisis descriptivo bsico para los colegios premiados usando medidas de tendencia central y medidas de dispersin. En primer lugar conviene seleccionar a los colegios premiados. Para esto Datos/ seleccionar casos/ Si/Premio=1 USE ALL. COMPUTE filter_$=(premio = 1). VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .
Se puede solicitar una tabla con los estadsticos bsicos para el puntaje matemticas, lenguaje y puntaje promedio por dependencia.
MEANS TABLES=prom_mat prom_len puntprom BY dependencia /CELLS COUNT MEAN MEDIAN STDDEV MIN MAX NPCT .
55
Informe puntaje promedio entre lenguaje y mat emticas 23 262,3261 256,0000 17,80361 246,50 321,00 19,8% 21 333,3095 331,5000 8,71848 322,00 352,50 18,1% 72 303,8750 305,2500 15,08304 249,00 331,00 62,1% 116 300,9655 305,2500 26,63168 246,50 352,50 100,0%
Tipo de dependenc ia Municipaliz ado
Privado
Subvencionado
Total
N Media Mediana Des v. tp. Mnimo Mx imo % del total N Media Mediana Des v. tp. Mnimo Mx imo % del total N Media Mediana Des v. tp. Mnimo Mx imo % del total N Media Mediana Des v. tp. Mnimo Mx imo % del total
de N
de N
de N
de N
prom_mat 23 261,35 258,00 22,663 236 325 19,8% 21 347,71 344,00 13,539 327 380 18,1% 72 312,14 313,00 19,149 246 352 62,1% 116 308,51 313,00 33,019 236 380 100,0%
prom_len 23 263,30 257,00 14,683 251 317 19,8% 21 318,90 317,00 6,818 306 336 18,1% 72 295,61 297,50 13,440 252 319 62,1% 116 293,42 297,50 21,537 251 336 100,0%
Y para visualizar grficamente los resultados podemos observar el diagrama de cajas para el puntaje promedio SIMCE por grupo homogneo En primer lugar se puede observar que el total de colegios premiados alcanz a 116 colegios de los cuales el 62,1% corresponde a colegios subvencionados. Los mejores puntajes se concentran en los colegios privados con un puntaje promedio de 333 puntos, siendo el promedio de matemticas superior al promedio de lenguaje en casi 29 puntos. En segundo lugar se observan los puntajes de los colegios subvencionados con una media de casi 304 puntos y una diferencia de aproximadamente 17 puntos a favor del promedio de matemticas. Sin embargo en los colegios municipalizados se observa apenas una media de 262 puntos muy inferior a los privados y subvencionados con un puntaje bastante parejo entre la media de matemticas y lenguaje observndose slo 2 puntos a favor de lenguaje. Si observamos el diagrama de cajas de la pregunta h) , el grupo de colegios premiados que presenta menores puntajes corresponde al grupo Municipalizados y Rurales alcanzando una mediana cerca de 235 puntos, observndose un colegio con un valor atpico cerca de 257 puntos. Se observa una gran diferencia en los puntajes de los premiados municipalizados urbanos que alcanzan una mediana de casi 262 puntos con varios puntajes promedios atpicos altos, hasta 348 puntos, adems se observa bastante variabilidad entre los puntajes promedios de este grupo. Los
56
colegios premiados privados, tanto rural como urbano se presentan con puntajes altos bastante homogneos y con por lo menos el 50% de los colegios con puntajes promedios sobre 332 puntos. Respecto a los colegios subvencionados se observa una gran diferencia entre rurales y urbanos siendo la mediana de los puntajes 265 y 303 puntos respectivamente. La media de los puntajes del total de colegios premiados alcanz un promedio de aproximadamente 301 puntos con una mediana de 305 puntos indicando que el 50% de los colegios premiados alcanzaron un puntaje promedio superior o igual a 305 puntos, obteniendo como valor mnimo 246, 5 puntos y un mximo de 352,5 puntos, lo que da una amplitud bastante amplia de 116 puntos con una desviacin estndar de aproximadamente 27 puntos, es decir en promedio los puntajes se desvan de la media en 26 puntos. En sntesis, si bien los colegios considerados son todos premiados existe mucha variabilidad entre ellos, debiendo ser necesario focalizar estrategias para apoyar a los colegios rurales no privados, que estn muy por debajo de los urbanos y de los privados en general. b) Sintetizar sus comentarios acerca de los vnculos que explica.
En el anlisis explicativo de los datos que realizamos en la tercera parte del caso aplicamos (en base a una muestra del 20% de la poblacin), pruebas T para muestras independientes, muestras relacionadas y ANOVA de un factor, y prueba chi cuadrado para la independencia,probndose las siguientes afirmaciones con un nivel de significancia del 0,05; Existen diferencias significativas entre los puntajes promedios de la SIMCE 2006 de segundos medios entre los colegios de tipo Rural y Urbano, siendo mayor el promedio para colegios urbanos. Existen diferencias significativas entre los puntajes promedios de Matemticas entre los colegios municipalizados, privados y subvencionados. Del mismo modo ocurre para los puntajes promedios de lenguaje. Para cada grupo de dependencia, existen diferencias significativas entre los promedios de lenguaje y matemticas. Existe relacin significativa entre el grupo socioeconmico del establecimiento y la dependencia, siendo bastante considerable, es decir los colegios municipalizados estn mas relacionados con un grupo socioeconmico bajo y medio bajo, los colegios subvencionados con un grupo socioeconmico medio, medio bajo y medio alto y los colegios privados con el grupo socioeconmico alto. c) Sugiera otra alternativa para determinar cmo premiar a los colegios por su rendimiento en la prueba SIMCE. Otra alternativa podra ser que por grupos homogneos, se calcule la variable de puntuaciones z para el puntaje promedio SIMCE y se determine un criterio como por ejemplo, que los colegios elegidos estn por sobre una desviacin estndar de la media, es decir con un puntaje z mayor o igual a 1.
57
III Anlisis de Regresin Lineal simple

un estudio ms formal del anlisis de regresin comenzando con el modelo de regresin lineal simple (simple = una variable independiente), pero conviene no perder de vista que , puesto que generalmente interesar estudiar simultneamente ms de una variable predictora, este modelo es slo un punto de partida en el estudio del anlisis de regresin. Consideremos el archivo Datos de empleados que, como ya se ha dicho, se instala con el programa en el propio directorio SPSS. Y, de momento, se utilizar la variable salario (salario actual) como variable dependiente y la variable salini (salario inicial) como variable independiente o predictora. Abordaremos Para llevar a cabo un anlisis de regresin simple con las especificaciones que el programa tiene establecidas por defecto: Seleccionar la opcin Regresin > Lineal del men Analizar para acceder al cuadro de dilogo Regresin lineal. Seleccionar la variable salario en la lista de variables de archivo de datos y trasladarla al cuadro Dependiente. Seleccionar la variable salani y trasladarla a la lista Independiente.
Aceptando estas especificaciones, el Visor ofrece los resultados que muestran las tablas siguientes. Tabla 1
Resumen del modelo R cuadrado corregida .774 Error tp. de la estimacin $8,115.356
Modelo 1
R R cuadrado .880 a .775
a. Variables predictoras: (Constante), Salario inicial
Tabla 2
b ANOVA
Media cuadrtica F Coeficientes Regresin 1.07E+11 1622.118 estandarizad Res idual 65858997 os Total Modelo Beta t 1 (Constante) 1928.206 888.680 2.170 a. Variables predictoras: (Constante), Salario inicial Salario inic ial 1.909 actual .047 .880 40.276 b. Variable dependiente: Salario a. Variable dependiente: Salario ac tual Modelo 1
Suma de cuadrados gl 1.068E+11 Coeficientes no 1 3.109E+10 estandarizados 472 1.379E+11 473 B Error tp.
a Coe ficientes
Sig. .000 a
Sig. .031 .000
Tabla3
58
Bondad de ajuste
La primera informacin que se obtiene se refiere al coeficiente de correlacin mltiple
R ya
su cuadrado. Puesto que el modelo de regresin slo incluye dos variables, el coeficiente de correlacin mltiple no es otra cosa que el valor absoluto del coeficiente de correlacin de Pearson entre esas dos variables . Su cuadrado (R cuadrado) es el coeficiente de determinacin:
R2
Suma de cuadrados de los residuos Suma de cuadrados total
(los residuos son las diferencias existentes entre las puntuaciones observadas y los pronsticos obtenidos con la recta). Adems del porcentaje de mejora en los pronsticos, R expresa la proporcin de varianza de la variable dependiente que est explicada por la variable independiente. En el ejemplo (ver Tabla
2
1), R toma un valor muy alto (su mximo es 1); y R indica que el 77,5% de la variabilidad del salario actual est explicada por, depende de, o est asociada al salario inicial. Es importante sealar en este momento que el anlisis de regresin no permite afirmar que las relaciones detectadas sean de tipo causal: nicamente es posible hablar de relacin y de grado de relacin. Debe quedar muy claro desde el principio que una relacin, por s sola, nunca implica causalidad.
2
R cuadrado corregida es una correccin a la baja de R que se basa en el nmero de casos y de

2
variables independientes:
2 Rcorregida
R2
p 1 R2 / n
p 1
(p se refiere al nmero de variables independiente). En una situacin con pocos casos y mucha variables independiente, R
2 2
es un estimador algo optimista (artificialmente alto) del verdadero

2
coeficiente de correlacin poblacional. En tal caso, el valor de R corregida ser sensiblemente ms bajo que el de R . En el ejemplo, como hay 474 casos y una sola variable independiente, los dos valores de R (el corregido y el no corregido) son prcticamente iguales.
2
El error tpico de la estimacin
Se
es la desviacin tpica de los residuos, es decir, la
desviacin tpica de las distancias existentes entre las puntuaciones en la variable dependiente
Yi y los pronsticos efectuados con la recta de regresin

la suma de las distancias al cuadrado estn divididas por
, aunque no exactamente, pues Y i
n 2:
Error tpico de estimacin =
Se
Yi
Y i
/ n 2
En realidad, este error tpico es la raz cuadrada de la media cuadrtica residual de la Tabla . Representa una medida de la parte de variabilidad de la variable dependiente que no est
59
explicada por la recta de regresin. En general, cuanto mejor es el ajuste, ms pequeo es este error tpico. La tabla resumen del ANOVA (Tabla 2) informa sobre si existe o no relacin significativa entre la variable independiente y la dependiente. El estadstico F permite contrastar la hiptesis nula de que el valor poblacional de R es cero (que en el modelo de regresin simple equivale a contrastar la hiptesis de que la pendiente de la recta de regresin vale cero). El nivel crtico (Sig.) indica que, si se supone que el valor poblacional de R es cero, es improbable (probabilidad = 0,000) que R, en esta muestra, tome el valor 0,88. Lo cual implica que el valor poblacional de R es mayor que cero y que, en consecuencia, puede afirmarse que ambas variables estn linealmente relacionadas.
Ecuacin de Regresin
La Tabla 3 muestra los coeficientes de la recta de regresin. La columna etiquetada Coeficientes no estandarizados contiene los coeficientes de regresin parcial que definen la ecuacin de regresin en puntuaciones directas. El coeficiente no estandarizado correspondiente a la constante es el origen de la recta de regresin
B0 . Recibe el nombre de constante porque, segn se ver es la constante del
modelo de regresin:
B0
B1 X
Y el coeficiente no estandarizado correspondiente a salario inicial es la pendiente de la recta de regresin
B1 :
B1
X iYi n X i2
Xi Xi
Yi
2
cambio de la variable independiente (salini). Segn esto, la ecuacin de regresin queda de la siguiente manera:
B1 indica el cambio medio que corresponde a la variable dependiente (salario) por cada unidad de
Pronstico en salario = 1928,206 + 1,909 salini

Es decir, a cada valor de salini le corresponde un pronstico en salario basado en un incremento constante (1928,206) ms 1,909 veces el valor de salini.
60
Coeficientes de Regresin Estandarizados

Los coeficientes Beta (coeficiente de regresin parcial estandarizados) son los coeficientes que definen la ecuacin de regresin cuando sta se obtiene tras estandarizar las variables originales, es decir, tras convertir las puntuaciones directas en tpicas. Se obtiene de la siguiente manera:
1
B1 S x / S y .
En el anlisis de regresin simple, el coeficiente de regresin estandarizado correspondiente a la nica variable independiente presente en la ecuacin coincide exactamente con el coeficiente de correlacin de Pearson. En regresin mltiple, segn se ver enseguida, los coeficientes de regresin estandarizados permiten valorar la importancia relativa de cada variable independiente dentro de la ecuacin.
Prueba de Significacin
Finalmente, los estadsticos t y sus niveles crticos (Sig.) permiten contrastar las hiptesis nulas de que los coeficientes de regresin valen cero en la poblacin. Estos estadsticos t se obtienen dividendo los coeficientes de regresin B0 y
B1 entre sus correspondientes errores tpicos:
tB 0
siendo:
B0 SB0
t B1
B1 SB 1
SB 0
Se
1 n
X2 Xi X
2
S B1
Se Xi X
2
Estos estadsticos t se distribuyen segn el modelo de probabilidad t de Student con
grados de libertad. Por tanto, pueden utilizarse para decidir si un determinado coeficiente de regresin es significativamente distinto de cero y, en consecuencia, en el caso de B1 , si la variable independiente est significativamente relacionada con la dependiente. Puesto que en regresin simple se trabaja con una nica variable independiente, el resultado del estadstico t (Tabla 3) es equivalente al del estadstico F de la tabla resumen del ANOVA (Tabla 2). De hecho, en regresin simple, t
2
F.
A partir de los resultados de anlisis (ver Tabla 3), pueden establecerse las siguientes conclusiones: 1. El origen poblacional de la recta de regresin cero (generalmente, contrastar la hiptesis es significativamente distinto de
0
0
0 carece de utilidad, pues no
contiene informacin sobre la relacin entre X i e Yi ).
61
2. La
pendiente poblacional de la recta de regresin (el coeficiente de regresin
correspondiente a salini) es significativamente distinta a cero, lo cual permite afirmar que entre salario y salini existe relacin lineal significativa.
Ejercicio:
Correlaciones y Regresiones
1. Coeficiente de Correlacin Considere el archivo Estudio Morfologa.sav.
a) Determine si las variables estatura, peso y coeficiente intelectual estn correlacionadas significativamente. Para esto seleccione Analizar/Correlaciones/Bivariadas Variables: ci, estatura y peso Seleccionar [Correlacin de Pearson], [Prueba de significacin bilateral], [Marcar las correlaciones significativas].
Correlaciones Coc iente intelectual 1 . 149 ,081 ,325 149 ,001 ,988 148 ESTATURA ,081 ,325 149 1 . 150 ,600** ,000 149 PES O ,001 ,988 148 ,600** ,000 149 1 . 149
Coc iente intelectual
ESTATURA
PES O
Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N
**. La c orrelacin es s ignificat iva al nivel 0,01 (bilateral).
b)
Interprete el coeficiente de correlacin
2. Diagrama de Dispersin
La forma de una relacin se puede estudiar visualmente a partir de la nube de puntos generada en el Grfico de Dispersin: Seleccione Grficos/Dispersin/Dispersin Simple Eje Y: peso Eje X: estatura Establecer marcas por: sexo Etiquetar mediante: iden
Edite la grfica y ajuste la nube por una recta de regresin, muestre el R 2 e interprete.
62
Grfico de dispersin simple

110 27 93 90 31
100
80
70
SEXO
Mujer Hombre
60
PESO
50 Total Population 40 120 140 160 180 200 220 240 260 280 R = 0,3606
ESTATURA
Descubra qu puntos estn alejados de la nube y fltrelos para volver a hacer el grfico de dispersin, compare ahora el R2 e interprete. USE ALL. COMPUTE filter_$=(iden ~= 27 & iden ~= 93 & iden ~= 31). VARIABLE LABEL filter_$ 'iden ~= 27 & iden ~= 93 & iden ~= 31 (FILTER)'. VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FILTER BY filter_$. EXECUTE .
Grfico de dispersin simple

110 100 90 80 70 60
SEXO
Mujer Hombre
PESO
50 Total Population 40 140 150 160 170 180 190 200 R = 0,7182
ESTATURA
Se han filtrado los casos 27, 31 y 93
f)
Realice un grfico de dispersin superpuesto.
Con el tipo Superpuesto se pueden representar varias relaciones en una sola nubes de puntos.
63
Seleccione el par estatura - peso y el par ci - peso
grfico de dispersin superpuesto

300 31
200
31 100 Cociente intelectual PESO ESTATURA 0 40 50 60 70 80 90 100 110 PESO
g)
Realice un grfico de dispersin matricial.
El tipo matricial halla nubes de puntos separadas para todas las parejas de variables que se pueden obtener con las variables que se especifiquen. Elegir el tipo matricial como tipo de grfica de dispersin y seleccionar y transferir las variables a relacionar a variables en la matriz. Por ejemplo seleccionar y transferir ci, estatura y peso. Pulsar aceptar. Como hay tres variables habr tres parejas de relaciones (con cuatro variables habr seis parejas).
Ejercicio: Morfologa e Inteligencia

Utilizando el archivo Estudio Morfologa.sav. responda las siguientes preguntas:
h)
Determine el modelo que relaciona la estatura (X) y el peso (Y) e interprete R, R2 y Error tpico de estimacin
Resumen del modelo R cuadrado corregida ,716 Error tp. de la estimacin 6,4593
Modelo 1
R ,847(a)
R cuadrado ,718
a Variables predictoras: (Constante), ESTATURA
El coeficiente R mide la fuerza de asociacin lineal entre estatura y peso, la cual es considerable. El R2 0,718 indica que la variacin en el peso se explica en un 71,8% por la variable estatura.
64
Una forma de estimar el error estndar del estimador es basndose en los residuos;
S Y ,X
e2 n 2
El error estndar de la estimacin es una medida de cun inexacto podra ser la prediccin y mide la dispersin con respecto a una recta promedio, denominada recta de regresin.
b ANOVA
Modelo 1
Regresin Res idual Total
Suma de cuadrados 15309,683 6008,032 21317,715
gl 1 144 145
Media cuadrtica 15309,683 41,722
F 366, 941
Sig. ,000 a
a. Variables predictoras: (Constante), ESTATURA b. Variable dependiente: PESO
Cuando se trata de una regresin simple la prueba ANOVA se reduce a la prueba individual Test T donde H0: 1 = 0
i)
Estime la ecuacin de regresin

a Coe ficientes
Modelo 1
(Constante) ESTATURA
Coeficientes no estandarizados B Error tp. -92, 138 8,816 ,999 ,052
Coeficientes estandarizad os Beta ,847
t -10, 451 19,156
Sig. ,000 ,000
a. Variable dependiente: PESO
Y = -92,13 + 0,999X
donde Y = Peso X = Estatura
j)
Pruebe la hiptesis nula H0: 1 = 0 para la estatura y el peso. Existe una relacin significativa entre el ingreso y el consumo? En el SPSS ver la tabla coeficientes que result en el ejercicio b) y observar el valor del estadgrafo t (asociado a la pendiente de la regresin) y su nivel de significancia. Dado que la sig < 0,01 se rechaza la hiptesis nula H0: relacin significativa entre ingreso y consumo.
1
= 0. Concluimos entonces que existe una
k)
Interprete la pendiente de la ecuacin de regresin.
La pendiente de la recta b1 es el cambio que se produce en la variable dependiente (en promedio) por cada unidad de cambio en la variable independiente, es decir, por cada unidad de aumento en la estatura, en promedio el peso aumenta en 0,999 unidades. Nota: Inferencias sobre la Pendiente. A fin de poder utilizar una ecuacin de regresin para efectos de estimacin o prediccin, primero debemos determinar si en la poblacin parece existir una relacin entre las dos variables o si la relacin observada en la muestra pudo ocurrir por azar. En ausencia de toda relacin en la poblacin, por definicin la pendiente de la lnea de regresin de la poblacin
65
sera de cero 1=0. En consecuencia, la hiptesis nula que se prueba usualmente es H 0: 1=0. La hiptesis nula tambin puede formularse como una prueba de una cola, en cuyo caso la hiptesis alternativa no es simplemente que existe relacin entre las dos variables, sino adems que esta relacin es de un tipo especfico (directa o inversa). Un valor hipottico de la pendiente se prueba calculando una estadstica t y usando n-2 grados de libertad. Es el proceso de inferencia se pierden dos grados de libertad porque en la ecuacin de regresin se incluyen dos estimaciones paramtricas, b0 y b1. La frmula estndar es:
t
donde s b1
b1 ( 1 )o sb1
SY , X X2 nX
2
Sin embargo, cuando, como ocurre por lo general, la hiptesis nula es que la pendiente es cero, la frmula se simplifica y enuncia como
b1 sb1
El intervalo de confianza para la pendiente de la poblacin 1, en el que los grados de libertad asociados con t son n-2, se elabora de la siguiente manera:
b1 tsb1
Definicin de grados de libertad: Los grados de libertad indican el nmero de valores libres de variar en la muestra que sirve de base al intervalo de confianza.
l)
Determine el intervalo de confianza del 95% para 1. Para esto seleccione Regresin lineal/ Estadsticos/Intervalos de confianza. En la tabla de resultados coeficientes del SPSS observe los lmites inferior y superior del intervalo de confianza para b1 al 95%.
a Coe ficientes
Coeficientes no estandarizados Modelo 1 B -92, 138 ,999 Error tp. 8,816 ,052
Coeficientes estandarizad os Beta ,847 t -10, 451 19,156 Sig. ,000 ,000
(Constante) ESTATURA
Intervalo de confianza para B al 95% Lmite Lmite inferior superior -109,564 -74, 712 ,896 1,102
a. Variable dependiente: PESO
Se tiene que el intervalo de confianza de 95% para 1 es 0,896 a 1,102 As con cada unidad adicional de estatura, la cantidad de aumento promedio en el peso es de entre 0,896 y 1,102 con una confianza de 95%.
66
a i
f i c e s a e c n n o a l d r 9
o e p e r i t e g i t 1 ( 9 4 7 2 4 2 I 1 9 4 6 0 2 0
m)
Determine los valores pronosticados y los residuos usando la ecuacin de regresin desarrollada. Compare los residuos obtenidos del SPSS. Para esto seleccione Guardar en el cuadro de dilogo Regresin lineal y en el cuadro de dilogo siguiente considere valores pronosticados no tipificados (es decir el valor que predice el modelo para la variable dependiente) y valores tipificados (transformacin de cada valor pronosticado a su forma tipificada). Adems considere residuos no tipificados (es decir, la diferencia entre un valor observado y el valor pronosticado del modelo) y los residuos tipificados.
Observacin: Si en la regresin lineal queremos llevar a cabo inferencias y partimos de los estadsticos obtenidos en la muestra, deberemos tener en cuenta una serie de requisitos: Normalidad e igualdad de las varianzas en la variable dependiente (Y) del modelo para valores fijos de la independiente o independientes del mismo X. Independencia de las observaciones Linealidad en la relacin entre las variables.
67
n) Considere Grficos del cuadro de dilogo Regresin lineal para realizar lo s

siguientes grficos: (i) Los residuos tipificados ZRESID frente a los valores pronosticados tipificados ZPRED para contrastar la igualdad de las varianzas. Nota: Si no hay ningn patrn sistemtico claramente definido en los datos y los residuales fluctan aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de valor cero, podemos concluir que se cumple el requisito de linealidad en la relacin entre las variables. Este grfico puede igualmente servirnos para contrastar hasta qu punto el principio de igualdad de varianzas puede o no ser violado por los datos. Si la variabilidad de los residuales a lo largo de los valores predichos es ms o menos constante, podemos concluir que se cumple la igualdad de varianzas. No en caso contrario. (ii) Los residuos tipificados-grfico de prob. normal. Nota: El grfico de residuos tipificados de prob. normal se usa para comprobar la normalidad. Si la variable se distribuye normalmente los puntos representados forman una lnea recta diagonal
68
Grfico P-P normal de regresin Residuo tipificado Variable dependiente: PESO 1,0
,8
Prob acum esperada
,5
,3
0,0 0,0 ,3 ,5 ,8 1,0
Prob acum observada
Grfico de dispersin Variable dependiente: PESO

3 2
Regresin Residuo tipificado
-1
-2 -3 -3 -2 -1 0 1 2 3
Regresin Valor pronosticado tipificado
Pruebas de norm alidad Kolmogorov-Smirnov Shapiro-Wilk Estadstico gl Sig. Estadstico gl ,044 146 ,200* ,992 146
a
Standardized Residual
Sig. ,601
*. Este es un lmite inferior de la significacin verdadera. a. Correccin de la significac in de Lilliefors
69
Modelo log-log
Consideremos datos sobre el gasto de consumo personal total (GCPERT), el gasto en bienes duraderos (GASBD), el gasto en bienes perecederos (GASBPER) y el gasto en servicios (GASERV), todos medidos en millones de dlares de 1992. Considere el archivo gasto en bienes.sav a) b) c) d) Realice el grfico de dispersin entre gastbd y gastcpt. Qu observa? Realice el grfico de dispersin entre ln(gastbd) y ln(gastcpt). Qu observa? Determine si existe correlacin significativa entre las variables del punto b) Calcular la elasticidad del gasto en bienes durables respecto al gasto de consumo personal total. Referencia ( Gujarati Tabla 6.3 ejemplo pag 171 cuarta edicin)
Grfico de dispersin
750,00
Grfico de dispersin
6,60
700,00
ln de gasto en bienes duraderos

4200,00 4400,00 4600,00 4800,00 5000,00 5200,00
Gasto en bienes duraderos
6,50
650,00
6,40
600,00
550,00
6,30
500,00
6,20
Gasto consumo personal total
8,35
8,40
8,45
8,50
8,55
8,60
ln del gasto de consumo personal total
COMPUTE lngastbd = LN(gastbd) . VARIABLE LABELS lngastbd 'ln de gasto en bienes duraderos' . EXECUTE . COMPUTE lngastcpt = LN(gastcpt) . VARIABLE LABELS lngastcpt 'ln del gasto de consumo personal total' EXECUTE . CORRELATIONS /VARIABLES=lngastbd lngastcpt /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE .
Correlaciones ln de gasto en bienes duraderos 1 ln del gasto de c onsumo pers onal tot al ,992** ,000 23 23 ,992** 1 ,000 23 23
ln de gasto en bienes duraderos ln del gasto de cons umo personal total
Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N
70
Resumen del modelo Modelo 1 R R cuadrado ,992 a ,985 R cuadrado corregida ,984 Error tp. de la estimacin ,01332
a. Variables predictoras: (Constante), ln del gasto de consumo pers onal tot al
a Coe ficiente s
Modelo 1
(Constante) ln del gasto de cons umo personal total
Coeficientes no estandarizados B Error tp. -9,697 ,434 1,906 ,051
t -22, 337 37,096
Sig. ,000 ,000
a. Variable dependiente: ln de gasto en bienes duraderos
Todos estos resultados muestran que la elasticidad de GASBD respecto a GCPERT es de casi 1.90, lo que sugiere que si el gasto personal total aumenta 1 %, en promedio, el gasto en bienes duraderos se incrementa casi 1.90%. En consecuencia, el gasto en bienes duraderos es muy sensible a los cambios en el gasto de consumo personal. sta es una razn por la que los productores de bienes duraderos siguen muy de cerca los cambios en el ingreso personal y el gasto de consumo personal.
Modelo Lin-Log
Considere el archivo gasto total y en comida.sav e) Realice el grfico de dispersin entre gasal y gastot. Qu observa? f) Realice el grfico de dispersin entre gasal y ln(gastot). Qu observa? g) Determine si existe correlacin significativa entre las variables del punto b) h) Determine el modelo lin log correspondiente a las variables anteriores. i) Interprete los coeficientes r y r2. j) Calcular la pendiente de la ecuacin e interprete. Referencia ( Gujarati Tabla 2.8 ejemplo pag 176 cuarta edicin)
71
COMPUTE lngastot = LN(gastot) . VARIABLE LABELS lngastot 'ln de gasto total' . EXECUTE .
Grfico de dispersin
800
800
Grfico de dispersin
600
600
gasto en alimentos
gasto en alimentos
400
400
200
200
0
5,90 6,00 6,10 6,20 6,30 6,40 6,50 6,60 6,70
200
400
600
800
1000
gasto total
ln de gasto total
Correlaciones gast o en alimentos 1 ln de gasto total ,614** ,000 55 55 ,614** 1 ,000 55 55
gast o en alimentos
ln de gasto total
Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N
Resumen del modelo Modelo 1 R R cuadrado ,614 a ,377 R cuadrado corregida ,365 Error tp. de la estimacin 66,477
a. Variables predictoras: (Constante), ln de gasto tot al
a Coe ficientes
Modelo 1
(Constante) ln de gasto total
Coeficientes no estandarizados B Error tp. -1283,912 292, 810 257, 270 45,434
t -4,385 5,662
Sig. ,000 ,000
a. Variable dependiente: gas to en alimentos
72
Interpretacin: El coeficiente de la pendiente, que vale casi 257, significa que un incremento en el gasto total en alimentos de 1%, en promedio, propicia un incremento de casi 2.57 rupias en el gasto en alimento de las 55 familias incluidas en la muestra. (Nota: se dividi el coeficiente estimado de la pendiente entre 100.)
Ejercicios Regresiones con LN

1.- Considere el archivo Consumo caf.sav. Calcule las variables lnconsumo y lnprecio. Para esto seleccione Transformar/Calcular Utilice la funcin logaritmo natural (LN) 2.- Realice un grfico de dispersin para las variables consumo y precio y para las variables lnconsumo y lnprecio
Grfico de dispersin entre consumo y precio

2,6
Grfico de dispersin entre lnconsumo y lnprecio

1,0
2,5
,9
2,4
2,3
logartmo natural del consumo
,8
2,2
,7
2,1
2,0 1,9 ,6 ,8 1,0
,6
R = 0,6628 1,4 1,6 1,8 2,0
1,2
,5 -,4 -,2 0,0 ,2 ,4 ,6 ,8
R = 0,7448
Precio real del caf ( $ por libra)
logartmo natural del precio
3.- Seleccione estadstica/regresinlineal Dependiente: consumo Independiente: precio Etiqueta de caso: ao Estadsticos: estimaciones, intervalos de confianza, ajuste del modelo, descriptivos Cmo interpreta la pendiente?
4.- Nuevamente seleccione estadstica/regresinlineal Dependiente: lnconsumo Independiente:lnprecio Etiqueta de caso: ao Estadsticos: estimaciones, intervalos de confianza, ajuste del modelo, descriptivos Cmo interpreta la pendiente?
73
b Resumen del modelo
Modelo 1
R ,863a
R cuadrado ,745
R cuadrado corregida ,716
Error tp. de la estimacin 5,015E-02
a. Variables predictoras: (Constante), logartmo natural del precio b. Variable dependiente: logartmo natural del consumo
b ANOVA
Modelo 1
Suma de cuadrados 6,605E-02 2,263E-02 8,869E-02
gl 1 9 10
Media cuadrtica 6,605E-02 2,515E-03
F 26,267
Sig. ,001 a
a. Variables predictoras: (Constante), logartmo natural del precio b. Variable dependiente: logartmo natural del consumo
a Coefic iente s
Coeficie ntes no estand arizado s Mo delo 1 (Constante ) log artm o nat ural d el pre ci o B ,77 7 -,25 3 Error t p. ,01 5 ,04 9
Coeficie nt es estand ari zado s Beta -,86 3 t 51, 005 -5,1 25 Sig. ,00 0 ,00 1
Inte rvalo d e conf ianza para B al 95 % Lm ite Lm ite infe rior su perio r ,74 3 ,81 2 -,36 5 -,14 1
a. Variab le de pend iente : loga rtmo natu ral de l consumo
74
IV Anlisis de Regresin Lineal Mltiple

El procedimiento Regresin lineal permite utilizar ms de una variable independiente y, por tanto, permite ajustar modelos de regresin lineal mltiple (mltiple = ms de una variable independiente). Pero, en un anlisis de regresin mltiple, la ecuacin de regresin ya no define una recta en un plano, sino un hiperplano en un espacio multidimensional. En un modelo como por ejemplo, dos variable independiente, el diagrama de dispersin adopta la forma de un plano en un espacio tridimensional. Asi, con salario como variable dependiente y salini (salario inicial) y expprev (experiencia previa) como variables independientes, el diagrama de dispersin adopta el formato que muestra la Figura 1.
Grfico de dispersin
160000 140000 120000
Salario actual
100000 80000 60000 40000 20000 100000 80000 60000 40000 20000 300 400 500
100 200
Salario inicial
Experiencia previa (meses)
Es decir, con dos variables independientes es necesario utilizar tres ejes para poder representar el correspondiente diagrama de dispersin. Y si en lugar de dos variables independientes se utilizaran tres, es necesario un espacio de cuatro dimensiones para poder construir el diagrama de dispersin. Y un espacio de cinco dimensiones para poder construir el diagrama correspondiente a un modelo con cuatro variables independiente. Por tanto, con ms de una variable independiente, la representacin grfica de las relaciones presentes en un modelo de regresin resulta poco intuitiva, muy complicada y nada til. Es ms fcil y prctico partir de la ecuacin del modelo de regresin lineal:
X1
X2
Xk
En un modelo de estas caractersticas, la variable dependiente (Y) se interpreta como una combinacin lineal de un conjunto de K variables independientes
X k , cada una de las cuales va
75
acompaada de un coeficiente
que indica el peso relativo de esa variable en la ecuacin. El

0
modelo incluye adems una constante
y un componente aleatorio (los residuos:
) que
recoge todo lo que las variables independientes no explican. Este modelo, en cuanto modelo estadstico que es, se basa en una serie de supuestos (linealidad, independencia, normalidad, homocedasticidad y no-colinealidad) que se estudiarn en el siguiente apartado. Los trminos del modelo de regresin, al igual que los de cualquier otro modelo estadstico, son valores poblacionales. Para poder trabajar con l es necesario estimarlos. Y las estimaciones mnimo-cuadrticas se obtienen, segn se ha sealado ya, intentando minimizar la suma de las diferencias al cuadrado entre los valores observados
: Y y los pronosticados Y
Bk X k
B0
B1 X 1
B2 X 2
Al igual que en el anlisis de regresin simple descrito en el apartado anterior, se seguir utilizando la variable salario (salario actual) como variable dependiente. Pero ahora se van a incluir en el modelo tres variables independientes: salini (salario inicial), expprev (experiencia previa) y educ (nivel educativo). Para llevar a cabo un anlisis de regresin mltiple con las especificaciones que el programa tiene establecidas por defecto: Seleccionar la opcin Regresin > Lineal del men Analizar para acceder al cuadro de dilogo Regresin lineal Seleccionar la variable salario en la lista de variables del archivo de datos y trasladarla al cuadro Dependiente. Seleccionar las variables salini, expprev y educ en la lista de variables del archivo de datos y trasladarlas a la lista Independientes.
Aceptando estas selecciones, el Visor de resultados ofrece la informacin que muestran las Tablas 4 a la 6. Tabla 4
Resumen del modelo R cuadrado corregida .800 Error tp. de la estimacin $7,631.917
Modelo 1
a. Variables predictoras: (Constante), Nivel educativo, Experiencia previa (meses), Salario inicial
76
Tabla 5
b ANOVA
Modelo 1
Suma de cuadrados 1.105E+11 2.738E+10 1.379E+11
gl 3 470 473
Media cuadrtica 3.68E+10 58246157
F 632. 607
Sig. .000 a
a. Variables predictoras: (Constante), Nivel educativo, Experiencia previa (meses), Salario inicial b. Variable dependiente: Salario actual
Tabla 6
a Coe ficientes
Modelo 1
(Constante) Salario inic ial Experiencia previa (mes es) Nivel educativo
Coeficientes no estandarizados B Error tp. -3661.517 1935.490 1.749 .060 -16. 730 735. 956 3.605 168. 689
Coeficientes estandarizad os Beta .806 -.102 .124
t -1.892 29.198 -4.641 4.363
Sig. .059 .000 .000 .000
a. Variable dependiente: Salario act ual
Bondad de Ajuste
La Tabla 4 ofrece un resumen del modelo. Este resumen se refiere, bsicamente, a la calidad del modelo de regresin: tomadas juntas, las tres variables independientes incluidas en el anlisis explican un 80% de la varianza de la variable dependiente, pues R corregida vale 0,80. Adems, el error tpico de los residuos (8.115,36 en el anlisis de regresin simple) ha disminuido algo (7.631,92 en el anlisis de regresin mltiple), lo que indica una ligera mejora en el ajuste. De nuevo, como el nmero de variables es pequeo en relacin al nmero de casos, el valor corregido
2
de R es casi idntico al valor no corregido.

2
El estadstico F (ver Tabla 5) contrasta la hiptesis nula de que el valor poblacional de R es cero y, por tanto, permite decidir si existe relacin lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas. El valor del nivel crtico ( Sig. = 0,000), puesto que es menor que 0,05, indica que s existe relacin lineal significativa. Puede afirmarse, por tanto, que el hiperplano definido por la ecuacin de regresin ofrece un buen ajuste a la nube de puntos. La tabla de coeficiente de regresin parcial (Tabla 6) contiene toda la informacin necesaria para construir la ecuacin de regresin mnimo-cuadrtica. En la columna encabezada Coeficiente
no estandarizados se encuentran los coeficientes

puntuaciones directas:
Bk
que forman parte de la ecuacin en
Pronstico en salario =
3.661,517
1, 49 salari
16,730 exp prev
735,956 educ
77
Estos coeficientes no estandarizados se interpretan en los trminos ya conocidos. Por ejemplo, el coeficiente correspondiente a la variable salini, que vale 1,749, indica que, si el resto de trminos de la ecuacin se mantienen constantes, a un aumento de una unidad (un dlar) en salini le corresponde, un aumento de 1,749 dlares en salario. Conviene sealar que estos coeficientes no son independientes entre si. De hecho, reciben el nombre de coeficientes de regresin parcial porque el valor concreto estimado para cada coeficiente se ajusta o corrige teniendo en cuenta la presencia en el modelo de los coeficientes correspondientes al resto de variables independientes. Conviene, por tanto, interpretarlos con cautela. El signo del coeficiente de regresin parcial de una variable puede no ser el mismo que el del coeficiente de correlacin simple entre esa variable y la dependiente. Esto es debido a los ajustes que se llevan a cabo para poder obtener la mejor ecuacin posible. Aunque existen diferentes explicaciones para justificar el cambio de signo de un coeficiente de regresin, una de las que deben ser ms seriamente consideradas es la que se refiere a la presencia de un alto grado de asociacin entre algunas de las variables independientes (colinealidad). Se tratar este tema ms adelante.
Coeficientes de Regresin estandarizados

Los coeficientes Beta estn basados en las puntuaciones tpicas y, por tanto, son directamente comparables entre s. Indican la cantidad de cambio, en puntuaciones tpicas, que se producir en la variable dependiente por cada cambio de una unidad en la correspondiente variable independiente (manteniendo constantes el resto de variables independientes). Estos coeficientes proporcionan una pista muy til sobre la importancia relativa de cada variable independiente en la ecuacin de regresin. En general, una variable tiene tanto ms peso (importancia) en la ecuacin de regresin cuanto mayor (en valor absoluto) es su coeficiente de regresin estandarizado. Observando los coeficiente Beta de la Tabla.6 puede comprobarse que la variable salini es ms importante (la que ms peso tiene en la ecuacin); despus, educ; por ltimo, expprev. Lo ya dicho sobre la no independencia de los coeficientes de regresin parcial no estandarizados tambin vale aqu.
Pruebas de Significacin
Las pruebas t y sus niveles crticos (ltima dos columnas de la Tabla 6: t y Sig.) sirven para contrastar la hiptesis nula de que un coeficiente de regresin vale cero en la poblacin. Niveles crticos (Sig.) muy pequeos (generalmente menores que 0,05) indican que esa hiptesis debe ser rechazada. Un coeficiente de cero indica ausencia de relacin lineal, de modo que los coeficientes significativamente distintos de cero informan sobre qu variables son relevantes en la ecuacin de regresin. Observando el nivel crtico asociado a cada prueba t (Tabla 6), puede verse que las tres variables utilizadas poseen coeficientes significativamente distintos de cero (en todos ellos, Sig. = 0,000). Las tres variables, por tanto, contribuyen de forma significativa al ajuste del modelo, o si se prefiere, a explicar lo que ocurre con la variable dependiente.
78
Informacin Complementaria
Adems de obtener la ecuacin de regresin y valorar la calidad de su ajuste, un anlisis de regresin no debe renunciar a obtener algunos estadsticos descriptivos elementales como la matriz de correlaciones, la media y la desviacin tpica de cada variable, el nmero de casos con el que se est trabajando, etc. Para obtener estadsticos: Pulsar el botn Estadsticos... del cuadro de dilogo Regresin lineal para acceder al subcuadro de dilogo Regresin lineal: Estadsticos. Entre las opciones que ofrece este subcuadro de dilogo, existen dos que se encuentran marcadas por defecto. Estas dos opciones ya marcadas son precisamente las que permiten obtener la informacin que recogen las Tablas 1 a la 6 cuando se pulsa el botn Aceptar del cuadro de dilogo Regresin lineal sin hacer otra cosa que seleccionar la variable dependiente y la (s) independiente (s):
Estimaciones. Ofrece las estimaciones de los coeficientes de regresin parcial no estandarizados (B) y estandarizados (Beta), junto con las pruebas de significacin t individuales para contrastar las hiptesis de que el valor poblacional de esos coeficientes es cero (ver Tablas 3 y 6). Ajuste del modelo. Muestra el coeficiente de correlacin mltiple, su cuadro corregido y no corregido, y el error tpico de los residuos : R, R , R corregida y error tpico de la estimacin). Esta opcin tambin permite obtener la tabla resumen del ANOVA, la cual contiene el estadstico F para contrastar la hiptesis R = 0 .
2 2
Al margen de las dos opciones, que se encuentran activas por defecto, el subcuadro de dilogo Regresin lineal: Estadstico contiene varias opciones muy interesantes en un anlisis de regresin:
Intervalos de confianza. Esta opcin, situada en el recuadro Coeficientes de regresin, hace que, adems de las estimaciones puntuales de los coeficientes de regresin parcial (las cuales ya se obtienen con la opcin Estimaciones), puedan obtenerse tambin los intervalos de confianza para esos coeficientes (ver Tabla 7).
a Coe ficientes
Coeficientes no estandarizados Modelo 1 B -3661.517 1.749 -16. 730 735. 956 Error tp. 1935.490 .060 3.605 168. 689
Coeficientes estandarizad os Beta .806 -.102 .124 t -1.892 29.198 -4.641 4.363 Sig. .059 .000 .000 .000
(Constante) Salario inic ial Experiencia previa (mes es) Nivel educativo
Intervalo de confianza para B al 95% Lmite Lmite inferior superior -7464.803 141. 768 1.631 1.866 -23. 814 404. 477 -9.646 1067.434
a. Variable dependiente: Salario actual
Tabla 7
79
Estos intervalos informan de los lmites entre los que cabe esperar que se encuentre el valor poblacional de cada coeficiente de regresin. Los lmites se obtienen sumando y restando 1,96 errores tpicos al valor del correspondiente coeficiente de regresin (1,96 porque el SPSS trabaja, por defecto, con un nivel de confianza de 0,95). Intervalos de confianza muy amplios indican que las estimaciones obtenidas son poco precisas y probablemente, inestables (cosa que suele ocurrir, por ejemplo, cuando existen problemas de colinealidad; se estudiar este tema ms adelante, en la seccin dedicada a los supuestos del modelo de regresin).
Matriz de covarianza. Muestra una matriz con las covarianzas y correlaciones existentes entre los coeficientes de regresin parcial. Los valores obtenidos (Tabla.8) indican que efectivamente, los coeficientes de regresin parcial no son independientes entre s. Tabla 8
Correlaciones de los coe ficientea s Experiencia previa (meses) .363 1.000 -.274 220. 958 12.997 -5.908E-02
Modelo 1
Correlaciones
Covarianzas
Nivel educativo Experiencia previa (mes es) Salario inicial Nivel educativo Experiencia previa (mes es) Salario inicial
Nivel educ ativo 1.000 .363 -.667 28456.057 220. 958 -6.737
Salario inicial -.667 -.274 1.000 -6.737 -5.908E-02 3.587E-03
Descriptivos. Esta opcin permite obtener la media y la desviacin tpico insesgada de todas las variables incluidas en el anlisis, y el nmero de casos vlidos (ver Tabla 9).

Esta dsticos descriptivos Des viacin tp. $17,075.661 $7,870.638 104.586 2.885
Salario actual Salario inic ial Experiencia previa (mes es) Nivel educativo
Media $34,419.57 $17,016.09 95.86 13.49
N 474 474 474 474
Tambin permite obtener la matriz de correlaciones bivariadas entre el conjunto de variables incluidas en el anlisis (ver Tabla 10). En esta matriz de correlaciones, cada coeficiente de correlacin aparece acompaado de su correspondiente nivel crtico (que permite decidir sobre la hiptesis nula de que el coeficiente de correlacin vale cero en la poblacin), y del nmero de casos sobre el que se ha calculado cada coeficiente (coincidir o no con el nmero de casos vlidos del anlisis de regresin dependiendo de la opcin elegida para el tratamiento de valores perdidos en el cuadro de dilogo Opciones).
80
Lgicamente, en la diagonal de la matriz de correlaciones aparecen unos, pues la relacin entre una variable y ella misma es perfecta (en realidad, la matriz de correlaciones es la matriz de varianzas-covarianzas tipificada: los valores de la diagonal son las varianzas tipificadas; las correlaciones son las covarianzas tipificadas). Tabla 10
Correlaciones Experiencia previa (meses) -.097 .017 474 .045 .163 474 1.000 . 474 -.252 .000 474
Salario act ual
Salario inic ial
Experiencia previa (mes es)
Correlacin de Pearson Sig. (unilat eral) N Correlacin de Pearson Sig. (unilat eral) N Correlacin de Pearson Sig. (unilat eral) N Correlacin de Pearson Sig. (unilat eral) N
Salario act ual 1.000 . 474 .880 .000 474 -.097 .017 474 .661 .000 474
Salario inic ial .880 .000 474 1.000 . 474 .045 .163 474 .633 .000 474
Nivel educativo .661 .000 474 .633 .000 474 -.252 .000 474 1.000 . 474
Nivel educativo
Correlaciones parciales y semiparciales. Esta opcin permite obtener los coeficientes de correlacin parcial y semiparcial entre la variable dependiente y cada una de las variables independientes. Un coeficiente de correlacin parcial expresa el grado de relacin existente entre dos variables tras eliminar de ambas de efecto debido a terceras variables En el contexto de anlisis de regresin, los coeficientes de correlacin parcial expresan el grado de relacin existente entre cada variable independiente y la variable dependiente tras eliminar de ambas el efecto debido al resto de variables independientes incluidas en la ecuacin. Un coeficiente de correlacin semiparcial expresa el grado de relacin existente entre dos variables tras eliminar de una de ellas el efecto debido a terceras variables. En el contexto del anlisis de regresin, estos coeficientes expresan el grado de relacin existente entre la variable dependiente y la parte de cada variable independiente que no est explicada por el resto de variables independientes. Seleccionando la opcin Correlacin parcial y semiparcial, la tabla de coeficientes de regresin parcial (Tabla 6 ya vista) incluye la informacin adicional que muestra la Tabla 11. Tabla 11
a Coe ficiente s
Modelo 1
Salario inicial Experiencia previa (meses) Nivel educat ivo
Orden cero .880 -.097 .661
Correlaciones Parc ial Semiparcial .803 .600 -.209 .197 -.095 .090
a. Variable dependient e: Salario actual
Junto con los coeficientes de correlacin parcial y semiparcial, aparecen la correlaciones de orden cero, es decir, los coeficientes de correlacin calculados sin tener en cuenta la presencia
81
de terceras variables (se trata de los mismos coeficientes que aparecen en la Tabla 10). Comparando entre s estos coeficientes (de orden cero, parcial y semiparcial) pueden encontrarse pautas de relacin interesantes. En los datos de la Tabla 11 ocurre, por ejemplo, que la relacin entre la variable dependiente salario actual y de nivel educativo vale 0,661. Sin embargo, al eliminar de salario actual y de nivel educativo el efecto atribuible al resto de variables independientes (salario inicial y experiencia previa), la relacin baja hasta 0,197 (parcial): y cuando el efecto atribuible a salario inicial y experiencia previa se elimina slo de salario actual, la relacin baja hasta 0,090 (semiparcial). Lo cual est indicando que la relacin entre salario actual y nivel educativo podra ser esprea (artificial), pues puede explicarse casi por completo recurriendo a las otras dos variables independientes. El resto de opciones del subcuadro de dilogo Regresin lineal: Estadsticos tiene que ver con algunos supuestos de modelo de regresin lineal (estadsticos de colinealidad, residuos) y con el anlisis de regresin por pasos (cambio en R cuadrado). Todas estas opciones se tratan ms adelante.
Supuestos del modelo de regresin lineal

Los supuestos de un modelo estadstico se refieren a una serie de condiciones que deben darse para garantizar la validez del modelo. Al efectuar aplicaciones prcticas del modelo de regresin, es necesario vigilar el cumplimiento de estos supuestos: 1. Linealidad. La ecuacin de regresin adopta una forma particular; en concreto, la variable dependiente es la suma de un conjunto de elementos: el origen de la recta, una combinacin lineal de variables independientes o predictoras y los residuos. El incumplimiento del supuesto de linealidad suele denominarse error de especificacin. Algunos ejemplos son: omisin de variable independientes importantes, inclusin de variables independientes irrelevantes, no linealidad (la relacin entre las variables independientes y la dependiente no es lineal), parmetros cambiantes (los parmetros no permanecen constantes durante el tiempo que dura la recogida de datos), no aditividad (el efecto de alguna variable independiente es sensible a los niveles de alguna otra variable independiente). etc.
2. Independencia. Los residuos son independientes entre s, es decir, los residuos constituyen una variable aleatoria (los residuos son las diferencias entre los valores observados y los pronosticados). Es frecuente encontrarse con residuos autocorrelacionados cuando se trabaja con series temporales. 3. Homocedasticidad. Para cada valor de la variable independiente (o combinacin valores de las variables independientes), la varianza de los residuos es constante. 4. Normalidad. Para cada valor de la variable independiente (o combinacin de valores de las variables independientes), los residuos se distribuyen normalmente con media cero. 5. No-colinealidad. No existe relacin lineal exacta entre ninguna de las variables independientes. El incumplimiento de este supuesto da origen a colinealidad o multicolinealidad.
82
Sobre el cumplimiento del primer supuesto puede obtenerse informacin a partir de una inspeccin del diagrama de dispersin: si se tiene intencin de utilizar el modelo de regresin lineal, lo razonable es que la relacin entre la variable dependiente y las independientes sea de tipo lineal (existen grficos parciales que permiten obtener una representacin de la relacin neta existente entre dos variables; se estudiarn ms adelante). El quinto supuesto, nocolinealidad, no tiene sentido en regresin simple, pues es imprescindible la presencia de ms de una variable independiente (se estudiarn diferentes formas de diagnosticar la presencia de colinealidad). El resto de los supuestos, independencia, homocedasticidad y normalidad, estn estrechamente asociados al comportamiento de los residuos; por tanto, un anlisis cuidadoso de los residuos puede informar sobre el cumplimiento de los mismos.
Anlisis de los residuos

Los residuos de un modelo estadstico son las diferencias existentes entre los valores observados y los valores pronosticados:
Yi
. Pueden obtenerse marcando la opcin No Y i
tipificados dentro del recuadro Residuos en el subcuadro de dilogo Regresin lineal: Guardar nuevas variables. Los residuos son muy importantes en el anlisis de regresin. En primer lugar, informan sobre el grado de exactitud de los pronsticos: cuanto ms pequeo es el error tpico de los residuos (ver Tabla : error tpico de la estimacin), mejores son los pronsticos, o lo que es lo mismo, mejor se ajusta la recta de regresin a los puntos del diagrama de dispersin. En segundo lugar, el anlisis de las caractersticas de los casos con residuos grandes (sean positivos o negativos; es decir, grandes en valor absoluto) puede ayudar a detectar casos atpicos y, consecuentemente, a perfeccionar la ecuacin de regresin a travs de un estudio detallado de los mismos. La opcin Diagnsticos por caso del cuadro de dilogo Regresin lineal: Estadsticos ofrece un listado de todos los residuos o, alternativamente (y esto es ms interesante), un listado de los residuos que se alejan de cero (el valor esperado de los residuos) en ms de un determinado nmero de desviaciones tpicas. Por defecto, el SPSS ofrece un listado de los residuos que se alejan de cero ms de 3 desviaciones tpicas, pero esto puede cambiarse introduciendo el valor deseado. Para obtener un listado de los residuos que se alejan de cero ms de 3 desviaciones tpicas: Marcar la opcin Diagnsticos por caso y seleccionar Valores atpicos a mas de desviaciones tpicas. Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 12 y 13. La tabla 12 contiene los residuos tipificados (residuos divididos por su error tpico: una variable tipificada, con media 0 y desviacin tpica 1). La tabla recoge los casos con residuos que se alejan de su media (cero) ms de 3 desviaciones tpicas. Si estos residuos estn normalmente distribuidos (cosa que se asume en el anlisis de regresin), cabe esperar que el 95% de ellos se encuentre en el rango [-1,96 + 1,96]. Y el 99,9%, en el rango [-3, + 3]. Es fcil, por tanto, identificar los casos que poseen residuos grandes. En la prctica, los casos con residuos muy grandes o muy pequeos deben ser examinados para averiguar si las puntuaciones que tienen asignadas son o no correctas. Si, a pesar de tener asociados residuos muy grandes o muy pequeos, las puntuaciones asignadas son correctas,
83
conviene estudiar esos casos detenidamente para averiguar si difieren de algn modo y de forma sistemtica del resto de los casos. Esto ltimo es fcil de hacer en el SPSS pues, segn se ver ms adelante, es posible salvar los residuos correspondientes a cada caso como una variable ms del archivo de datos ( y a partir de ah, utilizarlos en los procedimientos SPSS que se considere pertinente) Tabla 12
a Dia gnsticos por caso
Nmero de caso 18 32 103 106 205 218 274 449 454
Res iduo tip. 6.381 3.095 3.485 3.897 -3.781 5.981 4.953 3.167 3.401
Salario act ual $103,750 $110,625 $97,000 $91,250 $66,750 $80,000 $83,750 $70,000 $90,625
Valor pronosticado $55,048.80 $87,004.54 $70,405.22 $61,505.37 $95,602.99 $34,350.68 $45,946.77 $45,829.66 $64,666.70
Res iduo bruto $48,701.20 $23,620.46 $26,594.78 $29,744.63 -$28,852.99 $45,649.32 $37,803.23 $24,170.34 $25,958.30
a. Variable dependiente: Salario ac tual
Adems de la tabla de diagnstico por caso, el Visor ofrece una tabla resumen con informacin sobre el valor mximo y mnimo, y la media y la desviacin tpica insesgada de los pronsticos, de los residuos, de los pronsticos tipificados y de los residuos tipificados (ver Tabla 13). Especialmente importante es advertir que la media de los residuos vale cero. Tabla 13
a Esta dsticos sobre los re siduos
Valor pronosticado Res iduo bruto Valor pronosticado tip. Res iduo tip.
Mnimo $12,382.90 -$28,852.99 -1.442 -3.781
Mx imo $146,851.63 $48,701.20 7.355 6.381
Media $34,419.57 $.00 .000 .000
Des viacin tp. $15,287.298 $7,607.676 1.000 .997
N 474 474 474 474
Independencia
El verdadero inters de los residuos reside en su capacidad para ofrecer informacin crucial sobre el cumplimiento de varios supuestos del modelo de regresin lineal. En concreto, un anlisis detallado de los residuos permite obtener informacin sobre los supuestos de independencia, homocedasticidad, normalidad y linealidad. Uno de los supuestos bsicos del modelo de regresin lineal es el de independencia entre los residuos (supuesto ste particularmente relevante cuando los datos se han recogido siguiendo una secuencia temporal). El estadstico de Durbin-Watson (1951) proporciona informacin sobre el grado de independencia existente entre ellos:
84
ei DW
i 2 n
ei ei2
2 1
i 1
(donde ei se refiere a los residuos:
ei
Yi
). El estadstico DW oscila entre 0 y 4, y toma Y i
el valor 2 cuando lo s residuos son completamente independiente. Los valores menores que 2 indican autocorrelacin positiva; los valores mayores que 2 indican autocorrelacin negativa. Puede asumirse que los residuos son independientes cuando el estadstico DW toma valores entre 1.5 y 2.5.
Para obtener el estadstico de
Durbin-Watson:
Seleccionar la opcin de Durbin-Watson del cuadro de dilogo Regresin lineal: Estadsticos .
Esta eleccin permite obtener la tabla resumen del modelo (ya vista) con informacin adicional referida al estadstico de Durbin-Watson (ver Tabla 14). Tabla 14
b Resumen del modelo
Modelo 1
R cuadrado corregida .800
Error tp. de la estimacin $7,631.917
Durbin-W atson 1.832
a. Variables predictoras: (Constante), Nivel educativo, Experiencia previa (meses), Salario inicial b. Variable dependiente: Salario actual
Puesto que el estadstico DW vale 1,832 (se encuentra entre 1,5 y 2,5), puede asumirse que los residuos son independientes (es decir, no hay razones para pensar que se incumpla el supuesto de independencia).
Homocedasticidad
El procedimiento Regresin lineal dispone de una serie de grficos que proporcionan, entre otras cosas, informacin sobre el grado de cumplimiento de los supuestos de homocedasticidad y normalidad de los residuos. Para obtener estos grficos: Pulsar el botn Grficos... del cuadro de dilogo Regresin lineal subcuadro de dilogo Regresin lineal: Grficos para acceder al
Las variables listadas permiten obtener diferentes grficos de dispersin. Las variables precedidas por un asterisco son variables creadas por el SPSS; todas ellas pueden crearse en el Editor de datos marcando las opciones pertinentes del recuadro Residuos del subcuadro de dilogo Regresin lineal: Guardar nuevas variables
85
DEPENDENT: variable dependiente de la ecuacin de regresin ZPRED (pronsticos tipificados): pronsticos divididos por su desviacin tpica. Son pronsticos transformados en puntuaciones z (es decir, en una variable tipificada con media 0 y desviacin tpica 1). ZRESID (residuos tipificados): residuos divididos por su desviacin tpica. El tamao de cada residuo tipificado indica el nmero de desviaciones tpicas que un residuo se aleja de su media (la cual vale cero), de modo que, si estn normalmente distribuidos (y esto es algo que asume el modelo de regresin), el 95% de estos residuos se encontrar en el rango (-1,96, + 1,96), lo cual permite identificar fcilmente casos con residuos grandes. (En algunos contextos, es costumbre valorar estos residuos utilizado 3 desviaciones tpicas) . DRESID (residuos eliminados o corregidos): residuos obtenidos al efectuar los pronsticos eliminado de la ecuacin de regresin el caso sobre el que se efecta el pronstico. El residuo correspondiente a cada caso se obtiene a partir del pronstico efectuado con una ecuacin de regresin en la que no se ha incluido ese caso. Son residuos muy tiles para detectar puntos de influencia (casos con gran peso en la ecuacin de regresin; se tratar este problema enseguida). ADJPRED (pronsticos corregidos): pronsticos efectuados con una ecuacin de regresin en la que no se incluye el caso pronosticado (ver residuos eliminados o corregidos). Diferencias importantes entre PRED y ADJPRED delatan la presencia de puntos de influencia (casos con gran peso en la ecuacin de regresin). SRESID (residuos estudentizados): residuos divididos por su desviacin tpica, basada sta en cmo de prximo se encuentra un caso a su (s) media (s) en la (s) variable (s) independiente (s). Al igual que ocurre con los residuos estandarizados (a los que se parecen mucho), los estudentizados estn escalados en unidades de desviacin tpica. Se distribuyen segn el modelo de probabilidad t de Student con n p 1 grados de libertad (p se refiere al nmero de variables independientes). Con muestras grandes, aproximadamente el 95% de estos residuos debera encontrarse en el rango (-2. +2). SDRESID (residuos corregidos estudentizados): residuos corregidos divididos por su desviacin tpica. tiles tambin para detectar puntos de influencia. Algunas de estas variables permiten identificar puntos de influencia (se estudian ms adelante), pero hay, entre otras, dos variables cuyo diagrama de dispersin informa sobre el supuesto de homocedasticidad o igualdad de varianzas: ZPRED y ZRESID. El supuesto de igualdad de varianzas implica que la variacin de los residuos debe ser uniforme en todo el rango de valores pronosticados. O, lo que es lo mismo, que el tamao de los residuos es independiente del tamao de los pronsticos, de donde se desprende que el diagrama de dispersin de los pronstico tipificados (ZPRED) de los residuos tipificados (ZRESID) no debe mostrar ninguna pauta de asociacin. Para obtener un diagrama de dispersin con los pronsticos tipificados (ZPRED) y los residuos tipificadoslas (ZRESID):
86
Trasladar la variable ZRESID y cuadro Y: del recuadro Dispersin 1 de 1. Trasladar la variable ZPRED al cuadro X: del recuadro Dispersin 1 de 1.
Aceptando estas elecciones, el Visor ofrece el diagrama de dispersin que muestra la Figura
Grfico de dispersin Variable dependiente: Salario actual

8 6
-2 -4 -2 0 2 4 6 8
Regresin Valor pronosticado tipificado
En l puede observarse, por un lado, que los residuos y los pronsticos parecen ser independientes, pues la nube de puntos no sigue ninguna pauta de asociacin clara, ni lineal ni de otro tipo. Sin embargo, no parece claro que las varianzas sean homogneas. Ms bien parece que conforme va aumentando el valor de los pronsticos tambin lo va haciendo la dispersin de los residuos: los pronsticos menores que la media (los que en el diagrama tiene puntuacin tpica por debajo de cero) parecen estar algo ms concentrados que los pronsticos mayores que la media (los que en el diagrama tienen puntuacin tpica mayor que cero). Es relativamente frecuente encontrar esta pauta de comportamiento en los residuos. Cuando un diagrama de dispersin delata la presencia de varianzas heterogneas, puede utilizarse una transformacin de la variable dependiente para resolver el problema (tal como una transformacin logartmica o una transformacin raz cuadrada). No obstante, al utilizar una transformacin de la variable dependiente, no debe descuidarse el problema de interpretacin que aade el cambio de escala. El diagrama de dispersin de las variables ZPRED y ZRESID posee la utilidad adicional de permitir detectar relaciones de tipo no lineal entre las variables. Si la relacin es, de hecho, no lineal, el diagrama puede contener indicios sobre otro tipo de funcin de ajuste: por ejemplo, los residuos estandarizados podran, en lugar de estar homogneamente dispersos a lo largo del diagrama, seguir un trazado curvilneo, lo cual estara reflejando la presencia de una relacin cuadrtica.
Normalidad
El recuadro Grficos de los residuos tipificados contiene dos opciones grficas que informan sobre el grado en el que los residuos tipificados se aproximan a una distribucin normal:
87
Histograma. Esta opcin ofrece un histograma de los residuos tipificados con una curva normal superpuesta . La curva se construye tomando una media de 0 y una desviacin tpica de 1, es decir, la misma media desviacin tpica que los residuos tipificados. En el histograma de la Figura se puede observar, en primer lugar, que la parte central de la distribucin acumula muchos ms casos de los que acumula una curva normal. En segundo lugar, la distribucin es algo asimtrica: en la cola positiva de la distribucin existen valores ms extremos que en la negativa (esto ocurre cuando uno o varios errores muy grandes, correspondientes por lo general a valores atpicos, son contrarrestados con muchos residuos pequeos de signo opuesto). La distribucin de los residuos, por tanto, no parece seguir el modelo de probabilidad normal, de modo que los resultados de anlisis deben ser interpretados con cautela.
Histograma Variable dependiente: Salario actual

160 140 120 100 80 60
Frecuencia
40 20 0
Desv. tp. = 1.00 Media = 0.00 N = 474.00
Grfico de prob. Normalidad. Permite obtener un diagrama de probabilidad normal. En un diagrama de este tipo, en el eje de abscisas est presentada la probabilidad acumulada que corresponde a cada residuo tipificado (calculada como la proporcin de casos que quedan por debajo de cada residuo tras ordenarlos de menor a mayor); y el eje de ordenadas representa la probabilidad acumulada terica que corresponde a cada puntuacin tpica en una curva normal con media 0 y desviacin tpica 1. Cuando los residuos se distribuyen normalmente, la nube de puntos se encuentra alineada sobre la diagonal del grfico. La figura siguiente muestra el grfico de probabilidad normal. La informacin que ofrece es similar a la ya obtenida con el histograma de la Figura anterior: puesto que los puntos no se encuentran alineados sobre la diagonal del grfico, no parece que los residuos se distribuyan normalmente.
00 6. 00 5. 00 4. 00 3. 00 2. 00 1. 00 0. 0 .0 -1 0 .0 -2 0 .0 -3 0 .0 -4
88
Grfico P-P normal de regresin Residuo tipificado
Variable dependiente: Salario actual

1.00
.75
Prob acum esperada
.50
.25
0.00 0.00 .25 .50 .75 1.00
Prob acum observada
Al margen de esta aproximacin grfica al problema de la normalidad de los residuos, conviene recordar que el procedimiento Explorar (dentro del men Analizar > Estadsticos descriptivos) contiene estadsticos (Kolmogorov-Smirnov, Shapiro-Wilk) que permiten contrastar la hiptesis de normalidad.
Pruebas de norm alidad Kolmogorov-Smirnov Estadstico gl Sig. .122 474 .000
a
Estadstico .867
Shapiro-Wilk gl 474
Sig. .000
a. Correccin de la significac in de Lilliefors
Linealidad
El cuadro de dilogo Regresin lineal: Grficos contiene una opcin que permite generar un tipo particular de diagramas de dispersin llamados diagramas de regresin parcial. Estos diagramas ayudan a formarse una idea rpida sobre la forma que adopta una relacin. En el contexto del anlisis de regresin son muy tiles porque permiten examinar la relacin existente entre la variable dependiente y cada una de las variables independientes por separado, tras eliminar de ellas el efecto del resto de las variables independientes incluidas en el anlisis. Estos diagramas son similares a los de dispersin ya estudiados, pero no estn basados en las puntuaciones originales de las dos variables representadas, sino en los residuos obtenidos al llevar a cabo un anlisis de regresin con el resto de las variables independientes. Por ejemplo, en el diagrama de regresin parcial de salario actual y salario inicial estn representados los residuos que resultan de efectuar un anlisis de regresin sobre salario inicial incluyendo el resto de variables independientes. La utilidad de estos diagramas est en que, puesto que se controla el efecto del resto de las variables, muestran la relacin neta entre las variables representadas. Adems, las rectas que mejor se ajustan a la nube de puntos de estos diagramas son las definidas por los correspondientes coeficientes de regresin (es justamente en esa nube
89
de puntos en la que se basan los coeficientes de regresin parcial). Para obtener estos diagramas de regresin parcial: Generar todos los grficos parciales del subcuadro de dilogo Regresin lineal: Grficos . Esta opcin genera tantos grficos parciales como variables independientes incluya el anlisis. En el ejemplo, puesto que el anlisis incluye tres variables independientes, se obtienen tres de estos grficos. Puede observarse que la relacin entre salario inicial (una de las variables independientes) y salario actual (la variable dependiente), tras eliminar el efecto del resto de variables independientes, es claramente lineal y positiva. Marca la opcin
Grfico de regresin parcial Variable dependiente: Salario actual

60000
80000 60000
40000
40000
20000
20000
Salario actual
Salario actual
-20000
-2 0000 -4 0000 -20000 -10000 0 10000 20000 30000 40000 50000 60000
-40000 -200 -100 0 100 200 300 400
Experiencia previa (meses)
Salario inicial

60000
40000
20000
Salario actual
-20000
-40000 -10 -8 -6 -4 -2 0 2 4 6 8
Nivel educativo
Los diagramas de regresin parcial permite formarse una rpida idea sobre el tamao y el signo de los coeficientes de regresin parcial (los coeficientes de la ecuacin de regresin). En estos diagramas, los valores extremos pueden resultar muy informativos.
90
Colinealidad
Existe colinealidad perfecta cuando una de las variables independientes se relaciona de forma perfectamente lineal con una o ms del resto de variables independientes de la ecuacin. Esto ocurre, por ejemplo, cuando se utilizan como variables independientes en la misma ecuacin las puntuaciones de las subescalas de un test y la puntuacin total en el test (que es la suma de las subescalas y, por tanto, una combinacin lineal perfecta de las mismas). Se habla de colinealidad parcial o, simplemente, colinealidad, cuando entre las variables independientes de una ecuacin existen correlaciones altas. Se puede dar, por ejemplo, en una investigacin de mercados al tomar registros de muchos atributos de un mismo producto; o al utilizar muchos indicadores econmicos para construir una ecuacin de regresin. En trminos generales, cuantas ms variables hay en una ecuacin, ms fcil es que exista colinealidad (aunque, en principio, bastan dos variables). La colinealidad es un problema porque, en el caso de colinealidad perfecta, no es posible estimar los coeficientes de la ecuacin de regresin; y en el caso de colinealidad parcial, aumenta el tamao de los residuos tipificados y esto produce coeficientes de regresin muy inestables: pequeos cambios en los datos (aadir o quitar un caso, por ejemplo) produce cambios muy grandes en los coeficientes de regresin. Esta es una de las razones por las que es posible encontrar coeficientes con signo cambiado: correlaciones positivas pueden transformarse en coeficientes de regresin negativos (incluso significativamente negativos). Curiosamente, la medida de ajuste R no se altera por la presencia de colinealidad; pero los efectos atribuidos a las variables independientes pueden ser engaosos. Al evaluar la existencia o no de colinealidad, la dificultad estriba precisamente en determinar cul es el grado mximo de relacin permisible entre las variables independientes. No existe un consenso generalizado sobre este problema, pero puede servir de gua la presencia de ciertos indicios que puedan encontrarse en los resultados de un anlisis de regresin (estos indicios, no obstante, pueden tener su origen en otras causas):
2
El estadstico F que evala el ajuste general de la ecuacin de regresin es significativo, pero no lo es ninguno de los coeficientes de regresin parcial. Los coeficientes de regresin parcial estandarizados (los coeficientes beta) estn inflados tanto en positivo como en negativo (adoptan, al mismo tiempo, valores mayores que 1 y menores que 1). Existen valores de tolerancia pequeos (prximos a 0,01). La tolerancia de una varianza independiente es la proporcin de varianza de esa variable que no est asociada (que no depende) del resto de variables independientes incluidas en la ecuacin. Una variable con una tolerancia de, por ejemplo, 0,01 (muy poca tolerancia) es una variable que comparte el 99% de su varianza con el resto de variables independientes, lo cual significa que se trata de una variable redundante casi por completo. Los coeficientes de correlacin estimados son muy grandes (por encima de 0,90 en valor absoluto).
91
Las afirmaciones del tipo inflados, prximos a cero, muy grande, etc., se deben al hecho de que no existe un criterio estadstico formal en el que basar las decisiones. Slo existen recomendaciones basadas en trabajos de simulacin. Al margen de estos indicios, el SPSS ofrece la posibilidad de obtener algunos estadsticos que pueden ayudar a diagnosticar la presencia de colinealidad. Se trata de estadstico formal en el que basar las decisiones clara sobre la presencia o no de colinealidad. Para obtener estos estadsticos: Seleccionar la opcin Diagnsticos de colinealidad del subcuadro de dilogo Regresin
lineal: Estadsticos .
Esta opcin permite obtener los estadsticos de colinealidad que recogen las Tablas 16 y 17. La Tabla 16 es la tabla de coeficientes de regresin parcial ya vista, pero ahora contiene informacin adicional sobre los niveles de tolerancia y sus inversos (FIV). El nivel de tolerancia de una variable se obtiene restando a 1 el coeficiente de determinacin
R 2 resultante de regresar esa variable sobre el resto de variables independientes. Valores

de tolerancia muy pequeos indican que esa variable puede ser explicada por una combinacin lineal del resto de variables, lo cual significa que existe colinealidad. Los factores de inflacin de la varianza (FIV) son los inversos de los niveles de tolerancia. Reciben ese nombre porque se utilizan para calcular las varianzas de los coeficientes de regresin. Cuando mayor es el FIV de una variable, mayor es la varianza del correspondiente coeficiente de regresin (los valores mayores 1/(1- R ) se consideran grandes). De ah que uno de los problemas de la presencia de colinealidad (tolerancias pequeas, valores FIV grandes) sea la inestabilidad de las estimaciones de los coeficientes de regresin.
2
a Coe ficiente s
Modelo 1
Salario inicial Experiencia previa (mes es) Nivel educativo
Estadsticos de colinealidad Tolerancia FIV .554 1.804 .866 .520 1.154 1.923
La Tabla 17 muestra la solucin resultante de aplicar un anlisis de componentes principales a la matriz estandarizada no centrada de productos cruzados de la variables independientes. Los autovalores informan sobre cuntas dimensiones o factores diferentes subyacen en el conjunto de variables independientes utilizadas. La presencia de varios autovalores prximos a cero indica que las variables independientes estn muy relacionadas entre s (colinealidad). Los ndices de condicin son la raz cuadrada del cociente entre el autovalor ms grande y cada uno del resto de los autovalores. En condiciones de no-colinealidad, estos ndices no deben superar el valor 15. ndice mayores que 15 indican un posible problema. ndices mayores que 30 delatan un serio problema de colinealidad. Las proporciones de varianza recogen la proporcin de varianza de cada coeficiente de regresin parcial que est explicada por cada dimensin o factor. En condiciones de no-colinealidad, cada dimensin suele explicar gran cantidad de varianza de un solo coeficiente (excepto en lo que se refiere al coeficiente
B0 o constante, que siempre aparece asociado a uno de los otros
92
coeficientes; en el ejemplo, el trmino constante aparece asociado al coeficiente de Nivel educativo). La colinealidad es un problema cuando una dimensin o factor con un ndice de condicin alto, contribuye a explicar gran cantidad de la varianza de los coeficientes de dos o ms variables. Tabla 17
a Diagnsticos de colinea lidad
Modelo 1
Dimensin 1 2 3 4
Autovalor 3.401 .489 9.663E-02 1.347E-02
Indic e de condicin 1.000 2.638 5.933 15.892
(Constante) .00 .00 .11 .88
Proporciones de la varianz a Experiencia previa Salario inicial (meses) .01 .02 .01 .79 .62 .01 .36 .18
Nivel educ ativo .00 .00 .01 .98
Si se detecta la presencia de colinealidad en un conjunto de datos, hay que aplicar algn tipo de remedio. Por ejemplo: aumentar el tamao de la muestra (esta solucin puede resultar til si existen pocos casos en relacin con el nmero de variables); crear indicadores mltiples combinando variables (por ejemplo, promediando variables ; o efectuando un anlisis de componentes principales para reducir las variables a un conjunto de componentes independientes, y aplicando despus el anlisis de regresin sobre esos componentes); excluir variables redundantes (es decir, excluir variables que correlacionan muy alto con otras, dejando nicamente las que se consideren ms importantes); utilizar una tcnica de estimacin sesgada, tal como la regresin ridge.
Puntos de Influencia
Todos los casos contribuyen a la obtencin de la ecuacin de regresin, pero no todos lo hacen con la misma fuerza. Los puntos de influencia son casos que afectan de forma importante al valor de la ecuacin de regresin. La presencia de puntos de influencia no tiene por qu constituir un problema en regresin: de hecho, lo normal es que en un anlisis de regresin no todos los casos tengan la misma importancia (desde el punto de vista estadstico). Sin embargo, el analista debe ser consciente de la presencia de tales puntos pues, entre otras cosas, podra tratarse de casos con valores errneos. Slo siendo conscientes de si existen o no puntos de influencia es posible corregir el anlisis. El procedimiento Regresin lineal ofrece varias medidas para detectar la presencia de puntos de influencia. Para obtenerlas: Pulsar el botn Guardar... del cuadro de dilogo Regresin lineal para acceder al subcuadro de dilogo Regresin lineal: Guardar variables . Marcar todas las opciones de los recuadros Distancia y Estadsticos de influencia (todas estas opciones crean variables nuevas en el archivo de datos).
Distancia. Este recuadro recoge tres medidas que expresan el grado en que cada caso se aleja de los dems:
93
Mahalanobis. La distancia de Mahalanobis (1936) mide el grado de distanciamiento de cada caso respecto de los promedios de conjunto de variables independientes. En regresin simple, esta distancia se obtiene simplemente elevando al cuadro la puntuacin tpica de cada caso en la variable independiente. En regresin mltiple se obtiene multiplicando por n + 1 el valor de influencia de cada caso (ver ms abajo). Cook. La distancia de Cook (1977, 1979) mide el cambio que se produce en las estimaciones de los coeficientes de regresin al ir eliminando cada caso de la ecuacin de regresin. Una distancia de Cook grande indica que ese caso tiene un peso considerable en la estimacin de los coeficientes de regresin. Para evaluar estas distancias puede utilizarse la distribucin F con p + 1 y n p 1 grados de libertad (p se refiere al nmero de variables independientes y n al tamao de la muestra). En general, un caso con una distancia de Cook superior a 1 debe ser revisado. Valores de influencia. Representan una medida de la influencia potencial de cada caso. Referido a las variables independientes, un valor de influencia es una medida normalizada del grado de distanciamiento de un punto respecto del centro de su distribucin. Los puntos muy alejados pueden influir de forma muy importante en la ecuacin de regresin, pero no necesariamente tienen por qu hacerlo. Con ms de 6 variables y al menos 20 casos, se considera que un valor de influencia debe ser revisado si es menor que 2p/n , siendo p el nmero de variables y n el tamao de la muestra. Los valores de influencia tienen un mximo de (n 1)/n. Pueden interpretarse utilizando la siguiente regla general: los valores menores que 0,2 son poco problemticos; los valores comprendidos entre 0,2 y 0,5 son arriesgados; y los valores mayores que 0,5 deberan evitarse.
Estadsticos de influencia. Este recuadro contiene varios estadsticos que contribuyen a precisar la posible presencia de puntos de influencia:
DfBetas (diferencia en las betas). Mide el cambio que se produce en los coeficientes de regresin estandarizados (betas) como consecuencia de ir eliminando cada caso de la ecuacin de regresin. El SPSS crea en el Editor de datos tantas variables nuevas como coeficientes veta tiene la ecuacin de regresin (es decir, tantos como variables independientes ms uno, el correspondiente a la constante de la ecuacin). DfBetas tipificadas. Es el cociente entre Dfbetas (prrafo anterior) y su error tpico. Generalmente, un valor mayor que
2 / n delata la presencia de un posible
punto de influencia. El SPSS crea en el Editor de datos tantas variables nuevas como coeficientes beta tiene la ecuacin de regresin. Df Ajuste. (diferencia en el ajuste). Mide el cambio que se produce en el pronstico de un caso cuando ese caso es eliminado de la ecuacin de regresin. Df Ajuste tipificado. Es el cociente entre DfAjuste (prrafo anterior) y su error tpico. En general, se consideran puntos de influencia los casos en los que DfAjuste
tipificado es mayor que 2 /
p / n , siendo p el nmero de variables independientes
y n el tamao de la muestra. Razn entre las covarianzas (RV). Indica en qu medida la matriz de productos cruzado (base del anlisis de regresin) cambia con la eliminacin de cada caso. Se considera que un caso es un punto de influencia si el valor absoluto de RV-1 es mayor que 3+p/n.
94
Adems de crear las variables correspondientes a cada una de estas opciones, el SPSS ofrece una tabla resumen que incluye, para todos los estadsticos de recuadro Distancias , el valor mnimo, el mximo, la media, la desviacin tpica insesgada y el nmero de casos vlidos. La tabla tambin recoge informacin sobre los pronsticos y los residuos. Conviene sealar que los puntos de influencia no tienen por qu tener asociados residuos particularmente grandes; de hecho, un punto de influencia no slo puede provocar una prdida de ajuste, sino que puede hacer que el ajuste global mejore sustancialmente (por ejemplo, cuando todos los puntos estn agrupados en una esquina del diagrama y un punto se encuentra muy alejado de ellos en la esquina opuesta). Por tanto, el problema que plantean los puntos de influencia no es precisamente de falta de ajuste. No obstante, es muy aconsejable examinarlos por su desproporcionada influencia sobre la ecuacin de regresin. Puesto que estos puntos son distintos de los dems, conviene precisar en qu son distintos. Una vez identificados y examinados, podran ser eliminados del anlisis simplemente porque entorpecen el ajuste, o porque su presencia est haciendo obtener medidas de ajuste infladas. Tambin se podran eliminar los casos muy atpicos simplemente argumentando que el objetivo del anlisis es construir una ecuacin para entender lo que ocurre con los casos tpicos, corrientes, no con los casos atpicos. Este argumento es ms convincente si los casos atpicos representan a una subpoblacin especial que se sale del rango de variacin normal. Por otro lado, si existe un conjunto de casos que parece formar un subgrupo separado del resto, podra considerarse la posibilidad de incorporar este hecho al modelo de regresin mediante una variable dummy (con unos y ceros para diferenciar ambos subgrupos) o desarrollando diferentes ecuaciones de regresin para los diferentes subgrupos. Entre los expertos estadsticos no existe un acuerdo completo sobre la conveniencia o no de eliminar un determinado caso. No existe, por tanto una regla en la que basar estas decisiones. Pero al usuario puede ayudarle a decidir sobre este particular el pensar que, cuando se decide eliminar un caso, tal accin debe ser justificada ante quien pregunte por las razones que han llevado a eliminarlo.
Formas de construir un modelo de regresin

En los apartados previos, se ha asumido que el control sobre las variables utilizadas para construir el modelo de regresin recae sobre el analista. Es el analista que decide qu variables independientes desea incluir en la ecuacin de regresin trasladndolas a la lista Independientes. Sin embargo, no es infrecuente encontrarse con situaciones en las que, existiendo un elevado nmero de posibles variables independientes, no existe una teora o un trabajo previo que oriente al analista en la eleccin de las variables relevantes. Este tipo de situaciones pueden afrontarse utilizando procedimientos diseados para seleccionar, entre una gran cantidad de variables, slo un conjunto reducido de la mismas: aquellas que permiten obtener el mejor ajuste posible. Con estos procedimientos de seleccin, el control sobre las variables que han de formar parte de la ecuacin de regresin pasa de las manos o el criterio de analista a una regla de decisin basada en criterios estadsticos. 3. Criterios de seleccin de variables
2
Existen diferentes criterios estadsticos para seleccionar variables en un modelo de regresin. Algunos de estos criterios son: el valor del coeficiente de correlacin mltiple R (corregido o
95
sin corregir), el valor del coeficiente de correlacin parcial entre cada variable independiente y la dependiente, el grado de reduccin que se obtiene en el error tpico de los residuos al incorporar una variable, etc. De una u otra forma, todos ellos coinciden en intentar maximizar el ajuste del modelo de regresin utilizando el mnimo nmero posible de variables. Los mtodos por pasos que incluye el SPSS (ver siguiente apartado) basan la seleccin de variables en dos criterios estadsticos:
a)
Criterio de significacin. De acuerdo con este criterio, slo se incorporan al modelo de regresin aquellas variables que contribuyen al ajuste del modelo de forma significativa. La contribucin individual de una variable al ajuste del modelo se establece contrastando, a partir del coeficiente de correlacin parcial, la hiptesis de independencia entre esa variable y la variable dependiente. Para decidir si se mantiene o rechaza esa hiptesis de independencia, el SPSS incluye dos criterios de significacin: (i) Probabilidad de F. Una variable pasa a formar parte del modelo de regresin si el nivel crtico asociado a su coeficiente de correlacin parcial al contrastar la hiptesis de independencia es menor que 0,05 (probabilidad de entrada). Y queda fuera del modelo de regresin si ese nivel crtico es mayor que 0,10 (probabilidad de salida). (ii) Valor de F. Una variable pasa a formar parte de modelo de regresin si el valor del estadstico F utilizado para contrastar la hiptesis de independencia es mayor que 3,84 (valor de entrada). Y queda fuera del modelo si el valor del estadstico F es menor que 2,71 (valor de salida). Para elegir entre estos dos criterios de significacin pulsar el botn Opciones del cuadro de dilogo Regresin lineal para acceder al subcuadro de dilogo Regresin lineal: Opciones que muestra la Figura.
Las opciones del recuadro Criterios de mtodo por pasos permiten seleccionar uno de los dos criterios de significacin disponibles y modificar las probabilidades de entrada y salida.
96
b)
Criterio de tolerancia. Superado el criterio de significacin, una variable slo pasa a formar parte del modelo si su nivel de tolerancia es mayor que el nivel establecido por defecto (este nivel es 0,0001, pero puede cambiarse mediante sintaxis) y si, adems, aun correspondindole un coeficiente de correlacin parcial significativamente distinto de cero, su incorporacin al modelo no hace que alguna de las variables previamente seleccionadas pase a tener un nivel de tolerancia por debajo del nivel establecido por defecto (aunque esto ltimo depende tambin del mtodo de seleccin de variables elegidos; ver siguiente apartado Una forma muy intuitiva de comprender y valorar el efecto resultante de aplicar estos criterios de seleccin consiste en observar el cambio que se va produciendo en el coeficiente de determinacin R2 a medida que se van incorporando (o eliminando) variables al modelo. Este cambio se define como R2cambio = R2 - R2i, donde R2i se refiere al coeficiente de determinacin obtenido con todas las variables independientes excepto la i-sima. Un cambio grande en R2 indica que esa variable contribuye de forma importante a explicar lo que ocurre con la variable dependiente. Para obtener los valores de R2cambio y su significacin (el grado en que el cambio observado en R2 difiere de cero) Marcar la opcin [Cambio en R cuadrado] del cuadro de dilogo
Regresin lineal: Estadsticos.
Esta opcin permite obtener el valor de R2cambio que se va produciendo con la incorporacin de cada nueva variable independiente, el valor del estadstico F resultante de contrastar la hiptesis de que el valor poblacional R2cambio es cero, y el nivel critico asociado a ese estadstico F. 4. Mtodos de seleccin de variables
Existen diferentes mtodos para seleccionar las variables independientes que debe incluir un modelo de regresin, pero los que mayor aceptacin han recibido (sin que esto signifique que son los mejores) son los mtodos de seleccin por pasos ( stepwise). Con estos mtodos, se selecciona en primer lugar la mejor variable (siempre de acuerdo con algn criterio estadstico): a continuacin, la mejor de las restantes; y as sucesivamente hasta que ya no quedan variables que cumplan los criterios de seleccin. El procedimiento Regresin lineal del SPSS incluye varios de estos mtodos de seleccin de variables. Todos ellos se encuentran disponibles en el botn de men desplegable de la opcin Mtodo del cuadro de dilogo Regresin lineal. Dos de estos mtodos permiten incluir o excluir, en un solo paso, todas las variables independientes seleccionadas (no son, por tanto, mtodos de seleccin por pasos):
f)
Introducir. Este mtodo construye la ecuacin de regresin utilizando todas las variables seleccionadas en la lista Independiente (ver Figura ). Es el mtodo utilizado por defecto.
g)
Eliminar. Elimina en un solo paso todas las variables de la lista Independientes y ofrece los coeficientes de regresin que corresponderan a cada variable independiente en el caso de que se utilizara cada una de ellas individualmente para construir la ecuacin de regresin. El resto de mtodos de seleccin de variables son mtodos por pasos, es decir, mtodos que van incorporando o eliminando variables paso a paso dependiendo de que stas cumplan o no los criterios de seleccin:
h)
Hacia adelante. Las variables se incorporan al modelo de regresin una a una. En el primer paso se selecciona la variable independiente que, adems de superar los criterios de entrada, ms alto correlaciona (en valor absoluto) con la dependiente. En los siguientes pasos se
97
utiliza como criterio de seleccin el coeficiente de correlacin parcial: van siendo seleccionadas una a una las variables que, adems de superar los criterios de entrada, poseen el coeficiente de correlacin parcial ms alto en valor absoluto (la relacin entre la variable dependiente y cada una de las variables independientes se parcializa controlando el efecto de la (s) variable (s) independiente (s) previamente seleccionada (s). La seleccin de variables se detiene cuando no quedan variables que superen el criterio de entrada. (Utilizar como criterio de entrada el tamao, en valor absoluto, de coeficiente de correlacin parcial, es equivalente a seleccionar la variable con menor probabilidad de F o mayor valor de F).
i)
Hacia atrs. Este mtodo comienza incluyendo en el modelo todas las variables seleccionadas en la lista Independiente y luego procede a eliminarlas una a una. La primera variable eliminada es aquella que, adems de cumplir los criterios de salida, posee el coeficiente de regresin ms bajo en valor absoluto. En cada paso sucesivo se van eliminando las variables con coeficientes de regresin no significativos, siempre en orden inverso al tamao de su nivel critico. La eliminacin de variables se detiene cuando no quedan variables en el modelo que cumplan los criterios de salida.
j)
Pasos sucesivos. Este mtodo es una especie de mezcla de los mtodos hacia delante y hacia atrs. Comienza, al igual que el mtodo hacia delante, seleccionando, en el primer paso, la variable independiente que, adems de superar los criterios de entrada, ms alto correlaciona (en valor absoluto) con la variable dependiente. A continuacin, selecciona la variable independiente que, adems de superar los criterios de entrada, posee el coeficiente de correlacin parcial ms alto (en valor absoluto). Cada vez que se incorpora una nueva variable al modelo, las variables previamente seleccionadas son, al igual que en el mtodo hacia atrs, evaluadas nuevamente para determinar si siguen cumpliendo o no los criterios de salida. Si alguna variable seleccionada cumple los criterios de salida, es expulsada del modelo.
El proceso se detiene cuando no quedan variables que superen los criterios de entrada y las variables seleccionadas no cumplen los criterios de salida. 5. Ejemplo: Regresin por Pasos
Para ilustrar el funcionamiento de anlisis de regresin por pasos se presenta a continuacin un ejemplo con el mtodo pasos sucesivos. Se utiliza el salario actual (salario) como variable dependiente y, como variables independientes, la fecha de nacimiento ( fechnac), el nivel educativo (educ), el salario inicial (salini), la experiencia previa (expprev), y la clasificacin tnica (minora). El objetivo del anlisis es encontrar un modelo de regresin que explique, con el mnimo nmero posible de variables independientes, la mayor cantidad posible de la varianza de la variable salario. Para llevar a cabo el anlisis: Dependiente: salario. Independientes: fechnac, educ, salini, expprev y minora. Mtodo: Pasos sucesivos. Pulsar el botn Estadsticos... para acceder al subcuadro de dilogo Regresin lineal: Estadsticos y marcar la opcin [Cambio en R cuadrado]. Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas.
98
a Variables introducidas/ elimina das
Modelo 1 2
Variables introducidas Salario inic ial Experiencia previa (meses) Nivel educativo
Variables eliminadas . . .
Mt odo Por pasos (criterio: Prob. de F para entrar <= . 050, Prob. de F para salir >= .100). Por pasos (criterio: Prob. de F para entrar <= . 050, Prob. de F para salir >= .100). Por pasos (criterio: Prob. de F para entrar <= . 050, Prob. de F para salir >= .100).
a. Variable dependiente: Salario ac tual
La Tabla anterior ofrece un resumen del modelo final al que se ha llegado. En la columna Modelo se indica en nmero de pasos dados para construir el modelo de regresin: tres pasos. En primer paso se ha seleccionado la variable salario inicial, en el segundo, experiencia previa y, en el tercero, nivel educativo. Tambin se indica si en alguno de los pasos se ha eliminado alguna variable previamente seleccionada; en este ejemplo no se han eliminado variables. Por ltimo, se informa sobre el mtodo de seleccin aplicado (Por pasos) y sobre los criterios de entrada y salida utilizados: una variable es incorporada al modelo si su coeficiente de regresin parcial es significativamente distinto de cero con un nivel de significacin del 5% y, una vez seleccionada, slo es eliminada del modelo si con la incorporacin de otra u otras variables en un paso posterior su coeficiente de regresin parcial deja de ser distinto de cero con un nivel de significacin del 10%.
Resumen del modelo
Estadsticos de cambio Modelo 1 2 3 R R cuadrado .880 a .775 .891 b .794 .896 c .802 R cuadrado corregida .774 .793 .801 Error tp. de la estimacin $8,119.791 $7,778.940 $7,631.838 Cambio en R cuadrado .775 .019 .008 Cambio en F 1620.826 43.180 19.293 gl1 1 1 1 gl2 471 470 469 Sig. del cambio en F .000 .000 .000
a. Variables predictoras: (Constante), Salario inicial b. Variables predictoras: (Constante), Salario inicial, Experiencia previa (meses) c. Variables predictoras: (Constante), Salario inicial, Experiencia previa (meses), Nivel educativo
La Tabla anterior recoge, para cada paso, el valor de R2, el cambio experimentado por R2, y el estadstico F y su significacin. El estadstico F permite contrastar la hiptesis de que el cambio en R2 vale cero en la poblacin. Al incorporar la primera variable (Modelo 1), el valor de R2 es 0,775. Lgicamente, en el primer paso, R2cambio = R2. Al contrastar la hiptesis de que el valor poblacional de R2cambio es cero se obtiene un estadstico F de 1.620,83 que, con 1 y 471 grados de libertad, tiene una probabilidad asociada de 0,000. Puesto que este valor es menor que 0,05, puede afirmarse que la proporcin de varianza explicada por la variable salario inicial (la variable seleccionada en el primer paso) es significativamente distinta de cero. En el segundo paso (Modelo 2), el valor de R2 aumenta hasta 0,794. Esto supone un cambio de 0,019 (aproximadamente un 2%). La tabla muestra el valor de estadstico F (43,180) obtenido al contrastar la hiptesis de que el valor poblacional R2cambio es cero, y su significacin (0,000). Aunque se trata de un incremento muy pequeo (un 2%), el valor del nivel crtico permite afirmar que la variable experiencia previa (la variable incorporada al modelo en el segundo paso) contribuye significativamente a explicar lo que ocurre con la variable dependiente (o, lo que es lo mismo, a mejorar el ajuste). En el tercer y ltimo paso (Modelo 3), R2 toma un valor de 0,802, lo cual supone un incremento de 0,008 (aproximadamente un 1 por ciento). De nuevo se trata de un incremento muy pequeo, pero
99
al evaluar su significacin se obtiene un estadstico F de 19,293 y un nivel crtico asociado de 0,000, lo cual est indicado que la variable nivel educativo (la variable incorporada en el tercer paso), tambin contribuye de forma significativa a explicar el comportamiento de la variable dependiente (o, lo que es lo mismo, a mejorar el ajuste). Las tres variables seleccionadas en el modelo fina consiguen explicar un 80% (R2 = 0,802) de la variabilidad observada en el salario
actual.
d ANOVA
Modelo 1
Regresin Res idual Total Regresin Res idual Total Regresin Res idual Total
Suma de cuadrados 1.069E+11 3.105E+10 1.379E+11 1.095E+11 2.844E+10 1.379E+11 1.106E+11 2.732E+10 1.379E+11
gl 1 471 472 2 470 472 3 469 472
Media cuadrtica 1.07E+11 65931012 5.47E+10 60511906 3.69E+10 58244948
F 1620.826
Sig. .000 a
904. 579
.000 b
632. 955
.000 c
a. Variables predictoras: (Constante), Salario inicial b. Variables predictoras: (Constante), Salario inicial, Experiencia previa (meses) c. Variables predictoras: (Constante), Salario inicial, Experiencia previa (meses), Nivel educativo d. Variable dependiente: Salario actual
La tabla resumen del ANOVA muestra el valor del estadstico F obtenido al contrastar la hiptesis de que el valor poblacional de R2 en cada paso es cero. Ahora no se evala el cambio que se va produciendo en el valor de R2 de un paso a otro, sino el valor de R2 en cada paso. Lgicamente, si R2 es significativamente distinta de cero en el primer paso, tambin lo ser en los pasos sucesivos. La Tabla siguiente contiene los coeficientes de regresin parcial correspondientes a cada una de las variables incluidas en el modelo de regresin; estos coeficientes sirven para construir la ecuacin de regresin en cada paso (incluyendo el trmino constante). Las primeras columnas recogen el valor de los coeficientes de regresin parcial ( B) y su error tpico. A continuacin aparecen los coeficientes de regresin parcial estandarizados ( Beta), los cuales informan acerca de la importancia relativa de cada variable dentro de la ecuacin. Las dos ltima columnas muestran los estadsticos t y los niveles crtico (Sig) obtenidos al contrastar las hiptesis de que los coeficientes de regresin parcial valen cero en la poblacin. Un nivel crtico por debajo de 0,05 indica que la variable contribuye significativamente a mejorar el ajuste del modelo.
a Coe ficientes
Modelo 1 2
(Constante) Salario inic ial (Constante) Salario inic ial Experiencia previa (meses ) (Constante) Salario inic ial Experiencia previa (meses ) Nivel educativo
Coeficientes no estandarizados B Error tp. 1929.517 889. 168 1.910 .047 3856.955 900. 928 1.924 .045 -22. 500 3.424 -3708.904 1936.045 1.748 .060 -16. 752 3.605 741. 307 168. 772
Coeficientes estandarizados Beta .880 .887 -.138 .806 -.103 .125
t 2.170 40.259 4.281 42.279 -6.571 -1.916 29.192 -4.647 4.392
Sig. .031 .000 .000 .000 .000 .056 .000 .000 .000
100
Utilizar el estadstico t para contrastar la hiptesis de que un coeficiente de regresin parcial vale cero es exactamente lo mismo que utilizar el estadstico F para contrastar la hiptesis de que el valor poblacional del cambio observado en R2 vale cero. De hecho, elevando al cuadrado los valores de estadstico t se obtienen los valores del estadstico F. De las dos formas se est intentando evaluar la contribucin individual de una variable a la proporcin de varianza explicada por el conjunto de variables dependientes. Por ltimo, la Tabla siguiente muestra los coeficientes de regresin parcial de las variables no seleccionadas para formar parte de la ecuacin de regresin en cada paso. La informacin que contiene esta tabla permite conocer en detalle por qu unas variables han sido seleccionadas y otras no.
d Variables excluidas
Modelo 1
Beta dentro Experiencia previa (meses) Nivel educativo Fec ha de nacimiento Clas ificacin tnic a Nivel educativo Fec ha de nacimiento Clas ificacin tnic a Fec ha de nacimiento Clas ificacin tnic a -.138
a
t -6.571 6.385 6.471 -1.809 4.392 2.020 -.885 1.556 -.965
Sig. .000 .000 .000 .071 .000 .044 .377 .120 .335
Correlacin parc ial -.290 .283 .286 -.083 .199 .093 -.041 .072 -.045
Estadsticos de colinealidad Tolerancia .998 .599 1.000 .975 .520 .354 .952 .350 .952
.173 a .136 a -.040a .125 b .071 b -.019b .054 c -.020c
a. Variables predictoras en el modelo: (Constante), Salario inicial b. Variables predictoras en el modelo: (Constante), Salario inicial, Experiencia previa (meses ) c. Variables predictoras en el modelo: (Constante), Salario inicial, Experiencia previa (meses ), Nivel educativo d. Variable dependiente: Salario ac tual
En el primer paso se ha seleccionado la variable salario inicial porque es la que ms alto correlaciona, en valor absoluto, con la variable dependiente. En este primer paso, todava estn fuera del modelo el resto de variables independientes. La columna Beta dentro contiene el valor que tomara el coeficiente de regresin parcial estandarizado de cada variable en el caso de ser seleccionada en el siguiente paso. Y las dos columnas siguientes (t y Sig.) informan sobre si ese valor que adoptara el coeficiente de regresin parcial de una variable en el caso de ser incorporada al modelo sera o no significativamente distinto a cero. Puede comprobarse que, en el primer paso, hay tres variables todava no seleccionadas ( nivel educativo, experiencia previa y fecha de nacimiento ) cuyos coeficientes de regresin poseen niveles crticos por debajo de 0,05 (criterio de entrada). Entre ellas, la variable que posee un coeficiente de correlacin parcial mayor en valor absoluto ( experiencia previa = -0,290) y, adems, un nivel de tolerancia por encima de 0,001 ( tolerancia mnima establecida por defecto), es justamente la variable seleccionada en el segundo paso. En el segundo paso todava quedan fuera de la ecuacin dos variables cuyos coeficientes de regresin seran significativos en caso de ser seleccionadas en el siguiente paso: nivel educativo y fecha de nacimiento. De esas dos variables, se ha seleccionado en el tercer paso la variable nivel educativo porque, teniendo un nivel de tolerancia por encima de 0,001, es la que posee el coeficiente de correlacin parcial ms alto.
101
Despus del tercer paso todava quedan dos variables fuera de la ecuacin: fecha de nacimiento y clasificacin tnica. Pero, puesto que ninguna de las dos supera el criterio de entrada (Sig. < 0,05), es decir, puesto que a ninguna de ellas le corresponde un coeficiente de regresin parcial significativamente distinto de cero, el proceso se detiene y ambas variables quedan fuera del modelo. 6. Qu variables debe incluir la ecuacin de regresin
El mtodo de seleccin por pasos ha llevado a construir una ecuacin de regresin con tres variables. Esas tres variables han sido incluidas en el modelo porque poseen coeficientes de regresin parcial significativos. Sin embargo, la primera variable explica el 78% de la varianza de la variable dependiente, la segunda el 2%, y la tercera el 2%. Si en lugar de mtodo pasos sucesivos se utiliza el mtodo introducir, se obtienen los resultados que muestran las siguientes tablas.
Resumen del modelo
Estadsticos de cambio Modelo 1 R R cuadrado .896 a .803 R cuadrado corregida .801 Error tp. de la estimacin $7,620.326 Cambio en R cuadrado .803 Cambio en F 381. 605 gl1 5 gl2 467 Sig. del cambio en F .000
a. Variables predictoras: (Constante), Clasificacin tnica, Fecha de nacimiento, Salario inicial, Nivel educativo, Experiencia previa (meses)
b ANOVA
Modelo 1
Suma de cuadrados 1.108E+11 2.712E+10 1.379E+11
gl 5 467 472
Media cuadrtica 2.22E+10 58069371
F 381. 605
Sig. .000 a
a. Variables predictoras: (Constante), Clasificacin tnica, Fecha de nacimiento, Salario inicial, Nivel educat ivo, Experiencia previa (meses ) b. Variable dependiente: Salario actual
a Coe ficientes
Modelo 1
(Constante) Salario inic ial Experiencia previa -9.268 (meses) Nivel educativo 712.743 Fec ha de nacimiento 2.516E-06 Clas ificacin tnic a -865.292
Coeficientes no estandarizados B Error tp. -33438.7 19113.329 1.742 .060 5.724 169.671 .000 867.208
Coeficientes estandarizad os Beta .803 -.057 .120 .055 -.021
t -1.749 28.868 -1.619 4.201 1.576 -.998
Sig. .081 .000 .106 .000 .116 .319
Por un lado, la ganancia que se obtiene en R2 utilizando las 5 variables en lugar de tres seleccionadas con el mtodo por pasos es extremadamente pequea: 0,803-0,802 = 0,001. (Y el valor de R2 corregida ni siquiera cambia: vale 0,801 en ambos casos). No parece que tenga mucho sentido aadir dos variables a un modelo para obtener una mejora de una milsima en la proporcin de varianza aplicada. Aunque es cierto que R2 nunca disminuye cuando se van incorporando nuevas variables al modelo de regresin, sino que aumenta o se queda como est, esto no significa, necesariamente, que la ecuacin con ms variables se ajuste mejor a los datos poblacionales. Generalmente, conforme va aumentando la calidad del modelo, va disminuyendo el
102
error tpico de los residuos (Error tp. De la estimacin). Pero el incremento que se va produciendo en R2 al ir aadiendo variables no se corresponde necesariamente con una disminucin de error tpico de los residuos. Con cada variable nueva que se incorpora al modelo, la suma de cuadrados de la regresin gana un grado de libertad y la suma de cuadrados de los residuos lo pierde. Por tanto, el error tpico de los residuos puede aumentar cuando el descenso de la variacin residual es demasiado pequeo para compensar el grado de libertad que pierde la suma de cuadrados de los residuos. Estas consideraciones sugieren la conveniencia de utilizar modelos de regresin parsimoniosos, es decir, modelos con un nmero reducido de variables independientes (con el mnimo nmero posible de variables). Por otro lado, las variables que tienen pesos significativos en la ecuacin de regresin previamente obtenida con el mtodo pasos sucesivos no son las mismas que las que tienen pesos significativos en la ecuacin obtenida con el mtodo introducir. Esta diferencia entre mtodos de seleccin de variables debe ser tenida muy en cuenta. Cules son las variables buenas?. Atendiendo a criterios puramente estadsticos, la ecuacin de regresin con las tres variables seleccionadas por el mtodo pasos sucesivos, es la mejor de las posibles con el mnimo nmero de variables. Pero en la prctica, la decisin sobre cuntas variables debe incluir la ecuacin de regresin puede tomarse teniendo en cuenta, adems de los criterios estadsticos, otro tipo de consideraciones. Si, por ejemplo, resulta muy costoso (tiempo, dinero, etc.) obtener las unidades de anlisis, un modelo con una nica variable independiente podra resultar lo bastante apropiada. Para decidir con qu modelo de regresin quedarse, casi siempre es conveniente tomar en consideracin criterios adicionales a los puramente estadsticos. Por otro lado, puesto que los mtodos de seleccin por pasos construyen la ecuacin de regresin basndose exclusivamente en criterios estadsticos, podra ocurrir que alguna variable realmente relevante desde el punto de vista terico quedar fuera del modelo de regresin final. Y esto es algo que hay que vigilar con especial cuidado. Por supuesto, los contrastes estadsticos sirven de apoyo para tomar decisiones. Pero, dado que la potencia de un contraste se incrementa conforme lo hace el tamao de la muestra, hay que ser muy cautelosos con las conclusiones a las que se llega. Esto significa que, con muestras grandes, efectos muy pequeos desde el punto de vista de su importancia terica o prctica pueden resultar estadsticamente significativos. Por el contrario, con muestra pequeas, para que un efecto resulte significativo, debe tratarse de un efecto importante (con muestras pequeas, existe mayor grado de coincidencia entre la significacin estadstica y la importancia prctica). Por esta razn, en la determinacin de la ecuacin de regresin final, debe tenerse en cuenta, cuando se trabaja con muestras grandes, la conveniencia de considerar elementos de decisin adicionales a la pura significacin estadstica. Puesto que la utilizacin de los mtodos de seleccin por pasos est bastante generalizada, conviene tambin alertar sobre el peligro de alcanzar un resultado falsamente positivo (un error de tipo 1). Es decir, si se examina un nmero de variables lo bastante grande, tarde o temprano una o ms pueden resultar significativas slo por azar. Este riesgo es tanto mayor cuanto ms variables se incluyen en el anlisis. Para evitar este problema, si la muestra es lo bastante grande, puede dividirse en dos, aplicar el anlisis a una mitad y verificar en la otra mitad si se confirma el resultado obtenido. Si la muestra es pequea, esta solucin es inviable y, por tanto, el riesgo de cometer un error de tipo 1 permanece.
103
I.
Pronsticos
Ya se ha explicado cmo utilizar los coeficientes de regresin parcial ( B) para construir la ecuacin de regresin. En el punto V.2. Regresin mltiple se ha llegado a la siguiente ecuacin de regresin:
Pronstico (salario)
=1,749 salini - 16,730 expprev + 735,956 educ + 3.661.517
Puesto que se conocen los pesos de la ecuacin de regresin, podra utilizarse la opcin Calcular del men Transformar para obtener los pronsticos que la ecuacin asigna a cada caso. Pero esto es completamente innecesario. El subcuadro de dilogo Regresin lineal: Guardar nuevas variables contiene opciones que permiten generar diferentes tipos de variables relacionadas con los pronsticos: Valores pronosticados. Las opciones de este recuadro generan, en el Editor de datos, cuatro nuevas variables. Estas nuevas variables reciben automticamente un nombre seguido de un nmero de serie: nombre_ #. Por ejemplo, la primera vez que se solicitan durante una sesin los pronsticos tipificados, la nueva variable con los pronsticos tipificados recibe el nombre zpr 1. Si se vuelven a solicitar los pronsticos tipificados durante la misma sesin, la nueva variable recibe el nombre zpr_2 etc. No tipificados: pronsticos de la ecuacin de regresin en puntuaciones directas. Nombre:
pre_#.
Tipificados: pronsticos convertidos en puntuaciones tpicas (restando a cada pronstico la media de los pronsticos y dividiendo la diferencia por la desviacin tpica de los pronsticos). Nombre: zpr_#. Corregidos: pronstico que corresponde a cada caso cuando la ecuacin de regresin se obtiene sin incluir ese caso. Nombre: adj_#. E.T. del pronstico promedio. Error tpico de los pronsticos correspondientes a los casos que tienen el mismo valor en las variables independientes. Nombre: sep_#. Al efectuar pronsticos es posible optar entre: (1) efectuar un pronstico individual Yi para cada caso concreto Xi, o (2) pronosticar para cada caso la media de los pronsticos ( Y0) correspondientes a todos los casos en con el mismo valor X0 en la(s) variable(s) independiente(s); a esta media es a la que se llama pronstico promedio. En ambos casos se obtiene el mismo pronstico (Yi=Y0), pero cada tipo de pronstico (ambos son variables aleatorias) tiene un error tpico distinto. Al efectuar un pronstico individual para un determinado valor de Xi, el error de estimacin o variacin residual (Yi Yi) puede contener dos fuentes de error: (i) La diferencia entre valor observado en la variable dependiente ( Yi) y la media poblacional correspondiente a (ii) .
X0
.
Y X0
La diferencia entre el pronstico para ese caso ( Yi o Y0) y la media poblacional
correspondiente a
X0
Y X0
En un pronstico individual entran juego ambas fuentes de error. Pero en un pronstico promedio slo entra en juego la segunda fuente de error. Por tanto, para un valor dado de X0, el error tpico del pronstico promedio siempre ser menor o igual que el error tpico del pronstico individual. En consecuencia, al construir intervalos de confianza para los pronsticos, la amplitud del intervalo cambiar dependiendo del error tpico que se tome como referencia.
104
Adems, puede intuirse fcilmente que los errores tpicos del pronstico promedio (que ya se ha dicho que estn basados en las distancias en parezcan
Y0' y
Y X0
) sern tanto menores cuanto ms se
X 0 y X , pues cuanto ms se parezcan, ms cerca estar la recta muestral de la
poblacional y, consecuentemente, ms cerca estarn
Y0' y
Y X0
Intervalos de pronstico (parte inferior del subcuadro de dilogo Regresin lineal: Guardar nuevas variables). Las opciones de este recuadro permiten obtener los intervalos de confianza para los pronsticos: Media. Intervalo de confianza basado en los errores tpicos de los pronsticos promedio. Individuos. Intervalo de confianza basado en los errores tpicos de los pronsticos individuales. La opcin Intervalos de confianza k % permite establecer el nivel de confianza con el que se construyen los intervalos de confianza. Lgicamente, estos dos intervalos son distintos. Para un valor dado de X, el primer intervalo (media) es ms estrecho que el segundo (individuos). Recurdese lo dicho en este mismo apartado sobre los errores tpicos de los pronsticos. Cada una de estas dos opciones (media e individuos) genera en el Editor de datos dos nuevas variables con el lmite inferior y superior del intervalo. Estas nuevas variables reciben los siguientes nombres:
lmci_: lmite inferior del intervalo de confianza para el pronstico medio. umci: lmite superio de intervalo de confianza para el pronstico medio. lici: lmite inferior del intervalo de confianza para el pronstico individual. uici_ lmite superior del intervalo de confianza para el pronstico individual.
7.
Validez del modelo de regresin
El modelo de regresin puede ser validado utilizando casos nuevos. Para ello, basta con obtener los pronsticos para esos casos nuevos y, a continuacin, calcular el coeficiente de correlacin entre los valores observado en la variable dependiente y los valores pronosticados para esos casos nuevos. En teora, el coeficiente de correlacin as obtenido debera ser igual al coeficiente de correlacin mltiple del anlisis de regresin ( R). En la prctica, si el modelo es lo bastante bueno, se observarn pequeas diferencias entre esos coeficientes atribuibles nicamente al azar muestral. Es muy importante que los nuevos casos representen a la misma poblacin que los casos originalmente utilizados para obtener la ecuacin de regresin. En ocasiones, es posible que no se tenga acceso a nuevos datos o que sea muy difcil obtenerlos. En esos casos, todava es posible validar el modelo de regresin si la muestra es lo bastante grande. Basta con utilizar la mitad de los casos de la muestra (aleatoriamente seleccionados) para obtener la ecuacin de regresin y la otra mitad de la muestra para efectuar los pronsticos. Un modelo fiable debera llevar a obtener una correlacin similar entre los valores observados y pronosticados de ambas mitades. II. Temas adicionales en el anlisis de regresin
El proceso de construccin de modelos estadsticos es, en cada caso, un problema especfico y particular. Lo que se haga, o pueda hacerse, depender del conocimiento que tengamos acerca del
105
comportamiento de las variables en estudio y de los datos disponibles. En la figura podemos ver de forma esquemtica los diferentes pasos que tienen lugar en la modelacin estadstica.
Especificacin del modelo
Estimacin de los coeficientes
Verificacin del modelo
Interpretacin e Inferencia
8.
Especificacin del modelo
El problema inicial ser especificar una forma algebraica para el modelo que pueda proporcionar una descripcin del sistema objeto de estudio, que sea conveniente, til y razonable. 9. Estimacin de los coeficientes
Una vez especificado, un modelo estadstico normalmente contiene una serie de coeficientes desconocidos, o parmetros. El siguiente paso en la construccin del modelo es utilizar los datos disponibles para estimar dichos coeficientes. Se podrn obtener as, tanto estimaciones puntuales como estimaciones por intervalos. Es decir, en el modelo de regresin mltiple
Yi
1 1i
2 2i
xKi
(1.1)
1, 2,, k
las realizaciones de la variable
dependiente y las de las variables independientes.
El mtodo apropiado de estimacin depende de la especificacin del modelo. Hemos visto que, dados ciertos supuestos acerca de las propiedades estadsticas de los trminos de error i del modelo (1.1), el mtodo de mnimos cuadrados ser apropiado para estimar los coeficientes de regresin parcial. Sin embargo, como veremos, si alguno de los supuestos no se cumple, los estimadores mnimo-cuadrtico pueden ser muy ineficientes. En general, el teorema de GaussMarkov, que da una justificacin terica de por qu utilizar el mtodo de mnimos cuadrados, se cumple slo cuando los supuestos son ciertos. 10. Verificacin del modelo
Al formular un modelo, el investigador est incorporando al estudio una serie de intuiciones. Sin embargo, al traducir esto a una expresin algebraica, se estarn llevando a cabo una serie de simplificaciones y supuestos, que en la realidad pueden llegar a ser insostenibles. Por tanto, ser siempre conveniente comprobar si el modelo es el adecuado. Una vez estimada la ecuacin de regresin, el analista puede darse cuenta de que las estimaciones resultantes no tienen sentido dados los conocimientos que se tienen del sistema a estudio. Por ejemplo, supongamos que un modelo estimado sugiere que, manteniendo el resto de los factores relevantes fijos, la demanda de coches importados crece a medida que crece su precio. Esta conclusin va en contra no slo de la teora econmica sino del propio sentido comn. Cuando la estimacin puntual de un coeficiente de regresin tiene el signo contrario suele deberse a la escasa disponibilidad de datos. En nuestro ejemplo, esperamos que, a igualdad de los dems factores, exista al menos una modesta relacin inversa entre la demanda de coches importados y su precio; sin embargo, esta relacin puede no manifestarse en los coeficientes estimados a causa
106
de errores en la muestra. Ms serio es el caso en el que los coeficientes estimados tienen el signo contrario y difieren significativamente de 0. Es muy posible que, en estas circunstancias, el error se deba a una incorrecta especificacin del modelo. El investigador debera en este caso replantearse la especificacin original. A lo mejor se ha pasado por alto una variable explicativa de inters, o, posiblemente, la forma funcional que se ha supuesto sea inapropiada. Ciertamente, comprobar la coherencia de modelo resultante va a ser una parte importante de la verificacin. Es importante tambin comprobar los supuestos hechos sobre las propiedades estadsticas de las variables aleatorias del modelo. En la Ecuacin de regresin (1.1), se supone habitualmente que los trminos de error i tiene todos la misma varianza y que no estn correlacionados unos con otros. Cualquier comprobacin sobre la correccin de un modelo puede llevar a una especificacin alternativa. Es por esto por lo que, en la Figura 1, hemos conectado el paso de especificacin del modelo con el de verificacin. De esta forma, la construccin de un modelo se entiende como un proceso iterativo de especificacin, estimacin y verificacin, continuando el proceso hasta que se alcance un modelo aparentemente satisfactorio. 11. Interpretacin e Inferencia
Una vez construido el modelo, podr ser utilizado para aprender algo acerca del sistema a estudio. En el anlisis de regresin, esto puede implicar encontrar intervalos de confianza para los parmetros del modelo, contrastar hiptesis de inters o realizar predicciones de la variable dependiente dados ciertos valores de las variables independientes. Es importante tener presente que la inferencia est basada en el supuesto de que el modelo est correctamente especificado. Cuanto ms graves sean los errores de especificacin, menos fiables sern las conclusiones derivadas del modelo ajustado. 12. Ejercicio
Consideremos datos del archivo Entidades de ahorro y crdito.sav Supongamos que queremos explicar la variabilidad a travs de los aos de los mrgenes de beneficio de las entidades de ahorro y crdito. Es razonable suponer que, a igualdad de los dems factores, los mrgenes de beneficio estarn positivamente relacionados con los ingresos netos por dlar depositado, es decir, cuanto ms altos sean los ingresos netos, ms altos sern los mrgenes de beneficio. Otra posibilidad es considerar que los mrgenes de beneficio caigan debido al aumento de la competencia, a igualdad de los dems factores, cuando el nmero de entidades de ahorro y crdito crece. Por tanto lo que buscamos es un modelo en el cual la variable dependiente, margen de beneficio (Y), est relacionada con las dos variables independientes, ingresos netos (X1) nmero de entidades de ahorro y crdito ( X2). El archivo muestra 25 conjuntos de observaciones anuales. Nuestro inters se centra en el valor esperado de la variable dependiente, pero en este caso, este valor est condicionado al valor que toman todas las variables independientes. Por ejemplo, podramos preguntar cul es el valor esperado para el margen porcentual de beneficio en un ao en el que los ingresos porcentuales netos por dlar depositado fueron del 4 y hubiera 8.000 oficinas. Una vez ms, necesitaremos una notacin apropiada para este concepto. Para el caso en el que una variable dependiente, Y, est relacionada con un par de variables independientes, X1 y X2 usaremos E(Y / X1=x1, X2=x2) para representar el valor esperado de la variable dependiente cuando las variables independientes toman los valores x1 y x2, respectivamente. El supuesto de linealidad, en este contexto, implica que esta esperanza condicional es de la forma.
E(Y / X1=x1, X2=x2) =

donde las constantes
1
1 x1
+
2
2 x2
(1.2)
deben estimarse a partir de los datos.
107
En general, el objetivo ser relacionar la variable dependiente, Y, con K variables independientes X1, X2,, Xk. Entonces, si X1 toma el valor x1, X2 toma el valor x2, y as sucesivamente, la generalizacin de la Ecuacin (1.2) proporcionara el valor esperado de la variable dependiente como
E(Y / X1=x1, X2=x2,..., Xk=xk) =
1x1
2x 2
+ ... +
k xk
(1.3)
donde E(Y / X1=x1, X2=x2,..., Xk=xk) representa el valor esperado de la variable dependiente cuando las variables independientes toman los valores x1, x2,..., xk y donde las constantes 1, ,, determinan la naturaleza de la relacin. Estas constantes tienen una interpretacin 2 k inmediata. En primer lugar, si se da a cada una de las variables independientes el valor 0, puede deducirse de (1.3) que:
E(Y / X1=0, X2=0,..., Xk=0) =

Por tanto, es el valor esperado de la variable dependiente cuando cada una de las variables independientes toma el valor 0. Con frecuencia, esta interpretacin no es de inters prctico, pues el punto en el cual todas las variables independientes son 0 no tiene importancia y, de hecho, puede no tener sentido (por ejemplo, no tiene inters el caso en el que el nmero de oficinas de ahorro y crdito es 0). Es ms, mientras que la forma que hemos supuesto para el modelo puede ser razonable en la regin donde se han observado los valores de las variables independientes, sera muy optimista suponer que el modelo es vlido para valores alejados de esta regin. La interpretacin de los coeficientes 1, 2,, k es extremadamente importante. Supongamos que en la ecuacin una de las variables independientes, digamos X1, incrementa su valor en una unidad, pasando de valer x1 a (x1 + 1), mientras que el resto de la variables independientes mantiene su valor. Entonces, tenemos
E(Y / X1 = x1 + 1, X2 = x2,..., Xk = xk) =

Por tanto, tenemos
1(x1
+ 1) +
2 x2
+ ... + bkxk
E(Y / X1 = x1 + 1, X2 = x2,..., Xk = xk) - E(Y / X1 = x1, X2 = x2,..., Xk = xk) =

=
1 1(x1
+ 1) +
2 x2
+ ... + bkxk - (
1x1
2 x2
+ ... + bkxk)
De aqu se deduce que 1 es el incremento esperado de Y que resulta de incrementar la variable X1 en una unidad cuando el resto de las variables independientes permanecen constantes. En general, j es el incremento esperado en la variable dependiente que resulta de incrementar la variable Xj en un unidad, cuando el resto de la variables independientes permanece constante. Las constantes j, llamadas coeficientes de regresin parcial, proporcionan medidas separadas de las influencias de las variables independientes en la variable dependiente, cuando el resto de los factores relevantes permanece constante. Volviendo al ejemplo de las entidades de ahorro y crdito, supongamos que la verdadera relacin es
E Y X1
x1 , X 2
x2
1,5
0, 2 x1
0, 00025x2
El coeficiente correspondiente a x1, indica que incrementar en una unidad los ingresos netos, producira un incremento de 0,2 en el margen porcentual de beneficio de las entidades de ahorro y crdito, siempre que el nmero de oficina permanezca constante. De forma anloga, el coeficiente correspondiente a x2, indica que, manteniendo los ingresos netos fijos, un incremento de una oficina de ahorro y crdito, producira un incremento de 0,00025 - es decir, una reduccin esperada de 0,00025 - en el margen porcentual de beneficio. Utilizando valores ms
108
realistas, un incremento de 1.000 oficinas de ahorro y crdito, manteniendo los ingresos netos fijos, supondra una reduccin esperada de 0,25 en los mrgenes porcentual de beneficios. 13. Sesgo de especificacin
La especificacin de un modelo estadstico que represente de forma adecuada el mundo real, es una tarea difcil y delicada. Ciertamente, ningn modelo simple podr representar perfectamente la naturaleza precisa de determinadas magnitudes reales de inters. El objetivo a la hora de construir un modelo ser intentar describir una formulacin sencilla que no diverja mucho de la compleja realidad que se desea estudiar. Por una parte, la simplicidad del modelo ser una ventaja pero, por otra, divergencias sustanciales entre el modelo y la realidad que intenta representar pueden dar lugar a conclusiones errneas acerca del comportamiento del sistema estudiado. Un aspecto importante a la hora de formular el modelo, ser la especificacin adecuada de la forma funcional que mejor ajuste la relacin entre la variable dependiente y las variables independientes. Si la forma elegida difiere sustancialmente de la forma verdadera, cualquier conclusin que se saque a partir del modelo se refiere a los supuestos que se hacen acerca de las propiedades estadsticas de los trminos de error en la ecuacin de regresin. Hasta el momento, en nuestro anlisis hemos supuesto que estos errores tenan todos la misma varianza y que estaban incorrelados unos con otros. Si estos supuestos eran de hecho cierto, habamos visto que el mtodo de mnimos cuadrados y las inferencias realizadas a partir de l, proporcionaban una forma adecuada de aprendizaje acerca del proceso. Sin embargo, si alguno de estos supuestos no fuese cierto, esto no va a tener por qu ser as. A la hora de formular un modelo de regresin, un investigador lo que intenta es poder relacionar la variable de inters con todas las dems variables que sean importantes en dicha relacin. Es decir, si suponemos que el modelo lineal es el apropiado, lo que se querr es poder incluir todas las variables independientes que influyan segn esta forma especfica en la variable dependiente. Al formular el modelo de regresin.
Yi
1 1i
2 2i
xKi
est implcito el hecho de que el conjunto de variables independientes
X1 , X 2 ,
, X K , son todas
las que afectan de forma significativa al comportamiento de la variable dependiente, Y. Sin embargo, en cualquier problema prctico, habr otros factores que tambin afecten a la variable dependiente. La influencia conjunta de estos factores quedar recogida en el trmino de error, i . Pero lo primordial ser, a la hora de decidir las variables independientes a incluir en el modelo, no olvidar ninguna que sea importante. Excepto en el caso especial (y raro) en que las variables omitidas estn incorreladas con las variables independientes incluidas en el modelo de regresin, las consecuencias de este tipo de error de especificacin puede llegar a ser muy serias. En particular, las estimaciones por mnimos cuadrados estarn generalmente sesgadas, y la inferencias a partir de los intervalos de confianza y de los contrastes de hiptesis podrn llevarnos a conclusiones errneas. 14. Ejercicio
Utilizando el archivo Entidades de ahorro y crdito.sav determine la estimacin del modelo de regresin mltiple. Determine R, R2, R2 ajustado, Error estndar de estimacin.
109
a i
c i e d a n o a s r
o e i t r g t 1 ( 4 9 5 0 I n 7 6 7 9 0 d n 4 0 7 2 0
La ecuacin de regresin estimada que mejor ajusta la relacin entre el margen de beneficios y las ganancias y el nmero de oficina es
Y 1,565 0,237 X1 0,000249 X 2
Una conclusin que sigue de este anlisis es que, para un nmero fijo de oficinas, un incremento de una unidad en las ganancias netas por dlar depositado conlleva un incremento esperado de 0,237 unidades en el margen de beneficio. Ahora bien, supongamos que nuestro nico inters se centra en el efecto de las ganancias netas sobre el margen de beneficio. Una manera de solucionar esto podra ser estimar la regresin del margen de beneficio en funcin de las ganancias netas, a partir de los 25 pares de observaciones.
Resumen del modelo R cuadrado corregida .474 Error tp. de la estimacin .10089
Modelo 1
a. Variables predictoras: (Constante), Ingresos netos por dlar depositado
a Coe ficientes
Modelo 1
(Constante) Ingresos netos por dlar depos itado
Coeficientes no estandarizados B Error tp. 1.326 .139 -.169 .036
Coeficientes estandarizad os Beta -.704
t 9.567 -4.752
Sig. .000 .000
a. Variable dependiente: margen de beneficio porcentual
Tal anlisis da como resultado el siguiente modelo ajustado

Y 1,326 0,169 X1
Si comparamos los dos modelos ajustados, observamos de forma inmediata que una consecuencia de ignorar el nmero de oficinas es una considerable reduccin en el valor de R 2, la proporcin de la variabilidad de la variable dependiente que queda explicada mediante este modelo de regresin
110
Existe, sin embargo, una consecuencia todava ms importante. El modelo ajustado anterior implica que un incremento de una unidad en el porcentaje de ganancias netas por dlar depositado conlleva un decrecimiento esperado de 0,169 en el porcentaje del margen de beneficio. Pero esta conclusin es absolutamente contraintuitiva. Lo que todo el mundo esperara es que, dado que todo lo dems permanece igual, altas ganancias netas estuvieran siempre asociadas con altos mrgenes de beneficio. Lo que ha ocurrido es que, a lo largo del periodo de 25 aos para la cual se ha estimado el modelo, todo lo dems no ha permanecido igual. En particular, otra variable potencialmente importante-el nmero de oficinas de entidades de ahorro y crdito- ha cambiado de forma considerable a lo largo de este perodo. Cuando esta variable se incorpora al anlisis de regresin, se llega a la conclusin opuesta. Como habamos predecido, ahora que se tiene en cuenta la influencia del nmero de oficinas, la relacin entre las ganancias netas y el margen de beneficios resulta ser positiva. Este ejemplo refleja de forma sencilla el problema al que nos referamos. Si nos olvidamos de incluir en el modelo una variable explicativa que sea importante, cualquier conclusin que se saque acerca de los efectos de otras variables independientes pueden estar seriamente sesgadas. En este caso particular, hemos visto que aadir una variable relevante, puede significar un cambio en el signo de la relacin entre la variable dependiente y la variable independiente. Si miramos atentamente los datos, encontramos el porqu de todo esto. En la ltima parte del perodo, el margen sobre los beneficios cae y las ganancias netas suben de forma que sugieren una relacin negativa entre ambas variables.
Grfico de dispersin
1.0 .9
.8
.7
.6
.5
.4 .3 3.0 3.5 4.0 4.5 5.0
Ingresos netos por dlar depositado
Sin embargo, una mirada ms atenta de los datos revela un incremento en el nmero de oficinas en ese mismo perodo, sugiriendo la posibilidad de que ste sea el factor causante de descenso en el margen sobre beneficios. La nica forma correcta de desenredar los efectos separados de las dos variables independientes sobre la variable dependiente ser modelndolas juntas en una misma ecuacin de regresin. Este ejemplo muestra cun importante es, cuando existe ms de una variable independiente relevante, utilizar el modelo de regresin mltiple, en lugar del modelo de regresin simple. Interprete la tabla ANOVA del modelo de regresin mltiple
111
b ANOVA
Modelo 1
Suma de cuadrados .402 .063 .464
gl 2 22 24
Media cuadrtica .201 .003
F 70.661
Sig. .000 a
a. Variables predictoras: (Constante), nmero de oficinas, Ingresos netos por dlar depositado b. Variable dependiente: margen de beneficio porcentual
F: Cociente entre dos medias cuadrticas. Cuando el valor de F es grande y el nivel de significacin es pequeo (tpicamente menor que 0,05 0,01) se puede rechazar la hiptesis nula. En otras palabras, un nivel de significacin pequeo indica que probablemente los resultados no se deban meramente al azar. Recordar que la hiptesis nula es todos los coeficientes de regresin parcial son cero. Esta hiptesis nula, implica que, tomadas de forma conjunta, las variables independientes no tienen ninguna influencia lineal en la variable dependiente. Las bases de este contraste las proporciona la descomposicin de la suma de cuadrados SCT = SCR + SCE. La primera parte, SCR, es la parte de la variabilidad total debida a la regresin en las variables independientes, mientras que la segunda, SCE, es la parte de la variabilidad que no puede explicarse mediante la regresin. Coeficientes de regresin parcial Los coeficientes de regresin parcial, i, miden los cambios esperados en la variable dependiente, que resultan de un incremento unitario en una de las variables independientes, cuando el resto de las variables independientes permanecen constantes. En este sentido, los coeficientes de regresin parcial, describen impactos separados de las variables independientes en la variable dependiente. Correlacin de orden cero Coeficientes de correlacin ordinarios, sin variables de control. Los valores del coeficiente de correlacin van de -1 a 1. El signo del coeficiente indica la direccin de la relacin, y su valor absoluto indica la fuerza. Los valores mayores, en valor absoluto, indican que la fuerza es mayor. Correlacin parcial La correlacin que permanece entre dos variables despus de eliminar la correlacin que es debida a su relacin mutua con las otras variables. La correlacin entre la variable dependiente y una variable independiente cuando se han eliminado de ambas los efectos lineales de las otras variables independientes presentes en el modelo. Correlaciones semiparcial La correlacin entre la variable dependiente y una variable independiente cuando se han eliminado de la variable independiente los efectos lineales de las otras variables independientes del modelo. Est relacionada con el cambio en R cuadrado cuando una variable se aade a una ecuacin.
112
a p r n c 1 I n 4 3 4 d n 8 6 8
La correlacin parcial entre el margen de beneficio porcentual y los ingresos netos porcentuales por dlar depositado, cuando el nmero de oficinas es constante, es 0,67. La correlacin parcial entre el margen de beneficio porcentual y el nmero de oficinas, cuando los ingresos netos porcentuales por dlar depositado son constantes es -0,86. La utilidad fundamental del coeficiente de correlacin parcial es un estadstico descriptivo que proporciona una estimacin de la fuerza de la relacin. Por consiguiente nuestros hallazgos en los datos de ahorro y crdito indican dos relaciones bastantes fuertes, con una asociacin lineal parcial positiva entre mrgenes de beneficio e ingresos netos, y una asociacin lineal negativa entre mrgenes de beneficios y nmero de oficinas. El coeficiente de correlacin parcial es ms apropiado para medir la fuerza de las relaciones involucradas que el coeficiente de correlacin simple. De hecho, utilizar este ltimo puede llevarnos a conclusiones errneas. Por ejemplo, el coeficiente de correlacin muestral entre margen de beneficio e ingresos netos es negativo (es 0,70) a pesar de que, como hemos visto, una vez que se elimina la influencia del nmero de oficinas, existe una asociacin positiva moderadamente fuerte.
15. Ejercicio: Ventas de Chocolate

En un cierto estudio realizado en un parque de atracciones se hall una correlacin significativa y muy alta entre la temperatura y el nmero de tazas de chocolate caliente servidas, R = 0,923 p<=0,000. Lo cual es un resultado muy extrao, pues implica que cuanto mayor es la temperatura ms tazas de chocolate caliente se consumen. Sin embargo, si se controla la variable nmero de visitantes el resultado es muy diferente. Considere el archivo CHOCOLAT.sav. Para hallar el coeficiente de correlacin parcial entre temperatura y nmero de tazas de chocolate caliente controlando el nmero de visitantes, elegir Estadsticos/correlaciones/parciales. Se seleccionan y transfieren las variables tazas y temperatura a la seccin variables, se selecciona y transfiere la variable visitant a la seccin controlando para, finalmente se pulsa el botn aceptar. La correlacin ahora es no significativa, rp=0,42 p<=0,198. Cuando hace fro, mucha gente (de la poca gente que va) toma chocolate, pero cuando hace calor muy poca gente, de la mucha que va toma chocolate caliente. Es decir, como en verano va mucha gente, por poca gente que tome chocolate caliente ya es mayor la cantidad que en invierno. 16. Intervalos de confianza
El resultado ms importante, en el cual se basa la inferencia sobre los parmetros del modelo de regresin mltiple poblacional, es el que se incluye a continuacin: Sea el modelo de regresin poblacional
Yi =
1x1
2 x2
+ ... +
k xk
113
Sean a, b1, b2,, bk las estimaciones de mnimo cuadrados de los parmetros de la poblacin y Sa , Sb1 , Sb2 , SbK las estimaciones de las desviaciones tpicas de los estimadores de mnimos cuadrados. Si se cumplen las hiptesis de regresin, y los trminos de error normal, entonces las variables aleatorias que corresponden a:
i
se distribuyen segn una
ta
a Sa
tbi
bi sbi
1, 2,
,K
se distribuye segn una s de Student con (n k 1) grados de libertad. Habitualmente, el inters se centra en los coeficientes de regresin parcial, i ms que en la constante . Por esta razn, nos concentraremos en los primeros, advirtiendo que la inferencia sobre la constante sigue los mismos pasos. Puede obtenerse intervalos de confianza para los procedimiento se resume de la siguiente forma:
i
utilizando argumentos conocidos. El
f)
Intervalos de confianza para coeficientes de regresin parcial
Si los errores de la regresin poblacional se distribuyen segn una normal, y la hiptesis 1-5 de la Seccin 13.3 se cumplen, entonces, los intervalos de confianza del 100 (1 - )% para los coeficientes de regresin parcial, i son de la forma
bi tn
donde
1, / 2
Sbi
bi
tn
K 1, / 2 Sbi
tn
K 1, / 2
es el nmero para el cual

K 1
P tn
K 1
tn
1, / 2
y la variable aleatoria tn libertad.
tiene una distribucin t de Student con (n k 1) grados de
Para la regresin de las entidades de ahorro y crdito, encontramos
25
b1
0, 237
sb1
0, 0555
b2
1
0, 000249
y
2,
sb 2
0, 0000320
Para obtener intervalos de confianza del 99% para
tenemos que
tn
1, / 2
t22,0,005
2,819
1
Por consiguiente, el intervalo de confianza para 0,237 - (2,819)(0,0555) < 0,081 <
1 1
del 99% es
< 0,237 + (2,819)(0,055)
< 0,393
Luego, el intervalo de confianza del 99% para el incremento esperado en los mrgenes de beneficio resultante de un incremento de una unidad en los ingresos netos, dado un nmero fijo de oficinas va desde 0,081 a 0,393. El intervalo de confianza para 2 del 99% es -0,000249 - (2,8199)(0,0000320) < -0,000339 <
2 2
< -0,000249 + (2,819)(0,0000320) < -0,000159
Luego, el intervalo de confianza del 99% para la reduccin esperada en los mrgenes de beneficio resultante de un incremento en mil oficinas, para un nivel fijo de ingresos netos, va desde 0,159 a 0,339. Determine los valores pronosticados y los residuales. Grficos de normalidad para residuo tipificado
114
Histograma Variable dependiente: margen de beneficio porcentual

7 6 5 4 3 2 1 0 -1.50 -1.00 -.50 0.00 .50 1.00 1.50 2.00 Desv. tp. = .96 Media = 0.00 N = 25.00
Frecuencia
Grfico P-P normal de regresin Residuo tipificado Variable dependiente: margen de beneficio porcentual
1.00
.75
Prob acum esperada
.50
.25
0.00 0.00 .25 .50 .75 1.00
Prob acum observada
Determine el intervalo de confianza para
2.
a i
o 9
p e i n 1 ( 0 9 I n 2 2 d n 6 3
a V
115
El intervalo de confianza del 95% para el incremento esperado en los mrgenes de beneficios resultante de un incremento de una unidad en los ingresos netos, dado un nmero fijo de oficinas, va desde 0,122 a 0,352. Interprete la tabla ANOVA del modelo de regresin mltiple
b ANOVA
Modelo 1
Suma de cuadrados .402 .063 .464
gl 2 22 24
Media cuadrtica .201 .003
F 70.661
Sig. .000 a
a. Variables predictoras: (Constante), nmero de oficinas, Ingresos netos por dlar depositado b. Variable dependiente: margen de beneficio porcentual
F: Cociente entre dos medias cuadrticas. Cuando el valor de F es grande y el nivel de significacin es pequeo (tpicamente menor que 0,05 0,01) se puede rechazar la hiptesis nula. En otras palabras, un nivel de significacin pequeo indica que probablemente los resultados no se deban meramente al azar. Recordar que la hiptesis nula es todos los coeficientes de regresin parcial son cero. Esta hiptesis nula, implica que, tomadas de forma conjunta, las variables independientes no tienen ninguna influencia lineal en la variable dependiente. Las bases de este contraste las proporciona la descomposicin de la suma de cuadrados SCT=SCR+SCE. La primera parte, SCR, es la parte de la variabilidad total debida a la regresin en las variables independientes, mientras que la segunda, SCE, es la parte de la variabilidad que no puede explicarse mediante la regresin. 17. Heterocedasticidad
Los modelos en los cuales los trminos de error no tienen todos la misma varianza se denominan heterocedsticos. Cuando este fenmeno est presente, el mtodo de mnimos cuadrados no es el proceso ms eficiente para estimar los coeficientes del modelo de regresin. En la primera parte de esta gua relacionamos los beneficios marginales de las entidades de ahorro y crdito con las ganancias netas por dlar depositado ( X1) y con el nmero de oficinas (X2), mediante el siguiente modelo
Yi
1 X1i
2 X 2i
Se estimaron los coeficientes de este modelo eran estimados por el mtodo de mnimos cuadrados, con el supuesto implcito de que los trminos de error tenan todos la misma varianza. Ahora contrastaremos ste supuesto. Resultan tiles las tcnicas grficas para detectar heterocedasticidad. En la prctica se elaboran una serie de grficos de los residuos i frente a las diferentes variables independientes o frente a los valores esperados, y se examinan. Realizar los grficos de los residuos de la regresin frente a las dos variables independientes. Para esto se deben guardar primero los residuos no tipificados y los valores pronosticados seleccionando Regresin/Lineal [Guardar]
116
Grfico de residuos
.2
.1
Unstandardized Residual
0.0
-.1 3.0 3.5 4.0 4.5 5.0
Ingresos netos por dlar depositado
Grfico de residuos
3
-1
-2 6000 7000 8000 9000 10000
nmero de oficinas
A partir de estos dos grficos, no parece que haya ninguna relacin sistemtica entre las magnitudes de los residuos y los valores de cada una de las variables independientes. Ahora realice un grfico entre los residuos frente a los valores pronosticados.
117
Grfico de dispersin
Variable dependiente: margen de beneficio porcentual
1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0 -2.5 -2 -1 0 1 2 3
Parece no haber una relacin fuerte entre las magnitudes de los residuos y los tamaos de los valores predichos de la variable dependiente. Los grficos no sugieren la presencia de heterocedasticidad. Existen procedimientos ms estrictos para detectar heterocedasticidad y para estimar los coeficientes de los modelos de regresin cuando se sospecha que el supuesto de varianzas constantes de los errores es insostenible. (estos pueden verse en libros especializados de econometra) La aparicin de errores heterocedsticos puede resultar a partir de estimar un modelo de regresin lineal en circunstancias en las que un modelo loglineal es el adecuado. El analista, debera entonces, cuando hay una indicacin de heterocedasticidad, considerar la posibilidad de reestimar el modelo en la forma logartmica, especialmente si la teora sugiere que tal especificacin no sera descabellada. Esencialmente, tomar logaritmos aliviar la influencia de las observaciones grandes. A menudo, el modelo resultante aparecer libre de heterocedasticidad. Esta aproximacin es apropiada cuando los datos que se estn estudiando son series temporales de variables econmicas, tales como el consumo, la renta y el dinero, que tienden a crecer exponencialmente con el tiempo. 18. Errores Autocorrelacionados
El contraste que se utiliza es el contraste Durban-Watson y est basado en los residuos de la estimacin por mnimos cuadrados.
f)
Prueba de Durbin Watson:
La prueba ms conocida para detectar correlacin serial es la desarrollada por los estadsticos Durbin y Watson. Es comnmente conocida como el estadstico de Durbin Watson, el cual se define como
118
t n
(u t d
t 2 t n t 2
ut 1 ) 2
ut 2
Que es simplemente la razn de la suma de las diferencias al cuadrado de residuales sucesivos sobre la SRC. Una gran ventaja del estadstico d es que est basado en los residuales estimados, que aparecen sistematizados en los anlisis de regresin. H0: =0 No hay autocorrelacin H1: 0 Existe autocorrelacin Existe un atabla que proporciona los valores para dU y dL para diferentes valores de n y k (nmero de var independientes)
Rechace Ho Evidencia de autocorrela cin positiva
Zona de indeci sin
No hay evidencia autocorrelacin evevidencia
Rechace Zona Ho Evidencia de indeci de sin autocorrela cin negativa
dL
dU
4-dU 4-dL
Observacin: Si los errores no estn autocorrelacionados se espera que el valor de d est cercano a 2. Estime el valor del estadstico de DW para nuestro ejemplo y contraste con los valores de la tabla
Para n=25 y k=2 se observa en la tabla dL=1,21 y dU =1,5 Como el valor calculado para d es 1,95 , es mayor que dU, la hiptesis nula de no autocorrelacin en los errores ser no rechazada.
g)
Multicolinealidad
La colinealidad (o multicolinealidad) es una situacin no deseable en la que una de las variables independientes es una funcin lineal de otras variables independientes.
119
En las ecuaciones de regresin en las que haya distintas variables independientes, el problema de la multicolinealidad surgir cuando existan fuertes correlaciones entra las variables independientes El SPSS muestra las tolerancias para las variables individuales y una variedad de estadsticos para diagnosticar los problemas de colinealidad.
a i
r I I
Tolerancia: Estadstico utilizado para determinar la cuanta en que estn relacionadas las variables independientes unas con otras (para ver si son multicolineales). La tolerancia de una variable es la proporcin de su varianza no explicada por las otras variables independientes de la ecuacin. Una variable con una tolerancia muy baja contribuye con poca informacin a un modelo (es colineal), y puede causar problemas de clculo. Se calcula como 1 menos la R cuadrado para una variable independiente cuando es pronosticada por las otras variables independientes ya incluidas en el anlisis. FIV: El recproco de la tolerancia. Cuando el factor de inflacin de la varianza crece, tambin lo hace la varianza del coeficiente de regresin, haciendo que el estimador sea inestable. Los valores de VIF grandes son un indicador de la existencia de multicolinealidad.
a d
s d r e o s c e e l r o c d s s v i i t n c 1 1 6 0 0 0 0 2 2 5 3 4 2 3 3 1 6 6 8
Autovalor: Los autovalores ofrecen una indicacin de cuntas dimensiones diferentes existen entre las variables independientes. Cuando varios de los autovalores son prximos a cero, las variables estn muy inter-correlacionadas y los cambios pequeos en los datos pueden conducir a grandes cambios en las estimaciones de los coeficientes. ndice de condicin: Las races cuadradas de las razones del mayor autovalor respecto a cada uno de los autovalores sucesivos. Un ndice de condicin mayor que 15 indica un posible problema y un ndice de condicin mayor que 30 sugiere un serio problema con la colinealidad. Proporciones de la varianza: Las proporciones de la varianza del estimador explicadas por cada componente principal asociada a cada uno de los autovalores. La colinealidad es un problema cuando una componente asociada a un ndice de condicin contribuye substancialmente a la varianza de dos o ms variables.
120
V Modelos de regresin mltiple con informacin cualitativa: variables binarias (o ficticias) dummy
DESCRIPCIN DE INFORMACN CUALITATIVA A menudo, los factores cualitativos adoptan la forma de datos binarios: una persona es mujer u hombre, una empresa ofrece cierto plan de retiro a los empleados y otra no, una nacin aplica la pena de muerte o no la aplica. En todos estos ejemplos, la informacin pertinente se capta definiendo una variable binaria o variable cero y uno. En econometra, las variables binarias se denominan muy comnmente variables ficticias, (o variables dammy) aunque el nombre no es muy descriptivo. Al definir una variable ficticia, debemos decidir a qu situacin se asigna el valor uno y a cul cero. Por ejemplo, en un estudio de la determinacin de los salarios de los individuos, definiramos mujer como una variable binaria que adopte el valor uno para las mujeres y cero para los hombres. En este caso, el nombre indica la situacin con valor uno. Se captura la misma informacin definiendo hombre con valor uno si la persona es hombre y cero si es mujer. Cualquiera de estas formas es mejor que sexo, porque esta denominacin no deja en claro cundo la variable ficticia es uno. No es importante el nombre que demos a nuestras variables para obtener resultados de las regresiones, pero siempre ayuda elegir nombres que clarifiquen ecuaciones y exposiciones. Supongamos que en el ejemplo del salario elegimos el nombre mujer para indicar el sexo (mujer es uno y hombre cero). Adems, definimos la variable casada que sea igual a uno si la persona es casada y cero en cualquier otro caso. La tabla 7.1 ofrece una lista parcial de un posible conjunto de datos sobre el salario. Podemos observar que la persona 1 es una mujer que no est casada, la persona 2 es mujer casada, la 3 es un hombre no casado, y as sucesivamente. Por qu utilizamos el cero y el uno para describir informacin cualitativa? En cierto sentido, se trata de valores arbitrarios: cualquier par de valores distintos servira igual. El beneficio real de capturar informacin cualitativa con variables cero y uno es que lleva a modelos de regresin en los que los parmetros tienen interpretaciones muy naturales, como veremos enseguida. VARIABLE INDEPENDIENTE FICTICIA NICA Cmo incorporamos la informacin binaria en los modelos de regresin? En el caso ms simple, con slo una variable explicativa ficticia, la aadimos como variable independiente de la ecuacin. Por ejemplo, considere el siguiente modelo simple para la determinacin del salario por hora
121
sala =
mujer
educ
(7.1)
Usamos 0 como el parmetro de mujer con el fin de destacar la interpretacin de los parmetros que multiplican a las variables ficticias; ms adelante emplearemos la notacin que resulte ms conveniente. En el modelo (7.1) slo dos factores observados influyen en el salario: sexo y educacin. Puesto que mujer = 1 cuando la persona es mujer y mujer = 0 cuando es hombre, el parmetro 0 tiene la siguiente interpretacin: 0 es la diferencia en el salario por hora de mujeres y hombres dada la misma escolaridad (y el mismo trmino de error u). As, el coeficiente 0 determina si hay discriminacin contra las mujeres: si 0 < 0, para el mismo grado de los otros factores, las mujeres ganan, en promedio, menos que los hombres. En trminos de esperanzas, si suponemos que la media condicional es cero: E(ulmujer,educ) = 0, entonces
= E(sala mujer = 1,educ) - E(sala mujer = 0,educ)
Puesto que mujer = 1 corresponde a las mujeres y mujer = O a los hombres, cabe escribir con ms sencillez
0
= E(salalmujer,educ) - E(salalhombre,educ).
(7.2)
La clave es que el grado la escolaridad es el mismo en ambas esperanzas; la diferencia, debe nada ms al sexo.
se
122
La situacin se ilustra grficamente como un desplazamiento de la intercepcin entre hombres y mujeres. En la figura 7.1 se muestra el caso en que 0 < O, es decir, que los hombres ganan un monto fijo ms por hora que las mujeres. La diferencia no depende de los aos de instruccin y esto explica porqu son paralelos los perfiles de salario y escolaridad de mujeres y hombres. En este punto, se preguntar por qu no incluimos tambin en (7.1) una variable ficticia, digamos, hombre, que sea uno para hombres y cero para mujeres. La razn es que sera redundante. En (7.1), la intercepcin para los hombres es 0 y la de mujeres es 0 + 0 . Puesto que nada ms hay dos grupos, slo necesitamos dos intercepciones distintas. Esto significa que, adems de 0 necesitamos slo una variable ficticia, y la que decidimos incluir fue la de las mujeres. Dos variables ficticias introduciran colinealidad perfecta, porque mujer + hombre = 1, lo que significa que hombre es una funcin lineal perfecta de mujer. Incluir variables ficticias para ambos sexos es el ejemplo ms simple de la denominada trampa de la variable ficticia, que surge cuando demasiadas de estas variables describen cierto nmero de grupos.
Grfica de Salario
hombres salario
sala
0 1
educ
Pendiente
mujeres
sala
0 0 1
educ
0 0+ 0
educ
En (7.1) decidimos que los hombres fueran el grupo bsico o grupo de referencia, es decir, el grupo con el que hacemos las comparaciones. Por esta razn 0 es la intercepcin de hombres y 0 es la diferencia de las intercepciones de mujeres y hombres. Nada cambia demasiado cuando hay ms variables explicativas. Si tomamos a los hombres como grupo bsico, un modelo que controla la experiencia y la antigedad adems de la educacin es
sala
mujer
educ
exp er
antig u
(7.3)
123
Si educ, exper y antig son caractersticas relevantes de la productividad, la hiptesis nula de la no diferencia entre hombres y mujeres es Ho: 0 =0. La alternativa de que hay discriminacin contra las mujeres es H1: 0 < 0. Cmo probaramos en realidad la discriminacin salarial? La respuesta es sencilla: estimamos el modelo mediante MCO, exactamente igual que antes y empleamos el estadstico t habitual. En nada difiere la mecnica de los MCO o la teora estadstica cuando algunas de las variables dependientes se definen como ficticias. La nica diferencia con lo que hemos hecho hasta aqu est en la interpretacin del coeficiente de la variable ficticia.
EJEMPLO 1 (Ecuacin del salario por hora)

Usando los datos en SALA 1.RAW estimamos el modelo en (7.3). Importar el archivo a SPSS. Por ahora, usamos sala (salario) en lugar, de log(sala) como la variable dependiente:
la sa
1.57
1.81 mujer n 526, R
.572 educ
2
.025 exp
.141 antig
.364
(7.4)
La intercepcin negativa en este caso, la de los hombres, no es muy significativa, puesto que en la muestra nadie est cerca de cero aos en educ, exper y antig. El coeficiente de mujer es interesante porque mide la diferencia promedio en el salario por hora entre una mujer y un hombre dados los mismos niveles de educ, exper y antig. Si tomamos un hombre y una mujer con los mismos grados de escolaridad, experiencia y antigedad, la mujer gana, en promedio, 1.81 dlares menos por hora que el hombre (no olvide que son dlares de 1976). Es ilustrativo comparar el coeficiente de mujer en la ecuacin (7.4) con el estimador que obtenemos cuando se eliminan todas las dems variables explicativas:
la sa n
7.10 0.21 526, R
2.51 mujer 0.30

2
(7.5)
.116.
Los coeficientes en (7.5) tienen una interpretacin simple. La intercepcin es el salario promedio de los hombres de la muestra (con mujer = 0), de modo que ellos, en promedio, ganan 7.10 dlares por hora. El coeficiente de mujer es la diferencia en el salario promedio de hombres y mujeres. As, el salario promedio de las mujeres de la muestra es de 7.10 - 2.51 = 4.59 dlares por hora (dicho sea de paso, en la muestra hay 274 mujeres y 252 hombres). La ecuacin (7.5) proporciona una manera sencilla de efectuar una prueba de comparacin de medias entre los dos grupos, que en este caso son hombres y mujeres. La diferencia estimada, 2.51, tiene un estadstico t de -8.37, que es estadstica mente significativo. En general, la regresin simple en una constante y una variable ficticia es una forma directa de comparar las medias de dos grupos. Para que la prueba t usual sea vlida, debemos asumir que es verdadera la suposicin de homoscedasticidad, lo que significa que la varianza poblacional de los salarios de los hombres es igual a la de las mujeres.
124
La diferencia salarial estimada entre hombres y mujeres es mayor en (7.5) que en (7.4) por que la primera no controla las diferencias en educacin, experiencia ni en antigedad y, en la muestra, estas son menores entre las mujeres que entre los hombres. La ecuacin (7.4) da una estimacin ms confiable de la brecha, ceteris paribus, entre los salarios de ambos sexos y es de todos modos una diferencia muy grande.
EJEMPLO 2 (Efectos de tener una computadora en el promedio de calificaciones en la universidad)

Con el fin de determinar los efectos de tener una computadora en el promedio de calificaciones en la universidad, estimamos el modelo
colGPA
PC
hsGPA
ACT
en el que la variable ficticia PC es igual a uno si un estudiante posee una computadora personal y cero de otro modo. Hay varias razones por las que ser dueo de una PC tendra un efecto en colGPA El trabajo del estudiante sera de mayor calidad si lo hace en computadora y se ahorrara el tiempo de espera en el laboratorio de computacin. Desde luego, algn estudiante quiz se sintiera ms inclinado a entretenerse con los juegos de la mquina o a navegar por Internet si tiene la computadora, as que no es tan obvio que 0 sea positiva. Las variables hsGPA (el promedio en preparatoria) y ACT (la calificacin en la prueba de rendimiento) sirven de control: podra ser que los, mejores estudiantes, segn las calificaciones de preparatoria y rendimiento, tengan ms probabilidades de poseer una computadora. Controlamos estos factores porque quisiramos conocer efecto promedio en colGPA si se toma un estudiante al azar y se le da una computadora personal. Con los datos de GPA 1.RAW, obtenemos
colGPA
1.26 0.33
.157 PC .057 n
.447 hsGPA .094 141, R 2 .219.
.0087 ACT .0105
Esta ecuacin implica que un estudiante que cuenta con su PC tiene un promedio de calificaciones pronosticado de alrededor de .16 puntos superior a un estudiante comparable sin computadora (recuerde que tanto colGPA como hsGPA se miden en una escala de cuatro puntos). El efecto tambin es estadsticamente significativo, ya que tpc = .157/.057 = 2.75. Qu sucede si eliminamos hsGPA y AGde la ecuacin? Es evidente que suprimir la ltima variable tendr muy poco efecto, ya que su coeficiente y su estadstico t son muy pequeos. Pero hsGPA es muy significativa y quitarla influir en la estimacin de pc. Hacer la regresin de colGPA sobre PC da un estimador de PC igual a aproximadamente .170, con un error estndar de .063; en este caso, pc. y su estadstico t no cambian mucho.
125
Los ejemplos anteriores tienen relevancia para el anlisis de polticas. Un caso especial de anlisis de polticas es la evaluacin de programas, en la que quisiramos conocer el efecto de los programas econmicos o sociales en individuos, empresas, vecindarios, ciudades, etctera. En el caso ms simple, hay dos clases de sujetos. El grupo de control no participa en el programa, sino slo el grupo experimental o de tratamiento. Estos nombres proceden de la bibliografa de las ciencias experimentales y no han de ser tomados literalmente. Salvo en contados casos, no se eligen al azar los grupos de control y experimental; no obstante, en algunos el anlisis de regresin mltiple sirve para controlar bastantes de los otros factores y estimar el efecto causal del programa.
EJEMPLO 3 (Efectos de los subsidios a la capacitacin en las horas de instruccin)

Usando los datos para 1988 de las compaas manufactureras de Michigan que se encuentran en CAPAClTA.RAW, obtenemos la siguiente ecuacin estimada:
pa hca
46.67 43.41
26.25 subs .98 log vtas 5.59 3.54 6.07 log ntrab 3.88 105, R 2 .237.
(7.7)
La variable dependiente son las horas de capacitacin por empleado, a nivel de la compaa (hcapa). La variable subs, el subsidio, es ficticia, e igual a uno si la empresa recibi subsidio en 1988 para capacitacin laboral y cero si no fue as. Las variables vtas y ntrab representan las ventas anuales y el nmero de trabajadores, respectivamente. No podemos introducir hcapa en forma logartmica, porque es cero en 29 de las 105 empresas usadas en la regresin. La variable subs es estadsticamente muy significativa, ya que tsubs = 4.70. Al controlar ventas y empleo, las compaas que recibieron subsidio capacitaron a cada trabajador, en promedio, 26.25 horas ms. Puesto que este promedio de horas es en la muestra de alrededor de 17, con un mximo de 164, subs tiene un efecto notable en la capacitacin, como se esperaba. El coeficiente de log(vtas) es pequeo y muy insignificante. El coeficiente de log(ntrab) significa que, si una empresa es 10% mayor, capacita a sus trabajadores alrededor de .61 horas menos; su estadstico t es -1.56, que slo de modo marginal es estadstica mente significativo. Como con cualquier otra variable independiente, debemos preguntar si el efecto medido de una variable cualitativa es causal. En la ecuacin (7.7), la diferencia en capacitacin entre las empresas se debe al subsidio que reciben, o el subsidio es un indicador de otra cosa? Quiz las empresas que reciben subsidios han capacitado ms a sus trabajadores, en promedio, que las que no lo reciben. Nada en el anlisis indica si estimamos un efecto causal; debemos saber cmo se clasificaron a las empresas para que recibieran el subsidio. Slo esperamos que hayamos controlado tantos factores como fuese posible, que se relacionan con el que cada empresa recibiera subsidio y con su grado de capacitacin. Interpretacin de los coeficientes de las variables explicativas ficticias cuando la variable dependiente es log(y)
126
Una especificacin comn del trabajo aplicado hace que la variable independiente aparezca en forma logartmica, con una o ms variables ficticias como independientes. En este caso, cmo interpretamos los coeficientes de las variables ficticias? No es de sorprender que los coeficientes tengan una interpretacin porcentual.
EJEMPLO 4 (Regresin de precios de la vivienda)

A partir de los datos de PRECIOV1.RAW, obtenemos la ecuacin
log precio
5.56 .168 log tlote .707 log piecuad 0.65 .038 .093 .027 brecams .054 colonial .029 n 88, R 2 .045 .649.
(7.8)
Todas las variables son las que ya conocemos, excepto colonial, una variable binaria igual a uno si la casa es de estilo colonial. Qu significa eI coeficiente de colonial? Para cantidades dadas de tlote, piecuad y recams, la diferencia en log(precio) entre una casa de estilo colonial y otra de estilo distinto es .054, lo que quiere decir que se predice que la casa colonial se venda en aproximadamente 5.4% ms, manteniendo constantes los dems factores. Este ejemplo muestra que, cuando log(y) es la variable dependiente en un modelo, el coeficiente de una variable ficticia, al multiplicado por 100, se interpreta como la diferencia porcentual en y, manteniendo fijos los dems factores. Cuando el coeficiente de una variable ficticia indica un gran cambio proporcional en y, la diferencia exacta en el porcentaje se obtiene exactamente como el clculo de la semielasticidad.
127
EJEMPLO 5 (Ecuacin del logaritmo del salario por hora)

Estimemos de nuevo la ecuacin del salario del ejemplo 1, con log(sala) como la variable dependiente y agreguemos los cuadrados de exper y de antig:
la log sa
.417 .099 .00020
.297 mujer .036

2
.080 educ .007
.029 exp er .005
.00058 exp er n
.032 antig .007 526, R 2
.00059 antig2 .00023 .441.
Mediante la misma aproximacin que en el ejemplo 4, el coeficiente de mujer implica que, para los mismos niveles de educ, exper y antig, las mujeres ganan aproximadamente 100(.297) = 29,7% menos que los hombres. Podemos mejorar esto si calculamos la diferencia porcentual exacta entre los salarios pronosticados. Lo que queremos es la diferencia proporcional de los salarios entre hombres y mujeres, manteniendo fijos los dems factores: (sala M- salaH)/salaH. De (7.9), tenemos que
laM log sa
Sacamos exponencial y restamos uno:
laH log sa
.297.
laM sa
laH / sa laH sa
exp .297
.257.
Esta estimacin ms exacta implica que el salario de una mujer es, en promedio, 25.7% inferior al salario equivalente de un hombre. Si hubiramos hecho la misma correccin en el ejemplo 4, habramos obtenido exp(.054) - 1 = .0555, o alrededor de 5.6%. La correccin tiene un efecto menor en el ejemplo 4 que en el del salario, porque la magnitud del coeficiente de la variable ficticia es mucho menor en (7.8) que en (7.9). En general, si SI es el coeficiente de una variable ficticia, digamos XI' cuando log(y) es la variable dependiente, la diferencia porcentual exacta en la y pronosticada cuando XI = 1 en comparacin con el caso en que XI = 0 es
100 exp 1
El estimador (7.10).
1 .
puede ser positivo o negativo y es importante conservar su signo al calcular 1
128
VARIABLES FICTICIAS PARA MLTIPLES CATEGORAS Podemos tener ms de una variable independiente ficticia en la misma ecuacin; por ejemplo, podramos aadir la variable ficticia casada (estado civil casada) a la ecuacin (7.9). El coeficiente de casada da la diferencia proporcional (aproximada) de salarios de quienes estn casados y quienes no, manteniendo fijos el sexo, educ, exper y antig. Cuando estimamos el modelo, el coeficiente de casada (con el error estndar entre parntesis) es .053 (.041) Y el coeficiente de mujer se convierte en -.290(0.36). As, se estima que el "premio por estar casado" es de alrededor de 5.3%, pero estadsticamente no es diferente de cero (t = 1.29). Una limitacin importante de este modelo es que supone que el premio por estar casado es el mismo para hombres que para mujeres; sto la suavizamos en el ejemplo siguiente.
EJEMPLO 6 (Ecuacin del logaritmo del salario por hora)

Estimemos un modelo que considere las diferencias del salario entre cuatro grupos: casados, casadas, solteros y solteras. Para hacerlo, debemos elegir un grupo bsico; optemos por solteros. A continuacin, tenemos que definir variables ficticias para los grupos restantes, a los que nombraremos casados, casadas y solteras. Al introducir estas variables en (7.9) (y, desde luego, eliminar mujer que ahora es redundante), tenemos
la log sa
.321 .100
.213 casados .055
.198 casadas .058
.110 solteras .056
.079 educ .007 .029 antig .007 n
.027 exp er .005 .00023
.00054 exp er 2 .00011
.00053 antig2
2
526, R
.461.
Todos los coeficientes, con excepcin del de solteras, tienen estadsticos t muy arriba de dos en valor absoluto. El estadstico t de solteras es de alrededor de -1.96, que slo es significativo al nivel del 5% contra una alternativa bilateral. Para interpretar los coeficientes de las variables ficticias, debemos recordar que el grupo bsico es solteros. As, las estimaciones de las tres variables ficticias miden la diferencia proporcional del salario en relacin con los solteros. Por ejemplo, se estima que los casados ganan alrededor de 21.3% ms que los solteros, manteniendo fijos los niveles de educacin, experiencia y antigedad [el estimador ms preciso de (7.10) es de ms o menos 23.7%]. Por su parte, una casada gana, como se predijo, 19.8% menos que un soltero con las mismas cifras para las otras variables. Puesto que el grupo bsico est representado por la intercepcin en (7.11), incluimos variables ficticias slo para tres de los cuatro grupos. Si aadiramos una variable ficticia para los solteros en (7.11), caeramos en la trampa de la variable ficticia e introduciramos colinealidad perfecta. Algunos paquetes de regresin corrigen automtica mente este error, en tanto que otros se limitan a indicar que hay colinealidad perfecta. Lo mejor es especificar con cuidado las variables ficticias, porque nos obliga a interpretar adecuadamente el modelo final. Aunque solteros es el grupo bsico en (7.11), podemos utilizar esta ecuacin para obtener la diferencia estimada entre dos grupos cualesquiera. Dado que la intercepcin general es comn a
129
todos los grupos, podemos ignorarla al buscar las diferencias. As, la diferencia proporcional estimada entre solteras y casadas es de - .110 - (- .198) = .088, lo que significa que las solteras ganan alrededor de 8.8% ms que las casadas. Por desgracia, no podemos tomar la ecuacin (7.11) para verificar si la diferencia estimada entre el salario de las solteras y las casadas es estadsticamente significativa. No basta conocer los errores estndares de casadas y solteras para realizar la prueba (vase la seccin 4.4). Lo ms fcil de hacer es decidir que uno de estos grupos sea el bsico y volver a estimar la ecuacin. Nada sustantivo cambia, pero conseguimos directamente el estimador que necesitamos y su error estndar. Cuando tomamos casadas como grupo bsico, obtenemos
la log sa
.123 .106
.411 casados .056
.198 solteros .058
.088 solteras .052
en donde, desde luego, no ha cambiado ninguno de los coeficientes o errores estndares que no se reportan . El estimador de solteras es, como esperbamos, de .088. Ahora, contamos con un error estndar para ese estimador. El estadstico t para la hiptesis nula de que no hay diferencia poblacional entre los salarios de las casadas y las solteras es tsolteras = .088/.092 = 1.69. Se trata de evidencias marginales contra la hiptesis nula. Tambin vemos que la diferencia estimada entre casados y casadas es estadsticamente muy significativa (tcasados = 7.34). El ejemplo anterior ilustra un principio general para incluir variables ficticias que indiquen grupos diferentes: si el modelo de regresin considera g grupos o categoras, debemos incluir g - 1 variables ficticias junto con una intercepcin. La intercepcin del grupo bsico es la intercepcin general del modelo y el coeficiente de la variable ficticia de determinado grupo representa la diferencia estimada de las intercepciones entre tal grupo y el bsico. Incluir g variables ficticias junto con una intercepcin llevar a la trampa de la variable ficticia. Una alternativa es incluir g variables ficticias y excluir la intercepcin general. No es aconsejable porque se vuelve difcil verificar las diferencias en relacin con el grupo bsico y algunos paquetes de regresin alteran la forma de calcular las R cuadradas cuando las regresiones no tienen intercepcin.
Ejercicio: Desempleados
Los despidos y el desempleo han afectado a muchos trabajadores en los ltimos aos. En un estudio publicado en la Revista de Relaciones Laborales se muestran datos de variables que pueden tener relacin con la cantidad de semanas que un empleado est desempleado. La variable dependiente en el estudio es Semanas y se define como la cantidad de semanas que ha estado desempleado un trabajador a causa de su despido. En el estudio se emplearon las siguientes variables independientes: Variable edad antig profesional Etiqueta Edad del trabajador Antigedad en el ltimo empleo (en aos) 1 = S 0 = No
El archivo Desempleados2.sav contiene los datos de 50 trabajadores despedidos.
130
Desde la pregunta a) hasta la d) no considere la variable dami profesional a) Realice un diagrama de dispersin para cada variable independiente con la variable dependiente. Qu puede observar del grfico?
Diagrama de Dispersin entre Semanas Desempleado y Edad de la persona
90 80 70 60 50 40 90 80 70 60 50 40
Diagrama de Dispersin entre Semanas Desempleado y Antiguedad en ltimo Empleo
SEMANAS
30 20 10 10 20 30 40 50 60
SEMANAS
30 20 10 0 10 20 30 40 Rsq = 0,2164
Rsq = 0,7216
edad
ANTIG
En los diagramas de dispersin se puede observar que existe una correlacin positiva entre las variables. En el caso de la edad vs. semanas, la correlacin es positiva alta mientras que en el caso de la antigedad vs. semanas, la correlacin es positiva pero media. b) Determine la matriz de correlaciones. Qu puede observar? (10 pts.)
Correlations SEMANAS 1,000 , 50 ,849** ,000 50 ,465** ,001 50 edad ,849** ,000 50 1,000 , 50 ,490** ,000 50 ANTIG ,465** ,001 50 ,490** ,000 50 1,000 , 50
SEMANAS
edad
ANTIG
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
**. Correlation is significant at the 0.01 level (2-tailed).
En la matriz de correlaciones se puede observar que tanto la correlacin entre la edad y las semanas de desempleo como la correlacin entre la antigedad y las semanas de desempleo son significativas al 99%. c) Ejecute la regresin lineal mltiple para obtener las tablas con las estimaciones del modelo e interprete la tabla ANOVA. Son estadsticamente significativas las variables independientes? Argumente.
ANOVAb Sum of Squares 10999,684 4176,496 15176,180
Model 1
df 2 47 49
Regression Residual Total
Mean Square 5499,842 88,862
F 61,892
Sig. ,000a
a. Predictors: (Constant), ANTIG, edad b. Dependent Variable: SEMANAS
131
a Coefficients
Model 1
(Constant) edad ANTIG
Unstandardized Coefficients B Std. Error -17,428 5,983 1,794 ,192 ,195 ,264
Standardi zed Coefficien ts Beta ,818 ,065
t -2,913 9,318 ,739
Sig. ,005 ,000 ,464
a. Dependent Variable: SEMANAS
El estadstico F contrasta la hiptesis nula de que el valor poblacional de R es cero y, por tanto, permite decidir si existe relacin lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas. El valor del nivel crtico (Sig. = 0,000), puesto que es menor que 0,05, indica que s existe relacin lineal significativa. Puede afirmarse, por tanto, que el hiperplano definido por la ecuacin de regresin ofrece un buen ajuste a la nube de puntos. Por otra parte, para la variable edad se obtiene una significancia menor a 0,05 lo que significa que es significativa al 95%. Sin embargo, la significancia de la variable antigedad es mayor a 0,05 por lo que se acepta la hiptesis nula de que su valor es igual a cero. d) Determine la ecuacin de un modelo donde todas las variables sean significativas. Interprete el coeficiente R y el R cuadrado.
Model Summary Adjusted R Square ,716 Std. Error of the Estimate 9,38
Model 1
R ,849a
R Square ,722
a. Predictors: (Constant), edad

Model 1
df 1 48 49
Mean Square 10951,194 88,021
F 124,416
Sig. ,000a
a. Predictors: (Constant), edad b. Dependent Variable: SEMANAS

a Coefficients
Model 1
(Constant) edad
Unstandardized Coefficients B Std. Error -18,179 5,868 1,863 ,167
Standardi zed Coefficien ts Beta ,849
t -3,098 11,154
Sig. ,003 ,000
Este modelo lineal simple tiene una significancia menor a 0,05 para su variable independiente por lo que es significativa al 95%.
132
En la tabla de Resumen del Modelo se puede observar el valor R = 0,849. Esto significa que para los desempleados existe una alta correlacin positiva entre las variables SEMANAS y EDAD. Por otra parte, el valor R2 = 0,722 indica que la variacin en las semanas de desempleo puede ser explicada en un 72,2% por la variacin de la EDAD. e) Qu ocurre si al ltimo modelo le agrega la variable dami profesional? Interprete los coeficientes de las variables independientes del ltimo modelo.
Model Summary Adjusted R Square ,785 Std. Error of the Estimate 8,16
Model 1
R ,891a
R Square ,794
a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad

Model 1
df 2 47 49
Mean Square 6024,449 66,538
F 90,542
Sig. ,000a
a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad b. Dependent Variable: SEMANAS

a Coefficients
Model 1
(Constant) edad Es profesional ( 1=SI, 0=NO)
Unstandardized Coefficients B Std. Error -19,465 5,112 1,975 ,148 -11,512 2,834
Standardi zed Coefficien ts Beta ,900 -,274
t -3,808 13,361 -4,062
Sig. ,000 ,000 ,000
Para este nuevo modelo se cumple que existe una relacin lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas, lo que se observa en el valor del nivel crtico del estadstico F, puesto que es menor que 0,05. Adems, todas las variables independientes son significativas. El coeficiente asociado a la EDAD indica que, al mantenerse constante el resto de las variables, la variacin en un ao de EDAD, en promedio aumenta en 1,975 semanas el tiempo de desempleo. Por otra parte, el coeficiente asociado a la variable dummy PROFESIONAL indica que una persona profesional, en promedio estar desempleada 11,512 semanas menos de lo que estara si no fuera profesional. Las ecuaciones son: para los profesionales: SEMANAS = (-19,465-11,512) + 1,975 x EDAD para no profesionales: SEMANAS = -19,465 + 1,975 x EDAD f) Para el ltimo modelo seleccionado, determine si se satisfacen las hiptesis de normalidad de los residuos y homocedasticidad.
133
Tests of Normality Kolmogorov-Smirnov Statistic df Sig. ,088 50 ,200*

a
Statistic ,970
Shapiro-Wilk df 50
Sig. ,407
*. This is a lower bound of the true significance. a. Lilliefors Significance Correction
La prueba de normalidad de Kolmogorov-Smirnov indica que se cumple la hiptesis de normalidad. La prueba de Shapiro-Wilk es usada cuando hay menos de 50 casos. Dado que son 50 los casos analizados, se usa el valor de Kolmogorov-Smirnov.
Scatterplot Dependent Variable: SEMANAS

2
Regression Standardized Residual
-1
-2
-3 -2 -1 0 1 2 3
Regression Standardized Predicted Value
Este grfico muestra que se cumple la hiptesis de homocedasticidad pues los puntos se encuentran distribuidos en forma aleatoria sin seguir ningn patrn.
Ejercicio: Consideremos el modelo (ANCOVA) de la siguiente manera:
Yi
donde
2 Di
Xi
ui
(15.2.1)
Yi = salario anual de un profesor universitario X i = aos de experiencia docente Di = 1 si es hombre

= 0 si no lo es
El modelo (15.2.1) contiene una variable cuantitativa (aos de experiencia docente) y una variable cualitativa (sexo) que tiene dos clases (o niveles. clasificaciones o categoras) a saber, hombres y mujeres. Cul es el significado de (15.2.1)? Suponiendo, como es usual. que E( u i ) = 0, se observa que
El salario promedio de una profesora universitaria:
E Yi X i , Di
Xi
(15.2.2)
134
El salario promedio de un profesor universitario:
E Yi X i , Di
Xi
(15.2.3)
Geomtricamente, se tiene la situacin que se muestra en la figura 15.2 (como ilustracin se supone que 1 > 0). En palabras, el modelo (15.2.1) postula que las funciones salario de los profesores y de las profesoras universitarias con relacin a los aos de experiencia docente tienen la misma pendiente ( ), pero interceptos diferentes. En otras palabras, se supone que el nivel del salario promedio de los profesores difiere de aqul de las profesoras (en
2
). pero la
tasa de crecimiento en el salario anual promedio por aos de experiencia es el mismo para ambos sexos.
Si el supuesto de una pendiente comn es vlido, una prueba de la hiptesis de que las dos regresiones (15.2.2) y (15.2.3) tienen el mismo intercepto (es decir, que no hay discriminacin sexual) puede hacerse fcilmente efectuando la regresin (15.2.1) y evaluando la significancia estadstica del 2 estimado con base en la prueba t tradicional. Si la prueba t muestra que 2 es estadsticamente significativo, se rechaza la hiptesis nula de que los niveles de salario anual promedio de los profesores y las profesoras universitarias sean iguales. Antes de proceder, obsrvense las siguientes caractersticas del modelo de regresin con variables dictomas considerado anteriormente. 1. Para diferenciar las dos categoras, hombres y mujeres, se ha introducido solamente una variable dictoma Di . Si Di = 1 siempre representa hombres, se sabe que Di = 0 es mujeres puesto que solamente hay dos resultados posibles. Por tanto, es suficiente una variable dictoma para diferenciar dos categoras. Supngase que el modelo de regresin contiene un trmino de intercepto; si se fuera a escribir el modelo (15.2.1) como
Yi
2 D2i
3 D3i
Xi
ui (15.2.4)
135
donde Yi y X i son como se definieron antes
D2i
1
= 0 = 0
es un profesor no lo es es una profesora no lo es
D3i = 1
entonces, el modelo (15.2.4), como est planteado, no puede ser estimado debido a la presencia de colinealidad perfecta entre D2 y D3 . Para ver esto, supngase que se tiene una muestra de tres profesores hombres y dos profesores mujeres. La matriz de datos tendr una apariencia como la siguiente:
D2
Hombres
D3
0 0 1 0 1
Y1 Hombres Y2 Mujeres Y3 Hombres Y4 Mujeres Y5
1 1 1 1 1
1 1 0 1 0
X1 X2 X3 X4 X5
La primera columna a la derecha de la matriz de datos anterior representa el trmino de intercepto comn al. Ahora puede verse fcilmente que D2 = 1 - D3 o D3 = 1 - D2 ; es decir, D2 y D3 son perfectamente colineales. En casos de multicolinealidad perfecta, la estimacin MCO usual no es posible. Hay diversas formas de resolver este problema, pero la ms simple es asignar las variables dictomas en la forma que se hizo para el modelo (15.2.1), a saber, utilcese solamente una variable dictoma si hay dos niveles o clases de la variable cualitativa. En este caso, la matriz de datos anterior no tendr la columna titulada D3 evitando as el problema de multicolinealidad perfecta. La regla general es sta: Si una variable cualitativa tiene m categoras, introdzcase solamente m - 1 variables dictomas. En el ejemplo, el sexo tiene dos categoras y, por tanto, se introdujo solamente una variable dictoma. Si esta regla no se sigue. se caer en lo que podra llamarse la trampa de la variable dictoma, es decir, la situacin de multicolinealidad perfecta. 2. La asignacin de los valores 1 y 0 a las dos categoras, tales como hombres y mujeres, es arbitraria en el sentido de que en el ejemplo se hubiera podido asignar D = 1 para mujeres y D = 0 para hombres. En esta situacin, las dos regresiones obtenidas de (15.2.1) sern
Profesora universitaria:
E Yi X i , Di 0
1
1
Xi
Profesor universitario: E Yi X i , Di
Xi
2
En contraste con (15.2.2) y (15.2.3) en los modelos anteriores,
dice en cunto difiere el
salario promedio de una profesora universitaria del salario promedio de un profesor universitario. En este caso, s hay discriminacin sexual, se espera que 2 sea negativo,
136
mientras que antes se esperaba que fuera positivo. Por consiguiente, al interpretar los resultados de los modelos que utilizan variables dictomas, es de gran importancia saber la forma como los valores de 1 y de 0 han sido asignados. 3. Frecuentemente se hace referencia al grupo, categora o clasificacin al cual se asigna el valor de 0 como la categora base, marca fija, control, comparacin, referencia o categora omitida. Esta es la base en el sentido de que se hacen comparaciones con respecto a esa categora. As, en el modelo (15.2.1), la profesora es la categora base. Obsrvese que el trmino de intercepto (comn) es el trmino de intercepto para la categora base en el sentido de que si se efecta la regresin con D = 0, es decir, sobre el sexo femenino solamente, el intercepto ser 1 . Obsrvese tambin que sea cual fuere la categora que sirve como base, ste es un 4. asunto de seleccin que algunas veces obedece a consideraciones a priori. El coeficiente 2 que acompaa a la variable dictoma D puede llamarse coeficiente de intercepto diferencial porque dice qu tanto difiere el valor del trmino de intercepto de la categora que recibe el valor de 1 del coeficiente del intercepto de la categora base.
Ejemplo: Regresin sobre una variable cuantitativa y una variable cualitativa con ms de dos categoras
Supngase que, con base en la informacin de corte transversal. se desea efectuar la regresin del gasto anual en salud por parte de un individuo sobre el ingreso y la educacin del individuo. Puesto que la variable educacin es cualitativa por naturaleza. supngase que se consideran tres niveles de educacin mutuamente excluyentes: primaria, secundaria y universitaria. Ahora, a diferencia del caso anterior, se tienen ms de dos categoras de la variable cualitativa educacin. Por consiguiente, siguiendo la regla de que el nmero de variables dictomas sea uno menos que el nmero de categoras de la variable, se deben introducir dos variables dictomas para cubrir los tres niveles de educacin. Suponiendo que los tres grupos educacionales tienen una pendiente comn pero diferentes interceptos en la regresin del gasto anual en salud sobre el ingreso anual, se puede utilizar el siguiente modelo:
Yi
2 D2i
3 D3i
Xi
ui
(15.3.1)
donde
Yi = gasto anual en salud X i = ingreso anual D2 = 1 si es educacin secundaria

D3
= 0 si es otro tipo de educacin = 1 si es educacin universitaria = 0 si es otro tipo de educacin
Obsrvese que en la asignacin anterior de las variables dictomas, se considera arbitraria la categora educacin primaria como la categora base. Por consiguiente, el intercepto reflejar el intercepto para esta categora. Los interceptos diferenciales 2 y 3 dicen qu tanto difieren los interceptos de las otras dos categoras del intercepto de la categora base, lo cual puede verificarse fcilmente de la siguiente manera: Suponiendo que E ui 0 , se obtiene de (15.3.1)
137
E Yi D2 E Yi D2
0, D3 1, D3
0, X i 0, X i
1
1 2
Xi Xi
E Yi
D2
0, D3
1, X i
Xi
que son las funciones de gasto promedio en salud para los tres niveles de educacin, a saber, la educacin primaria. secundaria y universitaria. Geomtricamente, la situacin se muestra en la figura 15.3 (para fines ilustrativos se supone que 3 > 2 ).
Una vez efectuada la regresin (15.3.1), se puede encontrar fcilmente si los interceptos diferenciales 2 y 3 son estadsticamente significativos a nivel individual, es decir, diferentes al grupo base. A propsito, obsrvese que la interpretacin de la regresin (15.3.1) cambiara si se hubiera adoptado un esquema diferente de asignacin a las variables dictomas. Por tanto, si se asigna D2 = 1 a la categora educacin primaria, y D3 = 1 a la categora de educacin secundaria, la categora de referencia ser entonces la educacin universitaria y todas las comparaciones se harn en relacin con esta categora.
Ejemplo: Regresin con una variable cuantitativa y dos variables cualitativas La tcnica de la variable dictoma puede extenderse fcilmente para manejar ms de una variable cualitativa. Retornando a la regresin de salarios de profesores universitarios (15.2.1), pero suponiendo ahora que adicional mente a los aos de experiencia docente y al sexo, la raza del profesor es tambin un determinante importante del salario. Por simplicidad, supngase que la raza tiene dos categoras: negra y blanca. Ahora se puede escribir (15.2.1) como
Yi
donde
2 D2i
3 D3i
Xi
ui
Yi = salario anual X i = aos de experiencia de enseanza D2 = 1 si es hombre
D3 = 1 si es blanco
= 0 si no lo es
= 0 si no lo es
138
Obsrvese que cada una de las dos variables cualitativas, el sexo y la raza, tiene dos categoras y, por tanto, se requiere de una variable dictoma para cada una. Obsrvese adems que la categora omitida, o base, ahora es profesora negra. . Suponiendo que E ui = 0, se puede obtener la siguiente regresin a partir de (15.4.1):
Salario promedio de una profesora negra:
E Yi D2
0, D3
0, X i
Xi
Salario promedio de un profesor negro: E Yi D2 1, D3 0, X i Salario promedio de una profesora blanca: E Yi D2 0, D3 1, X i Salario promedio de un profesor blanco: E Yi D2 1, D3 1, X i
Xi
Xi
Xi
Una vez ms, se supone que las regresiones anteriores difieren solamente en el coeficiente del intercepto pero no en el coeficiente de la pendiente . Una estimacin MCO de (15.4.1) permitir probar una diversidad de hiptesis. Por tanto, si
estadsticamente significativo, dir que la raza afecta el salario de los profesores. En forma similar, si 2 es estadsticamente significativo, implicar que el sexo tambin afecta el salario de los profesores. Si estos dos interceptas diferenciales son estadsticamente, significativos, querr decir que tanto el sexo como el color son determinantes importantes de los salarios de los profesores. Del anlisis anterior se deduce que se puede extender el modelo para incluir ms de una variable cuantitativa y ms de dos variables cualitativas. La nica precaucin que debe tomarse es que el nmero de variables dictomas para cada variable cualitativa debe ser una menos que el nmero de categoras de esa variable.
Ejemplo: La economa del "doble empleo

Una persona que posee dos o ms empleos, uno primario y uno o ms secundarios, se conoce como, doble empleada Shisko y Rostker estaban inter esados en encontrar cules factores determinaban los salarios de las personas doblemente empleadas. Con base en una muestra de 318 personas con doble empleo, ellos obtuvieron la siguiente regresin, la cual se presenta en la notacin utilizada por los autores (los errores estndar en parntesis):
W m
37 .07
0.403 w0
90 .06 raza
75 .51 urbano
(0.062) (24.47) (21.60) + 47.33 bach + 113.64 reg + 2.26 edad (23.42) (27.62) (0.94)
R 2 = 0.34
g de 1 = 311
139
donde
wm w0
raza urbano reg bach edad
= = = = = = = = = = =
salario del doble empleado (centavos de dlar/hora) salario principal (centavos de dlar/hora) 0 si es blanco 1 si no lo es 0 si no es urbano 1 si lo es 0 si no es occidente 1 si es occidente 0 no es graduado de bachiller 1 es graduado de bachiller edad, aos
En el modelo (15.5.1), hay dos variables explicativas cuantitativas w0 y la edad y cuatro variables cualitativas. Obsrvese que los coeficientes de todas estas variables son estadsticamente significativos al nivel del 5%. Lo que es interesante de anotar es que todas las variables cualitativas afectan los salarios del doble empleo significativamente. Por ejemplo, manteniendo todos los dems factores constantes, se espera que el nivel de salario hora sea ms alto en un nivel alrededor de 47 centavos para la persona graduada de bachiller que para aquellos sin grado de bachiller. De la regresin (15.5.1), se pueden derivar diversas regresiones individuales, dos de las cuales son las siguientes: la media de la tasa de salarios hora de personas blancas, no urbanas, de una regin no occidental y no graduados con doble empleo (es decir, cuando todas las variables dictomas son iguales a cero) es
m w
37.07
0.403w0
2.26 edad
La media de la tasa de salarios-hora de una persona no blanca, urbana, del occidente, bachiller (es decir. cuando todas las variables dictomas son iguales al) es
m w
183.49
0.403w0
2.26 edad
Prueba de estabilidad estructural de los modelos de regresin Hasta ahora, en los modelos considerados en este captulo, se supuso que las variables cualitativas afectan al intercepto pero no al coeficiente de pendiente de los diversos subgrupos de regresin. Pero, qu sucede si las pendientes tambin son diferentes? Si las pendientes son en realidad diferentes, la prueba de las diferencias en los interceptos puede ser de poca significancia prctica. Por consiguiente, se requiere desarrollar una metodologa general para encontrar si una o ms regresiones son diferentes, donde la diferencia pueda estar en los interceptos o en las pendientes o en ambos. Para ver la forma como esto puede hacerse, considrese la informacin sobre ahorro-ingreso para el Reino Unido dada en la tabla 8.8, la cual, por conveniencia, se reproduce en la tabla 15.2.
Ejemplo: Ahorro e ingreso, Reino Unido, 1946-1963

Como lo muestra la tabla, la informacin est dividida en dos periodos, 1946-1954 (perodo inmediatamente posterior a la Segunda Guerra Mundial, o de reconstruccin) y el lapso 19551963 (de postreconstruccin). Su pngase que se desea averiguar si la relacin agregada ahorro ingreso ha cambiado entre los dos periodos. Para ser especfico, sea
140
Perodo de reconstruccin:
Yi i
2 Xi
u1i
1,2,, n1
y1 y2 X i u 2i
Perodo de postreconstruccin:
Yi i
1, 2, , n2
TABLA 15.2 Datos de ahorro personal e ingreso, Reino Unido 1946-1963 (millones de libras)
Periodo I 1946 1947 1948 1949 1950 1951 1952 1953 1954
Ahorr o 0.36 0.21 0.08 0.20 0.10 0.12 0.41 0.50 0.43
Ingreso 8.8 9.4 10.0 10.6 11.0 11.9 12.7 13.5 14.3
Periodo 2 Ahorro Ingreso 1955 1956 1957 1958 1959 1960 1961 1962 1963 0.59 0.90 0.95 0.82 1.04 1.53 1.94 1.75 1.99 15.5 16.7 17.7 18.6 19.7 21.1 22.8 23.9 25.2
Fuente: Oficina Central de Estadstica, Reino Unido.
donde Y = ahorro (millones de ) X = ingreso (millones de ) u1i , u 2i = perturbaciones en las dos regresiones
Nota: El nmero de observaciones n1 y n2
en los dos grupos (periodos) no necesitan ser el
mismo. Ahora, las regresiones (15.6.1) y (15.6.2) presentan las siguientes cuatro posibilidades: 1. 2.
1
1
1
1
2;
es decir, las dos regresiones son idnticas. (Regresiones coincidentes).

2
pero
; es decir, las dos regresiones difieren solamente en su ubicacin (es
decir, en sus interceptos). (Regresiones paralelas). 3. 2 2 ; es decir, las dos regresiones tienen los mismos interceptos pero 1 1 pero 4. pendientes diferentes. (Regresiones concurrentes). 1 1 y 2 2 ; es decir, las dos regresiones son completamente diferentes (Regresiones no similares). Todas estas posibilidades se ilustran en la figura 15.4.
De la informacin dada en la tabla 15.2, se pueden efectuar las dos regresiones Individuales (15.6.1) y (15.6.2) Y luego utilizar una o varias tcnicas estadsticas para probar todas las posibilidades anteriores, es decir, para encontrar si la funcin de ahorro ha sufrido un cambio
141
estructural entre los dos periodos de tiempo. Por cambio estructural se entiende que los parmetros de la funcin de ahorro han cambiado.
Una de dichas tcnicas estadsticas es la prueba de Chow . La prueba de Chow mostr que los parmetros de la funcin de ahorro entre los periodos de reconstruccin y postreconstruccin en efecto cambiaron. Como alternativa a la prueba de Chow, en la siguiente seccin se muestra la forma cmo la tcnica de la variable dictoma maneja el problema de cambio estructural o quiebre y cules son algunas de sus ventajas con respecto a la prueba de Chow.
142
Ejemplo: Comparacin de dos regresiones: enfoque de la variable dictoma
El procedimiento de multipaso de la prueba de Chow analizado en la seccin 8.8 puede ser acortado sustancialmente mediante el uso de las variables dictomas. Aunque las conclusiones globales derivadas de las pruebas de Chow y de variables dictomas en una aplicacin dada son las mismas, el mtodo de variables dictomas tiene algunas ventajas que sern explicadas despus de presentar el mtodo utilizando el mismo ejemplo ahorro-ingreso.
Reuniendo todas las observaciones n1 y n2 y estimando la siguiente regresin.
Yi
2 Di
1Xi
Di X i
ui
donde Yi y X i son el ahorro y el ingreso, lo mismo que antes, y donde Di = 1 para las observaciones en el primer periodo ( hasta 1954) o periodo de reconstruccin y cero para observaciones en el periodo de postreconstruccin. Para ver las implicaciones del modelo (15.7.1) Y suponiendo que E ui = 0, se obtiene
E Yi
Di
0, X i
1 2
1Xi
E Yi
Di
1, X i
Xi
que son las funciones de ahorro promedio para el segundo periodo (de postreconstrucci6n) y primer periodo (de reconstruccin). Estas equivalen a (15.6.2) y (15.6.1) con 1 1, 2 1, 1 1 2 y 2 1 2 . Por consiguiente, la estimacin de (15.7.1) es equivalente a estimar las dos funciones de ahorro individual (15.6.1) y (15.6.2). En (15.7.1),0'2 es el intercepto diferencial, igual que antes y
2
es el coeficiente diferencial de
pendiente, indicando en cunto difiere el coeficiente de pendiente de la funcin de ahorro del primer periodo del coeficiente de pendiente de la funcin de ahorro del segundo periodo. Obsrvese como la variable dictoma D se introduce en forma multiplicativa (D multiplicado por X), permitiendo diferenciar entre los coeficientes de las pendientes de los dos periodos, de la misma manera, la introduccin de la variable dictoma en forma aditiva permite distinguir entre los interceptos de los dos periodos. Retornando a los datos de ahorro-ingreso dados en la tabla 15.2, se encuentra que la estimacin emprica de (15.7.1) es
Y t
1.7502
(0.3319)
1.4839 Di
(0.4704) (3.1545)
0.1504 X t
(0.0163) (9.2238)
0.1034 Di X t
(0.0332) (-3.1144)
t = (-5.2733)
R2
0.9425
143
tanto los coeficientes diferenciales de intercepto como los coeficientes diferenciales de las pendientes son estadstica mente significativos, dando un fuerte indicio de que las regresiones para los dos periodos son diferentes (vase figura 15.4d). Entonces, siguiendo (15.7.2) Y (15.7.3), se pueden derivar las dos regresiones de la siguiente forma (Nota: D = 1 para el primer periodo; vase figura 15.5):
Perodo de reconstruccin:
Y t
1.7502 0.2663
1.4839 0.0470 X t
0.1504
0.1034 X t
Perodo de postreconstruccin:
Y t
1.7502
0.1504 X t
como el lector puede verlo, estas regresiones son iguales a las obtenidas del procedimiento multipaso de Chow, lo cual puede verse de las regresiones dadas en la seccin 8.8. Las ventajas de la tcnica de variable dictoma [es decir, la estimacin de (15.7.1)] sobre la prueba de Chow [es decir, la estimacin de las tres regresiones (8.8. t ),(8.8.2) Y la regresin agrupada individualmente] pueden verse fcilmente ahora: 1. Se requiere efectuar solamente una regresin simple porque las regresiones individuales pueden deducirse fcilmente de sta en la forma indicada por las ecuaciones (15.7.2) y (15.7.3). 2. La regresin simple puede ser utilizada para probar una diversidad de hiptesis. As, si el coeficiente del intercepto diferencial a2 no es estadstica mente significativo, se puede aceptar la hiptesis de que las dos regresiones tienen el mismo intercepto, es decir, las dos regresiones son concurrentes (vase figura 15.4c). En forma similar, si el coeficiente diferencial de pendiente {32 no es estadsticamente significativo peroa210 es, por lo menos puede no rechazarse la hiptesis de que las dos regresiones tengan la misma pendiente, es decir, las dos lneas de regresin son paralelas (vase figura 15.4b). La prueba de estabilidad de la regresin completa (es decir, a2 = (32 = O simultneamente) puede hacerse mediante la prueba F de significancia global de la regresin estimada estudiada en el captulo 8. Si esta hiptesis se mantiene, las lneas de regresin sern coincidentes, como se muestra en la figura 15.4a. 3. La prueba de Chow no dice explcitamente cul coeficiente, el del intercepto o el de la pendiente, es diferente o si (como sucede en este ejemplo) ambos son diferentes en los dos periodos, es decir, se puede obtener una prueba de Chow significativa porque slo la pendiente es diferente o slo el intercepto es diferente o ambas son diferentes. En otras palabras, no se puede decir, mediante la prueba de Chow, cul de las cuatro posibilidades sealadas en la figura 15.4 existe en un momento dado. A este respecto, el enfoque de la variable dictoma tiene una ventaja clara, ya que no solamente dice si las dos regresiones son diferentes, sino que seala la fuente o las fuentes de la diferencia -si sta se debe al intercepto o a la pendiente o a ambos. En la prctica, el conocimiento de que las dos
144
regresiones difieren en ste o en ese coeficiente es tanto o ms importante que el conocimiento simple de que son diferentes. 4. Finalmente, puesto que la agrupacin aumenta los grados de libertad, sta puede mejorar la precisin relativa de los parmetros estimados.
Nota: Para crear la variable Dami
IF (Periodo >= 1946 & Periodo <= 1954) D = 1 . VARIABLE LABELS D 'Dami' . EXECUTE . IF (Periodo >= 1955 & Periodo <= 1963) D = 0 . VARIABLE LABELS D 'Dami' . EXECUTE .
Resumen del modelo Modelo 1 R R cuadrado ,976 a ,953 R cuadrado corregida ,942 Error tp. de la estimacin ,15417
a. Variables predictoras: (Constante), DX, Ingreso, Dami
b ANOVA
Modelo 1
Suma de cuadrados 6,692 ,333 7,024
gl 3 14 17
Media cuadrtica 2,231 ,024
F 93,841
Sig. ,000 a
a. Variables predictoras: (Constante), DX, Ingreso, Dami b. Variable dependiente: Ahorro
a Coe ficientes
Modelo 1
(Constante) Dami Ingreso DX
Coeficientes no estandarizados B Error tp. -1,750 ,332 1,484 ,470 ,150 ,016 -,103 ,033
Coeficientes estandarizad os Beta 1,188 1,224 -,963
t -5,273 3,155 9,238 -3,109
Sig. ,000 ,007 ,000 ,008
a. Variable dependiente: Ahorro
145
COMPARACIN DE DOS REGRESIONES: ILUSTRACIN ADICIONAL
Debido a su importancia prctica, se considera otro ejemplo del uso de la tcnica de la variable dictoma para probar la equivalencia de dos (o ms) regresiones.
Ejemplo 15.5 Comportamiento del desempleo y de las vacantes sin llenar: Gran Bretaa, 1958-1971 Al estudiar la relacin entre la tasa de desempleo y la tasa de vacantes sin llenar en la Gran Bretaa durante el periodo 1958-1V a 1971-11. el autor obtuvo el diagrama de dispersin que aparece en la figura 15.6. Como se observa en la figura. al principio del cuarto trimestre de 1966. la relacin desempleo
vacantes parece haber cambiado; la curva que relaciona las dos variables parece haberse desplazado hacia arriba a partir de ese trimestre, Este desplazamiento hacia arriba implica que para una tasa dada de empleos-vacantes hay ms desempleo en el cuarto trimestre de 1966 que antes. En este estudio. el autor encontr que una posible causa del desplazamiento hacia arriba fue que en octubre de 1966 (es decir, en el cuarto trimestre) el gobierno laborista de entonces promulg la ley nacional de seguros. remplazando el sistema de tasas constantes de beneficios de desempleo de corto plazo. por un sistema mixto de una tasa fija y otros beneficios (previos) relacionados con los ingresos. lo cual obviamente aument el nivel de beneficios para los desempleados. Si los beneficios de los desempleados aumentan, es ms probable que el
146
desempleado tome ms tiempo para buscar trabajo. reflejando as una mayor cantidad de desempleo para cualquier tasa dada de empleos vacantes. Para verificar si la desviacin observada en la relacin desempleo-vacantes que comenz a observarse a partir del cuarto trimestre de 1966 era estadsticamente significativa. el autor utiliz el siguiente modelo:
UNt
V D t
Ejercicio
2 Dt
1 Vt
Dt Vt
ut
donde UN = tasa de desempleo, % = tasa de empleos vacantes. % = 1 para el periodo a partir de 1966-IV = 0 para el periodo anterior a 1966-IV = tiempo, medido en trimestres.
Variables Dami
La tabla presenta los gastos de consumo ( Consumo), el ingreso disponible, (Ingreso) y el sexo del jefe del hogar(Sexojh)
Familia F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 Consumo 18535 11350 12130 15210 8680 16760 13480 9680 17840 11180 14320 19860 Ingreso 22550 14035 13040 17500 9430 20635 16470 10720 22350 12200 16810 23000 SexoJh 1 1 2 1 2 1 1 2 1 2 2 1 NOTA: 1=hombre, 2=mujer
a) Considere el archivo desde Excel grabado como Consumo ingreso sexo 4.0.xls Archivo/abrir/ desde Excel / Consumo ingreso 4.0.xls. Active leer nombre de variable Rango;B3:N6 Aceptar b) Seleccione Datos/Transponer Variable: f1-f2-f3-f4-f5-f6-f7-f8-f9-f10-f11-f12 Variable de nombre: familia Aceptar Verifique que estn bien definidas las variables y complete con las etiquetas Guardar en C:SPSS Consumo-ingreso-sexojh.sav c) Realice un grfico de dispersin entre consumo e ingreso d) Realice una regresin lineal entre consumo e ingreso. Interprete los resultados. Compare con el resultado analizado en clases
(a) C 1663,60 (2,73) 0,75Yd (21,12) R2 0,978
Para esto considere una regresin lineal simple; Dependientes; consumo
147
Independientes; ingreso Etiqueta de caso; familia Estadsticos; Estimaciones, intervalos de confianza, ajuste del modelo. Continuar Grficos; Y; ZRESID X: ZPRED Histograma Graf de prob normal e) Pruebe si la ordenada en el origen es diferente segn sea el sexo del jefe del hogar. Compare con la expresin:
C 186,12 0,0,82Yd (16,56) 832,09D (1,82) R2 0,984
Defina una variable Dummy como: D=1 para familias encabezadas por una mujer (2) D=0 en caso contrario (1) Para esto considere Transformar/recodificar/ en distintas variables/ Variable numrica: sexojh Variable de resultado: D Etiqueta: damy(jefe hogar mujer=1; jefe hogar hombre=0) Cambiar Valores antiguos y nuevos: Valor antiguo; valor 1 Valor nuevo; valor; 0 Aadir Valor antiguo; valor 2 Valor nuevo; valor; 1 Aadir Continuar Aceptar En el editor de datos aparecer variable dami. Complete las etiquetas, 1= mujer; 0=hombre. Para probar si la ordenada en el origen es diferente segn sea el sexo del jefe del hogar. considere regresin lineal simple; Dependientes; consumo Independientes; ingreso, damy Etiqueta de caso; familia Estadsticos; Estimaciones, intervalos de confianza, ajuste del modelo. Continuar Verifique que D no es estadsticamente significativo f) Pruebe si la pendiente para una inclinacin es diferente segn sea el sexo del jefe del hogar Compare con
C 709,18
0,79Yd (18,11)
0,05Yd D (1,51)
R2
0,983
Para esto considere Transformar/calcular/ Variable de destino: IngrD
148
Tipo Numrcio Etiqueta; Ingreso por dami Expresin: ingreso*d Aceptar considere regresin lineal simple; Dependientes; consumo Independientes; ingreso, ingrd Etiqueta de caso; familia Estadsticos; Estimaciones, intervalos de confianza, ajuste del modelo. Continuar Verifique que ingrd no es estadsticamente significativo g) Pruebe si tanto la ordenada en el origen como la pendiente son diferentes Compare con
C 184,7 0,83Yd (13,65) 1757,99 D 0,06Yd D (1,03) (-0,57) R2 0,985
Considere regresin lineal simple; Dependientes; consumo Independientes; ingreso, damy, ingrd Etiqueta de caso; familia Estadsticos; Estimaciones, intervalos de confianza, ajuste del modelo. Continuar Verifique que tanto damy como ingrd no son estadsticamente significativos
149
VI Anlisis de Regresin logstica

Regresin Logstica 2.1.1. 2.1.2. 2.1.3. 2.1.4. Introduccin Modelo y criterios de ajuste Variables categricas, nuevas variables y opciones Mtodos de seleccin de variables
2.1.1. Introduccin Imaginemos por un momento que en una investigacin estamos trabajando con una variable dependiente con nicamente dos categoras u opciones y que queremos averiguar la probabilidad de ocurrencia de una u otra a partir de una serie de informaciones de una serie de variables que denominamos independientes. Pues bien, la regresin logstica es un modelo que a partir de los coeficientes estimados para cada una de esas variables independientes y fruto de la probabilidad de los individuos en la dependiente, nos va a permitir asignar los mismos a una u otra categora u opcin de respuesta. Vayamos por partes. Una variable dependiente dicotmica, es decir, con dos opciones o posibilidades de respuesta: s o no responde a un mailing, s o no vota en una elecciones, si trabaja o no trabaja, acierta o se equivoca en un pronstico, se avera o no en un periodo de tiempo determinado, s o no contesta al telfono, beneficios o prdidas en un ejercicio, diagnstico positivo o negativo en una prueba mdica, etc. En la prctica nos vamos a encontrar con infinidad de variables dicotmicas y con inters por nuestra parte de averiguar cul o cules de las que denominamos independientes son las que inciden y en qu grado en que los individuos del tipo que sean tengan ms probabilidades de decantarse por una u otra categora de la citada variable. Seguramente al lector un planteamiento de este tipo le recordar los modelos de regresin lineal mltiple. Tambin all tenamos una variable dependiente cuyos valores tratbamos de explicar a partir de una serie de variables independientes (el precio de venta de los coches o la satisfaccin de los individuos con su trabajo a partir de una serie de caractersticas tcnicas de los todo terreno, en el primer caso, y de una serie de valoraciones del puesto de trabajo, en el segundo). En aquella ocasin decamos que la variable dependiente deba ser cuantitativa, al igual que las independientes, mantener una relacin lineal con las mismas, distribuirse normalmente, etc., y las predicciones se realizaban en trminos de valores en la variable dependiente a partir de valores en cada una de las independientes. En el anlisis discriminante se plantea un modelo similar al de regresin lineal mltiple, pero con una diferencia importante: la variable dependiente del mismo, en lugar de ser numrica, ser categrica, con dos, tres o ms categoras, y el modelo, a partir de la informacin que proporcionen las variables independientes numricas, calcular para cada individuo la probabilidad de pertenencia a cada grupo, nivel o categora definida en la variable dependiente. Tambin en este caso los datos debern cumplir una serie de supuestos previos cuales son la distribucin normal multivariante de las variables independientes, igualdad de las matrices de varianciascovariancias entre grupos, etc. Pues bien, la regresin logstica que vamos a ver en este apartado no deja de ser un caso particular del modelo discriminante, en el que la variable dependiente tiene exclusivamente dos categoras, a la vez que parte de unos supuestos menos restrictivos y permite introducir como independientes en el modelo variables categricas.
150
Para ilustrar el procedimiento vamos a utilizar el archivo trabajo.sav y como variable dependiente b1 (situacin laboral) que es una de las pocas variables (si no la nica) dicotmicas del archivo. B1: Situacin laboral 1=Si; 5=No; 9=NC
Advertimos al lector que tal y como est planteada la pregunta, los resultados de la misma no son comparables con los de otras fuentes que definan las personas activas con otros criterios. En un primer modelo muy sencillo vamos a entrar como independientes las variables c1 (sexo), c2 (edad) y c6 (nivel de estudios). Hipotticamente, y no con la informacin del archivo, sera tanto como plantear un modelo que permita pronosticar la situacin laboral de un individuo (activo o no) a partir de una serie de informaciones referidas al mismo (variables independientes) y ver en qu medida cada una de stas determina la situacin laboral. Por razones obvias vamos a limitar la muestra a aquellos individuos con edades inferiores a 65 aos (y por tanto en edad legal de poder trabajar), y recordamos que la muestra ya hace referencia a personas de ms de 18 aos. Como en el tema anterior y en muchos ejercicios de los siguientes, advertimos al lector acerca de la finalidad puramente ilustrativa de los ejemplos y sin otras pretensiones que las de facilitar la comprensin del procedimiento estadstico.
Previamente cargado el archivo trabajo.sav y seleccionados los individuos menores de 65 aos (Select Cases if edad < 65).
USE ALL. COMPUTE filter_$=(c2 < 65). VARIABLE LABEL filter_$ 'c2 < 65 (FILTER)'. VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .
Statistics/Regression/ Logistic y obtendremos el cuadro de dilogo principal de la regresin logstica de la Figura 2. l. En Dependent entramos la variable b1 y en Covariates c1 , c2 y c6 . A continuacin, pulsamos el botn Categorical y del subcuadro de dilogo que obtendremos y que posteriormente comentaremos, seleccionamos c1 , y la pasamos al campo Categorical Covariates. Dejamos el resto de opciones por defecto y pulsamos Continue. Fig 2.1 Fig 2.2
151
Volveremos al cuadro de dilogo principal de la Figura 2.1 y observaremos que a continuacin de c1 y entre parntesis nos ha aadido el sistema (Cat). No pulsamos el botn Save (despus lo
haremos) y si el botn Opciones. Del subcuadro que se nos abre, seleccionamos las seis opciones de Statistics y Plots y dejamos todo el resto con sus valores por defecto, tal y como nos muestra el subcuadro de dilogo principal y OK para ejecutar el procedimiento. Obtendremos los resultados que pasamos a comentar.
Resumen del procesam iento de los casos Cas os no ponderados Cas os seleccionados
a
N Incluidos en el anlisis Cas os perdidos Total 973 0 973 0 973
Cas os no s eleccionados Total
Porc entaje 100, 0 ,0 100, 0 ,0 100, 0
Codificacin de la variabl e depe ndiente Valor original S No Valor interno 0 1
a. Si est activada la ponderacin, c onsulte la tabla de clasificacin para ver el nmero total de cas os.
Codificaci ones de vari ables categricas Codificacin de (1) parmetros 1,000 ,000
Sex o
Hombre Mujer
Frec uencia 484 489
Fig 2.3
En el primer cuadro de la Figura 2.3 podemos observar cmo del total de 1.200 personas del archivo, han quedado para el anlisis 973. La variable dependiente originariamente tiene unos valores no Missing de 1 y 5, correspondiendo el 1 a una respuesta afirmativa de que s se realiza algn tipo de trabajo y el 5 a la respuesta negativa. Observar cmo el sistema recodifica estos valores asignando 0 a s trabaja y 1 a no trabaja. Esta circunstancia es sumamente importante para poder interpretar todos los resultados de la regresin logstica. El sistema, y a partir de los datos de cada sujeto en las variables independientes (sexo, edad y nivel de estudios), calcula una probabilidad para cada uno de ellos. Como tal probabilidad, sus valores oscilarn entre 0 y 1, de modo que cuanto ms tienda a 0, ms probable ser que el individuo sea una persona que trabaja, y al revs cuanto ms tienda a 1. El sistema clasificar de este modo a todos los sujetos de la muestra en activos o no activos a partir de un punto de corte que por defecto est situado en 0,50. El porcentaje de individuos correctamente clasificados por el modelo ser uno de los indicadores de la eficacia y del ajuste del mismo. Grficamente:
S trabajan
Punto de corte 0,5
No trabajan
Individuos que el sistema clasificar como que si trabajan
Individuos que el sistema clasificar como que no trabajan
Como variables covariantes, predictoras o independientes, hemos entrado las tres ya mencionadas, sexo, edad y nivel de estudios. stas pueden ser numricas (las tres entradas lo
152
son), pero si queremos que alguna de ellas sea tratada como categrica (y c1 lo es), deberemos proceder a explicitarlo en el subcuadro de dilogo Categorical, que posteriormente analizaremos como detalle. Advertimos en la figura 2.3 que, as como esta variable en el archivo est codificada como 1 = Hombre y 2 = Mujer, el sistema para la regresin logstica (y lo har para cualquier variable dicotmica) la recodifica a 1 y 0, algo que deberemos tener muy en cuenta a la hora de interpretar los coeficiente de la regresin.
Del resto de opciones del cuadro de dilogo principal de la figura 2.1, los bloques nos permitirn, al igual que ya vimos en la regresin lineal mltiple entrar las variable agrupadas en dos, tres o ms series distintas, en tanto que el botn a x b nos permitir entrar en el modelo interacciones entre variables previamente seleccionadas de la lista. Estas variables pueden ser categricas y por supuesto exclusivamente con dos categoras que pueden estar codificadas, por ejemplo, 0 y 1. Advertimos al lector acerca de la necesidad de, en especial en estos casos, contrastar si el producto de la interaccin responde o no al sentido de la misma (dos variables codificadas cada una de ellas con 0 y 1 nos dan tres productos 0 y nicamente un producto 1). Los distintos mtodos de entrada de las variables en el modelo los analizaremos ms adelante, al igual que todas las opciones del subcuadro de dilogo Opciones de la Figura 2.2, que tambin las iremos viendo a lo largo del desarrollo del ejemplo. nicamente aadir que en el cuadro de dilogo principal y a travs del botn Variable de seleccin podemos realizar el anlisis de regresin logstica nicamente para una submuestra del archivo, por ejemplo, residentes en Andaluca ( c15 = 01), con ingresos mensuales superiores a 450.000 ptas. ( c17 = 9), etc. Si no lo hemos hecho con la variable edad ( c2 < 65) es porque el sistema no permite que una variable que forma parte del modelo pueda a la vez servir como criterio de seleccin de una submuestra, o al revs, a pesar de que como en este caso pueda tener sentido llevarlo a cabo. (Variable de seleccin: Elija una variable de seleccin para limitar el anlisis a un subconjunto de casos que tengan un valor particular en esta variable. Despus de elegir la variable, elija una relacin (igual, distinto de, menor que, etc.), e introduzca un valor para la variable de seleccin de casos). 2.1.2. Modelo y criterios de ajuste En la Figura 2.4 podemos ver los parmetros estimados por el modelo de regresin logstica. Definiremos las dos opciones de respuesta de los individuos en la variable dependiente ( b1 ) como respuesta SI y respuesta NO y, por tanto, cuando hablemos en lo sucesivo en trminos de probabilidad haremos pr{s} para referimos a una de las opciones y pr {no} para referimos a la otra
Variables en la e cuacin I.C. 95,0% para EXP(B) Inferior Superior ,301 ,518 ,988 1,009 ,748 ,848
Pas o a 1
c1(1) c2 c6 Constante
B -,930 -,001 -,228 1,744
E.T. ,139 ,005 ,032 ,293
Wald 44,867 ,072 51,121 35,375
gl 1 1 1 1
Sig. ,000 ,788 ,000 ,000
Exp(B) ,395 ,999 ,797 5,720
a. Variable(s) introduc ida(s) en el paso 1: c 1, c2, c 6.
Fig 2.4
153
Si el modelo contase con una nica variable independiente, podra escribirse:
pr s
e B0 1 e
B1 X B0 B1 X
pr s
1 1 e
B0 B1 X
donde:
B0 y B1 son los coeficientes estimados a partir de los datos.

X sera la variable independiente.
e es la base de logaritmos naturales (2,718)
Si el modelo contase con varias variables independientes, como es el caso:
pr s
eZ 1 eZ
pr s
1 1 e
donde: Z es la combinacin lineal:
B0
B1 X 1
B2 X 2
Bp X p
Lgicamente la pr{no}= 1 - pr{s}. Observamos que as como en la regresin lineal la estimacin de parmetros se lleva a cabo a travs del mtodo de mnimos cuadrados" en la regresin logstica se utiliza el mtodo de mxima verosimilitud, de modo que los coeficientes que estima el modelo hacen nuestros datos ms verosmiles. Puesto que el modelo no es lineal, se necesita un algoritmo iterativo para esta estimacin. Pues bien, estos coeficientes y para el modelo hipotetizado son los que aparecen en la primera columna (B) de la Tabla 2.4. Segn estos coeficientes el modelo de regresin logstica para el ejemplo podramos escribirlo como sigue:
pr b1
1 1 e
donde Z = 1,74403 - 0,93005 (sexo) - 0,00145 (edad) - 0,22751 (nivel de estudios). Aplicado el modelo a un individuo cualquiera de la muestra, por ejemplo, el primero de la base de datos que es un hombre (nivel 1) de 26 aos de edad y con un nivel de estudios primarios (nivel 2), tendremos:
Z 1 = 1,744 - 0,93(1) 0,0015(26) - 0,2275(2) = 0,32
pr b1
1 2,7188282
0.32
0,579324
154
Puesto que, tal y como hemos comentado con anterioridad, esta probabilidad oscila entre 0 y 1, correspondiendo 0 a la categora S trabaja. y 1 a la categora No trabaja y estando establecido por defecto el punto de corte en 0,5, el individuo nmero 1 de la muestra que es un hombre de 26 aos y con estudios primarios, el modelo lo clasificar como que no trabaja, dadas sus caractersticas en las variables independientes. El nmero de aciertos globales del modelo en esta clasificacin ser uno de los indicadores fundamentales de la bondad del mismo, tal y como veremos ms adelante. Tambin veremos que tanto esta probabilidad para cada sujeto como su asignacin a una u otra categora sern dos columnas que podr generar el sistema en la base de datos. La segunda columna de la tabla de la Figura 2.4 (S.E.) corresponde a los errores estndar de los coeficientes y la tercera (Wald) corresponde al estadstico de Wald que contrasta la hiptesis de si los coeficientes son iguales a 0 y que sigue una distribucin
2
con unos grados de
libertad y un nivel de significacin que son los que aparecen en las columnas 4 y 5 de la tabla. Como el estadstico de prueba del contraste tiene un grado de libertad, el estadstico de Wald puede calcularse como el cuadrado del cociente entre el valor del coeficiente y su error estndar. En concreto, y para la primera variable c1 :
Estadstico de Wald =
Coeficiente E. estndar
0,93 0,1388
44,89
A partir de los datos de la tabla y con un riesgo = 5 por 100 podemos concluir que los coeficientes de las variables c1 y c6 son estadsticamente distintos de 0 y por tanto significativos con valores respectivos 44,8666 y 51,1204 y nivel de significacin 0,0000 para ambos. En cambio no resulta significativo el coeficiente de la variable c2 (edad) con un estadstico de Wald de 0,0723 y un nivel de significacin 0,7880. Tambin es importante saber interpretar correctamente el signo de los coeficientes de regresin. Por ejemplo, signos negativos en la variable c6 (nivel de estudios) que, recordemos, tiene valores que oscilan entre 0 (no sabe leer) y 8 (estudios universitarios) significan que, en la medida que subimos en los valores de esta variable y, por tanto, elevamos el nivel de estudios, descendemos en los valores de la variable dependiente (situacin laboral) que, recordemos, oscila entre 0 (s trabaja) y 1 (no trabaja). La misma interpretacin cabe hacer para el resto de variables del modelo Las ltimas tres columnas de la tabla (Exp B) y los lmites de estos coeficientes B estimados exponencialmente tienen mucho que ver con lo que sera la interpretacin de los valores de los coeficientes en el modelo de regresin. Recordamos del modelo de regresin mltiple que en realidad el valor del coeficiente significaba el cambio en unidades de la variable dependiente por cada unidad de cambio en la variable independiente a que se refiere el coeficiente, permaneciendo invariantes los valores del resto de variables independientes del modelo. Pues bien, a nivel de coeficientes estimados exponencialmente la interpretacin es muy similar y la diferencia estriba en que en este caso no se trata de incremento o disminucin de la probabilidad de la variable dependiente por cada unidad de cambio en las independientes (permaneciendo el resto invariantes), sino del incremento o disminucin que se produce en el cociente entre pr{s}/pr{no}, obteniendo ste tal y como recoge la ecuacin siguiente
155
pr s pr no
B0 B1 X 1 B2 X 2
Bp X p
e B0 e B1 X1 e B2 X 2 e
Bp X p
Las dos columnas ltimas de la tabla recogen los lmites de estos coeficientes as estimados para un nivel de confianza del 95 por 100 (valor por defecto) que se puede modificar en el subcuadro de dilogo Options de la Figura 2.2.
a Tabla de clasifica cin
Pronosticado Situacin laboral S No 169 233 106 465 Porc entaje correcto 42,0 81,4 65,2
Pas o 1
Obs ervado Situacin laboral Porc entaje global
S No
a. El valor de c orte es ,500
Fig 2.5
En la Figura 2.5 tenemos lo que se conoce como tabla de clasificacin. Es una de las posibilidades que nos ofrece el sistema de poder interpretar el ajuste del modelo a los datos. El punto de corte est establecido por defecto en 0,5 y en total tenemos una muestra de 973 individuos menores de 65 aos, de los que 402 (169 + 233) se declaran activos y 571 no realizan ningn tipo de trabajo. De los primeros, es decir, de los que s trabajan, el sistema clasifica correctamente nicamente 169, que son los que aparecen en la primera casilla de la diagonal de la tabla. Estos 169 sobre los 402 de la fila suponen un porcentaje de clasificacin correcta de nicamente el 42,04 por 100. De los 571 que declaran no trabajar, 465 son clasificados correctamente, lo que supone un porcentaje del 81,44 por 100. En total 634 sobre 973 son correctamente clasificados por el modelo, lo que supone un porcentaje del 81,44 por 100. En total 634 sobre 973 son correctamente clasificados por el modelo, lo que supone un porcentaje del 65,16 por 100. Fuera de la diagonal de la tabla tenemos los casos incorrectamente clasificados. . Idealmente, un buen modelo en este caso debera asignar probabilidades muy bajas a los individuos que s trabajan y muy prximas a 1 a los que no trabajan y, por tanto, el grfico que veremos a continuacin responde a una distribucin bimodal y con valores extremos. Pero en la prctica puede suceder que los individuos correcta o incorrectamente clasificados lo sean en mayor o menor nmero con valores prximos al punto de corte, es decir, valores prximos a 0,50. Esto nos abrir las puertas a una posible modificacin de este punto de corte, que podremos llevar a cabo en el subcuadro de dilogo Opciones de la Figura 2.2 (Punto de corte para la clasificacin) y siempre con el objetivo de aumentar el porcentaje de casos correctamente clasificados por el modelo. De cualquier modo, y sobre todo en investigacin experimental y diagnstico, conviene tener muy presente los riesgos que puedan derivarse de una incorrecta clasificacin en uno y otro sentido y que en gran medida determina tambin el establecimiento de este punto de corte. En la Figura 2.6 tenemos representadas las probabilidades estimadas por el modelo para todos los sujetos de la muestra.
156
Fig 2.6 En abcisas tenemos los valores de probabilidad y la divisin en dos partes tomando como referencia el punto de corte 0,50, figurando a la izquierda S de respuesta afirmativa y a la derecha N de respuesta negativa. En el histograma cada smbolo S o N representa el grupo o nivel al que el individuo especfico o grupo de individuos (en el ejemplo son 12,5 por cada smbolo) pertenecen realmente y que puede no coincidir con el grupo o nivel al que son asignados segn las probabilidades estimadas a .partir de los coeficientes del modelo. En concreto, todas las N situadas a la izquierda de 0,5 corresponden cada una de ellas a grupos de 12,5 individuos que no trabajan y a los que el modelo ha clasificado como que s trabajan, y al revs con todas las S situadas a la derecha de 0,5. Como comentbamos anteriormente, cuanto valores ms extremos y menores asignaciones incorrectas tengamos, ms eficaz ser el modelo. Por otro lado, y a la vista de los resultados en el histograma, desplazar el punto de corte tampoco redundara en una mejora ostensible del modelo. En la Figura 2.7 tenemos entre otras informaciones los resultados de diversos criterios que nos miden igualmente la bondad de ajuste del modelo a los datos.
157
a,b,c Historial de iteraci ones
a,b,c ,d Historial de iteraciones
Iteracin Pas o 1 0 2 3
-2 log de la verosimilitud 1319,364 1319,361 1319,361
Coeficientes Constante ,347 ,351 ,351
Iteracin Pas o 1 1 2 3 4
-2 log de la verosimilitud 1205,779 1204,392 1204,391 1204,391
Constante 1,577 1,739 1,744 1,744
Coeficientes c1(1) c2 -,829 -,002 -,927 -,001 -,930 -,001 -,930 -,001
c6 -,206 -,227 -,228 -,228
a. En el modelo se inc luye una constante. b. -2 log de la verosimilitud inic ial: 1319,361 c. La estimacin ha finalizado en el nmero de iteracin 3 porque las estimaciones de los parmetros han cambiado en menos de ,001.
a. Mt odo: Int roducir b. En el modelo se incluye una cons tante. c. -2 log de la verosimilitud inicial: 1319,361 d. La estimac in ha finalizado en el nmero de iteracin 4 porque las estimaciones de los parmetros han cambiado en menos de ,001.
Pruebas om nibus sobre l os coe ficiente s del m odelo
Resumen de los model os -2 log de la R cuadrado verosimilitud de Cox y Snell 1204,391a ,111 R cuadrado de Nagelkerke ,150
Pas o 1 Pas o Bloque Modelo
Pas o 1
Chi-cuadrado 114, 970 114, 970 114, 970
gl 3 3 3
Sig. ,000 ,000 ,000
a. La estimac in ha finalizado en el nmero de iteracin 4 porque las est imaciones de los parmetros han cambiado en menos de ,001.
Fig 2.7 Una posibilidad consiste en ver cun verosmiles son los resultados obtenidos a partir de los parmetros estimados, sin olvidar que stos estn estimados justamente a travs del mtodo de mxima verosimilitud. Se suele utilizar -2 Log Likelihood (-2LL), de modo que sus valores tendern a 0 si la verosimilitud tiende a mxima y al revs si esta es baja. En el ejemplo, y con un valor 2LL = 13l9,3615 con nicamente la constante en el modelo y 1204,391 con todas las variables (recordar que hemos utilizado el mtodo Enter y un solo bloque de variables), podemos concluir con un deficiente ajuste del modelo a los datos. El estadstico
2
testa la hiptesis nula de si los coeficientes del modelo en su conjunto son estadsticamente distintos de 0, circunstancia que se confirma, corroborando, en parte, los resultados obtenidos a travs del estadstico de Wald de la tabla de la Figura 2.4. El hecho de utilizar un solo bloque de variables y que stas no entren paso a paso sino a la vez hace que el estadstico sea el mismo para el modelo, el bloque y el nico paso de la prueba. 2.1.3. Variables categricas, nuevas variables y opciones Por defecto, el sistema considera las variables string de la base de datos como variables categricas (el nombre de la empresa, el modelo de vehculo, etc.) y las variables numricas como continuas, pero sucede en muchos casos que algunas de las variables de la base de datos codificadas como numricas no son tales, sino categricas, y los valores numricos asignados no tienen otra finalidad que la de diferenciar unas categoras de otras.. Variables de este tipo tenemos varias en nuestros archivos y, en concreto, en el de trabajo.sav una muy caracterstica puede ser el estado civil ( c3 ) con valores (1) soltero, (2) casado, (3) vive en pareja (4) separado/a, (5) divorciado/a y (6) viudo/a. Ni en la regresin logstica ni en la lineal podemos entrar esta variable como independiente numrica y si queremos que sea tratada como tal categrica que es, deberemos pulsar el botn Categorical del cuadro de dilogo principal de la regresin logstica (Figura 2.1) y acceder al subcuadro de dilogo Define Categorical Variables de la Figura 2.8.
158
Partiendo de nuevo del archivo trabajo.sav y seleccionados tambin los individuos de edad < 65 aos, entramos de nuevo en el cuadro de dilogo principal de la regresin logstica (Figura 2.1). A las tres variables covariantes entradas en el apartado anterior ( c1 , c2 y Categorical y accedemos al subcuadro de dilogo de la Figura 2.8. Pasamos a Categorical Covariates c1 (que ya lo estaba) y c3 . Como contraste dejamos la opcin por defecto Indicator y como categora de referencia seleccionamos Last. Pulsamos Continue y del subcuadro Options seleccionamos exactamente las mismas que anteriormente (Figura 2.2) dejando el resto de opciones por defecto. Ejecutamos el procedimiento con OK.
Fig 2.8
c6 aadimos c3 (estado civil) y como dependiente seguimos dejando b1 . Pulsamos el botn
Entre otros resultados de inters que modificarn ligeramente los obtenidos con el modelo anterior, nos encontraremos en el output con la tabla de la Figura 2.9 que comentamos a continuacin.
Codificaciones de varia bles ca tegricas Codificacin de parmetros (2) (3) (4) ,000 ,000 ,000 1,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000 ,000 ,000 ,000
Estado civil
Sex o
Solt ero Cas ado Vive pareja Separado Divorciado Viudo Hombre Mujer
Frec uencia 290 635 9 13 5 21 484 489
(1) 1,000 ,000 ,000 ,000 ,000 ,000 1,000 ,000
(5) ,000 ,000 ,000 ,000 1,000 ,000
Variables en la e cuacin I.C. 95,0% para EXP(B) Inferior Superior ,270 ,476 1,004 1,031 ,728 ,829 ,351 ,137 ,357 ,079 ,040 5,129 1,735 23,019 2,692 3,334
Pas o a 1
c1(1) c2 c6 c3 c3(1) c3(2) c3(3) c3(4) c3(5) Constante
B -1,026 ,017 -,252 ,294 -,720 1,053 -,772 -1,007 1,575
E.T. ,144 ,007 ,033 ,684 ,649 1,063 ,899 1,128 ,746
Wald 50,553 6,265 57,714 30,640 ,184 1,233 ,982 ,737 ,797 4,458
gl 1 1 1 5 1 1 1 1 1 1
Sig. ,000 ,012 ,000 ,000 ,668 ,267 ,322 ,391 ,372 ,035
Exp(B) ,359 1,017 ,777 1,341 ,487 2,867 ,462 ,365 4,830
a. Variable(s) introduc ida(s) en el paso 1: c 1, c2, c 6, c3.
Fig 2.9
159
El sistema nos ha recodificado de manera automtica las dos variables que le hemos sealado como variables categricas. El caso de la variable dicotmica es poco problemtico puesto que el sistema se limita a codificada como 1 y 0. Son las variables dummy y pueden lgicamente cambiarse las asignaciones recodificando previamente la variable en la base de datos. En el caso de la segunda de las variables ( c3 ) observamos que el sistema ha creado tantas nuevas variables
(vase la tabla Variables in the Equation de la Figura 2.9) como categoras menos una tiene la variable original. La asignacin de coeficientes para cada categora que lleva a cabo el sistema se hace de acuerdo con la categora de referencia ( Last, en el ejemplo) y el tipo de contraste (Indicator) que es la opcin por defecto. Obviamente se pueden cambiar una y otra opcin. La primera tabla de la Figura 2.9 nos da los cdigos de la variable para las seis categoras (Value) y las frecuencias por categora. Entre parntesis las cinco nuevas variables generadas por el sistema y bajo cada columna los coeficientes creados por el sistema para las nuevas variables. Observar que estos coeficientes son todos 0 para la categora tomada como referencia (la ltima/viudo/a en el ejemplo) y el resto tendrn en la matriz de contrastes 0 o 1 indicando su presencia o ausencia en la variable: Los solteros, cdigo 1 en la primera variable y 0 en el resto. Los casados, 0 en la primera variable, 1 en la segunda variable y 0 en el resto de las variables. Y as sucesivamente para las cinco categoras, excepto la de referencia.
El valor estimado por el modelo para cada coeficiente B de cada una de las nuevas variables deber interpretarse del mismo modo que el resto de coeficientes de las variables independientes del modelo, pero siempre teniendo como referencia la categora tomada como tal, de modo que estar soltero, casado, etc., incremental disminuye la probabilidad de estar activo o no, siempre respecto a la categora de referencia, viudo/a en este caso.
Volvemos de nuevo al modelo original planteado en el apartado 2.1.2 y con b1 como dependiente, c1 , c2 y c6 como covariantes. Pulsamos el botn Save y accedemos al subcuadro de dilogo Save New Variables de la Figura 2.10. Seleccionamos todas las opciones del mismo y pulsamos Continue. De los subcuadros Categorical y Options podemos seleccionar las mismas opciones que en el apartado 2.1.2. .
Fig 2.10
160
Una vez estimado el modelo de regresin lineal, resultaba de inters analizar los diversos tipos de residuales, los diversos indicadores de distancia, estadsticos de influencia, diagnsticos de colinealidad, etc., puesto que resultaban herramientas tiles para identificar aquellos puntos en los que el modelo no ajustaba correctamente, puntos con gran influencia en la estimacin de parmetros, variables estrechamente relacionadas con otras, etc. En la regresin logstica encontramos estadsticos similares y son los que aparecen en el subcuadro de dilogo de la Figura 2.10. stas son sus caractersticas:
PRE_l (Probabilities). Probabilidad de ocurrencia de cada caso predicha por el modelo. PGR_l (Predicted Group). Grupo al que ser asignado cada sujeto de acuerdo con su probabilidad. Si cruzamos esta variable con b1 (dependiente) a travs de Crosstabs, obtendremos idnticos resultados que en la tabla de clasificacin de la Figura 2.5. COO_1 y LEV _1 (Distancia de Cook y Leverage). Al igual que en la regresin lineal, miden la influencia de cada caso en los residuales y en las predicciones respectivamente. La distancia de Cook mide la influencia de eliminar un caso, no nicamente en su residual sino en el resto de residuales del resto de sujetos. Se calcula:
Di
donde:
Z i2 1
hi hi
2
Z es el residual estandarizado y h es el valor Leverage
Por su parte, el Leverage mide el impacto de las puntuaciones en las predicciones y, contrariamente a lo que sucede en la regresin lineal, su valor depende tanto de la variable dependiente como del resto de elementos del modelo. Sus valores oscilan entre 0 y 1 y su media se calcula como cociente entre p y N, siendo p el nmero de parmetros estimados por el modelo, incluida la constante, y N el tamao de muestra.
RES_l (Residuals). Diferencia entre las probabilidades observadas y las predicciones. L ZRE_l (Standardized Residuals). Residuales estandarizados como cociente entre los residuales y una estimacin de la desviacin estndar.
Zi
Re sidual pi 1 pi
Si la muestra es grande, deben seguir una distribucin normal de media = 0 y desviacin estndar =1.
161
a Resmene s de ca sos
1 2 3 4 5 6 7 8 9 10 Total
Nmero de c aso 1 2 3 4 5 6 8 9 10 11 N
Probabilidad pronosticada ,57961 ,57713 ,58377 ,80793 ,77499 ,62229 ,34926 ,63139 ,56967 ,52195 10
Grupo pronosticado No No No No No No S No No No 10
Diferencia entre las probabilida des pronosticad as y obs ervadas -,57961 -,57713 -,58377 ,19207 ,22501 -,62229 ,65074 ,36861 -,56967 ,47805 10
Res iduo normalizado -1,17420 -1,16824 -1,18428 ,48758 ,53883 -1,28357 1,36500 ,76408 -1,15055 ,95703 10
a. Limitado a los primeros 10 casos .
2.1.4. Mtodos de seleccin de variables
Una vez ms, y partiendo del archivo trabajo.sav del que hemos seleccionado exclusivamente los individuos de edad inferior a 65 aos, entramos en el cuadro de dilogo de la regresin logstica (Figura 2.1) y entramos exactamente las mismas variables que all definimos, es decir, b1 como dependiente y c1 (Cat) , c2 y c6 como covariantes. Si abrimos la lista desplegable del botn Method observaremos que disponemos de siete opciones distintas adems de Enter que es la opcin por defecto y utilizada hasta este momento. Seleccionamos Forward: Wald. No entramos en el subcuadro Save y de Options seleccionamos todas las opciones y valores por defecto que aparecen en la Figura 2.2 y que hemos utilizado hasta el momento. Ejecutamos el procedimiento con OK.
Sealar ante todo que lo que acabamos de hacer no es sino seleccionar un procedimiento distinto al Enter de entrada de variables en el modelo, rememorando algo que ya hicimos en la regresin lineal mltiple. Distintos algoritmos pueden dar lugar a diferentes modelos, de entre los que
162
deberemos seleccionar aquel que, adems de una buena capacidad explicativa y un buen ajuste, sea interpretable y lo ms sencillo posible. Las tablas de la Figura 2.11 recogen un resumen de lo que sera el output de la regresin logstica con el mtodo Forward Wald. Debemos advertir al lector que al igual que en otros muchos casos, en esta figura se recoge nicamente la esencia del procedimiento y en el output encontrar mucha ms informacin. Esta informacin hace referencia a los diversos tests de ajuste en cada paso del modelo, tabla de clasificacin, histograma, pruebas de significacin de los coeficientes del modelo, etc., que no hacen sino reiterar para cada paso algo que el lector ya conoce del modelo general visto anteriormente. En la lista desplegable Method encontramos dos opciones distintas, cada una de ellas con tres alternativas. Estas dos opciones son: Forward Stepwise Selection: las variables van entrando (o saliendo) del modelo de una en una, a partir de un modelo inicial en el que nicamente figura la constante. Es el utilizado en este ejemplo. Backward Stepwise Selection: las variables van saliendo del modelo (o volviendo a entrar en el mismo) tambin una a una, pero a partir del modelo inicial en el que todas ellas estn incluidas. De este modo, y en el primer cuadro del output, observamos cmo en efecto la nica variable que figura en el modelo es la constante, con un coeficiente, error estndar, etc., que ya hemos interpretado con anterioridad.
Variables en la e cuacin
Pas o 0
Constante
B ,351
E.T. ,065
Wald 29,054
gl 1
Sig. ,000
Exp(B) 1,420
Pruebas omnibus sobre los coeficientes del modelo Chi-cuadrado Paso 1 Paso Bloque Modelo Paso 2 Paso Bloque Modelo 55,739 55,739 55,739 5,920 61,659 61,659 gl 1 1 1 1 2 2 Sig. ,000 ,000 ,000 ,015 ,000 ,000
Resumen de los modelos R cuadrado de Nagelkerke ,075 ,083
Paso 1 2
-2 log de la verosimilitud 1263,622(a) 1257,702(a)
R cuadrado de Cox y Snell ,056 ,061
a La estimacin ha finalizado en el nmero de iteracin 3 porque las estimaciones de los parmetros han cambiado en menos de ,001.
Variables que no estn e n la ecuacin Pas o 1 Vari ables Estadsticos global es Vari ables Estadsticos global es c2 c3 c3 Puntuacin 5,898 ,062 8,109 2,290 2,290 gl 1 1 2 1 1 Sig. ,015 ,803 ,017 ,130 ,130
Pas o 2
163
Variables en la e cuacin I.C. 95,0% para EXP(B) Inferior Superior ,286 ,485 1,002 ,289 1,022 ,491
Pas a o 1 Pas b o 2
c1(1) Constante c2 c1(1) Constante
B -,988 ,864 ,012 -,975 ,397
E.T. ,135 ,099 ,005 ,135 ,215
Wald 53,935 76,129 5,873 52,220 3,408
gl 1 1 1 1 1
Sig. ,000 ,000 ,015 ,000 ,065
Exp(B) ,372 2,372 1,012 ,377 1,487
a. Variable(s) introduc ida(s) en el paso 1: c 1. b. Variable(s) introduc ida(s) en el paso 2: c 2.
En el segundo cuadro de la Figura 2.11, tenemos en primera instancia las variables que no han entrado en el modelo todava. El sistema analiza el estadstico Score y su grado de significacin y, de las tres variables que en este caso estn fuera del modelo, selecciona para entrar en el mismo aquella que tiene un grado de significacin ms bajo, en este caso, la variable c6 con un estadstico igual a 68,285 y una p = 0,0000. A continuacin, el sistema compara este grado de significacin con el criterio de entrada establecido (por defecto y en este caso 0,05), tal y como podemos observar en Probability for Stepwise: Entry = 0,05 de la Figura 2.2. Como quiera que el grado de significacin p = 0,0000 es menor que 0,05, la variable entra en el modelo en el primer paso, tal y como observamos en el tercer cuadro. Una vez entrada la variable en el modelo, el sistema reevala el mismo al objeto de constatar si todas ellas cumplen con el criterio de salida. El criterio viene definido tanto por el estadstico utilizado (el de Wald en el ejemplo) como por la probabilidad asignada al mismo para que una variable salga del modelo. En el subcuadro de dilogo de la Figura 2.2 podemos ver que esta probabilidad es por defecto 0,10 (Probability for Stepwise Removal: 0,10) y, por tanto, todas las variables quedarn dentro del modelo. En el tercer bloque aparecen en primer lugar las variables que todava estn fuera del modelo; el sistema selecciona c1 para entrar en este paso, cumple el criterio de entrada (p = 0,0000 menor que 0,05) y en efecto entra en el mismo. Una vez dentro, tanto la constante como las dos variables entradas cumplen el requisito de salida y permanecen en el mismo. Finalmente, y en el ltimo bloque c2 con un Score = 0,0723 y un grado de significacin p = 0,7880, no cumple el requisito de entrada, con lo que el sistema se detiene y queda establecido el modelo definitivo. El subcuadro de dilogo Options de la Figura 2.2 recoge alguna opcin ms, interesante para los distintos mtodos de entrada de las variables en el modelo. Display ofrece una doble alternativa, que consiste la primera (At each step) en que el output recoja todos los estadsticos y grficos seleccionados para cada paso del modelo, siempre que el mtodo no sea el Enter en cuyo caso entran todas las variables a la vez. Como comentbamos anteriormente, esto nos permitir evaluar el modelo en cada estadio distinto. El resto de opciones, o las hemos analizado anteriormente o no necesitan mayores comentarios por nuestra parte, y nicamente recordar del captulo 6 de Estadstica bsica que los lmites del grfico de outliers podemos modificarlos y hacer visibles o nicamente stos o todos los casos. Al final del output el sistema nos advierte de no haber encontrado outliers con los lmites fijados, que es la opcin por defecto, es decir, dos desviaciones estndar. Referencia: Anlisis Estadstico con SPSS para Windows. Volumen II: Estadstica Multivariante. Autor Visauta Vinacua. Mc Graw Hill.
164
Ejemplo (Regresin logstica simple)

Este ejemplo muestra cmo ejecutar el procedimiento Regresin logstica con las especificaciones que el programa tiene establecidas por defecto y cmo interpretar los resultados obtenidos. Considere el archivo GSS93 reducido.sav, que se encuentra en la misma carpeta en la que est instalado el SPSS. El archivo contiene variables socio-demogrficas y de opinin correspondientes a la Encuesta General (General Social Survey) del ao 93. Se trata de una macroencuesta realizada anualmente en los Estados Unidos de Amrica. A partir de estos datos se va a intentar predecir y explicar si una persona ha votado o no en las ltimas elecciones a partir de un conjunto de caractersticas socio-demogrficas. La variable que distingue a los sujetos que manifiestan haber votado de aquellos que manifiestan no haber votado es la variable voto92. Para conocer cmo se comporta esta variable, la tabla 1 muestra su distribucin de frecuencias. Tabla 1
Vot en las elecciones de 1992 Frecuencia 1032 420 34 6 1492 4 4 8 1500 Porcentaje 68,8 28,0 2,3 ,4 99,5 ,3 ,3 ,5 100,0 Porcentaje vlido 69,2 28,2 2,3 ,4 100,0 Porcentaje acumulado 69,2 97,3 99,6 100,0
Vlidos
Perdidos
Ha votado No ha votado No elegible Rehusa Total No sabe No contesta Total
Total
La variable Voto92 presenta ms de dos categoras de respuesta. Si se utiliza como variable dependiente tal como se encuentra en el archivo de datos, el Visor emitir una advertencia comunicando que la variable dependiente seleccionada tiene ms de dos categoras y que no es posible llevar a cabo el anlisis. Para poder utilizar una variable politmica como variable dependiente en un anlisis de regresin logstica binaria, es necesario filtrar previamente las dos categoras con las que se desea trabajar o, alternativamente, recodificar la variable original hacindole tomar slo dos valores, cuando esto tenga sentido. En el ejemplo, se ha utilizado el procedimiento Recodificar > En distintas variables del men Transformar para crear una nueva variable denominada voto, con etiqueta Vot en 1992?. En esta nueva variable, se ha asignado el cdigo 0 (con etiqueta S vot) a los casos con valor 1 en la variable voto92, y el cdigo 1 (con etiqueta No vot) a los casos con valor 2 en la variable voto92. Esta ltima categora (1= No vot) va a desempear un importante rol en el anlisis (como se ver ms adelante, aunque los cdigos asignados a las categoras de la variable dependiente no afectan al proceso de estimacin de los parmetros del modelo, tienen especial importancia en la interpretacin de los resultados). La tabla 2 muestra la distribucin de frecuencia de la nueva variable voto. Un dato interesante de estos resultados es que el 28,9% de las personas encuestadas no vot en las elecciones.
165
Tabla 2
Vot en 1992? Frec uencia 1032 420 1452 48 1500 Porc entaje 68,8 28,0 96,8 3,2 100, 0 Porc entaje vlido 71,1 28,9 100, 0 Porc entaje acumulado 71,1 100, 0
Vlidos
Perdidos Total
S vot No vot Total Sist ema
Para simplificar la explicacin de esta primera aproximacin al anlisis de regresin logstica tambin se ha recodificado la variable periodic (frecuencia con la que se lee el peridico) en una nueva variable denominada leer, con etiqueta Lee el peridico?. En esta nueva variable, a los casos con cdigo 1 (Diariamente), 2 (Varios das a la semana) y 3 (Varios das al mes) se les ha asignado el cdigo 0, con etiqueta Si lee; y a los casos con valores 4 (Raramente) y 5 (Nunca) se les ha asignado el cdigo 1, con etiqueta No lee. La tabla 28.3 ofrece la distribucin de frecuencia de la nueva variable. Tabla 3
Le e el pe ridico? Frec uencia 862 148 1010 490 1500 Porc entaje 57,5 9,9 67,3 32,7 100, 0 Porc entaje vlido 85,3 14,7 100, 0 Porc entaje acumulado 85,3 100, 0
Vlidos
Perdidos Total
S lee No lee Total Sist ema
Para averiguar si la variable que se desea utilizar como dependiente ( voto) est relacionada con la variable que se va a utilizar como independiente (leer), se puede, como paso previo, cruzar ambas variables en una tabla de contingencias bidimensional. El procedimiento Estadsticos descriptivos > Tablas de contingencias del men Analizar permite obtener las frecuencias conjuntas que muestra la tabla 4. La tabla contiene las frecuencias observadas y los porcentajes de columna. El porcentaje de sujetos que manifiesta haber votado es del 74,9% entre los sujetos que leen el peridico y del 47% entre los sujetos que no leen el peridico. Los resultados de la tabla indica que de los 1.500 casos del archivo original, nicamente 976 poseen respuestas vlidas en ambas variables. Tabla 4
Tabla de contingencia Vot e n 1992? * Le e el pe ridico? Lee el peridico? S lee No lee 624 68 74,9% 47,6% 209 75 25,1% 52,4% 833 143 100, 0% 100, 0%
Vot en 1992?
S vot No vot
Total
Rec uento % de Lee el peridico? Rec uento % de Lee el peridico? Rec uento % de Lee el peridico?
Total 692 70,9% 284 29,1% 976 100, 0%
166
Para comprobar si es posible predecir el resultado de la variable voto a partir de la variable leer mediante una ecuacin de regresin logstica: En el cuadro de dilogo Regresin logstica binaria (ver figura 4), seleccionar la variable voto y trasladarla al cuadro Dependiente. Seleccionar la variable leer y trasladarla a la lista Covariables.
Aceptando estas elecciones, el Visor de resultados ofrece la informacin que muestran las tablas 5 a la 13. La tabla 5 informa sobre el nmero de casos vlidos incluidos en el anlisis y sobre el nmero de casos excluidos del anlisis por tener algn valor perdido (ya sea en la variable dependiente, en la independiente, o en ambas). Tabla 5
Resumen del procesam iento de los casos Cas os no ponderados Cas os seleccionados
a
N Incluidos en el anlisis Cas os perdidos Total 976 524 1500 0 1500
Cas os no s eleccionados Total
Porc entaje 65,1 34,9 100, 0 ,0 100, 0
a. Si est activada la ponderacin, c onsulte la tabla de clasificacin para ver el nmero total de cas os.
Tabla 6
Codificacin de la variabl e depe ndiente Valor original S vot No vot Valor interno 0 1
La tabla 6 muestra la codificacin interna utilizada por el procedimiento para distinguir los casos en cada una de las categoras de la variable dependiente. El procedimiento asigna el valor 0 a los casos que presentan el menor valor en la variable dependiente (sea ste numrico o de cadena) y asigna el valor 1 a los casos con mayor valor. En el ejemplo, los cdigos originales de la variable dependiente y los cdigos internos asignados por el procedimiento coinciden. Como se ver ms adelante, la categora con el valor interno 1 juega un papel especial en la interpretacin del modelo.
167
Tabla 7
a,b Tabla de clasifica cin
Pronosticado Vot en 1992? S vot No vot 692 0 284 0 Porc entaje correcto 100, 0 ,0 70,9
Pas o 0
Obs ervado Vot en 1992? Porc entaje global
S vot No vot
a. En el modelo se inc luye una const ante. b. El valor de c orte es ,500
El modelo de regresin logstica no es un modelo lineal, por lo que se utiliza un mtodo de mxima verosimilitud para estimar los parmetros del modelo que slo incluye la constante (no incluye la variable independiente). Las tablas de este bloque incluyen una cabecera en la dimensin de las filas que recuerda que se trata del paso 0. La tabla 7 muestra la clasificacin de los casos en el Visor bajo el ttulo Bloque 0 = Bloque inicial y contienen informacin relacionada con el modelo nulo: el modelo que slo incluye la constante (no incluye la variable independiente). Las tablas de este bloque incluyen una cabecera en la dimensin de las filas que recuerda que se trata del paso 0. La tabla 7 muestra la clasificacin de los casos en el paso 0. Esta tabla se denomina tambin la matriz de confusin y en ella se cruza el resultado observado en la variable dependiente con el resultado pronosticado por el modelo nulo. Puesto que el modelo nulo todava no incluye la variable independiente, todos los casos son clasificados en la misma categora: aqulla a la que pertenecen ms casos. Por tanto, el porcentaje de casos correctamente clasificados coincide con el porcentaje de casos pertenecientes a esa categora ms numerosa. Los datos de la matriz de confusin en el paso 0 coinciden con la frecuencia marginales de la variable dependiente tal como se presenta en la tabla 4; pero, lgicamente, no coinciden con las frecuencias de su distribucin univariante dependiente (ver tabla 2) cuando existen valores perdidos. La tabla 8 ofrece la estimacin correspondiente al trmino constante (B= -0,891), varios estadsticos asociados a esa estimacin ( error tpico, estadstico de Wald y grados de libertad) y la significacin o nivel crtico del coeficientes estimado ( Sig). De momento, la constante es el nico trmino presente en el modelo. Tabla 8
Variables en la e cuacin Pas o 0 Constante B -,891 E.T. ,070 Wald 159,717 gl 1 Sig. ,000 Exp(B) ,410
La tabla 9 contiene informacin sobre lo que ocurrir cuando la variable independiente sea incorporada al modelo: ofrece, para cada variable independiente, un contraste de la hiptesis nula de que el efecto de la variable es nulo. Puesto que en este ejemplo nicamente se est utilizando una variable independiente (leer), la tabla slo muestra informacin referida a esa variable. Si el nivel crtico asociado al contraste (Sig.) es menor que 0,05, se puede rechazar la hiptesis nula y afirmar que la variable independiente contribuye significativamente a explicar el comportamiento de la dependiente (o, de otro modo, a mejorar el ajuste del modelo). Esta tabla tiene, segn se ver, un inters especial cuando se ajustan modelos por pasos. Tabla 9
168
Variables que no estn e n la ecuacin Pas o 0 Variables Estadsticos globales LEE Puntuacin 44,275 44,275 gl 1 1 Sig. ,000 ,000
Las tablas 10 a la 13 aparecen en el Visor bajo el ttulo Bloque 1: Mtodo = Introducir y contienen los resultados propiamente dichos del modelo estimado. La tabla 10 muestra el resultado de contrastar la hiptesis nla de que el modelo no mejora con la inclusin de la variable independiente en el paso 1. En este caso todas las lneas de la tabla son iguales por ser la variable leer la primera y nica variable incluida en el modelo. Puesto que el nivel crtico ( Sig) es menor que 0,05, se puede rechazar la hiptesis nula y concluir que la incorporacin de la variable leer mejora significativamente el ajuste y la capacidad predictiva del modelo. Tabla 10
Pruebas om nibus sobre l os coe ficiente s del m odelo Pas o 1 Pas o Bloque Modelo Chi-cuadrado 40,723 40,723 40,723 gl 1 1 1 Sig. ,000 ,000 ,000
La tabla 11 muestra los estadsticos de bondad de ajuste global para el modelo estimado. Puesto que el modelo de regresin logstica utiliza como variable criterio una variable categrica, estos estadsticos son meramente orientativos; suelen adoptar valores moderados o incluso bajos aun cuando el modelo estimado pueda ser apropiado y til. Tabla 11
Pas o 1
El concepto de verosimilitud hace referencia a la probabilidad de obtener una muestra como la obtenida cuando se asume que el valor verdadero de los parmetros es el estimado. La razn de verosimilitudes (es decir el logaritmo de la verosimilitud multiplicado por 2) se utiliza para valorar el ajuste del modelo. Dado que la verosimilitud es un valor menor que 1 (se parece a una probabilidad), suele transformarse en la razn de verosimilitudes para convertirla en un nmero positivo de mayor amplitud. Si el modelo se ajusta bien a los datos, la verosimilitud de los datos ser grande y el valor de 2LL ser pequeo (cuando el modelo se ajusta perfectamente a los datos, la verosimilitud vale 1 y 2LL vale 0). La razn de verosimilitudes del modelo nulo (el modelo en el paso 0) se utiliza como unto de referencia para valorar el incremento en el ajuste que se produce al incluir las variables independientes. De hecho, el estadstico de puntuacin utilizado para valorar la capacidad predictiva de las variables independientes en los modelos por pasos se basa en el cambio que va experimentando -2LL en cada paso en relacin con el valor de 2LL en el modelo nulo.
169
La tabla de clasificacin (tabla 12), tambin denominada matriz de confusin o matriz de clasificacin correcta, ofrece una clasificacin de los casos basada en el modelo de regresin logstica. Las filas de la tabla contienen las categoras de la variable dependiente a las que realmente pertenecen los casos, mientras que las columnas contienen las categoras pronosticadas por el modelo. En la diagonal principal se encuentra el nmero de casos correctamente clasificados por el modelo. La ltima columna contiene el porcentaje de casos correctamente clasificados en cada fila. (Lgicamente, si en lugar del porcentaje de errores de clasificacin, la tabla recibira el nombre de tabla de clasificacin incorrecta). La matriz de confusin es en realidad un indicador de la validez del modelo, puesto que muestra su capacidad predictiva (su capacidad para clasificar correctamente los casos). Tabla 12
Pronosticado Vot en 1992? S vot No vot 624 68 209 75 Porc entaje correcto 90,2 26,4 71,6
Pas o 1
S vot No vot
La matriz de confusin no es del todo til hasta que se consigue establecer el mejor punto de corte posible para la clasificacin. Por defecto, el procedimiento utiliza como valor de corte la puntuacin 0,5. En la mayora de las situaciones, cuando el modelo incorpora un gran nmero de variables independientes y los grupos pronosticados son aproximadamente del mismo tamao, este valor de corte es suficientemente bueno. Sin embargo, la determinacin del mejor punto de corte corresponde al estudio de la clasificacin, que ser estudiada ms adelante con detalle. La tabla de variables incluidas en la ecuacin (tabla 13) muestra las estimaciones de los coeficientes del modelo (B) y los datos necesarios para valorar su significacin e interpretarlos. Tabla 13
Variables e n la ecuacin Pas o a 1 LEE Constante B 1,192 -1,094 E.T. ,186 ,080 Wald 41,258 187, 316 gl 1 1 Sig. ,000 ,000 Exp(B) 3,293 ,335
a. Variable(s) introduc ida(s) en el pas o 1: LEE.
Para entender e interpretar todos estos resultados es conveniente revisar brevemente los fundamentos matemticos del modelo de regresin logstica. Por ahora basta con saber que el modelo contiene coeficientes significativamente distintos de 0 y que el hecho de que el coeficiente correspondiente a la variable leer sea positivo indica que los sujetos que no leen el peridico tienen una mayor probabilidad de no votar que los que si leen el peridico.
Clculo de las probabilidades pronosticadas

Utilizando los datos de la tabla 13, la ecuacin de regresin logstica toma la forma :
170
P(Y 1)
La variable dependiente
1 1
Y
1 1 e
( 1,094 1,192 X )
B0 B1 X
del ejemplo es la variable voto (Vot en 1992?), una variable
dicotmica que puede tomar los valores:
Y 0 Si vot e Y 1
No vot. Y la variable
independiente (X) del ejemplo es la variable (Lee el peridico?), una variable dicotmica que puede tomar los valores: X 0 S lee y X 1 No lee. En el caso d que un encuestado no lea el peridico
1 , la probabilidad pronosticada por la ecuacin de regresin logstica
para la categora No vot vale:
P(Y
1 X
1)
1 1 e
1,094 1,192 1
1 e 0,098
0,5245
Y en el caso de que un encuestado lea el peridico, la probabilidad pronosticada para la categora No vot vale:
1
P Y 1 X 0
1,094 1,192 0
1 1 e1,094
0, 2509
Por tanto, a partir de los pronsticos derivados de la ecuacin de regresin logstica, se puede afirmar que, entre los sujetos que manifiestan no leer el peridico, la probabilidad de abstencin en las elecciones es mayor (aproximadamente el doble) que entre los sujetos que manifiestan leer
el peridico.
Es muy importante tener en cuenta que los pronsticos obtenidos con la ecuacin de regresin logstica siempre se refieren a una de las dos categoras de la variable dependiente: aquella codificada con el valor mayor y que es la que el procedimiento Regresin logstica codifica internamente con el valor 1. En el ejemplo, la categora No vot.
Interpretacin de los coeficientes

En la ecuacin de regresin lineal, el valor del coeficiente de regresin asociado a una variable independiente representa la cantidad de cambio en los pronsticos por unidad de cambio en el variable independiente. En el modelo de regresin logstica no ocurre esto. En el ejemplo, el valor del coeficiente de la variable independiente es 1,192, mientras que la diferencia entre las dos probabilidades pronosticadas vale 0,524 0,251 = 0,273. El significado de los coeficientes de regresin no es el mismo en ambos modelos de regresin Con los datos del ejemplo, la transformacin encuestado Lee el peridico (X = 0) vale:
logit del suceso No vot (Y = 1), cuando el
ln
P Y
X X
0 0
P Y 0
B0
ln
0, 2509 1 0, 2509
ln 0,335
1, 094
Por tanto, B0
1, 09 (ver tabla 13). Y la transformacin logit del suceso No vot cuando el
encuestado No lee el peridico (X = 1) vale:
171
ln
P Y P Y
1 0
X X
1 1
B0
B1
ln
0,5245 1 0,5245
ln 1,103
0, 098
Por tanto, la diferencia entre ambos logaritmos permite obtener el valor del coeficiente tabla 13):
B1 (ver
B1
0, 098
1, 094
1,192
As pues, en el modelo de regresin logstica, el coeficiente de regresin asociado a una variable independiente representa el cambio producido en la transformacin logit por unidad de cambio en la variable independiente. Ahora bien, razonar en trmino de cambios en los logaritmos resulta poco intuitivo. Es preferible interpretar directamente el cambio en las ventajas y no en los logaritmos de las ventajas. Volviendo a la expresin de la ventaja:
P Y P Y
1 0
e B0
B1 X
e B0 e B1 X
Se ve claramente que una ventaja se puede expresar en trminos de potencias del nmero e. Por ello se suele informar del valor exponencial de los coeficientes de regresin. En los resultados de la regresin logstica se incluye tanto el valor del coeficiente de regresin (B) como el de Exp(B) o
eB .
En el ejemplo, la ventaja del suceso No vot cuando el encuestado No lee el peridico vale 1,103, mientras que la ventaja de ese mismo suceso cuando el encuestado S lee el peridico vale 0,335. Si se expresa el cambio proporcional de la ventaja en trminos de un cociente (como una razn) se obtiene 1,103/0,335 = 3,293, que es justamente el valor de e (ver Exp(B) en la tabla 13). A este cambio proporcional se le denomina razn de las ventajas (odds ratio en ingls), dado que es el resultado de dividir dos ventajas. Y se interpreta en trminos del cambio proporcional (ya sea aumento o disminucin) que se produce en la ventaja del suceso o evento de inters (No vota en el ejemplo) por cada unidad de cambio que se produce en la variable independiente (VI). Resumiendo:
1.19
La razn de las ventajas vale 1 (y su correspondiente coeficiente de regresin vale cero) cuando la VI no produce ningn efecto sobre la ventaja de un suceso. La razn de las ventajas es mayor que 1 (y su correspondiente coeficiente de regresin es mayor que 0) cuando un aumento en la VI lleva asociado un aumento de la ventaja del suceso. La razn de la ventajas es menor que 1 (y su correspondiente coeficiente de regresin es menor que 0) cuando un aumento en la VI conlleva una disminucin de la ventaja del suceso.
El valor 1 es, por tanto el referente para la interpretacin. Si la probabilidad de un suceso bajo la condicin A vale, por ejemplo, 0,60, la ventaja de ese suceso vale 0,60/0,40 = 1,5; y si la probabilidad de ese suceso bajo la condicin B vale 0,80, su ventaja vale 0,80/0,50 = 4. Es decir, cuando la probabilidad de un suceso para de 0,60 a 0,80, su ventaja pasa de 1,5 a 4. Y la razn de las ventajas expresa este aumento adoptando un valor de 4/1,5 = 2,67, el cual indica que la ventaja del suceso ha aumentado 2,67 veces: 2,67(1,5) = 4.
172
Otro ejemplo. Si la probabilidad de un suceso bajo la condicin A vale 0,60, su ventaja vale 0,60/0,40 = 1,5; si la probabilidad de ese suceso bajo la condicin B vale 0,40, su ventaja vale 0,40/0,60 = 0,67. Es decir, cuando la probabilidad de un suceso pasa de 0,60 a 0,40, su ventaja pasa de 1,5 a 0,67 (disminuye 0,83 puntos). La razn de las ventajas expresa esta disminucin adoptando un valor de 0,67/1,5 = 0,44, el cual indica que la ventaja del suceso ha disminuido un 56%: 0,56(1,5) = 0,83. En contextos relacionados con la salud, cuando el evento de inters se refiere a la aparicin de una enfermedad o algn desenlace fatal, a las variables independientes cuya razn de las ventajas es mayor que 1 se les suele llamar factores de riesgo y a la variables independientes cuya razn de las ventajas es menor que 1, factores de proteccin.
Anlisis de Regresin logstica mltiple

Hasta ahora, por motivos didcticos, se han descrito los aspectos bsicos de la regresin logstica utilizando una sola variable independiente. Sin embargo, lo habitual es intentar que un modelo alcance la mayor capacidad discriminativa posible incluyendo en l ms de una variable independiente. Este ejemplo muestra cmo ejecutar e interpretar un anlisis de regresin logstica utilizando ms de una variable independiente. Se sigue utilizando el archivo GSS93 reducido.sav, la misma variable dependiente que en el primer ejemplo ( voto) y, adems de la variable independiente all utilizada (leer), otras cuatro nuevas: En el cuadro de dilogo Regresin logstica, seleccionar la variable voto (Vot en 1992?) y trasladarla al cuadro Dependiente. Seleccionar las variables leer (Lee el peridico?), edad (Edad del encuestado), hijos (Nmero de hijos), educ (Aos de escolarizacin) e ingfam91 (Ingresos familiares en 1991), y trasladarlas a la lista Covariables.
Aceptando estas elecciones, el Visor ofrece, entre otros, los resultados que muestran las tablas 14 a la 18. Tabla 14
Variables que no estn e n la e cuacin Pas o 0 Variables LEE EDAD EDUC INGFAM91 HIJOS Puntuacin 45,137 20,956 60,910 53,935 ,188 136, 954 gl 1 1 1 1 1 5 Sig. ,000 ,000 ,000 ,000 ,664 ,000
Estadsticos globales
La tabla 14 contiene los valores del estadstico de puntuacin de Rao. Este estadstico mide la contribucin individual de cada variable a la mejora del ajuste global del modelo. El nivel crtico (Sig) asociado a cada estadstico indica qu variables contribuyen significativamente al ajuste. Puede verse que, exceptuando la variable hijos, todas las variables incluidas en el anlisis son significativas; por tanto, buenas candidatas para formar parte del modelo de regresin. La ltima lnea, Estadsticos globales, contiene una valoracin global de todas las variables independientes tomadas juntas.
173
Tabla 15 Contrastes de ajuste global

Pruebas om nibus sobre l os coe ficiente s del m odelo Pas o 1 Pas o Bloque Modelo Chi-cuadrado 143, 754 143, 754 143, 754 gl 5 5 5 Sig. ,000 ,000 ,000
La tabla 15 ofrece una prueba de ajuste global. El estadstico chi-cuadrado permite contrastar la hiptesis de que el incremento obtenido en el ajuste global del modelo es nulo. Este estadstico sirve para determinar si, al introducir las cinco variables independientes en el modelo, se consigue un incremento significativo del ajuste global. Este incremento se valora tomando como punto de referencia el modelo nulo. Puesto que el modelo se construye en un nico paso (pues se est utilizando el mtodo introducir; ver siguiente apartado), todas las secciones de tabla informan del mismo valor; la mejora respecto al modelo nulo, es decir, respecto al modelo del paso 0 (Chi-cuadrado = 143,754). En el ejemplo, esta mejora es significativa: Sig. = 0.000.
Tabla 16
Pas o 1
La tabla 16 ofrece un resumen del modelo. Contiene tres estadsticos que permiten valorar el ajuste global del modelo en el paso 1, es decir, del modelo que incluye todas las variables. Comparando estos resultados con los de la tabla 11 se puede apreciar que los valores de los estadsticos de Cox y Snell y de Nagelkerke han mejorado, si bien siguen siendo modelos pensando en trminos de un modelo lineal. Tabla 17
Pas o 1
S vot No vot
174
La tabla 17 muestra la matriz de confusin con los resultados de la clasificacin. Comparando estos resultados con los del modelo que nicamente incluye la variable leer (Ver tabla 12), puede apreciarse que el porcentaje global de clasificacin correcta ha aumentado: ha pasado del 71,6 % al 74,0%. Sin embargo, el porcentaje de clasificacin correcta sigue siendo mucho mayor en el grupo de votantes que en el de no votantes. Segn se explicar ms adelante, aunque no es posible mejorar el porcentaje global de clasificacin correcta sin incluir nuevas variables independientes, si es posible equilibrar la tasa de aciertos en los dos grupos manipulando el punto de corte utilizado en la clasificacin. Tabla 18
Variables e n la ecuacin Pas a o 1 LEE EDA D EDUC INGFAM91 HIJOS Constante B ,671 -,034 -,192 -,056 ,018 3,636 E.T. ,207 ,006 ,032 ,016 ,051 ,526 Wald 10,468 36,188 35,276 12,722 ,125 47,706 gl 1 1 1 1 1 1 Sig. ,001 ,000 ,000 ,000 ,723 ,000 Exp(B) 1,956 ,967 ,825 ,945 1,018 37,957
a. Variable(s) introduc ida(s) en el pas o 1: LE E, EDA D, EDUC, INGFAM91, HIJOS.
La tabla de variables incluidas en la ecuacin (tabla 18) muestra las estimaciones de los coeficientes del modelo (B) y los datos necesarios para valorar su significacin e interpretarlos. La significacin de cada coeficiente se evala a partir del estadstico de Wald. Este estadstico permite contrastar la hiptesis nula de que el coeficiente vale cero en la poblacin y se obtiene elevando al cuadrado el cociente entre el valor estimado del coeficiente (B) y su error tpico (error tip). Es un estadstico similar a una t . Cuando el nivel crtico (Sig.) asociado al estadstico de Wald es menor que 0,05, se puede rechazar la hiptesis nula y, por tanto, concluir que la correspondiente VI est significativamente relacionada con la VD. Un inconveniente de este estadstico es que es demasiado sensible al tamao de los coeficientes; en general, cuando el valor de un coeficiente es muy grande (en valor absoluto) el estadstico de Wald es poco fiable. En estos casos es preferible evaluar la significacin de las variables utilizando un mtodo por pasos (ver siguiente apartado). El coeficiente asociado a la variable hijos no es significativo (Sig. > 0,05) por lo que, en principio, no parece que sea necesario incluir esta variable en el modelo final. El resto de coeficientes son significativos. Por lo que puede afirmarse que todas las variables excepto hijos contribuyen significativamente a mejorar el ajuste del modelo. De todos los coeficientes significativos (Sig. < 0,05), slo el correspondiente a la variable leer es positivo, por lo que ya se puede anticipar que slo la razn de las ventajas de esta variable tendr un valor mayor que uno: la abstencin ( voto = 1) es ms probable entre los sujetos que no leen el peridico (leer = 1). La columna de la razn de las ventajas, Exp(B), permite cuantificar en qu grado aumenta la abstencin cuando los sujetos no leen el peridico (y se mantienen constantes las restantes variables). Puesto que el punto de comparacin es el valor 1 y el Exp(B) de la variable leer vale 1,956, se puede concluir que al ventaja de la abstencin entre los sujetos que no leen el peridico es aproximadamente el doble que entre los que s lo leen. El signo negativo del resto de los coeficientes indica que el incremento en cualquiera de las dems variables disminuye la probabilidad de que un sujeto no vote: la abstencin es menos probable a medida que aumentan la edad, los ingresos familiares y los aos de escolarizacin. La razn de las ventajas de, por ejemplo, la variable educ (aos de escolarizacin) vale Exp(B) =
2
175
0,825; como de nuevo el valor de comparacin es 1, se puede afirmar que por cada ao ms de escolarizacin se consigue una reduccin proporcional de la ventaja de 1-0,825 = 0,175; lo que significa que cada ao adicional de escolarizacin reduce la ventaja de la abstencin en un 17,5%. Con variables cuantitativas como la edad suele resultar ms conveniente interpretar la razn de las ventajas asociada a una dcada en lugar de la razn de las ventajas asociada a un solo ao. En ese caso, la razn de las ventajas asociada a un cambio de k unidades se obtiene mediante e , siendo B el coeficiente de regresin correspondiente al cambio de una unidad. En el ejemplo, la
kB
razn de las ventajas asociada a una dcada vale e
10 ( 0 , 034 )
0,712 , lo que significa que por cada
diez aos que aumenta la edad de los sujetos, la ventaja de la abstencin disminuye un 100 (1 0,712) = 28,8%. Conviene sealar que los coeficientes del modelo de regresin logstica estn expresados en la mtrica original de las variables. A diferencia de lo que ocurre en el modelo de regresin lineal mltiple, aqu no es posible tipificar los coeficientes para valorar la importancia relativa de las variables. A pesar de eso, la interpretacin de la razn de las ventajas se realiza en trminos del cambio producido en la ventaja del suceso de inters por unidad de cambio producido en la variable independiente. Pero no parece que suponga el mismo esfuerzo cumplir un ao ms de edad que superar un ao ms de estudios. Para resolver este problema es habitual transformar la escala original de las variables independientes; cuando se utilizan variables tipificadas es ms fcil interpretar la importancia relativa de una variable.
Anlisis de regresin logstica por pasos

Hasta ahora slo se ha explicado cmo construir modelos de regresin logstica en un nico paso, es decir, forzando la inclusin en el modelo de todas las variables independientes seleccionadas para el anlisis. Pero esta no es la nica ni, muchas veces, la mejor manera de proceder. Cuando, como es habitual, se dispone de ms de una variable independiente, existen varios mtodos para seleccionar la variable o variables que deben formar parte del modelo de final: la introduccin forzosa, la seleccin por pasos y la seleccin por bloques. El mtodo de introduccin forzosa hace que el modelo de regresin incluya todas las variables independientes seleccionadas. Tiene la ventaja de que permite establecer el efecto conjunto de todas las variables cuando existe colinealidad. Pero, como contrapartida, puede darse el caso de que un modelo incluya variables que no contribuyen al ajuste del modelo. Los mtodos de seleccin por pasos permiten utilizar criterios estadsticos para, de forma automtica, incluir en el modelo las variables que son significativas y dejar fuera las que no lo son. Estos mtodos dan lugar a modelos que slo incluyen variables significativas, pero tienen el inconveniente de que pueden dejar fuera del modelo variables terica o conceptualmente relevantes. Los mtodos de seleccin por bloques permiten al usuario manipular la inclusin y/o exclusin de variables mediante la combinacin secuenciada de distintos procedimientos, pudiendo generar modelos jerrquicos.
Mtodos de seleccin de variables

Las opciones del men desplegable Mtodo permiten decidir qu mtodo de seleccin de variables se desea utilizar para construir el modelo de regresin. En los mtodos de seleccin por pasos, la inclusin (y la exclusin) de variables se basa en criterios estadsticos: slo se incluyen las variables que contribuyen al ajuste global del modelo, es decir, las variables que
176
ayudan a mejorar la capacidad predictiva del modelo. Para decidir qu variables contribuyen al ajuste del modelo, todos los mtodos de seleccin de variables utilizan el estadstico de puntuacin de Rao. Para la exclusin de variables se puede elegir entre el estadstico de Wald, el
cambio en la razn de verosimilitudes y el estadstico condicional. Los mtodos hacia adelante parten del modelo nulo (modelo que no incluye ninguna variable
independiente) y van incluyendo variables paso a paso hasta que no quedan variables significativas por incluir. Los mtodos hacia atrs parten del modelo saturado (modelo que incluye todas las variables seleccionadas por el usuario) y van excluyendo variables pasos a paso hasta que no quedan variables no-significativas por excluir. Introducir. Es el mtodo que acta por defecto. Construye el modelo de regresin, en un solo paso, con todas las variables independientes seleccionadas en la lista Covariables. Adelante: Condicional. Mtodo de seleccin por pasos hacia delante que, partiendo del modelo nulo, va incorporando aquellas variables cuyo estadstico de puntuacin, siendo significativo, posee la probabilidad asociada ms pequea. Tras incorporar al modelo una nueva variable, todas las variables incluidas hasta ese momento son revisadas para determinar si existe alguna que debe ser excluida (es decir, para determinar si, como consecuencia de la nueva incorporacin, el estadstico de puntuacin de alguna variable ha dejado de ser significativo). El proceso se detiene cuando entre las variables no incluidas en el modelo no queda ninguna cuyo estadstico de puntuacin sea significativo. Adelante: RV. Mtodo similar al condicional pero que difiere en el estadstico utilizado para evaluar la exclusin de variables: en lugar del estadstico de puntuacin de Rao se utiliza la razn de verosimilitudes (RV). Con este mtodo, se van eliminando por turno cada una de las variables del modelo y evaluando si la variable eliminada hace o no perder ajuste. El estadstico RV contrasta la hiptesis nula de que la variable eliminada tiene un coeficiente igual a 0. El valor de RV para el modelo con esa variable. Adelante: Wald. Mtodo similar al condicional que, para excluir variables del modelo, en lugar del estadstico de puntuacin de Rao, utiliza el estadstico de Wald. Una variable es excluida del modelo si la significacin asociada al estadstico de Wald es mayor que 0.10. Atrs: Condicional. Mtodo de seleccin por pasos hacia atrs en el que, partiendo del modelo saturado y utilizando el estadstico de puntuacin de Rao, se van eliminando variables no significativas una a una hasta que no es posible seguir eliminando variables porque todas las que quedan en el modelo son significativas. Atrs: RV. Mtodo de seleccin por pasos hacia atrs. La exclusin de variables se basa en la razn de verosimilitudes. Atrs: Wald. Mtodo de seleccin por pasos hacia atrs. La exclusin de variables se basa en el estadstico de Wald.
Ejemplo (Regresin logstica por pasos)

Este ejemplo muestra cmo ejecutar e interpretar un anlisis de regresin logstica utilizando un mtodo de seleccin por pasos (en concreto, el mtodo adelante: condicional). Se siguen utilizando las mismas variables del ejemplo anterior: En el cuadro de dilogo Regresin logstica seleccionar la variable voto (Vot en 1992?) y trasladarla al cuadro Dependiente.
177
Seleccionar las variables leer (Lee el peridico?), edad (Edad del encuestado), hijos (Nmero de hijos). Educ (Aos de escolarizacin) e ingfam91 (ingresos familiares en 1991), y trasladarlas a la lista de Covariables. Pulsar el botn de men desplegable del recuadro Mtodo y seleccionar el mtodo Adelante: Condicional.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las tablas 19 a la 23. Tabla 19
Pruebas om nibus sobre l os coe ficiente s del m odelo Pas o 1 Pas o Bloque Modelo Pas o Bloque Modelo Pas o Bloque Modelo Pas o Bloque Modelo Chi-cuadrado 61,826 61,826 61,826 55,422 117, 248 117, 248 15,904 133, 152 133, 152 10,477 143, 629 143, 629 gl 1 1 1 1 2 2 1 3 3 1 4 4 Sig. ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,001 ,000 ,000
Pas o 2
Pas o 3
Pas o 4
La tabla 19 ofrece una prueba de ajuste global. Recurdese que el estadstico chi-cua-drado permite contrastar la hiptesis de que la mejora obtenida en el ajuste es nula. La tabla informa, paso a paso, de las variaciones producidas en el ajuste como consecuencia de la incorporacin (o eliminacin) de cada nueva variable. En cada paso se muestran tres tipo de informacin: la fila Paso informa sobre la mejora en el ajuste debida a la variable recin incorporada (la mejora se evala respecto al ajuste obtenido en el paso previo); la fila Bloque se refiere a la mejora en el ajuste debida al bloque de variables recin incorporado(slo til si se utiliza un mtodo de seleccin de variables por bolques); la fila Modelo informa sobre la mejora en el ajuste debida al total de variables incluidas (la mejora se evala respecto a la obtenida en el paso 0). En el primer paso se incluye la variable educ (ver tabla 21); y la inclusin de esta variable supone una mejora significativa del ajuste (Sig. = 0,000). En el segundo paso se incluye la variable edad (ver tabla .21); su inclusin (Paso) supone una mejora significativa del ajuste respecto al paso anterior, y el modelo resultante (Modelo), que en este segundo paso incluye el trmino constante y la variable edad y educ, tambin ofrece una mejora significativa del ajuste. Etc. El modelo consta de 4 pasos y es en el ltimo donde se consigue el mejor ajuste.
178
Tabla 20
Resumen de los model os -2 log de la R cuadrado verosimilitud de Cox y S nell 1052,320a ,064 b 996,899 ,118 980,995b ,133 970,518b ,143 R cuadrado de Nagelkerke ,092 ,169 ,191 ,205
Pas o 1 2 3 4
a. La estimac in ha finalizado en el nmero de iteracin 4 porque las est imaciones de los parmetros han cambiado en menos de ,001. b. La estimac in ha finalizado en el nmero de iteracin 5 porque las est imaciones de los parmetros han cambiado en menos de ,001.
En los estadsticos de ajuste global de la tabla 28.20 tambin se puede apreciar que el ajuste global del modelo va mejorando en cada paso, mientras que el valor de la razn de verosimilitudes (-2 log de la verosimilitud) va disminuyendo paulatinamente. Tabla 21
Variables e n la ecuacin Pas a o 1 Pas b o 2 EDUC Constante EDA D EDUC Constante EDA D EDUC INGFAM91 Constante LEE EDA D EDUC INGFAM91 Constante B -,190 1,474 -,036 -,262 3,976 -,035 -,211 -,062 4,171 ,675 -,033 -,194 -,056 3,654 E.T. ,025 ,323 ,005 ,029 ,497 ,005 ,031 ,016 ,501 ,207 ,005 ,032 ,016 ,524 Wald 55,734 20,829 49,291 81,079 64,098 48,098 45,555 15,821 69,170 10,623 41,045 37,042 12,597 48,591 gl 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Sig. ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,001 ,000 ,000 ,000 ,000 Exp(B) ,827 4,365 ,965 ,769 53,287 ,966 ,809 ,940 64,768 1,964 ,968 ,824 ,946 38,618
Pas c o 3
Pas d o 4
a. Variable(s) introduc ida(s) en el pas o 1: EDUC. b. Variable(s) introduc ida(s) en el pas o 2: EDAD. c. Variable(s) introduc ida(s) en el pas o 3: INGFAM91. d. Variable(s) introduc ida(s) en el pas o 4: LE E.
La tabla.21 informa sobre las variables incorporadas al modelo en cada uno de los pasos. Tambin informa sobre las estimaciones de los coeficientes y su significacin. Generalmente, el paso que interesa valorar es el ltimo, pues es el que contiene el modelo final. De las cinco variables independientes seleccionadas para el anlisis, el mtodo por pasos utilizado ha seleccionado cuatro. En el ejemplo anterior, en el que el modelo construido inclua las cinco variables, la variable hijos tena asociado un coeficiente no significativo. Ahora, al proceder por pasos, la variable hijos ha quedado fuera. El modelo final slo incluye variables cuyos coeficientes son significativamente distintos de cero.
179
Tabla 22
a Modelo si se elim ina el trmino
Variable Pas o 1 EDUC Pas o 2 EDA D EDUC Pas o 3 EDA D EDUC INGFAM91 LEE EDA D EDUC INGFAM91
Log verosimilitud del modelo -557,366 -526,576 -547,402 -517,851 -516,008 -498,482 -490,503 -508,231 -505,730 -491,586
Cambio en -2 log de la verosimilitud 62,413 56,254 97,906 54,708 51,021 15,969 10,488 45,944 40,943 12,654
gl 1 1 1 1 1 1 1 1 1 1
Sig. del cambio ,000 ,000 ,000 ,000 ,000 ,000 ,001 ,000 ,000 ,000
Pas o 4
a. Segn las estimac iones condicionales de los parmetros
La tabla 22 ofrece, para cada paso, una evaluacin de la prdida de ajuste que se producira en el modelo si se eliminaran, una a una, las variables ya incluidas. Esto sirve para valorar la pertinencia de excluir en un paso dado alguna de las variables previamente incluidas. Recurdese que los mtodos de seleccin de variables por pasos hacia delante permiten la exclusin de una variable previamente incluida si se aprecia una prdida en su significacin como consecuencia de la incorporacin de nuevas variables. Lo que ha ocurrido en el ejemplo es que no se ha excluido ninguna de las variables previamente incluidas (cosa, por otra parte, bastante habitual). Tabla 23
Variables que no estn e n la ecuacin Pas o 1 Variables LEE EDA D HIJOS INGFAM91 LEE HIJOS INGFAM91 LEE HIJOS HIJOS Puntuacin 24,618 52,000 6,976 17,686 80,186 14,238 ,035 16,116 26,902 10,780 ,274 10,911 ,126 ,126 gl 1 1 1 1 4 1 1 1 3 1 1 2 1 1 Sig. ,000 ,000 ,008 ,000 ,000 ,000 ,851 ,000 ,000 ,001 ,601 ,004 ,723 ,723
Pas o 2
Estadsticos globales Variables
Pas o 3
Estadsticos globales Variables Estadsticos globales Variables Estadsticos globales
Pas o 4
La tabla 23 muestra informacin sobre las variables todava no incluidas en el modelo en cada paso. El estadstico de puntuacin de Rao permite apreciar qu variable ser incluida en el
180
siguiente paso: aquella a la que corresponde el mayor estadstico de puntuacin (siempre que ste sea significativo). En la tabla se puede ver que, de las variables no incluidas en el primer paso, la variable edad es la que tiene un estadstico de puntuacin ms alto (52,013); como adems es significativo ( Sig. = 0,000), esa ser la variable incorporada al modelo en el siguiente paso. En el resto de los pasos se aplica el mismo criterio. La informacin de la tabla 23 puede resultar interesante para apreciar cmo, por efecto de la presencia de colinealidad, algunas variables van perdiendo significacin antes de poder ser incluidas en el modelo. La variable hijos, por ejemplo, podra haber entrado en el paso 1, pero la informacin que comparte con la variable edad impide que pueda entrar en pasos sucesivos.
Variables Categricas
A diferencia de lo que ocurre con el anlisis discriminante, el anlisis de regresin logstica ofrece la posibilidad de utilizar variables independientes categricas (nominales u ordinales). El procedimiento permite identificar y definir las variables categricas incluidas en la lista de variables independientes y decidir qu tratamiento recibirn en el anlisis. Cuando una variable categrica est codificada como una variable indicador, es decir, con cdigos 0 y 1 (uno de ellos indicando la ausencia de la caracterstica y el otro indicando la presencia de la caracterstica), la variable puede introducirse directamente en el anlisis sin necesidad de ninguna aclaracin adicional (de hecho, ya se ha utilizado una variable indicador en los ejemplos previos). Pero si los cdigos de una variable categrica no son 0 y 1, o sta tiene ms de dos categoras, es necesario definir la variable como categrica e indicar el tratamiento que debe recibir. Para decidir qu variables deben ser tratadas como categricas: Pulsar el botn Categrica... del cuadro de dilogo Regresin logstica para acceder al subcuadro de dilogo Regresin logstica: Definir variables categricas que muestra la figura
181
Seleccionar, en la lista Covariables, la(s) que debe(n) ser tratada(s) como categrica(s) y trasladarla(s) a la lista Covariables categricas. Seleccionar, en la lista Covariables categricas, la variable que se desea definir (o todas las variables que se desea definir de la misma manera) y utilizar el men desplegable Contraste para seleccionar un tipo de contraste (en el caso de que se desee aplicar un contraste distinto de contraste Indicador, que es el que se aplica por defecto). Pulsar el botn Cambiar para hacer efectivos los cambios y el botn Continuar para volver al cuadro de dilogo principal.
Ejemplo (Regresin Logstica > Categrica) Este ejemplo muestra cmo definir una variable categrica e interpretar los resultados relacionados con ella. Se sigue utilizando la misma variable dependiente que en las ejemplos anteriores (voto) y, como variable independiente, se utiliza la variable sitlab (situacin laboral), una variable categrica con 8 niveles o categoras. En el cuadro de dilogo Regresin logstica seleccionar la variable voto y trasladarla al cuadro Dependiente. Seleccionar la variable sitlab y trasladarla a la lista Covariables. Pulsar el botn Categrica... para acceder al subcuadro de dilogo Regresin logstica:
Definir variables categricas Seleccionar la variable sitlab en la lista Covariables y trasladarla a la lista Covariables
categricas. Dejar Indicador como opcin del recuadro Contraste y pulsar el botn Continuar para volver al cuadro de dilogo principal. Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las tablas 24 y 25 (slo se explican los resultados relacionados con la variable categrica incluida en el anlisis). Tabla 24
Codificaciones de varia bles ca tegricas Codificacin de parmetros (3) (4) (5) ,000 ,000 ,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000
Situacin laboral
Frec uencia A tiempo completo 724 A tiempo parcial 159 Temporalmete 28 desempleado Des empleado 50 Retirado 224 Estudiante 38 Ama de cas a 195 Otro 34
(1) 1,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
(2) ,000 1,000 ,000 ,000 ,000 ,000 ,000 ,000
(6) ,000 ,000 ,000 ,000 ,000 1,000 ,000 ,000
(7) ,000 ,000 ,000 ,000 ,000 ,000 1,000 ,000
La tabla 24 muestra la codificacin asignada a las categoras de la variable sitlab. La variable se ha descompuesto en 7 variables indicador. A todas las categoras (excepto a la ltima) se les ha asignado el valor 1 en la columna correspondiente al parmetro que la va a representar en la estimaciones del modelo. El resto de valores en la misma fila y columna son cero. Esta informacin sirve para saber que, ms adelante, la categora A tiempo completo va a estar representada por el parmetro o coeficiente 1, la categora A tiempo parcial por el parmetro o coeficiente 2, etc. Por supuesto, cambiando el esquema de codificacin (contraste) en el correspondiente cuadro de dilogo, cambiarn los cdigos asignados a cada categora.
182
Tabla 25
Variables e n la ecuacin B Pas a o 1 SITLAB SITLAB(1) SITLAB(2) SITLAB(3) SITLAB(4) SITLAB(5) SITLAB(6) SITLAB(7) Constante -1,019 -1,193 -1,526 ,323 -1,052 -,773 -,580 ,000 E.T. ,353 ,391 ,601 ,447 ,375 ,489 ,374 ,343 Wald 36,819 8,327 9,312 6,449 ,522 7,847 2,497 2,403 ,000 gl 7 1 1 1 1 1 1 1 1 Sig. ,000 ,004 ,002 ,011 ,470 ,005 ,114 ,121 1,000 Exp(B) ,361 ,303 ,217 1,381 ,349 ,462 ,560 1,000
a. Variable(s) introduc ida(s) en el pas o 1: SITLAB.
La tabla 25 ofrece las estimaciones de los coeficientes del modelo y su significacin ( Sig). Estos coeficientes corresponden a la variable sitlab, a los parmetros categricos definidos al codificar las categoras de la variable sitlab en la tabla 24 y a la constante del modelo. La primera fila, encabezada con el nombre de la variable, ofrece un contraste de la variable sitlab globalmente considerada. Si este contraste de la variable sitlab no fuera significativo, carecera de sentido seguir inspeccionando los parmetros categricos en los que se descompone la variable. A continuacin se muestran las estimaciones de los parmetros y su significacin. La interpretacin que debe hacerse de esta informacin depende del tipo de codificacin asignada (es decir, del tipo de contraste elegido). En el ejemplo, dado que se ha asignado una codificacin tipo indicador, cada uno de los coeficientes B representa a una categora de la variable sitlab. Un coeficiente significativo (es decir, un coeficiente son Sig. < 0,05) indica que la categora a la que representa difiere significativamente de la categora de referencia (en el ejemplo, la ltima). Los coeficientes 4, 6 y 7 no son significativos, por lo que se puede afirmar que los sujetos de las categoras Desempleado, Estudiante y Ama de casa no difieren significativamente de los sujetos de la categora Otro. Se puede considerar que la prob abilidad de abstencin de estas tres categoras no difiere de la probabilidad de abstencin de la categora de referencia. Los coeficientes 1, 2, 3 y 5 son significativos (Sig. < 0,05) y con una razn de las ventajas o Exp(B) menor que 1 en todos los casos. Se puede afirmar, por tanto, que en las categoras A tiempo completo, A tiempo parcial, Temporalmente desempleado y Retirado, l a probabilidad de no votar (voto = 1) es menor que en la categora de referencia Otro.
Guardar pronsticos y residuos

En ocasiones puede interesar llevar a cabo un estudio pormenorizado de los casos que componen la muestra utilizada en el anlisis, o utilizar en otros procedimientos los resultados de la clasificacin realizada por la regresin logstica. El SPSS permite guardar en el archivo de datos algunos de los resultados generados por el procedimiento Regresin logstica. Para guardar como variables estos resultados: Pulsar el botn Guardar... del cuadro de dilogo Regresin logstica para acceder al subcuadro de dilogo Regresin logstica: Guardar nuevas variables
183
Valores pronosticados. Las opciones de este recuadro permiten crear variables nuevas basadas en los pronsticos del modelo: Probabilidades. Crea una variable en la que, a cada caso del archivo de datos, se le asigna la probabilidad pronosticada por el modelo (la probabilidad de pertenecer a la categora de la variable dependiente codificada con un 1). Grupo de pertenencia. Crea una variable en la que, a cada caso del archivo de datos, se le asigna el grupo (categora de la variable dependiente) en el que ha sido clasificado por el modelo a partir del punto de corte seleccionado en el cuadro de dilogo Opciones. El punto de corte por defecto es 0,5. Influencia. Las opciones de este recuadro permiten crear variables con informacin relacionada con la influencia (peso, importancia) de cada caso en el modelo de regresin: o De Cook. La distancia de Cook (1977) mide el cambio que se produce en las estimaciones de los coeficientes de regresin al ir eliminando cada caso de la ecuacin de regresin. Una distancia de Cook grande indica que ese caso tiene un peso considerable en la estimacin de los coeficientes. Para evaluar estas distancias puede utilizarse la distribucin F con p + 1 y n p 1 grados de libertad (p se refiere al nmero de variables independientes y n al tamao de la muestra). En general, un caso con una distancia de Cook superior a 1 debe ser revisado. o Valores de influencia. Representan la influencia potencial de cada caso en el modelo de regresin. Un valor de influencia es una medida normalizada del grado de distanciamiento de un punto respecto del centro de su distribucin. Los puntos muy alejados pueden influir de forma muy importante en la ecuacin de regresin, pero no necesariamente tienen por qu hacerlo. Los valores de influencia se encuentran entre 0 y 1, y su valor promedio es p/n, donde p es el nmero de parmetros estimados (incluida la constante) y n es el tamao de la muestra. o BfBetas. (diferencia en las betas). Mide el cambio que se produce en los coeficientes de regresin estandarizados (betas) como consecuencia de ir eliminando cada caso de la ecuacin de regresin. El SPSS crea en el Editor de datos tantas variables nuevas como coeficientes beta tiene la ecuacin de regresin, incluida la constante.
Residuos. Las opciones de este recuadro permiten crear variables que contienen informacin relacionada con los residuos: No tipificados. A cada caso le corresponde un residuo no tipificado o bruto R1 resultado de restar la probabilidad pronosticada por el modelo a la probabilidad observada:
Ri
Pi
Pi ` (estas probabilidades se refieren al
evento de inters, es decir a la categora de la variable dependiente codificada internamente con un 1; as, Pi se refiere a la probabilidad observada de que el caso i pertenezca a la categora 1). Logit. Residuos en cala logit RLi . El residuo logit es el residuo no tipificado dividido por la varianza de su pronstico RLi
Ri / Pi (1
Pi )
Mtodo de Student. Guarda los residuos estudentizados, los cuales representan el cambio observado en la desviacin del modelo al excluir cada caso del modelo.
184
Tipificados. Los residuos tipificados se obtienen dividiendo los residuos no tipificados por una estimacin de su error tpico. En el caso de la regresin logstica, un residuo se tipifica dividindolo por la raz cuadrada de Pi 1 Pi . Los residuos tipificados, tambin conocidos como residuos de Pearson o residuos estandarizados, se distribuyen de forma aproximadamente normal con media 0 y desviacin tpica 1. Desvianza. La desvianza se define como la raz cuadrada de 2 ln
Pi , siendo Pi ' ' la probabilidad pronosticada para el grupo real (es decir, la
probabilidad pronosticada de que un caso pertenezca al grupo categora de la variable dependiente- que realmente pertenece). El procedimiento calcula la desvianza asignado la raz cuadrada positiva si en caso pertenece a la categora codificada con un 1, y asignando la raz cuadrada negativa si el caso no pertenece a esa categora. Con nuestra grandes, la desvianza se distribuye de forma aproximadamente normal.
''
Ejemplo (Regresin logstica > Guardar)

Este ejemplo muestra cmo crear y almacenar, en el Editor de datos, nuevas variables con informacin relativa a algunos resultados del anlisis de regresin logstica. Al igual que en los ejemplos anteriores, se va a utilizar la variable voto (Vot en 1992?) como variable dependiente; y, como variables independientes, las variables leer (Lee el peridico?), edad (Edad del encuestado), titestud (Ttulo escolar), indsocec (ndice socioeconmico del encuestado) y telenov (Frecuencia de visualizacin de telenovelas): En el cuadro de dilogo Regresin logstica seleccionar la variable voto y trasladarla al cuadro Dependiente. Seleccionar las variables leer, edad, titestud, indsocec y telenov, y trasladarlas a la lista de Covariables. Pulsar el botn Guardar... para acceder al subcuadro de dilogo Regresin logstica: Guardar nuevas variables y seleccionar las opciones Probabilidades y Grupo de pertenencia del recuadro Valores pronosticados, y la opcin Tipificados del recuadro Residuos. Pulsar el botn Continuar para volver al cuadro dilogo principal.
Aceptando estas selecciones, el Visor ofrece, entre otros, los recuadros que muestran las tablas 28.28 a la 28.30. Adems, el Editor de datos genera estas tres nuevas variables:
Pre_1, con etiqueta Predicted probability (probabilidad pronosticada). Pre_2, con etiqueta Predicted group (grupo pronosticado). Zre_1, con etiqueta Normalizad residual (residuo tipificado).
La tabla 26 muestra el porcentaje de casos correctamente clasificados en cada uno de los grupos. La tabla sugiere que el punto de corte utilizado por defecto (0,5) puede ser mejorado, pues aunque el porcentaje global de casos correctamente clasificados es del 74,1%, en el grupo de no votantes slo se clasifica correctamente al 26,9% de los casos.
185
Tabla 26
Pas o 1
S vot No vot
La tabla 27 muestra las estimaciones de los coeficientes del modelo y su significacin. Al igual que en un modelo de regresin lineal, estos coeficientes pueden utilizarse para construir una ecuacin lineal y, de esta forma, obtener los pronsticos:
Pr = 1,415 + 0,894 leer - 0,030 edad - 0,576 titestud - 0,017 indsocec + 0,137 telenov Tabla 27
Variables en la e cuacin Pas a o 1 LEE EDAD TITESTUD INDSOCEC TELENOV Constante B ,894 -,030 -,576 -,017 ,137 1,415 E.T. ,210 ,005 ,104 ,006 ,068 ,352 Wald 18,125 37,196 30,461 8,698 4,115 16,134 gl 1 1 1 1 1 1 Sig. ,000 ,000 ,000 ,003 ,043 ,000 Exp(B) 2,445 ,970 ,562 ,983 1,147 4,117
a. Variable(s) introducida(s) en el paso 1: LEE, EDAD, TITESTUD, INDSOCEC, TELENOV.
Transformando Pr a escala logstica se obtienen las probabilidades pronosticadas por el modelo. Es decir, las probabilidades que el modelo pronostica y que se acaban de almacenar en la variable pre_1 se obtienen transformando Pr (la ecuacin de regresin lineal) a escala logstica:
PY
1 1 e
Pr
Una vez obtenidos los pronsticos, puede cambiarse el punto de corte ensayando valores que ofrezcan un mejor equilibrio entre las proporciones de clasificacin correcta en ambos grupos (esto se hace desde el cuadro de dilogo Opciones; ver siguiente apartado). La tabla 28 muestra algunos estadsticos descriptivos referidos a las tres nuevas variables creadas por el procedimiento en el Editor de datos. Estos descriptivos se han obtenido con el procedimiento Estadsticos descriptivos > Descriptivos del men Analizar. Observando la tabla se ve, por ejemplo, que las probabilidades pronosticadas oscilan entre 0,01 y 0,81 y que la proporcin de casos clasificados en el grupo o categora 1, es decir, la media del grupo pronosticado) vale 0,128: el procedimiento, utilizando el punto de corte establecido por defecto (0,5), ha clasificado en el grupo de no votantes al 12,8% de los casos. Tabla 28
186
Esta dsticos descriptivos N Probabilidad pronosticada Grupo pronosticado Res iduo normalizado N vlido (segn list a) 953 953 925 925 Mnimo ,01504 0 -1,83720 Mx imo ,80736 1 6,01187 Media ,2852953 ,13 ,0054241 Des v. tp. ,17746283 ,334 1,017198
En relacin con los residuos tipificados, se observa, en primer lugar, que su media vale aproximadamente 0 y su desviacin tpica aproximadamente 1. Se aprecia que existe al menos un caso con un valor pronosticado considerablemente alto ( Mximo = 6,012): al menos un caso presenta un residuo que se aleja ms de 6 desviaciones tpicas por encima de la media de los pronsticos. El significado de los residuos en un modelo de regresin logstica no es muy distinto del de los residuos en un modelo de regresin lineal: un residuo alto (generalmente, un residuo situado a ms de 3 desviaciones tpicas por encima de la media) permite identificar a un sujeto que se ha abstenido a pesar de que sus puntuaciones en el conjunto de las variables independientes definen el perfil tpico de los sujetos que votan en las elecciones; por el contrario, un residuo bajo (generalmente, un residuo situado a ms de 3 desviaciones tpicas por debajo de la media) permite identificar a un sujeto que s ha votado a pesar de que sus puntuaciones en el conjunto de la variables independientes definen el perfil tpico de los sujetos que se abstienen.
Opciones
El cuadro de dilogo Opciones permite obtener informacin adicional a la que el procedimiento ofrece por defecto. Tambin permite controlar las probabilidades de entrada y salida utilizadas en los mtodos de seleccin por pasos, establecer el nmero mximo de iteraciones en el algoritmo de estimacin, decidir si el modelo debe o no incluir el trmino constante y cambiar el punto de corte que el procedimiento utiliza para clasificar los casos. Para utilizar estas opciones: Pulsar el botn Opciones... del cuadro de dilogo Regresin logstica para acceder al subcuadro de dilogo Regresin logstica: Las opciones de este recuadro permiten seleccionar algunos
Estadsticos y grficos. estadsticos y grficos.
Grficos de clasificacin. Genera un histograma apilado de las probabilidades pronosticadas por el modelo. En este histograma se distinguen los casos de cada uno de los dos grupos utilizados en el anlisis, el punto de corte utilizado en la clasificacin y los territorios de clasificacin. Bondad de ajuste de Hosmer- Lemeshow. Este ndice es til para evaluar el ajuste global del modelo, particularmente cuando se dispone de muchas variables independientes o cuando algunas de las variables independientes son continuas. Listado de residuos por caso. Genera un listado de los residuos no tipificados, de las probabilidades pronosticadas, del grupo observado y del grupo pronosticado: o Valores atpicos a ms de k desv. Tpicas. Limita el listado a los casos cuyo residuo tipificado se aleja de la media de los residuos ms de k desviaciones tpicas (en valor absoluto). o Todos los casos. Lista todos los casos incluidos en el anlisis.
187
Correlaciones de estimaciones. Ofrece la matriz de correlaciones entre las estimaciones de los parmetros del modelo. Historial de iteraciones. Genera un listado con los valores de los coeficientes estimados y del logaritmo de la funcin de verosimilitud en cada iteracin del proceso de estimacin. IC para Exp(B): _%. Incluye en la tabla de estimaciones de los coeficientes (variables en el modelo) el intervalo de confianza para el valor exponencial de cada coeficiente B . Este intervalo se construye, por defecto, con una confianza del 95%, pero es
posible cambiar el nivel de confianza introduciendo un valor entre 1 y 99. Mostrar. Las opciones de este recuadro permiten controlar el detalle con el que se generan los resultados: En cada paso. Se muestran los estadsticos, tablas y grficos correspondientes a cada paso de la estimacin. No se muestra el resumen de los pasos. En el ltimo paso. Se muestran los estadsticos, tablas y grficos correspondientes al modelo final de cada bloque. En estos resultados se resumen los pasos intermedios.
Probabilidades para los casos. Las opciones de este cuadro permiten modificar los niveles de significacin utilizados en los mtodos de seleccin por pasos. La probabilidad de Entrada (0,05 por defecto) se refiere al nivel de significacin utilizando para considerar que el coeficiente asociado a una variable todava no incluida en el modelo es distinto de cero y, por tanto, que la variable debe ser incluida en el modelo. Este valor es necesario para garantizar que el modelo final solo incluya variables que contribuyan significativamente al ajuste global. La probabilidad de Salida (0,10 por defecto) se refiere al nivel de significacin utilizando para considerar que el coeficiente asociado a una variable ya incluida en el modelo ha dejado de ser significativo (como consecuencia de la incorporacin de nuevas variables) y, por tanto, que la variable debe ser excluida del modelo. Este valor es necesario para garantizar que el modelo final no incluya variables que no contribuyan significativamente al ajuste global. La probabilidad de salida debe ser mayor que la de entrada. Punto de corte para la clasificacin. Esta opcin permite cambiar el valor del punto de corte utilizando en la clasificacin. Recurdese que el punto de corte es el valor que se utiliza para clasificar a los casos en uno u otro grupo o categora de la variable dependiente: los casos cuya probabilidad pronosticada es mayor que el punto de corte son clasificados en el grupo o categora codificada con un 1; los casos cuya probabilidad pronosticada es menor que el punto de corte son clasificados en el otro grupo o categora. El valor por defecto es 0,5. N mximo de iteraciones. Esta opcin permite establecer el nmero mximo de iteraciones que el algoritmo de estimacin puede llegar a recorrer en el proceso de estimacin de los coeficientes. El valor por defecto es 20, lo que suele ser suficiente en la mayora de los casos para encontrar un solucin. Incluir constante en el modelo. Esta opcin permite determinar si el modelo estimado debe o no incluir el trmino constante. Esta opcin (que se encuentra activa por defecto) no debe desactivarse hasta comprobar que la constante del modelo no es significativa.
188
Ejemplo (Regresin logstica > Opciones)

Este ejemplo muestra cmo personalizar las opciones del procedimiento Regresin logstica (tales como el punto de corte para la clasificacin) y cmo obtener e interpretar algunos resultados adicionales a los que el procedimiento ofrece por defecto. Al igual que en los ejemplos anteriores, se va a seguir utilizando la variable voto (Vot en 1992?) como variable dependiente; y, como variables independientes, las variables leer (Lee el peridico?), edad (Edad del encuestado), titestud (Ttulo escolar), indsocec (ndice socioeconmico del encuestado) y telenov (Frecuencia de visualizacin de telenovelas): En el cuadro de dilogo Regresin logstica seleccionar la variable voto y trasladarla al cuadro Dependiente. Seleccionar las variables leer, edad, titestud, indsosec y telenov, y trasladarlas a la lista de Covariables. Pulsar el botn Opciones... para acceder al subcuadro de dilogo Regresin logstica: Opciones y marcar todas las opciones del recuadro Estadsticos y grficos. Cambiar el Punto de corte para la clasificacin introduciendo el valor 0,30. Pulsar el botn Continuar para volver al cuadro de dilogo principal. Tabla 29
Variables e n la e cuacin I.C. 95,0% para EXP(B) Inferior Superior 1,620 3,691 ,961 ,980 ,458 ,690 ,972 ,994 1,005 1,310
Pas o a 1
LEE EDAD TITESTUD INDSOCEC TELENOV Constante
B ,894 -,030 -,576 -,017 ,137 1,415
E.T. ,210 ,005 ,104 ,006 ,068 ,352
Wald 18,125 37,196 30,461 8,698 4,115 16,134
gl 1 1 1 1 1 1
Sig. ,000 ,000 ,000 ,003 ,043 ,000
Exp(B) 2,445 ,970 ,562 ,983 1,147 4,117
a. Variable(s) introduc ida(s) en el paso 1: LEE, EDAD, TITESTUD, INDSOCEC, TELENOV.
La tabla 29 muestra las estimaciones de los coeficientes y su significacin. En esta ocasin, la tabla incluye, como novedad, los intervalos de confianza al 95% para cada valor Exp(B). Estos intervalos permiten contrastar la hiptesis nula de que la razn de las ventajas vale 1 en la poblacin (lo cual es equivalente a contrastar con el estadstico de Wald la hiptesis de que un coeficiente vale cero en la poblacin): cuando el intervalo de confianza no incluye el valor 1, se puede rechazar esa hiptesis y concluir que la correspondiente variable independiente posee un efecto significativo. Adems, los intervalos de confianza informan sobre la importancia relativa de las variables independientes: las variables a las que corresponden intervalos que se solapan son variables con un efecto similar; las variables con intervalos que nos e solapan son variables con un efecto significativamente distinto (aunque no debe olvidarse que la magnitud de la razn de las ventajas depende de la mtrica de las variables). Observando los valores de la tabla se ve que las cinco variables independientes incluidas en el anlisis poseen un efecto significativo: todos los niveles crticos ( Sig.) son menores que 0,05 y ningn intervalo de confianza incluye el valor 1. Por un lado, las variables leer y telenov tienen valores tienen valores Exp(B) significativamente mayores que 1, por lo que puede afirmarse que los sujetos que no leen el peridico y que no ven telenovelas (es decir, los sujetos a los que corresponden los cdigos ms altos en esas variables) tienden a no votar, si bien el efecto de variable leer es significativamente mayor que el de la variable telenov (pues los lmites de sus intervalos de confianza no se solapan y los de la variable leer son ms altos que los de la variable telenov). Por otro lado, la variables edad, titestud e indsocec tienen valores Exp(B)
189
significativamente menores que 1, por lo que puede afirmarse que los sujetos de menor edad, menor ttulo acadmico y menor ndice socioeconmico tienden a no votar, si bien el efecto de la variable titestud es significativamente mayor que el de las variables edad e indsocec, no existiendo diferencias significativas entre los efectos de estas dos ltimas variables. La tabla 37 muestra las correlaciones entre las estimaciones de los coeficientes del modelo. Al valorar esta correlaciones, lo que habitualmente se encuentra es que el trmino constante correlaciona con las estimaciones correspondientes a las variables independientes (pues el trmino constante no es ms que un factor de escala que refleja la mtrica de conjunto de variables independientes). Sin embargo, las correlaciones entre las estimaciones de las variables independientes deben ser pequeas, pues una correlacin elevada entre dos coeficientes debe interpretarse como un indicio de colinealidad. Y cuando existe colinealidad, la estimacin del coeficiente relativo a una variable puede estar demasiado afectada (sesgada) por la presencia de la(s) otra(s) variable(s). En el ejemplo, la matriz de correlaciones entre los coeficientes no contiene correlaciones elevadas. Tabla 30
Matriz de correla ciones Pas o 1 Constante LEE EDAD TITESTUD INDSOCEC TELENOV Constante 1,000 -,143 -,617 -,134 -,514 -,342 LEE -,143 1,000 ,044 ,145 -,074 ,029 EDAD -,617 ,044 1,000 ,240 -,008 -,164 TITESTUD -,134 ,145 ,240 1,000 -,461 -,077 INDSOCEC -,514 -,074 -,008 -,461 1,000 -,010 TELENOV -,342 ,029 -,164 -,077 -,010 1,000
El grfico de la figura muestra un histograma de las probabilidades pronosticadas. Los casos se encuentran identificados por una letra; la base del grfico incluye una leyenda que informa de los smbolos utilizados para diferenciar los casos (S = S vot, N = No vot), del nmero de casos que representa cada smbolo (Each Symbol Represents 2,5 Cases) y del punto de corte utilizado (The Cut Value is 0,30). Debajo del eje de abscisas se indica el territorio que corresponde a cada pronstico (la secuencia de smbolos del territorio cambia en el valor del punto de corte). En una situacin ideal (clasificacin perfecta), todos los smbolos del interior del grfico estaran situados en la vertical de su propio territorio. Los casos no situados en la vertical de su territorio son casos mal clasificados por el modelo.
Step number: 1 Observed Groups and Predicted Probabilities 40 F R E Q U E N C Y 30 N N N N N N N N N N N SNNNN NN N N
N NNN S S N N NN
SNSSSNSNS N N NNN NN
SSSSSSSNS NNS SNN NNN SSSSSSSSSS SNSNSNNNSNNN SSSSSSSSSS SNSNSSSNSNNN NN N 20 SSSSSSSSSSNSSSNSSSSSSSNNNN N SSSSSSSSSSNSSSNSSSSSSSNNNN N SSSSSSSSSSSSSSSSSSSSSSNNNNNN SSSSSSSSSSSSSSSSSSSSSSSNNSNS NN 10 SSSSSSSSSSSSSSSSSSSSSSSSNSNS NN SSSSSSSSSSSSSSSSSSSSSSSSSSSS NN
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSN SNNSSNNNN
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSNSSSSSSSSNN N
Predicted Prob: 0 ,25 ,5 ,75 1 Group: SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN Predicted Probability is of Membership for No vot The Cut Value is ,50 Symbols: S - S vot N - No vot Each Symbol Represents 2,5 Cases.
190
La tabla 31 muestra un listado con los casos cuyo valor pronosticado difiere en ms de dos desviaciones tpicas del valor observado, es decir, los casos cuyo residuos tpificado es mayor que 2 o menor que 2. La tabla ofrece, para cada uno de estos casos, el nmero de registro que ocupa en el Editor de datos (Caso); si el caso ha sido seleccionado o no para estimar el modelo (Estado de la seleccin); la categora de la variable dependiente a la que pertenece ( Observado), con una marca de dos asteriscos si ha sido mal clasificado; la probabilidad pronosticada por el modelo (Pronosticado); el grupo en el que ha sido clasificado (Grupo pronosticado) y los residuos en bruto (Resid.) y tipificados (Zresid.). En general, siempre resulta interesante detenerse a estudiar con detalle los casos con residuos grandes (en valor absoluto) pues, generalmente, corresponden a casos que pueden estar influyendo desproporcionadamente en la estimacin de los coeficientes del modelo. En ocasiones, incluso, puede ser recomendable excluir estos casos de la muestra y volver a estimar el modelo sin ellos para comprobar en qu grado varan las estimaciones de los coeficientes. Tabla 31
b Listado por casos
Cas o 11 194 284 285 316 378 450 511 718 759 772 787 788 875 1091 1096 1167 1172 1186 1239 1408
Estado de a seleccin S S S S S S S S S S S S S S S S S S S S S
Obs ervado Vot en 1992? N** N** N** N** N** N** N** N** N** N** N** N** N** N** N** N** N** N** N** N** N**
Variable temporal Pronosticado ,121 ,137 ,027 ,039 ,087 ,107 ,061 ,083 ,131 ,066 ,112 ,090 ,052 ,096 ,130 ,114 ,123 ,068 ,069 ,096 ,041 Grupo pronosticado S S S S S S S S S S S S S S S S S S S S S Res id ,879 ,863 ,973 ,961 ,913 ,893 ,939 ,917 ,869 ,934 ,888 ,910 ,948 ,904 ,870 ,886 ,877 ,932 ,931 ,904 ,959 ZResid 2,701 2,507 6,012 4,988 3,248 2,887 3,934 3,321 2,579 3,760 2,809 3,189 4,277 3,061 2,589 2,794 2,664 3,713 3,677 3,062 4,858
a. S = Selecc ionados , N = Casos no selec cionados y ** = Casos mal c lasificados. b. Se listan los casos con residuos estudentizados mayores que 2,000.
Seleccionar
El cuadro de dilogo Regresin logstica incluye la posibilidad de utilizar una variable de seleccin, es decir, una variable cuyos valores determinan qu casos van a ser incluidos en el anlisis y qu casos van a ser excluidos (una variable de seleccin produce un efecto similar al que produce una variable de filtro impuesta con el procedimiento Seleccionar casos, aunque, segn se ver enseguida, existen diferencias). Para utilizar una variable de seleccin: Los casos del archivo de datos que cumplan el criterio de seleccin sern incluidos en el anlisis; los que no cumplan el criterio de seleccin sern excluidos. Sin embargo, esta exclusin slo afecta al proceso de estimacin del modelo, pues cuando el procedimiento crea nuevas variables (pronsticos, residuos, etc.), cuando construye la tabla de clasificacin (la matriz de confusin) y cuando ofrece informacin particular sobre los casos (tal como el grfico de clasificacin o el
191
listado de valores atpicos), distingue entre los casos incluidos en el anlisis (los utilizados en la estimacin del modelo) y los no incluidos. Bibliografa: SPSS 11 Gua para el anlisis de datos Captulo 28 Antonio Pardo Merino y Miguel ngel Ruiz Daz Mc Graw Hill
192
VII Anlisis Factorial
El anlisis factorial es una tcnica que nos permite identificar un nmero relativamente pequeo de factores que pueden ser utilizados para representar la relacin existente entre un conjunto de variables intercorrelacionadas. Analicemos, por ejemplo, la pregunta 17 del cuestionario cuyos datos recoge el archivo trabajo.sav y referida a la evaluacin por parte de los encuestados de la importancia que segn su opinin pueden tener cada una de las causas que se enumeran, en el alto ndice de paro en Espaa. Son las siguientes: b13: La crisis econmica. b14: La poltica de empleo del gobierno. b15: La mala gestin de los empresarios. b16: La comodidad de la gente, que slo quiere buenos trabajos. b17: La falta de preparacin del trabajador. b18: Las pocas ganas de trabajar de la gente. b19: El no saber buscar trabajo. b20: Que hay mucho pluriempleo. b21: Que el trabajo que hay no se reparte bien socialmente. El modelo matemtico que subyace a esta tcnica es similar al de la regresin simple y en l cada variable aparece como combinacin lineal de una serie de factores que no son en este momento observables. Por ejemplo, b13 (la crisis econmica) puede aparecer expresada como: b13 = a(sujeto) + b(externos al sujeto) + c(entorno) + Ua " donde sujeto, externos al sujeto y entorno no son variables independientes sino grupos de variables desconocidas por nosotros a priori, que pueden ser los factores subyacentes y que hemos denominado sujeto como factor que puede englobar las variables referidas a causas del paro inherentes al propio sujeto, externas al sujeto, en donde estaran como causantes del paro el gobierno y los empresarios, por ejemplo, y el entorno en donde bien podran estar la crisis econmica y el reparto del trabajo. Vamos a corroborarlo con la tcnica del anlisis factoriaI. Es importante sealar que el anlisis factorial nos puede permitir reflejar el conjunto de variables con el menor nmero de factores posible y que a su vez stos tienen una interpretacin clara y un sentido preciso. Aunque en la prctica el anlisis factorial (AF) y el mtodo de componentes principales (PC) se utilizan indistintamente y dan resultados similares, conviene sealar que as como en el anlisis de componentes principales el objetivo consiste en encontrar una serie de componentes que expliquen el mximo de variancia total de las variables originales, el objetivo del anlisis factorial es encontrar una serie de factores que expliquen el mximo de variancia comn de las variables originales.
193
Descriptivos y matriz de correlaciones

Abrir archivo trabajo.sav. Crear un conjunto que considere las variables b13 a b21. Analizar/Reduccin de datos/Anlisis Factorial Considerar las variables b13 a b21 y pulsar Descriptivos-Extraccin-Rotacin-Puntuaciones y Opciones seleccionando las opciones que aparecen en las pantallas.
Esta dsticos descriptivos Media 3,93 3,91 3,53 3,02 2,92 2,85 2,77 3,57 3,87 Des viacin tpic a ,882 ,933 1,005 1,133 1,086 1,203 1,099 1,005 ,877 N del anlis is 1009 1009 1009 1009 1009 1009 1009 1009 1009
Cris is Poltica de empleo Empresarios Comodidad Preparacin Ganas de t rabajar Bs queda Pluriempleo Reparto
Fig 1
194
a Matriz de correla ciones
Correlacin
Sig. (Unilat eral)
Cris is Poltica de empleo Empresarios Comodidad Preparacin Ganas de t rabajar Bs queda Pluriempleo Reparto Cris is Poltica de empleo Empresarios Comodidad Preparacin Ganas de t rabajar Bs queda Pluriempleo Reparto
Cris is 1,000 ,397 ,185 -,120 -,003 -,157 -,101 ,019 ,084 ,000 ,000 ,000 ,457 ,000 ,001 ,273 ,004
Poltica de empleo ,397 1,000 ,202 -,077 -,050 -,104 -,078 ,054 ,103 ,000 ,000 ,007 ,057 ,000 ,006 ,044 ,001
Empresarios ,185 ,202 1,000 ,028 -,010 -,024 ,044 ,101 ,161 ,000 ,000 ,185 ,373 ,221 ,082 ,001 ,000
Comodidad -,120 -,077 ,028 1,000 ,336 ,559 ,387 ,214 ,043 ,000 ,007 ,185 ,000 ,000 ,000 ,000 ,087
Preparacin -,003 -,050 -,010 ,336 1,000 ,425 ,345 ,115 ,045 ,457 ,057 ,373 ,000 ,000 ,000 ,000 ,077
Ganas de trabajar -,157 -,104 -,024 ,559 ,425 1,000 ,451 ,195 ,071 ,000 ,000 ,221 ,000 ,000 ,000 ,000 ,012
Bs queda -,101 -,078 ,044 ,387 ,345 ,451 1,000 ,231 ,134 ,001 ,006 ,082 ,000 ,000 ,000 ,000 ,000
Pluriempleo ,019 ,054 ,101 ,214 ,115 ,195 ,231 1,000 ,376 ,273 ,044 ,001 ,000 ,000 ,000 ,000 ,000
Reparto ,084 ,103 ,161 ,043 ,045 ,071 ,134 ,376 1,000 ,004 ,001 ,000 ,087 ,077 ,012 ,000 ,000
a. Determinante = ,240
Fig 2 En la Figura 1 aparecen en primer lugar la media, desviacin estndar y las etiquetas de cada una de las nueve variables entradas en el anlisis factorial y para los 1.009 sujetos de la muestra que han respondido a las nueve preguntas del cuestionario a las que se refieren estas variables. Aparece este resultado en el output si en el subcuadro de dilogo Descriptivos seleccionamos la opcin Descriptivos univariados. Son 1.009 sujetos en todas las variables puesto que en el subcuadro de dilogo Opciones seleccionamos Excluir casos segn lista . Si la opcin seleccionada hubiese sido Excluir casos segn pareja aparecera en el output una columna con el nmero de respuestas vlidas en cada variable (y no necesariamente el mismo). A continuacin aparece la matriz de correlaciones entre variables y el determinante de la misma a pie de tabla. Finalmente el grado de significacin de estos coeficientes en un contraste unilateral. Es importante que todas las variables tengan al menos un coeficiente de correlacin significativo en la matriz.
Inve rsa de la ma triz de correl acione s Cris is 1,239 -,441 -,134 ,061 -,115 ,138 ,059 -,008 -,049 Poltica de empleo -,441 1,223 -,153 ,014 ,034 ,024 ,048 -,043 -,059 Empresarios -,134 -,153 1,086 -,063 ,032 ,054 -,058 -,038 -,128 Comodidad ,061 ,014 -,063 1,548 -,148 -,674 -,207 -,160 ,080 Preparacin -,115 ,034 ,032 -,148 1,290 -,376 -,231 ,005 ,005 Ganas de trabajar ,138 ,024 ,054 -,674 -,376 1,740 -,361 -,067 -,027 Bs queda ,059 ,048 -,058 -,207 -,231 -,361 1,380 -,144 -,086 Pluriempleo -,008 -,043 -,038 -,160 ,005 -,067 -,144 1,247 -,427 Reparto -,049 -,059 -,128 ,080 ,005 -,027 -,086 -,427 1,201
Fig 3
Cris is Poltica de empleo Empresarios Comodidad Preparacin Ganas de t rabajar Bs queda Pluriempleo Reparto
KMO y prueba de Bartl ett Medida de adecuacin muestral de Kais er-Mey er-Olkin. Prueba de esfericidad de Bartlett Chi-cuadrado aproximado gl Sig. ,712 1434,418 36 ,000
Fig 4
En la Figura 3 tenemos la inversa de la matriz de correlaciones, los KMO (Kaiser-Meyer-Olkin) y el test de Bartlett. Este ltimo, es decir, el test de Bartlett, se utiliza para verificar si la
195
matriz de correlaciones es una matriz de identidad, es decir, si todos los coeficientes de la diagonal son iguales a la unidad y los externos a la diagonal iguales a 0. Este estadstico se obtiene a partir de la transformacin X2 del determinante de la matriz de correlaciones y cuanto mayor sea y por tanto menor el grado de significacin, ms improbable que la matriz sea una matriz de identidad. En el ejemplo, con un valor 1434,418 y un grado de significacin p = 0,000 resulta evidente que no se trata de una matriz de identidad. En el supuesto de que no se pudiese rechazar esta hiptesis, se desaconseja proceder a realizar un anlisis factorial con los datos. El ndice KMO nos compara los coeficientes de correlacin de Pearson obtenidos en la Figura 2 con los coeficientes de correlacin parcial entre variables. Se obtiene:
rij2 KMO
i j i j 2 ij
2 aij i j
donde: rij es el coeficiente de correlacin de Pearson entre las variables i y j aij es el coeficiente de correlacin parcial entre las variables i y j.
Si los coeficientes de correlacin parcial entre las variables son muy pequeos, quiere esto decir que la relacin entre cada par de las mismas se debe o puede ser explicada por el resto y por tanto llevar a cabo un anlisis factorial de los datos no deja de ser una buena solucin. En este supuesto, si la suma de los coeficientes de correlacin parcial al cuadrado es muy pequea, KMO ser un ndice muy prximo a la unidad y por tanto el anlisis factorial un procedimiento adecuado. En cambio, valores pequeos en este ndice nos dan a entender todo lo contrario. De hecho, y para Kaiser (1974): 1 KMO > 0,90 son considerados excelentes.
0,90 KMO > 0,80 son considerados buenos. 0,80 KMO > 0,70 son considerados aceptables. 0,70 KMO > 0,60 son considerados mediocres o regulares. 0,60 KMO > 0,50 son considerados malos. KMO < 0,50 son considerados inaceptables o muy malos.
En el ejemplo este valor es de 0,712 y por tanto se puede considerar como aceptable y continuar con el anlisis factorial. Un ltimo indicador de la magnitud de la relacin lineal entre las variables y que veremos ms adelante es el coeficiente de correlacin mltiple entre cada variable y el resto y que coincidir con la comunalidad inicial cuando el procedimiento no sea el de componentes principales.
196
Matrices a nti-ima gen Cris is ,807 -,291 -,100 ,032 -,072 ,064 ,034 -,005 -,033 ,601 a -,358 -,116 ,044 -,091 ,094 ,045 -,006 -,040 Poltica de empleo -,291 ,818 -,115 ,007 ,022 ,011 ,028 -,028 -,040 -,358 ,609 a -,132 ,010 ,027 ,016 ,037 -,034 -,048 Empresarios -,100 -,115 ,921 -,038 ,023 ,029 -,039 -,028 -,098 -,116 -,132 ,690 a -,049 ,027 ,039 -,047 -,033 -,112 Comodidad Preparacin ,032 -,072 ,007 ,022 -,038 ,023 ,646 -,074 -,074 ,775 -,250 -,168 -,097 -,130 -,083 ,003 ,043 ,003 ,044 -,091 ,010 ,027 -,049 ,027 ,744 a -,104 -,104 ,791 a -,411 -,251 -,142 -,173 -,115 ,004 ,058 ,004 Ganas de trabajar ,064 ,011 ,029 -,250 -,168 ,575 -,151 -,031 -,013 ,094 ,016 ,039 -,411 -,251 ,721 a -,233 -,046 -,019 Bs queda Pluriempleo ,034 -,005 ,028 -,028 -,039 -,028 -,097 -,083 -,130 ,003 -,151 -,031 ,725 -,083 -,083 ,802 -,052 -,285 ,045 -,006 ,037 -,034 -,047 -,033 -,142 -,115 -,173 ,004 -,233 -,046 ,816 a -,109 -,109 ,669 a -,067 -,349 Reparto -,033 -,040 -,098 ,043 ,003 -,013 -,052 -,285 ,833 -,040 -,048 -,112 ,058 ,004 -,019 -,067 -,349 ,591 a
Covarianza anti-imagen
Correlacin anti-imagen
Cris is Poltica de empleo Empresarios Comodidad Preparacin Ganas de trabajar Bs queda Pluriempleo Reparto Cris is Poltica de empleo Empresarios Comodidad Preparacin Ganas de trabajar Bs queda Pluriempleo Reparto
a. Medida de adecuac in muestral
Fig 5 En la Figura .5 tenemos las matrices anti.imagem> de covariancias y correlaciones entre todas las variables del ejemplo. Sern los negativos de los coeficientes de correlacin parcial entre cada par de variables neutralizando el efecto de todas las restantes. Interesan por tanto coeficientes cuanto ms pequeos, mejor. En la diagonal de esta ltima tenemos los coeficientes MSA (Measures of Sampling Adequacy) que vienen a ser los KMO pero en este caso para cada variable por separado.
n lugar de incluir los sumatorios de todos los pares de variables de la tabla (36 en el ejemplo), solamente se incluyen en el sumatorio los pares de variables en las que la variable para la que se calcula el coeficiente est implicada. Por lo dems, la interpretacin de sus valores es idntica a la realizada para los KMO.
En resumen, y por lo que hace referencia al ejemplo que nos ocupa, tenemos: Coeficientes de correlacin de Pearson que en la mayora de los casos son altamente significativos. El determinante de la matriz de correlaciones (0,240) relativamente bajo. El indice KMO = 0,712 bastante aceptable. El resultado del test de Bartlett con un X2 = 1434,418 Y P = 0,000. Valores muy bajos en la matrices anti-imagen, MSA bastante altos en la diagonal de la matriz de correlaciones anti-imagen.
. . . .
Todo ello nos lleva a concluir que el anlisis factorial que sigue a continuacin resulta a priori pertinente y puede proporcionamos conclusiones satisfactorias.
Extraccin de factores
Componentes principales (PC)
En esencia, la finalidad del anlisis factorial es poder llegar a interpretar una matriz de correlaciones como la del ejemplo con nueve variables a partir del menor nmero posible de factores. Para ello, existen diferentes procedimientos, y si volvemos al subcuadro de dilogo Extraction, y abrimos la lista desplegable de los diferentes mtodos obtendremos los siguientes:
197
El sistema coge por defecto el mtodo de componentes principales que es el que hemos utilizado en esta primera parte del ejemplo y cuyos resultados comentaremos a continuacin. Consiste bsicamente en llevar a cabo una combinacin lineal de todas las variables de modo que el primer componente principal sea una combinacin que explique la mayor proporcin de variancia de la muestra, el segundo la segunda mayor y que a su vez est incorrelacionado con el primero, y as sucesivamente hasta tantos componentes como variables. En esencia, por tanto: reducir un nmero de variables intercorrelacionadas a un nmero inferior de factores no correlacionados. Ver si las nueve variables de partida, entre algunas de las cuales hemos visto que existe una correlacin muy significativa, pueden ser reducidas a dos, tres o ms factores que las agrupen y que tengan un sentido y significado.
Com unalidades Cris is Poltica de empleo Empresarios Comodidad Preparacin Ganas de trabajar Bs queda Pluriempleo Reparto Inicial 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 Extraccin ,644 ,620 ,329 ,592 ,523 ,684 ,519 ,646 ,693
Mt odo de extraccin: Anlisis de Componentes principales.
Fig 6 En la Figura 6 tenemos las comunalidades iniciales de la solucin de componentes principales. Estos resultados se obticnen si en el subcuadro dc dilogo Descriptives y dentro de Statistics seleccionamos Initial Solution. Si utilizamos tantos componentes principales como variablcs, cada variable puede ser explicada por ella misma y por tanto toda la variabilidad de cada variable, que expresada en unidades de desviacin estandarizadas es igual a la unidad, explicada a su vez por los factores comunes. Esta es la razn por la que en la Figura 6 la
198
comunalidad inicial es igual a la unidad para todas las variables. De entrada, la decisin respecto al nmero de factores que deseamos para representar los datos puede adoptarse desde una doble va que es la que aparece en el subcuadro de dilogo Extraction. Por defecto el sistema extraer tantos factores como haya en la solucin inicial con valores propios (eigenvalues) superiores a la unidad.
Varianza total ex plicada Sumas de las saturaciones al cuadrado de la extrac cin % de la Total varianza % acumulado 2,449 27,211 27,211 1,684 18,714 45,925 1,116 12,395 58,320
Componente 1 2 3 4 5 6 7 8 9
Autovalores iniciales % de la Total varianza % acumulado 2,449 27,211 27,211 1,684 18,714 45,925 1,116 12,395 58,320 ,848 9,426 67,747 ,705 7,834 75,580 ,616 6,842 82,422 ,597 6,629 89,051 ,568 6,314 95,365 ,417 4,635 100,000
Mt odo de extracc in: Anlisis de Componentes princ ipales.
Fig 7 En la Figura .7 vemos que hay tres factores con valores propios superiores a 1 y que en definitiva ser el nmero que extraer el sistema. Evidentemente, podemos cambiar el valor por defecto correspondiente al eigenvalue ovcr. La segunda posibilidad corresponde al botn de radio Number of factors y consiste sencillamente en fijar un nmero entero determinado de factores, siempre inferior, lgicamente, al nmero de variables. La Figura 7 recoge, en porcentajes individuales y acumulados, la proporcin de variancia total explicada por cada factor, tanto para la solucin no rotada como para la rotada. En concreto, qu porcentaje supone 2,449 sobre el total de variabilidad (nueve en el ejemplo) de toda la muestra. Los tres factores incluidos en el modelo son capaces de explicar exactamente un 58,32 por 100 de la variabilidad total, lo que puede interpretarse como un porcentaje aceptable.
Grfico de sedimentacin
2,5
2,0
Autovalor
1,5
1,0
0,5
0,0 1 2 3 4 5 6 7 8 9
Fig 8
Nmero de componente
199
En la Figura .8 tenemos una representacin grfica de estos resultados, figurando en abcisas el nmero total de factores y en ordenadas el valor propio de cada uno de ellos.
a Matriz de componentes
Cris is Poltica de empleo Empresarios Comodidad Preparacin Ganas de trabajar Bs queda Pluriempleo Reparto
1 -,229 -,185 ,020 ,748 ,629 ,804 ,718 ,436 ,236
Component e 2 ,640 ,668 ,569 -,036 ,002 -,085 ,045 ,437 ,551
3 ,426 ,373 ,070 ,177 ,357 ,174 ,040 -,515 -,577
Ganas de trabajar Comodidad Bs queda Preparacin Poltica de empleo Cris is Empresarios Reparto Pluriempleo
1 ,804 ,748 ,718 ,629 -,185 -,229 ,020 ,236 ,436
Component e 2 -,085 -,036 ,045 ,002 ,668 ,640 ,569 ,551 ,437
3 ,174 ,177 ,040 ,357 ,373 ,426 ,070 -,577 -,515
Mt odo de extracc in: Anlisis de componentes principales. a. 3 componentes ext rados
Fig 9 Fig10 En la Figura 9 tenemos los coeficientes utilizados para expresar cada variable estandarizada en trminos de los tres factores del modelo. Estos coeficientes se conocen tambin con el nombre de pesos factoriales, cargas, ponderaciones factoriales o saturaciones factoriales ya que nos indican la carga de cada variable en cada factor, de modo que los factores con unos pesos. factoriales ms elevados en trminos absolutos nos indican una relacin estrecha con las variables. El ideal desde el punto de vista del anlisis factorial es encontrar un modelo en el que todas las variables saturen en algn factor, es decir, pesos factoriales altos en uno y bajos en el resto. Por ejemplo la variable b18 (Ganas de trabajar como posible explicacin del alto ndice de desempleo en el pas) es una variable con una elevada carga factorial en el primero de los factores y mucho ms pequea en los dos restantes. Podramos expresar la variable b18 como B18= 0,80408F1-0,08519F2+0,17407F3 Donde F1,F2 y F3 son los tres factores del modelo. En la primera tabla de la Figura 9 aparecen ordenadas las variables tal y como estn en la base de datos. La figura 10 es la que corresponde a la opcin que hemos seleccionado en el subcuadro de dilogo Options . En efecto, al seleccionar Sorted by size el sistema ordena las variables en la matriz de mayor a menor peso o carga factorial y siempre comenzando por el primer factor, posteriormente el segundo, y as sucesivamente. Finalmente la opcin del mismo subcuadro de dilogo Suppress absolute values less than nos permite una lectura todava ms clara de la matriz puesto que permite eliminar de la misma aquellos coeficientes con valores inferiores a uno dado (0,10 por defecto). La Figura 11 correspondera a esta opcin.
200
1 ,804 ,748 ,718 ,629 -,185 -,229 ,236 ,436
Component e 2
3 ,174 ,177 ,357 ,373 ,426 -,577 -,515
,668 ,640 ,569 ,551 ,437
Fig11 Si los factores estn incorrelacionados (son ortogonales) los valores de estos coeficientes no dependen unos de otros. Representan por tanto la contribucin nica de cada factor en la variable y en ese sentido no dejan de ser sino los coeficientes de correlacin de cada factor con la variable. Para determinar en qu medida los tres factores son capaces de explicar las variables originales, podemos sumar la proporcin de variancia de la variable explicada por cada uno de ellos (es decir, los coeficientes al cuadrado) y de este modo obtener las comunalidades que aparecen en la diagonal de la Figura 6.12. Consideremos de nuevo la variable b18 (Ganas de trabajar) y calculemos esta sumatoria b18=0,804082 +0,085192 + 0,174072 =0,68410
Correlaciones reproduci das Cris is ,644 b ,629 ,389 -,119 ,009 -,164 -,118 -,039 ,053 -,232 -,204 -,001 -,013 ,008 ,017 ,058 ,031 Poltica de empleo ,629 ,620 b ,402 -,096 ,018 -,141 -,088 ,019 ,109 -,232 -,201 ,019 -,068 ,036 ,009 ,035 -,006 Empresarios ,389 ,402 ,329 b ,007 ,039 -,020 ,043 ,221 ,277 -,204 -,201 ,021 -,049 -,004 ,001 -,120 -,116 Comodidad Preparacin -,119 ,009 -,096 ,018 ,007 ,039 ,592 b ,534 ,534 ,523 b ,635 ,568 ,542 ,219 ,054 -,001 ,019 ,021 -,197 -,076 -,156 -,005 -,012 ,466 ,091 -,057 -,013 -,068 -,049 -,197 -,143 -,121 ,024 ,102 Ganas de trabajar -,164 -,141 -,020 ,635 ,568 ,580 ,223 ,042 ,008 ,036 -,004 -,076 -,143 -,129 -,029 ,029 Bs queda -,118 -,088 ,043 ,542 ,466 ,580 ,6841b ,519 b ,312 ,171 ,017 ,009 ,001 -,156 -,121 -,129 -,080 -,037 Pluriempleo -,039 ,019 ,221 ,219 ,091 ,223 ,312 ,646 b ,641 ,058 ,035 -,120 -,005 ,024 -,029 -,080 -,265 Reparto ,053 ,109 ,277 ,054 -,057 ,042 ,171 ,641 ,693 b ,031 -,006 -,116 -,012 ,102 ,029 -,037 -,265
Correlacin reproducida
Cris is Poltica de empleo Empresarios Comodidad Preparacin Ganas de trabajar Bs queda Pluriempleo Reparto Cris is Poltica de empleo Empresarios Comodidad Preparacin Ganas de trabajar Bs queda Pluriempleo Reparto
Res idual a
Mt odo de extracc in: Anlisis de Componentes principales. a. Los residuos se calculan entre las correlaciones observadas y reproduc idas. Hay 16 (44,0%) residuales no redundantes con valores absolutos mayores que 0,05. b. Comunalidades reproducidas
Fig 12 Casi el 70 por 100 de la variabilidad de b18 es explicada por los tres factores del modelo, en tanto que por ejemplo de la variable b15 (Empresarios) los mismos nicamente explican en torno al 33 por 100. Reiteramos que esta proporcin de la variabilidad de cada variable explicada por los factores del modelo es lo que se conoce con el nombre de comunalidad de la variable. Obviamente su valor oscila entre 0 y 1 y la parte de variancia no explicada por el modelo factorial, es decir, 1- comunalidad, es lo que se conoce con el nombre de factor nico o unicidad.
201
La correlacin obtenida entre los distintos factores y las variables puede ser utilizada para estimar la correlacin entre las variables, de modo que si los factores son ortogonales, el coeficiente de correlacin entre las variables i y j ser:
k
rij
j 1
rfi rfj
rli rlj
r2i r2 j
... rki rkj
donde k es el nmero de factores comunes rfi es el coeficiente de correlacin entre el factor f y la variable i De la figura 12 podemos obtener, por ejemplo, que la correlacin estimada entre las variables b18 y b16 ser:
rb18b16
0,80408. 0,74803
0,08519
0,03568
0,17407.0,17722 0,6353642
Estos coeficientes de correlacin as estimados son los que aparecen en la primera parte de la figura 12. La diferencia entre estos coeficientes de correlacin as estimados y los coeficientes de correlacin observados de la figura 3 es lo que se conoce como residuales y son los valores que aparecen en la segunda parte de la tabla de la figura 12. En el caso de las dos variables b18 y b16 este residual ser exactamente: Residual b18 b16. = 0,55914 - 0,6353642 = -0,0762242
En la parte inferior de la tabla aparece un mensaje donde nos indica el nmero de residuales superiores a 0,05 en valores absolutos y el porcentaje sobre el total. En el ejemplo son exactamente 16 que sobre un total de 36 representan el 44 por 100. En realidad la magnitud y cuanta de los residuales con valores superiores a 0,05 son unos buenos indicadores del ajuste del modelo a los datos. En la diagonal de la tabla y tal y como hemos comentado con anterioridad aparecen las comunalidades.
Rotacin
La finalidad de la rotacin no es otra sino la de ayudamos a interpretar, en el supuesto de que no quede claro en la matriz de pesos factoriales no rotada de la Figura 9, el sentido y significado de los factores. Tal y como podemos ver en el subcuadro de dilogo Rotacin existen varios procedimientos. V ARIMAX, EQUAMAX y QUARTlMAX son procedimientos ortogonales que es tanto como decir que los factores se mantienen incorrelacionados y los ejes formando ngulos rectos. El PROMAX y el DlRECT OBLlMIN pertenecen al grupo de los denominados oblicuos o no ortogonales. Sealar a su vez que la rotacin no afecta a la comunalidad y al porcentaje de variancia explicada por el modelo, aun que si puede cambiar la de cada factor. Dentro de los procedimientos ortogonales, el ms utilizado es el V ARIMAX, y trata de minimizar el nmero de variables que hay con pesos o saturaciones elevadas en cada factor. El QUARTIMAX trata de minimizar el nmero de factores necesarios para explicar un conjunto de variables, mientras que el EQUAMAX es una combinacin de los dos anteriores (trata de simplificar factores y variables). Dentro de los no ortogonales, que como ya hemos sealado son procedimientos de rotacin oblicua (no ortogonal y por tanto con correlaciones entre factores no necesariamente iguales a
202
O) el PROMAX es el mas rpido de calcular por parte del sistema y por tanto el ms aconsejable para grandes bases de datos. En resumen, todos ellos tratan de obtener una matriz factorial que se aproxime al principio de estructura simple. Segn este principio, la matriz factorial debe reunir las siguientes caractersticas: Cada factor debe tener unos pocos pesos altos y el resto prximos a 0. Cada variable no debe estar saturada ms que en un solo factor. No deben existir factores con la misma distribucin. En la Figura 13 tenemos los resultados de la matriz de pesos factoriales no rotada, VARIMAX, QUARTlMAX Y EQUAMAX como ortogonales y OBLlMIN y PROMAX con parmetros valores por defecto como no ortogonales.
203
a Matriz de componentes rotados
Ganas de trabajar Comodidad Preparacin Bs queda Cris is Poltica de empleo Empresarios Reparto Pluriempleo
1 ,818 ,765 ,712 ,688 -,090 -,067 ,027 ,014 ,226
Component e 2 -,111 -,058 ,085 -,056 ,795 ,784 ,512 ,129 ,033
3 ,055 ,062 -,095 ,205 -,059 ,010 ,257 ,822 ,771
1 ,813 ,761 ,716 ,678 -,077 -,057 ,023 -,019 ,194
Component e 2 -,122 -,069 ,077 -,068 ,797 ,785 ,508 ,117 ,019
3 ,088 ,094 -,063 ,233 -,051 ,019 ,265 ,824 ,780
Mt odo de extracc in: Anlisis de componentes principales. Mt odo de rotacin: Normalizacin Equamax con Kaiser. a. La rotacin ha convergido en 5 iteraciones .
Mt odo de extracc in: Anlisis de componentes principales. Mt odo de rotacin: Normalizacin Quartimax con Kaiser. a. La rotacin ha convergido en 5 iteraciones .
1 ,804 ,748 ,718 ,629 -,185 -,229 ,020 ,236 ,436
Component e 2 -,085 -,036 ,045 ,002 ,668 ,640 ,569 ,551 ,437
3 ,174 ,177 ,040 ,357 ,373 ,426 ,070 -,577 -,515
1 ,815 ,762 ,715 ,682 -,081 -,061 ,024 -,008 ,205
Component e 2 -,118 -,065 ,080 -,064 ,796 ,785 ,509 ,120 ,023
3 ,076 ,083 -,074 ,224 -,053 ,017 ,263 ,823 ,777
Mt odo de extracc in: Anlisis de componentes principales. Mt odo de rotacin: Normalizacin Varimax con Kaiser. a. La rotacin ha convergido en 5 iteraciones .
a Matriz de configuracin.
a Matriz de configuracin.
1 ,813 ,762 ,740 ,664 -,026 -,013 ,028 -,091 ,124
Component e 2 -,085 -,035 ,122 -,048 ,806 ,790 ,496 ,056 -,028
3 -,014 -,021 ,146 -,172 ,106 ,036 -,229 -,834 -,775
1 ,815 ,765 ,751 ,663 -,006 ,005 ,034 -,111 ,105
Component e 2 -,068 -,019 ,136 -,034 ,804 ,789 ,497 ,057 -,022
3 -,002 ,009 -,154 ,161 -,080 -,010 ,246 ,841 ,776
Mt odo de extracc in: Anlisis de componentes principales. Mt odo de rotacin: Normalizacin Promax con Kaiser. a. La rotacin ha convergido en 5 iteraciones .
Mt odo de extracc in: Anlisis de componentes principales. Met odo de rotacin: Normalizacin Oblimin con K aiser. a. La rotacin ha convergido en 5 iteraciones .
204
El mtodo utilizado en todos los casos ha sido el de componentes principales. Todos ellos coinciden a grandes rasgos en la siguiente asignacin: Factor 1 Variables: b18: Pocas ganas de trabajar de la gente. b16: La comodidad de la gente, que slo quiere buenos trabajos. b19: El no saber buscar trabajo. b17: La falta de preparacin del trabajador. Factor 2 Variables:
b4: a poltica de empleo del gobierno. b3: a crisis econmica.
b5: La mala gestin de los empresarios. Factor 3 Variables: b21: Que el trabajo que hay no se reparte bien socialmente. b22: Que hay mucho pluriempleo.
Analizando someramente estos resultados, bien podra tratarse de tres factores claramente diferenciados y referidos al propio trabajador el primero, gobierno y empresarios el segundo y reparto o redistribucin del trabajo el tercero. Grficamente podemos ver estos mismos resultados en la Figura 14 que corresponde al grfico tridimensional de la solucin rotada V AR1MAX y componentes principales.
Grfico de componentes en espacio rotado
b14
1,0
b15
b21 b20
b13
nte 2 pone m o C
0,5
0,0
b17 b16 b18 1,0 0,5 0,0 -0,5
-0,5
-1,0
,0 -1
Co mp on
en te 1
-1,0
p m Co
te en n o
,5 -0
0 0, 5 0, 0 1,
Fig 14
205
Cuadro de texto
Grfico de componentes en espacio rotado
-1,0
-0,5
Componente 2
b18 0,0 b21 b20 b15 b13 b14 1,0 b16 b17
0,5
Fig 15 Al igual que hemos representado las variables sobre un plano formado por los factores 1 y 2, pueden intervenir los factores 1 y 3, 2 Y 3 o cualquier combinacin binaria de los mismos si son ms de tres en la solucin. Los valores de cada variable en las coordenadas corresponden a los pesos factoriales de las mismas en los ejes de cada factor. Pueden ser valores comprendidos entre -1 y 1, y obviamente cuanto mayor sea esta coordenada, ms contribuye a la formacin del eje, a la inercia del mismo. De hecho, de la posicin de las variables respecto a los ejes es de donde podremos deducir el sentido y significado de los factores. En realidad los planos factoriales estn situados en el interior de un crculo de radio la unidad, y en ese sentido lo ideal es que los puntos variables del estudio no estn concentrados en torno al origen del espacio bidimensional en este caso (0,0) sino prximos al borde del crculo o de los ejes factoriales. . B 16, B 17. B 18 Y B 19 estn altamente correlacionadas entre si y a su vez correlacionadas positivamente con el factor I (estn situadas cercanas al extremo positivo del eje). . B 13 Y B 14 lo mismo pero para el factor 2. Siguiendo con la idea de identificar del mejor modo posible las variables que en cualquier caso tienen pesos factoriales ms elevados o saturan ms en cada uno de los factores tal y como ya comentamos anteriormente, el sistema nos posibilita eliminar de la matriz de pesos factoriales y en las columnas de los diversos factores, los pesos de aquellas variables con un valor inferior a uno determinado y que por defecto es 0,10.
,0 -1
Nota al pie
,5 -0
Componente 1
0 0,
5 0,
0 1,
206
1 ,815 ,762 ,715 ,682
Component e 2 -,118
,224 ,796 ,785 ,509 ,120
,205
,263 ,823 ,777
Mt odo de extracc in: Anlisis de componentes principales. Mt odo de rotacin: Normalizacin Varimax con Kaiser. a. La rotacin ha convergido en 5 iteraciones .
Fig 16
Puntuaciones factoriales
Puesto que la finalidad ltima del anlisis factorial es reducir un gran nmero de variables a un pequeo nmero de factores, es a veces aconsejable estimar las puntuaciones factoriales de cada sujeto. Ya dijimos al iniciar este tema que un factor no es otra cosa sino una combinacin lineal de las variables originales:
p
Fj
i 1
W ji X i
W ji X 1 W j 2 X 2
... W jp X p
Donde Wi son los coeficientes de las puntuaciones factoriales p es el nmero de variables Esta misma expresin pero para un individuo k determinado nos dar:
p
F jk
i 1
W ji X ik
Donde Xik es el valor estandarizado de la variable i para el sujeto k. Wji: es el coeficiente de las puntuacion factorial del factor j variable i Puesto que excepto para componentes principales no se pueden obtener puntuaciones factoriales exactas, se lleva a cabo una estimacin de las mismas. En el subcuadro de dilogo Puntuaciones aparecen las diversas tcnicas que recoge el programa para obtener los coeficientes de las puntuaciones factoriales. Si seleccionamos los tems de la pantalla
207
Matriz de coeficie ntes para el clculo de las puntuaciones en las com ponentes Component e 2 ,380 ,397 ,338 -,021 ,001 -,051 ,027 ,259 ,327
Cris is Poltica de empleo Empresarios Comodidad Preparacin Ganas de trabajar Bs queda Pluriempleo Reparto
1 -,093 -,076 ,008 ,305 ,257 ,328 ,293 ,178 ,096
3 ,382 ,335 ,063 ,159 ,320 ,156 ,036 -,462 -,518
Mt odo de extracc in: Anlisis de componentes principales. Puntuaciones de c omponentes.
Fig 17 con componentes principales y sin rotacin obtendremos los coeficientes de la Figura 17. A su vez, en la base de datos habremos generado tres nuevas columnas correspondientes a las puntuaciones factoriales de cada sujeto en cada uno de los tres factores del modelo. En la Figura 18 aparecen estas puntuaciones factoriales para los 10 primeros sujetos de la muestra. Sea cual sea el procedimiento utilizado, estas puntuaciones factoriales tendrn media igual a cero y desviacin estndar que en componentes principales ser igual a la unidad en todos los casos.
a Resmene s de ca sos
1 2 3 4 5 6 7 8 9 10 Total
Nmero de c aso 1 2 3 4 5 6 7 8 9 10 N
REGR factor score 1 for analysis 1 1,06279 -,70528 -2,13193 -1,30937 -2,08549 -1,50853 -1,45866 -1,66638 ,22297 -,16443 10
REGR factor score 2 for analysis 1 1,54558 ,18764 ,87922 1,32218 ,70519 ,05484 ,82965 ,84921 ,43546 -,43639 10
REGR factor score 3 for analysis 1 1,32489 -,26646 1,50009 -,06271 ,31273 1,51359 -,61956 ,74869 -,37878 -1,00114 10
a. Limitado a los primeros 10 casos.
En cuanto a sus valores concretos y para ver un ejemplo, cogemos el individuo nmero 1 de la base de datos, sus puntuaciones directas en las variables del ejemplo y sus puntuaciones estandarizadas. Si multiplicamos sus puntuaciones estandarizadas en cada una de las variables por los coeficientes en cada factor de las mismas (fig 17) obtendremos las puntuaciones factoriales de cada individuo en los tres factores y que son las que aparecen en la base de datos (Figura 18). Ms concretamente y para el primer sujeto:
Variables 1'. Directas 1'. Eslndar. Coef. Factor 1 ("oef. Factor 2 Cocf. Factor 3 5 1,24218 0,03778 0,53259 -0,11774 Bu B,. 5 1,19047 O,03b83 0,51885 -0,06662 5 1,4b942 0.01869 0,31393 0,13829 B" B,. 4 0,85487 0,34275 0,01275 -0,03663 B" 4 I,Olb91 0,35493 0,12354 -0,16488 4 0,94081 0,36407 -0,01722 -0,04316 B.. B,. 4 1,12151 0,28509 -0,00876 0,08067 B" 4 O,437bO -0,01011 -0,05346 0,55620 B" 4 O,1473b -0,10864 -0,01193 0,61014
208
La puntuacin factorial del primer sujeto en el primer factor ser Factor 1 = (1,24218) (-0,09345) + (1,19047) (-0,07560) + (1,46942) (0,00814 + (0,85487) (0,30544) ++ + (0,14736) (0,09634) = 1,06279 Una vez obtenidas las puntuaciones factoriales de cada sujeto en los tres factores, el anlisis factorial acaba con una representacin grfica de la posicin de cada sujeto en el hiperplano. En el ejemplo el sistema ha extrado tres factores y generado por tanto tres columnas en la base de datos con las puntuaciones factoriales de cada sujeto en cada uno de los tres factores. Estas variables, ya lo hemos comentado anteriormente, fac1_1, fac2_1 y fac3_1. Referencia: Captulo 6. Anlisis estadstico con SPSS para Windows Autor : Visauta. Volumen II:Estadstica Multivariante
209
Anlisis factorial
El anlisis factorial es una tcnica de reduccin de la dimensionalidad de los datos. Su propsito ltimo consiste en buscar el nmero mnimo de dimensiones capaces de explicar el mximo de informacin contenida en los datos. A diferencia de lo que ocurre en otras tcnicas como el anlisis de varianza o el de regresin, en el anlisis factorial no existe variable dependiente. Todas las variables del anlisis tienen el mismo rango: todas ellas son independientes en el sentido de que no existe a priori una dependencia conceptual de unas variables sobre otras. Para llevar a cabo un anlisis factorial: Seleccionar la opcin Reduccin de datos> Anlisis factorial... del men Analizar para acceder al cuadro de dilogo Anlisis factorial La lista de variables del archivo de datos contiene un listado de todas las variables del archivo, incluidas las variables de cadena (aunque stas slo pueden utilizarse como variables de seleccin). Para llevar a cabo un anlisis factorial: Seleccionar el conjunto de variables que se desea analizar y trasladarlas a la lista Variables. Variable de seleccin. Este cuadro permite seleccionar una de las variables del archivo de datos como variable de filtro para definir una sub-muestra de sujetos que cumplan una determinada condicin. Esta opcin es especialmente til cuando se ha reservado un porcentaje de los sujetos de la muestra para llevar a cabo una validacin cruzada del modelo final. Para utilizar una variable de seleccin: Trasladar la variable al cuadro Variable de seleccin y pulsar el botn Valor... para acceder al subcuadro de dilogo Establecer valor Introducir en el cuadro de texto el valor de la variable de seleccin que identifica a los casos que se desea incluir en el anlisis.
Ejemplo (Anlisis factorial)

Este ejemplo muestra cmo ejecutar el procedimiento Anlisis factorial con las especificaciones que el programa tiene establecidas por defecto. Se desea comprobar si es posible resumir, mediante un nmero reducido de dimensiones o factores, la informacin disponible sobre las caractersticas laborales de un conjunto de empleados. (archivo de datos: Datos de empleados.sav). Para ello: o En el cuadro de dilogo Anlisis factorial, seleccionar las variables educ, catlab, salario, salini, tiempemp, expprev y edad y trasladarlas a la lista Variables.
Nota. La variable edad se ha creado con la opcin Calcular a partir de la variable fechnac con la expresin
edad = RND((CTIME.DAYS(DATE.DMY(31,12,1997) - fechnac)/365.25),
210
obteniendo as la edad en aos a fecha 31/12/1997. Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 1 a la 3. Tabla 1
Comunalidades Inicial Nivel educativo Categora laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) EDAD 1,000 1,000 1,000 1,000 1,000 1,000 1,000 Extraccin ,682 ,782 ,901 ,887 ,997 ,893 ,889
Mtodo de extraccin: Anlisis de Componentes principales.
La Tabla 1 contiene las comunalidades asignadas inicialmente a las variables (inicial) y las comunalidades reproducidas por la solucin factorial (extraccin). La comunalidad de una variable es la proporcin de su varianza que puede ser explicada por el modelo factorial obtenido. Estudiando las comunalidades de la extraccin puede valorarse qu variables son peor explicadas por el modelo. En el ejemplo, la variable nivel educativo es la peor explicada: el modelo slo es capaz de reproducir el 68,2 % de su variabilidad original. En una nota a pie de tabla se indica que, para llegar a esta solucin factorial, se ha utilizado un mtodo de extraccin denominado componentes principales. Dicho mtodo de extraccin, que es el que acta por defecto, asume que es posible explicar el 100% de la varianza observada y, por ello, todas las comunalidades iniciales son iguales a la unidad (que es justamente la varianza de una variable en puntuaciones tpicas). A partir de la informacin de esta tabla es posible empezar a plantearse si el nmero de factores obtenidos (enseguida se ver cules son esos factores) es suficiente para explicar todas y cada una de las variables incluidas en el anlisis. Tambin ste es el momento de empezar a plantearse si, dando por bueno el nmero de factores extrado, alguna de las variables incluidas podra quedar fuera del anlisis.
211
Tabla 2
Varianza total ex plicada Autovalores iniciales % de la Total varianza % acumulado 3,167 45,244 45,244 1,856 26,509 71,753 1,008 14,406 86,159 ,428 6,121 92,280 ,247 3,522 95,803 ,196 2,796 98,598 ,098 1,402 100,000 Sumas de las saturaciones al cuadrado de la extrac cin % de la Total varianza % acumulado 3,167 45,244 45,244 1,856 26,509 71,753 1,008 14,406 86,159
Componente 1 2 3 4 5 6 7
Mt odo de extracc in: Anlisis de Componentes princ ipales.
En la tabla de porcentajes de varianza explicada (Tabla 2) se ofrece un listado de los autovalores de la matriz de varianzas-covarianzas y del porcentaje de varianza que representa cada uno de ellos. Los autovalores expresan la cantidad de la varianza total que est explicada por cada factor; y los porcentajes de varianza explicada asociados a cada factor se obtienen dividiendo su correspondiente autovalor por la suma de los autovalores (la cual coincide con el nmero de variables). Por defecto, se extraen tantos factores como autovalores mayores que I tiene la matriz analizada. En el ejemplo hay 3 autovalores mayores que 1, por lo que el procedimiento extrae 3 factores que consiguen explicar un 86,16 % de la varianza de los datos originales. La tabla muestra tambin, para cada factor con autovalor mayor que 1, la suma de las saturaciones al cuadrado: las sumas de cuadrados de la columna Total (que coinciden con los autovalores cuando se utiliza el mtodo componentes principales, pero no cuando se utilizan otros mtodos de extraccin), pueden ayudar, segn se ver, a determinar el nmero idneo de factores. La informacin de esta tabla puede utilizarse para tomar una decisin sobre el nmero idneo de factores que se debe extraer. Si se quisiera explicar, por ejemplo, un mnimo del 90% de la variabilidad contenida en los datos, sera necesario extraer cuatro factores. La matriz de varianzas-covarianzas analizada por defecto es la matriz de correlaciones entre las 7 variables incluidas en el anlisis. Puesto que esta matriz es de dimensiones 7 x 7, es posible extraer hasta 7 factores independientes. Tal como muestra la columna de porcentajes acumulados (% acumulado), con los 7 factores que es posible extraer se consigue explicar el 100 % de la varianza total, pero con ello no se consigue el objetivo de reducir el nmero de dimensiones necesarias para explicar los datos. Tabla 3
Nivel educativo Categora laboral Salario act ual Salario inic ial Mes es des de el c ontrato Experiencia previa (meses) EDA D
1 ,806 ,843 ,944 ,910 ,043 -,179 -,233
Componente 2 -,173 ,260 ,089 ,232 ,054 ,927 ,913
3 ,047 -,061 ,041 -,077 ,996 -,043 ,026
Mt odo de extracc in: Anlisis de componentes princ ipales. a. 3 componentes ex trados
212
En la Tabla 3 se encuentra la solucin factorial propiamente dicha. Contiene las correlaciones entre las variables originales (o saturaciones) y cada uno de los factores. Conviene sealar que esta matriz cambia de denominacin dependiendo del mtodo de extraccin elegido. En este caso se denomina matriz de componentes porque en el ejemplo se ha utilizado el mtodo de componentes principales como mtodo de extraccin (es el mtodo que acta por defecto). Tambin recibe el nombre de matriz de estructura factorial. Comparando las saturaciones relativas de cada variable en cada uno de los tres factores puede apreciarse que el primer factor est constituido por las variables nivel educativo, categora laboral, salario actual y salario inicial. Todas estas variables saturan en un nico factor porque constituyen un grupo diferenciado de variables dentro de la matriz de correlaciones. Este factor parece reflejar una dimensin de promocin dentro de la empresa. El segundo factor recoge el grupo de las variables experiencia previa y edad, por lo que podra representar algo as como la veterana laboral. Por ltimo, el tercer factor est formado por una nica variable, meses desde el contrato, o lo que es lo mismo, la antigedad en el puesto, que es independiente de la promocin dentro de la empresa y de la veterana laboral (puesto que los factores son independientes entre s y la variable no satura en los otros dos factores).
Descriptivos
La opcin Descriptivos ofrece algunos estadsticos descriptivos, adems de la matriz de correlaciones y otras matrices y estadsticos relacionados con ella. Para obtener estos estadsticos descriptivos: Pulsar el botn Descriptivos... del cuadro de dilogo Anlisis facforial para acceder al subcuadro de dilogo Anlisis factorial: Descriptivos Estadsticos. Este recuadro contiene varias opciones para seleccionar los estadsticos descriptivos del anlisis: Descriptivos univariados. ofrece, para cada variable, el nmero de casos vlidos, la media y la desviacin tpica.
Solucin inicial. Permite obtener las comunalidades iniciales, los autovalores de la matriz analizada y los porcentajes de varianza asociados a cada autovalor. Esta opcin est activa por defecto y la informacin que genera es la que aparece en las Tablas 1 y 2. Matriz de correlaciones. En este recuadro se encuentran las opciones necesarias para obtener informacin sobre la matriz de correlaciones y algunos estadsticos asociados a ella. Coeficientes. Ofrece la matriz con los coeficientes de correlacin entre las variables utilizadas en el anlisis. Niveles de significacin. Incluye en la matriz de correlaciones los niveles crticos unilaterales asociados a cada coeficiente. Determinante. Determinante de la matriz de correlaciones. El valor del determinante aparece en una nota a pie de tabla. Los determinantes prximos a cero estn indicando que las variables utilizadas estn linealmente relacionadas, lo que significa que el anlisis factorial es una tcnica pertinente para analizar esas variables. Inversa. Inversa de la matriz de correlaciones. Esta matriz es la base para el clculo de las
213
comunalidades iniciales en algunos mtodos de extraccin y para el clculo de la matriz antiimagen (ver ms abajo). Reproducida. Matriz reproducida. La matriz reproducida es la matriz de correlaciones que se obtiene a partir de la solucin factorial hallada. Si el modelo es bueno y el nmero de factores el adecuado, la estructura factorial debe ser capaz de reproducir la matriz de correlaciones. En la diagonal de la matriz reproducida se encuentran las comunalidades finales. Junto con la matriz de correlaciones reproducidas se ofrece la matriz de correlaciones residuales, la cual contiene los residuos, es decir, las diferencias entre las correlaciones observadas y las correlaciones reproducidas. Si el modelo es bueno, el nmero de residuos con valores elevados debe ser mnimo. Anti-imagen. Matriz de covarianzas anti-imagen y matriz de correlaciones anti-imagen. La matriz de covarianzas anti-imagen contiene los negativos de las covarianzas parciales y la matriz de correlaciones anti-imagen contiene los coeficientes de correlacin parcial cambiados de signo (la correlacin entre dos variables se parcial iza teniendo en cuenta el resto de variables incluidas en el anlisis). En la diagonal de la matriz de correlaciones antiimagen se encuentran las medidas de adecuacin muestral para cada variable. Si el modelo factorial elegido es adecuado para explicar los datos, los elementos de la diagonal de la matriz de correlaciones anti-imagen deben tener un valor prximo a 1 y el resto de elementos deben ser pequeos. KMO y prueba de esfericidad de Bartlett. La medida de adecuacin muestral K MO (Kaiser-Meyer-Olkin) contrasta si las correlaciones parciales entre las variables son suficientemente pequeas. Permite comparar la magnitud de los coeficientes de correlacin observados con la magnitud de los coeficientes de correlacin parcial. El estadstico KMO vara entre 0 y 1. Los valores pequeos indican que el anlisis factorial puede no ser una buena idea, dado que las correlaciones entre los pares de variables no pueden ser explicadas por otras variables. Los menores que 0,5 indican que no debe utilizarse el anlisis factorial con los datos muestrales que se estn analizando. La prueba de esfericidad de Bartlett contrasta la hiptesis nula de que la matriz de correlaciones es una matriz identidad, en cuyo caso no existiran correlaciones significativas entre las variables y el modelo factorial no sera pertinente. Ejemplo (Anlisis factorial > Descriptivos) Este ejemplo muestra cmo obtener e interpretar algunos estadsticos descriptivos adicionales a la solucin ofrecida por defecto. Adems de los estadsticos descriptivos, tambin se ver que es posible obtener estadsticos inferenciales para contrastar algunas hiptesis relevantes en el contexto del anlisis factorial. Se siguen utilizando las mismas siete variables que en el ejemplo anterior. Para obtener estos estadsticos: En el subcuadro de dilogo Anlisis factorial: Descriptivos, seleccionar todas las opciones de los distintos recuadros. Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 4 a 8. La Tabla 4 ofrece, para cada una de las variables incluidas en el anlisis, algunos estadsticos descriptivos univariados: la media, la desviacin tpica insesgada y el nmero de casos vlidos que sern utilizados en el anlisis (nmero ste que, lgicamente, puede diferir del nmero de casos del archivo de datos). Si se mantienen las especificaciones que el programa tiene establecidas por defecto y el anlisis se basa en la matriz de correlaciones, las diferencias de escala y de variabilidad entre las
214
variables carecen de relevancia. Sin embargo, si se decide que el anlisis se base en la matriz de varianzas-covarianzas, las variables con mayor variabilidad tendrn mayor importancia en la solucin final. Tabla 4.
Esta dsticos descriptivos Media 13,49 1,41 $34, 418.45 $17, 009.25 81,14 95,95 41,23 Des viacin tpic a 2,886 ,774 $17, 093.723 $7,877.562 10,048 104, 680 11,771 N del anlis is 473 473 473 473 473 473 473
Nivel educativo Categora laboral Salario actual Salario inicial Mes es desde el contrato Experiencia previa (meses) EDA D
La Tabla 5 ofrece la matriz de correlaciones, es decir, los coeficientes de correlacin de Pearson entre cada par de variables. Si no se especifica lo contrario, sta es, segn se ha sealado ya, la matriz de la cual parte el anlisis. Con el mtodo de extraccin componel1les principales (mtodo que acta por defecto), la matriz de correlaciones se auto-descompone en sus autovalores y autovectores para alcanzada solucin factorial. El resto de los mtodos de extraccin se basan en una transformacin de la matriz de correlaciones. Tabla 5
a Matriz de correla ciones
Correlacin
Sig. (Unilateral)
Nivel educativo Categora laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) EDAD Nivel educativo Categora laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) EDAD
Nivel educativo 1,000 ,515 ,661 ,633 ,050 -,252 -,282 ,000 ,000 ,000 ,137 ,000 ,000
Categora laboral ,515 1,000 ,780 ,755 ,004 ,062 ,010 ,000 ,000 ,000 ,468 ,088 ,418
Salario actual ,661 ,780 1,000 ,880 ,084 -,097 -,144 ,000 ,000 ,000 ,033 ,017 ,001
Salario inicial ,633 ,755 ,880 1,000 -,018 ,045 -,009 ,000 ,000 ,000 ,344 ,162 ,422
Meses desde el contrato ,050 ,004 ,084 -,018 1,000 ,002 ,054 ,137 ,468 ,033 ,344
Experiencia previa (meses) -,252 ,062 -,097 ,045 ,002 1,000 ,801 ,000 ,088 ,017 ,162 ,485
EDAD -,282 ,010 -,144 -,009 ,054 ,801 1,000 ,000 ,418 ,001 ,422 ,120 ,000
,485 ,120 ,000
a. Determinante = ,012
Para que el anlisis sea fructfero es conveniente que la matriz contenga grupos de variables que correlacionen fuertemente entre s. Una matriz de correlaciones prxima a una matriz identidad indica que el anlisis factorial conducir a una solucin deficiente. Para formarse una idea sobre el grado de relacin existente entre las variables, la Tabla 4 ofrece, adems de la matriz de correlaciones, el nivel crtico unilateral (Sig. unilateral) asociado a cada codiciente de correlacin (el nivel crtico bilateral se obtiene multiplicando por dos el unilateral). Un nivel crtico menor que 0,05 indica que la correlacin poblacional entre el correspondiente par de
215
variables puede ser considerada significativamente distinta de cero. Lo deseable, por tanto, es encontrar muchos niveles crticos pequeos. Por ltimo, en una nota a pie de tabla aparece el valor del determinante de la matriz de correlaciones. Cuando las variables de una matriz estn linealmente relacionadas, el valor del determinante se aproxima a cero, lo cual es un buen dato desde el punto de vista de la idoneidad del anlisis. La Tabla 6 recoge la inversa de la matriz de correlaciones. Esta matriz se encuentra estrechamente relacionada con la matriz anti-imagen que aparece ms abajo (ver Tabla .8). Si el determinante de la matriz de correlaciones vale exactamente cero, el programa emite una advertencia indicando que no es posible calcular la matriz inversa, en cuyo caso tampoco serposible utilizar algunos de los mtodos de extraccin (por ejemplo, ejes principales o
mxima verosimilitud).
Tabla 6
Inversa de la matriz de correlaciones Nivel educativo Nivel educativo 2,030 Categora laboral -,058 Salario actual -,533 Salario inicial -,785 Meses desde el contrato -,086 Experiencia previa ,288 (meses) EDAD ,264 Categora Meses desde laboral Salario actual Salario inicial el contrato -,058 -,533 -,785 -,086 2,799 -1,675 -,591 ,129 -1,675 6,333 -3,998 -,600 -,591 -3,998 5,492 ,500 ,129 -,600 ,500 1,075 -,246 -,099 ,424 ,432 -,521 -,350 ,054 -,209 Experiencia previa (meses) ,288 -,246 ,424 -,521 ,054 2,908 -2,192
EDAD ,264 -,099 ,432 -,350 -,209 -2,192 2,901
La Tabla 7 contiene dos estadsticos que permiten valorar la bondad de ajuste o adecuacin de los datos analizados a un modelo factorial: la medida de adecuacin muestral KMO y la prueba de esfericidad de Bartlett.
KMO y prue ba de Bartlett Medida de adecuac in muestral de Kais er-Meyer-Olkin. Prueba de esfericidad de Bartlett Chi-cuadrado aproximado gl Sig. ,724 2072,714 21 ,000
Tabla 7 La medida de adecuacin muestra/ de Kaiser-Meyer-Olkin/ (KMO) es un ndice que compara la magnitud de los coeficientes de correlacin observados con la magnitud de los coeficientes de correlacin parcial:
216
donde
rij representa el coeficiente de correlacin simple entre las variables i y j y rij. m
representa la correlacin parcial entre las variables i y j eliminado el efecto de las restantes m variables incluidas en el anlisis. Puesto que la correlacin parcial entre dos variables debe ser pequea cuando el modelo factorial es adecuado (ver ms adelante), el denominador debe aumentar poco si los datos corresponden a una estructura factorial, en cuyo caso KMO tomar un valor prximo a l. Si el valor de la medida de adecuacin muestral es reducido (los valores por debajo de 0,6 se consideran mediocres) puede que no sea pertinente utilizar el anlisis factorial con esos datos. La diagonal de la matriz de correlaciones anti-imagen incluye los coeficientes de adecuacin muestral para cada variable individualmente considerada. La prueba de esfericidad de Bartlell contrasta la hiptesis nula de que la matriz de correlaciones observada es en realidad una matriz identidad. Asumiendo que los datos provienen de una distribucin normal multivariante, el estadstico de Bartlett se distribuye aproximadamente segn el modelo de probabilidad chi-cuadrado y es una transformacin del determinante de la matriz de correlaciones. Si el nivel crtico (Sig.) es mayor que 0,05, no se podr rechazar la hiptesis nula de esfericidad y, consecuentemente, no se podr asegurar que el modelo factorial sea adecuado para explicar los datos. La Tabla 8 ofrece la matriz de varianzas-covarianzas anti-imagen y la matriz de correlaciones anti-imagen. La matriz de correlaciones anti-imagen se encuentra relacionada con la matriz analizada por el mtodo de extraccin Anlisis Imagen y se utiliza como diagnstico de la adecuacin de los datos a un modelo factorial. Tabla 8
Matrices a nti-ima gen Nivel educ ativo ,493 -,010 -,041 -,070 -,039 ,049 ,045 ,921 a -,024 -,149 -,235 -,058 ,118 ,109 Categora laboral -,010 ,357 -,095 -,038 ,043 -,030 -,012 -,024 ,881 a -,398 -,151 ,074 -,086 -,035 Mes es des de el contrato -,039 ,043 -,088 ,085 ,930 ,017 -,067 -,058 ,074 -,230 ,206 ,098 a ,031 -,118 Experiencia previa (meses) ,049 -,030 ,023 -,033 ,017 ,344 -,260 ,118 -,086 ,099 -,130 ,031 ,538
a
Covarianza anti-imagen
Correlacin anti-imagen
Nivel educativo Categora laboral Salario actual Salario inic ial Mes es des de el contrato Experiencia previa (meses) EDAD Nivel educativo Categora laboral Salario actual Salario inic ial Mes es des de el contrato Experiencia previa (meses) EDAD
Salario actual -,041 -,095 ,158 -,115 -,088 ,023 ,023 -,149 -,398 ,723 a -,678 -,230 ,099 ,101
Salario inic ial -,070 -,038 -,115 ,182 ,085 -,033 -,022 -,235 -,151 -,678 ,743 a ,206 -,130 -,088
EDAD ,045 -,012 ,023 -,022 -,067 -,260 ,345 ,109 -,035 ,101 -,088 -,118 -,755 ,548 a
-,755
a. Medida de adecuac in muestral
En este contexto, un coeficiente de correlacin parcial expresa el grado de relacin existente entre dos variables tras eliminar el electo de las restantes variables incluidas en el anlisis. Cuando las variables incluidas en el anlisis comparten gran cantidad de informacin debido a la presencia de factores comunes, la correlacin parcial entre cualquier par de variables debe ser reducida. Por el contrario, cuando dos variables comparten gran cantidad de informacin entre ellas, pero no la comparten con las restantes variables (ni, consecuentemente, con los factores comunes), la correlacin parcial entre ellas ser elevada, siendo esto un mal sntoma de cara la idoneidad del anlisis.
217
Por otro lado, las correlaciones parciales son tambin estimaciones de las correlaciones entre los factores nicos (existe un factor nico para cada variable del modelo). Y puesto que los factores nicos son independientes entre s, los valores de las correlaciones parciales deben estar prximos a cero. La correlacin anti-imagen es el negativo de la correlacin parcial entre dos variables. Si la matriz de correlaciones anti-imagen contiene una gran proporcin de coeficientes elevados, el modelo factorial puede no ser adecuado para analizar los datos. La diagonal de la matriz de correlaciones anti-imagen contiene una medida de adecuacin muestral para cada variable. Esta medida es similar a la medida KMO, pero para cada variable individualmente considerada. Los valores de la diagonal de la matriz de covarianza anti-imagen se obtienen restando a la unidad la correlacin mltiple al cuadrado entre cada variable y las restantes variables del anlisis. Por tanto, estos valores representan una estimacin de la unicidad de cada variable o, lo que es lo mismo, una estimacin de lo que cada variable tiene de propio o de no compartido con las dems. Tabla 9
Correlaciones reproduci das Nivel educ ativo ,682 b ,632 ,748 ,690 ,073 -,306 -,344 -,116 -,087 -,057 -,022 ,055 ,062 Categora laboral Salario actual Salario inic ial ,632 ,748 ,690 ,782 b ,816 ,832 ,816 ,901 b ,876 ,832 ,876 ,887 b -,010 ,087 -,025 ,093 ,040 -,116 -,036 -,076 ,014 -,031 -,031 -,088 -,137 -,087 -,036 ,004 -,002 -,010 -,007 ,056 -,001 -,057 -,076 ,004 ,006 -,011 -,008 ,002 -,012 -,086 Mes es des de el contrato ,073 -,010 ,087 -,025 ,997 b ,000 ,066 -,022 ,014 -,002 ,006 Experiencia previa (meses) -,306 ,093 -,088 ,056 ,000 ,893
b
Correlacin reproducida
Res idual a
Nivel educativo Categora laboral Salario actual Salario inic ial Mes es des de el contrato Experiencia previa (meses) EDA D Nivel educativo Categora laboral Salario actual Salario inic ial Mes es des de el contrato Experiencia previa (meses) EDA D
EDA D -,344 ,040 -,137 -,001 ,066 ,887 ,889 b ,062 -,031 -,007 -,008 -,012 -,086
,887 ,055 -,031 -,010 -,011 ,002
Mt odo de extracc in: Anlisis de Componentes principales. a. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 7 (33,0%) residuales no redundantes con valores absolutos mayores que 0,05. b. Comunalidades reproducidas
Nota. Generalmente, los valores de estas dos matrices se muestran en notacin cientfica (en
formato exponencial). Si se desea reformar la tabla para que los valores no se muestren en notacin cientfica, sino en notacin decimal, se puede ejecutar el proceso de SPSS Deshacer notacin cientfica.sbs. Para ello: Seleccionar la tabla en el Visor de resultados. Seleccionar la opcin Ejecutar proceso... del men Utilidades. En la carpeta Scripts (que cuelga de la carpeta en la que est instalado el SPSS), seleccionar el archivo Deshacer notacin cientfica.sbs. La Tabla 9 muestra la matriz de correlaciones reproducidas. El Visor ofrece esta tabla al final de los resultados de la extraccin y no junto al resto de estadsticos descriptivos. La matriz de correlaciones reproducidas contiene las correlaciones que es posible reproducir utilizando tan slo la informacin contenida en la solucin factorial. Es decir, utilizando la matriz de la Tabla 3. En concreto, la matriz reproducida se obtiene post-multiplicando la matriz factorial por su traspuesta. Adems de la matriz de correlaciones reproducidas, la Tabla 9 tambin incluye la matriz
218
residual, la cual contiene los residuos del anlisis factorial. Cada residuo expresa la diferencia
existente entre la correlacin observada entre dos variables (ver Tabla 5) y la correlacin reproducida por la estructura factorial para esas dos variables. Si el anlisis ha sido fructfero, la mayora de las correlaciones reproducidas se parecern a las correlaciones observadas y los residuos sern muy pequeos. De hecho, como orientacin, la tabla incluye una nota a pie de tabla que contabiliza el nmero de residuos mayores que 0,05 (un valor arbitrariamente pequeo) y el porcentaje que ese nmero representa sobre el total de correlaciones no redundantes de la matriz. Existen varias razones por las que el anlisis podra desembocar en una matriz residual con un gran nmero de residuos altos (en valor absoluto). En primer lugar, podra ocurrir que se hubiera extrado un nmero insuficiente de factores y que, consecuentemente, la estructura factorial no fuera capaz de reproducir adecuadamente la matriz de correlaciones observada. En segundo lugar, podra ocurrir que las correlaciones observadas estuvieran mal estimadas, bien por la presencia de sesgos en la medida de las variables, bien porque el coeficiente de correlacin de Pearson no fuera el apropiado para cuantificar la relacin por causa de la escala utilizada para medir las variables. Por ltimo, aunque no menos importante, podra ocurrir que el modelo factorial no fuera pertinente para analizar los datos (porque las variables no estuvieran linealmente relacionadas, porque en los datos analizados no existiera ningn tipo de estructura factorial, etc.). Extraccin La opcin Extraccin permite controlar varios aspectos relacionados con la fase de extraccin de los factores. Entre otras cosas, permite decidir qu modelo factorial se desea utilizar, en qu matriz de datos basar el anlisis y cuntos factores deben extraerse. Para controlar los aspectos relacionados con el proceso de extraccin de factores: Pulsar el botn Extraccin... del cuadro de dilogo Anlisis factorial para acceder al subcuadro de dilogo Anlisis factorial: Extraccin que muestra la Figura 20.4.
Mtodo. En esta lista desplegable se puede seleccionar el modelo factorial que ser utilizado para estimar las saturaciones de las variables en los factores. Los distintos mtodos difieren tanto en el algoritmo de clculo como en la matriz que ser analizada (se asume que la matriz seleccionada es la matriz de correlaciones). Los distintos mtodos disponibles son:
219
Componentes principales. Mtodo de extraccin en el que los factores obtenidos son los autovectores de la matriz de correlaciones re-escalados. Mnimos cuadrados no ponderados. Mtodo de extraccin que minimiza la suma de los cuadrados de las diferencias entre las matrices de correlaciones observada y reproducida, ignorando los elementos de la diagonal. Mnimos cuadrados generalizados. Mtodo de extraccin que minimiza la suma de los cuadrados de las diferencias entre las matrices de correlaciones observada y reproducida. Las correlaciones se ponderan por el inverso de su unicidad, de manera que las variables cuya unicidad es alta reciben un peso menor que aquellas cuya unicidad es baja. Este mtodo genera un estadstico de bondad de ajuste chi-cuadrado que permite contrastar la hiptesis nula de que la matriz residual es una matriz nula. Mxima verosimilitud. Mtodo de extraccin que proporciona las estimaciones de los parmetros que con mayor probabilidad han producido la matriz de correlaciones observada, asumiendo que la muestra procede de una distribucin normal multivariada. Las correlaciones se ponderan por el inverso de la unicidad de las variables y se emplea un algoritmo iterativo. Este mtodo genera un estadstico de bondad de ajuste chi-cuadrado que permite contrastar la capacidad del modelo para explicar la matriz de correlaciones. Ejes principales. Mtodo de estimacin iterativo en el que, como estimacin inicial de la comunalidad, la matriz de correlaciones original se reduce sustituyendo los unos de su diagonal por las estimaciones de la correlacin mltiple al cuadrado entre cada variable y todas las dems. La matriz reducida se auto-descompone y se corrigen las estimaciones iniciales de la comunalidad por las nuevas estimaciones resultantes. El proceso continua hasta que no existe diferencia entre las estimaciones de las comunalidades entre dos pasos sucesivos o se alcanza alguno de los criterios de parada. Alfa. Mtodo de extraccin que considera las variables incluidas en el anlisis como una muestra del universo de las variables posibles. Este mtodo maximiza la generalizabilidad de los factores calculada como el alfa de Cronbach.
Imagen. Mtodo de extraccin en el que se auto-descompone la matriz. de correlaciones imagen. Se asume que la comunalidad es igual al cuadrado de la correlacin mltiple entre una variable y todas las dems. Al solicitar este mtodo de extraccin, los resultados incluyen una tabla con la matriz de covarianza imagen. Analizar. Las opciones de este recuadro slo estn disponibles cuando se seleccionan los mtodos de componentes principales, ejes principales y anlisis imagen. Estas opciones permiten seleccionar el tipo de matriz que ser analizada. Matriz de correlaciones. El anlisis se basa en la matriz de correlaciones, en la matriz de correlaciones reducida, o en la matriz de correlaciones anti-imagen, segn el mtodo seleccionado. Matriz de covarianza. El anlisis se basa en la matriz de varianzas-covarianzas, en la matriz de varianzas-covarianzas reducida, o la matriz de covarianzas anti-imagen, segn el mtodo seleccionado.
220
Extraer. Este recuadro contiene opciones que permiten determinar el nmero de factores que se extraern en la solucin factorial, bien a partir de una regla heurstica, bien especificando un nmero concreto: Autovalores mayores que. Si la matriz analizada es la de correlaciones, esta opcin permite utilizar el tamao de los autovalores como criterio para decidir el nmero de factores que estarn presentes en la solucin factorial. Por defecto se extraen los factores cuyos autovalores son mayores que 1 (a este criterio se le denomina regla K 1). Si la matriz analizada es la de varianzas-covarianzas, la regla expresa el nmero de veces que un autovalor debe ser mayor que el autovalor promedio de la matriz para que el correspondiente factor sea retenido en la solucin. El valor que acta por defecto es 1, pero este valor puede cambiarse introduciendo otro distinto (entre cero y el nmero de variables) en el correspondiente cuadro de texto. Nmero de factores. Permite especificar el nmero exacto de factores que se desea incluir en la solucin. Se debe introducir dicho nmero en el recuadro de texto. Mostrar. Estas opciones permiten seleccionar los resultados de la extraccin que aparecern en el visor de resultados. Solucin factorial sin rotar. Muestra las saturaciones factoriales sin rotar (la matriz de componentes o factorial), las comunalidades y los autovalores de la solucin factorial. Grfico de sedimentacin (tambin llamado prueba de sedimentacin de Cattell). Muestra una representacin grfica de la magnitud de los autovalores. El corte en la tendencia descendente sirve de regla para la determinacin del nmero ptimo de factores que deben estar presentes en la solucin. Siempre se muestra la representacin de los autovalores de la matriz de correlaciones (o de covarianzas) originales, independientemente del mtodo de extraccin seleccionado.
N de iteraciones para convergencia. Este cuadro de texto permite establecer el nmero mximo de iteraciones que los algoritmos pueden realizar para encontrar la solucin factorial final. El valor por defecto es 25 (que resulta habitualmente apropiado para obtener una solucin), pero este valor puede cambiarse introduciendo cualquier otro entero positivo.
221
Grfico de sedimentacin
3,5 3,0
2,5
2,0
1,5
1,0
Autovalor
,5 0,0 1 2 3 4 5 6 7
Nmero de componente
El grfico de sedimentacin sirve para determinar el nmero ptimo de factores.Consiste simplemente en una representacin grfica del tamao de los autovalores. Segn se ha sealado ya, los autovalores indican la cantidad de varianza que est explicada por cada componente principal. Tanto la tabla de porcentajes de varianza explicada (ver Tabla 11) como el grfico de sedimentacin (ver Figura ) muestran los autovalores ordenados de mayor a menor: el primer autovalor es el mayor de los posibles, el segundo autovalor es el mayor de los restantes, y as sucesivamente. Si un autovalor se aproxima a cero, esto significa que el factor correspondiente a ese autovalor es incapaz de explicar una cantidad relevante de la varianza total. Por tanto, un factor al que corresponde un autovalor prximo a cero se considera un factor residual y carente de sentido en el anlisis. Al representar todos los autovalores ordenados por su tamao es posible formarse muy rpidamente una idea sobre si la cantidad de varianza asociada a cada uno de ellos es relevante para el anlisis o si por el contrario se trata slo de varianza residual. Los autovalores residuales se encuentran en la parte derecha del grfico, formando una planicie de poca inclinacin, en contraposicin a la fuerte pendiente formada por los autovalores que explican la mayor parte de la varianza disponible. Por este motivo, es conveniente inspeccionar el grfico de sedimentacin de izquierda a derecha, buscando el punto de inflexin en el que los autovalores dejan de formar una pendiente significativa, con mucha inclinacin, y comienzan a describir una cada con poca o ninguna inclinacin. En el ejemplo, la pendiente pierde inclinacin a partir del cuarto autovalor (hacia su derecha). O lo que es lo mismo, el cuarto autovalor no provoca pendiente respecto del quinto (es decir, el cuarto valor se encuentra en la misma planicie sin pendiente que el quinto), por lo que puede considerarse que slo deben extraerse los tres primeros factores y desechar del cuarto en adelante. Es importante sealar que el aspecto del grfico de sedimentacin no cambia como consecuencia del nmero de factores seleccionado. Por otra parte, el grfico siempre muestra todos los posibles autovalores de la matriz de correlaciones original, no los autovalores de la matriz analizada, que puede ser distinta de la de correlaciones dependiendo del mtodo de extraccin
222
utilizado. Rotacin La opcin Rotacin permite controlar la fase de rotacin del anlisis. Con esta opcin es posible definir el mtodo de rotacin que se desea utilizar (para facilitar la interpretacin de la solucin factorial) y solicitar la representacin grfica de las saturaciones. Por defecto, no se encuentra seleccionado ningn mtodo de rotacin. Para seleccionar el mtodo de rotacin: Pulsar el botn Rotacin... del cuadro de dilogo Anlisis factorial para acceder al subcuadro de dilogo Anlisis factorial: Rotacin que muestra la Figura 20.8.
pueden obtenerse factores relacionados entre si. Los mtodos disponibles son: Ninguno. No se aplica ningn mtodo de rotacin. Es la opcin que acta por defecto. Cuando la solucin consta de un nico factor y no se ha se ha marcado esta opcin, el Visor de resultados muestra un mensaje advirtiendo que no es posible rotar la solucin. Varimax. Mtodo de rotacin ortogonal que minimiza el nmero de variables que tienen saturaciones altas en cada factor. Simplifica la interpretacin de los factores optimizando la solucin por columna. Quartimax. Mtodo de rotacin ortogonal que minimiza el nmero de factores necesarios para explicar cada variable. Simplifica la interpretacin de las variables observadas optimizando la interpretacin por filas. Equamax. Mtodo de rotacin que es combinacin del mtodo Varimax, que simplifica los factores, y del mtodo Quartimax, que simplifica las variables. Se minimiza tanto el nmero de variables que saturan alto en un factor como el nmero de factores necesarios para explicar una variable. Oblimin directo. Mtodo para la rotacin oblicua (no ortogonal). Cuando delta es igual a cero (el valor por defecto), las soluciones son las ms oblicuas. A medida que delta se va haciendo ms negativo, los factores son menos oblicuos. Para anular el valor por defecto de delta, puede introducirse un nmero menor o igual que 0,8. Delta. El valor de delta permite controlar el grado de oblicuidad que pueden llegar a alcanzar los factores de la solucin.
223
Promax. Rotacin oblicua que permite que los factores estn correlacionados. Puede calcularse ms rpidamente que una rotacin oblimin directa, por lo que es til para grandes conjuntos de datos. Kappa. Parmetro que controla el clculo de la rotacin Promax. El valor por defecto es 4. Este valor es adecuado para la mayora de los anlisis.
Mostrar. Las opciones de este recuadro permiten decidir qu resultados de la rotacin mostrar el Visor de resultados. Por defecto, cuando se selecciona alguno de los mtodos de rotacin, el Visor muestra la solucin rotada. Si se encuentra seleccionada la opcin Ninguna del recuadro Mtodo no ser posible seleccionar ninguna de las opciones de este recuadro. Solucin rotada. Permite obtener una o ms tablas con los resultados del proceso de rotacin. Al seleccionar una rotacin ortogonal, esta opcin permite obtener la matriz de estructura factorial rotada y la matriz de transformacin necesaria para rotar los factores a partir de la solucin inicial. Adems, en la tabla de porcentajes de V'arianza explicada aparecen columnas adicionales que contienen la varianza total explicada por los factores rotados. Al seleccionar una rotacin oblicua, esta opcin permite obtener la matriz de configuracin rotada, que contiene las saturaciones de las variables en los factores, y la matriz de estructura, que contiene las correlaciones entre las variables observadas y los factores (cuando la rotacin es ortogonal, ambas matrices son idnticas). Adems, ofrece la matriz de correlaciones entre los factores y desecha la matriz de transformacin para la rotacin. En la tabla de porcentajes de varianza explicada slo se incluyen los autovalores de los factores rotados (ya que no tiene sentido hablar de porcentajes de varianza independientes). Grficos de saturaciones. Esta opcin genera un grfico de dispersin que refleja la ubicacin de las variables en el espacio definido por los factores. Se trata de un grfico de las saturaciones. El grfico muestra, por detecto, los tres primeros factores de la solucin factorial en un grfico tridimensional. Si se desea representar otros factores, es necesario editar el grfico y elegir esos otros factores. Los ejes factoriales se representan siempre en formato ortogonal, aunque exista correlacin entre los factores. N mximo de iteraciones para convergencia. Permite determinar el nmero mximo de iteraciones que puede recorrer el algoritmo de estimacin para encontrar la solucin rotada. Por defecto se efectan un mximo de 25 iteraciones, lo cual resulta suficiente en la mayora de los casos.
Ejemplo (Anlisis factorial > Rotacin ortogonal)

Este ejemplo muestra cmo rotar la estructura factorial original mediante un mtodo ortogonal. La estructura que se va a rotar es la obtenida en el ejemplo anterior (2 factores) con el mtodo de extraccin ejes principales. Primero se representar grficamente la solucin no rotada y posteriormente se comparar con la solucin rotada. Para representar grficamente la solucin factorial no rotada del ejemplo anterior (6 varia bles, 2 factores, mtodo de extraccin ejes principales): Pulsar el botn Rotacin... del cuadro de dilogo Anlisis factorial (ver Figura 20.1) para acceder al subcuadro de dilogo Anlisis factorial: Rotacin que muestra la Figura 20.8.
224
En el recuadro Mostrar, seleccionar la opcin Grficos de saturaciones. Aceptando estas selecciones se obtiene, adems de los resultados del ejemplo anterior, el grfico de las saturaciones factoriales que muestra la Figura 20.9. Un grfico de factores o de saturaciones factoriales representa el espacio factorial definido por los factores contenidos en la solucin factorial. Si la solucin contiene un nico factor, el grfico no se genera y aparece una advertencia indicando tal circunstancia; si la solucin contiene dos factores se genera un diagrama de dispersin simple; si la solucin contiene tres o ms factores se genera un grfico de dispersin tridimensional en el que slo se representan los tres primeros factores. Cuando la solucin contiene ms de tres factores, el grfico tridimensional representa los tres primeros factores, pero almacena tambin la informacin correspondiente a los restantes factores. Para representar factores distintos de los tres primeros pueden hacerse dos cosas, ambas desde el Editor de grficos (al cual se accede pinchando dos veces sobre un grfico): (1) seleccionar en el men Series los tres factores que se desea representar, o (2) solicitar en el men Galera un diagrama de dispersin matricial para representar simultneamente todos los factores dos a dos. Un grfico .de saturaciones factoriales es un diagrama de dispersin en el que los factores definen los ejes del espacio y las variables constituyen los puntos del diagrama. Las coordenadas de una variable en cada factor se corresponden con las saturaciones de la variable en dichos factores, es decir, con los valores de la matriz factorial (ver Tabla 20.18). La rotacin de la solucin original se realiza con el objetivo de mejorar la interpretacin de la estructura factorial. Las restricciones de la auto-descomposicin de la matriz de correlaciones imponen que el primer factor explique el mximo de la varianza comn disponible en los datos, que el segundo factor explique el mximo de la varianza comn restante (e independiente de la explicada por el primer factor), y as sucesivamente hasta el ltimo de los factores. Estas restricciones se imponen para deshacer la indeterminacin intrnseca a la solucin del sistema homogneo de ecuaciones que da lugar a los autovectores. Un efecto indeseable de estas restricciones es que los primeros factores tienden a capitalizar la informacin de covariacin contenida en la matriz de correlaciones, acumulando ms informacin de la que posiblemente les corresponda. Este hecho se aprecia en que las saturaciones de las variables en los primeros factores (y en especial en el primer factor) suelen encontrase infladas, llevando esto a conceder excesiva importancia a los primeros factores. Cuando la estructura factorial es clara y cada variable del anlisis se encuentra inequvocamente asignada a un nico factor, el electo contaminante de las restricciones no suele apreciarse. Sin embargo, cuando las variables saturan en ms de un factor o existe un factor general que domina la solucin, la rotacin puede ser de gran utilidad para interpretar los resultados.
225
Otro de los motivos que justifican la rotacin es que la solucin factorial original es siempre ortogonal (los factores no rotados son siempre independientes entre si). Sin embargo, existe un gran nmero de situaciones (y en especial en las ciencias sociales) en las que los factores pueden estar relacionados entre s. En estos casos, si se desea estimar el grado de relacin existente entre los factores, debe recurrirse a una rotacin oblicua. En el grfico de la Figura 20.9 pueden apreciarse dos grupos diferenciados de variables. El primer grupo de se encuentra prximo al extremo positivo del factor 1, formado por las variables salario (salario actual), salini (salario inicial), catlab (categora laboral) y educ (nivel educativo). El segundo grupo de variables se encuentra prximo al extremo positivo del factor 2 y est formado por las variables expprev (experiencia previa) y edad.
Se aprecia un panorama similar si se estudia con detenimiento la matriz factorial de la Tabla 20.18. En ella se puede apreciar que el grupo de variables pertenecientes al segundo factor tambin saturan, aunque poco, en el primer factor. Adems, la variable nivel educativo, aunque se encuentra relativamente distante del primer factor, satura bastante en l (tal vez de manera excesiva). Si se efecta una rotacin ortogonal, es muy posible que se aclare algo ms la estructura de las variables. Para aplicar un mtodo de rotacin (manteniendo las mismas 6 variables utilizadas en los ejemplos anteriores, forzando una solucin de 2 factores y utilizando ejes principales como mtodo de extraccin): Pulsar el botn Rotacin... del cuadro de dilogo Anlisis factorial (ver Figura 20.1) para acceder al subcuadro de dilogo Anlisis factorial: Rotacin que muestra la Figura 20.8. En el recuadro Mtodo, seleccionar la opcin Varimax y pulsar el botn Continuar para volver al cuadro de dilogo principal. Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 20.19 a la 20.22 y la Figura 20.11. La tabla de comunalidades no ha cambiado; es la misma que la ya obtenida en la extraccin no rotada (ver Tabla 20.16). Es importante resaltar este detalle pues obedece al hecho de que en el proceso de rotacin se busca clarificar la interpretacin de la estructura factorial subyacente sin alterar la situacin relativa de unas variables respecto a las otras, y sin alterar tampoco el porcentaje de la varianza de cada variable que es capaz de explicar cada factor. Para que las comunalidades de las variables cambien, es necesario variar el nmero de factores de la solucin. Lo que s cambia en el proceso de rotacin es el porcentaje de varianza total explicada por cada factor (y cambia tanto ms cuanto ms xito tiene la rotacin). Ahora, al haber solicitado la aplicacin de un mtodo de rotacin, la tabla de porcentajes de varianza explicada (ver Tabla 20.19) incorpora informacin adicional referida a la suma de las saturaciones tras la rotacin de los factores. En el ejemplo, puede comprobarse que las sumas de los cuadrados de las saturaciones correspondientes a la solucin rotada no coinciden con las de la extraccin no rotada. No obstante, difieren muy poco, por lo que se puede pensar que la rotacin no mejora demasiado la interpretacin de la solucin factorial y que la extraccin inicial ofrece ya una solucin lo suficientemente clara.
226
La matriz de la estructura factorial no rotada (ver Tabla 20.20) contiene la solucin factorial antes de aplicar la rotacin (es decir, contiene las saturaciones de las variables en los factores no rotados). Esta matriz es idntica a la obtenida en la solucin no rotada (ver Tabla 20.18). El Visor ofrece esta tabla (que es el punto de partida del proceso de rotacin) justo antes de presentar la matriz de la estructura factorial rotada.
La matriz de la estructura factorial rotada aparece en la tabla denominada matriz de factores rotados (ver Tabla 20.21). Comparando los valores de esta tabla con los de la matriz no rotada de la Tabla 20.20, puede comprobarse que las saturaciones de las dos variables agrupadas en el segundo factor ha mejorado algo: se han incrementado ligeramente las de ese factor y han disminuido las del primero (recurdese que la comunalidad de una variable es igual a la suma de los cuadrados de las saturaciones de esa variable y que esa suma no se altera con la rotacin; por tanto, si la saturacin de una variable aumenta en un factor, su saturacin en los restantes factores debe disminuir). La variable categora laboral tambin se ha desplazado hacia su factor, el primero, disminuyendo su saturacin en el segundo factor. Sin embargo, la variable nivel educativo, que antes saturaba fundamentalmente en el primer factor, ha perdido parte de su correlacin con l en beneficio del segundo factor, con el que ahora comparte ms informacin. En definitiva, el proceso de rotacin busca lo que Thurstone (1947) denomin una estructura simple: variables que saturen, a ser posible, en un nico factor, y factores que contengan un nmero reducido de variables que saturen inequvoca y exclusivamente en ellos. Con todo, las variables que compartan informacin con varios factores, si existen, entorpecern el proceso de rotacin y, en lugar de una nica saturacin elevada en un nico factor, tendern a mostrar saturaciones moderadas en varios factores (como ocurre en el ejemplo, en parte, con la variable
nivel educativo).
227
La Tabla 20.22 muestra la matriz de transformacin de los factores, que es la matriz utilizada para rotar la solucin inicial. Esta matriz adopta la forma:
Donde A es la matriz de estructura factorial antes de la rotacin, T es la matriz de transformacin ya es la matriz de estructura factorial despus de la rotacin. Igualando los trminos de la matriz anterior con los de la Tabla 20.22 y despejando, se obtiene un ngulo de rotacin de aproximadamente 10 en el sentido contrario al de las agujas del reloj. Como el mtodo de rotacin utilizado es ortogonal, los ejes rotados seguirn siendo ortogonales o independientes entre s, es decir, seguirn formando un ngulo de 90.
Para ayudar a percibir con claridad el efecto de la rotacin, la Figura 20.10 muestra los ejes rotados superpuestos sobre el grfico de la solucin no rotada de la Figura 20.9. No obstante, en la rotacin que ofrece el Visor (ver Figura 20.11), da la impresin de que son las variables las que se desplazan hacia los ejes en lugar de ser los ejes los que se desplazan hacia las variables.
228
El grfico muestra con claridad cmo las variables pertenecientes factor 2 se han aproximado ms a l, cmo el grupo de variables pertenecientes al factor 1 ahora se encuentran atravesadas por el eje que representa dicho factor y cmo la variable nivel educativo se ha distanciado del factor 1, llevando esto a pensar que esa variable comparte, de hecho, informacin con el factor 2. A la vista del grfico y de la matriz de estructura rotada, puede interpretarse que la personas de mayor edad y experiencia de la empresa tienden a presentar un menor nivel educativo y viceversa, las personas de menor edad y experiencia laboral tienden a presentar un mayor nivel educativo. Ejemplo (Anlisis factorial > Rotacin oblicua) Este ejemplo muestra cmo rotar la solucin factorial original mediante un mtodo oblicuo y compara los resultados de la rotacin oblicua con los de la rotacin ortogonal del ejemplo anterior. La estructura rotada es la ya obtenida con el mtodo de extraccin ejes principales (6 variables, 2 factores). Para seleccionar un mtodo de rotacin oblicuo: Pulsar el botn Rotacin... del cuadro de dilogo Anlisis factorial (ver Figura 20.1) para acceder al subcuadro de dilogo Anlisis factorial: Rotacin que muestra la Figura 20.8. En el recuadro Mtodo, seleccionar la opcin Oblimin directo. Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 20.23 a la 20.27. La tabla de comunalidades es la misma que la ya obtenida en la extraccin no rotada (ver Tabla 20.16). Recurdese que el proceso de rotacin busca clarificar la interpretacin de la estructura factorial sin alterar la situacin relativa de las variables ni el porcentaje de la varianza de cada variable que es capaz de explicar el conjunto de factores. La tabla de porcentajes de varianza explicada (Tabla 20.23) muestra informacin parcial sobre el resultado de la rotacin: si bien la tabla recoge las sumas de cuadrados de las saturaciones de las variables en cada factor (ltima columna de la tabla), no es posible sumar esas sumas de cuadrados e interpretarlas como porcentajes de varianza explicada. Esto es debido a que los factores ya no tienen por qu cumplir la restriccin de ser ortogonales entre s y, consecuentemente, la varianza de la suma de los factores ya no es igual a la suma de las varianzas de los factores (el encabezamiento completo de la ltima columna de la tabla -Suma de sus saturaciones al cuadrado de la rotacin-slo puede verse ensanchando la columna).
229
La matriz de la estructura factorial no rotada (Tabla 20.24) se ofrece en una tabla denominada matriz factorial y, al igual que ocurre con la tabla de comunalidades, tambin es idntica obtenida anteriormente (ver Tabla 20.18).
A diferencia de lo que ocurre en la rotacin ortogonal, los resultados de la rotacin oblicua pueden representarse en una nica matriz. Si los factores son ortogonales (independientes e s), la saturacin de una variable en un factor, es decir, su proyeccin sobre el factor, es i a la correlacin de esa variable con el factor. Pero si los factores son oblicuos (correlacionan entre s), la saturacin y la correlacin de una variable en un factor no coinciden. Por motivo, al solicitar una rotacin oblicua, el Visor muestra dos matrices para la estructura fa rial rotada: una con las correlaciones (a la que llama matriz factorial) y otra con las saturaciones (a la que llama matriz
de configuracin).
La matriz de configuracin ofrece las saturaciones de las variables en los factores de la solucin rotada (Tabla 20.25). Esas saturaciones, que son las que se representan en el grfico del espacio factorial rotado, representan la contribucin neta de cada variable en cada factor, por lo que constituyen la manera ms fcil de interpretar la solucin factorial.
230
La matriz de estructura contiene las correlaciones entre las variables y los factores de la solucin rotada (Tabla 20.26). Estas correlaciones representan la contribucin bruta de cada variable a cada factor. Cuando los factores estn muy relacionados (se encuentran muy prximos en el espacio), la matriz de estructura contiene correlaciones muy grandes entre todas las variables y todos los factores, lo cual hace muy difcil la interpretacin al no poder precisar a qu factor hay asignar cada variable (si bien esto representa la situacin real: las variables que correlacionan con un factor tambin lo harn con los factores relacionados con l).
En la Figura 20.12 estn representadas las proyecciones espaciales que dan lugar a las saturaciones factoriales de la matriz de configuracin y a las correlaciones variables-factores de la matriz de estructura. Todo ello dentro del espacio factorial definido por dos factorescorrelacionados entre s (oblicuos). En la figura puede apreciarse que las saturaciones y las correlaciones ms altas en un factor (proyecciones ms largas: by b') corresponden a las variables que ms cerca se encuentran de l. Sin embargo, justamente por tratarse de factores oblicuos, mientras la saturacin de una variable en el factor del que se encuentra ms alejada es muy reducida (proyeccin a), la correlacin de esa misma variable con ese mismo factor (proyeccin a') es ms alta que la saturacin.
La matriz de correlaciones entre los factores (Tabla 20.27) permite apreciar el grado de proximidad existente entre los factores: cuanto mayor sea la correlacin entre los factores (en valor absoluto), ms prximos se encontrarn stos en el espacio. Estas correlaciones estn estrechamente relacionadas con el ngulo que forman los factores: equivalen al coseno del ngulo comprendido entre ellos. En nuestro ejemplo: correlacin(factor l, factor 2) = -0, l 04 = cos(9) y arcos(-0,104) = 9 == 96. Los factores se encuentran abiertos un poco ms de 90 grados; por tanto, no son ortogonales (si los factores fueran ortogonales o independientes, la correlacin entre ambos valdra cero y el ngulo comprendido entre ellos sera exactamente de 90 grados).
231
Puede darse el caso de que, aun solicitando una rotacin oblicua, los factores permanezcan ortogonales. El algoritmo de rotacin oblicua busca rotar de manera autnoma cada uno de los factores, pero eso no quiere decir que los factores deban aproximarse entre s cuando la solucin ortogonal es la mejor de las posibles. En el ejemplo, el ngulo entre factores ha permanecido prcticamente en 90 grados (casi ortogonales), razn por la cual la matriz de configuracin y la matriz de estructura apenas difieren entre s. Cuando se realiza una rotacin oblicua, el grfico de las saturaciones en el espacio factorial rotado (Figura 20.13) puede resultar engaoso. Aunque el grfico representa la posicin relativa de las variables en los factores, el ngulo entre los factores se mantiene en 90 grados, independientemente del ngulo real obtenido con la rotacin. Para interpretar correctamente el grfico debe tenerse en cuenta cul es la posicin de las variables respecto del factor en el que ms saturan (que es el factor al que se encuentran ms prximas). Sin embargo, la inclinacin de los ejes debe intuirse a partir de los valores de la matriz de correlaciones entre los factores.
Puntuaciones factoriales Una vez alcanzada la solucin factorial final, suele resultar interesante obtener una estimacin de las puntuaciones de los sujetos en cada uno de los factores resultantes de la extraccin a fin de valorar la situacin relativa de cada sujeto en esas dimensiones ocultas capaces de resumir la informacin contenida en las variables originales. El cuadro de dilogo Puntuaciones factoriales contiene varias opciones que permiten solicitar las estimaciones de las puntuaciones factoriales y seleccionar el mtodo de estimacin que se desea utilizar para obtener tales estimaciones. Para acceder a estas opciones: Pulsar el botn Puntuaciones... del cuadro de dilogo Anlisis factorial (ver Figura 20.1) para acceder al subcuadro de dilogo Anlisis factorial: Puntuaciones factoriales que muestra la Figura 20.14.
Guardar como variables. Activando esta opcin se guardan automticamente en el Editor de datos las puntuaciones factoriales estimadas para cada sujeto en cada uno de los factores obtenidos en la solucin factora!. Para ello, el SPSS crea en el archivo de datos activo tantas
232
variables nuevas como factores contenga la solucin factorial. Si no se selecciona esta opcin no .es posible acceder a los mtodos de estimacin de las puntuaciones factoriales. Mtodo. Este recuadro contiene varios mtodos de estimacin de las puntuaciones factoriales. Por defecto se encuentra seleccionado el mtodo de Regresin, que es el de uso ms generalizado. Es importante sealar que las opciones de este recuadro no tienen electo alguno cuando se ha seleccionado componentes principales como mtodo de extraccin, ya que en ese modelo factorial las puntuaciones factoriales no son estimadas, sino calculadas directamente a partir de las variables originales. Regresin. Mtodo de estimacin de las puntuaciones factoriales en el que las estimaciones resultantes tienen una media de cero y una varianza igual al cuadrado de la correlacin mltiple entre las puntuaciones factoriales estimadas y los valores factoriales verdaderos. Las puntuaciones factoriales estimadas con este mtodo pueden estar correlacionadas incluso cuando los factores son ortogonales. Bartlett. Mtodo de estimacin de las puntuaciones factoriales en el que las estimaciones resultantes tienen una media de cero. Este mtodo minimiza la suma de cuadrados de los factores nicos (es decir, minimiza la unicidad correspondiente a cada una de las variables incluidas en el anlisis). Anderson-Rubin. Este mtodo de estimacin es una modificacin del mtodo de Bartlett que asegura la ortogonalidad de las puntuaciones factoriales estimadas. Las estimaciones resultantes tienen una media de cero, una desviacin tpica de uno y son independientes entre s (incluso en el caso de que se haya solicitado una solucin rotada oblicua). Mostrar matriz de coeficientes de las puntuaciones factoriales. Esta opcin permite obtener una tabla con los pesos o ponderaciones necesarios para calcular las puntuaciones factoriales a partir de las variables originales. Esta opcin se encuentra desactivada por defecto. Por tanto, para obtener la matriz de coeficientes no basta con solicitar las puntuaciones factoriales. Ejemplo (Anlisis factorial > Puntuaciones) Este ejemplo muestra cmo obtener e interpretar las estimaciones de las puntuaciones factoriales. Se comparan varios mtodos de estimacin de las puntuaciones factoriales. Las puntuaciones factoriales de los sujetos dependen del mtodo de extraccin utilizado, del mtodo de rotacin elegido y del mtodo de estimacin de las puntuaciones factoriales seleccionado. Cada combinacin de estos tres aspectos del anlisis da lugar a un conjunto de puntuaciones factoriales distintas para un sujeto dado. La eleccin de las puntuaciones factoriales ms adecuadas depende de los propsitos del investigador. As, por ejemplo, si se desea realizar un anlisis factorial de segundo orden sobre las puntuaciones factoriales, no debe seleccionarse el mtodo de Anderson-Rubin, ya que este mtodo impone la ortogonalidad de las puntuaciones factorales y el anlisis factorial ulterior no tendra sentido. En ese caso sera recomendable utilizar el mtodo de regresin con una rotacin oblicua para asegurar la posibilidad de explotar las relaciones existentes entre los factores. Para solicitar las estimaciones de las puntuaciones factoriales: En el cuadro de dilogo Anlisis factorial (ver Figura 20.1), seleccionar las seis variables con las que se viene trabajando en los ltimos ejemplos (educ, catlab, salario, salini, exprev y edad), y trasladarlas a la lista Variables. Pulsar el botn Puntuaciones... para acceder al subcuadro de dilogo Anlisis factorial: Puntuaciones factoriales (ver la Figura 20.15).
233
Marcar la opcin Guardar como variables (al marcar esta opcin, aparece seleccionada, por defecto, la opcin Regresin del recuadro Mtodo) y la opcin Mostrar la matriz de coeficientes de las puntuaciones factoriales. Pulsar el botn Continuar para volver al cuadro de dilogo principal. Pulsar el botn Extraccin... para acceder al subcuadro de dilogo Anlisis vectorial: Extraccin (ver Figura 20.4). Seleccionar la opcin Componentes principales en el men emergente del cuadro Mtodo e introducir un 2 en el cuadro de texto Nmero de factores. Pulsar el botn Continuar para volver al cuadro de dilogo principal. Pulsar el botn Rotacin... para acceder al subcuadro de dilogo Anlisis factorial: Rotacin (ver Figura 20.8) y seleccionar la opcin Ninguno del recuadro Mtodo. Pulsar el botn Continuar para volver al cuadro de dilogo principal. Aceptando estas selecciones, el Visor ofrece, adems de las tablas de resultados ya vistas en los ejemplos anteriores (comunalidades, porcentajes de varianza explicada, matriz de componentes, etc.), dos nuevas tablas con informacin referida a las puntuaciones factoriales solicitadas. La Tabla 20.28 muestra la matriz de coeficientes para el clculo de las puntuaciones factoriales, la cual contiene las ponderaciones que recibe cada variable en el clculo de las puntuaciones factoriales. Puesto que se ha utilizado el mtodo de extraccin de componel1les principales, las dimensiones obtenidas reciben el nombre de componentes (en lugar del nombre factores que reciben con otros mtodos de extraccin).
Combinando cada variable con sus correspondientes coeficientes pueden construirse las dos ecuaciones lineales en las que se basa el clculo de las puntuaciones factoriales:
Y1
= 0,255 educ + 0,266 catlab + 0,298 salario + 0,288 salini - 0,057 expprev - 0,074 edad
Y2 = -0,093 educ + 0,141 catlab + 0,048 salario + 0,127 salini + 0,500 expprev + 0,492 x edad
Las dos puntuaciones factoriales de un sujeto se obtienen sustituyendo cada variable por sus respectivos valores. La Tabla 20.29, obtenida con el procedimiento Informes> Resmenes de casos del men Analizar muestra las puntuaciones factoriales de los 10 primeros sujetos. Tabla 20.29. Listado de las puntuaciones factoriales de los 10 primeros sujetos. REGR factor REGR factor score 1 score 2 for analysis 1 for analysis 1 1 1.38309 .88997 2 .28680 - .46629 3 -1.00661 2.35341 4 -1.09351 .85072
234
5 6 7 8 9 10
.28864 -.14950 .07017 -.64438 -.35485 -.72959
.23986 - .40335 .01337 -1.03708 .32729 1.03906
Las puntuaciones factoriales se encuentran en formato diferencial, por lo que una puntuacin de cero se corresponde con una puntuacin factorial igual a la media, las puntuaciones positivas son puntuaciones mayores que la media y las puntuaciones negativas son puntuaciones menores que la media. Si se desea eliminar los signos negativos siempre es posible realizar una transformacin de las puntuaciones para cambiar la escala de las nuevas variables. Las puntuaciones factoriales se almacenan de manera automtica como nuevas variables en el Editor de datos y reciben, tambin de forma automtica, un nombre que identifica, por este orden: el mtodo de estimacin de las puntuaciones (en el ejemplo, REGR), el nmero del factor al que corresponden las puntuaciones (factor score 1) y el nmero de orden del anlisis durante la sesin (analisys 1). Este nombre es nico y distintivo, de manera que si se solicitan nuevas estimaciones de las puntuaciones, las nuevas puntuaciones se almacenarn al final del archivo de datos con nuevos nombres. Para interpretar mejor las puntuaciones factoriales de los sujetos es conveniente solicitar algunos estadsticos descriptivos de las nuevas variables. La Tabla 20.30 muestra algunos descriptivos obtenidos con el procedimiento Estadsticos descriptivos> Descriptivos del men Analizar. La media de las nuevas variables vale 0 y su desviacin tpica 1, lo que significa que pueden interpretarse como si fueran puntuaciones tpicas. Inspeccionando la Tabla 20.29 puede apreciarse que el primer sujeto recibe una puntuacin alta y por encima de la media en el primer factor y tambin una puntuacin moderadamente alta en el segundo. El tercer sujeto punta bajo en el primer factor,(se encuentra a una desviacin tpica por debajo de la media) y muy alto en el segundo (se encuentra a ms de dos desviaciones tpicas por encima de la media). El sptimo sujeto se encuentra situado en tomo a la media en ambos factores. Tabla 20.30. Estadsticos descriptivos de las puntuaciones factoriales. Mxim Desv. N Mnimo Media o tip. REGR factor score 1 for 47 -1.529 4.950 .000 1.000 analysis 1 3 REGR factor secre 2 for 47 -1.212 3.083 .000 1.000 analysis 1 3 47 N vlido (segn lista) 3 Adems de las puntuaciones factoriales, el procedimiento ofrece tambin la matriz de varianzascovarianzas de las puntuaciones factoriales (Tabla 20.31). Lgicamente, esta matriz contiene, en la diagonal principal (es decir, en las casillas 1: I y 2:2), la varianza de las puntuaciones factoriales de cada componente o factor (que ya se sabe que vale uno) y, fuera de la diagonal principal (es decir, en las casillas 1:2 y 2: 1), las covarianzas existentes entre cada par de componentes o factores (covarianza que en el ejemplo vale cero, indicando esto que las puntuaciones factoriales de ambos factores son completamente independientes entre s: su correlacin
235
es nula).
Esta circunstancia (la independencia completa entre las puntuaciones factoriales) es bastante excepcional cuando las estimaciones se efectan mediante el mtodo de regresin. De hecho, se trata de un caso muy particular. Pero obsrvese que la Tabla 20.31 no informa sobre el mtodo de estimacin utilizado (a pesar de que en el cuadro de dilogo Anlisis factorial: Puntuaciones se ha seleccionado el mtodo de estimacin regresin), sino que se limita a sealar que las puntuaciones factoriales analizadas son las puntuaciones en las componente. principales. Cuando la extraccin de los factores se realiza con el mtodo componentes principales. las puntuaciones factoriales no se obtienen mediante estimacin, sino que son directamente calculadas a partir de la solucin factorial. Y puesto que la extraccin con el mtodo componentes principales siempre ofrece una solucin ortogonal, las puntuaciones factoriales basadas en esa solucin tambin sern ortogonales. Sin embargo, cuando se utiliza un mtodo de extraccin distinto del de componentes principales no es posible obtener directamente las puntuaciones factoriales a partir de la matriz de estructura, sino que deben ser estimadas mediante uno cualquiera de los mtodos de estimacin disponibles. La Tabla 20.32 ofrece la matriz de coeficientes obtenida con el mtodo de extraccin componentes principales, el mtodo de rotacin oblimin directo y el mtodo regresin para la estimacin de las puntuaciones factoriales. Tabla 20.32. Matriz de coeficientes para el clculo de las puntuaciones factoriales. Componente 1 2 .240 -.148 .283 .077 .302 -.021 .302 .058 .012 -.006 .500 .496
Nivel educativo Categora laboral Salario actual Salario inicial Experiencia previa Edad (aos)
Mtodo de extraccin: Anlisis de componentes principales Mtodo de rotacin: Oblimin con normalizacin de Kaiser. Puntuaciones de componentes. Puede observarse en la tabla que las nuevas ponderaciones son ligeramente distintas de las obtenidas con la solucin no rotada. No tiene sentido detenerse en esta matriz de coeficientes pues slo sirve como instrumento de clculo en el caso de que se desee estimar las puntuaciones factoriales con alguna herramienta distinta del SPSS. Si se desea estudiar el cambio en la estructura factorial es ms adecuado referirse a las matrices de configuracin y de estructura. Donde se pueden apreciar con claridad las diferencias entre las soluciones rotada y no rotada es en la matriz de varianzas-covarianzas (Tabla 20.33). Ahora, en la solucin rotada, las varianzas
236
de las puntuaciones siguen valiendo aproximadamente uno, pero la covarianza entre las puntuaciones ya no es nula, sino que existe una ligera relacin negativa entre las puntuaciones de ambas componentes.
Por ltimo, veamos qu efecto tiene sobre las puntuaciones factoriales aplicar el mtodo de extraccin ejes principales, manteniendo el mtodo de rotacin oblimin directo y el mtodo de estimacin regresin. La Tabla 20.34 muestra los coeficientes obtenidos. Ahora s se menciona en una nota a pie de tabla el mtodo de estimacin utilizado para obtener las puntuaciones factoriales (Mtodo de puntuaciones factoriales: Regresin), pues al utilizar un mtodo de extraccin distinto de componentes principales, las puntuaciones factoriales no pueden calcularse directamente sino que necesitan ser estimadas. Tal vez sorprenda observar que las variables del primer factor no reciben ponderaciones similares a las obtenidas con el mtodo componentes principales (ver Tabla 20.32). Esto es debido a que el mtodo regresin es muy similar al anlisis de regresin mltiple y, cuando existe colinealidad estre las variables, no es necesario incorporar la misma informacin de manera repetitiva.
En la matriz de varianzas-covarianzas de las puntuaciones factoriales (Tabla 20.35) puede apreciarse que las puntuaciones factoriales estn ms relacionadas que antes y que las varianzas de las puntuaciones factoriales de ambos factores son distintas de uno y distintas entre s. Normalmente, cuando se utiliza el mtodo de estimacin regresin, las puntuaciones factoriales correspondientes a factores con autovalores mas grandes suelen tener una varianza mayor. Adems, si se utiliza un mtodo de extraccin distinto del de componentes principales, las puntuaciones factoriales tienden a mostrar cierta correlacin incluso aunque no se haya efectuado una rotacin oblicua.
Opciones El cuadro de dilogo Anlisis factorial: Opciones permite controlar algunos aspectos relacionados con el tratamiento que se desea dar a los valores perdidos y con el formato de las tablas de
237
resultados que genera el Visor de resultados. Para controlar estos aspectos: Pulsar el botn Opciones... del cuadro de dilogo Anlisis factorial (ver Figura 20.1) para. acceder al subcuadro de dilogo Anlisis factorial: Opciones que muestra la Figura 20.15.
Valores perdidos. Este recuadro permite controlar el tratamiento que se desea dar a valores perdidos. Excluir casos segn lista. Es la opcin por defecto. Se excluyen del anlisis los sujetos que tengan valores perdidos en cualquiera de las variables trasladadas a la lista Variables del cuadro de dilogo Anlisis factorial (ver Figura 20.1). Es el tratamiento ms consistente de todos: slo se incluyen en el anlisis los casos completos (es decir, los casos con puntuacin vlida en todas las variables seleccionadas), pero conviene tener en cuenta que esta forma de tratar los valores perdidos puede suponer la prdida de un gran nmero de casos y, con ello, la consiguiente reduccin del tamao efectivo de la muestra. Excluir casos segn pareja. Los sujetos con valor perdido en una variable se excluyen del anlisis slo para el clculo de los estadsticos en los que est implicada esa variable. Este mtodo permite aprovechar ms cantidad de informacin que el anterior, pero, puesto que no todas las correlaciones se calculan sobre el mismo nmero de casos, podran obtenerse matrices de correlaciones inconsistentes imposibles de analizar posteriormente. Reemplazar por la media. Los valores perdidos en una variable se sustituyen por la media de esa variable. Si en una variable existen muy pocos casos con valor perdido, reemplazar el valor perdido por la media no constituye un problema importante. Pero en la medida en que el nmero de valores perdidos aumenta, la sustitucin por la media tiene el efecto de centrar las variables disminuyendo su variabilidad. Formato de visualizacin de los coeficientes. Las opciones de este recuadro permiten cambiar algunos aspectos relacionados con el formato de presentacin de las tablas. Ordenados por tamao. Esta opcin sirve para ordenar las variables de las tablas de resultados en funcin de la magnitud (en valor absoluto) de los coeficientes de esas tablas (saturaciones, correlaciones, etc). La ordenacin se realiza de forma ascendente: primero las variables con coeficientes ms altos. Si no se marca esta opcin, las tablas muestran las variables en el mismo orden en el que han sido trasladas a la lista de Variables del cuadro de dilogo Anlisis factorial (ver Figura 20.1). Suprimir valores absolutos menores que... Esta opcin permite suprimir de las tablas de resultados los coeficientes cuyo un valor absoluto sea menor que el valor establecido en el cuadro de texto. El valor por defecto es 0,10, pero este valor puede cambiarse introduciendo un valor distinto. Esta opcin es de gran ayuda: al desaparecer de la tabla
238
los coeficientes excesivamente pequeos (en valor absoluto), se facilita notablemente la interpretacin de los resultados.
Ejemplo (Anlisis factorial > Opciones)

Este ejemplo muestra cmo utilizar algunas de las opciones disponibles en el procedimiento. En concreto, muestra cmo ordenar las variables en la matriz de estructura y cmo suprimir las saturaciones pequeas. Se utilizarn las mismas seis variables que se han venido utilizando en los ejemplos anteriores, ejes principales como mtodo de extraccin (forzando una solucin de 2 factores) y varimax como mtodo de rotacin. Para acceder a las opciones del procedimiento: En el cuadro de dilogo Anlisis factorial: Opciones (ver Figura 20.15), seleccionar las opciones Ordenar por tamao y Suprimir valores absolutos menores que 0,10 del recuadro Formato de visualizacin de los coeficientes. Aceptando estas selecciones, el Visor de resultados ofrece (adems de las comunalidades, porcentajes de varianza explicada, etc.), la matriz de la estructura factorial rotada que muestra la Tabla 20.35.
Las opciones seleccionadas slo tienen efecto sobre las matrices de configuracin y de estructura. Lo primero que puede observarse en la Tabla 20.36 es que se han suprimido las saturaciones menores que 0,01 (en valor absoluto). Dado que las saturaciones muy pequeas suden carecer de valor interpretativo, suprimirlas de la tabla facilita que la atencin pueda centrarse en las saturaciones ms relevantes. Esta opcin cumple nicamente el propsito de ayudar a interpretar la solucin factorial; por tanto, no es aconsejable utilizarla si se tiene intencin de publicar los resultados. .La Tabla 20.36 tambin muestra las variables ordenadas por el tamao de sus saturaciones. Primero se encuentran las variables que ms saturan en el primer factor (empezando por las saturaciones ms altas); despus, las que ms saturan en el segundo factor. De nuevo se trata de una opcin que facilita la lectura de los resultados y cuya nica funcin es la de facilitar la interpretacin de la matriz de saturaciones. Bibliografa: Cap 20 de Gua para el anlisis de datos SPSS 11.0. Antonio Pardo. Mc Graw Hill
239

03 Estudios de Casos MGPP 2012

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

03 Estudios de Casos MGPP 2012

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSIDAD DE CHILE MAGISTER EN GESTION Y POLITICAS PBLICAS

ESTADSTICA APLICADA Y ECONOMETRA APLICACIONES DE SPSS

Profesora : Sara Arancibia C. Profesora Auxiliar: Carlos Andrade G

Primer Semestre 2012

Anlisis Inicial de los datos

Representaciones grficas para el anlisis de datos

Aos de escolarizacin por raza

Nmero de aos de escolarizacin

Raza del encuestado

Aos de escolarizacin por raza agrupados por sexo

Sexo del encuestado

Nmero de aos de escolarizacin

Raza del encuestado

Deteccin de variables con categoras mal codificadas

Anlisis de datos ausentes

Cuando se descubren errores

Recodificar en la misma variable /distinta variable

Supuestos subyacentes en los mtodos multivariables

Repaso de herramientas de SPSS

Para archivo consumo de agua potable SORT CASES BY id_hogar (A) .

Total 22 2,6% 226 27,2% 583 70,2% 831 100,0%

hasta 20 20,001 a 60 mayor a 60

/COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.

gas to en consumo de agua potable

Prueba de muestras independi entes Prueba de Levene para la igualdad de varianzas

Sig. (bilateral) ,250 ,303

Diferencia de medias -20786,122 -20786,122

Error tp. de la diferencia 17917,04140 19953,19051

Estadstico ,934 ,849 ,873

Shapiro-Wilk gl 831 831 831

Sig. ,000 ,000 ,000

a. Correccin de la s ignificacin de Lilliefors

Anlisis ANOVA de un factor

Estudio de Caso: Satisfaccin Laboral de Enfermeras.

a) Muestre un grfico que permita visualizar el grado de satisfaccin de las enfermeras

h) Para la variable satisfaccin con el trabajo. Determine si existen diferencias

i) Para la variable satisfaccin con el sueldo. Determine si existen diferencias

j) Determine si existe correlacin significativa entre los indicadores de satisfaccin

k) Determine si las variables de satisfaccin; con el trabajo, con el sueldo, y con

l) El grfico agrupado muestra la media de los indicadores de satisfaccin laboral de

Satisfaccin laboral de enfermeras por tipo de hospital

N Media Mediana Des v. tp. Rango Mnimo Mx imo Perc entiles

Stem width: Each leaf:

4 . 0125679 5 . 11222444556789 6 . 122334467788 7 . 0224589 8 . 26 9 . 12 10 1 case(s)

n) El intervalo de confianza para la media de satisfaccin con el trabajo para la poblacin

Sati sfaccin con el trabajo (% )

Lower Bound Upper Bound

Sati sfaccin con el sueldo (% )

Lower Bound Upper Bound

Sati sfaccin con oportunidades de ascenso (% )

Lower Bound Upper Bound

o) Para esta pregunta se realiza una prueba ANOVA donde H0: 1= 2=

N privados geritricos universitarios Total 19 17 14 50

Media 79,32 80,41 79,71 79,80

Des viacin tpic a 8,035 9,702 7,269 8,288

Error tpico 1,843 2,353 1,943 1,172

Inter-grupos Intra-grupos Total

(I) Tipo Hos pital privados geritricos universitarios

Diferencia de medias (I-J) -1,10 -,40 1,10 ,70 ,40 -,70

Error tpico 2,821 2,976 2,821 3,049 2,976 3,049

Sig. ,920 ,990 ,920 ,972 ,990 ,972

N privados geritricos universitarios Total 19 17 14 50

Media 45,79 54,65 61,71 53,26

Des viacin tpic a 15,343 15,301 15,696 16,462

Creacin de la variable grupo * Sintaxis Grupo *.

* Sintaxis Premio *.