Vous êtes sur la page 1sur 19

DESCRIPTIVA BIDIMENSIONAL CON SPSS

Introduccin
En una investigacin las posibles relaciones entre distintas variables poseen una gran
importancia. De la consideracin simultnea de dos o ms caractersticas de una misma
poblacin o muestra surgen las distribuciones bidimensionales. En este caso a cada
elemento observado le corresponden dos o ms valores (si se consideran variables
cuantitativas) o modalidades (en el caso en que se analizan variable es cualitativas).
Generalmente cuando estudiamos relaciones entre variables cualitativas hablaremos de
asociacin entre esas variables y cuando nos refiramos a relaciones entre variables
cuantitativas diremos correlacin.
Hay que distinguir entre correlacin y regresin. La correlacin se refiere a la variacin
conjunta de dos variables y no implica causalidad. Con la regresin queremos encontrar
un modelo matemtico que explique los valores de una de las variables (dependiente) en
funcin de la otra u otras (independientes).
En este tema vamos a trabajar con tres procedimientos de SPSS:
1.- Tablas cruzadas
2.- Correlaciones
3.- Regresin lineal

I.1. Variables cualitativas. Coeficientes de asociacin


TABLAS DE CRUZADAS
Cuando se trabaja con variables categricas, los datos suelen organizarse en tablas de
frecuencias de doble (triple,) entrada en las que cada entrada representa un criterio de
clasificacin (una variable categrica). Como resultado de esta clasificacin, las
frecuencias (el nmero o porcentaje de casos) aparecen organizadas en casillas que
contiene la informacin sobre la relacin existente entre ambos criterios. A estas tablas
se les llama tablas de contingencia.
El procedimiento Tablas cruzadas de SPSS permite generar tablas con cualquier nmero
de dimensiones. No obstante, la mayora de los estadsticos que incluye (con excepcin
de los de Mantel-Haenszel y Cochran) slo sirven para analizar tablas bidimensionales.
El anlisis de contingencia de ms de dos criterios de clasificacin se aborda en otros
procedimientos de SPSS.
Supuestos. En algunos estadsticos y medidas se asume que hay unas categoras
ordenadas (datos ordinales) o unos valores cuantitativos (datos de intervalos o de
proporciones), como se explica en la seccin sobre los estadsticos. Otros estadsticos son
vlidos cuando las variables de la tabla tienen categoras no ordenadas (datos nominales).
Para los estadsticos basados en chi-cuadrado (phi, V de Cramer y coeficiente de
contingencia), los datos deben ser una muestra aleatoria de una distribucin multinomial.
Para acceder a este procedimiento, elegir:

Analizar
Estadsticos descriptivos
Tablas cruzadas
Figura 1

En las ventanas de Filas (Columnas) se pasan las variables que deseamos aparezcan en
las filas (columnas) de la tabla. Las variables seleccionadas deben ser categricas
(variables con un nmero limitado de valores diferentes). Se genera una tabla de
contingencia para cada combinacin de variables de fila y columna.
La ventana Capa 1 de 1 nos permite cruzar variables categricas teniendo en cuenta los
niveles o categoras de una o ms variables adicionales. Estas variables de segmentacin
se van aadiendo en este recuadro. As SPSS genera una tabla de tres dimensiones
separada por cada variable de segmentacin seleccionada.
La opcin Mostrar los grficos de barras agrupadas: muestra un grfico de barras
agrupadas para cada combinacin de variables de fila y columna, dentro de las categoras
de cada variable de capa.
La opcin Suprimir tablas: muestra las medidas estadsticas relativas a la tabla de
contingencia sin llegar a mostrar la propia tabla. Si no se selecciona ningn estadstico en
el cuadro de dilogo Estadsticos de tablas de contingencia, entonces no se generar
ningn resultado.
Casillas
En las casillas o celdas de una tabla de contingencia puede aparecer informacin muy
variada, para controlar el contenido de stas pulsamos el botn Casillas mostrndose
el cuadro de dilogo de la Figura 2.

Figura 2

Recuentos. Es posible elegir el tipo de frecuencias absolutas queremos que aparezcan en


las celdas entre:
- Observado: muestra el nmero efectivo de casos en la casilla.
- Esperado: Nmero de casos que cabra esperar dentro de la casilla si las
variables de fila y columna fueran estad sticamente independientes o no
relacionadas entre s.
- Ocultar recuentos pequeos: para no hacer tablas con poco sentido para
nosotros.
Porcentajes. Las opciones en este recuadro nos permiten elegir una o ms de las
siguientes frecuencias porcentuales:
- Fila: Porcentaje de todos los casos de una fila que estn en una casilla.
- Columna: Porcentaje de todos los casos de una columna que caen dentro de una
casilla determinada.
- Total: El porcentaje de casos que estn dentro una casilla, respecto a todos los
casos de la tabla de contingencia, o de la sub-tabla actual.
Comparar las proporciones de columna. Esta opcin permite calcular comparaciones
por pares de proporciones de columnas e indica los pares de columnas (de una fila
concreta) que son significativamente diferentes.
- Corregir valores p (mtodo de Bonferroni): Las comparaciones por parejas de
las proporciones de columnas utilizan la correccin de Bonferroni, que ajusta el nivel de
significacin observado por el hecho de que se realizan mltiples comparaciones.
Residuos. Son las diferencias entre las frecuencias observadas y las esperadas de cada
casilla. Son tiles para interpretar las pautas de asociacin presentes en una tabla.
Podemos elegir entre:
- No estandarizados: Son la diferencia entre el valor observado y el valor
pronosticado por el modelo. El valor pronosticado es el nmero de casos que se
esperaran en la casilla si no hubiera relacin entre las dos variables. Un residuo
positivo indica que hay ms casos en la casilla de los que habra en ella si las
variables de fila y columna fueran independientes.

Estandarizados: Es el residuo dividido por una estimacin de su error tpico. Los


residuos tipificados, que son conocidos tambin como los residuos de Pearson o
residuos estandarizados, tienen una media de 0 y una desviacin tpica de 1.
Estandarizados corregidos: El residuo de una casilla (valor observado menos
valor pronosticado) dividido por una estimacin de su error tpico. El residuo
tipificado resultante viene expresado en unidades de desviacin tpica, por encima
o por debajo de la media.

Ponderaciones no enteras. Podemos elegir como truncar o redondear los decimales en


las casillas:
- Redondear frecuencias casillas: Las ponderaciones de los casos se utilizan tal
cual, pero las ponderaciones acumuladas en las casillas se redondean antes de
calcular cualquiera de los estadsticos.
- Redondear ponderaciones de casos: Se redondean las ponderaciones de los
casos antes de utilizarlas.
- Trucar frecuencias de casillas: Las ponderaciones de los casos se utilizan tal
cual, pero las ponderaciones acumuladas en las casillas se truncan antes de
calcular cualquiera de los estadsticos.
- Truncar ponderaciones de casos: Se truncan las ponderaciones de los casos
antes de utilizarlas.
- No efectuar correcciones: Las ponderaciones de los casos se utilizan tal cual y
se utilizan las frecuencias de casilla fraccionales. Sin embargo, cuando se solicitan
Estadsticos exactos (disponibles slo con la opcin Pruebas exactas), los pesos
acumulados en las casillas se truncan o redondean antes de calcular los
estadsticos de las Pruebas exactas.
Formato
Las opciones de formato nos permiten controlar el orden en que aparecern las categoras
de la variable que define las filas de la tabla de contingencia. Para ello pulsamos el botn
Formatoy no aparece el cuadro de dilogo de la Figura 3.
Figura 3

Ascendente: Muestra los valores de la variable de filas en orden ascendente, de


menor a mayor.
Descendente: Muestra los valores de la variable de filas en orden descendente, de
mayor a menor.

Estadsticos
El grado de relacin existente entre dos variables categricas no puede ser establecido
simplemente observando las frecuencias de una tabla de contingencia. Para determinar si
dos variables se encuentran relacionadas debe utilizarse alguna medida de asociacin,

para obtener dichas medidas se pulsa el botn Estadsticos que nos muestra el cuadro
de la Figura 4.
Figura 4

Chi-cuadrado. Contrasta la hiptesis de que las variables de fila y de columna son


independientes, sin indicar la magnitud o direccin de la relacin. Se muestran el chicuadrado de Pearson, el chi-cuadrado de la razn de verosimilitud (asintticamente
equivalente al de Pearson y utilizado en modelos loglineales) y el chi-cuadrado de la
asociacin lineal-por-lineal. En las tablas 2x2, se calcula el estadstico exacto de Fisher
cuando una tabla que no sea resultado de columnas o filas perdidas de una tabla mayor
presente una casilla con una frecuencia esperada menor que 5. Para todas las restantes
tablas 2x2 se calcula el chi-cuadrado corregido de Yates (se les resta 05 a las diferencias
del numerador del estadstico Chi-cuadrado antes de elevarlas al cuadrado).
Si la probabilidad asociada al estadstico X2 es muy pequea (menor que 005), se
considerar que los datos son incompatibles con la hiptesis de independencia y se
concluir que las variables estudiadas estn relacionadas.
Correlaciones. Esta opcin nos permite obtener dos coeficientes de correlacin el de
Pearson y el de Spearman. El coeficiente de correlacin de Pearson, r, es una medida de
la asociacin lineal entre dos variables de intervalo, y el coeficiente de correlacin de
Spearman es una medida de la asociacin para variables ordinales. Los valores de ambos
varan entre -1 (relacin negativa perfecta) y +1 (relacin positiva perfecta). Un valor de
0 indica que no existe relacin lineal alguna.
Nominal. En este recuadro se muestran medidas de asociacin entre variables nominales,
por lo que slo informan del grado de asociacin existente, no de la direccin o naturaleza
de la asociacin. Hay tres basadas en Chi-cuadrado (Coeficiente de contingencia, Phi,
V de Cramer) y dos basadas en la reduccin proporcional del error (Lambda,
Coeficiente de incertidumbre).
- Coeficiente de contingencia (C): Medida de asociacin basada en chi-cuadrado.
El valor siempre est comprendido entre 0 y 1. El valor 0 indica que no hay
asociacin entre la fila y la columna. Los valores cercanos a 1 indican que hay
gran relacin entre las variables. El valor mximo posible depende del nmero de
filas y columnas de la tabla.

Phi y V de Cramer: Medidas de cunto varan las observaciones respecto a la


media, expresada en las mismas unidades que los datos.
Lambda: Medida de asociacin que refleja la reduccin proporcional en el error
cuando se utilizan los valores de la variable independiente para pronosticar los
valores de la variable dependiente. Un valor igual a 1 significa que la variable
independiente pronostica perfectamente la variable dependiente. Un valor igual a
0 significa que la variable independiente no ayuda en absoluto a pronosticar la
variable dependiente.
Coeficiente de incertidumbre: Medida de asociacin que indica la reduccin
proporcional del error cuando los valores de una variable se emplean para
pronosticar valores de la otra variable. Por ejemplo, un valor de 0.83 indica que
el conocimiento de una variable reduce en un 83% el error al pronosticar los
valores de la otra variable. SPSS calcula tanto la versin simtrica como la
asimtrica del coeficiente de incertidumbre.

Ordinal. Este recuadro recoge una serie de medidas de asociacin que permiten
aprovechar la informacin ordinal que las medidas diseadas para datos nominales pasan
por alto. Todas las medidas de este apartado utilizan en el numerador la diferencia entre
el nmero de inversiones y no inversiones resultantes de comparar cada caso con cada
otro, pero se diferencian en el tratamiento de los empates.
- Gamma: Medida de asociacin simtrica entre dos variables ordinales cuyo valor
siempre est comprendido entre -1 y 1. Los valores prximos a 1, en valor
absoluto, indican una fuerte relacin entre las dos variables. Los valores prximos
a cero indican que hay poca o ninguna relacin entre las dos variables. Para las
tablas de doble clasificacin, se muestran las gammas de orden cero. Para las
tablas de tres o ms factores de clasificacin, se muestran las gammas
condicionales.
- d de Somers: Es una extensin asimtrica de gamma que difiere slo en la
inclusin del nmero de pares no empatados en la variable independiente.
Tambin se calcula una versin no simtrica de este estadstico. Se interpreta de
igual forma que gamma.
- Tau-b de Kendall: Medida no paramtrica de asociacin para variables ordinales
o de rangos que tiene en consideracin los empates. El signo del coeficiente indica
la direccin de la relacin y su valor absoluto indica la magnitud de la misma, de
tal modo que los mayores valores absolutos indican relaciones ms fuertes. Los
valores posibles van de -1 a 1, pero un valor de -1 o +1 slo se puede obtener a
partir de tablas cuadradas.
- Tau-c de Kendall: Medida no paramtrica de asociacin para variables ordinales
que ignora los empates.
Nominal por intervalo.
- Eta: Medida de asociacin cuyo valor siempre est comprendido entre 0 y 1. El
valor 0 indica que no hay asociacin entre las variables de fila y de columna. Los
valores cercanos a 1 indican que hay gran relacin entre las variables. Eta resulta
apropiada para una variable dependiente medida en una escala de intervalo (por
ejemplo, ingresos) y una variable independiente con un nmero limitado de
categoras (por ejemplo, gnero). Se calculan dos valores de Eta: uno trata la
variable de las filas como una variable de intervalo; el otro trata la variable de las
columnas como una variable de intervalo. No supone linealidad.

Kappa (de Cohen). Es un ndice que mide el acuerdo entre las evaluaciones de dos jueces
cuando ambos estn valorando el mismo objeto. Un valor igual a 1 indica un acuerdo
perfecto. Un valor igual a 0 indica que el acuerdo no es mejor que el que se obtendra por
azar. Kappa slo est disponible para las tablas cuadradas.
Riesgo: Es una medida del grado de asociacin entre la presencia de un factor y la
ocurrencia de un evento. Si el intervalo de confianza para el estadstico incluye un valor
de 1, no se podr asumir que el factor est asociado con el evento. Cuando la ocurrencia
del factor es rara, se puede utilizar la razn de las ventajas (odds ratio) como estimacin
del riesgo relativo.
McNemar: Prueba no paramtrica para dos variables dicotmicas relacionadas.
Contrasta los cambios en las respuestas utilizando la distribucin de chi-cuadrado. Es til
para detectar cambios en las respuestas debidas a la intervencin experimental en los
diseos del tipo "antes-despus". Para las tablas cuadradas de mayor orden se informa de
la prueba de simetra de McNemar-Bowker.
Estadsticos de Cochran y Mantel-Haenszel: Estos estadsticos pueden utilizarse para
contrastar la independencia entre una variable de factor dicotmica y una variable de
respuesta dicotmica, condicionada por los patrones en las covariables, los cuales vienen
definidos por la variable o variables de las capas (variables de control). Mientras que otros
estadsticos se calculan capa por capa, los estadsticos de Cochran y Mantel-Haenszel se
calculan una sola vez para todas las capas.
Tablas cruzadas: procedimientos relacionados
Para confeccionar un modelo de las relaciones entre dos o ms variables categricas,
utilice el procedimiento Loglineal general (disponible en la opcin Estadsticas
avanzadas) para ajustar un modelo a las frecuencias de las casillas. Para definir intervalos
a lo largo de una variable cuantitativa, utilice el procedimiento Recodificar, disponible en
el men Transformar.

I.2. Variables cuantitativas. Regresin lineal


CORRELACIONES
El concepto de relacin o correlacin entre dos variables se refiere al grado de parecido
o variacin conjunta existente entre las mismas. En este apartado vamos a estudiar un tipo
particular de relacin llamada lineal y se limita a considerar nicamente el caso de dos
variables cuantitativas (correlacin simple).
Una relacin lineal positiva entre dos variables X e Y significa que los valores de las dos
variables varan de forma parecida: los sujetos que puntan alto en X tienden a puntuar
alto en Y, y los que puntan bajo en X tienden a puntuar bajo en Y. Una relacin lineal
negativa significa que los valores de ambas variables varan justamente el revs.
La forma ms directa de formarse una primera idea sobre el tipo de relacin existente
entre dos variables cuantitativas es a travs de un Diagrama de dispersin. Este tipo de
diagramas puede obtenerse mediante: Grficos, en las diferentes opciones que tiene:
Generador de Grficos o Cuadros de dilogo antiguos. sta ltima opcin muestra el
cuadro de dilogo de la Figura 5.
Datos. Utilice variables cuantitativas simtricas para el coeficiente de correlacin de
Pearson y variables cuantitativas o variables con categoras ordenadas para la rho de
Spearman y la tau-b de Kendall.
Supuestos. El coeficiente de correlacin de Pearson asume que cada pareja de variables
es normal bivariada.
Figura 5

Que nos da como resultado un diagrama como el que muestra la Figura 6.

Figura 6

Para poder cuantificar el grado de relacin lineal existente entre dos variables
cuantitativas, as cmo medir el grado de ajuste de la nube de puntos a una recta, vamos
a estudiar coeficientes de correlacin.
En el procedimiento de Tablas cruzadas ya se puede obtener el coeficiente de correlacin
de Pearson, en este apartado estudiaremos el procedimiento Correlaciones que incluye
tres opciones (1) Bivariadas, para el estudio de la relacin entre dos variables
cuantitativas, (2) Parciales, para el estudio de la relacin entre dos variables cuantitativas
cuando se controla o elimina el efecto de terceras variables y (3) Distancias, para el
estudio de la relacin entre dos variables cualesquiera que sea su nivel de medida.
Para acceder a este procedimiento, elegir:
Analizar
Correlaciones
Figura 7

(1) Correlaciones bivariadas ofrece tres tipos de coeficientes: rxy de Pearson, tau-b de
Kendall y rho de Spearman. Para acceder a este procedimiento, elegir:
Analizar
Correlaciones
Bivariadas
Apareciendo el cuadro de dilogo de la Figura 8.
Figura 8

La lista de variables slo muestra las variables que poseen formato numrico. Es
necesario trasladar al menos dos variables.
Coeficientes de Correlacin. Pueden seleccionarse uno o ms de los tres siguientes
coeficientes:
-

Pearson: Es una medida de la asociacin lineal entre dos variables. Los valores
del coeficiente de correlacin van de -1 a 1. El signo del coeficiente indica la
direccin de la relacin y su valor absoluto indica la intensidad. Los valores
mayores indican que la relacin es ms estrecha.

Tau-b de Kendall: Es una medida no paramtrica de asociacin para variables


ordinales o de rangos que tiene en consideracin los empates. El signo del
coeficiente indica la direccin de la relacin y su valor absoluto indica la magnitud
de la misma, de tal modo que los mayores valores absolutos indican relaciones
ms fuertes. Los valores posibles van de -1 a 1, pero un valor de -1 o +1 slo se
puede obtener a partir de tablas cuadradas.

Spearman: Versin no paramtrica del coeficiente de correlacin de Pearson, que


se basa en los rangos de los datos en lugar de hacerlo en los valores reales. Resulta
apropiada para datos ordinales, o los de intervalo que no satisfagan el supuesto de
normalidad. Los valores del coeficiente van de -1 a +1. El signo del coeficiente
indica la direccin de la relacin y el valor absoluto del coeficiente de correlacin
indica la intensidad de la relacin entre las variables. Los valores absolutos
mayores indican que la relacin es mayor.

Prueba de significacin. Junto con cada coeficiente de correlacin, el Visor ofrece la


informacin necesaria para contrastar la hiptesis nula de que el valor poblacional del
coeficiente es cero. El SPSS permite seleccionar el nivel crtico deseado:

Bilateral: Probabilidad de obtener resultados tan extremos como el obtenido, y


en cualquier direccin, cuando la hiptesis nula es cierta. Un nivel de significacin
bilateral (de dos colas) contrasta una hiptesis nula en la que la direccin del
efecto no se especifica de antemano.

Unilateral: Probabilidad de obtener un resultado tan extremo como el observado,


y en la misma direccin, cuando la hiptesis nula es cierta. Contrasta la hiptesis
nula en la que se especifica con antelacin la direccin del efecto.

Marcar las correlaciones significativas. Esta opcin, que se encuentra activa por
defecto, Marca con un asterisco los coeficientes de correlacin significativos al nivel 0,05
y, con dos asteriscos, los significativos al nivel 0,01.
Opciones
El subcuadro Opciones permite solicitar estadsticos adicionales y determinar el
tratamiento de los valores perdidos. Al pulsarlo nos aparece el cuadro de dilogo de la
Figura 9.
Figura 9

Estadsticos. Si se ha elegido el coeficiente de Pearson, las opciones de este recuadro


permiten seleccionar una o ms de las siguientes opciones:
-

Medias y desviaciones estndar: Muestra, para cada variable, la media, la


desviacin tpica (insesgada) y el nmero de casos vlidos.

Desviaciones de productos vectoriales y covarianzas: Muestra, para cada par


de variables, los productos cruzados de las desviaciones de cada puntuacin
respecto de su media y la covarianza

Valores perdidos. Las opciones de este recuadro permiten seleccionar el tratamiento que
se desea dar a los valores perdidos.
-

Excluir casos segn pareja: Excluye del anlisis los casos que tengan valores
perdidos en cualquiera (o en ambas) de las variables de una pareja implicada en
el clculo de un estadstico especfico.

Excluir casos segn lista: Excluye los casos que tienen valores perdidos en
cualquiera de las variables utilizadas en cualquiera de los anlisis.

(2) Correlaciones parciales (Figura 10) permite estudiar la relacin existente entre dos
variables cuantitativas controlando el posible efecto de una o ms variables cuantitativas
extraas. Un coeficiente de correlacin parcial es una tcnica de control estadstico que
expresa el grado de relacin lineal entre dos variables tras eliminar de ambas el efecto
atribuible a terceras variables.
Para acceder al procedimiento:
Analizar
Correlaciones
Parciales
Figura 10

En Variables se trasladan las variables numricas que se quieren correlacionar y en


Controlando para se trasladan las variables cuyo efecto se desea controlar.
Se habla de correlacin de primer orden (r12.3), para indicar que se est controlando el
efecto de una variable; de segundo orden (r12.34 ), para indicar que se est controlando el
efecto de dos variables; etc.
Prueba de significacin. Es exactamente como en Bivariadas pero para los coeficientes
parciales, dando opcin a elegir el tipo de nivel crtico deseado.
Mostrar el nivel de significacin real. Se muestran la probabilidad y los grados de
libertad para cada coeficiente. Es una opcin activa por defecto, cuando se desactiva el
Visor muestra un asterisco al lado de los coeficientes de correlacin significativos al
nivel 0,05 y, con dos asteriscos, los significativos al nivel 0,01.
Opciones
El subcuadro Opciones permite solicitar estadsticos adicionales y determinar el
tratamiento de los valores perdidos. Al pulsarlo nos aparece el cuadro de dilogo de la
Figura 11.

Figura 11

Estadsticas. Las opciones de este recuadro permiten seleccionar una o ms de las


siguientes opciones:
-

Medias y desviaciones estndar: Muestra, para cada variable, la media, la


desviacin tpica y el nmero de casos vlidos.

Correlaciones de orden cero: Coeficientes de correlacin ordinarios, sin


variables de control. Los valores del coeficiente de correlacin van de -1 a 1. El
signo del coeficiente indica la direccin de la relacin, y su valor absoluto indica
la fuerza. Los valores mayores, en valor absoluto, indican que la fuerza es mayor.

Valores perdidos. Idntico al recuadro para Bivariadas.


Correlaciones parciales: procedimientos relacionados
Si hay alguna razn para suponer que las variables estn relacionadas de un modo no
lineal, no es adecuado calcular el coeficiente de correlacin parcial. Pruebe a
transformar los datos. Utilice el procedimiento Explorar para inspeccionar los datos en
relacin a la simetra y los valores atpicos (que pueden inducir a resultados errneos).
Si los datos no aparecen simtricos, pruebe a transformarlos.
(3) Distancias
Los coeficientes de correlacin vistos son formas de cuantificar la distancia entre dos
variables, pero existen otras muchas formas de hacerlo. El procedimiento Distancias
incluye un gran nmero de medidas que se diferencian, bsicamente, por el tipo de datos
para el que han sido diseadas. Estas medidas pueden utilizarse tanto para obtener
distancias entre variables como entre casos. Llamaremos elemento tanto a los casos como
a las variables. Se pueden utilizar despus con otros procedimientos, como anlisis
factorial, anlisis de clsteres o escalamiento multidimensional, para ayudar en el anlisis
de conjuntos de datos complejos.
Para acceder al procedimiento:
Analizar
Correlaciones
Distancias
Apareciendo el cuadro de dilogo de la Figura 12

Figura 12

En Variables se trasladan las variables cuya distancia se desea calcular (o las variables
en las que debe basarse la distancia entre casos).
En Etiquetar los casos mediante: Por defecto, en los resultados los casos se identifican
mediante el nmero de caso. De manera opcional, puede utilizar los valores de una
variable de cadena para identificar los casos.
Calcular distancias. El procedimiento permite calcular distancias entre casos y entre
variables, en ambos opciones las distancias se calculan a partir de las puntuaciones de los
casos en el conjunto de variables seleccionadas.
Medida. Las medidas de distancias estn agrupadas en dos bloques: Disimilaridad y
Similaridad. El botn Medidas... de este recuadro conduce a un subcuadro de dilogo
que permite elegir la media de distancia que se desea utilizar, tiene dos versiones (que se
diferencian por el tipo de medida que ofrecen) dependiendo de la opcin marcada en el
recuadro:
-

Disimilaridades: Medidas de diferencias o lejana. Los valores ms altos indican


que los elementos son muy distintos o que se encuentran muy alejados.

Similaridades: Medidas de parecido o cercana. Los valores ms altos indican


que los elementos son muy parecidos o que se encuentran muy prximos.

REGRESIN LINEAL
El anlisis de regresin lineal es una tcnica estadstica utilizada para estudiar la relacin
entre variables cuantitativas. Tanto en el caso de dos variables (regresin simple) como
en el de ms de dos variables (regresin mltiple), el anlisis de regresin lineal puede
utilizarse para explorar y cuantificar la relacin entre una variable llamada dependiente o
criterio (Y) y una o ms variables llamadas independientes o predictoras (X1, X2, , Xp),
as como para desarrollar una ecuacin lineal con fines predictivos.
Supuestos. Para cada valor de la variable independiente, la distribucin de la variable
dependiente debe ser normal. La varianza de distribucin de la variable dependiente debe
ser constante para todos los valores de la variable independiente. La relacin entre la
variable dependiente y cada variable independiente debe ser lineal y todas las
observaciones deben ser independientes.
Para llevar a cabo un anlisis de regresin lineal seleccionamos:
Analizar
Regresin
Lineales
Apareciendo el cuadro de dilogo de la Figura 13:
Figura 13

En Dependientes se traslada la variable cuyos valores se desea predecir o resumir.


Bloque 1 de 1. Este recuadro nos sirve para introducir las variables independientes, nos
permite hacer varios anlisis de regresin a la vez, alternando los botones anterior y
siguiente, y adems no deja elegir el mtodo de introduccin de las variables
independientes.

Independientes se trasladan las variables utilizadas para predecir el valor de la


variable dependiente. Tambin se denominan variables predictoras o variables
explicativas. Para poder ejecutar este procedimiento, la lista debe contener al
menos una variable.

Mtodo: Permite seleccionar el mtodo por el cual se introducen las variables


independientes en el anlisis. Nos vale para elegir la mejor ecuacin de regresin.
Permite construir una variedad de modelos de regresin a partir del mismo
conjunto de variables:

Introducir (Entry): Procedimiento para la seleccin de variables en el que todas


las variables de un bloque se introducen en un solo paso. Es el mtodo por defecto.

Pasos sucesivos (Stepwise): En cada paso se introduce la variable independiente


que no se encuentre ya en la ecuacin y que tenga la probabilidad para F ms
pequea, si esa probabilidad es suficientemente pequea. Las variables ya
introducidas en la ecuacin de regresin se eliminan de ella si su probabilidad
para F llega a ser suficientemente grande. El mtodo termina cuando ya no hay
ms variables candidatas a ser incluidas o eliminadas.

Eliminar (Remove): Procedimiento para la seleccin de variables en el que las


variables de un bloque se eliminan en un solo paso.

Hacia atrs (Backward): Procedimiento de seleccin de variables en el que se


introducen todas las variables en la ecuacin y despus se van excluyendo una tras
otra. Aquella variable que tenga la menor correlacin parcial con la variable
dependiente ser la primera en ser considerada para su exclusin. Si satisface el
criterio de eliminacin, ser eliminada. Tras haber excluido la primera variable,
se pondr a prueba aquella variable, de las que queden en la ecuacin, que presente
una correlacin parcial ms pequea. El procedimiento termina cuando ya no
quedan en la ecuacin variables que satisfagan el criterio de exclusin.

Hacia delante (Forward): Procedimiento de seleccin de variables en el que


stas son introducidas secuencialmente en el modelo. La primera variable que se
considerar para ser introducida en la ecuacin ser aqulla que tenga mayor
correlacin, positiva o negativa, con la variable dependiente. Dicha variable ser
introducida en la ecuacin slo si satisface el criterio de entrada. Si ha entrado la
primera variable, se considerar como prxima candidata la variable
independiente que no est en la ecuacin y cuya correlacin parcial sea la mayor.
El procedimiento termina cuando ya no quedan variables que satisfagan el criterio
de entrada.

En Variable de seleccin se traslada una variable que limite el anlisis a un subconjunto


de casos que tengan un valor particular para esta variable. Con Regla podemos definir
el subconjunto de casos que se emplearn para estimar el modelo de regresin.
En Etiquetas de caso designamos una variable para identificar los puntos de los grficos.
Para cada punto de un diagrama de dispersin podemos utilizar la herramienta de
seleccin de puntos y mostrar el valor de la variable de etiquetas de casos correspondiente
al caso seleccionado.
Ponderacin MCP: Permite obtener un modelo de mnimos cuadrados ponderados. Los
puntos de los datos se ponderan por los inversos de sus varianzas. Esto significa que las
observaciones con varianzas grandes tienen menor impacto en el anlisis que las
observaciones asociadas a varianzas pequeas. Si el valor de la variable de ponderacin
es cero, negativo o perdido, el caso queda excluido del anlisis.

Estadsticos
Con el botn Estadsticos accedemos al cuadro de dilogo que muestra la Figura 14, que
nos vale para solicitar resultados estadsticos opcionales, incluyendo los coeficientes de
regresin, descriptivos, estadsticos de ajuste del modelo, la prueba de Durbin-Watson y
diagnsticos de la colinealidad.
Figura 14

Coeficientes de regresin. En este recuadro podemos obtener tanto las estimaciones de


los coeficientes de regresin, la bondad del ajuste del modelo elegido, los intervalos de
confianza de cada coeficiente as como la matriz de covarianzas. Podemos elegir una o
ms de las opciones:
-

Estimaciones: nos muestra coeficientes de regresin y medidas relacionadas. Los


coeficientes no estandarizados (no tipificados) son los coeficientes de regresin
parcial que definen la ecuacin de regresin en puntuaciones directas. Los
coeficientes estandarizados () son los coeficientes que definen la ecuacin de
regresin en puntuaciones tpicas. Estos coeficientes estandarizados ayudan a
valorar la importancia relativa de cada variable independiente dentro de la
ecuacin. Muestra las pruebas de significacin de cada coeficiente, el estadstico
de contrate (t) as como su nivel crtico (Sig.). Una significacin pequea nos
permite afirmar que el coeficiente es significativo.

Intervalos de confianza: nos muestra intervalos de confianza al 95% para los


coeficientes de regresin.

Matriz de covarianzas: nos muestra la matriz de varianza-covarianza de los


coeficientes de regresin, las varianzas en la diagonal y las covarianzas por debajo
y por encima de la diagonal.

Ajuste del modelo. Muestra el coeficiente de correlacin mltiple (R mltiple), y su


cuadrado (R2, coeficiente de determinacin, que expresa la proporcin de varianza de la
variable dependiente que est explicada por la variable o variables independientes), la R
cuadrado corregida y el error tpico de la estimacin (desviacin tpica de los residuos).
Tambin, una tabla de ANOVA muestra las sumas de cuadrados, los grados de libertad,
las medias cuadrticas, el valor del estadstico F y su nivel crtico (Sig.)

Cambio en R cuadrado. Nos muestra el cambio en el estadstico R cuadrado que se


produce al aadir o eliminar una variable independiente. Si el cambio en R cuadrado
asociado a una variable es grande, significa que esa variable es un buen predictor de la
variable dependiente.
Descriptivos. Muestra las medias de las variables, las desviaciones tpicas y la matriz
de correlaciones con las probabilidades unilaterales.
Correlaciones parcial y semiparcial. Muestra las correlaciones de orden cero,
semiparcial y parcial. Los valores del coeficiente de correlacin van de -1 a 1. El signo
del coeficiente indica la direccin de la relacin y su valor absoluto indica la fuerza de la
relacin. Los valores mayores indican que la relacin es ms estrecha.
Diagnsticos de colinealidad. Muestra las tolerancias para las variables individuales y
una variedad de estadsticos para diagnosticar los problemas de colinealidad. La
colinealidad (o multicolinealidad) es una situacin no deseable en la que una de las
variables independientes es una funcin lineal de otras variables independientes.
Residuos. Este recuadro nos permite seleccionar una de las opciones:
- Durbin-Watson: Muestra la prueba de D-W para los residuos correlacionados
serialmente. ste estadstico oscila entre 0 y 4 y toma el valor 2 cuando los residuos son
completamente independientes. Los valores mayores de 2 indican autocorrelacin
positiva y los menores de 2 autocorrelacin negativa. Suele asumirse que los residuos son
independientes si el estadstico de D-W est entre 15 y 25. Tambin muestra
estadsticos de resumen para los residuos y los valores pronosticados.
- Diagnsticos por caso: Genera diagnsticos por casos, para todos los casos que
cumplan el criterio de seleccin (los valores atpicos por encima de n desviaciones
tpicas).
Grficos
Con el botn Grficos obtenemos el cuadro de dilogo de la figura 15.
Figura 15

En la lista fuente tenemos la variable dependiente (DEPENDT), los valores predichos


estandarizados (ZPRED), los residuos estandarizados (ZRESID), los residuos eliminando
la puntuacin del sujeto (DRESID) y los valores predichos ajustados (SDRESID).

Dispersin 1 de 1. Nos muestra los diagramas de dispersin que queramos de la lista de


la izquierda, para cada par de variables, alternando anterior y siguiente.
Grficos de residuos estandarizados. En este recuadro podemos elegir uno de los
grficos:
-

Histograma: Crea un histograma de los residuos tipificados con una curva


normal superpuesta.

Grfico de probabilidad normal: Muestra un grfico de probabilidad normal de


los residuos tipificados. Se usa para comprobar la normalidad. Si la variable se
distribuye normalmente, los puntos representados forman una lnea recta
diagonal.

Generar todos los grficos parciales. Genera todos los diagramas de dispersin de la
variable dependiente con cada una de las variables independientes.
Guardar
El botn Guardar nos permite guardar los valores pronosticados, los residuos y
medidas relacionadas como nuevas variables que se aaden al archivo de datos de trabajo.
En los resultados, una tabla muestra el nombre de cada nueva variable y su contenido.
Opciones
El botn Opcionesnos permite controlar los criterios por los que se eligen las variables
para su inclusin o exclusin del modelo de regresin, suprimir el trmino constante y
controlar la manipulacin de los valores perdidos.

Vous aimerez peut-être aussi