Académique Documents
Professionnel Documents
Culture Documents
14
15
Su uso ayuda a determinar el nivel de confianza con que puede afirmarse que los
estadsticos estimados, en la muestra analizada, predicen adecuadamente las
caractersticas correspondientes de la poblacin objeto de estudio.
La exposicin del anlisis de regresin mltiple comienza, a diferencia del resto de tc
nicas analticas multivariables reseadas en este texto, con la enumeracin y desarrollo de
cada uno de los supuestos bsicos. stos son de imprescindible cumplimiento para ga
rantizar la correcta realizacin del anlisis de regresin lineal. Despus, se procede al de
talle de cada uno de los componentes del anlisis, as como de los diversos procedimien
tos alternativos para su realizacin. Como ya se dijo en la introduccin, para facilitar la
comprensin de la tcnica analtica, la exposicin terica se acompaa de ejemplos prc
ticos. Principalmente, del anlisis propio efectuado de una seleccin de tems de la encuesta
Actitudes ante la inmigracin, de junio de 1996, del Centro de Investigaciones Socio
lgicas (C.I.S.); amn de otros ejemplos tambin con datos reales.
1.1. Supuestos bsicos del anlisis de regresin mltiple
La correcta aplicacin del anlisis de regresin mltiple de mnimos cuadrados or
dinarios (OLS) exige el cumplimiento de una serie de supuestos bsicos. Su grado de
cumplimiento garantiza la esencia del anlisis: poder inferir los estadsticos obtenidos
en la muestra analizada a sus correspondientes parmetros poblacionales. Estos su
puestos se resumen en los siguientes:
1.
2.
3.
4.
5.
6.
7.
8.
9.
16
17
E j e m p l o d e d is e o m u e s t r a l
La encuesta analizada ex profeso para este texto (Actitudes ante la inmigracin') fue
realizada por el C.l.S. del 6 al 10 de junio de 1996 (estudio 2.214). El mbito de la encues
ta fue nacional. Se incluyeron fas provincias insulares, aunque se excluyeron Ceuta y Melilla. El universo fue ia poblacin espaola de ambos sexos de 18 y ms aos.
El tamao de la muestra diseado, para un nivel de confianza de! 95,5%, heterogenei
dad mxima (P = Q = 50) y un error mximo elegido para el conjunto de la muestra de 2%,
es 2.500 unidades mustrales. Pero, finalmente se realizaron.2.493 entrevistas.
El procedimiento seguido para la seleccin de la muestra fue polietpico, estratificado por
conglomerados, con seleccin de las unidades primarias de muestreo (municipios) y de las
unidades secundarias (secciones) de forma aleatoria proporcional de las unidades ltimas (in
dividuos) por rutas aleatorias y cuotas de sexo y edad. Al ser la afijacin proporcional, no pro
cede su ponderacin.
Los puntos de muestreo fueron 161 municipios elegidos aleatoriamente, tocando a 44 de
las 50 provincias. Los estratos se formaron por el cruce de las 17 regiones autonmicas con
ei tamao de hbitat, dividido en 7 categoras: menos o igual a 2.000 habitantes; de 2.001 a
10.000; de 10.001 a 50.000; de 50.001 a 100.000; de 100.001 a 400.000; de 400.001 a
1.000.000; ms de 1.000.000 de habitantes.
Los cuestionarios se aplicaron mediante entrevista personal en los domicilios. Esta in
formacin se detalla en la ficha tcnica del citado estudio.
18
19
20
VARIABLES FICTICIAS
(Originai)
D1
D2
D3
D4
Soltero
Casado
Separado/divorciado
Viudo
En pareja
21
22
Del total de tems que componen ia encuesta de Actitudes ante la inmigracin de 1996
det C.I.S., se han escogido las siguientes variables (enunciadas con e nmero de la pregunta
con el que figura en ei cuestionario):
A. Variable dependiente;
* P2G1: Dgame, por favor, en una escala de 0 a 10, la simpata que Vd. siente por los
norteafricanos (marroques, etc.), teniendo en cuenta que 0 significa ninguna simpa
ta y 10 mucha simpata".
Se ha elegido esta variable por su carcter de continua. Se quiere conocer qu varia
bles ayudan a predecir el mayor o menor grado de simpata hacia ios norteafricanos.
B. Variables independientes:
* P210: Dgame, por favor, en una escala de 0 a 10, la simpata que Vd. siente por
ios latinoamericanos, teniendo en cuenta que 0 significa ninguna simpata y
10 mucha simpata".
* P306: A Vd, te preocupara mucho, bastante, poco o nada que un hijo o una hija su
ya se casara con un ciudadano de Marruecos u otro pas norteafricano. Mu
cho (1) Bastante (2) Poco (3) Nada (4) No sabe (8) No contesta (9).
* P506: Hasta qu punto: mucho, bastante, poco o nada le importara a Vd. tener
como vecinos a una familia de ciudadanos de Marruecos u otro pas norteafricano?. Mucho (1) Bastante (2) Poco (3) Nada (4) N.s. (8) N.c. (9).
23
24
P52:
"Actualmente, entre todos los miembros del hogar y por todos los conceptos,
de cuntos ingresos netos disponen por trmino medio en su hogar al
mes? Menos de 50.000 pts. (01) 50.001-100.000 (02) 100.001-150.000
(03) 150.001-200.000 (04) 200.001-300.000 (05) 300.001-400.000 (06)
400.001-500.000 (07) 500.001-750.000 (08) 750.000-1 milln de pts. (09) Ms
de 1 milln de pts. (10) N.c. (99).
Tamuni: Tamao del hbitat Hasta 2.000 hab. (1) 2.001-10.000 (2) 10.001-50.000 (3)
50.001-100.000 (4) 100.001-400.000 (5) 400.001-1.000.000 (6) Ms de
1.000.000 (7).
Del total de 18 variables inicialmente elegidas para la prediccin de la variable depen
diente, 14 son finalmente las variables que participan en el anlisis. Las 4 variables des
cartadas por mostrar muy escasa correlacin (bivariable) con la variable dependiente son las
siguientes: P33 (r = ,095), P49a (r = -,010), P51 (r = ,028) y Tamuni (r = ,015).
La mayora de las variables elegidas son ordinales, exceptuando ias variables mtricas
P210, P39, P42 y P52 (en intervalos); y ias nominales P19, P2904 y P41.
Como ya se expuso, las variables ordinales no precisan de su transformacin en va
riables ficticias para su incorporacin como variables independientes en el anlisis de re
gresin Uneal Estas variables representan variables en una escala latente que posibilita
su tratamiento como variable continua. Para ello se precisa que los cdigos numricos
asignados a cada categora de la variable se correspondan con Sa cualidad que expresan.
Esta correspondencia facilita la interpretacin de la variable en la ecuacin de regresin.
Por esta razn, variables como P306, P506, P11 o P37, por ejemplo, se han recodificado para mantener la correspondencia necesaria entre el cdigo numrico y la cualidad que
expresa: Mucho (4) Bastante (3) Poco (2) Nada (1); Son demasiados (3) Son bastantes,
pero no demasidos (2) Son pocos (1); Muy positivo (4) Positivo (3) Negativo (2) Muy ne
gativo (1).
La variable P43a (estudios) se ha agrupado en cinco categoras: Primarios o menos (1),
EGB, FP1 (2) Bachillerato, FP2 (3) Medios (diplomado, tcnico, superiores de 2 o 3 aos) (4)
Superiores (5).
Al estar agrupada la variable P52 (ingresos) en intervalos, se ha procedido previamen
te a calcular los puntos medios de los intervalos (la suma de sus lmites, superior e inferior,
dividida entre dos), como valores representativos de los mismos, para el clculo de la media
y dems estadsticos.
Las variables nominales P19, P2904 y P41 se han transformado en ficticias. A! tener ca
da una de ellas slo dos categoras son tres las variables ficticias creadas: P41 (sexo) Varn
(1) Mujer (0); P2904 (inmigrante delincuente) De acuerdo (1) En desacuerdo (0); P19 (re
gularizar inmigrantes) S (1) No (0). Recurdese que el cdigo numrico 0 designa al gru
po de referencia.
No se ha querido incluir ms variables en el anlisis porque la finalidad es obtener un mo
delo parsimonioso. La incorporacin de variables innecesarias o que muestren ser irrele
vantes para la prediccin de la variable dependiente suele ir acompaada de una prdida de
precisin de los coeficientes estimados en ias variables relevantes (Schroeder et al.,
1986), debido al aumento, que suele provocar, en ei error tpico de las estimaciones de las
variables "relevantes.
25
1.1.4. Linealidad
26
c) No-lineal
(relacin curvilnea)
d) Inexistencia de relacin
entre las variables
Los ejes de los grficos de regresin parcial pueden venir expresados en las uni
dades originales en que fueron medidas ambas variables o en sus correspondientes pun
tuaciones estandarizadas (unidades Z). stas resultan de tipificar la variable para neu
tralizar la incidencia de la unidad de medida. En este caso, los valores de las variables
se localizan en el intervalo de -3 a +3.
A su utilidad en el anlisis de la relacin bivariable entre cada X(-e Y, hay que aa
dir que los grficos de regresin parcial tambin muestran ser de utilidad en la de
teccin de atpicos. Por atpico comnmente se entiende todo caso que se distancie de
la tendencia observada en la generalidad de los datos (vase subapartado 1.5.4.).
En el grfico de regresin parcial cualquier punto que se aleje de la nube de puntos
identifica a un posible atpico, cuya confirmacin precisa de otros procedimientos ana
lticos resumidos en el susodicho subapartado.
E j e m p l o d e c o m p r o b a c i n d e l .s u p u e s t o d e l in e a u d a d
MEDIANTE EL GRFICO DE REGRESIN PARCIAL
Para ilustrar e! uso del grfico de regresin parcial en la comprobacin def supuesto de
iinealidad, se han seleccionado dos grficos del total de realizados mediante el programa
SPSS (versin 10.0).
a)
11
b)
Grfico de regresin parcial
Variable dependiente: simpata marroqu
Empatia fttt&ftricana
El primer grfico a) refSeja la relacin bivariable existente entre la variable dependiente sim
pata por los norteafricanos: marroques, etc. (P201) y la independiente simpata por los lati
noamericanos (P210). Ambas variables se encuentran en la misma escala de medida. Sus va
lores van de 0 a 10. Del grfico puede deducirse la existencia de una relacin lineal positiva entre
ambas variables, aunque no es perfecta. La simpata mostrada hacia los latinoamericanos ayu
da a predecir la sentida hacia los norteafricanos (marroques, etc.). La valoracin dada a este l
timo colectivo de inmigrantes est positivamente relacionada con la dada a otro colectivo de in
migrantes: los latinoamericanos. Las personas que ms simpata sienten hacia los norteafricanos
son, asimismo, los que ms simpata muestran hacia los latinoamericanos. Al aumento en ia va
loracin hacia ios latinoamericanos le sigue normalmente una mayor valoracin hacia los nor
teafricanos. Pero, la relacin lineal positiva observada entre ambas variables no es perfecta. Si
fuese perfecta, la nube de puntos se ajustara a una recta ascendente. Este tipo de grfico coin
cide con un coeficiente de correlacin r = 1,0, que indica la existencia de una relacin lineal po
sitiva perfecta entre ambas variables: conforme aumenta el valor de la variable independiente,
se incrementa, asimismo, el de ia dependiente; ios valores attos y bajos en ambas variables coin
ciden. En cambio, la correlacin existente entre (as dos variables referidas (simpata por los la
tinoamericanos y simpata por los norteafricanos) no es perfecta, aunque s importante: r = ,593,
como se ver posteriormente, en la matriz de correlaciones. Lo que explica que ia nube de pun
tos no sea totalmente lineal. La nube de puntos pierde la linealidad, a medida que disminuye la
correlacin entre las variables. Recurdese que, cuando la correlacin es nula, el grfico de re
gresin parcial coincide con el mostrado en la figura 1.1 (grfico d).
La existencia de puntos alejados de la nube de puntos principal informa de la existencia
de atpleos a confirmar mediante otros procedimientos analticos.
El grfico b) es totalmente distinto al anterior. Ilustra la relacin existente entre una variable
independiente ficticia (sexo") y la dependiente continua {simpata por los norteafricanos). La
variable sexo" es una medida discreta convertida a ficticia mediante la codificacin binaria 1 va
rn y 0 mujer. Ello afecta a que cuando se modela su relacin con una variable dependiente con
tinua no resulta una recta de regresin, aunque las variables se hallen muy relacionadas. Por e!
contrario, el grfico de regresin parcial ofrece dos nubes de puntos principales, que corresponden
a los valores de la variable dependiente para cada uno de ios dos valores posibles de la inde
pendiente 1 y 0. En general, el anfisis de regresin con variables independientes ficticias posibilita
28
el conocimiento de los valores predichos (o esperados) en la variable dependiente para cada uno
de los subgrupos en la variable independiente. Lo que imposibilita su representacin mediante
una recta realizada desde una serie continua de valores.
B) Grficos de residuos
A diferencia del grfico de regresin parcial, el grfico residuos no se Umita a re
laciones bivariables. Por el contrario, muestra los efectos combinados de todas las va
riables predictoras incluidas en la ecuacin de regresin con la dependiente. Para lo
cual se representan los residuos estandarizados o los estudentizados -explicados en el
subapartado 1.1.10- contrajos valores predichos de la variable dependiente a partir de
la ecuacin de regresin (FK Estos valores se obtienen de sustituir (en la ecuacin de
regresin resultante de los anlisis) los valores correspondientes de la variable inde
pendiente, en cada caso concreto. La diferencia entre el valor de la variable depen
diente observado en la'muestra (Y) y el predicho a partir de la ecuacin de regresin
(Y) es lo que se entiende por residuo (B). Si ste se halla dividido por a desviacin t
pica, el residuo ser estandarizado (E ). Los estudentizados (Ef.) se caracterizan por se
guir la distribucin t de Student con N - p - 1 grados de libertad (siendo N el ta
mao de la muestra y p el nmero de variables independientes).
La figura 1.2 incluye distintas posibilidades de grficos de residuos. Estos difieren
de los grficos de regresin parcial en dos aspectos importantes: uno, ahora se rela
cionan ios residuos con Y (los valores predichos de la variable dependiente), y no los
valores de Y con X; como sucede en los grficos de regresin parcial, dos, la nube de
puntos ha de ser horizontal, y no ascendente ni descendente (segn sea positivo o ne
gativo el coeficiente de regresin para la variable independiente). El supuesto de linealidad se cumple cuando los residuos se distribuyen aleatoriamente, prximos a la
lnea horizontal que parte de 0. Tngase presente que este grfico se realiza con resi
duos estandarizados (Es.) y estudentizados (E,.). En cambio, cuando ia nube de puntos
presenta una forma en curva, en vez de rectangular, el supuesto de Iinealidad no se
cumple. Como sucede en los grficos b) y c) incluidos en la figura 1.2.
a) Relacin Hneal
10 20 30 40 50 y
b) Relacin no lineal
10 20 30 40 50 y-
c) Relacin no finen!
10 20 30 40 50 >.
29
1.1.5. Adiividad
La prediccin de la variable dependiente exige que los efectos de las distintas va
riables independientes puedan sumarse entre s. Esto significa que, para cada variable
independiente incluida en el modelo de regresin, la cantidad de cambio que provo
ca en la variable dependiente ser el mismo, indistintamente de los valores de las otras
variables independientes incluidas en la ecuacin de regresin. Si, por el contrario, se
observa que su influencia se ve afectada por los valores que presenten otras variables
independientes, se est ante un modelo de regresin no aditivo (o interactivo). Ello
acontece cuando las variables independientes interactan unas con otras, al influir en
la variable dependiente.
Berry y Feldman (1985) diferencian tres variedades de modelos de regresin no adi
tivos:
a) Modelo interactivo de variable ficticia. Cuando una de las variables indepen
dientes es dicotmica (es decir, dispone de dos opciones de respuesta diferen
tes: s-no, varn-mujer, aprobado-suspenso), el modelo es interactivo si la va
riable independiente est linealmente relacionada con la variable dependiente
para ambos valores de la variable ficticia dicotmica. No obstante, la pen
diente de la recta de regresin y el intercepto que caracterizan la relacin lineal en
tre la variable dependiente y las independientes diferirn segn sea el valor de
la variable ficticia dicotmica (D;).
b) Modelo multiplicativo. Si dos variables independientes, medidas a nivel de
intervalo, interactan en la variable dependiente, de modo que la pendiente
30
31
160------------------------------------------------------------
32
dia aritmtica ha de ser igual a 0,0 y su desviacin tpica igual a 1,0. Si. se comparan los
valores obtenidos con los de referencia, puede concluirse que la asimetra de la distribucin
observada es ligera. Como era de esperar por ei tamao muestral analizado, en relacin con
ei nmero de variables predictoras incluidas en el anlisis, ia distribucin de los datos casi se
corresponde con la curva norma!. Para un anlisis ms detallado del ligero apuntamiento y
desviacin hacia la derecha de la distribucin observada ha de acudirse a los grficos de pro
babilidad normal para variables predictoras concretas, y no para el conjunto de la distribucin,
adems de estadsticos especficos de asimetra y curiosis. stos ayudan a comprobar la ex
tensin a la que la serie de puntuaciones observadas se desvan de ia distribucin normal.
33
P - P D E PROBABILIDAD NORMAL
E! grfico P - Pde probabifidad normal de residuos estandarizados {o tipificados) de la
misma distribucin de datos analizada corrobora las conclusiones del histograma de residuos.
Como puede observarse en el grfico P - P adjunto, la nube de puntos se sita a lo largo de
la diagonal (que resulta de comparar las distribuciones de probabilidad acumuladas obser
vadas y esperadas -para una distribucin normal para los residuos estandarizados), sin distanciamientos notorios. Lo que lleva a afirmar el cumplimiento del supuesto de normalidad.
La asimetra a la derecha detectada es muy leve. Apenas se vislumbra un pequeo arco por
encima de la diagonal en el rango semiintercuartlico de las probabilidades acumuladas.
Como ambos grficos de residuos (P - P de probabilidad normal y el histograma de re
siduos) muestran el prctico cumplimiento det supuesto de normalidad rnultivariable, puede
seguirse a recomendacin de Tabachnick y Fidell (1989: 79), segn la cual, en regresin ml
tiple, si los grficos de residuos parecen normales, no existe razn para visualizar variables
Individuales para comprobar la normalidad". No obstante, esta comprobacin univariable pue
de ser deseable en busca de mejora de! modelo obtenido. Para lo cual habr de seguirse otros
procedimientos estadsticos y grficos que se vern ms tarde.
Grfico P-P normal de regresin residuo tipificado
Variable dependiente: simpata marroqu
1,00
"O
cua*
0,00
0,00
,25
,50
Prob. acum. observada
,75
1,00
34
E j e m p l o d e c o m p r o b a c i n d e l s u p u e s t o d e n o r m a l id a d
MEDIANTE ESTADSTICOS
La comprobacin del supuesto de normalidad no se ha limitado al anlisis de los grficos
de residuos. Tambin se ha acudido a estadsticos que describan la forma de la distribucin,
en qu medida coincide o se distancia de la curva normal. Como ia muestra analizada supera
las 50 unidades, ei programa SPSS no calcula los valores correspondientes at estadstico de
Shapiro-Wilks. Los valores de normalidad que ofrece son los valores D de KolmogorovSmirnov, con una correccin de la significatividad de la normalidad de Liliiefors. Esta correccin
es de utilidad cuando se aplican estimaciones mustrales y se desconocen la media y la varianza poblacionales. Los valores D figuran con sus grados de libertad respectivos. stos son
iguales al nmero de casos vlidos (o con respuesta) en la variable concreta analizada.
Atendindonos a los datos que figuran en la tabla anexa puede observarse que, a ex
cepcin de dos variables principales (vecino marroqu y regularizar a inmigrantes), que pre
sentan valores D prximos a ,5, ia generalidad de las variables se sitan por debajo de es
te valor. Especialmente, las variables edad (,097), ideologa poltica (,139) y simpata hacia
el marroqu (,147), con valores D prximos a 0. Lo que significa su proximidad con la curva
normal. Pero, la prueba de significatividad efectuada informa de lo contrario. Los niveles de
significacin de Liliiefors son, en todas las variables, ,000". Lo que supone el rechazo de la
hiptesis nula de normalidad en todas las variables consideradas para el anlisis. Esta
35
conclusin no concuerda con la inspeccin anterior de los datos, aunque era de prever por
el tamao de la muestra de anlisis.
Es sabido que en muestras grandes (superiores a 1.000 unidades) lo ms habita! es que
las pruebas de significatividad lleven al rechazo de la hiptesis nula. Y, dado que el tamao
muestral se halla presente en su clculo (los grados de libertad), era de esperar esta no
coincidencia en los resultados. Incuso entre ios valores Dy su significatividad correspondiente.
Como Hair et al. ("1999:65) afirman: E! investigador debera siempre recordar que los tests de
significacin son menos tiles en muestras pequeas (menores de 30) y muy sensibles para
grandes muestras (superiores a 1.000 observaciones). Asimismo, Tabachnck y Fdeli (1989)
desaconsejan eS uso de las pruebas de significatividad en la comprobacin del supuesto de nor
malidad cuando la muestra sea grande. Los estadsticos de normalidad muestran adecuacin
en muestras pequeas o moderadas, pero no en tamaos mustrales elevados como el aqu
analizado. Adems, observan que porque tos errores tpicos de tanto asimetra como curtosis
contienen N, con muestras grandes la hiptesis nula es probable que se rechace cuando exis
ten slo desviaciones pequeas de la normalidad -como sucede en los datos aqu analizados-,
A io que aaden: En una muestra grande, una variable con asimetra significativa (o curtosis)
con frecuencia no se desva lo suficiente de la normalidad para hacer una diferencia realista en
el anlisis. En otras palabras, con muestras grandes los niveles de significatividad de asimetra
y curtosis no son tan importantes como sus tamaos reales (peor cuanto ms se distancien de
0) y apariencia real de la distribucin (Tabachnick y Fidel!, 1989:73-74).
Estas observaciones han ayudado a la interpretacin de los resultados, a la no consideracin
de la significatividad, al contar con un nmero de casos vlidos mnmo, en la peor de las sitadones (en la variable "leyes de inmigracin), de 1.713 unidades. La prueba de normalidad de Kolmogorov-Smimovse ha contrastado con los estadsticos descriptivos de asimetra y curtosis y me
dante los grficos Q - Q normal para cada una de las variables consideradas.
Pruebas de normalidad3
Kolmogorov-Smimov*
Simpata marroqu
Leyes inmigracin
Ideologa poltica
Sexo
Edad
Simpata latinoamericano
Numero inmigrantes
Regularizar inmigrante
Entrada inmigrante
Partido racista
Casar con marroqu
Estudios
Ingresos
Vecino marroqu
Inmigrante delincuente
Estadstico
9*
Sig.
,147
,208
,139
,351
,097
,127
,305
,471
,346
,385
,383
,221
,240
,489
,378
2.183
1.713
1.804
2.492
2.492
2.174
2.111
2.171
2.288
2.237
2.415
2.281
1.793
2.468
2.138
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
b)
Grfico Q -Q norm al de id eologa poltica
V alor observado
d)
c)
G rfico Q -Q normal de vecin o marroqu
Vaior observado
V alor observado
e)
f)
N orm al grfico Q -Q de vecin o m arroqu
Valor observado
Transform aciones: og natural
37
Como son muchas las variables analizadas, se han seleccionado grficos Q - Q que
muestran ajuste de la variable a la distribucin normal y otros que muestran desajuste. Los
grficos Q - Q normal (o grficos de cuantil-cuantil} son similares a los grficos P - P, pero
aplicados a variables individuales. Ayudan a identificar salidas de la normalidad no para el con
junto de las variables, sino en cada una de las variables de inters. Las puntuaciones figuran
igualmente ordenadas y se comparan los valores observados para cada caso con el esperado
bajo el supuesto de normalidad. Los grficos a) y b) ejemplifican una buena corresponden
cia de (as variables con la distribucin normal. La mayora de los puntos coinciden con la dia
gonal, siendo mnimas las desviaciones (debidas a procesos aleatorios). En cambio, los gr
ficos c) y d) muestran discordancia con la distribucin normal. Corresponden a las variables
vecino marroqu" e ingresos. stas son, precisamente, las dos variables con mayores ni
veles de asimetra (2,677 y 2,824 con un error tpico de ,049 y ,058, respectivamente.
Recurdese que el error tpico de asimetra es una medida de la extensin a la que la asi
metra puede variar como una funcin del tamao de a muestra) y de curtosis (6,528 y
12,622, con errores tpicos de ,099 y ,116"). Se trata, en ambos casos, de distribuciones
asimtricas a Sa derecha (la mayora de os valores se sitan a la izquierda de la media) y leptocrticas (demasiados casos en el centro de la distribucin), especialmente la variable in
gresos. Las dems variables se distancian menos de la distribucin norma!, con valores de
asimetra y curtosis por debajo del valor de referencia ,80 que expresa una asimetra (po
sitiva o negativa) y curtosis importante.
Para comprobar si la introduccin de una transformacin en dichas variables pudiese co
rregir su desviacin de a normalidad, se procede a su transformacin logartmica al estimarse
importante su desviacin de la normalidad (curtosis y asimetra positiva severa). Los grficos
e) y f) corresponden a los grficos Q - Q normal con las variables transformadas a sus lo
garitmos naturales. Si se comparan ambos grficos con los habidos previo a la transforma
cin logartmica de las variables (grficos c) y d)), puede observarse que dicha transfor
macin no resuelve la no-normalidad en ia variable vecino marroqu, aunque s en a variable
"ingresos, al quedar la nube de puntos prcticamente ajustada a la diagonal. Lo que lleva a
considerar esta ltima transformacin en la solucin de regresin. Una explicacin posible an
te este dispar efecto de ia transformacin de las variables es lo ya observado por Afif y Clark
(1990), que la efectividad de la transformacin, al inducir normalidad, aumenta en variables
cuya desviacin tpica es grande en relacin con su media. La media de la variable ingresos
es 143.991 pesetas al mes, siendo la desviacin tpica de 105.233 pesetas. En cambio, la me
dia de la variable vecino marroqu es 1,27 con una desviacin de ,672.
Los remedios ms aplicados ante el incumplimiento del supuesto de normalidad,
rnultivariable son los siguientes;
a) La transformacin logartmica de la variable dependiente (log Y), sobre todo,
cuando la distribucin de los residuos muestra asimetra positiva severa. Si di
cha asimetra es mediana, puede aplicarse la raz cuadrada (VY).
b) La transformacin cuadrada, si la asimetra es negativa.
c.) Tambin puede optarse por la transformacin inversa, cuando la distribucin de
los residuos muestra un incumplimiento grave del supuesto de normalidad.
38
39
tamaos, tales como empresas pequeas, medias o grandes o renta alta, media o baja.
En los datos de series temporales, por otro lado, las variables tienden a ser de ordenes
similares de magnitud porque generalmente se recogen los datos para la misma enti
dad a lo largo de un perodo de tiempo.
La figura 1.3 incluye situaciones de homocedasticidad a) y heterocedasticidad b) pa
ra un modelo de regresin simple. Incluye la probabilidad condicional de la variable
dependiente (Y) para valores seleccionados de la variable independiente (X). Como
puede observarse, la homocedasticidad se da cuando la varianza condicional de Y per
manece constante, indistintamente de los valores que tome la variable independiente.
Si, por el contrario, la varianza no permanece constante, sino que aumenta conforme
se incrementa el valor de la variable independiente se habla de heterocedasticidad. La
figura 1.3b ilustra esta situacin. En ella puede observarse como la varianza de los tr
minos de error se halla positivamente correlacionada con la variable independiente. La
distribucin pasa de ser leptocrtica a cada vez ms platicrdca.
La homocedasticidad suele relacionarse con el supuesto de normalidad. De hecho
se observa que cuando el supuesto de normalidad multivariable se satisface, las re
laciones entre las variables son homocedsticas (Tabachnick y Fidell, 1989:82). En ge
neral, la heterocedasticidad es ms probable que acontezca cuando se da alguna o va
rias de las situaciones siguientes:
a)
b)
c)
d)
Berry y Feidman (1985: 73) destacan tres situaciones en las cuales la heteroce
dasticidad se convierte en problema:
a) Cuando la variable dependiente est medida con error, y la cantidad de error
vara con el valor de la variable independiente. Por ejemplo, la encuesta. En ella,
40
41
E*.
X,
a) Homocedasticidad con
b) Homocedasticidad con
X;
c) Heterocedasticidad
(varianzas de error
crecientes)
Si el tamao muestral es elevado, los residuos deberan repartirse por igual a lo lar
go de los valores de la variable independiente, como muestra la figura 1.4a, en dos
lneas horizontales paralelas alrededor de 0, que es la media residual. En muestras pe
queas, por el contrario, la varianza de los residuos de regresin no es idntica en to
dos los valores de la variable independiente, aun habiendo homocedasticidad perfec
ta. La varianza ser mayor en los valores prximos al centro de la distribucin que en
los extremos, como puede observarse en la figura 1.4b. Cualquier grfico que se aleje
de las dos variedades mencionadas muestra la violacin del supuesto de homocedas
ticidad, como indica la figura 1.4c. En ella puede verse cmo la varianza de los residuos
decrece con el aumento del valor de a variable independiente.
Cuando se analiza la incidencia conjunta de varias variables independientes se ob
tienen grficos a modo de los expuestos en la figura 1.5. Se trata de grficos de residuos
(preferiblemente estudentizados o estandarizados) contra los valores predichos de la va
riable dependiente (Y;); es decir, la combinacin de las variables independientes que for
man la ecuacin de regresin. En esta modalidad grfica, los aumentos o disminuciones
de los residuos de acuerdo con el valor predicho de la variable dependiente ( V'-) expresan
incumplimiento del supuesto de homocedasticidad (figuras 1.5b y 1.5c). De los tres tipos
de grficos quizs sea la figura 1.5c la que refleje la situacin de heterocedasticidad ms ha
bitual Este grfico presenta una forma triangular. La figura L5b en forma de diamante,
que tambin expresa heterocedasticidad, se da en situaciones de mayor variacin de re
siduos hacia el centro de la distribucin de Y que en los extremos.
-h3
+3
+2
+2
+1
+1
0
-1
-2
0
-1 'mm
-2
-3
a) Homocedasticidad
Yi
c) Heterocedasticidad
-3
b) Heterocedasticidad
42
43
Grfico de dispersin
Variable dependiente: simpata marroqu
44
Por ltimo, ios grficos d) y e) para las variables simpata hacia latinoamericanos" y es
tudios, respectivemente, no muestran la satisfaccin del supuesto de homocedasticidad. Si se
atiende, adems, a lo dicho por el estadstico de Levene, que figura a continuacin, el incum
plimiento del supuesto de homocedasticidad es evidente en ambas variables. Recurdese que
en la prueba de Levene (aplicada para ia comprobacin de la homocedasticidad en un nico par
de varianzas) el rechazo de la hiptesis nula de igualdad de varianzas se produce cuando el va
lor de este estadstico es significativo (p < ,05), a decir por la prueba de significativsdad de F. En
45
ambas variables la significatividad del estadstico es inferior a dicho referente, lo que supone el
rechazo de ia hiptesis nula. Se est ante variables que incumplen el supuesto de homocedasticidad La varianza de la variable dependiente difiere en los distintos valores de las dos variabies predictoras. Para la interpretacin de los grficos tngase adems presente las unida
des de medicin de ambas variables (expuestas en el subapartado 1.1.3).
1,815
1,978
,053
,032
3,099
1,629
,001
,094
8,114
3,500
,000
,000
1,407
1,144
,171
,325
Ideologa poltica
Media
Mediana
2,076
1,756
,024
,065
2,270
1,501
,013
,135
2,492
1,448
,006
,155
2,093
1,588
,023
,106
Sexo
Media
Mediana
3,602
,678
,000
,746
3,602
,678
,000
,746
46
1,136 ,331
1,073 ,379
.,868
,626
,563
,792
1,373
,977
,189
,462
,975
,726
,464
,700
Simpata latinoamericano
Media
Mediana
25,036 ,000
19,095 ,000
29,578
19,536
,000
,000
Regularizar inmigrantes
Media
Mediana
22,144 ,000
5,729 ,000
22,144
5,729
,000
,000
Entrada inmigrantes
Media
Mediana
3,392 ,000
1,689 ,080
8,114
3,129
,000
,001
14,518
4,293
,000
,000
5,232
2,381
,000
,009
Partido racista
Media
Mediana
4,128 ,000
2,402 ,008
6,243
2,543
,000
,005
8,304
2,707
,000
,003
5,127
2,461
,000
,007
N. inmigrantes
Media
Mediana
3,629 ,000
1,941 ,037
2,214
1,888
,015
,043
6,365
2,430
,000
,008
2,502
1,794
,006
,058
25,890 ,000
9,704 ,000
32,494
8,940
,000
,000
39,976
8,292
,000
,000
28,622
9,318
,000
,000
Estudios
Media
Mediana
3,099 ,001
2,331 ,011
1,056
1,155
,394
,319
2,576
,954
,005
,483
1,741
1,684
,068
,081
Ingresos
Media
Mediana
,412 ,941
,372 ,959
,615
,533
,801
,867
1,862
1,375
,047
,188
,314
,320
,978
,976
37,660 ,000
18,686 ,000
38,059
15,921
,000
,000
37,538
13,112
,000
,000
37,735
17,437
,000
,000
4,096
,837
,000
,593
Vecino marroqu
Media
Mediana
inmigrante delincuente
Media
Mediana
4,096 ,000
,837 ,593
47
SPSS (versin 10.0) facilita distintos vaores del estadstico de Levene (basndose en ta me
dia, en la mediana, en a mediana y con los grados de libertad corregidos, y en la media re
cortada), se ha decidido escoger, para simplificar la tabla, los valores de Levene corres
pondientes a la media y a la mediana con los grados de libertad corregidos. De esta forma
puede comprobarse si realmente mejora su robustez, cuando se sustituyen as desviaciones
alrededor de la mediana por las desviaciones alrededor de la media.
De la lectura de !a taba puede concluirse que las desviaciones respecto a la mediana se
adecan ms, especialmente, en las variables ficticias, por las propias caractersticas de di
chas variables (variables dcotmicas). Hecho este inciso, hay que decir que ia significatividad del estadstico de Levene es, en genera!, superior cuando su clculo se realiza a partir
de fa media, que cuando se basa en la mediana, aun ajustando por grados de libertad.
En siete de las catorce variables predictoras analizadas se incumple el supuesto de ho
mocedasticidad, a decir por los resultados de ia aplicacin de esta prueba estadstica. El vaior
del estadstico de Levene es bastante significativo (p < ,05), o que supone el rechazo de la hi
ptesis nula de igualdad de varianzas. La varianza de la variable dependiente difiere en los dis
tintos valores de las siguientes variables independientes: "simpata hacia latinoamericanos, regufarizacin de inmigrantes", valoracin de partidos de ideologa racista, consideracin dei
nmero de inmigrantes, casarse con marroqu, estudios y tener por vecino a un marroqur'.
En la otra mitad de ias variables a significatividad de este estadstico de comprobacin
es inferior (p >,05), ya sea respecto de la media o de ta mediana. Esto significa la aceptacin
de fa hiptesis nula. La varianza de la variable dependiente muestra constancia en dichas va
riables: leyes inmigracin, ideologa poltica", sexo, edad, entrada de inmigrantes, in
gresos e identificacin det inmigrante con delincuente.
De tas opciones barajadas para alcanzar la homocedasticidad en aquellas variables en
las cuales la varianza de la variable dependiente difiere, sio parece lograrse en dos variabies: nmero de inmigrantes y estudios. En la primera, la homocedasticidad puede lograrse
mediante la aplicacin de una transformacin de raz cuadrada. En cambio, respecto a la va
riable estudios, puede realizarse cualquiera de las tres transformaciones comprobadas. Si
bien, normalmente se prefiere la transformacin logartmica como se detalla a continuacin.
48
gunos. Mediante este ltimo procedimiento de regresin (expuesto en el subapartado 1.6.2) las estimaciones de los parmetros de regresin se realizan, co
mo su nombre indica, minimizando una suma ponderada de los cuadrados
de los residuos. Esta suma se caracteriza porque ios pesos son inversamente pro
porcionases a la varianza de ios errores. Por ejemplo, si la varianza es una
funcin lineal de X, el peso idneo sera entonces 1/X.
b) Transformaciones de la variable dependiente en log Y, - fY o en 1/Y, para lograr
ia estabilidad de su varianza. Con los valores transformados se procede a
efectuar el anlisis de regresin lineal.
Aunque estas transformaciones son defendidas por varios autores (como
Gunst y Masn, 1980: 239; o Tacq, 1997:131), Affi y Clark (1990:158) opinan
que las transformaciones de Y deberan evitarse cuando sea posible, porque
tienden a oscurecer la interpretacin de la ecuacin de regresin. A este
respecto, Hair et al. (1992: 52) hacen las siguientes matizaciones:
1. Las frecuencias sugieren una transformacin de raz cuadrada.
2. Las proporciones son mejor transformadas mediante la transformacin arcoseno. Una nueva variable que sea igual a dos veces el arcoseno de la raz
cuadrada de la variable original.
3. El cambio proporcional se maneja mejor tomando el logaritmo de la va
riable.
4. La heterocedasticidad no slo se debe a un tipo de variable. Tambin puede
resultar de la distribucin de bien la variable independiente, bien la de
pendiente, Con frecuencia esto se ve mediante una distribucin de los re
siduos en forma de cono. Si el cono se abre a la izquierda, toma la raz cua
drada. Si, por el contrario, se abre a la derecha, es preferible el inverso.
Respecto a las transformaciones de Y, Nourisis (1986) pone el nfasis,
principalmente, en cmo se presente la varianza o desviacin de Y:
1. Cuando la varianza sea proporcional a la media de Y, para un valor X dado,
es mejor utilizar la raz cuadrada de Y, siempre y cuando todos los valores
de Y; sean positivos.
2. Cuando la desviacin tpica sea proporcional a la media, prueba la trans
formacin logartmica.
3. Cuando la desviacin tpica sea proporcional al cuadrado de la media, em
plea el recproco de Y.
4. Cuando Y sea una proporcin o razn, nuevamente la transformacin ar
coseno se presenta como la mejor opcin para estabilizar la varianza de Y.
Por ltimo, hay que destacar la recomendacin dada ai efecto por McCullagh y Nelder (1989). Estos autores advierten de que la heterocedasticidad puede ser el resulta
do del incumplimiento de los supuestos de normalidad y de linealidad. Por lo que, pue~
49
50
51
53
54
55
tencia de multicolineaUdad importante. Todos Sos valores de tolerancia superan, y a gran dis
tancia, el valor ,20, que denota un grado elevado de multicolineaUdad. La tolerancia ms al
ta (,994) corresponde a la variable X3 (sexo). La correlacin de esta variable con las cinco
restantes es apenas perceptible. En la matriz de correlaciones se recogen dichas correla
ciones: -0 5 8 (X3 y X5), -,024 (X3.y X10),..,035 (X3 y X.), -,027 (X3 y X6), ,026 (X3 y X13).
Como era de prever, los valores de tolerancia ms bajos se dan en las dos variables in
dependientes que mayor correlacin presentaban entre ellas: X10 (,639) y X13 (,652). Que el
valor de tolerancia de la variable X10 sea ligeramente inferior al obtenido en la variable X13 se
debe a que la primera variable presenta una correlacin, en general, ligeramente superior a
X13 con cada una de !as cuatro variables predictoras restantes. Exactamente, stas son las
correlaciones entre cada par de variables: -,246 (X10 y X,) y -,227 (X13 y X,); -,024 (X10 y X3)
y ,026 (X13 y X3); -,274 (X10 y x 5) y ,267 (X13 y Xs); ,233 (Xf0 y X6) y ,194 (X1S y X6). Com
prubense dichas correlaciones en la matriz de correlaciones (subapartado 1.3.2),
Al definirse FIV como el recproco de tolerancia, las conclusiones que pueden extraerse
de los valores de dicho estadstico coinciden con las expuestas para la tolerancia. Todos los
valores de FIV se sitan muy por debajo del valor de referencia 5,0, que denota la existen
cia de multicolineaUdad importante. El valor de FIV ms elevado se obtiene, como era de es
perar, en la variable X10 (1,566), El ms bajo corresponde a la variable X3 (1,006), que deno
ta ia prctica inexistencia de multicolineaUdad en relacin con dicha variable, al posicionarse
prximo a 1,00.
Tabla A
Variables independientes en el
modelo de regresin
Xs: simpata haca latinoamericanos
X10: casarse con marroqu
X.,: leyes de inmigracin
X6: n. inmigrantes
X13: vecino marroqu
X3: sexo
Tolerancia
Fados de inflacin de
la varianza
,875
,639
,842
,842
,652
,994
1,143
1,566
1,187
1,187
1,534
1,006
56
Tabla B
Tolerancia
FIV
Tolerancia
mnima
,949
,953
,831
,786
,890
,915
,928
,825
1,053
1,049
1,203
1,272
1,124
1,093
1,077
1,212
,636
,634
,633
,631
,635
,638
,637
,628
Dimensin
1
2
3
4
5
6
7
Autovalor
5,855
,497
,349
,108
,102
7.464E-02
1.444E-02
ndice de
condicin
1,000
3,432
4,097
7,371
7,565
8,857
20,139
Proporciones de la varianza
Constante
*5
XfQ
,00
,00
,00
,00
,00
,00
,00
,00
,00
,04
,03
,00
,59
,34
,00
,03
,15
,04
,74
,03
,02
,00
,00
,08
,43
,01
,19
,29
*6
^13
,00
,00
,00
,25
.00
,23
,52
,00
,01
,08
,07
,76
,03
,05
,00
,88
,08
,00
,01
,00
,02
57
58
que son estimables y las dependencias estructurales que existen entre las va
riables explicativas.
Este uso del anlisis factorial con anterioridad al anlisis de regresin lineal
puede tener una doble finalidad: una, la identificacin de variables indepen
dientes, que sean bastante colineales, para su exclusin del anlisis de regresin;
dos, la combinacin de variables colineales en un nico ndice o factor. Estas apli
caciones del anlisis factorial (relacionadas con a redistribucin de la varianza
compartida por las variables independientes) se desarrollan en el captulo 5, de
dicado al anlisis factorial.
59
60
(-3,0) a positivos (3,0). El orden puede ser tambin el inverso: pasar de residuos ele
vados positivos (3,0) a negativos (-3,0). Estos ltimos grficos son caractersticos de si
tuaciones en que el orden de disposicin del caso en la muestra analizada afecta a la
informacin que de ! se obtenga, como sucede en los ejemplos antes expuestos.
Caso
-3,0
0,0
3,0
Caso
a) Ausencia de autocorrelacin
-3,0
0,0
3,0
b) Autocorrelacin (o dependencia
de las observaciones)
Figura 1.6. Grfico de residuos para detectar autocorrelacin de los trminos de error.
IX
(=1
Con el coeficiente de Durbin-Watson, as definido, se comprueba si la correlacin
serial (a cada residuo Et se le resta el inmediatamente precedente, Et_f) es nula. La au
tocorrelacin es positiva (los trminos de error se hallan positivamente correlaciona
dos) cuando la diferencia entre los residuos sucesivos es pequea. El valor d co
rrespondiente es pequeo. En caso contrario, la autocorrelacin es negativa. La
diferencia entre los residuos sucesivos es grande. Lo que se materializa en un valor d
elevado.
Como en todo contraste de hiptesis, el valor de d emprico, obtenido de la mues
tra, se compara con. el correspondiente valor d terico, a un nivel de probabilidad
concreto. La hiptesis nula de no autocorrelacin entre los trminos de error sucesi
vos se rechaza, cuando la diferencia entre ambos valores d es significativa a dicho ni
vel de probabilidad (p < ,05, usualmente). En general, cuando el valor d" emprico es
t comprendido en el rango de 1,5 a 2,5 no existe motivo de preocupacin.
61
Como el lector habr podido constatar, el anlisis de los residuos es de gran utili
dad en la comprobacin de la mayora de los supuestos de regresin. Especialmente,
en regresin mltiple, cuando se analizan dos o ms variables independientes. Ello se
debe a la dificultad que supone reflejar en un grfico bidimensional los valores de la
variable dependiente para cada una de las variables independientes, de manera si
multnea.
En regresin lineal se entiende por residuo la diferencia entre los valores obser
vados en la variable dependiente (Y) y sus correspondientes valores predichos, a par
tir de la ecuacin de regresin (Yf), para cada uno de los casos analizados (siendo
i = 1,2, 3...n). Residuo es, parafraseando a Hutcheson y Sofroniou (1999: 24), lo que
queda una vez que un modelo se ha ajustado a los datos: E i = Yi No debe confundirse el residuo (denotado E o r.p en algunos textos) con el error de
prediccin (s). El error de prediccin -como se detalla en el subapartado 1.5.2- repre
senta la diferencia entre el valor verdadero de Y en la poblacin (no en ia muestra ana
lizada) y su correspondiente valor estimado mediante la ecuacin de regresin. El valor
real de la variable dependiente en la poblacin puede diferir del observado en la mues
tra, lo que denota la existencia de error de medicin en la investigacin realizada.
Existe una amplia variedad de residuos , aunque todos ellos hacen referencia a la
diferencia entre la respuesta observada y la predcha. Entre los ms empleados se en
cuentran los siguientes:
a) Residuos brutos (o raw residuals)- stos se ajustan a lo que normalmente se
entiende por residuo : la diferencia entre los valores de la variable dependien
te observados (Y) y los predichos (Y ), en cada caso concreto. Cuanto ms gran
Yi
Y ,-Y :
\ N ~ p l
Donde N representa el tamao de la muestra (que tambin puede re
presentarse por n, para diferenciarlo del tamao de la poblacin); y p", el n
mero de variables independientes incluidas en la ecuacin de regresin.
Esta tipificacin de los residuos (que quedan convertidos a la misma unidad
de medicin: unidades de desviacin tpica) facilita su comprensin, adems de
la comparacin de residuos y de modelos de regresin distintos.
Saber, por ejemplo, que un residuo bruto es igual a -849,25 apenas pro
porciona informacin. Slo que el valor observado en la variable dependiente
( Yj) es inferior a su correspondiente valor predicho (F ). Y ello porque el
signo de dicho residuo es negativo. Si su valor fuese positivo, indicara lo
opuesto: la Y observada es superior a la predicha (Y).
Si se transforma el residuo bruto en estandarizado (al dividirse por la esti
macin de su desviacin tpica), su valor pasa de ser -849,25 a .3,0. Ello permite
conocer no slo que el valor de Y es inferior al correspondiente Y., sino tam
bin que es bastante superior a otros en valor absoluto. Alcanza su valor mximo.
El rango de los residuos estandarizados va de -3,0 a +3,0, aproximadamente. Al
estar estandarizados , estos residuos se caracterizan por ser su media 0 y su des
viacin tpica 1.
c) Residuos estudentizados (Studentized residuals o SDRESID, en notacin
SPSS). Se definen de forma similar a los estandarizados: el cociente del residuo
bruto y su desviacin tpica estimada. A esta definicin comn (con el residuo es
tandarizado) se aade, no obstante, la consideracin de la distancia de cada va
lor de a variable independiente respecto de su media: d i , que expresa la
distancia habida entre el punto i y el punto medio.
La variabilidad de los valores predichos no es igual en todos los puntos, si
no que vara con ios valores de la variable independiente y de la proximidad de
sta respecto de la media. La variabilidad en los valores predichos es menor,
cuando la variable independiente se aproxima a la media. Por el contrario, au
menta para ios valores ms extremos de la variable independiente. Estas con
sideraciones sobre la variabilidad cambiante se materializan en la formulacin
63
Los valores de cualquiera de estos cuatro residuos se aaden a grficos que facilitan
la comprobacin inmediata de ios supuestos de regresin. Los grficos de residuos ms
comunes son los que representan los residuos (ya sean brutos, estandarizados o estdentizados) contra:
Una de las variables independientes (X).
Los valores predichos de ia variable dependiente (Y),
La suma ponderada Y de las variables independientes (X-).
De estos grficos, el ms empleado es el segundo: el grfico de residuos contra los
valores de Y.. En l, tanto los residuos como los valores predichos de la variable de
pendiente se hallan estandarizados. Para que refleje el cumplimiento de los su
puestos de regresin, este grfico no ha de mostrar ningn modelo sistemtico en
consideracin al valor de Y (como ha podido constatarse en los subapartados an
teriores).
, La adecuacin del modelo de regresin puede, asimismo, comprobarse mediante
el llamado casewtse p lo t. ste constituye igualmente un grfico de residuos, aunque
para cada caso concreto y de una forma estandarizada. Como proporciona informacin
de cada uno de los casos analizados (su valor predicho, Y, con sus residuos corres
64
65
R
E
P
2 0
L
A
N
T
E
A
4.0
INTRODUCCIN DE
MODIFICACIONES
66
67
se incluyen 15 variables y cada una de ellas tiene, al menos, un 5% de sus valores sin
respuesta.
- La eliminacin de los casos sin respuesta tampoco es una solucin recomendable,
cuando estos casos no son azarosos Al contrario, se ajustan a un perfil determinado,
que les diferencia de aquellos que s aportan informacin. Tmese, por ejemplo, dos
variables: ingresos y categora profesional. Si se observa que personas de distintas
categoras profesionales no declaran igualmente sus ingresos -las personas de cate
goras profesionales superiores son, por ejemplo, los ms reacios a informar de sus in
gresos-, no se est ante datos incompletos al azar. La eliminacin de estos casos del
anlisis supondr, salvo que representen una baja proporcin en el conjunto de la
muestra, la obtencin de resultados sesgados, adems de estimaciones de parmetros
inconsistentes. Por esta razn se aconseja que, antes de proceder a eliminar del an
lisis a los casos sin respuesta , se compruebe si aquellos casos que no aportan infor
macin en variables de inters se ajustan a un mismo perfil. De ser as, habr que de
sestimar su eliminacin de la muestra de anlisis y optar por otro remedio a la no
respuesta.
Cuando no se cumplen las circunstancias referidas de tamao muestral elevado y/o
baja proporcin de casos sin respuesta, y stos no se distribuyen al azar, sino que
renen unas mismas caractersticas, es habitual elegir alguno de los remedios si
guientes:
La imputacin a partir de los casos de los que se tiene informacin. Se trata de
sustituir estos valores sin respuesta por otros que tendrn tratamiento de valo
res observados reales. Los valores se imputan siempre bajo el supuesto de
cul habra sido el valor dado a la variable por ese caso o sujeto si hubiese da
do una respuesta. A tal fin pueden seguirse distintos procedimientos.
1. Reemplazar los valores sin respuesta (missing values) en una variable por la
media de los valores observados en dicha variable, antes de proceder al
anlisis. Esta solucin es especialmente til, cuando se quiere hacer uso de los
datos incompletos y las intercorrelaciones existentes entre las variables son
pequeas. La ventaja principal es que todos los casos de la muestra original
intervienen en la obtencin del modelo de regresin. El inconveniente sera
los sesgos que su aplicacin puede introducir en las estimaciones de los pa
rmetros de regresin.
2. Tomar los valores de respuesta dados por otros casos que han proporcio
nado respuestas similares en otras variables. Se trata de atribuir a los casos
sin respuesta a dada por otros individuos de similares caractersticas, que
han proporcionado las mismas respuestas que ellos en las dems variables.
Esta atribucin de respuesta es ms arriesgada que la solucin anterior. In
dividuos con similares caractersticas no tienen por qu ser plenamente
coincidentes.
68
E j e m p l o d e t r a t a m ie n t o d e l o s c a s o s *s in r e s p u e s t a
ES tratamiento dado a ios casos "sin respuesta en ia encuesta aqu analizada ha sido el
ltimo mencionado; realizar e anlisis de regresin slo con aquellos casos que s propor
cionan informacin en ias variables de inters. Al ser e! tamao de la muestra original bas
tante elevado (n = 2.492 casos), no era imperioso recurrir a la imputacin. Se quera con ello
69
evitar los sesgos que toda suposicin de cul habra sido la respuesta dada puede introdu
cir en la estimacin de los parmetros. Pero, proceder a la eliminacin de todo caso que no
aportase informacin en alguna de las variables incluidas en el estudio supona una reduc
cin drstica en e tamao de la muestra origina!, bastante superior a ia mitad (n = 692}. Es
ta drstica merma en el tamao muestral, por encima de las predicciones de Jaccard y Wan
(1996), se debe no slo al nmero de variables elegidas para el anlisis (15), sino tambin
a que los casos "sin respuesta no coinciden en todas fas variables. La desestimacin de los
casos sin respuesta", aunque slo sea en una de tas variables seleccionadas para el an
lisis, provoca esta reduccin tan llamativa en el tamao muestral, cuando se analizan con
juntamente las variables. Sin duda la reduccin habra sido menor, s los casos sin respuesta"
no se hubiesen distribuido a! azar en ia muestra, adecundose a un mismo perfil en la ma
yora de las variables.
En cambio, la eliminacin parcial del caso sin respuesta del anfisis, slo cuando afec
ta a la variable que se analiza, supuso una reduccin sensiblemente menor en el tamao de
ia muestra original a 1.280 casos. Esta reduccin se debi al cruce de las dos variables con
ms casos sin respuesta: leyes inmigracin' (P18), con un tota) de 1.713 casos vlidos; y la
variable ingresos (P52), declarados slo por 1.793 de los 2.492 encuestados. Pese a
ello, el tamao muestral contina siendo elevado y posibilita, para la comprobacin de la va
lidez de los resultados, e seccionamiento aleatorio de la muestra a la mitad (aproximadamente
640 casos en cada submuestra: de anfisis y de validacin).
E j e m p l o d e in d a g a c i n e x p l o r a t o r ia
MEDIA Y DESVIACIN TPICA
u n iv a r ia b l e -
70
Estadsticos descriptivos
Media
Simpata marroqu
Leyes inmigracin
Ideologa politica
Sexo
Edad
Simpata latinoamericano
Nmero inmigrantes
Regularizar inmigrante
Entrada inmigrante
Partido racista
Casar con marroqu
Estudios
ingresos
Vecino marroqu
Inmigrante delincuente
5,9629
2,6947
4,6729
,4811
44,9330
7,1693
2,2260
,7568
1,9069
1,4242
1,6729
2,1482
143.991,0
1,2670
,5716
Desviacin
tpica
2,7276
1,0354
1,9595
,4997
18,1276
2,2478
,6284
,4291
,6305
,5692
1,0094
1,1990
105.233,1459
,6723
,4950
N
2.183
1,713
1.804
2.492
2.492
2.174
2.111
2.171
2,288
2.237
2.415
2,281
1.793
2.468
.2.13 8
l se describe cada una de las variables; si son continuas o ficticias, adems de los cdigos
numricos dados a cada uno de sus valores. Esta informacin es de gran inters en ta in
terpretacin de estos estadsticos descriptivos.
Adems, observse como el tamao muestral (N) vara en cada variable, ai excluirse del
anlisis los casos sin respuesta slo en la variable a la que afecta. En las variables sexo" y
edad" se dispone de informacin de todos los casos de ia muestra original. Pero, en otras va
riables, como leyes inmigracin (P16) e ingresos (P52), los casos analizados se reducen
considerablemente. En ia variable ingresos ia reduccin no sorprende, debido a la reticencia
normalmente mostrada a ia declaracin especfica de los ingresos, aun pidindose que se den
de forma aproximada. En a variable leyes inmigracin tampoco, al haberse incluido como
opcin de respuesta (en la valoracin de las leyes que regulan la entrada y permanencia de
extranjeros en Espaa) no conoce la legislacin en materia de inmigracin.
Por ltimo, sealar que la mayor desviacin tpica de ia variable ingresos, seguida a dis
tancia de ia variable edad, se debe a la unidad de medicin de ambas variables: pesetas y
aos. En las otras variables el rango de valores posibles se restringe a 11 como mximo (en
las variables simpata marroqu y simpata latinoamericano: la escala de valores va de 0
[ninguna simpata] a 10 [mucha simpata]); y en las variables ficticias (sexo [P41], regularizar
inmigrante [P19] e inmigrante delincuente [P2904]) se reduce a los valores 1 y 0 (el grupo
de referencia).
71
variables que participan en el anlisis. Esta matriz se caracteriza por ser cuadrada y si
mtrica. Los mismos valores se sitan por encima y por debajo de la diagonal de la ma
triz (que resulta del cruce de una variable por s misma). Por esta razn, en algunos
programas estadsticos slo se dan los valores que se hallan a un lado de la diagonal
(por encima o por debajo), para no proporcionar informacin redundante.
En a matriz de correlaciones la diagonal siempre est compuesta por unos. Incluye
la correlacin de cada variable, ya sea dependiente o independiente, consigo misma. De
ah que la correlacin sea siempre 1,0, el valor mximo posible. Las variables figuran en
el mismo orden en filas y en columnas. La variable dependiente puede estar en la lti
ma fila y columna, o en la primera, depende del programa que se utilice. Sus valores se
cruzan con cada una de las variables independientes, de lo que se obtiene un coeficien
te de correlacin producto-momento de Pearson ( r ). ste constituye una medida basada
en la covarianza entre dos variables relacionada con la dispersin de sus respectivas dis
tribuciones. Concretamente, se obtiene del cociente entre la covarianza de X e Y y
la raz cuadrada de las varianzas de X e Y , para todo valor i = (1,2,3...N), siendo N
(o n) el tamao de la muestra. Dos frmulas alternativas son las siguientes:
donde Sxy =
------ X Y = Covarianza de X en Y
N
cuadrado de la media de X
72
X ,
x 2
x s
X ,
r u
r J3
. .
x 2
r 2l
r 23
x 3
l 32
X ,
f p2
r *
r >6
r yt
X ,
r 2p
r yp
T py
73
ya correlacin sea de igual o superior magnitud que el valor tomado de corte. Esto ayu
da a tener una primera impresin de las interrelaciones existentes entre las variables.
Se insiste en que 1a relacin es exclusivamente entre dos variables y no se tiene en con
sideracin la influencia, a su vez, con otras variables.
Si la relacin es entre dos variables independientes, recurdese que todo valor igual
o superior a 0,80 se considera indicativo de una elevada correlacin entre las varia
bles (se est ante variables muy colm ales). Son funciones casi perfectas una de otra,
lo que demanda la adopcin de alguna de las medidas contra la multicolineaUdad re
feridas en el subapartado 1.1.8. Tambin puede tomarse como referente de colineali
dad importante toda correlacin igual o superior a 0,60.
Asimismo, puede darse la situacin de correlaciones inferiores a las esperadas. EUo
puede deberse a la existencia de una relacin no lineal entre las variables o, simple
mente, a la presencia de outliers (casos atpleos'). Para descartar ambas explicacio
nes a la baja correlacin entre las variables hay que proceder a la comprobacin de los
supuestos de regresin (apartado 1.1) y, en su caso, a la deteccin de atpleos (va
se subapartado 1.5.4).
Por ltimo, advertir de que las correlaciones demasiado bajas pueden deberse,
igualmente, a valores extremos de la media y desviacin tpica de la variable. Si las me
dias de las variables para una muestra dada son nmeros muy grandes y las desvia
ciones tpicas muy pequeas, entonces los programas de ordenador pueden producir
matrices de correlacin cuyos valores son demasiado pequeos (Hutcheson y Sofroniou, 1999:18). Esta tercera explicacin tendr, asimismo, que comprobarse, lo que
exige un anlisis univariable de las variables afectadas.
j e m p l o ,d e m a t r iz d e c o r r e l a c i n
74
Matriz de correlaciones
Y
Y
x,
X2
x3
X4
xs
*7
x8
X,o
x
X,3
*,4
1,000
x,
x2
x3
x,
-1 1 3
(.000)
-1 2 9
(,000)
,118
(,000)
,058
(,002)
1,000
x5
,593
(,000)
,196
{,000)
-.048
(,024)
-0 0 9
(,330)
-,102
(,000)
1,000
x6
-.297
(,000)
-,337
(,000)
,140
(,000)
,027
(.106)
,141
(,000)
-,230
(,000)
1,000
x7
,281
(.000)
,286
(,000)
-,111
(,000)
-,039
(.035)
-,089
(.000)
,228
(.000)
-,283
(.000)
1,000
xe
-,294
(.000)
-,368
(.000)
,136
(.000)
,046
(.015)
,117
{,000)
-.246
(,000)
,275
(.000)
-,388
(.000)
1,000
x9
-.216
(,000)
-141
{,000)
,170
(.000)
,021
(.160)
,097
(,000)
-2 1 9
(,000)
,183
(,000)
-,199
(,000)
,257
(.000)
1,000
x 10
-4 7 6
(,000)
-,246
(,000)
,147
(.000)
-,024
(.116)
,163
(,000)
-2 7 4
(,000)
,233
(,000)
-,265
(,000)
,290
(,000)
,239
(.000)
1,000
x ,a
X13
X,4
,140
(.000)
,184
(,000)
-,052
(.017)
,080
(,000)
4 4 2
(.000)
,120
,057
(.012)
,156
(.000)
,037
(.086)
,107
(.000)
-,291
(.000)
,085
(.000)
-.223
(.000)
,118
(,000)
-,139
(.000)
-0 7 0
(,002)
-,023
(.169)
,471
(.000)
1,000
-.396
{,000)
-,227
(.000)
,117
{,000)
,026
(.102)
,124
(,000)
",267
(.000)
,194
(,000)
-,249
(.000)
,266
(,000)
,261
(.000)
,573
(,000)
-,095
(.000)
-,041
(.041)
1,000
-,268
(,000)
-,289
(,000)
,149'
(,000)
,055
(.005)
,201
(.000)
-,199
(,000)
,316
(,000)
-,268
(,000)
,309
(.000)
,179
(.000)
,271
{,000)
-,204
(.000)
-.117
(,000)
,207
(.000)
1,000
(,000)
-.254
(,000)
,175
(,000)
-,154
(,000)
,128
(.000)
-.114
(.000)
1,000
* Las cifras entre parntesis corresponden a la significatividad de tas correiacones bivariabies respectivas.
Y: simpata hacia norteafricano (marroqu,..) (P201); X,: "Seyes inmigracin" (P16); X. ideologa poltica (P39);
X3: "sexo (P41); X4: edad (P42); Xa: "simpata hacia latinoamericanos" (P210); Xe: nmero de inmigrantes
(P1 1}; X7: regularizar a inmigrantes (P19); Xa: "entrada inmigrantes (P21); X9: partido racista" (P37); X10; ca
sar con marroqu" (P306); Xt1: "estudios (P43a); Xl2'. "ingresos (P52); X13: Vecino marroqu" (P506); X,4: in
migrante delincuente (P2904).
75
Recurdese que a variable sexoes una variable ficticia que, al tener codificacin binaria
(1 varn, 0 mujer), su relacin con fas otras variables no se ajusta a una recta de regresin,
aunque realmente las variables estn muy relacionadas. En las variables ficticias, el coeficiente
de correlacin producto-momento de Pearson (r") no expresa el grado de relacin existen
te entre dos variables, sino la proporcin de casos que en ese grupo (el codificado 1) es ma
yor (signo-positivo) o menor (signo-negativo1) que ia proporcin de casos en el grupo de re
ferencia (codificado 0). Por ejemplo, !a correlacin de X3 con Y de -,050 significa que la
proporcin de varones (codificados 1) que muestran simpata hacia los norteafricanos
(marroques...)1es muy ligeramente inferior a la de mujeres (el grupo de referencia, a! co
dificarse 0). En cambio, la correlacin positiva de la variable X3 con X12 de ,107 indica la proporcin en que los ingresos" de los varones superan a los declarados por las mujeres. A la
vista de ambas correlaciones, que son bastante significativas y de escasa cuanta, puede con
cluirse que existen ms diferencias entre los varones y las mujeres en los "ingresos" decla
rados (a favor de los varones) que en la simpata'1manifestada hacia los norteafricanos (li
geramente superior en las mujeres). Es en la variable ingresos donde ias diferencias por
gnero son superiores (aunque con escasa magnitud: ,107). Respecto a las otras variables,
las diferencias por gnero son apenas perceptibles. La correlacin ms baja se da entre la
variable X3 y X5 (-.009). En ia manifestacin del grado de simpata hada ios latinoamericanos
las diferencias entre los varones y las mujeres son nulas (inclusive inferiores a las registra
das en ta variable Y: simpata norteafricano) e, igualmente, en direccin negativa (mni
mamente superior en las mujeres).
Las otras dos variables ficticias (X7 y X14) muestran una mayor correacin con Y que X3.
En la variable X7 (regularizar a inmigrantes) la correlacin es positiva y ligeramente supe
rior (,281). Entre las personas que creen que s se debera tratar de regularizar la situacin
de ios inmigrantes ilegales (grupo codificado 1) ia proporcin de casos que muestran ms
simpata hacia los norteafricanos es ,281 superior a la habida entre los contrarios a a regularizacin (el grupo de referencia). Asimismo, ta correlacin de X14 e Y de -,268, significa
que entre aquellos que estn de acuerdo en que el aumento de los inmigrantes favorece el
aumento de la delincuencia en nuestro pas aquellos que muestran simpata hacia los
norteafricanos son en una proporcin de ,268 inferiores a los que estn en desacuerdo con
dicha aseveracin. En este ltimo grupo (e grupo de referencia) es superior el grado de sim
pata manifestado hacia los norteafricanos, aun no siendo excesiva en magnitud.
De las catorce posibles variables predictoras consideradas Xs (simpata hacia latinoa
mericanos) es fa variable ms correlacionada con Y (,593). La correlacin habida entre am
bas variables es positiva e importante, aunque no perfecta. Las simpatas mostradas hacia
los latinoamericanos y norteafricanos covaran en ia misma direccin. Ambas variables es
tn positivamente relacionadas, lo que significa que tos aumentos (o disminuciones) en sim
pata hacia los latinoamericanos suelen coincidir, aunque no siempre, con aumentos (o dis
minuciones) igualmente en ia simpata manifestada hacia los norteafricanos. Para que la
correlacin entre ambas variables fuese perfecta (y la coincidencia de sus valores total en to
dos los casos) su valor debera aproximarse a 1,0. No obstante, la correlacin entre ambas
variables es importante y puede afirmarse que sta ser la primera variable que formar la
ecuacin de regresin, la que ms ayuda a predecir el valor de Y.
X10 (casar con marroqu) es la segunda variable en importancia que muestra una
mayor correacin con Y, aunque en direccin negativa (-,476). El signo de! coeficiente res
ponde a cmo est definida esta variable. El valor ms alto (4) corresponde a aquellos que
afirman que le preocupara mucho que un hijo o una hija suya se casara con un ciudadano
76
de Marruecos u otro pas norteafricano"; el valor ms bajo (1), a aquellos que declaran que
no les preocupara "nada" dicho matrimonio. Hecha esta especificacin, el signo del coeficiente
no sorprende. La simpata mostrada hacia los norteafrcanos vara inversamente con la preocupacin de que un hijo o hija se casase con un marroqu. A medida que aumenta la
preocupacin hacia un posible matrimonio con un marroqu u otro ciudadano de un pas nor
teafricano, desciende Sa simpata hacia este grupo de personas. sta es menor entre los que
dicho matrimonio tes preocupara mucho o bastante que entre aquellos a ios que les pre
ocupara poco o nada. La relacin entre ambas variables es lineal, aunque no perfecta. A
partir de a matriz de correlaciones puede predecirse que sta ser la segunda variable en for
mar la ecuacin de regresin, al ser la segunda ms correlacionada con Y, cumpliendo a su
vez la condicin de estar apenas correlacionada con X5. La correlacin (muy significativa) ha
bida entre las variables X10 y X5 es leve (-,274). Se trata de dos variables poco collneales. La
inclusin de una de ellas en ia ecuacin de regresin no restringe la incorporacin de la otra.
Como se ver posteriormente, la incorporacin de variables predictoras a la ecuacin de
regresin est determinada no slo por la correlacin que dicha variable tenga con la de
pendiente, sino tambin de la tenida con variables independientes previamente introducidas
en la ecuacin (por mostrar una mayor correlacin con Y).- En suma, para poder predecir que
la variable X13 (ia tercera ms correlacionada con Y: -,396) y X1 (la cuarta, ,302), por
ejemplo, van a formar parte de la ecuacin de regresin, habr antes que observar cules son
las correlaciones de estas dos variables entre s y con las variables previamente indicadas
como posibles integrantes de la ecuacin. Un grado elevado de colinealidad con variables ya
en la ecuacin dificulta la incorporacin de nuevas variables, aun estando muy correlacionadas
con Y. Como se seal en el subapartado 1.1.8, en el anlisis de regresin se trata de evi
tar la multicolineaUdad y con ello la redundada en la prediccin de Y. Para ms informacin
relase dicho subapartado. En los siguientes se volver a hacer referencia a esta matriz de
correlaciones para la interpretacin de modelo de regresin.
77
Xj, X 2, X y.. X. las distintas variables predictoras de las que se ha obtenido infor
macin en a muestra analizada.
a: tambin denominado &0. Identifica la constante o el intercepto de la recta de re
gresin. Es el punto donde la recta (o el piano) de regresin intercepta, o
sea, corta el eje Y, De ah su referencia de intercepto. Tambin se le conoce co
mo constante porque su valor denota el valor promedio de Y cuando las va
riables independientes son nulas; es decir, iguales a cero. Pero, tngase presente
que no siempre el valor cuantitativo del intercepto tiene una interpretacin directa.
Esto sucede, habitualmente, cuando presenta un valor negativo. Rara vez, en el
mundo real, un valor de Y puede ser inferior a 0 (salarios, calificacin acadmica,
lloras de estudio, por ejemplo). En estas circunstancias de valores de a (o
b0) negativos, su cuanta no es directamente interpretable, aunque contina sien
do imprescindible para la prediccin de Y.
En caso de variables independientes ficticias (vase subapartado 1.1.2), el in
tercepto (o constante ) refleja el valor predicho de la variable dependiente para el
grupo de referencia. Ello se debe a que todas las variables pericias son iguales a ce
ro para el grupo de referencia (0 varn, i mujer; 0 suspenso, 1 aprobado, por ejem
plo). Su valor se interpreta como la frecuencia media de la variable dependiente
para el grupo que se ha codificado 0.
b v &2bp son los coeficientes de pendiente parcial o de regresin parcial. En regre
sin simple, cuando slo hay una variable independiente, su valor representa la
pendiente de la recta de regresin. En regresin mltiple, con dos o mas variables
independientes, su valor identifica la pendiente del hiperplano de regresin con
respecto a su respectiva variable independente (X ). Separan el efecto de cada va
riable independiente en la dependiente del resto. Esto se debe a que su cuanta ex
presa el cambio promedio en la variable dependiente asociado a una unidad de
cambio en X , cuando el resto de las variables independientes se mantienen
constantes (esto se conoce como control estadstico).
En variables independientes ficticias (con codificacin binaria 0 - 1) el coe
ficiente de pendiente en cada una de las variables ficticias estima la diferencia en
el valor de Y entre el grupo en cuestin y el grupo de referencia. En variables con
slo dos categoras, como sexo, el valor de dicho coeficiente se convierte en la di
ferencia en las medias entre el primer grupo (el codificado 1) y el segundo grupo
(el codificado 0). Si los varones actan, por ejemplo, como grupo de referencia
(codificado 0), el coeficiente b asociado a mujer (con el cdigo 1) denota la
diferencia en Y entre mujeres y varones. En general, los casos que punten
0 en cada una de las g - 1 variables ficticias creadas se toman como grupo de re
ferencia, respecto al cual se comparan los coeficientes de regresin de cada una de
.las variables ficticias formadas a partir de una variable cualitativa. Por esta razn
se recomienda seleccionar como grupo de referencia aquel que haga ms signifi
cativa la interrelacin de los respectivos coeficientes de pendiente.
Como los coeficientes de pendiente suelen estimarse de datos mustrales,
siempre habr una variacin en su valor, dependiendo de la muestra que se ana
78
79
variables predictoras puede ser elevado. Con slo 5 variables predictoras exis
ten 10 posibles trminos de interaccin de 3 variables, 5 de 4 variables y 1 de 5
variables. La consideracin de todas estas interacciones resultara en un modelo
complejo con 36 trminos, sin que esto redunde, necesariamente, en una mejora
sustancial de ajuste a los datos.
b) Los trminos de interaccin a veces repiten informacin proporcionada por las
variables predictoras individuales. Si la redundancia inducida por los trminos
de interaccin es demasiado fuerte, se pueden distorsionar las estimaciones de
los coeficientes para las variables predictoras individuales. Esta redundancia se
identifica con la m ulticolinealidad (referida en el subapartado 1,1.8).
Pero, si no se incluyen interacciones que realmente existen, los parmetros esti
mados para los otros trminos del modelo pueden verse afectados. Para obviarlo, una
prctica empleada comnmente consiste en aadir el producto liX i X " en la ecuacin
de regresin para representar posibles interacciones (Afifi y Clark, 1990). stas pue
den darse entre dos o ms variables continuas o entre una continua y una. ficticia. En
este ltimo caso, se comprueba si la respuesta a un cambio en una variable indepen
diente continua difiere entre los grupos clasificados de acuerdo con la variable ficticia.
No obstante, se insiste en la conveniencia de que slo se incluyan aquellas interacciones
que muestren ser significativas.
A continuacin se detalla cada uno de los integrantes de la ecuacin de regresin,
junto con los procedimientos principales seguidos en su estimacin.
80
81
ecuacin de regresin (TQ, para cada caso concreto (i -1 ,2 ,3 ... n). Dichas diferencias
constituyen Jos errores de prediccin (e/)- Existe uno para cada punto. Su valor informa
de la distancia habida entre ei punto y la recta o plano. Rara vez se logra un ajuste per
fecto de los puntos a la recta o plano, por to que siempre existe error. Lo que se quiere
es que sea lo menor posible, que la distancia habida entre ambos valores sea mnima.
Y
X
a) Regresin simple
b) Regresin mltiple
Figura 1.9. Representacin del principio de mnimos cuadrados ordinarios.
Covarianza de XY / Varianza de X
itx t-x )
82
83
84
85
diante el error tpico (standard error), que constituye una medida de la variabilidad de
las estimaciones de los coeficientes, a partir de la informacin extrada de una muestra.
El error tpico dei coeficiente de regresin b" (SEB) se define como la variacin en
a estimacin del valor del coeficiente de una a otra muestra (de iguales caractersticas)
que pertenezcan a la misma poblacin. Permite conocer la divergencia en las estimaciones
de los coeficientes y equivale a 1a distribucin de las estimaciones del coeficiente de re
gresin que resultara, si se extrajesen repetidamente muestras, de un determinado ta
mao, de una misma poblacin y, para cada una de ellas, se calculase el coeficiente de re
gresin, Como estos coeficientes estimados de muestras aleatorias varan de sus
correspondientes valores poblacionales, el error mide, precisamente, cul es esa variacin.
Esta informacin es imprescindible a efectos inferenciales (de los coeficientes estimados
en una muestra a sus correspondientes parmetros poblacionales).
E clculo del error tpico de un coeficiente concreto (Sh) se realiza mediante la si
guiente frmula:
XM -ty/iN -p-i)
S, -
K ; ----------1 --------------I ( * , . - X ) 2( W )
A partir de error tpico pueden calcularse los intervalos de confianza para cada
coeficiente de regresin que haya mostrado ser significativo (subapartado 1.4,3), Pa
ra ello se multiplica el error por el valor terico de t de Student, con N - p - 1 gra
dos de libertad (siendo p" e nmero de variables predictoras en la ecuacin de re
86
87
88
parcial,
73/ el correspondiente coeficiente de pendiente en la poblacin, bajo la
hiptesis nula formulada: H0; /?= 0.
Sb el error tpico estimado de b / .
Cuando la variable independiente es ficticia, la razn t para cada coeficiente b
equivale a 1a razn t para a diferencia entre la media del grupo codificado 1 y la me
dia del grupo de referencia (codificado 0), que acta a modo de grupo de control.
En la salida de ordenador suele figurar los valores de la razn t, junto al coefi
ciente de regresin y su nivel de significacin. Este ultimo ha de ser, al menos <,05
para que sea significativa la t emprica y sea inferible el correspondiente coeficiente
de regresin. En caso afirmativo, se procede al clculo de los intervalos de confianza
a modo de lo expuesto en el subapartado 1.4.2.
La significatividad de intercepto (o constante) tambin puede comprobarse me
diante a razn t, del mismo modo que el coeficiente de pendiente. La hiptesis nu
la se formula, igualmente, en trminos de independencia: el valor del intercepto en la
poblacin es igual a cero (H0 : a - 0); frente a la alternativa que lo contradice. La t
emprica se obtiene del cociente entre e intercepto y su error de estimacin (Sa):
a a
t = ------S.
89
Modelo de regresin
(Constante)
Xs simpata latinoamericano
X10 casar con marroqu
X, leyes inmigracin
Xg nmero de inmigrantes
X13 vecino marroqu
X3 sexo
Coeficientes no Coeficientes
estandarizados estandarizados
B
Error
tpico
3,786
,558
~,698
,261
-.356
-,348
-,265
,400
,026
,068
,058
,095
,101
,110
Sig.
Beta
,460
-.258
,099
-,082
-,086
-,049
3,458
21,429
-10,281
4,527
-3,751
-3,443
-2,414
,000
,000
,000
,000
,000
,001
,016
Intervalo de confianza
para B al 95%
Limite
inferior
Lmite
superior
3,001
,507
-,832
,148
-,543
,546
-,481
4,571
,610
-,565
,374
-.170
-,150
-,050
90
9l
92
93
Del producto de los coeficientes beta y los coeficientes de correlacin se extrae el por
centaje de varianza de Y que cada variable independiente logra explicar. En concreto, Sa con
tribucin de cada variable independiente en la prediccin del valor medio de Y. sta se mues
tra en ia tabla B.
Tabla B
Variables
^10
*6
x3
r
,593
-476
,302
-,297
-,396
-,050
P
,460
-,258
,099
",082
-.086
-,049
rx j3
,2728
,1228
,0299
,0243
,0341
,0025
Al ser los coeficientes beta los que mejor representan la contribucin de cada variable
independiente en la prediccin de Y, stos son los coeficientes que normalmente se utilizan
en la representacin grfica del modelo de regresin. En este modelo, como no se ha incluido
ningn trmino de interaccin, su representacin grfica es la siguiente:
94
*
Las otras ocho variables independientes analizadas han quedado excluidas del modelo
de regresin. Ninguna de ellas presenta un coeficiente de regresin significativo, como
puede verse en la tabla C. La signifcatividad de ios coeficientes supera el valor de referen
cia habitual de ,05, al ser los valores f empricos inferiores a 1,96.
Adems de la significatividad y el valor f, en la tabla se incluyen los coeficientes befa den
tro y de correlacin pardal. Beta dentro es el coeficiente de regresin estandarizado que
tendra la variable si se incorporase ai modelo de regresin. Todos elios son valores muy ba
jos, En cambio, el coeficiente de correlacin parcial expresa la correlacin de cada variable in
dependiente con ia dependiente, cuando los efectos de las otras variables independientes se
mantienen constantes. Elevando su valor al cuadrado, se obtiene la proporcin de varianza de
la no explicada" de Y por el modelo de regresin (51,36%) que quedara explicada si dicha va
riable independiente se incluyese en e modelo. Por ejemplo, X7 es la variable que mayor coe
ficiente de correlacin parcial tiene (,051). Este coeficiente no significa que dicha variable (re
gularizar a inmigrantes) explique e! 5,1% de la varianza sin explicar" de Y. Para conocer
realmente qu proporcin de varianza explica, hay que elevar dicho coeficiente al cuadrado:
,0512 = ,0026, Ei 0,26% del 51,36% de la varianza no explicada de Y sera explicada incor
porando la variable X7 ai modelo de regresin. Exactamente, ,5136 x ,0026 = ,0013, una pro
porcin de varianza totalmente insignificante. X7, al igual que las otras siete variables, no apor
ta nada a la prediccin de Y. Su conocimiento no ayuda a reducir el error de prediccin de Y.
Tabla C
Variables excluidas
del modelo de regresin
X2 ideologa poltica
X4 edad
X7 regularizar inmigrantes
Xa entrada Inmigrantes
X3 partido racista
X n estudios
X t2 ingresos
X 14 inmigrante delincuente
Beta dentro
Sig.
Correlacin
parcial
-.0 1 8
,009
,040
-.0 2 8
-,001
,012
-,021
-,0 3 8
-8 6 8
,430
1,820
-1 ,2 3 3
-0 4 7
,586
-1 ,0 2 6
-1,741
,386
,668
,069
,218
,963
,558
,305
,082
-,024
,012
,051
-0 3 5
-.001
,016
-.0 2 9
-,0 4 9
95
mero, con la ayuda de grficos, en los cuales se trata de comprobar lo bien que la nu
be de puntos se ajusta a la recta o plano de regresin. A estos grficos se ha hecho
referencia en pginas anteriores.
Pero, aunque los grficos ayudan a visualizar el ajuste, la distancia que separa los
puntos de la recta (o plano) se mide, de forma ms precisa, mediante el coeficiente de
correlacin mltiple cuadrado (R z). ste constituye una medida de proximidad rela
tiva, empleada en el anlisis de regresin para evaluar la bondad de ajuste del modelo.
La proxim idad se mide como a proporcin de varianza de ia variable dependiente que
queda explicada por la recta (o plano) de regresin.
i?2 tambin se refiere como coeficiente de determinacin. Su valor expresa la pro
porcin de variacin total de la variable dependiente que es determinada o explicada
por las variables independientes que conforman la ecuacin de regresin. El rango de
valores posibles va de 0,0 a 1,0. Un valor de R2 ~ 1,0 indica que el modelo de regresin
logra explicar completamente la varianza de la variable dependiente. Esta situacin se
produce cuando todos los puntos caen en la recta (o plano) de regresin. En cambio,
un R2 = 0,0 denota que ei modelo de regresin carece de poder predictivo. Ningn pun
to coincide con la recta de regresin. Ambas situaciones son, no obstante, difciles de
encontrar en la prctica investigadora. Tan improbable es obtener una ecuacin de re
gresin que logre explicar toda la variabilidad de la variable dependiente, como con
seguir una que no explique nada. Lo habitual son valores intermedios.
El coeficiente de determinacin es el cuadrado del coeficiente de correlacin R. Es
te ltimo expresa el grado en que la variacin de la variable dependiente se halla re
lacionada con las variaciones, simultneas, de las variables independientes en la ecua
cin. Cuando se considera slo una variable independiente, el valor de R figura
acompaado de un signo (+,
ste informa si ambas variables se mueven en la
misma direccin (signo positivo) o en direcciones contrarias (signo negativo) -como
se expuso en los subapartados 1.3.2 y 1.4.1-.
Cuando se analiza la relacin de dependencia con dos o ms variables indepen
dientes, el valor del coeficiente de correlacin R mltiple aparece sin signo (ni positi
vo ni negativo). Ello se debe a que se analiza, conjuntamente, la influencia de la serie
de variables independientes en la dependiente. Lo normal es que no coincida la di
reccin de la relacin de cada variable independiente con la dependiente. Por eso, al
analizarse su influencia conjunta, el signo se anula. El coeficiente R mltiple slo indica
el grado de correlacin entre las variables afectadas, pero no la direccin de la relacin
entre ellas. Esta ltima informacin la proporciona los coeficientes de pendiente y los
coeficientes de correlacin bivariable (en la matriz de correlaciones).
La variacin total de la variable dependiente (o suma total de cuadrados, TSS) con
sidera ias desviaciones de la variable dependiente observada en cada uno de los casos
N
__
(Y - Y ) 1. Su valor es igual
<=t
a la suma de dos partes; una, a variacin que queda explicada por la ecuacin de re
gresin (o suma de cuadrados de regresin, RSS), que mide la desviacin de cada va-
96
A'
__
RSS
TSS = RSS + ESS
97
=
N - p - 1
98
tir de la suma de errores cuadrados de regresin ^ (Y ~ Y,)2 : la suma de las desviaciones de cada valor Y observado respecto a su correspondiente valor predicho (Y)
mediante la ecuacin de regresin. Cuanto mayor es la distancia entre ambos valores,
mayor es e error de prediccin.
Se = i
N -p -1
99
R 2/ p
__ R SS/G .L. Regresin
(1 - R 2) ( N - p - 1) ~ E SS/G .L. Residual
R egresin
Suma de
cuadrados
Grados de
libertad
Media
cuadrtica
RSS/p
N -p-1
ESS / N - p - 1
N - 1
TSS / N - 1
Significatividad
F
RSS/p
ESS/N-p-1
C ontraste de los
valores "F em p
rico y terico, con
p y N-p-1 grados
de libertad a un
nivel de significa
cin determinado
/-i
Residual
-1
Total
Razn
F
c r ,- F ) a
.......... *.................
=t
100
E j e m p l o d e c o m p r o b a c i n d e l a j u s t e d e l m o d e l o d e r e g r e s i n
Tabla A
Fuente de
variacin
Suma do
cuadrados
Grados de
libertad
Media
cuadrtica
Regresin
4627,827
771,304
Residual
4887,883
1273
3,840
Total
9515,710
1279
7,440
Razn
ttpu
Signifcatividad
p*
200,879
,000
101
...
N-p-1
f4W T 883
~ V1280 - 6 - 1
Como ya se vio en el subapartado 1.4.3, ei valor del error determina la amplitud de los in
tervalos de confianza en la prediccin de Y, a un nivel de probabilidad determinado.
Por timo, el modelo de regresin estimado en ia muestra es inferibie a! universo, al ser
significativo estadsticamente. La F emprica (200,879) supera bastante su correspondiente
valor terico (2,10), para un nivei de significatividad de ,05 y 6 y 1.273 grados de libertad. E
rechazo de a hiptesis nula (la media de Y es tan adecuada en ia prediccin de Y como el
modelo de regresin) era predecible por el elevado tamao de la muestra. La F emprica es
e resultado de la razn siguiente:
F
RSS/P
= 4627,827/6 = 771,304 =
ESS/N - p 1
4887/1273
3,840
Suma de
cuadrados
ANLISIS
Regresin
Residual
Total
2.421,903
2.241,519
4.663,422
VALIDACIN
Regresin
Residual
Total
2.337,153
2.207,797
4.544,951
Grados
libertad
Media
cuadrtica
Razn
p.
Slgn.
"F"
629
634
484,381
3,564
7,356
135,924
,000
5
619
624
467,431
3,567
7,284
131,053
,000
102
Tabla C
Coeficientes no
estandarizados
Modelo efe regresin
B
Error
tpico
(Constante)
X5 simpata latinoamericano
X 10 casar con marroqu
X1 leyes inmigracin
X )3vecino m arroqu
X6nmero de inmigrantes
3,595
,589
-5 1 5
,211
-4 1 7
-,3 5 8
,536
,035
,096
,079
,135
,130
. MUESTRA DE VALIDACIN
(Constante)
Xs simpata latinoamericano
X t0 casar con marroqu
X., leyes inmigracin
X 13vecino m arroqu
X,:nnnem de inmigrantes
3,238
,586
-,5 4 0
,302
-4 8 8
-,2 8 4
,583
,036
,096
,083
,139
,136
Coeficientes
estandarizados
t
Sig.
T
,080
.106
-0 8 4
6,705
16,598
-5 ,3 8 7
2,651
-3 ,0 9 8
-2 ,7 5 2
,000
,000
,000
,008
,002
,006
,487
-,2 0 2
,114
-,1 2 2
-,0 6 6
5,554
16,193
-5 ,6 2 8
3,651
-3,49 9
-2 ,0 9 7
,000
,000
,000
,000
,001
,036
Beta
. MUESTRA DE ANLISIS
,494
-,192
103
"
104
O
P
-a
251
126
501
376
751
626
1.001
1.251
1.501
1.751
2.001 2.251
876
1.126
1.376
1.626
1.876
2.126
2,376
Numero de caso
10
Jb
Cfl
o
=5
rs
<n
<U
OS
10 -
-10
-0
10
Residuos emaados
A estos grficos hay que aadir los grficos de regresin parcial, que permiten la iden
tificacin de atpicos, pero para cada relacin de la variable dependiente con cada in-
105
Residuos estudentizados
p +x
Ki
i -h
Esta distancia se calcula para cada una de las N observaciones que componen
la muestra. Mediante ella se comprueba la cantidad en que varan las estimacio
nes de los coeficientes de regresin, si la observacin i se elimina del anlisis.
Concretamente, proporciona una medida de la distancia entre el valor del coefi
ciente de pendiente cuando se utilizan todas las observaciones en el clculo de la
106
~j E
j e m p l o d e id e n tif ic a c i n d e a t p i c o s
107
Residuo
tip.
Simpata
marroqu
Valor
pronosticado
Residuo
bruto
246
353
369
698
727
1.017
1.149
1.195
1.497
1.501
1.556
1.834
1.920
2.143
2.280
- 4,284
- 3,224
- 3,263
4,217
-3 ,4 3 8
3,137
3,339
3,356
-4 ,0 1 5
-3 ,4 1 9
-3 ,6 6 5
- 3,081
3,322
3,408
- 3,041
,00
,00
,00
10,00
,00
9,00
10,00
10,00
,00
,00
,00
2,00
9,00
10,00
,00
8,3941
6,3181
6,3946
1,7374
6,7365
2,8528
3,4570
3,4233
7,8677
6,7001
7,1820
8,0378
2,4903
3,3228
5,9586
- 8,3941
-6,3181
- 6,3946
8,2626
- 6,7365
6,1472
6,5430
6,5767
- 7,8677
- 6,7001
-7,1820
- 6,0378
6,5097
6,6772
- 5,9586
Como puede apreciarse en la tabla, los casos atpleos coinciden con aqullos cuyo valor
pronosticado se distancia bastante de su valor observado en la variable dependiente. Lo que
explica qu sus residuos (brutos o estandarizados) sean muy elevados. En total son 15 los
casos claramente no explicados por el modelo de regresin. En los grficos coinciden con pun
tos alejados del conjunto de datos. (Si el punto de corte se hubiese fijado en 2,48 seran los
casos identificados como posibles atpleos .) A la identificacin de los atpleos le sigue la
adopcin de alguna medida, en busca de alcanzar alguna mejora en el modelo. A este res
pecto, tngase presente que la proporcin de atpleos es muy pequea en el conjunto de la
muestra. Adems, la distancia de Caok {con un valor medio de ,001) indica que, al ser un va
lor muy pequeo, la exclusin de dichos atpleos del clculo de los estadsticos de regresin
no afectara a un cambio sustancial de sus coeficientes de regresin.
108
b) Efectuar dos ecuaciones de regresin: una con atpicos incluidos y otra sin
ellos. Siguiendo este proceder no habra prdida de informacin. Pero presenta
do el tamao de la muestra.
d) Aumentar el tamao de la muestra para comprobar si los atpicos son real
109
riables.
Las dos primeras opciones pueden considerarse casos especiales del tercer pro
cedimiento, que es ms utilizado. A favor de la primera opcin est el menor nmero
de clculos que supone su realizacin. Pero, la segunda opcin (la eliminacin pro
gresiva de variables) suele tratar mejor el problema de la multicolinealidad que la pri
mera opcin. Por esta razn algunos autores, como Chatterjee y Price (1977), por ejem
plo, recomiendan su utilizacin con preferencia al procedimiento de inclusin
secuencial de variables hacia delante. Pero, veamos en qu consiste cada uno de es
tos procedimientos secuenciales.
El anlisis comienza con el modelo ms sencillo: aquel que slo incluye la constante
(o intercepto). A continuacin, el programa procede a la seleccin secuencial de va
riables, en funcin del grado de relacin que stas manifiesten con la variable de
pendiente y su significatividad. Tambin afecta el grado de colinealidad de las varia
bles independientes candidatas a ser incluidas en 1a ecuacin de regresin con aquellas
variables que previamente han sido incorporadas.
La seleccin de variables predictoras es secuencia!. En cada paso se incorpora
una nueva variable a la ecuacin de regresin, lo que suele ocasionar una alteracin en
los coeficientes de regresin respecto al paso anterior. Dicha variacin en los coefi
cientes es mayor cuando la variable recin incorporada a la ecuacin presenta un gra
do de colinealidad elevado con una o varias de las variables predictoras que previa
mente fueron introducidas en la ecuacin de regresin. Si la colinealidad es elevada,
puede incluso suponer la prdida de significatividad de variables que, en pasos ante
riores, mostraron poder predictivo en la explicacin de la variable dependiente. Pero,
a diferencia de! tercer procedimiento secuencial, de inclusin y eliminacin de varia
bles, en ste no se contempla la eliminacin de variables previamente incluidas en la
ecuacin de regresin, de un paso a otro.
110
La primera variable que se incluye es aquella que muestra una correlacin simple ms
alta con la variable dependiente, indistintamente de si la correlacin es positiva o ne
gativa. Esta informacin la proporciona la matriz de correlaciones (subapartado 1.3.2).
En el primer paso, se est ante un modelo de regresin simple, compuesto por una so
la variable independiente. Si el modelo muestra ser significativo, de acuerdo con la ra
zn F (subapartado 1.5.3), se comprueba si puede incorporarse otra variable inde
pendiente a la ecuacin. A tal fin, se examinan bs correlaciones parciales de las variables
independientes no incluidas en la ecuacin con la dependiente y su significatividad. En
tre aquellas variables cuya correlacin parcial sea significativa, de acuerdo con la razn
t (subapartado 1,4.3), se escoge la variable que presente la correlacin parcial ms ele
vada con la variable dependiente. Si se desea saber qu ocurrir si dicha variable se in
cluyese en la ecuacin, la mayora de los programas estadsticos, como el SPSS, ofrecen
el coeficiente de regresin estandarizado (a veces llamado beta in o beta dentro).
Tras cada incorporacin de una variable a la ecuacin de regresin, se comprueba
la significatividad del modelo. El anlisis prosigue hasta que el modelo deja de ser sig
nificativo estadsticamente, o hasta que no queden variables independientes que
muestren tener un efecto significativo en la prediccin de la variable dependiente.
En el programa estadstico se fija un valor m nim o de F para que la variable in
dependiente pueda incluirse en la ecuacin y su correspondiente valor p. Este ltimo
expresa la significatividad del estadstico F. Por ejemplo, en el programa SPSS el va
lor mnimos de F para entrar (F-to-enter o F-in) y el criterio de probabilidad aso
ciado a este estadstico por defecto son, respectivamente, F > 3,84 y p < 0,05. stos son
los valores que se aplican, mientras el investigador no especifique lo contrario.
Bendel y Afifi (1977) compararon varios valores F-to-enter mnimos, aplicados ha
bitualmente en este procedimiento de seleccin de variables (forward o hacia de
lante). Un valor que recomiendan es el percentil F que corresponde a un valor
p = 0,15. Utilizar el criterio usual de p - 0,05 es demasiado bajo y con frecuencia excluye
del modelo a variables relevantes en la prediccin de Y. Es mejor opcin aplicar niveles
de significatividad de 0,15 e incluso 0,20. Esto repercute negativamente en un riesgo ma
yor de rechazar la hiptesis nula, cuando es cierta; es decir, afirmar que una relacin es
cierta, cuando en realidad no lo es. La probabilidad de equivocacin se eleva al 20%. Pe
ro, por el contrario, disminuye el riesgo de desacierto al rechazar la hiptesis nula,
cuando en realidad es falsa (es decir, de no encontrar una relacin que realmente es cier
ta). Si el tamao muestral es elevado, el valor de F mnimo para entrar que recomiendan
es el percentil 85 de la distribucin F, con 1 e infinitos grados de libertad. O, lo que es igual,
un valor F mnimo de 2,07 y no el habitual de 3,84, que es ms restrictivo.
Tomar un valor mnimo de F elevado (F > 4,0, por ejemplo) supone dar una menor
oportunidad a La variable para incorporarse a la ecuacin de regresin. Se consegui
ra un modelo de regresin ms restrictivo, aunque con mayor nivel de significatividad.
En la valoracin de los valores de F de entrada mnimos, tngase adems presente que
la significatividad del modelo no se ve slo afectada por el nivel de riesgo que el investi
gador asume de equivocarse. Tambin influye los grados de libertad asociados a la suma
de cuadrados de regresin y la suma de cuadrados residual (vase subapartado 1,5.3).
111
Por ltimo, aadir que tras la incorporacin de una nueva variable, se produce un
aumento en el valor de Ti1. El incremento vara en relacin con la correlacin existente
entre dicha variable con la dependiente, una vez considerada su correlacin con las de
ms predictoras en la ecuacin. Cuanto mayor sea la correlacin de la nueva variable
predicora con el resto de predictoras y menor su correlacin con la .dependiente, me
nor ser el incremento en R z de un paso a otro. Lo que tambin puede afectar a que
el error tpico de la estimacin no disminuya, como es de esperar, sino que aumente. To
do lo cual afecta en la disminucin del valor F emprico de un paso a otro. De ah la
reiterada recomendacin de no incorporar variables independientes que sean irrele
vantes en la prediccin de Y, ya que provocan un aumento en el error de prediccin sin
haber logrado incrementar la proporcin de varianza explicada de la variable de
pendiente.
B) Eliminacin progresiva de variables hacia atrs
112
que incorpora los criterios de eliminacin hacia atrs. Aade al primer procedimiento
la posibilidad de eliminar, en un paso posterior, una variable predctora introducida en
un paso anterior. La incorporacin y eliminacin de variables se ve sobre todo afectada
por el grado de colinealidad existente entre ias variables independientes. Por esta ra
zn se incluye, como criterio adicional para la incorporacin de variables a la ecuacin,
su nivel de tolerancia (por ejemplo, TOL> 0,01).
Como en ei procedimiento de inclusin de variables hacia delante, el proce
dimiento paso a paso comienza con slo el intercepto (o constante ). En cada paso
se van incoiporando variables independientes a ia ecuacin de regresin (una a una).
La variable escogida ser aquella que cumpla ios mismos criterios que en la seleccin
hacia delante. Pero, a diferencia de la seleccin hacia delante, en el procedi
miento paso a paso de inclusin y eliminacin de variables no se considera defi
nitiva la incorporacin de una nueva variable al modelo. Su aportacin a la predic
cin de Y es constantemente re vala da, tras la incorporacin de una nueva variable
predctora al modelo de regresin. Para la exclusin de una variable predictora se si
guen los mismos criterios que en la eliminacin hacia atrs. No obstante, hay que
advertir que si quiere evitarse que una misma variable sea continuamente introdu
cida y eliminada del modelo de regresin, hay que fijar un valor F para entrar m
nimo superior al correspondiente valor mximo de F para salir. O, lo que es
igual, P-in ha de ser inferior a P-out. Recurdense los valores mnimos reco
mendados por Afifi y Clark (1990), por ser muy tiles en a prctica, de 2,07 en F
para entrar y 1,07 en F para salir; o los aplicados convencionamente de 3,84 y
2,71, respectivamente.
Si quiere examinarse la secuencia completa hasta que se introducen todas las va
riables, ser conveniente establecer un valor F para entrar mnimo pequeo
(por ejemplo, 0,1, que corresponde a un valor P-in de 0,99). Lo que lleva inevi
tablemente a fijar un valor F para saiir mximo inferior a 0,1. Despus de exa
minar esta secuencia, puede hacerse una segunda corrida utilizando otros valores
F. Para ms informacin, vase Nourisis, 1986; Afifi y Clark, 1990; o Graybiil e lyer,
1994.
Como en todo procedimiento secuencial, el modelo de regresin se vuelve a es
timar tras la incorporacin y/o eliminacin de una variable predictora. Esta reconsi
deracin de la contribucin de las variables independientes a la prediccin de Y lleva
a la recomendacin de este procedimiento para propsitos eminentemente explora
torios (Graybiil e yer, 1994). Cuando ei investigador desea la inclusin de variables
independientes concretas, con el propsito de comprobar una teora, o a efectos pu
ramente comparativos con otros estudios, puede forzar a incorporacin de las varia
bles de inters al modelo de regresin. En la mayora de los programas estadsticos se
ofrece la posibilidad de forzar la inclusin de variables, al comienzo o despus del
proceso de seleccin secuencia!. Adems, cualquiera de los tres procedimientos de se
leccin de variables secuencial permite experimentar con diferentes combinaciones de
variables independientes en la bsqueda de aquella combinacin de variables que me
jor logre predecir el valor de la variable dependiente.
113
,E j e m p l o d e p r o c e d im ie n t o s e c u e n c ia l d e s e l e c c i n
DE VARIABLES. PREDICTORAS :
Modelo
R cuadrado
R cuadrado
corregida
Error tip. de
a estimacin
1
2
3
4
5
6
,593a
,676b
,688c
,692d
,696
,697'
,351
,457
,473
,479
,484
,486
,351
,457
,472
,477
,482
,484
2,1979
2,0106
1,9821
1,9721
1,9632
1,9595
Cambio en
R cuadrado
,351
,106
,016
,006
. ,005
,002
a Variables predictoras: (constante), simpata latinoamericano',6 Variables predictoras: (constante), simpata iatinoamertcano, casar con marroqu;0 Variables predictoras: (constante), simpata latinoamericano, casar con marroqu,
leyes inmigracin; Variabies predictoras: (constante), simpata latinoamericano, casar con marroqu, leyes inmigracin,
n. de inmigrantes;e Variables predictoras: (constante), simpata latinoamericano, casar con marroqu, leyes inmigracin,
n. de inmigrantes, vecino marroqu;' Variables predictoras: (constante), simpata latinoamericano, casar con marroqu,
leyes inmigracin, n. de inmigrantes, vecino marroqu, sexo.
El anlisis comienza con una nica variable predictora (simpata hacia latinoamericanos;)
que es, de las 14 consideradas, la ms correlacionada con la variable dependiente ("simpata
hacia norteafricanos), como se vio en la matriz de correlaciones (subapartado 1,3.2). La se
gunda en entrar es casar con marroqu, que cumple la doble condicin de ser la segunda
variable independiente ms correlacionada con Y, estando, a su vez, poco correlacionada con
ia variable antes introducida (r = ,274). En total son seis las variables independientes incluidas
en el modelo de regresin. Ninguna de ellas es expulsada tras la incorporacin de una nue
va variable porque, como ya se seal en la matriz de correlaciones y cuando se describi
la colinealidad entre las variables independientes, son pequeas las correlaciones existen
tes entre las variables independientes.
La primera variable en formar el modelo de regresin se distingue adems por ser la va
riable que explica el mayor porcentaje de varianza de Y (35,1%, de acuerdo con el coeficiente
114
f cuadrado corregido). Como es usual, tras cada incorporacin de una nueva variable, au
menta la proporcin de variabilidad explicada y desciende el error tpico de a estimacin, aun
que en menor proporcin de lo deseable. Ello se debe al poco poder predictivo de las cuatro
ltimas variables que se incorporan al modelo. Si la segunda variable (casar con marroqu)
provoca un aumento en R de! 10,6%, la tercera ('leyes inmigracin) slo dei 1,6%. Las otras
tres, inclusive menos: el 0,6%, 0,5% y 0,2%, respectivamente. Estas ltimas cuatro variables
predictoras (leyes inmigracin, n. inmigrantes, Vecino marroqu' y sexo) apenas reducen
el error de prediccin de la variable dependiente (simpata hacia norteafricano), aunque son
incorporadas al modelo de regresin porque su contribucin a la prediccin de Y, aunque m
nima, es significativa (p < 0,05).
En la tabla B se resume e! anlisis de varianza (ANOVA) para comprobar la significatlvidad del modelo de regresin en su globalidad. Al haber un total de 1.280 casos vlidos,
la razn Fes significativa en los seis modelos obtenidos en cada paso, aunque su valor des
ciende de 691,815 en e! primer modelo a 200,879 en el modelo 6 (integrado por las seis va
riables predictoras). El descenso es ms acusado a partir del tercer paso y responde, fun
damentalmente, al escaso poder predictivo de las nuevas variables que se incorporan al
modelo de regresin. Tras una nueva incorporacin disminuye ligeramente la propor
cin de casos por variables predictoras en el modelo, pero apenas aumenta la proporcin
de varianza explicada en la variable dependiente. Esta mnima mejora en el ajuste de! mo
delo es la causa principal del descenso en la razn F. Pese a ello, el modelo de regresin
mltiple final, con seis variables predictoras, sigue siendo estadsticamente significativo, al
ser el valor de F emprico bastante superior ai valor F terico (2,10) correspondiente, pa
ra 6 (nmero de variables independientes) y 1.273 (tamao muestral menos nmero de coe
ficientes calculados incluida la constante) grados de libertad y un nivel de significacin de
0,05. La significatividad estadstica del modelo era predecible por el elevado tamao de la
muestra analizada.
En la tabla B obsrvese, adems, ios cambios habidos, en cada paso, en as sumas de
cuadrados de regresin y residual, como medidas de ajuste del modelo de regresin (o de
adecuacin entre la nube de puntos y el hiperplano de regresin).
La tabla C describe la composicin de! modelo de regresin obtenido en cada paso. El
primer modelo es de regresin simple, al estar integrado por una sola variable independiente
(Xs). sta es la variable ms correlacionada con la variable dependiente, (r = ,593). Si se ele
va su correlacin parcial al cuadrado (.5932 =,351), se obtiene que dicha variable explica el
35,1 % de la varianza de Y. Esta informacin coincide con la dada en la tabla A (,351 es el va
lor R 2 corregido en ei primer modelo).
Adems, obsrvese que su coeficiente beta (j35=.593) coincide con su coeficiente de co
rrelacin con Y (como consta en la matriz de correlaciones). Esta coincidencia entre los
coeficientes beta y de correlacin slo se produce en regresin simple, cuando la ecuacin
de regresin incluye una nica variable independiente. Si son dos o ms las variables pre
dictoras, ambos coeficientes difieren. Ello se debe a que, mientras el coeficiente de correlacin
mide la correlacin de ia variable independiente con la dependiente, sin considerar as dems
variables predictoras, tos coeficientes de regresin (estandarizados o no) se ven afectados
por la correlacin de la variable independiente con las dems incluidas en el modelo de re
gresin, Cuanto mayor sea su correlacin, ms diferirn ambos coeficientes.
La colinealidad (o correlacin entre las variables independientes) es, asimismo, la ra
zn principal de las variaciones en los coeficientes de pendiente (estandarizados o no) de
un modelo a otro. E! cambio en la magnitud del coeficiente es mayor cuanto ms crrela-
115
cionada est la variable con la recin incorporada al modelo. Como las variables aqu ana
lizadas no presentan un grado elevado de colinealidad (como se comprob en el suba
partado 1.1.8), los coeficientes de pendiente apenas varan con la incorporacin de una nue
va variable predictora al modelo de regresin. Las mayores variaciones se producen en la
constante (o intercepto), especialmente, cuando se pasa de! modelo 1 (con una sola variable
independiente) al modelo 2 (que incluye dos variables predictoras): de ,807 cambia a 3,147.
Este cambio es lgico ya que se pasa de una recta a un plano (de dos dimensiones) de re
gresin. Recurdese que la constante es el punto de la recta (o piano) que intercepta el
eje Y. La variacin en la constante es menor entre el modelo 5 (3,616) y e modelo 6
(3,786).
Tabla B
Anovas
Modelo
Suma de
cuadrados
9l
Media
cuadrtica
Sig.
Regresin
Residual
Total
3341,993
6173,717
9515,710
1
1278
1279
3341,993
4,831
691,815
,000a
Regresin
Residual
Tota!
4353,291
5162,419
9515,710
2
1277
1279
2176,646
4,043
538,425
,000b
Regresin
Residual
Total
4502,713
5012,997
9515,710
3
1276
1279
1500,904
3,929
382,038
,000o
Regresin
Residual
Total
4556,983
4958,727
9515,710
4
1275
1279
1139,246
3,889
292,926
,000d
Regresin
Residual
Total
4605,457
4910,253
9515,710
5
1274
1279
921,091
3,854
238,984
,000a
Regresin
Residua!
Total
4627,827
4887,883
9515,710
6
1273
1279
771,304
3,840
200,879
,000'
116
Tabla C
Modelo
Coeficientes no
estandarizados
B
Constante
xs
Constante
x5
X ,o
Constante
X5
X ,0
X,
Constante
X5
X 10
Xt
X6
Constante
x5
X,0
X,
*6
X 13
Constante
x5
x 10
x,
X 13
x3
Coef.
Estndar
Error tip.
Beta
,807
,719
,201
,027
,593
3,147
,606
-.916
,236
,026
,058
2,256
,584
-,843
,344
Sig.
Intervalo confianza
95%
Correlacin Tolerancia
parcial
Lmite
Lmite
inferior superior
FIV
,413
,665
1,201
,773
,593
1,000
1,000
,500
-,339
2,684
13,340 ,000
23,322 ,000
,555
-15,816 ,000 -1,030
3,610
,658
-,802
,547
-,405
,925
,925
1,081
1,081
,274
,026
,058
,056
,482
-,312
,131
8,237
22,579
14,448
6,167
,000
,000
,000
,000
1,718
,534
-,957
,234
2,793
,635
-,728
,453
,534
-.375
,170
,907
,886
,921
1,102
1,128
1,085
3,267
,570
-,815
,284
-.357
,384
,026
,059
,058
,096
,470
-,301
,108
-0 8 2
8,506
21,912
13,925
4,907
-3,736
,000
,000
,000
,000
,000
2,513
,519
-,929
,170
-,544
4,020
,621
-,700
,397
-,169
,523
-.363
,136
-,104
,888
,872
,850
,844
1,126
1,147
1,177
1,185
3,616
,559
,690
,267
-,347
-,358
,395
,026
,068
,058
,096
,101
,461
-,255
,101
-.080
,088
9,159
21,416
-10,156
4,633
-3,662
-3,546
,000
,000
,000
,000
,000
,000
2,842
, 508
-.824
,154
-,534
-,557
4,391
,610
-,557
,381
-,161
-.160
,514
-.274
,129
-,102
-,099
,875
,640
,844
,844
,653
1,143
1,562
1,185
1,185
1,531
3,786
,558
-6 9 8
,261
-,356
-,348
-,265
,400
,026
,068
,058
,095
,101
,110
,460
-,258
,099
-0 8 2
-0 8 6
-,049
9,458
21,429
-10,281
4,527
-3,751
-3,443
-2,414
,000
,000
,000
,000
,000
,001
,016
3,001
,507
-,832
,148
-,543
-,546
-,481
4,571
,610
-,565
,374
-,170
-.150
-,050
,515
-.277
,126
-1 0 5
-.096
-,067
,875
,639
,842
,842
,652
,994
1,143
1,566
1,187
1,187
1,534
1,006
4,019 ,000
26,302 ,000
Y: simpata haca nortearicano {marroqu...)" (P201); X,: "eyes inmigracin" (P16); X3: sexo" (P41); X5: simpata iacia latinoamericanos" (P210); X6: nmero de inmigrantes (P11); X13: "casar con marroqu' (P306); X13: vecino ma
rroqu1(P506).
117
r = ,573, sta es a mayor correlacin habida entre las variables predictoras (vase matriz de
correlaciones), aunque se sita an tejos del valor ,80, que incita a ia adopcin de alguna me
dida que evite su incidencia negativa en el anlisis de regresin. Los valores de tolerancia y
FIV confirman (o dicho sobre colinealidad. Los valores de tolerancia ms bajos y de FIV ms
altos se dan- en estas dos variables, aunque distan bastante de los valores que alertan de una
colinealidad severa: ,20 en tolerancia y 5,0 en FIV.
Los errores tpicos de los coeficientes son relativamente bajos, saivo los correspon
dientes a la constante, lo que concuerda con la variacin de los coeficientes. Los errores
tpicos ms elevados en a estimacin de los coeficientes se dan en ias variables Xg, X 13
y X6, siendo en estas variables donde la amplitud de los intervalos de confianza es mayor.
Pese a ello, la contribucin de todas las variables predictoras en el modelo es significati
va estadsticamente y, en consecuencia, nferible al universo o poblacin de la que se ha
extrado fa muestra. Los coeficientes no se han obtenido por mera casualidad, al ser sus
valores t empricos superiores ai correspondiente valor terico (1,96), con una probabilidad
de error del 5%. Adems, la incorporacin de una nueva variable no ha supuesto, en nin
gn modelo, la expulsin de ninguna variable ya integrada en a ecuacin de regresin.
Comprubese lo dicho en la tabla C.
Las razones que llevan a incluir o a excluir a una variable del modelo de regresin se
encuentran en la tabla D. En ella figuran ias variables independientes que quedaron ex
cluidas del modelo de regresin en cada paso, junto a sus coeficientes beta dentro y su sig
nificatividad, los coeficientes de correlacin pardal y las medidas de colinealidad (tolerancia
y FIV).
Del primer modelo de regresin quedaron excluidas todas las variables excepto Xs. Una
vez comprobado que el modelo de regresin simple con ia variable X5 es significativo es
tadsticamente, se pasa a analizar si de las 13 variables excluidas del modelo, alguna pue
de ser incorporada. Salvo la variable Xia, cuyo valor t emprico (,308) es inferior al co
rrespondiente terico (1,96), cualquiera de las doce variables restantes es una posible
candidata a ser incluida en el modelo de regresin. Pero, en cada paso, slo puede ser ele
gida una. La variable finalmente seleccionada es X10 por ser la que mayor contribucin
muestra en la prediccin de Y. El coeficiente de regresin estandarizado que esta variable
tendra si se incorporase a la ecuacin de regresin (beta dentro) es el ms elevado (-339).
Comprubese en la tabla C que este valor coincide con el coeficiente beta que la variable
X10 presenta cuando se aade a la ecuacin de regresin (modelo 2). Asimismo, su co
rrelacin parcial (-,405) es la ms alta. Elevndola al cuadrado (-,405a - ,164), se obtie
ne que el 16,4% del 64,9% de varianza de Y no explicada por el primer modelo (tabla A)
quedara explicada con la inclusin de la variable X 10. La proporcin de varianza que que
dara explicada es exactamente: ,649 x ,164 = ,1064. X10 explica el 10,64% de la varian
za Y. Sumando esta proporcin a la explicada por Xs (,351 + ,106 = ,457), se obtiene que
ambas variables explican conjuntamente el 45,7% de fa varianza de Y. ste es precisa
mente el valor de R3 corregido que corresponde ai modelo 2 (,457), que incluye como va
riables predictoras a X 5 y X1Q.
En e! siguiente paso se elige a la variable X., por ias mismas razones anteriores. Ob
srvese que en este segundo paso a contribucin de la variable X4 en ta prediccin de Y de
ja de ser significativa.
E! anlisis de regresin concluye en el paso 6, a no haber ninguna variable cuya con
tribucin a la prediccin de Y sea significativa. Los valores t empricos de las ocho variables
excluidas del modelo de regresin son todos inferiores a 1,96.
118
Tabla D
Befa
Modelo
dentro
.X,
X2
X3
,193a
-,087a
-,044a
-,0 5 3 a
-,169a
,155a
-,1 5 8 a
-,0 9 0 a
-,339a
,069a
x4
Xa
X7
XB
Xg
*io
X11
x ia
X,s
,007a
-,256a
-,1 5 7 a
X2
X3
X4
X6
x7
,131b
-,0 4 2 a
-,0 5 4 t!
-,0 0 7 b
- . 1 12b
,086b
Xa
X9
x 1,
*ia
x
X
-,082b
..,028b
,042b
,007b
-,104b
-,085b
X2
*3
-,024e
,049e
,004e
-,082e
,060o
-,046e
-,0 1 9 e
,023e
xi
x4
X6
x7
Xa
x9
x ,i
x
X,3
X,4
x2
*8
X4
X,
,012
-,091e
-,058e
-,018"
,0 S2 d
,010d
Xs
,048d
-,036'J
x9
- .0 1 21*
*ia
x 3
*14
,008d
-,0 2 6 d
,088d
-,0 4 4 d
f
8,636
-3,867
-1,977
-2,334
-7,475
6,797
-6,922
-3,932
-15,816
3,063
,308
-11,505
-6,934
6,167
-2,026
-2,609
-,326
-5,271
3,992
-3,777
-1,287
1,999
,340
-4,125
-3,944
-1,133
-2,399
,201
-3,736
2,751
-2,043
-.896
1,103
-,561
-3,632
-2,672
-8 7 1
-2,557
,492
2,187
-1,604
-,553
,402
-1,263
-3,546
-1,963
Sig
,000
,000
,048
,020
,000
,000
,000
,000
,000
,002
,758
,000
,000
,000
,043
,009
,745
,000
,000
,000
,198
,046
,734
,000
,000
,258
,017
,841
Correlacin
Tolerancia
parcial
,235
-,108
-.055
-,065
-,205
,187
-,190
-.109
-,405
,085
,009
-.306
-,190
,170
-,057
-,073
,009
-1 4 6
,111
-,105
-,036
,056
,010
-,115
-,110
,006
,041
,371
,270
,575
-,032
-,067
,006
-1 0 4
,077
-.057
-,025
,031
-,016
,000
1 0 1
,008
-,075
,384
-.024
-,071
,014
,061
,045
-,015
,000
,011
,623
,029
,109
,581
,687
,207
,000
,050
,011
-,035
-,099
-,055
,962
,998
1,000
,990
,947
,948
,940
,952
,925
,985
,993
,929
,960
,921
,978
,999
,970
,916
,904
,886
,918
,978
,993
,659
,910
FIV
1,040
1,002
1,000
1,011
Tolerancia
mnima
,962
,998
1,000
1,056
1,055
1,064
1,050
1,081
1,015
1,007
1,077
1,041
,990
,947
,948
,940
,952
,925
,985
,993
,929
,960
1,085
,886
1,022
1,001
,907
,924
,907
,895
,882
,872
,891
,917
,919
,656
,876
1,031
1,092
1,107
1,129
1,090
1,022
1,007
1,517
1,099
,958
,998
,963
,844
,860
,805
,914
,956
,972
,654
,864
1,046
1,039
1,185
1,162
1,243
1,095
1,046
1,029
1,530
1,157
,646
,856
,951
,996
,957
,838
,792
,906
,921
,940
,653
,829
1,052
1,004
1,045
1,193
1,262
1,104
1,086
1,064
1,531
1,207
,836
. ,843
,839
,822
,791
,837
,813
,816
,640
,809
1,002
,876
,885
,873
,844
,860
,805
,860
,884
,886
Modelo
X2
X
X,
X-,
Xs
X9
Xn
X 12
*14
X2
x4
X7
xa
x9
X,1
x 12
Beta
dentro
Sig
Correlacin
Tolerancia
parcial
-,0 1 6e
-,049
,012e
,042
-.030
-,0 0 2 e
,008a
-.0 2 7 *
,042e
-.7 8 8
-2,41 4
,567
1,912
- 1 ,33P
-.0 9 7
,386
-1 ,2 8 6
-1,88 7
,431
,016
,571
,056
,182
,923
,700
,199
,059
-.0 2 2
-,0 6 7
,016
,054
-,0 3 7
-,0 0 3
,011
-,0 3 6
-,0 5 3
~,018f
,009*
,040'
-,0 2 8 '
-,0 0 1 f
,012' .
-.0 2 1 '
-,0 3 8 f
-,8 6 8
,430
1,820
-1,23 3
-,0 4 7
,586
-1,02 6
-1,741
,386
,668
,069
,218
,963
,558
,305
,082
-,0 2 4
,012
,051
-,0 3 5
-.001
,016
-,0 2 9
-,0 4 9
119
FiV
Tolerancia
mnima
,950
,994
,957
,832
,788
,890
,921
,940
,828
1,052
1,006
1,045
1,201
1,270
1,123
1,086
1,064
1,208
,637
,639
,636
,635
,633
,637
,640
,639
,630
,949
,953
,831
,786
,890
,915
,928
,825
1,053
1,049
1,203
1,272
1,124
1,093
1,077
1,212
,,6 3 6
,634
,633
,631
,635
,638
,637
,628
a Variables predictoras: (constante), simpata latinoamericano; b Variables predictoras: {constante), simpata a!i~
noamericano, casar con marroqu; c Variables predictoras: (constante), simpata latinoamericano, casar con ma
rroqu, leyes inmigracin;d Variables predictoras; (constante), simpata Satinoamericano, casar con marroqu, le
yes inmigracin, n. de inmigrantes; e Variables predictoras: (constante), simpata latinoamericano, casar con
marroqu, leyes inmigracin, n. de inmigrantes, vecino marroqu;' Variables predicofas: (constante), simpata la
tinoamericano, casar con marroqu, leyes inmigracin, n. de inmigrantes, vecino marroqu, sexo.
Y: simpata haca norteafricano {marroqu...)'' (P201); X(: leyes inmigracin'1(P16); Xa: ideologa poltica" (P39);
X : sexo" (P41); X4; edad1(P42); X5; simpata hacia latinoamericanos (P210); Xe: 'Inmero de inmigrantes' (P11);
Xr: regularizara inmigrantes" (P19); Xa: "entrada inmigrantes" {P21); X9: partido racista" (P37); Xt0: casar con ma
rroqu" (P306); X : estudios' (P43a); X12: ingresos" (P52); X13: vecino marroqu (PSQ6); X14: inmigrante delin
cuente" (P2904).
120
121
o equivalentemente: (Y + 1) = ea *
+ - + &pxp. Esto es igual a: Y =
<*+&*! +... i-PpXp-i; siendo e la base del logaritmo natural, que es igual a 2,72.
Otras transformaciones son la polinmica y a exponencial. Ambas permiten la apli
cacin del principio de mnimos cuadrados ordinarios, cuando se incumple el su
puesto de linealidad. En la polinmica, la variable dependiente se considera una
funcin de una variable independiente y una o ms potencias de dicha variable:
y =a +
+ 52X \
122
M unicipio
-,291
-,058
1,000
-,442
-,032 .
,471
,080
-,442
1,000
,228
,239
-,003
-,032
,228
1,000
,000
,002
,000
,000
,000
,000
,432
,053
,000
Ingresos
Sexo
E dad
,107
1,000
,058
,080
-,003
Correlacin de Pearson
Ingresos
Sexo
Edad
Estudios
Municipio
1,000
,107
-,291
,471
,239
Sig. (unilateral)
Ingresos
Sexo
Edad
Estudios
Municipio
,000
,000
,000
,000
,002
,000
,432'
,000
,053
,000
Ingresos
Sexo
Edad
Estudios
Municipio
1.793
1.792
1.792
1.614
1.793
1,792
2.492
2.491
2.280
2.492
1.792
2.491
2.492
2.280
2.492
1.614
2.280
2.280
2.281
2.281
,000
1.793
2.492
2.492
2.281
2.493
*
b
c
d
c
M odelo
R cuadrado
R cuadrado
corregida
E rror tip. de la
estim acin
1
2
3
4
,471a
,490b
,501c
,506d
,222
,240
,251
,256
,222
,240
,250
,254
92.838,3113
D urbinW atson
91.767,4828
91.155,7664
90.881,5199
1,856
123
ANOVA
M odelo
Sum a de
cuadrados
G rados de
libertad
M edia
cuadrtica
Regresin
Residual
3.969E+2
1,389E+13
1
1612
Regresin
Residual
4,296E+12
1.357E+13
Regresin
Residual
Regresin
Residual
Significacin
3,969E+12
8.619E+9
460,455
,000
2
1611
2.148E+12
8,421E+09
255,052
,000
4,484E+12
l,338E--13
3
1610
1,495E+12
8.39E+09
179,889
,000
4,573E+12
1,329E+13
4
1609
1,143E+12
8.259E+09
138,415
,000
Coeficientestt
M odelo
Coeficientes no
estandarizados
Coefic.
estndar.
E rror tip.
Beta
(Constante)
Estudios
55123,S24
41368,712
4539,826
1927,874
,471
12,142
21,458
(Constante)
Estudios
Municipio
52539,797
38590,370
2,344 E-02
4506,572
1957,089
,004
,440
,139
(Constante)
Estudios
Municipio
Edad.
91911,243
33973,633
2,483 E-02
-666,821
9399,107
2172,209
,004
138,975
(Constante)
Estadios
Municipio
Edad
Sexo
85163,544
33515,980
2,508 E-02
-656,238
14889,155
9594,543
2170,175
,004
139,591
4545,079
Sig.
E stadsticos de
colinealidad
Tolerancia
FIV
,000
,000
1,000
1,000
11,658
19,718
6,232
,000
,000
,000
,948
,948
1,055
1,055
,387
,147
-,115
9,779
15,640
6,627
-4,764
,000
,000
,000
,000
,759
,942
,800
1,317
1,061
1,250
,382
,149
-,113
,071
8,876
15,444
6,712
4,701
3,276
,000
,000
,000
,000
,001
,756
,942
,800
,993
1,322
1,062.
1,250
1,008
124
Variables excluidas11
E stadsticos de colinealidad
M odelo
Beta
dentro
Sig,
Correlacin
parcial
Tolerancia
FTV
Tolerancia
mnima
Sexo
Edad
Municipio
,070a
-,1 0 2 a
,139a
3,185
- 4,204
6,232
,001
,000
,000
,079
- ,104
,153
,994
,805
,948
1,006
1,242
1,055
,994
,805
,948
Sexo
Edad
,073b
- ,115b
3,364
- 4,764
,001
,000
,084
-,1 1 8
,993
,800
1,007
1,250
,942
,759
Sexo
,071c
3,276
,001
,081
,993
1,008
,756
Frecuencia
Histograma
Variable dependiente: ingresos
Edad
125
Factores de contexto
Persona mayor:
Edad
Gnero
Corresdencia
Cuidador:
Edad
Gnero
Trabaja
Ciase social subjetiva
Salud subjetiva
Tiempo como cuidador
Dedicacin horas semanales
Relacin familiar: Esposo/a
R cuadrado ajustado
Cambio en R cuadrado
T estF
Depresin ; actitud
II
III
-,13*
-,12*
IV
-,13**
,23***
,19**
,12*
,18**
,13*
,17**
,11*
-,24***
-.11*
-.25***
-,34***
-,12**
-,20***
-,29***
-1 1 * *
-,22***
-,12**
,23
,27***
6,50***
,23
,27***
5,60***
,32
,10***
6,30***
,41
,08***
7,60***
-,33***
126
10
-,150
,595
,207
,561
,242
,402
,320
-.153
(,402*) (,651*) (.681*) (,445*) (.321) (,565*) (,608*) (-,085)
-,661
-,087
-,493
-,013
,140
,267
-,158
(,377*) {,532*) (,101) (,131) (-,106) (.282) (-,429*)
,340
-,057
,396
,596
,244
(,703*) (,576*) (,481*) (,483*) (.526*)
,538
-,065
,058
,376
,586
(,420*) (,561*) (,352*) (,611*) (,058)
-,118
,166
,049
(,458*) (.230) (.459*)
,115
(,416*)
Analfabetismo (5)
Secularizacin prov. (4)
-,059
(,120)
-
5<U (3)
-,167
(,048)
,057
(-,324)
,047
(,279)
-.056
(,186)
-,161
(,300)
,335
(.614*)
,175
(,204)
,099
(,354*)
,760
(,751*)
,013
(-.396*)
-,210
(-,110)
,276
(-,424*)
,215
(-,316)
-,679
(-,507*)
,917
,859
-3 9
(-,527*)
-,051
(-,442*)
,825
(-1,03)
-,176
(-,412*)
,402
,663
,802
,671
,727
,635
,684
,558
Jornaleros" y poblacin agraria se expresan en tanto por ciento, Migracin: el valor 1,000 expresa un saldo migratorio
nulo; un valor por debajo de 1,000 indica emigracin, Urbanizacin: porcentaje de poblacin que vive en cascos urbanos
de ms de 5,000 habitantes, Ratn de actividad: poblacin masculina en edades activas / poblacin masculina en eda
des no activas, Mercado matrimonial: razn de mascuiinidad en tomo a la edad media al casarse, Analfabetismo: por
centaje de poblacin > 10 aos que no sabe leer ni escribir, Secularizacin: porcentaje de voto a la izquierda, 3 q,) =
fallecidos entre 0 y 5 aos por mil nacidos, Nupcialidad = Im, Fecundidad matrimonial" =
' Entre parntesis: correlaciones simples. Sin parntesis: coeficientes beta.
El asterisco () indica que la correlacin es significativa para p ,01.
1
,396
(.576)
(,703)
,586
Migracin
p ----------------------------------
Mercado matrimonial
,679
(-,507)
(-.5 2 7 )
Slo se incluyen las relaciones (beta) que directa o indirectamente explican la variable dependiente en ms de 0,300
o (-0,300). Entre parntesis, correlaciones simples; sin parntesis, los coeficientes beta.