Vous êtes sur la page 1sur 114

REGRESIN MLTIPLE

La regresin mltiple es una de las tcnicas analticas multivariables principales. Pri


mero, por su pionera y amplia aplicacin en la investigacin emprica. Segundo, por
proporcionar la base de tcnicas analticas posteriores, como el anlisis discriminante
o el modelado de ecuaciones estructurales. Esta es la razn de que se haya optado por
su disposicin, en el texto, en primer lugar.
Antes de proseguir con su exposicin, hay que sealar que lo dicho en este cap
tulo concierne exclusivamente al procedimiento de regresin ms popular: la regresin
lineal de mnimos cuadrados ordinarios. Tambin conocido como procedimiento OLS
(de ingls Ordinal Least Squares). En el captulo 2 se desarrolla la regresin logstica,
de aplicacin ms reciente y adecuada a variables muy usuales en la investigacin so
cial: las variables cualitativas (o no mtricas), a! ser su nivel de medicin nominal u or
dinal. En este primer captulo tambin se describen otros procedimientos de regresin
de uso ms restringido (subapartado 1.6.2).
Todos los anlisis de regresin, como tcnicas analticas multivariables de dependencia
que son, se adecan a un mismo propsito: el anlisis de relaciones de dependen
cia (causa-efecto) entre los valores de una nica variable dependiente (aquella cuya va
riabilidad el investigador desea analizar) y los correspondientes a dos o ms variables
independientes (tambin denominadas variables predctoras o explicativas). Difieren,
no obstante, en las caractersticas de las variables que se analizan, que determinan la
ejecucin de los anlisis y los supuestos necesarios para su correcta realizacin. Con
cretamente, l anlisis de regresin mltiple de mnimos cuadrados ordinarios tiene los
siguientes objetivos principales:
1. Predecir los valores que adoptar la variable dependiente a partir de los valores
conocidos de la serie ms pequea posible de variables independientes. Elo con
lleva la bsqueda de la ecuacin que mejor represente la asociacin lineal

14

Anlisis multivariable. Teora y prctica en la investigacin social

existente entre las variables incluidas en el anlisis. A partir de dicha ecuacin,


y gracias a los coeficientes beta, puede tambin graduarse la aportacin de ca
da variable independiente (X) en la prediccin de la variable dependiente (Y).
Si bien, hay que hacer dos rnatizaciones. Primero, el anlisis de regresin es so
bre todo til para la estimacin de la magnitud de los efectos, no para la determi
nacin de qu variables predictoras son relevantes (Wittink, 1988:93). Segundo,
los anlisis de regresin no pueden probar causalidad, slo pueden justificar o con
tradecir supuestos causales (Gunst y Masn, 1980:17). Depende de cmo se ha
ya especificado el modelo, de qu variables predictoras se han incluido, siempre
acorde con consideraciones tericas. Se precisa que las variables predictoras sean
relevantes en la explicacin y prediccin de la variable dependiente.
2. Cuantificar la relacin de dependencia mediante ei coeficiente de correlacin R
de Pearson y su cuadrado (el coeficiente de determinacin). Este ltimo coefi
ciente informa de la proporcin de varianza de la variable dependiente (Y) que
queda explicada por la conjuncin de variables independientes (X) que con
forman la ecuacin de regresin. La relevancia de dichas variables explicativas
en la prediccin de Y se mide, bsicamente, con la ayuda de este coeficiente (el
coeficiente de determinacin).
3. Determinar el grado de confianza con que el investigador puede afirmar que la
relacin observada en los datos mustrales es realmente cierta. Rara vez se ana
lizan datos poblacionales. La prctica comn en la investigacin emprica es ex
traer una muestra de la poblacin de inters, mediante procedimientos que ga
ranticen su representatividad. De ello depende las posibilidades de inferencia
de los datos analizados, a un nivel de probabilidad determinado (Cea, 1996).
En regresin mltiple, la significatividad del modelo en su conjunto se com
prueba mediante el estadstico de comprobacin F de Snedecor. La significa
tividad de cada uno de los coeficientes concretos que conforman la ecuacin de re
gresin se mide, en cambio, con la ayuda de la razn t de Student. Ambas
pruebas de significatividad permiten conocer las probabilidades de inferencia de
los estadsticos mustrales correspondientes a parmetros poblacionales -como se
detalla en los subapartados 1.5,3 y 1.4.3, respectivamente-.
La consecucin de estos tres objetivos fundamentales descansa en dos pilares b
sicos, tradicionalmente referidos (vase Guilln, 1992):
1. El clculo diferencial, analizado primeramente por Fermat, Leibniz y Newton,
en el s. xvii; y, posteriormente, por DTUembert y Bernouili, en el s. xvm. Su
aplicacin permite cuantificar la relacin existente entre variables. En el an
lisis de regresin se hace uso, en especial, del principio de mnimos cuadrados",
enunciado en 1794 por Gauss. ste sirve de fundamento al anlisis de regresin
lineal, en general.
2. La teora de la probabilidad, cuyo principal desarrollo se produce, a partir del
s. x v i i i , con las aportaciones fundamentales de Moivre, Bayes, Laplace y Pearson.

Captulo 1: Regresin mltiple

15

Su uso ayuda a determinar el nivel de confianza con que puede afirmarse que los
estadsticos estimados, en la muestra analizada, predicen adecuadamente las
caractersticas correspondientes de la poblacin objeto de estudio.
La exposicin del anlisis de regresin mltiple comienza, a diferencia del resto de tc
nicas analticas multivariables reseadas en este texto, con la enumeracin y desarrollo de
cada uno de los supuestos bsicos. stos son de imprescindible cumplimiento para ga
rantizar la correcta realizacin del anlisis de regresin lineal. Despus, se procede al de
talle de cada uno de los componentes del anlisis, as como de los diversos procedimien
tos alternativos para su realizacin. Como ya se dijo en la introduccin, para facilitar la
comprensin de la tcnica analtica, la exposicin terica se acompaa de ejemplos prc
ticos. Principalmente, del anlisis propio efectuado de una seleccin de tems de la encuesta
Actitudes ante la inmigracin, de junio de 1996, del Centro de Investigaciones Socio
lgicas (C.I.S.); amn de otros ejemplos tambin con datos reales.
1.1. Supuestos bsicos del anlisis de regresin mltiple
La correcta aplicacin del anlisis de regresin mltiple de mnimos cuadrados or
dinarios (OLS) exige el cumplimiento de una serie de supuestos bsicos. Su grado de
cumplimiento garantiza la esencia del anlisis: poder inferir los estadsticos obtenidos
en la muestra analizada a sus correspondientes parmetros poblacionales. Estos su
puestos se resumen en los siguientes:
1.
2.
3.
4.
5.
6.
7.
8.
9.

Tamao de la muestra elevado.


La variable dependiente ha de ser continua.
Inclusin de variables independientes relevantes.
Linealidad: la relacin entre la variable dependiente y cada variable inde
pendiente ha de ser lineal.
Aditividad: los efectos de las variables independientes en la dependiente han de
poderse sumar entre s.
Normalidad: La distribucin de los datos (tanto para la variable dependiente co
mo las independientes) ha de corresponderse con la distribucin normal.
Homocedasticidad o igualdad de las varianzas de los trminos de error en la se
rie de variables independientes.
Ausencia de colinealidad (o de correlacin) entre las variables independientes.
Independencia de los trminos de error.

1.1.1. Tamao muestral elevado


La finalidad de cualquier anlisis estadstico no se limita a la descripcin de los ca
sos de los que se ha recogido informacin. stos constituyen la muestra de la investi
gacin. Ante todo, se quiere describir, a partir de las caractersticas observadas en la

16

Anlisis multivanable. Teora y prctica en la investigacin social

muestra, al conjunto de la poblacin a la que sta pertenece. La capacidad de inferencia


de los resultados de la investigacin se halla muy determinada por el tamao de la
muestra, adems de] procedimiento seguido en su seleccin: si el procedimiento de se
leccin de las unidades de la muestra ha sido aleatorio o no. La aleatoriedad garanti
za la equiprobabilidad, o igualdad en la probabilidad de ser elegido para participar en
la muestra, de todas las unidades de la poblacin de inters. Tambin se exige que el
procedimiento de seleccin de la muestra haya sido riguroso en todas sus fases.
Respecto al tamao de la muestra, su cuanta incide directamente en la reduccin
del error de estimacin y en la consiguiente signifcatividad de los resultados del an
lisis. Por esta razn, se precisa que el tamao de la muestra sea lo ms elevado posible,
para favorecer la signifcatividad de los estadsticos mustrales.
La adecuacin del tamao de la muestra a las exigencias del anlisis se comprueba
en relacin con el nmero de variables independientes (o predictoras) que se incluyen
para la prediccin de Y. En regresin lineal mltiple se barajan distintos ratios mnimos
de observaciones precisas por cada variable independiente introducida en el anlisis. El
ratio ms bajo, propuesto por autores como Afiti y Clark (1990:179), es al menos de 5
a 10 veces ms casos que variables independientes o predictoras. Otros autores, como "labachnick y Fxdell (1989:128-129), elevan el ratio preciso a 20 veces ms casos que va
riables independientes. De modo que, si el anlisis incluye 6 variables predictoras, el ta
mao muestral mnimo para un correcto anlisis ha de ser de 120 unidades mustrales
o casos. Cuando se opta por un procedimiento de regresin secuencial (o por pasos),
el ratio de nmero de casos por variables aumenta a 40 casos por cada variable. En el su
puesto anterior se precisara, por tanto, un tamao muestral mnimo de 240 unidades.
El no cumplimiento de los ratios mnimos referidos suele corresponder a la ob
tencin de errores de estimacin elevados. Lo que revierte, negativamente, en la pr
dida de significativdad estadstica y la consiguiente posibilidad de inferencia del
modelo de regresin estimado a partir de la muestra analizada.
Adems, si se quiere comprobar la validez del modelo obtenido siguiendo el pro
cedimiento llamado validacin cruzada, es conveniente que el tamao muestral sea in
cluso superior. Este procedimiento de validacin se caracteriza por dividir la muestra to
tal en dos submueslras: la muestra de anlisis y la muestra de validacin. La muestra de
anlisis es la que se utiliza para la consecucin del modelo de regresin. Una vez obte
nido ste, Sos resultados se validan con la muestra de validacin. Lo habitual es destinar
el 60% de la muestra total a la muestra de anlisis, dejando el 40% restante para la va
lidacin del modelo. Tambin, puede optarse por afijar la misma proporcin de casos en
ambas submuestras. Este seccionamiento del tamao muestral exige, obviamente, que
el nmero de unidades mustrales sea cuantioso. La muestra de anlisis ha de cumplir los
ratios mnimos de casos por variables referidos para facilitar la signifcatividad estads
tica y consiguiente inferencia del modelo de regresin resultante.
Por las razones expuestas, se recomienda que, antes de proceder a realizar los an
fisis, se compruebe e tamao muestral rea disponible. Esta comprobacin adquiere
mayor relieve cuando se incluyen variables con una proporcin considerable de
missing vales (o casos sin respuesta). Cuando esto acontece, la generalidad de los

Captulo i: Regresin mltiple

17

paquetes estadsticos al uso eliminan para el anlisis, de forma automtica, todos


los casos sin respuesta (missing vales) en alguna de las variables consideradas, sal
vo que el investigador especifique lo contrario. En consecuencia, si el nmero de va
riables independientes es elevado, y cada una de ellas tiene una cierta cantidad de ca
sos sin respuesta (que necesariamente no corresponde a los mismos casos en todas las
variables), la eliminacin deliberada de dichos casos supone una merma cuantiosa en
el tamao de la muestra. Esta reduccin adquiere mayor gravedad cuando el tamao
de la muestra no es elevado. La muestra final puede no cumplir los ratios mnimos re
queridos para el anlisis. En cambio, en muestras elevadas, la eliminacin de casos sin
respuesta apenas tiene efecto en el anlisis.
El no cumplimiento de los ratios casos por variables predictoras referidos puede,
sin embargo, solventarse con alguna de las medidas siguientes:
a) Eliminar una o varias variables independientes. Este remedio drstico nor
malmente supone la eliminacin de aquellas variables con menor capacidad predictiva. Aquellas que presenten una menor correlacin con la variable de
pendiente y, a su vez, tengan un nmero importante de casos sin respuesta.
b) Combinar variables independientes (con casos sin respuesta) relacionadas en
una nica variable (o inclusive ms). Esta solucin es menos drstica que la an
terior y suele suponer una prdida menor de informacin.

E j e m p l o d e d is e o m u e s t r a l
La encuesta analizada ex profeso para este texto (Actitudes ante la inmigracin') fue
realizada por el C.l.S. del 6 al 10 de junio de 1996 (estudio 2.214). El mbito de la encues
ta fue nacional. Se incluyeron fas provincias insulares, aunque se excluyeron Ceuta y Melilla. El universo fue ia poblacin espaola de ambos sexos de 18 y ms aos.
El tamao de la muestra diseado, para un nivel de confianza de! 95,5%, heterogenei
dad mxima (P = Q = 50) y un error mximo elegido para el conjunto de la muestra de 2%,
es 2.500 unidades mustrales. Pero, finalmente se realizaron.2.493 entrevistas.
El procedimiento seguido para la seleccin de la muestra fue polietpico, estratificado por
conglomerados, con seleccin de las unidades primarias de muestreo (municipios) y de las
unidades secundarias (secciones) de forma aleatoria proporcional de las unidades ltimas (in
dividuos) por rutas aleatorias y cuotas de sexo y edad. Al ser la afijacin proporcional, no pro
cede su ponderacin.
Los puntos de muestreo fueron 161 municipios elegidos aleatoriamente, tocando a 44 de
las 50 provincias. Los estratos se formaron por el cruce de las 17 regiones autonmicas con
ei tamao de hbitat, dividido en 7 categoras: menos o igual a 2.000 habitantes; de 2.001 a
10.000; de 10.001 a 50.000; de 50.001 a 100.000; de 100.001 a 400.000; de 400.001 a
1.000.000; ms de 1.000.000 de habitantes.
Los cuestionarios se aplicaron mediante entrevista personal en los domicilios. Esta in
formacin se detalla en la ficha tcnica del citado estudio.

18

Anlisis multivariable. Teora y prctica en la investigacin social

Al ser ei procedimiento de seleccin muestral aleatoria, se garantiza la igual probabili


dad que tienen los individuos que componen la poblacin de inters de participar en la mues
tra. Por lo que se cumple un requisito bsico para la aplicacin de un anlisis de regresin
lineal mltipSe: la seleccin aleatoria de la muestra. Tambin se cumple otro de los requisitos
bsicos, cual es el tamao muestra! elevado. La muestra final consta de 2.493 unidades
mustrales. Tamao muestra! considerable, superior a os mnimos exigidos, y que permi
te el seccionamiento de la muestra total en dos submuestras para propsitos de validacin.
Como despus se ver, para la validacin cruzada se decide dividir !a muestra total en dos
submuestras de igual tamao: la muestra de anlisis y la muestra de validacin. No hubo ne
cesidad de destinar el 60% de la muestra total a la muestra de anlisis y el 40% a la mues
tra de validacin, como es habitual. Incluso optando por eliminar del anlisis los casos sin
respuesta en alguna de las variables de inters, se est ante un tamao muestral de
1.713 unidades.

1.1.2. Variables continuas: la creacin de variables ficticias


Como tcnica estadstica multivariable de dependencia, el anlisis de regre
sin (de mnimos cuadrados ordinarios o OLS) exige la existencia de una nica va
riable dependiente y dos o ms variables independientes. La variable dependiente ha
de ser mtrica (medida a nivel de intervalo o de razn) y continua. Una variable de
pendiente discreta viola el supuesto de que el error en el modelo de regresin est
normalmente distribuido, con varianza constante. Si bien, Fox (1991: 63) advierte que
este problema slo es serio en casos extremos -p o r ejemplo, cuando hay muy po
cas categoras de respuesta-, o donde una gran proporcin de observaciones est en
un nmero pequeo de categoras condicionales en los valores de las variables in
dependientes.
Las variables independientes pueden, en cambio, ser continuas o dicotmicas. Aunque se prefiere que sean mtricas y continuas. Es decir, que se hallen medidas con pre
cisin numrica.
En consecuencia, cuando la variable dependiente es no mtrica, hay que optar por
otra tcnica multivariable de dependencia, como la regresin logstica, por ejemplo (ca
ptulo 2). El procedimiento de regresin de mnimos cuadrados ordinarios no es
apropiado cuando la variable dependiente es dicotmica (con codificacin binaria:
0 - 1 , u otra) y, en general, cualitativa.
Por el contrario, la existencia de variables independientes no mtricas no invalida
la aplicacin del mtodo de regresin de mnimos cuadrados ordinarios. Aunque, con
la condicin de que se hayan previamente traducido a variables ficticias (tambin co
nocidas como "dummy variables). De otra forma, la utilidad del modelo de re
gresin sera severamente limitada si todas las variables independientes utilizadas co
mo predictores tuviesen que estar medidas en una escala de intervalo. Los problemas
de investigacin que implican diferencias grupales son bastante corrientes. Por ejemJ
po, diferencias tnicas, sexuales, regionales, en la conducta, actitudes, caractersticas

Captulo l: Regresin mltiple

19

socioeconmicas, etc. (Hardy, 1993:1-2).-De lo que se trata es de comprobar si las va


riables independientes analizadas tienen efectos varios en los grupos diferenciados.
Si no se quiere perder la informacin proporcionada por estas variables, habra que
traduciras a una serie de variables ficticias para su utilizacin posterior en un anli
sis de regresin lineal.
En suma, un modelo de regresin lineal puede combinar variables cuantitativas con
cualitativas. Pero, como su correcta aplicacin exige que las variables estn medidas en
una escala continua, toda aquella variable predictora que sea cualitativa (o categrica)
habr de ser transformada en una serie de variables ficticias, que facilite su tratamiento
como continua,
Por variable ficticia se entiende una variable dicotomica que se crea a partir de una
variable cualitativa (nominal u ordinal). sta puede ser dicotmica (tiene slo dos ca
tegoras, como la variable sexo, por ejemplo) o politmica (con ms de dos categoras,
como la variable estado civil). Para captar toda la informacin que contiene las g
categoras de la variable, habr que crear g 1 variables ficticias. Siempre habr una
variable ficticia menos que el nmero de categoras iniciales de la variable categrica
(o cualitativa) original.
Aquella categora que no se transforma en variable ficticia acta en los anlisis co
mo grupo de referencia. En general, se aconseja que la categora elegida de referencia
se halle bien definida y que contenga un nmero suficiente de casos. Quiere esto de
cir, que se desaconseja la consideracin como grupo de referencia de categoras ge
nricas como otros o que se hallen escasamente representadas en la muestra.
La codificacin binaria ms aplicada en ia creacin de variables ficticias consiste
en la atribucin de los cdigos numricos 0 y 1 en cada categora de la variable. El c
digo 1 se asigna a los casos que pertenecen a una categora concreta; el cdigo 0 a
aquellos que no pertenecen. De este modo la variable nominal sexo, medida ori
ginariamente con dos categoras, 1 varn y 2 mujer, se transforma en una nica va
riable ficticia: 1 varn y 0 mujer, o a la inversa, 0 varn y 1 mujer. Depende de qu gru
po se tome de referencia. En el primer supuesto seran las mujeres, mientras que en
el segundo los varones.
Alternativamente se puede aplicar otra codificacin binaria: -1 y +1, donde el c
digo 1 denota al grupo de referencia. Si bien esta ltima codificacin es menos popular
que la anterior. Por el contrario, el empleo de otros cdigos numricos, como 1 y 2, por
ejemplo, no se considera apropiado (Hutcheson y Sofroniou, 1999). La razn est en
que el procedimiento de regresin atribuye un significado especfico a estos nmeros:
el grupo codificado 2 se interpretara como 2 veces el valor del grupo codificado 1,
cuando en realidad se trata de categoras distintas y no ordenadas (nominales). En cam
bio, la aplicacin de los cdigos 0 y 1 nicamente describe la presencia (1) o ausencia
(0) de un atributo concreto de la variable en cuestin. En ningn caso reflej an un or
den cuantitativo de las categoras de las variables.
Cuando la variable incluye ms de dos categoras (politmica), habra que crear
tantas variables ficticias como nmero de categoras de la variable (g) menos 1. Un
procedimiento a seguir se ilustra en el siguiente ejemplo:

20

Anlisis multivariable. Teora y prctica en la investigacin social

E je m p lo d e codifica c i n d e v ar iab le s fic tic ias ---------------------------

La variable categrica estado civil", originariamente medida en 5 categoras: 1 soltero,


2 casado, 3 separado/divorciado, 4 viudo y 5 en pareja. Como variable nominal, necesaria
mente exige su previa transformacin en variable ficticia para su incorporacin al anlisis de
regresin lineal. Como esta variable incluye 5 categoras, son 4 las variables ficticias a
crear. Arbitrariamente, se escoge una de las categoras de la variable para actuar de grupo
de referencia. La nica condicin que se impone es que su presencia en la muestra no sea
escasa. En este ejemplo se elige la categora de soltero" como grupo de referencia. La co
dificacin resultante sera ia siguiente:
ESTADO CIVIL

VARIABLES FICTICIAS

(Originai)

D1

D2

D3

D4

Soltero

Casado

Separado/divorciado

Viudo

En pareja

De este modo, la variable ficticia D1 = 1, si ia persona est casada; D1 = 0, si su estado


civi es otro. D2 = 1, s est separado o divorciado; D2 - 0 si su estado civil es otro. D3 = 1,
si es viudo/a, D3 = 0, si su estado civil es otro. D4 = 1, si vive en pareja; D4 = 0, si su estado civil es otro. Los sujetos que punten 0 en todas ias cuatro variables ficticias, constituyen
el grupo de referencia (los soiieros).
Si se desea comparar cada variable ficticia con e! promedio grupaS, se est ante un proce
dimiento de codificacin llamado desviacin (Hutcheson y Sofroniou, 1999). Este segundo
procedimiento no difiere del anterior, salvo en a codificacin del grupo (o categora) de referen
cia. ste pasa a codificarse -1, en vez de 0 (para cada una de las cuatro variables ficticias crea
das), Lo que posibilita la comparacin de cada grupo codificado 1 (variable ficticia) y el promedio
de todos los grupos. Hecho que incide en que los coeficientes de regresin para las variables fic
ticias permanezcan constantes, indistintamente del grupo que se tome de referencia.
Hay que advertir, no obstante, que cuando se aplica este segundo procedimiento de co
dificacin no puede omitirse ninguna de las g - 1 variables ficticias creadas a partir de la va
riabie categrica original. De otra forma se dificulta la comparacin con el promedio grupa!.
Para cada una de estas cuatro variables ficticias (indistintamente de! procedimiento segui
do en su elaboracin) se calcula un coeficiente de regresin, por separado. Cada una de estas
variables acta en el modelo como variable independiente. Lo que puede provocar un efecto no
deseado: elevar la colinealidad, af poderse predecir e! vaior de cualquiera de dichas variables a
partir del conocimiento de las otras tres variables. La colinealidad se trata en el subapartado 1.1.8.

Captulo I: Regresin mltiple

21

Las variables ordinales (como la variable clase social o satisfaccin) no precisan


de su transformacin en variables ficticias para su incorporacin a un anlisis de
regresin lineal. De acuerdo con Afii y Clark (1990: 226), las variables ordinales re
presentan variables con una escala latente. Esto posibilita su tratamiento como varia
ble continua. Pero ello exige que los cdigos numricos asignados a cada categora de la
variable se correspondan con la cualidad que expresan. As, por ejemplo, en la variable
clase social, medida en cinco categoras: alta, media-alta, media, media-baja y baja; de
bera aplicarse una escala numrica en consonancia con el nivel de estatus correspon
diente. El cdigo numrico ms bajo, el 1, se aplicara a la clase social baja. En cam
bio, el cdigo numrico ms elevado, el 5, a la categora de clase alta. Y no a la
inversa. Lo que facilita la interpretacin de la variable en la ecuacin de regresin.
Pero el investigador tambin puede optar por ignorar el orden latente de las varia
bles ordinales, tratndola a modo de variable nominal. Ello exige su transformacin a tan
tas variables ficticias como nmero de categoras menos uno. En el ejemplo anterior, ten
dra que crearse 4 variables ficticias. Arbitrariamente se tomara una de las categoras de
la variable clase social como grupo de referencia. La categora elegida puede ser la cla
se social alta. Las cuatro variables ficticias seran: clase media-alta (DI), media (D2), me
dia-baja (D3) y baja (D4). Si D I = 1, el individuo es de clase media-alta; DI = 0, no es de
clase media-alta. Y as con las otras variables ficticias.
El proceder de esta segunda manera, transformando las variables ordinales en fic
ticias, tiene, no obstante, un inconveniente importante. La codificacin ficticia no re
tiene informacin sobre el orden expreso en la variable. Las categoras de la variable
cambian a variables no relacionadas. El anlisis consecuentemente pierde algn
poder (Hutcheson y Sofroniou, 1999: 92), al perderse el orden de las categoras de la
variable ordinal. Por esta razn, se aconseja elegir la primera opcin: dar a la variable
ordinal el tratamiento de variable continua.
Por ltimo, sealar una utilidad importante de transformar variables ordinales, e in
cluso de intervalo, en ficticias. Cuando se sospeche la existencia de una relacin curvilnea
entre dicha variable independiente con la dependiente. En este caso la transformacin
a variables ficticias tendra la utilidad de representar segmentos de la distribucin de di
chas variables independientes. Lo que proporciona -de acuerdo con Hardy (1993)- una
alternativa til a la regresin polinomial o al uso de transformaciones.

1.1.3. Variables independientes relevantes


La solucin de regresin depende bastante de qu variables independientes par
ticipen en el anlisis. Tan importante es comprobar que no se ha excluido (de la base
de datos) ninguna variable independiente que se estime relevante (en la prediccin de
la variable dependiente) como la no inclusin de variables irrelevantes .
En regresin, como en la generalidad de los anlisis estadsticos, se busca la ob
tencin de un modelo parsimonioso. Es decir, un modelo explicativo que incluya el me
nor numero posible de variables predictoras (o independientes). Pero, asimismo, s

22

Anlisis multivariable. Teora y prctica en la investigacin social

tas han de mostrar relevancia en la prediccin de la variabilidad de la variable de


pendiente. El aadir variables innecesarias causa una prdida en precisin de los coe
ficientes estimados en las variables relevantes (Schroeder et al, 1986:17). Ello se de
be al aumento del error tpico de la estimacin (subapartados 1.4.2. y 1.5.2.), que
ocasiona ia incorporacin de variables irreevantes, sin que ello se traduzca en
una mejora en proporcin de varianza de la variable dependiente explicada por las in
dependientes, medida mediante el coeficiente de determinacin R 2 (subapartado
1.5.1.). Por esta razn fundamental se desaconseja la inclusin de muchas variables in
dependientes en el anlisis de regresin, a menos que muestren que son relevantes
para la prediccin de la variable dependiente.
La comprobacin de si se han incluido variables predictoras irrelevantes puede
hacerse siguiendo alguna de las opciones ya resumidas por Snchez Camn (1995:412):
a) Comprobar cunto mejora la explicacin de la variable dependiente el hecho de
que se incluya una nueva variable independiente (vase incremento en R2).
b) Mediante la realizacin de un contraste que permita conocer si el efecto de ca
da variable independiente es estadsticamente significativo.

-]~ E jem plo d e s e l e c c i n d e v a r ia b l e s in d e p e n d ie n t e s r e l e v a n t e s

Del total de tems que componen ia encuesta de Actitudes ante la inmigracin de 1996
det C.I.S., se han escogido las siguientes variables (enunciadas con e nmero de la pregunta
con el que figura en ei cuestionario):
A. Variable dependiente;
* P2G1: Dgame, por favor, en una escala de 0 a 10, la simpata que Vd. siente por los
norteafricanos (marroques, etc.), teniendo en cuenta que 0 significa ninguna simpa
ta y 10 mucha simpata".
Se ha elegido esta variable por su carcter de continua. Se quiere conocer qu varia
bles ayudan a predecir el mayor o menor grado de simpata hacia ios norteafricanos.
B. Variables independientes:
* P210: Dgame, por favor, en una escala de 0 a 10, la simpata que Vd. siente por
ios latinoamericanos, teniendo en cuenta que 0 significa ninguna simpata y
10 mucha simpata".
* P306: A Vd, te preocupara mucho, bastante, poco o nada que un hijo o una hija su
ya se casara con un ciudadano de Marruecos u otro pas norteafricano. Mu
cho (1) Bastante (2) Poco (3) Nada (4) No sabe (8) No contesta (9).
* P506: Hasta qu punto: mucho, bastante, poco o nada le importara a Vd. tener
como vecinos a una familia de ciudadanos de Marruecos u otro pas norteafricano?. Mucho (1) Bastante (2) Poco (3) Nada (4) N.s. (8) N.c. (9).

Captulo 1: Regresin mltiple

23

"Qu le parece a Vd. el nmero de personas procedentes de otros pases


que viven en Espaa?. Son demasiados (1) Son bastantes, pero no dema
siados (2) Son pocos (3) N.s. (8) N.c. (9).
- P16: En su opinin cree que las leyes que regulan !a entrada y permanencia de
extranjeros en Espaa son demasiado tolerantes, ms bien tolerantes, co
rrectas, ms bien duras o demasiado duras?. Demasiado tolerantes (1) Ms
bien tolerantes (2) Correctas (3) Ms bien duras (4) Demasiado duras (5) No
conoce la legislacin en materia de inmigracin (6) N.s. (8) N.c. (9).
P19: Y, en genera!, cree Vd. que se debera de tratar de regularizar la situacin
de los inmigrantes ilegales o por el contrario se les debera devolver a su pas
de origen?. Se debera regularizar su situacin (1) Se les debera devolver
a su pas (2) N.s. (8) N.c. (9).
P21: Qu poltica cree Vd. que sera la ms adecuada con respecto a los tra
bajadores inmigrantes?. Facilitar la entrada de trabajadores inmigrantes
(1) Facilitar la entrada slo a aquellos que tengan un contrato de trabajo (2)
Hacer muy difcil la entrada de trabajadores inmigrantes (3) Prohibir por
completo la entrada de trabajadores inmigrantes (4) N.s. (8) N.c. (9).
P2904: El aumento de los inmigrantes favorece el incremento de la delincuencia en
nuestro pas. De acuerdo (1) En desacuerdo (2) N.s. (8) N.c. (9).
P33: Ha tenido Vd. alguna vez relacin o trato con inmigrantes en Espaa? S
(1) No (2) N.c. (9).
< P37: En estos ltimos aos se est produciendo en algunos pases eurdpeos un
cierto auge de partidos polticos de ideologa racista que, como Le Pen en
Francia, propugnan expulsar del pas a ciertos colectivos por su raza o reli
gin (negros, mahometanos, judos, etc,). A Vd. este auge le parece muy po
sitivo, positivo, negativo o muy negativo?". Muy positivo (1) Positivo (2) Ne
gativo (3) Muy negativo (4) N.s. (8) N.c. (9).
P39: Cuando se habla de poltica se utiliza normalmente las expresiones iz
quierda y derecha. En esta tarjeta hay una serie de casillas que van de
izquierda a derecha. En qu casilla se colocara Vd.?
Izda 01___________________________ 10 Dcha N.s (98) N.c. (99)
P41: Sexo Hombre (1) Mujer (2).
P42: Cuntos aos cumpli Vd. en su ltimo cumpleaos? ______N.c. (99).
P43a: Cules son los estudios de ms alto nivel que Vd. ha cursado (con inde
pendencia de los que ha terminado o no?. Algunos aos de primarla (01) Es
tudios primarios (02) Bachillerato elemental (03) FP1 (04) Bachillerato su
perior (05) FP2 (06) Arquitecto e ingeniero tcnico (07) Diplomado escuela
universitaria (08) Estudios superiores de 2 o 3 aos (09) Arquitecto e inge
niero superior (10) Licenciado universitario (11) Doctorado (12) Estudios de
postgrado, master (13) Estudios no reglados (corte y confeccin, mecano
grafa...) N.s. (98) N.c. (99).
P49a; Con qu frecuencia asiste Vd. a misa u otros oficios religiosos sin contar las
ocasiones relacionadas con ceremonias de tipo social, por ejemplo, bodas, co
muniones o funerales? Casi nunca (1) Varias veces al ao (2) Alguna vez al mes
(3) Casi todos los domingos o festivos (4) Varias veces a la semana (5) N.c, (9).
P51; A qu dase social dira Vd, que pertenece? Alta (1) Media-alta (2) Mediabaja (3) Media-media (4) Baja-trabajadora (5) N.s. (8) N.c. (9).
P11:

24

Anlisis multivariable, Teora y prctica en la investigacin social

P52:

"Actualmente, entre todos los miembros del hogar y por todos los conceptos,
de cuntos ingresos netos disponen por trmino medio en su hogar al
mes? Menos de 50.000 pts. (01) 50.001-100.000 (02) 100.001-150.000
(03) 150.001-200.000 (04) 200.001-300.000 (05) 300.001-400.000 (06)
400.001-500.000 (07) 500.001-750.000 (08) 750.000-1 milln de pts. (09) Ms
de 1 milln de pts. (10) N.c. (99).
Tamuni: Tamao del hbitat Hasta 2.000 hab. (1) 2.001-10.000 (2) 10.001-50.000 (3)
50.001-100.000 (4) 100.001-400.000 (5) 400.001-1.000.000 (6) Ms de
1.000.000 (7).
Del total de 18 variables inicialmente elegidas para la prediccin de la variable depen
diente, 14 son finalmente las variables que participan en el anlisis. Las 4 variables des
cartadas por mostrar muy escasa correlacin (bivariable) con la variable dependiente son las
siguientes: P33 (r = ,095), P49a (r = -,010), P51 (r = ,028) y Tamuni (r = ,015).
La mayora de las variables elegidas son ordinales, exceptuando ias variables mtricas
P210, P39, P42 y P52 (en intervalos); y ias nominales P19, P2904 y P41.
Como ya se expuso, las variables ordinales no precisan de su transformacin en va
riables ficticias para su incorporacin como variables independientes en el anlisis de re
gresin Uneal Estas variables representan variables en una escala latente que posibilita
su tratamiento como variable continua. Para ello se precisa que los cdigos numricos
asignados a cada categora de la variable se correspondan con Sa cualidad que expresan.
Esta correspondencia facilita la interpretacin de la variable en la ecuacin de regresin.
Por esta razn, variables como P306, P506, P11 o P37, por ejemplo, se han recodificado para mantener la correspondencia necesaria entre el cdigo numrico y la cualidad que
expresa: Mucho (4) Bastante (3) Poco (2) Nada (1); Son demasiados (3) Son bastantes,
pero no demasidos (2) Son pocos (1); Muy positivo (4) Positivo (3) Negativo (2) Muy ne
gativo (1).
La variable P43a (estudios) se ha agrupado en cinco categoras: Primarios o menos (1),
EGB, FP1 (2) Bachillerato, FP2 (3) Medios (diplomado, tcnico, superiores de 2 o 3 aos) (4)
Superiores (5).
Al estar agrupada la variable P52 (ingresos) en intervalos, se ha procedido previamen
te a calcular los puntos medios de los intervalos (la suma de sus lmites, superior e inferior,
dividida entre dos), como valores representativos de los mismos, para el clculo de la media
y dems estadsticos.
Las variables nominales P19, P2904 y P41 se han transformado en ficticias. A! tener ca
da una de ellas slo dos categoras son tres las variables ficticias creadas: P41 (sexo) Varn
(1) Mujer (0); P2904 (inmigrante delincuente) De acuerdo (1) En desacuerdo (0); P19 (re
gularizar inmigrantes) S (1) No (0). Recurdese que el cdigo numrico 0 designa al gru
po de referencia.
No se ha querido incluir ms variables en el anlisis porque la finalidad es obtener un mo
delo parsimonioso. La incorporacin de variables innecesarias o que muestren ser irrele
vantes para la prediccin de la variable dependiente suele ir acompaada de una prdida de
precisin de los coeficientes estimados en ias variables relevantes (Schroeder et al.,
1986), debido al aumento, que suele provocar, en ei error tpico de las estimaciones de las
variables "relevantes.

Captulo 1: Regresin mltiple

25

1.1.4. Linealidad

La relacin entre la variable dependiente y cada variable independenle ha de ser


lineal. Esto significa que el efecto de cada variable independiente (Xf) en la depen
diente (Y), es el mismo, cualquiera que sea el valor de la variable independiente. O, di
cho con otros trminos, para cada variable independiente X;, la cantidad de cambio
en el valor medio de Y asociado con un aumento de una unidad en X;, manteniendo
todas las otras variables independientes constantes, es el mismo sin considerar el nivel
de X; (Berry y Feldman, 1985: 51).
Por el contrario, s se observa que el cambio en el valor medio de la variable de
pendiente asociado con el incremento de una unidad en la variable independiente va
ra con el valor de la variable X; se dice que la relacin entre la variable dependiente
y la independiente es no lineal (no se ajusta a una recta). Cuando esto sucede, el mo
delo de regresin no logra captar el modelo sistemtico de relacin entre las variables
dependiente e independientes (Fox, 1991:49).
En regresin mltiple, el cumplimiento de este cuarto supuesto puede fcilmente com
probarse de forma visual, con la ayuda de los grficos de regresin parcial y los de residuos.
A ) Grficos de regresin parcial
Estos grficos son de gran utilidad para conocer qu variables concretas incumplen
el supuesto de linealidad. Muestran, para cada variable independente, su relacin con
la dependiente. Para que el supuesto de linealidad se cumpla, la nube de puntos que
corresponde a los valores de X; e Y en cada caso concreto, ha de ubicarse en tomo a una
recta. Esta puede ser creciente o decreciente. Es creciente, cuando ambas variables, X.
e Y, se hallan positivamente relacionadas; es decir, que el aumento del valor de la va
riable independiente supone igualmente un aumento en el valor de la variable de
pendiente. En cambio, la recta ser decreciente si la relacin entre las variables es ne
gativa: al aumento de valor de la variable independiente le sigue una disminucin en el
valor correspondiente a la variable dependiente. Vanse grficos a y b en la figura 1.1.
Por el contrario, si se observa que la nube de puntos no sigue una misma pauta li
neal, creciente o decreciente, sino en forma de curva (habiendo un punto de inflexin
en los datos, pasndose de una tendencia creciente a decreciente, o a la inversa) se es
t ante una relacin no lineal (grfico c). Cuando esto acontece, es preciso realizar una
transformacin logartmica en dicha variable independiente (log X.) para alcanzar la
linealidad que exige el anlisis de regresin lineal.
En cambio, si en el grfico se observa que la nube de puntos no sigue ninguna pau
ta (ya sea lineal o curvilnea), significa que no existe ninguna relacin entre las varia
bles dependiente e independiente. E cociente de correlacin de ambas variables, co
mo en el supuesto anterior de relacin curvilnea, se aproxima a cero (r = 0) -vanse
subapartados 1.3.2. y 1.5.1. Lo que lleva a reconsiderarla inclusin de dicha variable
independiente en el anlisis de regresin lineal (al mostrar no ser de utilidad en 1a pre
diccin de ja variable dependiente).

26

Anlisis multivariable. Teora y prctica en la investigacin social

a) Relacin linea? positiva


Y

b) Relacin ineal negativa


Y

c) No-lineal
(relacin curvilnea)

d) Inexistencia de relacin
entre las variables

Figura 1.1. Grficos de regresin parcial.

Los ejes de los grficos de regresin parcial pueden venir expresados en las uni
dades originales en que fueron medidas ambas variables o en sus correspondientes pun
tuaciones estandarizadas (unidades Z). stas resultan de tipificar la variable para neu
tralizar la incidencia de la unidad de medida. En este caso, los valores de las variables
se localizan en el intervalo de -3 a +3.
A su utilidad en el anlisis de la relacin bivariable entre cada X(-e Y, hay que aa
dir que los grficos de regresin parcial tambin muestran ser de utilidad en la de
teccin de atpicos. Por atpico comnmente se entiende todo caso que se distancie de
la tendencia observada en la generalidad de los datos (vase subapartado 1.5.4.).
En el grfico de regresin parcial cualquier punto que se aleje de la nube de puntos
identifica a un posible atpico, cuya confirmacin precisa de otros procedimientos ana
lticos resumidos en el susodicho subapartado.

E j e m p l o d e c o m p r o b a c i n d e l .s u p u e s t o d e l in e a u d a d
MEDIANTE EL GRFICO DE REGRESIN PARCIAL
Para ilustrar e! uso del grfico de regresin parcial en la comprobacin def supuesto de
iinealidad, se han seleccionado dos grficos del total de realizados mediante el programa
SPSS (versin 10.0).

Captulo 1: Regresin mltiple

a)

11

b)
Grfico de regresin parcial
Variable dependiente: simpata marroqu

Grfico de regresin parcial


Variable dependiente: simpata marroqu

Empatia fttt&ftricana

El primer grfico a) refSeja la relacin bivariable existente entre la variable dependiente sim
pata por los norteafricanos: marroques, etc. (P201) y la independiente simpata por los lati
noamericanos (P210). Ambas variables se encuentran en la misma escala de medida. Sus va
lores van de 0 a 10. Del grfico puede deducirse la existencia de una relacin lineal positiva entre
ambas variables, aunque no es perfecta. La simpata mostrada hacia los latinoamericanos ayu
da a predecir la sentida hacia los norteafricanos (marroques, etc.). La valoracin dada a este l
timo colectivo de inmigrantes est positivamente relacionada con la dada a otro colectivo de in
migrantes: los latinoamericanos. Las personas que ms simpata sienten hacia los norteafricanos
son, asimismo, los que ms simpata muestran hacia los latinoamericanos. Al aumento en ia va
loracin hacia ios latinoamericanos le sigue normalmente una mayor valoracin hacia los nor
teafricanos. Pero, la relacin lineal positiva observada entre ambas variables no es perfecta. Si
fuese perfecta, la nube de puntos se ajustara a una recta ascendente. Este tipo de grfico coin
cide con un coeficiente de correlacin r = 1,0, que indica la existencia de una relacin lineal po
sitiva perfecta entre ambas variables: conforme aumenta el valor de la variable independiente,
se incrementa, asimismo, el de ia dependiente; ios valores attos y bajos en ambas variables coin
ciden. En cambio, la correlacin existente entre (as dos variables referidas (simpata por los la
tinoamericanos y simpata por los norteafricanos) no es perfecta, aunque s importante: r = ,593,
como se ver posteriormente, en la matriz de correlaciones. Lo que explica que ia nube de pun
tos no sea totalmente lineal. La nube de puntos pierde la linealidad, a medida que disminuye la
correlacin entre las variables. Recurdese que, cuando la correlacin es nula, el grfico de re
gresin parcial coincide con el mostrado en la figura 1.1 (grfico d).
La existencia de puntos alejados de la nube de puntos principal informa de la existencia
de atpleos a confirmar mediante otros procedimientos analticos.
El grfico b) es totalmente distinto al anterior. Ilustra la relacin existente entre una variable
independiente ficticia (sexo") y la dependiente continua {simpata por los norteafricanos). La
variable sexo" es una medida discreta convertida a ficticia mediante la codificacin binaria 1 va
rn y 0 mujer. Ello afecta a que cuando se modela su relacin con una variable dependiente con
tinua no resulta una recta de regresin, aunque las variables se hallen muy relacionadas. Por e!
contrario, el grfico de regresin parcial ofrece dos nubes de puntos principales, que corresponden
a los valores de la variable dependiente para cada uno de ios dos valores posibles de la inde
pendiente 1 y 0. En general, el anfisis de regresin con variables independientes ficticias posibilita

28

Anlisis multivariable. Teora

y prctica en la investigacin social

el conocimiento de los valores predichos (o esperados) en la variable dependiente para cada uno
de los subgrupos en la variable independiente. Lo que imposibilita su representacin mediante
una recta realizada desde una serie continua de valores.

B) Grficos de residuos
A diferencia del grfico de regresin parcial, el grfico residuos no se Umita a re
laciones bivariables. Por el contrario, muestra los efectos combinados de todas las va
riables predictoras incluidas en la ecuacin de regresin con la dependiente. Para lo
cual se representan los residuos estandarizados o los estudentizados -explicados en el
subapartado 1.1.10- contrajos valores predichos de la variable dependiente a partir de
la ecuacin de regresin (FK Estos valores se obtienen de sustituir (en la ecuacin de
regresin resultante de los anlisis) los valores correspondientes de la variable inde
pendiente, en cada caso concreto. La diferencia entre el valor de la variable depen
diente observado en la'muestra (Y) y el predicho a partir de la ecuacin de regresin
(Y) es lo que se entiende por residuo (B). Si ste se halla dividido por a desviacin t
pica, el residuo ser estandarizado (E ). Los estudentizados (Ef.) se caracterizan por se
guir la distribucin t de Student con N - p - 1 grados de libertad (siendo N el ta
mao de la muestra y p el nmero de variables independientes).
La figura 1.2 incluye distintas posibilidades de grficos de residuos. Estos difieren
de los grficos de regresin parcial en dos aspectos importantes: uno, ahora se rela
cionan ios residuos con Y (los valores predichos de la variable dependiente), y no los
valores de Y con X; como sucede en los grficos de regresin parcial, dos, la nube de
puntos ha de ser horizontal, y no ascendente ni descendente (segn sea positivo o ne
gativo el coeficiente de regresin para la variable independiente). El supuesto de linealidad se cumple cuando los residuos se distribuyen aleatoriamente, prximos a la
lnea horizontal que parte de 0. Tngase presente que este grfico se realiza con resi
duos estandarizados (Es.) y estudentizados (E,.). En cambio, cuando ia nube de puntos
presenta una forma en curva, en vez de rectangular, el supuesto de Iinealidad no se
cumple. Como sucede en los grficos b) y c) incluidos en la figura 1.2.
a) Relacin Hneal

10 20 30 40 50 y

b) Relacin no lineal

10 20 30 40 50 y-

c) Relacin no finen!

10 20 30 40 50 >.

Figura 1.2. Grficos de residuos.

Berry y Feldman (1985: 54) proponen otra forma alternativa de comprobar el su


puesto de Iinealidad, que consideran ms rigurosa. Consiste en dividir la muestra en

Captulo 1: Regresin mltiple

29

varias submuestras que incluyan un rango de valores para la variable independiente.


Si la regresin en cada submuestra, por separado, genera estimaciones de intercepto y
de coeficientes de pendiente que difieran sustancialmente a travs de las submuestras,
se considera la relacin entre las dos variables no lineal.
El incumplimiento del supuesto de linealidad no supone la invalidacin del anlisis
de regresin, aunque s lo debilita. Cuando acontece, la relacin entre la variable de
pendiente con la independiente no queda suficientemente captada por e] coeficiente
de regresin lineal. Para que esto no suceda, conviene aplicar alguno de los siguientes
remedios contra la no linealidad:
a) La aplicacin de mtodos de regresin no lineal, como la regresin polinomial.
b) La transformacin logartmica de la variable independiente (log X). La ecua
cin de regresin que resulta de utilizar log X en lugar de X no presentara nin
gn problema en la interpretacin de los valores predichos de la variable de
pendiente (Y). Por esta razn, la mayora de los investigadores aceptan la
transformacin de loglfe, como razonable en estas situaciones (Afifi y Clark,
1990:119).

1.1.5. Adiividad
La prediccin de la variable dependiente exige que los efectos de las distintas va
riables independientes puedan sumarse entre s. Esto significa que, para cada variable
independiente incluida en el modelo de regresin, la cantidad de cambio que provo
ca en la variable dependiente ser el mismo, indistintamente de los valores de las otras
variables independientes incluidas en la ecuacin de regresin. Si, por el contrario, se
observa que su influencia se ve afectada por los valores que presenten otras variables
independientes, se est ante un modelo de regresin no aditivo (o interactivo). Ello
acontece cuando las variables independientes interactan unas con otras, al influir en
la variable dependiente.
Berry y Feldman (1985) diferencian tres variedades de modelos de regresin no adi
tivos:
a) Modelo interactivo de variable ficticia. Cuando una de las variables indepen
dientes es dicotmica (es decir, dispone de dos opciones de respuesta diferen
tes: s-no, varn-mujer, aprobado-suspenso), el modelo es interactivo si la va
riable independiente est linealmente relacionada con la variable dependiente
para ambos valores de la variable ficticia dicotmica. No obstante, la pen
diente de la recta de regresin y el intercepto que caracterizan la relacin lineal en
tre la variable dependiente y las independientes diferirn segn sea el valor de
la variable ficticia dicotmica (D;).
b) Modelo multiplicativo. Si dos variables independientes, medidas a nivel de
intervalo, interactan en la variable dependiente, de modo que la pendiente

30

Anlisis rnultivariable. Teora y prctica en la investigacin social

de la relacin entre cada variable independiente y la dependiente est rela


cionada linealmente con el valor de la otra variable independiente.
c) Modelo interactivo no lineal. La resolucin de este tipo de modelo exige tomar
logaritmos en ambos lados de la ecuacin de regresin. Es decir, tanto para la
variable dependiente como para cada una de ias variables independientes, in
cluyendo la constante y el trmino de error.
En consecuencia, si se observa que el cambio en el valor de Y, relacionado con un pe
queo aumento en X depende del valor de X, significa que se est ante un modelo no li
neal. Por el contrario, cuando el cambio en Y, relacionado con un pequeo aumento en X,
est relacionado con el valor de otra variable independiente, el modelo es interactivo.
Tacq (1997) propone una sencilla comprobacin del supuesto de aditividad. La con
feccin de una ecuacin de regresin que incluya todos los efectos multiplicativos entre
dos variables independientes. Por ejemplo, Y = b0 + b1x1H-b2x2 + b3x1x2 + eLEsta ecua
cin se aade al modelo aditivo simple, que no contiene trminos de interaccin: Y = b0
+ b x, -!b;) x2 + e. Si el valor del estadstico F emprico (obtenido del modelo) es mayor
que el correspondiente F terico (que figura en la tabla de F, a unos grados de libertad y
nivel de significacin concretos) -vase subapartado 1.5.3- significa que la totalidad de los
efectos de interaccin ofrece una contribucin significativa a la explicacin de la variable
dependiente. En este caso, el modelo aditivo no sera adecuado.
En resumen, con ms de dos variables independientes en el modelo pueden in
cluirse varios trminos producto para cada dos, tres o ms variables. De esta forma ha
bra un refuerzo mutuo entre las variables independientes en la explicacin de la va
riable dependiente. El modelo no sera aditivo, sino multiplicativo. La suma ponderada
de los efectos de las variables independientes no explicara el valor de la variable de
pendiente, sino los productos de las variables independientes con efectos interactivos.
1.1.6. Normalidad
El supuesto de normalidad es comn a otras tcnicas de anlisis rnultivariable. Con
siste en la correspondencia de los datos (tanto relativo a la variable dependiente, co
mo a las independientes) con la distribucin normal. Ello es importante porque per
mite el uso de los estadsticos F de Snedecor y t de Student, en la comprobacin
de la signifkavidad del modelo de regresin en su conjunto (F ) y de sus coeficientes
por separado (t).
El incumplimiento de este supuesto es ms probable cuando el anlisis de regre
sin se realiza en una muestra de tamao pequeo (inferior a los ratios mencionados
en el subapartado 1.1.1). Conforme aumenta el tamao de la muestra, y merced a la
teora del lmite central, es ms cierta ia correspondencia de la distribucin de datos con
la curva normal. De hecho, algunos autores, como Afifi y Clark (1990:116), afirman
que las salidas ligeras de este supuesto apreciablemente no alteran nuestras infe
rencias, si el tamao muestral es suficientemente grande.

Captulo 1: Regresin mltiple

31

Como en otros supuestos de regresin, la forma ms sencilla de comprobar ste es


visual, con la ayuda de alguno de los grficos siguientes:
A ) Histograma de residuos
Incluye los residuos, preferiblemente estandarizados, junto con las frecuencias de
la variable. Para que el supuesto de normalidad se satisfaga, los residuos (aquellos da
tos que no logran ser explicados por el anlisis de regresin, al no coincidir los valores
observados con los predichos a partir de a ecuacin de regresin) han de estar nor
malmente distribuidos. El histograma, en suma, ha de tener una forma acampanada (de
campana de Gauss). Su distribucin ha de ser perfectamente simtrica, con media 0 y
desviacin tpica 1. Si, por el contrario, se observa una agrupacin exagerada de re
siduos, no en el centro, sino en un extremo de la distribucin, ya sea en los valores po
sitivos o en los negativos, el supuesto de normalidad no se cumple.

- ^ EJEMPLO DE HISTOGRAMA DE RESIDUOS ---------------'---------------------------------"


Para ilustrar la aplicacin del histograma en la comprobacin del supuesto de normalidad,
a continuacin se incluye el histograma correspondiente a los datos aqu analizados de la en
cuesta de Actitudes ante fa inmigracin. El grfico contiene las frecuencias de la variable de
pendiente Junto a los residuos estandarizados, para un tota! de 1.267 casos vlidos. En l pue
de observarse que e supuesto de normalidad prcticamente se cumple. La media de la
distribucin es ,05 y fa desviacin tpica 1,00. Recurdese que e! supuesto de normalidad
exige que la distribucin de datos sea perfectamente simtrica. Lo que significa que su meHistograjna
Variable dependiente; simpata marroqu

160------------------------------------------------------------

Regresin residuo tipificado

32

Anlisis multivariable. Teora y prctica en la investigacin social

dia aritmtica ha de ser igual a 0,0 y su desviacin tpica igual a 1,0. Si. se comparan los
valores obtenidos con los de referencia, puede concluirse que la asimetra de la distribucin
observada es ligera. Como era de esperar por ei tamao muestral analizado, en relacin con
ei nmero de variables predictoras incluidas en el anlisis, ia distribucin de los datos casi se
corresponde con la curva norma!. Para un anlisis ms detallado del ligero apuntamiento y
desviacin hacia la derecha de la distribucin observada ha de acudirse a los grficos de pro
babilidad normal para variables predictoras concretas, y no para el conjunto de la distribucin,
adems de estadsticos especficos de asimetra y curiosis. stos ayudan a comprobar la ex
tensin a la que la serie de puntuaciones observadas se desvan de ia distribucin normal.

B) Grfico de probabilidad normal


Algunas veces referidos como grfico P - P . Difiere del histograma de residuos en
que tambin puede aplicarse cuando el tamao de la muestra analizada es pequeo. En
l se compara la distribucin observada de los residuos estandarizados1(o tipificados)
con la esperada bajo el supuesto de normalidad. Para ello se representan ambas dis
tribuciones de probabilidad acumuladas: la esperada y la observada. Si ambas distri
buciones coinciden, se obtiene una recta que forma un ngulo de 45. Lo que signifi
ca que se est ante una distribucin normal. Las salidas de la normalidad se producen
cuando la distribucin de datos se distancia de la diagonal definida por dicha recta.
Cuando la lnea de puntos cae por debajo de la diagonal, la distribucin es platicrlica. Tanto ms, cuanto ms se distancie la lnea de puntos de la diagonal. Este ti
po de distribucin se caracteriza por una elevada dispersin de sus valores con respecto
a la media de la distribucin, lo cual dificulta su representatividad. La distribucin de
los datos presenta una forma achatada o plana, con escasos valores en su centro. El va
lor de curtosis correspondiente es negativo (inferior a 0). Por el contrario, si la lnea
de puntos se sita por encima de la diagonal, la distribucin es leptocrtica. Sus valores
se hallan muy concentrados en torno a la media de la distribucin, al haber muchos
casos en su centro; su dispersin respecto de la media aritmtica es muy pequea, fa
voreciendo su representatividad. El valor de curtosis es en este caso positivo (supe
rior a 0).
Un arco sencillo por encima o por debajo de la diagonal indica, asimismo, asime
tra (positiva o negativa). La asimetra constituye un indicador de la agrupacin de las
frecuencias en la curva de una distribucin, del grado en que coinciden las medidas de
tendencia central (media, mediana y moda). La distribucin es simtrica (o normal)
cuando los valores de dichos estadsticos no difieren. Grficamente, la nube de puntos
se ajusta a la diagonal. Si se sita por encima de la diagonal, la distribucin es asim
trica a la derecha (o con sesgo positivo). Los casos se agrupan a la izquierda de la cur
va, al haber en la distribucin mayor representacin de los valores inferiores a la me
da. El valor de asimetra correspondiente es positivo (superior a 0).
Un arco por debajo de la diagonal informa, en cambio, que la distribucin es asi
mtrica negativa (o con sesgo negativo); tanto ms, cuanto ms se distancie la lnea de

Captulo i: Regresin mltiple

33

puntos de la diagonal definida por ambas probabilidades. En ias distribuciones asi


mtricas negativas la agrupacin de valores se produce a la derecha de la curva, al ha
ber una mayor presencia de valores superiores a la media en la muestra analizada. La
asimetra en este caso toma un valor negativo. De detectarse algn tipo asimetra, es
preciso examinar por separado cada variable para comprobar en cules se incumple el
supuesto de normalidad.

P - P D E PROBABILIDAD NORMAL
E! grfico P - Pde probabifidad normal de residuos estandarizados {o tipificados) de la
misma distribucin de datos analizada corrobora las conclusiones del histograma de residuos.
Como puede observarse en el grfico P - P adjunto, la nube de puntos se sita a lo largo de
la diagonal (que resulta de comparar las distribuciones de probabilidad acumuladas obser
vadas y esperadas -para una distribucin normal para los residuos estandarizados), sin distanciamientos notorios. Lo que lleva a afirmar el cumplimiento del supuesto de normalidad.
La asimetra a la derecha detectada es muy leve. Apenas se vislumbra un pequeo arco por
encima de la diagonal en el rango semiintercuartlico de las probabilidades acumuladas.
Como ambos grficos de residuos (P - P de probabilidad normal y el histograma de re
siduos) muestran el prctico cumplimiento det supuesto de normalidad rnultivariable, puede
seguirse a recomendacin de Tabachnick y Fidell (1989: 79), segn la cual, en regresin ml
tiple, si los grficos de residuos parecen normales, no existe razn para visualizar variables
Individuales para comprobar la normalidad". No obstante, esta comprobacin univariable pue
de ser deseable en busca de mejora de! modelo obtenido. Para lo cual habr de seguirse otros
procedimientos estadsticos y grficos que se vern ms tarde.
Grfico P-P normal de regresin residuo tipificado
Variable dependiente: simpata marroqu
1,00

"O
cua*

0,00

0,00
,25
,50
Prob. acum. observada

,75

1,00

34

Anlisis multivariable. Teora y prctica en la investigacin social

La normalidad tambin puede comprobarse con la ayuda de estadsticos. El de ma


yor aplicacin es el estadstico W de Shapiro-Wilks (propuesto por ambos autores en 1965,
en An analysis of variance test for normality, Biometrika 52:591-611). Este estadstico
ha alcanzado una amplia aplicacin en la comprobacin del supuesto de normalidad, aun
que limitada a tamaos mustrales pequeos (inferiores a 50 unidades). Su popularidad
en gran parte se debe a su presencia en la mayora de los paquetes estadsticos.
Su valor se obtiene a partir de los valores esperados de los residuos (E( = Y - Y)
de una distribucin normal estndar. El rango de valores posibles va de 0,0 a 1,0. Un
W - 1,0 significa el cumplimiento del supuesto de normalidad, mientras que un W - 0,0,
su incumplimiento.
La generalidad de los paquetes estadsticos suelen ofrecer los valores de W acom
paados de la probabilidad asociada (valor p), para comprobar la hiptesis nula que
los datos se ajustan a una distribucin normal. Cuando el valor de W es pequeo, pr
ximo a 0,0, as como el valor de p, se rechaza la hiptesis nula de que los datos se ha
llen normalmente distribuidos.
La comprobacin del supuesto de normalidad tambin puede hacerse con el es
tadstico D de Kolmogorov-Smimov. Pero, nicamente cuando se analice un tamao
muestral elevado. Con este segundo estadstico de comprobacin, la hiptesis nula de
normalidad se rechaza a la inversa que con el anterior: para valores elevados de D (y
no bajos), o un valor pequeo de p.

E j e m p l o d e c o m p r o b a c i n d e l s u p u e s t o d e n o r m a l id a d
MEDIANTE ESTADSTICOS
La comprobacin del supuesto de normalidad no se ha limitado al anlisis de los grficos
de residuos. Tambin se ha acudido a estadsticos que describan la forma de la distribucin,
en qu medida coincide o se distancia de la curva normal. Como ia muestra analizada supera
las 50 unidades, ei programa SPSS no calcula los valores correspondientes at estadstico de
Shapiro-Wilks. Los valores de normalidad que ofrece son los valores D de KolmogorovSmirnov, con una correccin de la significatividad de la normalidad de Liliiefors. Esta correccin
es de utilidad cuando se aplican estimaciones mustrales y se desconocen la media y la varianza poblacionales. Los valores D figuran con sus grados de libertad respectivos. stos son
iguales al nmero de casos vlidos (o con respuesta) en la variable concreta analizada.
Atendindonos a los datos que figuran en la tabla anexa puede observarse que, a ex
cepcin de dos variables principales (vecino marroqu y regularizar a inmigrantes), que pre
sentan valores D prximos a ,5, ia generalidad de las variables se sitan por debajo de es
te valor. Especialmente, las variables edad (,097), ideologa poltica (,139) y simpata hacia
el marroqu (,147), con valores D prximos a 0. Lo que significa su proximidad con la curva
normal. Pero, la prueba de significatividad efectuada informa de lo contrario. Los niveles de
significacin de Liliiefors son, en todas las variables, ,000". Lo que supone el rechazo de la
hiptesis nula de normalidad en todas las variables consideradas para el anlisis. Esta

Captulo 1: Regresin mltiple

35

conclusin no concuerda con la inspeccin anterior de los datos, aunque era de prever por
el tamao de la muestra de anlisis.
Es sabido que en muestras grandes (superiores a 1.000 unidades) lo ms habita! es que
las pruebas de significatividad lleven al rechazo de la hiptesis nula. Y, dado que el tamao
muestral se halla presente en su clculo (los grados de libertad), era de esperar esta no
coincidencia en los resultados. Incuso entre ios valores Dy su significatividad correspondiente.
Como Hair et al. ("1999:65) afirman: E! investigador debera siempre recordar que los tests de
significacin son menos tiles en muestras pequeas (menores de 30) y muy sensibles para
grandes muestras (superiores a 1.000 observaciones). Asimismo, Tabachnck y Fdeli (1989)
desaconsejan eS uso de las pruebas de significatividad en la comprobacin del supuesto de nor
malidad cuando la muestra sea grande. Los estadsticos de normalidad muestran adecuacin
en muestras pequeas o moderadas, pero no en tamaos mustrales elevados como el aqu
analizado. Adems, observan que porque tos errores tpicos de tanto asimetra como curtosis
contienen N, con muestras grandes la hiptesis nula es probable que se rechace cuando exis
ten slo desviaciones pequeas de la normalidad -como sucede en los datos aqu analizados-,
A io que aaden: En una muestra grande, una variable con asimetra significativa (o curtosis)
con frecuencia no se desva lo suficiente de la normalidad para hacer una diferencia realista en
el anlisis. En otras palabras, con muestras grandes los niveles de significatividad de asimetra
y curtosis no son tan importantes como sus tamaos reales (peor cuanto ms se distancien de
0) y apariencia real de la distribucin (Tabachnick y Fidel!, 1989:73-74).
Estas observaciones han ayudado a la interpretacin de los resultados, a la no consideracin
de la significatividad, al contar con un nmero de casos vlidos mnmo, en la peor de las sitadones (en la variable "leyes de inmigracin), de 1.713 unidades. La prueba de normalidad de Kolmogorov-Smimovse ha contrastado con los estadsticos descriptivos de asimetra y curtosis y me
dante los grficos Q - Q normal para cada una de las variables consideradas.
Pruebas de normalidad3

Kolmogorov-Smimov*
Simpata marroqu
Leyes inmigracin
Ideologa poltica
Sexo
Edad
Simpata latinoamericano
Numero inmigrantes
Regularizar inmigrante
Entrada inmigrante
Partido racista
Casar con marroqu
Estudios
Ingresos
Vecino marroqu
Inmigrante delincuente

Estadstico

9*

Sig.

,147
,208
,139
,351
,097
,127
,305
,471
,346
,385
,383
,221
,240
,489
,378

2.183
1.713
1.804
2.492
2.492
2.174
2.111
2.171
2.288
2.237
2.415
2.281
1.793
2.468
2.138

,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000

a Correccin de la significacin de Ulliefors.

Anlisis multivariable. Teora y prctica en a investigacin social

b)
Grfico Q -Q norm al de id eologa poltica

G rfico Q -Q norma] de leyes inmigracin

V alor observado

d)

c)
G rfico Q -Q normal de vecin o marroqu

G rfico Q -Q norm al de ingreso

Vaior observado

V alor observado

e)

f)
N orm al grfico Q -Q de vecin o m arroqu

N orm al grfico Q -Q d e ingresos

Valor observado
Transform aciones: og natural

Captulo 1: Regresin mltiple

37

Como son muchas las variables analizadas, se han seleccionado grficos Q - Q que
muestran ajuste de la variable a la distribucin normal y otros que muestran desajuste. Los
grficos Q - Q normal (o grficos de cuantil-cuantil} son similares a los grficos P - P, pero
aplicados a variables individuales. Ayudan a identificar salidas de la normalidad no para el con
junto de las variables, sino en cada una de las variables de inters. Las puntuaciones figuran
igualmente ordenadas y se comparan los valores observados para cada caso con el esperado
bajo el supuesto de normalidad. Los grficos a) y b) ejemplifican una buena corresponden
cia de (as variables con la distribucin normal. La mayora de los puntos coinciden con la dia
gonal, siendo mnimas las desviaciones (debidas a procesos aleatorios). En cambio, los gr
ficos c) y d) muestran discordancia con la distribucin normal. Corresponden a las variables
vecino marroqu" e ingresos. stas son, precisamente, las dos variables con mayores ni
veles de asimetra (2,677 y 2,824 con un error tpico de ,049 y ,058, respectivamente.
Recurdese que el error tpico de asimetra es una medida de la extensin a la que la asi
metra puede variar como una funcin del tamao de a muestra) y de curtosis (6,528 y
12,622, con errores tpicos de ,099 y ,116"). Se trata, en ambos casos, de distribuciones
asimtricas a Sa derecha (la mayora de os valores se sitan a la izquierda de la media) y leptocrticas (demasiados casos en el centro de la distribucin), especialmente la variable in
gresos. Las dems variables se distancian menos de la distribucin norma!, con valores de
asimetra y curtosis por debajo del valor de referencia ,80 que expresa una asimetra (po
sitiva o negativa) y curtosis importante.
Para comprobar si la introduccin de una transformacin en dichas variables pudiese co
rregir su desviacin de a normalidad, se procede a su transformacin logartmica al estimarse
importante su desviacin de la normalidad (curtosis y asimetra positiva severa). Los grficos
e) y f) corresponden a los grficos Q - Q normal con las variables transformadas a sus lo
garitmos naturales. Si se comparan ambos grficos con los habidos previo a la transforma
cin logartmica de las variables (grficos c) y d)), puede observarse que dicha transfor
macin no resuelve la no-normalidad en ia variable vecino marroqu, aunque s en a variable
"ingresos, al quedar la nube de puntos prcticamente ajustada a la diagonal. Lo que lleva a
considerar esta ltima transformacin en la solucin de regresin. Una explicacin posible an
te este dispar efecto de ia transformacin de las variables es lo ya observado por Afif y Clark
(1990), que la efectividad de la transformacin, al inducir normalidad, aumenta en variables
cuya desviacin tpica es grande en relacin con su media. La media de la variable ingresos
es 143.991 pesetas al mes, siendo la desviacin tpica de 105.233 pesetas. En cambio, la me
dia de la variable vecino marroqu es 1,27 con una desviacin de ,672.
Los remedios ms aplicados ante el incumplimiento del supuesto de normalidad,
rnultivariable son los siguientes;
a) La transformacin logartmica de la variable dependiente (log Y), sobre todo,
cuando la distribucin de los residuos muestra asimetra positiva severa. Si di
cha asimetra es mediana, puede aplicarse la raz cuadrada (VY).
b) La transformacin cuadrada, si la asimetra es negativa.
c.) Tambin puede optarse por la transformacin inversa, cuando la distribucin de
los residuos muestra un incumplimiento grave del supuesto de normalidad.

38

Anlisis multivariable. Teora y prctica en la investigacin social

No obstante, Nourisis (1986) advierte que el estadstico F , empleado en la com


probacin de hiptesis de significatividad del modelo de regresin en su conjunto,
suele ser bastante insensible a las salidas moderadas de la normalidad. Por ello re
comienda adoptar alguno de los remedios referidos slo cuando el incumplimiento
del supuesto de normalidad sea importante. Afifi y Clark (1990; 67) proponen que las
transformaciones para alcanzar normalidad no se lleven a cabo si la desviacin tpica
dividida por la media es inferior a l/4. Las transformaciones son ms efectivas al inducir
normalidad cuando ia desviacin tpica de la variable no transformada es grande rela
cionada con la media (como sucede con la variable ingresos aqu analizada).
En caso de optar por la transformacin, el anlisis de regresin ha de realizarse con
los datos transformados. Los resultados pueden compararse con aqullos obtenidos
con los datos no alterados. De esta forma puede observarse la ganancia adquirida con
la transformacin.
1.1.7. Homocedasticidad
Para que la relacin de las variables independientes con la dependiente pueda medirse
con rigor, se precisa que la varianza de los valores de la variable dependiente sea igual en
cada valor de las variables independientes (o predictoras). Esto se conoce como homo
cedasticidad o igualdad de las varianzas de los trminos de error residual en la serie de va
riables independientes. La variable dependiente ha de mostrar niveles iguales de varianza
en los distintos valores de las variables independientes. En cambio, si la variabilidad en los
trminos de error de las distintas variables independientes no es constante, se dice que los
residuos son heterocedsticos. Ello significa que su magnitud (de los residuos) aumenta o
disminuye en fundn de los valores que adopten las variables independientes, o segn cu
les sean los valores predichos. La varianza de la variable dependiente se concentra en unos
valores concretos de las variables independientes, lo que provoca que la prediccin del va
lor de la variable dependiente sea mejor (de existir heterocedasicidad), no en todos, si
no slo en determinados valores de las variables independientes.
Aunque el supuesto de homocedasticidad es uno de los que ms se incumplen ha
bitualmente (Hair et al, 1992; 1999), en el anlisis de regresin lineal debe valorarse.
Para que el anlisis de la relacin de dependencia sea correcto, la varianza de la va
riable dependiente no ha de concentrarse en unos valores determinados de las varia
bles independientes. Ello no slo ocasiona diferencias en la prediccin del valor de la
variable dependiente, sino que en general se relaciona con la obtencin de pruebas de
significatividad (mediante los estadsticos t y F ) cuyos resultados sean incorrectos.
La posibilidad de que esto acontezca es mayor cuando se analizan datos seccionales (o
transversales) que longitudinales; por ejemplo, en una encuesta convencional. Como
Gujarati (1988; 319) observa: En datos seccionales, se suele tratar con miembros de
una poblacin en un punto determinado en el tiempo, tales como consumidores in
dividuales o sus familias, empresas, industrias, o subdivisiones geogrficas, tales como
estados, pases o ciudades, etc. Lo que es ms, estos miembros pueden ser de diferentes

Captulo 1: Regresin mltiple

39

tamaos, tales como empresas pequeas, medias o grandes o renta alta, media o baja.
En los datos de series temporales, por otro lado, las variables tienden a ser de ordenes
similares de magnitud porque generalmente se recogen los datos para la misma enti
dad a lo largo de un perodo de tiempo.
La figura 1.3 incluye situaciones de homocedasticidad a) y heterocedasticidad b) pa
ra un modelo de regresin simple. Incluye la probabilidad condicional de la variable
dependiente (Y) para valores seleccionados de la variable independiente (X). Como
puede observarse, la homocedasticidad se da cuando la varianza condicional de Y per
manece constante, indistintamente de los valores que tome la variable independiente.
Si, por el contrario, la varianza no permanece constante, sino que aumenta conforme
se incrementa el valor de la variable independiente se habla de heterocedasticidad. La
figura 1.3b ilustra esta situacin. En ella puede observarse como la varianza de los tr
minos de error se halla positivamente correlacionada con la variable independiente. La
distribucin pasa de ser leptocrtica a cada vez ms platicrdca.
La homocedasticidad suele relacionarse con el supuesto de normalidad. De hecho
se observa que cuando el supuesto de normalidad multivariable se satisface, las re
laciones entre las variables son homocedsticas (Tabachnick y Fidell, 1989:82). En ge
neral, la heterocedasticidad es ms probable que acontezca cuando se da alguna o va
rias de las situaciones siguientes:
a)
b)
c)
d)

Se incumple el supuesto de normalidad.


Las variables no se encuentran directamente relacionadas.
Algunas de las variables son asimtricas mientras que otras no lo son.
En determinadas variables independientes, las respuestas se concentran en un
nmero limitado de valores.

a) Trminos de error homocedcticos

b) Trminos de error heterocedcticos

Figura 1.3. Homocedasticidad y heterocedasticidad.

Berry y Feidman (1985: 73) destacan tres situaciones en las cuales la heteroce
dasticidad se convierte en problema:
a) Cuando la variable dependiente est medida con error, y la cantidad de error
vara con el valor de la variable independiente. Por ejemplo, la encuesta. En ella,

40

Anlisis multivariable. Teora, y prctica en la investigacin social

la unidad de anlisis ms habitual es el individuo y algunos de eSlos pueden


aportar una informacin ms adecuada que otros.
b) Cuando la unidad de anlisis es un agregado y la variable dependiente la for
ma un promedio de valores para los objetos individuales que componen las uni
dades agregadas. Por ejemplo, el nivel de renta medra en alguna unidad agre
gada. Si el nmero de individuos seleccionados, en cada unidad agregada,
para determinar el nivel de renta media, difiere a travs de las unidades, la ade
cuacin con la que est medida la variable dependiente tambin variar.
Los niveles de renta medios estimados a partir de una muestra grande de in
dividuos suelen caracterizarse por un menor error de medicin que las medias ob
tenidas de una muestra pequea. Esta aseveracin se deduce del conocimiento de
que la varianza de la distribucin de una media muestral decrece cuando el tamao
de la muestra aumenta (Wonnacott y Wonnacott, 1972; 120-122).
c) La heterocedasticidad tambin puede preverse en las situaciones donde existe
variacin significativa en la variable dependiente. Berry y Feldman (1985) citan,
como ejemplo ilustrativo, un modelo en el que la renta anual de la familia sea
la variable independiente y sus gastos anuales en vacaciones la dependiente. Lo
ms razonable es esperar que en las familias con rentas bajas el gasto medio en
vacaciones sea igualmente bajo. La variacin en los gastos en todas ias familias
es, en consecuencia, bastante pequea. Debido a que las familias de rentas ba
jas han de gastar el grueso de su renta en cubrir las necesidades bsicas, dejando
muy pocos fondos para gastar en vacaciones. Pero, cuando la renta familiar au
menta, el gasto medio destinado a vacaciones no aumenta necesariamente. Lo
que resulta en variacin importante en los valores de la variable dependiente.
Esta situacin se conoce como heterocedasticidad.
La heterocedasticidad a veces se debe a errores de medicin. En otras ocasiones es con
secuencia de la existencia de una interaccin importante entre una variable independiente
incluida en el modelo con otra ausente del mismo. Siguiendo el ejemplo de Berry y Feldman (1985:75), podra argumentarse que la cantidad de gasto de una familia para va
caciones est determinada no slo por la renta de la familia, sino tambin por la satis
faccin que sus miembros obtienen de las vacaciones, y el nivel de satisfaccin y de renta
puede esperarse que interacten al determinar los gastos en vacaciones: entre las familias
que obtienen poca satisfaccin de las vacaciones podemos esperar que la renta tenga un
dbil efecto en los gastos en vacaciones, pero cuando la satisfaccin obtenida aumenta, se
puede esperar que la renta tenga un efecto ms fuerte en el nivel de gastos.
Al igual que la normalidad y otros supuestos de regresin, la heterocedasticidad
puede detectarse mediante un grfico de residuos. La figura 1.4 incluye grficos de re
siduos estandarizados en distintas situaciones de homocedasticidad. En el eje vertical
se sitan ios residuos y en el horizontal los valores de la variable independiente. Ha
br heterocedasticidad, cuando se observe aumento o disminucin en los residuos con
los valores de la variable independiente. Berry y Peldman (1985: 80) diferencian las tres
situaciones expuestas en la figura 1.4.

Captulo 1: Regresin mltiple

41

E*.

X,

a) Homocedasticidad con

b) Homocedasticidad con

una muestra grande

una muestra pequea

X;

c) Heterocedasticidad
(varianzas de error
crecientes)

Figura 1.4. Grficos de residuos estandarizados para homocedasticidad.

Si el tamao muestral es elevado, los residuos deberan repartirse por igual a lo lar
go de los valores de la variable independiente, como muestra la figura 1.4a, en dos
lneas horizontales paralelas alrededor de 0, que es la media residual. En muestras pe
queas, por el contrario, la varianza de los residuos de regresin no es idntica en to
dos los valores de la variable independiente, aun habiendo homocedasticidad perfec
ta. La varianza ser mayor en los valores prximos al centro de la distribucin que en
los extremos, como puede observarse en la figura 1.4b. Cualquier grfico que se aleje
de las dos variedades mencionadas muestra la violacin del supuesto de homocedas
ticidad, como indica la figura 1.4c. En ella puede verse cmo la varianza de los residuos
decrece con el aumento del valor de a variable independiente.
Cuando se analiza la incidencia conjunta de varias variables independientes se ob
tienen grficos a modo de los expuestos en la figura 1.5. Se trata de grficos de residuos
(preferiblemente estudentizados o estandarizados) contra los valores predichos de la va
riable dependiente (Y;); es decir, la combinacin de las variables independientes que for
man la ecuacin de regresin. En esta modalidad grfica, los aumentos o disminuciones
de los residuos de acuerdo con el valor predicho de la variable dependiente ( V'-) expresan
incumplimiento del supuesto de homocedasticidad (figuras 1.5b y 1.5c). De los tres tipos
de grficos quizs sea la figura 1.5c la que refleje la situacin de heterocedasticidad ms ha
bitual Este grfico presenta una forma triangular. La figura L5b en forma de diamante,
que tambin expresa heterocedasticidad, se da en situaciones de mayor variacin de re
siduos hacia el centro de la distribucin de Y que en los extremos.
-h3

+3

+2

+2

+1

+1
0
-1
-2

0
-1 'mm
-2
-3

a) Homocedasticidad

Yi
c) Heterocedasticidad

-3

b) Heterocedasticidad

Figura 1.5. Grficos de residuos estudentizados para homocedasticidad.

42

Anlisis multivariable. Teora y prctica en la investigacin social

El supuesto de homocedasticidad tambin puede comprobarse con la ayuda de es


tadsticos. Entre los ms aplicados se encuentran los tres siguientes;
a) El test de Lveme. Propuesto en 1960 por Levane en un artculo titulado Ro. bust tests for equality of variances. De su ttulo puede deducirse la finalidad
de la prueba: aplicar un anlisis de varianza sobre el valor absoluto de las pun
tuaciones de desviacin. Se trata de medir la igualdad de varianzas para un ni
co par de variables (simples o compuestas). Y se comprueba que su robustez
mejora cuando se sustituyen las desviaciones alrededor de la mediana (\Y. - Y j)
por las desviaciones alrededor de la media ( Y- - F;l). La significatividad se
comprueba mediante el estadstico F. ste se aplica para determinar si la hi
ptesis nula ( R j de homogeneidad de la varianza debe rechazarse. Esta hiptesis
se rechaza cuando ei estadstico de Levene es significativo (habituaJmente, p < ,05).
Lo que supone el incumplimiento del supuesto de homocedasticidad.
De acuerdo con Hair ei al. (1999:168), el uso de esta prueba (de Levene)
es particularmente recomendable porque es el que menos queda afectado por
desviaciones de la normalidad, otro de los problemas que ocurren con fre
cuencia en la regresin.
b) El test de Goldfield y Quant. Propuesto en 1965 por los autores susodichos, con
siste en la reordenacin de las n observaciones de la muestra de forma cre
ciente, de acuerdo con la variable independiente que se sospeche que covariar
con la varianza del trmino de error. Despus se elimina un 25% de Jos casos del
centro de la distribucin. Igual nmero se elimina tambin de los casos que se
hallan por debajo y por encima del medio de la distribucin. Requiere, en con
secuencia, la divisin de ias observaciones en dos grupos. Para cada uno de ellos
se realiza un anlisis de regresin OLS. Despus se comparan sus respectivas su
mas de residuos cuadrados (RSS) en relacin con sus grados de libertad (va
se subapartado 1.5.3). Si el cociente entre ambos muestra ser significativo, de
acuerdo con el estadstico de comprobacin F, puede afirmarse, al nivel de signifteatividad elegido, e incumplimiento del supuesto de homocedasticidad.
Esta prueba estadstica muestra adecuacin a tamaos mustrales pequeos.
Tambin, cuando se asume que la varianza heterocedstica se encuentra positiva
mente relacionada con una de las variables predictoras en el modelo de regresin.
c) La d de Durbin-Watson. Este estadstico puede utilizarse igualmente en la
comprobacin del supuesto de homocedasticidad, adems de en la compro
bacin del supuesto de independencia de los trminos de error. Esta prueba se
aplica a residuos correlacionados serialmente, como se muestra en el suba
partado 1.1.9, En la comprobacin del supuesto de homocedasticidad. su valor
ha de estar comprendido entre 1,5 y 2,5 para poderse afirmar que existe ho
mocedasticidad (Fre y Ruloff, 1989).
A estos tres procedimientos de comprobacin principales cabe aadir otros, aun
que de uso menos extendido. Destacan, por ejemplo, la prueba de Park, la de Gejser

Capitulo 1: Regresin mltiple

43

y la prueba de correlacin de rango de Spearman. Una informacin detallada de las


mismas se encuentra en Gujarati (1988).

E 'jJEMPLO DE COMPROBACION DEL SUPUESTO DE HOMOCEDASTICIDAD


El supuesto de homocedasticidad se ha comprobado, primero, para e( modelo de re
gresin en su conjunto; y, segundo, en cada variable predictora por separado. Para su com
probacin se ha acudido no slo a estadsticos, sino tambin a grficos de residuos. No se
olvide que la recomendacin ms extendida es el uso preferente de grficos (Hair et a/. 1992;
1999). Particularmente, aquellos que incluyen residuos (diferencias entre los valores de Y ob
servados y los predichos a partir del modeio de regresin -vase subapartado 1.1.10-), en
especial, en el anlisis de regresin lineal, caracterizado por incluir variables mtricas.
En ia comprobacin conjunta del supuesto de homocedasticidad se observa, nuevamente,
discordancia entre lo dicho por estadsticos de comprobacin y lo reflejado en ios grficos de
residuos. Atendiendo a lo indicado en el estadstico d de Durbin-Watson, cuyo valor es 1,819,
puede afirmarse, de acuerdo con lo dicho por Frei y Ruloff (1989), que el supuesto de homocedasficidad se satisface. El valor del estadstico d se halla comprendido en el rango de
valores que define el cumplimiento del supuesto de homocedasticidad de 1,5 a 2,5. Este re
sultado ya se prevea al haberse constatado, con anterioridad, la prctica correspondencia
de la distribucin de los datos con la curva normal.
La misma conclusin no puede extraerse, sin embargo, de la observacin del grfico de re
siduos conjunto, que incluye ios residuos estudentizados respecto a los valores tipificados de
la variable dependiente predcha a partir del modelo de regresin expuesto en el grfico a). Pa
ra que el supuesto de homocedasticidad se satisfaga plenamente, la nube de puntos no debe
mostrar ninguna pauta creciente o decreciente. La banda que agrupa a los residuos ha de ser
igual en amplitud en todos los valores de la variable dependiente predicha y en torno a la me
dia residual (0), como se muestra en la figura 1.5.a. Al haberse elegido los residuos estuden
tizados, el 95% de los mismos debera caer en el intervalo que va de -2 a +2 para que la for
ma del modelo fuese correcta. La mayora de los puntos en el grfico de dispersin a) se
a)

Grfico de dispersin
Variable dependiente: simpata marroqu

R egresin valor pro n o sticad o tipificado

44

Anlisis rnultivariable. Teora y prctica en la investigacin social

concentran en dicho intervalo, aunque en menor proporcin de ia recomendable. Adems, se


observa que la nube de puntos tiene igual amplitud, aunque muestra una continua tendencia li
neal decreciente. Si bien sta no se ajusta plenamente a situaciones claras de heterocedasti
cidad, como las expuestas en las figuras 1.5b y 1.5c. En suma, de ia observacin de dicho gr
fico no puede concluirse el cumplimiento satisfactorio del supuesto de homocedasticidad.
Para mejorar el ajuste del modelo, podra probarse algn procedimiento de regresin alterna
tivo, como e! anlisis de regresin de mnimos cuadrados ponderados. A tal fin, se escogeran
pesos que fuesen proporcionales a la inversa de la varianza {subapartado 1.6.2).
Aunque distintos autores (Tabachnick y Fidell, 1989; Afifi y Clark, 1990) advierten que la
existencia de heterocedasticidad no invalida el anfisis de regresin linea!, aunque io debi
lite, es bueno buscar algn remedio a la misma. Afifi y Clark (1990: 116), por ejemplo, ob
servan que el supuesto de homogeneidad de la varianza no es crucial para la recta de m
nimos cuadrados. De hecho, las estimaciones de mnimos cuadrados de a y b son insesgadas
si o no el supuesto es vlido.
El anlisis por separado de las variables predictoras muestra ei pleno cumplimiento de! su
puesto de homocedasticidad en variables continuas como edad o ingresos y en variables fic
ticias como sexo o "identificacin del inmigrante con delincuente, por ejemplo. Esta conclusin
se extrae tanto de la aplicacin del estadstico de Levene como de la observacin de ios grfi
cos de dispersin correspondientes. Vase el grfico b), de ia variable "edad. Este grfico ejem
plifica como ha de ser el grfico de dispersin para mostrar homocedasticidad e n una variable
continua. La varianza de la variable dependiente ha de ser constante en tos distintos valores de
la variable independiente. El grfico c) (la variable sexo, dicotomizada en 1 varn y 0 mujer) se
adeca, en cambio, a la situacin de anlisis de una variable ficticia.

Por ltimo, ios grficos d) y e) para las variables simpata hacia latinoamericanos" y es
tudios, respectivemente, no muestran la satisfaccin del supuesto de homocedasticidad. Si se
atiende, adems, a lo dicho por el estadstico de Levene, que figura a continuacin, el incum
plimiento del supuesto de homocedasticidad es evidente en ambas variables. Recurdese que
en la prueba de Levene (aplicada para ia comprobacin de la homocedasticidad en un nico par
de varianzas) el rechazo de la hiptesis nula de igualdad de varianzas se produce cuando el va
lor de este estadstico es significativo (p < ,05), a decir por la prueba de significativsdad de F. En

Captulo 1: Regresin mltiple

45

ambas variables la significatividad del estadstico es inferior a dicho referente, lo que supone el
rechazo de ia hiptesis nula. Se est ante variables que incumplen el supuesto de homocedasticidad La varianza de la variable dependiente difiere en los distintos valores de las dos variabies predictoras. Para la interpretacin de los grficos tngase adems presente las unida
des de medicin de ambas variables (expuestas en el subapartado 1.1.3).

En la tabla A figuran los valores del estadstico de Levene, unto a su significatividad, en


distintos supuestos: datos sin transformar o transformados (cuando las caractersticas y el n
mero de casos en ios distintos valores de ambas variables lo permite), en busca de alcanzar
igualdad en tas varianzas. Las transformaciones realizadas han sido tres: la logartmica, la re
cproca y ia transformacin de raz cuadrada. Mediante el estadstico de Levene se compara,
por separado, la variabilidad de la variable dependiente (simpata hacia los norteafricanos:
marroques...) en los distintos valores de cada variable independiente. Aunque el programa
Tabla A
Datos sin Transformacin Transformacin Transformac//i
transformar
logartmica
recproca
raz cuadrada
Levene Sig. Levene Slg. Levene Sig.
Levene Sig.
Leyes inmigracin
Media
Mediana

1,815
1,978

,053
,032

3,099
1,629

,001
,094

8,114
3,500

,000
,000

1,407
1,144

,171
,325

Ideologa poltica
Media
Mediana

2,076
1,756

,024
,065

2,270
1,501

,013
,135

2,492
1,448

,006
,155

2,093
1,588

,023
,106

Sexo
Media
Mediana

3,602
,678

,000
,746

3,602
,678

,000
,746

46

Anlisis multivariable. Teora y prctica en la investigacin social

Datos sin Transformacin Transformacin Transformacin


raz cuadrada
recproca
transformar
logartmica
Levene Sig. Levene Sig. Levene Sig. Levene Sig.
Edad
Media
Mediana

1,136 ,331
1,073 ,379

.,868
,626

,563
,792

1,373
,977

,189
,462

,975
,726

,464
,700

Simpata latinoamericano
Media
Mediana

25,036 ,000
19,095 ,000

29,578
19,536

,000
,000

Regularizar inmigrantes
Media
Mediana

22,144 ,000
5,729 ,000

22,144
5,729

,000
,000

Entrada inmigrantes
Media
Mediana

3,392 ,000
1,689 ,080

8,114
3,129

,000
,001

14,518
4,293

,000
,000

5,232
2,381

,000
,009

Partido racista
Media
Mediana

4,128 ,000
2,402 ,008

6,243
2,543

,000
,005

8,304
2,707

,000
,003

5,127
2,461

,000
,007

N. inmigrantes
Media
Mediana

3,629 ,000
1,941 ,037

2,214
1,888

,015
,043

6,365
2,430

,000
,008

2,502
1,794

,006
,058

25,890 ,000
9,704 ,000

32,494
8,940

,000
,000

39,976
8,292

,000
,000

28,622
9,318

,000
,000

Estudios
Media
Mediana

3,099 ,001
2,331 ,011

1,056
1,155

,394
,319

2,576
,954

,005
,483

1,741
1,684

,068
,081

Ingresos
Media
Mediana

,412 ,941
,372 ,959

,615
,533

,801
,867

1,862
1,375

,047
,188

,314
,320

,978
,976

37,660 ,000
18,686 ,000

38,059
15,921

,000
,000

37,538
13,112

,000
,000

37,735
17,437

,000
,000

4,096
,837

,000
,593

Casar con marroqu


Media
Mediana

Vecino marroqu
Media
Mediana
inmigrante delincuente
Media
Mediana

4,096 ,000
,837 ,593

Captulo 1: Regresin mltiple

47

SPSS (versin 10.0) facilita distintos vaores del estadstico de Levene (basndose en ta me
dia, en la mediana, en a mediana y con los grados de libertad corregidos, y en la media re
cortada), se ha decidido escoger, para simplificar la tabla, los valores de Levene corres
pondientes a la media y a la mediana con los grados de libertad corregidos. De esta forma
puede comprobarse si realmente mejora su robustez, cuando se sustituyen as desviaciones
alrededor de la mediana por las desviaciones alrededor de la media.
De la lectura de !a taba puede concluirse que las desviaciones respecto a la mediana se
adecan ms, especialmente, en las variables ficticias, por las propias caractersticas de di
chas variables (variables dcotmicas). Hecho este inciso, hay que decir que ia significatividad del estadstico de Levene es, en genera!, superior cuando su clculo se realiza a partir
de fa media, que cuando se basa en la mediana, aun ajustando por grados de libertad.
En siete de las catorce variables predictoras analizadas se incumple el supuesto de ho
mocedasticidad, a decir por los resultados de ia aplicacin de esta prueba estadstica. El vaior
del estadstico de Levene es bastante significativo (p < ,05), o que supone el rechazo de la hi
ptesis nula de igualdad de varianzas. La varianza de la variable dependiente difiere en los dis
tintos valores de las siguientes variables independientes: "simpata hacia latinoamericanos, regufarizacin de inmigrantes", valoracin de partidos de ideologa racista, consideracin dei
nmero de inmigrantes, casarse con marroqu, estudios y tener por vecino a un marroqur'.
En la otra mitad de ias variables a significatividad de este estadstico de comprobacin
es inferior (p >,05), ya sea respecto de la media o de ta mediana. Esto significa la aceptacin
de fa hiptesis nula. La varianza de la variable dependiente muestra constancia en dichas va
riables: leyes inmigracin, ideologa poltica", sexo, edad, entrada de inmigrantes, in
gresos e identificacin det inmigrante con delincuente.
De tas opciones barajadas para alcanzar la homocedasticidad en aquellas variables en
las cuales la varianza de la variable dependiente difiere, sio parece lograrse en dos variabies: nmero de inmigrantes y estudios. En la primera, la homocedasticidad puede lograrse
mediante la aplicacin de una transformacin de raz cuadrada. En cambio, respecto a la va
riable estudios, puede realizarse cualquiera de las tres transformaciones comprobadas. Si
bien, normalmente se prefiere la transformacin logartmica como se detalla a continuacin.

Si con la ayuda de estos estadsticos y/o de los grficos de residuos referidos se de


tecta la existencia de heterocedasticidad, habr que aplicar algn remedio que posibilite
la aplicacin de la regresin lineal a los datos de inters. Las opciones posibles son va
rias y dispersas; desde la aplicacin de procedimientos de regresin distintos al estndar
de mnimos cuadrados ordinarios (OLS), hasta transformaciones de la variable de
pendiente en busca de a estabilidad de la varianza.
a) Schroeder et al. (1986: 77) aconsejan el empleo del procedimiento de regresin
de mnimos cuadrados generalizados, para proporcionar pesos diferenciales a
las observaciones y, de esta forma, burlar sus efectos en las pruebas de hiptesis.
No obstante, son ms los autores que se inclinan por el procedimiento de re
gresin de mnimos cuadrados ponderados (WLS): Chatterjee y Price (1977:49),
Afifi y Clark (1990:116) o, ms recientemente, Tacq (1997:131), por citar al

48

Anlisis multivaable. Teora y prctica en ia investigacin social

gunos. Mediante este ltimo procedimiento de regresin (expuesto en el subapartado 1.6.2) las estimaciones de los parmetros de regresin se realizan, co
mo su nombre indica, minimizando una suma ponderada de los cuadrados
de los residuos. Esta suma se caracteriza porque ios pesos son inversamente pro
porcionases a la varianza de ios errores. Por ejemplo, si la varianza es una
funcin lineal de X, el peso idneo sera entonces 1/X.
b) Transformaciones de la variable dependiente en log Y, - fY o en 1/Y, para lograr
ia estabilidad de su varianza. Con los valores transformados se procede a
efectuar el anlisis de regresin lineal.
Aunque estas transformaciones son defendidas por varios autores (como
Gunst y Masn, 1980: 239; o Tacq, 1997:131), Affi y Clark (1990:158) opinan
que las transformaciones de Y deberan evitarse cuando sea posible, porque
tienden a oscurecer la interpretacin de la ecuacin de regresin. A este
respecto, Hair et al. (1992: 52) hacen las siguientes matizaciones:
1. Las frecuencias sugieren una transformacin de raz cuadrada.
2. Las proporciones son mejor transformadas mediante la transformacin arcoseno. Una nueva variable que sea igual a dos veces el arcoseno de la raz
cuadrada de la variable original.
3. El cambio proporcional se maneja mejor tomando el logaritmo de la va
riable.
4. La heterocedasticidad no slo se debe a un tipo de variable. Tambin puede
resultar de la distribucin de bien la variable independiente, bien la de
pendiente, Con frecuencia esto se ve mediante una distribucin de los re
siduos en forma de cono. Si el cono se abre a la izquierda, toma la raz cua
drada. Si, por el contrario, se abre a la derecha, es preferible el inverso.
Respecto a las transformaciones de Y, Nourisis (1986) pone el nfasis,
principalmente, en cmo se presente la varianza o desviacin de Y:
1. Cuando la varianza sea proporcional a la media de Y, para un valor X dado,
es mejor utilizar la raz cuadrada de Y, siempre y cuando todos los valores
de Y; sean positivos.
2. Cuando la desviacin tpica sea proporcional a la media, prueba la trans
formacin logartmica.
3. Cuando la desviacin tpica sea proporcional al cuadrado de la media, em
plea el recproco de Y.
4. Cuando Y sea una proporcin o razn, nuevamente la transformacin ar
coseno se presenta como la mejor opcin para estabilizar la varianza de Y.
Por ltimo, hay que destacar la recomendacin dada ai efecto por McCullagh y Nelder (1989). Estos autores advierten de que la heterocedasticidad puede ser el resulta
do del incumplimiento de los supuestos de normalidad y de linealidad. Por lo que, pue~

Captulo 1: Regresin mltiple

49

de reducirse, e incluso eliminarse, si antes se ha aplicado alguna correccin a ambos in


cumplimientos. Pero esto no significa que la heterocedasticidad se resuelva con la apli
cacin de las mismas correcciones de la normalidad y/o Iinealidad. As se observa que
para datos de frecuencia, que tpicamente tienen errores de Poisson, una transfor
macin de Y1/2 aproxima heterocedasticidad (o varianza constante); Y 213 aproxima
normalidad; y utilizar log Y provoca aditividad en los efectos sistemticos.

1.1.8. Ausencia de colinealidad entre las variables independientes


Para que se puedan medir los efectos concretos de cada variable independiente en
la dependiente es imprescindible la ausencia de colinealidad; es decir, de correlacin en
tre las variables independientes incluidas en el modelo de regresin. La existencia de co
rrelacin elevada entre dos o ms variables independientes (multicolineaUdad) repercute,
de manera directa, en los errores tpicos de los coeficientes de regresin de dichas variable.
stos se ven indebidamente incrementados, lo que provoca que la estimacin de los coe
ficientes sea menos precisa (coeficientes infiabl.es), con el consiguiente aumento de los
intervalos de confianza (a este respecto vase subapartado 1.4.2). El modelo de regresin
puede ser significativo en su conjunto (en virtud de la razn F, que mide la significa
tividad del coeficiente de correlacin cuadrada mltiple o coeficiente de determinacin
R2 -vanse subapartados 1.5.1 y 1.5.3-) y, en cambio, no ser significativos los coeficientes
de regresin individuales de las variables muy colmales que lo componen.
La colinealidad elevada provoca, en suma, un aumento en la variabilidad de los
coeficientes de regresin estimados (que informan de la cantidad de variacin de Y por ca
da unidad de variacin de X_ manteniendo constante las dems variables independientes
en el modelo). Este aumento del error tpico de coeficiente suele suponer un incremento
en la varianza explicada de Y (R2). Pero, al mismo tiempo, aumenta el error de estimacin,
con la prdida consiguiente de significatividad estadstica de los coeficientes de regresin
de las variables muy colmales. Esta significatividad se mide con el estadstico t de
Student, que se obtiene del cociente entre el coeficiente estimado y el error de estimacin.
De manera que, cuanto mayor sea el error de estimacin, menor es el valor emprico de t,
lo que determina la no significatividad estadstica del coeficiente de regresin estimado.
A diferencia de otros supuestos de regresin, la multicolineaUdad afecta no tanto
a la obtencin del modelo (en la vertiente descriptiva), como a sus posibilidades de in
ferencia: la generalizacin de los estadsticos mustrales a los correspondientes pa
rmetros poblacionales.
Pero la multicolineaUdad no debera concebirse como algo que o existe o no exis
te. La multicolineaUdad existe en grados (Berry y Feldman, 1985: 40). Est presen
te en todos los anlisis de regresin, ya que es improbable que las variables independientes
estn totalmente no correlacionadas (Schroeder et al 1986:76). Sirvan como ejemplo,
variables muy habituales en la investigacin social, como son las variables nivel educa
tivo' y ocupacin. Ambas variables actan como indicadores habituales de la posicin
social de un individuo. Sus valores se encuentran muy interrelacionados entre s. Lo que

50

Anlisis multivariable. Teora y prctica en la investigacin social

eleva la correlacin (colinealidad) entre ambas variables. Dicha correlacin se convierte


en problema slo cuando es elevada; es decir, cuando una de las variables independien
tes comparte con otra (u otras) ms de la mitad de su variabilidad. La multicolinealidad
es perfecta si la variabilidad de dicha variable puede ser perfectamente predecida a
partir del conocimiento de otras variables predictoras. Al no aportar ninguna informacin
nica al modelo de regresin, debera considerarse su no incorporacin al modelo de re
gresin porque afectara negativamente al clculo de la ecuacin de regresin.
La multicolinealidad puede detectarse en distintas fases del anlisis de regresin:
en los prembulos, en la matriz de correlaciones, durante su ejecucin, en los coeficientes
de regresin y en sus errores tpicos correspondientes. Tambin mediante los estads
ticos de tolerancia y el llamado factor de inflacin de la varianza (FTV) y otros que a
continuacin se detallan.
La matriz de correlacin muestra la correlacin entre cada variable indepen
diente, por separado, con la dependiente y, tambin, de las independientes en
tre s. Un coeficiente de correlacin entre dos variables independientes igual a
0,0 indica ausencia completa de colinealidad. Mientras que una correlacin
de 1,0, colinealidad perfecta. A partir de 0,60 suele considerarse la colinealidad
problemtica. Y ms, cuando la correlacin supera el valor 0,80, que denota que
ambas variables se hallan muy correlacionadas.
Pese a estos referentes comnmente aceptados, Berry y Feldman (1985:42)
reconocen que es muy difcil definir un valor de corte que siempre sea apro
piado. En muestras pequeas, una correlacin entre dos variables indepen
dientes de 0,70 puede repercutir negativamente en la estimacin de los coefi
cientes. En muestras una correlacin de 0,85 puede incluso afectar menos al
clculo de la ecuacin de regresin.
Por su parte, Wittink (1988:89) matiza que una correlacin de 0,50 entre
dos variables predictoras tiene poco impacto en el error tpico. Pero una co
rrelacin de 0,95 requiere casi tres veces tanta variacin en X (o tres veces el ta
mao de la muestra) comparado con tener correlacin cero. Con una correlacin
de 0,99 requerimos casi siete veces tanta variacin, o siete veces el tamao de la
muestra. A partir de una correlacin de 0,95 entre dos variables predictoras se
est, en consecuencia, ante un problema grave de colinealidad. Este valor de cor
te es, no obstante, bastante elevado y se aleja del habitualmente propuesto co
mo indicativo de colinealidad problemtica: 0,60 (Tacq, 1997); o, al menos, del
valor 0,80 (Berry y Feldman, 1985; Hutcheson y Sofroniou, 1999).
En esta discusin de qu valor de correlacin tomar como referente de co
linealidad problemtica, tngase tambin presente una limitacin inherente a la
matriz de correlaciones. sta slo muestra las relaciones individuales entre ca
da par de variables: independiente con independiente y de independiente con de
pendiente. Si se quiere en cambio comprobar el grado de relacin entre cada va
riable independiente con las otras variables independientes, al mismo tiempo,
habr que acudir a otros procedimientos.

Captulo : Regresin mltiple

51

La existencia de multicolinealidad tambin puede detectarse durante el anlisis,


cuando se observen errores tpicos elevados en coeficientes de regresin de va
riables que se espera sean importantes predictores de la variable dependiente.
La obtencin de errores tpicos inflados redunda en la prdida de significatividad estadstica de los coeficientes de regresin, como ya se ha mencionado.
No obstante, hay que precisar que la existencia de errores tpicos elevados no
siempre es indicativa de coUnealidad elevada. Puede ser consecuencia de haber
estimado dicho coeficiente en un tamao muestral pequeo y/o que la variable,
en la muestra analizada, tenga una elevada varianza. Ambos aspectos, relacio
nados con los casos analizados, han de valorarse antes de atribuir, de forma au
tomtica, errores tpicos elevados a la existencia de multicolinealidad.
o Un procedimiento alternativo de comprobar la existencia de multicolineali
dad consiste en efectuar un anlisis de regresin para cada variable indepen
diente por separado. En cada ocasin, una de las variables independientes acta
como variable dependiente. El resto contina siendo independiente. Para cada
una se calcula una ecuacin de regresin. Despus se comparan los distintos co
eficientes de determinacin R2. Si el valor de ste se aproxima a 1,0, puede afir
marse que la variable en cuestin presenta un grado muy elevado de multico
linealidad con otras variables independientes. Un valor de R2 igual a 0,0 expresa,
por el contrario, la total ausencia de multicolinealidad.
La deteccin del grado de multicolinealidad se considera ms precisa si
guiendo este tercer procedimiento que con la comparacin de correlaciones bivariables, de dos variables por separado, mediante la matriz de correlacin (Cooper y Weekes, 1983; Berry y Feldman, 1985; Menard, 1995). Ello se debe,
precisamente, a que se analiza de manera simultnea la correlacin de cada va
riable independiente con las dems independientes (mediante el valor de R2).
A favor de este procedimiento de deteccin de multicolinealidad tambin es
t la facilidad de su ejecucin. La mayora de los paquetes estadsticos propor
cionan, entre sus varias opciones, la posibilidad de obtener el valor del coefi
ciente R2 mltiple para cada variable independiente, por separado. Ya sea
gracias al estadstico llamado Tolerancia, ya mediante su recproco, el Factor de
Inflacin de la Varianza (FIV).
a) La tolerancia se define como la cantidad de variabilidad de la variable inde
pendiente que no es explicada por otras variables independientes. Su valor se
obtiene restando a 1 la proporcin de la varianza de dicha variable independiente
que es explicada por las dems variables independientes o predictoras (?2;) .
TOL= 1 - / ^
Donde R 2 es la correlacin mltiple cuadrada de la variable inde
pendiente X (considerada como dependiente) y las otras variables in
dependientes.

Anlisis multivariable. Teora y prctica en la investigacin social

TOL; tiene un rango de valores de 0,0 a 1,0. Un valor prximo a 1,0 de


nota ia ausencia completa de multicolineaUdad: la variable Xi no presenta nin
guna correlacin con el resto de variables predictoras. Un valor de toleran
cia inferior a 0,20 es, en cambio, indicativo de un grado elevado de
multicolineaUdad. Si el valor desciende a 0,10, la multicolineaUdad es muy
alarmante y exige la adopcin de alguna medida para reducirla. El valor 0,0
expresa multicolineaUdad perfecta: la varianza de la variable X; est totalmente determinada por los otros predictores.
En consecuencia, interesan valores de tolerancia elevados porque son in
dicativos de una baja multicolineaUdad. Cuando la colinealidad aumenta, el
valor de tolerancia disminuye. Lo que repercute en la peor estimacin del
coeficiente de regresin, debido al incremento de su error tpico.
b) El factor de inflacin de la varianza (FIV, en ingls VIF) es el reverso de la
tolerancia'. Su definicin es la siguiente:
FIV- = TO Lf = ^-t1-R ?
Ai ser inverso de tolerancia interesan valores de FJ V. bajos. Cuanto ms se
aproxime a 1,0 mejor. Un valor de FIV (o VIF) de 1,0 indica la inexistencia de
relacin entre las variables predictoras. Valores superiores a 10,0 expresan multicolinealidad severa. En tolerancia el valor equivalente es 0,10, que exige una
actuacin al respecto. No obstante, se recomienda adoptar alguna medida con
valores inferiores: un valor de FIV de 5 o ms o de tolerancia de 0,2 o menos.
En general, los valores de ambos estadsticos de colinealidad coinciden,
cuando slo hay dos variables independientes.
Antes de proceder al anlisis de regresin, conviene especificar, en el pro
grama informtico que se utilice, el grado de multicolineaUdad que se admite. Los
puntos de corte ms usuales son 0,30 para tolerancia y su equivalente para
FIV: 10,0 (Afifi y Clark, 1990; Hair et al, 1992,1996; Graybill e lyer, 1994; Menard, 1995), Ambos valores corresponden a una correlacin mltiple cuadrada
superior a 0,90. Un nivel ya en s bastante elevado, aunque inferior al aplicado,
por defecto, en la mayora de los programas, salvo que se especifique lo con
trario. En el programa SPSS, por ejemplo, el valor de tolerancia aplicado por de
fecto para excluir una variable del anlisis es 0,01, Este valor es demasiado ba
jo ya que permite la incorporacin, a la ecuacin de regresin, de variables que
tienen hasta el 99% de su varianza determinada por otras variables previamente
incorporadas al modelo de regresin.
La aplicacin de un procedimiento de incorporacin de variables ia depen
dientes secuencia! (o por pasos) -com o se ver en el subapartado 1.6.1permite comprobar la presencia de variables con elevado grado de colinealidad

Captulo 1: Regresin mltiple

53

de una forma alternativa, aunque menos rigurosa que la anterior. Consiste en ob


servar si la incorporacin de una nueva variable a la ecuacin de regresin su
pone una variacin importante en el coeficiente de regresin, de alguna (o al
gunas) variables independientes previamente introducidas en la ecuacin. La
entrada de una nueva variable suele provocar una variacin en el valor de los
coeficientes de las variables incorporadas en pasos previos. Esta variacin ser
tanto mayor cuanto ms correlacionada est la variable con la recin incorpo
rada al modelo. Si la correlacin es baja, apenas hay variacin en el valor del coe
ficiente. Pero, cuando la colinealidad adquiere cierta magnitud, la variacin es
muy apreciable. No obstante, la mayora de los paquetes estadsticos aplican, por
defecto, valores de tolerancia que impiden la entrada de variables muy colineales (como se mencion en el punto anterior).
La multicolinealidad tambin puede comprobarse observando oscilaciones en los
coeficientes de regresin (o coeficientes de pendiente b), siguiendo un pro
cedimiento que puede aplicarse en los anlisis de regresin no secuenciales.
Se divide la muestra del estudio en dos mitades. A continuacin, se realiza un
anlisis de regresin en cada submuestra, por separado. Las variaciones en
los coeficientes de ambas mitades se toman como indicios de multicolinealidad,
sta es ms grave, cuanto mayor es la diferencia entre los respectivos coefi
cientes.
Un ltimo procedimiento de deteccin de multicolinealidad atiende a los autovalores. stos expresan cuntas dimensiones distintas existen entre las variables
independientes. Sus valores se obtienen de la matriz de productos cruzados de
las variables independientes. Para que exista elevada multicolinealidad debe ha
ber varios autovalores prximos a 0. Esto acontece cuando la multicolinealidad
es tan alta que pequeos cambios en los datos pueden provocar grandes cambios
en las estimaciones de los coeficientes de regresin. Situacin que suele coincidir
con modelos de regresin con errores tpicos elevados.
De los autovalores se obtiene el ndice de condicin (IC). Este ndice se de
fine, en cada dimensin, como la raz cuadrada del cociente entre el autovalor
mayor y el menor. Cuando IC es superior a 30, la colinealidad es elevada. Si es
mayor de 10, pero menor de 30, la colinealidad es moderada. Un valor inferior
a 10 supone que se est ante variables de escasa colinealidad.

^ E j e M p O'DB COMPROBA CIN E LA EXISTENCIA MLTiGOLNMj&b


Para comprobar la existencia de multicolinealidad se procede, primero, al anlisis de la
matriz de correlaciones que figura en el subapartado 1.3.2. En esta matriz puede observar
se que la correlacin ms elevada (,573) se da entre las variables X10 (casar con marroqu:
P306} y X13 {'Vecino marroqu"; P506). La correlacin es importante, aunque no alcanza el va
lor de referencia habitualmente aplicado para denotar una colinealidad elevada (que exigira

54

Anlisis rnultivariable. Teora y prctica en la investigacin social

alguna actuacin al respecto): >,80. Ambas variables se hallan relacionadas y de forma po


sitiva, si bien slo comparten el 33% de su variabilidad (,5732). Las personas que manifiestan que no les importara tener como vecinos a una familia de ciudadanos de Marruecos u otro
pas norteafricano suelen coincidir, aunque no plenamente (al ser ta correlacin de ,573), con
aquellos que afirman que no les preocupara que su hijo o hija se casase con un marroqu;
y, a a inversa.
Adems, tngase presente que ai ser el tamao de la muestra analizada bastante elevado
(n = 2.492 individuos), los valores de referencia comnmente adoptados para denotar una colineatidadapreciabie (,60) y severa o muy importante (,80, que supone que casi dos de las
tres partes de la variabilidad de una de las variables puede predecirse por el conocimiento de!
valor de la otra variable con la que se halla relacionada) pueden incluso aumentarse, de acuer
do con Berry y Feldman (1985). El efecto de la multicolinealidad en la obtencin de la
ecuacin de regresin es menor cuando se analiza una muestra grande que cuando fa mues
tra es pequea.
Las segundas variables ms correlacionadas entre s son Xn (estudios: P43a) y X12 (in
gresos: P52), con una correlacin tambin positiva de ,471. Le sigue en importancia la co
rrelacin negativa habida entre las variabfes X4 (edad: P42) y X ,, (estudios: P43a):
-,442. Los estudios y los ingresos covaran de forma ascendente (conforme aumenta el
nivel de estudios io normal es que se incremente el nivel de ingresos, y a la inversa), mien
tras que la edad y los estudios se encuentran negativamente relacionados (los niveles de
estudios ms bajos se dan, con mayor frecuencia, entre las personas de ms edad; a medida
que la edad del encuestado desciende, es ms probable que su nivel de estudios sea superior,
pero no en todos ios casos. La correlacin entre ambas variables no es muy elevada:
-,442).
En suma, de la lectura de la matriz de correlaciones se concluye que ninguna de las 14
variables independientes analizadas se halla, positiva o negativamente, correlacionada con
otra variable independiente en una magnitud que aconseje la adopcin de alguna medida pa
ra evitar ios efectos negativos de su inclusin en el anlisis de regresin.
En el subapartado 1.4.2 se comprueba, asimismo, que ninguno de los coeficientes de re
gresin de las cinco variables predictoras que conforman el modelo de regresin final tiene
un error tpico elevado. Adems, como se observa en el subapartado 1.6.1, donde se expone
la obtencin del modelo de regresin mediante procedimientos secuenciales, los coeficien
tes de regresin de las variables y sus errores tpicos prcticamente coinciden en los distintos
pasos. La incorporacin de una nueva variable predictora apenas altera los coeficientes de
variables previamente introducidas en la ecuacin de regresin. Esta inaiteracin apreciabie
en los coeficientes y errores tpicos correspondientes responde a la escasa correiacin
existente entre las sets variables que finalmente forman el modelo de regresin: X5, XtQ, X1f
X6, X13 y X3. Las correlaciones bivariadas existentes entre cada par de estas seis variables
pueden comprobarse en ia matriz de correlaciones referida (subapartado 1.3.2).
La comprobacin de ta presencia de multicolinealidad sigue con el clculo de los valores
de tolerancia y el factor de inflacin de la varianza (FiV), tanto para las variables incluidas co
mo en fas excluidas del modelo de regresin. Con ambos estadsticos puede comprobarse
la correlacin simultnea de cada variable independiente con el resto de variables inde
pendientes.
Primero, se caiculan los valores de tolerancia y FIV para las variables que forman el mo
delo de regresin. Los valores de ambos estadsticos se recogen en la tabla siguiente. En ella
puede observarse que en ninguna variable los valores de tolerancia o de FIV alertan de la exis

Captulo 1: Regresin mltiple

55

tencia de multicolineaUdad importante. Todos Sos valores de tolerancia superan, y a gran dis
tancia, el valor ,20, que denota un grado elevado de multicolineaUdad. La tolerancia ms al
ta (,994) corresponde a la variable X3 (sexo). La correlacin de esta variable con las cinco
restantes es apenas perceptible. En la matriz de correlaciones se recogen dichas correla
ciones: -0 5 8 (X3 y X5), -,024 (X3.y X10),..,035 (X3 y X.), -,027 (X3 y X6), ,026 (X3 y X13).
Como era de prever, los valores de tolerancia ms bajos se dan en las dos variables in
dependientes que mayor correlacin presentaban entre ellas: X10 (,639) y X13 (,652). Que el
valor de tolerancia de la variable X10 sea ligeramente inferior al obtenido en la variable X13 se
debe a que la primera variable presenta una correlacin, en general, ligeramente superior a
X13 con cada una de !as cuatro variables predictoras restantes. Exactamente, stas son las
correlaciones entre cada par de variables: -,246 (X10 y X,) y -,227 (X13 y X,); -,024 (X10 y X3)
y ,026 (X13 y X3); -,274 (X10 y x 5) y ,267 (X13 y Xs); ,233 (Xf0 y X6) y ,194 (X1S y X6). Com
prubense dichas correlaciones en la matriz de correlaciones (subapartado 1.3.2),
Al definirse FIV como el recproco de tolerancia, las conclusiones que pueden extraerse
de los valores de dicho estadstico coinciden con las expuestas para la tolerancia. Todos los
valores de FIV se sitan muy por debajo del valor de referencia 5,0, que denota la existen
cia de multicolineaUdad importante. El valor de FIV ms elevado se obtiene, como era de es
perar, en la variable X10 (1,566), El ms bajo corresponde a la variable X3 (1,006), que deno
ta ia prctica inexistencia de multicolineaUdad en relacin con dicha variable, al posicionarse
prximo a 1,00.
Tabla A

Variables independientes en el
modelo de regresin
Xs: simpata haca latinoamericanos
X10: casarse con marroqu
X.,: leyes de inmigracin
X6: n. inmigrantes
X13: vecino marroqu
X3: sexo

Tolerancia

Fados de inflacin de
la varianza

,875
,639
,842
,842
,652
,994

1,143
1,566
1,187
1,187
1,534
1,006

Los valores de tolerancia en las variables independientes excluidas del modelo de re


gresin son igualmente elevados. El ms bajo se da en la variable Xa (,786) y el ms alto en
X4 (953). Los de FIV claramente bajos: el ms alto en X8 (1,272) y el ms bajo en X4 (1,049).
De las variables excluidas del modelo interesa, sobre todo, conocer sus valores de toleran
cia mnimos. stos son los valores "mnimos de tolerancia que ia variable tendra si se in
corporase al modelo de regresin. Denota su correlacin con las variables ya incluidas al mo
delo. Lo normal es que los valores de tolerancia mnimos sean inferiores a los de tolerancia,
como se observa en la tabla B a continuacin. Pero, en todo caso, se sitan muy por encima
del valor de referencia de ,20. El valor de tolerancia mnima ms bajo (,628) corresponde a
la variable X14. La correlacin de esta variable con las seis incluidas en el modelo de regresin
es ligeramente superior a ia habida en cualquiera de las siete variables restantes excluidas
del modelo, como puede observarse en la matriz de correlaciones.

56

Anlisis mull-variable. Teora y prctica en la investigacin social

Tabla B

Variables excluidas del


modelo de regresin
X2: ideologa poltica
X4: edad
X7: regularizar inmigrante
Xa: entrada inmigrantes
Xg: partido racista
X?1: estudios
X12: ingresos
X14: inmigrante delincuente

Tolerancia

FIV

Tolerancia
mnima

,949
,953
,831
,786
,890
,915
,928
,825

1,053
1,049
1,203
1,272
1,124
1,093
1,077
1,212

,636
,634
,633
,631
,635
,638
,637
,628

Un ltimo diagnstico de multicolinealidad realizado afecta a ios autovaiores y ai ndice


de condicin (IC). Recurdese que los autovaiores indican cuntas dimensiones distintas exis
ten entre ias variables independientes. Slo en las dimensiones 6 y 7 ios autovaiores se si
tan prximos a 0. Pero, a decir por 1C, slo en la dimensin 7 se obtiene un valor IC (20,139)
situado en el intervalo de 10 (colinealidad moderada) a 30 (colinealidad severa). En las de
ms dimensiones los valores iC son inferiores a 10. Ei valor de iC decrece, obviamente, con
forme disminuye la dimensin.
Atendiendo a las proporciones de la varianza de la estimada explicada por cada com
ponente principal asociado con cada autovalor slo puede calificarse la colinealidad de
problemtica, cuando un componente asociado a un IC elevado contribuye sustancialmen
te a la varianza de dos o ms variables. Esta situacin no se da plenamente en los datos aqu
analizados. De ia lectura de la tabla C se concluye que no es necesario reducir el modelo de
regresin a 5 e incluso 4 variables independientes para conseguir un modelo ms estable,
aunque puede probarse. La dimensin 7 explica el 52% de a varianza de la variable X6 y el
34% de la varianza de !a variable X5. stas son las mayores proporciones de varianza ex
plicada. En las otras variables (X10, X(3 y X3) es mnimo. Lo que no hace imperioso la eli
minacin de la dimensin 7 del anlisis de regresin iineai. La colinealidad detectada por cual
quiera de los procedimientos referidos es de escasa cuanta y no precisa de ninguna
actuacin al respecto para mejorar los resultados del anlisis de regresin.
Tabla C

Dimensin
1
2
3
4
5
6
7

Autovalor
5,855
,497
,349
,108
,102
7.464E-02
1.444E-02

ndice de
condicin
1,000
3,432
4,097
7,371
7,565
8,857
20,139

Proporciones de la varianza
Constante

*5

XfQ

,00
,00
,00
,00
,00
,00
,00

,00
,00
,04
,03
,00
,59
,34

,00
,03
,15
,04
,74
,03
,02

,00
,00
,08
,43
,01
,19
,29

*6

^13

,00
,00
,00
,25
.00
,23
,52

,00
,01
,08
,07
,76
,03
,05

,00
,88
,08
,00
,01
,00
,02

Captulo 1: Regresin mltiple

57

Cuando se detecte ia existencia de elevada colinealidad, ha de adoptarse algn


remedio para evitar su negativa incidencia en los resultados del anlisis de regresin.
Entre los remedios ms utilizados destacan dos: uno ms radical, que supone la eli
minacin de las variables muy colmales; y un segundo, ms conservador, que defiende
la combinacin de variables colineales en una nica variable latente (llmese ndice, fac
tor o componente principal). Tambin puede elegirse aumentar el tamao de la
muestra. Con ello se reducira el error tpico y, de esta forma, el efecto negativo de
la multicolinealidad. Pero, como ello no siempre es posible, habr que elegir alguna de
las medidas siguientes:
e Elim inar las variables independientes que presenten un grado elevado de coli
nealidad. ste es el remedio ms drstico contra la multicolinealidad, por lo que
provoca una amplia disparidad de opiniones.
Algunos autores, como Wittink (1988: 91, 93) advierten que omitir una va
riable predictora relevante puede causar severos problemas. Tal omisin es un
ejemplo de lo que se llama error de especificacin. La validez (falta de sesgos)
requiere la inclusin de las variables predictoras relevantes, mientras que la fia
bilidad (error tpico pequeo) de las estimaciones de ios parmetros puede em
peorar si las variables predictoras estn bastante correlacionadas. Esto le lleva a
defender la combinacin de variables predictoras frente a su eliminacin..
Otros autores afirman, en cambio, que esta solucin no lleva a una gran pr
dida de informacin. Ello se debe a que las variables independientes que estn
bastante correlacionadas presumiblemente representan el mismo fenmeno
(Frei y Ruloff, 1989: 339).
En la decisin de adoptar o no esta medida radical ha de considerarse di
versos aspectos. Principalmente, el nmero de variables predictoras cuyo grado
de colinealidad exige una actuacin, qu proporcin representan estas variables
en el conjunto de las variables independientes y su relevancia en la investigacin
(para que su eliminacin no redunde, negativamente, en un incremento del error
de especificacin).

0 Efectuar un anlisis factorial exploratorio ( de componentes principales o de fac


tor comn) con las variables independientes de inters. Esta solucin supone em
plear, en el anlisis de regresin, ndices o variables latentes (los factores ob
tenidos del anlisis factorial, ya sean componentes principales o factores comunes
-vase captulo 5-) integrados por indicadores bastante correlacionados (las va
riables predictoras colineales). Estos ndices (o factores) actan en el anlisis de
regresin como las variables independientes. Y, debido a que estos ndices han
de estar, por definicin, incorrelacionados entre s (unos ndices o factores
respecto de otros) y, en cambio, los indicadores (o variables empricas) que lo
componen, bastante correlacionadas, el problema de la multicolinealidad se re
suelve (Tacq, 1997).
Chatterjee y Price (1977: 172) matizan que este mtodo de anlisis no
resolver la multicolinealidad si est presente, pero indicar aquellas funciones

58

Anlisis multivariable. Teora y prctica en la investigacin social

que son estimables y las dependencias estructurales que existen entre las va
riables explicativas.
Este uso del anlisis factorial con anterioridad al anlisis de regresin lineal
puede tener una doble finalidad: una, la identificacin de variables indepen
dientes, que sean bastante colineales, para su exclusin del anlisis de regresin;
dos, la combinacin de variables colineales en un nico ndice o factor. Estas apli
caciones del anlisis factorial (relacionadas con a redistribucin de la varianza
compartida por las variables independientes) se desarrollan en el captulo 5, de
dicado al anlisis factorial.

1.1.9. Independencia de los trminos de error

Un ltimo supuesto bsico del anlisis de regresin lineal concierne a la necesidad


de que los trminos de error no estn correlacionados. El valor de la variable depen
diente en cada caso concreto ha de ser independiente del resto. Si las observaciones son
independientes unas de otras, ios residuos sucesivos tampoco han de estar correlacio
nados. En caso contrario, se tiene que hablar de correlacin serial de los residuos, o de
autocorrelacin ,
A diferencia de la heterocedasticidad (que es ms habitual en diseos de investi
gacin transversales o seccionales), la autocorrelacin se produce, con mayor fre
cuencia, en los estudios longitudinales. stos se caracterizan porque la recogida de in
formacin se produce de forma secuencial, en perodos de tiempo sucesivos,
planificados en el proyecto de investigacin. La finalidad es analizar la evolucin del
fenmeno que se investiga a lo largo del tiempo. Como la informacin referida a
unas mismas variables se recoge en dos o ms momentos temporales, el valor que pue
de tener una variable en un momento probablemente no es independiente del valor
que dicha variable adquiri en un tiempo anterior. Esto se evidencia ms, cuando los
dos procesos de recogida de informacin acontecen en un perodo corto de tiempo; y,
sobre todo, si el diseo de investigacin es longitudinal de panel. El recoger un mismo
tipo de informacin, de unas mismas personas, en tiempos sucesivos, puede producir
el efecto no deseado del aprendizaje (Cea, 1996).
Schroeder et al. (1986) sintetizan en tres las causas principales de la autocorrelacin:
1. La omisin de una variable explicativa importante.
2. El empleo de una forma funcional incorrecta.
3. La tendencia de los efectos a persistir a o largo del tiempo o, para las variables
dependientes, a comportarse cclicamente. Tal vez por ello la autocorrelacin es
ms comn en datos de series temporales.
Snchez Carrin (1995: 417), por ejemplo, ilustra la autocorrelacin con la si
guiente aseveracin: lcLa inflacin que pueda haber en un pas en t , t no es inde
pendiente de la inflacin en t . Nourisis (1986: B-188), por su parte, expone el ejem-

Captulo 1; Regresin mltiple

59

po siguiente: Supon que estudias ei tiempo de sobrevivencia despus de una ope


racin como una funcin de la complejidad de la operacin, la cantidad de sangre trans
ferida, la dosis de medicamentos y as. Adems de estas variables, tambin es posible
que la habilidad del cirujano aumente con cada .operacin y que el tiempo de sobre
vivencia de un paciente est influido por el nmero de pacientes tratados. En caso de
que esto sea cierto, habr autocorrelacin.
Asimismo, en un estudio sobre el xito acadmico existir autocorrelacin, si se ob
serva que la calificacin obtenida en un examen no slo depende de las variables in
dependientes horas de estudio, asistencia a clase, cociente de inteligencia o motivacin
por la asignatura. Tambin se ve afectado por el momento de correccin del examen:
si es el primer examen que se corrige, o el ltimo. Las calificaciones dadas a exmenes
precedentes puede afectar a la obtenida en exmenes posteriores. La presencia de un
buen examen (o trabajo) subconscientemente afecta a la calificacin de los exmenes
inmediatamente posteriores, al elevarse el nivel de exigencia del profesor. Igual
mente, el haber corregido, previamente, exmenes deficientes beneficia a exmenes me
diocres posteriores, al disminuir el grado de exigencia del profesor. El estado anmi
co de ste tambin puede afectar a la calificacin final del examen. Sobre todo,
cuando stos se corrigen en distintos perodos de tiempo. Si ello se demuestra, habr
autocorrelacin. E n su evaluacin habr que tener informacin adicional sobre el or
den en que se recogieron los datos en la muestra. Esta informacin no siempre est dis
ponible en los datos de encuesta. En este caso, habr que acudir a grficos de residuos
y/o estadsticos al efecto.
Entre las consecuencias negativas de la autocorrelacin destaca, en primer lugar,
su efecto pernicioso en la significatividad de los coeficientes de regresin. La autoco
rrelacin provoca una subestimacin del error tpico. ste ser inferior al habido
realmente, si no existiese autocorrelacin. La consecuencia inmediata es la obtencin
de un valor t inflado, superior al real. ste indicar que el valor correspondiente del
coeficiente de regresin es significativo estadsticamente, cuando en realidad no lo es.
Lo que invalidar el modelo de regresin.
Para evitar la incidencia negativa de la autocorrelacin , primero hay que proceder
a su identificacin. De nuevo, los grficos de residuos son de gran ayuda para este pro
psito. Los residuos ahora se disponen en orden secuencial. Especialmente, cuando los
datos se recogen y graban secuencialmente. En este caso, los residuos se representan
siguiendo la variable de secuencia en grficos como los incluidos en la figura 1.6. En
los ejemplos expuestos anteriormente, la variable de secuencia es el orden en que los
pacientes son intervenidos quirrgicamente y, en el otro ejemplo, el orden en que se
corrigen los exmenes.
El supuesto d e independencia de los trminos de error se cumple, cuando los re
siduos se distribuyen de una forma aleatoria. Es decir, no muestran ninguna pauta con
sistente, como sucede en la figura 1.6a. En este grfico se alternan los casos con resi
duos positivos con los negativos. Por el contrario, hay autocorrelacin, cuando los
residuos siguen una pauta discernible, a modo de la reflejada en la figura 1.6b. En l
puede apreciarse como se pasa, secuencialmente, de residuos negativos elevados

60

Anlisis multivariable. Teora y prctica en la investigacin social

(-3,0) a positivos (3,0). El orden puede ser tambin el inverso: pasar de residuos ele
vados positivos (3,0) a negativos (-3,0). Estos ltimos grficos son caractersticos de si
tuaciones en que el orden de disposicin del caso en la muestra analizada afecta a la
informacin que de ! se obtenga, como sucede en los ejemplos antes expuestos.

Caso

-3,0

0,0

3,0

Caso

a) Ausencia de autocorrelacin

-3,0

0,0

3,0

b) Autocorrelacin (o dependencia
de las observaciones)

Figura 1.6. Grfico de residuos para detectar autocorrelacin de los trminos de error.

La autocorrelacin puede igualmente identificarse con la ayuda de estadsticos. El


ms aplicado, cuando se analizan datos secuenciales, es el coeficiente de Durbin-Watson. Este coeficiente se calcula a partir de los residuos estudentizados (Et), en cada ca
so, mediante la siguiente frmula:
N

IX
(=1
Con el coeficiente de Durbin-Watson, as definido, se comprueba si la correlacin
serial (a cada residuo Et se le resta el inmediatamente precedente, Et_f) es nula. La au
tocorrelacin es positiva (los trminos de error se hallan positivamente correlaciona
dos) cuando la diferencia entre los residuos sucesivos es pequea. El valor d co
rrespondiente es pequeo. En caso contrario, la autocorrelacin es negativa. La
diferencia entre los residuos sucesivos es grande. Lo que se materializa en un valor d
elevado.
Como en todo contraste de hiptesis, el valor de d emprico, obtenido de la mues
tra, se compara con. el correspondiente valor d terico, a un nivel de probabilidad
concreto. La hiptesis nula de no autocorrelacin entre los trminos de error sucesi
vos se rechaza, cuando la diferencia entre ambos valores d es significativa a dicho ni
vel de probabilidad (p < ,05, usualmente). En general, cuando el valor d" emprico es
t comprendido en el rango de 1,5 a 2,5 no existe motivo de preocupacin.

Captulo 1: Regresin mltiple

61

Si se detecta autocorrelacin en la distribucin de datos, el remedio ms habitual


es la aplicacin del mtodo de regresin de mnimos cuadrados generalizados. ste par
te de] mtodo de regresin de mnimos cuadrados ordinarios, pero difiere -como se ve
r en el subapartado 1.6.2- en utilizar variables que han sido transformadas.

1.1.10. El anlisis de los residuos en la com probacin de los supuestos de regresin

Como el lector habr podido constatar, el anlisis de los residuos es de gran utili
dad en la comprobacin de la mayora de los supuestos de regresin. Especialmente,
en regresin mltiple, cuando se analizan dos o ms variables independientes. Ello se
debe a la dificultad que supone reflejar en un grfico bidimensional los valores de la
variable dependiente para cada una de las variables independientes, de manera si
multnea.
En regresin lineal se entiende por residuo la diferencia entre los valores obser
vados en la variable dependiente (Y) y sus correspondientes valores predichos, a par
tir de la ecuacin de regresin (Yf), para cada uno de los casos analizados (siendo
i = 1,2, 3...n). Residuo es, parafraseando a Hutcheson y Sofroniou (1999: 24), lo que
queda una vez que un modelo se ha ajustado a los datos: E i = Yi No debe confundirse el residuo (denotado E o r.p en algunos textos) con el error de
prediccin (s). El error de prediccin -como se detalla en el subapartado 1.5.2- repre
senta la diferencia entre el valor verdadero de Y en la poblacin (no en ia muestra ana
lizada) y su correspondiente valor estimado mediante la ecuacin de regresin. El valor
real de la variable dependiente en la poblacin puede diferir del observado en la mues
tra, lo que denota la existencia de error de medicin en la investigacin realizada.
Existe una amplia variedad de residuos , aunque todos ellos hacen referencia a la
diferencia entre la respuesta observada y la predcha. Entre los ms empleados se en
cuentran los siguientes:
a) Residuos brutos (o raw residuals)- stos se ajustan a lo que normalmente se
entiende por residuo : la diferencia entre los valores de la variable dependien
te observados (Y) y los predichos (Y ), en cada caso concreto. Cuanto ms gran

de sea dicha diferencia, peor es el ajuste a la ecuacin de regresin.


Ei = Y r

Yi

Si bien, tngase presente que los residuos brutos se hallan expresados en la


unidad de medicin de la variable dependiente. Lo que hace que su cuanta sea
muy dispar. Superior en variables como ingresos, por ejemplo; e inferior en va
riables como antigedad en el cargo. Depende de la unidad de medicin de la
variable dependiente.
b) Residuos estandarizados (o standardized residuals, o *ZRESID, en progra
mas como el SPSS). Tratan de paliar la deficiencia observada en los residuos

Anlisis multivariable. Teora y prctica en la investigacin social

brutos, cuya cuanta se halla relacionada con la unidad de medicin de la va


riable dependiente. Para ello se divide al residuo bruto (.) por la estimacin de
su desviacin tpica (<r). De esta forma la magnitud del residuo queda expresada
en unidades de desviacin tpica por encima (si el signo es positivo) o por de
bajo de la media (si es negativo).
El

Y ,-Y :

\ N ~ p l
Donde N representa el tamao de la muestra (que tambin puede re
presentarse por n, para diferenciarlo del tamao de la poblacin); y p", el n
mero de variables independientes incluidas en la ecuacin de regresin.
Esta tipificacin de los residuos (que quedan convertidos a la misma unidad
de medicin: unidades de desviacin tpica) facilita su comprensin, adems de
la comparacin de residuos y de modelos de regresin distintos.
Saber, por ejemplo, que un residuo bruto es igual a -849,25 apenas pro
porciona informacin. Slo que el valor observado en la variable dependiente
( Yj) es inferior a su correspondiente valor predicho (F ). Y ello porque el
signo de dicho residuo es negativo. Si su valor fuese positivo, indicara lo
opuesto: la Y observada es superior a la predicha (Y).
Si se transforma el residuo bruto en estandarizado (al dividirse por la esti
macin de su desviacin tpica), su valor pasa de ser -849,25 a .3,0. Ello permite
conocer no slo que el valor de Y es inferior al correspondiente Y., sino tam
bin que es bastante superior a otros en valor absoluto. Alcanza su valor mximo.
El rango de los residuos estandarizados va de -3,0 a +3,0, aproximadamente. Al
estar estandarizados , estos residuos se caracterizan por ser su media 0 y su des
viacin tpica 1.
c) Residuos estudentizados (Studentized residuals o SDRESID, en notacin
SPSS). Se definen de forma similar a los estandarizados: el cociente del residuo
bruto y su desviacin tpica estimada. A esta definicin comn (con el residuo es
tandarizado) se aade, no obstante, la consideracin de la distancia de cada va
lor de a variable independiente respecto de su media: d i , que expresa la
distancia habida entre el punto i y el punto medio.
La variabilidad de los valores predichos no es igual en todos los puntos, si
no que vara con ios valores de la variable independiente y de la proximidad de
sta respecto de la media. La variabilidad en los valores predichos es menor,
cuando la variable independiente se aproxima a la media. Por el contrario, au
menta para ios valores ms extremos de la variable independiente. Estas con
sideraciones sobre la variabilidad cambiante se materializan en la formulacin

Captulo 1; Regresin mltiple

63

de los residuos estudentizados, al dividir el residuo bruto por la desviacin tpica


estimada del residuo en ese punto.

Los residuos estudentizados se ajustan a a distribucin t de Student, con


N - p *1 grados de libertad. Los valores d tambin suelen denotarse uh.
(GraybiU e Iyer, 1994; Gunst y Masn, 198). Esta cantidad -que suele igual
mente referirse leverage- indica el elemento i de la diagonal de la matriz
H (tambin llamada hat matriz y las cantidades ih , hat vales). Las ob
servaciones con un valor h > 2)/n deberan examinarse como observaciones
potencialmente muy influyentes en la ecuacin de regresin. Lo mismo acon
tece con valores de E t > 2.
d) Residuo elim inado estudentizado (Studentized deleted residuals). Difiere
del anterior en que, a calcular el error tpico residual, no se incluye el isimo re
siduo (~ i). De esta forma se obtiene una distribucin del estadstico t de Stu
dent con N - p - 2 grados de libertad.

Los valores de cualquiera de estos cuatro residuos se aaden a grficos que facilitan
la comprobacin inmediata de ios supuestos de regresin. Los grficos de residuos ms
comunes son los que representan los residuos (ya sean brutos, estandarizados o estdentizados) contra:
Una de las variables independientes (X).
Los valores predichos de ia variable dependiente (Y),
La suma ponderada Y de las variables independientes (X-).
De estos grficos, el ms empleado es el segundo: el grfico de residuos contra los
valores de Y.. En l, tanto los residuos como los valores predichos de la variable de
pendiente se hallan estandarizados. Para que refleje el cumplimiento de los su
puestos de regresin, este grfico no ha de mostrar ningn modelo sistemtico en
consideracin al valor de Y (como ha podido constatarse en los subapartados an
teriores).
, La adecuacin del modelo de regresin puede, asimismo, comprobarse mediante
el llamado casewtse p lo t. ste constituye igualmente un grfico de residuos, aunque
para cada caso concreto y de una forma estandarizada. Como proporciona informacin
de cada uno de los casos analizados (su valor predicho, Y, con sus residuos corres

64

Anlisis multivariable. Teor y prctica en la investigacin social

pondientes), su uso se complica cuando el tamao muestxal es elevado. El nmero de


pginas del grfico aumenta con el nmero de casos analizados. Lo que dificulta su lec
tura e interpretacin.

O . La obtencin del modelo de regresin mltiple; fases principales


Como en cualquier procedimiento analtico, la consecucin de un modelo de re
gresin lineal incluye varias fases. Desde los prembulos", que abarca todas las tareas
referidas a la preparacin de los datos, hasta la fase final de interpretacin del modelo
de regresin obtenido. La interpretacin de los resultados acontece una vez que ha con
cluido la evaluacin de la adecuacin predictiva del modelo, tanto desde la vertiente
estadstica como la lgico-sustantiva. El modelo de regresin ha de ser tericamente
plausible, adems de significativo desde el punto de vista estadstico. De no ser as, ha
br que remitirse a las fases iniciales del anlisis, en busca de causas posibles de la no
significatividad detectada en el modelo. Para este propsito es imprescindible com
probar si se han cumplido cada uno de los supuestos bsicos de regresin. En caso afir
mativo, habr que remitirse al modelo terico y a su operacionalizacin. En caso ne
gativo, habr que buscar algn remedio que posibilite la obtencin de un modelo de
regresin adecuado.
La figura 1.7 esquematiza, a modo de grfico, las fases principales de un anlisis de
regresin lineal mltiple. Es un esquema genrico. Como se ver en el apartado 1.6, la
consecucin de un modelo de regresin lineal difiere segn el procedimiento que se ha
ya seguido en la incorporacin de variables independientes a la ecuacin de regresin.
Si se ha optado por un procedimiento instantneo o, por el contrario, se ha seguido uno
secuencial (o por pasos)- y, dentro de ellos, qu variedad ha sido la finalmente ele
gida (hacia delante, hacia atrs o paso a paso de inclusin y eliminacin de va
riables).

1.3. La preparacin de los datos para el anlisis


Como muestra la figura 1.7, los prem bulos del anlisis de regresin lineal inclu
yen diversas tareas a realizar previas a la ejecucin, propiamente dicha, del anlisis de
regresin. Comprende la elaboracin de un modelo de regresin terico, la seleccin
de los casos a analizar, la comprobacin de los supuestos bsicos de regresin, la de
puracin de los datos e indagacin exploratoria. Los supuestos bsicos de regresin li
neal ya se expusieron en el apartado 1.1. En l tambin se hizo referencia a aspectos
relacionados con la muestra de anlisis (subapartado 1.1.1), aunque no a otras tareas
que componen, igualmente, los prem bulos al anlisis de regresin.
Lo primero es elaborar un m odelo terico. El tener un modelo terico de partida,
diseado a partir del marco terico de la investigacin, es bsico en regresin, como en
cualquier procedimiento analtico. Ayuda a decidir qu variables independientes ele-

Captulo .1: Regresin mltiple

65

PREM BULOS DEL ANLISIS DE REGRESIN MLTIPLE

ESTIMACIN DE LA ECUACIN DE REGRESIN

R
E
P

Elaboracin de un m odelo de regresin terico en consonancia


con ei marco terico de la investigacin
Seleccin de los casos a analizar
Comprobacin de los supuestos bsicos para un anlisis de regresin
lineal
Depuracin de ios datos: tratamiento de los casos sin respuesta (o
datos incompletos)
Indagacin exploratoria. Incluye el anlisis de correlaciones bivariables a partir de la matriz de correlaciones

2 0

L
A
N
T
E
A

Obtencin de los coeficientes de regresin


s El error tpico de los coeficientes
La significatividad de los coeficientes

LA EVALUACIN DEL MODELO DE REGRESIN OBTENIDO


Ei ajuste del modelo de regresin
* El error de prediccin
La significatividad del m odelo de regresin, desde la vertiente es
tadstica y lgico-sustantiva
La deteccin de casos atfpicos

4.0

INTRODUCCIN DE
MODIFICACIONES

CONCLUSIN DEL ANLISIS:


presentacin de resultados

Figura 1.7. Fases principales de un anlisis de regresin mitiple.

gir para la prediccin de la variable dependiente, adems de ios casos a analizar. La ex


periencia de otros investigadores que hayan analizado el mismo problema de inves
tigacin contribuye a evitar errores cometidos en estudios anteriores. Esta expenen-

66

Anlisis multivariable. Teora y prctica en la investigacin social

ca se convierte en un referente crucial en todo diseo de investigacin (Cea, 1996). En


las fases finales de la investigacin, tambin es crucial la mediacin de un marco
terico. ste sirve de marco de referencia al que acudir en la interpretacin de los re
sultados del anlisis.
A continuacin se desarrollan otros dos aspectos no tratados: el tratamiento de los
casos sin respuesta y la matriz de correlaciones.

1.3.1. Depuracin de los datos: el tratamiento de los casos sin respuesta

Una vez concluida la recogida de informacin de la muestra elegida, procede


realizar tareas preliminares de depuracin de los datos que se han recogido. Incluye la
eliminacin de errores de grabacin, adems de algunas decisiones clave, como la re
ferida al tratamiento de los casos sin respuesta en una o en varias variables de la in
vestigacin.
El anlisis de regresin precisa, como la generalidad de las tcnicas analticas, de
datos completos en todas las variables incluidas en el anlisis. Pero, en la prctica in
vestigadora, esto no sucede siempre. Es frecuente encontrar variables de las que se ca
rece de informacin en algunos casos de la muestra. Cuando esto acontece, ha de adop
tarse alguna medida que evite los efectos negativos que la inclusin de datos
incompletos tiene en el anlisis. Fundamentalmente, la sobreestimacin de los errores
tpicos de los coeficientes de las variables afectadas. Esta sobreestimacin redunda, de
manera negativa, en la significatividad de los coeficientes de regresin y, ms am
pliamente, en el ajuste global del modelo de regresin.
Las actuaciones posibles ante datos incompletos dependen de varios aspectos: el ta
mao de la muestra, la proporcin que en ella representen los datos incompletos, si s
tos afectan a una o a varias variables y, por ltimo, si se hayan distribuidos de forma alea
toria. La negativa sistemtica de los sujetos a responder un tipo de pregunta particular
en una encuesta puede distorsionar seriamente los resultados (Hutcheson y Sofroniou,
1999:18).
Si la proporcin de datos incompletos es pequea en una muestra elevada y stos
se distribuyen de forma aleatoria, la mejor opcin puede ser eliminarlos del anlisis.
Pero, cuando estas condiciones no se cumplen, la aplicacin de este remedio radical
a los datos incompletos no es recomendable. Primero, porque puede suponer una re
duccin drstica del tamao muestral, que haga peligrar la validez estadstica de
los resultados del anlisis. Y, segundo, porque puede provocar la obtencin de re
sultados sesgados.
Adems, tngase presente que, para efectuar el anlisis de regresin, se eliminan
de la matriz de datos inicial todos aquellos casos que no aporten informacin en al me
nos una de las variables consideradas. La merma del tamao muestral original es ms
drstica cuantas ms variablesse incluyan en el estudio y no coincidan los casos sin res
puesta en todas las variables. Segn estimaciones de Jaccard y Wan (1996) la reduccin
en el tamao muestral puede llegar incluso a suponer su reduccin a la mitad, cuando

C aptalo 1: Regresin mltiple

67

se incluyen 15 variables y cada una de ellas tiene, al menos, un 5% de sus valores sin
respuesta.
- La eliminacin de los casos sin respuesta tampoco es una solucin recomendable,
cuando estos casos no son azarosos Al contrario, se ajustan a un perfil determinado,
que les diferencia de aquellos que s aportan informacin. Tmese, por ejemplo, dos
variables: ingresos y categora profesional. Si se observa que personas de distintas
categoras profesionales no declaran igualmente sus ingresos -las personas de cate
goras profesionales superiores son, por ejemplo, los ms reacios a informar de sus in
gresos-, no se est ante datos incompletos al azar. La eliminacin de estos casos del
anlisis supondr, salvo que representen una baja proporcin en el conjunto de la
muestra, la obtencin de resultados sesgados, adems de estimaciones de parmetros
inconsistentes. Por esta razn se aconseja que, antes de proceder a eliminar del an
lisis a los casos sin respuesta , se compruebe si aquellos casos que no aportan infor
macin en variables de inters se ajustan a un mismo perfil. De ser as, habr que de
sestimar su eliminacin de la muestra de anlisis y optar por otro remedio a la no
respuesta.
Cuando no se cumplen las circunstancias referidas de tamao muestral elevado y/o
baja proporcin de casos sin respuesta, y stos no se distribuyen al azar, sino que
renen unas mismas caractersticas, es habitual elegir alguno de los remedios si
guientes:
La imputacin a partir de los casos de los que se tiene informacin. Se trata de
sustituir estos valores sin respuesta por otros que tendrn tratamiento de valo
res observados reales. Los valores se imputan siempre bajo el supuesto de
cul habra sido el valor dado a la variable por ese caso o sujeto si hubiese da
do una respuesta. A tal fin pueden seguirse distintos procedimientos.
1. Reemplazar los valores sin respuesta (missing values) en una variable por la
media de los valores observados en dicha variable, antes de proceder al
anlisis. Esta solucin es especialmente til, cuando se quiere hacer uso de los
datos incompletos y las intercorrelaciones existentes entre las variables son
pequeas. La ventaja principal es que todos los casos de la muestra original
intervienen en la obtencin del modelo de regresin. El inconveniente sera
los sesgos que su aplicacin puede introducir en las estimaciones de los pa
rmetros de regresin.
2. Tomar los valores de respuesta dados por otros casos que han proporcio
nado respuestas similares en otras variables. Se trata de atribuir a los casos
sin respuesta a dada por otros individuos de similares caractersticas, que
han proporcionado las mismas respuestas que ellos en las dems variables.
Esta atribucin de respuesta es ms arriesgada que la solucin anterior. In
dividuos con similares caractersticas no tienen por qu ser plenamente
coincidentes.

68

Anlisis multivariable. Teora y prctica en la investigacin social

3. Predecir cul habra sido la respuesta del sujeto, partiendo de la informacin


que s proporcion en otras variables. Esta prediccin puede llevarse a
efecto mediante una ecuacin de regresin, que analice el valor que co
rresponder a la variable en cuestin, considerando las respuestas que dicho
sujeto dio en otras variables.
Este tercer procedimiento de imputacin es una opcin deseable cuando
existen correlaciones elevadas entre las variables consideradas (Afifi y
Clark, 1990). Pese a ello, su aplicacin puede introducir sesgos en el anlisis,
como sucede con los dems procedimientos de imputacin.
Incluir los casos sin respuesta , en una o en varias variables, con el cdigo missing valu. Si los datos son continuos , estos valores sin respuesta suelen codi
ficarse como valores extremos (por ejemplo, 99 o 0), En estas circunstancias, es
ta opcin no parece ser muy til. Pero s, en cambio, cuando se analizan
variables ficticias. La consideracin de ios datos incompletos como una res
puesta separada a una cuestin junto con otras respuestas puede ser una opcin
interesante. Algunas veces, en los datos de encuesta, el hecho de que un sujeto
no responda una cuestin particular puede ser una parte de informacin til a
analizar (Afifi y Clark, 1990: 224).
El investigador tambin puede considerar la eliminacin del anlisis de cualquier
variable que presente una proporcin elevada de casos sin respuesta. A menos
que sta se estime crucial en la prediccin de la variable dependiente.
Un ltimo remedio que puede evitar la incidencia negativa en la merma de la
muestra original que puede suponer la eliminacin de los casos sin respuesta, sin
acudir a la imputacin, es la eliminacin del anlisis slo de los casos que no apor
ten informacin en la variable que se analiza; es decir, slo cuando se estimen los
parmetros de la variable afectada por la no respuesta. Que el caso se elimne de
dicho anlisis no supone su eliminacin de otros anlisis que afecten a otras va
riables de las que s proporciona informacin. Este proceder ofrece la gran ven
taja de suponer una reduccin sensiblemente menor del tamao muestral que
la eliminacin total del caso, indistintamente de la variable que se analice, sin ne
cesidad de recurrir a la imputacin. De ah que haya sido sta la actuacin se
guida en el anlisis de los datos aqu expuestos.

E j e m p l o d e t r a t a m ie n t o d e l o s c a s o s *s in r e s p u e s t a

ES tratamiento dado a ios casos "sin respuesta en ia encuesta aqu analizada ha sido el
ltimo mencionado; realizar e anlisis de regresin slo con aquellos casos que s propor
cionan informacin en ias variables de inters. Al ser e! tamao de la muestra original bas
tante elevado (n = 2.492 casos), no era imperioso recurrir a la imputacin. Se quera con ello

Captulo 1: Regresin mltiple

69

evitar los sesgos que toda suposicin de cul habra sido la respuesta dada puede introdu
cir en la estimacin de los parmetros. Pero, proceder a la eliminacin de todo caso que no
aportase informacin en alguna de las variables incluidas en el estudio supona una reduc
cin drstica en e tamao de la muestra origina!, bastante superior a ia mitad (n = 692}. Es
ta drstica merma en el tamao muestral, por encima de las predicciones de Jaccard y Wan
(1996), se debe no slo al nmero de variables elegidas para el anlisis (15), sino tambin
a que los casos "sin respuesta no coinciden en todas fas variables. La desestimacin de los
casos sin respuesta", aunque slo sea en una de tas variables seleccionadas para el an
lisis, provoca esta reduccin tan llamativa en el tamao muestral, cuando se analizan con
juntamente las variables. Sin duda la reduccin habra sido menor, s los casos sin respuesta"
no se hubiesen distribuido a! azar en ia muestra, adecundose a un mismo perfil en la ma
yora de las variables.
En cambio, la eliminacin parcial del caso sin respuesta del anfisis, slo cuando afec
ta a la variable que se analiza, supuso una reduccin sensiblemente menor en el tamao de
ia muestra original a 1.280 casos. Esta reduccin se debi al cruce de las dos variables con
ms casos sin respuesta: leyes inmigracin' (P18), con un tota) de 1.713 casos vlidos; y la
variable ingresos (P52), declarados slo por 1.793 de los 2.492 encuestados. Pese a
ello, el tamao muestral contina siendo elevado y posibilita, para la comprobacin de la va
lidez de los resultados, e seccionamiento aleatorio de la muestra a la mitad (aproximadamente
640 casos en cada submuestra: de anfisis y de validacin).

1.3.2. Indagacin exploratoria: la m atriz de correlaciones

Antes de comenzar el anlisis de regresin, propiamente, es conveniente hacer in


dagacin exploratoria en los datos a analizar. Se precisa conocer si, con la informacin
reunida, puede llevarse a cabo un anlisis de regresin. Adems de la comprobacin
de los supuestos bsicos de regresin, ya referidos, procede realizar anlisis univariables
de cada una de las variables de inters por separado. En especial, se analizan sus m e
dias y desviaciones tpicas. Recurdese que la regresin lineal exige que las variables
se ajusten a una escala continua. Por lo que, la media y la desviacin tpica se convierten
en las medidas de tendencia central y de dispersin ms representativas, y dos esta
dsticos principales cuyos valores se revisan.

E j e m p l o d e in d a g a c i n e x p l o r a t o r ia
MEDIA Y DESVIACIN TPICA

u n iv a r ia b l e -

A continuacin figuran las medias y desviaciones tpicas de las variables analizadas en


la muestra total. Para su interpretacin se recomienda la relectura del subapartado 1.1.3. En

70

Anlisis rnultivariable. Teora y prctica en la investigacin social

Estadsticos descriptivos

Media
Simpata marroqu
Leyes inmigracin
Ideologa politica
Sexo
Edad
Simpata latinoamericano
Nmero inmigrantes
Regularizar inmigrante
Entrada inmigrante
Partido racista
Casar con marroqu
Estudios
ingresos
Vecino marroqu
Inmigrante delincuente

5,9629
2,6947
4,6729
,4811
44,9330
7,1693
2,2260
,7568
1,9069
1,4242
1,6729
2,1482
143.991,0
1,2670
,5716

Desviacin
tpica
2,7276
1,0354
1,9595
,4997
18,1276
2,2478
,6284
,4291
,6305
,5692
1,0094
1,1990
105.233,1459
,6723
,4950

N
2.183
1,713
1.804
2.492
2.492
2.174
2.111
2.171
2,288
2.237
2.415
2,281
1.793
2.468
.2.13 8

l se describe cada una de las variables; si son continuas o ficticias, adems de los cdigos
numricos dados a cada uno de sus valores. Esta informacin es de gran inters en ta in
terpretacin de estos estadsticos descriptivos.
Adems, observse como el tamao muestral (N) vara en cada variable, ai excluirse del
anlisis los casos sin respuesta slo en la variable a la que afecta. En las variables sexo" y
edad" se dispone de informacin de todos los casos de ia muestra original. Pero, en otras va
riables, como leyes inmigracin (P16) e ingresos (P52), los casos analizados se reducen
considerablemente. En ia variable ingresos ia reduccin no sorprende, debido a la reticencia
normalmente mostrada a ia declaracin especfica de los ingresos, aun pidindose que se den
de forma aproximada. En a variable leyes inmigracin tampoco, al haberse incluido como
opcin de respuesta (en la valoracin de las leyes que regulan la entrada y permanencia de
extranjeros en Espaa) no conoce la legislacin en materia de inmigracin.
Por ltimo, sealar que la mayor desviacin tpica de ia variable ingresos, seguida a dis
tancia de ia variable edad, se debe a la unidad de medicin de ambas variables: pesetas y
aos. En las otras variables el rango de valores posibles se restringe a 11 como mximo (en
las variables simpata marroqu y simpata latinoamericano: la escala de valores va de 0
[ninguna simpata] a 10 [mucha simpata]); y en las variables ficticias (sexo [P41], regularizar
inmigrante [P19] e inmigrante delincuente [P2904]) se reduce a los valores 1 y 0 (el grupo
de referencia).

A la indagacin exploratoria univariable le sigue la bivariable que analiza la re


lacin habida, por separado, entre cada dos variables. Primero, se quiere conocer el
grado de relacin de cada variable independiente con la dependiente para decidir

Captulo 1: Regresin mltiple

71

la pertinencia de su inclusin en el anlisis. Si una variable independiente muestra


una mnima correlacin con la dependiente, se puede reconsiderar su inclusin en
el anlisis. Segundo, se comprueba la relacin habida entre cada dos variables in
dependientes. La finalidad es comprobar el grado de colinealidad existente entre
ellas y si ste puede afectar negativamente a los resultados del anlisis (como ya se
dijo en el subapartado 1.1,8). Toda esta informacin la proporciona la matriz de co
rrelaciones.
La matriz de correlaciones incluye las correlaciones bivariadas de cada una de las

variables que participan en el anlisis. Esta matriz se caracteriza por ser cuadrada y si
mtrica. Los mismos valores se sitan por encima y por debajo de la diagonal de la ma
triz (que resulta del cruce de una variable por s misma). Por esta razn, en algunos
programas estadsticos slo se dan los valores que se hallan a un lado de la diagonal
(por encima o por debajo), para no proporcionar informacin redundante.
En a matriz de correlaciones la diagonal siempre est compuesta por unos. Incluye
la correlacin de cada variable, ya sea dependiente o independiente, consigo misma. De
ah que la correlacin sea siempre 1,0, el valor mximo posible. Las variables figuran en
el mismo orden en filas y en columnas. La variable dependiente puede estar en la lti
ma fila y columna, o en la primera, depende del programa que se utilice. Sus valores se
cruzan con cada una de las variables independientes, de lo que se obtiene un coeficien
te de correlacin producto-momento de Pearson ( r ). ste constituye una medida basada
en la covarianza entre dos variables relacionada con la dispersin de sus respectivas dis
tribuciones. Concretamente, se obtiene del cociente entre la covarianza de X e Y y
la raz cuadrada de las varianzas de X e Y , para todo valor i = (1,2,3...N), siendo N
(o n) el tamao de la muestra. Dos frmulas alternativas son las siguientes:

donde Sxy =

------ X Y = Covarianza de X en Y
N

S 2x - --i------ X 2 = Varianza de X, siendo

cuadrado de la media de X

S 2y = -i2~ ----- Y 2 ~ Varianza de Y, siendo Y 2 el cuadrado de la media de Y

72

Anlisis rnultivariable, Teora y prctica en la investigacin social

Mediante cualquiera de estas frmulas se obtiene un coeficiente que expresa e gra


do y la direccin de la relacin existente entre dos variables (X e Y, cuando se mi
de la relacin de cada variable independiente con la dependiente; o de X y X , si
a relacin es entre dos variables independientes). Su valor oscila de -1,0 a 1,0. El va
lor 0,0 expresa inexistencia de relacin entre las variables; +1,0 correlacin perfecta po
sitiva (conforme aumenta e valor de una variable se incrementa, igualmente, el valor
de la otra); y -1,0 correlacin perfecta negativa (el incremento de una variable provoca
la disminucin de la otra).
La figura 1.8 contiene la composicin de una m atriz de correlaciones. En ella
aparece cada coeficiente de correlacin entre cada par de variables, indistintamente de
si actan de dependiente o de independientes. La diagonal est formada por unos y, a
ambos lados de ea, se sitan los mismos coeficientes. Es igual, por ejemplo, la co
rrelacin de la variable X t con X 2 (r12) que a la inversa (r2), de la variable X 2 con X v
Las correlaciones entre variables ficticias equivalen a los coeficientes ph i (<p) y se re
lacionan con x 1 (chi-cuadrado), porque <j>Ambos estadsticos miden la relacin
entre variables cualitativas en una tabla de contingencia 2 x 2 . Ello afecta a que la corre
lacin entre este tipo de variables se interprete como a proporcin de casos que en ese
grupo es mayor (signo positivo) o menor (signo negativo) que la proporcin de casos
en los otros grupos.

X ,

x 2

x s

X ,

r u

r J3

. .

x 2

r 2l

r 23

x 3

l 32

X ,

f p2

r *

r >6

r yt

X ,

r 2p

r yp

T py

Figura 1.8. Matriz de correlaciones.

Una forma de analizar la m atriz de correlaciones es determinar un valor de corte,


por ejemplo, una correlacin igual o superior a 0,50, o incluso inferior: 0,40. Sea
cual fuere el valor que se escoja, se procede a sealar todas aquellas correlaciones cu-

Captulo 1: Regresin mltiple

73

ya correlacin sea de igual o superior magnitud que el valor tomado de corte. Esto ayu
da a tener una primera impresin de las interrelaciones existentes entre las variables.
Se insiste en que 1a relacin es exclusivamente entre dos variables y no se tiene en con
sideracin la influencia, a su vez, con otras variables.
Si la relacin es entre dos variables independientes, recurdese que todo valor igual
o superior a 0,80 se considera indicativo de una elevada correlacin entre las varia
bles (se est ante variables muy colm ales). Son funciones casi perfectas una de otra,
lo que demanda la adopcin de alguna de las medidas contra la multicolineaUdad re
feridas en el subapartado 1.1.8. Tambin puede tomarse como referente de colineali
dad importante toda correlacin igual o superior a 0,60.
Asimismo, puede darse la situacin de correlaciones inferiores a las esperadas. EUo
puede deberse a la existencia de una relacin no lineal entre las variables o, simple
mente, a la presencia de outliers (casos atpleos'). Para descartar ambas explicacio
nes a la baja correlacin entre las variables hay que proceder a la comprobacin de los
supuestos de regresin (apartado 1.1) y, en su caso, a la deteccin de atpleos (va
se subapartado 1.5.4).
Por ltimo, advertir de que las correlaciones demasiado bajas pueden deberse,
igualmente, a valores extremos de la media y desviacin tpica de la variable. Si las me
dias de las variables para una muestra dada son nmeros muy grandes y las desvia
ciones tpicas muy pequeas, entonces los programas de ordenador pueden producir
matrices de correlacin cuyos valores son demasiado pequeos (Hutcheson y Sofroniou, 1999:18). Esta tercera explicacin tendr, asimismo, que comprobarse, lo que
exige un anlisis univariable de las variables afectadas.

j e m p l o ,d e m a t r iz d e c o r r e l a c i n

En el subapartado 1.1.8 se hizo referencia a la matriz de correlaciones, a su aplicacin


en la comprobacin del grado de colinealidad existente entre dos variables independientes.
A lo expuesto en el susodicho subapartado hay que aadir comentarios referidos, princi
palmente, a las correlaciones de cada variable independiente con la dependiente.
En la salida original del programa SPSS (versin 10.0) figura la matriz de correlaciones
completa, junto a la significatividad (unilateral) de cada correlacin bivariable y e tamao
muestra! en el que se han calculado. Para facilitar su exposicin y lectura, se ha decidido ex
poner la matriz de correlaciones como se hace en un informe de resultados. Las correlaciones
bivariables slo aparecen una vez, no repitindose a ambos lados de ia diagonal. Recurdese
que la correlacin entre la variable X, y X 2 es igual a la habida entre X2 y X.,. Lo mismo su
cede con las dems variables.

74

Anlisis multivariable. Teora y prctica en la investigacin social

Matriz de correlaciones
Y
Y
x,
X2
x3
X4

xs

*7

x8
X,o
x

X,3
*,4

1,000

x,

x2

x3

,302 -,115 -.050


{,000} (,000) (.010)
1,000 -,181 -.035
(.000) (,076)
1,000 -,031
(,098)
1,000

x,
-1 1 3
(.000)
-1 2 9
(,000)
,118
(,000)
,058
(,002)
1,000

x5
,593
(,000)
,196
{,000)
-.048
(,024)
-0 0 9
(,330)
-,102
(,000)
1,000

x6
-.297
(,000)
-,337
(,000)
,140
(,000)
,027
(.106)
,141
(,000)
-,230
(,000)
1,000

x7
,281
(.000)
,286
(,000)
-,111
(,000)
-,039
(.035)
-,089
(.000)
,228
(.000)
-,283
(.000)
1,000

xe
-,294
(.000)
-,368
(.000)
,136
(.000)
,046
(.015)
,117
{,000)
-.246
(,000)
,275
(.000)
-,388
(.000)
1,000

x9
-.216
(,000)
-141
{,000)
,170
(.000)
,021
(.160)
,097
(,000)
-2 1 9
(,000)
,183
(,000)
-,199
(,000)
,257
(.000)
1,000

x 10
-4 7 6
(,000)
-,246
(,000)
,147
(.000)
-,024
(.116)
,163
(,000)
-2 7 4
(,000)
,233
(,000)
-,265
(,000)
,290
(,000)
,239
(.000)
1,000

x ,a

X13

X,4

,140
(.000)
,184
(,000)
-,052
(.017)
,080
(,000)
4 4 2
(.000)
,120

,057
(.012)
,156
(.000)
,037
(.086)
,107
(.000)
-,291
(.000)
,085
(.000)
-.223
(.000)
,118
(,000)
-,139
(.000)
-0 7 0
(,002)
-,023
(.169)
,471
(.000)
1,000

-.396
{,000)
-,227
(.000)
,117
{,000)
,026
(.102)
,124
(,000)
",267
(.000)
,194
(,000)
-,249
(.000)
,266
(,000)
,261
(.000)
,573
(,000)
-,095
(.000)
-,041
(.041)
1,000

-,268
(,000)
-,289
(,000)
,149'
(,000)
,055
(.005)
,201
(.000)
-,199
(,000)
,316
(,000)
-,268
(,000)
,309
(.000)
,179
(.000)
,271
{,000)
-,204
(.000)
-.117
(,000)
,207
(.000)
1,000

(,000)
-.254
(,000)
,175
(,000)
-,154
(,000)
,128
(.000)
-.114
(.000)
1,000

* Las cifras entre parntesis corresponden a la significatividad de tas correiacones bivariabies respectivas.
Y: simpata hacia norteafricano (marroqu,..) (P201); X,: "Seyes inmigracin" (P16); X. ideologa poltica (P39);
X3: "sexo (P41); X4: edad (P42); Xa: "simpata hacia latinoamericanos" (P210); Xe: nmero de inmigrantes
(P1 1}; X7: regularizar a inmigrantes (P19); Xa: "entrada inmigrantes (P21); X9: partido racista" (P37); X10; ca
sar con marroqu" (P306); Xt1: "estudios (P43a); Xl2'. "ingresos (P52); X13: Vecino marroqu" (P506); X,4: in
migrante delincuente (P2904).

Debajo de cada correlacin y entre parntesis est la significatividad (unilateral) de ca


da correlacin. Corno puede observarse, la mayora de las correlaciones habidas son bastante
significativas, af ser p < ,05 (la probabilidad de error en !a estimacin es inferior al 5% en la
mayora de las situaciones). La significatividad es muy elevada en todos los coeficientes de
correlacin de cada variable independiente con la dependiente, pero no en todos Sos coefi
cientes de correlacin entre dos variables independientes. La significatividad es inferior al va
lor tomado habitualmente de referencia en las correlaciones entre las variables: X, y X3 (,075),
X2 y X3 (,098), Xs y X 5a (,088), X3 y X5 (,330), X3 y X6 (.106), X3 y X9 (,160), X3 y X10
(,116), X3 y X13 (,102), X 10 y X 12 (,169). Afecta, sobre todo, a la variable ficticia X3 (sexo), a
su correlacin con siete variables (la mitad de las consideradas). La correlacin con estas va
riables es, asimismo, muy baja, siendo la ms alta de -,035, que corresponde a su correla
cin con ia variable X1. Con las otras seis variables las correlaciones son, inclusive, ms ba
jas. Estas bajas correlaciones significan que apenas existen diferencias entre ios varones y
las mujeres en las variables referidas.

Captulo 1: Regresin mltiple

75

Recurdese que a variable sexoes una variable ficticia que, al tener codificacin binaria
(1 varn, 0 mujer), su relacin con fas otras variables no se ajusta a una recta de regresin,
aunque realmente las variables estn muy relacionadas. En las variables ficticias, el coeficiente
de correlacin producto-momento de Pearson (r") no expresa el grado de relacin existen
te entre dos variables, sino la proporcin de casos que en ese grupo (el codificado 1) es ma
yor (signo-positivo) o menor (signo-negativo1) que ia proporcin de casos en el grupo de re
ferencia (codificado 0). Por ejemplo, !a correlacin de X3 con Y de -,050 significa que la
proporcin de varones (codificados 1) que muestran simpata hacia los norteafricanos
(marroques...)1es muy ligeramente inferior a la de mujeres (el grupo de referencia, a! co
dificarse 0). En cambio, la correlacin positiva de la variable X3 con X12 de ,107 indica la proporcin en que los ingresos" de los varones superan a los declarados por las mujeres. A la
vista de ambas correlaciones, que son bastante significativas y de escasa cuanta, puede con
cluirse que existen ms diferencias entre los varones y las mujeres en los "ingresos" decla
rados (a favor de los varones) que en la simpata'1manifestada hacia los norteafricanos (li
geramente superior en las mujeres). Es en la variable ingresos donde ias diferencias por
gnero son superiores (aunque con escasa magnitud: ,107). Respecto a las otras variables,
las diferencias por gnero son apenas perceptibles. La correlacin ms baja se da entre la
variable X3 y X5 (-.009). En ia manifestacin del grado de simpata hada ios latinoamericanos
las diferencias entre los varones y las mujeres son nulas (inclusive inferiores a las registra
das en ta variable Y: simpata norteafricano) e, igualmente, en direccin negativa (mni
mamente superior en las mujeres).
Las otras dos variables ficticias (X7 y X14) muestran una mayor correacin con Y que X3.
En la variable X7 (regularizar a inmigrantes) la correlacin es positiva y ligeramente supe
rior (,281). Entre las personas que creen que s se debera tratar de regularizar la situacin
de ios inmigrantes ilegales (grupo codificado 1) ia proporcin de casos que muestran ms
simpata hacia los norteafricanos es ,281 superior a la habida entre los contrarios a a regularizacin (el grupo de referencia). Asimismo, ta correlacin de X14 e Y de -,268, significa
que entre aquellos que estn de acuerdo en que el aumento de los inmigrantes favorece el
aumento de la delincuencia en nuestro pas aquellos que muestran simpata hacia los
norteafricanos son en una proporcin de ,268 inferiores a los que estn en desacuerdo con
dicha aseveracin. En este ltimo grupo (e grupo de referencia) es superior el grado de sim
pata manifestado hacia los norteafricanos, aun no siendo excesiva en magnitud.
De las catorce posibles variables predictoras consideradas Xs (simpata hacia latinoa
mericanos) es fa variable ms correlacionada con Y (,593). La correlacin habida entre am
bas variables es positiva e importante, aunque no perfecta. Las simpatas mostradas hacia
los latinoamericanos y norteafricanos covaran en ia misma direccin. Ambas variables es
tn positivamente relacionadas, lo que significa que tos aumentos (o disminuciones) en sim
pata hacia los latinoamericanos suelen coincidir, aunque no siempre, con aumentos (o dis
minuciones) igualmente en ia simpata manifestada hacia los norteafricanos. Para que la
correlacin entre ambas variables fuese perfecta (y la coincidencia de sus valores total en to
dos los casos) su valor debera aproximarse a 1,0. No obstante, la correlacin entre ambas
variables es importante y puede afirmarse que sta ser la primera variable que formar la
ecuacin de regresin, la que ms ayuda a predecir el valor de Y.
X10 (casar con marroqu) es la segunda variable en importancia que muestra una
mayor correacin con Y, aunque en direccin negativa (-,476). El signo de! coeficiente res
ponde a cmo est definida esta variable. El valor ms alto (4) corresponde a aquellos que
afirman que le preocupara mucho que un hijo o una hija suya se casara con un ciudadano

76

Anlisis multivariable. Teora y prctica en la investigacin social

de Marruecos u otro pas norteafricano"; el valor ms bajo (1), a aquellos que declaran que
no les preocupara "nada" dicho matrimonio. Hecha esta especificacin, el signo del coeficiente
no sorprende. La simpata mostrada hacia los norteafrcanos vara inversamente con la preocupacin de que un hijo o hija se casase con un marroqu. A medida que aumenta la
preocupacin hacia un posible matrimonio con un marroqu u otro ciudadano de un pas nor
teafricano, desciende Sa simpata hacia este grupo de personas. sta es menor entre los que
dicho matrimonio tes preocupara mucho o bastante que entre aquellos a ios que les pre
ocupara poco o nada. La relacin entre ambas variables es lineal, aunque no perfecta. A
partir de a matriz de correlaciones puede predecirse que sta ser la segunda variable en for
mar la ecuacin de regresin, al ser la segunda ms correlacionada con Y, cumpliendo a su
vez la condicin de estar apenas correlacionada con X5. La correlacin (muy significativa) ha
bida entre las variables X10 y X5 es leve (-,274). Se trata de dos variables poco collneales. La
inclusin de una de ellas en ia ecuacin de regresin no restringe la incorporacin de la otra.
Como se ver posteriormente, la incorporacin de variables predictoras a la ecuacin de
regresin est determinada no slo por la correlacin que dicha variable tenga con la de
pendiente, sino tambin de la tenida con variables independientes previamente introducidas
en la ecuacin (por mostrar una mayor correlacin con Y).- En suma, para poder predecir que
la variable X13 (ia tercera ms correlacionada con Y: -,396) y X1 (la cuarta, ,302), por
ejemplo, van a formar parte de la ecuacin de regresin, habr antes que observar cules son
las correlaciones de estas dos variables entre s y con las variables previamente indicadas
como posibles integrantes de la ecuacin. Un grado elevado de colinealidad con variables ya
en la ecuacin dificulta la incorporacin de nuevas variables, aun estando muy correlacionadas
con Y. Como se seal en el subapartado 1.1.8, en el anlisis de regresin se trata de evi
tar la multicolineaUdad y con ello la redundada en la prediccin de Y. Para ms informacin
relase dicho subapartado. En los siguientes se volver a hacer referencia a esta matriz de
correlaciones para la interpretacin de modelo de regresin.

1.4. La e:isaco n de regresin

En el anlisis de regresin lineal mltiple la relacin entre la variable dependiente


(Y) y la serie de variables independientes se expresa como una funcin lineal de las va
riables independientes (X.). Dicha funcin conforma la ecuacin siguiente para i =
1,23 n observaciones mustrales:
Y. - a + b ,X u + b2X 2l + b3X v + ........+ bpX p +

Esta ecuacin permite predecir el valor de la variable dependiente, en cada caso


concreto (Y;), a partir de unos valores determinados de la serie de variables inde
pendientes que muestran relacin con la dependiente.
Como dicha prediccin es rara vez exacta, al tratarse generalmente de datos
mustrales, la ecuacin tambin incluye un trmino de perturbacin (e(.). stos son, en
suma, sus componentes:

Captulo I: Regresin mltiple

77

Xj, X 2, X y.. X. las distintas variables predictoras de las que se ha obtenido infor
macin en a muestra analizada.
a: tambin denominado &0. Identifica la constante o el intercepto de la recta de re
gresin. Es el punto donde la recta (o el piano) de regresin intercepta, o
sea, corta el eje Y, De ah su referencia de intercepto. Tambin se le conoce co
mo constante porque su valor denota el valor promedio de Y cuando las va
riables independientes son nulas; es decir, iguales a cero. Pero, tngase presente
que no siempre el valor cuantitativo del intercepto tiene una interpretacin directa.
Esto sucede, habitualmente, cuando presenta un valor negativo. Rara vez, en el
mundo real, un valor de Y puede ser inferior a 0 (salarios, calificacin acadmica,
lloras de estudio, por ejemplo). En estas circunstancias de valores de a (o
b0) negativos, su cuanta no es directamente interpretable, aunque contina sien
do imprescindible para la prediccin de Y.
En caso de variables independientes ficticias (vase subapartado 1.1.2), el in
tercepto (o constante ) refleja el valor predicho de la variable dependiente para el
grupo de referencia. Ello se debe a que todas las variables pericias son iguales a ce
ro para el grupo de referencia (0 varn, i mujer; 0 suspenso, 1 aprobado, por ejem
plo). Su valor se interpreta como la frecuencia media de la variable dependiente
para el grupo que se ha codificado 0.
b v &2bp son los coeficientes de pendiente parcial o de regresin parcial. En regre
sin simple, cuando slo hay una variable independiente, su valor representa la
pendiente de la recta de regresin. En regresin mltiple, con dos o mas variables
independientes, su valor identifica la pendiente del hiperplano de regresin con
respecto a su respectiva variable independente (X ). Separan el efecto de cada va
riable independiente en la dependiente del resto. Esto se debe a que su cuanta ex
presa el cambio promedio en la variable dependiente asociado a una unidad de
cambio en X , cuando el resto de las variables independientes se mantienen
constantes (esto se conoce como control estadstico).
En variables independientes ficticias (con codificacin binaria 0 - 1) el coe
ficiente de pendiente en cada una de las variables ficticias estima la diferencia en
el valor de Y entre el grupo en cuestin y el grupo de referencia. En variables con
slo dos categoras, como sexo, el valor de dicho coeficiente se convierte en la di
ferencia en las medias entre el primer grupo (el codificado 1) y el segundo grupo
(el codificado 0). Si los varones actan, por ejemplo, como grupo de referencia
(codificado 0), el coeficiente b asociado a mujer (con el cdigo 1) denota la
diferencia en Y entre mujeres y varones. En general, los casos que punten
0 en cada una de las g - 1 variables ficticias creadas se toman como grupo de re
ferencia, respecto al cual se comparan los coeficientes de regresin de cada una de
.las variables ficticias formadas a partir de una variable cualitativa. Por esta razn
se recomienda seleccionar como grupo de referencia aquel que haga ms signifi
cativa la interrelacin de los respectivos coeficientes de pendiente.
Como los coeficientes de pendiente suelen estimarse de datos mustrales,
siempre habr una variacin en su valor, dependiendo de la muestra que se ana

78

Anlisis multivariable. Teora y prctica en la investigacin social

lice. Esa variacin se cuantifica mediante ei error de estimacin o error tpico de


los coeficientes de regresin (vase subapartado 1,4.2).
e/: el trmino de error aleatorio que se aade a la ecuacin de prediccin de Y. El mo
delo de regresin, en similitud a otros modelos estadsticos, es un modelo probabilstico y no determinstico. Rara vez la relacin causa-efecto detectada entre
las variables es exacta. Por lo que debe cuantificarse la magnitud del error de pre
diccin de Y a partir de la serie de variables independientes incorporadas al
modelo predictivo.
La denominacin aleatorio le viene de la conviccin de que los errores de
ben seguir un modelo aleatorio. Esto quiere decir que se sitan, de forana aleatoria,
alrededor de la recta de regresin, con un valor esperado de cero (E(e) = 0) y una
varianza constante ai. (subapartado 1.5.2).
A partir de la ecuacin de regresin puede predecirse el valor de la variable de
pendiente en cada caso concreto (Y;). Para ello se sustituye, en la ecuacin, los valores
que presenta dicho caso en cada una de las variables independientes. Estos valores se
multiplican por sus respectivos coeficientes de regresin. Se suman todos los produc
tos y se aade el error de prediccin, a partir del cual se calculan los intervalos de con
fianza (como se expone en los subapartados correspondientes). Toda inferencia se rea
liza en trminos de probabilidad. Cualquiera que sea el mtodo utilizado en la
contrastacin de hiptesis, los resultados nunca son ciertos, sino aproximaciones en tr
minos de probabilidad (Goode y Hatt, 1952:87).
La finalidad de la regresin mltiple no es nicamente descriptiva: cuantificar el
grado de relacin existente entre una serie de variables independientes y una sola va
riable dependiente. Es tambin nferencial. De ios coeficientes de regresin, estimados
en la muestra analizada, se persigue su generalizacin al conjunto de poblacin de la
cual se ha extrado la muestra. Ello exige el cumplimiento de los supuestos de regre
sin resumidos en el apartado 1.1.
Para ia poblacin, la ecuacin de regresin mltiple se formula igualmente, salvo
que los parmetros de regresin pasan a denominarse con letras del alfabeto griego.
Los smbolos a (alpha) y /?( beta) nombran, respectivamente a la constante (o in
tercepto) y a los coeficientes de regresin (o de pendiente). Su valor se obtiene a par
tir de sus correspondientes estimaciones mustrales, aunque se halla estandarizado (ex
presado en unidades de desviacin tpica). Todas las variables independientes tienen
ahora el mismo promedio y cantidad de variacin. Sus respectivos coeficientes beta se
hallan en unidades de desviacin tpica, y no en la unidad de medicin original de la
variable, lo que facilita ia comparacin de los coeficientes: el conocimiento de qu va
riable afecta ms a la prediccin de la variable dependiente. Para su estandarizacin
se divide cada coeficiente b por su desviacin tpica. ue (epsn) ahora nombra al
error de estimacin .
Y - a + p lX l + p t X 2i + fi.3X 3i -f... + f}pX pi + e,

Captulo J: Regresin mltiple

79

Si ei investigador prev la posibilidad de que el efecto de una variable predictora


en Y dependa de los valores de otra variable independiente, ha de aadir a la ecuacin
de regresin el efecto de un trmino de interaccin al modelo original, a modo del si
guiente, donde
X 2i X 3 denota el trmino de interaccin.
Y = a + & X tt + p , X 2i + & X 3l + & X 2X 3 +

Las interacciones pueden afectar a ms de dos variables predictoras. En realidad,


puede haber tantas interacciones como variables predictoras, si sus efectos en la va
riable dependiente son interactivos ( y no aditivos). El coeficiente /J4 de la ecuacin
anterior indica el cambio en X 2 por lX 3%mientras se controla por los otros trmi
nos en el modelo. La interpretacin de los trminos de interaccin se complica, no obs
tante, al aumentar las interacciones incluidas en el modelo de regresin, que cada vez
se hace ms complejo. Para evitar la complejidad innecesaria se recomienda no pro
ceder de forma rutinaria, sino incluir slo aquellas interacciones que muestren ser sig
nificativas. Dos razones principales, destacadas por Gunst y Masn (1980: 38-39),
apoyan esta recomendacin:
a) El nmero de interacciones posibles para modelos de regresin con varias

variables predictoras puede ser elevado. Con slo 5 variables predictoras exis
ten 10 posibles trminos de interaccin de 3 variables, 5 de 4 variables y 1 de 5
variables. La consideracin de todas estas interacciones resultara en un modelo
complejo con 36 trminos, sin que esto redunde, necesariamente, en una mejora
sustancial de ajuste a los datos.
b) Los trminos de interaccin a veces repiten informacin proporcionada por las
variables predictoras individuales. Si la redundancia inducida por los trminos
de interaccin es demasiado fuerte, se pueden distorsionar las estimaciones de
los coeficientes para las variables predictoras individuales. Esta redundancia se
identifica con la m ulticolinealidad (referida en el subapartado 1,1.8).
Pero, si no se incluyen interacciones que realmente existen, los parmetros esti
mados para los otros trminos del modelo pueden verse afectados. Para obviarlo, una
prctica empleada comnmente consiste en aadir el producto liX i X " en la ecuacin
de regresin para representar posibles interacciones (Afifi y Clark, 1990). stas pue
den darse entre dos o ms variables continuas o entre una continua y una. ficticia. En
este ltimo caso, se comprueba si la respuesta a un cambio en una variable indepen
diente continua difiere entre los grupos clasificados de acuerdo con la variable ficticia.
No obstante, se insiste en la conveniencia de que slo se incluyan aquellas interacciones
que muestren ser significativas.
A continuacin se detalla cada uno de los integrantes de la ecuacin de regresin,
junto con los procedimientos principales seguidos en su estimacin.

80

Anlisis rnultivariable. Teora y prctica en la investigacin social

1.4.1. Estimacin de los coeficientes de regresin

El procedimiento de estimacin de los coeficientes de regresin ms aplicado, siem


pre que se satisfagan todos los supuestos bsicos de regresin, es el m todo de mnimos
cuadrados ordinarios (OLS). Este mtodo de estimacin fue primeramente enuncia
do por Legendre en 1805, si bien Gauss lo vena aplicando desde 1795. Su nombre le
viene de su propia finalidad: la obtencin de una recta que haga mnima la distancia
que separa, simultneamente, a todos los puntos de datos de la recta (o hiperplano en
regresin mltiple). Estos puntos representan la conjuncin de los valores de las
distintas variables independientes ( X ) con la dependiente (F), en cada caso obser
vado en el estudio, y se reflejan en un grfico de dispersin.
Para la consecucin de la recta que mejor ajuste a los datos (aquella que haga m
nima la distancia de los puntos respecto de ella) se emplea la suma de los valores cua
drados de las distancias verticales. Ms conocido como la suma de los errores cuadrados
(denotado SSE): SSE = f - ( Y , % ?
M
i-i
Si los errores no se elevan al cuadrado, las distancias por encima de la recta de re
gresin anularan a las que se sitan por debajo de la recta. Cuanto ms se aproximen
los puntos (de los datos) a la recta , mejor es el ajuste del modelo, al ser mnima la su
ma de los trminos de error al cuadrado. En cambio, cuanto ms se distancien los pun
tos, peor es el ajuste.
La representacin grfica de la aplicacin del principio de m nim os cuadrados es
ms sencilla en regresin sim ple (cuando slo se analiza el efecto de una variable in
dependiente en 1a dependiente) que en regresin mltiple (donde un plano sustituye
a la recta de regresin). Conforme aumenta e nmero de variables predictoras, la re
presentacin grfica se complica considerablemente, en relacin con el nmero de va
riables independientes implicadas. Con tres variables independientes, se tiene un
plano en un espacio tridimensional, debido a que el nmero de variables indepen
dientes es tres. La localizacin de este plano est determinada por ios valores de "a , bv
h%... b n. Estos se obtienen mediante la aplicacin del mtodo de m nim os cuadrados
ordinarios. Es decir, considerando la desviacin de cada valor respecto a la meda de
la variable en cuestin. La figura 1.9 ilustra la representacin del principio de mnimos
cuadrados ordinarios cuando se analiza una nica variable independiente, al ser en es
te contexto ms visual y fcilmente comprensible. Tambin se incluye la representacin
cuando son dos las variables independientes consideradas (regresin mltiple). Con ms
de tres variables la representacin grfica se vuelve demasiado compleja y de difcil
comprensin.
Los puntos representan en el grfico de regresin simple los valores observados de
Y para cada valor de X en cada caso observado; en el grfico de regresin mltiple, los
valores observados de Y para cada combinacin de valores de las dos variables inde
pendientes (Xj y X2). De lo que se trata es de buscar una recta (regresin simple') o un
plano (regresin mltiple ) que haga mnima la suma de ias diferencias, elevadas al
cuadrado, entre los valores observados de Y (en la muestra) y los estimados medante la

Captulo I: Regresin mltiple

81

ecuacin de regresin (TQ, para cada caso concreto (i -1 ,2 ,3 ... n). Dichas diferencias
constituyen Jos errores de prediccin (e/)- Existe uno para cada punto. Su valor informa
de la distancia habida entre ei punto y la recta o plano. Rara vez se logra un ajuste per
fecto de los puntos a la recta o plano, por to que siempre existe error. Lo que se quiere
es que sea lo menor posible, que la distancia habida entre ambos valores sea mnima.
Y

X
a) Regresin simple

b) Regresin mltiple
Figura 1.9. Representacin del principio de mnimos cuadrados ordinarios.

Cuando se comprueban los efectos conjuntos de 4 o ms variables predictoras en la


dependiente, la representacin grfica del principio de mnimos cuadrados ordinarios se
hace casi imposible. La funcin lineal que se estima en este caso se llama hiperplano y,
como reconoce Tacq (1997:116), escapa a nuestra imaginacin. Para el caso general
de p variables predictoras se precisara ajustar un hiperplano p-dimensional a un gr
fico de p + 1 dimensiones. El principio, no obstante, es el mismo.
En resumen, mediante la regresin de mnimos cuadrados ordinarios se pretende bus
car los valores de los coeficientes de regresin (a, b v
bp), que minimicen la suma de
las desviaciones cuadradas de las observaciones, Y , de los valores predichos de la va
riable dependiente (Y ). En ei caso de una nica variable independiente (regresin sim
ple), los valores de los coeficientes a y b se obtienen de las ecuaciones siguientes:
X c X - x m - y )
i*i______________

Covarianza de XY / Varianza de X

itx t-x )

Una vez conocido b se procede al clculo de a :


a -Y - b X

Pero, cuando se dispone de dos o ms variables predictoras (regresin mltiple),


las frmulas para ia estimacin de ios coeficientes de regresin se complican. Requieren

82

Anlisis multivariable. Teora y prctica en la investigacin social

la aplicacin del lgebra de matrices. Siguiendo la formulacin del lgebra de matriz, la


ecuacin de regresin queda as definida:
Y ' = X * B'+ e'

Donde: Y es un vector n-dimensional de la variable dependiente.


X* = (1, X ., X 2, X y .., X ) contiene una columna de V unos y una co
lumna de n observaciones en cada una de las p variables inde
pendientes,
B' es un vector de p + 1 dimensiones (siendo p el nmero de variables
predictoras) de los parmetros de modelo: a , Pr, fi2, f y fpe e s un vector de los n trminos de error aleatorios.
En regresin se diferencian los coeficientes de regresin estandarizados (conocidos
como coeficientes beta) de los no estandarizados (los coeficientes dependiente b ).
Ambos proporcionan ms informacin que el coeficiente de correlacin:
* El coeficiente de correlacin (r) indica el grado de relacin lineal existente en

tre dos variables y la direccin de la misma. Si el signo es positivo, las dos va


riables covaran en la misma direccin: el aumento de una de ellas provoca el au
m ento de la otra (por ejemplo, a ms horas de estudio, mejor resultado
acadmico; o a menos horas de asistencia a clase, peor calificacin en el examen).
El signo negativo significa, por el contrario, que ambas variables covaran en di
recciones opuestas: conforme se incrementa el valor de una de ellas, disminuye
el valor de la otra (el aumento del nmero de cajetillas de tabaco filmadas al da
supone la disminucin de la esperanza de vida dei fumador, por ejemplo). Su va
lor expresa el grado de covariacin entre ambas variables. En el subapartado
1.3.2 figuran las frmulas aplicadas para su obtencin.
El coeficiente d e pen dien te b (en regresin sim ple, de pendiente de la recta',
en regresin m ltiple, de pendiente del hiperplano de regresin con respecto a
las p variables independientes) proporciona ms informacin que el coefi
ciente anterior. Indica cunto vara la variable dependiente cuando la inde
pendiente cambia en una unidad, controlndose, a su vez, e efecto de las de
ms variables independientes. Por lo que, muestra ser de especial utilidad
para comprobar el impacto de una variable independiente en la dependiente y
sus variaciones en las diferentes muestras. Esto ltimo mediante el clculo del
error d e estim acin de cada coeficiente b '\
A este coeficiente tambin se le conoce como coeficiente de regresin parcial.
Ello se debe a que su valor se ve afectado por la composicin de las variables in
cluidas en ei anlisis, exactamente, por las posibles interrelaciones que existan
entre ellas. E l coeficiente para una variable concreta siempre se ajusta en fun
cin de las otras variables incluidas en la ecuacin de regresin. La inclusin o
exclusin de una de ellas suele conllevar una alteracin en el valor de los coe
ficientes de las variables en la ecuacin. De ah la importancia de incluir en el

Captulo 1: Regresin mltiple

83

anlisis variables relevantes. A veces incluso ja omisin de variables que no sean


significativas a un determinado nivel de significacin (usualmente p < 0,05) pue
de ocasionar problemas en la interpretacin de los coeficientes de pendiente, cu
yo valor se ve afectado por la omisin de variables.
Adems, tngase presente que la magnitud de los coeficientes de pendiente tam
bin se halla afectada por ia unidad de medicin de la variable. Lo que limita su
aplicacin en la comprobacin de la importancia relativa de las diversas variables
independientes a la prediccin de la dependiente. Ello exige la conversin de las
variables a una misma unidad de medicin, es decir, su estandarizacin.
Por ltimo, aadir que cuando la variable dependiente est expresada en lo
garitmos, los coeficientes se interpretan de una forma aproximada, en trminos
porcentuales. Nourisis (1986) lo ilustra con e siguiente ejemplo: un coeficiente
de regresin parcial de -,104 para la variable sexo, cuando las mujeres se codi
fican como 1, indica que los salarios (variable dependiente) de las mujeres se es
tima que sean cerca del 10% menos que el salario de los varones, despus del
ajuste estadstico para las otras variables independientes en el anlisis.
El coeficiente de regresin estandarizado (tambin referido como coeficiente be
ta) mide la variacin en unidades de desviacin tpica de la variable dependiente
por cada unidad de variacin de la independiente, esta ltima tambin expre
sada en unidades de desviacin tpica. Para ello, cada puntuacin X se trans(X- X -)
forma en puntuaciones tpicas: Z x ------ ------ , al igual que la variable Y:
{Y - Y )
Z y - ~----- , Despus se procede a un nuevo clculo de la ecuacin de reLj y

gresin, pero sin el intercepto (o constante). Las puntuaciones Z suponen des


viaciones respecto de la media, lo que implica su traduccin al origen.
Los coeficientes beta se obtienen del producto de cada coeficiente b por el co
ciente entre la desviacin tpica de la variable independiente y la desviacin tpica
s Xi
de la variable dependiente: Py, x, ~ by.x,
En regresin simple, el valor del coeficiente beta coincide con el coeficien
te de correlacin correspondiente (la relacin entre las dos variables). En re
gresin mltiple, no. Su valor se ve afectado por la correlacin existente entre la
variable independiente respectiva con las dems predictoras incluidas en la
ecuacin.
1
A diferencia de los coeficientes b, los beta no deben ser mayores de 1, por
que son coeficientes estandarizados (con media cero y desviacin tpica uno). Si,
alguna vez, se obtiene un coeficiente beta superior a 1, puede tomarse como in
dicio de la existencia de una importante colinealidad entre las variables.
Por ltimo, insistir en que los coeficientes beta no se utilizan para predecir
el valor de la variable dependiente, sino para comparar e inferir la importancia
relativa de cada variable independiente en el modelo de regresin. La estn-

84

Anlisis multivariable. Teora y prctica en la investigacin social

darizacin permite la comparabilidad directa de los distintos coeficientes de re


gresin, puede conocerse qu variable predice ms el valor de la dependiente.
Adems, su valor tambin est afectado por la correlacin existente entre las va
riables independientes en 1a ecuacin, por lo que proporcionan una informacin
ms veraz del poder predictivo de cada variable independiente que el coeficiente
de correlacin y el de pendiente.

La importancia relativa de cada variable independiente puede igualmente com


probarse contrastando la variacin, o incremento, del valor de R2, que provoca la in
corporacin de dicha variable a la ecuacin. .Para ello se resta el valor de R2 obtenido tras
la incorporacin de la variable del habido previo a la inclusin: es decir, R2 - R ^ , sien
do R ^ n el cuadrado del coeficiente de correlacin mltiple, cuando todas las variables
exceptuando (i) se incorporan a la ecuacin. La cantidad de cambio en el valor de R2
se interpreta como la proporcin de informacin nica aportada por la variable inde
pendiente correspondiente en la prediccin de la variable dependiente.
La raz cuadrada del aumento se conoce como el coeficiente de correlacin parcial.
Se define como la correlacin existente entre una variable independiente y la variable
dependiente cuando los efectos de las otras variables independientes se mantienen
constantes. En caso de no existir correlacin entre las variables independientes, el cam
bio en R2, cuando se introduce una nueva variable en la ecuacin, es el cuadrado del
coeficiente de correlacin entre esa variable y la dependiente.
Si el coeficiente de correlacin parcial de una variable se eleva al cuadrado, se obtiene
cunto supondra su incorporacin al modelo de regresin en la proporcin de va
rianza explicada de Y (R2). Concretamente, su valor expresa la proporcin de la varianza
no explicada que puede quedar explicada, si se incorpora la variable a la ecuacin. Por
ejemplo, si R2 = ,43 (que supone que queda un 57% de la varianza de Y sin explicar por
las variables en la ecuacin), un coeficiente de correlacin parcial en una nueva variable
de ,524 no significa que dicha variable explique el 52,4% de la varianza que previamente
no ha quedado explicada. Si se eleva al cuadrado (,524z = ,275) se obtiene que el
27,5% del 57% de la varianza de Y no explicada puede quedar explicada si se incorpo
ra esa nueva variable a la ecuacin. Su inclusin a la ecuacin supone un aumento en por
centaje de varianza explicada de Y (R2) del 15,7%. Esta cantidad se obtiene de multi
plicar la proporcin de varianza no explicada de Y por el cuadrado del coeficiente de
correlacin parcial de la variable: (1 - ,43) x ,275 = ,157.
Pero, nicamente se considera la incorporacin (por muy pequea que sea) de va
riables cuyo coeficiente de correlacin parcial sea significativo estadsticamente. Su
significatividad se mide mediante el estadstico t de Student, explicado en el subapartado 1.4.3.
1.4.2. El error tpico de los coeficientes y los intervalos de confianza

En la evaluacin de la importancia relativa de las variables independientes tambin ha


de considerarse la variabilidad de los coeficientes de regresin estimados. Esta se mide me

Captulo 1: Regresin mltiple

85

diante el error tpico (standard error), que constituye una medida de la variabilidad de
las estimaciones de los coeficientes, a partir de la informacin extrada de una muestra.
El error tpico dei coeficiente de regresin b" (SEB) se define como la variacin en
a estimacin del valor del coeficiente de una a otra muestra (de iguales caractersticas)
que pertenezcan a la misma poblacin. Permite conocer la divergencia en las estimaciones
de los coeficientes y equivale a 1a distribucin de las estimaciones del coeficiente de re
gresin que resultara, si se extrajesen repetidamente muestras, de un determinado ta
mao, de una misma poblacin y, para cada una de ellas, se calculase el coeficiente de re
gresin, Como estos coeficientes estimados de muestras aleatorias varan de sus
correspondientes valores poblacionales, el error mide, precisamente, cul es esa variacin.
Esta informacin es imprescindible a efectos inferenciales (de los coeficientes estimados
en una muestra a sus correspondientes parmetros poblacionales).
E clculo del error tpico de un coeficiente concreto (Sh) se realiza mediante la si
guiente frmula:

XM -ty/iN -p-i)
S, -

K ; ----------1 --------------I ( * , . - X ) 2( W )

Donde: N" (o n) es el tamao de 1a muestra.


p ,? el nmero de variables independientes en la ecuacin.
rf f la correlacin mltiple cuadrada obtenida de la regresin de X\ en to
das las otras variables independientes.
Cuanto ms bajo sea su valor, mejor es la estimacin del coeficiente b : menos va
riacin habr en muestras distintas de una misma poblacin. Lo que repercute, ob
viamente, en su significatividad estadstica. La obtencin de errores tpicos elevados sue
le ser, a decir de su frmula, consecuencia de uno o varios de los aspectos siguientes:
a) Elevados errores de prediccin de la variable dependiente,
b) Elevada varianza de la variable independiente,
c) Elevada correlacin de la variable independiente correspondiente con otras va
riables independientes ( multicolineaUdad ).
d) Tamao muestral bajo. Cuando no se cumplen los ratios nmero de casos por
e)

variables predictoras a los que se hizo mencin en el subapartado 1.1,1.


Elevada correlacin de la variable independiente con otras excluidas del mo
delo.

A partir de error tpico pueden calcularse los intervalos de confianza para cada
coeficiente de regresin que haya mostrado ser significativo (subapartado 1.4,3), Pa
ra ello se multiplica el error por el valor terico de t de Student, con N - p - 1 gra
dos de libertad (siendo p" e nmero de variables predictoras en la ecuacin de re

86

Anlisis rnultivariable. Teora y prctica en la investigacin social

gresin), al nivel de probabilidad elegido. El nivel de significacin ms habitual es


a = ,05. Advirtase que la distribucin *t se asemeja a la distribucin normal
cuanto ms se aleja el tamao muestral de 30 unidades.
Los intervalos de confianza para cada coeficiente de pendiente b se obtienen del mo
do siguiente;
Intervalo de confianza = b (i)(S E f)
Donde t es el percentil 100 (l-et/2) de la distribucin t, con KN - p - 1 grados
de libertad. El lmite inferior del intervalo viene dado por la diferencia del coeficiente
estimado respecto al producto del valor t crtico y el error de estimacin del coefi
ciente. El lmite superior, en cambio, queda definido por la suma de dicho producto y
el coeficiente de regresin. Para la constante, el intervalo de confianza se calcula del
mismo modo y con los mismos grados de libertad:
Intervalo de confianza = a (J)(SEA)
El clculo de los intervalos de confianza es preciso a efectos inferenciales. A par
tir de la estimacin muestral de los coeficientes de regresin, el intervalo de confian
za, proporciona el rango de valores entre los que se halla dicho coeficiente en la po
blacin. La inferencia se realiza a un nivel de significatividad determinado: el ms usual
(a = ,05) supone una probabilidad de acierto del 95% de que el parmetro poblaciona est incluido en el intervalo estimado.

1.4.3. La significatividad de los coeficientes de regresin

La contribucin d cada variable independiente al modelo de regresin se evala,


primero, comprobando la significatividad estadstica de cada coeficiente de regresin
parcial por separado. El anlisis de regresin se asienta en la teora de la probabilidad,
en las posibilidades de inferencia de los estadsticos calculados en una muestra a los co
rrespondientes parmetros poblacionales, lo que se refleja en la desestimacin de cual
quier resultado que no satisfaga el requisito de la significatividad.
Por razones de coste econmico y temporal, fundamentalmente, el investigador ra
ra vez recibe informacin de cada una de las unidades (personas, familias, viviendas,
organizaciones...) que forman la poblacin objeto de estudio, aunque sta fuese de pe
queas dimensiones. La prctica comn es extraer una muestra del universo o pobla
cin de inters. Pero, si a partir de las estimaciones mustrales se quiere inferir los co
rrespondientes parmetros poblacionales, la muestra ha de ser representativa de la
poblacin. Dicha represe n lat vid a d est subordinada, esencialmente, al tamao
de la muestra y al procedimiento seguido en la seleccin de las unidades mustrales.
El tamao de la muestra determina la probabilidad de tener estadsticos significativos,

Captulo 1: Regresin mltiple

87

el procedimiento de seleccin, las posibilidades de generalizacin de los hallazgos del


estudio. Para ello es imperativo que en la seleccin de la muestra se siga un procedi
miento aleatorio, que d a cada unidad de la poblacin la misma probabilidad de par
ticipar en la muestra. El azar permite la equiparacin de la muestra a la poblacin, la
inclusin de toda la variedad de sus componentes.
Respecto a la significatividad estadstica, rutinariamente se procede a su com
probacin en todo estadstico calculado con datos mustrales. Para ello se hace uso de
los supuestos de la Estadstica Inferencial: la prueba de hiptesis y la estimacin
de los parmetros poblacionales. En concreto, la evaluacin de la significatividad de los
coeficientes de pendiente (b ) comienza con la definicin de una hiptesis nula (/70), so
bre un valor del parmetro poblacional ($). En la generalidad de las situaciones la hi
ptesis nula se formula en los siguientes trminos:
/3 -0. De aceptarse, supondra
la no significatividad estadstica del coeficiente estimado, dado que el valor de dicho
coeficiente siempre difiere de cero.
La hiptesis nula se contrasta con la hiptesis alternativa de que coeficiente de re
gresin es diferente de cero (H{, $ t- 0). sta es la hiptesis que el investigador espera
corroborar con sus datos. Supone la significatividad estadstica de los coeficientes es
timados, que siempre sern diferentes de cero, lo que significa que la variable inde
pendiente respectiva se halla linealmente relacionada con la dependiente. En cambio,
un 0= 0 indica ia independencia de ambas variables: el valor medio de la variable de
pendiente no cambia conforme lo hace la independiente.
El contraste de hiptesis siempre se realiza a un nivel de significacin que el in
vestigador escoge. El ms aplicado (a = ,05) supone una probabilidad de acierto del
95% o, lo que es igual, una probabilidad mxima del 5% de equivocarse al rechazar la
cuando sta realmente es cierta. Otro nivel de significacin muy usual es a ~ ,01,
que conlleva una menor probabilidad de equivocacin. Se reduce al 1%. Pese a ello, es
te ltimo nivel de significacin es menos aplicado que el anterior, al ser ms restrictivo.
Exige un valor t emprico superior para que el coeficiente estimado resulte signifi
cativo a una probabilidad de acierto del 99%. Esto puede provocar la desestimacin, co
mo significativos, de coeficientes que se encuentren entre ambos niveles de significacin.
Por ejemplo, para 60 grados de libertad, a un nivel de significacin a = ,05, el valor t
terico es 2,000; para un a ,01 el valor t terico aumenta a 2,660, lo que supone un
incremento apreciable en el valor mnimo para que la t emprica (la obtenida en la
muestra analizada) sea significativa, y pueda inferirse a la poblacin el coeficiente es
timado correspondiente. Como lo habitual es que el tamao muestral supere los 100 ca
sos como mnimo, la distribucin t se aproxima a ia normal (z% coincidiendo sus res
pectivos valores tericos. Para un a = ,05 el valor t terico es 1,96; para un a ~ ,01, el
valor t se eleva a 2,576.
La prueba de significacin estadstica consiste en comprobar si el valor t em p
rico se ubica dentro de la zona de aceptacin de H 0. Esta zona queda definida por el
correspondiente valor t terico o crtico, que figura en a tabla de la distribucin t de
Student, para una prueba bilateral (al incluirse tanto valores positivos como negati
vos), al nivel de significacin elegido y para unos grados de libertad igual a N - p - 1 .

88

Anlisis multivariable. Teora y prctica en la investigacin social

El valor t emprico , necesario para el contraste de hiptesis, se obtiene de a divisin


de cada coeficiente por su error:

Donde: b es el valor estimado del coeficiente de pendiente o de regresin

parcial,
73/ el correspondiente coeficiente de pendiente en la poblacin, bajo la
hiptesis nula formulada: H0; /?= 0.
Sb el error tpico estimado de b / .
Cuando la variable independiente es ficticia, la razn t para cada coeficiente b
equivale a 1a razn t para a diferencia entre la media del grupo codificado 1 y la me
dia del grupo de referencia (codificado 0), que acta a modo de grupo de control.
En la salida de ordenador suele figurar los valores de la razn t, junto al coefi
ciente de regresin y su nivel de significacin. Este ultimo ha de ser, al menos <,05
para que sea significativa la t emprica y sea inferible el correspondiente coeficiente
de regresin. En caso afirmativo, se procede al clculo de los intervalos de confianza
a modo de lo expuesto en el subapartado 1.4.2.
La significatividad de intercepto (o constante) tambin puede comprobarse me
diante a razn t, del mismo modo que el coeficiente de pendiente. La hiptesis nu
la se formula, igualmente, en trminos de independencia: el valor del intercepto en la
poblacin es igual a cero (H0 : a - 0); frente a la alternativa que lo contradice. La t
emprica se obtiene del cociente entre e intercepto y su error de estimacin (Sa):
a a
t = ------S.

Pero, a diferencia de los coeficientes de pendiente, los paquetes estadsticos no


siempre proporcionan informacin referida a la prueba de hiptesis del intercepto es
timado en la muestra. Por ltimo, se indica que e cuadrado del estadstico t equivale
al estadstico F , con p y N - p - 1 grados de libertad, lo que permite su uso al
ternativo para dicho contraste de hiptesis.

:tZJEfolPLO DE ECUACIN D REGRESIN.MLTIPLE


Tras realizar un procedimiento secuenciaI (o por pasos) de seleccin de variables pre
dictoras, que se describe en el subapartado 1.6.1, se obtiene el siguiente modelo de regre
sin, a partir de las variables consideradas. De fas 14 variables que niciaimente se creia po
dran ayudar a la prediccin de la variable dependiente (simpata hacia los noreafricanos

Captulo 1: Regresin mltipla

89

[marroques, etc.]1), s!o 6 muestran poder predictivo significativo. Especialmente, as va


riables X5 (simpata hacia latinoamericanos) y X10 (casar con marroqu), que son las dos
variables que ms varianza de Y logran explicar. La tabla A incluye los coeficientes estan
darizados y no estandarizados de las variables que conforman el modelo de regresin, jun
to a su significatividad.
Tabla A

Modelo de regresin

(Constante)
Xs simpata latinoamericano
X10 casar con marroqu
X, leyes inmigracin
Xg nmero de inmigrantes
X13 vecino marroqu
X3 sexo

Coeficientes no Coeficientes
estandarizados estandarizados
B

Error
tpico

3,786
,558
~,698
,261
-.356
-,348
-,265

,400
,026
,068
,058
,095
,101
,110

Sig.

Beta

,460
-.258
,099
-,082
-,086
-,049

3,458
21,429
-10,281
4,527
-3,751
-3,443
-2,414

,000
,000
,000
,000
,000
,001
,016

Intervalo de confianza
para B al 95%
Limite
inferior

Lmite
superior

3,001
,507
-,832
,148
-,543
,546
-,481

4,571
,610
-,565
,374
-.170
-,150
-,050

Primero figuran los coeficientes no estandarizados. Con ellos se confecciona la ecuacin


de regresin, que permite predecir el valor de la variable dependiente (en cada caso concreto)
en funcin de unos valores concretos en las variables independientes que han mosrado re
levancia en la prediccin de Y. La ecuacin de regresin es la siguiente:
Y = 3,786 + ,558X5 - ,698X10 + ,261X, - ,356X6 - ,348X13 - ,265XS
3,786 es la constante o intercepto: el punto del hiperpiano que intercepta e eje Y. Su
valor denota el valor promedio de Y cuando el valor de las variables independientes es ce
ro. A veces, el valor de la constante no tiene interpretacin directa. Sobre todo, cuando el va
lor es negativo. En esta ecuacin, la constante tiene un valor positivo y podra interpretarse.
En una escala de 0 (ninguna simpata) a 10 (mucha simpata), 3,786 es la simpata prome
dio hacia ios norteafricanos (marroques...), cuando el encuestado manifiesta que no siente
ninguna simpata hacia los latinoamericanos (X5); no le preocupa que un hijo o hija suyo se
case con un ciudadano de Marruecos (u otro pas norteafricano) (X10); piensa que las leyes
que regulan la entrada y permanencia de extranjeros en Espaa son demasiado tolerantes
(X,); le parece que son pocas las personas procedentes de otros pases que viven en Espaa
(X6); no le preocupa tener como vecinos a una familia de ciudadanos de Marruecos u otro
pas norteafricano (X13); y es mujer (X3).
Los coeficientes de pendiente parcial (que separan el efecto de cada variable inde
pendiente en la dependiente del resto) expresan el cambio promedio en la variable depen
diente para cada unidad de cambio en la variable dependiente respectiva, mantenindose las
dems variables independientes constantes. El valor promedio de Y aumenta cuando las va
riables X5 y X, se incrementan en una unidad. Ambas variables se hallan positivamente re
lacionadas con la variable dependiente. ES aumento en una unidad en ta escaa de 0 a 10 de

90

Anlisis multimrable. Teora y prctica en la investigacin social

simpata hacia latinoamericanos provoca, a su vez, un aumento, aunque en menor cuanta,


en la simpata hacia los norteafricanos". El incremento es de ,558. El valor promedio de Y
tambin aumenta, aunque en una cantidad inferior (,261), conforme las leyes que regulan la
entrada y permanencia de extranjeros en Espaa pasan a percibirse como duras o into
lerantes. Recurdese que los valores de esta variable van de 1 (demasiado tolerantes) a 5
(demasiado duras).
E! valor promedio de Y disminuye, en cambio, conforme aumentan los valores de las va
riables X10, Xe, X13 y X3. Estas cuatro variables estn negativamente relacionadas con Y. La
simpata hacia los norteafricanos (Y) disminuye, situndose por debajo de su valor promedio
(3,786, obtenido cuando las independientes son cero), al aumentar dichas variables en
una unidad. La disminucin en el valor de Y es de ,698, conforme aumenta la preocupacin
por un futuro casamiento con un marroqu (X10), mantenindose las dems variables cons
tantes; de ,358, al aumentar la percepcin sobre el nmero de inmigrantes como demasia
dos (X6); de ,348, si aumenta ia preocupacin por tener como vecinos a una familia de ciu
dadanos de Marruecos (X13); y de ,265, si el individuo es varn.
Comparando estos coeficientes de regresin parcial con los coeficientes de correlacin
de cada una de las variables independientes con Y (matriz de correlaciones: subapartado
1.3.2), puede observarse que los signos de ambos coeficientes coinciden, pero no su valor.
Los coeficientes de correlacin se calculan para cada variable por separado, mientras que los
coeficientes de regresin parcial para cada variable se ven afectados por la relacin de dicha
variable con las dems incluidas en la ecuacin de regresin.
E! clculo de la ecuacin de regresin cumple una finalidad eminentemente predictiva.
Se quiere predecir el valor de la variable dependiente en funcin de qu valores se presen
ten en una serie de variables independientes. Por ejemplo, una persona que rena las ca
ractersticas siguientes:
- Manifieste una simpata hacia los latinoamericanos (X5) de 7 en una escala de 0 (nin
guna simpata) a 10 ("mucha simpata").
- Le preocupa bastante (3) que un hijo o hija suya se case con un ciudadano de Ma
rruecos u otro pas norteafricano (X10).
- Considera que las leyes que regulan la entrada y permanencia de extranjeros en Es
paa (X.) son correctas (3).
- Piensa que son bastante, pero no demasiados (2) las personas de otros pases que
viven en Espaa (X6).
- Le preocupa bastante" (3) tener como vecino a una familia de ciudadanos de Ma
rruecos u otro pas norteafricano (X13),
--- Es varn (1) (X3).
Para una persona con estas caractersticas puede predecirse que su simpata hacia los
norteafricanos es:
Y= 3,786 + (,5S8)(7) + (-,698)(3) + (,261 )(3) + (-,356) (2) + (-,348)(3) + (-2 6 5 )0 ) = 4,36
Pero, como los coeficientes de regresin son estimaciones a partir de datos mustrales,
la prediccin de Y (simpata hacia norteafricano) nunca puede ser exacta. Hay que aadir
el error de prediccin (o error tpico de la estimacin a partir de las variables independientes
incorporadas al modelo predictivo). ste, como se expone en ei subapartado 1.5.2, es una me-

Captulo 1: Regresin mltiple

9l

dtda de ia adecuacin del modelo de regresin en la prediccin de Y. Cuanto ms se apro


ximen los valores de Y observados en fa muestra con los estimados por e modelo de re
gresin, menor es e error de prediccin, lo que se traduce en una mayor precisin en ta es
timacin de) valor promedio de Y. Como se ver en el susodicho subapartado, el error
tpico e ia estimacin en este modelo de regresin mltiple es 1,9595. Un valor pequeo en
magnitud, que no significa necesariamente que el error de prediccin sea pequeo. Para sa
ber si el error es elevado o bajo hay que analizarlo respecto a la variabilidad de Y, como se
detalla en dicho subapartado. Aqu soto se avanza que, aunque la cuanta de error sea 1,9595,
el error de prediccin es elevado, a decir por la amplitud del intervalo en ia prediccin de Y.
De acuerdo con el modelo obtenido, para un nivel de significacin de ,05 (que significa que
hay un 5% de probabilidad de equivocarnos en la inferencia o, !o que es igual, la probabilidad
de acierto es del 95%), ia simpata hacia los norteafricanos de una persona que rena las
caractersticas sealadas es un valor comprendido en el intervalo que va de 0,519 a 8,201.
Este intervalo es demasiado amplio e indica que el ajuste de los puntos al hiperplano no ha
sido perfecto. La correspondencia entre ios valores observados de Y y os estimados no se
alcanza en algo ms de a mitad de los casos, como se ver en el apartado 1.5. El inten/aio de confianza se ha obtenido restando (lmite superior) y sumando (lmite superior) al va
lor de Y estimado (9 - 4,36) el producto del error tpico de la estimacin (1,9595) y el valor
terico de t para e! nivel de significacin escogido (,05) y sus grados de libertad correspon
dientes (N - p -1 ). Como el tamao muestral es muy elevado, la distribucin f de Student se apro
xima a la distribucin normal, siendo el valor f terico correspondiente 1,96.
0,519
8,201

* Adems de los coeficientes de regresin, en la tabla A de resultados figuran ios erro


res tpicos de cada uno de los coeficientes no estandarizados estimados. Estos errores ex
presan la variabilidad de dichos coeficientes si, en vez de sta, se hubiesen analizados otras
muestras del mismo tamao extradas de ia misma poblacin. Como ei tamao muestral es
muy elevado (bastante superior a los ratios mnimos exigidos), y la multicolinealidad de las
variables incluidas en la ecuacin baja, al igual que sus varianzas, es de prever bajos erro
res tpicos de os coeficientes de regresin.
A diferencia del error de estimacin de Y, ios errores tpicos de los coeficientes son ba
jos, a excepcin del correspondiente a la constante (que es ei ms elevado: ,400). Existe po
ca variabilidad en los coeficientes estimados. De os coeficientes de pendiente, b5 (,558) es
el que presenta un menor error tpico (,026) y b3 (,265) el mayor (,110), (o que se traduce en
un intervalo de confianza ms amplio a efectos de inferencia estadstica.
Las posibilidades de inferencia de los coeficientes estimados en ia muestra depende
de su significatividad. Como se dijo en el subapartado 1.4.3, la significatividad de los coefi
cientes de regresin se comprueba mediante el contraste de hiptesis t de Student. Se com
paran (os valores empricos con la f terica (o crtica) para N - p - 1 grados de libertad, a
un nivel de significacin determinado. Los valores f empricos se obtienen de dividir el coe
ficiente por su error tpico. Por ejemplo, para X13: t = -,348 / ,101 = -3,44; igual para la cons
tante: 3,786 /,4Q0 = 9,46.
Como todos ios valores t empricos superan el correspondiente valor t crtico (1,96, para un
nivei de significacin de ,05), se rechaza la hiptesis nula. Esto significa que todos os coef-

92

Anlisis multivariable. Teora y prctica en la investigacin social

cientes son significativos estadsticamente y, en consecuencia, inferibles a la poblacin a la que


pertenece ia muestra analizada. En la tabla A puede verse que la significatividad es plena. Sal
vo en la variable sexo" (que es significativa a un nivel de ,05), los dems coeficientes, incluyendo
a constante, lo son a un nivel de ,01: la f emprica supera el valor terico para ce=,01 (2,576).
A! ser todos los coeficientes significativos, se calculan los intervalos de confianza. En la
tabla A figuran los lmites inferiores y superiores de! intervalo de confianza para la inferencia
de cada coeficiente a un nivel de confianza del 95%, que equivale a un nivel de significacin
o probabilidad de equivocarnos en la inferencia (de rechazar la hiptesis nula cuando realmente es cierta) del 5%. Por ejemplo, para la variable Xg, hay un 95% de probabilidad de que
su coeficiente de regresin parcial en la poblacin sea un valor comprendido en el intervalo
que va de ,507 (.558 - [1,96][,0261) a ,610 (,558 + [1,96][,026j). La estimacin muestral es,
exactamente, ,558. En consecuencia, el intervalo no es muy amplio. En Sas otras variables las
oscilaciones son mayores.
Los coeficientes de regresin parciales (no estandarizados) son de utilidad en la pre
diccin del valor promedio de Y. Si quiere conocerse la importancia relativa de cada variable
independiente en la prediccin de Y hay que acudir a coeficientes estandarizados o coefi
cientes beta. Los coeficientes no estandarizados se ven afectados por la unidad de medicin
de la variable, lo que dificulta la comparacin entre ellos. Para ello hay que proceder a su es
tandarizacin, multiplicando cada coeficiente de pendiente (b) por el cociente de la desviacin
tpica de la variable independiente y la desviacin tpica de la variable dependiente. Por ejem
plo, para X5 el coeficiente beta {"/?) es igual a: ",558 - 2,2478/2,7276 = ,460. Las desviaciones
tpicas de todas las variables analizadas se incluyen en el subapartado 1.3.2.
Los coeficientes beta se calculan para todas las variables independientes, pero no para la .
constante porque las puntuaciones Z suponen desviaciones respecto de la media, lo que im
plica su traduccin al origen. Su valor se ve afectado, al igual que los coeficientes no estan
darizados (b), por la correlacin existente entre la variable independente correspondiente y
las dems independientes en la ecuacin. Pero, a! estar todos los valores expresados en la mis
ma unidad de medicin (unidades de desviacin tpica), permiten la comparacin entre ellos y
conocer qu variable independiente contribuye ms a la prediccin de Y. sta es su utilidad prin
cipal (la comparacin de los efectos de cada variable predictora) y no la prediccin de Y.
A diferencia de ios coeficientes b, los j9 han de tener un valor entre 0 y 1. Todo valor su
perior a 1 indica la existencia de multicolineaUdad. El mayor coeficiente (i corresponde a Xs
(,460). Precisamente, sta es la variable independiente ms correlacionada con Y (r = ,593). Le
sigue en importancia X10 (-,258), la segunda ms correlacionada con Y (r = -,476). X3 es, en
cambio, ia variable de menor coeficiente f (049) y, a su vez, la menos correlacionada con
Y (r = -,050). Estas correlaciones figuran en la matriz de correlaciones (subapartado 1.3.2).
Pero, aunque en estas tres variables la correspondencia entre los coeficientes y ios de
correlacin sea cierta, no lo es en todas las variables. X13 es la cuarta variable independiente
con mayor coeficiente /? (-,086), pero la tercera ms correlacionada con Y (r = -,396). De la
comparacin de los coeficientes } con ios coeficientes de correlacin (en la matriz de co
rrelaciones), puede concluirse que la correlacin bivariada con la variable dependiente no de
termina !a inclusin de la variable independiente en la ecuacin de regresin. La variable X3
("sexo), por ejemplo, es de las 14 variables la menos correlacionada con Y, si bien logra ser
incluida en la ecuacin de regresin. En cambio, variables ms correlacionadas con Y, como
X7 (r - ,281) o X s {r = -,294) han quedado excluidas del modelo. La explicacin a su exclu
sin est en la correlacin que estas variables tienen con variables previamente incluidas en
la ecuacin de regresin, ai mostrar mayor poder predictivo de Y.

Captada 1: Regresin mltiple

93

Del producto de los coeficientes beta y los coeficientes de correlacin se extrae el por
centaje de varianza de Y que cada variable independiente logra explicar. En concreto, Sa con
tribucin de cada variable independiente en la prediccin del valor medio de Y. sta se mues
tra en ia tabla B.
Tabla B
Variables

^10
*6
x3

r
,593
-476
,302
-,297
-,396
-,050

P
,460
-,258
,099
",082
-.086
-,049

rx j3
,2728
,1228
,0299
,0243
,0341
,0025

48,64% es el porcentaje de varianza de Y que logra explicar e modelo de regresin in


tegrado por estas seis variables independientes. X5 es la variable independiente que mayor
proporcin de varianza explica (27,28%), seguida por X10 (12,28%). Slo estas dos variables
predictoras explican ei 39,56% de la varianza de Y. Las cuatro variables restantes apenas con
tribuyen en la prediccin de Y. X13 es la tercera variable predictora en importancia, pero a dis
tancia de las anteriores (explica el 3,41% de la varianza de Y); X.,, la cuarta, a! explicar el
2,99%. La variable sexo" (X3) apenas es relevante en la prediccin de Y: no logra explicar
ni un 1% de su variabilidad (exactamente, el 0,25%). Aunque exista una mayor predisposi
cin en los varones a manifestar una menor simpata hacia ios norteafricanos que en !as mu
jeres, ei conocimiento de la variable seto apenas es de utilidad para predecir Y. Respecto
a la variable simpata norteafricanos las diferencias por gnero son casi inapreciables, lo que
puede llevar a reconsidererar su inclusin en el modelo de regresin.

Al ser los coeficientes beta los que mejor representan la contribucin de cada variable
independiente en la prediccin de Y, stos son los coeficientes que normalmente se utilizan
en la representacin grfica del modelo de regresin. En este modelo, como no se ha incluido
ningn trmino de interaccin, su representacin grfica es la siguiente:

94

Anlisis mitltvariable. Teora y prctica en la investigacin social

*
Las otras ocho variables independientes analizadas han quedado excluidas del modelo
de regresin. Ninguna de ellas presenta un coeficiente de regresin significativo, como
puede verse en la tabla C. La signifcatividad de ios coeficientes supera el valor de referen
cia habitual de ,05, al ser los valores f empricos inferiores a 1,96.
Adems de la significatividad y el valor f, en la tabla se incluyen los coeficientes befa den
tro y de correlacin pardal. Beta dentro es el coeficiente de regresin estandarizado que
tendra la variable si se incorporase ai modelo de regresin. Todos elios son valores muy ba
jos, En cambio, el coeficiente de correlacin parcial expresa la correlacin de cada variable in
dependiente con ia dependiente, cuando los efectos de las otras variables independientes se
mantienen constantes. Elevando su valor al cuadrado, se obtiene la proporcin de varianza de
la no explicada" de Y por el modelo de regresin (51,36%) que quedara explicada si dicha va
riable independiente se incluyese en e modelo. Por ejemplo, X7 es la variable que mayor coe
ficiente de correlacin parcial tiene (,051). Este coeficiente no significa que dicha variable (re
gularizar a inmigrantes) explique e! 5,1% de la varianza sin explicar" de Y. Para conocer
realmente qu proporcin de varianza explica, hay que elevar dicho coeficiente al cuadrado:
,0512 = ,0026, Ei 0,26% del 51,36% de la varianza no explicada de Y sera explicada incor
porando la variable X7 ai modelo de regresin. Exactamente, ,5136 x ,0026 = ,0013, una pro
porcin de varianza totalmente insignificante. X7, al igual que las otras siete variables, no apor
ta nada a la prediccin de Y. Su conocimiento no ayuda a reducir el error de prediccin de Y.
Tabla C
Variables excluidas
del modelo de regresin
X2 ideologa poltica
X4 edad
X7 regularizar inmigrantes
Xa entrada Inmigrantes
X3 partido racista
X n estudios
X t2 ingresos
X 14 inmigrante delincuente

Beta dentro

Sig.

Correlacin
parcial

-.0 1 8
,009
,040
-.0 2 8
-,001
,012
-,021
-,0 3 8

-8 6 8
,430
1,820
-1 ,2 3 3
-0 4 7
,586
-1 ,0 2 6
-1,741

,386
,668
,069
,218
,963
,558
,305
,082

-,024
,012
,051
-0 3 5
-.001
,016
-.0 2 9
-,0 4 9

1.5. La evaluacin del modelo


La evaluacin del modelo de regresin incluye distintos aspectos relacionados con
el ajuste del modelo y su significatividad (estadstica y lgico-sustantiva). Tambin se
analizan los casos atpleos, aquellos que no han logrado explicarse con el modelo predictivo obtenido.
1.5.1. E l ajuste del m odelo de regresin

Estimada la ecuacin de regresin, interesa conocer lo bien que el modelo obte


nido logra predecir la variabilidad de la variable dependiente. Esto puede saberse, pr-

Captulo 1: Regresin mltiple

95

mero, con la ayuda de grficos, en los cuales se trata de comprobar lo bien que la nu
be de puntos se ajusta a la recta o plano de regresin. A estos grficos se ha hecho
referencia en pginas anteriores.
Pero, aunque los grficos ayudan a visualizar el ajuste, la distancia que separa los
puntos de la recta (o plano) se mide, de forma ms precisa, mediante el coeficiente de
correlacin mltiple cuadrado (R z). ste constituye una medida de proximidad rela
tiva, empleada en el anlisis de regresin para evaluar la bondad de ajuste del modelo.
La proxim idad se mide como a proporcin de varianza de ia variable dependiente que
queda explicada por la recta (o plano) de regresin.
i?2 tambin se refiere como coeficiente de determinacin. Su valor expresa la pro
porcin de variacin total de la variable dependiente que es determinada o explicada
por las variables independientes que conforman la ecuacin de regresin. El rango de
valores posibles va de 0,0 a 1,0. Un valor de R2 ~ 1,0 indica que el modelo de regresin
logra explicar completamente la varianza de la variable dependiente. Esta situacin se
produce cuando todos los puntos caen en la recta (o plano) de regresin. En cambio,
un R2 = 0,0 denota que ei modelo de regresin carece de poder predictivo. Ningn pun
to coincide con la recta de regresin. Ambas situaciones son, no obstante, difciles de
encontrar en la prctica investigadora. Tan improbable es obtener una ecuacin de re
gresin que logre explicar toda la variabilidad de la variable dependiente, como con
seguir una que no explique nada. Lo habitual son valores intermedios.
El coeficiente de determinacin es el cuadrado del coeficiente de correlacin R. Es
te ltimo expresa el grado en que la variacin de la variable dependiente se halla re
lacionada con las variaciones, simultneas, de las variables independientes en la ecua
cin. Cuando se considera slo una variable independiente, el valor de R figura
acompaado de un signo (+,
ste informa si ambas variables se mueven en la
misma direccin (signo positivo) o en direcciones contrarias (signo negativo) -como
se expuso en los subapartados 1.3.2 y 1.4.1-.
Cuando se analiza la relacin de dependencia con dos o ms variables indepen
dientes, el valor del coeficiente de correlacin R mltiple aparece sin signo (ni positi
vo ni negativo). Ello se debe a que se analiza, conjuntamente, la influencia de la serie
de variables independientes en la dependiente. Lo normal es que no coincida la di
reccin de la relacin de cada variable independiente con la dependiente. Por eso, al
analizarse su influencia conjunta, el signo se anula. El coeficiente R mltiple slo indica
el grado de correlacin entre las variables afectadas, pero no la direccin de la relacin
entre ellas. Esta ltima informacin la proporciona los coeficientes de pendiente y los
coeficientes de correlacin bivariable (en la matriz de correlaciones).
La variacin total de la variable dependiente (o suma total de cuadrados, TSS) con
sidera ias desviaciones de la variable dependiente observada en cada uno de los casos
N

de la muestra (i - 1 ,2 ,3...N) respecto de la media de Y:

__

(Y - Y ) 1. Su valor es igual
<=t

a la suma de dos partes; una, a variacin que queda explicada por la ecuacin de re
gresin (o suma de cuadrados de regresin, RSS), que mide la desviacin de cada va-

96

Anlisi? multivariable. Teora y prctica en la investigacin social

A'

__

lor estimado de Y respecto de la media de Y: ^ (F - Y )2; dos, la variacin residual,


<=i
a que queda sin explicar por la ecuacin (o suma de cuadrados residual, ESS), que con
sidera la desviacin de cada valor observado de Y respecto ai predcho por el modeN

o de regresin obtenido: ^ l (X " ^Y ;=1


El coeficiente de determinacin R2 mltiple , como medida de bondad de ajuste del
modelo de regresin, se obtiene de cociente entre la suma de cuadrados de regresin
(RSS), la variacin que queda explicada, y la variacin total (TSS). Cuanto mayor es
RSS respecto a TSS, mejor es el ajuste del modelo. El valor de R2 se halla muy prximo
a 1,0. Los valores observados de Y coinciden con los predichos (Y). Los puntos se si
tan todos alineados en el plano de regresin. En caso contrario, su valor se aproxima
a 0,0; los residuos (Ei = Y - Y,') son muy elevados, siendo el ajuste extremadamente ma
lo. El conocimiento de las variables independientes no ayuda a la prediccin de Y, a
ser variables totalmente independientes unas de otras. En este caso, el plano de re
gresin no ajusta los valores de Y mejor que su media.
N

RSS
TSS = RSS + ESS

El valor de R 2 se toma como medida de reduccin proporcional en el estadstico


de error. Mide la proporcin (o porcentaje, si se multiplica por 100) en que el mode
lo de regresin reduce el error de prediccin de Y, relacionado con predecir a media
de a variable dependiente (Y ), Por ejemplo, un valor de R 2 mltiple igual a ,613 sig
nifica que el 61,3% de la variacin (sobre la media) en la variable dependiente es ex
plicada por la variacin en las variables independientes, que conforman el modelo de
regresin, sobre sus medias respectivas. El conocimiento de los valores de las variables
independientes logra reducir en un 61,3% el error de prediccin de la variable de
pendiente.
Un valor de R2 prximo a 0,0 no siempre se debe a la inexistencia de relacin en
tre las variables independientes con la dependiente; tambin puede ocurrir que
no se hayan incluido variables predictoras relevantes en el modelo. Berry y Feldman
(1985) destacan otros dos factores como contribuyentes a una baja varianza explicada
de Y:
a) Un elevado error de medicin en las variables.
b) Fallos en la especificacin de la forma funcional de la ecuacin de regresin.

Relacionado con esto, sealan dos limitaciones importantes de R2 como medida de


bondad de ajuste (Berry y Feldman, 1985:15).

Captulo l: Regresin mltiple

97

a) Su valor se halla determinado por la muestra analizada: las regresiones llevadas a

cabo en dos muestras diferentes pueden producir idnticos coeficientes de pendiente


parcial pero, en cambio, sus respectivos R2 pueden diferir considerablemente de una
a otra muestra. Ello se debe a diferencias en la varianza de Y en las muestras.
b) El empleo de R 2 puede ser engaoso, si se intenta comparar la bondad de ajus
te relativa de diferentes modelos de regresin con un nmero distinto de va
riables independientes. La razn est en. que el valor de R2 siempre tiende a au
mentar (aunque sea poco) cuando se aaden nuevas variables a la ecuacin,
incluso cuando stas apenas tienen efecto en la variable dependiente. De hecho,
cuando el nmero de variables independientes (p) se aproxima al nmero de ca
sos de la muestra (N), el valor de R2 se aproxima a 1,0.
Para obviar esta ltima limitacin, se introduce un ajuste en R 2 que corrige la so
breestimacin de R2, cuando no se mantienen las debidas proporciones de nmero de
casos por variables predictoras. El R2 ajustado (R2, tambin referido R2) queda defi
nido de la siguiente forma:
rI

=
N - p - 1

Donde: R 2 es el coeficiente de determinacin mltiple.


p el nmero de variables independientes o predictoras.
N (o n ) el tamao de la muestra analizada.
El valor de R2 generalmente coincide con el correspondiente a R2, salvo cuando el
tamao de la muestra es insuficiente en relacin con las variables independientes en
el anlisis. Al menos debe haber 20, e incluso 10 casos por variable predictora (vase
subapartado 1.1.1). Cuando se est prximo a estos lmites mnimos, ei valor de R2 es
inferior a R2. Tanto ms, cuanto menor es la proporcin de casos por variables pre
dictoras. Adems, el valor de R 2 disminuye conforme se aaden variables indepen
dientes a la ecuacin de regresin, a diferencia de R2, que siempre aumenta (aunque
sea poco). Esta disminucin en el valor de R2 responde a la ya referida merma en la
proporcin de casos por variable independiente que se precisa para la adecuada rea
lizacin de los anlisis {R2 puede incluso tomar valores negativos).
Adems de cumplir esta finalidad de ajuste, R2 es de utilidad en la comparacin
de modelos de regresin estimados en muestras diferentes y con diversas variables pre
dictoras.

1.5.2. El error de prediccin

Otro estadstico de utilidad en la comprobacin de la bondad de ajuste del modelo


de regresin es el error tpico de la estimacin de Y (tambin denominado Se o a). s

98

Anlisis rnultivariable. Teora y prctica en la investigacin social

ta es una medida de la adecuacin dei modelo para la prediccin de Y. Se define a par

tir de la suma de errores cuadrados de regresin ^ (Y ~ Y,)2 : la suma de las desviaciones de cada valor Y observado respecto a su correspondiente valor predicho (Y)
mediante la ecuacin de regresin. Cuanto mayor es la distancia entre ambos valores,
mayor es e error de prediccin.

Se = i

N -p -1

El error de prediccin depende de la confluencia de varios factores. Principalmente,


Jas variables independientes que se hayan incluido o excluido del modelo, y de la co
rrelacin que exista entre ellas. Su valor aumenta conforme se incrementa la corre
lacin entre las variables independientes, ya sea con otras incluidas en el modelo (co linealidad), ya con aquellas que han quedado excluidas. El error de prediccin se ve
muy afectado por la exclusin de variables predictoras relevantes y, en general, por una
incorrecta especificacin de la relacin entre las variables.
El conocimiento de error de prediccin (el error promedio en la prediccin de la
variable dependiente) interviene a efectos inferencaes: inferir, a partir del modelo de
regresin, el valor de la variable dependiente en la poblacin de inters. La inferencia
se realiza en trminos de probabilidad, la cual determina, junto al error, ta amplitud del
intervalo de confianza para la prediccin de Y. Tambin afecta el tamao de la mues
tra empleada en la estimacin de los coeficientes de regresin, adems del nmero de
variables independientes utilizadas en la prediccin de Y:
Intervalo de confianza = Y, (t x Se)
Donde t es el percentil 100(1-0/2) de la distribucin t de Student con N p - 1 grados de libertad. El valor de la variable dependiente estimado (Y;) se inter
preta como una estimacin de la media de Y en las p variables independientes.

1.5.3. L a significatividad del m odelo

Una vez estimado el error de prediccin del modelo, corresponde la comprobacin


de su significatividad. En el subapartado 1.4.3 se trat la significatividad de los coeficien
tes de regresin estimados por separado (mediante la razn t de Student). Ahora se
trata de comprobar si el efecto conjunto de todas las variables independientes que
han mostrado ser relevantes en ia prediccin de Y difiere significativamente de cero o
no. La hiptesis nula adopta la siguiente formulacin: / / 0; p l = f2= jU3 =... = j3 = 0, ia

Captulo 1: Regresin mltiple

99

media de Y es tan adecuada en la prediccin de Y como el modelo de regresin. La hi


ptesis alternativa se formula, en cambio, en trminos de desigualdad: ''//{, (i> = fl2 ~
= ... 0. No se comprueba s cada uno de los coeficientes b (se excluye el in
tercepto, a) es, individualmente, igual o diferente de cero, sino si tomados en conjunto
son simultneamente iguales (Hti) o diferentes de cero
como dice el modelo esti
mado. El rechazo de la hiptesis nula, al nivel de significacin elegido, supone la co
rroboracin del modelo. Este es estadsticamente significativo. Despus, habr que
comprobar si lo es, igualmente, desde la vertiente lgico-sustantivo, si tiene un significado
lgico y se adeca al modelo terico tomado de referente.
La comprobacin de la significatividad del modelo en su conjunto se realiza me
diante la razn F. sta se define como la razn (o cociente) entre varianza explicada
de Y por el modelo de regresin y la varianza residual:
p

R 2/ p
__ R SS/G .L. Regresin
(1 - R 2) ( N - p - 1) ~ E SS/G .L. Residual

Los grados de libertad (g.l.) de regresin son iguales a p (nmero de variables in


dependientes en ei modelo); y g.l. residual a N - p - 1 . Todos estos valores se incluyen
en ia tabla ANOVA (anlisis de varianza) en el anlisis de regresin mltiple:
Fuente de
variacin

R egresin

Suma de
cuadrados

Grados de
libertad

Media
cuadrtica

RSS/p

N -p-1

ESS / N - p - 1

N - 1

TSS / N - 1

Significatividad
F

RSS/p
ESS/N-p-1

C ontraste de los
valores "F em p
rico y terico, con
p y N-p-1 grados
de libertad a un
nivel de significa
cin determinado

/-i

Residual
-1
Total

Razn
F

c r ,- F ) a

.......... *.................

=t

El modelo de regresin adquiere significatividad estadstica cuando la razn F em


prica supera a la terica a un nivel de significacin concreto, usualmente, ,05, que sig
nifica una probabilidad de acierto al rechazar la hiptesis nula de 95%. Para que el re
chazo de la hiptesis nula sea posible, la significatividad asociada a la razn F" ha de ser,
al menos, <,5. Lo que permitira concluir que la prediccin de la variable dependiente
a partir de la ecuacin de regresin estimada es significativa estadsticamente, no pu
dindose atribuir a la casualidad. Por el contrario, cuando la significatividad de la razn
F supera e valor ,05 (si ste ha sido el nive de significatividad elegido), se acepta la
hiptesis nula. Lo que supone la no significatividad del modelo estimado. No hay evi
dencia suficiente para asegurar que la varianza explicada de la variable dependiente por
el modelo de regresin no pueda atribuirse a variacin muestral aleatoria.

100

Anlisis muhivarutbUi. Teora y prctica en la investigacin social

E j e m p l o d e c o m p r o b a c i n d e l a j u s t e d e l m o d e l o d e r e g r e s i n

Como ya se avanz, ei modelo de regresin (estimado mediante ei procedimiento "pa


so a paso" de inclusin y eliminacin de variables), integrado por las variables independientes
X5, X10, Xv X6, X13 y X3, es estadsticamente significativo, a decir por la prueba de significatividad F realizada. En la tabla A se descomponen sus integrantes.

Tabla A
Fuente de
variacin

Suma do
cuadrados

Grados de
libertad

Media
cuadrtica

Regresin

4627,827

771,304

Residual

4887,883

1273

3,840

Total

9515,710

1279

7,440

Razn

ttpu

Signifcatividad
p*

200,879

,000

El coeficiente de correlacin mltiple es igual a ,697, io que significa que ei grado de re


lacin conjunta entre las seis variables independientes con la dependiente es muy importante.
Recurdese que un valor prximo a 1,0 indica correlacin perfecta entre las variables. Este
coeficiente no va acompaado de signo porque la direccin de la relacin de cada variable
independiente con la dependiente (positiva o negativa) no coincide. En las variables X5 y X1
es positiva, mientras en X10, X6, X13 y X3 es negativa. Elevando este coeficiente al cuadrado
se obtiene el coeficiente de correlacin mltiple cuadrado o coeficiente de determinacin (R2):
,6972 = ,486. De acuerdo con este coeficiente, traducido a trminos porcentuales, el 48,6%
de a variacin (sobre la media) en la variable dependiente es explicada por la variacin en
las variables independientes que integran el modelo de regresin, sobre sus medias. Esto sig
nifica que ei conocimiento del valor de las variables independientes iogra reducir en un 48,6%
el error de prediccin de Y, cantidad nada desdeable. Casi la mitad de la varianza de Y es
explicada por la conjuncin de seis variables predictoras. El ajuste de la nube de puntos al hi
perplano es bueno, aunque no perfecto. Queda un 51,4% de su variabilidad sin explicar, al
estar afectada por otras variables no consideradas.
R2 se obtiene de! cociente entre ia suma de cuadrados de regresin (la variacin expli
cada) y ia suma de cuadrados total (varianza total de Y): 4627,827 / 9515,710 = ,486.
El coeficiente R2 ajustado, que corrige la sobreestimacin de Ff- cuando el tamao
muestral es pequeo en relacin con el nmero de variables independientes analizadas, ape
nas difiere del anterior, debido a que la proporcin de casos por cada variable independiente
es muy elevada:
= ,484 . Este valor se obtiene aplicando la frmula siguiente:

Captulo 1: Regresin mltiple

101

El error tpico de estimacin de Y se calcula, en cambio, a partir de la suma de cuadra


dos residual {la variacin residual de Y, la que queda sin explicar por el modelo de regresin)..
Mide el desajuste de la nube de puntos respecto af hiperplano: a no coincidencia entre los
valores Y observados en ia muestra con los estimados por la ecuacin de regresin. En es
te modelo, ei error tpico de la estimacin ha sido 1,9595. Su valor se obtiene mediante ia si
guiente ecuacin:

...

N-p-1

f4W T 883
~ V1280 - 6 - 1

Como ya se vio en el subapartado 1.4.3, ei valor del error determina la amplitud de los in
tervalos de confianza en la prediccin de Y, a un nivel de probabilidad determinado.
Por timo, el modelo de regresin estimado en ia muestra es inferibie a! universo, al ser
significativo estadsticamente. La F emprica (200,879) supera bastante su correspondiente
valor terico (2,10), para un nivei de significatividad de ,05 y 6 y 1.273 grados de libertad. E
rechazo de a hiptesis nula (la media de Y es tan adecuada en ia prediccin de Y como el
modelo de regresin) era predecible por el elevado tamao de la muestra. La F emprica es
e resultado de la razn siguiente:
F

RSS/P
= 4627,827/6 = 771,304 =
ESS/N - p 1
4887/1273
3,840

En una comprobacin posterior de la validez det modelo de regresin, se procedi a ia


divisin aleatoria de a muestra total en dos submuestras iguales: la muestra de anlisis y
la de validacin. En ambas se obtuvieron resultados similares, aunque no idnticos, que se
resumen en la siguiente tabla:
Tabla B
Fuente de
variacin

Suma de
cuadrados

ANLISIS
Regresin
Residual
Total

2.421,903
2.241,519
4.663,422

VALIDACIN
Regresin
Residual
Total

2.337,153
2.207,797
4.544,951

Grados
libertad

Media
cuadrtica

Razn
p.

Slgn.
"F"

629
634

484,381
3,564
7,356

135,924

,000

5
619
624

467,431
3,567
7,284

131,053

,000

Ajuste del modelo


de regresin
ANLISIS
R
,721
R2
,519
R2a
,516
Error tpico est. 1,8878
VALIDACIN
R
,717
Ra
,514
,510
Error tpico est. 1,8886

En ambas submuestras, el modelo de regresin es bastante significativo, al ser la pro


babilidad de error al rechazar a hiptesis nula (cuando en realidad es cierta) inferior al 1%.

102

Anlisis mullivariable. Teora y prctica en la investigacin social

Ei porcentaje de varianza explicada es prcticamente igual: 51,6% en a muestra de anlisis


y 51%, en a muestra de validacin (de acuerdo con e estadstico R cuadrado corregido o
ajustado, R 2,). El error tpico de la estimacin tambin es similar (1,8878 en la muestra de an
lisis y 1,8886 en la muestra de validacin) y ligeramente inferior al obtenido con la muestra
entera. Obsrvese que elio se debe a que el modeo de regresin obtenido tras la divisin
aleatoria de la muestra total logra un mejor ajuste {la aproximacin de'la nube de pinitos'al
hiperplano es mayor) que cuando se analiza la muestra en su conjunto (en esta ocasin el va
lor R 2
a es ,484, que es igual a un 48,4% de varianza explicada). Adems, advirtase que el
modelo antes inclua seis variables independientes. Ahora, se obtiene un modelo que explica
un 3,2% ms de la variabilidad de Y (a muestra de anlisis), pero con slo cinco variables in
dependientes. La variable sexo (X3) queda excluida del modelo, ai dejar de ser significati
va en la prediccin de la variable dependiente. Las otras cinco variables independientes con
firman, en cambio, su poder predictivo en la ecuacin de regresin. Si bien, la variable X 13
("vecino marroqu) muestra ahora mayor contribucin a la prediccin de fa variable depen
diente que ta variable X6 (nmero de inmigrantes).
Respecto a la eliminacin de la variable X3 sta era de esperar, no slo porque dicha va
riable es, de ias incluidas en el modelo, la menos correlacionada con Y, sino sobre todo por
que su incorporacin al modelo supona un ligero incremento en los niveles de colinealidad,
a decir por su valor en el ndice de condicin (subapartado 1.1.8). La tabla C detalla ia com
posicin, bastante similar, del modelo de regresin en ambas submuestras. Adems, la con
tribucin de sus cinco variables explicativas en ia prediccin de Y (simpata hacia norteafricanos: marroques...} es parecida a ia extrada en la muestra total. Para comprobar lo dicho,
comprense estos resultados con los incluidos en ei subapartado 1.4.3.

Tabla C
Coeficientes no
estandarizados
Modelo efe regresin
B

Error
tpico

(Constante)
X5 simpata latinoamericano
X 10 casar con marroqu
X1 leyes inmigracin
X )3vecino m arroqu
X6nmero de inmigrantes

3,595
,589
-5 1 5
,211
-4 1 7
-,3 5 8

,536
,035
,096
,079
,135
,130

. MUESTRA DE VALIDACIN
(Constante)
Xs simpata latinoamericano
X t0 casar con marroqu
X., leyes inmigracin
X 13vecino m arroqu
X,:nnnem de inmigrantes

3,238
,586
-,5 4 0
,302
-4 8 8
-,2 8 4

,583
,036
,096
,083
,139
,136

Coeficientes
estandarizados
t

Sig.
T

,080
.106
-0 8 4

6,705
16,598
-5 ,3 8 7
2,651
-3 ,0 9 8
-2 ,7 5 2

,000
,000
,000
,008
,002
,006

,487
-,2 0 2
,114
-,1 2 2
-,0 6 6

5,554
16,193
-5 ,6 2 8
3,651
-3,49 9
-2 ,0 9 7

,000
,000
,000
,000
,001
,036

Beta

. MUESTRA DE ANLISIS
,494

-,192

Captulo 1: Regresin mltiple

1.5.4. La deteccin de atpleos

103

"

La evaluacin del modelo de regresin incluye tambin la deteccin de atpicos


(o outliers). Por atpico se entiende toda observacin que no ha quedado bien re
presentada por el modelo de regresin. Son observaciones no coincidentes con el res
to de los casos analizados, y van acompaadas de residuos elevados: existe una gran dis
paridad entre la respuesta observada (Y) y la predicha a partir de la ecuacin de
regresin (Y). Su presencia apenas influye en la adecuacin del modelo, si slo afec
ta a unos casos espordicos, Pero cuando son varios los casos afectados, urge la adop
cin de alguna medida para paliar los efectos negativos que su presencia tiene en ia re
solucin del modelo de regresin.
La deteccin o identificacin de atpicos puede efectuarse con ayuda de grficos
y/o estadsticos concretos. Los grficos de residuos constituyen una va rpida y sencilla
para detectar atpicos. Entre los grficos ms aplicados en la deteccin de atpicos
destaca el histograma de frecuencias de residuos estudentizados. Este grfico ya fue des
crito, en general, en el subapartado 1.1.6. Puede realizarse con residuos estandarizados
o estudentizados. En la identificacin de atpicos se prefiere, no obstante, los residuos
estudentizados (Et ) con preferencia a los estandarizados ( E, ) (Sen y Srivastava,
1990). Medante ambos tipos de residuos, toda observacin con residuos superior a 2
(desviaciones tpicas) se considera un posible atpico. Este valor de referencia res
ponde al nivel de significacin ms aplicado en la investigacin emprica: ,05 (que su
pone una probabilidad de acierto del 95% ). A este nivel de significacin, el valor z
y tericos (siempre que los grados de libertad de este ultimo sea superior a 120) es
1,96. De este modo, todo residuo (estandarizado o estudentizado) superior a este va
lor se identifica como estadsticamente significativo. Su confirmacin precisa, no
obstante, un anlisis ms profundo. Cuando el residuo es mayor de 3, su calificacin co
mo atpico es ms clara. En el histograma todos los casos con valores superiores a
3,16 o menores d -3,16 aparecen en el intervalo etiquetado out (fuera).
En la identificacin de atpicos tambin es de gran utilidad el grfico de lneas de
residuos estudentizados. En este grfico, toda observacin con residuos positivos o ne
gativos muy elevados (se aplican los mismos valores de referencia que en el histograma)
se consideran atpicos; es decir, observaciones que no han quedado bien represen
tadas en la ecuacin de regresin. La figura 1.10 incluye el grfico de lneas de residuos
estudentizados que corresponde al anlisis de regresin aqu realizado para la mues
tra total.
Otro grfico que puede ayudar en la deteccin de atpicos, de ms reciente apli
cacin, es el grfico de residuos brutos, E i (en el eje vertical) y eliminados, Ef_i: (en el
horizontal). Estos ltimos reflejan el cambio en el ajuste de la ecuacin de regresin
cuando el caso i es eliminado. A diferencia del grfico de residuos estandarizados,
en este grfico, la nube de puntos debera aproximarse a una recta, desde el origen, de
45, con una pendiente de 1. Tbdo caso que se aleje de dicha recta se considera un po
tencial atpico. Tanto ms, cuanto mayor sea su distancia a la recta. La figura 1.11 ilus
tra la aplicacin de esta modalidad grfica con los datos aqu analizados (la muestra to-

104

Anlisis rnultivariable. Teora y prctica en la investigacin social

tal). La nube de puntos se ajusta a la recta de 45 y pocos puntos se distancian de


ella. Si se compara con ei grfico de la figura 1.10, ia identificacin de posibles atpicos se evidencia ms en el grfico de lneas de residuos estudentizados que en este
ltimo.

O
P

-a

251
126

501
376

751
626

1.001
1.251
1.501
1.751
2.001 2.251
876
1.126
1.376
1.626
1.876
2.126
2,376

Numero de caso

Figura LIO. Grfico de lneas de residuos estudentizados.

10

Jb
Cfl
o
=5
rs
<n
<U
OS

10 -

-10

-0

10

Residuos emaados

Figura 1.1L Grfico de residuos brutos (o no estandarizados) y eliminados.

A estos grficos hay que aadir los grficos de regresin parcial, que permiten la iden
tificacin de atpicos, pero para cada relacin de la variable dependiente con cada in-

Captulo 1: Regresin mltiple

105

dependiente, por separado. Asimismo, es de utilidad el grfico de residuos parcial que


considera la correlacin parcial de cada variable independiente con la dependiente, des
pus de eliminar el efecto de las otras variables predictoras en el modelo. A veces, tam
bin se aplican el grfico de caja en la identificacin de atpleos, pero su uso es menos
habitual. En este ltimo grfico, los datos se representan en una caja alrededor de la me
dia. Todo caso que se site lejos de la caja se considera un posible atpico. La figura 1.12
incluye el grfico correspondiente a los datos del ejemplo.

Residuos estudentizados

Figura 1.12. Grfico de caja con residuos estudentizados.


Adems de los grficos, existen estadsticos especficos que ayudan a identificar,
de forma ms precisa, el grado al que una observacin es un atpico. Entre los ms
aplicados destacan los siguientes:
- La distancia D de Cook, algunas veces tambin referid a C (Nourisis, 1986;
Graybill e Iyer, 1994), se define como funcin de los residuos estudentizados eli
minados (jE^a o SDRESID), definido en el subapartado 1.1.10, y los elementos
de la diagonal, uhn , de la matriz H, mediante la expresin siguiente:
f p2
D,

p +x

Ki
i -h

Esta distancia se calcula para cada una de las N observaciones que componen
la muestra. Mediante ella se comprueba la cantidad en que varan las estimacio
nes de los coeficientes de regresin, si la observacin i se elimina del anlisis.
Concretamente, proporciona una medida de la distancia entre el valor del coefi
ciente de pendiente cuando se utilizan todas las observaciones en el clculo de la

106

Anlisis multivariable. Teora y prctica en la investigacin social

ecuacin de regresin y cuando se omite la observacin i. Toda observacin que


presente un valor elevado, D > Fp t ( N p j a un nivel de significacin concreto
(normalmente, ,05), se considera un posible atpico (y se recomienda un exa
men riguroso). Los casos con mayores valores de distancia coinciden con aqullos
cuya eliminacin provoca una mayor variacin e los coeficientes de regresin. Es
to suele acontecer bien cuando la observacin presenta un residuo estudentizado
muy elevado, o bien cuando la razn h, J (1 -h- ) es tambin elevada. Esto l
timo se conoce como valores leverage. Se obtienen de comparar la distancia del
valor de un caso desde las medias de todas las variables independientes. Los ca
sos con valores leverage superiores a 2p/N (donde p es el nmero total de
coeficientes, incluyendo el intercepto) se consideran atpicos".
Cook y Weisberg (1982) proponen que toda observacin con una distancia de
Cook superior a 1 es un posible atpico. Hutcheson y Sofroniou (1999) prefie
ren no utilizar ese valor de referencia genrico, e incluso conservador. Proponen
un punto de referencia calculado a partir del cociente siguiente: 4 / (N - p).
La medida de distancia de Welsch-Kuhn, ms conocida como DFFITS, mide si
multneamente la influencia en el coeficiente de regresin y en la varianza.
Guarda bastante similitud con la distancia de Cook:
D F H TS, =

Toda observacin que presente un valor absoluto de DFFITS > 't(p i se


considera un posible atpico.
La deteccin de atpicos tambin puede limitarse a un diagnstico por caso. Se
identifican los casos con un residuo estandarizado (ZRESID) superior a un valor da
do. Lo ms habitual (y as lo aplica el programa SPSS, por ejemplo, por defecto) es fi
jarlo en 3. Se suele escoger este punto de referencia (o de corte) porque, si los datos es
tn normalmente distribuidos, la probabilidad de alcanzar un valor superior a 3 es
bastante baja. Adems, ya se dijo que todo caso con un residuo estandarizado superior
a +3,0 o inferior a -3,0 es un claro atpico. Cuando el residuo se sita entre 2,0 y
3,0, se precisa confirmacin por otros procedimientos.

~j E

j e m p l o d e id e n tif ic a c i n d e a t p i c o s

La aplicacin de grficos en la identificacin de atpicos ya se ha ilustrado en las figuras


1.10, 1.11 y 1.12, adems del histograma y de los grficos de regresin parcial descritos en
pginas precedentes. A continuacin figuran Sos atpicos" obtenidos tras fijar como punto de
'corte todo residuo estandarizado (o tipificado) superior a +3,0 o inferior a -3,0.

Captulo 1: Regresin mltiple

107

Diagnsticos por casoa


Nmero
de caso

Residuo
tip.

Simpata
marroqu

Valor
pronosticado

Residuo
bruto

246
353
369
698
727
1.017
1.149
1.195
1.497
1.501
1.556
1.834
1.920
2.143
2.280

- 4,284
- 3,224
- 3,263
4,217
-3 ,4 3 8
3,137
3,339
3,356
-4 ,0 1 5
-3 ,4 1 9
-3 ,6 6 5
- 3,081
3,322
3,408
- 3,041

,00
,00
,00
10,00
,00
9,00
10,00
10,00
,00
,00
,00
2,00
9,00
10,00
,00

8,3941
6,3181
6,3946
1,7374
6,7365
2,8528
3,4570
3,4233
7,8677
6,7001
7,1820
8,0378
2,4903
3,3228
5,9586

- 8,3941
-6,3181
- 6,3946
8,2626
- 6,7365
6,1472
6,5430
6,5767
- 7,8677
- 6,7001
-7,1820
- 6,0378
6,5097
6,6772
- 5,9586

a Variable dependiente: simpata marroqu.

Como puede apreciarse en la tabla, los casos atpleos coinciden con aqullos cuyo valor
pronosticado se distancia bastante de su valor observado en la variable dependiente. Lo que
explica qu sus residuos (brutos o estandarizados) sean muy elevados. En total son 15 los
casos claramente no explicados por el modelo de regresin. En los grficos coinciden con pun
tos alejados del conjunto de datos. (Si el punto de corte se hubiese fijado en 2,48 seran los
casos identificados como posibles atpleos .) A la identificacin de los atpleos le sigue la
adopcin de alguna medida, en busca de alcanzar alguna mejora en el modelo. A este res
pecto, tngase presente que la proporcin de atpleos es muy pequea en el conjunto de la
muestra. Adems, la distancia de Caok {con un valor medio de ,001) indica que, al ser un va
lor muy pequeo, la exclusin de dichos atpleos del clculo de los estadsticos de regresin
no afectara a un cambio sustancial de sus coeficientes de regresin.

Tras la identificacin de atpleos, procede la adopcin de alguna medida al


respecto, en busca de alcanzar alguna mejora en el modelo de regresin. Lewis-Beck
(1980) resumen a cuatro las actuaciones posibles ante la existencia de atpicos:
a) Excluir del anlisis los casos que muestren ser atpicos. stos pasaran a en
grosar la lista de missing vales (o casos sin respuesta). El principal incon

veniente de esta solucin radical es la reduccin que puede producir en el ta


mao de la muestra (y la consiguiente prdida de informacin). Salvo que el
nmero de atpicos sea escaso, siendo su presencia en la muestra mnima.

108

Anlisis rnultivariable. Teora y prctica en la investigacin social

b) Efectuar dos ecuaciones de regresin: una con atpicos incluidos y otra sin
ellos. Siguiendo este proceder no habra prdida de informacin. Pero presenta

el inconveniente principal de duplicar los anlisis con unas mismas variables.


c) Transformar la variable afectada por "atpicos. sta se considera una op
cin ptima. Supone el clculo de una nica ecuacin de regresin, no-varian

do el tamao de la muestra.
d) Aumentar el tamao de la muestra para comprobar si los atpicos son real

mente atpicos o si, por el contrario, se ajustan a la realidad de un mode


lo ms general (quizs no lineal). Los inconvenientes principales de esta ac
tuacin son el coste econmico y la dificultad que supone abarcar ms
unidades mustrales.
Antes de tomar alguna (o varias) de estas medidas, tal vez debiera seguirse la re
comendacin de Gunst y Masn (1980) de comprobar si los atpicos se deben a erro
res de grabacin. Hutcheson y Sofroniou (1999) sealan a datos incorrectamente
grabados y a indicadores de missing vales incorrectamente especificados en e pro
grama utilizado, como dos posibles razones de atpicos. En caso afirmativo, estos
errores pueden corregirse de forma inmediata. Habra que remitirse a la fuente de informacin general para, a continuacin, corregir el valor mal grabado por el correcto
en la base de datos. En caso negativo, habra que decidir qu hacer con ios atpicos. .i;
Sin duda, la decisin se ver bastante afectada por la proporcin que representen los
atpicos en la muestra analizada.
1.6. Variaciones en el anlisis e regresin
El procedimiento de regresin expuesto en pginas precedentes es el ordinario,
aunque existen variaciones al mismo. Primero, en funcin de cmo se seleccionen las.
variables predictoras para constituir el modelo de regresin, si se ha seguido un pro
cedimiento secuencial (o por pasos) y, en caso afirmativo, cul de ellos. Tambin hay
que hacer referencia a alternativas principales al procedimiento de mnimos cuadra- ;,
dos ordinarios (OLS), de gran utilidad cuando se incumplen uno o varios de los su
puestos bsicos para ia regresin OLS. Cada uno de estos contenidos se desarrollan en
los subapartados siguientes.

1.6.1. L os procedim ientos secuenciales de seleccin de variables predictoras

En a realizacin de un anlisis de regresin es habitual partir de una serie amplia


de variables independientes (o predictoras). El objetivo principal es seleccionar un gru-:
po reducido de ellas que muestren una contribucin significativa a ia prediccin de la
variable dependiente. Se busca un modelo sencillo, parsimonioso y, a la vez, fcil de m-,
terprear. Todo lo cual incide en la decisin de aplicar algn procedimiento secuencial

Captulo 1: Regresin mltiple

109

de seleccin de variables predictoras. Sobre todo, cuando la investigacin es explo


ratoria y es elevado el nmero de variables independientes cuyo poder predictivo quie
re comprobarse. En cambio, cuando la investigacin es confirmatoria, los procedi
mientos secuenciales no son de utilidad. La finalidad no es efectuar una seleccin de
variables en funcin de su poder predictivo, sino corroborar un modelo concreto
obtenido en indagaciones precedentes.
Tres son los procedimientos esenciales de seleccin secuencial de variables pre
dictoras:
a) Inclusin secuencial de variables hacia delante (forward).
b) Eliminacin progresiva de variables hacia atrs (backward).
c) El procedimiento paso a paso ("stepwise) de inclusin y eliminacin de va

riables.
Las dos primeras opciones pueden considerarse casos especiales del tercer pro
cedimiento, que es ms utilizado. A favor de la primera opcin est el menor nmero
de clculos que supone su realizacin. Pero, la segunda opcin (la eliminacin pro
gresiva de variables) suele tratar mejor el problema de la multicolinealidad que la pri
mera opcin. Por esta razn algunos autores, como Chatterjee y Price (1977), por ejem
plo, recomiendan su utilizacin con preferencia al procedimiento de inclusin
secuencial de variables hacia delante. Pero, veamos en qu consiste cada uno de es
tos procedimientos secuenciales.

A ) Inclusin secuencial de variables hacia delante"

El anlisis comienza con el modelo ms sencillo: aquel que slo incluye la constante
(o intercepto). A continuacin, el programa procede a la seleccin secuencial de va
riables, en funcin del grado de relacin que stas manifiesten con la variable de
pendiente y su significatividad. Tambin afecta el grado de colinealidad de las varia
bles independientes candidatas a ser incluidas en 1a ecuacin de regresin con aquellas
variables que previamente han sido incorporadas.
La seleccin de variables predictoras es secuencia!. En cada paso se incorpora
una nueva variable a la ecuacin de regresin, lo que suele ocasionar una alteracin en
los coeficientes de regresin respecto al paso anterior. Dicha variacin en los coefi
cientes es mayor cuando la variable recin incorporada a la ecuacin presenta un gra
do de colinealidad elevado con una o varias de las variables predictoras que previa
mente fueron introducidas en la ecuacin de regresin. Si la colinealidad es elevada,
puede incluso suponer la prdida de significatividad de variables que, en pasos ante
riores, mostraron poder predictivo en la explicacin de la variable dependiente. Pero,
a diferencia de! tercer procedimiento secuencial, de inclusin y eliminacin de varia
bles, en ste no se contempla la eliminacin de variables previamente incluidas en la
ecuacin de regresin, de un paso a otro.

110

Anlisis multivariable. Teora y prctica en la investigacin social

La primera variable que se incluye es aquella que muestra una correlacin simple ms
alta con la variable dependiente, indistintamente de si la correlacin es positiva o ne
gativa. Esta informacin la proporciona la matriz de correlaciones (subapartado 1.3.2).
En el primer paso, se est ante un modelo de regresin simple, compuesto por una so
la variable independiente. Si el modelo muestra ser significativo, de acuerdo con la ra
zn F (subapartado 1.5.3), se comprueba si puede incorporarse otra variable inde
pendiente a la ecuacin. A tal fin, se examinan bs correlaciones parciales de las variables
independientes no incluidas en la ecuacin con la dependiente y su significatividad. En
tre aquellas variables cuya correlacin parcial sea significativa, de acuerdo con la razn
t (subapartado 1,4.3), se escoge la variable que presente la correlacin parcial ms ele
vada con la variable dependiente. Si se desea saber qu ocurrir si dicha variable se in
cluyese en la ecuacin, la mayora de los programas estadsticos, como el SPSS, ofrecen
el coeficiente de regresin estandarizado (a veces llamado beta in o beta dentro).
Tras cada incorporacin de una variable a la ecuacin de regresin, se comprueba
la significatividad del modelo. El anlisis prosigue hasta que el modelo deja de ser sig
nificativo estadsticamente, o hasta que no queden variables independientes que
muestren tener un efecto significativo en la prediccin de la variable dependiente.
En el programa estadstico se fija un valor m nim o de F para que la variable in
dependiente pueda incluirse en la ecuacin y su correspondiente valor p. Este ltimo
expresa la significatividad del estadstico F. Por ejemplo, en el programa SPSS el va
lor mnimos de F para entrar (F-to-enter o F-in) y el criterio de probabilidad aso
ciado a este estadstico por defecto son, respectivamente, F > 3,84 y p < 0,05. stos son
los valores que se aplican, mientras el investigador no especifique lo contrario.
Bendel y Afifi (1977) compararon varios valores F-to-enter mnimos, aplicados ha
bitualmente en este procedimiento de seleccin de variables (forward o hacia de
lante). Un valor que recomiendan es el percentil F que corresponde a un valor
p = 0,15. Utilizar el criterio usual de p - 0,05 es demasiado bajo y con frecuencia excluye
del modelo a variables relevantes en la prediccin de Y. Es mejor opcin aplicar niveles
de significatividad de 0,15 e incluso 0,20. Esto repercute negativamente en un riesgo ma
yor de rechazar la hiptesis nula, cuando es cierta; es decir, afirmar que una relacin es
cierta, cuando en realidad no lo es. La probabilidad de equivocacin se eleva al 20%. Pe
ro, por el contrario, disminuye el riesgo de desacierto al rechazar la hiptesis nula,
cuando en realidad es falsa (es decir, de no encontrar una relacin que realmente es cier
ta). Si el tamao muestral es elevado, el valor de F mnimo para entrar que recomiendan
es el percentil 85 de la distribucin F, con 1 e infinitos grados de libertad. O, lo que es igual,
un valor F mnimo de 2,07 y no el habitual de 3,84, que es ms restrictivo.
Tomar un valor mnimo de F elevado (F > 4,0, por ejemplo) supone dar una menor
oportunidad a La variable para incorporarse a la ecuacin de regresin. Se consegui
ra un modelo de regresin ms restrictivo, aunque con mayor nivel de significatividad.
En la valoracin de los valores de F de entrada mnimos, tngase adems presente que
la significatividad del modelo no se ve slo afectada por el nivel de riesgo que el investi
gador asume de equivocarse. Tambin influye los grados de libertad asociados a la suma
de cuadrados de regresin y la suma de cuadrados residual (vase subapartado 1,5.3).

Captulo 1: Regresin mltiple

111

Por ltimo, aadir que tras la incorporacin de una nueva variable, se produce un
aumento en el valor de Ti1. El incremento vara en relacin con la correlacin existente
entre dicha variable con la dependiente, una vez considerada su correlacin con las de
ms predictoras en la ecuacin. Cuanto mayor sea la correlacin de la nueva variable
predicora con el resto de predictoras y menor su correlacin con la .dependiente, me
nor ser el incremento en R z de un paso a otro. Lo que tambin puede afectar a que
el error tpico de la estimacin no disminuya, como es de esperar, sino que aumente. To
do lo cual afecta en la disminucin del valor F emprico de un paso a otro. De ah la
reiterada recomendacin de no incorporar variables independientes que sean irrele
vantes en la prediccin de Y, ya que provocan un aumento en el error de prediccin sin
haber logrado incrementar la proporcin de varianza explicada de la variable de
pendiente.
B) Eliminacin progresiva de variables hacia atrs

Este segundo procedimiento es el contrario al anterior. El anlisis comienza


con todas las variables independientes incluidas en el modelo. Despus se procede a
la eliminacin secuencial (una a una) de las variables que muestren menor rele
vancia en la prediccin de Y. La primera variable en ser eliminada es aquella que
muestra una menor contribucin a la reduccin de la suma de errores cuadrados, lo
que suele coincidir con presentar un valor no significativo. Tras cada eliminacin,
se recaicula la ecuacin de regresin con las variables independientes que an per
manecen en ella. El proceso de eliminacin y reestimacin del modelo concluye cuan
do todas las razones f son significativas; es decir, cuando las razones absolutas
mnimas son superiores a t os(w _
(depende del nivel de significacin elegido;
0,05,0,10 o superior).
En el programa SPSS se aplica por defecto el criterio usual de un valor F mnimo
para permanecer en la ecuacin (F-to-remove, F-out o F para salir) de 2,71, que
equivale a la probabilidad mxima asociada (P-out) de 0,10. Toda variable cuyo va
lor F no sobrepase dicho valor (2,71), siendo su significatividad superior a 0,10, se con
vierte en candidata a ser eliminada del modelo de regresin. S se quiere un modelo
menos restrictivo, a costa de aumentar el error de rechazar la hiptesis n u h (cuando
en realidad es cierta), puede seguirse la recomendacin de Afifi y Clark (1990) de re
ducir el valor de MF para salir a 1,07.
Como en el procedimiento anterior, tras la eliminacin de una variable, se recalculan los Fparciales para las variables predictoras que quedan en la ecuacin. El pro
ceso concluye cuando ninguna Fparcial es inferior a la cuanta mnima de F fijada pa
ra permanecer en la ecuacin.
C) El procedim iento "paso a paso" de inclusin y eliminacin de variables

Este tercer procedimiento de seleccin secuencial de variables predictoras es


una combinacin de los dos precedentes. Es un proceso de seleccin hacia delante

112

Anlisis rnultivariable. Teora y prctica en la investigacin social

que incorpora los criterios de eliminacin hacia atrs. Aade al primer procedimiento
la posibilidad de eliminar, en un paso posterior, una variable predctora introducida en
un paso anterior. La incorporacin y eliminacin de variables se ve sobre todo afectada
por el grado de colinealidad existente entre ias variables independientes. Por esta ra
zn se incluye, como criterio adicional para la incorporacin de variables a la ecuacin,
su nivel de tolerancia (por ejemplo, TOL> 0,01).
Como en ei procedimiento de inclusin de variables hacia delante, el proce
dimiento paso a paso comienza con slo el intercepto (o constante ). En cada paso
se van incoiporando variables independientes a ia ecuacin de regresin (una a una).
La variable escogida ser aquella que cumpla ios mismos criterios que en la seleccin
hacia delante. Pero, a diferencia de la seleccin hacia delante, en el procedi
miento paso a paso de inclusin y eliminacin de variables no se considera defi
nitiva la incorporacin de una nueva variable al modelo. Su aportacin a la predic
cin de Y es constantemente re vala da, tras la incorporacin de una nueva variable
predctora al modelo de regresin. Para la exclusin de una variable predictora se si
guen los mismos criterios que en la eliminacin hacia atrs. No obstante, hay que
advertir que si quiere evitarse que una misma variable sea continuamente introdu
cida y eliminada del modelo de regresin, hay que fijar un valor F para entrar m
nimo superior al correspondiente valor mximo de F para salir. O, lo que es
igual, P-in ha de ser inferior a P-out. Recurdense los valores mnimos reco
mendados por Afifi y Clark (1990), por ser muy tiles en a prctica, de 2,07 en F
para entrar y 1,07 en F para salir; o los aplicados convencionamente de 3,84 y
2,71, respectivamente.
Si quiere examinarse la secuencia completa hasta que se introducen todas las va
riables, ser conveniente establecer un valor F para entrar mnimo pequeo
(por ejemplo, 0,1, que corresponde a un valor P-in de 0,99). Lo que lleva inevi
tablemente a fijar un valor F para saiir mximo inferior a 0,1. Despus de exa
minar esta secuencia, puede hacerse una segunda corrida utilizando otros valores
F. Para ms informacin, vase Nourisis, 1986; Afifi y Clark, 1990; o Graybiil e lyer,
1994.
Como en todo procedimiento secuencial, el modelo de regresin se vuelve a es
timar tras la incorporacin y/o eliminacin de una variable predictora. Esta reconsi
deracin de la contribucin de las variables independientes a la prediccin de Y lleva
a la recomendacin de este procedimiento para propsitos eminentemente explora
torios (Graybiil e yer, 1994). Cuando ei investigador desea la inclusin de variables
independientes concretas, con el propsito de comprobar una teora, o a efectos pu
ramente comparativos con otros estudios, puede forzar a incorporacin de las varia
bles de inters al modelo de regresin. En la mayora de los programas estadsticos se
ofrece la posibilidad de forzar la inclusin de variables, al comienzo o despus del
proceso de seleccin secuencia!. Adems, cualquiera de los tres procedimientos de se
leccin de variables secuencial permite experimentar con diferentes combinaciones de
variables independientes en la bsqueda de aquella combinacin de variables que me
jor logre predecir el valor de la variable dependiente.

Captulo ]: Regresin mltiple

113

,E j e m p l o d e p r o c e d im ie n t o s e c u e n c ia l d e s e l e c c i n
DE VARIABLES. PREDICTORAS :

En la bsqueda de un modelo de regresin que ayude a predecir la "simpata hacia los


norteafricanos (marroques, etc), se escoge el procedimiento paso a paso de inclusin y eli
minacin de variables, por considerarlo ms adecuado a los propsitos del estudio. Se
busca la obtencin de un modelo parsimonioso, que evite la incorporacin de variables muy
colineales. Los valores mnimos de "Fpara entraf y Fpara salii!l seguidos son los aplicados
por defecto en el programa SPSS: 3,84 y 2,71, respectivamente, que equivalen a las pro
babilidades de F "de entrada de 0,05 y de salida de 0,10. Se busca un modelo altamente
significativo y no se juzga necesario disminuir las exigencias de entrada y de eliminacin de
variabies. Sobre todo, cuando se alcanza un modelo de regresin que logra explicar e 48,4%
de ia varianza de la variable dependiente, incluyendo seis variables predlctivas en la ecua
cin de regresin. En la tabla A se resume el modelo:
Tabla A

Modelo

R cuadrado

R cuadrado
corregida

Error tip. de
a estimacin

1
2
3
4
5
6

,593a
,676b
,688c
,692d
,696
,697'

,351
,457
,473
,479
,484
,486

,351
,457
,472
,477
,482
,484

2,1979
2,0106
1,9821
1,9721
1,9632
1,9595

Cambio en
R cuadrado
,351
,106
,016
,006
. ,005
,002

a Variables predictoras: (constante), simpata latinoamericano',6 Variables predictoras: (constante), simpata iatinoamertcano, casar con marroqu;0 Variables predictoras: (constante), simpata latinoamericano, casar con marroqu,
leyes inmigracin; Variabies predictoras: (constante), simpata latinoamericano, casar con marroqu, leyes inmigracin,
n. de inmigrantes;e Variables predictoras: (constante), simpata latinoamericano, casar con marroqu, leyes inmigracin,
n. de inmigrantes, vecino marroqu;' Variables predictoras: (constante), simpata latinoamericano, casar con marroqu,
leyes inmigracin, n. de inmigrantes, vecino marroqu, sexo.

El anlisis comienza con una nica variable predictora (simpata hacia latinoamericanos;)
que es, de las 14 consideradas, la ms correlacionada con la variable dependiente ("simpata
hacia norteafricanos), como se vio en la matriz de correlaciones (subapartado 1,3.2). La se
gunda en entrar es casar con marroqu, que cumple la doble condicin de ser la segunda
variable independiente ms correlacionada con Y, estando, a su vez, poco correlacionada con
ia variable antes introducida (r = ,274). En total son seis las variables independientes incluidas
en el modelo de regresin. Ninguna de ellas es expulsada tras la incorporacin de una nue
va variable porque, como ya se seal en la matriz de correlaciones y cuando se describi
la colinealidad entre las variables independientes, son pequeas las correlaciones existen
tes entre las variables independientes.
La primera variable en formar el modelo de regresin se distingue adems por ser la va
riable que explica el mayor porcentaje de varianza de Y (35,1%, de acuerdo con el coeficiente

114

A n lisis m ultivariable. T eora y p rctica en la investigacin so c ia l

f cuadrado corregido). Como es usual, tras cada incorporacin de una nueva variable, au
menta la proporcin de variabilidad explicada y desciende el error tpico de a estimacin, aun
que en menor proporcin de lo deseable. Ello se debe al poco poder predictivo de las cuatro
ltimas variables que se incorporan al modelo. Si la segunda variable (casar con marroqu)
provoca un aumento en R de! 10,6%, la tercera ('leyes inmigracin) slo dei 1,6%. Las otras
tres, inclusive menos: el 0,6%, 0,5% y 0,2%, respectivamente. Estas ltimas cuatro variables
predictoras (leyes inmigracin, n. inmigrantes, Vecino marroqu' y sexo) apenas reducen
el error de prediccin de la variable dependiente (simpata hacia norteafricano), aunque son
incorporadas al modelo de regresin porque su contribucin a la prediccin de Y, aunque m
nima, es significativa (p < 0,05).
En la tabla B se resume e! anlisis de varianza (ANOVA) para comprobar la significatlvidad del modelo de regresin en su globalidad. Al haber un total de 1.280 casos vlidos,
la razn Fes significativa en los seis modelos obtenidos en cada paso, aunque su valor des
ciende de 691,815 en e! primer modelo a 200,879 en el modelo 6 (integrado por las seis va
riables predictoras). El descenso es ms acusado a partir del tercer paso y responde, fun
damentalmente, al escaso poder predictivo de las nuevas variables que se incorporan al
modelo de regresin. Tras una nueva incorporacin disminuye ligeramente la propor
cin de casos por variables predictoras en el modelo, pero apenas aumenta la proporcin
de varianza explicada en la variable dependiente. Esta mnima mejora en el ajuste de! mo
delo es la causa principal del descenso en la razn F. Pese a ello, el modelo de regresin
mltiple final, con seis variables predictoras, sigue siendo estadsticamente significativo, al
ser el valor de F emprico bastante superior ai valor F terico (2,10) correspondiente, pa
ra 6 (nmero de variables independientes) y 1.273 (tamao muestral menos nmero de coe
ficientes calculados incluida la constante) grados de libertad y un nivel de significacin de
0,05. La significatividad estadstica del modelo era predecible por el elevado tamao de la
muestra analizada.
En la tabla B obsrvese, adems, ios cambios habidos, en cada paso, en as sumas de
cuadrados de regresin y residual, como medidas de ajuste del modelo de regresin (o de
adecuacin entre la nube de puntos y el hiperplano de regresin).
La tabla C describe la composicin de! modelo de regresin obtenido en cada paso. El
primer modelo es de regresin simple, al estar integrado por una sola variable independiente
(Xs). sta es la variable ms correlacionada con la variable dependiente, (r = ,593). Si se ele
va su correlacin parcial al cuadrado (.5932 =,351), se obtiene que dicha variable explica el
35,1 % de la varianza de Y. Esta informacin coincide con la dada en la tabla A (,351 es el va
lor R 2 corregido en ei primer modelo).
Adems, obsrvese que su coeficiente beta (j35=.593) coincide con su coeficiente de co
rrelacin con Y (como consta en la matriz de correlaciones). Esta coincidencia entre los
coeficientes beta y de correlacin slo se produce en regresin simple, cuando la ecuacin
de regresin incluye una nica variable independiente. Si son dos o ms las variables pre
dictoras, ambos coeficientes difieren. Ello se debe a que, mientras el coeficiente de correlacin
mide la correlacin de ia variable independiente con la dependiente, sin considerar as dems
variables predictoras, tos coeficientes de regresin (estandarizados o no) se ven afectados
por la correlacin de la variable independiente con las dems incluidas en el modelo de re
gresin, Cuanto mayor sea su correlacin, ms diferirn ambos coeficientes.
La colinealidad (o correlacin entre las variables independientes) es, asimismo, la ra
zn principal de las variaciones en los coeficientes de pendiente (estandarizados o no) de
un modelo a otro. E! cambio en la magnitud del coeficiente es mayor cuanto ms crrela-

Captulo 1: Regresin mltiple

115

cionada est la variable con la recin incorporada al modelo. Como las variables aqu ana
lizadas no presentan un grado elevado de colinealidad (como se comprob en el suba
partado 1.1.8), los coeficientes de pendiente apenas varan con la incorporacin de una nue
va variable predictora al modelo de regresin. Las mayores variaciones se producen en la
constante (o intercepto), especialmente, cuando se pasa de! modelo 1 (con una sola variable
independiente) al modelo 2 (que incluye dos variables predictoras): de ,807 cambia a 3,147.
Este cambio es lgico ya que se pasa de una recta a un plano (de dos dimensiones) de re
gresin. Recurdese que la constante es el punto de la recta (o piano) que intercepta el
eje Y. La variacin en la constante es menor entre el modelo 5 (3,616) y e modelo 6
(3,786).

Tabla B
Anovas

Modelo

Suma de
cuadrados

9l

Media
cuadrtica

Sig.

Regresin
Residual
Total

3341,993
6173,717
9515,710

1
1278
1279

3341,993
4,831

691,815

,000a

Regresin
Residual
Tota!

4353,291
5162,419
9515,710

2
1277
1279

2176,646
4,043

538,425

,000b

Regresin
Residual
Total

4502,713
5012,997
9515,710

3
1276
1279

1500,904
3,929

382,038

,000o

Regresin
Residual
Total

4556,983
4958,727
9515,710

4
1275
1279

1139,246
3,889

292,926

,000d

Regresin
Residual
Total

4605,457
4910,253
9515,710

5
1274
1279

921,091
3,854

238,984

,000a

Regresin
Residua!
Total

4627,827
4887,883
9515,710

6
1273
1279

771,304
3,840

200,879

,000'

a Variables predictoras: (constante), simpata latinoamericano.


b Variables predictoras: (constante), simpata latinoamericano, casar con marroqu.
c Variables predictoras: (constante), simpata latinoamericano, casar con marroqu, leyes inmigracin.
d Variables predictoras: (constante), simpata latinoamericano, casar con marroqu, leyes inmigracin, nm. inmi
grantes.
Variables predictoras: (constante), simpata latinoamericano, casar con marroqu, leyes inmigracin, nm. inmi
grantes, vecino marroqu.
( Variables predictoras: (constante), simpata latinoamericano, casar con marroqu, leyes inmigracin, nm. inmi
grantes, vecino marroqu, sexo.
9 Variable dependiente: simpata marroqu.

116

Anlisis multivariable. Teora y prctica en la investigacin social

Tabla C

Modelo

Coeficientes no
estandarizados
B

Constante

xs
Constante

x5

X ,o

Constante
X5
X ,0

X,
Constante
X5
X 10
Xt

X6
Constante
x5

X,0
X,
*6
X 13

Constante
x5
x 10

x,
X 13

x3

Coef.
Estndar

Error tip.

Beta

,807
,719

,201
,027

,593

3,147
,606
-.916

,236
,026
,058

2,256
,584
-,843
,344

Sig.

Intervalo confianza
95%
Correlacin Tolerancia
parcial
Lmite
Lmite
inferior superior

FIV

,413
,665

1,201
,773

,593

1,000

1,000

,500
-,339

2,684
13,340 ,000
23,322 ,000
,555
-15,816 ,000 -1,030

3,610
,658
-,802

,547
-,405

,925
,925

1,081
1,081

,274
,026
,058
,056

,482
-,312
,131

8,237
22,579
14,448
6,167

,000
,000
,000
,000

1,718
,534
-,957
,234

2,793
,635
-,728
,453

,534
-.375
,170

,907
,886
,921

1,102
1,128
1,085

3,267
,570
-,815
,284
-.357

,384
,026
,059
,058
,096

,470
-,301
,108
-0 8 2

8,506
21,912
13,925
4,907
-3,736

,000
,000
,000
,000
,000

2,513
,519
-,929
,170
-,544

4,020
,621
-,700
,397
-,169

,523
-.363
,136
-,104

,888
,872
,850
,844

1,126
1,147
1,177
1,185

3,616
,559
,690
,267
-,347
-,358

,395
,026
,068
,058
,096
,101

,461
-,255
,101
-.080
,088

9,159
21,416
-10,156
4,633
-3,662
-3,546

,000
,000
,000
,000
,000
,000

2,842
, 508
-.824
,154
-,534
-,557

4,391
,610
-,557
,381
-,161
-.160

,514
-.274
,129
-,102
-,099

,875
,640
,844
,844
,653

1,143
1,562
1,185
1,185
1,531

3,786
,558
-6 9 8
,261
-,356
-,348
-,265

,400
,026
,068
,058
,095
,101
,110

,460
-,258
,099
-0 8 2
-0 8 6
-,049

9,458
21,429
-10,281
4,527
-3,751
-3,443
-2,414

,000
,000
,000
,000
,000
,001
,016

3,001
,507
-,832
,148
-,543
-,546
-,481

4,571
,610
-,565
,374
-,170
-.150
-,050

,515
-.277
,126
-1 0 5
-.096
-,067

,875
,639
,842
,842
,652
,994

1,143
1,566
1,187
1,187
1,534
1,006

4,019 ,000
26,302 ,000

Y: simpata haca nortearicano {marroqu...)" (P201); X,: "eyes inmigracin" (P16); X3: sexo" (P41); X5: simpata iacia latinoamericanos" (P210); X6: nmero de inmigrantes (P11); X13: "casar con marroqu' (P306); X13: vecino ma
rroqu1(P506).

Respecto a los coeficientes de pendiente, la mayor variacin en su vaior se registra en


X5, entre el modelo 1 (.719) y e modelo 2 (,606). En el modelo 1 es ella ia nica variable predictora, mientras que en el modelo 2 est acompaada por la variable X 10. Aunque la co
rrelacin entre ambas variables (X5 y X10) es pequea (r = -,274), a inclusin de la variable
X1Qprovoca un descenso lgico en los coeficientes (no estandarizado y estandarizado) de X.__
Por su parte, la variable X10 experimenta una mayor alteracin en su coeficiente de pendiente
entre el modelo 4 (b10 - -8 1 5 ) y el modelo 5 (b10 = -,690). Este descenso en a contribucin^
de X10 en la prediccin de Y se debe a su correlacin con la variable recin incorporada, X13:

Captulo 1: Regresin mltiple

117

r = ,573, sta es a mayor correlacin habida entre las variables predictoras (vase matriz de
correlaciones), aunque se sita an tejos del valor ,80, que incita a ia adopcin de alguna me
dida que evite su incidencia negativa en el anlisis de regresin. Los valores de tolerancia y
FIV confirman (o dicho sobre colinealidad. Los valores de tolerancia ms bajos y de FIV ms
altos se dan- en estas dos variables, aunque distan bastante de los valores que alertan de una
colinealidad severa: ,20 en tolerancia y 5,0 en FIV.
Los errores tpicos de los coeficientes son relativamente bajos, saivo los correspon
dientes a la constante, lo que concuerda con la variacin de los coeficientes. Los errores
tpicos ms elevados en a estimacin de los coeficientes se dan en ias variables Xg, X 13
y X6, siendo en estas variables donde la amplitud de los intervalos de confianza es mayor.
Pese a ello, la contribucin de todas las variables predictoras en el modelo es significati
va estadsticamente y, en consecuencia, nferible al universo o poblacin de la que se ha
extrado fa muestra. Los coeficientes no se han obtenido por mera casualidad, al ser sus
valores t empricos superiores ai correspondiente valor terico (1,96), con una probabilidad
de error del 5%. Adems, la incorporacin de una nueva variable no ha supuesto, en nin
gn modelo, la expulsin de ninguna variable ya integrada en a ecuacin de regresin.
Comprubese lo dicho en la tabla C.
Las razones que llevan a incluir o a excluir a una variable del modelo de regresin se
encuentran en la tabla D. En ella figuran ias variables independientes que quedaron ex
cluidas del modelo de regresin en cada paso, junto a sus coeficientes beta dentro y su sig
nificatividad, los coeficientes de correlacin pardal y las medidas de colinealidad (tolerancia
y FIV).
Del primer modelo de regresin quedaron excluidas todas las variables excepto Xs. Una
vez comprobado que el modelo de regresin simple con ia variable X5 es significativo es
tadsticamente, se pasa a analizar si de las 13 variables excluidas del modelo, alguna pue
de ser incorporada. Salvo la variable Xia, cuyo valor t emprico (,308) es inferior al co
rrespondiente terico (1,96), cualquiera de las doce variables restantes es una posible
candidata a ser incluida en el modelo de regresin. Pero, en cada paso, slo puede ser ele
gida una. La variable finalmente seleccionada es X10 por ser la que mayor contribucin
muestra en la prediccin de Y. El coeficiente de regresin estandarizado que esta variable
tendra si se incorporase a la ecuacin de regresin (beta dentro) es el ms elevado (-339).
Comprubese en la tabla C que este valor coincide con el coeficiente beta que la variable
X10 presenta cuando se aade a la ecuacin de regresin (modelo 2). Asimismo, su co
rrelacin parcial (-,405) es la ms alta. Elevndola al cuadrado (-,405a - ,164), se obtie
ne que el 16,4% del 64,9% de varianza de Y no explicada por el primer modelo (tabla A)
quedara explicada con la inclusin de la variable X 10. La proporcin de varianza que que
dara explicada es exactamente: ,649 x ,164 = ,1064. X10 explica el 10,64% de la varian
za Y. Sumando esta proporcin a la explicada por Xs (,351 + ,106 = ,457), se obtiene que
ambas variables explican conjuntamente el 45,7% de fa varianza de Y. ste es precisa
mente el valor de R3 corregido que corresponde ai modelo 2 (,457), que incluye como va
riables predictoras a X 5 y X1Q.
En e! siguiente paso se elige a la variable X., por ias mismas razones anteriores. Ob
srvese que en este segundo paso a contribucin de la variable X4 en ta prediccin de Y de
ja de ser significativa.
E! anlisis de regresin concluye en el paso 6, a no haber ninguna variable cuya con
tribucin a la prediccin de Y sea significativa. Los valores t empricos de las ocho variables
excluidas del modelo de regresin son todos inferiores a 1,96.

118

Anlisis multivariable. Teora y prctica en la investigacin social

Tabla D

Befa

Modelo

dentro

.X,
X2
X3

,193a
-,087a
-,044a
-,0 5 3 a
-,169a
,155a
-,1 5 8 a
-,0 9 0 a
-,339a
,069a

x4

Xa
X7
XB
Xg
*io
X11
x ia
X,s

,007a

-,256a
-,1 5 7 a

X2
X3
X4
X6

x7

,131b
-,0 4 2 a
-,0 5 4 t!
-,0 0 7 b
- . 1 12b
,086b

Xa
X9
x 1,
*ia
x
X

-,082b
..,028b
,042b
,007b
-,104b
-,085b

X2
*3

-,024e
,049e
,004e
-,082e
,060o
-,046e
-,0 1 9 e
,023e

xi

x4
X6
x7

Xa
x9

x ,i
x
X,3
X,4
x2
*8
X4

X,

,012

-,091e
-,058e
-,018"
,0 S2 d
,010d

Xs

,048d
-,036'J

x9

- .0 1 21*

*ia
x 3
*14

,008d
-,0 2 6 d
,088d
-,0 4 4 d

f
8,636
-3,867
-1,977
-2,334
-7,475
6,797
-6,922
-3,932
-15,816
3,063
,308
-11,505
-6,934
6,167
-2,026
-2,609
-,326
-5,271
3,992
-3,777
-1,287
1,999
,340
-4,125
-3,944
-1,133
-2,399
,201

-3,736
2,751
-2,043
-.896
1,103
-,561
-3,632
-2,672
-8 7 1
-2,557
,492
2,187
-1,604
-,553
,402
-1,263
-3,546
-1,963

Sig
,000
,000

,048
,020
,000
,000
,000
,000
,000
,002

,758
,000
,000
,000

,043
,009
,745
,000
,000
,000

,198
,046
,734
,000
,000

,258
,017
,841

Correlacin
Tolerancia
parcial

,235
-,108
-.055
-,065
-,205
,187
-,190
-.109
-,405
,085
,009
-.306
-,190
,170
-,057
-,073
,009
-1 4 6
,111

-,105
-,036
,056
,010

-,115
-,110

,006
,041
,371
,270
,575

-,032
-,067
,006
-1 0 4
,077
-.057
-,025
,031
-,016

,000

1 0 1

,008

-,075

,384

-.024
-,071
,014
,061
,045
-,015

,000

,011

,623
,029
,109
,581
,687
,207
,000

,050

,011

-,035
-,099
-,055

,962
,998
1,000

,990
,947
,948
,940
,952
,925
,985
,993
,929
,960
,921
,978
,999
,970
,916
,904
,886

,918
,978
,993
,659
,910

FIV

1,040
1,002
1,000
1,011

Tolerancia
mnima

,962
,998
1,000

1,056
1,055
1,064
1,050
1,081
1,015
1,007
1,077
1,041

,990
,947
,948
,940
,952
,925
,985
,993
,929
,960

1,085

,886

1,022
1,001

,907
,924
,907
,895
,882
,872
,891
,917
,919
,656
,876

1,031
1,092
1,107
1,129
1,090
1,022

1,007
1,517
1,099

,958
,998
,963
,844
,860
,805
,914
,956
,972
,654
,864

1,046
1,039
1,185
1,162
1,243
1,095
1,046
1,029
1,530
1,157

,646
,856

,951
,996
,957
,838
,792
,906
,921
,940
,653
,829

1,052
1,004
1,045
1,193
1,262
1,104
1,086
1,064
1,531
1,207

,836
. ,843
,839
,822
,791
,837
,813
,816
,640
,809

1,002

,876
,885
,873
,844
,860
,805
,860
,884
,886

Captulo 1: Regresin mltiple

Modelo
X2
X
X,
X-,
Xs
X9
Xn
X 12
*14

X2

x4

X7
xa
x9

X,1

x 12

Beta
dentro

Sig

Correlacin
Tolerancia
parcial

-,0 1 6e
-,049
,012e
,042
-.030
-,0 0 2 e
,008a
-.0 2 7 *
,042e

-.7 8 8
-2,41 4
,567
1,912
- 1 ,33P
-.0 9 7
,386
-1 ,2 8 6
-1,88 7

,431
,016
,571
,056
,182
,923
,700
,199
,059

-.0 2 2
-,0 6 7
,016
,054
-,0 3 7
-,0 0 3
,011
-,0 3 6
-,0 5 3

~,018f
,009*
,040'
-,0 2 8 '
-,0 0 1 f
,012' .
-.0 2 1 '
-,0 3 8 f

-,8 6 8
,430
1,820
-1,23 3
-,0 4 7
,586
-1,02 6
-1,741

,386
,668
,069
,218
,963
,558
,305
,082

-,0 2 4
,012
,051
-,0 3 5
-.001
,016
-,0 2 9
-,0 4 9

119

FiV

Tolerancia
mnima

,950
,994
,957
,832
,788
,890
,921
,940
,828

1,052
1,006
1,045
1,201
1,270
1,123
1,086
1,064
1,208

,637
,639
,636
,635
,633
,637
,640
,639
,630

,949
,953
,831
,786
,890
,915
,928
,825

1,053
1,049
1,203
1,272
1,124
1,093
1,077
1,212

,,6 3 6
,634
,633
,631
,635
,638
,637
,628

a Variables predictoras: (constante), simpata latinoamericano; b Variables predictoras: {constante), simpata a!i~
noamericano, casar con marroqu; c Variables predictoras: (constante), simpata latinoamericano, casar con ma
rroqu, leyes inmigracin;d Variables predictoras; (constante), simpata Satinoamericano, casar con marroqu, le
yes inmigracin, n. de inmigrantes; e Variables predictoras: (constante), simpata latinoamericano, casar con
marroqu, leyes inmigracin, n. de inmigrantes, vecino marroqu;' Variables predicofas: (constante), simpata la
tinoamericano, casar con marroqu, leyes inmigracin, n. de inmigrantes, vecino marroqu, sexo.
Y: simpata haca norteafricano {marroqu...)'' (P201); X(: leyes inmigracin'1(P16); Xa: ideologa poltica" (P39);
X : sexo" (P41); X4; edad1(P42); X5; simpata hacia latinoamericanos (P210); Xe: 'Inmero de inmigrantes' (P11);
Xr: regularizara inmigrantes" (P19); Xa: "entrada inmigrantes" {P21); X9: partido racista" (P37); Xt0: casar con ma
rroqu" (P306); X : estudios' (P43a); X12: ingresos" (P52); X13: vecino marroqu (PSQ6); X14: inmigrante delin
cuente" (P2904).

1.6.2, Alternativas a la regresin de mnimos cuadrados ordinarios


El anlisis de regresin expuesto en este captulo resulta de la aplicacin del
principio de mnimos cuadrados ordinarios (OLS). El incumplimiento de alguno o
varios de sus supuestos bsicos puede llevar, sin embargo, a la aplicacin de procedi
mientos de regresin alternativos. A continuacin se resumen rasgos diferenciadores
de opciones alternativas ms habituales:
A ) Regresin de mnimos cuadrados ponderados
El anlisis de regresin de mnimos cuadrados ponderados (WLS) se presenta co
mo una alternativa .deseable cuando se incumplen, principalmente, dos de los supuestos
bsicos de ia regresin de mnimos cuadrados ordinarios: homocedasticidad e inde
pendencia de los trminos de error (subapartados 1.1.7 y 1.1.9, respectivamente).

120

Anlisis rnultivariable. Teora y prctica en la investigacin social

Como su nombre indica, este procedimiento de regresin se caracteriza por pon


derar los datos por el recproco de su varianza, de forma que los pesos sean inversa
mente proporcionales a la varianza de los errores. De esta manera se logra una cierta re
distribucin de la varianza: Las observaciones con varianzas ms grandes tienen menos
impacto en las observaciones asociadas con varianzas pequeas (Nourisis, 1994:223).
Si se quiere, se especifica un rango de potencia (el rango usual va de 0 a 3) y un in
cremento (por ejemplo, 0,2). En programas como el SPSS, por ejemplo, el rango de po
tencia aplicado por defecto va de -2 a +2, y el incremento es 075. Despus se evala la
funcin de log-likelihood para todas las potencias incluidas en el rango; y se procede
a la seleccin de la potencia que haga mxima la funcin de mxima verosimilitud
(log-likelihood). La variable independiente (elevada a una potencia 0,1,2 o 3) que
logre un mayor log-likelihood se introduce en la ecuacin de regresin. Despus se
calculan los coeficientes de regresin.
Esto se hace para la variable independiente que se haya escogido como variable de
ponderacin, al observarse (por ejemplo, mediante un grfico bivariable de cada variable
independiente con la dependiente) que la variabilidad de la variable dependiente no se
mantiene constante para todos los valores de la variable independiente. Por el contrario,
se halla relacionada con la magnitud de dicha variable independiente, que aumenta o dis
minuye (recurdese el ejemplo del gasto en vacaciones, cuando se observa una mayor
variabilidad entre las personas de un mayor nivel de ingresos que entre aquellos de un
nivel de renta inferior), lo que supone la existencia de heterocedasticidad.
Las mejoras de la regresin de mnimos cuadrados ponderados respecto al pro
cedimiento de mnimos cuadrados ordinarios no son tanto en los coeficientes de re
gresin, sino en el error tpico de los coeficientes. stos suelen ser inferiores a los ob
tenidos en la regresin OLS. Ello significa una mejor estimacin de los parmetros, ms
precisa, con la menor varianza posible.
B) Regresin no lineal: regresin polinmica y la estimacin
de mxima verosimilitud
Cuando los datos a analizar no cumplen el supuesto de linealidad, habr que op
tar por un procedimiento de regresin no lineal. Sea el caso, por ejemplo, de la re
gresin logstica (vase captulo 2) y, en general, de la estimacin de parmetros (in
tercepto, coeficientes de pendiente, errores de estimacin) mediante el mtodo de
mxima verosimilitud (ML). Se trata de encontrar la serie de estimaciones de par
metros que haga mxima la probabilidad de ocurrencia (vase el captulo referido).
Pero sta no es la nica solucin ante la no linealidad. Existen otras que resul
tan de transformaciones en la ecuacin de regresin, que permiten la aplicacin del
principio de mnimos cuadrados ordinarios. Entre estas transformaciones destaca la
transformacin logartmica de la variable dependiente, aadiendo 1 a ia variable de
pendiente para, a continuacin, tomar el logaritmo natural. La razn de aadir 1 es evi
tar tomar e logaritmo natural de 0, que es indefinido. Medante esta transformacin, la
ecuacin de regresin adopta la forma siguiente: ln(F + 1) = a +
+ fi2X 2 + - + /L-Vp;

Captulo i: Regresin mltiple

121

o equivalentemente: (Y + 1) = ea *
+ - + &pxp. Esto es igual a: Y =
<*+&*! +... i-PpXp-i; siendo e la base del logaritmo natural, que es igual a 2,72.
Otras transformaciones son la polinmica y a exponencial. Ambas permiten la apli
cacin del principio de mnimos cuadrados ordinarios, cuando se incumple el su
puesto de linealidad. En la polinmica, la variable dependiente se considera una
funcin de una variable independiente y una o ms potencias de dicha variable:

y =a +

+ 52X \

+ P3X \ + ... + Pmx ,+ e

As se habla de modelo polinmico de orden 2, cuando la variable independiente


se eleva al cuadrado (Y = a + [X l + j32X \ + e); y de orden 3, si se eleva al cuadrado y
al cubo ( Y = a +
+ ^ X \ + & X ^ + e).
La transformacin polinmica se muestra apropiada cuando se observa que la re
lacin entre una variable independiente y la dependiente cambia de signo, conforme
aumenta el valor de la variable independiente. En cambio, la transformacin expo
nencial se adeca ms cuando la relacin entre la variable independiente con a de
pendiente aumenta o disminuye en magnitud, ai cambiar el valor de la variable in
dependiente (y no tanto de signo). Depende del coeficiente de pendiente: si es mayor
o inferior a 1,0. Si es mayor de 1,0, la pendiente crece; si es inferior, disminuye.
En la regresin exponencial la estimacin de los coeficientes exige tomar logarit
mos a ambos lados de la ecuacin. sta adopta la forma siguiente:
log Y = log a + j3(log X ) + og e
Una ltima transformacin la ofrece el modelo hiperblico (o recproco), definido co
mo: Y - a + i (1X) i- . Berry y Feldman (1985) destacan como caracterstica dferendadora de este ltimo modelo que, cuando el valor de la variable independiente X au
menta infinitamente, el valor esperado de Y se aproxima a a . El valor esperado de Y
ser inferior a ce cuando /Jes negativo. Y si /3 es positivo, el valor esperado de Y se
r mayor que a ; y se aproximar a a desde arriba (y no desde abajo, como sucede
cuando /? es negativo). Una informacin ms detallada de estas transformaciones se en
cuentra en textos especializados, como el de Berry y Feldman (1985) y el ms reciente de
Menard (1995). La transformacin logartmica y su repercusin en el anlisis de regresin
se incluyeren el siguiente captulo, dedicado al anlisis logit.
LECTURAS COMPLEMENTARIAS
Allison, P. D. (1.999). Mltiple regression, California, Sage.
Berry, W. D. (1993). Understanding regression assumptions, Newbury Park, Sage.
Fox, J, (1991), Regression diagnoscs, Newbury Park, Sage.
Graybill, F. A. e Iyer, H. K. (1994). Regression analysis. Concepta, and applications, Ca
lifornia, Duxbury Press.
Guillen, M. E (1992). Anlisis de regresin mltiple, Madrid, CIS, Cuaderno Meto
dolgico n. 4.

122

A nlisis multivariable. Teora y prctica en la investigacin social

Hair, I F., Anderson, R, E., Tathan, R. L. y Black, W. C. (1999). Anlisis multvariante,


5.a edicin, Madrid, Prentice Hail.
Hardy, M. A. (1993). Regression with dummy variables, Newbury Park, Sage.
Lewis-Beck, M, S. (1980). Applied regression. A n introduction, Beverly Hills, Sage.
Miles, J. y Shevlin, M. (2000). Applying regression and correlation, Newburry Park, Sage.
Sen, A. y Srivastava, M. (1990). Regression analysis: theory; methods and applications,
Nueva York, Springer-Verlag.
EJERCICIOS PROPUESTOS
1. Con la misma base de datos, se quiere predecir el valor de la variable ingresos
a partir de cuatro variables independientes: sexo, edad, estudios y tamao
del municipio. Comenta cada uno de los siguientes resultados:
Correlaciones
E studios

M unicipio

-,291
-,058
1,000
-,442
-,032 .

,471
,080
-,442
1,000
,228

,239
-,003
-,032
,228
1,000

,000
,002

,000
,000
,000

,000
,432
,053
,000

Ingresos

Sexo

E dad

,107
1,000
,058
,080
-,003

Correlacin de Pearson

Ingresos
Sexo
Edad
Estudios
Municipio

1,000
,107
-,291
,471
,239

Sig. (unilateral)

Ingresos
Sexo
Edad
Estudios
Municipio

,000
,000
,000
,000

,002
,000
,432'

,000
,053

,000

Ingresos
Sexo
Edad
Estudios
Municipio

1.793
1.792
1.792
1.614
1.793

1,792
2.492
2.491
2.280
2.492

1.792
2.491
2.492
2.280
2.492

1.614
2.280
2.280
2.281
2.281

,000

1.793
2.492
2.492
2.281
2.493

Resumen del modeloe

*
b
c
d
c

M odelo

R cuadrado

R cuadrado
corregida

E rror tip. de la
estim acin

1
2
3
4

,471a
,490b
,501c
,506d

,222
,240
,251
,256

,222
,240
,250
,254

92.838,3113

Variables predictoras: (constante), estudios.


Variabes predictoras: (constante), estudios, municipio,
Variables predictoras: (constante), estudios, municipio, edad.
Variables predictoras: (constante), estudios, municipio, edad, sexo.
Variables predictoras: (constante), ingresos.

D urbinW atson

91.767,4828

91.155,7664
90.881,5199

1,856

123

Captulo 1; Regresin mltiple

ANOVA
M odelo

Sum a de
cuadrados

G rados de
libertad

M edia
cuadrtica

Regresin
Residual

3.969E+2
1,389E+13

1
1612

Regresin
Residual

4,296E+12
1.357E+13

Regresin
Residual
Regresin
Residual

Significacin

3,969E+12
8.619E+9

460,455

,000

2
1611

2.148E+12
8,421E+09

255,052

,000

4,484E+12
l,338E--13

3
1610

1,495E+12
8.39E+09

179,889

,000

4,573E+12
1,329E+13

4
1609

1,143E+12
8.259E+09

138,415

,000

Coeficientestt
M odelo

Coeficientes no
estandarizados

Coefic.
estndar.

E rror tip.

Beta

(Constante)
Estudios

55123,S24
41368,712

4539,826
1927,874

,471

12,142
21,458

(Constante)
Estudios
Municipio

52539,797
38590,370
2,344 E-02

4506,572
1957,089
,004

,440
,139

(Constante)
Estudios
Municipio
Edad.

91911,243
33973,633
2,483 E-02
-666,821

9399,107
2172,209
,004
138,975

(Constante)
Estadios
Municipio
Edad
Sexo

85163,544
33515,980
2,508 E-02
-656,238
14889,155

9594,543
2170,175
,004
139,591
4545,079

" Variable dependiente: ingresos.

Sig.

E stadsticos de
colinealidad
Tolerancia

FIV

,000
,000

1,000

1,000

11,658
19,718
6,232

,000
,000
,000

,948
,948

1,055
1,055

,387
,147
-,115

9,779
15,640
6,627
-4,764

,000
,000
,000
,000

,759
,942
,800

1,317
1,061
1,250

,382
,149
-,113
,071

8,876
15,444
6,712

4,701
3,276

,000
,000
,000
,000
,001

,756
,942
,800
,993

1,322
1,062.
1,250
1,008

124

Anlisis multivariable. Teora y prctica en la investigacin social

Variables excluidas11
E stadsticos de colinealidad
M odelo

Beta
dentro

Sig,

Correlacin
parcial
Tolerancia

FTV

Tolerancia
mnima

Sexo
Edad
Municipio

,070a
-,1 0 2 a
,139a

3,185
- 4,204
6,232

,001
,000
,000

,079
- ,104
,153

,994
,805
,948

1,006
1,242
1,055

,994
,805
,948

Sexo
Edad

,073b
- ,115b

3,364
- 4,764

,001
,000

,084
-,1 1 8

,993
,800

1,007
1,250

,942
,759

Sexo

,071c

3,276

,001

,081

,993

1,008

,756

3 Variables predictoras en el modelo: (constante), estudios.


b Variables predictoras en el modelo: (constante), estudios, municipio.
c Variables predictoras en ei modelo: (constante), estudios, municipio, edad.
d Variable dependiente: ingresos,

Grfico de regresin parcial


Variable dependiente: ingresos

Frecuencia

Histograma
Variable dependiente: ingresos

Regresin residuo tipificado

Edad

2. En la investigacin Las consecuencias psicosociales del cuidado informal a per


sonas mayores de Julin Montoro Rodrguez (Revista Internacional de So
ciologa (RIS), mayo-agosto, 1999:7-29) se analizan las consecuencias del cui
dado asistencial en los cuidadores derivadas de la ayuda informal a personas
mayores con dependencia o discapacidad. Las variables independientes son: a)
por parte del cuidador: edad (en aos), gnero (mujer = 1), situacin laboral
(trabaja tiempo parcial o completo = 1), posicin subjetiva respecto de la cla
se social (baja =1, media/baja =2, media =3, media/alta =4, alta =5), salud
subjetiva (muy mala =1, mala =2, regular =3, buena =4, muy buena =5), tiem
po como cuidador (meses), horas semanales de dedicacin a actividades rela
cionadas con el transporte, ios asuntos bancarios o legales, las comidas y lim-

Captulo 1: Regresin mltiple

125

pieza de la casa y el cuidado personal, y la relacin de parentesco (cnyuge =1);


b) por parte de la persona mayor dependiente: edad (aos), gnero (mujer =1)
y la corresdencia (vive con familia = 1). Se realiza un anlisis de regresin ml
tiple (tras un anlisis factorial para resumir los indicadores) paso a paso de in
clusin y eliminacin de variables. En la medicin de los factores que influyen
en a actitud depresiva de los cuidadores (N = 202) se obtienen los siguientes re
sultados en cada uno de los cuatro pasos de que consta el anlisis (coeficientes
beta). Comntese los resultados.
Variables independientes
M odelos

Factores de contexto
Persona mayor:
Edad
Gnero
Corresdencia
Cuidador:
Edad
Gnero
Trabaja
Ciase social subjetiva
Salud subjetiva
Tiempo como cuidador
Dedicacin horas semanales
Relacin familiar: Esposo/a
R cuadrado ajustado
Cambio en R cuadrado
T estF

Depresin ; actitud

II

III

-,13*
-,12*

IV

-,13**

,23***

,19**
,12*

,18**
,13*

,17**
,11*

-,24***
-.11*

-.25***
-,34***
-,12**

-,20***
-,29***
-1 1 * *

-,22***
-,12**

,23
,27***
6,50***

,23
,27***
5,60***

,32
,10***
6,30***

,41
,08***
7,60***

-,33***

* p < ,10; ** p < ,05; ***? < ,01

3. En e estudio de Joan Font (1992) La abstencin en las grandes ciudades, Ma


drid y Barcelona (REIS, n. 58:123-139), se obtienen los resultados siguientes.
Comntese.
Participacin Madrid = 75,4 - 0,5 Paro + 0,13 Asociacin + 0,12 Estudios + 0,02 tamao poblacin
Error St.
0,19
0,06
1,08
0,05
C oef.T
2,7
2,2
1,6
0,4
Error Y = 3,7 R2 = 0,51 Grados de libertad = 22
Participacin Barcelona = 76,4 - 0,39 Inmigracin + 0,15 Trabajo - 0,17 Estudios - 0,39 Paro
Error St.
0,15
0,06
0,13
0,18
C oef.T
2,2
2,5
1,3
2,5
Error Y = 2,5 R2 = 0,56 Grados de libertad = 22

126

Anlisis rnultivariable. Teora y prctica en la investigacin social

4. Pedro L. Iriso y David-Sven Reher obtienen en su estudio de 1987 La fecun


didad y sus determinantes en Espaa, 1887-1920. Un ensayo de interpretacin
(REIS, n. 39: 45-118) varios modelos explicativos de la fecundidad matrimonial
en Espaa para el mundo urbano y rural, mediante la aplicacin del anlisis de
regresin lineal. Comntense los siguientes resultados referidos a la fecundidad
matrimonial rural de 1900:
Matriz de betas y de correlaciones simples para fecundidad matrimonial rural, 1900
11
Jornaleros (11)
Pob. no agr. rural (10)
Migracin (9)
Urbanizacin prv. (8)
Razn act, masculina (7)

10

-,150
,595
,207
,561
,242
,402
,320
-.153
(,402*) (,651*) (.681*) (,445*) (.321) (,565*) (,608*) (-,085)
-,661
-,087
-,493
-,013
,140
,267
-,158
(,377*) {,532*) (,101) (,131) (-,106) (.282) (-,429*)
,340
-,057
,396
,596
,244
(,703*) (,576*) (,481*) (,483*) (.526*)
,538
-,065
,058
,376
,586
(,420*) (,561*) (,352*) (,611*) (,058)
-,118
,166
,049
(,458*) (.230) (.459*)

Mercado matr. (6)

,115
(,416*)

Analfabetismo (5)
Secularizacin prov. (4)

-,059
(,120)
-

5<U (3)

-,167
(,048)
,057
(-,324)
,047
(,279)
-.056
(,186)
-,161
(,300)
,335
(.614*)
,175
(,204)
,099
(,354*)
,760
(,751*)

,013
(-.396*)
-,210
(-,110)
,276
(-,424*)
,215
(-,316)
-,679
(-,507*)

,917

,859

Npcialidad (Im) (2)

-3 9
(-,527*)
-,051
(-,442*)
,825
(-1,03)
-,176
(-,412*)

Fecun. Matr. ( y (1)


M il tiple R

,402

,663

,802

,671

,727

,635

,684

,558

Jornaleros" y poblacin agraria se expresan en tanto por ciento, Migracin: el valor 1,000 expresa un saldo migratorio
nulo; un valor por debajo de 1,000 indica emigracin, Urbanizacin: porcentaje de poblacin que vive en cascos urbanos
de ms de 5,000 habitantes, Ratn de actividad: poblacin masculina en edades activas / poblacin masculina en eda
des no activas, Mercado matrimonial: razn de mascuiinidad en tomo a la edad media al casarse, Analfabetismo: por
centaje de poblacin > 10 aos que no sabe leer ni escribir, Secularizacin: porcentaje de voto a la izquierda, 3 q,) =
fallecidos entre 0 y 5 aos por mil nacidos, Nupcialidad = Im, Fecundidad matrimonial" =
' Entre parntesis: correlaciones simples. Sin parntesis: coeficientes beta.
El asterisco () indica que la correlacin es significativa para p ,01.

1
,396

(.576)
(,703)
,586

Migracin

p ----------------------------------

Mercado matrimonial

,679
(-,507)

(-.5 2 7 )
Slo se incluyen las relaciones (beta) que directa o indirectamente explican la variable dependiente en ms de 0,300
o (-0,300). Entre parntesis, correlaciones simples; sin parntesis, los coeficientes beta.

Vous aimerez peut-être aussi