Académique Documents
Professionnel Documents
Culture Documents
1.- Introduccin ........................................................................................................................2 2.- Regresin con variable cualitativa dicotmica ...................................................................2 3.- Regresin con variable cualitativa de varias categoras......................................................6
1.- Introduccin. Aunque el modelo de regresin lineal parece indicado cuando la naturaleza de ambas variables X e Y sean cuantitativas, no obstante es fcilmente demostrable que no es problema alguno operar con variables independientes cualitativas. En el caso de una variable X dicotmica, la regresin simple equivale a un contraste de medias. El supuesto de normalidad en las distribuciones ligadas (para los diferentes valores de X) es equivalente al supuesto de normalidad en las poblaciones orgenes de las dos muestras en el contraste de medias. El supuesto de homocedasticidad es el equivalente al de igualdad de varianza en las poblaciones orgenes. Y por ltimo, el de linealidad (entre los puntos medio de las distribuciones ligadas), se cumple por cuanto entre dos puntos (las medias de ambas muestras) siempre se puede definir una recta. Comenzaremos por desarrollar el caso en que la variable independiente presenta dos categoras, lo que permitir asimilarlo al contraste de medias. Posteriormente trataremos el caso en el la variable independiente presenta mas categoras, lo que ser asimilado al anlisis de la varianza. Se observar una total equivalencia de la regresin con ambas pruebas, con la ventaja de que la regresin ofrece un enfoque ms parsimonioso y permite adems conocer la proporcin de variabilidad explicada por la variable independiente ( R 2 ).
2.- Regresin con variable cualitativa dicotmica. Supongamos que tenemos las siguientes puntuaciones obtenidas en una determinada prueba de habilidad verbal por un grupo de varones y otro de mujeres:
Varones: 10, 12, 15, 8, 11 Mujeres: 12, 13, 9, 18, 16 Pretendemos estudiar si la variable sexo afecta al rendimiento. Como se sabe, habitualmente este tipo de contraste se resuelve mediante el contraste de medias: comparamos las media de los varones con la de las mujeres y estudiamos la significacin de la diferencia de medias obtenida. Tales pruebas pueden ser abordadas igualmente desde la regresin. Comenzaremos con el contraste de medias y mostraremos su equivalencia. Si hacemos los anlisis mediante un contraste de medias, los datos quedaran dispuestos de la siguiente manera:
Los varones se han agrupado con el valor de 1 y las mujeres, con el valor de 2. Los resultados son:
Estadsticos de grupo Desviacin tp. 2,58844 3,50714 Error tp. de la media 1,15758 1,56844
Habilidad verbal
Sexo 1 2
N 5 5
Prueba T para la igualdad de medias 95% Intervalo de confianza para la diferencia Inferior Superior 2,09523 2,16412
F Habilidad verbalSe han asumido varianzas iguales No se han asumido varianzas iguales ,701
Sig. ,427
t -1,231 -1,231
gl 8 7,361
Diferencia Error tp. de Sig. (bilateral) de medias la diferencia ,253 ,256 -2,40000 -2,40000
Se observa, como dato ms relevante, que las medias de varones y mujeres son 11.2 y 13.6 respectivamente, junto que el valor de t es -1.231, con una significacin de 0.253, que indica que no hay diferencias entre ambos sexos. Si estos clculos los realizamos mediante la regresin simple, habremos primeramente de efectuar una cierta modificacin sobre la variable X en el sentido de someterla a una cierta codificacin, la codificacin dummy, o en espaol, ficticia, de forma tal que sea susceptible de ser tratada con la regresin lineal. Se trata de codificar una categora como 0 -ausencia de un determinado rasgo- y 1 la otra categora -presencia de ese rasgo-. En el caso que nos concierne si codificamos varones como 0 y mujeres como 1, estaremos queriendo decir, que en primer caso hay ausencia del "sexo mujer" y en otro presencia. As, el fichero de datos ser:
Modelo 1
R ,399a
R cuadrado ,159
ANOVAb Suma de cuadrados 14,400 76,000 90,400 Media cuadrtica 14,400 9,500
Modelo 1
gl 1 8 9
F 1,516
Sig. ,253a
Modelo 1
(Constante) Sexo
t 8,125 1,231
Se observa una total equivalencia. El contraste se realiza mediante el anlisis de la varianza que da un valor de 1.515 (el valor de t al cuadrado 1.2312=1.516) y Tambin el valor de t para la pendiente (2.4, que es la diferencia de las medias) equivalente al valor de t en le contraste de medias. Por otro, lado la significaciones siempre la misma 0.253 que anteriormente. Las medias de ambos grupos equivalen a las puntuaciones estimadas para cuando X vale 0 (los varones) y X vale 1 (las mujeres). As la ecuacin de regresin ser:
Y = 11.2 + 2.4 X
De esta forma, cuando se trata de varones la puntuacin prevista en Habilidad verbal ser:
Esta prueba es equivalente a la ya conocida de anlisis de la varianza donde se estudia el efecto de una variable cualitativa de varias categoras con otra cuantitativa. Como se sabe, para aplicar el modelo de regresin lineal han de respetarse los supuestos del modelo. Conseguido esto, sea con la estrategia que sea, se aplicar el modelo. Estos supuestos para datos transversales son: linealidad, normalidad y homocedasticidad. Los dos ltimos son los mismos que los supuestos del anlisis de la varianza, as que nada que decir al respecto. Queda la cuestin de la linealidad, que para dos medias (contrastes de medias) siempre se cumple, ya que dos puntos, cualesquiera que sean siempre pueden ser unidos mediante una recta. Otra cuestin es cuando se trata de tres o ms puntos, que difcilmente estarn exactamente alineados, por lo que para ello hemos de idear otra estrategia. La solucin consiste en generar tantas variables independientes como categoras haya en el factor, y a continuacin codificar cada una de estas variables con ceros y unos segn la categora a la que pertenezca los distintos sujetos. Veamos un ejemplo. Supongamos que aplicamos tres mtodos de enseanza (A, B y C) sobre tres grupos de sujetos, generaramos tres variables: X1, X2 y X3. Los sujetos que pertenecen al grupo A seran codificados como 1 (presencia en X1) en la variable X1 y 0 en las restantes (ausencia en X2 y X3). As: X1 1 X2 0 X3 0
Obsrvese que no es necesaria la variable X3. Con las dos primeras variables codificadas siempre estamos al tanto del grupo al que pertenecen los distintos sujetos. Si explcitamente estn en X1 o X2, no hay problemas, y si no estn en ninguna de ellas, entonces se entiende que estn en X3. Matemticamente es conveniente hacerlo as, porque si no estaremos introduciendo una variable (cualquiera de ellas) que queda explicada por las otras, con lo que nos encontraremos con un problema de colinealidad, con matrices singulares y sin posible solucin. Por tanto, generaremos dos variables con la siguiente codificacin:
X1 1 0 0
X2 0 1 0 6
7 Por otro lado, el hecho de plantear el anlisis de la varianza como un problema de regresin mltiple permite salvar el supuesto de linealidad. De nuevo, cada una de las variables independientes slo tiene dos posibles valores sobre los cuales establecer una recta. Ahora la ecuacin de regresin corresponde geomtricamente con un plano y aunque las tres medias no estn alineadas en una recta (una dimensin) s lo estn en un plano (dos dimensiones)
Veamos un ejemplo. Supongamos que tenemos tres grupos de sujetos de estudiantes de matemticas a los que hemos aplicado tres mtodos de enseanza distintos: A, B y C. Los resultados en esta materia son los siguientes:
A B C _____________ 6 5 7 7 6 6 6 5 6 5 5 7 4 4 8 5 5 8 5 5 7 5 6 6 _____________
Si aplicramos sobre estos datos un anlisis de la varianza, configuraramos la matriz de datos de la siguiente manera:
ANOVA Rendimiento Suma de cuadrados 13,000 15,625 28,625 gl 2 21 23 Media cuadrtica 6,500 ,744 F 8,736 Sig. ,002
Veamos ahora cmo habramos de disponer de los datos para operar desde el modelo de regresin:
10 A continuacin:
10
ANOVAb Suma de cuadrados 13,000 15,625 28,625 Media cuadrtica 6,500 ,744
Modelo 1
gl 2 21 23
F 8,736
Sig. ,002a
Modelo 1
(Constante) X1 X2
Coeficientes no estandarizados B Error tp. 6,875 ,305 -1,250 ,431 -1,750 ,431
a. Variable dependiente: Y
Obsrvese cmo el anlisis de la varianza sobre el modelo de regresin es exactamente el mismo. Adems, sabemos que los mtodos de enseanza dan cuenta de un 45% de la variabilidad de los datos. Por otro lado, las puntuaciones previstas para los diferentes mtodos de enseanza son:
Mtodo A:
Y = 6.875 1.250 X 1 1.75 X 2 = 6.875 1.25 *1 1.75 * 0 = 5.625 Mtodo B: Y = 6.875 1.250 X 1 1.75 X 2 = 6.875 1.25 * 0 1.75 *1 = 5.12 5 Mtodo C: Y = 6.875 1.250 X 1 1.75 X 2 = 6.875 1.25 * 0 1.75 * 0 = 6.875
11