Académique Documents
Professionnel Documents
Culture Documents
2014 1
2.1 Uso
Es una extensión del modelo lineal simple, que se aplica cuando tenemos una
variable "dependiente" cuantitativa Y que responde linealmente (o “en relación de
proporcionalidad”) a p variables "independientes" cuantitativas X1, X2, … , Xp
2.2 El Modelo
X1
ß1
X2 ß2
Y
ε
X3 ß3
ßp
Xp
Nota: Proporcionalidad de Y con cada v.independiente, por ejemplo, con X2, significa
que:
Si X2 aumenta a (X2+1) entonces Y cambia en β 2 unidades. En efecto:
El tratamiento estadístico con SPSS o Excel es totalmente análogo al del caso simple:
estándar de estimación.
2º Hay que medir el efecto conjunto de las p variables independientes X1 , X2 , ..., X p
en la variable respuesta Y , y ver si este efecto es real o no. Esto se hace con el R2
y su significancia mediante el estadístico F.
3º Debemos determinar cuáles de las p variables independientes tienen efecto real, o
sea si el correspondiente coeficiente es distinto de cero o si tiene un signo de-
terminado (positivo o negativo), de acuerdo a hipótesis de trabajo previas a la
toma de datos. Esto se hace realizando para cada v.i. un contraste t-Student con (n-
p-1) grados de libertad; son p contrastes, uno por cada variable independiente del
modelo.
4º Adicionalmente, tendremos que hacer una jerarquización para ver cuáles
variables independientes son más importantes y cuáles menos importantes. Esto
último sólo tiene sentido en el modelo múltiple y entre variables cuyos
coeficientes resulten significativos. Esto se hace con los “coeficientes beta
estandarizados” de las variables “significativas” según previas pruebas t de
Student.
5º Verificación de los supuestos del modelo.
Dada la ecuación general y medidas las variables en los n casos se tiene, para el caso
# j:
Y j = β 0 + β1X1j + β 2 X 2j + β 3X 3j + ... + β p X pj + ε j
Los supuestos estadísticos que asumiremos son los mismos del modelo lineal simple
y un supuesto adicional:
• ε j tiene media cero. O sea hay equidad del azar con todos: en algún momento
puede originar una sobrevaluación de Y j (cuando ε j > 0 ) pero en otro momento
puede subvaluar Y j (cuando ε j < 0 ), de modo que en promedio, el efecto del azar
es cero.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 3
• ε j tiene varianza constante σ 2 , o sea hay homogeneidad del azar: la amplitud con
que puede afectar a cada Y j es constante.
• Hay independencia entre casos, la actuación del azar se supone pareja, sin tener a
unos casos afectando a otros.
• Las variables independientes X 1 , X 2 , X 3 , ..., X p son no aleatorias (de valores fijos)
o siendo aleatorias, son de valores dados, anteriores a Y
• Las variables X 1 , X 2 , X 3 , ..., X p son independientes, no están relacionadas o
excesivamente correlacionadas. Si este supuesto no se cumple las estimaciones de
los parámetros son muy inestables y con errores estándar de estimación muy altos,
lo que se conoce como "Problema de Multicolinealidad".
Dado el modelo
Y = β0 + β1X1 + β2X2 + β3X3 + ... + βp Xp + ε
1444444 424444444 3
Yˆj
EST-203 ESTADISTICA II Arturo Calderón G. 2014 4
• Las estimaciones serán denotadas βˆ0 , βˆ1 , βˆ2 , βˆ3 , ..., βˆp
• La estimación de Y j , denotada Ŷj es
Yˆj = βˆ0 + βˆ1X1 + βˆ2 X 2 + βˆ3 X 3 + ... + βˆp X p
• La estimación del error o residuo ε j es εˆ j = Yj − Yˆj
La estimación de σ es
2
•
n n
∑ εˆ
j =1
2
j ∑ (Y
j =1
j − Yˆj ) 2
σˆ 2 = Sε2 = = = Varianza residual o del azar
(n − p − 1) (n − p − 1)
El Error Estándar o típico de estimación de Y es σˆ = σˆ y mide el “margen de
2
•
error” asociado al uso del modelo como base para el pronóstico de valores de Y .
En este contexto se escribe el intervalo de estimación de Y como
Y = Yˆ ± σˆ = βˆ0 + βˆ1X1 + βˆ2X 2 + βˆ3X3 + ... + βˆp X p ± σˆ
Antes de seguir con la teoría, veamos un ejemplo de cómo se realiza el análisis con
SPSS.
Ejemplo 2
Para evaluar un programa de capacitación para empleo como vendedoras comisio-
nistas de productos textiles, se identificó cuatro factores que podrían estar asociados
al ingreso diario Y logrado por la participante del programa. Estos factores eran:
Puntuación en una prueba que mide el grado de capacitación lograda con el progra-
ma(X1), Número mensual de horas trabajadas(X2), Edad en años(X3) y Meses de
experiencia en algún trabajo similar(X4).
Se seleccionó aleatoriamente n=42 vendedoras, se registró cada variable de interés y
los datos se pasaron a un archivo SPSS.
Las hipótesis plantean una relación lineal múltiple del ingreso diario Y con las p=4
variables independientes X1, X2, X3 y X4.
Es aplicable el modelo Y=β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + ε, en donde debe cum-
plirse que β1 > 0, β2 > 0, β3 < 0 y β4 > 0
EST-203 ESTADISTICA II Arturo Calderón G. 2014 5
O equivalentemente
Ingreso = β0 + β1 Capacitación+ β2 Horas + β3 Edad + β4 Experiencia + ε donde
tenemos las hipótesis de trabajo y sus equivalentes hipótesis estadísticas H1:
HT1: Ingreso responde proporcionalmente de modo directo al grado de
capacitación⇒ H1:β1 > 0
Tenemos que aplicar análisis de regresión lineal múltiple para ajustar un modelo
lineal y contrastar hipótesis.
∑ (Yˆ −Y )
n
2
j
j =1 Variabilidad originada por X 1 , X 2 ,..., X 4
R2 = n
=
Variabilidad total en Y
∑ (Y j − Y )2
j =1
EST-203 ESTADISTICA II Arturo Calderón G. 2014 6
Tabla 2 ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 18,386 4 4,596 48,968 ,000a
Residual 3,473 37 ,094
Total 21,859 41
a. Variables predictoras: (Constante), X4 Experiencia, X3 Edad, X2 Horas de
trabajo/mes, X1 Capacitación
b. Variable dependiente: Y Ingreso/día
Tabla 3 Coeficientesa
Coeficientes no Coeficientes
estandarizados tipificados
Modelo B Error típ. Beta t Sig.
1 (Constante) 33,222 2,886 11,513 ,000
X1 Capacitación ,104 ,040 ,207 2,569 ,014
X2 Horas de trabajo/mes ,008 ,009 ,064 ,878 ,385
X3 Edad -,017 ,019 -,065 -,894 ,377
X4 Experiencia ,062 ,006 ,762 9,527 ,000
a. Variable dependiente: Y Ingreso/día
EST-203 ESTADISTICA II Arturo Calderón G. 2014 7
La estimación de β1 es 0,104 > 0 (con un E.E. ,que SPSS llama Error típico de 0,04)
y, como se esperaba, H1 se cumple en nuestra muestra. Pero falta verificar que H1 se
cumple en grado suficiente, más allá de lo que podría darse por azar.
Ejemplo 3
Una investigación con pacientes VIH positivos pretende explicar el grado de de-
presión Y de la persona en términos de ciertas variables independientes que se
consideran asociadas a la depresión en estos casos. Las variables son:
X1=Satisfacción con el entorno personal o “Red soportiva”; X2=Instrucción;
X3=Participación en un Grupo de Apoyo Mutuo o GAM ( “Terapia grupal”, dicotó-
mica con 0=No y 1=Sí); X4=Sexo (dicotómica con 0=Femenino y 1=Masculino) y
X5=Edad.
Tabla 3 Coeficientesa
Modelo Coeficientes no Coeficientes t Sig.
estandarizados tipificados
B Error típ. Beta
(Constante) 34,099 6,403 5,325 ,000
X1 Satisfacción con
-,349 ,188 -,220 -1,857 ,069
Soporte
1 X2 Instrucción -1,449 ,662 -,297 -2,189 ,033
X3 Participa de un GAM -4,606 2,229 -,253 -2,066 ,044
X4 Sexo -4,525 2,638 -,220 -1,715 ,093
X5 Edad ,048 ,126 ,044 ,384 ,703
a. Variable dependiente: Y Indice de Depresión Beck
Con las demás hipótesis de trabajo se procede análogamente, tomando en cuenta los
signos que éstas predicen, cuando es el caso.
El resultado es que se cumplen todas las hipótesis de trabajo del enunciado (ver tabla
4 abajo)
(Y j − Y ) 2 = ∑ (Yˆj − Y ) + ∑ (Y j − Yˆj )
n n n
2 2
∑
j =1 j =1 j =1
(Análisis de varianza de la Regresión o
1 4243 1 4243 1 4243
SCT SCR SCE
ANOVA de la Regresión como la llama SPSS)
n
Simbólicamente:
( ) ( )
n n n
− = − + ∑ j j ⇔ SCT = SCR + SCE
−
2 2
∑ j
(Y
j =1
Y ) ∑ j
Yˆ Y Y 2
Yˆ
j =1 j =1
¿Cuáles son las componentes del ANOVA?
n
SCT = ∑ (Y j − Y ) 2 = ( n − 1) SY2 : SCT mide qué tanto se diferencian todos los sujetos
j =1
n
SCR = ∑ (Yˆ j − Y ) 2 : SCR mide qué tan diferentes son los casos, debido a los dis-
j =1
n n
SCE = ∑ (Y j − Yˆ j ) 2 = ∑ εˆ 2j . SCE mide las diferencias entre los n casos, que se
j =1 j =1
deberían al azar, o sea a razones fortuitas y no originadas por las variables indepen-
dientes { X j } . SCE es un índice que mide qué tanto discrepa la muestra, en
conjunto, de lo previsto o "explicado" por la relación de dependencia vía el
modelo. Es la variabilidad residual debida a causas no sistemáticas o azar ε.
La variabilidad total en Y es
n =55
SCT = ∑ (Y j − Y ) 2 = (55 − 1) SY2 = 4,417.745
j =1
La variabilidad residual es
n = 55 n = 55
SCE = ∑ (Y
j =1
j − Yˆ j ) =
2
∑ εˆ
j =1
2
j = 2,774.078
EST-203 ESTADISTICA II Arturo Calderón G. 2014 13
∑ (Yˆ −Y)
n
2
j
SCR j =1 Variabilidad originada por X 1 , X 2 ,..., X p
R2 = = n
=
SCT Variabilidad total en Y ,
∑ (Y j − Y ) 2
j =1
que siempre está entre 0 y 1
En el ejemplo 3, tenemos
∑ (Yˆ −Y )
n
2
j
SCR j =1 1,643.668
R2 = = n
= = 0.372
SCT 4,417.745
∑ (Y j − Y )2
j =1
∑εˆ 2j
j =1
∑ (Y
j =1
j − Yˆj )2
SCE 2,744.078 2,744.078
σˆ 2 = Sε2 = = = = = = 56.614 Y
(n − p − 1) (n − p − 1) (n − p − 1) (55 − 5 − 1) 49
σˆ = Sε = σˆ 2 = 56.614 = 7.524
Estos resultados están en la Tabla 1 Resumen
j =1
∑ (Yˆ j − Y )2
j =1
es , se denota CMR y se llama “Varianza de la regresión”
p
o “Cuadrado medio de la regresión” o “Media cuadrática de la regresión”
n
∑ (Yˆ j − Y )2
j =1
CMR = .
p
∑ εˆ
j =1
2
j
∑ (Yˆ j − Y )2
j =1
(n − p − 1)
F mide cuántas veces más varianza originan la p v.i. X1 , X 2 , ..., X p comparadas
con el azar ε.
Si H 0 : β1 = β 2 = ... = β p = 0 fuera cierta, F debiera ser ≤ 1 y sólo sería mayor que 1
por casualidad.
χ 2 ( p)
La distribución de F ( F = ) se denota F ( p, n − p − 1)
χ 2 ( n − p − 1)
y se escribe F ~ F ( p, n − p − 1) , donde p se denomina “grados de
libertad del numerador” y (n-p-1) se denomina “grados de libertad del
denominador”.
0.050 0.01 0.05 0.10 0.14 0.17 0.19 0.21 0.22 0.23 0.24 0.26 0.27 0.29 0.30 0.33
0.025 0.00 0.03 0.06 0.09 0.12 0.14 0.15 0.17 0.17 0.18 0.20 0.21 0.22 0.24 0.26
0.010 0.00 0.01 0.03 0.06 0.08 0.09 0.10 0.12 0.12 0.13 0.14 0.16 0.17 0.19 0.21
0.005 0.00 0.01 0.02 0.04 0.05 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.16 0.18
2
0.950 18.51 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.5 19.5
0.975 38.5 39.0 39.2 39.2 39.3 39.3 39.4 39.4 39.4 39.4 39.4 39.4 39.4 39.5 39.5
0.990 98.5 99.0 99.2 99.3 99.3 99.3 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.5 99.5
0.995 198.5 199.0 199.2 199.2 199.3 199.3 199.4 199.4 199.4 199.4 199.4 199.4 199.4 199.5 199.5
0.050 0.00 0.05 0.11 0.15 0.18 0.21 0.23 0.25 0.26 0.27 0.29 0.30 0.32 0.34 0.37
0.025 0.00 0.03 0.06 0.10 0.13 0.15 0.17 0.18 0.20 0.21 0.22 0.24 0.26 0.28 0.31
0.010 0.00 0.01 0.03 0.06 0.08 0.10 0.12 0.13 0.14 0.15 0.17 0.18 0.20 0.22 0.25
0.005 0.00 0.01 0.02 0.04 0.06 0.08 0.09 0.10 0.11 0.12 0.14 0.15 0.17 0.19 0.22
3
0.950 10.1 9.6 9.3 9.1 9.0 8.9 8.9 8.8 8.8 8.8 8.7 8.7 8.7 8.6 8.5
0.975 17.4 16.0 15.4 15.1 14.9 14.7 14.6 14.5 14.5 14.4 14.3 14.3 14.2 14.1 13.9
0.990 34.1 30.8 29.5 28.7 28.2 27.9 27.7 27.5 27.3 27.2 27.1 26.9 26.7 26.5 26.2
0.995 55.6 49.8 47.5 46.2 45.4 44.8 44.4 44.1 43.9 43.7 43.4 43.1 42.8 42.5 42.0
0.050 0.00 0.05 0.11 0.16 0.19 0.22 0.24 0.26 0.28 0.29 0.31 0.33 0.35 0.37 0.41
0.025 0.00 0.03 0.07 0.10 0.14 0.16 0.18 0.20 0.21 0.22 0.24 0.26 0.28 0.31 0.35
0.010 0.00 0.01 0.03 0.06 0.09 0.11 0.13 0.14 0.16 0.17 0.18 0.20 0.23 0.25 0.29
0.005 0.00 0.01 0.02 0.04 0.06 0.08 0.10 0.11 0.13 0.14 0.15 0.17 0.19 0.22 0.26
4
0.950 7.7 6.9 6.6 6.4 6.3 6.2 6.1 6.0 6.0 6.0 5.9 5.9 5.8 5.7 5.7
0.975 12.2 10.6 10.0 9.6 9.4 9.2 9.1 9.0 8.9 8.8 8.8 8.7 8.6 8.5 8.3
0.990 21.2 18.0 16.7 16.0 15.5 15.2 15.0 14.8 14.7 14.5 14.4 14.2 14.0 13.8 13.6
0.995 31.3 26.3 24.3 23.2 22.5 22.0 21.6 21.4 21.1 21.0 20.7 20.4 20.2 19.9 19.5
n = 55
∑ (Yˆ j − Y )2
SCR 1,643 .668
j =1
CMR = = = 328 .734 =
p p 5
La varianza residual o del azar, es como acabamos de ver:
n
∑ (Y j − Yˆj )2
SCE 2,744.078 2,744.078
CME = σˆ 2 = j =1
= = = = 56.614 y la
(n − p − 1) (n − p − 1) (55 − 5 − 1) 49
estadística F vale
CMR 328.734
F= = = 5.807 esto es, una v.i. del modelo,
CME 56.614
genera 5.807 veces más diferencias en depresión que el
azar.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 19
Es obvio que F = 5.807 > F0.95 (5,60) ≅ F0.95 (5,60) = 2.4 y tenemos eviden-
cia que un F de este tamaño no puede haber ocurrido por azar, sino
porque al menos una de las cinco v.i. generan diferencias
reales en la depresión, esto es, podemos rechazar
H 0 : β 1 = β 2 = β 3 = ... = β p = 0 .
Propiedad
En el modelo Y j = β 0 + β1X1j + β 2 X 2j + β 3 X 3j + ... + β p X pj + ε j , si
βˆk es la estimación de βk , se cumple que
t = ( βˆk − β k ) / S βˆ ~ t ( n − p − 1) y si H 0 : β k = 0 es cierta, en-
k
tonces t = βˆk / S βˆ ~ t (n − p − 1) .
k
EST-203 ESTADISTICA II Arturo Calderón G. 2014 20
Hipótesis Rechazar H 0 si
Hipótesis Alterna Tipo de contraste
Nula
H1 : β k > 0 t > t0.95 Unilateral derecho
H0 : βk = 0
t = βˆk / S βˆk
H1 : β k < 0 t < −t0.95 Unilateral izquierdo
H1 : β k ≠ 0 | t |> t 0.975 Bilateral (SPSS)
t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t(n-p-1)
Nota:
Programas estadísticos, como SPSS o Excel, realizan auto-
máticamente el contraste bilateral H 0 : β k = 0 vs H1 : β k ≠ 0 ,
pero no muestran el percentil t1−α / 2 de la distribución t-
Student, sino la “significación” (o “valor p” según el
programa estadístico) que es la probabilidad de obtener
un valor |t| mayor o igual que el valor absoluto del
calculado en la muestra.
Ejemplo 4
Un psicólogo explora la posible relación entre la
calidad de los Métodos de Estudio de los universitarios,
la Estabilidad Emocional y el Autocontrol. Para examinar
la relación, aplica a una muestra de 15 estudiantes el
Test de Brown sobre Hábitos de Estudio, donde se mide la
Calidad de los Métodos de Estudio, y el Inventario de
Personalidad de Guilford, donde registra la Estabilidad
Emocional y el Autocontrol del individuo. Los datos son:
Habitos (Y) 73 65 54 33 64 49 51 38 35 44 45 39 33 49 40
Control (X1) 17 20 22 13 20 16 14 11 21 13 21 14 11 12 12
Estab. (X2) 25 25 18 15 15 12 17 13 12 12 12 12 15 17 21
Sum of
Model Squares df Mean Square F Sig.
1 Regression 1264.229 2 632.114 9.057 .004a
Residual 837.504 12 69.792
Total 2101.733 14
a. Predictors: (Constant), x2, x1
b. Dependent Variable: y
Cuadro 3 Coefficients a
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 1.039 11.403 .091 .929
x1 1.251 .559 .411 2.238 .045
x2 1.659 .498 .611 3.329 .006
a. Dependent Variable: y
β2=0 vs H1:β
En el caso de la Estabilidad, tenemos H0:β β2>0,
el estadístico t-Student es significativo (Sig.= 0.006/2=
0.003<0.05) y βˆ2 = 1.659 > 0 , por tanto se rechaza H0 y se
β2>0.
acepta H1:β
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 1.039 11.403 .091 .929
x1 1.251 .559 .411 2.238 .045
x2 1.659 .498 .611 3.329 .006
a. Dependent Variable: y
Ejemplo 5
En el ejemplo anterior, agregamos opciones a la secuencia
estándar de comandos SPSS:
Analize⇒Regression⇒Linear→Dependent:Y→Ιndependent(s):
X1 X2→
Plots: Normal probability plot→ Continue→
Statistics: Collinearity diagnostics→ Continue→ OK
(o en castellano:
EST-203 ESTADISTICA II Arturo Calderón G. 2014 27
Analizar⇒Regresión⇒Lineales→Dependendiente:Y→Ιndependen
dientes: X1 X2→ Gráficos:Gráfico de prob. Normal
→ Continuar→Estadísticos:Diagnósticos de colinealidad→
Continuar→Aceptar.)
1,0
0,8
Expected Cum Prob
0,6
0,4
0,2
0,0
0,0 0,2 0,4 0,6 0,8 1,0
Observed Cum Prob
Standardized
Unstandardized Coefficients Coefficients Collinearity Statistics
Ejemplo 6
En el ejemplo 3 relativo a la Depresión en pacientes
seropositivos, en relación a la verificación de supuestos
tenemos: