Académique Documents
Professionnel Documents
Culture Documents
En muchas aplicaciones estadsticas se deben resolver problemas que contienen un conjunto de variables y que sabe que
existe alguna asociacin entre ellas. En este conjunto de variables muy a menudo se tiene una sola variable dependiente
(o respuesta) Y, que depende de una o ms variables independientes (o de regresin) X1, X2, ... , Xk , como por ejemplo
el salario, depende de aos de experiencia, grado de instruccin y sexo.
El estudio de la asociacin donde se determina una relacin funcional de la variable dependiente Y con respecto a una o
ms variables independientes con el fin de predecir valores de Y, se llama Anlisis de Regresin.
1. DEFINICIN:
Cuando hay una sola variable independiente el anlisis de regresin es simple. El modelo de regresin simple lineal
relaciona dos variables de forma lineal:
= 0 + 1 +
= 1, ,
Donde:
-
N es el tamao de la poblacin, nmero de observaciones disponibles de las variables de estudio (Y, X).
= 1, ,
La variable predictora x tiene varianza muestral 2 no nula y adems n k = 2 (se recomienda 20k observaciones).
La variable predictora x es fija, pero por fortuna si es aleatoria la estimacin de parmetros, prueba y prediccin,
son vlidos.
Probar significancia.
Bondad de Ajuste.
En la figura 1: (a), (b) y (e) los datos visualizan una relacin lineal entre las variables X e Y. En las figuras (c) y (d) los
datos visualizan una relacin, pero, una relacin no lineal, y en la figura (f) los datos visualizan ninguna relacin vlida
entre las variables.
rxy
n xi y i ( xi )( y i )
i 1
i 1
2
2
2
n
x
(
x
)
n
y
(
yi ) 2
i
i
i
i 1
i 1
i 1
i 1
Si r = 1, existe una correlacin positiva perfecta. El ndice indica una dependencia total entre las dos variables
denominada relacin directa: cuando una de ellas aumenta, la otra tambin lo hace en proporcin constante.
Si r = 0, no existe relacin lineal. Pero esto no necesariamente implica que las variables son independientes:
pueden existir todava relaciones no lineales entre las dos variables.
Si r = -1, existe una correlacin negativa perfecta. El ndice indica una dependencia total entre las dos variables
llamada relacin inversa: cuando una de ellas aumenta, la otra disminuye en proporcin constante.
Correlacin Negativa
Correlacin Positiva
Ausencia de Correlacin r = 0
=1
=1
=1
2 = ( )2 = ( 0 1 )2
0 1
0 1
0 1
Luego de derivar respecto a cada parmetro, se obtiene el siguiente sistema de ecuaciones normales:
5
i 1
y i 0 n 1 xi
n
x y
i
i 1
i 1
0 xi 1 xi2
Pendiente:
Ordenada al origen:
S xy
S xx
0 y 1 x
Donde
n
S xy ( xi x )( yi y )
i 1
S xx ( xi x ) 2
i 1
=
2
= 2 =
2
3. Adems se puede hallar el intervalo de confianza para la varianza:
( 2)
22, 2
( 2)
2
1
2, 2
Intervalos de confianza,
Prueba de hiptesis y
Anlisis de Varianza (ANVA).
( yi y )2
i 1
SCT
SCE
( y i y i ) 2
i 1
( y
i 1
y )2
SCR
SCT ( y i y ) 2 se denomina suma de cuadrados total, refleja la variabilidad de los valores de Y con respecto a la
i 1
media y .
n
SCR ( y i - y ) 2 se denomina suma de cuadrados explicado por la regresin, refleja la cantidad de variabilidad de los
i 1
SCR / 1
CMR
~ F(1, n 2)
SCE / (n 2)
CME
7
Dado el nivel de significacin , y los grados de libertad 1 y (n-2), en la tabla de probabilidades F, se encuentra el valor
critico F ( 1 , 1 , n 2 )
Se rechaza la hiptesis nula H 0 : = 0 , si el valor calculado de F, es mayor que el valor critico F
rechaza H 0 en caso contrario.
( 1 , 1 , n 2 ).
No se
La prueba de la hiptesis nula H.0: = 0 se resume en la siguiente tabla de anlisis de varianza (ANVA):
ANVA para H.0: = 0
Cuadrados
medios
calculada
Regresin
SCR
CMR = SCR / 1
Error
SCE
n-2
Total
SCT
n-1
CMR
CME
SCT y i2 n( y) 2
i 1
SCR b x i y i n( x )( y)
i 1
0,0 =
1 : 0 0
0
(0 )
Siendo:
1 2
(0 ) = ( +
)
8
1 : 1 0
1
(1 )
Siendo:
(1 ) =
La 0 se rechaza si |0 | > 2,
se(1 )
se(0 )
y 0 t ( / 2,n 2) S
( x x) 2
( x x) 2
1
1
n 0
Y / x0 y 0 t ( / 2,n 2) S
n 0
n
n
( xi x) 2
( xi x) 2
i 1
i 1
Aqu,
i 1
i 1
( xi x) 2 xi2 n( x) 2
Otra nomenclatura: Para la respuesta media en el punto = 0
(0 ): 0 2,
1 (0 )2
(
+
)
el valor de Y0 a bX , cuando X
El intervalo de confianza del (1- ) x100% para una sola respuesta y0 se obtiene mediante:
y 0 t (1 / 2,n 2) S 1
( x x) 2
( x x) 2
1
1
n 0
y 0 y 0 t (1 / 2,n 2) S 1 n 0
n
n
( xi x ) 2
( xi x ) 2
i 1
i 1
0 : 0 2,
2 (1 +
1 (0 )2
+
)
10
=1
Es la ganancia obtenida al pasar de un modelo sin variable explicativa X, a otro que incluye sta variable. Generalmente
es la proporcin de la variabilidad observada de la variable respuesta Y que se ha podido explicar por incluir de forma
lineal en el modelo la variable explicativa X.
Observacin: Cuando n es pequeo, el coeficiente de determinacin R2 es sesgado positivamente. Para corregir este sesgo
R2 1
CME
CMT
11
Anlisis de los coeficientes del modelo y los valores predichos, incluyendo comparaciones con la experiencia, la
teora fsica y otros modelos analticos o resultados de simulacin.
Recoleccin de nuevos datos (o datos frescos) con los cuales investigar el desempeo del modelo en prediccin.
Divisin de datos, es decir, dividir los datos en 2 partes: una parte son datos de estimacin y otra parte son datos
de prediccin. A esta divisin de datos se le llama validacin cruzada.
Ejemplo 1. En la Empresa comercial ABC, se desea determinar la relacin lineal simple entre la experiencia del vendedor
y las unidades vendidas durante un mes. Se seleccionan 5 vendedores al azar, los datos registrados se presentan a
continuacin.
VENDEDOR
EXPERIENCIA (aos): X
VENTAS (unidades): Y
Carlos
3
9
Pedro
1
5
Jos
2
7
Juan
5
14
Manuel
4
10
12
14
12
Ventas
10
4
1
Experiencia
Figura 2
b) De los datos de la muestra resultan:
Experiencia (X)
Ventas (Y)
X2
XY
27
14
14
25
70
10
16
40
15
45
55
156
x i 15 ,
i 1
y i 45 ,
i 1
i 1
n
i 1
n xi y i xi y i
i 1
n xi2 ( xi ) 2
i 1
x y
i 1
i 1
x 3
n
x i2 55
156 ,
y9
5(156) (15)(45)
2.1
5(55) (15) 2
i 1
a y bx 9 2.1 3 2.7
2.7 2.1 X
As, la lnea de regresin estimada o muestral es: Y
13
c) El valor b = 2.1 de la pendiente indica que por cada ao de experiencia, la venta se incrementa en 2.1 unidades.
Nota.- Utilizando el Software SPSS, nos proporciona el siguiente resultado para el mismo ejemplo 1.
Coeficientesa
Modelo
1
(Constante)
Experiencia
Coeficientes no
estandarizados
Error
B
tp.
2.700
.835
2.100
.252
Coeficientes
estandarizados
Beta
t
3.235
8.345
.979
Sig.
.048
.004
La salida muestra el resultado de ajustar un modelo lineal para describir la relacin entre Ventas y Experiencia. La ecuacin
del modelo lineal ajustado es:
Ventas = 2.7 + 2.1 * Experiencia
d) Con los datos del ejemplo 1, calcular la desviacin estndar muestral de la regresin (el error estndar de estimacin).
Solucin.
5
y i 45 ,
i 1
)
(YY
)2
(YY
0.0
0.00
4.8
0.2
0.04
6.9
0.1
0.01
14
13.2
0.8
0.64
10
11.1
-1.1
1.21
Y
5
i 1
x y
i 1
156
I 2 1.90
Y
S2
(y
i 1
y i ) 2
n-2
1.90
0.6334
3
14
Nota.
- Utilizando la expresin alternativa para el clculo de S2, resulta:
n
S2
y
i 1
2
i
i 1
i 1
- a y i - b x i y i
n-2
0.6334
3
3
S 0.6334 0.7958
e) Con los datos del ejemplo 1, mediante el mtodo de anlisis de varianza probar la significancia de la ecuacin de
regresin muestral, al nivel de significancia del 5%.
Solucin.
1) Hiptesis : H 0 : = 0 contra H 0 : 0
CMR
~ F(1, 3) , donde n = 5
CME
4) Regin crtica: Para el nivel de significancia = 0.05 y los grados de libertad 1 y 3, en la tabla F se encuentra el valor
critico F ( 0.95 , 1 , 3 ).= 10.1. Se rechaza H 0 si el valor calculado de F > 10.1. Se acepta en caso contrario.
5) Clculos: De los datos se obtiene:
n
Suma de
cuadrados
Grados de
libertad
Regresin
44.1
Error
1.9
Total
46.0
Cuadrados
medios
calculada
CMR = 44.1
F = 69.624
CME = 0.6334
15
6.- Decisin.- Dado que F = 69.624 > 10.1, se rechaza H 0. Estos resultados reflejan la validez del modelo de regresin
poblacional entre aos de experiencia y ventas.
Nota.
1. Observar que la estimacin de la varianza 2 es S2 = CME = 0.6334.
2. Mediante el paquete Estadstico SPSS, resulta el siguiente anlisis de varianza para = 0.
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
44.100
1.900
46.000
gl
1
3
4
Media
cuadrtica
44.100
.633
F
69.632
Sig.
.004 a
Puesto que el valor P-value = 0.004 < 0.05, se concluye que existe una relacin estadsticamente significativa entre Ventas
y Experiencia en los vendedores.
g) Con los datos del ejemplo 1, calcule el coeficiente de determinacin R2 . Interprete su resultado.
Solucin. Del ejemplo 1 resultan:
SCT = 46.0 ,
SCE = 44.1 ,
Entonces:
R2 1
R2 1
SCE
1.9
1
0.9587 y
SCT
46.0
CME
1.9 / 3
1
0.9450
CMT
46.0 / 4
El valor de R y R 2 se interpretan en la misma forma. As, R2 = 0.9587, significa que el 95.87% de la variacin de la
variable dependiente (Ventas) es explicada por la regresin lineal. Otra forma de interpretar es que el ajuste de la recta de
regresin a los puntos de la muestra es muy bueno.
Nota. Mediante el software SPSS, se obtiene el siguiente resultado:
16
R
.979a
R cuadrado
.959
R cuadrado
corregida
.945
Error tp. de la
estimacin
.796
El valor del coeficiente de correlacin r = 0.97913, indica a una relacin relativamente fuerte entre las variables
(Experiencias y Ventas).
Este resultado, tambin nos proporciona el error estndar de estimacin igual a 0.795822.
Ejemplo 2:
Supongamos que nos interesa conocer la relacin que hay entre el peso y la presin sistlica de 50 hombres seleccionados
al azar en edades de 25 a 30.
Se trata de cuantificar la influencia que tiene el peso (libras) de una persona en la determinacin de su presin sistlica
mediante un modelo de regresin lineal simple.
Utilizando el Software estadstico PASW v18 (antes SPSS). Primero, con un grfico de dispersin, exploramos la relacin
entre peso (libras) y presin sistlica.
Se observa que los datos tienden a formar o a reunirse en una lnea recta creciente. Luego se calcula el coeficiente de
correlacin de Pearson que indica la direccin y la intensidad de la relacin lineal.
17
Correlaciones
peso_libras presion_sistlica
peso_libras
Correlacin de Pearson
.801**
Sig. (bilateral)
.000
N
presion_sistlica Correlacin de Pearson
50
50
.801**
Sig. (bilateral)
.000
50
50
El coeficiente es positivo (a mayor peso mayor presin sistlica), con un valor de 0.8 que indica una correlacin
considerable positiva.
Procedemos a realizar el anlisis de regresin lineal usando el PASW para obtener las estimaciones de los parmetros 0 =
70.32 y 1 = 0.43, la significancia (los parmetros son significativamente diferentes de cero) y los intervalos de confianza
(no contienen a cero). Luego tenemos el anlisis de varianza en la tabla ANOVA (pendiente diferente de cero). Tambin
obtenemos la medida de bondad de ajuste que es el coeficiente de determinacin con un valor de 0.65 e indica que el 65%
de la variabilidad de presin sistlica es explicada por la variable peso, el error tpico de la estimacin (8.561) y el clculo
de Durbin Watson (1.37).
Coeficientesa
Modelo
1 (Constante)
peso_libras
Error tp.
70.323
8.286
.429
.046
Sig.
Beta
.801
Lmite inferior
Lmite superior
8.487 .000
53.663
86.984
9.281 .000
.336
.522
ANOVAb
Modelo
Regresin
6312.285
1 Residual
3517.715
48
73.286
Total
9830.000
49
Sig.
86.133 .000a
R
.801a
.635
8.561
1.370
18
Para evaluar el supuesto de Linealidad observamos el grfico de dispersin peso (libras) y presin sistlica, descrito arriba.
Segn el grfico parece indicar una relacin aproximadamente lineal, pero formalmente podemos realizar la prueba de
falta de ajuste que se presenta en la tabla.
ANOVAb
Modelo
Suma de cuadrados gl Media cuadrtica
F
Sig.
Regresin
6312.285
1
6312.28
86.133
.000
Residual
3517.715
48
73.29
1 (falta de ajuste)
2982.05
39
76.46
1.28468904 0.363
(error puro)
535.67
9
59.52
Total
9830
49
Como la significancia es mayor que 0.05 se acepta la hiptesis de que el modelo tentativo describe a los datos en forma
lineal.
El supuesto de Normalidad, puede ser evaluado con un histograma de residuos tipificados (grfico) o con un grfico de
probabilidad normal de los residuos (grfico). Tambin mediante un test de Kolmogorov-Smirnov sobre los residuos
estandarizados en el cual se acepta el supuesto de Normalidad.
19
Pruebas de normalidad
Kolmogorov-Smirnova
Estadstico gl
Standardized Residual
.107
Sig.
50 .200*
Shapiro-Wilk
Estadstico gl
.969
Sig.
50 .204
La Homocedasticidad es evaluable a travs de un examen visual de los residuos en el grfico de dispersin de pronsticos
tipificados vs. residuos tipificados. Los residuos y los pronsticos no parecen ser independientes (esto se verificar ms
adelante con Durbin Watson) pues parecen seguir un patrn cuadrtico. Parece que la varianza no es homognea, parece
que conforme va aumentando el valor de pronstico va disminuyendo la dispersin de los residuos y se ubican hacia abajo.
20
La Independencia se evala mediante el clculo de Durbin Watson (DW) y valoracin visual de los residuos (grafico). El
estadstico DW considera que oscila entre 0 y 4. Podemos asumir independencia entre los residuos cuando DW toma
valores entre 1.5 y 2.5. Menores a 2 indican autocorrelacin positiva y los mayores a 2 indican autocorrelacin negativa.
Como DW tiene valor 1.37, indica que hay una autocorrelacin positiva entre los residuos.
4. REGRESIN NO LINEAL
En muchos casos cuando los valores en parejas de las variables X e Y no se ajustan a una lnea recta, se puede conseguir
una relacin lineal mediante una transformacin de estos valores. A continuacin, se dan algunas ecuaciones no lineales y
su transformacin lineal
Ecuacin
Transformacin lineal
a) Y AB X (compuesto)
b) Y AX B (potencia)
c) Y 1 ( A BX ) (hiperblica)
d) Y A B / X
( Inversa)
Y AX B
1.5
3.5
2.6
2.4
1.2
1.8
1.6
1.4
SOLUCION.
La transformacin a la regresin lineal es:
Y ' A' B' X '
Donde:
Y log Y , X log X , A log A, B B
X'Y'
X'2
Y'2
1.5
2.6
0.1761
0.4150
0.0731 0.0310
0.0.172
2.0
2.4
0.3010
0.3802
0.1144 0.0906
0.1446
3.0
1.2
0.4771
0.0792
0.0378 0.2276
0.0063
3.5
1.8
0.5440
0.2553
0.1378 0.2959
0.0652
4.0
1.6
0.6021
0.2041
0.1229 0.3625
0.0417
5.0
1.4
0.6990
0.1461
0.1021 0.4886
0.0213
2.7993
1.4799
0.5891 1.4962
0.4513
X ' 2.7993,
Y ' 1.4799,
X ' 2 1.4962,
Y ' 2 0.4513
0.532
n X ' 2 ( X ' ) 2
6(1.4962) (2.6993) 2
22
Adems,
s X 'Y '
0.608
0.79.
s X ' sY (1.068)(0.7196)
23