Cap V Análisis de Regresión Lineal Simple

CAPTULO V : ANLISIS DE REGRESIN LINEAL SIMPLE
En muchas aplicaciones estadsticas se deben resolver problemas que contienen un conjunto de variables y que sabe que
existe alguna asociacin entre ellas. En este conjunto de variables muy a menudo se tiene una sola variable dependiente
(o respuesta) Y, que depende de una o ms variables independientes (o de regresin) X1, X2, ... , Xk , como por ejemplo
el salario, depende de aos de experiencia, grado de instruccin y sexo.
El estudio de la asociacin donde se determina una relacin funcional de la variable dependiente Y con respecto a una o
ms variables independientes con el fin de predecir valores de Y, se llama Anlisis de Regresin.
1. DEFINICIN:
Cuando hay una sola variable independiente el anlisis de regresin es simple. El modelo de regresin simple lineal
relaciona dos variables de forma lineal:
= 0 + 1 +
= 1, ,
Donde:
-
variable a explicar, variable dependiente o endgena.
variable explicativa, variable independiente o exgena.
La ordenada 0 y la pendiente 1 (cantidad de incremento o decremento en el valor medio de Y asociado con un

incremento de una unidad en X) del modelo son los coeficientes de la regresin de poblacin. Si definimos k
como el nmero de coeficientes desconocidos a estimar, en el modelo de regresin simple hay k = 2 coeficientes
a estimar.
es el trmino de error, variable aleatoria o perturbacin.
N es el tamao de la poblacin, nmero de observaciones disponibles de las variables de estudio (Y, X).
2. SUPUESTOS DEL MODELO

En total se plantean 4 suposiciones de regresin, con respecto al modelo de regresin simple. Estas suposiciones se pueden
plantear en trminos de valores potenciales de y, o bien de manera equivalente, en trminos de los valores potenciales del
trmino error.
Linealidad: El modelo es lineal en los coeficientes. Sin embargo, podemos permitir no linealidades en las variables
explicativas. Siendo los coeficientes 0 y 1constantes a lo largo de la poblacin.
= 0 + 1 +
= 1, ,
Normalidad: Los errores estn distribuidos NID(0, 2 )

Homocedasticidad: La perturbacin o error tiene varianza constante 2 .
Independencia: La perturbacin no est autocorrelacionada.
2.1. Otros criterios a tomar en cuenta:
La variable endgena o respuesta es cuantitativa.
La variable predictora x tiene varianza muestral 2 no nula y adems n k = 2 (se recomienda 20k observaciones).
La variable predictora x es fija, pero por fortuna si es aleatoria la estimacin de parmetros, prueba y prediccin,
son vlidos.
El modelo est bien especificado.
3. PASOS SUGERIDOS PARA LA REALIZACIN DEL ANLISIS DE REGRESIN
Especificar bien el modelo: Identificar variable regresora y variable respuesta
Construir diagrama de dispersin
Determinar la fuerza de asociacin
Estimar los parmetros.
Probar significancia.
Estimar intervalos de confianza.
Comprobacin de la Adecuacin del Modelo de Regresin

2
Anlisis de residuales (validacin de supuestos).
Bsqueda de observaciones atpicas o demasiado influyentes.
Bondad de Ajuste.
Validez del modelo
3.1. GRFICO DE DISPERSIN

Una vez planteados los supuestos y despus de especificar correctamente el modelo de regresin, podemos comenzar a
explorar con un grfico o diagrama de dispersin. Es un grfico que permite detectar la existencia de una relacin entre
dos variables.
Figura 1. Diagramas de dispersin: Relaciones entre X e Y
En la figura 1: (a), (b) y (e) los datos visualizan una relacin lineal entre las variables X e Y. En las figuras (c) y (d) los
datos visualizan una relacin, pero, una relacin no lineal, y en la figura (f) los datos visualizan ninguna relacin vlida
entre las variables.
3.2. COEFICIENTE DE CORRELACIN DE PEARSON

Medida de la relacin lineal entre dos variables aleatorias cuantitativas. Esta medida en si no considera a una variable como
independiente y a otra como dependiente, ya que no se trata de una prueba que evala la causalidad. La nocin de causaefecto (independiente-dependiente) se puede establecer tericamente, pero este coeficiente no considera dicha causalidad.
A diferencia de la covarianza, la correlacin de Pearson es independiente de la escala de medida de las variables. El
coeficiente de correlacin de Pearson ( ), se calcula a partir de las puntuaciones obtenidas en una muestra en dos
variables. Se relacionan las puntuaciones obtenidas de una variable con las puntuaciones obtenidas de otra variable, en los
mismos sujetos.
n
rxy
n xi y i ( xi )( y i )
i 1
i 1
2
2
2
n
x
(
x
)
n
y
(
yi ) 2
i
i
i
i 1
i 1
i 1
i 1
El valor del ndice de correlacin vara en el intervalo [-1,1]:
Si r = 1, existe una correlacin positiva perfecta. El ndice indica una dependencia total entre las dos variables
denominada relacin directa: cuando una de ellas aumenta, la otra tambin lo hace en proporcin constante.
Si 0 < r < 1, existe una correlacin positiva.
Si r = 0, no existe relacin lineal. Pero esto no necesariamente implica que las variables son independientes:
pueden existir todava relaciones no lineales entre las dos variables.
Si -1 < r < 0, existe una correlacin negativa.
Si r = -1, existe una correlacin negativa perfecta. El ndice indica una dependencia total entre las dos variables
llamada relacin inversa: cuando una de ellas aumenta, la otra disminuye en proporcin constante.
Correlacin Negativa
Correlacin Positiva
Ausencia de Correlacin r = 0
3.3. LA ESTIMACIN DE PARMETROS POR MNIMOS CUADRTICOS ORDINARIOS (MCO)

Un mtodo muy utilizado por su sencillez y buenas propiedades es el mtodo de mnimos cuadrados ordinarios: son
combinaciones lineales de las observaciones, son estimadores insesgados de los parmetros y tienen varianza mnima
(ptimos).
El estimador de MCO, de los parmetros 0 y 1 se obtiene de minimizar la suma de los residuos al cuadrado:
=1
=1
=1
2 = ( )2 = ( 0 1 )2
0 1
0 1
0 1
Luego de derivar respecto a cada parmetro, se obtiene el siguiente sistema de ecuaciones normales:
5
i 1
y i 0 n 1 xi
n
x y
i
i 1
i 1
0 xi 1 xi2
Del cual se obtiene:
Pendiente:
Ordenada al origen:
S xy
S xx
0 y 1 x
Donde
n
S xy ( xi x )( yi y )
i 1
S xx ( xi x ) 2
i 1
3.4. ESTIMACIN DE LA VARIANZA POBLACIONAL

Si las suposiciones de regresin se han cumplido y SSRes es la suma de residuos cuadrticos, entonces:
1. La estimacin puntual de 2 es el error cuadrtico medio (MSRes)
2 = 2 =
=
2
2. La estimacin puntual de es el error estndar
= 2 =
2
3. Adems se puede hallar el intervalo de confianza para la varianza:
( 2)
22, 2
( 2)
2
1
2, 2
3.5. INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIN.

Aunque a menudo las inferencias del parmetro en base al valor estimado de a estimado de la muestra, carecen de
importancia prctica pues es la ordenada en el origen y representa la interseccin de Y cuando X = 0. Nos referiremos
primero a las inferencias acerca de la pendiente de regresin , y luego trataremos ambas.
Antes de utilizar la ecuacin de regresin muestral para realizar predicciones, se debe primero determinar si existe
realmente regresin poblacional. Si no existe regresin en la poblacin, entonces, la pendiente poblacional debera ser
igual a cero. Debido a variaciones muestrales, la pendiente de la regresin muestral b puede asumir valores positivos o
negativos, pero la pendiente poblacional podra ser cero. Si es as, la ecuacin de regresin muestral no se puede utilizar
para hacer predicciones vlidas. A partir de los datos de la muestra, se va determinar si es igual a cero o no lo es.
Para verificar si = 0 se pueden utilizar tres mtodos:
Intervalos de confianza,
Prueba de hiptesis y
Anlisis de Varianza (ANVA).
3.5.1. Anlisis de varianza para .

Aqu utilizaremos suposicin 4 hecha en el modelo de regresin poblacional, es decir que cada variable aleatoria
dependiente Yi tiene distribucin normal con media Y/ x i y varianza 2., o que cada E i ~ N(0, 2 ) .
El anlisis de varianza es uno de los mtodos que se utiliza probar la significacin de la ecuacin de regresin muestral.
Es una prueba F de alternativa bilateral.
Las hiptesis nula y alternativa en este caso son respectivamente:
H 0 : = 0 contra H 1 : 0
La estadstica F de la prueba se obtiene de la siguiente identidad de sumas de cuadrados:
n
( yi y )2
i 1
SCT
SCE
( y i y i ) 2
i 1
( y
i 1
y )2
SCR
SCT ( y i y ) 2 se denomina suma de cuadrados total, refleja la variabilidad de los valores de Y con respecto a la
i 1
media y .
n
SCE ( y i y i ) 2 es la suma de cuadrados de los errores, o no explicada.

i 1
n
SCR ( y i - y ) 2 se denomina suma de cuadrados explicado por la regresin, refleja la cantidad de variabilidad de los
i 1
valores de Y explicada por la recta de regresin.
La variable aleatoria F definida por: F
SCR / 1
CMR
~ F(1, n 2)
SCE / (n 2)
CME
7
Dado el nivel de significacin , y los grados de libertad 1 y (n-2), en la tabla de probabilidades F, se encuentra el valor
critico F ( 1 , 1 , n 2 )
Se rechaza la hiptesis nula H 0 : = 0 , si el valor calculado de F, es mayor que el valor critico F
rechaza H 0 en caso contrario.
( 1 , 1 , n 2 ).
No se
La prueba de la hiptesis nula H.0: = 0 se resume en la siguiente tabla de anlisis de varianza (ANVA):
ANVA para H.0: = 0
Cuadrados
medios
calculada
Fuente de variacin Suma de cuadrados Grados de libertad
Regresin
SCR
CMR = SCR / 1
Error
SCE
n-2
CME.= SCE / (n-2)
Total
SCT
n-1
CMR
CME
Las sumas de cuadrados se obtienen utilizando las expresiones:

n
SCT y i2 n( y) 2
i 1
SCR b x i y i n( x )( y)
i 1
SCE SCT SCR

3.5.2. Prueba de Hiptesis (Significancia) para y
Cuando interesa probar hiptesis y establecer intervalos de confianza para los parmetros del modelo. Se requiere el
supuesto de que los errores del modelo estn distribuidos normalmente.
Para la ordenada al origen se tiene:
0 : 0 = 0
0,0 =
1 : 0 0
0
(0 )
Siendo:
1 2
(0 ) = ( +
)

8
Para la pendiente se tiene:

0 : 1 = 0
0,1 =
1 : 1 0
1
(1 )
Siendo:
(1 ) =
La 0 se rechaza si |0 | > 2,
o si la significancia p es menor de 0.05. Ya que trabajamos con slo una variable
regresora o de regresin, resulta que 2 = del anlisis de varianza.

3.5.3. Intervalos de Confianza para y
El ancho de dichos intervalos es una medida de la calidad general de la recta de regresin. Si los errores se distribuyen
normal e independientemente, el intervalo de confianza para la pendiente es:
1 : 1 2,
se(1 )
se(0 )
Y para la ordenada al origen es:

0 : 0 2,
3.6. INTERVALOS DE CONFIANZA PARA LA PREDICCIN

Despus de haber decidido que existe regresin lineal simple poblacional o que la lnea de regresin muestral es vlida
para realizar predicciones, podemos utilizarla para:
i)
ii)
Predecir la media Y/X , dado X = xo , o

Predecir una nueva observacin de Y dado un valor xo de X.
i) Intervalo de confianza de Y/X

Sea Y/X o el valor de la media Y/X cuando X = xo y sea y o el valor de
Y0 a bX , cuando tambin X = xo (es decir
y o es un valor de la variable Y0 a b(x o ) ).

El intervalo de confianza del (1- ) x100% para la respuesta media Y/X o se obtiene mediante:
y 0 t ( / 2,n 2) S
( x x) 2
( x x) 2
1
1
n 0
Y / x0 y 0 t ( / 2,n 2) S
n 0
n
n
( xi x) 2
( xi x) 2
i 1
i 1
Aqu,
i 1
i 1
( xi x) 2 xi2 n( x) 2
Otra nomenclatura: Para la respuesta media en el punto = 0
(0 ): 0 2,
1 (0 )2
(
+
)
ii) Intervalo de confianza para y0

Sea y0 el valor individual de la variable
= xo.
Y0 (xo ) , cuando X = xo y sea y o
el valor de Y0 a bX , cuando X
El intervalo de confianza del (1- ) x100% para una sola respuesta y0 se obtiene mediante:
y 0 t (1 / 2,n 2) S 1
( x x) 2
( x x) 2
1
1
n 0
y 0 y 0 t (1 / 2,n 2) S 1 n 0
n
n
( xi x ) 2
( xi x ) 2
i 1
i 1
Otra nomenclatura: Para nuevas observaciones:
0 : 0 2,
2 (1 +
1 (0 )2
+
)
3.7. ADECUACIN DEL MODELO

3.7.1. Anlisis de residuales (validacin de supuestos)
Linealidad: Se evala de manera grfica, especficamente grficos de nubes de puntos de la variable respuesta con la
variable regresora. Tambin formalmente mediante la prueba de Falta de Ajuste. La solucin sera abandonar el modelo y
tratar de formular una ecuacin ms adecuada.
Normalidad: Podemos detectarla mediante un grfico de probabilidad normal de los residuos. Tambin mediante un test
de Kolmogorov-Smirnov sobre los residuos estandarizados. Una posible solucin sera la eliminacin de datos outliers.
Homocedasticidad: Evaluable a travs de un examen visual de los residuos en el grfico de dispersin de pronsticos
tipificados vs. residuos tipificados. Podramos proceder a eliminar datos outliers.
Independencia: Detectar mediante clculo de Durbin Watson y valoracin visual de los residuos. La posible solucin
sera corregir observaciones o eliminar datos.
10
3.7.2. Bsqueda de Observaciones Atpicas o demasiado influyentes

Los residuales cuyo valor es bastante mayor que los dems, digamos de 3 a 4 desviaciones estndar respecto a la media,
indican que hay valores atpicos potenciales en el espacio de y. Los valores atpicos son puntos que no son representativos
del resto de los datos. De acuerdo con su ubicacin en el espacio de x, los valores atpicos pueden tener efectos de
moderados a graves sobre el modelo de regresin, esto se puede comprobar eliminando puntos y volviendo a ajustar la
ecuacin de regresin. Las grficas de residuales en funcin de y la grfica de probabilidad normal son tiles para
identificar puntos atpicos. Tambin mediante el examen de residuales escalados: residuales studentizados y los R de
student.
Los valores atpicos se deben investigar con cuidado, para ver si se puede encontrar una razn de su comportamiento
extraordinario. A veces, los valores atpicos son malos y se deben a eventos desacostumbrados, pero explicables
(medicin o anlisis incorrecto, registro incorrecto de datos o fallas del instrumento de medicin). Si este es el caso se
debera corregir (si es posible) o eliminar del conjunto de datos, se hace notar que se debe contar con una fuerte evidencia
no estadstica de que el valor atpico es malo para descartarlo.
Tambin, los valores atpicos pueden resaltar inadecuaciones en el modelo, como la falla de tener buen ajuste con los datos
en cierta regin del espacio de x.
3.7.3. Bondad de Ajuste
La medida utilizada para medir la bondad de ajuste se llama coeficiente de determinacin (muestral) y se define como:
2 =
=1
Es la ganancia obtenida al pasar de un modelo sin variable explicativa X, a otro que incluye sta variable. Generalmente
es la proporcin de la variabilidad observada de la variable respuesta Y que se ha podido explicar por incluir de forma
lineal en el modelo la variable explicativa X.
Observacin: Cuando n es pequeo, el coeficiente de determinacin R2 es sesgado positivamente. Para corregir este sesgo
se calcula el coeficiente de determinacin ajustado R 2 que se define por:
R2 1
CME
CMT
donde CME = SCE / (n - 2) y CMT = SCT / (n 1).
Cuando se halla la ecuacin de regresin, es aconsejable calcular ambos coeficientes de determinacin: R2 y R 2 .
11
3.8. VALIDEZ DEL MODELO

La validacin adecuada de un modelo de regresin debe incluir un estudio de los coeficientes, para determinar si sus signos
y sus magnitudes son razonables. Tambin se debe investigar la estabilidad de los coeficientes de regresin, es decir los
parmetros obtenidos con una nueva muestra. Por ltimo una validacin requiere investigar el desempeo del modelo en
prediccin, teniendo en cuenta los modos de interpolacin y extrapolacin.
3.8.1. Tcnicas de Validacin
Para validar un modelo de regresin existen 3 clases de procedimientos:
Anlisis de los coeficientes del modelo y los valores predichos, incluyendo comparaciones con la experiencia, la
teora fsica y otros modelos analticos o resultados de simulacin.
Recoleccin de nuevos datos (o datos frescos) con los cuales investigar el desempeo del modelo en prediccin.
Divisin de datos, es decir, dividir los datos en 2 partes: una parte son datos de estimacin y otra parte son datos
de prediccin. A esta divisin de datos se le llama validacin cruzada.
Ejemplo 1. En la Empresa comercial ABC, se desea determinar la relacin lineal simple entre la experiencia del vendedor
y las unidades vendidas durante un mes. Se seleccionan 5 vendedores al azar, los datos registrados se presentan a
continuacin.
VENDEDOR
EXPERIENCIA (aos): X
VENTAS (unidades): Y
Carlos
3
9
Pedro
1
5
Jos
2
7
Juan
5
14
Manuel
4
10
a) Trazar el diagrama de dispersin.

b) Determinar la lnea de regresin muestral de mnimos cuadrados.
c) Interpretar el valor de la pendiente.
Solucin
a) El diagrama de dispersin es la figura 2, obtenida mediante el programa SPSS.
12
14
12
Ventas
10
4
1
Experiencia
Figura 2
b) De los datos de la muestra resultan:
Experiencia (X)
Ventas (Y)
X2
XY
27
14
14
25
70
10
16
40
15
45
55
156
x i 15 ,
i 1
y i 45 ,
i 1
i 1
n
i 1
n xi y i xi y i
i 1
n xi2 ( xi ) 2
i 1
x y
i 1
i 1
x 3
n
x i2 55
156 ,
y9
5(156) (15)(45)
2.1
5(55) (15) 2
i 1
a y bx 9 2.1 3 2.7
2.7 2.1 X
As, la lnea de regresin estimada o muestral es: Y
13
c) El valor b = 2.1 de la pendiente indica que por cada ao de experiencia, la venta se incrementa en 2.1 unidades.
Nota.- Utilizando el Software SPSS, nos proporciona el siguiente resultado para el mismo ejemplo 1.
Coeficientesa
Modelo
1
(Constante)
Experiencia
Coeficientes no
estandarizados
Error
B
tp.
2.700
.835
2.100
.252
Coeficientes
estandarizados
Beta
t
3.235
8.345
.979
Sig.
.048
.004
Intervalo de confianza para

B al 95%
Lmite
Lmite inferior
superior
.044
5.356
1.299
2.901
a. Variable dependiente: Ventas
La salida muestra el resultado de ajustar un modelo lineal para describir la relacin entre Ventas y Experiencia. La ecuacin
del modelo lineal ajustado es:
Ventas = 2.7 + 2.1 * Experiencia
d) Con los datos del ejemplo 1, calcular la desviacin estndar muestral de la regresin (el error estndar de estimacin).
Solucin.
5
Del ejemplo1, se obtienen: n = 10, a = 2.7, b = 2.1 ,
y i 45 ,
i 1
)
(YY
)2
(YY
0.0
0.00
4.8
0.2
0.04
6.9
0.1
0.01
14
13.2
0.8
0.64
10
11.1
-1.1
1.21
Y
5
i 1
x y
i 1
156
I 2 1.90
Y
Entonces la varianza estimada es:

n
S2
(y
i 1
y i ) 2
n-2
1.90
0.6334
3
El error estndar de estimaciones: S 0.6334 0.7958 unidades.
14
Nota.
- Utilizando la expresin alternativa para el clculo de S2, resulta:
n
S2
y
i 1
2
i
i 1
i 1
- a y i - b x i y i
n-2
451 2.7 45 2.1 156 1.90
0.6334
3
3
Entonces el error estndar de estimacin es:
S 0.6334 0.7958
e) Con los datos del ejemplo 1, mediante el mtodo de anlisis de varianza probar la significancia de la ecuacin de
regresin muestral, al nivel de significancia del 5%.
Solucin.
1) Hiptesis : H 0 : = 0 contra H 0 : 0
2) Nivel de significancia : = 0.05

3) Estadstica de prueba : F
CMR
~ F(1, 3) , donde n = 5
CME
4) Regin crtica: Para el nivel de significancia = 0.05 y los grados de libertad 1 y 3, en la tabla F se encuentra el valor
critico F ( 0.95 , 1 , 3 ).= 10.1. Se rechaza H 0 si el valor calculado de F > 10.1. Se acepta en caso contrario.
5) Clculos: De los datos se obtiene:
n
SCT y i2 n( y) 2 451 5 (9) 2 46

i 1
SCR b x i y i n( x )( y) 2.1 156 5(3)(9) 44.1

i 1
SCE SCT SCR 46 - 44.1 1.9
La tabla de anlisis de varianza es:

ANVA para H.0: = 0
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Regresin
44.1
Error
1.9
Total
46.0
Cuadrados
medios
calculada
CMR = 44.1
F = 69.624
CME = 0.6334
15
6.- Decisin.- Dado que F = 69.624 > 10.1, se rechaza H 0. Estos resultados reflejan la validez del modelo de regresin
poblacional entre aos de experiencia y ventas.
Nota.
1. Observar que la estimacin de la varianza 2 es S2 = CME = 0.6334.
2. Mediante el paquete Estadstico SPSS, resulta el siguiente anlisis de varianza para = 0.
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
44.100
1.900
46.000
gl
1
3
4
Media
cuadrtica
44.100
.633
F
69.632
Sig.
.004 a
a. Variables predictoras: (Constante), E xperiencia

b. Variable dependiente: Ventas
Puesto que el valor P-value = 0.004 < 0.05, se concluye que existe una relacin estadsticamente significativa entre Ventas
y Experiencia en los vendedores.
f) Con los datos del ejemplo 1, determinar:

a) El intervalo de confianza del 95% para la respuesta media Y/X o cuando x0=6.
b) El intervalo de confianza del 95% para una sola respuesta y0 cuando x0=6.
g) Con los datos del ejemplo 1, calcule el coeficiente de determinacin R2 . Interprete su resultado.
Solucin. Del ejemplo 1 resultan:
SCT = 46.0 ,
SCE = 44.1 ,
SCE = SCT SCR = 46.0 44.1 = 1.9
Entonces:
R2 1
R2 1
SCE
1.9
1
0.9587 y
SCT
46.0
CME
1.9 / 3
1
0.9450
CMT
46.0 / 4
El valor de R y R 2 se interpretan en la misma forma. As, R2 = 0.9587, significa que el 95.87% de la variacin de la
variable dependiente (Ventas) es explicada por la regresin lineal. Otra forma de interpretar es que el ajuste de la recta de
regresin a los puntos de la muestra es muy bueno.
Nota. Mediante el software SPSS, se obtiene el siguiente resultado:
16
Resumen del modelo

Modelo
1
R
.979a
R cuadrado
.959
R cuadrado
corregida
.945
Error tp. de la
estimacin
.796
a. Variables predictoras: (Constante), Experiencia
El valor del coeficiente de correlacin r = 0.97913, indica a una relacin relativamente fuerte entre las variables
(Experiencias y Ventas).
Este resultado, tambin nos proporciona el error estndar de estimacin igual a 0.795822.
Ejemplo 2:
Supongamos que nos interesa conocer la relacin que hay entre el peso y la presin sistlica de 50 hombres seleccionados
al azar en edades de 25 a 30.
Se trata de cuantificar la influencia que tiene el peso (libras) de una persona en la determinacin de su presin sistlica
mediante un modelo de regresin lineal simple.
Utilizando el Software estadstico PASW v18 (antes SPSS). Primero, con un grfico de dispersin, exploramos la relacin
entre peso (libras) y presin sistlica.
Se observa que los datos tienden a formar o a reunirse en una lnea recta creciente. Luego se calcula el coeficiente de
correlacin de Pearson que indica la direccin y la intensidad de la relacin lineal.
17
Correlaciones
peso_libras presion_sistlica
peso_libras
Correlacin de Pearson
.801**
Sig. (bilateral)
.000
N
presion_sistlica Correlacin de Pearson
50
50
.801**
Sig. (bilateral)
.000
50
50
**. La correlacin es significativa al nivel 0,01 (bilateral).
El coeficiente es positivo (a mayor peso mayor presin sistlica), con un valor de 0.8 que indica una correlacin
considerable positiva.
Procedemos a realizar el anlisis de regresin lineal usando el PASW para obtener las estimaciones de los parmetros 0 =
70.32 y 1 = 0.43, la significancia (los parmetros son significativamente diferentes de cero) y los intervalos de confianza
(no contienen a cero). Luego tenemos el anlisis de varianza en la tabla ANOVA (pendiente diferente de cero). Tambin
obtenemos la medida de bondad de ajuste que es el coeficiente de determinacin con un valor de 0.65 e indica que el 65%
de la variabilidad de presin sistlica es explicada por la variable peso, el error tpico de la estimacin (8.561) y el clculo
de Durbin Watson (1.37).
Coeficientesa
Modelo
Coeficientes no estandarizados Coeficientes tipificados
Intervalo de confianza de 95.0% para B

t
1 (Constante)
peso_libras
Error tp.
70.323
8.286
.429
.046
Sig.
Beta
.801
Lmite inferior
Lmite superior
8.487 .000
53.663
86.984
9.281 .000
.336
.522
a. Variable dependiente: presion_sistlica
ANOVAb
Modelo
Regresin
Suma de cuadrados gl Media cuadrtica

6312.285
6312.285
1 Residual
3517.715
48
73.286
Total
9830.000
49
Sig.
86.133 .000a
a. Variables predictoras: (Constante), peso_libras

b. Variable dependiente: presion_sistlica
Resumen del modelob

Modelo
dimension0
R
.801a
R cuadrado R cuadrado corregida Error tp. de la estimacin Durbin-Watson

.642
.635
8.561
1.370
a. Variables predictoras: (Constante), peso_libras

b. Variable dependiente: presion_sistlica
18
Para evaluar el supuesto de Linealidad observamos el grfico de dispersin peso (libras) y presin sistlica, descrito arriba.
Segn el grfico parece indicar una relacin aproximadamente lineal, pero formalmente podemos realizar la prueba de
falta de ajuste que se presenta en la tabla.
ANOVAb
Modelo
Suma de cuadrados gl Media cuadrtica
F
Sig.
Regresin
6312.285
1
6312.28
86.133
.000
Residual
3517.715
48
73.29
1 (falta de ajuste)
2982.05
39
76.46
1.28468904 0.363
(error puro)
535.67
9
59.52
Total
9830
49
Como la significancia es mayor que 0.05 se acepta la hiptesis de que el modelo tentativo describe a los datos en forma
lineal.
El supuesto de Normalidad, puede ser evaluado con un histograma de residuos tipificados (grfico) o con un grfico de
probabilidad normal de los residuos (grfico). Tambin mediante un test de Kolmogorov-Smirnov sobre los residuos
estandarizados en el cual se acepta el supuesto de Normalidad.
19
Pruebas de normalidad
Kolmogorov-Smirnova
Estadstico gl
Standardized Residual
.107
Sig.
50 .200*
Shapiro-Wilk
Estadstico gl
.969
Sig.
50 .204
a. Correccin de la significacin de Lilliefors

*. Este es un lmite inferior de la significacin verdadera.
La Homocedasticidad es evaluable a travs de un examen visual de los residuos en el grfico de dispersin de pronsticos
tipificados vs. residuos tipificados. Los residuos y los pronsticos no parecen ser independientes (esto se verificar ms
adelante con Durbin Watson) pues parecen seguir un patrn cuadrtico. Parece que la varianza no es homognea, parece
que conforme va aumentando el valor de pronstico va disminuyendo la dispersin de los residuos y se ubican hacia abajo.
20
La Independencia se evala mediante el clculo de Durbin Watson (DW) y valoracin visual de los residuos (grafico). El
estadstico DW considera que oscila entre 0 y 4. Podemos asumir independencia entre los residuos cuando DW toma
valores entre 1.5 y 2.5. Menores a 2 indican autocorrelacin positiva y los mayores a 2 indican autocorrelacin negativa.
Como DW tiene valor 1.37, indica que hay una autocorrelacin positiva entre los residuos.
4. REGRESIN NO LINEAL
En muchos casos cuando los valores en parejas de las variables X e Y no se ajustan a una lnea recta, se puede conseguir
una relacin lineal mediante una transformacin de estos valores. A continuacin, se dan algunas ecuaciones no lineales y
su transformacin lineal
Ecuacin
Transformacin lineal
a) Y AB X (compuesto)
log Y log A (log B) X
b) Y AX B (potencia)
log Y log A B log X
c) Y 1 ( A BX ) (hiperblica)
Y ' A BX , siendo Y ' 1 Y
d) Y A B / X
Y A BX ' siendo X ' 1 X
( Inversa)
EJEMPLO: Ajustar por el mtodo de mnimos cuadrados una curva de la forma

21
Y AX B
a los siguientes pares de datos:

X
1.5
3.5
2.6
2.4
1.2
1.8
1.6
1.4
SOLUCION.
La transformacin a la regresin lineal es:
Y ' A' B' X '
Donde:
Y log Y , X log X , A log A, B B
Cuadro 1 . Clculos para la regresin no lineal

X'=log X Y'=log Y
X'Y'
X'2
Y'2
1.5
2.6
0.1761
0.4150
0.0731 0.0310
0.0.172
2.0
2.4
0.3010
0.3802
0.1144 0.0906
0.1446
3.0
1.2
0.4771
0.0792
0.0378 0.2276
0.0063
3.5
1.8
0.5440
0.2553
0.1378 0.2959
0.0652
4.0
1.6
0.6021
0.2041
0.1229 0.3625
0.0417
5.0
1.4
0.6990
0.1461
0.1021 0.4886
0.0213
2.7993
1.4799
0.5891 1.4962
0.4513
Del Cuadro 1 se obtiene:
X ' 2.7993,
Y ' 1.4799,
X ' 2 1.4962,
X 'Y ' 0.5891,
Y ' 2 0.4513
n X ' Y ' X ' Y ' 6(0.5891) (2.7993)(1.4799)
0.532
n X ' 2 ( X ' ) 2
6(1.4962) (2.6993) 2
a y 'bx ' 0.24665 (0532

. )(0.46655) 0.4949
22
Adems,
s X 'Y '
0.608
0.79.
s X ' sY (1.068)(0.7196)
La ecuacin lineal de regresin es:
Y ' 0.4949 0.532 X '
La ecuacin no lineal de regresin se obtiene utilizando antilogaritmos:
Y anti log(Y ) (3.125) X 0.532
donde A anti log(a) anti log(0.4949) 3.125 .
23

Cap V Análisis de Regresión Lineal Simple

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cap V Análisis de Regresión Lineal Simple

Transféré par

Droits d'auteur :

Formats disponibles

CAPTULO V : ANLISIS DE REGRESIN LINEAL SIMPLE

variable a explicar, variable dependiente o endgena.

variable explicativa, variable independiente o exgena.

La ordenada 0 y la pendiente 1 (cantidad de incremento o decremento en el valor medio de Y asociado con un

es el trmino de error, variable aleatoria o perturbacin.

2. SUPUESTOS DEL MODELO

Normalidad: Los errores estn distribuidos NID(0, 2 )

2.1. Otros criterios a tomar en cuenta:

La variable endgena o respuesta es cuantitativa.

El modelo est bien especificado.

3. PASOS SUGERIDOS PARA LA REALIZACIN DEL ANLISIS DE REGRESIN

Especificar bien el modelo: Identificar variable regresora y variable respuesta

Construir diagrama de dispersin

Determinar la fuerza de asociacin

Estimar los parmetros.

Estimar intervalos de confianza.

Comprobacin de la Adecuacin del Modelo de Regresin

Anlisis de residuales (validacin de supuestos).

Bsqueda de observaciones atpicas o demasiado influyentes.

Validez del modelo

3.1. GRFICO DE DISPERSIN

3.2. COEFICIENTE DE CORRELACIN DE PEARSON

El valor del ndice de correlacin vara en el intervalo [-1,1]:

Si 0 < r < 1, existe una correlacin positiva.

Si -1 < r < 0, existe una correlacin negativa.

3.3. LA ESTIMACIN DE PARMETROS POR MNIMOS CUADRTICOS ORDINARIOS (MCO)

Del cual se obtiene:

3.4. ESTIMACIN DE LA VARIANZA POBLACIONAL

2. La estimacin puntual de es el error estndar

3.5. INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIN.

3.5.1. Anlisis de varianza para .

SCE ( y i y i ) 2 es la suma de cuadrados de los errores, o no explicada.

valores de Y explicada por la recta de regresin.

La variable aleatoria F definida por: F

Fuente de variacin Suma de cuadrados Grados de libertad

CME.= SCE / (n-2)

Las sumas de cuadrados se obtienen utilizando las expresiones:

SCE SCT SCR

Para la pendiente se tiene:

o si la significancia p es menor de 0.05. Ya que trabajamos con slo una variable

regresora o de regresin, resulta que 2 = del anlisis de varianza.

Y para la ordenada al origen es:

3.6. INTERVALOS DE CONFIANZA PARA LA PREDICCIN

Predecir la media Y/X , dado X = xo , o

i) Intervalo de confianza de Y/X

Y0 a bX , cuando tambin X = xo (es decir

y o es un valor de la variable Y0 a b(x o ) ).

ii) Intervalo de confianza para y0

Y0 (xo ) , cuando X = xo y sea y o

Otra nomenclatura: Para nuevas observaciones:

3.7. ADECUACIN DEL MODELO

3.7.2. Bsqueda de Observaciones Atpicas o demasiado influyentes

se calcula el coeficiente de determinacin ajustado R 2 que se define por:

donde CME = SCE / (n - 2) y CMT = SCT / (n 1).

Cuando se halla la ecuacin de regresin, es aconsejable calcular ambos coeficientes de determinacin: R2 y R 2 .

3.8. VALIDEZ DEL MODELO

a) Trazar el diagrama de dispersin.

Intervalo de confianza para

a. Variable dependiente: Ventas

Del ejemplo1, se obtienen: n = 10, a = 2.7, b = 2.1 ,

Entonces la varianza estimada es:

El error estndar de estimaciones: S 0.6334 0.7958 unidades.

451 2.7 45 2.1 156 1.90