Chue. Analisis de Regresion.

UNIVERSIDAD DE LIMA
FACULTAD DE INGENIERÍA DE SISTEMAS

DEPARTAMENTO ACADÉMICO DE INGENIERÍA DE SISTEMAS
ASIGNATURA : ESTADÍSTICA
SECCIÓN : 704
PROFESOR : JORGE CHUÉ GALLARDO
SEMESTRE : 98-I
ANÁLISIS DE REGRESIÓN
¿Qué es el análisis de regresión?.
El análisis de regresión es una técnica estadística que consiste en modelar e
investigar la relación entre dos o más variables.
¿Están relacionadas las variables?, en caso afirmativo, ¿cómo es esa relación?. El

análisis de regresión responde a estas preguntas estableciendo un modelo no
determinístico (ecuación que representa en forma simplificada la realidad) que
incluye un término aleatorio . Este modelo es de la forma:
Y = µ(X1, X2, X3,...,Xk) + 
¿Qué representa ?
 es una variable aleatoria que representa a:
 otras variables que no se consideran en el modelo
 errores de medición
 error de especificación de no considerar el modelo correcto
 otros factores que no se consideren en el modelo.
Como puede deducirse de lo anterior, el análisis de regresión estudia el

comportamiento de una variable dependiente (respuesta), denotada por Y, en
términos de un conjunto de variables denominadas independientes (regresores o
estímulos), denotadas por X1, X2, X3,...,Xk.
La función µ(X1, X2, X3,..., Xk) puede asumir diversas formas. La que se estudia en
este curso es:
0 + 1Z1 + 2 Z2 + ... + k Zk (1)
donde las Zi pueden ser funciones de las Xi. Los valores 0, 1, 2, ..., k son
denominados coeficientes de regresión poblacionales o parámetros.
Estadística – Ingeniería de Sistemas - Chué 84
CLASIFICACIÓN DE LOS MODELOS DE REGRESIÓN
 Si k=1 en la expresión (2), entonces se tiene el modelo de regresión lineal

simple
0 + 1x1 (3)
Si k>1 en la expresión (2), entonces se tiene el modelo de regresión lineal

múltiple.
 El término lineal en la expresión (1) se refiere a los parámetros 0, 1, 2, ... ,
k y no a las variables. Un modelo que no es de la forma (1) se denomina no
lineal.
En la expresión (1), cuando todas las Zi = Xi , se tiene el modelo de regresión:
0 + 1x1 + 2 x2 + ... + k xk (2)
Ejemplos:
Algunos ejemplos de modelos son:
Y = 0 + 1 x +  (lineal)
Y = 0 + 1 x1 + 2 x2 + 2 x3 +  (lineal múltiple)
Y = 0 + 1 x + 2 x² +  (lineal múltiple cuadrática)
Y = x +  (no lineal simple exponencial)
Y = x +  (no lineal simple exponencial)
Y =  log  x +  (no lineal simple logarítmica)
Y = exp ( 1 + 2 t2 +  ) (no lineal simple)
Y
1
1  2
e 2 t
 e
1 t
 (no lineal simple)
SUPOSICIONES DEL ANÁLISIS DE REGRESIÓN LINEAL
 i es una variable aleatoria no observable, con E(i) =0 y Var(i)=2

(desconocida).
 i y j no están correlacionadas, ij, cov(i , j ) =0.
 Como consecuencia de lo anterior se tiene que, la variable respuesta Y es una
variable aleatoria con valores Y1, Y2, ... , Yn observables e independientes, y
con E(Yi)= µY/X = 0 + 1x1 + 2 x2 + ... + k xk y Var(Yi) = 2.
 Las variables X1, X2, X3,...,Xk son variables matemáticas, es decir, han sido
registradas sin error.
Nota importante.- La suposición de que i es una variable aleatoria no

observable, con E(i) =0 y Var(i)=2 (desconocida), también puede ser
reemplazada por i N(0, 2)
OBJETIVOS DE LA REGRESIÓN
Los objetivos de la regresión son:

 Presentar la forma como las variables independientes se relacionan con la
variable dependiente. Este objetivo cubre las etapas de: especificación,
estimación y verificación.
 Realizar pronósticos de los valores de la variable dependiente, con base en el
conocimiento del valor de las variables independientes. Es decir, utilizar el
modelo de regresión para estimar el valor promedio µY/X y un valor individual
de Y.
 Realizar estimaciones de los parámetros de la regresión 0, 1, 2, ... , k.
En esta sección se estudia el conjunto de procedimientos y sus aplicaciones para el

caso de una variable dependiente y sólo una variable independiente. Es decir, se
estudia la regresión lineal simple.
Nota Importante.- Las relaciones no son del tipo causa y efecto.
Algunos ejemplos de la relación entre variables son los siguientes:
X Y
a. Tiempo de estudio Calificaciones
b. Publicidad Ventas
c. Km. recorridos en un negocio de mensajería Ingresos brutos
d. Horas de cómputo Cansancio visual
¿Qué es un dato bivariado?
Un dato bivariado es un par de valores (par ordenado) de dos variables distintas

obtenidas del mismo elemento de la población. Por ejemplo: el Sr. J. Jacinto
dedica 3 horas diarias al estudio y tiene un promedio acumulativo de 14.7.
En general un dato multivariado es (X1, X2, ..., XK, Y). El interés es analizar los
datos bivariados (o multivariados en la siguiente sección) usando la técnica del
análisis de regresión.
Un análisis inmediato a la regresión, es el denominado análisis de correlación. Por

lo tanto, otro objetivo que se busca en esta sección es: aprender a diferenciar estas
dos técnicas, y adquirir destreza con las presentaciones gráficas.
DIAGRAMA DE DISPERSION
El diagrama de dispersión es una gráfica en un sistema de ejes de todos los pares

ordenados que forman los datos bivariados. El diagrama de dispersión es el primer
paso que siempre debe ejecutarse en el análisis de los datos. A menudo, el
diagrama de dispersión permite determinar si existe un patrón de comportamiento
de los datos y obtener el tipo de función apropiada, si la hay, que mejor describa
dicho patrón de comportamiento.
Ejemplos: Las siguientes figuras son los posibles diagramas de dispersión de un

conjunto de datos bivariados.
a. Relación directa
16
14
12
10
0
0 2 4 6 8 10 12 14
b. Relación inversa
20
18
16
14
12
10
0
0 2 4 6 8 10 12 14
c. No hay relación lineal

25
20
15
10
0
0 2 4 6 8 10 12 14
REGRESION LINEAL SIMPLE
El modelo de regresión lineal simple es
Y = 0 + 1 x + 
donde :
Yi es la variable aleatoria respuesta con µY/x = E(0 + 1 xi) y Var(Yi) = 2.

0 es el coeficiente de intersección poblacional.
1 es el coeficiente de regresión poblacional.
xi es la variable estímulo o predictora medida sin error.
i es el error aleatorio no observable con E(i)=0 y Var(i) = 2. Además, para ij,
cov(i , j ) =0.
MÉTODO DE MINIMOS CUADRADOS
Para realizar el proceso de estimación de los parámetros 0 y 1 se obtiene una

muestra aleatoria de datos bivariados, (x1, y1), (x2, y2) , . . . , (xn, yn).
El método de mínimos cuadrados consiste en minimizar la suma de los cuadrados

de las desviaciones verticales de las observaciones con respecto a la ecuación 0 +
1 xi . Como consecuencia de este proceso, las estimaciones de 0 y 1 deben dar
como resultado una línea que se “ajuste mejor a los datos”.
¿Qué es el ajuste de una línea?. Como nuestro deseo es pronosticar una valor de y
basados en el conocimiento de un valor de x y observar la dirección de la relación
(positiva o negativa) entre x e y. Esta tarea requiere el ajuste de una ecuación
matemática lineal a los datos. Luego, el ajuste de una línea recta consiste en
obtener la ecuación de la recta específica que proporcione en algún sentido el
mejor ajuste posible a los datos observados.
Un buen ajuste podría ser uno que minimice el error o la desviación no explicada
y i - ŷ i . En términos formales, el método de mínimos cuadrados requiere que se
n
encuentren constantes b0 y b1, tales que la suma 
i =1
y i - ŷ i 2 sea tan
pequeña como sea posible.
Es decir:
yi = 0 + 1 xi + i para i=1,2,...,n
i = yi – ( 0 + 1 xi )
n n
Q( 0 , 1 )  
i 1
 i2  
i 1
 y i   0  1x i  2
Derivando Q(0, 1) con respecto a 0 y 1 :

n
 Q( 0 , 1 )
 0
2
i 1

 y i   0  1x i 
n
 Q( 0 , 1 )
 1
2
i 1

x i  y i   0  1x i 
e igualando a cero, se obtienen los estimados b0 y b1 :

n

i 1
 y i  b 0  b1x i  0
Ecuaciones Normales
n

i 1
x i  y i  b 0  b1x i   0
b 0  y  b1 x
 n  n 
n

  x 
i


y 
i

i 1
x i yi   i 1   i 1 
n
b1 
 n 
n

  xi 

2

i 1
x i2   i 1
n

Por lo tanto, la línea de regresión estimada o ajustada esta dada por :
Ŷ  b 0  b1 x
ˆ
Los estimadores de los parámetros 0 y 1 también son denotados por  ˆ
0 y 1 ,
respectivamente.
¿Qué representa b0?. b0 representa el valor de la variable respuesta Y cuando x=0.

En la mayoría de los casos, es el mínimo valor de y.
¿Qué indica b1?. b1 es la razón de cambio en la variable respuesta Y cuando la

variable predictora x cambia en una unidad.
Nota importante: La variabilidad de Y en un valor particular de x está

determinada por la variancia del error 2. Esto implica que hay una distribución de
valores de Y para cada x, y que la variancia es la misma en cada x.
Nótese que cada par de observaciones satisface la relación:
yi = b0 + b1 xi + ei i=1,2,...,n
donde ei = yi - ŷi recibe el nombre de residual. El residual describe el error en

el ajuste del modelo en la i-ésima observación yi. La suma de estos valores ei es
una cantidad mínima y su raíz cuadrada es denominada el error estándar de
estimación.
En resumen, para determinar la ecuación de regresión por el método de mínimos

cuadrados se sigue el siguiente procedimiento:
a) Considerar los n pares de valores (x1, y1),...,(xn, yn).

n n n n
b) Calcular las siguientes cantidades x

i =1
i yi ,  x , x ,  y ,
i =1
i
i=1
2
i
i=1
i
 y . Aplicar las fórmulas correspondientes de b y b .

i=1
2
i 0 1
c) Determinar la ecuación de regresión lineal simple: y = a + b x

d) Interpretar b0 y b1 .
Antes de continuar con la teoría del análisis de regresión lineal simple, a

continuación se presenta un ejemplo de cálculo de la ecuación ajustada.
PROPIEDADES DE LOS ESTIMADORES MÍNIMO

CUADRÁTICOS
Los estimadores b0 y b1 obtenidos por el método de mínimos cuadrados tienen las

siguientes propiedades:
 
 2 
1 x
1. El estimador b0 tiene E(b0) = 0 y 2b =Var (b0) = 2 
n  n






i 1
(xi  x)2 


2
2. El estimador b1 tiene E(b1) = 1 y 2b = Var (b1) =
n
 (x
i 1
i  x) 2
 2 x
n
3. Cov (b0, b1) =
 (x
i 1
i  x) 2
4. El S2e es un estimador insesgado de 2 .
5. b0 y b1 son óptimos o estimadores insesgados de mínima variancia.
Ejemplo: Un comerciante al por menor obtiene el registro, mediante

computadoras, de las ventas facturadas a sus clientes. Teóricamente, los únicos
errores que pueden entrar al sistema se deben a las entradas incorrectas hechas por
los vendedores en cada venta. El comerciante desea probar si el número de
entradas o errores de digitación está relacionado con las horas de descanso de sus
vendedores. Diez vendedores fueron seleccionados para realizar la investigación.
Se fijaron cinco períodos de sueño y se asignaron dos vendedores a cada periodo.
Inmediatamente después del periodo de descanso, el vendedor trabajo su turno de
8 horas y se registraron las entradas incorrectas en la computadora. Los resultados

fueron los siguientes:
Número de errores 8 6 8 14 16
6 10 14 20 12
Número de horas sin sueño 8 12 16 20 24
¿Cuál es la ecuación de ajuste?

Primero se calculan las siguientes cantidades:
n n
x
i =1
i yi = 2008 x
i =1
i = 160

i =1
x i2 =2880
n n
y
i =1
i = 114 y
i =1
2
i = 1492
Luego, se aplican las fórmulas de b0 y b1: b1= 0.575 y b0= 2.2. Finalmente:
ŷ  2.2  .575x
El reporte de MINITAB es:
Regression Analysis
The regression equation is

Y = 2.20 + 0.575 X
Predictor Coef StDev T P

Constant 2.200 3.121 0.70 0.501
X 0.5750 0.1839 3.13 0.014
S = 3.290 R-Sq = 55.0% R-Sq(adj) = 49.4%
Analysis of Variance
Source DF SS MS F P
Regression 1 105.80 105.80 9.77 0.014
Error 8 86.60 10.82
Total 9 192.40
Unusual Observations
Obs X Y Fit StDev Fit Residual St Resid
8 20.0 20.00 13.70 1.27 6.30 2.08R
R denotes an observation with a large standardized residual
El siguiente gráfico representa la relación del valor observado de Y respecto a la

ecuación de ajuste.
y
*
Residual
Observado
Predecido
La siguiente figura es un ploteo de los residuales en la que se demuestra que el

ajuste de una línea de regresión fue un error.
Variable X 1 Gráfico de los residuales
100
Residuos
0
0 2 4 6 8 10 12
-100
Variable X 1
Nota Importante.- Cuando se hagan predicciones respecto al valor de y en base a

un valor de x, se debe estar seguro de que el valor de x está dentro del dominio de
los valores x observados o muy cerca de ellos.
ERROR ESTANDAR DE ESTIMACIÓN
El método de regresión puede ser usado para predecir Y usando x. Sin embargo,
los valores actuales Y difieren de los valores predecidos y . Luego es necesario
tener una medida del tamaño global de las diferencias. Esta medida es el error
estándar de estimación y es definido por

i =1
y i - ŷ i 2
se =
n-2
Obsérvese que Se² es la suma de los cuadrados de las desviaciones verticales

(residual) de los puntos a la recta dividida entre n-2.
Una fórmula equivalente para Se es
Syy - b1 Sxy
se =
n-2
 n  n   n 
2
donde : SXY= n

  x i 


yi 
 , SYY = n

 y i


i 1
x i yi   i 1  i 1 
n 
i 1
y i2   i 1 
n
donde: Syy = SC(y) = y² - (y)²/n
Nótese que Se tiene las mismas unidades que los datos originales. El valor de Se es
también conocido como la raíz del cuadrado medio del error (rcme) de la
regresión.
Recuérdese que el residual es la distancia por encima (+) o por debajo (-) de la
línea de regresión. Cada punto en el diagrama de dispersión tiene un residual,
representando el error que se comete por el método de regresión.
Se nos indica que tan lejos se encuentra un punto de la línea de regresión.
Nota Importante.- Los puntos en un diagrama de dispersión se desvían de la línea

de regresión (arriba o abajo) por los residuales en tamaño igual al Se. El valor de Se
es a la línea de regresión como la desviación estándar S es al promedio muestral
Y . Es decir, Se mide la dispersión alrededor de la línea de regresión.
Regla Empírica.- Aproximadamente el 68% de los puntos en un diagrama de

dispersión están dentro de un Se (rcme) de la línea de regresión; y
aproximadamente el 95% de ellos están dentro de dos Se (rcme). Esta regla cumple
para muchos conjuntos de datos, pero no para todos. Veamos el siguiente gráfico.
Se 2 Se
68% 95%
La interpretación del Se, error estándar de estimación, y S, la desviación estándar

de los valores originales, es la siguiente:
I) La desviación estándar S mide la distancia de un punto cualquiera por debajo o

por encima de la línea horizontal trazada a la altura del promedio y. En otras
palabras, S mide el tamaño probable del error si Ud. predice Y usando el
promedio y e ignorando la presencia de las x.
II) Se mide la distancia por encima o por debajo de la línea de regresión. S e será
menor, debido a que la línea de regresión puede ubicarse más cerca a los
puntos siguiendo la tendencia de los mismos. La relación entre S e y S de las y
es :
1  r 2 S  Se
Donde r es el coeficiente de correlación que estudiaremos en la siguiente

sección. Es decir, Se es menor que S por el factor 1  r2
S
Se
PRUEBA DE HIPÓTESIS DE 0 Y 1
Para realizar la prueba de hipótesis de 0 y 1 es necesario realizar la suposición

adicional de que los errores se distribuyen normal e independientemente con
media cero y variancia 2. Es decir, N(0, 2).
Las siguientes estadísticas de prueba se utilizan para realizar las pruebas de

hipótesis:
ˆ 
 0 0,0
To 
 
 
1. Para la Ho: 0 = 0,0 se utiliza 2
1 x 
Se n  n 

 i 1
(x i  x) 2 

To tiene distribución t con n-2 grados de libertad si la Ho es cierta. La región

de rechazo es |t0| > t/2, n-2. t0 se calcula utilizando la fórmula de To.
ˆ 1  1,0
To 
1
2. Para la Ho: 1 = 1,0 se utiliza Se n

i 1
(x i  x) 2
To tiene distribución t con n-2 grados de libertad si la Ho es cierta. La región

de rechazo es |t0| > t/2, n-2. t0 se calcula utilizando la fórmula de To.
Nota.- La decisión de rechazar la Ho: 1 = 1,0 es equivalente a concluir que

no hay ninguna relación lineal entre x e Y.
INTERVALOS DE CONFIANZA PARA 0 Y 1

Para la construcción de los intervalos de confianza de 0 y 1 también es
necesario realizar la suposición adicional de que los errores se distribuyen
normal e independientemente con media cero y variancia 2. Es decir, N(0,
2).
Las siguientes fórmulas se utilizan para calcular los intervalos de confianza:
2 2
1 x 1 x
ˆ 0  t  / 2, n  2 Se    0  ˆ 0  t  / 2, n  2 Se 
 n n n n

i 1
(x i  x)2 
i 1
(x i  x) 2
1 1
ˆ 1  t  / 2, n  2 Se n
 1  ˆ 1  t  / 2, n  2 Se n


i 1
(x i  x) 2 
i 1
(x i  x)2
ANÁLISIS DE VARIANCIA DE LA REGRESIÓN LINEAL

SIMPLE
¿Es significativa la regresión como un todo?. Es decir, cómo saber si la X elegida

explica significativamente la variabilidad observada en Y. Las hipótesis son:
H0: 1=0  hipótesis nula: Y no depende de X.
Ha: 1  0  hipótesis alternativa: Y depende de X.
¿QUÉ ES EL ANÁLISIS DE VARIANCIA?
El análisis de variancia es una técnica estadística que consiste en particionar la

n
suma de cuadrados de la variable dependiente, 
i 1
( yi  y) 2 , en fuentes de
variación conocida. El análisis de variancia se denota por ANVA o ANOVA.
En el caso de la regresión lineal simple, se tiene lo siguiente:
SC total de la = SC explicada + SC total no explicada

variable dependiente por la regresión o error
SCT = SCR + SCE

n n n

i 1
( yi  y) 2 = 
i 1
( ŷ i  y) 2 + 
i 1
( y i  ŷ i ) 2
n-1 = 1 + n-2
La prueba estadística para probar la hipótesis nula es
CM Re gresión
Fo 
CM Error
Fo tiene distribución F(1-/2, 1, n-2) si la Ho es verdadera.

La regla de decisión es rechazar la Ho si fo > f(1-/2, 1, n-2). En caso contrario no se
rechaza la Ho. fo se calcula utilizando la fórmula de Fo. En caso de rechazarse la
Ho, se concluye que la regresión es significativa y que la variable escogida como
independientes es apropiada para explicar la variable dependiente.
La información de la partición de la suma de cuadrados, de los grados de libertad

de otras cantidades mencionadas se presenta en un cuadro denominado la tabla del
análisis de variancia de la regresión lineal simple.
TABLA DEL ANVA DE LA REGRESIÓN LINEAL SIMPLE
Fuente de Grados de Suma de cuadrados Cuadrado medio F calculado

Variabilidad libertad
Regresión 1 n SC regresión SC regresión

i 1
( ŷ i  y) 2
Se 2
Error n-2 n
Se2

i 1
( y i  ŷ i ) 2
Total n-1 n

i 1
( yi  y) 2
Recuérdese que:
 n  n   n 
2
SXY= n

  x i


y i

 SXX= n

 xi 


i 1
x i yi   i 1  i 1 
n i 1

x i2   i 1 
n
2
 n 
SYY = n

 yi 


i 1
y i2   i 1 
n
Entonces,
SC regresión = b1SXY = b21 SXX
SC Error = SYY – SC regresión
La siguiente figura presenta la relación entre la desviación total, la desviación

explicada y la desviación no explicada de un punto individual en una regresión
simple.
Y
Valor Observado de Y

Y- Y Línea de regresión
Desviación
respecto a
Y
Y - Y
Y
Nota Importante. La prueba del ANVA se conoce como la prueba global del
modelo de regresión y las pruebas de 0 y 1 son conocidas como pruebas
individuales.
INTERVALO DE CONFIANZA PARA UN VALOR MEDIO µy/x
Un intervalo de confianza para un valor medio µy/x del 100(1-) por ciento para
un valor x=x0 es:
1 (x 0  x) 2 1 (x 0  x) 2
ŷ 0  t ( / 2,n 2) Se  n ŷ 0  t (  / 2,n 2) Se  n
n  µy/x  n

(x i  x) 2
i 1
 (x i  x) 2
i 1
INTERVALO DE CONFIANZA PARA UN VALOR INDIVIDUAL
Un intervalo de confianza para un valor individual del 100(1-) por ciento para
un valor x= x0 es:
1 (x  x) 2
ŷ 0  t (  / 2,n  2) Se 1   n 0
n  y0
 (x i  x) 2
i 1
1 (x  x) 2
ŷ 0  t (  / 2,n 2) Se 1   n 0
 n
 (x i  x) 2
i 1
CORRELACION LINEAL
¿Qué es correlación lineal?. Es una técnica estadística que consiste en medir la

asociación lineal entre dos variables.
El coeficiente de correlación lineal poblacional es denotado por . Mientras que su

estimador correspondiente, denominado coeficiente de correlación muestral, es
denotado por " r ".
El valor del coeficiente de correlación (poblacional o muestral) puede variar de -1
a 1. La interpretación del valor de r es la siguiente:
1.- Si r < 0, esto indicará que hay una relación lineal inversa entre las dos
variables en estudio. Si r=-1, entonces hay una relación perfecta lineal
inversa.
Ejemplos:
45
40
35
30
25 r<0
20
15
10
5
0
0 2 4 6 8 10
40
35
30
25 r = -1
20
15
10
0
0 2 4 6 8 10
2.- Si r > 0, esto indicará que hay una relación lineal directa entre las dos
variables en estudio. Si r=1, entonces hay una relación perfecta lineal
directa.
Ejemplos:
50
45
40
35
30
r>0
25
20
15
10
5
0
0 2 4 6 8 10
25
20
15
r=1
10
0
0 2 4 6 8 10
3.- Si r=0, esto indicará que no hay una relación lineal directa entre las dos
variables en estudio. Pero si puede existir algún otro tipo de relación no
lineal.
Ejemplos:
40
35
30
25
r=0
20
15
10
0
0 2 4 6 8 10
40
35
30
25
No existe correlación
20
15
10
0
0 2 4 6 8 10
30
25
No existe correlación
20
15
10
0
0 10 20 30 40
La fórmula para calcular el valor de r es:
n  n

n  xi    yi 
 xi yi - i=1  n i=1 
i=1
r =
2 2
 n   n 
  xi    yi 
 i=1   
 
2
2
xi - yi - i=1
i=1 n i=1 n
Esta fórmula de r es denominada momento producto de Pearson.

Nota importante.- La evidencia muestral sólo puede indicar que el patrón de
comportamiento de las dos variables está relacionado linealmente en el sentido de
que una puede ser utilizada de manera efectiva para predecir la otra. Esto no
significa que se haya establecido una relación causa-efecto.
RELACIÓN ENTRE CORRELACIÓN Y REGRESIÓN
¿Están relacionadas linealmente dos variables? - Correlación Lineal

¿Cuál es la relación? - Regresión Lineal
¿Cómo están relacionadas dos variables? - Regresión Lineal
Los conceptos de correlación y regresión lineales son muy diferentes, ya que cada
uno mide características distintas. Es posible tener datos que produzcan una
marcada correlación, y que tengan el modelo incorrecto. Por ejemplo, si el
intervalo del dominio se restringe lo suficiente, puede utilizarse una recta para
aproximar casi cualquier línea curva. En este caso el valor de r puede ser grande,
pero aún así la gráfica no será una línea recta perfecta. Ver gráfico siguiente.
100
90
80
70
60
50
40
30
20
10
0
0 20 40 60 80 100 120
El coeficiente de regresión muestral b y el coeficiente de correlación muestral r

están relacionados por la siguiente fórmula:
2
 n 
  x i
n  
 xi - i=1n
2
r= b i=1 2
 n 
  yi 
n  
 yi - i=1 n
2
i=1
Recuérdese también que Se mide la dispersión alrededor de la línea de regresión

en términos absolutos: nuevos soles, kgs, y así sucesivamente. El coeficiente de
correlación r mide la dispersión relativa a la desviación estándar de las y, y no
tiene unidades.
 r describe el agrupamiento de los puntos alrededor de la línea de las
desviaciones estándares.
 r indica como el promedio de las y depende de las x- asociada con un
incremento en la desviación estándar de las x hay un incremento de únicamente
r desviaciones estándares de las y, en el promedio.
 r determina la exactitud de las predicciones de regresión, por intermedio de la
fórmula de Se.
Nota Importante.- Si Ud. extrapola más allá de los datos o usa la línea de
regresión para obtener estimados de Y usando valores de x que no fueron
considerados en el estudio, Se no podrá indicarle qué tan lejos es su estimación.
COEFICIENTE DE DETERMINACION R2
El coeficiente de determinación R2 es definido como:
SC regresión
R2 = SC total
Es decir, R2 es la proporción de la variación total de la variable dependiente que es

explicada por el modelo de regresión 0 + 1x (o por la variable independiente x).
También se dice que es la reducción en la variación total de la variable respuesta
por el uso de la variable independiente X.
R2 mide o juzga la idoneidad del modelo de regresión 0 + 1x. Nótese que R2 = r2.
Si por ejemplo, en un estudio r=0.8, entonces el 64% de la variación en la variable

dependiente y se atribuye a su relación con x; si en otro estudio r=0.40, sólo el
16% de la variación en y se atribuye a su relación con x. Por lo tanto, en el sentido
del "porcentaje de variación", podemos decir que una correlación de 0.8 es
aproximadamente cuatro veces más fuerte que una correlacción de 0.40. De la
misma forma, decimos que una correlación de 0.60 es nueve veces más fuerte que
una de 0.20.
EJEMPLO DE ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

(Continuación del ejemplo de los errores de entrada )
Regression Analysis
The regression equation is

Y = 2.20 + 0.575 X
Predictor Coef StDev T P

Constant 2.200 3.121 0.70 0.501
X 0.5750 0.1839 3.13 0.014
S = 3.290 R-Sq = 55.0% R-Sq(adj) = 49.4%
Analysis of Variance
Source DF SS MS F P
Regression 1 105.80 105.80 9.77 0.014
Error 8 86.60 10.82
Total 9 192.40
Unusual Observations
Obs X Y Fit StDev Fit Residual St Resid
8 20.0 20.0 13.70 1.27 6.30 2.08R
R denotes an observation with a large standardized residual
Fit StDev Fit 95.0% CI 95.0% PI

6.80 1.80 ( 2.64, 10.96) ( -1.85, 15.45)
6.80 1.80 ( 2.64, 10.96) ( -1.85, 15.45)
9.10 1.27 ( 6.16, 12.04) ( 0.96, 17.24)
9.10 1.27 ( 6.16, 12.04) ( 0.96, 17.24)
11.40 1.04 ( 9.00, 13.80) ( 3.44, 19.36)
11.40 1.04 ( 9.00, 13.80) ( 3.44, 19.36)
13.70 1.27 ( 10.76, 16.64) ( 5.56, 21.84)
13.70 1.27 ( 10.76, 16.64) ( 5.56, 21.84)
16.00 1.80 ( 11.84, 20.16) ( 7.35, 24.65)
16.00 1.80 ( 11.84, 20.16) ( 7.35, 24.65)

Chue. Analisis de Regresion.

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chue. Analisis de Regresion.

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSIDAD DE LIMA

FACULTAD DE INGENIERÍA DE SISTEMAS

¿Están relacionadas las variables?, en caso afirmativo, ¿cómo es esa relación?. El

Y = µ(X1, X2, X3,...,Xk) + 

Como puede deducirse de lo anterior, el análisis de regresión estudia el

0 + 1Z1 + 2 Z2 + ... + k Zk (1)

CLASIFICACIÓN DE LOS MODELOS DE REGRESIÓN

 Si k=1 en la expresión (2), entonces se tiene el modelo de regresión lineal

Si k>1 en la expresión (2), entonces se tiene el modelo de regresión lineal

En la expresión (1), cuando todas las Zi = Xi , se tiene el modelo de regresión:

0 + 1x1 + 2 x2 + ... + k xk (2)

Algunos ejemplos de modelos son:

SUPOSICIONES DEL ANÁLISIS DE REGRESIÓN LINEAL

 i es una variable aleatoria no observable, con E(i) =0 y Var(i)=2

Nota importante.- La suposición de que i es una variable aleatoria no

Los objetivos de la regresión son:

En esta sección se estudia el conjunto de procedimientos y sus aplicaciones para el

Nota Importante.- Las relaciones no son del tipo causa y efecto.

Algunos ejemplos de la relación entre variables son los siguientes:

¿Qué es un dato bivariado?

Un dato bivariado es un par de valores (par ordenado) de dos variables distintas

Un análisis inmediato a la regresión, es el denominado análisis de correlación. Por

El diagrama de dispersión es una gráfica en un sistema de ejes de todos los pares

Ejemplos: Las siguientes figuras son los posibles diagramas de dispersión de un

c. No hay relación lineal

REGRESION LINEAL SIMPLE

El modelo de regresión lineal simple es

Yi es la variable aleatoria respuesta con µY/x = E(0 + 1 xi) y Var(Yi) = 2.

MÉTODO DE MINIMOS CUADRADOS

Para realizar el proceso de estimación de los parámetros 0 y 1 se obtiene una

El método de mínimos cuadrados consiste en minimizar la suma de los cuadrados

pequeña como sea posible.

Derivando Q(0, 1) con respecto a 0 y 1 :

e igualando a cero, se obtienen los estimados b0 y b1 :

Por lo tanto, la línea de regresión estimada o ajustada esta dada por :

¿Qué representa b0?. b0 representa el valor de la variable respuesta Y cuando x=0.

¿Qué indica b1?. b1 es la razón de cambio en la variable respuesta Y cuando la

Nota importante: La variabilidad de Y en un valor particular de x está

Nótese que cada par de observaciones satisface la relación:

donde ei = yi - ŷi recibe el nombre de residual. El residual describe el error en

En resumen, para determinar la ecuación de regresión por el método de mínimos

a) Considerar los n pares de valores (x1, y1),...,(xn, yn).

b) Calcular las siguientes cantidades x

 y . Aplicar las fórmulas correspondientes de b y b .

c) Determinar la ecuación de regresión lineal simple: y = a + b x

Antes de continuar con la teoría del análisis de regresión lineal simple, a

PROPIEDADES DE LOS ESTIMADORES MÍNIMO

Los estimadores b0 y b1 obtenidos por el método de mínimos cuadrados tienen las

4. El S2e es un estimador insesgado de 2 .

5. b0 y b1 son óptimos o estimadores insesgados de mínima variancia.

Ejemplo: Un comerciante al por menor obtiene el registro, mediante

8 horas y se registraron las entradas incorrectas en la computadora. Los resultados

¿Cuál es la ecuación de ajuste?

El reporte de MINITAB es:

The regression equation is

Predictor Coef StDev T P

S = 3.290 R-Sq = 55.0% R-Sq(adj) = 49.4%

R denotes an observation with a large standardized residual

El siguiente gráfico representa la relación del valor observado de Y respecto a la

La siguiente figura es un ploteo de los residuales en la que se demuestra que el

Variable X 1 Gráfico de los residuales

Nota Importante.- Cuando se hagan predicciones respecto al valor de y en base a