Regresion-Correlacion 2010 1

1
Anlisis de Regresin Lineal Simple

Caso: Pizzeras Armand, Cadena de restaurantes de comida italiana que abarca cinco estados. Los
lugares donde sus establecimientos han tenido ms xito estn cercanos a establecimientos de
educacin superior. Los administradores creen que las ventas en esos restaurantes (representada por
y), se relacionan en forma positiva con la poblacin estudiantil (representada por x). Esto es, que los
restaurantes cercanos a centros escolares con gran poblacin tienden a generar ms ventas que los
que estn cerca de centros con poblacin pequea. Aplicando el anlisis de regresin podremos
plantear una ecuacin que muestre cmo se relaciona la variable dependiente y con la variable
independiente x.
Modelo de regresin y ecuacin de regresin
En el ejemplo de Pezzeras Armand, cada restaurante est asociado con un valor de x (poblacin
estudiantil) y un valor correspondiente de y (ventas trimestrales). La ecuacin que describe cmo se
relaciona y con x y con un trmino de error se llama modelo de regresin.
Modelo de regresin lineal simple
(1)
En este modelo, y es una funcin lineal de x (la parte
) ms .
son los parmetros
del modelo, y (letra griega psilon) es una variable aleatoria. El trmino de error explica la
variabilidad en y que no se puede explicar con la relacin lineal entre x y y.
Ecuacin de regresin lineal simple
(2)
En la regresin lineal simple, la grfica de la ecuacin de regresin es una lnea recta;
ordenada al origen de esa recta,
determinado valor de x.
es su pendiente y
es la
es la media o valor esperado de y para
Ecuacin de regresin estimada

Si se conocieran los valores de los parmetros
podramos usar la ecuacin (2) para calcular el
valor medio de y para determinado valor de x. Desafortunadamente, los valores de los parmetros no
se conocen, en la prctica, y se deben estimar usando datos de la muestra. Se calculan estadsticos de
la muestra (denotados b0 y b1) como estimados de los parmetros
, respectivamente. Al
sustituir los valores de los parmetros
por los estadsticos b0 y b1 en la ecuacin de regresin,
obtenemos la ecuacin de regresin estimada, o simplemente ecuacin de regresin. En la
regresin lineal simple, la ecuacin de regresin se escribe en la siguiente forma:
2
En la regresin lineal simple, la grfica de la ecuacin de regresin se llama lnea de regresin
estimada; b0 es la ordenada al origen, b1 es la pendiente y
es el valor estimado de y para
determinado valor de x.
Mtodo de cuadrados mnimos

El mtodo de cuadrados mnimos es un procedimiento para encontrar la ecuacin de regresin
estimada usando datos de una muestra. Para ilustrarlo en el ejemplo de Pizzeras Armand, suponga
que se reunieron datos de una muestra de 10 restaurantes ubicados cerca de centros educativos. Para
la i-sima observacin o restaurante de la muestra, xi es el tamao de la poblacin estudiantil, en
miles, y yi son las ventas trimestrales (en miles de dlares). Los valores de xi y yi para los 10
restaurantes de la muestra se resumen en la siguiente tabla:
Restaurante
i
1
2
3
4
5
6
7
8
9
10
Poblacion de
estudiantes (miles) xi
2
6
8
8
12
16
20
20
22
26
Ventas trimestrales
(miles de dlares) yi
58
105
88
118
117
137
157
169
149
202
En la tabla, vemos que el restaurante 1, con x1 = 2 y y1 = 58 est cerca de un centro con 2000
estudiantes y sus ventas trimestrales son de 58 000 dlares. El restaurante 2, con x2 = 6 y y2 = 105
est cerca de un centro con 6 000 estudiantes y sus ventas trimestrales son de 105 000 dlares. El
valor mximo de ventas es para el restaurante 10, que est cerca de un centro con 26 000 estudiantes
y sus ventas trimestrales son de 202 000 dlares.
Diagrama de dispersin
El diagrama de dispersin permite observar grficamente los datos y hacer conclusiones preliminares
acerca de la relacin posible entre las variables. El tamao de la poblacin de estudiantes se
representa en el eje horizontal y el valor de las ventas trimestrales en el eje vertical. Los diagramas
de dispersin, para el anlisis de regresin, se forman con valores de la variable independiente x en
el eje horizontal, y los de la variable dependiente y en el eje vertical. La siguiente figura muestra el
diagrama de dispersin de los datos de Pizzeras Armand.
Qu conclusiones preliminares se pueden obtener de la figura? Parece que las ventas trimestrales
son mayores en los centros con ms poblacin de estudiantes. Adems, para esos datos, la relacin
entre el tamao de la poblacin de estudiantes y las ventas trimestrales al parecer se aproximan con
una lnea recta; de hecho, se indica una relacin lineal positiva entre x y y. En consecuencia,
elegimos el modelo de regresin lineal para representar la relacin entre las ventas trimestrales y la
poblacin de estudiantes. Dada esta opcin, nuestra siguiente tarea ser emplear los datos de la
muestra para determinar los valores de b0 y b1 en la ecuacin de regresin lineal simple.
3
Para el i-simo restaurante, la ecuacin de regresin estimada es:
Diagrama de dispersin de Pizzeras Armand

200
175
Ventas
150
125
100
75
50
0
10
15
Estudiantes
20
25
En el mtodo de los cuadrados mnimos se emplean los datos de la muestra para determinar los
valores de b0 y b1 que minimizan la suma de los cuadrados de las desviaciones entre los valores
observados de la variable dependiente, yi, y los valores estimados de la variable dependiente, . El
criterio del mtodo de los cuadrados mnimos se expresa en la ecuacin:
Pendiente e intercepcin y para la ecuacin de regresin estimada

o
La ecuacin de regresin estimada, deducida con el mtodo de los cuadrados mnimos es:
La pendiente de la ecuacin de regresin (b1 = 5) es positiva, lo cual implica que al aumentar la

poblacin de estudiantes, las ventas tambin aumentan. De hecho, podemos llegar a la conclusin (ya
que las ventas se miden en miles de dlares y la poblacin en miles de estudiantes) que un aumento
de 1 000 estudiantes en la poblacin est asociado con un aumento de 5 000 dlares en las ventas
esperadas; esto es, se espera que las ventas aumenten en 5.00 dlares por estudiante.
4
Si creemos que la ecuacin de regresin estimada con cuadrados mnimos describe en forma
adecuada la relacin entre x y y, parece razonable usarla para predecir el valor de y para determinado
valor de x. Por ejemplo, si quisiramos predecir las ventas en un restaurante ubicado cerca de un
centro con 16 000 estudiantes, el resultado sera,
En consecuencia, predeciramos ventas trimestrales de 140 000 dlares para este restaurante.
Coeficiente de determinacin
En
el
ejemplo de las Pizzeras Armand obtuvimos la ecuacin de regresin

para aproximar la relacin lineal entre el tamao de la poblacin de estudiantes, x, y las
ventas trimestrales, y. Ahora la pregunta es: qu tan bien se ajusta a los datos la ecuacin de
regresin? La relacin SSR/SST, (SSR = suma de cuadrados debida a la regresin; SST = suma de
cuadrados del total) que asume valores entre cero y uno, se usa para evaluar la bondad de ajuste para
la ecuacin de regresin. A esta relacin se le llama coeficiente de determinacin y se representa por
r2.
En el ejemplo de Pezzeras Armand, el valor del coeficiente de determinacin es:
Si lo expresamos como porcentaje, se puede interpretar a r2 como el porcentaje de la suma total de

cuadrados que se puede explicar aplicando la ecuacin de regresin. En el ejemplo de las pezzeras
podemos concluir que se puede explicar 90.27% de la suma de cuadrados del total con la ecuacin de
regresin
para predecir las ventas. En otras palabras, 90.27% de la variacin en las
ventas se puede explicar con la relacin lineal entre el tamao de la poblacin de estudiantes y las
ventas. Debemos estar satisfechos de ver tan buen ajuste entre la ecuacin de regresin y los datos.
Coeficiente de correlacin
El coeficiente de correlacin es una medida descriptiva de la intensidad de la asociacin lineal entre
dos variables, x y y. Los valores del coeficiente de correlacin siempre estn entre -1 y +1. Un valor
de +1 indica que las dos variables, x y y, tienen una relacin lineal positiva perfecta. Esto es, todos
los puntos de datos estn en una lnea recta con pendiente positiva. Un valor de -1 indica que x y y
tienen una relacin lineal negativa perfecta, y que todos los puntos de datos estn en una recta con
pendiente negativa. Los valores del coeficiente de correlacin cercanos a cero indican que x y y no
tienen relacin lineal. Si ya se ha hecho un anlisis de regresin y se ha calculado el coeficiente de
determinacin r2, el coeficiente de correlacin de la muestra se puede calcular como sigue:
El signo del coeficiente de correlacin es positivo si la ecuacin de regresin tiene pendiente positiva
(b1 >0) y negativo si la ecuacin de regresin tiene pendiente negativa (b1 < 0). Para nuestro ejemplo,
como la pendiente de la ecuacin de regresin es positiva, el coeficiente de correlacin es
. Concluimos que, con un coeficiente de correlacin de la muestra rxy
=+0.9501, hay una fuerte asociacin lineal positiva entre x y y.
5
Aunque el coeficiente de correlacin se restringe a una relacin lineal entre dos variables, el
coeficiente de determinacin se puede emplear en relaciones no lineales y en relaciones que tengan
dos o ms variables independientes. En este sentido, el coeficiente de determinacin tiene una
aplicabilidad ms amplia.
Supuestos del modelo
Al efectuar un anlisis de regresin se comienza haciendo una suposicin acerca del modelo
adecuado de la relacin entre las variables dependiente e independiente(s). Para el caso de la
regresin lineal simple, el modelo de regresin supuesto es:
A continuacin se aplica el mtodo de los cuadrados mnimos para determinar los valores de b0 y b1,
que son las estimaciones de
, los parmetros del modelo. La ecuacin estimada de regresin
que resulta es:
Ya vimos que el valor del coeficiente de determinacin (r2) es una medida de la bondad de ajuste de
esta ecuacin. Sin embargo, an con un valor grande de r2 no se debera usar la ecuacin de regresin
sin antes efectuar un anlisis de la adecuacin del modelo supuesto. Un paso importante en la
determinacin de si es adecuado el modelo supuesto implica determinar la significancia (o
importancia estadstica) de la relacin. Las pruebas de significancias en el anlisis de regresin se
basan en los siguientes supuestos acerca del trmino de error .
Supuestos acerca del trmino de error
1.- El trmino de error
en el modelo de regresin
es una variable aleatoria con media, o valor esperado, igual a cero; esto es,
Implicacin:
son constantes, por lo tanto,
valor de x, el valor esperado de y es
. As, para determinado
(Ecuacin de regresin)
2.- La varianza de , representada por
Implicacin: la varianza de y es igual a
3.- Los valores de
, es igual para todos los valores de x.

y es la misma para todos los valores de x.
son independientes.
Implicacin: el valor de para un determinado valor de x no se relaciona con el valor de para

cualquier otro valor de x; as, el valor de y para determinado valor de x no se relaciona con el valor
de y para cualquier otro valor de x.
6
4.- El trmino de error, , es una variable aleatoria con distribucin normal.
Implicacin: como y es una funcin lineal de , y tambin es una variable aleatoria distribuida
normalmente.
Pruebas de significancia
Para probar si hay alguna relacin importante de regresin debemos efectuar una prueba de hiptesis
para determinar si el valor de
es cero. Existen dos pruebas que se usan con ms frecuencia. En
ambas se requiere una estimacin de
, la varianza de
en el modelo de regresin.
Estimacin de
A partir del modelo de regresin y sus supuestos podemos concluir que , la varianza de , tambin
representa la varianza de los valores de y respecto a la lnea de regresin. Recordemos que las
desviaciones de los valores de y respecto a la lnea de regresin estimada se llaman residuales. As, la
suma de los residuales al cuadrado, SSE, es una medida de la variabilidad de las observaciones reales
respecto a la lnea de regresin. El error cuadrado medio (MSE, por sus siglas en ingls) es la
estimacin de ; es igual a la SSE dividida entre sus grados de libertad.
Si
, la SSE se puede escribir en la forma
Cada suma de cuadrados tiene asociado un nmero, que llamamos sus grados de libertad. Se ha
demostrado que la SSE tiene n -2 grados de libertad, porque se deben estimar dos parmetros,
, para calcular la SSE. As, el cuadrado medio se calcula dividiendo SSE entre n 2. El MSE
da un estimador insesgado de
. Debido a esto, tambin se usa la notacin s2 en vez de MSE.
Error cuadrado medio (estimacin de
Para el ejemplo de Pizzeras Armand, se tiene:
es una estimacin insesgada de

Para estimar
estimacin.
sacamos la raz cuadrada de s2. El valor que resulta, s, se llama error estndar de la
Error estndar de la estimacin
Para el ejemplo de las Pizzeras Armand,
Prueba t de significancia en la regresin lineal simple
Estadstico de prueba
Regla de rechazo
Con el estadstico de prueba: Rechace
o bien, si
Con el valor p: Rechace

donde
se basa en una distribucin t con n 2 grados de libertad.
Desviacin estndar estimada de b1
Para nuestro ejemplo, se tiene:
como desviacin estndar estimada de b1.

Haremos esta prueba de significancia para nuestro ejemplo a un nivel de significancia
estadstico de prueba es:
De acuerdo con la tabla, vemos que el valor bilateral de t que corresponde a

= 8 grados de libertad es
= 0.01. El
= 0.01 y n 2 =10 2
. Como 8.62 > 3.355, rechazamos H0 y llegamos a la
conclusin de que, con un nivel de significancia de 0.01,

no es igual a cero. La evidencia
estadstica es suficiente para concluir que tenemos una relacin importante entre la poblacin de
estudiantes y las ventas.
8
El criterio del valor p tambin se utiliza para probar una relacin significativa. Se aplica la regla de
rechazo comn: Rechace H0 si el valor p < .No obstante, debido a que es difcil determinar el valor
p a partir de las tablas de la distribucin de probabilidad t, se emplea un programa de computadora
como Minitab. Para nuestro ejemplo, el valor p asociado con el estadstico de prueba t = 8.62 es
0.000. Con un valor p = 0.000 < = 0.01, se rechaza H0 y se concluye que tenemos una relacin
significativa entre la poblacin de estudiantes y las ventas.
Intervalo de confianza para
La forma de un intervalo de confianza para
es como sigue:
El estimador puntual es b1 y el margen de error es

este intervalo es 1
. El coeficiente de confianza asociado con
es el valor de t que da un rea de
en el extremo superior de una
distribucin t con n 2 grados de libertad. Por ejemplo, suponga que queremos construir una
estimacin de intervalo de 99% de
para las Pizzeras Armand. En la tabla, encontramos que el
valor t que corresponde a
= 0.01 y n 2 = 10 2 = 8 grados de libertad es
tanto, la estimacin del intervalo de confianza de 99% de
. Por
es
o bien, 3.05 a 6.95
Al usar la prueba t de significancia, las hiptesis probadas fueron:
Con un nivel de significancia

= 0.01, podemos usar el intervalo de confianza de 99% como
alternativa para sacar la conclusin de la prueba de hiptesis para los datos de nuestro ejemplo.
Debido a que el cero, el valor supuesto de , no est incluido en el intervalo de confianza (3.05 a
6.95), se rechaza H0 y se concluye que existe una relacin significativa entre la poblacin y las
ventas.
Prueba F
Tambin se puede usar una prueba F, basada en la distribucin F de probabilidad, para probar si la
regresin es significativa. Como slo hay una variable independiente, la prueba F debe indicar la
misma conclusin que la prueba t; esto es, si la prueba t indica que
y que en consecuencia
hay una relacin significativa, la prueba F tambin indicar una relacin significativa. Pero cuando
hay ms de una variable independiente, slo se puede usar la prueba F para ver si hay una relacin
significativa general.
Prueba F de la significancia en la regresin lineal simple
Estadstico de prueba
Regla de rechazo
Con el estadstico de prueba: Rechace
Con el valor p: Rechace H0 si el valor de p <
donde
se basa en una distribucin F con un grado de libertad en el numerador y n 2 grados de
libertad en el denominador.
Hagamos la prueba F para nuestro ejemplo.
De la tabla, observamos que el valor F que corresponde a
= 0.01 con un grado de libertad en el
numerador y n 2 = 10 2 = 8 grados de libertad en el denominador es
. Como 74.25
> 11.26, rechazamos H0 y concluimos que, con un nivel de significancia de 0.01,

no es igual a
cero. La prueba F ha suministrado la evidencia estadstica necesaria para decir que tenemos una
relacin tangible entre la poblacin de estudiantes y las ventas.
El criterio del valor p tambin se emplea con la prueba F. Se aplica la regla de rechazo usual:
Rechace H0 si el valor p < . Sin embargo, puesto que resulta difcil determinar el valor p
directamente de las tablas de la distribucin F de probabilidad, se emplea un paquete de software de
computadora como Minitab. Para nuestro ejemplo, el valor p asociado con el estadstico de prueba F
= 74.25 es 0.000. Con un valor p = 0.000 < = 0.01, se rechaza H0 y se concluye que tenemos una
relacin significativa entre la poblacin de estudiantes y las ventas.
Forma general de la tabla de anlisis de varianza para regresin lineal simple

Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Regresin
SSR
Error
SSE
SST
n-2
n-1
Total
Cuadrado medios
Uso de la ecuacin de regresin para evaluar y predecir
10
El modelo de regresin lineal simple es un supuesto acerca de la relacin entre x y y. Al usar el

mtodo de los cuadrados mnimos obtuvimos la ecuacin de regresin lineal simple. Si los resultados
tienen una relacin estadsticamente significativa entre x y y, y si el ajuste que proporciona la
ecuacin de regresin parece bueno, esa ecuacin podra usarse para estimaciones y predicciones.
Estimacin puntual
En el ejemplo de Pizzeras Armand, la ecuacin estimada de regresin
es un estimado
de la relacin entre el tamao de la poblacin estudiantil, x, y las ventas trimestrales, y. Podemos
usarla para determinar una estimacin puntual del valor medio de y para determinado valor de x, o
para predecir un valor individual de y que corresponda a determinado valor de x. Por ejemplo,
suponga que los gerentes de Armand desean una estimacin puntual de las ventas trimestrales
promedio de todos los restaurantes cercanos a centros de estudio con 10 000 estudiantes. Al aplicar la
ecuacin de regresin, vemos que para x = 10 (o sea, 10 000),
As, una
estimacin puntual de las ventas muestrales promedio de todos los restaurantes cercanos a centros de
estudios con 10 000 estudiantes es de 110 000 dlares.
Ahora suponga que los gerentes de Armnand desean predecir las ventas de determinado restaurante
cercano al Centro Universitario Moderno, escuela con 10 000 alumnos. En este caso, no interesa el
valor medio de todos los restaurantes cercanos a escuelas con 10 000 alumnos; tan slo interesa
predecir las ventas trimestrales para ese restaurante. Sucede que la estimacin puntual para este caso
es igual a la estimacin para el valor medio de y. En consecuencia, tambin se predeciran ventas de
o sea, de 110 000 dlares para este restaurante.
Estimacin de intervalo
Las estimaciones puntuales no dan ninguna informacin de la precisin asociada con la estimacin.
Para este fin debemos determinar estimaciones de intervalo. El primer tipo de estimaciones de
intervalo es la estimacin de intervalo de confianza; es una estimacin de intervalo del valor medio
de y para determinado valor de x. El segundo tipo es la estimacin de intervalo de prediccin, que se
usa cuando deseamos una estimacin de intervalo de un valor individual de y que corresponde a
determinado valor de x. La estimacin puntual del valor medio de y es la misma que la
correspondiente a un valor individual de y. No obstante, son diferentes las estimaciones de intervalo
que obtenemos para estos dos casos.
Estimacin del intervalo de confianza del valor medio de y
La ecuacin de regresin determina una estimacin puntual del valor medio de y para determinado
valor de x. Al describir el procedimiento de estimacin del intervalo de confianza usaremos la
siguiente notacin:
= valor particular o dado de la variable independiente x
valor medio o esperado de la variable dependiente y que corresponde a la
= estimacin puntual de
cuando x =
dada
11
Al usar esta notacin para estimar las ventas promedio de todos los restaurantes de Armand cercanos
a centros escolares con 10 000 alumnos,
= 10 y
las ventas para todos los restaurantes en los que
representa el valor medio desconocido de

= 10. La estimacin de
es
= 60+5(10) =
110.
En general, no podemos esperar que
sea exactamente igual a
inferencia acerca de lo aproximado que est

estimar la varianza de
al valor medio verdadero
. La frmula para estimar la varianza de
La estimacin de la desviacin estndar de
Si queremos hacer una
dada
, tendremos que
, denotada por
es igual a la raz cuadrada,
Los resultados de los clculos para Pizzeras Armand fueron, entre otros, s = 13.829. Con
y
, es
= 10,
= 568,
= 4.95
Estimacin del intervalo de confianza de
donde el coeficiente de confianza es 1
se basa en una distribucin t con n -2 grados de
libertad.
Al usa esta ecuacin para determinar una estimacin del intervalo de confianza de 95% para las
ventas promedio de todos los restaurante de Armand cercanos a centros escolares con 10 000
estudiantes, necesitamos el valor de t para
= 0.025 n 2 = 10 2 = 8 grados de libertad. En la
tabla encontramos que
. As, con
y un margen de error de
2.306(4.95) = 11.415, la estimacin del intervalo de confianza de 95% es
En dlares, el intervalo de confianza de 98% para las ventas promedio de todos los restaurantes
cercanos a centros escolares con 10 000 estudiantes es $110 000
$11 415. En consecuencia, la
12
estimacin del intervalo de confianza para las ventas promedio cuando la poblacin de estudiantes es
10 000, va de 98 585 a 121 415 dlares.
Observe
que
la
desviacin
estndar
estimada
es mnima cuando
desviacin estndar estimada de
de
expresada
y la cantidad
por
la
ecuacin
. En este caso, la
se transforma en
Este resultado implica que podemos hacer la mejor estimacin, o la ms precisa, del valor medio de
y siempre que estemos usando el medio de la variable independiente; esto es, siempre que
De hecho, mientras ms alejado est
de
la diferencia
se hace ms grande. Como
resultado de esto, los intervalos de confianza para el valor medio de y se ensanchan a medida que
se aleja de .
Estimacin del intervalo de prediccin de un valor individual de y
Suponga que en lugar de estimar el valor medio de las ventas para todos los restaurantes de Armand,
ubicados cerca de centros con 10 000 alumnos, deseamos estimar las de un restaurante determinado
cercano al Centro Universitario Moderno, cuya poblacin es de 10 000 estudiantes. Como dijimos, la
estimacin puntual de un valor individual de y dado
lo tenemos en la ecuacin de regresin
Para el restaurante del Centro Universitario Moderno

correspondientes son
=10 y las ventas estimadas
, es decir, $110 000 . Observe que este valor es el
mismo que la estimacin puntual de las ventas promedio para todos los restaurantes cerca de centros
escolares con 10 000 estudiantes.
Para determinar una estimacin de intervalo de prediccin debemos determinar primero la varianza
asociada al empleo de
como estimacin de un valor individual de y cuando
. Esta varianza
est formada por la suma de los dos componentes siguientes:

1.- La varianza de los valores individuales de y respecto al promedio
2.- La varianza asociada con el uso de
para estimar
, cuyo estimado es s2.
, cuya estimacin es
La frmula para estimar la varianza de un valor individual de
, denotado por
.
, es
13
Por consiguiente, una estimacin de la desviacin estndar de un valor individual de
es
Para nuestro ejemplo, la desviacin estndar estimada que corresponde a la prediccin de ventas para
determinado restaurante cercano a un centro con 10 000 estudiantes se calcula como sigue:
Estimacin de intervalo de prediccin de yp
donde el intervalo de confianza es 1
se basa en una distribucin t con n 2 grados de
libertad.
El intervalo de prediccin de 95% para las ventas trimestrales del restaurante cercano al Centro
Universitario Moderno se puede determinar con
110 y un margen de error de
. Por tanto, con
= 2.306(14.69) = 33.875, la estimacin del intervalo de
prediccin de 95% es
En dlares, este intervalo de prediccin es $110 000

$33 875, o sea, desde $76 125 hasta $143
875. Observe que este intervalo, para un solo restaurante, es ms ancho que el intervalo de confianza
para las ventas promedio de todos los restaurantes cercanos a centros con 10 000 estudiantes (de 98
585 a 121 415 dlares). La diferencia refleja el hecho de que pudimos estimar el valor medio de y
con ms exactitud que con la que podemos predecir slo un valor particular o individual de y.
Ambas estimaciones, la de intervalo de confianza y la de intervalo de prediccin son ms precisas
cuando el valor de la variable independiente es
Solucin de problemas de regresin en computadora

Si no se cuenta con una computadora, hacer un anlisis de regresin puede ser muy laborioso.
Empleando un paquete de programas de cmputo, como Minitab, se obtiene los resultados
siguientes:
The regression equation is
Ecuacin de regresin
estimada
Ventas = 60.0 + 5.00 Poblacin

Predictor
Constant
Coef
60.000
SE Coef
9.226
T
6.50
P
0.000
14
Poblacin
5.0000
S = 13.8293
8.62
0.5803
R-Sq = 90.3%
0.000
R-Sq(adj) = 89.1%
Analysis of Variance
Source
DF
Regression
Residual Error
Total
8
9
MS
14200 14200
1530
191
SS
F
74.25
Tabla de anlisis de
varianza
0.000
15730
Predicted Values for New Observations

New
Obs
Fit
110.00
SE Fit
95% CI
95% PI
(98.58, 121.42)
(76.13, 143.87)
( Intervalo de confianza) (Intervalo de prediccin)
4.95
Estimaciones de
intervalo
Anlisis de residuales: validacin de los supuestos del modelo

Como ya se dijo, el residual en la observacin i es la diferencia entre el valor observado de la
variable dependiente (yi) y el valor estimado de esa variable ( )
Residual en la observacin i
yi En otras palabras, el i-simo residual es el error debido al uso de la ecuacin de regresin para
predecir el valor de yi. Los residuales en el ejemplo de Pizzeras Armand se calculan en la siguiente
tabla:
Poblacin de
estudiantes (miles)
xi
2
6
8
8
12
16
20
20
22
26
Ventas trimestrales
(miles) yi
58
105
88
118
117
137
157
169
149
202
Ventas estimadas
Residuales
70
90
100
100
120
140
160
160
170
190
-12
15
-12
18
-3
-3
-3
9
-21
12
Los residuales proporcionan la mejor informacin acerca de ; por consiguiente, un paso importante
para describir si las hiptesis acerca de son adecuadas, es realizar un anlisis de residuales. La
mayor parte de este anlisis se basa en el examen de diferentes grficas. Describiremos las siguientes
grficas de residuales:
15
1.- Una grfica de residuales en funcin de los valores de la variable independiente x.

2.- Una grfica de residuales en funcin de los valores predichos de la variable dependiente
3.- Una grfica de residuales estandarizados.
Grfica de residuales en funcin de x

Esta es una grfica de residuales en la que los valores de la variable independiente se representan en
el eje horizontal y los valores de los residuos correspondientes en el eje vertical. La grfica para
nuestro ejemplo, sera:
Grfica de residuales en funcin de x
20
Residuo
10
-10
-20
0
10
15
Poblacin
20
25
Concluimos que la grfica de residuales no muestra evidencia de que se debe dudar de los supuestos
sobre los que se bas el modelo de regresin para Pezzeras Armand. Hasta ahora confiamos en la
conclusin de que es vlido el modelo de regresin lineal simple. Esto se puede apreciar en la parte A
de las grficas obtenidas en otros estudios.
La experiencia y el buen juicio son factores que facilitan la interpretacin de las grficas de
residuales. Casi nunca una grfica de residuales se apega exactamente a uno de los patrones que
presentamos a continuacin. Sin embargo, los analistas dedicados a estudios de regresin, que
revisan con frecuencia grficas de residuales, tienen mucha destreza para captar las diferencias entre
comportamientos razonables y patrones que indican que es conveniente cuestionar los supuestos del
modelo.
Grficas de residuales obtenidas en tres estudios de regresin
R
e
16
s
i
* Patrn adecuado* *
** * *
*
d
* *
* *
A
*
u
o
x
*
*
*
*
0
*
*
Varianza no constante
*
*
*
*
*
*
*
*
**
*
*
*
Forma inadecuada del modelo
*
*
*
*
Grfica de residuales en funcin de

En esta grfica de residuales se representa el valor predicho de la variable dependiente
horizontal, y los valores de los residuales en el eje vertical.
en el eje
17
Grfica de residuales en funcin de los valores estimados

20
RESI1
10
-10
-20
60
80
100
120
140
Estimado
160
180
200
Observe que su aspecto es igual que el de la grfica de residuales en funcin de la variable

independiente, x. No se muestra un patrn que lleve a cuestionar los supuestos del modelo. Para la
regresin lineal simple, la grfica de residuales en funcin de x y la de los residuales en funcin de
dan el mismo patrn. Para el anlisis de regresin mltiple, la grfica de residuales en funcin de
se usa con ms frecuencia, porque se maneja ms de una variable independiente.
Residuos estandarizados
Muchas de las grficas de residuales que se obtienen con los programas de cmputo trabajan con una
versin estandarizada de los residuales. Con el mtodo de los cuadrados mnimos, el promedio de los
residuales es cero. As, tan slo con dividir cada residual entre su desviacin estndar se obtiene el
residual estandarizado.
Desviacin estndar del i-simo residual
(5)
siendo,
desviacin estndar del residual i
s = error estndar del estimado
Una vez calculada la desviacin estndar de cada residual, se puede calcular el residual
estandarizado dividindolo entre su desviacin estndar.
Residual estandarizado para la observacin i
18
La grfica de residuales normalizados puede suministrar una perspectiva acerca de la hiptesis de

que el trminos de error tiene distribucin normal. Si se satisface esa hiptesis, la distribucin de
los residuales estandarizados debera aparecer como si proviniera de una distribucin de probabilidad
normal estndar. (En vista de que se usa s en lugar de
, la
distribucin de probabilidad de los residuales estandarizados no es, tcnicamente, normal. Sin

embargo, en la mayora de los estudios de regresin, el tamao de la muestra es lo suficientemente
grande como para que sea una buena aproximacin normal). As, al trabajar en una grfica de
residuales estandarizados cabe esperar que, aproximadamente, 95% de los residuales estandarizados
estn entre -2 y +2.
A continuacin presentamos la grfica de residuales estandarizados en funcin de la variable
independiente x, para nuestro ejemplo.
Grfica de residuales estandarizados en funcin de la variable x
1.5
1.0
SRES1
0.5
0.0
-0.5
-1.0
-1.5
-2.0
0
10
15
Poblacin
20
25
Todos los residuales estandarizados estn entre -2 y +2. Por consiguiente, con base en los residuales
estandarizados, no tenemos motivos para dudar de la hiptesis de que tiene una distribucin
normal.
Debido a que se requieren bastantes clculos para determinar los valores estimados de , los
residuales y los residuales estandarizados, la mayora de los paquetes estadsticos calculan esos
valores como resultado opcional de la regresin. Por consiguiente, se pueden obtener con facilidad
las grficas de residuales. Para problemas grandes, esos paquetes de cmputo son la nica forma
prctica de trazar las grficas de residuales.
Anlisis de residuales: valores atpicos y observaciones influyentes
Describiremos cmo se puede aplicar el anlisis de residuales para identificar observaciones que se
pueden clasificar como valores atpicos, o que tengan una influencia especialmente grande para
19
determinar la ecuacin estimada de regresin. Describiremos algunas medidas que se deben tomar
cuando se hayan encontrado esas observaciones.
Deteccin de valores atpicos
Un valor atpico es un punto (observacin) que no se ajusta a la tendencia que muestran los datos
restantes. Los valores atpicos representan observaciones de alguna manera sospechosas, que
requieren un examen cuidadoso. Pueden representar datos errneos; en este caso, se deben corregir
los datos. Pueden evidenciar una violacin de los supuestos del modelo; en este caso se debe tener
en cuenta otro modelo. Por ltimo, simplemente pueden ser valores poco usuales que han sucedido
por casualidad. En este caso se deben conservar.
Para ilustrar el proceso de deteccin de valores atpicos revisaremos el conjunto de datos que se
presentan en la siguiente tabla:
Conjunto de datos
x
1
1
2
3
3
3
4
4
5
6
y
45
55
50
75
40
45
30
35
25
15
20
Conjunto de datos con un valor atpico

80
70
60
50
40
30
20
10
1
En el diagrama de dispersin, vemos que excepto por la observacin 4 (x4 = 3, y4 = 75), se aprecia
una tendencia que sugiere una relacin lineal negativa. En realidad, dada la tendencia del resto de los
datos, cabra esperar que y4 fuera mucho menor y, por consiguiente, esa observacin es un valor
atpico. Para el caso de la regresin lineal simple se pueden detectar los valores atpicos, con
frecuencia, tan slo examinando el diagrama de dispersin.
Tambin se pueden usar los residuales estandarizados para identificar los valores atpicos. Si una
observacin se desva mucho de la tendencia del resto de los datos, el residual estandarizado
correspondiente tendr valor absoluto grande. Muchos paquetes de cmputo identifican
observaciones cuyos residuales estandarizados tiene valor absoluto grande.
Regression Analysis: y versus x
y = 65.0 - 7.33 x
Predictor
Constant
x
Coef
SE Coef
64.958
-7.331
9.258
7.02
0.000
2.608
-2.81
0.023
S = 12.6704
R-Sq = 49.7%
R-Sq(adj) = 43.4%
Source
Regression
Residual Error
Total
DF
1
8
9
Unusual Observations
SS
1268.2
1284.3
2552.5
MS
1268.2
160.5
F
7.90
P
0.023
21
Obs
4
3.00 75.00
Fit
SE Fit
42.97
St Resid
2.67R
Residual
4.04
32.03
R denotes an observation with a large standardized residual.
En estos resultado de Minitab para un anlisis de regresin de los datos de la tabla, vemos que en el
penltimo rengln de los resultados indica que el residual estandarizado para la observacin 4 es de
2.67. Minitab identifica como inusual cualquier observacin con un residual estandarizado menor
que -2 o mayor que +2; en estos casos la observacin se imprime en un rengln aparte con una R
junto al residual normalizado.
Para decidir qu hacer con un valor atpico debemos primero comprobar si es una observacin
vlida. Quiz se haya cometido un error al registrar los datos o al capturarlos en el archivo de
cmputo. Por ejemplo, suponga que al revisar los datos del valor atpico de la tabla dada,
encontramos que se ha cometido un error, y que el valor correcto de la observacin 4 es x4 = 3, y y4 =
30. Entonces, se tiene los siguientes resultados.
De los resultados de Minitab, obtenidos despus de corregir el valor de y4, vemos que el empleo de
datos incorrectos tuvo un efecto apreciable sobre la bondad del ajuste. Con los datos correctos, el
valor de r2 aument de 49.7 a 83.8%, y el valor de b0 disminuy de 64.958 a 59.237. La pendiente de
la recta de -7.331 a -6.949. La identificacin del valor atpico permiti corregir el error en los datos y
mejorar los resultados de la regresin.
y = 59.2 - 6.95 x
Predictor
Constant
x
S = 5.24808
Coef
59.237
-6.949
SE Coef
3.835
15.45
0.000
1.080
-6.43
0.000
R-Sq = 83.8%
Source
DF
SS
Regression
1
1139.7
Residual Error
8
220.3
Total
9
1360.0
R-Sq(adj) = 81.8%
MS
1139.7
27.5
F
41.38
P
0.000
Deteccin de observaciones influyentes

Algunas veces, una o ms observaciones tienen una gran influencia sobre los resultados obtenidos.
Las observaciones influyentes se pueden identificar en un diagrama de dispersin cuando slo hay
una variable independiente. Una observacin influyente tambin puede ser un valor atpico
(observacin con un valor de y que se desva mucho de la tendencia), puede corresponder a un valor
de x muy alejado de su promedio, o bien, puede ser causada por una combinacin de los dos casos
(un valor de y algo fuera de la tendencia y un valor de x algo extremo).
Como las observaciones influyentes tienen un efecto tan grande sobre la ecuacin de regresin, se
deben revisar con cuidado. Primero se comprueba que no se haya cometido un error al recopilar o
registrar los datos. Si se ha cometido un error se puede corregir y formarse una nueva ecuacin de
regresin. Si la observacin es vlida, consideramos que es una fortuna contar con ella. Ese punto, si
es vlido, puede contribuir a una mejor comprensin del modelo adecuado y conducir a una mejor
ecuacin de regresin. La presencia de la observacin influyente, en caso de ser vlida, sugerira
tratar de obtener datos con valores intermedios de x para comprender mejor la relacin entre x y y.
22
Las observaciones con valores extremos de la variable independiente se llaman puntos de
influencia. La influencia de una observacin se determina por lo alejado que se encuentra el valor de
la variable independiente respecto al valor promedio. Para el caso de una sola variable independiente,
la influencia de la i-sima observacin, representada por hi, se puede calcular con la ecuacin:
Segn la frmula, es claro que mientras ms alejada se encuentre xi de su promedio , mayor ser la
influencia de la observacin i.
Existen muchos programas de cmputo que identifican automticamente observaciones con alta
influencia como parte de los resultados comunes de la regresin. Como ejemplo de cmo identifica
puntos con alta influencia el paquete estadstico Minitab, veamos los datos de la siguiente tabla:
xi
10
10
15
20
20
25
70
yi
125
130
120
115
120
110
100
Diagrama de dispersin con una observacin con gran influencia

130
125
120
115
110
observacin con
gran influencia
105
100
10
20
30
40
x
50
60
70
En el diagrama de dispersin del conjunto de datos de la tabla, vemos claramente que la observacin
7 (x =70, y = 100) tiene un valor extremo de x. En consecuencia, esperamos que se identificado
como un punto de alta influencia. Para esta observacin, la influencia se calcula:
23
Para el caso de la regresin lineal simple, Minitab identifica observaciones de alta influencia si hi >
6/n; para el conjunto de datos de la tabla, 6/n = 6/7 = 0.86. Como h7 = 0.94 > 0.86, Minitab identifica
la observacin 7 como una observacin cuyo valor x tiene una gran influencia.
Resultados obtenidos con Minitab para el conjunto de datos con una observacin con
influencia:
gran

y = 127 - 0.425 x
Predictor
Constant
x
Coef
127.466
-0.42507
S = 4.88282
SE Coef
2.961
0.09537
R-Sq = 79.9%
T
43.04
-4.46
P
0.000
0.007
R-Sq(adj) = 75.9%
Source
Regression
Residual Error
Total
DF
1
5
6
SS
473.65
119.21
592.86
MS
473.65
23.84
F
19.87
P
0.007
Unusual Observations
Obs
70.0
100.00
Fit
SE Fit
Residual
St Resid
97.71
4.73
2.29
1.91 X
X denotes an observation whose X value gives it large influence.

La observacin 7 (x = 70, y = 100) se identifica como con gran influencia; se imprime en un rengln
aparte al final, con una X en el margen derecho.
Las observaciones influyentes debidas a una interaccin de grandes residuales y gran influencia son
difciles de detectar. Se cuenta con procedimientos de diagnsticos que consideran ambas cosas para
determinar cundo una observacin es influyente. Una de estas medidas, llamado estadstico D de
Cook, lo veremos ms adelante cuando se vea la regresin mltiple.
(Estadstica para Administracin y Economa, Anderson/Sweeney/Williams, editorial
Thomson, Octavo edicin)

Regresion-Correlacion 2010 1

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regresion-Correlacion 2010 1

Transféré par

Droits d'auteur :

Formats disponibles

1

Anlisis de Regresin Lineal Simple

son los parmetros

es la media o valor esperado de y para

Ecuacin de regresin estimada

Mtodo de cuadrados mnimos

Diagrama de dispersin de Pizzeras Armand

Pendiente e intercepcin y para la ecuacin de regresin estimada

La pendiente de la ecuacin de regresin (b1 = 5) es positiva, lo cual implica que al aumentar la

ejemplo de las Pizzeras Armand obtuvimos la ecuacin de regresin

Si lo expresamos como porcentaje, se puede interpretar a r2 como el porcentaje de la suma total de

1.- El trmino de error

. As, para determinado

, es igual para todos los valores de x.

Implicacin: el valor de para un determinado valor de x no se relaciona con el valor de para

, la SSE se puede escribir en la forma

. Debido a esto, tambin se usa la notacin s2 en vez de MSE.

Error cuadrado medio (estimacin de

Para el ejemplo de Pizzeras Armand, se tiene:

es una estimacin insesgada de

Error estndar de la estimacin

Para el ejemplo de las Pizzeras Armand,

Prueba t de significancia en la regresin lineal simple

Con el valor p: Rechace

se basa en una distribucin t con n 2 grados de libertad.

Desviacin estndar estimada de b1

Para nuestro ejemplo, se tiene:

como desviacin estndar estimada de b1.

De acuerdo con la tabla, vemos que el valor bilateral de t que corresponde a

. Como 8.62 > 3.355, rechazamos H0 y llegamos a la

conclusin de que, con un nivel de significancia de 0.01,

El estimador puntual es b1 y el margen de error es

. El coeficiente de confianza asociado con

es el valor de t que da un rea de

en el extremo superior de una

= 0.01 y n 2 = 10 2 = 8 grados de libertad es

tanto, la estimacin del intervalo de confianza de 99% de

Al usar la prueba t de significancia, las hiptesis probadas fueron:

Con un nivel de significancia

De la tabla, observamos que el valor F que corresponde a

= 0.01 con un grado de libertad en el

numerador y n 2 = 10 2 = 8 grados de libertad en el denominador es

> 11.26, rechazamos H0 y concluimos que, con un nivel de significancia de 0.01,

Forma general de la tabla de anlisis de varianza para regresin lineal simple

Uso de la ecuacin de regresin para evaluar y predecir

El modelo de regresin lineal simple es un supuesto acerca de la relacin entre x y y. Al usar el

las ventas para todos los restaurantes en los que

representa el valor medio desconocido de

sea exactamente igual a

inferencia acerca de lo aproximado que est

al valor medio verdadero

. La frmula para estimar la varianza de

La estimacin de la desviacin estndar de

Si queremos hacer una

es igual a la raz cuadrada,

donde el coeficiente de confianza es 1

se basa en una distribucin t con n -2 grados de

2.306(4.95) = 11.415, la estimacin del intervalo de confianza de 95% es

se hace ms grande. Como

lo tenemos en la ecuacin de regresin

Para el restaurante del Centro Universitario Moderno

=10 y las ventas estimadas

, es decir, $110 000 . Observe que este valor es el

como estimacin de un valor individual de y cuando