Académique Documents
Professionnel Documents
Culture Documents
) ms .
del modelo, y (letra griega psilon) es una variable aleatoria. El trmino de error explica la
variabilidad en y que no se puede explicar con la relacin lineal entre x y y.
Ecuacin de regresin lineal simple
(2)
En la regresin lineal simple, la grfica de la ecuacin de regresin es una lnea recta;
ordenada al origen de esa recta,
determinado valor de x.
es su pendiente y
es la
2
En la regresin lineal simple, la grfica de la ecuacin de regresin se llama lnea de regresin
estimada; b0 es la ordenada al origen, b1 es la pendiente y
es el valor estimado de y para
determinado valor de x.
Poblacion de
estudiantes (miles) xi
2
6
8
8
12
16
20
20
22
26
Ventas trimestrales
(miles de dlares) yi
58
105
88
118
117
137
157
169
149
202
En la tabla, vemos que el restaurante 1, con x1 = 2 y y1 = 58 est cerca de un centro con 2000
estudiantes y sus ventas trimestrales son de 58 000 dlares. El restaurante 2, con x2 = 6 y y2 = 105
est cerca de un centro con 6 000 estudiantes y sus ventas trimestrales son de 105 000 dlares. El
valor mximo de ventas es para el restaurante 10, que est cerca de un centro con 26 000 estudiantes
y sus ventas trimestrales son de 202 000 dlares.
Diagrama de dispersin
El diagrama de dispersin permite observar grficamente los datos y hacer conclusiones preliminares
acerca de la relacin posible entre las variables. El tamao de la poblacin de estudiantes se
representa en el eje horizontal y el valor de las ventas trimestrales en el eje vertical. Los diagramas
de dispersin, para el anlisis de regresin, se forman con valores de la variable independiente x en
el eje horizontal, y los de la variable dependiente y en el eje vertical. La siguiente figura muestra el
diagrama de dispersin de los datos de Pizzeras Armand.
Qu conclusiones preliminares se pueden obtener de la figura? Parece que las ventas trimestrales
son mayores en los centros con ms poblacin de estudiantes. Adems, para esos datos, la relacin
entre el tamao de la poblacin de estudiantes y las ventas trimestrales al parecer se aproximan con
una lnea recta; de hecho, se indica una relacin lineal positiva entre x y y. En consecuencia,
elegimos el modelo de regresin lineal para representar la relacin entre las ventas trimestrales y la
poblacin de estudiantes. Dada esta opcin, nuestra siguiente tarea ser emplear los datos de la
muestra para determinar los valores de b0 y b1 en la ecuacin de regresin lineal simple.
3
Para el i-simo restaurante, la ecuacin de regresin estimada es:
Ventas
150
125
100
75
50
0
10
15
Estudiantes
20
25
En el mtodo de los cuadrados mnimos se emplean los datos de la muestra para determinar los
valores de b0 y b1 que minimizan la suma de los cuadrados de las desviaciones entre los valores
observados de la variable dependiente, yi, y los valores estimados de la variable dependiente, . El
criterio del mtodo de los cuadrados mnimos se expresa en la ecuacin:
La ecuacin de regresin estimada, deducida con el mtodo de los cuadrados mnimos es:
4
Si creemos que la ecuacin de regresin estimada con cuadrados mnimos describe en forma
adecuada la relacin entre x y y, parece razonable usarla para predecir el valor de y para determinado
valor de x. Por ejemplo, si quisiramos predecir las ventas en un restaurante ubicado cerca de un
centro con 16 000 estudiantes, el resultado sera,
En consecuencia, predeciramos ventas trimestrales de 140 000 dlares para este restaurante.
Coeficiente de determinacin
En
el
El signo del coeficiente de correlacin es positivo si la ecuacin de regresin tiene pendiente positiva
(b1 >0) y negativo si la ecuacin de regresin tiene pendiente negativa (b1 < 0). Para nuestro ejemplo,
como la pendiente de la ecuacin de regresin es positiva, el coeficiente de correlacin es
. Concluimos que, con un coeficiente de correlacin de la muestra rxy
=+0.9501, hay una fuerte asociacin lineal positiva entre x y y.
5
Aunque el coeficiente de correlacin se restringe a una relacin lineal entre dos variables, el
coeficiente de determinacin se puede emplear en relaciones no lineales y en relaciones que tengan
dos o ms variables independientes. En este sentido, el coeficiente de determinacin tiene una
aplicabilidad ms amplia.
Supuestos del modelo
Al efectuar un anlisis de regresin se comienza haciendo una suposicin acerca del modelo
adecuado de la relacin entre las variables dependiente e independiente(s). Para el caso de la
regresin lineal simple, el modelo de regresin supuesto es:
A continuacin se aplica el mtodo de los cuadrados mnimos para determinar los valores de b0 y b1,
que son las estimaciones de
, los parmetros del modelo. La ecuacin estimada de regresin
que resulta es:
Ya vimos que el valor del coeficiente de determinacin (r2) es una medida de la bondad de ajuste de
esta ecuacin. Sin embargo, an con un valor grande de r2 no se debera usar la ecuacin de regresin
sin antes efectuar un anlisis de la adecuacin del modelo supuesto. Un paso importante en la
determinacin de si es adecuado el modelo supuesto implica determinar la significancia (o
importancia estadstica) de la relacin. Las pruebas de significancias en el anlisis de regresin se
basan en los siguientes supuestos acerca del trmino de error .
Supuestos acerca del trmino de error
en el modelo de regresin
es una variable aleatoria con media, o valor esperado, igual a cero; esto es,
Implicacin:
son constantes, por lo tanto,
valor de x, el valor esperado de y es
(Ecuacin de regresin)
2.- La varianza de , representada por
Implicacin: la varianza de y es igual a
3.- Los valores de
son independientes.
6
4.- El trmino de error, , es una variable aleatoria con distribucin normal.
Implicacin: como y es una funcin lineal de , y tambin es una variable aleatoria distribuida
normalmente.
Pruebas de significancia
Para probar si hay alguna relacin importante de regresin debemos efectuar una prueba de hiptesis
para determinar si el valor de
es cero. Existen dos pruebas que se usan con ms frecuencia. En
ambas se requiere una estimacin de
, la varianza de
en el modelo de regresin.
Estimacin de
A partir del modelo de regresin y sus supuestos podemos concluir que , la varianza de , tambin
representa la varianza de los valores de y respecto a la lnea de regresin. Recordemos que las
desviaciones de los valores de y respecto a la lnea de regresin estimada se llaman residuales. As, la
suma de los residuales al cuadrado, SSE, es una medida de la variabilidad de las observaciones reales
respecto a la lnea de regresin. El error cuadrado medio (MSE, por sus siglas en ingls) es la
estimacin de ; es igual a la SSE dividida entre sus grados de libertad.
Si
Cada suma de cuadrados tiene asociado un nmero, que llamamos sus grados de libertad. Se ha
demostrado que la SSE tiene n -2 grados de libertad, porque se deben estimar dos parmetros,
, para calcular la SSE. As, el cuadrado medio se calcula dividiendo SSE entre n 2. El MSE
da un estimador insesgado de
sacamos la raz cuadrada de s2. El valor que resulta, s, se llama error estndar de la
Estadstico de prueba
Regla de rechazo
Con el estadstico de prueba: Rechace
o bien, si
= 0.01. El
= 0.01 y n 2 =10 2
8
El criterio del valor p tambin se utiliza para probar una relacin significativa. Se aplica la regla de
rechazo comn: Rechace H0 si el valor p < .No obstante, debido a que es difcil determinar el valor
p a partir de las tablas de la distribucin de probabilidad t, se emplea un programa de computadora
como Minitab. Para nuestro ejemplo, el valor p asociado con el estadstico de prueba t = 8.62 es
0.000. Con un valor p = 0.000 < = 0.01, se rechaza H0 y se concluye que tenemos una relacin
significativa entre la poblacin de estudiantes y las ventas.
Intervalo de confianza para
La forma de un intervalo de confianza para
es como sigue:
distribucin t con n 2 grados de libertad. Por ejemplo, suponga que queremos construir una
estimacin de intervalo de 99% de
para las Pizzeras Armand. En la tabla, encontramos que el
valor t que corresponde a
. Por
es
o bien, 3.05 a 6.95
Estadstico de prueba
Regla de rechazo
Con el estadstico de prueba: Rechace
Con el valor p: Rechace H0 si el valor de p <
donde
se basa en una distribucin F con un grado de libertad en el numerador y n 2 grados de
libertad en el denominador.
Hagamos la prueba F para nuestro ejemplo.
. Como 74.25
Suma de
cuadrados
Grados de
libertad
Regresin
SSR
Error
SSE
SST
n-2
n-1
Total
Cuadrado medios
10
cuando x =
dada
11
Al usar esta notacin para estimar las ventas promedio de todos los restaurantes de Armand cercanos
a centros escolares con 10 000 alumnos,
= 10 y
es
= 60+5(10) =
110.
En general, no podemos esperar que
dada
, tendremos que
, denotada por
Los resultados de los clculos para Pizzeras Armand fueron, entre otros, s = 13.829. Con
y
, es
= 10,
= 568,
= 4.95
Estimacin del intervalo de confianza de
libertad.
Al usa esta ecuacin para determinar una estimacin del intervalo de confianza de 95% para las
ventas promedio de todos los restaurante de Armand cercanos a centros escolares con 10 000
estudiantes, necesitamos el valor de t para
= 0.025 n 2 = 10 2 = 8 grados de libertad. En la
tabla encontramos que
. As, con
y un margen de error de
En dlares, el intervalo de confianza de 98% para las ventas promedio de todos los restaurantes
cercanos a centros escolares con 10 000 estudiantes es $110 000
$11 415. En consecuencia, la
12
estimacin del intervalo de confianza para las ventas promedio cuando la poblacin de estudiantes es
10 000, va de 98 585 a 121 415 dlares.
Observe
que
la
desviacin
estndar
estimada
es mnima cuando
desviacin estndar estimada de
de
expresada
y la cantidad
por
la
ecuacin
. En este caso, la
se transforma en
Este resultado implica que podemos hacer la mejor estimacin, o la ms precisa, del valor medio de
y siempre que estemos usando el medio de la variable independiente; esto es, siempre que
De hecho, mientras ms alejado est
de
la diferencia
resultado de esto, los intervalos de confianza para el valor medio de y se ensanchan a medida que
se aleja de .
Estimacin del intervalo de prediccin de un valor individual de y
Suponga que en lugar de estimar el valor medio de las ventas para todos los restaurantes de Armand,
ubicados cerca de centros con 10 000 alumnos, deseamos estimar las de un restaurante determinado
cercano al Centro Universitario Moderno, cuya poblacin es de 10 000 estudiantes. Como dijimos, la
estimacin puntual de un valor individual de y dado
mismo que la estimacin puntual de las ventas promedio para todos los restaurantes cerca de centros
escolares con 10 000 estudiantes.
Para determinar una estimacin de intervalo de prediccin debemos determinar primero la varianza
asociada al empleo de
. Esta varianza
para estimar
, cuya estimacin es
, denotado por
.
, es
13
es
Para nuestro ejemplo, la desviacin estndar estimada que corresponde a la prediccin de ventas para
determinado restaurante cercano a un centro con 10 000 estudiantes se calcula como sigue:
libertad.
El intervalo de prediccin de 95% para las ventas trimestrales del restaurante cercano al Centro
Universitario Moderno se puede determinar con
110 y un margen de error de
prediccin de 95% es
Ecuacin de regresin
estimada
Coef
60.000
SE Coef
9.226
T
6.50
P
0.000
14
Poblacin
5.0000
S = 13.8293
8.62
0.5803
R-Sq = 90.3%
0.000
R-Sq(adj) = 89.1%
Analysis of Variance
Source
DF
Regression
Residual Error
Total
8
9
MS
14200 14200
1530
191
SS
F
74.25
Tabla de anlisis de
varianza
0.000
15730
Fit
110.00
SE Fit
95% CI
95% PI
(98.58, 121.42)
(76.13, 143.87)
( Intervalo de confianza) (Intervalo de prediccin)
4.95
Estimaciones de
intervalo
Ventas trimestrales
(miles) yi
58
105
88
118
117
137
157
169
149
202
Ventas estimadas
Residuales
70
90
100
100
120
140
160
160
170
190
-12
15
-12
18
-3
-3
-3
9
-21
12
Los residuales proporcionan la mejor informacin acerca de ; por consiguiente, un paso importante
para describir si las hiptesis acerca de son adecuadas, es realizar un anlisis de residuales. La
mayor parte de este anlisis se basa en el examen de diferentes grficas. Describiremos las siguientes
grficas de residuales:
15
Residuo
10
-10
-20
0
10
15
Poblacin
20
25
Concluimos que la grfica de residuales no muestra evidencia de que se debe dudar de los supuestos
sobre los que se bas el modelo de regresin para Pezzeras Armand. Hasta ahora confiamos en la
conclusin de que es vlido el modelo de regresin lineal simple. Esto se puede apreciar en la parte A
de las grficas obtenidas en otros estudios.
La experiencia y el buen juicio son factores que facilitan la interpretacin de las grficas de
residuales. Casi nunca una grfica de residuales se apega exactamente a uno de los patrones que
presentamos a continuacin. Sin embargo, los analistas dedicados a estudios de regresin, que
revisan con frecuencia grficas de residuales, tienen mucha destreza para captar las diferencias entre
comportamientos razonables y patrones que indican que es conveniente cuestionar los supuestos del
modelo.
Grficas de residuales obtenidas en tres estudios de regresin
R
e
16
s
i
* Patrn adecuado* *
** * *
*
d
* *
* *
A
*
u
o
x
*
*
*
*
0
*
*
Varianza no constante
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
en el eje
17
RESI1
10
-10
-20
60
80
100
120
140
Estimado
160
180
200
Una vez calculada la desviacin estndar de cada residual, se puede calcular el residual
estandarizado dividindolo entre su desviacin estndar.
Residual estandarizado para la observacin i
18
, la
SRES1
0.5
0.0
-0.5
-1.0
-1.5
-2.0
0
10
15
Poblacin
20
25
Todos los residuales estandarizados estn entre -2 y +2. Por consiguiente, con base en los residuales
estandarizados, no tenemos motivos para dudar de la hiptesis de que tiene una distribucin
normal.
Debido a que se requieren bastantes clculos para determinar los valores estimados de , los
residuales y los residuales estandarizados, la mayora de los paquetes estadsticos calculan esos
valores como resultado opcional de la regresin. Por consiguiente, se pueden obtener con facilidad
las grficas de residuales. Para problemas grandes, esos paquetes de cmputo son la nica forma
prctica de trazar las grficas de residuales.
Anlisis de residuales: valores atpicos y observaciones influyentes
Describiremos cmo se puede aplicar el anlisis de residuales para identificar observaciones que se
pueden clasificar como valores atpicos, o que tengan una influencia especialmente grande para
19
determinar la ecuacin estimada de regresin. Describiremos algunas medidas que se deben tomar
cuando se hayan encontrado esas observaciones.
Deteccin de valores atpicos
Un valor atpico es un punto (observacin) que no se ajusta a la tendencia que muestran los datos
restantes. Los valores atpicos representan observaciones de alguna manera sospechosas, que
requieren un examen cuidadoso. Pueden representar datos errneos; en este caso, se deben corregir
los datos. Pueden evidenciar una violacin de los supuestos del modelo; en este caso se debe tener
en cuenta otro modelo. Por ltimo, simplemente pueden ser valores poco usuales que han sucedido
por casualidad. En este caso se deben conservar.
Para ilustrar el proceso de deteccin de valores atpicos revisaremos el conjunto de datos que se
presentan en la siguiente tabla:
Conjunto de datos
x
1
1
2
3
3
3
4
4
5
6
y
45
55
50
75
40
45
30
35
25
15
20
50
40
30
20
10
1
En el diagrama de dispersin, vemos que excepto por la observacin 4 (x4 = 3, y4 = 75), se aprecia
una tendencia que sugiere una relacin lineal negativa. En realidad, dada la tendencia del resto de los
datos, cabra esperar que y4 fuera mucho menor y, por consiguiente, esa observacin es un valor
atpico. Para el caso de la regresin lineal simple se pueden detectar los valores atpicos, con
frecuencia, tan slo examinando el diagrama de dispersin.
Tambin se pueden usar los residuales estandarizados para identificar los valores atpicos. Si una
observacin se desva mucho de la tendencia del resto de los datos, el residual estandarizado
correspondiente tendr valor absoluto grande. Muchos paquetes de cmputo identifican
observaciones cuyos residuales estandarizados tiene valor absoluto grande.
Regression Analysis: y versus x
The regression equation is
y = 65.0 - 7.33 x
Predictor
Constant
x
Coef
SE Coef
64.958
-7.331
9.258
7.02
0.000
2.608
-2.81
0.023
S = 12.6704
R-Sq = 49.7%
R-Sq(adj) = 43.4%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
8
9
Unusual Observations
SS
1268.2
1284.3
2552.5
MS
1268.2
160.5
F
7.90
P
0.023
21
Obs
4
3.00 75.00
Fit
SE Fit
42.97
St Resid
2.67R
Residual
4.04
32.03
En estos resultado de Minitab para un anlisis de regresin de los datos de la tabla, vemos que en el
penltimo rengln de los resultados indica que el residual estandarizado para la observacin 4 es de
2.67. Minitab identifica como inusual cualquier observacin con un residual estandarizado menor
que -2 o mayor que +2; en estos casos la observacin se imprime en un rengln aparte con una R
junto al residual normalizado.
Para decidir qu hacer con un valor atpico debemos primero comprobar si es una observacin
vlida. Quiz se haya cometido un error al registrar los datos o al capturarlos en el archivo de
cmputo. Por ejemplo, suponga que al revisar los datos del valor atpico de la tabla dada,
encontramos que se ha cometido un error, y que el valor correcto de la observacin 4 es x4 = 3, y y4 =
30. Entonces, se tiene los siguientes resultados.
De los resultados de Minitab, obtenidos despus de corregir el valor de y4, vemos que el empleo de
datos incorrectos tuvo un efecto apreciable sobre la bondad del ajuste. Con los datos correctos, el
valor de r2 aument de 49.7 a 83.8%, y el valor de b0 disminuy de 64.958 a 59.237. La pendiente de
la recta de -7.331 a -6.949. La identificacin del valor atpico permiti corregir el error en los datos y
mejorar los resultados de la regresin.
The regression equation is
y = 59.2 - 6.95 x
Predictor
Constant
x
S = 5.24808
Coef
59.237
-6.949
SE Coef
3.835
15.45
0.000
1.080
-6.43
0.000
R-Sq = 83.8%
Analysis of Variance
Source
DF
SS
Regression
1
1139.7
Residual Error
8
220.3
Total
9
1360.0
R-Sq(adj) = 81.8%
MS
1139.7
27.5
F
41.38
P
0.000
22
Las observaciones con valores extremos de la variable independiente se llaman puntos de
influencia. La influencia de una observacin se determina por lo alejado que se encuentra el valor de
la variable independiente respecto al valor promedio. Para el caso de una sola variable independiente,
la influencia de la i-sima observacin, representada por hi, se puede calcular con la ecuacin:
Segn la frmula, es claro que mientras ms alejada se encuentre xi de su promedio , mayor ser la
influencia de la observacin i.
Existen muchos programas de cmputo que identifican automticamente observaciones con alta
influencia como parte de los resultados comunes de la regresin. Como ejemplo de cmo identifica
puntos con alta influencia el paquete estadstico Minitab, veamos los datos de la siguiente tabla:
xi
10
10
15
20
20
25
70
yi
125
130
120
115
120
110
100
120
115
110
observacin con
gran influencia
105
100
10
20
30
40
x
50
60
70
En el diagrama de dispersin del conjunto de datos de la tabla, vemos claramente que la observacin
7 (x =70, y = 100) tiene un valor extremo de x. En consecuencia, esperamos que se identificado
como un punto de alta influencia. Para esta observacin, la influencia se calcula:
23
Para el caso de la regresin lineal simple, Minitab identifica observaciones de alta influencia si hi >
6/n; para el conjunto de datos de la tabla, 6/n = 6/7 = 0.86. Como h7 = 0.94 > 0.86, Minitab identifica
la observacin 7 como una observacin cuyo valor x tiene una gran influencia.
Resultados obtenidos con Minitab para el conjunto de datos con una observacin con
influencia:
gran
Coef
127.466
-0.42507
S = 4.88282
SE Coef
2.961
0.09537
R-Sq = 79.9%
T
43.04
-4.46
P
0.000
0.007
R-Sq(adj) = 75.9%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
5
6
SS
473.65
119.21
592.86
MS
473.65
23.84
F
19.87
P
0.007
Unusual Observations
Obs
70.0
100.00
Fit
SE Fit
Residual
St Resid
97.71
4.73
2.29
1.91 X