Vous êtes sur la page 1sur 23

1

Anlisis de Regresin Lineal Simple


Caso: Pizzeras Armand, Cadena de restaurantes de comida italiana que abarca cinco estados. Los
lugares donde sus establecimientos han tenido ms xito estn cercanos a establecimientos de
educacin superior. Los administradores creen que las ventas en esos restaurantes (representada por
y), se relacionan en forma positiva con la poblacin estudiantil (representada por x). Esto es, que los
restaurantes cercanos a centros escolares con gran poblacin tienden a generar ms ventas que los
que estn cerca de centros con poblacin pequea. Aplicando el anlisis de regresin podremos
plantear una ecuacin que muestre cmo se relaciona la variable dependiente y con la variable
independiente x.
Modelo de regresin y ecuacin de regresin
En el ejemplo de Pezzeras Armand, cada restaurante est asociado con un valor de x (poblacin
estudiantil) y un valor correspondiente de y (ventas trimestrales). La ecuacin que describe cmo se
relaciona y con x y con un trmino de error se llama modelo de regresin.
Modelo de regresin lineal simple
(1)
En este modelo, y es una funcin lineal de x (la parte

) ms .

son los parmetros

del modelo, y (letra griega psilon) es una variable aleatoria. El trmino de error explica la
variabilidad en y que no se puede explicar con la relacin lineal entre x y y.
Ecuacin de regresin lineal simple
(2)
En la regresin lineal simple, la grfica de la ecuacin de regresin es una lnea recta;
ordenada al origen de esa recta,
determinado valor de x.

es su pendiente y

es la

es la media o valor esperado de y para

Ecuacin de regresin estimada


Si se conocieran los valores de los parmetros
podramos usar la ecuacin (2) para calcular el
valor medio de y para determinado valor de x. Desafortunadamente, los valores de los parmetros no
se conocen, en la prctica, y se deben estimar usando datos de la muestra. Se calculan estadsticos de
la muestra (denotados b0 y b1) como estimados de los parmetros
, respectivamente. Al
sustituir los valores de los parmetros
por los estadsticos b0 y b1 en la ecuacin de regresin,
obtenemos la ecuacin de regresin estimada, o simplemente ecuacin de regresin. En la
regresin lineal simple, la ecuacin de regresin se escribe en la siguiente forma:

2
En la regresin lineal simple, la grfica de la ecuacin de regresin se llama lnea de regresin
estimada; b0 es la ordenada al origen, b1 es la pendiente y
es el valor estimado de y para
determinado valor de x.

Mtodo de cuadrados mnimos


El mtodo de cuadrados mnimos es un procedimiento para encontrar la ecuacin de regresin
estimada usando datos de una muestra. Para ilustrarlo en el ejemplo de Pizzeras Armand, suponga
que se reunieron datos de una muestra de 10 restaurantes ubicados cerca de centros educativos. Para
la i-sima observacin o restaurante de la muestra, xi es el tamao de la poblacin estudiantil, en
miles, y yi son las ventas trimestrales (en miles de dlares). Los valores de xi y yi para los 10
restaurantes de la muestra se resumen en la siguiente tabla:
Restaurante
i
1
2
3
4
5
6
7
8
9
10

Poblacion de
estudiantes (miles) xi
2
6
8
8
12
16
20
20
22
26

Ventas trimestrales
(miles de dlares) yi
58
105
88
118
117
137
157
169
149
202

En la tabla, vemos que el restaurante 1, con x1 = 2 y y1 = 58 est cerca de un centro con 2000
estudiantes y sus ventas trimestrales son de 58 000 dlares. El restaurante 2, con x2 = 6 y y2 = 105
est cerca de un centro con 6 000 estudiantes y sus ventas trimestrales son de 105 000 dlares. El
valor mximo de ventas es para el restaurante 10, que est cerca de un centro con 26 000 estudiantes
y sus ventas trimestrales son de 202 000 dlares.
Diagrama de dispersin
El diagrama de dispersin permite observar grficamente los datos y hacer conclusiones preliminares
acerca de la relacin posible entre las variables. El tamao de la poblacin de estudiantes se
representa en el eje horizontal y el valor de las ventas trimestrales en el eje vertical. Los diagramas
de dispersin, para el anlisis de regresin, se forman con valores de la variable independiente x en
el eje horizontal, y los de la variable dependiente y en el eje vertical. La siguiente figura muestra el
diagrama de dispersin de los datos de Pizzeras Armand.
Qu conclusiones preliminares se pueden obtener de la figura? Parece que las ventas trimestrales
son mayores en los centros con ms poblacin de estudiantes. Adems, para esos datos, la relacin
entre el tamao de la poblacin de estudiantes y las ventas trimestrales al parecer se aproximan con
una lnea recta; de hecho, se indica una relacin lineal positiva entre x y y. En consecuencia,
elegimos el modelo de regresin lineal para representar la relacin entre las ventas trimestrales y la
poblacin de estudiantes. Dada esta opcin, nuestra siguiente tarea ser emplear los datos de la
muestra para determinar los valores de b0 y b1 en la ecuacin de regresin lineal simple.

3
Para el i-simo restaurante, la ecuacin de regresin estimada es:

Diagrama de dispersin de Pizzeras Armand


200
175

Ventas

150
125
100
75
50
0

10

15
Estudiantes

20

25

En el mtodo de los cuadrados mnimos se emplean los datos de la muestra para determinar los
valores de b0 y b1 que minimizan la suma de los cuadrados de las desviaciones entre los valores
observados de la variable dependiente, yi, y los valores estimados de la variable dependiente, . El
criterio del mtodo de los cuadrados mnimos se expresa en la ecuacin:

Pendiente e intercepcin y para la ecuacin de regresin estimada


o

La ecuacin de regresin estimada, deducida con el mtodo de los cuadrados mnimos es:

La pendiente de la ecuacin de regresin (b1 = 5) es positiva, lo cual implica que al aumentar la


poblacin de estudiantes, las ventas tambin aumentan. De hecho, podemos llegar a la conclusin (ya
que las ventas se miden en miles de dlares y la poblacin en miles de estudiantes) que un aumento
de 1 000 estudiantes en la poblacin est asociado con un aumento de 5 000 dlares en las ventas
esperadas; esto es, se espera que las ventas aumenten en 5.00 dlares por estudiante.

4
Si creemos que la ecuacin de regresin estimada con cuadrados mnimos describe en forma
adecuada la relacin entre x y y, parece razonable usarla para predecir el valor de y para determinado
valor de x. Por ejemplo, si quisiramos predecir las ventas en un restaurante ubicado cerca de un
centro con 16 000 estudiantes, el resultado sera,
En consecuencia, predeciramos ventas trimestrales de 140 000 dlares para este restaurante.
Coeficiente de determinacin
En

el

ejemplo de las Pizzeras Armand obtuvimos la ecuacin de regresin


para aproximar la relacin lineal entre el tamao de la poblacin de estudiantes, x, y las
ventas trimestrales, y. Ahora la pregunta es: qu tan bien se ajusta a los datos la ecuacin de
regresin? La relacin SSR/SST, (SSR = suma de cuadrados debida a la regresin; SST = suma de
cuadrados del total) que asume valores entre cero y uno, se usa para evaluar la bondad de ajuste para
la ecuacin de regresin. A esta relacin se le llama coeficiente de determinacin y se representa por
r2.
En el ejemplo de Pezzeras Armand, el valor del coeficiente de determinacin es:

Si lo expresamos como porcentaje, se puede interpretar a r2 como el porcentaje de la suma total de


cuadrados que se puede explicar aplicando la ecuacin de regresin. En el ejemplo de las pezzeras
podemos concluir que se puede explicar 90.27% de la suma de cuadrados del total con la ecuacin de
regresin
para predecir las ventas. En otras palabras, 90.27% de la variacin en las
ventas se puede explicar con la relacin lineal entre el tamao de la poblacin de estudiantes y las
ventas. Debemos estar satisfechos de ver tan buen ajuste entre la ecuacin de regresin y los datos.
Coeficiente de correlacin
El coeficiente de correlacin es una medida descriptiva de la intensidad de la asociacin lineal entre
dos variables, x y y. Los valores del coeficiente de correlacin siempre estn entre -1 y +1. Un valor
de +1 indica que las dos variables, x y y, tienen una relacin lineal positiva perfecta. Esto es, todos
los puntos de datos estn en una lnea recta con pendiente positiva. Un valor de -1 indica que x y y
tienen una relacin lineal negativa perfecta, y que todos los puntos de datos estn en una recta con
pendiente negativa. Los valores del coeficiente de correlacin cercanos a cero indican que x y y no
tienen relacin lineal. Si ya se ha hecho un anlisis de regresin y se ha calculado el coeficiente de
determinacin r2, el coeficiente de correlacin de la muestra se puede calcular como sigue:

El signo del coeficiente de correlacin es positivo si la ecuacin de regresin tiene pendiente positiva
(b1 >0) y negativo si la ecuacin de regresin tiene pendiente negativa (b1 < 0). Para nuestro ejemplo,
como la pendiente de la ecuacin de regresin es positiva, el coeficiente de correlacin es
. Concluimos que, con un coeficiente de correlacin de la muestra rxy
=+0.9501, hay una fuerte asociacin lineal positiva entre x y y.

5
Aunque el coeficiente de correlacin se restringe a una relacin lineal entre dos variables, el
coeficiente de determinacin se puede emplear en relaciones no lineales y en relaciones que tengan
dos o ms variables independientes. En este sentido, el coeficiente de determinacin tiene una
aplicabilidad ms amplia.
Supuestos del modelo
Al efectuar un anlisis de regresin se comienza haciendo una suposicin acerca del modelo
adecuado de la relacin entre las variables dependiente e independiente(s). Para el caso de la
regresin lineal simple, el modelo de regresin supuesto es:

A continuacin se aplica el mtodo de los cuadrados mnimos para determinar los valores de b0 y b1,
que son las estimaciones de
, los parmetros del modelo. La ecuacin estimada de regresin
que resulta es:

Ya vimos que el valor del coeficiente de determinacin (r2) es una medida de la bondad de ajuste de
esta ecuacin. Sin embargo, an con un valor grande de r2 no se debera usar la ecuacin de regresin
sin antes efectuar un anlisis de la adecuacin del modelo supuesto. Un paso importante en la
determinacin de si es adecuado el modelo supuesto implica determinar la significancia (o
importancia estadstica) de la relacin. Las pruebas de significancias en el anlisis de regresin se
basan en los siguientes supuestos acerca del trmino de error .
Supuestos acerca del trmino de error

1.- El trmino de error

en el modelo de regresin

es una variable aleatoria con media, o valor esperado, igual a cero; esto es,

Implicacin:
son constantes, por lo tanto,
valor de x, el valor esperado de y es

. As, para determinado

(Ecuacin de regresin)
2.- La varianza de , representada por
Implicacin: la varianza de y es igual a
3.- Los valores de

, es igual para todos los valores de x.


y es la misma para todos los valores de x.

son independientes.

Implicacin: el valor de para un determinado valor de x no se relaciona con el valor de para


cualquier otro valor de x; as, el valor de y para determinado valor de x no se relaciona con el valor
de y para cualquier otro valor de x.

6
4.- El trmino de error, , es una variable aleatoria con distribucin normal.
Implicacin: como y es una funcin lineal de , y tambin es una variable aleatoria distribuida
normalmente.
Pruebas de significancia
Para probar si hay alguna relacin importante de regresin debemos efectuar una prueba de hiptesis
para determinar si el valor de
es cero. Existen dos pruebas que se usan con ms frecuencia. En
ambas se requiere una estimacin de

, la varianza de

en el modelo de regresin.

Estimacin de
A partir del modelo de regresin y sus supuestos podemos concluir que , la varianza de , tambin
representa la varianza de los valores de y respecto a la lnea de regresin. Recordemos que las
desviaciones de los valores de y respecto a la lnea de regresin estimada se llaman residuales. As, la
suma de los residuales al cuadrado, SSE, es una medida de la variabilidad de las observaciones reales
respecto a la lnea de regresin. El error cuadrado medio (MSE, por sus siglas en ingls) es la
estimacin de ; es igual a la SSE dividida entre sus grados de libertad.
Si

, la SSE se puede escribir en la forma

Cada suma de cuadrados tiene asociado un nmero, que llamamos sus grados de libertad. Se ha
demostrado que la SSE tiene n -2 grados de libertad, porque se deben estimar dos parmetros,
, para calcular la SSE. As, el cuadrado medio se calcula dividiendo SSE entre n 2. El MSE
da un estimador insesgado de

. Debido a esto, tambin se usa la notacin s2 en vez de MSE.

Error cuadrado medio (estimacin de

Para el ejemplo de Pizzeras Armand, se tiene:

es una estimacin insesgada de


Para estimar
estimacin.

sacamos la raz cuadrada de s2. El valor que resulta, s, se llama error estndar de la

Error estndar de la estimacin

Para el ejemplo de las Pizzeras Armand,

Prueba t de significancia en la regresin lineal simple

Estadstico de prueba

Regla de rechazo
Con el estadstico de prueba: Rechace

o bien, si

Con el valor p: Rechace


donde

se basa en una distribucin t con n 2 grados de libertad.

Desviacin estndar estimada de b1

Para nuestro ejemplo, se tiene:

como desviacin estndar estimada de b1.


Haremos esta prueba de significancia para nuestro ejemplo a un nivel de significancia
estadstico de prueba es:

De acuerdo con la tabla, vemos que el valor bilateral de t que corresponde a


= 8 grados de libertad es

= 0.01. El

= 0.01 y n 2 =10 2

. Como 8.62 > 3.355, rechazamos H0 y llegamos a la

conclusin de que, con un nivel de significancia de 0.01,


no es igual a cero. La evidencia
estadstica es suficiente para concluir que tenemos una relacin importante entre la poblacin de
estudiantes y las ventas.

8
El criterio del valor p tambin se utiliza para probar una relacin significativa. Se aplica la regla de
rechazo comn: Rechace H0 si el valor p < .No obstante, debido a que es difcil determinar el valor
p a partir de las tablas de la distribucin de probabilidad t, se emplea un programa de computadora
como Minitab. Para nuestro ejemplo, el valor p asociado con el estadstico de prueba t = 8.62 es
0.000. Con un valor p = 0.000 < = 0.01, se rechaza H0 y se concluye que tenemos una relacin
significativa entre la poblacin de estudiantes y las ventas.
Intervalo de confianza para
La forma de un intervalo de confianza para

es como sigue:

El estimador puntual es b1 y el margen de error es


este intervalo es 1

. El coeficiente de confianza asociado con

es el valor de t que da un rea de

en el extremo superior de una

distribucin t con n 2 grados de libertad. Por ejemplo, suponga que queremos construir una
estimacin de intervalo de 99% de
para las Pizzeras Armand. En la tabla, encontramos que el
valor t que corresponde a

= 0.01 y n 2 = 10 2 = 8 grados de libertad es

tanto, la estimacin del intervalo de confianza de 99% de

. Por

es
o bien, 3.05 a 6.95

Al usar la prueba t de significancia, las hiptesis probadas fueron:

Con un nivel de significancia


= 0.01, podemos usar el intervalo de confianza de 99% como
alternativa para sacar la conclusin de la prueba de hiptesis para los datos de nuestro ejemplo.
Debido a que el cero, el valor supuesto de , no est incluido en el intervalo de confianza (3.05 a
6.95), se rechaza H0 y se concluye que existe una relacin significativa entre la poblacin y las
ventas.
Prueba F
Tambin se puede usar una prueba F, basada en la distribucin F de probabilidad, para probar si la
regresin es significativa. Como slo hay una variable independiente, la prueba F debe indicar la
misma conclusin que la prueba t; esto es, si la prueba t indica que
y que en consecuencia
hay una relacin significativa, la prueba F tambin indicar una relacin significativa. Pero cuando
hay ms de una variable independiente, slo se puede usar la prueba F para ver si hay una relacin
significativa general.
Prueba F de la significancia en la regresin lineal simple

Estadstico de prueba

Regla de rechazo
Con el estadstico de prueba: Rechace
Con el valor p: Rechace H0 si el valor de p <
donde
se basa en una distribucin F con un grado de libertad en el numerador y n 2 grados de
libertad en el denominador.
Hagamos la prueba F para nuestro ejemplo.

De la tabla, observamos que el valor F que corresponde a

= 0.01 con un grado de libertad en el

numerador y n 2 = 10 2 = 8 grados de libertad en el denominador es

. Como 74.25

> 11.26, rechazamos H0 y concluimos que, con un nivel de significancia de 0.01,


no es igual a
cero. La prueba F ha suministrado la evidencia estadstica necesaria para decir que tenemos una
relacin tangible entre la poblacin de estudiantes y las ventas.
El criterio del valor p tambin se emplea con la prueba F. Se aplica la regla de rechazo usual:
Rechace H0 si el valor p < . Sin embargo, puesto que resulta difcil determinar el valor p
directamente de las tablas de la distribucin F de probabilidad, se emplea un paquete de software de
computadora como Minitab. Para nuestro ejemplo, el valor p asociado con el estadstico de prueba F
= 74.25 es 0.000. Con un valor p = 0.000 < = 0.01, se rechaza H0 y se concluye que tenemos una
relacin significativa entre la poblacin de estudiantes y las ventas.

Forma general de la tabla de anlisis de varianza para regresin lineal simple


Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Regresin

SSR

Error

SSE
SST

n-2
n-1

Total

Cuadrado medios

Uso de la ecuacin de regresin para evaluar y predecir

10

El modelo de regresin lineal simple es un supuesto acerca de la relacin entre x y y. Al usar el


mtodo de los cuadrados mnimos obtuvimos la ecuacin de regresin lineal simple. Si los resultados
tienen una relacin estadsticamente significativa entre x y y, y si el ajuste que proporciona la
ecuacin de regresin parece bueno, esa ecuacin podra usarse para estimaciones y predicciones.
Estimacin puntual
En el ejemplo de Pizzeras Armand, la ecuacin estimada de regresin
es un estimado
de la relacin entre el tamao de la poblacin estudiantil, x, y las ventas trimestrales, y. Podemos
usarla para determinar una estimacin puntual del valor medio de y para determinado valor de x, o
para predecir un valor individual de y que corresponda a determinado valor de x. Por ejemplo,
suponga que los gerentes de Armand desean una estimacin puntual de las ventas trimestrales
promedio de todos los restaurantes cercanos a centros de estudio con 10 000 estudiantes. Al aplicar la
ecuacin de regresin, vemos que para x = 10 (o sea, 10 000),
As, una
estimacin puntual de las ventas muestrales promedio de todos los restaurantes cercanos a centros de
estudios con 10 000 estudiantes es de 110 000 dlares.
Ahora suponga que los gerentes de Armnand desean predecir las ventas de determinado restaurante
cercano al Centro Universitario Moderno, escuela con 10 000 alumnos. En este caso, no interesa el
valor medio de todos los restaurantes cercanos a escuelas con 10 000 alumnos; tan slo interesa
predecir las ventas trimestrales para ese restaurante. Sucede que la estimacin puntual para este caso
es igual a la estimacin para el valor medio de y. En consecuencia, tambin se predeciran ventas de
o sea, de 110 000 dlares para este restaurante.
Estimacin de intervalo
Las estimaciones puntuales no dan ninguna informacin de la precisin asociada con la estimacin.
Para este fin debemos determinar estimaciones de intervalo. El primer tipo de estimaciones de
intervalo es la estimacin de intervalo de confianza; es una estimacin de intervalo del valor medio
de y para determinado valor de x. El segundo tipo es la estimacin de intervalo de prediccin, que se
usa cuando deseamos una estimacin de intervalo de un valor individual de y que corresponde a
determinado valor de x. La estimacin puntual del valor medio de y es la misma que la
correspondiente a un valor individual de y. No obstante, son diferentes las estimaciones de intervalo
que obtenemos para estos dos casos.
Estimacin del intervalo de confianza del valor medio de y
La ecuacin de regresin determina una estimacin puntual del valor medio de y para determinado
valor de x. Al describir el procedimiento de estimacin del intervalo de confianza usaremos la
siguiente notacin:
= valor particular o dado de la variable independiente x
valor medio o esperado de la variable dependiente y que corresponde a la
= estimacin puntual de

cuando x =

dada

11
Al usar esta notacin para estimar las ventas promedio de todos los restaurantes de Armand cercanos
a centros escolares con 10 000 alumnos,

= 10 y

las ventas para todos los restaurantes en los que

representa el valor medio desconocido de


= 10. La estimacin de

es

= 60+5(10) =

110.
En general, no podemos esperar que

sea exactamente igual a

inferencia acerca de lo aproximado que est


estimar la varianza de

al valor medio verdadero

. La frmula para estimar la varianza de

La estimacin de la desviacin estndar de

Si queremos hacer una

dada

, tendremos que

, denotada por

es igual a la raz cuadrada,

Los resultados de los clculos para Pizzeras Armand fueron, entre otros, s = 13.829. Con
y

, es

= 10,

= 568,

= 4.95
Estimacin del intervalo de confianza de

donde el coeficiente de confianza es 1

se basa en una distribucin t con n -2 grados de

libertad.
Al usa esta ecuacin para determinar una estimacin del intervalo de confianza de 95% para las
ventas promedio de todos los restaurante de Armand cercanos a centros escolares con 10 000
estudiantes, necesitamos el valor de t para
= 0.025 n 2 = 10 2 = 8 grados de libertad. En la
tabla encontramos que

. As, con

y un margen de error de

2.306(4.95) = 11.415, la estimacin del intervalo de confianza de 95% es

En dlares, el intervalo de confianza de 98% para las ventas promedio de todos los restaurantes
cercanos a centros escolares con 10 000 estudiantes es $110 000
$11 415. En consecuencia, la

12
estimacin del intervalo de confianza para las ventas promedio cuando la poblacin de estudiantes es
10 000, va de 98 585 a 121 415 dlares.
Observe

que

la

desviacin

estndar

estimada

es mnima cuando
desviacin estndar estimada de

de

expresada

y la cantidad

por

la

ecuacin

. En este caso, la

se transforma en

Este resultado implica que podemos hacer la mejor estimacin, o la ms precisa, del valor medio de
y siempre que estemos usando el medio de la variable independiente; esto es, siempre que
De hecho, mientras ms alejado est

de

la diferencia

se hace ms grande. Como

resultado de esto, los intervalos de confianza para el valor medio de y se ensanchan a medida que
se aleja de .
Estimacin del intervalo de prediccin de un valor individual de y
Suponga que en lugar de estimar el valor medio de las ventas para todos los restaurantes de Armand,
ubicados cerca de centros con 10 000 alumnos, deseamos estimar las de un restaurante determinado
cercano al Centro Universitario Moderno, cuya poblacin es de 10 000 estudiantes. Como dijimos, la
estimacin puntual de un valor individual de y dado

lo tenemos en la ecuacin de regresin

Para el restaurante del Centro Universitario Moderno


correspondientes son

=10 y las ventas estimadas

, es decir, $110 000 . Observe que este valor es el

mismo que la estimacin puntual de las ventas promedio para todos los restaurantes cerca de centros
escolares con 10 000 estudiantes.
Para determinar una estimacin de intervalo de prediccin debemos determinar primero la varianza
asociada al empleo de

como estimacin de un valor individual de y cuando

. Esta varianza

est formada por la suma de los dos componentes siguientes:


1.- La varianza de los valores individuales de y respecto al promedio
2.- La varianza asociada con el uso de

para estimar

, cuyo estimado es s2.

, cuya estimacin es

La frmula para estimar la varianza de un valor individual de

, denotado por

.
, es

13

Por consiguiente, una estimacin de la desviacin estndar de un valor individual de

es

Para nuestro ejemplo, la desviacin estndar estimada que corresponde a la prediccin de ventas para
determinado restaurante cercano a un centro con 10 000 estudiantes se calcula como sigue:

Estimacin de intervalo de prediccin de yp

donde el intervalo de confianza es 1

se basa en una distribucin t con n 2 grados de

libertad.
El intervalo de prediccin de 95% para las ventas trimestrales del restaurante cercano al Centro
Universitario Moderno se puede determinar con
110 y un margen de error de

. Por tanto, con

= 2.306(14.69) = 33.875, la estimacin del intervalo de

prediccin de 95% es

En dlares, este intervalo de prediccin es $110 000


$33 875, o sea, desde $76 125 hasta $143
875. Observe que este intervalo, para un solo restaurante, es ms ancho que el intervalo de confianza
para las ventas promedio de todos los restaurantes cercanos a centros con 10 000 estudiantes (de 98
585 a 121 415 dlares). La diferencia refleja el hecho de que pudimos estimar el valor medio de y
con ms exactitud que con la que podemos predecir slo un valor particular o individual de y.
Ambas estimaciones, la de intervalo de confianza y la de intervalo de prediccin son ms precisas
cuando el valor de la variable independiente es

Solucin de problemas de regresin en computadora


Si no se cuenta con una computadora, hacer un anlisis de regresin puede ser muy laborioso.
Empleando un paquete de programas de cmputo, como Minitab, se obtiene los resultados
siguientes:
The regression equation is

Ecuacin de regresin
estimada

Ventas = 60.0 + 5.00 Poblacin


Predictor
Constant

Coef
60.000

SE Coef
9.226

T
6.50

P
0.000

14
Poblacin

5.0000

S = 13.8293

8.62

0.5803

R-Sq = 90.3%

0.000

R-Sq(adj) = 89.1%

Analysis of Variance
Source

DF

Regression

Residual Error
Total

8
9

MS
14200 14200
1530
191
SS

F
74.25

Tabla de anlisis de
varianza

0.000

15730

Predicted Values for New Observations


New
Obs

Fit

110.00

SE Fit

95% CI

95% PI

(98.58, 121.42)
(76.13, 143.87)
( Intervalo de confianza) (Intervalo de prediccin)

4.95

Estimaciones de
intervalo

Anlisis de residuales: validacin de los supuestos del modelo


Como ya se dijo, el residual en la observacin i es la diferencia entre el valor observado de la
variable dependiente (yi) y el valor estimado de esa variable ( )
Residual en la observacin i
yi En otras palabras, el i-simo residual es el error debido al uso de la ecuacin de regresin para
predecir el valor de yi. Los residuales en el ejemplo de Pizzeras Armand se calculan en la siguiente
tabla:
Poblacin de
estudiantes (miles)
xi
2
6
8
8
12
16
20
20
22
26

Ventas trimestrales
(miles) yi
58
105
88
118
117
137
157
169
149
202

Ventas estimadas

Residuales

70
90
100
100
120
140
160
160
170
190

-12
15
-12
18
-3
-3
-3
9
-21
12

Los residuales proporcionan la mejor informacin acerca de ; por consiguiente, un paso importante
para describir si las hiptesis acerca de son adecuadas, es realizar un anlisis de residuales. La
mayor parte de este anlisis se basa en el examen de diferentes grficas. Describiremos las siguientes
grficas de residuales:

15

1.- Una grfica de residuales en funcin de los valores de la variable independiente x.


2.- Una grfica de residuales en funcin de los valores predichos de la variable dependiente
3.- Una grfica de residuales estandarizados.

Grfica de residuales en funcin de x


Esta es una grfica de residuales en la que los valores de la variable independiente se representan en
el eje horizontal y los valores de los residuos correspondientes en el eje vertical. La grfica para
nuestro ejemplo, sera:
Grfica de residuales en funcin de x
20

Residuo

10

-10

-20
0

10

15
Poblacin

20

25

Concluimos que la grfica de residuales no muestra evidencia de que se debe dudar de los supuestos
sobre los que se bas el modelo de regresin para Pezzeras Armand. Hasta ahora confiamos en la
conclusin de que es vlido el modelo de regresin lineal simple. Esto se puede apreciar en la parte A
de las grficas obtenidas en otros estudios.
La experiencia y el buen juicio son factores que facilitan la interpretacin de las grficas de
residuales. Casi nunca una grfica de residuales se apega exactamente a uno de los patrones que
presentamos a continuacin. Sin embargo, los analistas dedicados a estudios de regresin, que
revisan con frecuencia grficas de residuales, tienen mucha destreza para captar las diferencias entre
comportamientos razonables y patrones que indican que es conveniente cuestionar los supuestos del
modelo.
Grficas de residuales obtenidas en tres estudios de regresin

R
e

16
s
i

* Patrn adecuado* *
** * *
*
d
* *

* *

A
*

u
o
x

*
*
*

*
0

*
*

Varianza no constante

*
*
*

*
*

*
*
*

**
*

*
*

Forma inadecuada del modelo

*
*

*
*

Grfica de residuales en funcin de


En esta grfica de residuales se representa el valor predicho de la variable dependiente
horizontal, y los valores de los residuales en el eje vertical.

en el eje

17

Grfica de residuales en funcin de los valores estimados


20

RESI1

10

-10

-20
60

80

100

120
140
Estimado

160

180

200

Observe que su aspecto es igual que el de la grfica de residuales en funcin de la variable


independiente, x. No se muestra un patrn que lleve a cuestionar los supuestos del modelo. Para la
regresin lineal simple, la grfica de residuales en funcin de x y la de los residuales en funcin de
dan el mismo patrn. Para el anlisis de regresin mltiple, la grfica de residuales en funcin de
se usa con ms frecuencia, porque se maneja ms de una variable independiente.
Residuos estandarizados
Muchas de las grficas de residuales que se obtienen con los programas de cmputo trabajan con una
versin estandarizada de los residuales. Con el mtodo de los cuadrados mnimos, el promedio de los
residuales es cero. As, tan slo con dividir cada residual entre su desviacin estndar se obtiene el
residual estandarizado.
Desviacin estndar del i-simo residual
(5)
siendo,
desviacin estndar del residual i
s = error estndar del estimado

Una vez calculada la desviacin estndar de cada residual, se puede calcular el residual
estandarizado dividindolo entre su desviacin estndar.
Residual estandarizado para la observacin i

18

La grfica de residuales normalizados puede suministrar una perspectiva acerca de la hiptesis de


que el trminos de error tiene distribucin normal. Si se satisface esa hiptesis, la distribucin de
los residuales estandarizados debera aparecer como si proviniera de una distribucin de probabilidad
normal estndar. (En vista de que se usa s en lugar de

, la

distribucin de probabilidad de los residuales estandarizados no es, tcnicamente, normal. Sin


embargo, en la mayora de los estudios de regresin, el tamao de la muestra es lo suficientemente
grande como para que sea una buena aproximacin normal). As, al trabajar en una grfica de
residuales estandarizados cabe esperar que, aproximadamente, 95% de los residuales estandarizados
estn entre -2 y +2.
A continuacin presentamos la grfica de residuales estandarizados en funcin de la variable
independiente x, para nuestro ejemplo.
Grfica de residuales estandarizados en funcin de la variable x
1.5
1.0

SRES1

0.5
0.0
-0.5
-1.0
-1.5
-2.0
0

10

15
Poblacin

20

25

Todos los residuales estandarizados estn entre -2 y +2. Por consiguiente, con base en los residuales
estandarizados, no tenemos motivos para dudar de la hiptesis de que tiene una distribucin
normal.
Debido a que se requieren bastantes clculos para determinar los valores estimados de , los
residuales y los residuales estandarizados, la mayora de los paquetes estadsticos calculan esos
valores como resultado opcional de la regresin. Por consiguiente, se pueden obtener con facilidad
las grficas de residuales. Para problemas grandes, esos paquetes de cmputo son la nica forma
prctica de trazar las grficas de residuales.
Anlisis de residuales: valores atpicos y observaciones influyentes
Describiremos cmo se puede aplicar el anlisis de residuales para identificar observaciones que se
pueden clasificar como valores atpicos, o que tengan una influencia especialmente grande para

19
determinar la ecuacin estimada de regresin. Describiremos algunas medidas que se deben tomar
cuando se hayan encontrado esas observaciones.
Deteccin de valores atpicos
Un valor atpico es un punto (observacin) que no se ajusta a la tendencia que muestran los datos
restantes. Los valores atpicos representan observaciones de alguna manera sospechosas, que
requieren un examen cuidadoso. Pueden representar datos errneos; en este caso, se deben corregir
los datos. Pueden evidenciar una violacin de los supuestos del modelo; en este caso se debe tener
en cuenta otro modelo. Por ltimo, simplemente pueden ser valores poco usuales que han sucedido
por casualidad. En este caso se deben conservar.
Para ilustrar el proceso de deteccin de valores atpicos revisaremos el conjunto de datos que se
presentan en la siguiente tabla:

Conjunto de datos
x
1
1
2
3
3
3
4
4
5
6

y
45
55
50
75
40
45
30
35
25
15

20

Conjunto de datos con un valor atpico


80
70
60

50
40
30
20
10
1

En el diagrama de dispersin, vemos que excepto por la observacin 4 (x4 = 3, y4 = 75), se aprecia
una tendencia que sugiere una relacin lineal negativa. En realidad, dada la tendencia del resto de los
datos, cabra esperar que y4 fuera mucho menor y, por consiguiente, esa observacin es un valor
atpico. Para el caso de la regresin lineal simple se pueden detectar los valores atpicos, con
frecuencia, tan slo examinando el diagrama de dispersin.
Tambin se pueden usar los residuales estandarizados para identificar los valores atpicos. Si una
observacin se desva mucho de la tendencia del resto de los datos, el residual estandarizado
correspondiente tendr valor absoluto grande. Muchos paquetes de cmputo identifican
observaciones cuyos residuales estandarizados tiene valor absoluto grande.
Regression Analysis: y versus x
The regression equation is
y = 65.0 - 7.33 x
Predictor
Constant
x

Coef

SE Coef

64.958
-7.331

9.258

7.02

0.000

2.608

-2.81

0.023

S = 12.6704

R-Sq = 49.7%

R-Sq(adj) = 43.4%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
1
8
9

Unusual Observations

SS
1268.2
1284.3
2552.5

MS
1268.2
160.5

F
7.90

P
0.023

21
Obs
4

3.00 75.00

Fit

SE Fit

42.97

St Resid
2.67R

Residual

4.04

32.03

R denotes an observation with a large standardized residual.

En estos resultado de Minitab para un anlisis de regresin de los datos de la tabla, vemos que en el
penltimo rengln de los resultados indica que el residual estandarizado para la observacin 4 es de
2.67. Minitab identifica como inusual cualquier observacin con un residual estandarizado menor
que -2 o mayor que +2; en estos casos la observacin se imprime en un rengln aparte con una R
junto al residual normalizado.
Para decidir qu hacer con un valor atpico debemos primero comprobar si es una observacin
vlida. Quiz se haya cometido un error al registrar los datos o al capturarlos en el archivo de
cmputo. Por ejemplo, suponga que al revisar los datos del valor atpico de la tabla dada,
encontramos que se ha cometido un error, y que el valor correcto de la observacin 4 es x4 = 3, y y4 =
30. Entonces, se tiene los siguientes resultados.
De los resultados de Minitab, obtenidos despus de corregir el valor de y4, vemos que el empleo de
datos incorrectos tuvo un efecto apreciable sobre la bondad del ajuste. Con los datos correctos, el
valor de r2 aument de 49.7 a 83.8%, y el valor de b0 disminuy de 64.958 a 59.237. La pendiente de
la recta de -7.331 a -6.949. La identificacin del valor atpico permiti corregir el error en los datos y
mejorar los resultados de la regresin.
The regression equation is
y = 59.2 - 6.95 x
Predictor
Constant
x
S = 5.24808

Coef

59.237
-6.949

SE Coef

3.835

15.45

0.000

1.080

-6.43

0.000

R-Sq = 83.8%

Analysis of Variance
Source
DF
SS
Regression
1
1139.7
Residual Error
8
220.3
Total
9
1360.0

R-Sq(adj) = 81.8%
MS
1139.7
27.5

F
41.38

P
0.000

Deteccin de observaciones influyentes


Algunas veces, una o ms observaciones tienen una gran influencia sobre los resultados obtenidos.
Las observaciones influyentes se pueden identificar en un diagrama de dispersin cuando slo hay
una variable independiente. Una observacin influyente tambin puede ser un valor atpico
(observacin con un valor de y que se desva mucho de la tendencia), puede corresponder a un valor
de x muy alejado de su promedio, o bien, puede ser causada por una combinacin de los dos casos
(un valor de y algo fuera de la tendencia y un valor de x algo extremo).
Como las observaciones influyentes tienen un efecto tan grande sobre la ecuacin de regresin, se
deben revisar con cuidado. Primero se comprueba que no se haya cometido un error al recopilar o
registrar los datos. Si se ha cometido un error se puede corregir y formarse una nueva ecuacin de
regresin. Si la observacin es vlida, consideramos que es una fortuna contar con ella. Ese punto, si
es vlido, puede contribuir a una mejor comprensin del modelo adecuado y conducir a una mejor
ecuacin de regresin. La presencia de la observacin influyente, en caso de ser vlida, sugerira
tratar de obtener datos con valores intermedios de x para comprender mejor la relacin entre x y y.

22
Las observaciones con valores extremos de la variable independiente se llaman puntos de
influencia. La influencia de una observacin se determina por lo alejado que se encuentra el valor de
la variable independiente respecto al valor promedio. Para el caso de una sola variable independiente,
la influencia de la i-sima observacin, representada por hi, se puede calcular con la ecuacin:

Segn la frmula, es claro que mientras ms alejada se encuentre xi de su promedio , mayor ser la
influencia de la observacin i.
Existen muchos programas de cmputo que identifican automticamente observaciones con alta
influencia como parte de los resultados comunes de la regresin. Como ejemplo de cmo identifica
puntos con alta influencia el paquete estadstico Minitab, veamos los datos de la siguiente tabla:
xi
10
10
15
20
20
25
70

yi
125
130
120
115
120
110
100

Diagrama de dispersin con una observacin con gran influencia


130
125

120
115
110
observacin con
gran influencia

105
100
10

20

30

40
x

50

60

70

En el diagrama de dispersin del conjunto de datos de la tabla, vemos claramente que la observacin
7 (x =70, y = 100) tiene un valor extremo de x. En consecuencia, esperamos que se identificado
como un punto de alta influencia. Para esta observacin, la influencia se calcula:

23
Para el caso de la regresin lineal simple, Minitab identifica observaciones de alta influencia si hi >
6/n; para el conjunto de datos de la tabla, 6/n = 6/7 = 0.86. Como h7 = 0.94 > 0.86, Minitab identifica
la observacin 7 como una observacin cuyo valor x tiene una gran influencia.
Resultados obtenidos con Minitab para el conjunto de datos con una observacin con
influencia:

gran

The regression equation is


y = 127 - 0.425 x
Predictor
Constant
x

Coef
127.466
-0.42507

S = 4.88282

SE Coef
2.961
0.09537

R-Sq = 79.9%

T
43.04
-4.46

P
0.000
0.007

R-Sq(adj) = 75.9%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
1
5
6

SS
473.65
119.21
592.86

MS
473.65
23.84

F
19.87

P
0.007

Unusual Observations
Obs

70.0

100.00

Fit

SE Fit

Residual

St Resid

97.71

4.73

2.29

1.91 X

X denotes an observation whose X value gives it large influence.


La observacin 7 (x = 70, y = 100) se identifica como con gran influencia; se imprime en un rengln
aparte al final, con una X en el margen derecho.
Las observaciones influyentes debidas a una interaccin de grandes residuales y gran influencia son
difciles de detectar. Se cuenta con procedimientos de diagnsticos que consideran ambas cosas para
determinar cundo una observacin es influyente. Una de estas medidas, llamado estadstico D de
Cook, lo veremos ms adelante cuando se vea la regresin mltiple.
(Estadstica para Administracin y Economa, Anderson/Sweeney/Williams, editorial
Thomson, Octavo edicin)

Vous aimerez peut-être aussi