Vous êtes sur la page 1sur 12

ANALISIS DE REGRESION LINEAL

La Regresin lineal se refiere a la prediccin del valor de una variable a partir de una o
ms variables. En ocasiones se denomina a la variable dependiente (y) variable de
respuesta y a la variable independiente (x) variable de prediccin.
En muchos problemas hay dos o ms variables inherentemente relacionadas, y es
necesario explorar la naturaleza de esta relacin. El anlisis de regresin puede
emplearse por ejemplo para construir un modelo que exprese el rendimiento como una
funcin de la temperatura. Este modelo puede utilizarse luego para predecir el
rendimiento en un nivel determinado de temperatura. Tambin puede emplearse con
propsitos de optimizacin o control del proceso.
Comenzaremos con el caso ms sencillo, la prediccin de una variable (y) a partir de otra
variable (x).
REGRESIN LINEAL SIMPLE
Para las situaciones siguientes establezca cual es la variable dependiente y cual es la
independiente.
a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a
partir de sus salarios mensuales.
Solucin: la variable dependiente o de respuesta, es el monto del seguro de vida
alcanzado por un maestro, y la variable independiente o variable de prediccin es el
salario anual del docente.
b) El gerente de un restaurante quiere estimar el nmero de clientes que puede esperar
cierta noche a partir del nmero de reservaciones para cenar recibidas hasta las 5:00
PM
Solucin: El nmero de clientes es la variable de respuesta, el nmero de
reservaciones es la variable independiente.
Supuestos para el modelo de regresin lineal
1. Para cada valor de x, la variable aleatoria

se distribuye normalmente.

2. Para cada valor de x, la media o valor esperado de


3. Para cada valor de x, la varianza de

es 0; esto es,

es la constante

E 0

(llamada varianza del error).

4. Los valores del trmino de error son independientes.


5. Para un valor fijo de x, la distribucin muestral de y es normal, porque sus valores

dependen de los de .
6. Para un valor fijo x, es posible predecir el valor de y.
7. Para un valor fijo x, es posible estimar el valor promedio de y

Ejemplo 1:
La revista Motor Trend presenta con frecuencia datos de rendimiento para automviles,
que compara el tamao del motor en pulgadas cbicas de desplazamiento (pcd) y las
millas por galn (mpg) estimadas para ocho modelos representativos de automviles
subcompactos modelo 1984.

tamao del motor (pcd) x


coches compactos
Chevrolet Cavalier
121
Datsun Nissan Stanza
120
Dodge Omni
97
Ford Escort
98
Mazda 626
122
Plymouth Horizon
97
Renault Alliance/Encore
85
Toyota Corolla
122

millas/galn (mpg), y
30
31
34
27
29
34
38
32

Graficando los datos de la tabla en el diagrama de dispersin podemos observar la


coleccin de los ocho pares de datos (x,y) como muestra de una poblacin de pares,
donde las medidas pulgadas cbicas de desplazamiento (pcd) x pueden tomar cualquier
valor en el rango de valores que se extiende de 85 a 122. Para cada pcd posible hay
muchos millajes asociados con ella. Por ejemplo para un tamao del motor de 97 hay un
gran nmero de millajes asociados, uno por cada coche cuyo tamao sea 97 pcd.
Asumamos que existe una relacin lineal para la poblacin de pares de datos de pcd y
mpg. (Se entiende por relacin lineal cuando la variable y tiene una tendencia a crecer o
decrecer, cuando la variable x aumenta).

Diagrama de dispersin
39
37
35
m 33
p 31
g 29
27
25
80

90

100

110

120

130

pcd
ddci
d

Usamos el modelo probabilstico siguiente para explicar el comportamiento de los millajes


para las ocho medidas de tamao de motor, este se llama modelo de regresin lineal, y
expresa la relacin lineal entre tamao de motor (x) y millas por galn (y).
Modelo de regresin lineal

y 0 1 x
Donde
y = variable dependiente

Ordenada al origen

= pendiente
x = variable independiente

= Error aleatorio

La expresin

0 1 x

se denomina componente determinstica del modelo de regresin

0 y 1

lineal. La muestra de pares de datos se usar para estimar los parmetros


de la
componente determinstica.
La diferencia principal entre un modelo pobabilstico y uno determinstico es la inclusin
de un trmino de error aleatorio en el modelo probabilstico. En el ejemplo los diferentes
rendimientos para un mismo tamao de motor se atribuyen al trmino de error en el
modelo de regresin.
Clculo de la ecuacin de regresin
Tambin es llamada ecuacin de prediccin de mnimos cuadrados. La ecuacin de
regresin estimada es:

y b0 b1 x.

Donde:

Valor predicho de

para un valor particular de x.

b0 =

Estimador puntual de

b1=

Estimador puntual de

1.

.(ordenada al origen)
(pendiente)

Para el clculo de b0 y b1 se utilizamos las siguientes frmulas:

SS x x
2

SS y y
2

SS xy xy

b1

SS xy
SS x

x y
n

b0 y b1 x
Donde:
SS = suma de cuadrados
b1 = pendiente
b0 = ordenada al origen
n = nmero de pares de datos
En la tabla incluimos las sumatorias que utilizaremos para el clculo de las frmulas.
coches compactos
tamao del motor (pcd) x
Chevrolet Cavalier
121
Datsun Nissan Stanza
120
Dodge Omni
97
Ford Escort
98
Mazda 626
122
Plymouth Horizon
97
Renault Alliance/Encore
85
Toyota Corolla
122
SUMAS
862
Media
107.75

millas/galn (mpg), y
30
31
34
27
29
34
38
32
255
31.875

x^2
14641
14400
9409
9604
14884
9409
7225
14884
94456

y^2
900
961
1156
729
841
1156
1444
1024
8211

xy
3630
3720
3298
2646
3538
3298
3230
3904
27264

Calculando b0 y b1 tenemos:
SSx = 1575.50
SSy = 82.88
SSxy = -212.25
b1 = -0.13472
b0 = 46.39099
La ecuacin de prediccin de mnimos cuadrados es:

y b0 b1 x.

=>

50

y 46.39099 0.37472 x

Grfica de la ecuacin de regresin


y =46.391 -0.1347x

40
30
20

10

Lineal (Y)

0
0

50

100

Variable X

150

Al usar el criterio de mnimos cuadrados para obtener la recta que mejor se ajuste a
nuestros datos, podemos obtener el valor mnimo para la suma de cuadrados del error
(SSE)

SSE SS y b1 SS xy

A la varianza de los errores e se le llama varianza residual siendo denotada por


encuentra dividiendo SSE entre n-2

S e2

s e2

, se

SSE
n2

La raz cuadrada positiva de la varianza residual se llama error estndar de estimacin y


se denota por Se.
Aplicando las frmulas en obtenemos la suma de cuadrados del error, la varianza
residual y el error estndar de la estimacin:

SSE = 82.88-(-0.13472)(-212.25) =54.2849

S e2

54.2849
9.0475
6

Se

3.007

ANLISIS DE REGRESIN MULTIPLE


En ocasiones la informacin de una variable independiente no es suficiente, por ejemplo
en el caso de los autos compactos adems de tener la variable del tamao del motor,
podramos tener otras variables, que nos permitan tener mayor informacin como por
ejemplo el peso del coche, el tipo de recorrido, el tamao de las llantas, estos factores
tambin influyen sobre la razn del consumo de gasolina.
Cuando se usa ms de una variable independiente para predecir los valores de una
variable dependiente, el proceso se llama anlisis de regresin mltiple, incluye el uso de
ecuaciones lineales y no lineales, en este estudio nos ocuparemos de las ecuaciones de
regresin lineales.
Ejemplo 6 Muchos programas de estudios premdicos usan los promedios de las
calificaciones del MCAT de los estudiantes egresados como un indicador de la calidad de
sus programas. Las variables que se sabe influencian esos promedios del MCAT(y) son:
la combinacin de las calificaciones del SAT en matemticas y en oratoria (x1) y el GPA
(x2) de los prospectos a mdicos. La tabla muestra las medidas de x1, x2 y y de seis
estudiantes que han cursado un programa de premedicina y que han presentado el MCAT

Calificacin
Calificacin proEstudiante
SAT (X1)
GPA (X2)
medio del MCAT (Y)
1
1200
3.8
12.4
2
1350
3.4
13.3
3
1000
2.9
Con esta informacin podemos encontrar una ecuacin9.2
lineal que nos permita predecir el
4
1250
3.3
10.6
promedio de calificaciones del MCAT para un estudiante si se conocen su GPA y su
5
1425
3.9
13.2
calificacin combinada
del
SAT.
6
1340
3.1
11.2

y b0 b1 x1 b2 x 2 .

La ecuacin lineal para los datos del ejemplo tiene la forma


Es
posible encontrar los valores de b 0, b1, y b2 usando el mtodo de mnimos cuadrados, al
igual que en el mtodo de regresin lineal simple. El mtodo en este caso requiere
resolver tres ecuaciones lineales con tres incgnitas, estas ecuaciones, conocidas como
ecuaciones normales, son:

y nb

b1 x1 b2 x 2

x y b x b x b x
1

2
1

2
2

y b0 x 2 b1 x1 x 2 b2

x
2
2

La siguiente tabla organiza los clculos para obtener las ecuaciones:


X1
1200
1350
1000
1250
1425
1340
7565

X2
3.8
3.4
2.9
3.3
3.9
3.1
20.4

Y
12.4
13.3
9.2
10.6
13.2
11.2
69.9

X1^2
1440000
1822500
1000000
1562500
2030625
1795600
9651225

X2^2
14.44
11.56
8.41
10.89
15.21
9.61
70.12

X1X2
4560
4590
2900
4125
5557.5
4154
25886.5

Las ecuaciones normales para este ejemplo son:

69.9 6b0 7,565b1 20.4b2


89,103 7565b0 9,651,225b1 25,886.5b2
240.2 20.4b0 25,886.5b1 70.12b2
Resolviendo el sistema de ecuaciones lineales obtenemos:
b0 = -2.537, b1=0.005425, b2 = 2.161.
La ecuacin de regresin es:

X1Y
14880
17955
9200
13250
18810
15008
89103

X2Y
47.12
45.22
26.68
34.98
51.48
34.72
240.2

y 2.537 0.005425 x1 2.161x 2


Suma de cuadrados
La suma total de cuadrados SST, se descompone en dos componentes: suma de
cuadrados para la regresin, y suma de cuadrados del error.
SST = SSR + SSE
La suma de cuadrados para la regresin es aquella parte de la suma total de cuadrados
que se atribuye a las variables independientes. Mientras que la suma de cuadrados del
error es aquella porcin de la suma de cuadrados total y que no se debe a las variables
independientes, por ello se llama suma de cuadrados del error.

SST y y 12.9950
2

SSE y y 2.2403
2

SSR SST SSE 10.7547


Grados de libertad para la regresin:

glT gl R gl E
glT n 1
gl R k
gl E n (k 1)
donde:
k = nmero de variables independientes
Clculo de cuadrados medios:

MSR

SSR 10.7547

5.3773
gl R
2

MSE

SSE 2.2403

0.7468
gl E
3

Donde:
MSR= Cuadrado medio de la regresin
MSE= Cuadrado medio del error.
Prueba de hiptesis

Para determinar si el modelo lineal describe adecuadamente los datos, se usa la prueba
F.
Para los datos del ejemplo las hiptesis son:

H 0 : 1 2 0
H1 : 1 0 o 2 0
El valor del estadstico F se encuentra dividiendo MSR entre MSE.

MSR 5.3773

7.20
MSE 0.7468

F (1, n 2) F0.05 1,4

Buscando el valor crtico para


=7.71.
Como 7.71 > 7.20 no podemos rechazar H0, lo cual nos indica que podra ser arriesgado
utilizar la ecuacin de regresin con propsitos predictivos.
Coeficiente de determinacin mltiple

R2

SSR
SST

Utilizando los datos del ejemplo:

R2

10.7547
0.8276 82.8%
12.995

Esto significa que aproximadamente el 83% de la variacin en el promedio de las


calificaciones se atribuye a la variacin de las variables independientes y solamente el
17% de la variacin de la variable dependiente no se atribuye a eso.

REGRESION POLINOMIAL
Algunos datos cientficos o de ingeniera, pueden presentar un patrn como este:

Que como puede intuirse, se representan pobremente mediante una lnea recta. En estos
casos, se ajusta mejor una curva a los datos. Para ello se recomienda regresin polinomial.
El procedimiento de mnimos cuadrados se puede extender fcilmente y ajustar datos a un
polinomio de grado m.
Y =ao +a1 x i+ a2 x 2i +a3 x 3i + +a m x mi
En este caso, la suma de los cuadrados es:
N

m 2

Sr = ( Y i ao a1 xi a2 xi a3 xi am xi
i=1

Que a la larga nos llevar al siguiente conjunto de ecuaciones:

Entonces, el problema de determinar polinomios de grado m con mnimos cuadrados es


equivalente a resolver un sistema de m+1 ecuaciones lineales simultneas.
As como en la regresin lineal, el error en la regresin polinomial se puede cuantificar
mediante el error estndar de aproximacin:
S y=
x

Sr
n( m+1 )

*Donde m es el grado del polinomio que queremos ajustar.


Adems del error estndar, se puede calcular tambin el coeficiente de determinacin, de la
misma manera que para el caso lineal:
r 2=

S t S r
St

Vous aimerez peut-être aussi