Regresion

Anlisis de Regresin a o
Apuntes
Introduccin o
La estad stica es una herramienta matemtica para analizar datos. En para ticular, el anlisis de regresin trata de encontrar tendencias de datos y nos a o ayuda a hacer predicciones. Por ejemplo, nos podr interesar investigar a si el consume de cigarros est relacionado con variables socioeconmicas y a o demogrcas como la edad, sexo, nivel de estudios, ingreso y el costo de a cigarros. La relacin entre estas variables se expresa mediante una ecuacin o o o modelo que relaciona la variable dependiente o respuesta con una o ms a variables explicativas, regresoras o predictoras. Las variables explicativas a veces tambin se llaman independientes pero casi no se usa porque e puede confundirse con el concepto de independencia de probabilidad y en los casos que se tratan en la regresin no suele ocurrir este fenmeno. En o o el ejemplo anterior, el consumo de cigarros es la variable dependiente y las dems inuyen sobre esta, por lo cual son las variables predictoras. a
Bosquejo de los pasos del anlisis de regresin a o

Se empieza con el planteamiento de un problema y una pregunta que se desea responder. Es muy importante este paso en el anlisis ya que a si no se tiene bien planteado el problema o la pregunta a contestar, se corre el riesgo de perder tiempo en contestar una pregunta mal hecha o usar un modelo incorrecto. Se procede a seleccionar o determinar un conjunto de variables que parecen explicar o predecir la variable respuesta. El paso siguiente del anlisis es coleccionar datos para el esudio. Los a datos consisten en observaciones de n sujetos. Cada observacin est o a relacionada con medidas de las variables relevantes. Un ejemplo de cmo se capturan los datos se muestra en la Tabla 1. Una columna o
Table 1: Observaciones usadas en el No. de Observacin Respuesta Y o 1 y1 2 y2 3 y3 . . . . . . n yn
Anlisis de a X1 X2 x11 x12 x21 x22 x31 x32 . . . . . . xn1 xn2
Regresin o . . . Xp . . . x1p . . . x2p . . . x3p . . . . . . ... xnp
representa una variable mientras que cada rengln representa una obo servacin. Cada una de las variables de la tabla puede ser cuantitativa o o cualitativa. Al terminar de recolectar las observaciones que se estudiarn, se dea ne un modelo ya sea lineal o no lineal y que depende de los datos recolectados. Se denota a la variable respuesta como Y y a las variables regresoras como X1 , X2 , . . . , Xn . Se puede aproximar la relacin entre las Xi s y o Y mediante el modelo de regresin: o Y = f (X1 , X2 , . . . , Xp ) + donde es un error por la aproximacin y adems es aleatorio. Una o a manera de aproximar la relacin entre una variable de respuesta y sus o variables regresoras es el modelo de regresin simple: o Y = 0 + 1 X1 + 2 X2 + + pXp + donde 0 , 1 , 2 , . . . , p son los parmetros o coecientes de rea gresin y son constantes desconocidas que se estiman con los datos o analizados. Se denotarn parmetros desconocidos con letras griegas. a a Una ecuacin de regresin que slo contiene una variable predictora o o o se llama modelo de regresin simple, mientras que una ecuacin o o que contiene dos o ms variables predictoras es una ecuacin de rea o gresin m ltiple. Estos trminos no deben confundirse con regresin o u e o univariada y multivariada, ya que el anlisis de regresin es univariada a o cuando se tiene unicamente una sola variable respuesta y la multivari ada es cuando se tienen dos o ms variables respuesta. a 2
Luego, se estiman los parmetros del modelo. El mtodo ms usado a e a para estimar es el mtodo por m e nimos cuadrados, el cual produce bajo ciertas suposiciones estimadores con propiedades deseables. Otro mtodo que se usa para estimar es el mtodo de mximo verosimilitud. e e a Las estimaciones de los parmetros 0 , 1 ,. . . ,p se denotan por 0 ,1 ,. . . ,p . a Entonces la ecuacin de regresin estimada es: o o Y = 0 + 1 X1 + 2 X2 +. . . +p Xp + De esta manera podemos calcular un valor estimado para cada observacin en nuestro conjunto de datos. Por ejemplo, el valor estimado de yi es yi =0 + 1 xi1 + 2 xi2 + . . . + p xip i = 1, 2, . . . , n
donde xi1 , xi2 ,. . . , xip son los valores de las variables predictoras para la observacin i-sima. o e Finalmente, se prueba el modelo y se verica si se requiere suponer ms conceptos para que se ajuste mejor a los datos. Se repite todo el a proceso hasta obtener resultados satisfactorios.
Propiedades del modelo de regresin simple o

En estos apuntes veremos el modelo de regresin simple, el cual tiene un o slo regresor X que tiene relacin con la respuesta Y donde la relacin es o o o una l nea recta. Recordemos que 0 es la ordenada al origen, 1 es la pendiente y es el componente aleatorio de error. Para trabajar con este modelo, tomamos los siguientes supuestos: Los errores se distribuyen Normal. Es decir, N (0, ). Los errores no estn correlacionados. a El regresor X est controlado por el analista y se puede medir con a error despreciable. Con estos supuestos se concluye que existe una distribucin de Y para o cada valor posible de X. Analizemos algunas propiedades de Y . E[Y | X] = Y |X = E[0 + 1 X + ] = E[0 ] + E[1 X] + E[] = 0 + 1 X 3
2 V ar(Y |X) = Y |X = V ar(0 + 1 X + ) = V ar() = 2
Caracter sticas del Modelo La media de Y es una funcin lineal de X. o La varianza no depende del valor de X. La inclinacin 1 es interpretado como el cambio en la media de la o distribucin de Y por un cambio unitario en X. o 0 es la media de la distribucin de Y cuando X = 0. En caso de no o contener al 0, 0 no tiene interpretacin practica. o a La variabilidad de Y en un valor particular de X es determinado por la varianza del componente del error del modelo 2 . Ahora que sabemos qu son los parmetros y sus caracter e a sticas, cmo o conocemos su valor? Es prcticamente imposible conocer sus valores vera daderos pero los podemos estimar. Hay dos mtodos para hacer esto: e mtodo de m e nimos cuadrados y el mtodo por mximo verosimiltud. e a
Estimacin de parmetros por m o a nimos cuadrados

El objetivo de este modelo consiste en que los parmetros estimados se eligen a de tal manera que obtenemos la recta que minimiza la suma de cuadrados de las distancias verticales de cada punto a esta recta. Supongamos n pares de observaciones (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ). Las distancias verticales representan los errores i en la variable respuesta. Estas distancias se pueden obtener de la siguiente manera: yi = 0 + 1 xi + i i = yi 0 1 xi , i = 1, 2, ..., n Entonces la suma de los cuadrados de estas distancias es:
n
S(0 , 1 ) =
(yi 0 1 xi )2
i=1
Ahora bien, la estimacin de los parmetros se realiza con la idea de que o a la suma de los cuadrados de las diferencias entre las observaciones Y i y la recta sea m nima. Esto se traduce a derivar S(0 , 1 ) con respecto a 0 y 1 para encontrar sus estimaciones 0 y 1 . Entonces derivamos e igualamos a 0 las dos expresiones que resulten como se muestra a continacin: o 4
S 0 |0 ,1 = S 1 |0 ,1 =
2
n
(yi 0 1 xi ) = 0 y
i=1
(yi 0 1 xi )xi = 0
i=1
Luego,
n
0 = 2
n
(yi 0 1 xi )
i=1
=
n
(yi 0 1 xi )
n i=1
i=1
=
i=1 n
yi
1 xi xi
=
i=1 n
yi n 0 1
i=1 n i=1 n
i=1
yi = n 0 + 1
i=1
xi
(1)
y
n
0 = 2
n
(yi 0 1 xi )xi =
n i=1 n
(yi 0 1 xi )xi =
n i=1 n
i=1
i=1
i=1
(yi xi 0 xi 1 x2 ) = i
n
yi xi
0 xi
n i=1
1 x2 i
i=1
yi xi = 0
i=1
xi + 1
i=1
x2 i
(2)
A las ecuaciones (1) y (2) se les llama ecuaciones normales. De estas expresiones despejamos a 0 y 1 : De (1) tenemos:
n
0 =
yi 1 n
xi
i=1
yi
xi
i=1
i=1
i=1
= Y 1 X (3)
0 = Y 1 X Sustituyendo esta expresin en (2) obtenemos: o
n n i=1 i=1
xi yi = (Y 1 X)
n
n i=1
xi + 1
n
n i=1
x2 i
n n
=Y
xi 1 X
n
xi + 1
n i=1 n
i=1
x2 = Y i
xi 1 (X
n
xi
i=1 i=1
i=1
x i yi = Y
Y X
n i=1 n i=1 n
xi 1 (X
n
i=1 n
x2 ) i
xi
i=1 xi yi Y x2 X i i=1
n i=1 n
i=1 xi
x2 ) i
1 =
xi yi
xi xi
i=1 n
=
x2 i
i=1 n i=1
xi
i=1 n
i=1
Luego, como Y =
yi
i=1
yX=
n
xi
i=1
entonces
n n
yi
xi
i=1
xi yi 1 =
i=1 n i=1
i=1
n
n
(4)
xi ) 2 n
x2 i
i=1
Entonces la recta de regresin de mnimos cuadrados est dada por o a Y = 0 + 1 X Podemos expresar a los parmetros estimados de otra manera usando a las siguientes deniciones:
n
Denicin 1. Sxx = o
i=1 n
x2 i
xi )2 n
n n
i=1
yi )(
i=1
xi )
Denicin 2. Sxy = o
i=1
xi yi
i=1
=
i=1
yi (xi x)
n
Veamos que Sxx tambin se puede expresar como e Demostracin. o

n n
(xi x)2 .
i=1
( x2 i
i=1
xi )2 n =
x2 i
i=1
i=1
2 ( n
xi )2 +
i=1
1 ( n
xi )2
i=1
=
i=1 n
x2 i
2 ( n 2 ( n
xi )2 +
i=1 n
1n ( nn
n
xi )2
i=1 n
xi xi )2 + n i=1 n
n i=1
xi n
=
i=1
x2 i
n
i=1
=
i=1 n
x2 i
2 ( n
n
xi )2 + nx x
i=1 n
xi xi )
i=1
=
i=1
x2 i
n
2(
i=1
+ n2 x
=
i=1 n
x2 2( i
i=1 n
xi ) + n2 x x
n
=
i=1 n
x2 i
i=1
2(xi ) + x
i=1 n
x2
=
i=1
(x2 2xi x + x2 ) = i
i=1 n n
(xi x)2
( x2 i
i=1
xi )2 n =
Sxx =
i=1
(xi x)2
i=1 n
(5)
Ahora veamos que Sxy tambin se puede expresar como e

i=1
yi (xi x).
Demostracin. o
n n n n
( yi x i
i=1
yi )(
i=1
xi ) =
( yi )
i=1
xi ) n
Sxy =
i=1 n
n
n n
yi x i (
i=1 n i=1
=
i=1
yi xi
i=1
yi x =
i=1
(yi xi yi x) =
i=1
yi (xi x)
n n
( x i yi
i=1
yi )(
i=1
xi ) =
Sxy =
i=1
yi (xi x)
i=1
(6)
Usando Sxx y Sxy podemos escribir fcilmente otras expresiones, por a Sxy ejemplo el estimador de 1 por m nimos cuadrados es 1 = Sxx .
Residuales
En la seccin anterior vimos cmo queda un modelo de regresin simple o o o usando estimacin de parmetros por el mtodo de m o a e nimos cuadrados. Consideremos esta recta (Y = 0 + 1 Xi ). La diferencia entre un valor observado yi y el valor ajustado correspondiente yi es llamado residual, i.e., ei = yi yi = yi (0 + 1 xi ) i = 1, 2, ..., n
Tambin son llamados errores ajustados observados. Los residuales e son usados para vericar supuestos en el modelo.
Propiedades de los estimadores por m nimos cuadrados

Teorema 1 (Teorema de Gauss-Markov). Bajo las condiciones del modelo de regresin (Yi = 0 + 1 Xi + ) los estimadores por el mtodos de m o e nimos 0 y 1 son insesgados y tienen varianza m cuadrados nima entre todos los estimadores lineales ptimos. o Para nuestro caso, este teorema nos dice que:
1 i) E[0 ] = 0 y V ar(0 ) = 2 ( n + 2 E[1 ] = 1 y V ar(1 ) = Sxx X2 Sxx )
ii) El teorema establece que las distribuciones muestrales de 0 y 0 tiene menos variabilidad que cualquier otro estimador insesgado. iii) La clase de estimadores para los cuales los estimadores por m nimos cuadrados son mejores consiste de todos aquellos estimadores insesgados que son funciones lineales de las observaciones Y1 ,Y2 ,...,Yn . Segn lo anterior los estimadores obtenidos por el mtodo de m u e nimos cuadrados son mejorespara lo que nos interesa. 8
Propiedades utiles para el modelo por m nimos cuadrados 1) La suma de residuales en cualquier modelo de regresin que contenga o una ordenada al origen 0 siempre es igual a cero. Esto es,
n n
(yi yi ) =
i=1 i=1
ei = 0
Dem.
ei =
i=1 i=1
(yi yi ) =
i=1 n n
(yi (0 + 1 xi ))
n
=
i=1 n
yi
i=1 n
0
i=1
1 xi
n
=
i=1 n
yi
i=1
( 1 x) y
i=1 n n
1 xi 1 xi
i=1 n
=
i=1
yi n + y
i=1 n n
(1 x)
yi yi n
i=1
=
i=1 n
+ n 1 x
i=1 n
1 xi
=
i=1
yi
i=1 n
xi 1 i=1 1 yi + n n
n
xi
i=1
= 1
i=1
xi 1
i=1
xi = 0
2) La suma de los valores observados yi es igual a la suma de los valores ajustados yi .

n n
yi =
i=1 i=1
yi
Dem.
n n n n n n
yi =
i=1 i=1
(0 + 1 xi ) =
i=1 n
0 +
i=1 n
1 xi =
i=1 n
( 1 x) + y
i=1 n n
1 xi
= n n1 x + 1 y
i=1
xi =
i=1
yi 1
i=1
xi + 1
i=1
xi =
i=1
yi
3) La l nea de regresin por m o nimos cuadrados siempre pasa por el cen troide (X, Y ) de los datos. Dem. Tenemos que ver que (X, Y ) cumple Y = 0 + 1 X. 0 + 1 X = (Y 1 X) + 1 X = Y 4) La suma de los residuales ponderados por el valor correspondiente de la variable regresora siempre es igual a 0.
n
xi ei = 0
i=1
Dem.
xi e i =
i=1 n n i=1
xi (yi yi ) =
i=1 n
x i yi
i=1 n
x i yi
n
=
i=1
x i yi
i=1 n
xi (0 + 1 xi ) =
i=1 n
x i yi 0
i=1 n
xi 1
i=1
x2 i
=
i=1
xi yi ( 1 x) y
i=1 n n
xi 1
i=1 n
x2 i
n
yi x i yi (
i=1
=
i=1
n yi
xi 1 i=1 ) n
n
xi 1
i=1 n
x2 i
n n
i=1 n
xi
i=1
( 1
i=1
xi )2 ) 1
=
i=1
x i yi (
i=1
n
n n
n
n
x2 i
i=1
yi xi yi
i=1 i=1
xi + 1
(
i=1
xi )2 n 1
=
i=1
n 10
x2 i
i=1
n n
yi xi yi
i=1 i=1
xi ) + 1 (
(
i=1
xi )2 n
=(
i=1
n
n n
x2 ) i
i=1
yi xi yi
i=1 i=1
xi ) + 1 (
( x2 i
i=1
xi )2 n )
=(
i=1
i=1
Sxy Sxx = 0 = Sxy 1 Sxx = Sxy Sxx 5) La suma de los residuales ponderados por el valor ajustado correspondiente siempre es igual a cero.
n
yi x i = 0
i=1
Dem.
yi xi =
i=1 n i=1
(0 + 1 xi )(yi yi )
=
i=1 n
(0 yi + 1 xi yi 0 yi 1 xi yi )
n n n
= 0
i=1
yi + 1
i=1
xi yi 0
i=1 n n
yi 1
i=1
xi yi
()
Pero por la propiedad 2)

i=1 n
yi =
i=1 n
yi , entonces:
n n
() = 1
i=1 n
x i yi 1
i=1 n
x i yi = 1 (
i=1 n
x i yi
i=1 n
x i yi )
= 1
i=1
x i yi 1
i=1 n
x i yi = 1 (
i=1 n
xi yi
i=1 n
xi (0 + 1 xi ))
= 1 (
i=1
xi yi 0
i=1
xi 1
i=1
x2 ) i
11
= 1 (
i=1
xi yi ( 1 x) y
i=1 n n
xi 1
i=1
x2 ) i
yi xi yi (
i=1
= 1 (
i=1
n yi
xi 1 i=1 ) n
n
xi 1
i=1 i=1
x2 ) i
n n
xi
i=1
( + 1
i=1
xi )2 n
n
= 1 (
i=1
x i yi
i=1
n
n n
1
i=1
x2 ) i
yi x i yi
i=1 i=1
xi + 1 (
(
i=1
xi )2 n
= 1 (
i=1
x2 )) i
i=1
Sxy = 1 (Sxy + 1 (Sxx )) = 1 (Sxy + (Sxx )) = 0 Sxx Otra manera, considerando la propiedad 4)
n n n n
() = 1 (
i=1
x i yi
i=1
xi yi ) = 1
i=1
xi (yi yi ) = 1
i=1
xi e i = 0
12

Regresion

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regresion

Transféré par

Droits d'auteur :

Formats disponibles

Anlisis de Regresin a o

Bosquejo de los pasos del anlisis de regresin a o

Table 1: Observaciones usadas en el No. de Observacin Respuesta Y o 1 y1 2 y2 3 y3 . . . . . . n yn

Anlisis de a X1 X2 x11 x12 x21 x22 x31 x32 . . . . . . xn1 xn2

Regresin o . . . Xp . . . x1p . . . x2p . . . x3p . . . . . . ... xnp

Propiedades del modelo de regresin simple o

2 V ar(Y |X) = Y |X = V ar(0 + 1 X + ) = V ar() = 2

Estimacin de parmetros por m o a nimos cuadrados

0 = Y 1 X Sustituyendo esta expresin en (2) obtenemos: o

Veamos que Sxx tambin se puede expresar como e Demostracin. o

Ahora veamos que Sxy tambin se puede expresar como e

Propiedades de los estimadores por m nimos cuadrados

2) La suma de los valores observados yi es igual a la suma de los valores ajustados yi .

Pero por la propiedad 2)

Vous aimerez peut-être aussi