Tema 6 Regresion

MODELO DE REGRESIN LINEAL SIMPLE
Los Modelos de Regresin estudian la relacin entre una variable de inters y

un conjunto de variables explicativas.
Cuando se estudia la relacin entre una variable de inters, variable respuesta o
variable dependiente Y, y un conjunto de variables regresoras (explicativas,
independientes) (X
1
, X
2
, X
p
) puede darse las siguientes situaciones:

Existe una relacin funcional entre ellas, en el sentido de que el
conocimiento de las variables regresoras determina completamente el valor que
toma la variable respuesta, esto es,
Y = m (X
1
, X
2
, X
p
)
Ejemplo: la relacin que existe entre el tiempo (Y) que tarda un mvil en
recorrer una distancia y dicha distancia (X) a velocidad constante

No exista ninguna relacin entre la variable respuesta y las variables
regresoras, en el sentido de que el conocimiento de stas no proporciona ninguna
informacin sobre el comportamiento de la otra.
Ejemplo: la relacin que existe entre el dinero (Y) que gana una persona adulta
mensualmente y su altura (X).

El caso intermedio, existe una relacin estocstica entre la variable
respuesta y las variables regresoras, en el sentido de que el conocimiento de
stas permite predecir con mayor o menor exactitud el valor de la variable
respuesta. Por tanto siguen un modelo de la forma,
Y = m (X
1
, X
2
, X
p
) +
Siendo m la funcin de regresin desconocida y una variable aleatoria de
media cero (el error de observacin).
El objetivo bsico en el estudio de un modelo de regresin es el de estimar la
funcin de regresin, m, y la distribucin que sigue el error aleatorio

RECTA DE REGRESIN
El modelo de regresin ms sencillo es el Modelo de Regresin Lineal Simple
que estudia la relacin lineal entre la variable respuesta Y y la variable regresora X, a
partir de una muestra (Xi , Yi)
i = 1,,n
que sigue el siguiente modelo:
Y = a + b X,
a se denomina la ordenada en el origen y b la pendiente de la recta.
De manera que el modelo a ajustar es
Y
i
= a + bX
i
+
i
i = 1,2,,n.
En forma matricial Y = a1 + bX + e
donde Y` = (y
1
, y
2
, , y
n
), 1` =(1,1,,1),

X` =(x
1
, x
2
, , x
n
), `= (
1
,
2
,
n
)
Se supone que se verifican las siguientes hiptesis:
1. La funcin de regresin es lineal,
m(x
i
) = a + bx
i
nos da la media de la variable dependiente para un valor
de la variable independiente
O, equivalentemente, E(
i
) = 0, i = 1,...,n.
2. La varianza es constante (homocedasticidad),
V ar(e
i
)=
2
, i = 1,...,n.
3. La distribucin es normal,
Y/X=x
i
~ N(a + bx
i
,
2
)
O, equivalentemente,
i
~ N(0,
2
), i = 1,...,n.
4. Las observaciones Y
i
son independientes. Bajo las hiptesis de
normalidad, esto equivale a que la Cov(Y
i
Y
j
) = 0, si i j.
Esta hiptesis en funcin de los errores sera los
i
son independientes,
que bajo normalidad, equivale a que Cov(
i
,
j
) = 0, si i j.

En el modelo de regresin lineal simple hay tres parmetros que se deben
estimar: los coeficientes de la recta de regresin, a y b y la varianza de la distribucin
normal,
2
.
El clculo de estimadores para estos parmetros puede hacerse por diferentes
mtodos, nosotros utilizamos el mtodo de mnimos cuadrados.
Dado un valor de X, x
i
, tenemos los dos valores de Y, el observado, y
i
, y el
terico o predicho,
i
y = a +bx
i
Los residuos se definen e
i
= y
i
-
i
y
As pues, hemos de minimizar:
( ) ( ) ( )

= =
= + = +
n
i
i i
n
i
i i
bx a y bx a y
1
2 2
1

Que derivando respecto a a y a b e igualando a cero:

( )
( )

= =
+
= =
+
0 2
0 2
i
i
i i
i
i i
x bx a y
b
bx a y
a
c
c
c
c

Que nos dar un sistema de dos ecuaciones normales y dos incgnitas (a, b).
Resolviendo el sistema:

( )
2
2
2 2
2
2
2
x
xy
x xy
i
i
i
i i
i i
i i
i
i
i
i i
i i
i i
i
i i
i
i
i
i
i i
i i
i
i i
i i i
i i
S
S
b bS S
x n x b x n y y x
x b x n x b x
n
y
y x
x b x x b y y x
x b y a x b y na
x b x a y x
x b a y
= =
|
.
|
\
|
=
+ =
+ =
= + =
+ =
+ =

Y obtenemos que la recta de regresin de Y sobre X es y = a + bx con los
valores a y b anteriormente calculados, o bien la siguiente expresin:

( )
y y
S
S
x x
xy
x
=
2

Que sera la misma recta pero expresada en punto pendiente. A la pendiente b de
la recta de regresin de Y sobre X se le denomina coeficiente de regresin de Y sobre
X.

RECTA DE REGRESI N DE X SOBRE Y
Aplicando el mismo razonamiento llegaramos a la expresin de la recta de
regresin de X sobre Y x = a + by con

( )
b
S
S
y a x b y
o bien
x x
S
S
y y
xy
y
xy
y
' ' '
:
= =
=
2
2

Igualmente a la pendiente b de la recta de regresin de X sobre Y se le
denomina coeficiente de regresin de X sobre Y.
NOTA: Hay que tener en cuenta que la recta de regresin de X sobre Y no se
obtiene despejando X de la recta de regresin de Y sobre X.

PROPIEDADES:
1. Estas dos rectas se cortan en el punto (x,y) que se denomina centro de
gravedad de la distribucin conjunta.
2. Tanto el signo de b como el de b ser el signo de la covarianza (pues las
varianzas son siempre positivas). Una covarianza positiva nos dar dos coeficientes de
regresin positivos y sus correspondientes rectas de regresin crecientes. Si la
covarianza es negativa, las dos rectas de regresin sern decrecientes al ser negativas
sus pendientes. En caso de que la covarianza valga cero, las rectas de regresin sern
paralelas a los ejes coordenados y perpendiculares entre s.

MEDIDAS DE BONDAD DE AJUSTE: Anlisis de la varianza
VARI ACI N RESI DUAL
Para cada valor x
i
de X, obtenamos una diferencia (el residuo) entre el valor
observado de Y en la nube de puntos y el correspondiente valor terico obtenido en la
funcin. Si todos los puntos de la nube estn en la funcin, la dependencia ser
funcional; el grado de dependencia ser el mximo posible. Cuanto ms se alejen los
puntos observados de la funcin (mayores sean los residuos) iremos perdiendo
intensidad en la dependencia.
Se define la variacin residual o variacin no explicada por la regresin como
la suma de los cuadrados de los residuos.
( ) ( ) ( )

= = =
i
i
i
i i
i
i i
e x b a y y y VNE
2
2
2

Si la variacin residual es grande los residuos sern grandes y la dependencia
ser pequea, el ajuste ser malo.
Si la variacin residual es pequea (cerca de cero), la dependencia ser grande,
el ajuste ser bueno.
Se define la varianza residual como la variacin residual dividida entre sus
grados de libertad n-2; este cantidad se denota por
2
R
S y es la estimacin de la varianza
de la varianza de los residuos.
R
S se denomina error estndar de la regresin

VARI ACI N DEBI DA A LA REGRESI N
Nos sirve para ver en qu medida mejora la descripcin de una variable a travs
de la otra. Llamaremos variacin debida a la regresin o variacin explicada a la
suma de los cuadrados de las desviaciones de los valores tericos a la media.
( )
=
i
i
y y VE
2

VARIACIN TOTAL
La variacin total es la suma de los cuadrados de las desviaciones de los
valores observados a la media
( )
=
i
i
y y VT
2

Se demuestra que VT = VE + VNE

Es decir, la variacin total de la variable Y es la suma de dos variaciones:
la de la variable Y
que representara la parte de la dispersin o variabilidad de la

variable Y explicada por la regresin, o sea, por la relacin lineal con la variable
X , denotada por variacin explicada por el modelo y la variacin residual que
representara la parte de la variabilidad no explicada por la regresin.
As pues, cuando aumenta la varianza debida a la regresin, disminuye la
varianza residual y el ajuste es bueno y al contrario.

COEFI CI ENTE DE DETERMI NACI N
El problema de la variacin residual es que viene afectada por las unidades de
medida y esto imposibilita la comparacin de la dependencia entre grupos de variables.
Obtenemos una medida relativa (es decir, que no dependa de las unidades y est entre
cero y uno) de la bondad de ajuste dividiendo la variacin debida a la regresin entre la
variacin total
Se define el COEFICIENTE DE DETERMINACIN COMO:

VT
VNE
cuadrado R bien o
VT
VE
cuadrado R = = 1
El coeficiente de determinacin (multiplicado por cien) representa el porcentaje
de la variabilidad de Y explicada por la recta de regresin, es decir por su relacin con
la variable X.
0 s R-cuadrado s 1
Si R cuadrado = 1 todos los residuos valen cero y el ajuste es perfecto.
Si R cuadrado = 0 el ajuste es inadecuado.

PROPIEDADES:
1. El coeficiente de determinacin de la recta de regresin de Y sobre X es el
mismo que el de la recta de regresin de X sobre Y, cumplindose que:
R -cuadrado= bb. Es decir, el coeficiente de determinacin es una medida del
grado de relacin lineal entre las variarbles.
2. El coeficiente de determinacin es el cuadrado del coeficiente de correlacin
lineal, es decir: R -cuadrado= r
2
,
Esto solo es cierto en el caso de regresin lineal simple
2
2
2 2
2
' r
S S
S
S
S
S
S
bb R
y x
xy
y
xy
x
xy
=
|
|
.
|
\
|
= = =

COEFICIENTE DE CORRELACIN
Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relacin
lineal que hay entre ambas variables es el coeficiente de correlacin definido por
) ( ) (
) , (
Y X
Y X COV
o o
=
Donde (X) y (Y) representan las desviaciones tpicas de las variables X e Y.
) ( ) ( ) ( ) , ( Y E X E XY E Y X Cov =
Un buen estimador de este parmetro es el coeficiente de correlacin lineal
muestral (o coeficiente de correlacin de Pearson), definido por
Y X
XY
S S
S
r= Y X y x
n
S
n
i
i i XY
=

=1
1

Se comprueba que r = signo( b
) R
Por tanto, re[-1,1]. Este coeficiente es una buena medida de la bondad del ajuste
de la recta de regresin. Evidentemente, existe una estrecha relacin entre r y b

aunque estos estimadores proporcionan diferentes interpretaciones del modelo:
r es una medida de la relacin lineal entre las variables X e Y.
b
mide el cambio producido en la variable Y al realizarse un cambio de una

unidad en la variable X.
De las definiciones anteriores se deduce que:
S
XY
= 0 b
= 0 r =0
Es importante estudiar si r es significativo (distinto de cero) ya que ello implica
que el modelo de regresin lineal es significativo. Desafortunadamente la distribucin
de r es complicada pero para tamaos muestrales mayores que 30 su desviacin tpica es
n
r
1
) ( ~ o y puede utilizarse la siguiente regla >
n
r
2
r significativo
En la interpretacin del coeficiente de correlacin se debe tener en cuenta que:
r = 1 indica una relacin lineal exacta positiva (creciente) o negativa
(decreciente),
r = 0 indica la no existencia de relacin lineal estocstica, pero no indica
independencia de las variables ya que puede existir una relacin no lineal
incluso exacta,
Valores intermedios de r (0 < r < 1 -1 < r < 0) indican la existencia de una
relacin lineal estocstica, ms fuerte cuanto ms prximo a +1 ( -1) sea el
valor de r.

PREDICCIN
El objetivo ltimo de la regresin es la prediccin de una variable para un valor
determinado de la otra. La prediccin de Y para X = x
0
ser simplemente el valor
obtenido en la recta de regresin de Y sobre X al sustituir el valor de x por x
0.

Es claro que la fiabilidad de esta prediccin ser tanto mayor cuando
mayor sea la correlacin entre las variables (es decir mayor sea R cuadrado o r ).

INTERVALOS DE CONFIANZA PARA LOS PARMETROS
El estimador b
de la pendiente de la recta regresin, se denomina coeficiente

de regresin y tiene una sencilla interpretacin, indica el crecimiento (o decrecimiento)
de la variable respuesta Y asociado a un incremento unitario en la variable regresora X.
El estadstico b
se distribuye como una normal de media b y varianza

2
2
X
nS
o

Esto es,
) , (
2
2
X
nS
b N b
o

Por tanto la V ar( b
)
- disminuye al aumentar n,
- disminuye al aumentar s
x
2

- disminuye al disminuir
2
.

El estimador a indica el valor de la ordenada en la recta de regresin estimada
para x = 0 tiene menor importancia y, en muchos casos, no tiene una interpretacin
prctica.
La distribucin de a es una normal de media a y varianza
|
|
.
|
\
|
+
2
2 2
1
X
nS
X
n
o

Esto es,
) 1 , (
2
2 2
|
|
.
|
\
|
+
X
nS
X
n
a N a
o

Por tanto la V ar ( a )
- disminuye al aumentar n,
- disminuye al aumentar s
x
2

2
.
2
.
2
R
S es el estadstico que se utiliza como estimador de la varianza de los residuos.
2
2
=
n
VNE
S
R

Nuevamente, utilizando las hiptesis de normalidad e independencia se obtiene
que la distribucin de este estadstico es
2
2
2
2
) 2 (
n
R
S n
o

Conociendo las distribuciones de estos estadsticos podemos hallar intervalos de
confianza y realizar contrastes de hiptesis para los parmetros
Teniendo en cuenta que
2
es desconocida y hay que estimarla, la distribucin de
b
es una T con grados de libertad los de

2
R
S
2
n x
R
T n S
S
b b

As un intervalo de confianza para b a un nivel de confianza 1 - o viene dado
por
2 , 2 /
n
X
R
t
n S
S
b
o

De forma anloga se puede obtener un intervalo de confianza del parmetro a.
2
2
2
1
1
|
|
.
|
\
|
+
n
X
R
T
S
X
n
S
a a

2 , 2 /
2
2
1
1

|
|
.
|
\
|
+
n
X
R
t
S
X
n
S a
o

Los estadsticos a y b
no son variables aleatorias independientes

Como ya se ha indicado el parmetro a tiene menor importancia que b
y, en
algunas situaciones, no tiene una interpretacin realista si el cero no es un punto del
rango de la X, por ejemplo, al estudiar la relacin entre las variables peso y altura de un
colectivo de personas. Por ello tiene inters la ecuacin de la recta de regresin que
utiliza solo el parmetro b. Esta ecuacin es la siguiente
i i i
x x b y y c + = ) (
o bien,
) ( x x b y y
i i
=
INTERPRETACIN GEOMTRICA
Considrense los siguientes vectores del espacio n-dimensional R
n

) ,..., , (
2 1 n
y y y Y =
Vector de la variable respuesta

)` 1 ..., , 1 , 1 ( 1 =
Vector de 1
)` ,..., , (
2 1 n
x x x X =
Vector de la variable regresora

)` ,..., , (
2 1 n
c c c c = Vector de los errores aleatorios
)` ,..., , (
2 1 n
y y y Y = Vector de las predicciones
Y Y e e e e
n
)` ,..., , (
2 1
= =

Vector de los residuos

Dado el modelo de regresin lineal c

+ + = X b a Y 1
El mtodo de estimacin por mnimos cuadrados tiene la siguiente interpretacin
geomtrica:
El vector de predicciones Y
es la proyeccin ortogonal del vector Y
en el plano
que generan los vectores X
y 1
.
De esta forma el vector de residuos e
es de mdulo mnimo
=
=
n
i
i
e e
1
2 2
. Por
tanto, el vector de residuos e
es perpendicular al plano generado por X
y 1
.
Y, en particular, es ortogonal a estos dos vectores, esto es,
0 0 1
1 1
= = = =

= =
n
i
i i
t
n
i
i
t
x e X e e e

Del teorema de Pitgoras se deduce que Y
y e
son ortogonales y por tanto

= = =
+ = + =
n
i
i
n
i
i
n
i
i
e y y e Y Y
1
2
1
2
1
2 2
2 2

CONTRASTES SOBRE LOS PARAMETROS DEL MODELO
Es de gran inters el siguiente contraste
0 :
0 :
1
0
=
=
b H
b H

ya que aceptar H
0
implica que la recta de regresin es Y
i
= a +
i
, por tanto, no
existe relacin lineal entre las variables X e Y .
Utilizando la distribucin deb
si H
0
es cierto, se sigue que
2
n x
R
T n S
S
b b

El estadstico
2 0
=
n x
R
T n S
S
b
T , por tanto
la regin crtica es
2 , 2 / 0
>
n
t T
o

El p - valor del contraste es P(|T
n-2
|>|t
0
|)
Este contraste se denomina contraste de regresin

De la misma forma se puede hacer el contraste
0 :
0 :
1
0
=
=
a H
a H

Aunque este contraste tiene menor inters por su escaso significado. En este
caso, si H
0
es cierto, se verifica que
2
2
2
0
1
1
|
|
.
|
\
|
+
=
n
X
R
T
S
X
n
S
a
T
Y se calcula la regin crtica y el p-valor igual que antes
TABLA ANOVA. El contraste de regresin.
Supongamos que queremos realizar el siguiente contraste de hiptesis,
H
0
: E(Y/X=x)=a (es constante, no depende de x)
Frente a la alternativa
H
1
: E(Y/X=x)=a +bx (el modelo lineal es significativo )
Por tanto, si se acepta H
0
, la variable regresora no influye y no hay relacin
lineal entre ambas variables. En caso contrario, si existe una dependencia lineal de la
variable respuesta respecto a la regresora. Teniendo en cuenta la descomposicin de la
variabilidad de los datos
VT = VE + VNE
( )

i
i i
y y
2
= ( )

i
i
y y
2
+ ( )

i
i i
y y
2

Podemos confeccionar la siguiente tabla
Tabla anova del modelo de regresin simple
variacin Suma de cuadrados Grados de libertad Varianzas Valor F
regresin
( )
=
i
i
y y VE
2

1 VE
2
R
S
VE

residual
( ) ( )

= =
i
i
i
i i
e y y VNE
2 2

n-2
2
R
S

total
( )
=
i
i i
y y VT
2
n-1
2
Y
S

Si H
0
es cierta (la variable X no influye), la recta de regresin es
aproximadamente horizontal y se verifica que aproximadamente y y
i
~ y por tanto
VE~ 0. Pero VE es una medida con dimensiones y no puede utilizarse como medida de
discrepancia, para resolver este inconveniente se divide por la varianza residual y como
estadstico del contraste de regresin se utiliza el siguiente
2
0
R
S
VE
F =
Por la hiptesis de normalidad y bajo H
0
se deduce que el estadstico

F
0
sigue
una distribucin F con 1 y n - 2 grados de libertad. La regin crtica es { }
2 , 1 , 0
>
n
f F
o

Y el p - valor viene dado por P(F
1,n-2
> f
0
)

Tema 6 Regresion

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Tema 6 Regresion

Transféré par

Droits d'auteur :

Formats disponibles

MODELO DE REGRESIN LINEAL SIMPLE

Los Modelos de Regresin estudian la relacin entre una variable de inters y

que representara la parte de la dispersin o variabilidad de la

mide el cambio producido en la variable Y al realizarse un cambio de una

de la pendiente de la recta regresin, se denomina coeficiente

se distribuye como una normal de media b y varianza

es una T con grados de libertad los de

no son variables aleatorias independientes

Vector de la variable respuesta

Vector de la variable regresora

Vector de los residuos

es la proyeccin ortogonal del vector Y

es perpendicular al plano generado por X

son ortogonales y por tanto

Vous aimerez peut-être aussi