Vous êtes sur la page 1sur 2

Regresión lineal: un ejemplo donde β = (β0 , β1 )0 y  = (ε1 , . . . , εn )0 .

Esta notación
Un punto de vista bayesiano nos permite generalizar al caso de regresión lineal
multiple, en donde
El principal objetivo de los modelos de regresión  
es explorar la dependencia entre dos conjuntos de vari- 1 x11 · · · x1p
 1 x21 · · · x2p 
ables. En el caso de regresión lineal simple se tiene
x= .
 
. .. .. .. 
una relación de la forma  . . . . 
1 xn1 · · · xnp
Yi = β 0 + β 1 x i + ε i , i = 1, . . . , n (1)
y β = (β0 , β1 , . . . , βp )0 con p < n. Una vez más asum-
donde Y(n) := {Yi }ni=1 es un conjunto de variables iid
(n) n iendo εi ∼ N(0, σ 2 ) se tiene
aleatorias y x = {xi }i=1 un conjunto de variables
observables. Las cantidades β0 y β1 se denominan la  n  
ordenada al origen y la tendencia en la regresión. Des- f (y; β, σ 2 ) = 1 1 0
√ exp − 2 (y − xβ) (y − xβ)
de un punto de vista clásico, estas últimas cantidades 2πσ 2σ
 n 
se asumen fijas pero desconocidas y εi es, necesaria- 1 1 
= √ exp − 2 (y − ŷ)0 (y − ŷ)
mente una variable aleatoria, comúnmente se assume 2πσ 2σ
que E(εi ) = 0, por lo que io
+ (β − β̂)0 x0 x(β − β̂) (3)
E(Yi | xi ) = β0 + β1 xi .
donde
A Yi se le conoce comúnmente como la variable de-
pendiente o respuesta y a xi como la variable in- β̂ = (x0 x)−1 x0 y, y ŷ = xβ̂ (4)
dependiente o predictiva, ya que con esta última y de donde se ve que, para σ 2 conocido, β̂ es suficiente,
la expresión de arriba se pueden predecir valores de Yi . y (β̂, (y − ŷ)0 (y − ŷ)) conjunatamente suficiente para
La linealidad de la regresión se interpreta en término (β, σ 2 ).
de los parámetros, es decir E(Yi | xi ) = β0 + β12 xi no es
Enfoque bayesiano
una regresión lineal mientras que E(Yi | xi ) = β0 +β1 x2i
iid Si asumimos un enfoque bayesiano, el componente
si. Bajo el supuesto de que εi ∼ N(0, σ 2 ), o equivalen- faltante es la distribución inicial π(β, σ 2 ). En general,
temente la elección de dicha distribución es bastante amplia, sin
Yn embargo para un análisis preliminar se podrı́a asumir
fY (n) (y(n) ; β0 , β1 , σ 2 ) = N(yi ; β0 + β1 xi , σ 2 ) la distribución inicial no informativa
i=1
1
π(β, σ 2 ) ∝ 2
Los estimadores máximo verosı́miles están dados por σ
lo que resulta en la distribución posterior
Pn
(x − x̄)(yi − ȳ) π(β, σ 2 | y) = Np (β; β̂, σ 2 (x0 x)−1 )Iga(σ 2 ; n−p, s2 ) (5)
β̂1 = Pn i
i=1
2
i=1 (xi − x̄)
ˆ donde s2 = (y − ŷ)0 (y − ŷ)/(n − p − 1). El estimador
β̂0 = ȳ − β1 x̄
n
bayesiano bajo una función de pérdida cuadrática para
1X β, dado n ≥ p + 1, se puede obtener como
2
σ̂ = (yi − βˆ0 − βˆ1 xi ) 2
n
i=1 E[β | y] = E[E[β | σ 2 ] | y] = β̂
Si     De la misma manera, si notamos que marginalizando
1 x1 Y1
 1 x2   Y2  (5), con respecto a σ 2 , obtenemos
x= . .  Y= . 
   
 .. ..   ..  π(β | y) = tp+1 (β; β̂, s2 (x0 x)−1 , n − p − 1) (6)
1 xn Yn se pueden deducir la región de credibilidad con densidad
La ecuación (1) también se puede ver como posterior mayor al nivel 100(1 − α) % para β esta dada
por el elipsoide
n o
Y = xβ +  (2) β; (β − β̂)0 x0 x(β − β̂) ≤ (p + 1) s2 Fp+1,n−p−1 (α)
2

donde Fp+1,n−p−1 (α) denota el quantı́l (1 − α) de una


distribución Fp+1,n−p−1 . Si uno está interesado en un
componente βj en particular, entonces del hecho que la
distribución posterior marginal para βj es también t de
Student resulta se pueden construir regiones de máxima
densidad posterior mediante

βj − β̂j
p | y ∼ tn−p−1
s djj

donde djj es la j-ésima entrada de (x0 x)−1

Un ejemplo usando R

### Genera unos datos aleatorios ###


f=function(x){1+0.5*x^3}
x<-seq(0.1,3,0.1);
set.seed(142);
y<-f(x)+rnorm(30);
####################################
plot(x,y);
unos<-rep(1,30);
X<-cbind(unos,x,x^2)
X<-as.matrix(X);
########### Estimadores ############
B=solve(t(X)%*%X)%*%t(X)%*%y
yhat=X%*%B
S=t(y-yhat)%*%(y-yhat)/(30-3);
lines(x,yhat)
########### Residuales ############
r=y-yhat;
plot(x,r)
acf(r)
###################################
x1<-x; x2<-x^2; lm(y~x1+x2)
###################################

Vous aimerez peut-être aussi