Académique Documents
Professionnel Documents
Culture Documents
Esta notación
Un punto de vista bayesiano nos permite generalizar al caso de regresión lineal
multiple, en donde
El principal objetivo de los modelos de regresión
es explorar la dependencia entre dos conjuntos de vari- 1 x11 · · · x1p
1 x21 · · · x2p
ables. En el caso de regresión lineal simple se tiene
x= .
. .. .. ..
una relación de la forma . . . .
1 xn1 · · · xnp
Yi = β 0 + β 1 x i + ε i , i = 1, . . . , n (1)
y β = (β0 , β1 , . . . , βp )0 con p < n. Una vez más asum-
donde Y(n) := {Yi }ni=1 es un conjunto de variables iid
(n) n iendo εi ∼ N(0, σ 2 ) se tiene
aleatorias y x = {xi }i=1 un conjunto de variables
observables. Las cantidades β0 y β1 se denominan la n
ordenada al origen y la tendencia en la regresión. Des- f (y; β, σ 2 ) = 1 1 0
√ exp − 2 (y − xβ) (y − xβ)
de un punto de vista clásico, estas últimas cantidades 2πσ 2σ
n
se asumen fijas pero desconocidas y εi es, necesaria- 1 1
= √ exp − 2 (y − ŷ)0 (y − ŷ)
mente una variable aleatoria, comúnmente se assume 2πσ 2σ
que E(εi ) = 0, por lo que io
+ (β − β̂)0 x0 x(β − β̂) (3)
E(Yi | xi ) = β0 + β1 xi .
donde
A Yi se le conoce comúnmente como la variable de-
pendiente o respuesta y a xi como la variable in- β̂ = (x0 x)−1 x0 y, y ŷ = xβ̂ (4)
dependiente o predictiva, ya que con esta última y de donde se ve que, para σ 2 conocido, β̂ es suficiente,
la expresión de arriba se pueden predecir valores de Yi . y (β̂, (y − ŷ)0 (y − ŷ)) conjunatamente suficiente para
La linealidad de la regresión se interpreta en término (β, σ 2 ).
de los parámetros, es decir E(Yi | xi ) = β0 + β12 xi no es
Enfoque bayesiano
una regresión lineal mientras que E(Yi | xi ) = β0 +β1 x2i
iid Si asumimos un enfoque bayesiano, el componente
si. Bajo el supuesto de que εi ∼ N(0, σ 2 ), o equivalen- faltante es la distribución inicial π(β, σ 2 ). En general,
temente la elección de dicha distribución es bastante amplia, sin
Yn embargo para un análisis preliminar se podrı́a asumir
fY (n) (y(n) ; β0 , β1 , σ 2 ) = N(yi ; β0 + β1 xi , σ 2 ) la distribución inicial no informativa
i=1
1
π(β, σ 2 ) ∝ 2
Los estimadores máximo verosı́miles están dados por σ
lo que resulta en la distribución posterior
Pn
(x − x̄)(yi − ȳ) π(β, σ 2 | y) = Np (β; β̂, σ 2 (x0 x)−1 )Iga(σ 2 ; n−p, s2 ) (5)
β̂1 = Pn i
i=1
2
i=1 (xi − x̄)
ˆ donde s2 = (y − ŷ)0 (y − ŷ)/(n − p − 1). El estimador
β̂0 = ȳ − β1 x̄
n
bayesiano bajo una función de pérdida cuadrática para
1X β, dado n ≥ p + 1, se puede obtener como
2
σ̂ = (yi − βˆ0 − βˆ1 xi ) 2
n
i=1 E[β | y] = E[E[β | σ 2 ] | y] = β̂
Si De la misma manera, si notamos que marginalizando
1 x1 Y1
1 x2 Y2 (5), con respecto a σ 2 , obtenemos
x= . . Y= .
.. .. .. π(β | y) = tp+1 (β; β̂, s2 (x0 x)−1 , n − p − 1) (6)
1 xn Yn se pueden deducir la región de credibilidad con densidad
La ecuación (1) también se puede ver como posterior mayor al nivel 100(1 − α) % para β esta dada
por el elipsoide
n o
Y = xβ + (2) β; (β − β̂)0 x0 x(β − β̂) ≤ (p + 1) s2 Fp+1,n−p−1 (α)
2
βj − β̂j
p | y ∼ tn−p−1
s djj
Un ejemplo usando R