Vous êtes sur la page 1sur 35

Introduccin

Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Regresin lineal mltiple


Lorena Paola Brun Gonzlez
Universidad de Antioquia
Mtodos Estadsticos I
Ingeniera Industrial
Semestre 2015-I

23 de marzo de 2015
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Introduccin

Vector Aleatorio

Regresin Lineal Mltiple

SUPUESTOS EN LA REGRESIN MLTIPLE


NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Mtodo multivariante que analiza la relacin entre una nica


variable dependiente y varias variables independientes. El objetivo es predecir cambios en la variable dependiente en respuesta a cambios en varias de las variables independientes.
Cada variable predictor es ponderada, indicando la ponderacin
su contribucin relativa a la prediccin conjunta.
El conjunto de variables independientes ponderadas se denomina valor terico de la regresin o ecuacin de regresin
Y = b0 + b1 X1 + b2 X2 + ..... + bn Xn

logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Vector aleatorio:
Un vector aleatorio es aquel cuyas componentes son variables
aleatorias. Similarmente, una matriz aleatoria es aquella cuyas
entradas son variables aleatorias.
El vector,

y1
y2

Y =.
..
yn n1
es un vector aleatorio si cada una de sus componentes Yi0 s son
variables aleatorias.
Ingeniera Industrial

Regresin lineal mltiple

logo

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Sea Y: un vector aleatorio, entonces el valor-esperado o esperanza de Y, denotado por E[Y ], se define como:

E[y1 ]
1
E[y2 ] 2


E[Y ] = . = .
.
. ..
E[yn ]

en donde, E[Yi ] = i : representa el valor-esperado o esperanza


de la variable aleatoria yi .
Es decir, la esperanza de un vector aleatorio, es un vector aleatorio cuyas componentes son las esperanzas de cada una de las
variables a aleatorias Yi0 s, i = 1, 2, n, que conforman el vector aleatorio. Similarmente se define el valor esperado de una
logo
matriz aleatoria.
Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Matriz de Varianzas-Covarianzas
Sea Y : un vector aleatorio, entonces la matriz de varianzascovarianzas de Y, denotada por Y = Cov (Y ), se define como:
Var (y1 )
Cov (y2 , y1 )

Y = E[(Y E[Y ])(Y E[Y ]) ] =


.
.

.
Cov (yn , y1 )

Cov (y1 , y2 )
Var (y2 )
.
.
.
Cov (yn , y2 )

...
...
.
.
.
...

Cov (y1 , yn )
Cov (y2 , yn )

.
Var (yn )

Se nota que Y tiene en la diagonal las varianzas de cada una


de las variables aleatorias que conforman al vector aleatorio y
fuera de la diagonal tiene las covarianzas entre los pares de
variables que conforman dicho vector aleatorio.
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Regresin Lineal Mltiple


Supongamos que la variable respuesta Y puede ser explicada
por ms de una variable regresora o predictora, digamos (p-1):
X1 , X2 , , Xp1 .
Para el caso de dos variables regresoras X1 y X2 , se tiene que
el modelo de RLM es:
yi = 0 + 1 xi1 + 2 xi2 + i ,
con los supuestos de que los 0i s con i = 1, 2, , n, son independientes e identicamente distribuidos normales con media
cero y varianza constante, de donde la funcin de regresin est
dada por:
= E[Y\
Y
|X1 , X2 ] = 0 + 1 X1 + 2 X2
Ingeniera Industrial

Regresin lineal mltiple

logo

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Interpretacin de los parmetros del modelo de RLM con


dos variables regresoras
0 : Respuesta media estimada cuando X1 = 0 y X2 = 0,
siempre y cuando el punto (0,0) est dentro del rango de valores
posible de X1 y X2 .
1 : Cambio en la respuesta media estimada por cada unidad
de incremento en la variable regresora X1 cuando la variable
regresora X2 se mantiene fija.
2 : Cambio en la respuesta media estimada por cada unidad
de incremento en la variable regresora X2 cuando la variable
regresora X1 se mantiene fija.
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Modelo de RLM General


Para el caso de (p-1)-variables regresoras X1 , X2 , , Xp1 , se
tiene que el modelo de RLM es:
yi = 0 + 1 xi1 + 2 xi2 + + p1 xi,p1 + i ,
con los supuestos de que los 0i s con i = 1, 2, , n, son independientes e identicamente distribuidos normales con media
cero y varianza constante, de donde la funcin de regresin est
dada por:
= E[Y |X1 , \
Y
X2 , , Xp1 ] = 0 + 1 X1 + 2 X2 + + p1 X(p1)
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Interpretacin de los parmetros del modelo de RLM general


0 : Respuesta media estimada cuando X1 = X2 = =
Xp1 = 0, siempre y cuando el punto (0, 0, , 0) est dentro
del rango de valores posible de X1 , X2 , , Xp1
j : Cambio en la respuesta media estimada por cada unidad
de incremento en la variable regresora Xj cuando las dems
variable regresoras X1 , X2 , , Xj1 , Xj+1 , , Xp1 se mantienen
fija.
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Modelo de RLM en Forma Matricial


Ahora se considerara el modelo de RLM en forma matricial.
Sea el modelo de RLM
yi = 0 + 1 xi1 + 2 xi2 + + p1 xi,p1 + i , i = 1, 2, , n
El modelo anterior se puede escribir en forma matricial como
sigue:


y1
1 x11 . . . x1,p1
0
1
y2 1 x21 . . . x2,p1 1 2


.. = ..
.. .. + ..
..
..
. .

.
.
.
. .
yn
1 xn1 . . . xn,p1
p1
n
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

es decir, que el modelo de RLM en forma matricial es:


Yn1 = Xnp p1 + n1
con N(0, 2 In ), donde
Y: Es el vector de respuestas
: Es el vector de parmetros
X: Es la matrix de diseo, con los valores de las variables predictoras en cada observacin.
: Es el vector de trminos de errores aleatorios.
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Estimadores de mnimos cuadrados para el modelo de RLM


en forma matricial
=
SCE = Q()

n
X

2i

i=1

n
X

(yi yi )2

i=1

)T (Y Y
)
= (Y Y
T (Y X)

= (Y X)

= (Y T T XT )(Y X)
= Y T Y Y T X T XT Y + T XT X
= Y T Y 2T XT Y + T XT X
Ingeniera Industrial

Regresin lineal mltiple

logo

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

con respecto a e igualando a


derivando parcialmente a Q()
0 se obtiene lo siguiente:

Q()
= 2XT Y + 2XT X = 0,

de donde,
XT X = XT Y ,
y si el rango de XT X es igual a p, es decir, es invertible, entonces
el vector estimado mediante mnimos cuadrados para es:
= (XT X)1 XT Y .
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Propiedades de los estimadores:


=
= (XT X)1 XT Y , es insesgado para , es decir E()
es el mejor estimador lineal-insesgado de en el sentido
de que = (XT X)1 XT Y , tiene varianza mnima entre todos los
estimadores insesgados de .
=
La matriz de varianzas-covarianzas de esta dada por Var ()
T
2
1
(X X)

logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Ejemplo: Considere la siguiente tabla y ajustar el modelo RLM


con 2 variables regresoras

logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Residuales
i . Por lo tanto, el vector
Los residuales corresponden a i = Yi Y
de residuales es:

1
2

i =
i = Y i Y
..
.
n

n1

logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Residuales
El vector de valores ajustados y el vector de residuales pueden
ser tambin expresados en trminos de la matriz H = X(XT X)1 XT
conocida como la matriz hat o matriz sombrero, la cual es una
matriz (n n) es simtrica1 e idempotente2 , a veces tambin
llamada matriz de proyeccin, asigna el vector de valores observados para el vector de valores ajustados.

logo

Anxn = Atnxn
2
A = A2
Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

En l se describe la influencia que cada valor observado tiene


en cada valor ajustado. Algunas igualdades importantes
\) = X
= E(Y
Y
= X(XT X)1 XT Y
= HY
Se puede mostrar que
= (I H)Y
=Y Y
y que
Var () = Var (I H)Y = 2 (I H)
Ingeniera Industrial

Regresin lineal mltiple

logo

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Mas propiedades
La suma cuadrtica de errores SCE se puede expresar de la
siguiente forma:
)T (Y Y
)
SCE = (Y Y
= (Y HY )T (Y HY )
= [(I H)Y ]T [(I H)Y ]
= Y T (I H)T (I H)Y
= Y T (I H)Y ,
pues I H tambin es simtrica e idempotente.
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Ahora, para la SCT se tiene que:


P
n
X
X
( yi )2
2
2
,
SCT =
(yi y ) =
yi
n
i=1

P 2
P
pero
yi = Y T Y y ( yi )2 = Y T JY , con J: matrix n n de
unos, luego se tiene que:
1
SCT = Y T Y Y T JY
 n  
1
T
=Y I
J Y.
n
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

para la SCR se tiene que:


SCR = SCT SCE
1
= Y T Y Y T JY (Y T Y Y T HY )
n
1
T
= Y HY Y T JY
n

  
1
T
=Y H
J Y.
n
Tambin se pueden verificar las siguientes dos igualdades:
1 T
Y JY .
n
SCE = Y T Y T XT Y .

SCR = T XT Y

Ingeniera Industrial

Regresin lineal mltiple

logo

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

Tabla de Anlisis de varianza en forma matricial para el modelo de RLM


La tabla ANOVA para el modelo de RLM queda de la siguiente
forma:
F.V
Regresin
Error
Total

G.L
p-1
n-p
n-1

SS
SCR
SCE
SCT

MS
CMR
CME
CMT

Fc =

Est. F
F(p1,np)

CMR
CME

logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD

Contenido
1

Introduccin

Vector Aleatorio

Regresin Lineal Mltiple

SUPUESTOS EN LA REGRESIN MLTIPLE


NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD

NORMALIDAD
El perfil de la distribucin de los datos se corresponde con una
distribucin normal. Si la variacin respecto de la distribucin
normal es amplia, los tests estadsticos resultantes no son vlidos, dado que se requiere la normalidad para el uso de los estadsticos de la t y de la F. La normalidad univariante ayuda a
obtener normalidad multivariante, pero no la garantiza. La normalidad multivariante implica que las variables individuales son
normales. Cmo evaluarla?
1. Grfico de probabilidad normal de los residuos
2. Test de Shapiro sobre los residuos estandarizados
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD

NORMALIDAD
El perfil de la distribucin de los datos se corresponde con una
distribucin normal. Si la variacin respecto de la distribucin
normal es amplia, los tests estadsticos resultantes no son vlidos, dado que se requiere la normalidad para el uso de los estadsticos de la t y de la F. La normalidad univariante ayuda a
obtener normalidad multivariante, pero no la garantiza. La normalidad multivariante implica que las variables individuales son
normales. Cmo evaluarla?
1. Grfico de probabilidad normal de los residuos
2. Test de Shapiro sobre los residuos estandarizados
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD

Contenido
1

Introduccin

Vector Aleatorio

Regresin Lineal Mltiple

SUPUESTOS EN LA REGRESIN MLTIPLE


NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD

LINEALIDAD
Supuesto implcito en todas las tcnicas multivariantes basadas
en medidas de correlacin. Resulta necesario identificar cualquier
desplazamiento de la linealidad que pueda impactar la correlacin.
Cmo evaluarla? Examen visual de los residuos y Grfico de
regresin parcial.

logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD

Contenido
1

Introduccin

Vector Aleatorio

Regresin Lineal Mltiple

SUPUESTOS EN LA REGRESIN MLTIPLE


NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD

HOMOSCEDASTICIDAD
Varianza constante del trmino de error. Se refiere al supuesto
de que las variables dependientes exhiban iguales niveles de
varianza a lo largo del rango de los valores de las variables independientes. Cmo evaluarla?
1. Examen visual de los residuos .
2. Test de Barlett.

logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD

HOMOSCEDASTICIDAD
Varianza constante del trmino de error. Se refiere al supuesto
de que las variables dependientes exhiban iguales niveles de
varianza a lo largo del rango de los valores de las variables independientes. Cmo evaluarla?
1. Examen visual de los residuos .
2. Test de Barlett.

logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD

Contenido
1

Introduccin

Vector Aleatorio

Regresin Lineal Mltiple

SUPUESTOS EN LA REGRESIN MLTIPLE


NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD

EVALUACIN DE LA MULTICOLINEALIDAD
Situacin ideal: Tener una cantidad de variables independientes
altamente correlacionadas con la variable dependiente, pero con
poca correlacin entre s.
Multicolinealidad: correlacin entre tres o ms variables independientes, sus efectos son:
La multicolinealidad reduce el poder predictivo de cualquier variable independiente individual, en la medida en que est asociado con las otras variables independientes.
A mayor colinealidad, la varianza nica explicada por cada variable independiente se reduce y el porcentaje de prediccin compartida aumenta.
logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD

logo

Ingeniera Industrial

Regresin lineal mltiple

Introduccin
Vector Aleatorio
Regresin Lineal Mltiple
SUPUESTOS EN LA REGRESIN MLTIPLE

NORMALIDAD
LINEALIDAD
HOMOSCEDASTICIDAD
EVALUACIN DE LA MULTICOLINEALIDAD

Referencias
Probabilidad y estadstica (para ingeniera y ciencias). Lay l. Devore, 2008, 7 Edition.
Montgomery D.C. Design and Analysis of Experiment. Limusa
Wiley, 2001, 5 Edition.
Montgomery D.C y Runger G.C. Probabilidad y Estadstica Aplicadas a la Ingeniera. 2003, tercera edicin.

logo

Ingeniera Industrial

Regresin lineal mltiple

Vous aimerez peut-être aussi