Académique Documents
Professionnel Documents
Culture Documents
1. Introdu in
2.1.
2.2.
2.3.
. . . . . . . . . . . . . . . . . . . .
2.3.1.
Criterios de signi an ia . . . . . . . . . . . . . . . . . . .
3. Anlisis exploratorio
4.2.
11
4.3.
4.4.
11
. . . . . . . . . . . . . . . . . .
12
Transforma iones . . . . . . . . . . . . . . . . . . . . . . .
13
5. Con lusiones
13
1.
Introdu
in
Mediante el ajuste de un modelo lineal mltiple, se analiza la base de datos
sex=
status=
los padres
income=
verbal=
gamble=
El objetivo general de esta a
tividad,
onsiste en
onstruir un modelo de regresin lineal mltiple del gasto en juegos de azar sobre las dems variables de la
base de datos, apli
ando un mtodo de sele
in de variables.
Un modelo de regresin lineal mltiple, permite representar la dependen
ia
de una variable
variables
intenta prede
ir y des
ribir la rela
in del gasto en juegos de azar en fun
in de la
puntua
in so
ioe
onmi
o, la renta, y la
ali
a
in verbal, adems determinar
si esta rela
in es similar para hombres y mujeres. En este
aso, la variable
X1 , X2 , X3 , X4
respe tivamente.
La utilidad de disponer de un modelo de regresin lineal mltiple que represente la variable de respuesta segn las variables expli
ativas, es permitir
prede
ir el gasto en juegos de azar
uando se
ono
e la puntua
in so
ioe
onmi
o, la renta, y la
ali
a
in verbal, y el sexo del jugador. Adems permite
determinar la rela
in entre la variable de respuesta gasto y las variables expli
ativas.
Despus de la introdu
in al do
umento, se presenta la formaliza
in del
problema a estudiar y su nota
in, seguido se realiza una primera explora
in
del problema, mediante t
ni
as estadsti
as univariadas y bivariadas, despus
se apli
a una t
ni
a de sele
in de variables y se estiman los parmetros del
modelo de regresin lineal mltiple para tratar de ajustar y des
ribir los gastos
en juegos de azar segn las variables re
omendadas por el mtodo de sele
in.
Adems, se analiza la bondad del modelo para prede
ir y tambin las rela
iones
que des
ribe el modelo entre las variables expli
ativas y la variable de respuesta.
Posteriormente, se estiman intervalos de
onanza, se realiza un estudio de
la des
omposi
in de la varianza y se plantean y veri
an las hiptesis que
2.
Y = 0 + 1 X1 + 2 X2 + ......... + p1 Xp1 +
donde
Y,
0 , ...., p1 son
Yi
i-simo
individuo, y a
el
error aso
iado a di
ho individuo. Utilizando la nota
in ve
torial para des
ribir
la muestra y los parmetros del modelo, nos fa
ilitara expresar el modelo de
regresin lineal mltiple de forma matri
ial. Sea
ve
tor la (de la matriz
X)
el
= (0 , ...., p1 ) el ve
tor
de
oe
ientes, la fun
in de regresin se puede expresar para el i-simo indivi-
Y = XB+
donde
que ontiene
np
es un ve tor que ontiene los errores y veri a que tiene una distribu in
Y = 0 + 1 X1 + 2 X2 + ......... + p1 Xp1 +
donde se veri
a la linealidad en los parmetros del modelo.
Homo
edasti
idad: La varianza del error es la misma
ualquiera que sea el
2
valor de la variable expli
ativa: V ar(/xi,1 , xi,2 , ..., xi,p1 ) = v para todo
i = 1, ...., n.
Normalidad: El error tiene distribu
in normal
on media igual a
ero y
2
varianza igual a
v .
Independen
ia: Las variables aleatorias que representan los errores 1 , ..., n
son mutuamente independientes.
Las variables expli
ativas
x1 , x2 , ..., xp1
=2 ln(verosimilitud) + 2p
El Criterio de Informa
in de Bayes (BIC):=2 ln(verosimilitud) + p ln(n)
El Criterio de Informa
in de Akaike (AIC):
3.
Anlisis exploratorio
Para ini
iar el anlisis exploratorio en R, primero
argamos la librera en la
Y (gastos)
X2 (rentas)
Observando la Figura2, se puede rearmar lo antes expuesto sobre las distribu
iones de las dos variables, estas son asimtri
as
on sesgo a la dere
ha y para
el
aso de la variable de respuesta
expli
ativa
X2
Para orregir la asimetra de los datos, se apli a una transforma in logartmi a tanto a la variable
omo a la variable
X2 ,
X2
pero onsiderando
lg(Y )(gastos)
lg(X2 )(rentas)
Una vez estudiada las variables mediante t
ni
as y gr
os estadsti
os univariados,
ontinuaremos el estudio exploratorio apli
ando ahora t
ni
as bivariadas tales
omo gr
os de dispersin y el anlisis de
orrela
in entre parejas
de variables.
En la Figura 4, se presenta el gr
o de dispersin para todas las variables.
Al pare
er, en este estudio se tiene que los hombres tienden a gastar ms en
juego que las mujeres. Adems, las variables verbal (X3 ) y el estado(X1 ) pare
e
que puede tener una
orrela
in positiva,
on respe
to a los gasto en el juego y
los ingresos se observa que pueden tambin estar
orrela
ionadas.
y variable verbal (0 56), as tambin la rela in entre las variables gasto y renta
de
los
jugadores",
xlab="(libras
por
sema-
na)",ylab="Cantidad de Jugadores")
hist(y,main="Gasto de los jugadores", xlab="(libras por ao)",ylab="Cantidad
de Jugadores")
boxplot(x2) title("Variable X2 (Renta)")
boxplot(y) title("Variable Y (Gastos)")
par(mfrow=
(2,2))
hist(log(x2),main="Logaritmo
de
la
Renta",
xlab="(libras
por
sema-
na)",ylab="Cantidad de Jugadores")
hist(log(y),main="Logaritmo
del
Gasto",
xlab="(libras
por
ao)",ylab="Cantidad de Jugadores")
y=log(y)
x2=log(x2)
boxplot(x2)
title("Variable log (X2) (Renta)")
boxplot(y) title("Variable log (Y) (Gastos)")
#Gr
os de dispersin por parejas
base<-
bind(y,x1,x2,x3,x4)
pairs(base,
ol=as.numeri
(x4)+2)
#gr
o de dispersin de las variables Gasto vs. Renta
plot(x2,y,
ol=ifelse(x4=="Mujer","blue","green"),
main="Digrama de dispersi
n Gasto(y) vs. Renta(x2)",
xlab="Renta(libras por semana)",ylab="Gasto (Libras por ao)" )
(0'31).
La
orrela
in entre el gasto y el ingreso tiene sentido, porque las personas
que ganan ms dinero tienen ms para gastar en el juego. En la Figura 6 y 7, se
presentan los gr
os de dispersin de las variables gasto y la renta y adems
se muestra esta misma rela
in por sexo.
Se observa
laramente que los hombres tienen un
omportamiento de gasto diferente que el de las mujeres y que posiblemente exista un fenmeno de
onfusin entre ellos. Con esto
on
luimos el anlisis preliminar de estos datos.
4.
X2
en el modelo general.
Para obtener los
oe
ientes del inter
epto y la pendiente de la re
ta de regresin
para las mujeres, solo se suma a los
oe
ientes de la re
ta de regresin de los
hombres los
oe
ientes de la variable
X4
X2 X4
Y = 0 + 1 X2 + 2 X2 X4 + .
En la Figura 10, se presenta el resumen del nuevo modelo. Se puede observar
que se ha ganado signi
an
ia para la variable de la intera
in (0'000181) y se
ha mejorado un po
o para la variable renta (0'001255), por otro lado se tiene
que el inter
epto no es signi
ativo. Adi
ionalmente podemos observar un mejor
oe
iente de determina
in y error estndar
on respe
to a modelo anterior de
1'665 y 34 % respe
tivamente.
Finalmente, en la Figura 11 se presenta el resumen del modelo donde no se
onsidera el inter
epto. Se veri
a que el error estndar ha aumentado a 1'695
y que el
oe
iente de determina
in ajustado ha aumentado tambin a 58 %.
El modelo ajustado es Y = 1 X2 + 2 X2 X4 + que representa el ajuste
lineal de una re
ta para
ada sexo
uyo inter
epto es
ero. Para tener una mejor
interpreta
in de los resultados se realizar un ajuste lineal simple para
ada sexo
(ver Figura 12) y se
ontrasta
on el resultado obtenido en la Figura 11.
Los ajustes lineales para el
aso de hombres y mujeres es respe
tivamente:Yh
1 67X2
Ym = 0, 27X2,
10
Y = 0 + 1 X2 + 2 X2 X4 +
Modelo A:Y
= 0 +1 X2 + 2 X2 X4 +
Modelo B:Y
= 1 X2 + 2 X2 X4 +
En la Figura 14, se puede apre
iar en primer lugar la
ompara
in del modelo
Step
on el modelo A, y se
on
luye que la variable
4.3. Intervalos de
onanza para los
oe
ientes del modelo, media
ondi
ionada y predi
iones
Una vez en
ontrado el mejor modelo que este
aso es un modelo de regresin
lineal simple
on inter
epto igual a
ero para los hombres y haber
ontrastado
todas pruebas de hiptesis sobre los
oe
ientes del modelo, ahora pro
edemos a
realizar la estima
in de un intervalo de
onanza para la pendiente de la re
ta,
11
adems se
onstruye una rejilla de valores de la variable expli
ativa y se representan los intervalos de
onanza para la estima
in de la media
ondi
ionada
y para la predi
in. Las expresiones utilizadas para los intervalos de
onanza
respe
tivamente son:
b + t(n2,a/2) bsv
;
1 : b1 =t(n,2,a/2) Sxbsv
1
n
Sx n
c0 =t(n,2,a/2) bsv; Yc0 + t(n2,a/2) bsv , donde n0 =
E(Y /X = x0 ) : Y
n0
n0
q
c0 =t(n,2,a/2)
c0 )= Y
E(Y
bv 1 +
n
1+
(x0
x)2
2
Sx
1 c
n0 ; Y 0
q
+ t(n2,a/2)
bv 1 +
1
n0
, donde
1+
(x0
x)2
2
Sx
n0 =
X2
X2 ,
se obtienen sustituyendo
pero se observa que los intervalos de
onanza para la media
ondi
iona son
ms pequeos que para la predi
in y esto se debe a la pre
isin de estas
estima
iones que es distinta.
4.4. Valida
in del modelo y
omproba
in de las hiptesis bsi
as del modelo de regresin lineal, as
omo
identi
a
in de observa
iones atpi
as y/o inuyentes
Una vez ajustado el modelo de regresin lineal, el siguiente paso es veri
ar
las siguientes hiptesis bsi
as:
Linealidad
Homo
edasti
idad
Normalidad
Independen
ia
Para realizar la diagnosis del modelo lineal se utilizara los residuos studentizados, esto debido a que estos tienen varianza ms pare
ida entre ellos que los
residuos originales que no tienen la misma varianza.
Para
omprobar las hiptesis bsi
as del modelo as
omo la identi
a
in
de observa
iones atpi
as y/o inuyentes podemos re
urrir a la Figura 16, y
adems podemos usar el
ontraste de normalidad de Shapiro-Wilk y para la
independen
ia de los errores el test de Durbin-Watson. Como se se puede observa
12
en la Figura 16, tenemos problemas
on todas las hiptesis bsi
as del modelo,
en base al primer gr
o y el ter
er gr
o de los residuos y los raz
uadrada
de los residuos estandarizados versus los valores estimados podemos de
ir que
se
umple par
ialmente la hiptesis de linealidad y de homo
edasti
idad en el
modelo, el segundo gr
o Normal Q-Q nos indi
a una tenden
ia par
ial de los
puntos sobre los re
ta, lo
ual indi
a que no existe normalidad en los errores,
mientras el ltimo gr
o sobre las distan
ias de Cook, veri
a que no existen
observa
iones atpi
os y/o inuyentes. Para veri
ar lo men
ionado, se apli
an
las
orrespondientes pruebas de hiptesis para el modelo.
Apli
ando el
ontraste de Shapiro-Wilk se tiene un nivel de signi
an
ia de
la prueba de 0'01086 y para el
ontraste de Durbin-Watson se tiene un nivel de
signi
an
ia de 0'4094, por lo que podemos
on
luir que los errores no siguen
una distribu
in normal para un nivel de signi
an
ia de 5 % y en el
aso de la
independen
ia de los errores se a
epta que no existe rela
in lineal.
5.
Con
lusiones
Se observa
laramente que los hombres tienen un
omportamiento de gasto
diferente que el de las mujeres y que existe un fenmeno de
onfusin entre
ellos.
Podemos
on
luir que un modelo de regresin lineal simple sin inter
epto
donde
onsidere la variable de respuesta el gasto y la variable de expli
a
in la renta
omo se re
omienda una vez observado los niveles de signi
an
ia de los
oe
ientes y apli
ado el mtodo Ba
kward de sele
in
13
14
15
(Y )
y renta
(X2 )
(Y )
sexo
16
y renta
(X2 )
por
X4
Figura 11: Resumen del modelo solo onsiderando la variable renta y la intera in
17
Figura 17: Veri a in de los supuestos para el modelo de los hombres onsiderando una transforma in de raz uadrada
18
Figura 18: Veri a in de los supuestos para el modelo de las mujeres onsiderando una transforma in de raz uadrada
19