Académique Documents
Professionnel Documents
Culture Documents
Datosbidimensionales
Tablas,grficos,estadsticosbidimensionales
Mtododemnimoscuadrados
Regresinlinealsimple
Regresinlinealmltiple
Regresinnolineal
Idoneidaddelmodelo
Medidasdelacalidaddelajuste
MaterialelaboradoporM.DoloresFras,JessFernndezyCarmenM.Sordo
profesoresdelDptodeMatemticaAplicadayC.C.delaUniversidaddeCantabria
Datosbidimensionales
Los mtodos vistos hasta ahora solo permiten trabajar con datos
unidimensionales.
Siseanalizanlasvariablesporseparadosepierdeinformacinsobrela
distribucindefrecuenciasconjunta.
{(x1,y1),(x2,y2),...,(xn,yn)}
Ejemplo
Pesoyalturadeunamuestradepersonas
Altura
(cm)
Peso
(kg)
160 165 168 170 171 175 175 180 180 182
55
58
58
61
67
62
66
74
79
79
Datosbidimensionales
La relacin entre dos variables (X, Y) se puede estudiar
mediantetablas.
Distribucindefrecuenciasconjuntaymarginalesdelaaltura
yelpesode20personas.
ALTURA
PESO 155160 160165 165170 170175175180
5060
1
3
0
0
0
6070
0
2
3
0
0
7080
0
1
2
0
0
8090
0
0
1
2
2
90100
0
0
2
0
1
TOTAL
TOTAL
4
5
3
5
3
Tambin se puede
expresar la tabla en
funcin
de
las
frecuencias relativas, sin
msquedividirentren.
20
Rtip
table(cut(Peso,seq(50,100,10)),cut(Altura,seq(155,180,5)))
Diagramadedispersin
La forma ms sencilla de representar grficamente datos
bidimensionales es mediante los diagramas de
dispersin,que representa los pares de datos de la muestra
sobreunosejescartesianos.
Ejemplo
Se observa que cuando la altura aumenta el
pesoaumenta.
Existe una relacin lineal directa entre las
variables.
Rtip
plot(Peso,Altura,ylab="Altura(cm)",xlab="Peso(Kg)")
Diagramadedispersin
La forma ms sencilla de representar grficamente datos
bidimensionales es mediante los diagramas de
dispersin,que representa los pares de datos de la muestra
sobreunosejescartesianos.
Y
Correlacinlineal
Es posible cuantificar la relacin lineal entre los datos
tomados de dos variables mediante el coeficiente de
correlacin:
dondeS
(x,y)eslacovarianzamuestral.
n
Toma valores entre 1 (dependencia
directa)y1(dependenciainversa).
Siseacercaa0ladependencialineal
esdbil.
Rtip
cor.test(X,Y)
Ejercicio
Regresin
En la prctica surge con frecuencia la necesidad de tener
que relacionar un conjunto de variables a travs de una
ecuacin(ej,elpesodeunaspersonasconsualtura).
La regresin es una tcnica estadstica que permite
construir modelos que representan la dependencia entre
variables o hacer predicciones deunavariableY en funcin
delasobservacionesdeotras(X1,...,Xp).
Yeslavariablerespuestaodependiente
X1, ..., Xp son las variables predictoras, independientes o
covariables
eseltrminodeerrorquesesuponeconmediaceroyvarianza
constante.
Regresin
Las ecuaciones ms comunes que se utilizan para expresar estas
relacionesson:
Lineal
Y
Cuadrtica
Polinmica
Logartmica
Exponencial
Potencial
Regresinlineal
Una vez seleccionado el modelo (lineal en nuestro caso) a
ajustarapartirdelasobservacionesdeunamuestraseest
interesadoenestimarlosparmetrosdedichomodelo(i).
Rectademejorajuste?
Regresinlinealsimplepormn.c.
Enelcasomssencillo,regresinlinealsimple,laecuacin
nosdaunaestimacindey,siendoelerrorquesecomete,
Enestecasoaybseeligendemaneraque,
2
E
Y
yk
k=yk ^y
seamnimo
^y
k
Ejercicio
Rtip
lm(Y~X)
Ejercicio
Modelosnolineales
El mtodo de mnimos cuadrados permite obtener la mejor recta de
ajustealosdatosenelcasodelaregresinlineal.
Sin embargo, no siempre existe una relacin lineal entre la variable
dependiente e independiente y muchos modelos noson lineales en los
parmetros,impidiendoelusodelmtododemnimoscuadrados.
Enalgunoscasosesposibleaplicartransformacionesparaexpresarlos
datos en una forma compatible con la regresin lineal. Este es el caso
delmodeloexponencialydepotencias.
Exponencial
Potencial
Modelosnolineales
Exponencial
Linealizacin
ln(Y)
Modelosnolineales
Potencial
Linealizacin
XX
ln(Y)
ln(X)
Modelosnolineales
Ejemplo
Ajuste los datos siguientes con el modelo de potencias y aplique una
transformacinlogartmicaparaestimarlosparmetrosdedichomodelo.
Uselaecuacinresultanteparahacerelpronsticoparax=9
x
2.5
3.5
7.5
10
12.5
15
17.5
20
13
11
8.5
8.2
6.2
5.2
4.8
4.6
4.3
Modelosnolineales
Ejemplo
Ajuste los datos siguientes con el modelo de potencias y aplique una
transformacinlogartmicaparaestimarlosparmetrosdedichomodelo.
Uselaecuacinresultanteparahacerelpronsticoparax=9
x
2.5
3.5
7.5
10
12.5
15
17.5
20
ln(x) ln(y)
13
11
8.5
8.2
6.2
5.2
4.8
4.6
4.3
0.92
2.56
1.25
2.40
1.61
2.14
1.79
2.10
2.01
1.95
2.30
1.82
2.53
1.65
2.71
1.57
2.86
1.53
3.00
1.46
Parax=9:
Rtip
Modelosnolineales
#Definicindevariables
v1<c(2.5,3.5,5,6,7.5,10,12.5,15,17.5,20)
v2<c(13,11,8.5,8.2,7,6.2,5.2,4.8,4.6,4.3)
xval<9
x<log(v1)
y<log(v2)
#Calculoregresinlineal
fit<lm(y~x)
a<fit$coeff[1]
b<fit$coeff[2]
#Funcionespotencialyrecta
fx<function(x,a,b)exp(a)*x^b
fxrecta<function(x,a,b)a+b*x
#Plots
pdf("figura.pdf",width=7,height=3)
par(mfrow=c(1,2),mar=c(4,4,1,1))
plot(v1,v2,xlab="v1",ylab="v2",type="n")
curve(fx(x,a,b),col="blue",lwd=4,add=TRUE)
points(v1,v2,pch=19,col="red")
points(xval,fx(xval,a,b),pch=3,lwd=4,col="black")
plot(x,y,xlab="log(v1)",ylab="log(v2)",type="n")
curve(fxrecta(x,a,b),col="blue",lwd=4,add=TRUE)
points(x,y,pch=19,col="red")
dev.off()
Medidasdelaidoneidaddelmodelo
Todalainformacinsobrelafaltadeajustedelmodeloest
contenidaenlosresiduos.
Un diagrama de los residuos frente a los valores predichos
nossirveparadetectarposiblesdesviacionesdelashiptesis
departida:valormedioceroyvarianzaconstante.
e
Errorestpicoscuandoelmodelonoeseladecuado:
e
^
y
Caso ideal: media cero y
varianzaconstante
^
y
Varianzanoconstante
^
y
Dependenciasistemtica
Medidasdelacalidaddeajuste
Es posible cuantificar la bondad del ajuste realizado en la
regresin lineal simple al aplicar el mtodo de mnimos
cuadradosmediantelassiguientesmagnitudes:
Errorestandardelaestimacin,Se:
Cuantificaladispersindelosdatosalrededordelalneaderegresin.
Sedivideentren2yaqueseusarondosdatosestimados(0y1)paracalcularE2.
Coeficientedecorrelacin,r:
Cuantificalarelacinlinealentredosvariables.
Medidasdelacalidaddeajuste
Es posible cuantificar la bondad del ajuste realizado en la
regresin lineal simple al aplicar el mtodo de mnimos
cuadradosmediantelassiguientesmagnitudes:
Coeficientededeterminacin,r2:
Medidadelabondaddelajustelineal.Indicalafraccindevariacinexplicadaporla
rectaderegresinrespectoalavariacintotal.
Y
yk
_ Variacin
yky total
_
y
^y
k
yk ^y Variacinno
k
explicada
_
^y y Variacin
k
explicada
Tomavaloresentre0y1.
Cuantomsprximoa1mejorserelajustelinealy
cuantomsproximoa0peor.
Coincideconelcuadradodelcoeficientedecorrelacin
X
Ejercicio