Vous êtes sur la page 1sur 42

Estadstica basica

con el paquete estadstico R


2: Regresion
Lineal con R
Sesion
Vctor M. Casero Alonso

Operativa
Area
de Estadstica e Investigacion
UCLM
27 de Septiembre de 2012

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 1 / 34
Sesion


Introduccion

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables

lineal?
Regresion
matematica

Determinar una funcion


sencilla (lineal) que
describa el comportamiento de una variable dados los
valores de otra u otras variables

Data Frame

Regresion=Relaci
on?

Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones

arterial?
entre el pulso de un paciente y su presion

entre el peso de una madre y el de su hijo/a recien


nacido/a?
con el?
entre el color de mi coche y mi satisfaccion
lineal? regresion
de otro tipo?
siempre regresion

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 2 / 34
Sesion

Contenidos

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes

Datos Bivariantes.
Datos Multivariantes.
entre dos Variables.
Correlacion

entre
Correlacion
dos variables
Data Frame
Ejercicios
Lineal
Regresion

Diagramas de Dispersion.
de Pearson.
Coeficiente de Correlacion

Data Frame.
Lineal.
Regresion

El modelo lineal en R

Ejercicios

Recta de Regresion.
de los Coeficientes de Regresion.

Estimacion

Conclusiones

El modelo lineal en R.

lm().

Prediccion.

Analisis
de residuos.

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 3 / 34
Sesion


Introduccion
Contenidos
Datos Bivariantes
Datos Bivariantes
Resumen de

Datos Categoricos

Resumen Grafico
de Tablas
Datos Multivariantes
entre
Correlacion
dos variables

Datos Bivariantes

Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 4 / 34
Sesion

Datos Bivariantes

Introduccion
Contenidos
Datos Bivariantes
Datos Bivariantes
Resumen de

Datos Categoricos

Resumen Grafico
de Tablas
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones

Los datos bivariantes son aquellos formados por dos


caractersticas/variables, entre las que puede o no existir una
medidas en un conjunto de individuos.
relacion,
La variable que representa el estudio conjunto de esas dos
caractersticas/variables se denota por (X,Y) y recibe el
nombre de variable estadstica bidimensional
Ejemplos:
arterial, peso/altura, presupuesto/personal,
pulso/tension

color/satisfaccion...
Casos posibles:

Categorica
vs. Categorica

Categorica
vs. Numerica

Numerica
vs. Numerica

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 5 / 34
Sesion

Datos Bivariantes

Introduccion
Contenidos
Datos Bivariantes
Datos Bivariantes
Resumen de

Datos Categoricos

de un cliente acerca de un producto:


Ejemplo: Impresion
1) en el momento inicial y
de haberlo probado:
2) despues

Resumen Grafico
de Tablas
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

cliente
1
2
3
4
5
6
7
8
9
10

Inicial
mala
mala
buena
mala
mala
buena
mala
buena
buena
mala

Prueba
buena
mala
buena
buena
mala
buena
mala
mala
buena
buena

2. Vctor Casero 5 / 34
Sesion

Datos Bivariantes

Introduccion
Contenidos
Datos Bivariantes
Datos Bivariantes
Resumen de

Datos Categoricos

Resumen Grafico
de Tablas
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios
Lineal
Regresion

como:
En ambos casos podemos registrar dicha informacion

"buena" o "mala" Datos categoricos


o

1 o 0 Datos numericos.
En R:

Datos categoricos:
>inicial<-c("mala","mala","buena",...)

Datos numericos:
>prueba<-c(1,0,1,...)

El modelo lineal en R
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 5 / 34
Sesion


Resumen de Datos Categoricos

Introduccion
Contenidos
Datos Bivariantes
Datos Bivariantes
Resumen de

Datos Categoricos

Resumen Grafico
de Tablas
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones

Se han resumido los datos univariantes mediante medidas


distribucion,
medidas de
de tendencia central, dispersion,
1)
apuntamiento, asimetra ... (Sesion
>summary(inicial)
>summary(prueba)

Como
resumir datos bivariantes?
entre la impresion
inicial y tras la prueba:
Relacion
Frecuencias absolutas: >table(inicial,prueba)
En porcentajes: >resumen<+ table(inicial,prueba)/length(prueba)*100
Distribuciones Marginales:
- por filas: >margin.table(resumen,1)
- por columnas: >margin.table(resumen,2)
- ambas: >addmargins(resumen)

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 6 / 34
Sesion


Resumen Grafico
de Tablas

Introduccion
Contenidos
Datos Bivariantes
Datos Bivariantes
Resumen de

Datos Categoricos

Resumen Grafico
de Tablas
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R

barplot permite representar una tabla resumen de datos


bivariantes.
>barplot(resumen)
Cada columna de la tabla se representa por columnas. Para
representar las filas bastara con trasponer la tabla, t():
>barplot(t(resumen))
de etiquetas:
Asignacion
>barplot(t(resumen),
+ xlab="% Impresion Inicial",
legend.text=TRUE)

Ejercicios
Conclusiones

del grafico:

Segmentacion
>barplot(t(resumen),
+ xlab="% Impresion Inicial", beside=TRUE)

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 7 / 34
Sesion


Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
Datos
Multivariantes
entre
Correlacion
dos variables
Data Frame

Datos Multivariantes

Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 8 / 34
Sesion

Datos Multivariantes

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
Datos
Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios
Lineal
Regresion

Se habla de datos multivariantes cuando se dispone de mas


de dos variables a estudiar.

Como
estudiarlas?
... por parejas
...
... todas a la vez
Descriptivamente pueden representarse por parejas o por

trios (dificil visualizacion).

El modelo lineal en R
Ejercicios
Conclusiones

Para averiguar relaciones entre dos variables se puede


lineal... entre mas
de dos variables... la
utilizar la regresion
lineal multiple.
regresion

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 9 / 34
Sesion

Datos Multivariantes

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
Datos
Multivariantes
entre
Correlacion
dos variables
Data Frame

Ejemplo: En un proceso de laboratorio cada muestra es


de cuatro de sus cualidades mas

sometida a la medicion
importantes. El fichero Variables.Rdata contiene la
de estas cuatro variables para 100 muestras
medicion
distintas.
>load("Variables.Rdata")
>ls()

Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones

summary(...) nos da el resumen de cada


La funcion
variable.
Podemos comparar los histogramas de cada variable:
>hist(Var1)
>hist(...)
de variables mediante graficos

Comparacion
boxplot:
>boxplot(Var1,Var3)
>boxplot(Var1,Var2,Var3,Var4)

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 9 / 34
Sesion


Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
entre
Relacion

Variables Numericas
Coeficiente de
de
Correlacion
Pearson

entre dos variables


Correlacion

Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 10 / 34
Sesion

entre Variables Numericas

Relacion

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
entre
Relacion

Variables Numericas
Coeficiente de
de
Correlacion
Pearson
Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones

permite descubrir relaciones entre


El diagrama de dispersion

parejas (bivariante) de variables numericas.


>plot(Var1,Var2)
>plot(Var1,Var3)
>plot(Var1,Var4)

Si deseamos anadir
a estos graficos
bidimensionales el
punto con las coordenadas de las medias:
>plot(Var1,Var3)
>points(mean(Var1),mean(Var3),cex=5,pch=10)

Para anadir
un eje vertical sobre la media de Var1:
>lines(c(mean(Var1),mean(Var1)),
+ c(min(Var3),max(Var3)),lty=2)

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 11 / 34
Sesion

de Pearson
Coeficiente de Correlacion

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
entre
Relacion

Variables Numericas
Coeficiente de
de
Correlacion
Pearson
Data Frame

de Pearson:
Coeficiente de Correlacion
P
(xi x
)(yi y)
r(x, y) = pP
P
2
(yi y)2
(xi x
)
Para variables altamente relacionadas linealmente, los

valores de r seran:
Cercanos a 1 para relaciones directas.
Cercanos a 1 para relaciones inversas.

Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios

cercanos a 0 muestran la
Los valores de correlacion
lineal, aunque pueden existir otros
ausencia de relacion
tipos de relaciones.

Conclusiones

En R:
>cor(Var1,Var3)

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 12 / 34
Sesion

de Pearson
Coeficiente de Correlacion

2.2

entre
Correlacion
dos variables
entre
Relacion

Variables Numericas
Coeficiente de
de
Correlacion
Pearson

2.0

Datos Multivariantes

1.8

Datos Bivariantes

de Pearson:
Coeficiente de Correlacion
P
(xi x
)(yi y)
r(x, y) = pP
P
2
(yi y)2
(xi x
)

Data Frame

Lineal
Regresion

Var3

Ejercicios

1.6

Contenidos

1.4

Introduccion

Conclusiones

1.0

Ejercicios

1.2

El modelo lineal en R

1.0

1.2

1.4

1.6

1.8

2.0

Var1

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 12 / 34
Sesion

de Pearson
Coeficiente de Correlacion

11.0

entre
Correlacion
dos variables
entre
Relacion

Variables Numericas
Coeficiente de
de
Correlacion
Pearson

10.8

Datos Multivariantes

10.6

Data Frame

Lineal
Regresion
El modelo lineal en R
Ejercicios

9.8

Conclusiones

Var2

Ejercicios

10.4

Datos Bivariantes

de Pearson:
Coeficiente de Correlacion
P
(xi x
)(yi y)
r(x, y) = pP
P
2
(yi y)2
(xi x
)

10.2

Contenidos

10.0

Introduccion

1.0

1.2

1.4

1.6

1.8

2.0

Var1

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 12 / 34
Sesion

de Pearson
Coeficiente de Correlacion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
entre
Relacion

Variables Numericas
Coeficiente de
de
Correlacion
Pearson

de Pearson:
Coeficiente de Correlacion
P
(xi x
)(yi y)
r(x, y) = pP
P
2
(yi y)2
(xi x
)

8.0

Introduccion

Data Frame

7.5

Lineal
Regresion

Var4

Ejercicios

El modelo lineal en R

Conclusiones

7.0

Ejercicios

1.0

1.2

1.4

1.6

1.8

2.0

Var1

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 12 / 34
Sesion


Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Data Frame
Funciones sobre
Data Frame
Acceso a Datos
en un Data Frame

Data Frame

Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 13 / 34
Sesion

Data Frame

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Data Frame
Funciones sobre
Data Frame
Acceso a Datos
en un Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones

de diferentes
Los datos estadsticos contienen informacion
sujetos, agrupada en variables.
usual de ordenar estos datos es, sujetos
La forma mas
ordenados por filas y variables ordenadas por columnas.
>Datos<-data.frame(Var1,Var2,Var3,Var4)
>str(Datos)
>names(Datos)
Para acceder a una variable del data frame Datos:
>Datos$Var1
Para guardar y cargar un data frame:
>save(Datos,file="Datos.Rdata")
>load("Datos.Rdata")

Observacion:
>length(Datos) es diferente a >dim(Datos)

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 14 / 34
Sesion

Funciones sobre Data Frame

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables

Para obtener los diagramas boxplot de todas las variables de


un data frame:
>boxplot(Datos)
de algunas:
o solo
>boxplot(Datos$Var1,Datos$Var3)

Data Frame
Data Frame
Funciones sobre
Data Frame
Acceso a Datos
en un Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios

pairs genera los graficos

de todas
La funcion
de dispersion
las parejas de un data frame:
>pairs(Datos)
Para obtener la matriz de correlaciones de las variables del

data frame (todas deben ser numericas):


>cor(Datos)

Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 15 / 34
Sesion

Acceso a Datos en un Data Frame

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables

Para acceder a los datos de un data frame usaremos los


ndices []:
>Datos[fila,columna]
>Datos[fila,]
>Datos[,columna]

Data Frame
Data Frame
Funciones sobre
Data Frame
Acceso a Datos
en un Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R

attach(...) genera una copia local de los


La instruccion
datos permitiendo acceder a las variables de un data frame
mediante sus nombres directamente:
>attach(Datos)
>ls()
>Var1

Ejercicios
Conclusiones

Las modificaciones sobre la copia temporal no se


Atencion:
en el data frame.
almacenaran
>detach(Datos)

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 16 / 34
Sesion


Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios

Ejercicios

Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 17 / 34
Sesion

Ejercicios

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables

Ejercicio 2.1: Analizar 65 variedades del mismo producto


as diferentes (fichero
alimenticio fabricado por 6 compan
(moda)
ProdAlim.Rdata). Se tiene el grado de satisfaccion
respecto a su contenido
de cada producto y la calificacion
vitamnico.

Data Frame
Ejercicios
Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones

entre las diferentes


Ejercicio 2.2: Analizar la relacion
variables recogidas en el momento de nacimiento de 1.236
y ninas
(fichero Nacimientos.Rdata. El fichero
ninos
y el peso del recien

contiene las semanas de gestacion


nacido asi como la edad, altura y peso tanto de la madre
como del padre.

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 18 / 34
Sesion


Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios

Lineal
Regresion

Lineal
Regresion
Lineal
Regresion
Recta de

Regresion
de los
Estimacion
Coeficientes de

Regresion
Mnimos
Cuadrados
El modelo lineal en R
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 19 / 34
Sesion

Lineal
Regresion

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame

A la vista de los resultados del ejercicio anterior con los datos


del fichero Nacimientos.Rdata:
Resumen de los datos contenidos en el data
frame:
>summary(Nacimientos)

Ejercicios
Lineal
Regresion
Lineal
Regresion
Recta de

Regresion
de los
Estimacion
Coeficientes de

Regresion
Mnimos
Cuadrados
El modelo lineal en R
Ejercicios
Conclusiones

y matriz de
Graficos de dispersion
correlaciones entre todas las variables del data
frame:
>pairs(Nacimientos)
>cor(Nacimientos)
lineal para
Podemos plantear modelos de regresion

profundizar en el analisis
estadstico. Tomemos como
las variables edad del
ejemplo, dada su alta correlacion,
padre y edad de la madre.

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 20 / 34
Sesion


Recta de Regresion

Introduccion

yi = a + b xi + i

Contenidos
Datos Bivariantes

planteada tendremos:
En la recta de regresion

Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios

yi : variable dependiente o respuesta (individuo i).


xi : variable independiente (individuo i).

Coeficientes de regresion:

Lineal
Regresion
Lineal
Regresion
Recta de

Regresion
de los
Estimacion
Coeficientes de

Regresion
Mnimos
Cuadrados
El modelo lineal en R

a : ordenada en el origen.
b : pendiente.

i : error (individuo i).

En nuestro ejemplo consideramos como variable


independiente la edad de la madre edadM y la variable
respuesta sera la edad del padre edadP.

Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 21 / 34
Sesion

de los Coeficientes de
Estimacion

Regresion

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame

son desconocidos y
Los Coeficientes de regresion
deberemos estimarlos, a
y b.
de los coeficientes se realizara minimizando
La estimacion
las distancias verticales entre los puntos observados yi y las
ordenadas previstas para dichos puntos, yi = a
+ b xi :

Ejercicios
Lineal
Regresion
Lineal
Regresion
Recta de

Regresion
de los
Estimacion
Coeficientes de

Regresion

min

e2i

X
X
2
= min
(yi yi ) = min
(yi (a + b xi ))2

Donde ei = yi yi se conocen como los residuos y son la

diferencia entre el valor real y la prediccion.

Mnimos
Cuadrados
El modelo lineal en R
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 22 / 34
Sesion

de los Coeficientes de
Estimacion

Regresion

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios
Lineal
Regresion
Lineal
Regresion
Recta de

Regresion
de los
Estimacion
Coeficientes de

Regresion
Mnimos
Cuadrados
El modelo lineal en R
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 22 / 34
Sesion

Mnimos Cuadrados

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios

de a
La estimacion
y b tales queP
minimicen la suma de los
cuadrados de los residuos, min e2i , se conoce como

metodo
de mnimos cuadrados y da la siguiente solucion:
P
Sxy
x
)(yi y)
b = (x
Pi
= 2,
(xi x
)2
Sx
a
= y b x

Lineal
Regresion
Lineal
Regresion
Recta de

Regresion
de los
Estimacion
Coeficientes de

Regresion
Mnimos
Cuadrados
El modelo lineal en R
Ejercicios
Conclusiones

Para nuestro caso tendremos x =edadM, y =edadP:


>attach(Nacimientos)
>Sxy<-sum((edadM-mean(edadM))*(edadP-mean(edadP))
>Sx<-sum((edadM-mean(edadM))2)
>b<-Sxy/Sx
>a<-mean(edadP)-b*mean(edadM)
>plot(edadM,edadP)
>abline(a,b)
para representar y = a + b x.

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 23 / 34
Sesion


Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios

El modelo lineal en R

Lineal
Regresion
El modelo lineal en R
Modelo, lm()

Prediccion

Calculo
de los
Residuos

Analisis
de los
Residuos

Grafico
QQ

Diagnostico
de la

Regresion
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 24 / 34
Sesion

Modelo, lm()

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame

Los calculos
anteriores se simplifican definiendo el modelo y
lm().
haciendo uso de la funcion

Nuestro modelo de ejemplo vendra expresado en terminos


de la variable independiente edadM y la variable respuesta o
dependiente edadP.

Ejercicios

edadP = a + b edadM + 

Lineal
Regresion
El modelo lineal en R
Modelo, lm()

Prediccion

Calculo
de los
Residuos

Analisis
de los
Residuos

Para definirlo en R:
>modelo1<-edadPedadM

Grafico
QQ

Diagnostico
de la

Regresion
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 25 / 34
Sesion

Modelo, lm()

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R

entre ambas
Para representar graficamente
la relacion
variables:
>plot(modelo1) # si se ha hecho el attach()
>plot(modelo1,data=Nacimientos) # si no

Ahora con lm() obtenemos la recta de regresion:


>regresion1<-lm(modelo1)
>summary(regresion1)
>abline(regresion1)

Modelo, lm()

Prediccion

Calculo
de los
Residuos

Analisis
de los
Residuos

resultante:
Recta de regresion

Grafico
QQ

Diagnostico
de la

Regresion

edadP = 4.28925 + 0.95450 edadM


R2 aj = 0.6861

Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 25 / 34
Sesion


Prediccion

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R
Modelo, lm()

Prediccion

Calculo
de los
Residuos

Analisis
de los
Residuos

podemos predecir
Una vez obtenida la recta de regresion
valores evaluando nuestro modelo con las estimaciones de
los coeficientes:
>predict(regresion1,
+ data.frame(edadM<-c(20,30,40)))
>rm(edadM)
Para obtener las predicciones a todos los posibles datos de
la variable independiente:
>fitted(regresion1)

Grafico
QQ

Diagnostico
de la

Regresion
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 26 / 34
Sesion


Calculo
de los Residuos

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R
Modelo, lm()

Prediccion

Calculo
de los
Residuos

Analisis
de los
Residuos

Grafico
QQ

Diagnostico
de la

Regresion

entonces mediante la
Los residuos, ei = yi yi , se obtendran
diferencia entre las predicciones y los valores reales:
>residuos1<-Nacimientos$edadP-fitted(regresion1)

de los
Pudiendo representar graficamente
la evolucion
residuos:
>plot(residuos1)
obtener su media:
>mean(residuos1)
y su varianza:
>var(residuos1)
se pueden obtener mediante la funcion:

Los residuos tambien


>residuals(regresion1)

Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 27 / 34
Sesion


Analisis
de los Residuos

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R
Modelo, lm()

Prediccion

Calculo
de los
Residuos

Analisis
de los
Residuos

Grafico
QQ

Diagnostico
de la

Regresion

el analisis

En un modelo de regresion
de los residuos nos
permite detectar problemas de ajuste.

Es importante que los residuos verifiquen las hipotesis


de
Normalidad, homocedasticidad e independencia:

Graficos
de los residuos:

Grafico
de los i :
>plot(residuals(regresion1))
>hist(residuals(regresion1))

Grafico
de yi frente a i :
>plot(fitted(regresion1),residuals(regresion1))

Grafico
de xi frente a i :
>plot(Nacimientos$edadM,residuals(regresion1))

Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 28 / 34
Sesion


Grafico
QQ

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios
Lineal
Regresion
El modelo lineal en R
Modelo, lm()

Prediccion

Calculo
de los
Residuos

Analisis
de los
Residuos

El grafico
QQ presenta los Quantiles de una distribucion
frente a los Quantiles de otra con el objetivo de comparar
ambas distribuciones.
Si queremos comparar la normalidad de los residuos
con una distribucion
normal:
compararemos su distribucion
>qqnorm(residuals(regresion1))
normal, los puntos del
Si los residuos siguen una distribucion

a lo largo de una lnea.


grafico
QQ se agruparan
>qqline(residuals(regresion1))

Grafico
QQ

Diagnostico
de la

Regresion
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 29 / 34
Sesion

Diagnostico
de la Regresion

Introduccion
Contenidos
Datos Bivariantes

Se puede obtener el conjunto de graficos


de la regresion:
>plot(regresion1)

Datos Multivariantes
entre
Correlacion
dos variables

de los
nos facilita graficos
de diagnostico
de la regresion
residuos estandarizados,

Data Frame

e ei
pi
.
var(ei )

Ejercicios
Lineal
Regresion
El modelo lineal en R
Modelo, lm()

Prediccion

Calculo
de los
Residuos

Analisis
de los
Residuos

Grafico
QQ

Diagnostico
de la

Regresion
Ejercicios
Conclusiones

identify() en R nos permite identificar los


La funcion

mediante clicks del


puntos sobre un grafico
de dispersion

raton.
>identify(edadM,edadP,n=3)
Si identificamos los ndices de los valores atpicos podramos

excluirlos de la regresion.

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 30 / 34
Sesion


Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios

Ejercicios

Lineal
Regresion
El modelo lineal en R
Ejercicios
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 31 / 34
Sesion

Ejercicios

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame

Ejercicio 2.3: Realizar todo el analisis


estadstico de
lineal para las variables gestacion y peso al nacer.
regresion

Ejercicio 2.4: Realizar un analisis


estadstico de regresion
lineal multiple

para las variables que se consideren


oportunas.

Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Ejercicios
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 32 / 34
Sesion


Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables
Data Frame
Ejercicios

Conclusiones

Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones
Conclusiones

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 33 / 34
Sesion

Conclusiones

Introduccion
Contenidos
Datos Bivariantes
Datos Multivariantes
entre
Correlacion
dos variables

lineal?
Regresion
matematica

Determinar una funcion


sencilla (lineal) que
describa el comportamiento de una variable dados los
valores de otra u otras variables

Data Frame

Regresion=Relaci
on?

Ejercicios
Lineal
Regresion
El modelo lineal en R
Ejercicios
Conclusiones
Conclusiones

arterial?
entre el pulso de un paciente y su presion

entre el peso de una madre y el de su hijo/a recien


nacido/a?
con el?
entre el color de mi coche y mi satisfaccion
lineal? regresion
de otro tipo?
siempre regresion

Estadstica basica
con el paquete estadstico R

2. Vctor Casero 34 / 34
Sesion