Vous êtes sur la page 1sur 3

CENTRO DE CIENCIAS BÁSICAS

DEPARTAMENTO DE ESTADÍSTICA

NÚMERO DE
REPORTE DE PRÁCTICA DE LABORATORIO
PRÁCTICA 07
CARRERA Ingeniería Bioquímica
MATERIA Estadística II
UNIDAD III
PROFESOR M.C. Ma. Edubijes Esquivel Frausto
REALIZÓ Alejandro Guadalupe Reyes Montañez FECHA 05/12/17

NOMBRE DE LA PRÁCTICA
Diagrama de dispersión, regresión lineal simple , correlación, Intervalos y verificación de supuestos
1 OBJETIVO
Utilizar diagramas de dispersión y herramientas de regresión lineal básicas para analizar un problema.
2 PLANTEAMIENTO
Los datos del fichero EdadPesoGrasas.txt corresponden a tres variables medidas en 25 individuos:
edad, peso y cantidad de grasas en sangre

Con el fin de conocer las relaciones existentes entre cada par de variables podemos representar una
matriz de diagramas de dispersión. Al parecer existe una relación lineal bastante clara entre la edad y las
grasas, pero no entre los otros dos pares de variables. Por otra parte, el fichero contiene un dato atípico.

Como parte del análisis realice lo siguiente:


a) Obtenga graficas que nos ayuden a verificar la relación entre las variables y dicho punto atípico.
b) Analizar el par de variables que tengas una correlación más alta.
c) ¿Es significativo dicho coeficiente?
d) Obtenga el coeficiente de determinación e interprete.
e) Obtenga la recta de mínimos cuadrados para los datos intérprete los coeficientes de regresión.
f) Obtenga intervalos de confianza para los coeficientes de regresión del 95%.
g) En base a la tabla anova para el modelo de regresión, diga si el modelo es significativo
h) Obtenga el diagrama de dispersión de los datos con la recta de regresión para ilustrar los
resultados.
i) Obtenga los intervalos de confianza para la respuesta media y los intervalos de predicción para
la respuesta, para las edades de 20 a 50.
j) Verifique que se cumplen los supuestos de regresión.

3 DESARROLLO Y ANÁLISIS
20 30 40 50 60 a) Figura 1. Matriz de diagramas de dispersión.
El diagrama solo da una idea de la relación de las variables, no
30 40 50 60 70 80 90

peso observándose claramente cuales están más relacionadas entre sí.


60
50

edad
40
30
20

400

grasas
300
200

30 40 50 60 70 80 90 200 300 400

b)

Código: FO-120200-03
Revisión: 00
Emisión: 20/10/2008
CENTRO DE CIENCIAS BÁSICAS
DEPARTAMENTO DE ESTADÍSTICA

Tabla 1. Coeficientes de correlación entre las variables.


Peso Edad Grasas
Peso 1.0000000 0.2400133 0.2652935
Edad 0.2400133 1.0000000 0.8373534
Grasas 0.2652935 0.8373534 1.0000000
c) Siendo el par de variables con el coeficiente de correlación más alto Grasas y Edad.
r = 0.8373534 ; t = 7.346 ; Grados de libertad = 23 ; ValorP = 1.794x10 -7
Indicando el valorP que la hipótesis nula (ρ = 0) se rechaza. Por lo que hay evidencia suficiente para
decir que el coeficiente de correlación entre las variables Edad y Grasas es significativo.
d) Coeficiente de determinación R = r2 = 0.701160716
El 70.116% de la variación de grasa en sangre es explicable por la variabilidad de la Edad de las
personas.
e) Y = 5.3207X + 102.5751
Cuando la Edad es cero se tiene 102.5751 grasas en sangre, lo cual no tiene sentido alguno.
Por cada año que pasa la cantidad de grasa en sangre aumenta en 5.3207.
f) Para Bo.
(51.780153, 153.370132)
Para B1.
(4.079335, 6.562018)
g)
Tabla 2. Tabla Anova.
Gl Suma de cuadrados Cuadrados Medios F
1 101933 101933 53.964
23 43444 1889
ValorP asociado = 1.794x10-7
Como el valorP es muy pequeño se rechaza la hipótesis nula (Ho: E[Y|X] = B o).
Hay evidencia suficiente para decir que el modelo de regresión es significativo.
h) Figura 2. Diagrama de Dispersión con el modelo de regresión de las variables Grasas y Edad.
450
400
350
Grasas

300
250
200

20 30 40 50 60

Edad

i) Figura 3. Intervalos de confianza para la respuesta media (línea punteada negra) y los intervalos
de predicción (en rojo) para la respuesta, para las edades de 20 a 50.
450
400
350
Grasas

300
250
200

20 30 40 50 60

Edad

Código: FO-120200-03
Revisión: 00
Emisión: 20/10/2008
CENTRO DE CIENCIAS BÁSICAS
DEPARTAMENTO DE ESTADÍSTICA

j) Figura 4. Residuos vs Valores ajustados

50
residuos

0
-50
250 300 350 400

valores.ajustados

Se cumple el supuesto de homocedasticidad, dado que los datos se encuentran distribuidos de manera
aleatoria.
Figura 5. Gráficas para supuesto de normalidad.
Normal Q-Q Plot Histogram of residuos

4
3
50
Sample Quantiles

Frequency

2
0

1
-50

-2 -1 0 1 2 -50 0 50 100

Theoretical Quantiles residuos

Mediante el análisis se determina que no se cumple con el supuesto de normalidad.


Grafica 5. Residuos vs orden.
50
residuos

0
-50

5 10 15 20 25

Index

Claramente no hay ningún patrón en la gráfica por lo que el supuesto de independencia se cumple.
4 CONCLUSIONES Y/O RESUMEN
El análisis de regresión lineal simple, como parte de la inferencia estadística, es fundamental para
determinar relaciones de dependencia lineal entre variables y establecer su validez con el fin de hacer
estimaciones y predicciones dentro de un intervalo de confianza deseado. Obtener una ecuación de
regresión que describe el comportamiento lineal entre dos variables permite pronosticar valores futuros
de la variable bajo análisis con cierto grado de certeza, lo cual constituye una herramienta poderosa
pues le da al profesional la posibilidad de hacer ajustes en los procesos, tomar decisiones o establecer
políticas.
5 REFERENCIAS
Programa R

Código: FO-120200-03
Revisión: 00
Emisión: 20/10/2008

Vous aimerez peut-être aussi