Vous êtes sur la page 1sur 26

Universidad de Oriente

Núcleo de Nueva Esparta


Escuela de Ingeniería y Ciencias Aplicadas
Programa de Licenciatura en Estadística

ANÁLISIS DE REGRESIÓN POR


COMPONENTES PRINCIPALES Bachiller:
Richard Medina
C.I 22.996.665
Guatamere, Abril de 2019
INTRODUCCIÓN
Regresión múltiple Relación funcional entre una variable dependiente y una serie de
variables independientes

Existencia de Variables explicativas altamente correlacionadas entre sí


multicolinealidad

Análisis de componentes principales

Solución
Técnica de reducción de la dimensión

Permite pasar de una gran cantidad de variables


interrelacionadas a unas pocas componentes principales.
PLANTEAMIENTO DEL PROBLEMA
Este estudio se realizo con una base de datos extraída de la página web la estadística: Una orquesta
hecha instrumento con la cual se pudo realizar el planteamiento de un problema hipotético al que
pretende dársele solución por medio del análisis de componentes principales.

Se ha encontrado una relación positiva entre la práctica de la actividad física y el rendimiento


académico en varios estudios realizados por el departamento de educación del estado de California en
los EE.UU. (Dwyer et al, 2001; Dwyer et al, 1983; Linder, 1999; Linder, 2002; Shephard, 1997 y Tremblay
et. al, 2000) que apoyan la idea de que el dedicar un tiempo sustancial a actividades físicas en las
escuelas, puede traer beneficios en el rendimiento académico de los niños, e incluso sugieren que
existen beneficios, de otro tipo, comparados con los niños que no practican deporte.
PLANTEAMIENTO DEL PROBLEMA
Teniendo conocimientos del impacto positivo que tienen las actividades físicas en el rendimiento
académico, sería una idea interesante saber todo lo contrario, ¿tendrá algún impacto el rendimiento
académico en el desempeño físico?

El liceo Dr. Franciosco Antonio Risquez está interesado en evaluar si las calificaciones de los
estudiantes en ciertas materias tienen alguna relación con su desempeño en Educación Física, para ello
nos ha proporcionado una base de datos con información de las calificaciones de 15 estudiantes a los
cuales se les tomo en consideración las siguientes materias: Educación Física, Lengua, Matemática,
Física, Ingles, Filosofía, Historia y Química.

¿Influirá las calificaciones de los estudiantes en su desempeño de Educación física?


OBJETIVOS DE LA INVESTIGACIÓN
OBJETIVO GENERAL

A través de los modelos de regresión múltiple determinar si el


rendimiento académico de los estudiantes del liceo Dr. Francisco Antonio
Risquez tiene influencia en su desempeño fisco.
OBJETIVOS DE LA INVESTIGACIÓN
OBJETIVOS ESPECÍFICOS

1 Construir un modelo de regresión múltiple que permita estimar el desempeño físico de los
estudiantes.

2 Utilizar el análisis de componentes principales para resolver el problema de


multicolinealidad

3 Plantear el modelo de regresión final con las variables originales.


BASE DE DATOS
Alumnos Edu Fisica Lengua Matematica fisica Ingles Filosofia Historia Quimica
1 5 5 5 5 5 5 5 5
2 4 7 8 3 8 4 7 3
3 8 5 5 7 6 5 6 7
4 2 7 6 4 8 7 7 3
5 9 8 4 10 8 8 7 9
6 9 4 5 8 4 3 4 7
7 4 6 7 4 6 5 5 3
8 7 4 3 8 3 3 2 8
9 5 5 1 4 5 6 5 5
10 4 7 6 5 7 8 8 4
11 8 7 9 8 7 7 6 7
12 3 4 4 3 4 3 2 1
13 4 7 5 4 7 8 7 4
14 5 3 7 5 2 3 3 5
15 6 5 6 6 5 5 5 6
ANÁLISIS DE REGRESIÓN
Tabla de coeficientes

Coeficient
Coeficientes no es
Modelo estandarizados estandariz t Sig.
ados
B Error típ. Beta
1
(Constante) 1.309 1.344 0.974 0.363
Lengua -0.612 0.918 -0.418 -0.666 0.527
Matematica 0.02 0.176 0.018 0.114 0.913
Fisica 0.611 0.446 0.592 1.369 0.213
Ingles 0.437 0.756 0.373 0.578 0.581
Filosofia -0.219 0.38 -0.191 -0.577 0.582
Historia 0.134 0.501 0.114 0.267 0.797
Quimica 0.411 0.443 0.411 0.927 0.385
ANÁLISIS DE REGRESIÓN
R Cuadrado
Error típ.
R
R de la
Modelo R cuadrado
cuadrado estimació
corregida
n
1 .952(a) 0.906 0.812 0.95347

ANOVA

Suma de
Media
Modelo cuadrado gl F Sig.
cuadrática
s
Regresión 61.37 7 8.767 9.644 .004(a)
1 Residual 6.364 7 0.909
Total 67.733 14
ANÁLISIS DE REGRESIÓN
Prueba de índice de condición

Diagnóstico de colinealidad

Indice de
Dimensión Autovalor
condición
1 7.512 1
2 0.286 5.125
3 0.127 7.696
4 0.036 14.53
1
5 0.02 19.434
6 0.014 23.014
7 0.004 43.719
8 0.001 80.013
COMPONENTES PRINCIPALES
Matriz de correlación

Lengua Matematica fisica Ingles Filosofia Historia Quimica


Lengua 1 0.295829002 0.057996 0.962431 0.844181 0.879894 -0.00432
Matematica 0.295829 1 -0.07736 0.305501 0.056154 0.314416 -0.17599
fisica 0.057996 -0.077355621 1 -0.03571 0.105008 -0.0251 0.941583
Ingles 0.962431 0.305500803 -0.03571 1 0.768364 0.902314 -0.09226
Filosofia 0.844181 0.056154443 0.105008 0.768364 1 0.831355 0.090448
Historia 0.879894 0.314415575 -0.0251 0.902314 0.831355 1 -0.00926
Quimica -0.00432 -0.175988843 0.941583 -0.09226 0.090448 -0.00926 1
COMPONENTES PRINCIPALES
Tabla de comunalidades

Inicial Extracción
Lengua 1 0.9486668
Matematica 1 0.1846831
Fisica 1 0.9397774
Ingles 1 0.9292721
filosofia 1 0.8029322
historia 1 0.9129977
quimica 1 0.9641419
COMPONENTES PRINCIPALES
Varianza total explicada

Sumas de las saturaciones al


Autovalores iniciales
cuadrado de la extracción
Componente %
% de la % % de la
Total acumulad
Total varianza acumulado varianza
o
1 3.688 52.682 52.682 3.688 52.682 52.682
2 1.995 28.496 81.178 1.995 28.496 81.178
3 0.925 13.218 94.396
4 0.202 2.888 97.284
5 0.141 2.01 99.294
6 0.035 0.502 99.796
7 0.014 0.204 100
COMPONENTES PRINCIPALES
Gráfico de sedimentación Matriz de componentes

Componente
1 2
Lengua 0.973 0.036
Matematica 0.348 -0.252
Fisica 0.015 0.969
Ingles 0.962 -0.062
Filosofia 0.883 0.151
Historia 0.955 -0.011
Quimica -0.026 0.982
ÁNALISIS DE REGRESIÓN POR
COMPONENTES PRICIPALES
Tabla de coeficientes

Coeficient
Coeficientes no es
Modelo estandarizados estandariz t Sig.
ados
B Error típ. Beta
(Constant
5.533 0.254 21.813 0
e)
1
Literarias -0.228 0.263 -0.103 -0.867 0.403
Ciencias 1.99 0.263 0.905 7.578 0
ÁNALISIS DE REGRESIÓN POR
COMPONENTES PRICIPALES
Tabla de coeficientes

Coeficient
Coeficientes no es
Modelo estandarizados estandariz t Sig.
ados
B Error típ. Beta
(Constant
5.533 0.251 22.024 0
1 e)
Ciencias 1.99 0.26 0.905 7.651 0
ÁNALISIS DE REGRESIÓN POR
COMPONENTES PRICIPALES
R Cuadrado
Error típ.
R R cuadrado de la
Modelo R
cuadrado corregida estimació
n
1 .905(a) 0.818 0.804 0.97304

ANOVA

Suma de
Media
Modelo cuadrado gl F Sig.
cuadrática
s
Regresión 55.425 1 55.425 58.539 .000(a)
1
Residual 12.309 13 0.947
Total 67.733 14
ÁNALISIS DE REGRESIÓN POR
COMPONENTES PRICIPALES
Modelo estimado

EducaciónFísica = 5.533 + 1.99(Ciencias)

Modelo final estimado

EducaciónFísica = - 0795 – 0,178*Matematica+0,640*física+ 0,628*Química


ÁNALISIS DE REGRESIÓN POR
COMPONENTES PRICIPALES
Supuestos del modelo de regresión lineal

Homocedasticidad
Prueba de White
Nivel de significancia (α) = 0,05

H0: los errores son homocedásticos n = 15

Vs. R2= 0,003

H1: los errores no son homocedásticos Estadístico de prueba → n * R2 = 0,045


ÁNALISIS DE REGRESIÓN POR
COMPONENTES PRICIPALES
Supuestos del modelo de regresión lineal

Homocedasticidad
Prueba de White

“n” es el tamaño de la muestra y “R2” es el coeficiente de determinación de


una regresión auxiliar en el cual la variable dependiente son los residuos al
cuadrado y las independientes son los Xi y los Xi2.

Valor Crítico: 𝑋0,95;2


2
= 5,99
Decisión: n * R2 = 0,045 < 𝑋0,95;2
2
= 5,99;
ÁNALISIS DE REGRESIÓN POR
COMPONENTES PRICIPALES
Supuestos del modelo de regresión lineal

Aleatoriedad
Prueba de las rachas
Unstandardized
Residual

H0: los errores son aleatorios


Valor de
-0.00763
prueba(a)
Casos < Valor de
7
prueba

Vs.
Casos >= Valor
8
de prueba
Casos en total 15

H1: los errores no son aleatorios


Número de rachas 8
Z 0
Sig. asintót.
1
(bilateral)
ÁNALISIS DE REGRESIÓN POR
COMPONENTES PRICIPALES
Supuestos del modelo de regresión lineal

Independencia
Durbin Watson

Estadístico de prueba :
H0: los errores son independientes
Durbin-Watson = 2,10
Vs.
P-valor = 0,6179
H1: los errores no son independientes
ÁNALISIS DE REGRESIÓN POR
COMPONENTES PRICIPALES
Supuestos del modelo de regresión lineal

Normalidad

Prueba Kolmogórov-Smirnov

H0: los errores se comportan de forma normal con media cero y varianza constante

Vs.

H1: los errores no se comportan de forma normal con media cero y varianza constante
ÁNALISIS DE REGRESIÓN POR
COMPONENTES PRICIPALES
Supuestos del modelo de regresión lineal

Normalidad

Prueba Kolmogórov-Smirnov
Unstandardized
Residual
N 15
Parámetr Media 0
os Desviación típica 0.93764596
Diferencia Absoluta 0.094
s más Positiva 0.066
extremas Negativa -0.094
Z de Kolmogorov-Smirnov 0.364
Sig. asintót. (bilateral) 0.999
CONCLUSIÓN
A través del uso del análisis de regresión múltiple se pudo observar que el
desempeño físico se ve influenciado por el rendimiento académico, a lo largo del estudio
se implemento el análisis de componentes principales como medida remedial a los
problemas de multicolinealidad presentes en el modelo, esto permitió reducir la
dimensionalidad de los datos obteniendo como resultado dos componentes las cuales
logran explicar el 81,17% de la varianza total y se logró definir cuáles son los
parámetros críticos que mayor aporte tienen a la variabilidad del desempeño físico.
CONCLUSIÓN
Estos resultados demostraron que estudiantes con alto rendimiento en materias
comprendidas en el área de ciencias tales como matemática, química y física suelen
tener un mayor desempeño físico, dando respuesta a ello con el modelo finalmente
estimado:

EducaciónFisica = - 0795 – 0,178*Matemática + 0,640*física – 0,628*Química

El cual nos permite saber cuál será el rendimiento promedio físico según sus
notas obtenidas en las materias antes mencionadas con un error de predicción de
4,25%.

Vous aimerez peut-être aussi