Vous êtes sur la page 1sur 18

TRABAJO FINAL, PROBABILIDAD Y ESTADIÍSTICA

Consumo máá ximo de


oxíágeno y edád
Regresioá n lineál
Trabajo final, Probabilidad y Estadística 1
Consumo máximo de oxígeno y edad

Alumnas:

• GIORDANINO, Florencia

•GUZMAN REYNOSO, Yessica Isabel

Profesores responsables:

•HIDLAGO, Gabriel

•LEPORATTI, Jorge
Trabajo final, Probabilidad y Estadística 2
Consumo máximo de oxígeno y edad

Dentro del estudio de las variables estadísticas bidimensionales vamos a abordar el análisis de
la existencia de relaciones o dependencias entre las dos variables x e y que forman la variable
bidimensional. Básicamente, la relación entre las dos variables podrá ser de dos tipos:
funcional, cuando exista una relación matemática exacta que ligue ambas variables (ej. el radio
y el área de un círculo), o aleatoria, cuando, aunque no exista entre las variables una relación
exacta, se puede observar (aunque no siempre es el caso) una cierta tendencia entre los
comportamientos de ambas (ej. el peso y la altura de un individuo).

El primer paso para el estudio de la relación entre las variables consiste en la construcción y
observación de un diagrama de dispersión. El problema de la regresión se concreta entonces
en ajustar una función a la nube de puntos representada en dicho diagrama. Esta función
permitirá entonces obtener, al menos de forma aproximada, una estimación del valor de una
de las variables a partir del valor que tome la otra.

Se conoce como línea de regresión a la representación gráfica de la función que se ajusta a la


nube de puntos del diagrama de dispersión

REGRESIÓN LINEAL
La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación
matemática lineal que describe la reacción entre dos variables.

La finalidad de una ecuación de regresión seria estimar los valores de una variable con base en
los valores conocidos de la otra.

Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable
en término de otra. Es decir se puede intuir una relación de causa y efecto entre dos variables.
El análisis de regresión únicamente indica qué relación matemática podría haber, de existir
una.

En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada
independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable
respuesta, presenta la siguiente notación de forma general:

: Parámetros, miden la influencia que las variables explicativas


tienen sobre

es la intersección o término "constante"

son los parámetros respectivos a cada variable independiente

es el número de parámetros independientes a tener en cuenta en la regresión.


Trabajo final, Probabilidad y Estadística 3
Consumo máximo de oxígeno y edad

REGRESIÓN NO LINEAL
La regresión no lineal es un problema de inferencia para un modelo tipo basado en datos
multidimensionales, donde es alguna función no lineal respecto a algunos parámetros
desconocidos. Como mínimo, se pretende obtener los valores de los parámetros asociados con
la mejor curva de ajuste (habitualmente, con el método de los mínimos cuadrados). Con el fin
de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia
estadística tales como intervalos de confianza para los parámetros así como pruebas de
bondad de ajuste.

Los tipos de modelos son:

 Relación lineal positiva

 Relación lineal negativa

 Ninguna relación entre X e Y

 Relación curvilínea positiva

 Relación curvilínea en forma de u

 Relación curvilínea negativa

RECTAS DE

Modelo Lineal Modelo Lineal Modelo No Lineal


Buen ajuste Mal ajuste Buen ajuste

REGRESIÓN

Las rectas de regresión son


las rectas q u e
mejor se
ajustan a los

Modelo Lineal Modelo No Lineal Variables no relacionadas


Buen ajuste Buen ajuste Ninguna curva es adecuada
Trabajo final, Probabilidad y Estadística 4
Consumo máximo de oxígeno y edad

diagrama de dispersión, generadas por una distribución binomial. Matemáticamente, son


posibles dos rectas de máximo ajuste:

La recta de regresión de Y sobre X:

La recta de regresión de X sobre Y:

La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el
ajuste será bueno y las predicciones realizadas a partir del modelo obtenido serán muy fiables
(el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se
tratará de un ajuste malo en el que las predicciones que se realicen a partir del modelo
obtenido no serán fiables (el modelo obtenido no resulta representativo de la realidad). Ambas
rectas de regresión se intersecan en un punto llamado centro de gravedad de la distribución.

MÉTODO MÍNIMOS CUADRADOS


Es una técnica de análisis numérico encuadrada dentro de la optimización matemática, en la
que, dados un conjunto de pares ordenados: (variable independiente, variable dependiente) y
una familia de funciones, se intenta encontrar la función, dentro de dicha familia, que mejor se
aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error
cuadrático.

En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas
(llamadas residuos) entre los puntos generados por la función y los correspondientes en los
datos.

Un requisito implícito para que funcione el método de mínimos cuadrados es que los errores
de cada medida estén distribuidos de forma aleatoria. También es importante que los datos
recogidos estén bien escogidos, para que permitan visibilidad en las variables que han de ser
resueltas.

La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas.

A cada valor x i de la variable x le corresponde entonces un valor y i de la variable y, pudiendo


además asociársele un valor y ∗i , que serıa el dado por la recta que queremos calcular. Es decir

y ∗i= a + bx i .

Llamemos d i a la diferencia entre los dos valores, observado y dado por la recta, de la variable
y en cada punto
Trabajo final, Probabilidad y Estadística 5
Consumo máximo de oxígeno y edad

d i = y ∗i− y i .

Para que la recta a determinar sea la que mejor se ajuste a la nube de puntos de entre todas
las rectas posibles, dichas distancias d i deberán ser lo más pequeñas posible. Es decir, hay que
minimizar los d i. Para ello es conveniente tomar los cuadrados de las distancias, para que asi
no se anulen desviaciones positivas y negativas. De esta forma, el problema se reduce a
minimizar la expresión
n n
M =∑ d i =∑ ( y i¿ − y y )2
2

i=1 i =1

o, utilizando la expresión para


n
M =∑ (a+b x i− y i )2
i=1

Para encontrar los valores de a y b que hacen mínima esa expresión se deriva M respecto a
esos dos parámetros y se igualan las derivadas a 0, se utilizan distintos métodos matemáticos
para encontrar el valor de b y a partir de esto se puede calcular a. La recta de regresión debe
pasar por el centro de la nube de puntos.

DEFINICIÓN P-VALOR
El P valor o nivel de significación empírico del contraste es la probabilidad, calculada al asumir
que Ho es cierta, de que la estadística de prueba tome valore tan extremos o más extremos
que los calculados con la muestra actual.
Trabajo final, Probabilidad y Estadística 6
Consumo máximo de oxígeno y edad

Ahora, dado que las estadísticas de prueba se construyen para cuantificar las desviaciones de
la hipótesis nula con los datos actuales, entonces rechazamos Ho cuando el p valor es pequeño
porque si éste es pequeño entonces los datos actuales proveen una fuerte evidencia en contra
de Ho. En otras palabras, el hecho de que el p valor sea grande hace que Ho sea difícil de
rechazar; por tanto es casi intuitivo, pero no valido, tomar al p valor como una medida de
soporte en contra (o a favor) del rechazo de Ho.

RESIDUOS
En el contexto de la regresión lineal, llamamos residuos a las diferencias entre los valores de la
variable dependiente observados y los valores que predecimos a partir de nuestra recta de
regresión.

Gráfica de residuos

Los residuos pueden ser graficados contra distintas variables. Es muy habitual hacerlo contra
las variables independientes.

Por ejemplo, un gráfico se puede obtener de la siguiente forma:

ERROR ESTÁNDAR DE ESTIMACIÓN (EER)


Trabajo final, Probabilidad y Estadística 7
Consumo máximo de oxígeno y edad

El error estándar de estimación permite medir la variabilidad o dispersión de los valores de Y


los cuales encontramos en la muestra, alrededor de la línea recta de regresión.

El resultado que se obtiene del cálculo del error estándar de estimación se expresa en término
de los valores de la variable dependiente Y.

CORRELACIÓN
Estudiar la correlación significa analizar hasta que punto es significativa la dependencia de una
variable con la otra la correlacion, el cual estudia el grado de asociación o dependencia entre
las dos variables. De esta manera, por ejemplo, cuando exista una dependencia funcional entre
ambas variables diremos que tenemos una correlación perfecta (ej. radio y área de un cırculo).
Cuando, por el contrario, no exista ninguna dependencia entre las variables diremos que no
hay correlación (ej. primera letra del apellido y altura de un individuo). El caso más interesante
es el intermedio, cuando es posible que exista alguna correlación, aunque no perfecta, que
habrá que cuantificar.

La cual estudiará el grado en que la nube de puntos representada en el diagrama de


dispersión se acerca a una recta. Cuanto mejor se aproxime dicha nube a una recta, mayor será
el grado de correlación lineal. De esta forma, el estudio de la correlación lineal está
intimamente ligado al de la regresión lineal. Distinguiremos dos tipos de correlación lineal.
Cuando al crecer la variable x, la variable y tienda tambien a aumentar (pendiente positiva de
la recta de regresión) diremos que tenemos una correlación positiva o directa. Cuando ocurra
lo contrario, la correlación será negativa o inversa.
Trabajo final, Probabilidad y Estadística 8
Consumo máximo de oxígeno y edad

Para construir una medida adimensional de la correlación habrá que dividir la varianza por un
termino con sus mismas dimensiones. De esta forma, se define el coeficiente de correlacion
lineal r como el cociente entre la covarianza y las desviaciones típicas.

Un concepto relacionado con el coeficiente de correlación es el de la varianza residual. Esta se


introduce para proporcionar una estimación de la variación de los datos originales respecto a la
recta de regresión que se ha ajustado. Es decir, al igual que la varianza de una variable es una
medida de la dispersión respecto al valor medio de esta, la varianza residual mide la dispersión
de los puntos respecto a la recta ajustada.

ANÁLISIS DE VARIACIÓN EN REGRESIÓN Y CORRELACIÓN


 Suma de Cuadrados del Total (SCT), mide la dispersión (variación total) en los valores
observados de Y. Este término se utiliza para el cálculo de la variancia de la muestra.
Trabajo final, Probabilidad y Estadística 9
Consumo máximo de oxígeno y edad

 Suma de Cuadrados explicada (Suma de Cuadrados debido a la Regresión, SCR) mide la


variabilidad total en los valores observados de Y en consideración a la relación lineal
entre X e Y.
 Suma de Cuadrados residual (inexplicada, Suma de Cuadrados del Error, SCE) mide la
dispersión de los valores Y observados respecto a la recta de regresión Y (es la cantidad
que se minimiza cuando se obtiene la recta de regresión).

SC total = SC regresión + SC residual

Cuando cada partición se asocia a una porción correspondiente del total de grados de libertad,
la técnica es conocida como análisis de variancia(ANVA).

El análisis de correlación emplea métodos para medir la significación del grado o intensidad de
asociación entre dos o más variables. El concepto de correlación está estrechamente vinculado
al concepto de regresión, pues, para que una ecuación de regresión sea razonable los puntos
muestrales deben estar ceñidos a la ecuación de regresión; además el coeficiente de
correlación debe ser:

 grande cuando el grado de asociación es alto (cerca de +1 o -1, y pequeño cuando es


bajo, cerca de cero.
 independiente de las unidades en que se miden las variables.

El coeficiente de correlación (r) es un número que indica el grado o intensidad de asociación


entre las variables X e Y. Su valor varía entre -1 y +1; esto es:

-1 ≤ r ≤ 1

 Si r = -1, la asociación es perfecta pero inversa; es decir, a valores altos de una variable
le corresponde valores bajos a la otra variable, y viceversa.

 Si r=+1, también la asociación es perfecta pero directa.

 Si r=0, no existe asociación entre las dos variables.

El coeficiente de correlación está dada por:

El coeficiente de determinación (R²) mide el porcentaje de variación en la variable respuesta,


explicada por la variable independiente.

R²=
Trabajo final, Probabilidad y Estadística 10
Consumo máximo de oxígeno y edad

Como SCR ≤ SCT, se deduce que 0 ≤ R² ≤ 1.

Se interpreta como una medida de ajuste de los datos observados y proporciona el porcentaje
de la variación total explicada por la regresión.

R² es un valor positivo, expresado en porcentaje es menor de 100.

INTRODUCCIÓN
El consumo maximo de oxigeno es uno de los indicadores mas importantes, en el ambito de los
deportes de resistencia tiene especial relevancia, ya que puede tomarse como indicador de
rendimiento, el ciclismo es el deporte en donde tiene mas relevancia y esta ampliamente
estudiado.

Además el estudio de vo2max es utilizado en el ambito de la salud.


Trabajo final, Probabilidad y Estadística 11
Consumo máximo de oxígeno y edad

Las aplicaciones del mismo son:

 Planificacion de entrenamiento
 Capacitacion y selección de talentos
 Valoracion de la salud y condicion fisica del sujeto

El consumo máximo de oxigeno se define como la cantidad máxima de oxigeno que el


organismo es capaz de absorber, transportar y consumir por unidad de tiempo. Este parámetro
refleja el límite superior del funcionamiento aeróbico del organismo y muestra la integración
efectiva del sistema nervioso central, cardiopulmonar y sistemas metabólicos.

El vo2max pone en manifiesto la capacidad del sistema de aportación de oxígeno, esto es, las
partes del organismo cuya finalidad es ofrecer oxígeno a los tejidos y órganos según las
necesidades, como la capacidad de utilización y aprovechamiento de ese oxigeno por los
tejidos, principalmente el tejido muscular.

Depende de varios factores:

 Dotación genética
 Edad
 Composición corporal (a mayor masa magra mayor vo2max).
 Sexo (mayor en varones).
 Grado de entrenamiento o acondicionamiento físico

Par poder obtener el vo2max se realiza una prueba Ergoespirometrica máxima o test de
Cooper en deportistas de diferentes edades.

DESARROLLO DE TRABAJO
Al realizar este trabajo, planteamos como objetivo determinar si es proporcional el consumo
máximo de oxígeno y la edad del sujeto. Para llevarlo a cabo recaudamos 15 muestras de
deportistas con similares condiciones físicas, refiriéndonos al peso y altura, estableciendo
como límites de edad de 15 a 30 años.
Trabajo final, Probabilidad y Estadística 12
Consumo máximo de oxígeno y edad

DATOS:

Edad Consumo máximo de oxigeno


(VO2max)
19 56.1
15 65.1
17 62.5
23 51.9
29 47
21 54.3
16 64.8
22 52.1
20 55.7
18 59
24 51.2
27 49.1
15 67
28 48.2
30 45.9

Vamos a utilizar la recta de mejor ajuste o recta de regresión lineal para analizar la
dependencia lineal que existen entre las variables. No es posible esperar que todos los datos
caigan sobre la misma recta, solo es una aproximación a la linealidad de la relación. Pero para
mayor facilidad usaremos el programa “Stat Graphic Centurion” y este hallará la recta de
regresión lineal de forma automática (representada en color azul), además calculara datos muy
importantes que nos ayudaran a entender de mejor manera la dependencia lineal de las
variables (coeficiente de correlación, coeficiente de determinación, error estándar de la
estimación, etc.)
Trabajo final, Probabilidad y Estadística 13
Consumo máximo de oxígeno y edad

Gráfico de VO2max vs Edad

69

65

61
VO2max

57

53

49

45
15 18 21 24 27 30
Edad

Para
realizar el análisis de regresión lineal, es necesario determinar si existe alguna relación lineal
entre las variables, a través del grafico de dispersión podemos observar la distribución de los
datos y predecir si existe o no esta relación y a partir de este hacer un análisis de regresión con
modelos ajustados.

REGRESIÓN SIMPLE - VO2 MAX VS. EDAD


Variable dependiente: VO2max
Variable independiente: Edad
Lineal: Y = a + b*X

COEFICIENTES
Mínimos Estándar Estadístico
Cuadrados
Parámetr Estimado Error T Valor-P
o
Intercepto 83,617 2,22794 37,531 0,0000
Pendiente -1,30974 0,100553 -13,0254 0,0000
Trabajo final, Probabilidad y Estadística 14
Consumo máximo de oxígeno y edad

ANÁLISIS DE VARIANZA
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 627,155 1 627,155 169,66 0,0000
Residuo 48,0547 13 3,69651
Total (Corr.) 675,209 14

 Coeficiente de Correlación = -0,963758


 R-cuadrada = 92,883 porciento
 R-cuadrado (ajustado para g.l.) = 92,3355 porciento
 Error estándar del est. = 1,92263
 Error absoluto medio = 1,66501
 Estadístico Durbin-Watson = 1,92186 (P=0,4140)
 Auto correlación de residuos en retraso 1 = -0,0588223

Gráfico del Modelo Ajustado


VO2max = 83,617 - 1,30974*Edad
69

65

61
VO2max

57

53

49

45
15 18 21 24 27 30
Edad

EL STATADVISOR
La salida muestra los resultados de ajustar un modelo lineal para describir la relación entre
VO2max y Edad. La ecuación del modelo ajustado es

VO2max = 83,617 - 1,30974*Edad

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación
estadísticamente significativa entre VO2max y Edad con un nivel de confianza del 95,0%.

El estadístico R-Cuadrada indica que el modelo ajustado explica 92,883% de la variabilidad en


VO2max. El coeficiente de correlación es igual a -0,963758, indicando una relación
relativamente fuerte entre las variables. El error estándar del estimado indica que la
Trabajo final, Probabilidad y Estadística 15
Consumo máximo de oxígeno y edad

desviación estándar de los residuos es 1,92263. Este valor puede usarse para construir límites
de predicción para nuevas observaciones, seleccionando la opción de Pronósticos del menú de
texto.

El error absoluto medio (MAE) de 1,66501 es el valor promedio de los residuos. El estadístico
de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es mayor que 0,05, no hay indicación de una auto correlación serial en los residuos con
un nivel de confianza del 95,0%.

Gráfico de Residuos
VO2max = 83,617 - 1,30974*Edad
2
Rediduo Estudentizado

-1

-2
15 18 21 24 27 30
Edad

RESIDUOS A TÍPICOS

Prediccione Residuos
s
Fila X Y Y Residuos Studentizados

EL STAT ADVISOR
La tabla de residuos atípicos enlista todas las observaciones que tienen residuos
Estudentizados mayores a 2, en valor absoluto. Los residuos Estudentizados miden cuántas
desviaciones estándar se desvía cada valor observado de VO2max del modelo ajustado,
utilizando todos los datos excepto esa observación. En este caso, no hay residuos
Estudentizados mayores que 2.
Trabajo final, Probabilidad y Estadística 16
Consumo máximo de oxígeno y edad

BIBLIOGRAFÍA

ANEXOS
Trabajo final, Probabilidad y Estadística 17
Consumo máximo de oxígeno y edad

Vous aimerez peut-être aussi