Académique Documents
Professionnel Documents
Culture Documents
Alumnas:
• GIORDANINO, Florencia
Profesores responsables:
•HIDLAGO, Gabriel
•LEPORATTI, Jorge
Trabajo final, Probabilidad y Estadística 2
Consumo máximo de oxígeno y edad
Dentro del estudio de las variables estadísticas bidimensionales vamos a abordar el análisis de
la existencia de relaciones o dependencias entre las dos variables x e y que forman la variable
bidimensional. Básicamente, la relación entre las dos variables podrá ser de dos tipos:
funcional, cuando exista una relación matemática exacta que ligue ambas variables (ej. el radio
y el área de un círculo), o aleatoria, cuando, aunque no exista entre las variables una relación
exacta, se puede observar (aunque no siempre es el caso) una cierta tendencia entre los
comportamientos de ambas (ej. el peso y la altura de un individuo).
El primer paso para el estudio de la relación entre las variables consiste en la construcción y
observación de un diagrama de dispersión. El problema de la regresión se concreta entonces
en ajustar una función a la nube de puntos representada en dicho diagrama. Esta función
permitirá entonces obtener, al menos de forma aproximada, una estimación del valor de una
de las variables a partir del valor que tome la otra.
REGRESIÓN LINEAL
La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación
matemática lineal que describe la reacción entre dos variables.
La finalidad de una ecuación de regresión seria estimar los valores de una variable con base en
los valores conocidos de la otra.
Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable
en término de otra. Es decir se puede intuir una relación de causa y efecto entre dos variables.
El análisis de regresión únicamente indica qué relación matemática podría haber, de existir
una.
En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada
independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable
respuesta, presenta la siguiente notación de forma general:
REGRESIÓN NO LINEAL
La regresión no lineal es un problema de inferencia para un modelo tipo basado en datos
multidimensionales, donde es alguna función no lineal respecto a algunos parámetros
desconocidos. Como mínimo, se pretende obtener los valores de los parámetros asociados con
la mejor curva de ajuste (habitualmente, con el método de los mínimos cuadrados). Con el fin
de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia
estadística tales como intervalos de confianza para los parámetros así como pruebas de
bondad de ajuste.
RECTAS DE
REGRESIÓN
La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el
ajuste será bueno y las predicciones realizadas a partir del modelo obtenido serán muy fiables
(el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se
tratará de un ajuste malo en el que las predicciones que se realicen a partir del modelo
obtenido no serán fiables (el modelo obtenido no resulta representativo de la realidad). Ambas
rectas de regresión se intersecan en un punto llamado centro de gravedad de la distribución.
En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas
(llamadas residuos) entre los puntos generados por la función y los correspondientes en los
datos.
Un requisito implícito para que funcione el método de mínimos cuadrados es que los errores
de cada medida estén distribuidos de forma aleatoria. También es importante que los datos
recogidos estén bien escogidos, para que permitan visibilidad en las variables que han de ser
resueltas.
y ∗i= a + bx i .
Llamemos d i a la diferencia entre los dos valores, observado y dado por la recta, de la variable
y en cada punto
Trabajo final, Probabilidad y Estadística 5
Consumo máximo de oxígeno y edad
d i = y ∗i− y i .
Para que la recta a determinar sea la que mejor se ajuste a la nube de puntos de entre todas
las rectas posibles, dichas distancias d i deberán ser lo más pequeñas posible. Es decir, hay que
minimizar los d i. Para ello es conveniente tomar los cuadrados de las distancias, para que asi
no se anulen desviaciones positivas y negativas. De esta forma, el problema se reduce a
minimizar la expresión
n n
M =∑ d i =∑ ( y i¿ − y y )2
2
i=1 i =1
Para encontrar los valores de a y b que hacen mínima esa expresión se deriva M respecto a
esos dos parámetros y se igualan las derivadas a 0, se utilizan distintos métodos matemáticos
para encontrar el valor de b y a partir de esto se puede calcular a. La recta de regresión debe
pasar por el centro de la nube de puntos.
DEFINICIÓN P-VALOR
El P valor o nivel de significación empírico del contraste es la probabilidad, calculada al asumir
que Ho es cierta, de que la estadística de prueba tome valore tan extremos o más extremos
que los calculados con la muestra actual.
Trabajo final, Probabilidad y Estadística 6
Consumo máximo de oxígeno y edad
Ahora, dado que las estadísticas de prueba se construyen para cuantificar las desviaciones de
la hipótesis nula con los datos actuales, entonces rechazamos Ho cuando el p valor es pequeño
porque si éste es pequeño entonces los datos actuales proveen una fuerte evidencia en contra
de Ho. En otras palabras, el hecho de que el p valor sea grande hace que Ho sea difícil de
rechazar; por tanto es casi intuitivo, pero no valido, tomar al p valor como una medida de
soporte en contra (o a favor) del rechazo de Ho.
RESIDUOS
En el contexto de la regresión lineal, llamamos residuos a las diferencias entre los valores de la
variable dependiente observados y los valores que predecimos a partir de nuestra recta de
regresión.
Gráfica de residuos
Los residuos pueden ser graficados contra distintas variables. Es muy habitual hacerlo contra
las variables independientes.
El resultado que se obtiene del cálculo del error estándar de estimación se expresa en término
de los valores de la variable dependiente Y.
CORRELACIÓN
Estudiar la correlación significa analizar hasta que punto es significativa la dependencia de una
variable con la otra la correlacion, el cual estudia el grado de asociación o dependencia entre
las dos variables. De esta manera, por ejemplo, cuando exista una dependencia funcional entre
ambas variables diremos que tenemos una correlación perfecta (ej. radio y área de un cırculo).
Cuando, por el contrario, no exista ninguna dependencia entre las variables diremos que no
hay correlación (ej. primera letra del apellido y altura de un individuo). El caso más interesante
es el intermedio, cuando es posible que exista alguna correlación, aunque no perfecta, que
habrá que cuantificar.
Para construir una medida adimensional de la correlación habrá que dividir la varianza por un
termino con sus mismas dimensiones. De esta forma, se define el coeficiente de correlacion
lineal r como el cociente entre la covarianza y las desviaciones típicas.
Cuando cada partición se asocia a una porción correspondiente del total de grados de libertad,
la técnica es conocida como análisis de variancia(ANVA).
El análisis de correlación emplea métodos para medir la significación del grado o intensidad de
asociación entre dos o más variables. El concepto de correlación está estrechamente vinculado
al concepto de regresión, pues, para que una ecuación de regresión sea razonable los puntos
muestrales deben estar ceñidos a la ecuación de regresión; además el coeficiente de
correlación debe ser:
-1 ≤ r ≤ 1
Si r = -1, la asociación es perfecta pero inversa; es decir, a valores altos de una variable
le corresponde valores bajos a la otra variable, y viceversa.
R²=
Trabajo final, Probabilidad y Estadística 10
Consumo máximo de oxígeno y edad
Se interpreta como una medida de ajuste de los datos observados y proporciona el porcentaje
de la variación total explicada por la regresión.
INTRODUCCIÓN
El consumo maximo de oxigeno es uno de los indicadores mas importantes, en el ambito de los
deportes de resistencia tiene especial relevancia, ya que puede tomarse como indicador de
rendimiento, el ciclismo es el deporte en donde tiene mas relevancia y esta ampliamente
estudiado.
Planificacion de entrenamiento
Capacitacion y selección de talentos
Valoracion de la salud y condicion fisica del sujeto
El vo2max pone en manifiesto la capacidad del sistema de aportación de oxígeno, esto es, las
partes del organismo cuya finalidad es ofrecer oxígeno a los tejidos y órganos según las
necesidades, como la capacidad de utilización y aprovechamiento de ese oxigeno por los
tejidos, principalmente el tejido muscular.
Dotación genética
Edad
Composición corporal (a mayor masa magra mayor vo2max).
Sexo (mayor en varones).
Grado de entrenamiento o acondicionamiento físico
Par poder obtener el vo2max se realiza una prueba Ergoespirometrica máxima o test de
Cooper en deportistas de diferentes edades.
DESARROLLO DE TRABAJO
Al realizar este trabajo, planteamos como objetivo determinar si es proporcional el consumo
máximo de oxígeno y la edad del sujeto. Para llevarlo a cabo recaudamos 15 muestras de
deportistas con similares condiciones físicas, refiriéndonos al peso y altura, estableciendo
como límites de edad de 15 a 30 años.
Trabajo final, Probabilidad y Estadística 12
Consumo máximo de oxígeno y edad
DATOS:
Vamos a utilizar la recta de mejor ajuste o recta de regresión lineal para analizar la
dependencia lineal que existen entre las variables. No es posible esperar que todos los datos
caigan sobre la misma recta, solo es una aproximación a la linealidad de la relación. Pero para
mayor facilidad usaremos el programa “Stat Graphic Centurion” y este hallará la recta de
regresión lineal de forma automática (representada en color azul), además calculara datos muy
importantes que nos ayudaran a entender de mejor manera la dependencia lineal de las
variables (coeficiente de correlación, coeficiente de determinación, error estándar de la
estimación, etc.)
Trabajo final, Probabilidad y Estadística 13
Consumo máximo de oxígeno y edad
69
65
61
VO2max
57
53
49
45
15 18 21 24 27 30
Edad
Para
realizar el análisis de regresión lineal, es necesario determinar si existe alguna relación lineal
entre las variables, a través del grafico de dispersión podemos observar la distribución de los
datos y predecir si existe o no esta relación y a partir de este hacer un análisis de regresión con
modelos ajustados.
COEFICIENTES
Mínimos Estándar Estadístico
Cuadrados
Parámetr Estimado Error T Valor-P
o
Intercepto 83,617 2,22794 37,531 0,0000
Pendiente -1,30974 0,100553 -13,0254 0,0000
Trabajo final, Probabilidad y Estadística 14
Consumo máximo de oxígeno y edad
ANÁLISIS DE VARIANZA
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 627,155 1 627,155 169,66 0,0000
Residuo 48,0547 13 3,69651
Total (Corr.) 675,209 14
65
61
VO2max
57
53
49
45
15 18 21 24 27 30
Edad
EL STATADVISOR
La salida muestra los resultados de ajustar un modelo lineal para describir la relación entre
VO2max y Edad. La ecuación del modelo ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación
estadísticamente significativa entre VO2max y Edad con un nivel de confianza del 95,0%.
desviación estándar de los residuos es 1,92263. Este valor puede usarse para construir límites
de predicción para nuevas observaciones, seleccionando la opción de Pronósticos del menú de
texto.
El error absoluto medio (MAE) de 1,66501 es el valor promedio de los residuos. El estadístico
de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es mayor que 0,05, no hay indicación de una auto correlación serial en los residuos con
un nivel de confianza del 95,0%.
Gráfico de Residuos
VO2max = 83,617 - 1,30974*Edad
2
Rediduo Estudentizado
-1
-2
15 18 21 24 27 30
Edad
RESIDUOS A TÍPICOS
Prediccione Residuos
s
Fila X Y Y Residuos Studentizados
EL STAT ADVISOR
La tabla de residuos atípicos enlista todas las observaciones que tienen residuos
Estudentizados mayores a 2, en valor absoluto. Los residuos Estudentizados miden cuántas
desviaciones estándar se desvía cada valor observado de VO2max del modelo ajustado,
utilizando todos los datos excepto esa observación. En este caso, no hay residuos
Estudentizados mayores que 2.
Trabajo final, Probabilidad y Estadística 16
Consumo máximo de oxígeno y edad
BIBLIOGRAFÍA
ANEXOS
Trabajo final, Probabilidad y Estadística 17
Consumo máximo de oxígeno y edad