Análisis bidimensional de datos en Estadística Aplicada

Curso 2016/17
Asignatura: Estadstica Aplicada a la A.F y el Deporte

Estudios: Grado en Ciencias de la A.F y el Deporte
Profesor: Helena Martnez Puertas
TEMA 2:
AN ALISIS DE DATOS BIVARIANTES
A continuacion, estudiaremos los metodos que utiliza la Estadstica Descriptiva para

describir conjuntos de datos cuando se recogen simultaneamente dos caractersticas de la
poblacion de estudio, dando lugar, as, a una variable bidimensional. A diferencia que en el
tema anterior, en el cual todas las variables de estudio eran analizadas de manera individual,
en este captulo nos centraremos en el estudio de tecnicas que nos permitiran analizar dos
variables de forma conjunta.
El objetivo principal que se persigue cuando se estudian de manera simultanea (en lu-
gar de estudiarlas por separado) dos variables de la poblacion es ver si existe algun tipo de
relacion entre ellas. Por ejemplo, para un grupo de atletas se puede observar de forma con-
junta la variable X: peso del atleta y la variable Y : tiempo registrado en la prueba
de los 100 metros lisos, con objeto de estudiar si existe o no alguna relacion entre dichas
variables y comprobar si el peso del atleta influye o no en la marca registrada.
De aqui en adelante, denotaremos por:
(X, Y ) a la variable bidimensional, donde las variables X e Y pueden ser de tipo

cuantitativo o cualitativo .
(xi , yj ) a los distintos valores que toma la variable bidimensional.
N al tamano que tiene la poblacion objeto de estudio.
1
2.1 Distribucion bidimensional de frecuencias.
Cuando se recogen datos de una variable bidimensional (X, Y ), el primer paso es organizar
todas esas observaciones en una tabla en la que figure de forma resumida toda la informacion.
Para representar numericamente una variable bidimensional se utiliza una tabla de doble
entrada, llamada tabla bidimensional de frecuencias, que se construye de la manera
siguiente:
1. Escribimos en filas los distintos valores que toma la variable X, en orden creciente.
2. Escribimos en columnas los distintos valores que toma la variable Y , tambien en orden
creciente.
3. En el interior de dicha tabla se puede recoger el numero de veces que se repite cada
par de valores (xi , yj ) (frecuencia absoluta conjunta, nij ) o la proporcion de veces que
n
se repite dicho valor (frecuencia relativa conjunta, fij = Nij ).
El resultado final es una tabla de doble entrada como la siguiente:
Distribucion bidimensional de frecuencias

X\Y y1 y2 . . . yp
x1 n11 n12 . . . n1p
x2 n21 n22 . . . n2p
.. .. .. .
. . . . . . ..
xn nn1 nn2 . . . nnp
Si ambas variables son cuantitativas, a esta tabla se le llama tabla de correlacion,

mientras que si las variables son cualitativas, se le denomina tabla de contingencia.
Observaciones:
1. La suma de todas las frecuencias absolutas conjuntas nij que aparecen en el interior
de la tabla de doble entrada (es decir, la suma de las veces que se repite cada par de
valores) coincide siempre con el total de datos, N .
Si en lugar de representar las frecuencias absolutas en la tabla bidimensioinal de fre-
cuencias nos decantamos por la representacion de los porcentajes de cada par de valores
(fij = nij
N
100), entonces se observa que la suma de todos esos porcentajes es siempre
el 100%.
2. Si una de las variables de estudio o las dos son de tipo numerico continuo (presentan
un gran numero de valores diferentes y cada valor se repite en muy pocas ocasiones)
sera necesario agrupar la variable o variables en cuestion en intervalos de clases, para
reducir as el tamano de la tabla de frecuencias.
2
Ejemplo 1 Para un grupo de 100 deportistas, se ha recogido de manera simultanea dos
cuestiones: si realiza ejercicios de calentamiento antes de hacer deporte, X, y si ha sufrido
o no alguna lesion durante la practica deportiva, Y , obteniendose que: 60 realizan ejercicios
de calentamiento y 40 no; ademas, han sufrido alguna lesion durante la practica deportiva 5
de los que realizan actividades de calentamiento y 25 de los que no. Con esta informacion,
la tabla bidimensional de frecuencias es la siguiente:
Tabla de contingencia
X\Y Con lesion Sin lesion

Realizan ejercicios de calentamiento 5 55
No realizan ejercicios de calentamiento 25 15
Ejemplo 2 Para los 24 equipos de futbol que forman una determinada liga, tras haber dis-
putado hasta la fecha un total de 10 partidos, se han recogido de manera simultanea las
siguientes variables:
X: numero de partidos empatados.
Y : numero de partidos ganados.
obteniendose las siguientes observaciones:
(1, 0), (3, 0), (2, 0), (1, 1), (3, 4), (1, 0), (1, 1), (2, 0), (3, 4), (1, 0), (2, 3), (1, 1),
(2, 2), (1, 0), (3, 2), (1, 0), (2, 3), (2, 4), (1, 0), (1, 3), (1, 0), (3, 2), (1, 0), (3, 4).
La tabla bidimensional de frecuencias es la siguiente:
Tabla de correlacion
X\Y 0 1 2 3 4
1 8 3 0 1 0
2 2 0 1 2 1
3 1 0 2 0 3
A partir de la informacion de la tabla de frecuencias, se pide:
1. Cuantos equipos han empatado dos 2 partidos y han ganado 3?
2. Cuantos equipos han empatado 1 partido y han ganado menos de 3?
3. Que porcentaje de equipos han empatado 3 partidos y han ganado 4?
3
Ejemplo 3 Para una muestra de 50 jugadores y jugadoras de Voleibol que participaron en el
Campeonato Nacional de Liga de Division de Honor, se observaron las siguientes variables:
X: altura del jugador, en cm.
Y : potencia media de saque, en Km/h.
Los datos obtenidos se encuentran resumidos en la siguiente tabla de correlacion:
Tabla de correlacion
X\Y [73 96) [96 119) [119 142]
[158 170) 7 1 0
[170 182) 7 6 1
[182 194) 3 6 10
[194 206] 0 2 7
Como puede observarse, en este caso las dos variables se encuentran agrupadas en interva-
los. La variable altura se encuentra agrupada en 4 intervalos de amplitud 12 cm, mientras
que la variable potencia media de saque se muestra agrupada en 3 intervalos de amplitud
23 km/h. Esto se debe a que ambas variables son numericas continuas, haciendo necesario
el crear intervalos de clases para reducir el tamano de la tabla bidimensional de frecuencias
que resume la informacion.
A partir de la informacion de la tabla de frecuencias, se pide:
1. Cuantos jugadores tienen una altura comprendida entre [182-194) y una potencia
media de saque entre [96-119)?
2. Cuantos jugadores miden menos de 194 cm y tienen una potencia de saque igual o
superior a 119 km/h?
3. Cuantos jugadores tienen una altura superior o igual a 182 cm y tienen una potencia
media de saque inferior a 119 km/h?
4
2.2 Representacion grafica: Diagrama de dispersion.
Al igual que vimos en el captulo anterior, las tablas de frecuencias bidimensionales suelen ir
acompanadas de la representacion grafica de los datos, ya que dicha representacion nos ayuda
a detectar de forma rapida caractersticas importantes de los datos. Como ya se menciono al
comienzo del tema, uno de los motivos por los que se estudian conjuntamente dos variables
es para ver si existe relacion entre ellas y una forma de detectar la posible relacion entre
las variables es graficamente. La representacion grafica mas utilizada en el caso de variables
bidimensionales recibe el nombre de diagrama de dispersion o nube de puntos, que consiste
dibujar unos ejes de coordenadas en los cuales:
1. En el eje X representamos los distintos valores que toma la variable X, xi .
2. En el eje Y representamos los distintos valores que toma la variable Y , yj .
3. Marcamos cada pareja de valores que toma la variable bidimensional (xi , yj ) con un
punto.
La importancia de representar graficamente una variable bidimensional radica en que nos

puede dar una idea, a priori, de que tipo de modelo matematico podra ajustarse mejor para
intentar explicar la relacion entre las dos variables de estudio (en el caso de que exista tal
relacion).
Ejemplo 4 El diagrama de dispersion correspondiente al Ejemplo 2 es el siguiente:
A la vista de la representacion grafica, no parece que haya una estructura matematica clara
que nos relacione a las dos variables. Al final del tema comprobaremos, de forma analtica,
que nuestras sospechas son ciertas.
5
Ejemplo 5 El diagrama de dispersion correspondiente al Ejemplo 3 es el siguiente:
A la vista de la representacion grafica, parece que la ecuacion de una recta podra ser una
buena eleccion para explicar la relacion entre la potencia de saque y la altura del jugador.
Ademas, se observa que a mayor altura, mayor es la potencia de saque.
2.3 Distribuciones marginales.

A partir de una distribucion bidimensional, puede interesarnos estudiar aisladamente cada
una de las variables. De esta forma, tendramos dos distribuciones unidimensionales (una
para la variable X y otra para la variable Y ) que reciben el nombre de distribuciones
marginales de X e Y , respectivamente.
Distribucion marginal (unidimensional) de X: tabla donde recogemos los va-

lores que toma la vaiable X y el numero de veces que se repite en total cada uno de
sus valores. A partir de la tabla bidimensional, las repeticiones de cada valor de la
variable X se obtiene sumando por filas las frecuencias conjuntas recogidas en la tabla
de doble entrada bidimensional.
Distribucion marginal (unidimensional) de Y : tabla donde recogemos los valo-

res que toma la variable Y y el numero de veces que se repite en total cada uno de sus
valores. A partir de la tabla bidimensional, las repeticiones de cada valor de la variable
Y se obtiene sumando por columnas las frecuencias conjuntas recogidas en la tabla de
doble entrada bidimensional.
Las distribuciones marginales se suelen representar junto con la tabla bidimensional de

frecuencias, anadiendo una columna adicional (que representa la distribucion marginal de
X) y una fila adicional (que representa la distribucion marginal de Y ) a la tabla de doble
entrada.
6
Observaciones:
1. En ambas distribuciones, al tratarse de distribuciones unidimensionales, la suma de

todas las frecuencias nos dara el total de datos de la poblacion, N y la suma de todos
los porcentajes sera el 100%.
2. Para cada variable, al tratarse de variables unidimensionales, pueden aplicarse los

graficos y medidas estadsticas estudiadas en el Tema 1.
3. A partir de una distribucion bidimensional de frecuencias siempre se pueden obtener

las distribuciones unidimensionales de X e Y . Sin embargo, a partir de dos distribu-
ciones unidimensionales no siempre es posible establecer la distribucion bidimensional
conjunta de (X, Y ).
Ejemplo 6 Retomamos el Ejemplo 1. Si estudiamos de manera aislada la variable X y la

variable Y , las distribuciones marginales (unidimensionales) de X e Y , son, respectivamente:
Distribucion marginal de X Distribucion marginal de Y
Habito deportivo Frecuencia Perfil del deportista Frecuencia

S calienta 60 Con lesion 30
No calienta 40 Sin lesion 70
Ejemplo 7 En el caso del Ejemplo 2 las distribuciones marginales (unidimensionales) de

X e Y , son, respectivamente:
Distribucion marginal de X Distribucion marginal de Y
Partidos ganados Frecuencia

Partidos empatados Frecuencia 0 11
1 12 1 3
2 6 2 3
3 6 3 3
4 4
7
2.4 Distribuciones Condicionadas.
Se obtiene cuando estudiamos unidimensionalmente una de las dos variables bajo determi-
nadas condiciones en la otra variable. As, hablaremos de:
Distribucion de X condicionada a Y , que denotaremos por X|Y : estudiamos la

variable X de manera unidimensional si conocemos previamente los valores que toma
la variable Y .
Distribucion de Y condicionada a X, que denotaremos por Y |X: estudiamos la

variable Y de manera unidimensional si conocemos previamente los valores que toma
la variable X.
Se trata, por tanto, de distribuciones de tipo unidimensional en las que solo nos fijamos
en un grupo determinado de nuestra poblacion. En las distribuciones condicionadas tambien
se pueden aplicar las tecnicas descriptivas del Tema 1.
Observacion: como nos limitamos a trabajar solo con una parte de la poblacion las dis-
tribuciones condicionadas son las unicas distribuciones de tipo unidimensional
en las que la suma de todas las frecuencias no coincidira con el total de datos
de la poblacion, N . En el caso de representar los porcentajes, la suma de todos tampoco
coincidira con el 100%.
Ejemplo 8 A partir de la distribucion bidimensional del Ejemplo 2, podemos formar dis-

tintas distribuciones condicionadas, entre ellas, por ejemplo:
Distribucion de X|Y = 2 Distribucion de X|Y 2 Distribucion de Y |X < 3
Ganados Frecuencia
Empatados Frecuencia Empatados Frecuencia 0 8 + 2 = 10

1 0 1 0+1+0=1 1 3+0=3
2 1 2 1+2+1=3 2 0+1=1
3 2 3 2+0+3=5 3 1+2=3
TOTAL = 3 TOTAL = 9 4 0+1=1
TOTAL = 18
8
2.5 Regresion y Correlacion.
Una de las cuestiones mas importantes dentro del estudio de las distribuciones bidimen-
sionales con variables numericas, es la de conocer el grado de relacion existente entre las
variables. En el caso en el que las dos variables de estudio tengan algun tipo de relacion, las
siguientes cuestiones que nos planteamos son:
1. Obtener el modelo matematico que mejor exprese la relacion entre dichas variables
(Regresion). La obtencion de dicho modelo nos permitira explicar el comportamiento
de una de las variables a partir del conocimiento de la otra, pudiendo as predecir los
valores que tomara una de las variables si conocemos el valor que toma la otra.
2. Calcular la fiabilidad (o bondad) del ajuste obtenido, es decir, determinar hasta que
punto el modelo matematico obtenido es bueno para explicar la relacion entre ambas
variables (Correlacion). Estudia, as, la intensidad de la relacion existente entre las
dos variables.
2.5.1 Regresion.
El objetivo de la Regresion es encontrar el modelo matematico que mejor exprese la relacion
existente entre las dos variables. Para este aspecto, la nube de puntos es tremendamente
util, ayudandonos a determinar que estructura matematica se aproximara mas a la nube de
puntos representada.
Nos centraremos en los modelos mas comunes, que son:
Recta (tambien llamado Modelo Lineal): y = a + bx.
Parabola: y = a + bx + cx2 .
Hiperbola: y = a + xb .
Potencia: y = a xb .
Exponencial: y = a bx .
El problema esta en determinar el valor de los coeficientes a, b y c de dichos modelos que

nos determinaran por completo la estructura buscada. Logicamente, para calcular el valor
de esos coeficientes, utilizaremos el programa informatico SPSS.
De este modo, la regresion nos proporciona modelos que nos permitiran ex-
plicar el comportamiento o evolucion de una de las variables (que llamaremos
variable dependiente) a partir de la otra (que llamaremos variable independiente
o explicativa), lo que nos permite predecir los valores que tomara la variable
dependiente para valores concretos de la variable independiente.
9
OBSERVACION IMPORTANTE DEL MODELO LINEAL:
En el modelo lineal el signo del coeficiente b (que es la pendiente de la recta) nos propor-
ciona informacion sobre el sentido en el que estan relacionadas las dos variables, de modo
que:
Si el coeficiente b es de signo positivo, significa que entre las dos variables hay
una relacion lineal positiva (o relacion directa). Esto quiere decir que a mayor valor
de una de las variables, mayor sera tambien el valor de la otra variable.
Si el coeficiente b es de signo negativo, significa que entre las dos variables hay
una relacion lineal negativa (o relacion inversa). Esto quiere decir que a mayor valor
de una de las variables, menor sera el valor que toma la otra variable.
En la regresion curvilnea (no lineal), tambien se puede hablar de una relacion positiva o
negativa pero, en este caso, no hay ningun coeficiente del modelo que nos indique el sentido
en el que las variables estan relacionadas.
10
Ejemplo 9 Hemos comentado con anterioridad, a la vista de la representacion grafica, que
entre las variables del Ejemplo 2 no parece haber una estructura matematica clara que per-
mita explicar el comportamiento de una de las variables a partir de la otra. No obstante
determinaremos, con ayuda del SPSS, los modelos matematicos que mas se aproximan a la
nube de puntos. Tratados los datos con el programa SPSS, se obtiene la tabla siguiente:
Si nos fijamos en la parte de la tabla Estimaciones de los parametros, obtenemos

los valores de los coeficientes buscados para cada modelo. As, los modelos obtenidos para
explicar el numero de partidos empatados en funcion del numero de partidos ganados,
son los siguientes:
Recta (Lineal): y = 0.545 + 1.121 x
Parabola (al que el programa se refiere como Cuadratico):
y = 1.833 + 2.750 x 0.417 x2
Hiperbola (al que el programa se refiere como Inversa):

3.176
y = 3.667
x
En el caso del modelo lineal, como el coeficiente b tiene signo positivo, significa que hay
una relacion directa entre las dos variables, es decir, a mayor numero de partidos empatados,
mayor es el numero de partidos ganados.
2.5.2 Correlacion.
Con la regresion hemos calculado una serie de modelos matematicos que nos relacionan las
dos variables de estudio. Ahora bien, de todos los modelos que hemos calculado, cual es el
mejor o mas fiable para expresar la relacion entre dichas variables? Esta es la cuestion que
nos resuelve la Correlacion.
Para medir la fiabilidad de los modelos matematicos calculados, utilizaremos el coefi-

ciente de determinacion: porcentaje de variabilidad de la variable dependiente que queda
explicado por la variable independiente, y se denota por R2 . Sin entrar en su calculo, solo
veremos como se interpreta:
11
R2 toma valores solo entre 0 y 1, (0 R2 1).
Si R2 = 0, el modelo correspondiente no tiene ninguna fiabilidad para explicar la

relacion entre las dos variables. As, cuanto mas proximo este R2 a cero, peor sera el
modelo.
Si R2 = 1, el modelo correspondiente es fiable al 100%. As, cuanto mas proximo este

R2 a 1, mejor sera el modelo.
En consecuencia, para saber cual de los modelos calculados es el mas fiable para
expresar la relacion entre las dos variables, solo hemos de fijarnos en sus co-
rrespondientes coeficientes de determinacion (R2 ) y aquel cuyo valor sea mas
proximo a 1 sera el mejor y el que tenga valor mas proximo a cero sera el peor.
Logicamente, con el modelo mas fiable sera con el que realizaremos predicciones, es decir,
con el que estimaremos el valor que tomara la variable dependiente si conocemos el valor
que toma la variable independiente o explicativa.
Ejemplo 10 Discutir la fiabilidad (o bondad) de los distintos modelos calculados para las
variables del Ejemplo 2. Con el mejor de los modelos, predecir el numero de partidos gana-
dos para un equipo que haya empatado 4 partidos.
Nos fjamos en la tabla que nos porporcionaba el SPSS, pero en este caso, en la columna
R cuadrado:
En consecuencia, como el R cuadrado correspondiente al modelo cuadratico (parabola)

es el que se aproxima mas a 1, ese sera el mejor modelo para expresar la relacion entre
nuestras variables.
El programa nos permite comprobar la fiabilidad de los modelos calculados tambien de

forma visual, ya que nos muestra la nube de puntos con los distintos modelos ajustados de
manera que podemos observar cual de ellos se adapta mejor a los datos:
12
No obstante, el valor del R cuadrado obtenido para el modelo cuadratico es de 0.372
que es proximo a 0, lo que indica que tampoco es muy fiable. A pesar de no ser muy fiable,
haremos, a modo de ejemplo, la prediccion pedida. Recordemos que el modelo cuadratico
obtenido para este ejemplo es:
y = 1.833 + 2.750 x 0.417 x2
As, si queremos saber el valor de la variable Y para x = 4, nos basta sustituir en el

modelo anterior, obteniendo:
y = 1.833 + 2.750 4 0.417 42 = 2.5.
13

Análisis bidimensional de datos en Estadística Aplicada

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Análisis bidimensional de datos en Estadística Aplicada

Transféré par

Droits d'auteur :

Formats disponibles

Curso 2016/17

Asignatura: Estadstica Aplicada a la A.F y el Deporte

A continuacion, estudiaremos los metodos que utiliza la Estadstica Descriptiva para

De aqui en adelante, denotaremos por:

(X, Y ) a la variable bidimensional, donde las variables X e Y pueden ser de tipo

(xi , yj ) a los distintos valores que toma la variable bidimensional.

N al tamano que tiene la poblacion objeto de estudio.

El resultado final es una tabla de doble entrada como la siguiente:

Distribucion bidimensional de frecuencias

Si ambas variables son cuantitativas, a esta tabla se le llama tabla de correlacion,

X\Y Con lesion Sin lesion

X: numero de partidos empatados.

Y : numero de partidos ganados.

obteniendose las siguientes observaciones:

La tabla bidimensional de frecuencias es la siguiente:

A partir de la informacion de la tabla de frecuencias, se pide:

1. Cuantos equipos han empatado dos 2 partidos y han ganado 3?

2. Cuantos equipos han empatado 1 partido y han ganado menos de 3?

3. Que porcentaje de equipos han empatado 3 partidos y han ganado 4?

X: altura del jugador, en cm.

Y : potencia media de saque, en Km/h.

Los datos obtenidos se encuentran resumidos en la siguiente tabla de correlacion:

A partir de la informacion de la tabla de frecuencias, se pide:

1. En el eje X representamos los distintos valores que toma la variable X, xi .

2. En el eje Y representamos los distintos valores que toma la variable Y , yj .

La importancia de representar graficamente una variable bidimensional radica en que nos

Ejemplo 4 El diagrama de dispersion correspondiente al Ejemplo 2 es el siguiente:

2.3 Distribuciones marginales.

Distribucion marginal (unidimensional) de X: tabla donde recogemos los va-

Distribucion marginal (unidimensional) de Y : tabla donde recogemos los valo-

Las distribuciones marginales se suelen representar junto con la tabla bidimensional de

1. En ambas distribuciones, al tratarse de distribuciones unidimensionales, la suma de

2. Para cada variable, al tratarse de variables unidimensionales, pueden aplicarse los

3. A partir de una distribucion bidimensional de frecuencias siempre se pueden obtener

Ejemplo 6 Retomamos el Ejemplo 1. Si estudiamos de manera aislada la variable X y la

Distribucion marginal de X Distribucion marginal de Y

Habito deportivo Frecuencia Perfil del deportista Frecuencia

Ejemplo 7 En el caso del Ejemplo 2 las distribuciones marginales (unidimensionales) de

Distribucion marginal de X Distribucion marginal de Y

Partidos ganados Frecuencia

Distribucion de X condicionada a Y , que denotaremos por X|Y : estudiamos la

Distribucion de Y condicionada a X, que denotaremos por Y |X: estudiamos la

Ejemplo 8 A partir de la distribucion bidimensional del Ejemplo 2, podemos formar dis-

Distribucion de X|Y = 2 Distribucion de X|Y 2 Distribucion de Y |X < 3

Empatados Frecuencia Empatados Frecuencia 0 8 + 2 = 10

Nos centraremos en los modelos mas comunes, que son:

Recta (tambien llamado Modelo Lineal): y = a + bx.

El problema esta en determinar el valor de los coeficientes a, b y c de dichos modelos que

Si nos fijamos en la parte de la tabla Estimaciones de los parametros, obtenemos

y = 1.833 + 2.750 x 0.417 x2

Hiperbola (al que el programa se refiere como Inversa):

Para medir la fiabilidad de los modelos matematicos calculados, utilizaremos el coefi-

Si R2 = 0, el modelo correspondiente no tiene ninguna fiabilidad para explicar la

Si R2 = 1, el modelo correspondiente es fiable al 100%. As, cuanto mas proximo este

En consecuencia, como el R cuadrado correspondiente al modelo cuadratico (parabola)

El programa nos permite comprobar la fiabilidad de los modelos calculados tambien de

y = 1.833 + 2.750 x 0.417 x2

As, si queremos saber el valor de la variable Y para x = 4, nos basta sustituir en el

y = 1.833 + 2.750 4 0.417 42 = 2.5.

Vous aimerez peut-être aussi