Académique Documents
Professionnel Documents
Culture Documents
TEMA 2:
AN ALISIS DE DATOS BIVARIANTES
El objetivo principal que se persigue cuando se estudian de manera simultanea (en lu-
gar de estudiarlas por separado) dos variables de la poblacion es ver si existe algun tipo de
relacion entre ellas. Por ejemplo, para un grupo de atletas se puede observar de forma con-
junta la variable X: peso del atleta y la variable Y : tiempo registrado en la prueba
de los 100 metros lisos, con objeto de estudiar si existe o no alguna relacion entre dichas
variables y comprobar si el peso del atleta influye o no en la marca registrada.
1
2.1 Distribucion bidimensional de frecuencias.
Cuando se recogen datos de una variable bidimensional (X, Y ), el primer paso es organizar
todas esas observaciones en una tabla en la que figure de forma resumida toda la informacion.
Para representar numericamente una variable bidimensional se utiliza una tabla de doble
entrada, llamada tabla bidimensional de frecuencias, que se construye de la manera
siguiente:
1. Escribimos en filas los distintos valores que toma la variable X, en orden creciente.
2. Escribimos en columnas los distintos valores que toma la variable Y , tambien en orden
creciente.
3. En el interior de dicha tabla se puede recoger el numero de veces que se repite cada
par de valores (xi , yj ) (frecuencia absoluta conjunta, nij ) o la proporcion de veces que
n
se repite dicho valor (frecuencia relativa conjunta, fij = Nij ).
Observaciones:
1. La suma de todas las frecuencias absolutas conjuntas nij que aparecen en el interior
de la tabla de doble entrada (es decir, la suma de las veces que se repite cada par de
valores) coincide siempre con el total de datos, N .
Si en lugar de representar las frecuencias absolutas en la tabla bidimensioinal de fre-
cuencias nos decantamos por la representacion de los porcentajes de cada par de valores
(fij = nij
N
100), entonces se observa que la suma de todos esos porcentajes es siempre
el 100%.
2. Si una de las variables de estudio o las dos son de tipo numerico continuo (presentan
un gran numero de valores diferentes y cada valor se repite en muy pocas ocasiones)
sera necesario agrupar la variable o variables en cuestion en intervalos de clases, para
reducir as el tamano de la tabla de frecuencias.
2
Ejemplo 1 Para un grupo de 100 deportistas, se ha recogido de manera simultanea dos
cuestiones: si realiza ejercicios de calentamiento antes de hacer deporte, X, y si ha sufrido
o no alguna lesion durante la practica deportiva, Y , obteniendose que: 60 realizan ejercicios
de calentamiento y 40 no; ademas, han sufrido alguna lesion durante la practica deportiva 5
de los que realizan actividades de calentamiento y 25 de los que no. Con esta informacion,
la tabla bidimensional de frecuencias es la siguiente:
Tabla de contingencia
Ejemplo 2 Para los 24 equipos de futbol que forman una determinada liga, tras haber dis-
putado hasta la fecha un total de 10 partidos, se han recogido de manera simultanea las
siguientes variables:
(1, 0), (3, 0), (2, 0), (1, 1), (3, 4), (1, 0), (1, 1), (2, 0), (3, 4), (1, 0), (2, 3), (1, 1),
(2, 2), (1, 0), (3, 2), (1, 0), (2, 3), (2, 4), (1, 0), (1, 3), (1, 0), (3, 2), (1, 0), (3, 4).
Tabla de correlacion
X\Y 0 1 2 3 4
1 8 3 0 1 0
2 2 0 1 2 1
3 1 0 2 0 3
3
Ejemplo 3 Para una muestra de 50 jugadores y jugadoras de Voleibol que participaron en el
Campeonato Nacional de Liga de Division de Honor, se observaron las siguientes variables:
Tabla de correlacion
X\Y [73 96) [96 119) [119 142]
[158 170) 7 1 0
[170 182) 7 6 1
[182 194) 3 6 10
[194 206] 0 2 7
Como puede observarse, en este caso las dos variables se encuentran agrupadas en interva-
los. La variable altura se encuentra agrupada en 4 intervalos de amplitud 12 cm, mientras
que la variable potencia media de saque se muestra agrupada en 3 intervalos de amplitud
23 km/h. Esto se debe a que ambas variables son numericas continuas, haciendo necesario
el crear intervalos de clases para reducir el tamano de la tabla bidimensional de frecuencias
que resume la informacion.
1. Cuantos jugadores tienen una altura comprendida entre [182-194) y una potencia
media de saque entre [96-119)?
2. Cuantos jugadores miden menos de 194 cm y tienen una potencia de saque igual o
superior a 119 km/h?
3. Cuantos jugadores tienen una altura superior o igual a 182 cm y tienen una potencia
media de saque inferior a 119 km/h?
4
2.2 Representacion grafica: Diagrama de dispersion.
Al igual que vimos en el captulo anterior, las tablas de frecuencias bidimensionales suelen ir
acompanadas de la representacion grafica de los datos, ya que dicha representacion nos ayuda
a detectar de forma rapida caractersticas importantes de los datos. Como ya se menciono al
comienzo del tema, uno de los motivos por los que se estudian conjuntamente dos variables
es para ver si existe relacion entre ellas y una forma de detectar la posible relacion entre
las variables es graficamente. La representacion grafica mas utilizada en el caso de variables
bidimensionales recibe el nombre de diagrama de dispersion o nube de puntos, que consiste
dibujar unos ejes de coordenadas en los cuales:
3. Marcamos cada pareja de valores que toma la variable bidimensional (xi , yj ) con un
punto.
A la vista de la representacion grafica, no parece que haya una estructura matematica clara
que nos relacione a las dos variables. Al final del tema comprobaremos, de forma analtica,
que nuestras sospechas son ciertas.
5
Ejemplo 5 El diagrama de dispersion correspondiente al Ejemplo 3 es el siguiente:
A la vista de la representacion grafica, parece que la ecuacion de una recta podra ser una
buena eleccion para explicar la relacion entre la potencia de saque y la altura del jugador.
Ademas, se observa que a mayor altura, mayor es la potencia de saque.
6
Observaciones:
7
2.4 Distribuciones Condicionadas.
Se obtiene cuando estudiamos unidimensionalmente una de las dos variables bajo determi-
nadas condiciones en la otra variable. As, hablaremos de:
Se trata, por tanto, de distribuciones de tipo unidimensional en las que solo nos fijamos
en un grupo determinado de nuestra poblacion. En las distribuciones condicionadas tambien
se pueden aplicar las tecnicas descriptivas del Tema 1.
Observacion: como nos limitamos a trabajar solo con una parte de la poblacion las dis-
tribuciones condicionadas son las unicas distribuciones de tipo unidimensional
en las que la suma de todas las frecuencias no coincidira con el total de datos
de la poblacion, N . En el caso de representar los porcentajes, la suma de todos tampoco
coincidira con el 100%.
Ganados Frecuencia
8
2.5 Regresion y Correlacion.
Una de las cuestiones mas importantes dentro del estudio de las distribuciones bidimen-
sionales con variables numericas, es la de conocer el grado de relacion existente entre las
variables. En el caso en el que las dos variables de estudio tengan algun tipo de relacion, las
siguientes cuestiones que nos planteamos son:
1. Obtener el modelo matematico que mejor exprese la relacion entre dichas variables
(Regresion). La obtencion de dicho modelo nos permitira explicar el comportamiento
de una de las variables a partir del conocimiento de la otra, pudiendo as predecir los
valores que tomara una de las variables si conocemos el valor que toma la otra.
2. Calcular la fiabilidad (o bondad) del ajuste obtenido, es decir, determinar hasta que
punto el modelo matematico obtenido es bueno para explicar la relacion entre ambas
variables (Correlacion). Estudia, as, la intensidad de la relacion existente entre las
dos variables.
2.5.1 Regresion.
El objetivo de la Regresion es encontrar el modelo matematico que mejor exprese la relacion
existente entre las dos variables. Para este aspecto, la nube de puntos es tremendamente
util, ayudandonos a determinar que estructura matematica se aproximara mas a la nube de
puntos representada.
Parabola: y = a + bx + cx2 .
Hiperbola: y = a + xb .
Potencia: y = a xb .
Exponencial: y = a bx .
De este modo, la regresion nos proporciona modelos que nos permitiran ex-
plicar el comportamiento o evolucion de una de las variables (que llamaremos
variable dependiente) a partir de la otra (que llamaremos variable independiente
o explicativa), lo que nos permite predecir los valores que tomara la variable
dependiente para valores concretos de la variable independiente.
9
OBSERVACION IMPORTANTE DEL MODELO LINEAL:
En el modelo lineal el signo del coeficiente b (que es la pendiente de la recta) nos propor-
ciona informacion sobre el sentido en el que estan relacionadas las dos variables, de modo
que:
Si el coeficiente b es de signo positivo, significa que entre las dos variables hay
una relacion lineal positiva (o relacion directa). Esto quiere decir que a mayor valor
de una de las variables, mayor sera tambien el valor de la otra variable.
Si el coeficiente b es de signo negativo, significa que entre las dos variables hay
una relacion lineal negativa (o relacion inversa). Esto quiere decir que a mayor valor
de una de las variables, menor sera el valor que toma la otra variable.
En la regresion curvilnea (no lineal), tambien se puede hablar de una relacion positiva o
negativa pero, en este caso, no hay ningun coeficiente del modelo que nos indique el sentido
en el que las variables estan relacionadas.
10
Ejemplo 9 Hemos comentado con anterioridad, a la vista de la representacion grafica, que
entre las variables del Ejemplo 2 no parece haber una estructura matematica clara que per-
mita explicar el comportamiento de una de las variables a partir de la otra. No obstante
determinaremos, con ayuda del SPSS, los modelos matematicos que mas se aproximan a la
nube de puntos. Tratados los datos con el programa SPSS, se obtiene la tabla siguiente:
2.5.2 Correlacion.
Con la regresion hemos calculado una serie de modelos matematicos que nos relacionan las
dos variables de estudio. Ahora bien, de todos los modelos que hemos calculado, cual es el
mejor o mas fiable para expresar la relacion entre dichas variables? Esta es la cuestion que
nos resuelve la Correlacion.
11
R2 toma valores solo entre 0 y 1, (0 R2 1).
En consecuencia, para saber cual de los modelos calculados es el mas fiable para
expresar la relacion entre las dos variables, solo hemos de fijarnos en sus co-
rrespondientes coeficientes de determinacion (R2 ) y aquel cuyo valor sea mas
proximo a 1 sera el mejor y el que tenga valor mas proximo a cero sera el peor.
Logicamente, con el modelo mas fiable sera con el que realizaremos predicciones, es decir,
con el que estimaremos el valor que tomara la variable dependiente si conocemos el valor
que toma la variable independiente o explicativa.
Ejemplo 10 Discutir la fiabilidad (o bondad) de los distintos modelos calculados para las
variables del Ejemplo 2. Con el mejor de los modelos, predecir el numero de partidos gana-
dos para un equipo que haya empatado 4 partidos.
Nos fjamos en la tabla que nos porporcionaba el SPSS, pero en este caso, en la columna
R cuadrado:
12
No obstante, el valor del R cuadrado obtenido para el modelo cuadratico es de 0.372
que es proximo a 0, lo que indica que tampoco es muy fiable. A pesar de no ser muy fiable,
haremos, a modo de ejemplo, la prediccion pedida. Recordemos que el modelo cuadratico
obtenido para este ejemplo es:
13