Vous êtes sur la page 1sur 15

TEMA 2: ESTADSTICA DESCRIPTIVA BIVARIANTE O BIDIMENSIONAL

La Estadstica Descriptiva Bidimensional o Bivariante tiene por objetivo el estudio de dos variables simultneamente, es decir, sobre los n elementos o individuos de la muestra se observan o analizan 2 variables estadsticas (en principio, pueden ser de cualquier tipo). Las tcnicas estadsticas bivariantes permiten el anlisis conjunto de dos caractersticas o variables estadsticas con el propsito de detectar posibles relaciones entre ellas. La naturaleza (cualitativa (nominal u ordinal) o cuantitativa (discreta o continua) de las caractersticas objeto de estudio determinar las herramientas ms adecuadas para su anlisis.

1. DISTRIBUCIONES BIDIMENSIONALES. TABLAS DE FRECUENCIAS


Al igual que en el caso de la Estadstica Univariante o Unidimensional, cuando queremos describir conjuntamente dos variables estadsticas, el primer paso es representar los datos en una tabla de frecuencias. La diferencia fundamental es que ahora, a cada elemento de la muestra le corresponde no un valor sino dos: un valor para la 1 variable y otro valor para la 2 variable, lo que genera una distribucin bidimensional de valores. Por ejemplo, en el caso de que intentemos relacionar el peso y la altura de las personas, a cada persona se le asocia un par de valores (peso, altura). Por tanto, a la hora de construir la tabla de frecuencias hemos de considerar todos los valores de las dos variables, lo que va a modificar la estructura de la tabla de frecuencias que se conoce como Tabla de Doble Entrada o Tabla de Contingencia. La Tabla de Doble Entrada consiste en una tabla en la que se recogen las frecuencias absolutas de ambas variables conjuntamente, es decir, el n de veces que aparece cada par de valores de las dos variables. Esta frecuencia absoluta se llama Frecuencia Conjunta. Los valores de las variables pueden aparecer sin agrupar o agrupadas en intervalos (no teniendo por qu ser el nmero de intervalos de las dos variables iguales entre s, as como la amplitud de los mismos). Genricamente designaremos por X e Y a las dos caractersticas o variables estadsticas y por c1,,ck las k modalidades de la V.A. X y d1,,dp las p modalidades de la V.A. Y (las modalidades pueden ser atributos, valores o intervalos dependiendo del tipo de variable aleatoria). Las Frecuencias Conjuntas Absolutas (o distribucin conjunta de frecuencias) vienen definidas en la forma siguiente:

nij = nmero de individuos que presentan el par de modalidades (ci, dj) o nmero de veces que aparece el par de valores (ci, dj). Y la Frecuencia Conjunta Relativa es:
f ij = nij n

= proporcin de individuos que presentan el par de

modalidades (ci, dj) o proporcin en la que aparece el par de valores (ci, dj). La Tabla de Doble Entrada o Tabla de Contingencia recoge, en trminos absolutos o relativos, esta distribucin conjunta de frecuencias. Se construye con k filas (el n de modalidades de la V.A. X) y p columnas (el n de modalidades de la V.A. Y). Dentro cada casilla de la tabla se encontrarn las frecuencias conjuntas absolutas (nij) o relativas (fij) de las dos variables. La tabla de doble entrada para las frecuencias absolutas conjuntas es:

La tabla de doble entrada para las frecuencias relativas conjuntas es:

A partir de la tabla de doble entrada y de la distribucin de frecuencias conjuntas, se definen otras frecuencias tpicas de la estadstica bidimensional.

Se define la Frecuencia Marginal de Xi como el nmero de elementos o individuos que presentan la modalidad ci de la variable X y se obtiene sumando todos los elementos (frecuencias absolutas) de la fila i:
ni = nij
j =1 p

donde el punto () representa que el sumatorio afecta al 2 subndice, j, que es el que indica la posicin de las columnas (vamos pasando a travs de todos los valores o modalidades de la variable Y que est en las columnas). Por ejemplo, si i=2
n2 = n2 j =n21 + n22 + n23 + ....n2 p
j =1 p

estamos sumando todos los elementos de la 2 fila (recorriendo todos las modalidades de las columnas desde j=1 hasta j=p). Esta suma por filas puede realizarse para todas las modalidades de X, que son k, es decir, para la k filas. Se genera entonces la Distribucin de Frecuencias Marginales de X que se coloca en la tabla de doble entrada aadiendo una ltima columna como se muestra a continuacin:

La anterior tabla muestra la Distribucin de Frecuencias Marginales de X utilizando las frecuencias absolutas (es lo que se suma). Pero tambin podra utilizarse como punto de partida las frecuencias relativas en el cuerpo de la tabla de contingencia, y entonces se obtendra la distribucin de frecuencias relativas marginales de X:

Con frecuencias conjuntas absolutas

Con frecuencias conjuntas relativas

De la misma forma, se define la Frecuencia Marginal de Yj como el nmero de elementos o individuos que presentan la modalidad dj y se obtiene sumando todos los elementos (frecuencias absolutas) de la columna j:
n j = nij
i =1 k

donde el punto () representa que el sumatorio afecta al 1 subndice, i, que es el que indica la posicin de las filas (vamos pasando a travs de todos los valores o modalidades de la variable X que estn en las filas). Por ejemplo,
n1 = ni1 =n11 + n21 + n31 + ....nk 1
i =1 k

estamos sumando todos los elementos de la 1 columna (recorriendo todos las modalidades de las filas). Esta suma por columnas puede realizarse para todas las modalidades de Y, que son p, es decir, para las p columnas. Se genera entonces la Distribucin de Frecuencias Marginales de Y que se coloca en la tabla de doble entrada aadiendo una ltima fila como se muestra a continuacin:

La anterior tabla muestra la Distribucin de Frecuencias Marginales de Y utilizando las frecuencias absolutas (es lo que se suma). Pero tambin podra utilizarse como punto de partida las frecuencias relativas y entonces se obtendra la distribucin de frecuencias relativas marginales de Y:

Con frecuencias conjuntas absolutas

Con frecuencias conjuntas relativas

Las relaciones existentes entre las frecuencias absolutas marginales y las frecuencias relativas marginales son las siguientes:
f ij = nij

n ni fi = n n j f j = n

Y, adems se cumple que el tamao muestral n puede obtenerse de la forma siguiente:

es decir, sumando todas las frecuencias (absolutas) conjuntas, o bien, sumando todas las frecuencias marginales de X, o bien, sumando todas las frecuencias marginales de Y. Por ejemplo, si k=3 se cumplira lo siguiente segn la anterior relacin:
3

n
i =1

= n1 +n2 + n3

La expresin n representa la suma de todas las frecuencias (absolutas) conjuntas de la tabla de contingencia, es decir, estamos sumando sobre los dos subndices lo que se indica con un doble sumatorio:
n = nij
j =1 i =1 p k

Por ejemplo, si k=3 y p=2 se tendra el siguiente desarrollo para el doble sumatorio:
n = nij = ( n1 j + n2 j + n3 j ) = ( n11 + n21 + n31 ) + ( n12 + n22 + n32 ) = n
2

j =1 i =1

j =1

Otro tipo de frecuencia (absoluta o relativa) que puede estudiarse a partir de la tabla de doble entrada de una muestra bivariante es la Frecuencia Condicionada. Supngase que en lugar de considerar toda la muestra de tamao n, nos quedamos con una parte la muestra, es decir, una submuestra constituida por los individuos que presentan la modalidad dj de Y cuyo nmero es n j (la frecuencia marginal de Yj). En esta submuestra, analizamos lo que le ocurre a la caracterstica o variable X estudiando el comportamiento de (las frecuencias) la variable X en la submuestra formada por los n j individuos que presentan la modalidad dj de Y. Entonces, al hacerlo se obtiene la distribucin de frecuencia condicionada de X cuando Y vale dj, es decir, las frecuencias de X condicionadas por el valor dj de la variable Y.
X|Y=dj

c1 c2 : : ck

Frecuencia Condicionada Absoluta n1j n2j : : nkj


n j

Frecuencia Condicionada Relativa


f1| j = f 2| j = n1 j n j n2 j n j

: :
fk| j = nkj n j

Igualmente podamos obtener la distribucin de frecuencias condicionadas de Y cuando X vale ci.

Como se ha comentado al inicio de este apartado, uno de los objetivos del anlisis conjunto dos caractersticas o variables estadsticas es detectar posibles relaciones entre ellas. Con esta idea, es preciso tener algn parmetro que mida la asociacin o dependencia entre las variables. Veremos que este parmetro difiere dependiendo de si las variables son cualitativas o cuantitativas.

2. MEDIDAS DE RELACIN ENTRE VARIABLES O CARACTERSTICAS.

DOS

2.1 ESTUDIO DE UNA VARIABLE CUALITATIVA FRENTE A OTRA VARIABLE CUALITATIVA: ANLISIS DE LA CONTINGENCIA. El inters de este tipo de anlisis es saber si existe asociacin o dependencia entre dos caractersticas o variables cualitativas y, de ser as, en qu grado y cul es el sentido de la asociacin. No obstante, al no cuantificarse numricamente las variables no se puede hablar de una correlacin o asociacin directa o inversa. Este estudio se conoce como Anlisis de la Contingencia. Este anlisis permite responder a preguntas como las siguientes: el tipo de contrato depende del sexo? En principio, se supone que la posible relacin es unidireccional, esto es, una variable es independiente (la causa o factor) y otra dependiente (el efecto o respuesta). As, el sexo puede influir en el tipo de contrato, pero no al revs. Existen distintos coeficientes que miden el grado de dependencia o asociacin entre dos variables cualitativas. Si las variables cualitativas son las dos de tipo ordinal, la medida de su asociacin lineal viene dada por el Coeficiente de Correlacin de Spearman. Si las dos variables cualitativas son nominales y decimos que estn relacionadas o asociadas, queremos decir que las proporciones de X (gnero: hombre, mujer) son diferentes en cada categora de Y (ideologa poltica: izquierda, derecha). Si X e Y no estn relacionadas, entonces las proporciones de X sern iguales en las distintas categoras de Y. El parmetro bsico para medir la asociacin es el Estadstico Chi-Cuadrado (2) de Pearson que se define mediante la siguiente expresin:

donde Oij es la frecuencia absoluta observada para el par de modalidades de las variables (ci, dj) o frecuencias observadas (suponiendo que X e Y estuvieran relacionadas), es decir, es la frecuencia conjunta observada en la fila i y la columna j de la tabla de contingencia: Oij = nij Y eij es la frecuencia absoluta conjunta esperada o frecuencias esperadas en la fila i y columna j si las variables fuesen independientes o no estuvieran relacionadas, y viene dada por la siguiente expresin:

eij =

ni n j n

En la medida en que el Estadstico Chi-Cuadrado (2) de Pearson se acerque a 0, la dependencia o asociacin ser dbil o las variables son independientes mientras que si se aleja de 0 (es mayor que 0), la dependencia o asociacin ser ms fuerte y las variables estn relacionadas entre s. A partir del coeficiente se obtienen otros que se interpretan de forma anloga. En general, para todos estos estadsticos valores pequeos indican independencia, mientras que valores grandes indican dependencia.

Finalmente, la comparacin de las frecuencias observadas con las frecuencias esperadas permitir estudiar el sentido de la asociacin existente entre pares de modalidades de las variables cualitativas. As, - si - si el par de modalidades (ci, dj) presenta asociacin positiva. el par de modalidades (ci, dj) presenta asociacin negativa.

Adicionalmente, disponemos de las siguientes herramientas a nivel descriptivo: Tablas de contingencia. Descritas anteriormente. Representaciones grficas. La representacin grfica conjunta de dos variables cualitativas puede verse en las siguientes grficas. Diagrama de barras. Para cada modalidad de la caracterstica cualitativa se representa un rectngulo de altura igual a un valor como la media, la frecuencia de la variable cuantitativa.

60 50 40 Fumador 30 20 10 0 Varn Mujer No fumador Exfumador

60 50 40 30 20 10 0 Fumador No fumador Exfumador Varn Mujer

2.2 ESTUDIO DE UNA VARIABLE CUALITATIVA FRENTE A OTRA VARIABLE CUANTITATIVA: COMPARACIN DE DOS POBLACIONES. El objetivo es estudiar si la variable cuantitativa (variable dependiente o respuesta) tiene una distribucin de frecuencias significativamente diferente en las distintas categoras de la caracterstica cualitativa (variable independiente o factor). De esta forma podremos responder a preguntas como: el gasto en ocio (V.A. cuantitativa) depende del grupo de edad? o hay ms diferencias salariales (V.A. cuantitativa) entre los hombres que entre las mujeres? Disponemos de las siguientes herramientas: Tablas de contingencia. Slo tienen utilidad si la variable cuantitativa toma pocos valores, interpretndose en su caso en el mismo sentido que cuando se cruzan dos variables cualitativas. Representaciones grficas. Diagrama de barras. Para cada modalidad de la caracterstica cualitativa se representa un rectngulo de altura igual a un valor como la media, la frecuencia de la variable cuantitativa. Diagrama de caja. Realiza un diagrama de caja y bigotes de la variable cuantitativa (dependiente) para cada modalidad de la variable cualitativa (factor).

Si la variable dependiente toma pocos valores y diferentes, se puede construir un diagrama de dispersin con la variable cualitativa en el eje de abscisas y la cuantitativa en el eje de ordenadas.

En estos casos es normal describir la variable cuantitativa condicionada a las categoras de la cualitativa. Por ejemplo, relacionamos la nota media de un grupo de alumnos en una asignatura con su nivel de ansiedad ante los exmenes:

R elacin N ota m edia-N ivel de Ansiedad 9 8 7 6 5 4 3 2 1 0 B ajo M edio Alto

Nivel de ansiedad Bajo Medio Alto

Nota media 8 7 4

Resmenes estadsticos. Se trata de obtener distintos estadsticos (medias, medianas, varianzas, etc.) de la variable cuantitativa en cada categora o modalidad de la variable cualitativa. Su comparacin nos permitir determinar si existen o no diferencias significativas en la distribucin de la variable cuantitativa en las distintas modalidades de la cualitativa. 2.3 ESTUDIO DE UNA VARIABLE CUANTITATIVA FRENTE A OTRA VARIABLE CUANTITATIVA: CORRELACIN Y REGRESIN. El objetivo, en principio, es detectar posibles relaciones entre dos variables cuantitativas lo que se conoce como Anlisis de la Correlacin. Por otra parte, si las variables cuantitativas presentan un fuerte grado de correlacin, el objetivo ser buscar la forma funcional que mejor explique la relacin entre dichas variables, es decir, que mejor explique la variable dependiente a partir de la independiente, lo que se conoce como Anlisis de la Regresin.

As, podramos estudiar, por ejemplo, si existe relacin entre la renta y el consumo de las familias y, de existir, tratar de encontrar la mejor relacin funcional que explique el consumo a partir de la renta. A nivel descriptivo, disponemos de las siguientes herramientas:

Tablas de contingencia. Se pueden obtener pero el caso de mayor inters, poco habitual, es el de variables muy discretas, es decir, que tomen pocos valores y repetidos. Representaciones grficas. Histograma de frecuencias tridimensional. Representacin grfica de la distribucin de frecuencia conjunta de dos variables cuantitativas agrupados en intervalos de igual amplitud. A cada par de categoras le corresponde un prisma rectangular de altura igual a su frecuencia conjunta.

Diagrama de dispersin. En un sistema de ejes cartesianos se representan los pares de puntos de las dos variables analizadas (la variable independiente en abcisas y la variable dependiente en ordenadas). La forma de la nube de puntos puede dar una idea de la posible relacin funcional entre las variables.

10

En general, denotaremos por X e Y a las variables y por a los n pares de valores correspondientes a los n individuos o elementos de la muestra. 2.3.1 ANLISIS DE LA CORRELACIN Consiste en obtener una serie de estadsticos que miden el grado de correlacin (normalmente, lineal) entre las variables cuantitativas. La forma inicial de enfocar este anlisis es mediante el parmetro conocido como Covarianza, que mide el grado de relacin existente entre 2 variables cuantitativas. El segundo parmetro utilizado es el Coeficiente de Pearson.

COVARIANZA, Sxy

Mide la relacin lineal entre dos variables cuantitativas y se expresa mediante la siguiente expresin:

S xy =

( x x )( y
i =1 i

y)

Propiedades: a) Sxy es un valor que vara entre - y + . b) Si Sxy es positivo, entonces la correlacin entre las variables cuantitativas es directa. Esto significa que a mayor valor de X, mayor valor de Y (y, por tanto, la recta de regresin es ascendente). c) Si Sxy es negativo, entonces la correlacin entre las variables cuantitativas es inversa. Esto implica que a mayor valor de X, menor valor de Y (y, por tanto, la recta de regresin es descendente). d) Si Sxy es cero, entonces no hay correlacin entre X e Y.

11

COEFICIENTE DE CORRELACIN DE PEARSON, rxy

La covarianza depende de los valores de las variables y, por tanto, de sus unidades. Para tener una medida adimensional se utiliza el Coeficiente de Correlacin de Pearson (rxy) que nos indica qu tipo de relacin existe entre dos variables cuantitativas, as como la magnitud de dicha correlacin, siendo invariante frente a transformaciones lineales (cambio de origen y escala) de las variables.

El Coeficiente de Correlacin de Pearson mide la relacin lineal entre dos variables y se define como el cociente entre la covarianza y el producto de las desviaciones tpicas de ambas variables. Toma la siguiente expresin para el clculo:

donde Sxy es la covarianza de las variables X e Y, SX es la desviacin estndar de la variable X que se obtiene mediante la expresin:

Sx =

(x
i =1

x)

Y SY es la desviacin estndar de la variable Y que se obtiene mediante la expresin:

SY =

( y
i =1

y)

Propiedades:

Es un coeficiente adimensional. Es decir, que es independiente de las unidades en que estn expresadas las variables. Por ello, sirve de valor de comparacin aunque la variables vengan expresadas en unidades diferentes.
1 rxy 1

Si rxy=1 rxy=-1, la relacin es funcional. Una variable depende matemticamente de la otra, es decir, puede expresarse mediante una expresin matemtica en la que intervenga la otra (del mismo tipo que, por ejemplo, la longitud de una circunferencia depende del radio mediante la frmula L=2r).

Interpretacin:

Si rxy est prximo a 1 -1 la correlacin es fuerte (por encima de 0.8). Si rxy est prximo a 0, la correlacin es dbil.

12

Si rxy >0 la correlacin es directa. Hay relacin lineal positiva lo que implica que si la variable X aumenta, la variable Y tambin aumenta. Si rxy <0 la correlacin es inversa. Hay relacin lineal negativa lo que implica que si la variable X aumenta, la variable Y disminuye. Si Sxy=0 y por tanto rxy=0 la correlacin es nula: X e Y estn incorrelacionadas y, por ello, la relacin lineal es nula.

Interpretacin grfica:

Si rxy = 1 los puntos (xi,yi) forman una recta ascendente. Si rxy = -1 los puntos (xi,yi)forman una lnea descendente. Si rxy > 0 los puntos (xi,yi) forman una nube ascendente ms cercana a una recta cuanto ms cercano sea este valor a 1.

100 90 80 70 60 50 40 30 140 150 160 170 180 190 200

Fuerte relacin directa.

Si rxy < 0 los puntos (xi,yi) forman una nube descendente ms cercana a una recta cuanto ms cercano sea este valor a -1.

80 70 60 50 40 30 20 10 0 140 150 160 170 180 190 200

Cierta relacin inversa

13

Si rxy = 0 la nube de puntos sigue una distribucin totalmente aleatoria (de tipo circular).
33 28 23 18 13 0 8 3 14 15 16 17 18 19 20

Incorrelacin

2.3.2 ANLISIS DE LA REGRESIN

Como se comprueba cuando representamos un grfico de dispersin o nube de puntos como el de abajo, podemos observar de manera intuitiva cierto grado de asociacin o correlacin lineal entre las dos variables cuantitativas. Incluso se podra imaginar una recta, llamada Recta de Regresin, que se ajustase lo ms posible a la nube de puntos.
100 90 80 70 60 50 40 30 140 150 160 170 180 190 200

Fuerte relacin directa.

No obstante, la apreciacin visual de la existencia de correlacin o asociacin no es suficiente. El objetivo es encontrar y estudiar un procedimiento de seleccin de la relacin funcional entre las variables cuantitativas (que suele ser un polinomio de grado 1) y los parmetros de medida que debemos usar. Una vez encontrada la funcin que representa esta dependencia de las variables, podremos predecir los valores de una variable (variable dependiente o explicada) a partir de los valores de la otra (variable independiente o explicativa). Adems, podremos calcular la fiabilidad de esta prediccin.

14

Antes de continuar hay que advertir que la relacin funcional o regresin entre las variables puede o no representarse por una recta, es decir, se un polinomio de grado 1. En el caso de que elijamos una recta para ajustarla a la nube de puntos, estaremos hablando de Regresin Lineal. En otro caso, trataremos con una Regresin No Lineal. Asimismo, diremos que una Regresin Lineal es Simple cuando solamente exista una variable independiente o explicativa. Cuando sean ms de una las variables independientes diremos que la Regresin Lineal es Mltiple.

15

Vous aimerez peut-être aussi