Vous êtes sur la page 1sur 20

EDUC 6390: Estadstica aplicada en la educacin Julio E. Rodrguez Torres Conferencia 9 Correlacin Bosquejo I. Introduccin...............................................................

Error: Reference source not found A. Organizacin de datos para dos variables...........Error: Reference source not found B. Grficas de datos para dos variables..................Error: Reference source not found C. Correlacin..........................................................Error: Reference source not found D. Correlacin y causalidad.....................................Error: Reference source not found II. Escalas de medicin.................................................Error: Reference source not found 1. Escala nominal................................................Error: Reference source not found 2. Escala ordinal..................................................Error: Reference source not found 3. Escala intervalar..............................................Error: Reference source not found 4. Escala de razn..............................................Error: Reference source not found III. Coeficientes de correlacin para variables cuantitativas v cualitativas.Error: Reference source not found IV. Pearson r................................................................Error: Reference source not found A. Diagramas de dispersin.....................................Error: Reference source not found B. Cmputo de Pearson r........................................Error: Reference source not found 1. Puntuaciones estandarizadas.........................Error: Reference source not found 2. Frmula con la desviacin de la media...........Error: Reference source not found 3. Frmula con las puntuaciones crudas.............Error: Reference source not found 4. Frmula con la covarianza..............................Error: Reference source not found C. Condiciones para poder utilizar el coeficiente de Pearson rError: Reference source not found D. Factores que afectan al coeficiente de Pearson rError: Reference source not found 1. Linealidad........................................................Error: Reference source not found 2. Homogeneidad del grupo................................Error: Reference source not found 3. Tamao del grupo...........................................Error: Reference source not found E. Interpretacin del coeficiente de Pearson r.........Error: Reference source not found 1. En trminos de la escala.................................Error: Reference source not found 2. En trminos de la varianza..............................Error: Reference source not found Coeficiente de determinacin..............................Error: Reference source not found V. Spearman Rho.........................................................Error: Reference source not found VI. Coeficiente Punto biserial (rpb).................................Error: Reference source not found VII. Coeficiente Phi ( )................................................Error: Reference source not found I. Introduccin A. Organizacin de datos para dos variables Al trabajar con la organizacin de datos encontramos que cuando los datos que se obtienen corresponden a dos o ms caractersticas de los mismos sujetos se puede crear una tabla donde se presentan los valores de las dos variables. Ejemplo: Las notas (valores numricos) de varios exmenes para cada individuo aparecen en columnas diferentes. El problema con esta tabla es que se hace sumamente difcil poder apreciar cual es la relacin entre las variables.

B. Grficas de datos para dos variables Las grficas de datos para dos variables utilizan el plano cartesiano.

Una variable puede ser categrica y la otra numrica. En este caso la categrica por lo general ocupa el eje de x.

Si ambas variables son numricas se puede crear un diagrama de dispersin

C. Correlacin Hasta ahora se ha descrito cada variable independientemente utilizando tablas, grficas y medidas de tendencia central y dispersin. Ahora veremos que es posible describir, no solamente las variables por separado, sino la relacin que existe entre ellas. Ejemplo: Hinkle p.106 (103) presenta un grupo de estudiantes que obtuvieron una nota en el College Board y otra en un examen final. (Tabla 5.1, fig. 5.1)

Se quiere saber si los que sacaron notas altas en el CB tambin sacaron notas altas en el examen, etc. Para eso, una de las primeras cosas que se hace es que se grafican los puntos en el plano cartesiano donde cada punto corresponde a un estudiante

Prueba del CB y Examen Final


Puntuaciones del examen final 80 70 60 50 40 30 20 300

400

500

600

700

800

Puntuaciones en el CB

Los estudios de correlacin tratan de medir el grado de asociacin que existe entre dos variables. Estos estudios sobre la relacin entre variables son muy comunes en las ciencias sociales.

Sin embargo, como hay diferentes escalas para medir las variables veremos que la medida o coeficiente de correlacin que se utilice va a depender directamente de las escalas de medicin de las variables. D. Correlacin y causalidad La correlacin no implica causalidad Ejemplo: Existe una correlacin alta entre la talla del zapato y las destrezas de lectura pero es obvio que la talla del zapato no es la causa de las destrezas de lectura. Existe una variable oculta (el crecimiento de los nios) que resulta ser una de las causas. A menudo una tercera variable o una combinacin de variables que no vemos puede ser la causa de la correlacin. Por lo tanto siempre es importante asegurarse de que al hablar slo se menciona asociacin y relacin, jams causa y efecto o dependencia. II. Escalas de medicin Hay cuatro formas o escalas bsicas para medir datos (nominal, ordinal, intervalar y de razn). Si las variables son categricas entonces dependiendo del grado de precisin posible en la medicin se utilizan las siguientes dos escalas: 1. Escala nominal Se utiliza cuando los datos estn clasificados en categoras en las que no hay ninguna idea de ordenamiento. No se puede decir que una categora es mejor que otra. Ejemplo: colores, religiones, partidos polticos, etc. Cuando se trabaja con correlaciones hay un tipo de escala nominal sumamente importante. Consta de slo dos niveles. Las variables clasificadas en estas dos categoras se llaman dictomas. Ejemplo: Sexo, fuma o no fuma, rico o pobre, etc. Generalmente cuando se codifica, para identificar la presencia del atributo se usa 1 y su ausencia 0. 2. Escala ordinal Hay orden en este nivel de medicin. Se obtiene mayor informacin sobre la variable. Implica que una categora es mejor que otra. Ejemplo: Escala Likert: Acuerdo total, acuerdo parcial, desacuerdo, etc. En estos casos no se puede medir la diferencia entre uno y otro, aunque es obvio que uno es mayor o mejor que otro.

En muchas ocasiones se usan nmeros para codificar estas respuestas como acuerdo total (5), acuerdo parcial (4). Estos nmeros slo representan orden. En ningn momento se implica que la diferencia entre acuerdo total y acuerdo parcial es de una unidad. Tambin se usa mucho la clasificacin en dos categoras aunque la variable en s sea cuantitativa, continua y tenga una distribucin normal. Esto se debe, en la mayora de los casos, a que no se recogieron los datos ntegros Ejemplo: Nios con IQ sobre 100 y bajo 100. Hay puntuacin para cada nio, pero slo se recogi si estaba sobre el promedio o no. Cuando las variables son cuantitativas entonces es posible usar una de las siguientes dos escalas: 3. Escala intervalar En esta escala la diferencia entre dos medidas es significativa. Ejemplo: 79 grados es 2 ms que 77 grados de temperatura. La diferencia entre 79 y 77 grados es la misma que entre 55 y 53 grados. Sin embargo no hay un cero verdadero. El cero en temperatura Fahrenheit es una temperatura seleccionada al azar. El cero en centgrados corresponde a otra temperatura muy diferente. El resultado es que, a pesar que 100 es el doble de 50, en una temperatura de 1000 no hace el doble de calor que en una de 500. 4. Escala de razn Tiene un cero real. Ejemplo: peso, altura. Tiene sentido hablar de que una persona pesa el doble de otra. Nota: A veces los investigadores convierten una variable cuantitativa a rangos o dicotomas, pero esto no lo hacen sin tener razones muy poderosas para ello, pues en realidad estaran perdiendo informacin muy valiosa. Generalmente cuando se hace es porque se trabaja con datos ya recogidos en trminos de rangos o dicotomas. Lectura Hinkle Capt. 20 pp. 548-551 III. Coeficientes de correlacin para variables cuantitativas v cualitativas. En la siguiente tabla aparecen las combinaciones posibles de dos variables y los coeficientes de correlacin que se pueden utilizar en cada caso.

Variable X Nominal Nominal a. Phi ( ) b. Coeficiente C c. Coeficiente V d. y Y Var Y Ordinal Interv/ Razn Rango-biserial Punto-biserial a.Tetrachoric b.Spearman Biserial Biserial Pearson r Ordinal Rango-biserial Interv/Raz Punto-biserial

IV. Pearson r A. Diagramas de dispersin (scattergram)

Este tipo de diagrama presenta una imagen de la relacin entre dos variables numricas. En la grfica de la transparencia se observa un patrn que indica una correlacin positiva, puesto que los puntos suben a medida que nos movemos hacia la derecha. La correlacin negativa ocurre cuando los puntos bajan a medida que nos movemos a la derecha. (Ver pendiente en la recta)

La correlacin sera perfecta (1 -1) si los puntos todos formaran una recta. Cuando no hay una tendencia hacia arriba o hacia abajo, la correlacin est cerca de cero. El coeficiente de correlacin puede tomar valores entre +1 y -1, donde el signo indica direccin de la relacin.

Cuando se observan valores como +0.9 -0.9 se dice que la relacin es fuerte. Valores como 0.1 indican una correlacin dbil. La magnitud de la correlacin (si es fuerte o dbil) se mide utilizando el valor absoluto. La direccin se determina con el signo. B. Cmputo de Pearson r La idea principal es multiplicar el valor de la variable x por el de la variable y para cada individuo y hallar el promedio. Pero hay varias frmulas para computar el coeficiente de Pearson. 1. Puntuaciones estandarizadas Se utiliza la idea de multiplicar las puntuaciones de las dos variables para cada individuo y hallar el promedio. Slo que se utilizan los valores estandarizados puesto que es la forma de que los valores para las dos variables sean comparables. Si se hace a mano es sumamente tedioso y largo pues hay que convertir cada valor de la variable al valor estandarizado (Hinkle p.110)

10

2. Frmula con la desviacin de la media En esta frmula por medio de unas manipulaciones matemticas se transforman los valores de z en x y, donde estas variables representan la desviacin de cada puntuacin con respecto al promedio (Hinkle, p.112 ) x=X-X y=Y-Y

3. Frmula con las puntuaciones crudas Esta frmula requiere menos cmputos, pues usa las puntuaciones crudas sin necesidad de convertirlas en desviaciones o puntuaciones estandarizadas. (Hinkle, p.113)

4. Frmula con la covarianza Esta es la frmula que urtiliza el programa Excel. La covarianza es otra forma de expresar la relacin entre dos variables. No se utiliza a menudo, pues no est entre los valores de +1 y -1 como la correlacin. Sin embargo es til para esta frmula. (Hinkle, p.114)

Por lo tanto

Esto es la covarianza dividida por las desviaciones estndar de X y de Y. C. Condiciones para poder utilizar el coeficiente de Pearson r 1. Las variables que se correlacionan tienen que ser pareadas para el mismo sujeto. No se puede tomar la variable X de un sujeto y la variable Y de otro. 2. Las variables tienen que ser medidas utilizando la escala intervalar o de razn. 3. La distribucin de ambas variables tiene que ser normal.

11

D. Factores que afectan al coeficiente de Pearson r 1. Linealidad Si los puntos tienden a caer cerca de una lnea recta, se puede decir que hay una relacin lineal. Pero puede haber otro tipo de relacin no lineal, como la curvilineal donde los valores de X y Y aumentan al principio, pero luego cuando X aumenta Y disminuye.

(Transp. Fig. 5.3, Hinkle p.115) Ejemplos: Relacin entre ansiedad y ejecutoria. Poca ansiedad o mucha ansiedad produce ejecutoria pobre.

Relacin entre la edad y la dependencia de otros es curvilineal tambin pues tanto los jvenes como los ancianos dependen mucho.. El problema es que si se computa una relacin curvilineal como lineal arroja que no hay relacin pues las oposiciones se cancelan.

12

2. Homogeneidad del grupo Si el grupo es muy homogneo, quiere decir que la dispersin es poca. Mientras menos dispersin hay, ms pequeo es el coeficiente de correlacin.

En la transparencia anterior si se reduce el alcance de las puntuaciones de aptitud (se eliminan las puntuaciones altas y las bajas) se observa que hay menos tendencia hacia una recta. Por lo tanto la correlacin se ha reducido considerablemente.

A veces al no tomar el grupo en su totalidad la correlacin parece ser muy pequea cuando en realidad no lo es.

13

Ejemplo: Si se correlacionan los resultados de las pruebas de Razonamiento Matemtico del CB de los estudiantes con su ndice acadmico de primer ao. La correlacin parece pequea puesto que se han eliminado todos los estudiantes que no fueron admitidos a la universidad. 3. Tamao del grupo Sin embargo el tamao del grupo no afecta el valor de la correlacin, lo que puede afectar es su precisin. Con pocos datos no hay seguridad de que siempre pase lo mismo. E. Interpretacin del coeficiente de Pearson r 1. En trminos de la escala La escala de r es ordinal. Por lo tanto en los casos en que es r = 0.40; r= 0.60; r= 0.80 No podemos decir que para r = 0.80 hay el doble de correlacin que para r = 0.40. No se puede decir que existe la misma diferencia entre r = 0.40 y r = 0.60 que entre r = 0.60 y r = 0.80 Lo ms que se puede decir es que la relacin lineal entre las variables es mayor o menor. Para determinar si la correlacin es alta o baja, se puede pensar en trminos de la siguiente tabla, pero hay que tener en cuenta de qu se est hablando, pues la interpretacin depende siempre de la situacin. En trminos de admisiones a la universidad es difcil hallar una relacin mayor de 0.50 entre el promedio del primer ao de universidad y el promedio de graduacin de escuela superior, por lo tanto en ese caso una correlacin de 0.50 es alta. Tamao de la correlacin 0.90-1.00 0.70-0.89 0.50-0.69 0.30-0.49 0.00-0.29 2. En trminos de la varianza Otro significado y uso de la correlacin tiene que ver con el porciento de la variacin en una variable se relaciona con la variacin en la otra variable. Ejemplos: Cunto de la educacin se relaciona con la escuela? Cunto de las notas del primer ao de universidad est asociada con el ndice de graduacin? Cunto de la inteligencia se relaciona con la herencia? Interpretacin Muy alta Alta Moderada Baja Muy poca

14

Definicin Coeficiente de determinacin El cuadrado del coeficiente de correlacin se llama el coeficiente de determinacin = r2 El coeficiente de determinacin representa el porciento de la varianza en una variable que est asociado con la otra variable.

donde (Sa)2= varianza en Y asociada con X (SY)2 = varianza total de Y Ejemplo: Hay 75 estudiantes y el coeficiente de correlacin entre sus puntuaciones de aptitud y su ndice acadmico del primer semestre es r = 0.69. Por lo tanto (0.69 )2 = 0.48 de la varianza en el ndice acadmico del primer semestre se relaciona con la variacin de la puntuacin en aptitud. El 52% restante de la variacin est asociada con otros factores que no son la aptitud. Esta es una de las razones para decir que un coeficiente de correlacin es alto o bajo. Por ejemplo un coeficiente de correlacin de 0.90 implica que un 81% de la varianza de la segunda variable est asociada con la varianza de la primera. Se puede decir que la correlacin es alta. Sin embargo un coeficiente de correlacin de 0.30 implica slo un 9% de la varianza de la segunda variable. Se puede decir que la correlacin es baja. Lectura Hinkle capt. 5 pp.105-126 Hinkle capt. 20 pp.548-552 V. Spearman Rho Se utiliza cuando las dos variables son ordinales. No se encuentra en Excel, as que hay que hacerlo a mano o con SPSS. El rango ms alto es 1. Cuando hay empates en las puntuaciones de los sujetos en una variable, se da el promedio de los posibles rangos a cada uno de los empatados. Ejemplo: Si hay empates para los rangos 10,11 y 12 (10+11+12)/3 = 11 rango para los tres. Frmula:

15

donde n = nmero de rangos pareados d = diferencia entre los rangos pareados Ejemplo:

= 0.93 Lectura Hinkle capt. 5 pp.124-125 VI. Coeficiente Punto biserial (rpb) Es un caso especial de la correlacin de Pearson cuando una variable se mide en la escala intervalar o de razn y la otra es nominal y dictoma. Se utiliza principalmente en los exmenes estandarizados para determinar si un ejercicio debe estar o no en el examen. Si se determina que los buenos estudiantes lo hacen mal y los malos lo hacen bien, el ejercicio no discrimina y debe eliminarse. As que en todos los exmenes estandarizados se busca la correlacin punto biserial para relacionar el ejercicio (bien o mal contestado) con la puntuacin de cada estudiante.

16

Frmula:

Donde x 1 = media de los estudiantes que sacaron 1 en el tem x o = media de los estudiantes que sacaron 0 en el tem Y = desviacin estndar de todas las puntuaciones en la prueba p = proporcin de individuos que sacaron 1 en el tem q = proporcin de individuos que sacaron 0 en el tem Ver Hinkle Capt.20 p.552-554 (Transp. Tabla 20.2, p.553 (19.2) Persona A B C D E F G H I J Ejercicio (X) 1 1 1 1 1 0 0 0 0 0 Examen (Y) 10 12 16 10 11 7 6 11 8 5

x 1 = media de los estudiantes que sacaron 1 en el tem = (10+12+16+10+11)/5 = 11.80 x o = media de los estudiantes que sacaron 0 en el tem = (7+6+11+8+5)/5 = 7.4 Y = desviacin estndar de todas las puntuaciones en la prueba

17

= 3.07 (con calculadora) p = proporcin de individuos que sacaron 1 en el tem = 0.5 q = proporcin de individuos que sacaron 0 en el tem = 0.5

rpb = 0.716 VII. Coeficiente Phi ( ) Es un caso especial de la correlacin de Pearson cuando ambas variables son nominales y dictomas. La frmula se puede reducir a:

18

cuando se organiza una tabla de contingencia de la siguiente manera: Variable X 0 Variable Y 1 0 Total A C A+C 1 B D B+D Total A+B C+D N

Ejemplo: Hinkle p.555 (514) (Tablas 20.3, 20.5) Determinar la relacin entre gnero y partido poltico Persona A B C D E F Gnero 1 1 1 1 1 0 Partido 1 1 0 1 1 0

19

G H I J 1 = MUJER 1 = REPUBLICANO 0 = HOMBRE 0 = DEMOCRATA

0 0 0 0

1 1 0 0

Tabla de contingencia GENERO 0 (masc) PARTIDO 1(rep) 0 (dem) Total A (2) C (3) A+C (5) 1(fem) B (4) D (1) B+D (5) Total A+B (6) C+D (4) N (10)

= 0.408 Conclusin: Hay baja relacin positiva entre partido poltico y sexo. Las mujeres se asocian con el partido republicano y los hombres con el demcrata. Esto sucede porque 0 = demcrata y 0 = hombre ; 1 = republicano y 1 = mujer. Si la correlacin hubiese sido negativa, entonces podamos decir que las mujeres se asociaban con los demcratas y los hombres con los republicanos. Lectura Hinkle capt. 20 pp.552-556

20