Herramientas estadsticas para quienes se inician en la
investigacin psicolgica
Autor: Schmidt, Vanina * y Maglio, Ana Laura **
Introduccin
La presente ficha fue pensada a partir de las dificultades y prejuicios observados en los alumnos de grado de la Facultad de Psicologa de la U.B.A., respecto de la Estadstica aplicada a la Psicologa. La ficha comienza intentando desterrar prejuicios y preconceptos que suelen tener los alumnos de grado respecto de la investigacin en Psicologa, para luego pasar a revisar herramientas concretas de la Estadstica. Al finalizar la lectura, el alumno podr realizar los siguientes anlisis:
1- Distribucin de Frecuencias 2- Medidas de Posicin 3- Medidas de Tendencia Central 4- Medidas de Variabilidad 5-Asimetra 6-Curtosis 7-Puntuaciones Tpicas 8-Puntuaciones derivadas 9- Prueba X2 10- Pruebas de Diferencias entre medias 11-Correlacin biserial paramtrica
* Doctora U.B.A. Facultad de Psicologa. Prof. Adj. Regular. Facultad de Psicologa. U.B.A. Investigadora CONICET. ** Licenciada en Psicologa. U.B.A. Becaria Doctoral CONICET. Agradecimientos: Al Lic. Facundo Abal y a la Lic. Nadia Messoulam, por su colaboracin en la elaboracin de la ficha Integrando conceptos, sobre la cual se ha basado, en parte, la presente. 2 1- La investigacin cientfica, ms all de los preconceptos y prejuicios
Trminos tales como estadstica, metodologa, investigacin, medicin y psicometra suelen provocar en el alumno de Psicologa rechazo, escepticismo, prejuicios, malestar y, en el mejor de los casos, curiosidad. Hay alumnos que piensan que la investigacin cientfica es algo ajeno a la realidad cotidiana. Consideran que slo se hace investigacin en centros altamente especializados y que quienes se dedican a esta actividad son personas de edad avanzada, con un talento especial, una inteligencia privilegiada o una trayectoria propia de una pelcula de ciencia ficcin. Sin embargo, en Ciencias Sociales y de la Conducta se abordan tpicos tales como: frustracin y su relacin con la agresin, conductas de riesgo de contagio del HIV, influencia de los medios masivos de comunicacin en la opinin pblica, desnutricin infantil y desarrollo cognitivo, trabajo y abuso de sustancias psicoactivas, optimismo como factor protector, y otros tantos temas que forman parte de nuestra vida cotidiana. Es decir que la investigacin aborda temas de la vida cotidiana. Asimismo, los investigadores son personas de carne y hueso que se dedican a generar y transmitir conocimientos a otros que, a su vez, utilizan (al menos es lo deseable) ese cuerpo de conocimientos en diferentes reas de aplicacin: laboral, forense, clnica, etc. En nuestra vida cotidiana y desde que nacemos, abundan los ejemplos de nuestro afn por investigar. As que investigar es una tarea cotidiana. Claro que la investigacin cientfica tiene caractersticas particulares. Kerlinger (1975, p. 11) la define como: Un tipo de investigacin sistemtica, controlada, emprica y crtica, de proposiciones hipotticas sobre las presumidas relaciones entre fenmenos naturales. En nuestra cultura este tipo de conocimientos goza de mucho prestigio y confianza por parte de la sociedad. La investigacin es el trabajo de estas personas trabajo maravilloso, privilegiado por lo entretenido, cambiante, desafiante pero trabajo al fin. Toda investigacin cientfica implica un gran esfuerzo de imaginacin y creatividad. La crtica, la incertidumbre, el disenso, la duda, la pregunta constante, la flexibilidad y capacidad de adaptacin son los insumos bsicos del investigador. En ciencia, no existen respuestas definitivas, y ello 3 simplemente porque no existen preguntas finales (Bunge, 1987, p.55). Slo cree que la ciencia es pobre en concepto e imgenes, y que la investigacin cientfica carece de poesa, quien tiene pobres informaciones acerca de la vida de la ciencia (Bunge, 1987, p. 102). Dedicarse a investigar es divertido! Unos conocidos metodlogos afirman que la investigacin cientfica es la herramienta por excelencia para conocer lo que nos rodea y su carcter es universal (Hernndez-Sampieri, Fernndez-Collado y Baptista-Lucio, 1998, p. 27). Estos autores citan a Carl Sagan (1978, p.6) -prestigioso cientfico que deslumbraba al mundo hace tiempo atrs con la serie Cosmos- quien, al hablar de posibles contactos con extraterrestres, sostena:
Si es posible, pues, comunicarse, sabemos ya de qu tratarn las primeras comunicaciones: tratarn sobre la nica cosa que las dos civilizaciones tienen de modo seguro en comn, a saber, la ciencia. Podra ser que el inters mayor fuera comunicar informacin sobre su msica, por ejemplo, o sobre convenciones sociales; pero las primeras comunicaciones logradas sern de hecho cientficas.
La investigacin cientfica ha logrado desarrollos impensados hasta hace poco tiempo; no slo es el fundamento de la tecnologa que est dando una fisonoma inconfundible a nuestra cultura material, sino que sorprenden a diario los avances en biologa, qumica, neurologa, medicina, astronoma, fsica, economa, sociologa, antropologa, psicologa, etc. (Bunge, 1987). Por supuesto, no podemos pretender que la investigacin cientfica provea respuestas a todos los interrogantes de la humanidad. Adems, a la vez que la ciencia ha encontrado soluciones a una variedad de problemas, algunos descubrimientos han sido utilizados de modo tal que han generado una serie de otros problemas a los cuales la ciencia an no puede dar respuesta. Bunge (1987, p.36) afirma que la ciencia es valiosa como herramienta para dominar la naturaleza y remodelar la sociedad; es valiosa en s misma, como clase para la inteligencia del mundo y del yo; y es eficaz en el enriquecimiento, la disciplina y la liberacin de nuestra mente. Es evidente que no hemos alcanzado muchas de estas utilidades. Podramos pensar que ello se debe a que la ciencia an tiene un largo camino por recorrer o, tal vez, a que alguna de 4 ellas no sea el camino de la ciencia. Por supuesto, ste y otros interesantes temas relativos a la investigacin cientfica no se agotan en unas pocas lneas. En el presente texto, se ha reducido al mximo la referencia a discusiones epistemolgicas y cuestiones metodolgicas, para acentuar aspectos estadsticos tiles a los fines de llevar a cabo los primeros anlisis estadsticos de una investigacin. Si bien estas herramientas son comnmente utilizadas en la investigacin con enfoque cuantitativo, no son exclusivas de este enfoque y bien pueden utilizarse en la investigacin cualitativa. Cules son los temas que hemos privilegiado y, por lo tanto, incorporado al texto? A partir del interrogante de investigacin en torno a un tema adecuadamente delimitado, se pone en marcha el proceso de investigacin (cualitativo, cuantitativo o mixto), el cual implica definir el diseo de investigacin, las hiptesis (en los estudios cuantitativos) y supuestos (en los estudios cualitativos), las estrategias para recabar informacin sobre la temtica a indagar, el procesamiento de los mismos y la presentacin de resultados y las conclusiones a las que se arribe. Con demasiada frecuencia, se observa que quienes no tienen en claro el tipo de estudio que estn realizando, violan supuestos y requisitos fundamentales a la hora de analizar los datos y realizar inferencias, invalidando las conclusiones de la investigacin. Por ejemplo, en un estudio con adolescentes se concluye que los conflictos familiares son un factor predisponente de consumo de drogas (Shilts, 1991; citado en Patton, 1995). Pero el tipo de estudio (correlacional) y, por lo tanto, el diseo, las hiptesis, y los procedimientos de recoleccin y anlisis de datos realizados (bsicamente, anlisis de asociacin entre variables) en el mencionado trabajo, slo permite concluir que existe una fuerte relacin entre conflicto familiar y uso de drogas (sin poder indagar si el conflicto aumenta la probabilidad de uso o, por el contrario, el uso aumenta la probabilidad de conflicto familiar). De all que sea importante tener en claro estas cuestiones antes de pasar al anlisis de datos. En la ltima etapa de la investigacin analizamos los datos recolectados, para lo cual muchas veces recurriendo a las extraordinarias herramientas que nos provee la Estadstica. Por medio de ella, podemos ordenar, resumir, analizar, describir, explicar, predecir, descubrir nuevas relaciones, tomar 5 decisiones y presentar los resultados de manera comprensible y organizada. La estadstica permite comprender el pasado y el presente, y estimar el futuro. Son conocidas en nuestro medio acadmico las crticas y prejuicios que causa la estadstica al estudiante de Psicologa. Hay alumnos que piensan que la estadstica es poco til en nuestra disciplina o que slo sirve a los fines de distorsionar informacin. Cierta vez, un alumno justific esta opinin diciendo que la estadstica engaa pues sostiene, por ejemplo, que en promedio los argentinos tienen 2 autos por familia, pero lo que no dice es que algunas familias tienen 4 y otras familias ningn auto. Este es un ejemplo de un mal uso de la estadstica, ya que al no acompaar la informacin que provee la media (promedio aritmtico) con la que provee el desvo estndar, se cometen errores de interpretacin. En todo caso, no es la estadstica la que desinforma, distorsiona o engaa, sino el (mal) uso que hacemos de ella. El uso de tcnicas estadsticas debe hacerse con los conocimientos necesarios, con rigor y cautela. A decir de Cortada de Kohan (1994, p. 15), con la proliferacin de paquetes de programas estadsticos e invalorados equipos de computacin, se ha extendido en forma alarmante el mal uso de tcnicas estadsticas. Y, por mal uso entiendo la no adecuacin del procedimiento empleado al problema que se trata de dilucidar (...). Es por esta razn, que antes de decidir qu anlisis estadsticos llevaremos a cabo, es necesario conocer el objetivo y las hiptesis de investigacin, los instrumentos utilizados, el nivel de medicin de la variable y el comportamiento de los datos (qu funcin subyace a las observaciones registradas?, se distribuyen los datos normalmente?), as como las caractersticas de las tcnicas estadsticas que se utilicen, sus alcances y limitaciones. Por ejemplo, es muy comn en las investigaciones psicolgicas utilizar como medida resumen la media, pero (como veremos ms adelante) la misma pierde representatividad frente a ciertas distribuciones. Tambin se suelen utilizar anlisis de varianza, anlisis de regresin o anlisis discriminante cuando no estn dadas las condiciones estadsticas para su uso, violando de esta manera supuestos de aplicacin fundamentales. Pero cuando se hace un correcto uso de la estadstica es posible extraer conclusiones vlidas y efectuar decisiones lgicas, basadas en dichos anlisis. Utilizamos la estadstica para estudiar aquellos fenmenos en los que 6 tenemos una gran cantidad de observaciones y cuya aparicin se rige por las leyes del azar o aleatorias. La aplicacin de la estadstica tiene lugar porque los fenmenos de algunas ciencias no se dan siempre iguales entre s exactamente, sino que presentan variaciones. Estas pequeas diferencias son debidas a una serie de causas tan numerosos y complejas que no podemos determinarlas por separado y que las incluimos dentro del nombre comn de azar (Cortada de Kohan, 1994, p. 23). No slo utilizamos la estadstica en las distintas disciplinas cientficas. En nuestra vida cotidiana, continuamente basamos nuestras decisiones en clculos estadsticos: cuando vamos al supermercado, calculamos, aunque sea de modo aproximado, el consumo promedio de cada producto de modo tal de no comprar ni de ms ni de menos; consultamos el pronstico del tiempo y nos basamos en la probabilidad de lluvias, para planificar un fin de semana al aire libre; estimamos la cantidad de horas que debemos estudiar para un examen, en funcin de la cantidad y complejidad de temas a preparar. Si observamos el peridico del domingo pasado, vemos que en varios artculos se recurre a la estadstica para organizar, analizar y presentar la informacin. La estadstica, en definitiva, se ha vuelto una herramienta indispensable para desenvolvernos en nuestra cultura. Hay psiclogos que creen que no utilizan ni necesitan utilizar la estadstica. Sin embargo, sentencian que determinado paciente muestra un comportamiento atpico, excntrico, anormal o fuera de los parmetros esperables para su edad, condicin social o intelectual. Sin saberlo, estn utilizando conceptos estadsticos al comparar las caractersticas de un paciente con las caractersticas de la mayora de los sujetos del grupo al que el paciente pertenece. Creen que no utilizan la medicin, porque no obtienen un ndice numrico de una entrevista libre o semi-estructurada, pero necesariamente, en algn momento, clasifican u ordenan la informacin y establecen diagnsticos diferenciales (por ejemplo: neurosis, perversin, psicosis). Realizan apreciaciones del tipo el sujeto est ms angustiado en estas ltimas semanas, ha aumentado su motivacin, lo cual implica que existe una variable (por ejemplo, angustia) que se presenta en distintos grados y, por lo tanto, puede ordenarse. A pesar de no asignar nmeros a estos estados o niveles de las variables, realizan operaciones propias de las escalas de 7 medicin nominal y ordinal (Stevens, 1951). No podemos desconocer los aportes de la estadstica a nuestra disciplina! Al menos, cuando se hace un buen uso de ella. Esta ficha pretende ser una gua para realizar anlisis estadsticos bsicos. Incluye un anexo con ejercicios prcticos. Esperamos que la misma sea de utilidad y acompae al alumno en los primeros pasos de su formacin como investigador.
2- Qu es la Estadstica? La Estadstica es una manera de pensar y tratar cierta problemtica que la realidad plantea, de una forma ms elaborada, objetiva y exacta que lo que hace el pensamiento intuitivo y subjetivo, dando criterios de decisin cuando prevalecen condiciones de indeterminacin (Cortada de Kohan, 1994). Es parte del mtodo cientfico y tiene por objeto: la recoleccin, organizacin, el anlisis, la interpretacin y la presentacin de datos. La mayor aplicacin de la estadstica en cualquier campo se basa en la posibilidad de observaciones repetidas o de experimentos hechos en condiciones esencialmente iguales. Sin embargo, siempre que se repiten las observaciones y aun cuando se tomen las mayores precauciones para unificar las condiciones, los resultados varan. Cuando las observaciones, a pesar de hacerlas en condiciones muy similares, dan resultados diferentes existe una inseguridad vinculada con la observacin de un objeto o fenmeno. Este hecho nos lleva al problema central de la estadstica que es en cierto sentido la teora sobre la variabilidad de las observaciones, es decir, el estudio de la tendencia de los resultados a que varen cuando las observaciones se hacen en condiciones idnticas, desde el punto de vista del observador. Por esta razn, se suele definir a la estadstica como la aplicacin de mtodos para evaluar el grado en que el azar contribuye en las mediciones (Cortada de Kohan, 1994).
Qu permite la Estadstica? Recolectar, analizar, interpretar, describir y explicar fenmenos. Organizar y resumir la informacin en forma de tablas, cuadros y grficos. Detectar algn modelo o patrn de comportamiento de los datos. 8 Realizar inferencias de una poblacin a partir de los datos obtenidos de una muestra o parte de esa poblacin. Comparar una o ms caractersticas (variables) entre dos poblaciones. Investigar si dos o ms caractersticas o variables de una poblacin estn relacionadas entre s o si, por el contrario, son independientes. Realizar una toma de decisiones ms efectiva.
Lo que no permite la Estadstica Hay que tener en cuenta que la estadstica no tiene el poder de descubrir hechos nuevos ni de suministrar conclusiones absolutas, vlidas, sin restricciones. La respuesta es en trminos de probabilidad, jams en trminos de certeza. Lo que permite es someter las hiptesis a ensayos objetivos, independientes de la apreciacin subjetiva del experimentador.
- Estadstica descriptiva Se denomina estadstica descriptiva al conjunto de procedimientos estadsticos que sirven para organizar y resumir conjuntos de datos numricos. Algunos datos pueden organizarse en una distribucin de frecuencias. Tambin pueden utilizarse diversos tipos de grficas para describir datos. Los promedios especializados (que sern explicados posteriormente), como la media, mediana o moda, pueden calcularse para describir el valor central de un grupo de datos numricos.
- Estadstica inferencial A partir de los datos obtenidos de manera descriptiva, se pueden realizar procedimientos estadsticos que dan lugar a la estadstica inferencial. Tales procedimientos sirven para deducir o inferir algo acerca de un conjunto de datos numricos (poblacin), seleccionando un grupo menor de ellos (muestra). Existen ciertos riesgos relacionados con el empleo de resultados de las muestras para deducir algo acerca de una poblacin desconocida. Por ejemplo, cinco exmenes seleccionados al azar entre todos los exmenes de los alumnos de una comisin de la materia Psicomtricas, pueden ser excelentes. Podra concluirse a partir de esta muestra que todos los exmenes fueron excelentes. Pero existe la probabilidad de que esta ltima afirmacin sea falsa. 9 Hay una serie de anlisis que se realizan a los fines de evaluar los riesgos de tomar una decisin incorrecta.
3- Distribucin de frecuencias La distribucin de frecuencias es el agrupamiento de datos en categoras que muestran el nmero de observaciones de cada categora mutuamente excluyente. Cumple con tres funciones: proporciona una reorganizacin y ordenacin racional de los datos recogidos, ofrece la informacin necesaria para hacer representaciones grficas y facilita los clculos necesarios para obtener los estadsticos muestrales (Botella, Len y San Martn, 1993). Frecuencia absoluta (ni): nmero de veces que se repite el valor en la muestra. Frecuencia absoluta acumulada (na): nmero de veces que se repite en la muestra determinado valor o cualquier otro inferior. Frecuencia relativa (pi): cociente entre la frecuencia absoluta de ese valor y el tamao de la muestra. La suma es igual a 1. Pi = ni / n Frecuencia relativa acumulada (pa): cociente entre su frecuencia absoluta acumulada y el tamao de la muestra. Pa= na / n Frecuencia porcentual (Pi%): expresa la frecuencia relativa en porcentajes. Pi% = Pi .100 Frecuencia porcentual acumulada (Pa%): expresa la frecuencia relativa acumulada en porcentajes. Pa% = Pa .100
A continuacin se presenta como ejemplo de los distintos tipos de frecuencia, una tabla correspondiente a una caracterstica sociodemogrfica (edad) de una muestra de estudiantes de la Prov. de Bs. As.
Edad ni na pi pa Pi% Pa% 12 - 14 97 97 0.393 0.393 39.3 39.3 15 - 17 131 228 0.530 0.923 53.0 92.3 18 - 20 19 247 0.077 1 7.7 100 Total (n) 247 1 100%
10 4- Modelo de distribucin Normal
Muchas variables cuantitativas continuas tienen distribuciones que se asemejan a la normal lo suficiente como para trabajar como si fueran normales, sin cometer grandes errores. Ejemplo: estatura, peso, cociente intelectual, etc. La caracterstica principal de este modelo es que existe un valor central en torno al cual se concentran la mayor parte de los individuos, y que cuanto ms se alejan los valores de la media ms difcil es encontrar individuos que adopten esos valores. Entonces, el modo como se presentan las frecuencias grafican una campana que: - Es simtrica con respecto a su valor central (all coinciden media, mediana y moda) - Es asinttica, por mucho que se extienda nunca llega a tocar los ejes de las abscisas. - Se construye a partir de dos parmetros: (1) la media poblacional y (2) el desvo poblacional. Segn los valores que ellos adopten, se podr concebir una familia de curvas normales. Se suelen considerar tres reas bajo la curva normal: - Aproximadamente 68 % del rea bajo la curva normal est dentro de 1 desviacin estndar respecto de la media. - Aproximadamente 95 % del rea bajo la curva normal est dentro de 2 desviaciones estndares respecto de la media. - Aproximadamente 99 % del rea bajo la curva normal est dentro de 3 desviaciones estndares respecto de la media. Grficamente, la forma que adopta una curva normal es la siguiente:
11
Extrado de ar.geocities.com/sitiomartos/04_Varios/Future...
Por ejemplo, si el valor medio en un test de rendimiento cognitivo (que posee una distribucin normal) es 19 y la desviacin estndar es 1.2, se dir que aproximadamente el 68 % obtuvo puntajes entre 17.8 y 20.2, el 95 %, entre 16.6 y 21.4, y el 99 %, entre 15.4 y 22.6. Por ejemplo, la escala de CI de Wechsler posee un valor medio de 100 y una desviacin tpica de 15. Por lo tanto, se podr afirmar que aproximadamente el 68% de las observaciones oscilar entre 85 y 115, mientras que el 95% lo har entre 70 y 130, y el 99%, entre 55 y 145 puntos.
5- Estandarizacin para la distribucin normal (o distribucin normal estndar) La distribucin de una variable emprica como la estatura, ha demostrado tener una distribucin normal luego de una investigacin consistente en medir a una muestra importante de individuos. A diferencia de la estatura, la inteligencia no se basa en una investigacin que la mida y luego descubra las propiedades de su distribucin. De hecho, se supone que antes de crear una prueba de inteligencia, sta, por ser una cualidad humana, es probable que se distribuya normalmente. Mientras que la estatura es una distribucin normal que ocurre naturalmente, las pruebas de inteligencia (y otras) se construyen para producirla (Coolican, Garca Mulsa y Gomez Lopez, 1997, p.235). Muchas pruebas se adaptan hasta que la evaluacin de una gran muestra produzca una distribucin de puntuaciones que se aproxime muy 12 cercanamente a la distribucin normal. Esto permitir ejecutar algunas estimaciones estadsticas extremadamente poderosas (Coolican, Garca Mulsa y Gomez Lopez, 1997, p.169-170).
6- Medidas de posicin Las medidas de posicin son ndices diseados para revelar la situacin de una puntuacin con respecto a un grupo, utilizando a ste como marco de referencia (Botella, Len y San Martn, 1993, p. 83). Si un conjunto de datos ordenados (por ejemplo, de menor a mayor) es dividido en cuatro partes iguales, obtenemos la medida de posicin denominada cuartil; si dividimos a ese mismo conjunto en 10 partes iguales, obtenemos los deciles; y si se divide la distribucin en 100 secciones iguales, obtenemos 99 valores llamados percentiles (stos ltimos, son ampliamente utilizados en la Evaluacin Psicolgica con instrumentos psicomtricos). Si la variable se distribuye normalmente, las distancias entre los percentiles intermedios sern menores que las distancias entre percentiles extremos. Esta propiedad permite que muchas pruebas utilicen puntajes percentilares para considerar los parmetros de normalidad. Si disponemos de esos 99 valores podremos hacer valoraciones relativas de las puntuaciones individuales expresndolas como el porcentaje de puntajes inferiores a ella. Por ejemplo: si en un examen de la materia Psicomtricas un alumno obtiene un puntaje percentilar P = 90 (correspondiente a la calificacin de 8), es porque ha superado con esa calificacin al 90 % de sus pares. Otro ejemplo: dos nios han obtenido un puntaje bruto PB = 20 en la prueba de Matrices Progresivas (Escala Coloreada) de Raven. Sin embargo, uno de ellos (6 aos y 8 meses) obtuvo un P = 90 y el otro (9 aos y 2 meses), un P = 25. Es claro que el primer nio ha tenido un mejor desempeo en esta prueba porque ha superado al 90% de su grupo de referencia, mientras que el segundo nio slo ha superado al 25%. La prueba de ansiedad ISRA interpreta como ansiedad severa toda puntuacin que supere el percentil 75. Esto significa que una persona que supera este puntaje pertenecer al 25% de la poblacin con mayores valores de la variable. 13 Para identificar el percentil correspondiente a determinado valor de la variable, basta con acudir a la columna de Frecuencia porcentual acumulada (Pa%) de la distribucin de frecuencia. Si no se dispone de Pa%, se debe acudir a la columna de Frecuencia relativa acumulada (pa) y calcular la expresin 100 x pa correspondiente a ese valor. Recordemos que pa es el cociente entre la Frecuencia absoluta acumulada (na) y el tamao de la muestra (Pa = na / n). Por ello, si no se ha calculado pa, pero se dispone de na, entonces se deber calcular: 100 x (na / n).
Si tenemos la siguiente distribucin de frecuencias, diremos que el percentil para el valor 15 es:
Edad ni na pa 12 11 11 0.103 15 70 81 0.757 17 26 107 1 Total 107
P = 100 x pa P = 100 x 0.757 = 75.7
O bien, si no se dispone de pa: P = 100 x (na / n) P = 100 x (81 / 107) P = 100 x 0.757 = 75.5
Para hallar el percentil en una distribucin de frecuencias agrupadas por intervalos de clases, se emplea una frmula un tanto ms compleja (Cortada de Kohan, 1994):
14 P = L + Pi . n na . c ni
En donde: L = lmite inferior real del intervalo que contiene al percentil buscado Pi = porcin que corresponde al percentil buscado. As, si el percentil buscado es 62, Pi = 0.62 n = nmero de casos na = frecuencia acumulada hasta ese lmite inferior (es decir, frecuencia acumulada en el intervalo que precede inmediatamente al intervalo clase que contiene al percentil buscado) ni = frecuencia del intervalo que contiene al percentil buscado c = ancho de la clase en que se encuentra el percentil buscado
7- Medidas de tendencia central Son medidas muy utilizadas porque refieren a un valor que representa todos los puntajes logrados por un grupo y como tal da una descripcin concisa del rendimiento del grupo en su totalidad (Garret, 1979, p.46). Esto nos permite comparar dos o ms grupos en trminos de rendimiento tpico.
_ - Media Aritmtica X
La media aritmtica es la suma de un conjunto de valores dividido por la cantidad total de valores. Propiedades de la Media aritmtica: Todo conjunto de datos del nivel de intervalo y de nivel de razn tiene una media. Al evaluar la media se incluyen todos los valores (se puede considerar la media como un punto de equilibrio para un conjunto de datos, pero cuando existen valores extremos la media no representa adecuadamente los datos). 15 La media aritmtica es la nica medida de tendencia central donde la suma de las desviaciones (ver Medidas de dispersin) de cualquier valor con respecto a la media siempre ser cero.
En el caso de trabajar con los valores sin agrupar: _ X= Xi / n
Cuando tenemos una distribucin de frecuencias, la media es la suma de los valores observados (Xi), multiplicados por la frecuencia correspondiente (ni) y dividido por la cantidad de observaciones(n): _ X = (Xi . ni) / n
La media total de un grupo de puntuaciones puede obtenerse a partir del conocimiento de las medias parciales y de los tamaos de los subgrupos en que han sido calculadas (Botella, Len y San Martn, 1993):
_ X t = n1 . X1 + n2 . X2 + n3 . X3 + nk . Xk n1 + n2 + n3 + nk
- Mediana Mdn La mediana es aquel valor de la variable por encima y por debajo del cual existe la misma cantidad de observaciones. Este estadstico debe entenderse como homlogo al percentil 50. Propiedades de la Mdn: Se utiliza con frecuencia cuando la variable es ordinal (aunque tambin puede ser utilizada en los niveles de intervalo y de razn). No se ve afectada por valores extremos (tal como ocurre en el caso de la media) Puede calcularse para una distribucin de frecuencias de extremo abierto (si la mediana no se encuentra en una clase de tal extremo). Cuando tenemos un nmero impar de observaciones sin agrupar, se toma como mediana el valor central. Ejemplo:
16
n=11 Nmero de orden= n + 1 11 + 1 = 6 Mdn = 8 2 2
1 2 3 4 5 6 7 8 9 10 11 5 6 6 7 7 8 9 9 10 11 12
Cuando tenemos un nmero par de observaciones sin agrupar, se toma como mediana el valor comprendido entre los dos valores centrales. Ejemplo:
n=10 Mdn = 34 + 35 = 34,5 2 Para hallar la Mdn en una distribucin de frecuencias agrupadas por intervalos de clases, se emplea la siguiente frmula (Cortada de Kohan, 1994):
Mdn = L + n/2 na . c ni
En donde: L = lmite inferior real del intervalo que contiene a la Mdn n = nmero de casos na = frecuencia acumulada hasta ese lmite inferior (es decir, frecuencia acumulada en el intervalo que precede inmediatamente al intervalo clase que contiene a la mediana) ni = frecuencia del intervalo que contiene a la Mdn c = ancho de la clase en que se encuentra la Mdn Para el siguiente ejemplo, la Mdn ser:
- Moda Mo La moda (o el modo como tambin se la llama) es el valor de la variable con mayor frecuencia absoluta. Es decir, es el valor que se presenta con mayor frecuencia.
Propiedades de la Mo: Se utiliza frecuentemente cuando se trata de una variable nominal (aunque puede emplearse en todos los niveles de medicin). Tiene la ventaja de no verse afectada por valores muy altos o muy bajos. Al igual que la mediana, puede utilizarse como medida de tendencia central para distribuciones de extremos abiertos. La moda tiene algunas desventajas que hacen que se utilice con menos frecuencia que la media o la mediana. Para muchos conjuntos de datos, no existe moda porque ningn valor aparece ms de una vez. Por el contrario, para algunos conjuntos de datos hay ms de una moda. Supngase que las edades de un grupo son 22, 26, 27, 27, 31, 35 y 35. Tanto las edades 27 como 35 son modas. 18 Sera cuestionable utilizar las dos modas para representar la tendencia central de este conjunto de datos de edades.
8- Medidas de Dispersin o Variabilidad Las medidas de dispersin son ndices que establecen el grado en que se parecen o se diferencian entre s un conjunto de datos. Una distribucin de frecuencias ser homognea o poco variable si los datos difieren poco entre s y, por tanto, se concentran en torno a su promedio. Ser heterognea o muy variable si los datos se dispersan mucho con respecto al promedio. Por qu estudiar la dispersin? Existen varias razones para analizar la dispersin en un conjunto de datos: - Al aplicar una medida de dispersin es posible evaluar la confiabilidad del promedio que se est utilizando. Si los valores se concentran en torno a la media, esta ltima se considera representativa de los datos. Por el contrario, una dispersin grande indica que la media no es confiable. - Una medida de dispersin permite apreciar cun dispersas estn dos o ms distribuciones. Por ejemplo, supngase que un nuevo modelo de computadora se ensambla en dos plantas de una fbrica: la Planta A y B. La media aritmtica de la produccin diaria en ambas plantas es 50. Con base en las dos medias se podr llegar a la conclusin de que las distribuciones de las producciones diarias son idnticas. Pero si las dispersiones varan de una muestra a la otra, esta conclusin no es correcta (por ejemplo, si la produccin en la Planta A vara de 48 a 52 ensambles por da, mientras que en la Planta B vara de 40 a 60, diremos que en esta segunda Planta la produccin es ms errtica).
- Amplitud Total (o rango) El rango es la medida de dispersin ms sencilla. Es la diferencia entre el valor ms alto y el ms bajo de un conjunto de datos. Rango = valor ms alto valor ms bajo Consideremos los siguientes grupos de calificaciones en tres cursos diferentes A, B y C: A) 6, 6, 6, 6, 6, 6 B) 5, 6, 7, 8, 7, 3 19 C) 2, 3, 4, 7, 9, 11 Los tres grupos poseen la misma media aritmtica, pero mientras en el curso A no hay variaciones (todos los alumnos obtuvieron un 6), el curso B (rango = 5) y C (rango = 9) ha mostrado importantes variaciones, siendo este ltimo el de mayor variabilidad.
- Desviacin media (dm) Un defecto importante de la amplitud total es que se basa slo en dos valores, el mayor y el menor, no tomando en consideracin todos los datos. La desviacin promedio s lo hace. La desviacin promedio es la suma de los desvos de todos los valores con respecto a la media aritmtica, en valores absolutos y promediados (Cortada de Kohan, 1994). En valores absolutos quiere decir que no se tienen en cuenta los signos de los valores (desviaciones) pues, si se hiciera, tales desviaciones se compensaran exactamente, y la desviacin media sera cero. Tal medida (cero) es un dato estadstico intil. Se calcula: _ D.M. = /Xi X/ n
Por ejemplo, si tenemos los siguientes valores: 2, 3, 4, 7, 9, 11 Calculamos el nmero de casos y la media aritmtica, que en este caso sera: _ n = 6 y X = 36/6 = 6
Y calculamos las desviaciones respecto de la media aritmtica para cada valor: _ X - X = 2 6 = -4 3 6 = -3 4 6 = -2 7 6 = 1 9 6 = 3 11 6 = 5 ____ 0 20 _ Pero en valor absoluto D.M. = /Xi X/ = 18 = 3 n 6
La desviacin media no se usa con mucha frecuencia, porque al utilizar valores absolutos no es fcil de manipular algebraicamente. Pero tanto la variancia como la desviacin estndar se basan en las desviaciones medias.
- Varianza (variancia) La varianza es el promedio de las desviaciones cuadrticas con respecto a la media. Es un ndice basado en la idea de que, al elevar al cuadrado las distancias con respecto a la media antes de hallar su promedio, no suman cero. Adems los cuadrados son siempre positivos. Para los datos sin agrupar, la frmula es: _ S = (Xi X) / n
Para datos agrupados: _ S = (Xi X).ni / n
Por ejemplo, las edades de los pacientes en el pabelln de aislados en el Hospital de Clnicas son: 38, 26, 13, 41 y 22
Calculamos el nmero de casos y la media aritmtica: _ n = 5 y X = 140/5 = 28
Y calculamos las desviaciones cuadrticas (desviaciones elevadas al cuadrado) respecto de la media aritmtica para cada valor, teniendo en cuenta que los signos de las desviaciones (+ o -) no se omiten, como se hizo para la desviacin media: _ (Xi X) =
As, el promedio de las desviaciones cuadrticas sumadas es:
S = 534 / 5 = 106.8
La varianza de esa poblacin es, entonces, de 106.8. Al igual que la amplitud total y la desviacin media, la varianza se utiliza para comparar la dispersin en dos o ms conjuntos de observaciones.
- Desviacin tpica o estndar (sd) Tanto la amplitud total como la desviacin media son fciles de interpretar, sin embargo resulta difcil interpretar la varianza para un solo conjunto de observaciones. La variancia de 106.8 para las edades de los pacientes no est en trminos de aos, sino ms bien en aos al cuadrado. Por ello resulta til retomar las unidades de medicin originales. Esto es lo que hace la desviacin estndar, al calcular la raz cuadrada de la varianza. As, se establece con mayor precisin una separacin promedio de las distancias de cada uno de los valores de la variable a la media. Es un mejor descriptor de la variabilidad y siempre es positiva. En el ejemplo anterior, la raz cuadrada de 106.8 aos es de 10.3.
Coeficiente de variacin V El coeficiente de variacin sirve para comparar la variabilidad de grupos cuya media es claramente distinta. Se relativiza la desviacin tpica con respecto a la media y se expresa como un porcentaje. CV= S . 100 / X
Por ejemplo, un grupo de nios de 7 aos mide una talla media = 1.3 con una s = 0.05. Por otro lado, sabemos que su peso medio es = 25 con una s = 2 Kg. 22 La pregunta que nos hacemos es: qu es ms variable: el peso o la talla? La V para talla ser:
100 x 0.05 = 5 = 3.84 1.3 1.3
La V para peso ser:
100 x 2 = 200 = 8 25 25
Por lo tanto, son ms heterogneos, ms dispersos, en peso que en talla. Cuanto mayor es el coeficiente menos representativa es la media. Este coeficiente tiene el inconveniente de que slo puede ser utilizado con variables cuantitativas en mediciones de razn o cociente.
9- Medidas de asimetra (o sesgo) Las medidas de asimetra determinan si las frecuencias se concentran ms hacia los valores bajos (asimetra positiva) o hacia los valores altos de la variable (asimetra negativa). Si una distribucin de frecuencias es simtrica, el sesgo es nulo (es decir, igual a 0). En las distribuciones simtricas, la media, Mdn y Mo coinciden (caen en el mismo punto de la distribucin). Pero, casi todas las distribuciones sacadas de datos de la realidad son asimtricas. Lo que esperamos, para tratar a una distribucin como normal, es que el grado de asimetra sea lo ms cercano a 0 posible. El coeficiente de asimetra (C.A.) se encuentra generalmente entre 3 y +3. La frmula para calcular el sesgo de una distribucin es: _ C.A. = 3 (X - Mdn) sd
10- Curtosis La curtosis se refiere a la altura o aplanamiento del polgono de frecuencia. 23 Cuando la curva es muy puntiaguda, se la denomina leptocrtica, si es muy chata, platicrtica, y si es normal, mesocrtica. La asimetra y la curtosis son medidas independientes, por lo que una distribucin puede ser simtrica y, por ejemplo, leptocrtica. O, por el contrario, ser asimtrica y mesocrtica. De cualquier modo, si la distribucin de frecuencias es cercana a la normal, el sesgo deber tender a 0 y la curva deber tender a ser mesocrtica.
11- Puntuaciones tpicas o estndar Las puntuaciones tpicas son muy utilizadas en Psicologa. Se simbolizan = z. Estos puntajes z nos permiten establecer distintas comparaciones, a partir de llevar todos los valores (por ejemplo, puntajes brutos obtenidos por un grupos de sujetos en un test de Inteligencia) a una escala comn que posee media = 0 y desvo estndar = 1. Cmo se logra esto? A travs de una transformacin de los puntajes como si la unidad de medida fuera la desviacin estndar. No se miden las distancias a la media en trminos absolutos, sino con relacin a la variabilidad del grupo de referencia. La frmula que permite transformar los puntajes brutos en puntajes z, es: _ z = Xi X S
Las puntuaciones tpicas nos autorizan a (1) comparar distintas puntuaciones de un mismo sujeto o de sujetos diferentes, (2) hacer comparaciones entre variables medidas con diferentes escalas, (3) comparar puntajes obtenidos por distintas variables. El puntaje z indica el nmero de desviaciones tpicas que esa observacin se separa de la media del grupo de observaciones. Muchas puntuaciones tpicas son negativas o con decimales (Botella et al., 1993). Por ejemplo: deseamos comparar el rendimiento acadmico de dos estudiantes de psicologa de distintas universidades. El siguiente cuadro resume los datos:
Universidad 1 Universidad 2 24 Media 6 7.5 Desvo estndar 2.5 2
Sabiendo que ambos estudiantes poseen un promedio de 6.5 en sus calificaciones, se procede a reemplazar en la frmula:
z 1 = 6.5 6 = 0.2 z 2 = 6.5 7.5 = - 0.5 2.5 2
Los resultados se interpretan teniendo en cuenta que los puntajes z tienen signo segn estn a la derecha (+) o a la izquierda (-) de la media. As, mientras el segundo sujeto se encuentra a medio desvo por debajo de la media (z= - 0,5), el primer sujeto se encuentra por encima de la media a 1/5 de desvo (z= 0,2). Por lo tanto, el primer sujeto posee mejor rendimiento que el segundo, si bien ambos tienen el mismo promedio en sus calificaciones.
12- Escalas derivadas Las escalas derivadas son transformaciones de las puntuaciones tpicas. Poseen las mismas caractersticas que estas ltimas, pero evitando los nmeros negativos y decimales. Son transformaciones afines y lineales. Por ejemplo: el cuestionario de estrs ocupacional (OSI) compara con la misma escala (llamada escala T) todas las puntuaciones obtenidas por cada una de sus variables. La escala T es una transformacin lineal de la escala de las puntuaciones tpicas que adopta una media de 50 y un desvo tpico de 10 puntos. T = 10 . z + 50
Otro ejemplo: Wechsler utiliza diferentes escalas para cada uno de los subtests y recurre a los Puntajes Equivalentes para establecer comparaciones. Estos puntajes son una escala derivada de las puntuaciones tpicas que adoptan media 10 y desvo estndar de 3 puntos. Tambin, el famoso CI (cociente intelectual) es una escala derivada, cuya media es 100 y su desvo estndar de 15 puntos. 25
13- Baremo El Diccionario de la Real Academia Espaola define baremo como: cuaderno o tabla de cuentas ajustadas, lista o repertorio de tarifas. Cuadro gradual establecido convencionalmente para evaluar los mritos personales, la solvencia de empresas o los daos derivados de accidentes o enfermedades. Palabra utilizada por primera vez por el matemtico francs B. F. Barreme (1640-1703). Si bien, algunas ideas implicadas en la definicin se asemeja al uso que se le da a la palabra baremo en evaluacin psicolgica, creemos ms adecuado definir baremo como: la distribucin de los puntajes transformados (tpicos o derivados) de modo tal que permiten ubicar a un sujeto en relacin a su grupo de referencia. Los baremos son puntos de referencia que permiten comparar las puntuaciones crudas (brutas) de un sujeto con las obtenidas por su grupo de referencia, otorgndole significado a tales puntuaciones crudas. Los puntajes transformados que se suelen utilizar para la construccin del baremo son: z, T, PP, y CI y puntajes equivalentes (cuya media es = 10 y desvo = 3) (estos ltimos dos puntajes, se utilizan bsicamente, aunque no exclusivamente, en las Escalas Wechsler de Inteligencia). Veamos con un ejemplo, la importancia prctica de los baremos en la evaluacin psicolgica. La seora Gonzlez estaba orgullosa de su hijo Roberto ya que el nio haba obtenido un CI de 100. La seora pensaba que 100 era una puntuacin perfecta. No saba que en la escala CI, 100 es la media. La leccin es clara: ninguna puntuacin es significativa cuando se desconoce la base de su derivacin (Karmel, 1986). Es decir, siempre debemos tener en claro cul es el marco de referencia de las puntuaciones del examinado. El baremo sirve a los fines de comunicar informacin significativa respecto del desempeo de un sujeto en una prueba, al compararlo con un grupo de sujetos de la misma poblacin. Por ejemplo, podemos decir que un sujeto posee un nivel de enojo alto, ya que sus puntajes brutos (los puntajes que ha obtenido en cada escala de una prueba de enojo) equivalen al Puntaje Percentilar = 90 (supera al 90 % de su grupo de referencia), al puntaje T = 65 26 (recordemos que la media de esta escala es 50 y el desvo es 10) y al puntaje z = 1.3 (recordemos que, en este caso, la media es 0 y el desvo 1). Una puntuacin bruta tiene significado slo cuando la referimos al baremo apropiado. Ya que muchas variables psicolgicas varan en funcin de variables sociodemogrficas, los baremos suelen dividirse por edad, sexo, nivel educativo, nivel socio-econmico y regin geogrfica. Por ejemplo, para el test ISRA se presenta por separado el baremo de varones y mujeres, pues se ha observado que estas ltimas obtienen puntajes significativamente ms altos que los varones. Asimismo, no es posible utilizar el baremo espaol para interpretar los puntajes en el ISRA de un sujeto argentino, ya que se ha observado que nuestra poblacin tiende a puntuar ms alto en todas las escalas del ISRA comparado con poblacin espaola.
14- Cundo utilizar determinado anlisis estadstico? Hay dos tipos de anlisis que pueden realizarse: anlisis paramtricos y no paramtricos. Cada tipo posee sus caractersticas y supuestos. Ya hemos advertido al lector acerca de las consecuencias de utilizar indiscriminada e irresponsablemente las herramientas estadsticas. En no pocos casos se registra el uso de pruebas paramtricas (propias de los niveles intervalar y de cociente o razn), con datos no paramtricos (niveles nominal y ordinal). De esta manera, se logra estar a la moda pero se violan, o no se verifican, las condiciones de aplicacin de los anlisis que se realizan. Por supuesto, no basta con tomar en cuenta el nivel de medicin o el comportamiento de los valores de las variables a la hora de decidir qu tcnicas estadsticas emplear, sino que adems resulta necesario examinar el problema de investigacin, los objetivos, el tipo de estudio y las hiptesis a contrastar. A continuacin, mencionaremos los supuestos bsicos para las pruebas paramtricas y para las no paramtricas, y los anlisis ms utilizados en cada caso. No desarrollamos las tcnicas que se emplean, a excepcin de prueba ji cuadrada, coeficiente de correlacin y ANOVA por ser stas muy utilizadas en los anlisis bsicos de toda investigacin.
27 - Pruebas Paramtricas (extrado de Hernndez-Sampieri, Fernndez-Collado y Baptista-Lucio, 1998). Para realizar anlisis paramtricos debe partirse de los siguientes supuestos: 1. La distribucin de los valores de la variable es normal 2. El nivel de medicin de la variable es por intervalos o razn 3. Cuando dos o ms poblaciones son estudiadas tienen una varianza homognea: las poblaciones en cuestin tienen una dispersin similar en sus distribuciones.
Las pruebas paramtricas ms utilizadas son: - Coeficiente de correlacin de Pearson (r) - Regresin lineal simple y mltiple - Prueba t de diferencias entre medias - Prueba de contraste de la diferencia de proporciones - Anlisis de varianza unidireccional (ANOVA) - Anlisis de varianza multivariado (MANOVA) - Anlisis de varianza factorial - Anlisis de covarianza (ANCOVA) - Anlisis Discriminante - Anlisis de senderos (Path-analysis)
- Pruebas No Paramtricas: Existen tcnicas estadsticas que permiten, por ejemplo, comparar grupos sin exigir que las variables sigan una determinada ley de probabilidad. Las pruebas no paramtricas permiten realizar estas comparaciones, independientemente de la ley de probabilidad que siguen las variables en la poblacin de origen. Por otra parte, las pruebas no paramtricas son tiles en el estudio de datos ordinales (es decir, en los que slo se conoce si un individuo est delante de otro, pero sin especificar cunto) o nominales. Con datos cuantitativos, las pruebas no paramtricas se emplean cuando el tamao de los grupos es pequeo (n inferior a 30). Para muestras grandes las distribuciones de los valores suelen ser normales y pueden aplicarse las medidas paramtricas estudiadas. 28 Entonces, para realizar anlisis no paramtricos: 1. No se requiere de presupuestos acerca de la forma de distribucin poblacional. Aceptan distribuciones no normales. 2. No se requiere necesariamente de variables medidas en un nivel por intervalos o de razn. Pueden analizarse datos nominales u ordinales.
Las pruebas no paramtricas ms utilizadas son: - La prueba ji cuadrada - Los coeficientes de correlacin e independencia para tabulaciones cruzadas - Los coeficientes de correlacin (por ejemplo, el coeficiente rho de Spearman es muy utilizado en Psicologa). - La Prueba U de Mann-Whitney (permite comparar dos muestras independientes. Ej.: puedo analizar si el nivel de ansiedad es mayor en un grupo de mujeres que en un grupo de hombres) - La Prueba H de Kruskal-Wallis (permite comparar dos o ms muestras independientes. Ej.: puedo analizar si la variable capacidad reflexiva es diferente en funcin del nivel educativo) - La Prueba de Wilcoxon o la Prueba de McNemar (permite comparar dos variables o la misma variable en dos tiempos, para una misma muestra de casos. Se las suele denominar pruebas de medidas repetidas. A diferencia de la Prueba del Signo, frecuentemente utilizada, toma en cuenta tanto la magnitud como la direccin de las diferencias. Ej.: puedo analizar las diferencias en la variable desesperanza al mismo grupo de sujetos a un mes y a 6 meses de haber quedado sin empleo) - La Prueba de Friedman o la Prueba de Kendall (permite comparar dos o ms variables o la misma variable en dos o ms tiempos, para una misma muestra de casos. Ej.: puedo averiguar qu predomina ms frente a un examen: la valoracin de la situacin como amenaza, desafo o irrelevante, para el mismo grupo de estudiantes)
15- Pruebas No-Paramtricas: Asociacin entre variables categricas. La prueba j cuadrado () Con frecuencia en investigacin se utilizan variables de tipo cualitativo (nominales u ordinales), mediante las cuales un grupo de individuos se clasifican en dos o ms categoras mutuamente excluyentes (por ejemplo, ser de sexo femenino o masculino, presentar un nivel de instruccin primario, 29 secundario o universitario). Las proporciones son una forma habitual de expresar frecuencias cuando la variable objeto de estudio tiene dos posibles respuestas, como presentar o no un evento de inters. Cuando lo que se pretende es comparar dos o ms grupos de sujetos con respecto a una variable categrica, los resultados se suelen presentar a modo de tablas de doble entrada que reciben el nombre de tablas de contingencia. As, la situacin ms simple de comparacin entre dos variables cualitativas es aquella en la que ambas tienen slo dos posibles opciones de respuesta (es decir, variables dicotmicas). En esta situacin la tabla de contingencia se reduce a una tabla dos por dos como la que se presenta a continuacin.
- Tabla de contingencia 2 x 2. Caracterstica A Caracterstica B Presente Ausente Total Presente a b a + b Ausente c d c + d Total a + c b + d n
La prueba j cuadrado () permite determinar si dos variables cualitativas estn o no asociadas. La hiptesis que se busca probar es si las dos variables son independientes. Para su cmputo es necesario calcular las frecuencias esperadas (aquellas que deberan haberse observado si la hiptesis de independencia fuese cierta), y compararlas con las frecuencias observadas en la realidad. As, el estadstico 2 mide la diferencia entre el valor que debiera resultar si las dos variables fuesen independientes y el que se ha observado en la realidad. Cuanto mayor sea esa diferencia (y, por lo tanto, el valor del estadstico), mayor ser la relacin entre ambas variables. El hecho de que las diferencias entre los valores observados y esperados estn elevadas al cuadrado convierte cualquier diferencia en positiva. El test 2 es as un test no dirigido (test bilateral), que nos indica si existe o no relacin entre dos variables pero no en qu sentido se produce tal asociacin (Pita Fernandez y Prtega Diaz, 2004). 30 La distribucin observada se identifica a partir de un nico parmetro, que se denomina grados de libertad (gl). A medida que aumentan los grados de libertad, la distribucin se vuelve ms simtrica. La frmula para calcular los gl se basa en la cantidad de filas (f) y columnas (c) que se presentan en la tabla de contingencia.
gl = (f 1) . (c 1)
En una tabla de 2 x 2 la frmula se completa de la siguiente forma: gl = (2 -1) . (2 1) gl = 1
Cmo decidimos si apoyamos o rechazamos la hiptesis de independencia entre las variables estudiadas? A partir del nivel de significacin que presente el estadstico. El nivel de significacin () es la probabilidad de que el estadstico 2 sea tan o ms grande que el valor observado, cuando la hiptesis de independencia de las variables (hiptesis nula) es verdadera. Se estipula que el nivel de significacin debe ser inferior a .05 para considerar que existe evidencia a favor de la asociacin entre las variables. Esto significa que existira menos de un 5% de probabilidades de que se observen esos valores de forma aleatoria, es decir, si las variables son independientes. Por lo tanto, cuando es inferior a .05 se concluye que existe evidencia (con una probabilidad de error inferior al 5%) para asumir que las variables se encuentran asociadas. En el siguiente ejemplo se observa una tabla de contingencia y la prueba j cuadrado para las variables sexo y repitencia del ao escolar en una muestra de adolescentes de la Pcia. de Bs. As.
Tabla de contingencia
Sexo Total Varn Mujer Repitencia S 33 40 73 No 58 109 167 31 Total 91 149 240
Prueba J-Cuadrado
Valor Gl Sig. (2-colas) Ch-cuadrado de Pearson 2,368 1 0.124
Estos resultados indican que no se observa una asociacin estadsticamente significativa entre el sexo de los adolescentes y la frecuencia con la que refirieron haber repetido de ao, por lo que se concluye que estas dos variables son independientes en esta muestra de sujetos.
dos variables dicotmicas. 16. Pruebas Paramtricas: Comparaciones entre dos grupos independientes.
La prueba T La prueba t de Student se utiliza en aquellas variables que cumplen con los supuestos requeridos por las pruebas paramtricas. Se utiliza para comparar el puntaje medio de dos grupos independientes para una variable dada. Por medio de esta prueba se intenta estimar si la diferencia observada entre el puntaje promedio de estos dos grupos puede deberse a una diferencia aleatoria (hiptesis nula) por lo que se asumira que no difieren significativamente. A esta diferencia aleatoria entre medias se lo conoce con el nombre de error de varianza aleatorio. Si las diferencias observadas son tan grandes que se considera improbable que sea el resultado del error de varianza solamente, se rechaza la hiptesis nula y se concluye que los grupos difieren significativamente con respecto a la variable en cuestin. Tal como se mencion para la prueba de j cuadrado, se estipula un nivel de inferior a .05 para rechazar la hiptesis nula (Leary, 1990). En el siguiente cuadro se observa el resultado de la aplicacin de la prueba t para comparar el puntaje medio de consumo de alcohol (unidades de bebida) entre estudiantes varones y mujeres (grupos independientes) de una muestra de la Pcia. de Bs. As. Estadsticos segn el Grupo 32
Sexo N Media Desvo Estndar Error Estndar de la Media Varn 94 24,5191 40,77123 4,20523 Consumo de alcohol segn - Unidades de Bebida (UB)
Mujer 151 9,9086 21,50822 1,75031
Prueba t para muestras independientes
Prueba t para la igualdad de medias t gl Sig. (2- colas) Diferencia de Medias Error Estndar de la diferencia 95% Intervalo de Confianza de la diferencia
Inferior Superior Unidades de Bebida 3,663 243 .001 14,61054 3,98874 6,75362 22,46746
Estos resultados indican que los estudiantes varones presentan un puntaje medio de consumo de alcohol significativamente superior al reportado por las estudiantes mujeres.
17 Pruebas paramtricas: Comparaciones entre ms de dos grupos independientes.
Anlisis de la varianza (ANOVA) El anlisis de la varianza (ANOVA) de un factor sirve para comparar varios grupos en una variable cuantitativa. Se trata de una generalizacin de la prueba t para dos muestras independientes al caso de diseos con ms de dos muestras. A la variable categrica (nominal u ordinal) que define a los grupos que deseamos comparar la llamamos independiente o factor. A la variable cuantitativa (de intervalo o razn) en la que deseamos comparar a los grupos la llamamos dependiente. Si queremos por ejemplo comparar el consumo de alcohol en adolescentes de 12, 14 y 16 aos, podemos seleccionar sujetos de los tres grupos de edad (variable independiente), medir el consumo (variable dependiente) y realizar un anlisis de varianza ANOVA de un factor. El 33 resultado nos indicara si alguno de los grupos difiere significativamente de los otros con respecto a la variable dependiente. Como se observa en el siguiente cuadro, el estadstico F es el utilizado en este tipo de anlisis. ANOVA
Unidades de Bebida
Suma de cuadrados gl Media cuadrada F Sig. Entre grupos 1649,581 2 824,791 1,434 .243 Intra grupos 56348,104 98 574,981 Total 57997,685 100
En el ejemplo que presentamos, se observa que los adolescentes de los tres grupos de edad (12, 14 y 16 aos) no difieren significativamente (sig > 0.05) en el nivel de consumo de alcohol referido. El estadstico F permite evaluar si existen diferencias entre los grupos, pero no permite evaluar qu grupo difiere con qu otro grupo. En el caso de observarse diferencias significativas, es necesario realizar pruebas post hoc para dar respuesta a esta cuestin.
18- Qu son los mtodos de anlisis multivariado? Los mtodos de anlisis multivariado son aquellos en que se analiza la relacin entre diversas variables independientes y al menos una dependiente. Son mtodos ms complejos que requieren del uso de computadoras para efectuar los clculos necesarios (normalmente se ensean a nivel postgrado). Por ejemplo, el anlisis factorial de varianza (ANOVA de k direcciones) es una prueba estadstica para evaluar el efecto de dos o ms variables independientes sobre una variable dependiente. Constituye una extensin del anlisis de varianza unidireccional, solamente que incluye ms de una variable independiente. Evala los efectos por separado de cada variable independiente y los efectos conjuntos de dos o ms variables independientes.
19- Coeficiente de correlacin: Los anlisis de correlacin son ampliamente utilizados en las investigaciones psicolgicas, y en la evaluacin psicolgica resultan 34 imprescindibles para calcular ndices de validez y confiabilidad de las tcnicas. El coeficiente de correlacin nos indica tres cosas fundamentales: - Si existe o no relacin entre variables - La fuerza de la relacin - La direccin que puede tener la relacin Si existe o no relacin entre las variables estar dado, en parte, por la fuerza de la asociacin. Un coeficiente muy utilizado en niveles intervalares o de cociente o razn, cuando las variables analizadas cumplen con los presupuestos para las pruebas paramtricas, es el coeficiente r de Pearson. El valor numrico de r va de -1 a 0 y de 0 a +1: Si r = 0 indica que no existe relacin entre ambas variables. Cuanto ms se aproxima el valor numrico de r a +1 o a -1, mayor fuerza tiene la asociacin (ms se ajustan los datos alrededor de una lnea recta imaginaria). Las correlaciones halladas entre los datos empricos suelen considerarse fuertes si pasan 0.70 u 0.80. La direccin, como vimos, puede ser positiva o negativa: Correlacin positiva: (+) los puntajes de las variables aumentan o decrecen en forma conjunta. Correlacin negativa: (-) indica una relacin inversa entre variables, cuando uno aumenta el otro disminuye. El siguiente cuadro muestra el coeficiente de correlacin r de Pearson entre la variable edad y consumo de alcohol (UB).
Correlaciones
Unidades de Bebida Edad Correlacin de Pearson 1 ,194(**) Sig. (2-colas) ,002 Unidades de Bebida
N 245 245 Correlacin de Pearson ,194(**) 1 Sig. (2-tcolas) ,002 Edad
N 245 247 ** La correlacin es significativa al nivel 0.01 (2-colas).
35 En el caso del ejemplo se observa una correlacin baja positiva entre las dos variables evaluadas. Cuando las variables que queremos analizar no cumplen con los presupuestos requeridos para utilizar pruebas paramtricas, podemos utilizar la prueba de correlacin no paramtrica rho de Spearman. La informacin que obtenemos por medio de esta prueba se interpreta de la misma forma que la detallada para r de Pearson. A continuacin se presenta el anlisis de correlacin rho de Spearman a partir del anlisis de los mismos datos recin presentados.
Correlacin
Edad Unidades de Bebida rho de Spearman Edad Coeficiente de Correlacin 1,000 ,236(**) Sig. (2-colas) . ,000 N 247 245 Unidades de Bebida Coeficiente de Correlacin ,236(**) 1,000 Sig. (2-colas) ,000 . N 245 245 ** La correlacin es significativa al nivel 0.01 (2-colas).
En este ejemplo se observa que la distribucin de las variables analizadas puede modificar la fuerza de la asociacin. En este caso, se modifica levemente el coeficiente de correlacin, pero no el sentido del mismo ni su nivel de significacin.
Bibliografa consultada para la realizacin de la presente ficha - Amn, J. (1978) Estadstica para psiclogos 1. Estadstica descriptiva. Madrid: Ediciones Pirmide. - Botella, J.; Len, O. & San Martn, R. (1993) Anlisis de Datos en Psicologa I. Madrid: Ediciones Pirmide. 36 - Botella, J.; San Martn, R.; Len, O. & Barriopedro, M. (2001) Anlisis de Datos en Psicologa I: Teora y ejercicios. 1 Edicin. Madrid: Ediciones Pirmide. - Bunge, M. (1987) La ciencia, su mtodo y filosofa. Bs. As.: Siglo veinte. - Coolican, H.; Garca Mulsa, M. y Gomez Lopez, E. (1997) Mtodos de investigacin y estadstica en psicologa. II Edicin. Mxico: El Manual Moderno. - Cortada de Kohan, N. (1994) Diseo Estadstico. Para investigadores de las Ciencias Sociales y de la Conducta Buenos Aires: EUDEBA. - Domnech Massons, J. M. (1975) Mtodos estadsticos para la investigacin en ciencias humanas. Barcelona: Editorial Herder. - Garret, H. E. (1979) Estadstica en Psicologa y Educacin. Bs. As.: Editorial Paids. - Hernndez-Sampieri, R.; Fernndez-Collado, C. & Baptista-Lucio, P. (1998). Metodologa de la investigacin. Mxico: McGraw-Hill. - Hernndez-Sampieri, R.; Fernndez-Collado, C. & Baptista-Lucio, P. (2008). Metodologa de la investigacin. Mxico: McGraw-Hill. - Instituto de Clculo Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires (2005). Mtodos para datos categricos. Material de las clases tericas. U.B.A. - Karmel, L. (1986) Medicin y evaluacin escolar. Mxico: Trillas. - Kaufman, A. & Lichtenberger, E. (1999) Claves para la evaluacin con el WAIS-III. Madrid: TEA Ediciones. - Kerlinger, F.N. (1975) Investigacin del comportamiento: tcnicas y metodologa. 1 Edicin. Mxico: Interamericano. - Lazarus, R. & Folkman, S. (1984) Estrs y procesos cognitivos. Barcelona: Martnez Roca. - Leary, M.R. (1990). Introduction to behavioral research methods. CA: Wadsworth Publishing Company. - Leibovich de Figueroa, N. & Schufer, M (2002) El malestar y su evaluacin en diferentes contextos. Buenos Aires: EUDEBA. - Mason, R.D. & Lind, D.A. (1998) Estadstica para Administracin y Economa. Mxico: Alfaomega. 37 - Nunnally, J (1970) Introduccin a la Medicin Psicolgica. Buenos Aires: Editorial Paids. - Pardo, A. & San Martn, R. (1998) Anlisis de datos en psicologa II. Madrid: Ediciones Pirmide. - Patton, L.H. (1995) Adolescent substance abuse. Risk and Protective Factors. Pediatric Clinics of North America, 42 (2), p. 283-293. - Prez Santamara, F.J.; Manzano Arrondo, V. & Fazeli Khalili, H. (1999) Anlisis de datos en Psicologa. 1 Edicin. Madrid: Pirmide. - Pita Fernandez, S & Prtega Diaz, S (2004). Metodologa de la investigacin. Asociacin de variables cualitativas: test de chi-cuadrado. www.fisterra.com/mbe/investiga/chi/chi.pdf. Consultado: 27-02-09. - Stevens, S.S. (1951) Handbook of Experimental Psychology. N.Y.: J.J.Wiley and Sons. - Stevenson, W. J. (1978) Estadstica para administracin y economa: conceptos y aplicaciones. Mxico: Harla.