Vous êtes sur la page 1sur 17

1

TEMA 5. MTODO DE ESCALAMIENTO UNIDIMENSIONAL DE LIKERT. 1. INTRODUCCIN. 2. SUPUESTOS. 3. CONSTRUCCIN DE UNA ESCALA LIKERT. 4. INTERPRETACIN DE LAS PUNTUACIONES. 5. VALORACIN.

1. INTRODUCCIN. El mtodo de escalamiento de Likert es el mtodo ms utilizado en Psicologa para medir actitudes, y su uso se ha extendido a la medicin de otros constructos, como por ejemplo las dimensiones de personalidad. Likert (1932) propuso su mtodo de escalamiento a finales del primer tercio del siglo XX. Previamente, Thurstone (1928) haba propuesto un mtodo para la medicin de actitudes que implicaba la participacin de sujetos que desempeaban el papel de jueces (el mtodo de los intervalos aparentemente iguales). Segn Thurstone (1928), el nmero de jueces debea oscilar entre 200 y 300. La tarea de estos sujetos consista en valorar un conjunto de tems. A partir de estas valoraciones, se calibraban los tems, es decir, se estimaba el valor del tem en la escala. Una vez se dispona de un conjunto de tems calibrados que constituan un cuestionario, ste se aplicaba al grupo de sujetos que se deseaba estudiar, y se les peda que marcaran los tems con los que estaban de acuerdo y aqullos con los que disentan. La puntuacin de cada persona consista en la media de los valores de los tems con los que estaban de acuerdo. El empleo de un nmero elevado de jueces y la necesidad de calibrar los tems hacan que este mtodo fuera muy costoso y laborioso. Asimismo, el mtodo de Thurstone implicaba una serie de supuesto estadsticos que no haban sido verificados, por ejemplo, que los valores de escala de los enunciados son independientes de la distribucin de actitudes de los jueces que los valoran (Likert, 1932). Tras reconocer la importancia de las aportaciones de Thurstone en el terreno de la medicin de las actitudes, Likert (1932) se pregunt si la construccin de escalas de medida mediante procedimientos ms sencillos dara resultados tan buenos como los obtenidos por Thurstone en cuanto a la fiabilidad y validez de las medidas, y si sera posible construir escalas evitando asumir supuestos estadsticos innecesarios. As pues, el objetivo principal de Likert (1932) fue desarrollar un mtodo de medicin de actitudes sencillo y simple. Brevemente, el mtodo de medicin de Likert consiste en la presentacin a los sujetos de una serie de tems o enunciados ante los que tienen que expresar su posicin escogiendo una alternativa

de respuesta entre las ofrecidas. Por ejemplo, imaginemos que uno de los tems que componen una escala de actitud hacia la pena de muerte dijera: La pena de muerte debe abolirse, y que las alternativas de respuesta ofrecidas para contestar el tem fueran: 1. Completamente en desacuerdo. 2. En desacuerdo. 3. Indeciso. 4. De acuerdo. 5. Completamente de acuerdo. Un sujeto que tuviera una actitud contraria a la pena de muerte contestara 4 o 5. Una vez que el sujeto a contestado todos los tems, la puntuacin del sujeto en el cuestionario se determina sumando o promediando los valores de las alternativas de respuesta escogidas ante cada tem (Likert, 1932). Por esta razn las escalas o cuestionarios construidos siguiendo este mtodo se denominan escalas sumativas. 2. SUPUESTOS. Likert no elabor un modelo matemtico que fundamentara su mtodo de escalamiento. No obstante, su mtodo implica una serie de supuesto que conviene conocer. Estos supuestos pueden calificarse de dbiles porque no son muy restrictivos ni difciles de asumir. El mtodo de Likert es un mtodo de escalamiento centrado en los sujetos (Torgerson, 1958). Su objetivo es medir sujetos, mostrar las diferencias individuales en relacin con una determinada actitud. Por ello, se asume que la variabilidad observada en las respuestas de los sujetos se debe a diferencias entre stos, esto es, a que tienen niveles de actitud diferentes. El mtodo de Likert no pretende medir o calibrar los tems. stos son considerados rplicas unos de otros, es decir, se supone que todos tiene el mismo valor de escala. Asimismo, se supone que cada tem presenta una relacin monotnica con la actitud subyacente que pretende medir. Esto quiere decir que cuanto ms favorable o positiva sea la actitud de un sujeto, mayor ser la puntuacin que obtendr en el tem, y cuanto ms desfavorable o negativa sea la actitud de un sujeto, menor ser la puntuacin que obtendr en el tem. Grficamente, esta relacin puede representarse de la siguiente forma: Figura 1. Relacin monotnica entre el tem y el continuo de la actitud. + Puntuaci n tem + ACTITUD

Por ltimo, al tratarse de un mtodo de escalamiento unidimensional, se supone que los tems miden una nica actitud subyacente. Este es el supuesto de unidimensionalidad.

3. CONSTRUCCION DE UNA ESCALA LIKERT. La construccin de una escala Likert para medir actitudes implica las siguientes tareas: 1. Elaborar una base o banco inicial de items. 2. Determinar cmo se puntuarn los tems y cmo se obtendrn las puntuaciones de los sujetos. 3. Anlisis y seleccin de tems. 4. Evaluacin de la fiabilidad y validez de la escala. 3.1. Elaboracin de una base o banco inicial de tems. La elaboracin de un instrumento de medida psicolgica comienza con la definicin de aqullo que queremos medir. A continuacin, hay que escribir un conjunto suficientemente amplio de tems o enunciados acerca de la actitud en cuestin. Este conjunto de tems configura el banco o base inicial de tems. Es importante que el nmero de tems sea, como se ha dicho, suficientemente amplio, pues hay que evitar que en el caso de que haya que eliminar algunos tems debido a su baja calidad, nos quedemos al final del proceso con una escala compuesta por pocos tems que no muestreen suficientemente la actitud a medir, y que no permita mostrar las diferencias individuales existentes. A la hora de elaborar tems es conveniente considerar los siguientes criterios (Likert, 1932): 1. Un criterio general es que los tems tienen que ser redactados de tal manera que dos personas con actitudes diferentes (por ejemplo, una con una actitud favorable y otra con una actitud desfavorable) lo contesten de manera diferente. Un tem que pueda ser respondido de igual forma por dos personas con actitudes diferentes es un tem inadecuado. 2. Los tems deben expresar comportamientos deseados o juicios de valor, no hechos. Dos personas con actitudes diferentes ante la pena de muerte seguramente estarn de acuerdo en lo que dice el siguiente enunciado: La pena de muerte acaba con la vida de las personas. Este enunciado es un enunciado de hecho, y no es til para discriminar entre dos personas con actitudes diferentes. En cambio, ante un enunciado valorativo como La pena de muerte es un crimen, dos personas con actitudes diferentes contestaran de manera distinta. Una persona a favor de la pena de muerte estara en desacuerdo con el enunciado; una persona en contra de la pena de muerte estara de acuerdo. 3. Los enunciados deben ser expresados de una manera clara, concisa y directa. Para lograr este objetivo, resulta til utilizar el vocabulario ms sencillo posible, de manera que las personas con un nivel cultural ms bajo pertenecientes al grupo al que va dirigido el cuestionario puedan entender los tems. La experiencia seala que es preciso evitar frases con dobles negaciones, incluso con una sola negacin. Los enunciados con doble sentido, y los compuestos por varias frases tambin deben evitarse, ya que pueden producir ambigedad o confusin en los sujetos. 4. A fin de evitar que los sujetos respondan de una manera estereotipada, Likert (1932) recomend que aproximadamente la mitad de los tems representaran manifestaciones de actitudes positivas o favorables, y la otra mitad de los tems constituyeran manifestaciones de actitudes negativas o desfavorables. Por ejemplo, imaginemos que estamos construyendo un cuestionario de actitudes hacia la escuela para adolescentes. Un tem favorable podra ser: La escuela es divertida. Un tem desfavorable podra ser: La escuela es un rollo. Obsrvese que si los sujetos utilizan una escala de respuesta de desacuerdo-acuerdo de cinco puntos como la presentada anteriormente, un sujeto con una actitud muy favorable hacia la escuela contestar los tems favorables con cincos, mientras que responder los tems desfavorables con unos. Lo contrario ocurrir en el caso de un sujeto con una actitud mus desfavorable hacia la escuela. As pues, si el cuestionario contiene tanto tems favorables como desfavorables, ningn sujeto debera responder a los tems con una respuesta estereotipada, como por ejemplo, contestar siempre 5. Completamente de acuerdo. Es imposible estar de acuerdo

con tems favorables a la escuela y con tems desfavorables. Si encontramos algn sujeto que ha contestado de esta manera estereotipada, seguramente lo habr hecho sin prestar atencin al contenido de los tems, y por ello, es conveniente eliminarlo de la base de datos.

3.2. Puntuacin de los tems y de los sujetos. Likert (1932) ensay diversas formas de puntuar los tems. La ms sencilla de todas ellas consista en asignar puntuaciones de 1 a 5 a cada una de las cinco alternativas de respuesta de desacuerdo-acuerdo presentadas anteriormente (1. Completamente en desacuerdo; 2. En desacuerdo; 3. Indeciso; 4. De acuerdo; 5. Completamente de acuerdo). Comprob que esta forma de puntuar los tems ofreca resultados muy similares a los obtenidos mediante otras tcnicas ms complejas y costosas (como por ejemplo, los valores sigma). Actualmente, esta forma de puntuar los tems tambin se conoce como puntuacin mediante nmeros enteros (Andrich & Schoubroeck, 1989). Las escalas de respuesta empleadas para puntuar los tems de una escala Likert pueden presentar un nmero diferente de alternativas de respuesta. Las escalas con cinco alternativas son muy frecuentes. Pero no es extrao encontrar escalas de respuestas con cuatro, seis y siete alternativas. Las escalas con nmeros pares omiten la categora de respuesta central, que suele ser Indeciso, Indiferente, No estoy seguro, o Ni de acuerdo ni en desacuerdo. Existe cierto debate sobre si la categora central debera incluirse o no. Algunos investigadores han recomendado el uso de la categora de respuesta central (Edwards, 1957; Newman, 1979; Sudman y Bradburn, 1989), argumentando que es preferible no forzar las respuestas de los sujetos indecisos hacia un polo (acuerdo o desacuerdo) que podra no describirles. Sin embargo, otros estudios han cuestionado el uso de las categoras centrales porque stas pueden atraer a las personas que las seleccionan por razones diferentes de cul es su posicin en la actitud medida (Bock y Jones, 1968; Worthy, 1969; Kaplan, 1972; Dubois y Burns, 1975). Investigaciones recientes sobre este tema han revelado que casi un 50% de los sujetos que responde mediante diferentes tipos de categoras de respuesta centrales lo hace por razones diferentes a la de estar en el punto medio de la dimensin medida (Espejo, 1998; Espejo y Gonzlez-Rom, 1999). Otros estudios han mostrado que incluso los sujetos con niveles medios en la dimensin medida, tiene una probabilidad muy pequea de contestar utilizando la categora central, y es ms probable que respondan utilizando otras categoras de respuesta adyacentes, como En desacuerdo o De acuerdo (Andrich, de Jong y Sheridan, 1997; Hernndez, Espejo, Gonzlez-Rom y Gmez-Benito, en prensa; Espejo y Gonzlez-Rom, 2001). As pues, en base a los ms recientes resultados de la investigacin sobre el tema, parece que la utilidad de la categora de respuesta central est seriamente cuestionada. Las escalas de respuesta con seis alternativas suelen ser muy similares a la siguiente: 1. Completamente en desacuerdo. 2. Bastante en desacuerdo. 3. Algo en desacuerdo. 4. Algo de acuerdo. 5. Bastante de acuerdo. 6. Completamente de acuerdo.

Las escalas de respuesta que presentan siete alternativas incluyen en la escala anterior una categora de respuesta central a la que se le asigna la puntuacin de 4. Todas las escalas de respuesta que se utilizan en las escalas Likert son politmicas, pues presentan ms de dos alternativas de respuesta. Adems, son escalas de respuesta ordenadas o graduadas, ya que la asignacin de los nmeros enteros a las distintas respuestas constituye una escala ordinal. A partir de las puntuaciones obtenidas por distintos sujetos en un mismo tem, podemos hacer inferencias acerca de quines tienen una actitud ms o menos favorable, pero no podemos determinar cul es la distancia entre sujetos que responden con alternativas diferentes. Una vez se ha determinado cmo se puntuar cada tem, pero antes de calcular la puntuacin de cada sujeto en el cuestionario, hay que detectar los tems invertidos y transformar la puntuacin obtenida en ellos de manera que tenga el mismo significado que la puntuacin obtenida en el resto de tems. Como sealamos anteriormente, Likert (1932) recomend que aproximadamente la mitad de los tems representaran manifestaciones de actitudes positivas o favorables, y la otra mitad de los tems constituyeran manifestaciones de actitudes negativas o desfavorables. Si se sigue este criterio, nos encontraremos con que no todos los tems estn redactados en el mismo sentido, y esto tiene importantes repercusiones en el significado de las puntuaciones de los tems. Volvamos a nuestro ejemplo del cuestionario de actitudes hacia la escuela. Una puntuacin de 5 (Completamente de acuerdo) a un tem favorable (La escuela es divertida), no tiene el mismo significado que una puntuacin de 5 a un tem desfavorable (La escuela es un rollo). En el primer caso la puntuacin denota una actitud favorable, mientras que en el segundo indica una actitud desfavorable. Por ello, estas puntuaciones no pueden sumarse para obtener una puntuacin de los sujetos. Previamente, es preciso que todas las puntuaciones en los tems estn en la misma direccin. Para ello se procede a transformar las puntuaciones de los tems que no estn redactados en el sentido que ms interesa. Por ejemplo, si interesa obtener una puntuacin que indique el grado de actitud hacia la escuela de manera que a mayor puntuacin se pueda inferir una actitud ms favorable, entonces habr que transformar los tems que denotan una actitud desfavorable. Antes de la transformacin, estos tems suelen denominarse tems invertidos. Cuando se trabaja con una base de datos grande, la transformacin de los tems invertidos puede realizarse fcilmente con la ayuda de un programa estadstico de anlisis de datos, o incluso con una hoja de clculo, implementando una frmula de transformacin. Si la escala de respuesta empleada presenta como valor ms pequeo el 1 (que es lo ms frecuente), entonces la frmula de transformacin es: Pi = (Pm+1) - Po donde: Pi : puntuacin transformada en el tem invertido lista para calcular la puntuacin total en el cuestionario; Pm : puntuacin mxima que puede darse al tem; Po : puntuacin original obtenida en el tem invertido. Si la escala de respuesta utilizada para contestar los tems presenta como valor ms pequeo el cero, entonces la frmula de transformacin es: Pi = Pm - Po Por ejemplo, supongamos que un sujeto ha contestado cuatro tems del cuestionario de actitudes hacia la escuela utilizando una escala de respuesta de 6 puntos como la presentada en este mismo apartado. Imaginemos que sus puntuaciones en los tems son las siguientes: Items Puntuacin (Po) 1. La escuela es divertida.......................................................5

2. En la escuela aprendo cosas tiles.....................................6 3. La escuela es un rollo.........................................................2 4. En la escuela pierdo el tiempo...........................................1 Los tems 1 y 2 manifiestan una actitud favorable, mientras que los tems 3 y 4 denotan una actitud desfavorable. Procedamos ahora a transformar los tems 3 y 4 aplicando la frmula correspondiente. Como la escala de respuesta oscila entre 1 y 6, aplicaremos la frmula Pi = (Pm+1) - Po. Items Puntuacin (Po) Puntuacin transformada (Pi) 3. La escuela es un rollo.....................................2......................................(6+1)-2 = 5 4. En la escuela pierdo el tiempo........................1......................................(6+1)-1 = 6 Ahora que ya hemos transformado las puntuaciones obtenidas en los tems invertidos, podemos calcular la puntuacin total de cada sujeto en el cuestionario. Como se indic al comienzo de este tema, la puntuacin total de un sujeto en el cuestionario se determina sumando o promediando los valores de las alternativas de respuesta escogidas ante cada tem (Likert, 1932), razn por la que las escalas o cuestionarios construidos siguiendo este mtodo se denominan escalas sumativas. En el ejemplo anterior, la puntuacin total del sujeto sera: Items Puntuacin 1. La escuela es divertida.......................................................5 2. En la escuela aprendo cosas tiles.....................................6 3. La escuela es un rollo.........................................................5 4. En la escuela pierdo el tiempo...........................................6 Puntuacin total (suma).........................................................22 3. 3. Anlisis y seleccin de tems. Una vez que ya se ha elaborado un banco inicial de tems, y se ha aclarado cmo se puntuar cada uno de ellos y cmo se obtendr la puntuacin de cada sujetos, se inicia la fase de anlisis cuantitativo de los tems. El banco de tems ha de aplicarse a una muestra que sea representativa de la poblacin a la cual va dirigida el test. Esta muestra proporcionar los datos que utilizaremos para realizar el anlisis cuantitativo de los tems. Likert propuso dos tipos de anlisis: 1. un anlisis correlacional de los tems, y 2. un anlisis basado en el criterio de consistencia interna (Likert, 1932; McIver y Carmines, 1981). 3.3.1. Anlisis correlacional de los tems. El anlisis correlacional consiste en calcular la correlacin entre cada tem y la puntuacin total en el cuestionario o test (es decir, la suma de todos los tems). Esta correlacin es conocida en el marco de la Teora Clsica de los Tests como ndice de homogeneidad (IH). Si el tem analizado mide lo mismo que el resto de tems, el ndice de homogeneidad ser elevado, de manera que los sujetos que puntan alto en el tem, tambin tendern a puntuar alto en el cuestionario, y los sujetos que puntan bajo en el tem, tendern a puntuar bajo en el cuestionario. Si el ndice de homogeneidad es bajo o cercano a cero, entonces el tem analizado no mide lo que mide el resto de tems. Likert denomin a los tems con un ndice de homogeneidad bajo como tems indiferenciadores (Likert, 1932). Los tems indiferenciadores aportan escasa o ninguna informacin til sobre la actitud que se est midiendo, por ello no tiene sentido combinarlos con el resto de tems para obtener una puntuacin total (McIver y Carmines, 1981). Adems, como demuestra la Teora Clsica de los Tests,

su uso puede perjudicar a la fiabilidad y a la validez del test. Por todo ello, los tems indiferenciadores deben eliminarse. El clculo del ndice de homogeneidad como la correlacin entre la puntuacin en el tem y la puntuacin en el test (en adelante, correlacin tem-test) tiene el siguiente inconveniente: la puntuacin total en el test incluye al tem como componente, es decir, el tem analizado aparece en las dos variables que se correlacionan, y esto aumentar artificialmente el coeficiente de correlacin que se obtenga. Para evitar este efecto, lo que se hace es calcular la correlacin entre el tem y el test una vez que se ha eliminado de este ltimo la contribucin del tem. Esta correlacin recibe el nombre de ndice de homogeneidad corregido(IHc), y se indica mediante la expresin ri(T-i) . La frmula para calcular el ndice de homogeneidad corregido es (Peters y Van Vorhis, 1940): riT S T S i
2 T

ri ( T i ) =

(S

+ S i2 2 riT S T S i

donde, riT es la correlacin tem-test, Si es la desviacin tpica que muestran las puntuaciones en el tem, y ST es la desviacin tpica que presentan las puntuaciones en test. Para interpretar el ndice de homogeneidad corregido suele tomarse como valor de referencia 0.20. De manera que todos los tems que presentan ri(T-i) con valores inferiores a 0.20 son eliminados del banco de tems por ser indiferenciadores. Ejemplo de clculo. Supongamos que 16 sujetos han contestado a los cuatro tems del cuestionario de actitudes hacia la escuela que utilizamos anteriormente. Despus de transformar los tems invertidos, se han calculado las puntuaciones en el test. Las puntuaciones en los tems despus de realizar las transformaciones y en el test aparecen en la tabla que se muestra a continuacin. Vamos a ilustrar cmo calcularamos el ndice de homogeneidad corregido (IHc) del tem 1.
SUJETOS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 ITEM1 4 2 5 3 5 2 5 4 2 3 2 4 2 4 1 4 ITEM2 5 2 6 2 6 1 3 5 1 2 3 5 3 5 2 5 ITEM3 5 1 4 3 4 1 2 5 1 1 1 6 1 4 1 6 ITEM4 4 2 5 3 5 1 5 5 2 1 2 4 1 6 2 5 TEST 18 7 20 11 20 5 15 19 6 7 8 19 7 19 6 20

La frmula de clculo del IHc implica la obtencin del IH y de las desviaciones tpicas del test y del tem. Recordemos que las frmulas para calcular el coeficiente de correlacin de Pearson y la desviacin tpica son:

rxy =

z
i=1

xI

z yI

Sx =

(X
n i =1

donde n es el tamao de la muestra, y z denota puntuaciones tpicas.

En la tabla siguiente, se muestran los estadsticos necesarios para calcular IH. Tan slo hay que recordar que en nuestro caso la variable X es el tem 1, y la variable Y la puntuacin en el test. As pues, vemos que ztem1 ztest = 13.47, es decir, ya tenemos el valor del sumatorio del producto cruzado de las puntuaciones tpicas, que es el numerador de la frmula del coeficiente de correlacin.
SUJETOS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 SUMA MEDIA D.T. ITEM1 4 2 5 3 5 2 5 4 2 3 2 4 2 4 1 4 3,25 1,29 ITEM2 5 2 6 2 6 1 3 5 1 2 3 5 3 5 2 5 3,50 1,75 ITEM3 5 1 4 3 4 1 2 5 1 1 1 6 1 4 1 6 2,88 1,96 ITEM4 4 2 5 3 5 1 5 5 2 1 2 4 1 6 2 5 3,31 1,74 TEST 18 7 20 11 20 5 15 19 6 7 8 19 7 19 6 20 12,94 6,23 ZITEM1 0,58 -0,97 1,36 -0,19 1,36 -0,97 1,36 0,58 -0,97 -0,19 -0,97 0,58 -0,97 0,58 -1,74 0,58 ZTEST 0,81 -0,95 1,13 -0,31 1,13 -1,27 0,33 0,97 -1,11 -0,95 -0,79 0,97 -0,95 0,97 -1,11 1,13 ZITEM1 X ZTEST 0,47 0,92 1,54 0,06 1,54 1,23 0,45 0,57 1,08 0,18 0,77 0,57 0,92 0,57 1,94 0,66 13,47

Luego, el valor del IH ser: IH = rit =

tem 1

z test

13.47 = 0.84 16

Ahora ya podemos calcular el ndice de homogeneidad corregido (IHc): ri ( T i ) =

(S

riT S T S i
2 T

+ S i2 2 riT S T S i

(6.23

0.84 6.23 1.29


2

+ 1.29 2 2 0.84 6.23 1.29

= 0.76

El resultado obtenido indica que el tem est muy relacionado con el resto de tems que componen el test, debido a que miden la misma actitud. Como caba esperar, el IHc es menor que el IH, y la diferencia es apreciable debido a la pequea longitud del test: tan slo 4 tems. En este caso un 25% del test (es decir, 1 tem de 4) es parte de las dos variables que correlacionamos cuando calculamos el IH. Este porcentaje se reduce a medida que aumenta la longitud del test (cuando la longitud del test es 5, el porcentaje es del 20%; cuando 6, el 17%; cuando 7, el 14%, ...). Por ello, cuanto mayor sea la longitud del test menor ser la diferencia entre el IH y el IHc. Cuando trabajamos con tests muy largos la diferencia es muy pequea.

3.3.2. Anlisis basado en el criterio de consistencia interna.

10

Cuando Likert (1932) desarroll su mtodo de escalamiento, los investigadores no disponan de ordenadores para realizar los clculos implicados en los anlisis cuantitativos de los tems. Calcular los ndices de homogeneidad de un test aplicado a una muestra grande conllevaba mucho tiempo y resultaba costoso. Para ahorrar esfuerzos y tiempo, Likert desarroll un segundo tipo de anlisis basado en el criterio de consistencia interna. Este anlisis consiste en comparar las puntuaciones en el tem del grupo que tiene las puntuaciones ms altas en el test (y que por lo tanto, tiene una actitud favorable), con las puntuaciones en el tem del grupo que tiene las puntuaciones ms bajas en el test (y que, por consiguiente, tiene una actitud desfavorable). En principio, cabe esperar que dos grupos con actitudes diferentes tengan puntuaciones medias diferentes en el tem analizado. Si esto no ocurre se debe a que el tem no es un buen indicador de la actitud medida, y se trata de un tem indiferenciador. Si los dos grupos obtienen puntuaciones medias en el tem diferentes, entonces puede afirmarse que el tem discrimina entre los grupos, y, por lo tanto, es un buen indicador de la actitud medida. Los dos grupos a comparar suelen estar compuestos por el 25% de los sujetos con puntuaciones ms altas y ms bajas en el test; no obstante, Likert (1932) tambin utiliz otros porcentajes, como el 10%. Inicialmente, este criterio se basaba simplemente en el clculo de la diferencia entre las medias de los dos grupos en el tem. Sin embargo, esta diferencia no tena en cuenta que los dos grupos podan presentar variabilidades distintas en el tem. Para evitar esta deficiencia, ms tarde se comenz a usar una prueba t para evaluar la diferencia entre las medias considerando la variabilidad del tem en los dos grupos. El estadstico t sigue una distribucin t de Student con (nA + nB 2) grados de libertad donde n es el tamao del grupo, y los subndices A y B denotan los grupos extremos alto y bajo, respectivamente-, y se calcula mediante la frmula:
t = XA XB

(n A

2 1) S 2 + ( n B 1) S B A

n A +nB 2

1 1 + n A nB

donde el numerador es la diferencia entre las medias en el tem de los dos grupos, y S2 indica la varianza en el tem del grupo correspondiente.

11

Ejemplo de clculo. Vamos a aplicar este tipo de anlisis basado en el criterio de consistencia interna a los datos que utilizamos anteriormente. Como en el caso anterior, el anlisis se centrar en el tem 1. En la siguiente tabla aparecen las puntuaciones de los 16 sujetos, pero stos han sido ordenados de manera decreciente en funcin de su puntuacin en el test. Los sujetos que configuran los dos grupos con puntuaciones extremas en el test estn marcados en negrita.
SUJETOS 3 5 16 8 12 14 1 7 4 11 2 10 13 9 15 6 MEDIA A MEDIA B D. T. A D. T. B ITEM1 5 5 4 4 4 4 4 5 3 2 2 3 2 2 1 2 4,5 1,75 0,5 0,43 ITEM2 6 6 5 5 5 5 5 3 2 3 2 2 3 1 2 1 ITEM3 4 4 6 5 6 4 5 2 3 1 1 1 1 1 1 1 ITEM4 5 5 5 5 4 6 4 5 3 2 2 1 1 2 2 1 TEST 20 20 20 19 19 19 18 15 11 8 7 7 7 6 6 5

Si el tem discrimina entre los dos grupos, entonces observaremos que: X A > XB Las hiptesis estadsticas implicadas en esta prueba de diferencias entre medias son:

H0 : A B H1 : A > B
Conociendo las medias y las desviaciones tpicas que los dos grupos presentan en el tem 1, vamos a calcular el estadstico t1.

t=

XA XB

( n A 1) S 2 + ( n B 1) S 2 A B
nA + nB 2

1 1 + n nB A

4.5 1.75

( 4 1) 0.5 2 + ( 4 1) 0.432 1 + 1
4+ 4 2 4 4

= 8.34

El ejemplo que se presenta pretende ayudar al lector a aplicar esta prueba en el anlisis de tems. En la prctica, y trabajando con muestras ms grandes, es necesario verificar hasta qu punto se cumplen los supuestos de la prueba.

12

Si asumimos un nivel de significacin =0.05, en la tabla de distribucin de probabilidad t de Student, observamos que el valor de t para 1- = 0.95 y 6 grados de libertad es: 0.95 t 6 = 1.943. Como el valor emprico obtenido para el estadstico t (11.75) es mucho mayor que el valor obtenido en las tablas para un =0.05, podemos afirmar que la probabilidad de obtener una diferencia entre las medias como la observada, bajo el supuesto de que H0 sea cierta, es muy pequea. Por ello, dudamos de H0, la rechazamos, y aceptamos H1. En nuestro caso, esto significa que el tem s que discrimina entre los dos grupos. Ya sealamos anteriormente que el anlisis basado en el criterio de consistencia interna estuvo motivado por el elevado coste en tiempo y esfuerzo que supona el clculo de correlaciones cuando Likert desarroll su mtodo. Hoy en da, gracias al uso de los ordenadores y programas estadsticos, este argumento carece de sentido. En la prctica, es el anlisis correlacional basado en el clculo de IHc el que se desarrolla. Likert (1932) estudi la relacin entre los resultados producidos por los dos mtodos de anlisis. Orden un conjunto de tems en funcin de su IH, y los orden tambin en funcin de la diferencia que los dos grupos extremos mostraban en cada tem. La relacin entre los dos rdenes fue estimada mediante el coeficiente de correlacin rho, que present un valor de 0.91. Este resultado indica un grado de relacin muy alto entre los dos rdenes obtenidos, lo cual sugiere que los dos mtodos de anlisis tienden a producir resultados similares. Esto no es de extraar, ya que si un tem presenta un elevado IH, los sujetos que puntan alto en el tem tendern a puntuar alto en el test, y los sujetos que puntan bajo en el tem tendern a puntuar bajo en el test. Y viceversa: el grupo con puntuaciones altas en el test tender a mostrar puntuaciones altas en el tem, y el grupo con puntuaciones altas en el test tender a mostrar puntuaciones altas en el tem. Sin embargo, hay que tener en cuenta que Likert correlacion rdenes de clasificacin (esto es, rankings), y que los rdenes no informan acerca de si un determinado criterio de anlisis es superado o no (por ejemplo: IHc 0.20). Por ello, aunque los resultados de ambos tipos de anlisis estn relacionados, pueden no conducir necesariamente a la misma conclusin (McIver y Carmines, 1981). As pues, cuando se han aplicado los dos tipos de anlisis es conveniente eliminar los tems que tengan IHc bajos y los que no discriminen entre los grupos con puntuaciones extremas en el test. Estos tems son los tems indiferenciadores. Likert (1932) seal algunas de las razones por las que un tem puede resultar indiferenciador: a. Puede medir una actitud diferente a la que miden el resto de tems. b. Puede ser respondido por casi todos los sujetos de la misma forma. c. Puede estar redactado de manera que no sea entendido correctamente. d. Puede tratarse de un enunciado de hecho. 3.4. Evaluacin de la fiabilidad y validez de la escala. Una vez se ha seleccionado un conjunto de tems, hay que evaluar las propiedades psicomtricas del test o cuestionario que forman considerado como un todo. Las dos propiedades psicomtricas ms importantes son la fiabilidad, y la validez2. Para que un test sea un instrumento de medida til hay que demostrar su fiabilidad y su validez. Brevemente, sealaremos que la fiabilidad hace referencia al grado de precisin que ofrecen las medidas obtenidas mediante un test. Supone tambin un intento por cuantificar el grado de error que afecta a esas medidas. Un mtodo bastante extendido para estimar la fiabilidad de un test consiste en calcular el coeficiente alfa de Cronbach, cuya frmula es la siguiente:
2

Estas dos propiedades sern objeto de un estudio ms detenido en el bloque de temas dedicado a la Teora de los Tests.

13
n S i2 n = 1 i=1 2 n 1 Sx

donde n es la longitud del test (es decir, el nmero de tems que lo componen), S2i es la varianza del tem i, y S2x es la varianza que muestran las puntuaciones totales en el test. Un criterio bastante extendido para interpretar el coeficiente alfa es que ste ha de ser igual o superior a 0.70 (Nunnally, 1978), entonces puede afirmarse que el test tiene una fiabilidad suficiente. Ejemplo de clculo. Con los datos del ejemplo que estamos utilizando, vamos a calcular el coeficiente alfa del cuestionario de actitudes hacia la escuela. En la primera tabla que hemos mostrado, aparecen las desviaciones tpicas de cada uno de los cuatro tems y de las puntuaciones totales en el test. Con esta informacin ya podemos aplicar la frmula del coeficiente alfa de Cronbach:
n S i2 n = 1 i=1 2 n 1 Sx

2 2 2 2 = 4 1 1.29 + 1.75 + 1.96 + 1.74 3 6.23 2

= 0.93

El resultado obtenido indica que el cuestionario es fiable. La validez de un test hace referencia al grado en el que un test mide lo que pretende medir. El estudio de la validez de un test se desarrolla a partir de la verificacin de las hiptesis de validacin. Una hiptesis de validacin hace referencia a las relaciones que presentar el test objeto de estudio con otras variables, bajo el supuesto de que mide lo que pretenda medir. Por ejemplo, en el caso del cuestionario de actitudes hacia la escuela una hiptesis de validacin podra ser la siguiente: Se espera que las puntuaciones totales en el test presenten una correlacin positiva con el rendimiento acadmico, de manera que a mayor puntuacin en el test se observe un mayor rendimiento acadmico. Las hiptesis de validacin se fundamentan en teoras contrastadas y/o en resultados empricos previos. La hiptesis de validacin indica cul es el mtodo estadstico que se utilizar para su verificacin. En el caso anterior, la hiptesis alude a la relacin entre dos variables cuantitativas, por lo tanto, su verificacin se realizara calculando el coeficiente de correlacin entre las variables. Las hiptesis de validacin pueden tomar diversas formas, y por lo tanto, pueden ser diversos los mtodos estadsticos implicados en su verificacin. Para ilustrar este punto, veamos otro ejemplo. Supongamos que se ha elaborado un cuestionario de actitud hacia el aborto. Si el test mide la actitud que pretende medir, las puntuaciones en el test de dos grupos de sujetos que mantienen actitudes extremas y opuestas, deberan ser diferentes. Por lo tanto, en el proceso de validacin del test se ha elaborado la siguiente hiptesis de validacin: La puntuacin media en el test de un grupo de mujeres pertenecientes a asociaciones feministas ser mayor que la puntuacin media de un grupo de mujeres pertenecientes a asociaciones catlicas. En este caso, la hiptesis de validacin implica la comparacin de dos medias, comparacin que se puede realizar mediante la prueba t correspondiente. Obsrvese que a diferencia de lo que ocurra cuando se usaba el criterio de consistencia interna para analizar los tems, aqu se definen los dos grupos con actitudes opuestas y extremas en base a un factor externo al test: su pertenencia a asociaciones que mantienen posturas contrarias respecto al aborto.

14

El proceso de validacin de un test es un proceso continuo, en el que se van acumulando evidencias acerca de su validez. Slo cuando se ha acumulado un nmero suficientemente amplio de evidencias es posible establecer de manera fundada una serie de conclusiones acerca de la validez. 4. INTERPRETACIN DE LAS PUNTUACIONES. Las puntuaciones obtenidas en una escala Likert no tienen una interpretacin directa. Sabemos que un sujeto que obtuviera una puntuacin de 24 (puntuacin mxima) en el cuestionario de actitudes hacia la escuela del ejemplo tendra una actitud muy favorable, y que un sujeto que obtuviera una puntuacin de 4 (puntuacin mnima) presentara una mus desfavorable. Pero, qu podemos decir de un sujeto que obtiene una puntuacin de 14? El mtodo de Likert no permite medir los tems, es decir, no ofrece estimaciones del grado de actitud que hay que tener para estar de acuerdo con un tem. Por lo tanto, no es posible ofrecer una interpretacin absoluta de la puntuacin de un sujeto (McIver y Carmines, 1981). Si supiramos que un sujeto respalda los tems que requieren un alto grado de actitud favorable para dar una respuesta de acuerdo, entonces podramos inferir que ese sujeto tiene un nivel de actitud muy favorable. Por todo ello, para poder interpretar las puntuaciones obtenidas en una escala Likert es necesario referirlas a las puntuaciones obtenidas por el grupo de referencia al que pertenece el sujeto. Una forma de hacerlo es calcular la diferencia entre las puntuaciones de los sujetos (Xi) y la media del grupo (es decir, calcular las puntuaciones diferenciales). Adems, podemos medir esas diferencias utilizando como unidad de medida la desviacin tpica de las puntuaciones en el cuestionario en ese grupo. Para ello dividiremos las diferencias por la desviacin tpica, lo cual no es ms que transformar las puntuaciones directas en el test (Xi) en puntuaciones tpicas (zi): Xi X Sx

zi =

Las puntuaciones tpicas nos indican cuntas desviaciones tpicas se aleja la puntuacin del sujeto de la media de su grupo, y en qu sentido. Por ejemplo, si un sujeto presenta una zi = -0.5, entonces podemos decir que se trata de un sujeto que est media desviacin tpica por debajo de la media del grupo. Si las puntuaciones en el test siguen una distribucin aproximadamente normal, entonces, con ayuda de las tablas de la distribucin normal, podemos transformar esa puntuacin tpica en el porcentaje de sujetos que quedan por debajo (o por encima) de esa puntuacin. El valor de probabilidad (funcin de distribucin) asociado a zi = -0.5 es 0.3085. Ahora podemos decir que el sujeto que ha obtenido una zi = -0.5 supera aproximadamente al 31% de los sujetos de su grupo. Si las puntuaciones en el test no siguen una distribucin aproximadamente normal no debe realizarse esta ltima transformacin. Entonces podemos calcular el centil que corresponde a cada puntuacin en el test. De esta manera sabremos cul es el porcentaje de sujetos que queda por debajo de cada puntuacin en el test.

5. VALORACIN. Una de las crticas que suele hacerse del mtodo de escalamiento de Likert es que no est basado en un modelo matemtico determinado. Esta es una diferencia importante con los mtodos desarrollados por Thurstone, que bas sus mtodos en una serie de supuestos formales y unas leyes (por ejemplo, la Ley del Juicio Comparativo). En todo caso, el mtodo de Likert puede emnarcarse dentro del mbito ms general de la Teora Clsica de los Tests.

15

Otra crtica se refiere al uso del coeficiente de correlacin tem-test (ndice de homogeneidad) como base para realizar el anlisis correlacional de los tems. Ya hemos sealado que para evitar aumentar artificialmente esa correlacin es necesario utilizar el ndice de homogeneidad corregido. La verificacin de la unidimensionalidad del test tambin presenta ciertas deficiencias. Likert (1932) supona que una vez se hubiera eliminado todos los tems indiferenciadores, los tems restantes mediran una misma dimensin subyacente o actitud. Sin embargo, esto no tiene que ser necesariamente as. Si un test mide dos actitudes diferentes pero relacionadas, los IHc sern probablemente elevados, y llevarn a la conclusin errnea de que los tems miden una nica actitud. El clculo de los IHc no es una buena base para evaluar la unidimensionalidad del test. En su lugar hay que utilizar mtodos ms apropiados como el anlisis factorial. Recordemos que Likert pretenda desarrollar un mtodo sencillo para medir las actitudes que ofreciera resultados similares al mtodo ms costoso de los intervalos aparentemente iguales desarrollado por Thurstone. Likert (1932) observ que la fiabilidad de los cuestionarios producidos por los dos mtodos era muy similar, y que la correlacin entre las puntuaciones obtenidas por los dos mtodos era muy elevada. Estos resultados muestran que Likert consigui su objetivo. Quizs lo que no previ Likert es que su mtodo tuviera tanto xito. Su relativa sencillez, en comparacin a otros mtodos ms modernos, es la responsable de que actualmente sea todava el mtodo ms utilizado para medir actitudes, dimensiones de la personalidad, y otros constructos psicolgicos.

BIBLIOGRAFIA. Arce, C. (1994). Construccin de escalas psicolgicas. Madrid: Sntesis. Garca Cueto, E. (1993). Introduccin a la psicometra. Madrid: Siglo XXI. Meli, J. L. (1991). Mtodos de escalamiento unidimensional. Valencia: Cristbal Serrano Villalba. Sancerni, M. D.; Meli, J. L.; Gonzlez Rom, V. y Daz, J. V. (1992). Psicometra: Problemas y Prcticas. Valencia: Cristbal Serrano Villalba. Wainerman, CH (1976) Escalas de medicin en Ciencias Sociales. Buenos Aires: Nueva Visin.

16

Referencias bibliogrficas. Andrich, D. & Schoubroeck, L. (1989). The General Health Questionnaire: a psychometric analysis using latent trait theory. Psychological Medicine, 19, 469-485. Andrich, D.; Jong, J. y Sheridan, B. E. (1997). Diagnostic opportunities with the Rasch model for ordered response categories. En J. Rost y R. Langeheine (Eds.), Applications of latent trait and latent class models in the social sciences (pp. 58-68). Mnster, Germany: Waxman Verlag. Bock, R. y Jones, L. V. (1968). The measurement and prediction of judgement and choice. San Francisco: Holden Day. Dubois, B. y Burns, J. A. (1975). An analysis of the meaning of the question mark response category in attitude scales. Educational and Psychological Measurement, 35, 869-884. Edwards, A. L. (1957). Techniques of attitude scale construction. New York: Appleton-Century-Crofts. Espejo, B. y Gonzlez-Rom, V. (1999). El significado de las categoras centrales en las escalas tipo Likert. Trabajo presentado al VI Congreso de Metodologa de las CC. Sociales y de la Salud. Oviedo, Espaa. Espejo, B. y Gonzlez-Rom, V. (2001). Orden y relevancia de las alternativas de respuesta "no estoy seguro", "trmino medio" y "?". Trabajo presentado al VII Congreso de Metodologa de las CC. Sociales y de la Salud. Madrid, Espaa. Hernndez, A.; Espejo, B.; Gonzlez-Rom, V. y Gmez-Benito, J. (en prensa). Escalas de respuesta tipo Likert: es relevante la alternativa indiferente?. Metodologa de Encuestas Kaplan, K. J. (1972). On the ambivalence-indifference problem in attitude theory: A suggested modification of the semantic differential technique. Psychological Bulletin, 77, 361-372. Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140, 1-50. (Traduccin al castellano en C. H. Wainerman (Comp.) (1976), Escalas de medicin en ciencias sociales, pp-199-260. Buenos Aires: Nueva visin. McIver, J. P. y Carmines, E. G. (1981). Unidimensional scaling. Beverly Hills, CA: Sage. Neumann, L. (1979). Effects of categorization on relationships in bivariate distributions and applications to rating scales. Dissertation Abstracts International, 40, 2262-B Nunnally, J. C. (1978). Psychometric theory. New York: McGraw-Hill. Peters, C. C. y Van Vorhis, W. R. (1940). Statistical procedures and their mathematical bases. New York: McGraw-Hill. Sudman, S. y Bradburn, N. M. (1989). Measuring attitudes: recording responses. En Sudman, S. y Bradburn, N. M. (Eds.). Asking questions: a practical guide to questionnaire design. San Francisco: Jossey-Bass Publishers. Worthy, M. (1969). Note on scoring midpoint responses in extreme response style scores. Psychological Reports, 24, 189-190.

17