Vous êtes sur la page 1sur 7

UNIDAD DIDCTICA 7

ANLISIS DE TEMS Y BAREMACIN DE UN TEST

7.1. ANLISIS DE LOS TEMS


Al comenzar la asignatura ya plantebamos que uno de los principales problemas a los que nos
enfrentbamos a la hora de medir las variables psicosociales o psico-educativas era la
imposibilidad de hacerlo de una forma directa. Ello es debido a que podra decirse que casi
todas ellas tienen un origen claramente terico e inobservable; es decir, son constructos
complejos que slo son accesibles de forma indirecta a partir de las respuestas de los sujetos a
los elementos o tems que componen los tests.
En este sentido, y una vez definido de forma operativa el constructo que desebamos medir, la
primera tarea que debamos llevar a cabo para construir el correspondiente test psicomtrico que
nos permitiera medirlo era la redaccin de dichos tems y su posterior seleccin tanto subjetiva
como objetiva. Slo el anlisis objetivo de los tems nos permitir conocer realmente el grado
en que cada uno de ellos es un buen medidor del rasgo de nuestro inters y eso podremos
comprobarlo estadsticamente de manera sencilla si obtenemos tres indicadores para cada uno
de los tems incluidos en nuestro test (desde la TCT como modelo matemtico de partida,
claro):
1. El ndice de dificultad del tem
2. El ndice de homogeneidad del tem
3. El ndice de validez del tem
7.1.1. El ndice de dificultad del tem (ID)
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestin, por lo
que slo tiene sentido calcularlo para tems de tests de rendimiento ptimo (con respuestas
correctas e incorrectas).
La dificultad de un tem viene dada por la proporcin de sujetos de una determinada
muestra que aciertan dicho tem, proporcin que se expresa mediante el llamado ndice
de dificultad que no es ms que el cociente entre el nmero de sujetos que han acertado el
tem entre el nmero total de sujetos que lo han contestado:
I.D. = n de aciertos / n de sujetos que contestaron
Es evidente que dicho cociente slo puede tomar valores entre 0 y 1, de tal manera que
cuanto ms cerca de 1 est el ndice de dificultad de un tem, ms fcil ser ese tem
mientras que cunto ms se aproxime a 0, ms difcil ser.
Ejemplo: La siguiente tabla recoge las respuestas de una muestra de 5 personas a un test
formado por 5 tems a los que se ha puntuado con un 1 al acertar y con un 0 al errar:

Sujeto 1
Sujeto 2
Sujeto 3
Sujeto 4
Sujeto 5

tem 1
0
0
0
0
0

tem 2
0
1
0
0
1

tem 3
0
1
0
0

tem 4
1
0
1

tem 5
1
0
1
-

Unidad Didctica 7 - 1

ID (tem 1) = 0/5 = 0;
ID (tem 2) = 2/5 = 0.4;
ID (tem 4) = 2/3 = 0.67; ID (tem 5) = 2/3 = 0.67

ID (tem 3) = = 0.25;

Segn esto, el tem ms difcil sera el n 1 seguido por el n 3, el n 2 y, los ms sencillos


han resultado ser el n 4 y el n 5.
Pero adems, el I.D. puede utilizarse tambin para ofrecer una idea aproximada del poder
discriminativo de un tem. Si la dificultad de un tem es nula (es decir, I.D.=1), querr
decir que esa cuestin es demasiado fcil y todos los sujetos la acertarn
independientemente de su nivel de conocimiento; es decir, ese tem no sirve para distinguir
(discriminar) a los sujetos que saben de los que no saben por lo que no puede
considerarse como un buen elemento evaluador. Exactamente lo mismo ocurrir con un
tem que tenga un ndice de dificultad de 0, es decir, tan difcil que no lo acierte ningn
sujeto de la muestra.
As pues, los tems idneos para incluir en una prueba de rendimiento ptimo sern
aquellos que tengan un I.D. prximo a 0.5 (dificultad media y discriminacin alta), siendo
adems aconsejable incluir siempre algn tem ms fcil (colocados al principio por
razones obvias de motivacin) y alguno ms difcil (al final del cuestionario) para
garantizar el poder discriminativo general del test.
7.1.2. El ndice de homogeneidad del tem (IH)
El ndice de homogeneidad de un tem nos informa del grado en que dicho tem est
midiendo lo mismo que la globalidad del test; es decir, del grado en que es consistente,
homogneo con el total de la prueba.
Dicho IH se define como la correlacin existente entre las puntuaciones obtenidas por
los sujetos en un determinado tem y la puntuacin total de esos mismos sujetos en el
test completo.
Ejemplo: Aplicamos un test de tres tems a una muestra de 5 sujetos obteniendo las
siguientes puntuaciones:

Sujeto 1
Sujeto 2
Sujeto 3
Sujeto 4
Sujeto 5
IH (tem 1) = r1X = 0.75;

tem 1
2
3
5
0
4

tem 2
3
1
4
1
3

IH (tem 2) = r2X = 0.94;

tem 3
5
0
5
0
0

Total (X)
10
4
14
1
7

IH (tem 3) = r3X = 0.86

Dado que el ndice de homogeneidad de un tem es un indicador del grado en que ese tem
mide lo mismo que la prueba completa, es coherente con el total de la prueba, habr que
eliminarlo si su I.H. est muy prximo a 0 ya que esto indicar que tem y prueba completa
tienen muy poca relacin entre s; es decir, miden cosas completamente diferentes. Por el
contrario, los tems cuya correlacin con la puntuacin total sea cercana a 1 sern muy
homogneos, muy consistentes entre s y medirn todos lo mismo (como en el caso de los
tres tems utilizados en el ejemplo).
7.1.3. El ndice de validez del tem (IV)
Pretende expresar el grado en que un tem es capaz de predecir (pronosticar) el rendimiento
de un sujeto medido a travs de una variable externa elegida como indicadora del mismo;
Unidad Didctica 7 - 2

por lo tanto, el ndice de validez se calcular mediante la correlacin entre las


puntuaciones de un grupo de sujetos en ese tem y las puntuaciones de esos mismos
sujetos en la variable externa elegida como criterio de validacin.
Ejemplo: Supongamos que con los mismos datos del ejemplo anterior conocemos las
puntuaciones de esos 5 sujetos en una variable criterio Y:

Sujeto 1
Sujeto 2
Sujeto 3
Sujeto 4
Sujeto 5

tem 1
2
3
5
0
4

tem 2
3
1
4
1
3

tem 3
5
0
5
0
0

Y
5
3
6
0
6

Los ndices de validez de los tres tems seran:


IV (tem 1) = r1Y = 0.87;

IV (tem 2) = r2Y = 0.88;

IV (tem 3) = r3Y = 0.54

De nuevo habr que eliminar todo tem cuyo I.V. est muy prximo a 0, ya que no parece
contribuir demasiado a que la prueba global cumpla el objetivo para el cual ha sido
diseada; es decir, no es un tem vlido.
En otro orden de cosas, y volviendo al caso de haber estado diseando un test de rendimiento
ptimo, no deberamos conformarnos con calcular los ndices de calidad que acabamos de
describir para todos los tems que lo constituyen, sino que tambin deberamos asegurarnos de
que los sujetos que los han respondido de forma correcta no lo han hecho por pura casualidad,
por azar, sino porque realmente disponen del conocimiento o aptitud que les permite dar las
respuestas acertadas. En este sentido, debemos proceder a corregir los efectos que el azar
pueda estar teniendo sobre esas puntuaciones. Vamos a verlo:
7.1.4. Correccin del azar
Habitualmente, los tests de rendimiento ptimo estn constituidos por un conjunto de tems
ms o menos numeroso que suelen responderse eligiendo slo una de las opciones ofrecidas
dentro de una serie de posibles alternativas (tems de opcin mltiple). Lo lgico es que
slo una de estas opciones de respuesta sea considerada como acierto mientras que las
otras sern tomadas como errores. Pero, como sabemos, un sujeto puede acertar un tem
no slo si conoce la respuesta por mritos propios sino tambin por casualidad, por azar,
engordando con ello su puntuacin final en el test. Por todo esto se hace necesario
introducir ndices que corrijan los efectos del azar.
Procedimiento:
La probabilidad de que un sujeto acierte un determinado tem por azar (Aa) viene dada por
el cociente entre el n de respuestas correctas (normalmente 1) y el n de casos posibles
(que es el n de alternativas de respuesta que tenga nuestro tem):
P (Aa) = 1 / n
As, la probabilidad de fallarlo vendr dada por:
P (E) = 1 (1/n) = (n -1) / n
Como la puntuacin de un sujeto en un test viene dada por la suma de las respuestas a
todos los tems, el nmero total de aciertos por azar (Aa) y de errores (E) que se obtengan
Unidad Didctica 7 - 3

en el test se calcular multiplicando las frmulas anteriores por el n de tems que


componen el test (R):
Aa = R x (1/n)
E = R x [(n-1) / n]
As, despejando R en ambas frmulas e igualando los trminos resultantes tendremos que:
Aa x n = (E x n) / (n-1)
Aa = E / (n-1)
Y como la puntuacin final de un sujeto en un test (X) debe ser igual al n de aciertos que
ha obtenido (A) menos los debidos al azar (Aa), podremos concluir que:
X = A [E / (n-1)]
Es decir, la puntuacin final de un sujeto en un test (X), corregido el azar, es igual al
nmero de aciertos (A) menos el de errores (E) dividido ste ltimo por el nmero de
alternativas de respuesta de los tems (n) menos 1.
Ejemplo: un sujeto contesta 80 cuestiones de un examen tipo test de 100 preguntas de
verdadero o falso. De ellas, slo 63 respuestas son correctas mientras que 17 son errores.
Cul ser su puntuacin final? (Respuesta: X = 63 (17 / 2-1) = 46)
Para completar el anlisis objetivo de los tems que componen nuestro test de rendimiento
ptimo tan slo nos quedara revisar los errores cometidos por los sujetos al responderlos; es
decir, debemos estudiar los patrones de respuesta dados a los distintos tems.
Esto es as porque lo ideal es que la opcin de respuesta correcta de cada tem debera ser la ms
elegida por los sujetos mientras que las alternativas errneas incluidas en los tems por los
evaluadores slo seran aceptables si son elegidas mayoritariamente por los sujetos con menores
puntuaciones en el test (los menos sabios) y no por todos por igual. Si una de las opciones
falsas a una cuestin es escogida de forma sistemtica por casi toda la muestra (sujetos ms
hbiles y menos hbiles), ser un claro reflejo no slo de que es muy difcil, sino tambin de
que puede ser confusa, de que no es perfectamente distinguible de la opcin verdadera y, por lo
tanto, debera ser eliminada.

7.2. TIPOS DE ESCALAS: CRONOLGICAS, CENTILES, TPICAS Y TPICAS


NORMALIZADAS.
La puntuacin directa que un sujeto obtiene en un test (Xi) no tiene demasiado significado en s
misma al considerarla aisladamente. Para que lo tenga, debemos conocer las medidas de
tendencia central y de variabilidad que definen la variable medida en el grupo de origen y/o
debemos compararla con las puntuaciones del resto de sujetos que constituyen la muestra sobre
la que se obtuvieron las mediciones; es decir, hay que interpretar la puntuacin directa de
cada sujeto en relacin con la del grupo normativo al que pertenece.
Para poder hacer esto es necesario disponer de un baremo o escala normativa que no es ms
que una tabla de conversin donde se refleja la correspondencia entre las puntuaciones directas
de los sujetos y las puntuaciones estandarizadas adecuadas para cada grupo o tipo de
poblacin (habitualmente definida en trminos de sexo y edad). Las escalas de conversin o
baremos ms utilizados son:

Unidad Didctica 7 - 4

7.2.1.

Escalas cronolgicas
Son escalas aplicables exclusivamente a rasgos que evolucionan con la edad,
destacando su uso en la medida de la inteligencia mediante las Edades Mentales (EM)
y/o los Cocientes Intelectuales (CI):
C.I. = (Edad mental / Edad cronolgica) x 100
Para poder aplicar esta frmula y conocer as el cociente intelectual de un sujeto debo
seguir los siguientes pasos:

Escoger una amplia muestra representativa de la poblacin que incluya sujetos de todas
las edades y sexos a las que se pueda aplicar el test de inteligencia en cuestin.

Aplicar el test de inteligencia escogido a todos los sujetos de la muestra y obtener la


media aritmtica de cada uno de los grupos de sujetos de una determinada edad:
Grupos de edad
Puntuacin media

5 aos
10

6 aos
11

7 aos
14

8 aos
16

...
...

Para conocer entonces la EM de un sujeto determinado, le aplicaremos el test y haremos


corresponder su puntuacin directa con la del grupo de edad cuya media se parezca ms
a dicha puntuacin, obteniendo as su edad mental. Por ejemplo, un nio obtiene en el
test una puntuacin directa de 11 puntos, puntuacin que, segn la tabla, se corresponde
con una edad mental de 6 aos.

Una vez conocida la edad mental, se aplica la frmula y se obtiene directamente el


cociente intelectual. As, al nio de nuestro ejemplo que tiene 5 aos le corresponde un
CI = (6/5) x 100 = 120.
Por tanto, cuando la EM y la EC de un sujeto coinciden, su CI ser de 100, lo que indica
que est exactamente en la puntuacin media que le corresponde por edad. Si el CI
supera el valor de 100, significar que el sujeto tiene una inteligencia superior al
promedio mientras que si es inferior, su inteligencia estar por debajo de la media. En
general, se suele considerar que un CI inferior a 70 podra indicar algn tipo de dficit
cognitivo mientras que uno superior a 140 sealara una posible excepcionalidad
intelectual (en ambos casos se recomienda hacer una evaluacin ms completa del
sujeto).
Aunque como hemos podido comprobar las escalas cronolgicas son escalas muy
sencillas tanto de calcular como de interpretar, presentan el principal inconveniente de
que slo son aplicables a rasgos que evolucionan con la edad dejando de ser tiles a
partir de ciertas edades puesto que suele existir una edad tope de desarrollo en la que la
mayora de los rasgos se estabilizan.

7.2.2.

Escalas centiles
Como ya sabemos, los centiles o percentiles (C o P) son las 99 puntuaciones que
dividen una distribucin de frecuencias en 100 partes iguales y, como medidas de
posicin que son, indican el porcentaje de sujetos que queda por debajo y por encima de
una determinada puntuacin directa.
Ya hemos visto en otra unidad que asumiendo que la variable que mide nuestro test se
distribuye segn un modelo normal, las tablas de la curva normal pueden ayudarnos a

Unidad Didctica 7 - 5

calcular el centil con el que se corresponde una determinada puntuacin directa,


tambin podemos aplicar esta sencilla frmula:

Siendo: Ci el centil correspondiente a una determinada puntuacin directa Xi,


ser la
frecuencia acumulada correspondiente a esa puntuacin directa y n el nmero
total de sujetos de la muestra normativa.
7.2.3.

Escalas tpicas
Como tambin sabemos ya, las puntuaciones tpicas (z) indican el n de desviaciones
tpicas (SX) que un sujeto se separa de la media de su grupo de referencia y se calculan
aplicando la siguiente transformacin sobre las diferentes puntuaciones directas que
presente nuestra variable:
z = (X - X) / SX
As, la puntuacin tpica (z) que le corresponde a un sujeto que obtuvo en un test de
media 12 y desviacin tpica 6,25 una puntuacin directa (X) de 18 es de Z = 0,96; lo
que indica que se encuentra a 0,96 desviaciones tpicas por encima de la media de su
grupo normativo.
Tambin son escalas muy utilizadas por su sencillez de clculo e interpretacin aunque
su principal problema es que puede resultar un poco chocante para los sujetos evaluados
que se les asignen puntuaciones que pueden ser decimales y negativas como resultado
de su ejecucin en un determinado test.

7.2.4.

Escalas tpicas normalizadas


Estn constituidas por las puntuaciones tpicas (Zn) que les corresponderan a las
puntuaciones directas de los sujetos (X) si la distribucin de la variable analizada se
ajustara (ms o menos) a una distribucin normal. Para calcularlas basta con conocer la
media y la desviacin tpica de la variable en cuestin y aplicar la frmula indicada
arriba. Adems, si disponemos de la tabla de la curva normal, podremos buscarlas en
ella y descubrir as el porcentaje de sujetos de la poblacin que quedan por encima y por
debajo de ellas.

7.2.5.

Otras
Ya hemos comentado que el principal problema de las puntuaciones tpicas (tanto
estndares como normalizadas) es que pueden adoptar valores negativos y decimales.
Para evitarlo, se han propuesto otros baremos que no son ms que transformaciones
lineales de las puntuaciones tpicas.
Entre ellas podemos destacar las puntuaciones T, las puntuaciones D y los estaninos
o eneatipos (E):
Siendo:

T = 50 + 10 z
D = 50 + 20 z
E=5+2z

En cualquier caso, la interpretacin de cualquiera de ellas siempre se hace en base a la z


en la que se basan; es decir, si un sujeto obtiene una T=30, una D=10 y una E=1;

Unidad Didctica 7 - 6

siempre deberemos entender que este sujeto est a dos desviaciones tpicas por debajo
de la media de su grupo normativo (z=-2).

BIBLIOGRAFA COMPLEMENTARIA
GARCA CUETO, E. (1993). Introduccin a la Psicometra (cap.12 y 13). Mxico: Siglo XXI.

Unidad Didctica 7 - 7