Tema 8 PDF

HERNNDEZ LLOREDA,
al
'de los tests psicolgicos y
Pirmide. Captulo 4.
nvestigacin psicolgica .
. Captulo 15.
ITEMA 8
ANLISIS DE LOS TEMS
Francisco Pablo Holgado Tello
suMARIO
1. Orientaciones didcticas
2. Introduccin
3. Dificultad de los tems
3.1 . Correccin de los aciertos por azar
4. Poder discriminativo de los tems
4.1. ndice de discriminacin basado en grupos extremos
4.2. ndices de discriminacin basados en la correlacin
4.2.1. Coeficiente de correlacin <t>
4.2.2. Correlacin biserial-puntual
4.2.3. Correlacin biserial
4.3. Poder discriminativo en los tems en las escalas de actitudes
4.4. Factores que afectan al poder discriminativo de los tems
4.4.1 . Variabilidad de la muestra
4.4.2. Dificultad del tem
4.4.3. Dimensionalidad del test
4.4.4. Fiabilidad del test
5. ndices de fiabilidad y validez de los tems
5.1. ndice de fiabilidad
5.2 . ndice de validez
6. Anlisis de distractores
6.1. Equiprobabilidad de los distractores
6.2 . Poder discriminativo de los distractores
7. Funcionamiento diferencial de los tems (FDI)
7.1 . Mantei-Haenszel
8. Resumen
9. Ejercicios de autoevaluacin
1 O. Soluciones a los ejercicios de autoevaluacin
11 . Bibliografa bsica
e m os
cin
de actitudes
los tems
1. ORIENTACIONES DIDCTICAS
El anlisis de los tems se puede definir como un proceso por el que los tems
de un test son evaluados y examinados crticamente con el objetivo de identifi-
car y reducir las fuentes de error, tanto aleatorio como sistemtico para poder eli-
minar aquellos que no renen las suficientes garantas psicomtricas. Es fre-
cuente que los constructores de tests lleven a cabo este tipo de anlisis para
obtener evidencias sobre la calidad de los tems con el objetivo de identificar
aquellos que se han de descartar del test final, reformular otros que puedan ser
mejorados, y conservar los que definitivamente presenten unas buenas propie-
dades psicomtricas (Osterlind, 1998).
El anlisis de los tems, al contrario de lo que pudiera parecer, comienza con
el proceso de su redaccin, proceso en el que hay que atender a toda una serie
de directrices (consultar tema 2) antes de plantearse la administracin de los mis-
mos. Estas directrices facilitarn una adecuada construccin de los propios tems
(incluyendo sus alternativas) y har ms probable que obtengamos un test de
mayor calidad, que se ver plasmada en las propiedades psicomtricas del
mismo (Shultz y Whitney, 2005). Tanto los enunciados de los tems como sus al-
ternativas, si estn cuidadosamente redactadas, redundaran directamente en la
obtencin de buenos indicadores sobre la calidad con la que conjuntamente mi-
den el constructo de inters (Martnez, Moreno y Muiz, 2005).
Habitualmente, los tests estn construidos a partir de un nmero determinado
de elementos. En teora, si conociramos la calidad de cada uno de ellos podra-
mos deducir la calidad psicomtrica del test. Es decir, el conocimiento de las ca-
ractersticas individuales de los tems puede dar indicios para mejorar el test y
maximizar sus propiedades psicomtricas, lo que se traduce en una reduccin del
409
1 PSICOMETRA
error aleatorio, con el consiguiente aumento de la fiabilidad, a la hora de medir
aquellas conductas del domino de inters que pretende medir (validez).
Una estrategia general consiste en determinar el nmero de tems necesario
para confeccionar el test. Este aspecto se puede establecer a partir del tiempo to-
tal disponible, o del tiempo estimado en responder a cada tem. Generalmente,
con el objetivo de analizar la calidad mtrica de los tems y obtener un test con
una fiabilidad ptima mediante el menor nmero de tems posible, un nmero
concreto de tems (2, 3, o hasta 4 veces mayor que el nmero de tems del test
resultante) se administra a una muestra piloto de sujetos con caractersticas si-
milares a la poblacin diana, o poblacin a la que va dirigido el test. Hay que re-
saltar que al seleccionar los tems, es conveniente tener en cuenta la finalidad del
test, y las decisiones que se tomarn a partir de sus puntuaciones, ya que en fun-
cin de ello se utilizarn tems con niveles de dificultad diferentes (ver tema 2).
En lneas generales, el anlisis de los elementos de un test se puede llevar a
cabo mediante dos procedimientos que son complementarios y que ofrecen mu-
cha informacin al constructor del test sobre el comportamiento mtrico de los
elementos que lo van a formar. Por un lado, se pueden realizar anlisis numri-
cos y cuantitativos que tratan de obtener determinados estadsticos basados en
la distribucin de las respuestas de los sujetos a las distintas alternativas de los
tems y, por otro, se puede recurrir a juicios de expertos en el que se cuestiona
la calidad mtrica del tem en funcin de criterios conocidos. Uno de los as-
pectos ms relevantes que se evalan mediante un juicio de expertos es la vali-
dez de contenido de los tems, para lo que se han desarrollado diversos ndices
de acuerdo o congruencia entre jueces como por ejemplo, el CRV (content
validity ratio) propuesto por Lawshe (1975) que se basa en un promedio que
toma como referencia el nmero de jueces que consideran un tem no-nece-
sario, til o esencial para medir el dominio al que ha sido asignado. Sin
embargo, uno de los ms utilizados (Osterlind, 1998), es el ndice de congruen-
cia propuesto por Rovinelli y Hambleton (1977) y Hambleton (1980) en el que
para evaluar la validez de contenido de cada tem se le pide a cada uno de los
jueces que valoren en una escala de tres puntos (-1; O; 1) el grado en que el tem
esta relacionado con la dimensin que trata de medir. De manera ideal un buen
anlisis de los tems ha de contemplar tanto el juicio de expertos sobre la cali-
dad y adecuacin de los tems, como una serie de anlisis numricos que pro-
porcionen distintos estadsticos; es decir, un buen anlisis de tems debe incluir
tanto el anlisis cualitativo como el anlisis cuantitativo de los mismos.
Una vez que hemos analizado la calidad psicomtrica de los elementos de un
test, y disponemos de las garantas suficientes acerca de su adecuacin, es
410
CU
dar
r
si
d
del
ten-
poc
bal
an
vali
re la
2.
e
fom
resp
val o
m os
los e
~ ~ a la hora de medir
iir (validez).
) de tems necesario
partir del tiempo to-
tem. Generalmente,
1 obtener un test con
posible, un nmero
ero de tems del test
on caractersticas si-
o el test. Hay que re-
Jenta la finalidad del
1ones, ya que en fun-
erentes (ver tema 2).
est se puede llevar a
)S y que ofrecen m u-
li ento mtrico de los
izar anlisis numri-
ldsticos basados en
!S alternativas de los
1 el que se cuestiona
dos. Uno de los as-
e expertos es la vali-
ado diversos ndices
lo, el CRV (content
:n un promedio que
1 un tem no-nece-
a sido asignado. Sin
ndice de congruen-
ton (1980) en el que
le a cada uno de los
grado en que el tem
1anera ideal un buen
:pertos sobre la cal i-
numri cos que pro-
le tems debe incluir
los mismos.
los elementos de un
~ su adecuacin, es
ANLISIS DE LOS TEMS 1
cuando se analiza la calidad global del test, donde destacan dos conceptos fun-
damentales en Psicometra: fiabilidad y validez.
Nota: El motivo de situar este tema justo despus de los de fiabilidad y validez es por
razones didcticas ya que sera complicado tratar algunas propiedades de los tems
sin haber explicado anteriormente ambos conceptos bsicos en el proceso de me-
dicin en Psicologa.
En este tema vamos a abordar el estudio del anlisis cuantitativo o estadstico
de los tems, puesto que el anlisis cualitativo se ha abordado ya a lo largo de los
temas precedentes, y aunque son muchas las propiedades y caractersticas que
podemos estudiar nos centraremos en aquellas que van a afectar a la calidad glo-
bal del test (Muiz, 2003): la dificultad de los tems, su poder discriminativo, el
anlisis de los distractores o alternativas incorrectas de respuesta y la fiabilidad y
validez de los tems. Adems, abordaremos una importante cuestin directamente
relacionada con la validez como es el funcionamiento diferencial de los tems.
En este tema, es necesario atender a los siguientes objetivos:
Conocer las propiedades psicomtricas de los tems.
Saber calcular los estadsticos que, desde la Teora Clsica de los Tests, se
han propuesto para evaluar la calidad mtrica de los tems.
Reconocer la importancia que tiene el anlisis de las alternativas inco-
rrectas para la mejora de la calidad de los tems. Y saber realizar un an-
lisis de distractores.
Conocer cmo se relacionan las propiedades psicomtricas de los tems
con las del test total.
Saber en qu consiste el concepto de Funcionamiento Diferencial de los
tems (FDI) y saber cmo detectarlo.
2. INTRODUCCIN
Como hemos visto en temas anteriores, los tems pueden adoptar distintos
formatos y evaluar variables congnitivas (aptitudes, rendimiento, etc.) donde hay
respuestas correctas e incorrectas, o variables no cognitivas (actitudes, intereses,
valores, etc.) donde no hay respuestas correctas. Los estadsticos que presenta-
mos se utilizan, fundamentalmente, con tems aptitudinales o de rendimiento en
los que existe una alternativa correcta y una o varias incorrectas.
411
1 PSICOMETRA
Para llevar a cabo un anlisis de tems, en primer lugar se debe disponer de
una matriz de datos con las respuestas de los sujetos a cada uno de los tems.
Tanto para el anlisis de las puntuaciones del test como de las respuestas a la al -
ternativa correcta, la matriz tomar la forma de unos y ceros, donde los unos ha-
gan referencia a los aciertos, mientras que los ceros harn referencia a los fallos.
Para el anlisis de las alternativas incorrectas, en la matriz han de aparecer las
opciones concretas que haya seleccionado cada sujeto.
El anlisis de la alternativa correcta, que es la que ofrece ms informacin
sobre la calidad del test, permite obtener el ndice de dificultad, el de discrimi-
nacin y la fiabilidad y la validez del tem. Muy brevemente diremos que la di -
ficultad emprica de un tem hace alusin a la proporcin de sujetos que lo res-
ponden correctamente. Aunque la dificultad de un tem puede establecerse
tericamente a priori en el proceso de redaccin de acuerdo con la complejidad
estimada del tem, lgicamente, tendr que ser contrastada con la dificultad em-
prica, que es la que presentamos en este tema. Hay veces que el constructor de
la prueba piensa que un tem tiene una dificultad pequea y, a la hora de la ver-
dad, resulta difcil y viceversa. El poder discriminativo indica la capacidad del
tem para diferenciar a los sujetos con distinto nivel en el rasgo medido. Ambos
estadsticos estn directamente relacionados con la media y varianza de las pun-
tuaciones totales del test. La fiabilidad y validez de los tems estn relacionadas
con la desviacin tpica del test e indican la posible contribucin de cada tem
a la fiabilidad y validez de las puntuaciones totales del test.
El anlisis de las respuestas incorrectas o distractores aporta evidencias sobre
la utilidad de cada alternativa y su contribucin a la calidad mtrica del tem. Por
tanto, su revisin es fundamental para mejorar el tem en cuestin, mediante la
sustitucin o reparacin de los distractores que no funcionen como tales.
Finalmente, un aspecto a evaluar dentro del anlisis de tems, es si de manera
sistemtica sujetos de distintos grupos de pertenencia pero con el mismo nivel
en el rasgo medido tienen distintas probabilidades de xito en el tem en cues-
tin (Shultz y Whitney, 2005) . . A esta circunstancia se la conoce como funcio-
namiento diferencial de los tems (FDI).
3. DIFICULTAD DE LOS TEMS
Probablemente uno de los ndices ms populares para cuantificar la dificul-
tad de los tems, dicotmicos o dicotomizados, es la proporcin de sujetos que
han respondido correctamente al mismo. Hay que decir, que la dificultad as
412
>
t
}
e
r
J'
f,
j.isponer de
=los tems.
~ s t a s a la al-
os unos ha-
a los fallos .
. parecer las
1formacin
le discrimi-
s que la di-
que lo res-
stablecerse
omplejidad
icultad em-
lstructor de
a de la ver-
acidad del
do. Ambos
de las pun-
!lacionadas
~ c a d a tem
cas sobre
el tem. Por
nediante la
tales.
de manera
1ismo nivel
m en cues-
o funcio-
la dificul-
;ujetos que
1cultad as
considerada es relativa, ya que va a depender del nmero de personas que in-
tentan responder al tem y de sus caractersticas, puesto que no se obtendr el
mismo ndice de dificultad si el tem dado es respondido por una muestra de su-
perdotados que por otra de sujetos normales. Formalmente el ndice de dificul-
tad viene expresado por:
[8.1]
donde:
A = nmero de sujetos que aciertan el tem.
N= nmero de personas que intentan responder al tem.
El ndice de dificultad oscila entre O y 1. Donde O indica que ningn sujeto
ha acertado el tem, y por lo tanto se trata de un tem difcil, mientras que 1 hace
referencia a que todos los sujetos respondieron correctamente el tem indicando
por tanto que se trata de un tem fcil. Es por ello que, en realidad, debera lla-
marse ndice de facilidad ms que de dificultad, puesto que cuanto ms pr-
ximo a 1 sea el ID, ms fcil resulta el tem. En general, se recomienda que los
tems con valores extremos para la poblacin a la que van dirigidos sean elimi-
nados del test final ya que no contribuyen a diferenciar entre sujetos con dis-
tinto nivel en el rasgo medido, puesto que o todos los aciertan o todos los fallan.
Ahora ser ms fcil entender que si un tem se aplica a una muestra de super-
dotados, su ndice de dificultad ser mucho mayor que si se administra a una
muestra de sujetos normales pero, a la hora de interpretarlo, lgicamente, a los
primeros les ha resultado mucho ms fcil que a los segundos.
EJEMPLO:
Imaginemos que un tem de rendimiento en matemticas se aplica a 1 O su-
jetos con el resultado mostrado en la siguiente tabla donde las letras hacen re-
ferencia a sujetos:
Sujeto A 8 e o E F G H J
Respuesta 1 1 1 1 o 1 o 1 1 o
Es decir, de los 1 O sujetos que han intentado responder al tem, 7 lo han acer-
tado mientras que 3 han fallado. Ello se traduce en que el ID ser de 0,70.
413
1 PSICOMETRA
7
10= - =0 70
1 o '
El valor de 0,70 obtenido no indica nada sobre si el tem es bueno o malo.
Simplemente representa cunto de difcil ha resultado para la muestra de suje-
tos que lo han intentado responder. Si el mismo tem fuera administrado a otra
muestra de sujetos muy probablemente el/O sera distinto. Es decir, la dificultad
es dependiente de la muestra de sujetos utilizada.
Concretamente, el dato proporcionado por el/O resulta de mucho inters en
los Tests Referidos al Criterio (TRC), as si un grupo de tems que miden el mismo
concepto han resultado muy fciles para un conjunto de alumnos podra pen-
sarse que no tiene mucho sentido evaluar dicho dominio en esta muestra de su-
jetos dado que dominan el concepto medido. Por el contrario, si dicho grupo de
tems resultara muy difcil, entonces habra que pensar que la instruccin reali-
zada no ha sido adecuada, por ejemplo.
El /0 est relacionado directamente con la media y varianza del test. Res-
pecto a la media, en tems dicotmicos encontramos la siguiente relacin:
[8.2]
donde:
X= puede ser 1 o O segn se acierte o falle el tem.
Por tanto, para un tem concreto llegamos fcilmente a la conclusin de que
'LX = A (aciertos); es decir la suma de todas las puntuaciones obtenidas por los
sujetos en ese tem es igual al nmero de aciertos y por lo tanto el ndice de di-
ficultad del tem es igual a su media. Si generalizamos al test total encontramos
que la media de las puntuaciones en el test es igual a la suma de los ndices de
dificultad de los tems (Garca-Cueto, 2005).
[8.3]
De esta forma imaginemos que el tem anterior forma parte de un test com-
puesto por 5 tems, tal y como se muestra en la siguiente tabla.
414
11 es bueno o malo.
la muestra de suje-
administrado a otra
:s decir, la dificultad
:J e mucho inters en
que miden el mismo
lumnos podra pen-
esta muestra de su-
o, si dicho grupo de
la instruccin reali-
i anza del test. Res-
Jiente relacin:
[8.2]
1 conclusin de que
~ s obtenidas por los
mto el ndi ce de di-
;t total encontramos
na de los ndices de
[8.3]
rte de un test com-
ola.
tem 2 tem 3 tem 4 tem 5 Total
A 1 1 1 1 1 5
B 1 o 1 o 1 3
e 1 1 o 1 o 3
o 1 o o 1 o 2
E o 1 o 1 1 3
F 1 o o 1 o 2
G o 1 1 1 o 3
H 1 o o 1 o 2
1 1 o 1 o 3
J o o o 1 1 2
n
ID 0,70 0,50 0,30 0,90 0,40 L,1o = 2,80
i=1
-
5+3+3+2+3+2+3+2+3+2
X= = 2,80
10
5
LID =OJO+ 0,50 + 0,30 + 0,90 + 0,40 = 2,80
j=l
La relacin entre la dificultad y la varianza del test es an ms directa, sobre
todo si consideramos que en tems dicotmicos la varianza viene dada por:
[8.4]
donde:
Pj =proporcin de sujetos que responden correctamente al tem, es decir, el
ID.
qj = 1 - Pj
Por tanto, la relacin entre la dificultad del tem y su varianza es directa. Den-
tro del anlisis de los tems, una cuestin muy relevante es encontrar el valor de
Pj que maximiza la varianza del tem. Observando la ecuacin 8.4, se encontrar
415
1 PSICOMETRA
fcilmente una respuesta a esta cuestin, dado que la varianza mxima la al-
canza un tem cuando su Pj es igual a 0,5. Para llegar a esta conclusin basta con
ir sustituyendo Pj por valores entre O y 1 y calcular la varianza.
Es lgico suponer que tems acertados o fallados por todos los sujetos pre-
sentan una varianza igual a cero. Ello implica que no hay variabilidad en las res-
puestas, es decir, todas las respuestas son ceros o unos y por lo tanto cualquier
sistema de clasificacin basado en este tem es intil ya que siempre clasificara
a los sujetos en el mismo lugar. Un tem es adecuado cuando al ser respondido
por distintos sujetos provoca en ellos respuestas diferentes. Este aspecto est di-
rectamente relacionado con la discriminacin, concepto que veremos ms ade-
lante.
3.1. Correccin de los aciertos por azar
En el clculo del ndice de dificultad hay que tener en cuenta que el hecho
de acertar un tem no slo depende de que los sujetos conozcan la respuesta,
sino tambin de la suerte que tengan aquellos que sin conocerla eligen la alter-
nativa correcta. De esta forma cuanto mayor sea el nmero de distractores (o al-
ternativas incorrectas) menos probable es que los sujetos acierten el tem por
azar puesto que habr ms alternativas para elegir.
Es decir, si en una muestra de sujetos hubiera algunos de ellos que no cono-
ciendo la respuesta a ningn tem, sistemticamente respondieran a todos, en-
tonces acertaran un nmero determinado de tems por azar. As por ejemplo, si
un sujeto con una aptitud nula respondiera por azar a 25 tems de 3 alternativas
equiprobables acertara por azar 1/3 de los mismos (aproximadamente 8). Lo
que provoca que el nmero de aciertos sea mayor que los esperados en funcin
del nivel de aptitud de los sujetos. Por ello, se aconseja corregir el/O.
E
A k-1 q
ID = - - - =p--
e N N k-1
donde:
/De = ndice de dificultad corregido.
A = aciertos.
E= errores.
416
[8.5]
varianza mxima la al-
ta conclusin basta con
ri anza.
r todos los sujetos pre-
, variabilidad en las res-
( por lo tanto cualquier
RUe siempre clasificara
ando al ser respondido
es. Este aspecto est di-
que veremos ms ade-
~ n cuenta que el hecho
conozcan la respuesta,
mocerla eligen la alter-
.ro de distractores (o al-
os acierten el tem por
; de ellos que no cono-
pondieran a todos, en-
.zar. As por ejemplo, si
tems de 3 alternativas
roximadamente 8). Lo
s esperados en funcin
: orregir el/O.
[8.5]
p = proporcin de aciertos.
q = proporcin de errores.
k= nmero de alternativas del tem.
N= nmero de personas que intentan responder al tem.
As, si el test anterior estuviera compuesto por tems de tres alternativas de res-
puesta, los ndices de dificultad seran:
Suj etos tem 1 tem 2 tem 3 tem 4 tem 5
A 1 1 1 1 1
8 1 o 1 o 1
e 1 1 o 1 o
o 1 o o 1 o
E o 1 o 1 1
F 1 o o 1 o
G o 1 1 1 o
H 1 o o 1 o
1 1 o o o
J o o o 1 1
ID 0,70 0,50 0,30 0,90 0,40
0,55 0,25 0,05 0,85 0,10
ID= _ _9_=070-
0
'
30
=055
Cj p k -1
1
2
1
/Des =p- k ~
1
=0,40- O , ~ O =0,10
Comparando las dos ltimas filas de la tabla anterior se observa que los tems
que han sufrido una correccin mayor son los que han resultado ms difciles,
como por ejemplo el 3. Se supone que habr mayor nmero de aciertos por azar
417
1 PSICOMETRA
en los tems ms complicados, dado que los sujetos tienden a desconocer la res-
puesta correcta. Mientras que en los tems fciles los sujetos respondern, en
mayor medida, desde el conocimiento del contenido del tem, por lo que la co-
rreccin de aciertos por azar es ms leve.
En la seleccin de los tems que han de formar parte del test, la dificultad no
es una cuestin balad. Como norma general, en los tests de aptitudes se consi-
guen mejores resultados psicomtricos cuando la mayora de los tems son de di-
ficultad media. Lgicamente habr que incluir tems fciles, situados preferen-
temente al comienzo del test para que el examinando no se desmotive, e tems
difciles. Los primeros sern tiles para medir a los sujetos menos competentes,
mientras que los segundos permitirn identificar al grupo de sujetos con mejor
nivel en el rasgo medido por el test.
4. DISCRIMINACIN
Otro pilar fundamental en el anlisis de los tems responde al nombre de dis-
criminacin. La lgica que subyace a este concepto es que dado un tem, los su-
jetos con buenas puntuaciones en el test han de acertarlo en mayor proporci n
que los que tienen bajas puntuaciones. El caso contrario, estara indicando que
precisamente los sujetos con ms competencia tienden a fallar el tem, mientras
que los sujetos menos aptos lo aciertan en su mayora, lo que va en contra del
sentido comn. Por otra parte si un tem no sirve para diferenciar entre los suj e-
tos en funcin de su nivel de competencia; es decir, no discriminara entre los su-
jetos, debera eliminarse.
Cuando se seleccionan tems con poder discriminativo es porque se pretende
diferenciar a los sujetos en funcin de su nivel en el rasgo medido. Una primera
aproximacin intuitiva al clculo de la discriminacin de un tem implicara con-
trastar la proporcin de aciertos entre dos grupos extremos de aptitud, uno bajo
y otro alto. Si el tem discriminara adecuadamente, una consecuencia directa
sera que la proporcin de aciertos en el grupo de alta aptitud sera mayor que
en el de baja aptitud; o lo que es lo mismo, que la correlacin entre las puntua-
ciones obtenidas por los sujetos en el tem y las obtenidas en el test total sera
positiva. En base a ello, se han propuesto distintas formas para estudiar el poder
discriminativo de los tems.
418
/en a desconocer la res-
u jetos respondern, en
1 tem, por lo que la co-
del test, la dificultad no
s de aptitudes se consi-
1 de los tems son de di-
:iles, situados preteren-
o se desmotive, e tems
os menos competentes,
o de sujetos con mejor
de al nombre de dis-
en mayor proporcin
estara indicando que
fallar el tem, mientras
que va en contra del
renciar entre los suje-
criminara entre los su-
es porque se pretende
medido. Una primera
n tem implicara con-
de aptitud, uno bajo
consecuencia directa
tud sera mayor que
cin entre las puntua-
as en el test total sera
para estudiar el poder
4.1. ndice de discriminacin basado en grupos extremos
El ndice de discriminacin O se basa en las proporciones de aciertos entre
grupos extremos de aptitud. Kelly (1939) aconseja tomar el 27% (o el 25%) su-
perior y el 27% (o el 25%) inferior de la muestra total para obtener un ndice O
sensible y estable. Es decir, el 27% superior estara formado por los sujetos que
han puntuado por encima del percentil 73 en el test total, mientras que el infe-
rior por aquellos otros con puntuaciones por debajo del percentil 27. Una vez
conformados los grupos se calcula la proporcin de respuestas correctas a un de-
terminado tem en ambos grupos y se aplica la siguiente ecuacin:
donde:
Ps = proporcin de aciertos en el grupo superior.
p = proporcin de aciertos en el grupo inferior.
[8.6]
El ndice O oscila entre -1 y 1. Tomar el valor ideal de 1 cuando todas las
personas del grupo superior hayan acertado el tem y las del inferior lo hayan fa-
llado. Si O fuera igual a O, estara indicando que el tem es acertado indistinta-
mente en ambos grupos, es decir, estar en un grupo u otro es indiferente para
acertar o no el tem. O tomar valores negativos cuando los sujetos menos com-
petentes acierten el tem en mayor medida que los ms competentes, lo que no
es razonable porque dicho resultado estara indicando que el tem confunde a
los ms hbiles.
La discriminacin tambin se puede representar grficamente de forma que
se vea claramente cmo puede interpretarse como la proporcin de aciertos en
funcin del nivel de aptitud de los sujetos. De esta forma, un tem con un ndice
O alto quedara representado tal y como aparece en la figura 8.1.
419
1 PSICOMETRA
Baja aptitud Alta aptitud
El tem presentado en la figura anterior permite diferenciar a los sujetos en fun-
cin de su nivel de aptitud. A medida que el nivel de habilidad de los sujetos se
incrementa la probabilidad de acertar el tem es mayor. Es decir, el grupo de alta
aptitud lo acierta en mucha mayor proporcin que los de baja aptitud.
Ul
o
....
Gi
"
ftl
Gl
"CI
e
'0
- ~
o
Q.
e
Q.
La figura 8.2 representa un tem con una discriminacin moderada. A pesar
de que permite separar entre sujetos con distinto nivel de aptitud, no lo hace
con toda la rotundidad que el representado en la figura 8.1 ya que hay un por-
centaje de sujetos con baja aptitud que tienden a acertar el tem (ver ordenada
420
/
a los sujetos en fun-
d de los sujetos se
ir, el grupo de alta
a aptitud.
aptitud
moderada. A pesar
aptitud, no lo hace
ya que hay un por-
tem (ver ordenada
en el origen), y de entre los sujetos con alta aptitud existen otros tantos que tien-
den a fallarlo.
Observando la figura 8.3, se entiende fcilmente que se trata de un tem que
no representa ningn tipo de poder discriminativo. La proporcin de aciertos no
es funcin del nivel de aptitud de los sujetos, con lo que tampoco podramos di-
ferenciarlos en funcin de que hayan respondido correcta o incorrectamente a
este tem. El resultado es una lnea horizontal, lo que indica que ambos grupos
tienen la misma probabilidad de acertar el tem.
421
1 PSICOMETRA
Finalmente, en la figura 8.4 se presenta el caso de un tem que discrimina en
sentido contrario al que cabra esperar. Es decir, los sujetos con menos compe-
tencia tienden a acertarlo en mayor grado que los ms hbiles, a los que proba-
blemente est confundiendo por alguna razn que habra que investigar y co-
rreg r.
EJEMPLO:
En la tabla 8.4 aparecen las respuestas dadas por 370 sujetos a las 3 alterna-
tivas (A, B, C) de un tem, donde la opcin B es la correcta. Por filas aparece la
frecuencia de sujetos que han seleccionado cada alternativa y que han obtenido
puntuaciones superiores e inferiores al 27% de su muestra en el test total, as
como el grupo conformado por el 46% central.
....
A B* e
27% superior
19
53 28
46% intermedio
52 70
48
27% inferior
65 19 16
Calcular el ndice de dificultad corrigiendo el efecto del azar, y el ndice de
discriminacin.
La proporcin de respuestas correctas ser igual (53 + 70 + 19)/3 70 = 0,38;
mientras que la proporcin de errores ser 228/370 = 0,62, luego el/Oc es igual
a:
ID = - __!]____=O 38-
0
'
62
=O 07
e p k-1
1
3-1
1
Para calcular O nos valemos exclusivamente de los grupos extremos:
o= - = 53 - 19 = 53 -19 =o 34
Ps p 19+53+28 65+19+16 100
1
El marco de referencia para interpretar los valores de O lo proporciona Ebel
(1965) mediante la siguiente tabla:
422
11 que discrimina en
con menos compe-
les, a los que proba-
que investigar y co-
j etos a las 3 alterna-
. Por filas aparece la
. y que han obtenido
1 en el test total, as
e
28
48
16
azar, y el ndice de
o+ 19)/370 = 0,38;
luego el/Oc es igual
os extremos:
~ = 0 34
1
lo proporciona Ebel
Valores Interpretacin
o ~ 0,40 El tem discrimina muy bien
0,30 o ~ 0,39 El tem discrimina bien
0,20 o ~ 0,29 El tem discrimina poco
0,10 o ~ 0,19 El tem necesita revisin
o < 0,10 El tem carece de utilidad
A la vista de los resultados el tem resulta difcil, pero discrimina razonable-
mente bien.
4.2. ndices de discriminacin basados en la correlacin
Si un tem discrimina adecuadamente entonces la correlacin entre las pun-
tuaciones obtenidas por los sujetos en el tem y las obtenidas en el test total ser
positiva. Es decir, los sujetos que puntan alto en el test tendrn ms probabili-
dad de acertar el tem. Este extremo, se puede observar en las figuras anteriores,
de tal forma que si en un eje colocamos la puntuacin en el test y en otro la
puntuacin en el tem, un tem con una discriminacin adecuada presentar una
correlacin positiva (figura 8.1 y 8.2); si la discriminacin fuera nula la correla-
cin sera igual a cero, lo que se corresponde con la figura 8.3; y si discriminara
en sentido inverso su correlacin sera negativa (figura 8.4). Por tanto, podramos
definir la discriminacin como la correlacin entre las puntuaciones de los su-
jetos en el tem y sus puntuaciones en el test (Muiz, 2003). Lgicamente, la
puntuacin total de los sujetos en el test ha de calcularse descontando la pun-
tuacin del tem. En caso contrario, estaramos incrementando artificialmente el
ndice de discriminacin ya que estaramos correlacionando una variable (tem)
con otra variable (test) que contiene a la primera.
En el prrafo anterior implcitamente se ha hecho referencia a un concepto
muy importante en Psicometra y que tambin fue tratado en el apartado sobre
Likert del tema 3. Concretamente nos referimos a la relacin que existe entre la
probabilidad de acertar un tem con el nivel de aptitud o rasgo medido. A este
concepto se le denomina Curva Caracterstica del tem (CCI) y es importante por-
que es posible modelar dicha relacin matemticamente a partir de los par-
metros de dificultad, discriminacin y acierto por azar. Sin embargo, no profun-
423
1 PSICOMETRA
dizaremos en estos aspectos porque exceden ampliamente los objetivos de este
tema.
Ahora bien, el ndice de correlacin utilizado ha de ser coherente con el tipo
de puntuaciones del tem y del test. En el tema 6 sobre Validez, ya se expuso los
tipos de correlacin adecuados para cada tipo de variable.
Los coeficientes que veremos a continuacin son la correlacin Phi(<!>), la bi-
serial-puntual y la biserial.
4.2. 1. Coeficiente de correlacin ll>
Se utiliza cuando las puntuaciones del tem y del test son estrictamente di-
cotmicas. Su principal utilidad reside en que permite estimar la discriminacin
de un tem con algn criterio de inters. De esta forma, podramos analizar cmo
diferencia un tem de Psicometra entre los sujetos que han resultado aptos y
no-aptos. Tambin podemos utilizar otros criterios externos como el gnero, o ca-
ractersticas socio-demogrficas.
As por ejemplo, imaginemos que deseamos conocer si el tem 5 del ltimo
examen de Psicometra discrimina adecuadamente entre los aptos y los no-aptos.
En primer lugar, habr que ordenar los datos en una tabla de contingencia 2 x 2
tal y como se muestra a continuacin, donde 1 indica que se acierta el tem o se
supera el criterio, y O que se falla el tem o que no se supera el criterio.
Tabla 8.6 ' 1 ti
tem (X)
1 o
1 a b (a+ b)
Criterio (Y)
o e d (e+ d)
(a+ e) (b + d) N
En la tabla anterior, la celdilla a hace referencia al nmero de sujetos que han
acertado el tem y que adems han aprobado el examen de Psicometra. El mar-
ginal a+ bes el nmero de sujetos que han aprobado Psicometra; mientras que
el e+ d son los que no lo han superado. Por otro lado, el marginal a +e son los
sujetos que han acertado el tem; y el b + d los que lo han fallado. Si dividimos
los datos anteriores entre el nmero total de sujetos N obtendremos sus respec-
tivas proporciones:
424
il1ente los objetivos de este
e ser coherente con el tipo
ya se expuso los
i able.
1 correlacin Phi (<t>t la bi-
test son estrictamente di-
estimar la discriminacin
podramos analizar cmo
ue han resultado aptos y
os como el gnero, o ca-
er si el tem 5 del ltimo
e los aptos y los no-aptos.
a de contingencia 2 x 2
e se acierta el tem o se
pera el criterio.
(a+ b)
(e+ d)
d)
N
ero de sujetos que han
de Psicometra. El mar-
icometra; mientras que
marginal a + e son los
n fallado. Si dividimos
dremos sus respec-
.. '.
1
Criterio (Y)
o
: n
tem (X)
1
a; N= Pxy
e
(a+ e)/N = Px
o
b
d
(b + d)/N = qx
(a+ b)/N = Py
(e+ d)/N = qy
N
Finalmente, aplicamos la siguiente ecuacin, cuya formulacin algebraica es
homloga a la del coeficiente de correlacin de Pearson.
<t> = Pxy - PxPy

[8.7]
EJEMPLO:
Tras ordenar los resultados de 50 sujetos presentados al ltimo examen de
Psicometra obtenemos la tabla 8.8.
Tabla 8.8
tem 5 (X)
1 o
Apto
Pxy
5
Py
30/ 50 = 0,6 35/ 50 = 0.7
Criterio (Y)
No-Apto 5 10
qy
15/50 = 0,3
Px
qx
N= 50
35/50 = 0.7 15/50 = 0,3
<I>=Pxy -PxPy = 0,6-0,7x0,7 =052
..J0,7x0,3x0,7x0,3 '
Se puede concluir que existe una correlacin alta entre el tem y el criterio,
es decir, aquellos sujetos que aciertan el tem suelen aprobar el examen de Psi-
cometra.
425
1 PSICOMETRA
4.2.2. Correlacin biserial-puntual
Cuando el tem es una variable dicotmica y la puntuacin en el test es con-
tinua, el ndice de correlacin ms apropiado es el biserial -puntual. Su expresin
es:
donde:
XA = media en el test de los sujetos que aciertan el tem.
XT =media del test.
Sx = desviacin tpica del test.
p = proporcin de sujetos que aciertan el tem.
q =proporcin de sujetos que fallan el tem.
[8.8]
Como se ha comentado anteriormente, para calcular la correlacin habra
que eliminar de las puntuaciones del test las del tem en cuestin, en caso con-
trario se estara incrementando artificialmente la correlacin biserial-puntual.
Esta correccin es an ms necesaria cuando el nmero de tems es menor de
25.
EJEMPLO:
En la siguiente tabla se muestran las respuestas de 5 sujetos a 4 tems. Calcu-
lar la correlacin biserial-puntual del segundo tem.
""... .t;.t .... , ~ ~ ~
~ Ta-bla 8.9
tems
Sujetos 1 2 3 4 X (X-i)
A o 1 o 1 2 1
B 1 1 o 1 3 2
e 1 1 1 1 4 3
o o o o 1 1 1
E 1 1 1 o 3 2
426
de 5
test,
4.2.
L
di fe
cua
la b
que
in en el test es con-
untual. Su expresi n
[8.8]
correlacin habra
=stin, en caso con-
n biserial-puntual.
tems es menor de
os a 4 tems. Calcu-
X (X-i)
2 1
3 2
4 3
1 1
3 2
Los sujetos que han acertado el tem son el A, B, C y E, luego su media es:
La media total del test es:
XA = 1+2+3+2 =2
4
Xr = 1+2+3+1+2 =
18
5 1
La desviacin tpica de las puntuaciones del test:
52 = 12 +22 +32 +12 +22 -(1 8) 2 =0 56
X
5
1 1
sx =.J0, 56 =0,75
La proporcin de sujetos que han acertado el tem 2 es 4/5 = 0,8; mientras la
de sujetos que lo han fallado es 1/5 = 0,2.
Finalmente, la correlacin biserial-puntual entre el tem y las puntuaciones del
test, descontando las del tem es:
rbp = XA- Xr /E= 2-1,8 {0:8 = O, S
4
sx ~ q o,7s ~ v
4.2.3. Correlacin biseria/
La correlacin biserial est muy prxima a la biserial-puntual, pero con una
diferencia importante en sus asunciones. Mientras que la anterior se aplica
cuando una de las vari ables es intrnsicamente dicotmica y la otra continua, en
la biserial se entiende que ambas variables son inherentemente continuas, aun-
que una de ellas se haya dicotomizado (tem). Su expresin es:
[8.9]
427
1 PSICOMETRA
Todos los smbolos se interpretan como en el caso de la correlacin biserial-
puntual. La nica novedad viene dada por y, que hace referencia a la altura en
la curva normal correspondiente a la puntuacin tpica que deja por debajo un
valor de probabilidad igual a p. Los valores de y se pueden consultar en la tabla
7 del final del libro.
La correlacin biserial del tem 3, vendra dada por:
rb=XA-Xrp=2,5-1,8( 0,4 ]=
0
,
96
sx y 0,75 0,3863
Para obtener la y, dado que el valor p = 0,40 no aparece en la primera co-
lumna de la tabla 7, hemos buscado el valor de 0,60 (su complementario, es de-
cir, q) que lleva asociada una y= 0,3863. Una vez conocido el valor de y, que
ha de ser el mismo para p y q, basta calcular 0,40/0,3863 para obtener el valor
del quebrado (p/y) que coincide con el que aparece en la columna E de la tabla
7 para una p = 0,40.
Hay que destacar que la rb es una estimacin de la correlacin de Pearson, y
por tanto es posible hallar valores mayores que 1, especialmente, cuando alguna
de las variables no es normal.
La relacin entre rbp y rb viene dada por:
'
[8.1 O]
Dado que el valor de y es siempre menos que J{Jq el valor de la correlacin
biserial ser mayor que el de la biserial-puntual. Esta diferencia ser moderada
en tems de dificultad media, y se incrementar en tems de dificultad alta y baja
(Martnez-Arias, Hernndez y Hernndez, 2006). El lector interesado, puede
comprobar la equivalencia entre rbp y rb a partir de la ecuacin 8.1 O.
4.3. Discriminacin en los tems de actitudes
Si retomamos lo visto en el tema 3, los tems de actitudes se caracterizan por-
que no existen respuestas correctas o incorrectas, sino que el sujeto ha de si-
tuarse en el continuo establecido en funcin del grado del atributo medido. Te-
428
ni ende
definic
cil dec
actituc
de ter
el de P
un nd
la misr
Como
elimin.
donde
N=
'LJ=
'LX
Al i
puntu
del tes
puede
car l a ~
Bas.
trema e
toda la
titud o
ms al
con pu
:orrelacin biserial-
encia a la altura en
deja por debajo un
onsultar en la tabla
~ e n la primera co-
plementario, es de-
) el valor de y, que
1ra obtener el valor
lumna E de la tabla
1cin de Pearson, y
nte, cuando alguna
[8.1 O]
r de la correlacin
cia ser moderada
ificultad alta y baja
interesado, puede
n 8.1 O.
2 caracterizan por-
el suj eto ha de si-
ributo medido. Te-
niendo esto presente, y habiendo considerado que la discriminacin se haba
definido como la correlacin entre las puntuaciones del tem y las del test, es f-
cil deducir que un procedimiento para estimar la discriminacin de los tems de
actitudes pasa por calcular la correlacin entre ambos. En este caso, al tratarse
de tems que no son dicotmicos el coeficiente de correlacin adecuado sera
el de Pearson. Este coeficiente de correlacin, tambin se puede interpretar como
un ndice de Homogeneidad (IH) . Indica hasta qu punto el tem est midiendo
la misma dimensin, o en este caso actitud, que el resto de los tems de la escala.
Como norma general, aquellos tems cuyo IH est por debajo de 0,20 se han de
eliminar de la escala resultante (Barbero, 2007).
R - N:LJX - I/L X - _CO_V_(}_X)
x - )[ N'LJ2 -(I;f][ N'Lx2 -(Ixf] - ssx
donde:
N= nmero de sujetos de la muestra.
L,j = suma de las puntuaciones de los sujetos en el elemento j.
'LX= suma de las puntuaciones de los sujetos en la escala total.
[8.11]
Rjx =correlacin entre las puntuaciones obtenidas por los sujetos en el ele-
mento j y en la escala total.
Al igual que en los casos anteriores, es necesario tener en cuenta que si las
puntuaciones del tem estn contando a la hora de calcular la puntuacin total
del test, habra que aplicar una correccin. Como ya vimos, dicha correccin
puede implicar, simplemente, descontar de la puntuacin total la del tem o apli-
car la siguiente frmula:
R(x-J = ~ 5
2
5
2
- 2R S S
X + 1 IX X 1
[8.12]
Basndonos en el propio concepto de discriminacin, otro procedimiento ex-
tremadamente til (aunque menos eficiente que el anterior porque no utiliza
toda la muestra) para averiguar si un tem diferencia entre grupos extremos de ac-
titud consiste en calcular si la media en el tem de los sujetos con puntuaciones
ms altas en el test total es estadsticamente superior a la media de los sujetos
con puntuaciones ms bajas. Para establecer los grupos altos y bajos de actitud
429
1 PSICOMETRA
se suele utilizar al 25% (o 27%) de los sujetos con mejores puntuaciones y al
25% (o 27%) con puntuaciones ms bajas. Una vez establecidos los grupos se
procede a calcular si su diferencia de medias es estadsticamente significativa
mediante la prueba de T de Student (Barbero, 2007):
[8.13]
donde:
xsj =media de las puntuaciones obtenidas en el tem por el 25% de los suje-
tos que obtuvieron puntuaciones ms altas en el test.
xij =media de las puntuaciones obtenidas en el tem por el 25% de los suje-
tos que obtuvieron puntuaciones ms bajas en el test.
S ~ j =varianza de las puntuaciones obtenidas en el tem por el 25% de los su-
jetos que obtuvieron puntuaciones ms altas en el test.
Sij =varianza de las puntuaciones obtenidas en el tem por el 25% de los su-
jetos que obtuvieron puntuaciones ms bajas en el test.
n
5
y n =nmero de sujetos con conforman respectivamente el grupo superior
e inferior.
La T de Student obtenida se distribuye con (n
5
+ n- 2) grados de libertad. La
hiptesis nula que se pone a prueba es que las medias de ambos grupos son
iguales. En tanto que, para un determinado nivel de confianza, obtengamos un
valor emprico de T superior al terico (se consulta en la tabla correspondiente)
tendramos que rechazar la H
0
a favor de la hiptesis alternativa que establece
que la media del grupo superior es mayor que la del inferior (contraste unilate-
ral).
EJEMPLO:
Las respuestas de 5 sujetos a 4 tems de actitudes se muestran en la tabla 8.1 O.
Calcular la discriminacin del elemento nmero cuatro (X
4
) mediante la corre-
lacin de Pearson. Y la del elemento nmero 2 mediante la prueba T de Student.
430
dad
la f<
:jores puntuaciones y al
:tablecidos los grupos se
sticamente significativa
[8.13]
por el 25% de los suje-
ll test.
por el 25% de los suje-
test.
m por el 25% de los su-
el test.
m por el 25% de los su-
1 el test.
mente el grupo superior
U grados de libertad. La
s de ambos grupos son
1f ianza, obtengamos un
1 tabla correspondiente)
lternativa que establece
erior (contraste unilate-
estran en la tabla 8.1 O.
(X
4
) mediante la corre-
la prueba T de Student.
tems
Total Xr
X4Xr x?
Sujetos
xl x2 x3 x4
A 2 4 4 3 13 39 9 169
B 3 4 3 5 15 75 25 225
e 5 2 4 3 14 42 9 196
o 3 5 2 4 14 56 16 196
E 4 5 2 5 16 80 25 256
20 72 292 84 1042
La correlacin, o IH entre el elemento 4 y la puntuacin total del test ser:
R - N2_)X - L)LX -
x - NL1
2
- (L.if][NLX
2
-(L.xf] -
= 5 292 - 20 72 =0 88
5. 84 - 20
2
][ 5 1 042 -72
2
] '
El inconveniente es que el resultado as obtenido est art ificialmente inflado
dado que en XT est incluida la puntuacin de X
4
. As que es necesario aplicar
la frmula de correccin.
La varianzas y desviaciones tpicas de X
4
y XT son:
52 = 32 +52 +32 +42 +52 -(4)2 =0 80
5 '
s x
4
=.Jo, 80 = o, 89
52 = 132 +152 +142 +142 +162 -(14 4)2 =1 04
xr 5 ' '
s xr = .j1, 04 = 1, 02
Rj(x- j) = -,-==
2
=-=5== == = 0, 88 1,02- 0,89 =O
01
\jsx +S - 2Rx 5x5 .j1, 04 +O, 80 - 2 O, 88 1, 02 O, 89 '
431
1 PSICOMETRA
No debe sorprender que cuando se utiliza la frmula de correccin, de 0,88
(un muy buen IH) hemos pasado a obtener un IH prximo a cero. Ello se debe
a que el nmero de elementos que hemos empleado en el ejemplo es muy pe-
queo. A medida que el nmero de tems aumenta, el efecto expuesto dismi-
nuye porque la influencia de las puntuaciones del tem en la puntuacin total es
cada vez menor. De tal forma que cuando estemos trabajando con ms de 25
tems los resultados sern muy prximos. Obsrvese por tanto, la importancia de
sustraer la puntuacin del tem de la puntuacin total del test cuando calcula-
mos su correlacin. Este ejemplo, es absolutamente generalizable a los tems de
aptitudes.
Si la escala tuviera un nmero de tems adecuados y hubiramos obtenido es-
tos mismos resultados en el tem 4, la conclusin sobre su idoneidad indicara
la necesidad de eliminarlo de la escala dado que su IH corregido es prximo a
cero. El tem 4 no contribuye a medir el mismo rasgo que la escala total.
Para calcular la discriminacin del elemento nmero 2 mediante T de Student,
tendramos que utilizar al 25% de los sujetos que han obtenido puntuaciones
ms altas para conformar el grupo superior; y el 25% de los que han presentado
puntuaciones ms bajas para el grupo inferior. Teniendo en cuenta que slo se
trata de un ejemplo, por motivos didcticos y para ilustrar el procedimiento va-
mos a utilizar a los dos sujetos con puntuaciones ms altas y ms bajas en Xr.
En nuestro ejemplo, los dos sujetos que han puntuado ms alto en la escal a
han sido el B (15) y el E (16); mientras que los que han obtenido puntuaciones
ms bajas son el A (13) y el C (14). Las puntuaciones de dichos sujetos en el tem
2, as como las medias y varianzas para ambos grupos son:
Sujeto X2
E 5
Grupo superior
B 4
- 2
Xs = 4,5; S
5
= 0,25
Sujeto X
1
A 4
Grupo inferior
e 2
- 2
X; =3; S; =1
Aplicamos la prueba de T de Student
432
correccin, de 0,88
a cero. Ello se debe
ejemplo es muy pe-
expuesto dismi -
1 puntuacin total es
tndo con ms de 25
to, la importancia de
test cuando calcula-
izable a los tems de
ramos obtenido es-
idoneidad indicara
regido es prximo a
1 escala total.
T de Student,
enido puntuaciones
que han presentado
cuenta que slo se
1 procedimiento va-
ms bajas en XT.
s alto en la escal a
ido puntuaciones
sujetos en el tem
4,5-3 = 1 9
(2-1)0,25+(2-1)1[_:!_+_:!_]
1
2+2-2 2 2
El valor emprico obtenido es de 1, 9. Para un NC del 95% el valor terico
que encontramos en las tablas para 2 grados de 1 ibertad (2 + 2 - 2) es de 2, 92.
Dado que el valor emprico obtenido en los datos de nuestra muestra es menor
que el terico, deberamos aceptar la hiptesis nula que establece que las me-
dias para ambos grupos no son significativamente distintas, es decir, el tem no
discrimina adecuadamente.
Estos resultados hay que interpretarlos bajo la ptica de que se trata de un ejem-
plo didctico ya que para poder aplicar la T de Student las puntuaciones del tem y
las de la escala total han de distribuirse normalmente y sus varianzas iguales. Si no
fuera este el caso, en lugar de la T de Student habra que aplicar alguna prueba no
paramtrica para calcular la diferencia de medias (U de Mann-Whitney, por ejemplo).
4.4. Factores que afectan a la discriminacin
4.4. 1. Variabilidad
En pginas anteriores habamos resaltado lo importante que es la presencia de
variabilidad en las respuestas de los sujetos a los tems, es decir, que sean acer-
tados y fallados por sujetos con distinto nivel en la variable medida. Cuando la
varianza de un tem es cero, implica que todos los sujetos han respondido lo
mismo, si te tratara de un tem de un test de aptitudes todos los sujetos lo habran
acertado o fallado; cuando se trata de un tem de un test de actitudes, persona-
lidad, etc., donde no hay respuestas correcta o incorrectas, un tem con varianza
cero implicara que todos los sujetos han elegido la misma alternativa de res-
puesta. Y cuando esto ocurre el tem no presenta ningn poder discriminativo,
dado que si su varianza es igual a cero, entonces su correlacin con las pun-
tuaciones del test tambin es cero (vase figura 8.3 y ecuacin 8.11 ).
La relacin entre la variabilidad del test y la discriminacin de los tems se
puede formular algebraicamente:
n
Sx = LS/x
[8.14]
j=l
433
1 PSICOMETRA
donde:
Sx = desviacin tpica del test.
sj =desviacin tpica del tem.
rjx = ndice de discriminacin del tem j.
Si el test estuviera compuesto por tems dicotmicos, dado que la varianza de
una variable dicotmica es igual a la proporcin de aciertos por la proporcin
de fallos, la ecuacin 8.14 deriva en:
[8.15]
En la ecuacin 8.15, es donde mejor se puede apreciar que para maximizar
la capacidad discriminativa de un test habr que considerar conjuntamente tanto
la dificultad (p) como la discriminacin (rj) de sus tems. Esto se consigue
cuando la discriminacin sea mxima (rjx = 1) y su dificultad media (p = 0,5)
(comprobar en la ecuacin 8.15).
4.4.2. Dificultad del tem
Un tem alcanza su mximo poder discriminativo cuando su dificultad es me-
dia. Implcitamente, esta idea ya se ha expuesto cuando se relacionaba la difi-
cultad con la varianza del test. Concretamente, se dijo que la var ianza sera m-
xima cuando su dificultad fuera media (p = 0,5 en tems dicotmicos), y
justamente en el epgrafe anterior se ha comentado que la varianza del tem es
clave para que ste discrimine. Luego para optimizar la discriminacin habr
que tener muy en cuenta la dificultad del tem. En la figura 8.5 se relacionan los
valores de dificultad y discriminacin.
434
1
4.4.
L.
cons
con '
lisis
e
decir
contr
tas e ~
COm<
cin
tanto
En
nica
dime1
dimer
) que la varianza de
1s por la proporcin
[8.15]
que para maximizar
conjuntamente tanto
1s. Esto se consigue
ltad media (p = 0,5)
o su dificultad es me-
e relacionaba la difi-
la varianza sera m-
~ m s dicotmicos), y
varianza del tem es
j iscriminacin habr
8.5 se relacionan los
1
0,9
0,8
E
<1>
0,7

Qi
0,6 'C
e
O
0,5 :;
C1l
e
0.4
:
t
0,3
111
:e
0,2
0,1
0,1 0,2 0,3 0.4 0,5 0,6 0,7 0,8 0,9 1
dificultad del tem
4.4.3. Dimensionalidad del test
La dimensionalidad de un test hace referencia al nmero de conceptos o
constructos que se estn midiendo. Su estudio est estrechamente relacionado
con la validez de constructo y para su examen la tcnica ms utilizada es el An-
lisis Factorial, del que ya se apunt algo en el tema 6 sobre Validez.
Cuando se construye un test, se trata de que slo mida un nico concepto, es
decir, que sea unidimensional. Si tras someter el test a un Anlisis Factorial en-
contrramos varias dimensiones subyacentes, implicara la existencia de distin-
tas escalas, lo que sera similar a una batera de test que mide tantos aspectos
como escalas o dimensiones distintas hubiera. Si fuera este el caso, la correla-
cin entre las puntuaciones en el test y las del tem se ver afectada a la baja, y
tanto ms cuanto ms dimensiones contenga el test.
En tests multidimensionales, la discriminacin de los tems hay que estimarla
nica y exclusivamente considerando el conjunto de tems que se asocian a cada
dimensin o concepto. Si no es as, podemos llegar a desechar tems que en su
dimensin presenten gran poder discriminativo.
435
1 PSICOMETRA
4.4.4. Fiabilidad del test
Si la discriminacin se define como la correlacin entre las puntuaciones ob-
tenidas por los sujetos en el tem y las del test, entonces fiabilidad y discrimina-
cin han de estar ntimamente relacionados. Tan es as que es posible expresar
el coeficiente alpha de Cronbach a partir de la discriminacin de los tems (tam-
bin de su dificultad). Para ello, basta con sustituir Sx por 2:.5 rx (vase ecuacin
8.14).
n
a=--
n -1
[8.16]
Valores pequeos en la discriminacin de los tems suelen estar asociados
con tests poco fiables (comprobar en la ecuacin 8.16). Esta relacin queda re-
presentada en la figura 8.6, que relaciona el coeficiente KR
21
con la discrimina-
cin media de un test compuesto por 100 tems cuya p = 0,8 en todos ellos. A
medida que aumenta la discriminacin media del test, el coeficiente de fiabili-
dad se incrementa, de esta forma para un valor de 0,15 de discriminacin me-
dia KR
21
es 0, 60, mientras que para un valor de 0,29 la fiabilidad alcanza un co-
eficiente de 0,90.
. .
1
0,9
0,8
0.7
0 ,6
..-1
C'\1
0,5
0::
::e:
0.4
0,3
~
~
~
V"'"
V
J
V
J
r
r
0 ,2
0 ,1
1
1
o
0,1 0,15 0,25 0 ,35 0,5
Discriminacin media
436
)Untuaciones ob-
Jad y discrimina-
posible expresar
Je los tems (tam-
(vase ecuacin
[8.1 6]
1 estar asociados
~ ! a c i n queda re-
on la discrimina-
en todos ellos. A
iciente de fiabili-
;criminacin me-
l d alcanza un co-
Finalmente, habra que destacar que aunque tcnicamente sea factible obte-
ner muy buenos tems desde un punto de vista psicomtrico mediante la com-
binacin ptima de los factores anteriores, el examen definitivo para un tem im-
plica que los sujetos ms competentes elijan la alternativa correcta en mayor
proporcin que los sujetos menos competentes en el dominio de inters.
5. NDICES DE FIABILIDAD Y VALIDEZ DE LOS TEMS
5.1. ndice de fiabilidad
Se utiliza para cuantificar el grado en que el tem en cuestin est midiendo
con precisin el atributo de inters. Su formulacin matemtica la podemos en-
contrar en la frmula 8.17, concretamente:
donde:
sj =desviacin tpica de las puntuaciones en el tem.
!Dj = ndice de discriminacin del tem.
[8.17]
Cuando se utiliza algn coeficiente de correlacin para calcular la discrimi-
nacin de los tems entonces:
[8.18]
que justamente es uno de los denominadores de la ecuacin 8.16. Por tanto, el
sumatorio al cuadrado de los IF de los tems coincide con la varianza de las pun-
tuaciones de los sujetos en el test.
Observando la ecuacin 8.16, es fcil entender la relacin directa entre la
fiabilidad de los tems y la del test. En la medida que seleccionemos los tems con
mayor IF, mayor ser su sumatorio (2.Sj rjx = 2./F), y por ende mejor la fiabilidad
del test.
437
1 PSICOMETRA
5.2. ndice de validez
Tal y como se ha visto en el epgrafe titulado la validacin referida al crite-
rio del tema 6, la validez implica correlacionar las puntuaciones del test con al-
gn criterio externo de inters. Anlogamente en el caso de un tem concreto, im-
plicar correlacionar las puntuaciones obtenidas por una muestra de sujetos en
el tem con las puntuaciones obtenidas por los mismos sujetos en algn criterio
externo de inters. Esto sirve para determinar hasta qu punto cada uno de los
tems de un test contribuye a realizar con xito predicciones sobre dicho crite-
rio externo.
1/V = 5/y 1
[8.19]
En el caso de que el criterio sea una variable continua y el tem una variable
dicotmica, la correlacin a utilizar sera la biserial puntual; pero ahora no es ne-
cesario descontar de la puntuacin total del criterio externo la del tem ya que
sta no est incluida y, por lo tanto, no contribuye de ninguna manera en su
cmputo.
[8.20]
Si anteriormente habamos expuesto que la fiabilidad del test depende de los
IF de los tems, la validez del test tambin puede expresarse en funcin de los IV
de los tems, de manera que cuanto mayores sean los /V de los tems, ms opti-
mizarn la validez del test (Muiz, 2003).
[8.21]
La ecuacin 8.21 es muy importante porque permite ver cmo la validez del
test se puede estimar a partir de la discriminacin de cada uno de los tems (rJ,
de su validez (ry), y de su dificultad (S= P q).
Considerando conjuntamente las ecuaciones 8.16 y 8.21, encontramos una
paradoja en la seleccin de los tems. Es decir, si queremos seleccionar tems
438
pa
de
re e
mE
tar
lec
ter
6.
por
el<
da
mit
gr
-
L
3
6.1.
L
sujel
cin referida al crite-
:iones del test con ai-
Jn tem concreto, im-
uestra de sujetos en
~ t o s en algn criterio
mto cada uno de los
es sobre dicho crite-
[8.19]
el tem una variable
pero ahora no es ne-
o la del tem ya que
1guna manera en su
[8.20]
1 test depende de los
en funcin de los /V
los tems, ms opti-
[8.21]
o la validez del
, encontramos una
, seleccionar tems
para maximizar la fiabilidad del test tendremos que elegir aquellos cuyo ndice
de discriminacin (rjx) sea alto (ecuacin 8.16); pero esta poltica nos llevara a
reducir el coeficiente de validez del test (ecuacin 8.21) porque sta aumenta a
medida que los ndices de validez son elevados y los de fiabilidad bajos. Por
tanto, si deseamos incrementar la validez o la fiabilidad del test a partir de la se-
leccin de los tems, se plantea una difcil cuestin que ha de ser sometida al cri-
terio del investigador o del constructor del test.
6. ANLISIS DE DISTRACTORES
Si el anlisis de la alternativa correcta (todo lo anterior se basa en ello) es im-
portante para la mejora de la calidad de los tems, igualmente relevante resulta
el anl isis de los distractores o respuestas incorrectas. Este anlisis implica in-
dagar en la distribucin de los sujetos a lo largo de los distractores, lo que per-
mite, entre otras cosas, detectar posibles motivos de la baja discriminacin de al-
gn tem, o constatar que algunas alternativas no son seleccionadas por nadie.
En este tipo de anlisis, un primer paso pasa por:
1. Controlar que todas las opciones incorrectas sean elegidas por un mnimo
de sujetos. A ser posible, que sean equiprobables, es decir, que sean igual-
mente atractivas para las personas que no conocen la respuesta correcta.
Como criterio puede establecerse que cada alternativa incorrecta (cada
distractor) ha de ser seleccionada, como mnimo, por el 10% de la mues-
tra y no existir mucha diferencia entre ellas.
2. Que el rendimiento en el test de los sujetos que han seleccionado cada al-
ternativa incorrecta sea menor al de los sujetos que han seleccionado la
correcta.
3. En relacin con el punto anterior, es de esperar que a medida que aumente
el nivel de aptitud de los sujetos, el porcentaje de ellos que seleccionen las
alternativas incorrectas disminuya, y viceversa, a medida que disminuya el
nivel de aptitud de los sujetos el porcentaje de los que seleccionen los dis-
tractores aumente.
6.1. Equiprobabilidad de los distractores
Los distractores son equiprobables si son seleccionados por un mnimo de
sujetos y si son igualmente atractivos para los que no conocen la respuesta co-
439
1 PSICOMETRA
rrecta. Una manera de comprobar este supuesto es mediante una prueba de in-
dependencia (Garca-Cueto, 2005). En este caso podemos aplicar una prueba
de X
2

donde:
FT = frecuencias tericas.
k (FT -F0)
2
X
2
=I---
j=1 FT
FO = frecuencias observadas.
[8.22]
Los grados de libertad son (k-7), donde k es el nmero de alternativas inco-
rrectas. La hiptesis nula a poner a prueba es que FT = FO, que significa que para
los sujetos que no conocen la respuesta correcta la eleccin de cualquiera de los
distractores es igualmente atractiva.
Retomando los datos del ejemplo de la tabla 8.4, si queremos determinar si
las alternativas incorrectas son igualmente atractivas, tendremos que aplicar la
ecuacin 8.22 .
A B*
27% superior 19 53
46% intermedio 52 70 48
27% inferior 65 19 16
TOTAL 136 92
En nuestro ejemplo la FT ser igual a (136 + 92)/2 = 114. Cada distractor ha
de ser seleccionado por 114 sujetos, que en este ejemplo equivale a la mitad de
los que han respondido incorrectamente al tem. La FO es la que aparece en la
ltima fila de la tabla (ntese que la alternativa B no la consideramos puesto que
es la alternativa correcta y estamos analizando la equiprobabilidad de los dis-
tractores) .
2
n (FT-F0)
2
=(114-136)
2
+(114-92)
2
=968=
849
X = ~ FT 11 4 11 4 '
440
e
e
q
ti
ci
dt
8.
se
bl
qL
lo
dE
y
en
tid
co
tos
ce1
me
cer
es 1
dr;
nte una prueba de in-
)S aplicar una prueba
[8.22]
de alternativas inco-
ue significa que para
1 de cualquiera de los
~ r e m o s determinar si
emos que aplicar la
e
28
48
16
92
. Cada distractor ha
ui vale a la mitad de
que aparece en la
eramos puesto que
bilidad de los dis-
=8, 49
ANLI SIS DE LOS TEMS 1
Si acudimos a las tablas de X
2
, encontramos que para 1 grado de libertad y un
N.C del 95% el valor terico de X
2
es 3,84. Dado que el valor emprico obtenido
(8,49) es mayor que el terico (3,84) la conclusin es que las alternativas inco-
rrectas no son igualmente atractivas para todos los sujetos, aunque sean elegidas
por un mnimo del 10%.
6.2. Poder discriminativo de los distractores
Los puntos dos y tres anteriores estn directamente relacionados con el con-
cepto de discriminacin. Si son buenos distractores, lo lgico es que discriminen
en sentido contrario a como lo hace la opcin correcta. Es decir, si se espera
que la correlacin entre las puntuaciones del test y la opcin correcta sea posi-
tiva, y cuanto ms mejor, lo esperable de un buen distractor es que su correla-
cin sea negativa. Lo que implica que a medida que aumenta el nivel de aptitud
de los sujetos la proporcin de sujetos que elige el distractor disminuya.
Para ilustrar grficamente lo comentado anteriormente, en las figuras 8.7 y
8.8 se presentan ejemplos reales de dos tems. En el caso de la figura 8.7 se ob-
serva que a medida que aumenta la nota de los sujetos (desde no-apto a nota-
ble) la opcin correcta (a) es seleccionada cada vez en mayor proporcin, lo
que redunda en una correlacin positiva entre la opcin correcta y las notas de
los sujetos en el test (discriminacin positiva). En los distractores (by e), la ten-
dencia es la contraria. En niveles de aptitud bajo, son igualmente seleccionadas,
y a medida que el nivel de aptitud aumenta la eligen cada vez menos sujetos (dis-
criminacin negativa). En resumen, las opciones incorrectas discriminan en sen-
tido contrario que la correcta.
En la figura 8.8, se presenta el caso de un mal tem. Es malo porque la opcin
correcta (a) es selecciona aproximadamente en la misma proporcin por suje-
tos poco competentes y muy competentes (discriminacin baja o prxima a
cero). Lo mismo ocurre con las alternativas incorrectas, que son seleccionadas
indistintamente por no-aptos, aprobados y notables (discriminacin prxima a
cero), adems el distractor C apenas es elegido por nadie, lo que significa que
es fcilmente identificado como incorrecto por cualquier sujeto y por tanto ten-
dra que revisarse.
441
1 PSICOMETRA
120 .----------------------. 80.----------------------.
70
100
60
80
50
60 40
.. .. ...... .. .. .. ............ .... ......... ..... ........ .......... ..
30
40
... b
- - - " " . ~ - .. .. c ..
.. ...................... . ~ .. ....
0 ~ - - - - - - - - - - ~ - - - - ~ ~ ~
20
e
20
10
0 ~ ~ - - - - - - - - ~ - - - - - - ~ ~
no-apto aprobado notable no-apto aprobado notable
Para cuantificar el poder discriminativo de las alternativas incorrectas, nos va-
lemos de la correlacin. Dependiendo del tipo de variable utilizaremos la bise-
rial , biserial-puntual, phi o Pearson.
EJEMPLO:
En la tabla 8.12 se muestran las respuestas de 5 sujetos a 4 tems. Entre par-
tesis se muestra la alternativa seleccionada por cada sujeto y la alternativa co-
rrecta con asterisco. Calcular la discriminacin del distractor b del tem 3.
tems
Sujetos 1 (a*) 2 (b*) 3 (a*)
A o (b) 1 o (b) 1 2 2
B 1 1 o (b) 1 3 3
e 1 1 1 1 4 3
o O (e) O (a) o (b) 1 1 1
E 1 1 1 o (b) 3 2
Los sujetos que han seleccionado la alternativa b, que es incorrecta, en el
tem 3 han sido el A, By D, luego la media de estos sujetos en el test despus de
eliminar la puntuacin correspondiente al tem analizado, es:
442
L.
jeto5
La
la de
Fir
las pL
El r
sentid
de un
Av
la distr
plo, er
aptituc
e es la
han se
cada a
.... .. ..........................
e
notable
incorrectas, nos va-
utilizaremos la bise-
14 tems. Entre par-
) y la alternativa co-
r b del tem 3.
X (X-i)
2 2
3 3
4 3
1 1
3 2
incorrecta, en el
el test despus de
x =2+3+1=
2
A 3
La media total del test descontando de las puntuaciones obtenidas por los su-
jetos, la correspondiente al tem 3 es:
Xr-i = 2+3+3+1+2 =2,2
5
La desviacin tpica de las puntuaciones correspondientes a (X-i)
s;_ = 22 + 32 + 32 + f + 22 - (2,2)2 =o, 56
5
sx-i =.J0,56 =0,75
La proporcin de sujetos que han acertado el tem 3 es 2/5 = 0,40; mientras
la de los sujetos que lo han fallado es 3/5 = 0,60.
Finalmente, la correlacin biserial-puntual entre la alternativa incorrecta by
las puntuaciones del test, descontando las del tem es:
rbp = XA -Xr-; {E= 2-2,2 J0,40 =-0,
22
sx-i ~ q 0,75 0,60
Nota: Tngase en cuenta que al ser la alternativa incorrecta la puntuacin de estos
sujetos en el tem es O y, por lo tanto no es necesario eliminar nada del test total.
El resultado obtenido es -0,22, lo que indica que este distractor discrimina en
sentido contrario a como lo hace la alternativa correcta, tal y cmo cabra esperar
de un buen distractor.
A veces, en el anlisis de los tems basta con una simple inspeccin visual de
la distribucin de respuestas de los sujetos a las distintas alternativas. As por ejem-
plo, en la tabla 8.13 se muestra el nmero de sujetos de los grupos extremos de
aptitud que han seleccionado cada una de las alternativas de un tem, donde la
e es la correcta. Para cada alternativa se muestra la proporcin de sujetos que la
han seleccionado (p), la media en el test de los sujetos que han seleccionado
cada alternativa (media) y el ndice de discriminacin (r
6
P) de todas las opciones.
443
1 PSICOMETRA
A B C*
Superior 20 25 55
Nivel de aptitud
Inferior 40 35 25
p 0,28 0,50 0,22
Estadsticos
Media 5 10 9
rbp
- 0 .20 0.18 0.29
Considerando los criterios anteriores, vemos que la alternativa correcta es
mayoritariamente elegida por sujetos competentes, lo que se refleja en un n-
dice de discriminacin positivo.
La alternativa incorrecta A, en principio ha sido elegida por un mnimo acep-
table de sujetos (28%), y es seleccionada en mayor proporcin por los sujetos
menos competentes que por los competentes. Adems la media en el test de los
sujetos que la han seleccionado es menor que la media de los que han selec-
cionado la alternativa correcta lo que es coherente con el ndice de discrimina-
cin negativo que presenta.
Finalmente, el distractor B ha de ser revisado dado que es elegido como co-
rrecto por los sujetos con mejores puntuaciones en el test. Adems, ha sido la op-
cin ms seleccionada (50%), su discriminacin es positiva, y la media de los su-
jetos que la han seleccionado es mayor que la de los sujetos que han optado por
la alternativa correcta.
En el anlisis de distractores aun podemos ir mucho ms all y recurrir a la
inferencia estadstica. En buena lgica, la media en el test de los sujetos que op-
tan por la alternativa correcta ha de ser mayor que la media de los sujetos que
han elegido cada una de las incorrectas. Este extremo se puede poner a prueba
mediante un Anlisis de la Varianza, en el que la variable independiente, o fac-
tor, sea cada uno de los tems con tantos niveles como alternativas de respuesta;
y la variable dependiente sea la puntuacin directa de los sujetos en el test (X=
suma de los tems acertados correctamente). Si los distractores discriminan ade-
cuadamente se supone que deberamos encontrar diferencias estadsticamente
significativas entre la alternativa correcta y el resto de alternativas. De la misma
manera, si las alternativas incorrectas fueran equiprobables, no se deberan en-
contrar diferencias estadsticamente significativas entre ellas. Un simple diagrama
de caja y bigotes nos puede servir para ilustrarlo. A continuacin a ttulo de ejem-
plo, se muestra el diagrama de cajas y bigotes de un tem cuyas 4 alternativas fun-
444
cio
ten
1
1
X
E
res u
cuac
lecc
lecc
suje
que
con
los s
se o!
a los
estr
Er
cons
En e ~
es eL
tendr
por e
ha si<
tanto
un ni
pequ'
de ba
nivel(
C*
55
25
0,22
9
0.29
31 ternativa correcta es
Je se refleja en un n-
a por un mnimo acep-
por los sujetos
media en el test de los
de los que han selec-
1 ndice de discrimina-
1e es elegido como ca-
Adems, ha sido la op-
a, y la media de los su-
:os que han optado por
ms all y recurrir a la
t de los sujetos que op-
de los sujetos que
puede poner a prueba
o fac-
ernativas de respuesta;
s sujetos en el test (X=
discriminan ade-
nati vas. De la misma
es, no se deberan en-
Un simple diagrama
acin a ttulo de ejem-
yas 4 alternativas fun-
cionan correctamente, y el diagrama de otro tem (tambin de 4 alternativas) que
tendra que ser sometido a un profundo proceso de revisin.
12

9
X X
6

----
3 3
o o
1 2 3 4 1 2 3
El diagrama de caja y bigotes del tem representado en la figura 8.9, presenta
resultados coherentes con la hiptesis de que los distractores funcionan ade-
cuadamente. De esta forma se aprecia que la media de los sujetos que han se-
leccionado la opcin correcta (3) es ms alta en el test que la de los que han se-
leccionado el resto de las opciones. A su vez se aprecia que la dispersin de los
sujetos que han seleccionado la alternativa correcta apenas se solapa con los
que han seleccionado las opciones incorrectas 2 y 4, no ocurriendo lo mismo
con la opcin 1, que en cierta medida podra estar confundiendo a algunos de
los sujetos con buenas puntuaciones en el test. En este mismo sentido tambin
se observa que los tres distractores atraen aproximadamente de la misma forma
a los sujetos con una aptitud media o baja, por lo tanto podemos concluir que
estn funcionando correctamente.
En el diagrama de cajas y bigotes de la figura 8.1 O se observa una gran in-
consistencia en las respuestas de los sujetos a las distintas opciones de respuesta.
En este caso la opcin 4 no ha sido seleccionada por nadie lo cual indica que
es claramente identificada como falsa (no aparece en el diagrama), y por tanto
tendra que revisarse ya que no atrae a los sujetos que en principio no tienen
por qu responder correctamente al tem. Adems la opcin incorrecta 3, slo
ha sido seleccionada por un sujeto cuya puntuacin ha sido baja en el test, por
tanto no funciona correctamente como distractor ya que no atrae a sujetos con
un nivel bajo o medio. La opcin incorrecta 2 presenta una variabilidad muy
pequea. La opcin correcta (1 ), ha sido respondida indistintamente por sujetos
de baja y alta aptitud lo que la invalida para diferenciar a sujetos con distintos
niveles en la variable medida (los bigotes ocupan prcticamente todo el rango
445
1 PSICOMETRA
de X). Segn estos resultados se puede decir que las opciones de este tem ten-
dran que ser revisadas ya que no sirven para diferenciar a sujetos con distinto
nivel de aptitud.
7. FUNCIONAMIENTO DIFERENCIAL DE LOS TEMS (FDI)
Otro aspecto a evaluar dentro del anlisis de tems, es si de manera sistem-
tica sujetos de distintos grupos de pertenencia pero con el mismo nivel en el
rasgo medido tienen distintas probabilidades de xito en el tem en cuestin
(Shultz y Whitney, 2005). A esta circunstancia se la conoce como funciona-
miento diferencial de los tems (FDI), reservando la palabra sesgo para la inter-
pretacin de las causas de dicho funcionamiento diferencial. Por el contrario, si
dichas diferencias son debidas a una diferencia real en la variable medida y no
a fuentes sistemticas de variacin entonces hablamos de impacto (Ackerman,
1992).
Conviene aclarar los tres conceptos presentados en el prrafo anterior; sesgo,
FDI, e impacto.
En palabras de Muiz (p. 236, 2001) Un metro estar sistemticamente ses-
gado si no proporciona la misma medida para dos objetos o clases de objetos
que de hecho miden lo mismo, sino que sistemticamente perjudica a uno de
ellos. En nuestro contexto, un tem estar sesgado si sujetos igualmente hbiles
no tienen la misma probabilidad de acertarlo por el hecho de pertenecer a sub-
poblaciones distintas. El concepto de sesgo se reserva para el estudio del motivo
o causa por el que el tem beneficia a unos sujetos frente a otros con la misma
aptitud. Este aspecto entronca directamente con la validez ya que implica un
error sistemtico (siempre en la misma direccin), y dentro de la validez, con-
cretamente, con la de constructo porque un tem sesgado implica que no est mi-
diendo el mismo rasgo en ambas subpoblaciones. En este caso, el rendimiento
de alguna de las subpoblaciones est afectado por alguna otra variable extraa
distinta a la que se supone que mide el tem.
El FDI es la herramienta que utilizamos para detectar posibles tems sesgados.
Para ello, hemos de comparar el rendimiento de grupos conformados por alguna
variable externa al concepto que el tem mide (gnero, raza, nivel econ-
mico, ... ), y que sin embargo estn equiparados en cuanto a su nivel de aptitud.
El FDI, simplemente detecta que un tem funciona de manera distinta en dos
grupos con el mismo nivel de aptitud (actitud, habilidad, competencia ... ), pero
una vez detectado el fenmeno, no apunta posibles causas.
446
iones de este tem ten-
a sujetos con distinto
OS TEMS (FDI)
; si de manera sistem-
l el mismo nivel en el
~ n el tem en cuestin
mace como funciona-
Jra sesgo para la inter-
::ial. Por el contrario, si
1 variable medida y no
le impacto (Ackerman,
prrafo anterior; sesgo,
sistemticamente ses-
tos o clases de objetos
1te perjudica a uno de
!tos igualmente hbiles
10 de pertenecer a sub-
a el estudio del motivo
2 a otros con la misma
dez ya que implica un
tro de la validez, con-
mplica que no est mi-
e caso, el rendimiento
1a otra variable extraa
osibles tems sesgados.
onformados por alguna
o, raza, nivel econ-
o a su nivel de aptitud.
anera distinta en dos
competencia ... ), pero
Reservamos el trmino impacto, para referirnos a diferencias reales entre gru-
pos. Es absolutamente lcito que el rendimiento de dos grupos en un tem sea dis-
tinto, y que ello se deba a diferencias en cuanto al nivel de competencia de las
subpoblaciones. La distincin entre FDI e impacto, estriba en que mientras en el
primero dichas diferencias no son reales (se deben a algn otro motivo distinto
al nivel de aptitud), en el impacto, sencillamente, un grupo de sujetos es ms h-
bil que otro (pinsese en un aula de un colegio que ha recibido mejor instruc-
cin que otra) .
As por ejemplo, imaginemos que dos grupos distintos de un curso de for-
macin continua sobre el manejo de procesadores de texto han tenido profeso-
res distintos. El profesor del grupo A ha centrado su docencia sobre un procesa-
dor de texto denominado palabra, mientras que el otro profesor (grupo B) ha
impartido una docencia mucho ms general dedicando bastante menos horas a
palabra . Al finalizar el curso se ha aplicado un test de rendimiento sobre di-
cho procesador, y se encuentra que el promedio de rendimiento del grupo A es
mayor que el del grupo B. Existe impacto o FDI? Muy probablemente, dado que
el grupo A ha recibido una instruccin mucho mejor sobre palabra han desa-
rrollado mucha ms competencia que el grupo B, por lo que habr diferencias
reales, y por tanto impacto entre ambos grupos. Para descartar la presencia de
FDI, tendramos que comparar las probabilidades de xito en cada tem de los
sujetos del grupo A y B que hayan obtenido la misma puntuacin en la prueba
de rendimiento sobre palabra . Si los tems no funcionan diferencial mente, en-
tonces deberamos encontrar las mismas posibilidades de xito entre sujetos de
ambos grupos igualados en aptitud.
Es fcil entender que nos encontramos ante un problema crucial en la cons-
truccin de tests ya que la presencia de sesgo puede tener importantes repercu-
siones sociales. Para ilustrar este extremo, simplemente imaginemos que un test
para detectar el riesgo de suicidio entre pacientes clnicos est sesgado. El test
funciona correctamente entre la poblacin anciana, pero no entre los jvenes.
Como resultado de aplicar este test habra muchos jvenes con un alto riesgo de
suicidio que no habran sido detectados y, por lo tanto, no habran sido tratados
adecuadamente. Como se ha apuntado anteriormente, para detectar el posible
FDI habr de comparar la probabilidad de riesgo de suicidio reportada por la
prueba entre sujetos (ancianos y jvenes) con la misma tendencia suicida. Si su-
piramos a ciencia cierta el riesgo de suicidio de los sujetos, podramos esta-
blecer varios niveles (normalmente entre 5 y 1 O) y comparar las puntuaciones del
test entre jvenes y ancianos en cada nivel. Es de esperar que si el test no est
sesgado dichas puntuaciones sean iguales para ambos grupos.
447
1 PSICOMETRA
20
18
16
....
1/1
Cl)
14 ....
Qj
e
12
Cl)
1/1
10
Cl)
e
o
;
8
ca
= ....
6
e
= Cl.
4
2
'
o
o 2 4

6 8
riesgo de suicidio

10

12 14 16
En la figura 8.11, observamos claramente el peligro que supone utilizar este
test. Sujetos con el mismo riesgo de suicidio puntan en el test diferencial mente
en funcin de su grupo de edad. As por ejemplo, cuando el riesgo de suicidio
es 16, los jvenes obtienen en el test una puntuacin mucho menor que los an-
cianos, lo que podra estar motivando que sujetos jvenes que necesitan una
atencin psicolgica urgente no la reciban. Precisamente, cuando menos riesgo
de suicidio existe (2) es cuando el test ofrece puntuaciones ms similares entre
ambos grupos.
7 .1. Mantei-Haenszel
Para detectar el FOI existen una amplia variedad de procedimientos estads-
ticos. Por su parsimonia y buenos resultados el mtodo de Mantei-Haenszel
(1959) es uno de los ms utilizados y adems se encuentra implementado en
gran parte de las aplicaciones informticas sobre FOl.
Para aplicar Mantei-Haenszel, en primer lugar habr que identificar una varia-
ble que sea la posible causante del FOl. Una vez seleccionada, hemos de confor-
mar dos grupos, uno de Referencia (GR), y otro Focal (GF). El GR suele coincidir
con el grupo favorecido. Por el contrario, el GF suele ser el conformado por los su-
jetos perjudicados. Luego se establecen distintos niveles de aptitud tomando la
puntuacin emprica obtenida en el test y, finalmente, se cuenta el nmero de res-
puestas correctas e incorrectas por cada grupo (GRy GF) y nivel de habilidad i.
448
1 - - - - - - - ~ - -
2

1
a_ncianos 1
+Jovenes
14 16
supone utilizar este
:est diferencial mente
el riesgo de suicidio
o menor que los an-
s que necesitan una
:uando menos riesgo
; ms similares entre
cedimientos estads-
ae Mantel-Haenszel
ra implementado en
identificar una varia-
Ha, hemos de confor-
1 GR suele coincidir
mado por los su-
aptitud tomando la
el nmero de res-
ivel de habilidad i.
Todo lo anterior, se traduce en la siguiente hiptesis nula: un tem no pre-
sentar FDI si el cociente entre los sujetos que aciertan el tem y los que lo fa-
llan es el mismo para los dos grupos en cada uno de los niveles de aptitud. Es
decir:
H
0
: A; = C; para todas las categoras
B; D;
donde:
A;, 8, C; y D; son las frecuencias absolutas de cada una de las categoras de
habilidad i de la siguiente tabla de contingencia 8.14:
. .
-
Correctas Incorrectas
GR A B
nR;
GF C D
nFi
n1 no; N
Una vez confeccionadas las tablas anteriores (una para cada nivel de aptitud
i) aplicamos el estadstico de Mantei-Haenszel.
[8.23]
Los valores obtenidos oscilan entre cero e infinito. Valores mayores que 1 in-
dican que el tem favorece al GR y menores al GF. Valores iguales a 1 o prxi-
mos indican que el tem no presenta FDI.
EJEMPLO:
Existen indicios de que un tem de las pruebas de acceso al PIR podra estar
perjudicando a los graduados por la UNED. Para investigar esta posibilidad se
han conformado 5 grupos de aptitud a partir de las puntuaciones del examen de
ingreso al PI R. Utilizar el mtodo de Mantei-Haenszel para comprobar si dicho
tem presenta FDI.
449
1 PSICOMETRA
A NO - UNED (GR) UNED (GF)
Nota examen aciertos fallos aciertos fallos
0-4 2 7 o 9
5-10 15 51 8 51
11-15 25 48 21 80
16-20 67 14 50 35
21-35 43 8 37 10
Los datos de la tabla anterior se organizan de acuerdo con las siguientes ta-
blas, una para cada nivel de aptitud.
aciertos fallos aciertos fallos
GR 2 7 GR 15 51
GF o 9 GF 8 51
18 125
#'- ',
Nivellll de habilidad (11 15) '
aciertos fallos aciertos fallos
GR 25 48 GR 67 14
GF 21 80 GF 50 35
174 166
:Z S Mil tiCJIl mur:;;; 3Uttt:fi2'JJJJ!'t?<t
aciertos fallos
GR 43 8
GF 37 10
98
450
t
p
gi
ra
tt
fo
ce
tE
co
ni
ca
UNED (GF)
fallos
9
51
80
35
10
con las siguientes ta-
fallos
51
51
125
fallos
14
35
166
Sintetizando los datos de las tablas anteriores, para facilitar los clculos po-
demos construir la tabla 8.16.
- ...
Niveles de aptitud
Nivel/
Nivel 11
Nivel 111
Nivel IV
Nivel V
Total
(Ax D)/N
(2 X 9 )/18 = 1
(15 X 51)/125 = 6,12
(25 X 80)/174 = 11,49
(67 X 35)/166 = 14,13
(43 X 10)/98 = 4,39
37,13
(Bx C)/N;
(7 X 0)/18 = 0
(51 X 8)/125 = 3,26
(48 X 21)/174 = 5,79
(14 X 50)/166 = 4,22
(8 X 37)/98 = 3,02
16,29
A la vista de los resultados, podemos concluir que el tem presenta FDI. El
tem perjudica sistemticamente a los psiclogos graduados por la U ~ - J E D . Por lo
tanto habra que sustituirlo para evitar la discriminacin observada.
8. RESUMEN
Llegados a este punto, una buena pregunta que podramos plantear es qu
propiedades hacen que un tem sea un buen instrumento de medida psicol-
gico? Una respuesta inmediata es que un tem es bueno cuando ayuda a mejo-
rar el test que se pretende desarrollar. Tarea de la que se ocupa el anlisis de los
tems, sin embargo, hay que enfatizar que este tipo de anlisis proporciona in-
formacin necesaria pero no suficiente acerca de la adecuacin de los tems
como indicadores o conductas del dominio de inters. Es decir, si bien cualquier
tem puede presentar unos estadsticos excelentes respecto a su calidad psico-
mtrica, podra tratarse de un elemento absolutamente irrelevante para medir el
constructo de inters si no se han tenido en cuenta los objetivos de la medida,
ni la relevancia y representatividad de los elementos seleccionados. En cualquier
caso, las condiciones necesarias que debera satisfacer un tem son:
451
1 PSICOMETRA
1. La dificultad ha de ser apropiada para los sujetos a los que se les va a ad-
ministrar. En lneas generales, en tests de ejecucin mxima, los tems no
deben tener dificultades ni por debajo de 0,20, ni por encima de 0,80.
Adems, se recomienda que la mayora de ellos presenten niveles medios
de dificultad, es decir, entre 0,30 y 0,70. tems extremadamente fciles, o
difciles no contribuyen a discriminar entre sujetos con distinto nivel en el
rasgo medido. En tems de actitudes, la dificultad es un parmetro al que
no hay que prestarle tanta atencin para mejorar la calidad de la prueba.
Se traduce en el grado de actitud media de los sujetos ante el tem, as que
dependiendo de si es una actitud positiva (actitud ante el altruismo por
ejemplo) o negativa (actitud ante la violencia) obtener un valor medio alto
ser bueno o malo respectivamente.
2. Los tems deben discriminar claramente entre los grupos altos y bajos en
aptitud y actitud. A veces encontramos tems que discriminan en sentido
negativo, esto es, sujetos con puntuaciones bajas en el test tienden a se-
leccionar la alternativa correcta en mayor proporcin que los sujetos con
puntuaciones altas. Esta situacin suele estar indicando que, por alguna ra-
zn, los sujetos con una buena aptitud se ven atrados por alguna opcin
incorrecta ambigua que, sin embargo, no resulta atractiva para los estu-
diantes con bajo nivel y que el propio redactor del tem no han podido de-
tectar. En tal caso, el tem debera ser revisado o descartado. Cuanto ms
discrimine un tem mucho mejor (por encima de 0,30 en los de aptitudes;
y de 0,20 en los de actitudes).
3. Los distractores deben funcionar como tales. Cada alternativa incorrecta
debe ser seleccionada por bastantes ms sujetos con puntuaciones bajas
en el test que por aquellos otros que presentan un buen nivel de aptitud,
y adems las alternativas incorrectas deben ser equiprobables.
4. Cuando sujetos que tienen el mismo nivel en el rasgo presentan distinta
probabi lidad de acertar un determinado tem, es necesario llevar a cabo un
anlisis exhaustivo por si fuera un tem que presentara funcionamiento di-
ferencial y estuviera provocando una clara discriminacin en una de las
subpoblaciones estudiadas. En este caso el tem debera ser revisado o eli-
minado.
452
9.
os que se les va a ad-
mxima, los tems no
por encima de 0,80.
:;enten niveles medios
fciles, o
:on distinto nivel en el
:; un parmetro al que
calidad de la prueba.
)S ante el tem, as que
ante el altruismo por
er un valor medio alto
rupos altos y bajos en
l iscriminan en sentido
el test tienden a se-
n que los sujetos con
1do que, por alguna ra-
das por alguna opcin
para los estu-
tem no han podido de-
escartado. Cuanto ms
30 en los de aptitudes;
l alternativa incorrecta
on puntuaciones bajas
buen nivel de aptitud,
Ji probables.
asgo presentan distinta
cesario llevar a cabo un
tara funcionamiento di-
ninacin en una de las
bera ser revisado o eli-
9. EJERCICIOS DE AUTOEVALUACIN
1. Las respuestas de 1 O sujetos a un tem dicotmico de tres alternativas se
muestran en la siguiente tabla, donde los 5 primeros sujetos son los que
peores puntuaciones han obtenido en el test total, mientras que los 5 lti-
mos los que ms han puntuado. Calcular el ndice de dificultad (ID e /De)
del tem en el grupo total (1 O sujetos), en el grupo con peores puntuacio-
nes (5 sujetos) y en el grupo con mejores puntuaciones (5 sujetos). Y el n-
dice de discriminacin del tem.
Sujetos con peores puntuaciones Sujetos con mejores puntuaciones
Sujeto
Respuestas Puntuacin
Sujeto
Respuestas Puntuacin
al tem total al tem total
A o 8 F 1 27
8 1 12 G o 28
e o 5 H 1 30
o 1 10 1 27
E o 7 J 1 25
2. La proporcin del 25% de sujetos con mejores puntuaciones en un test de
3 elementos que acertaron el tem 2 es del 70%, mientras que en el 25%
de los que obtuvieron puntuaciones ms bajas es del 32%. Con estos da-
tos calcular el poder discriminativo del tem 2 mediante el ndice D. Se-
leccionada una muestra aleatoria de 5 sujetos, presentan los siguientes re-
sultados en el test completo (entre parntesis la opcin correcta; y en cada
celdilla la elegida por cada sujeto). A partir de esos datos calcular el poder
discriminativo del tem 2 utilizando para ello la correlacin biserial-puntual
y la biserial. Y calcular la discriminacin del distractor e en el tem 1.
tems
Sujetos 1 (a) 2 (b) 3 (e)
A a b e
8 a a e
e e b e
o b e a
E a b e
453
1 PSICOMETRA
454
3. En la tabla siguiente se representan las puntuaciones dadas a un tem, por
el 25% de sujetos con puntuaciones ms altas, y el 25% con puntuacio-
nes ms bajas en un test de actitudes conformado por tems tipo Likert con
5 categoras de respuesta. Podemos decir que el elemento discrimina de
manera estadsticamente significativa?
Sujeto Puntuacin
20 10
25% superior 2 9
13 7
3 4
25% inferior 5 5
8 2
4. En la tabla adjunta aparecen las respuestas de 200 sujetos a las tres alterna-
tivas de respuesta (A, B, C) de un tem de un test, de las que la opcin B es la
correcta. Se sabe que la media del test, una vez descontada las puntuaciones
correspondientes al tem, es de 12 puntos. Tambin se presentan las medias
obtenidas en el test por los sujetos que respondieron a cada alternativa.
A B* e
50% superior 31 58 19
50% inferior 30 30 32
Media test 9 14 12
4.1. Calcular el ndice de dificultad del tem.
4.2. Sabiendo que la varianza de las puntuaciones empricas en el test es
9, calcular el ndice de discriminacin del tem. Justifica la eleccin
del ndice utilizado.
4.3. Comentar los resultados obtenidos y la calidad del conjunto de alter-
nativas.
5. Para investigar la posibilidad de sesgo en contra de los sujetos introverti-
dos en un tem de un test de seleccin de personal, se llev a cabo un an-
lisis del funcionamiento diferencial de los tems. Por ese motivo, se for-
ciones dadas a un tem, por
s, y el 25% con puntuacio-
do por tems tipo Likert con
elemento discrimina de
untuacin
10
9
7
4
5
2
O su jetos a las tres alterna-
lJe las que la opcin B es la
las puntuaciones
n se presentan las medias
ron a cada alternativa.
e
19
32
12
es empricas en el test es
tem. justifica la eleccin
d del conjunto de alter-
los su jetos i ntroverti-
' se llev a cabo un an-
Por ese motivo, se for-
6.
maron dos grupos, uno de extrovertidos (GR), y otro de introvertidos (GF)
a partir de las puntuaciones que se haban obtenido en otro test de perso-
nalidad previamente validado. En la siguiente tabla se muestra el nmero
de respuestas adecuadas (A) e inadecuadas(!) de los extrovertidos e intro-
vertidos en funcin de los niveles de adecuacin al perfil del puesto esta-
blecidos por el test de seleccin de personal que van de 7 (nada adecuado)
hasta 5 (muy adecuado). Analizar si existe FDI.
Extrovertidos (GR) Introvertidos (GF)
Nivel de adecuacin A A
1 3 6 1 10
2 11 36 6 45
3 59 28 15 66
4 78 10 43 32
5 80 9 46 29
Ejercicios conceptuales
1. El ndice de dificultad sin corregir de un tem dicotmico coincide con
el promedio de aciertos en el tem.
2. El poder discriminativo de un tem se puede estimar mediante el coefi-
ciente de correlacin biserial puntual entre las puntuaciones de los su-
jetos en el tem y las obten idas en un criterio externo al test.
3. El ndice de validez de un tem se define como la correlacin entre las
puntuaciones obtenidas en el tem y las puntuaciones en el test.
4. A medida que los tems seleccionados para conformar un test sean ms
fiables ms alta ser su validez.
5. Un distractor de un tem discrimina adecuadamente cuando los sujetos
con bajo nivel en el test tienden a acertar el tem.
6. Al aumentar el nmero de alternativas de respuesta de los tems se re-
duce la probabilid::1d de acertar por azar.
7. El mtodo de Mantei-Haenszel slo informa sobre cul es el grupo per-
judicado por el tem con sesgo, pero no sobre posibles motivos.
8. Seleccionar tems con mxima fiabilidad y validez garantiza que las
propiedades mtricas del test sean ptimas.
:iones dadas a un tem, por
, y el 25% con puntuacio-
)o por tems tipo Likert con
el elemento discrimina de
ntuacin
10
9
7
4
5
2
O sujetos a las tres alterna-
je las que la opcin B es la
las puntuaciones
n se presentan las medias
on a cada alternativa.
e
19
32
12
es empricas en el test es
em. justifica la eleccin
ad del conjunto de alter-
de los sujetos introverti-
1, se llev a cabo un an-
. Por ese motivo, se for-
6.
maron dos grupos, uno de extrovertidos (GR), y otro de introvertidos (GF)
a partir de las puntuaciones que se haban obtenido en otro test de perso-
nalidad previamente validado. En la siguiente tabla se muestra el nmero
de respuestas adecuadas (A) e inadecuadas(!) de los extrovertidos e intro-
vertidos en funcin de los niveles de adecuacin al perfil del puesto esta-
blecidos por el test de seleccin de personal que van de 7 (nada adecuado)
hasta 5 (muy adecuado). Analizar si existe FDI.
Extrovertidos (GR) Introvertidos (GF)
Nivel de adecuacin A A
1 3 6 1 10
2 11 36 6 45
3 59 28 15 66
4 78 10 43 32
5 80 9 46 29
Ejercicios conceptuales
1. El ndice de dificultad sin corregir de un tem dicotmico coincide con
el promedio de aciertos en el tem.
2. El poder discriminativo de un tem se puede estimar mediante el coefi-
ciente de correlacin biserial puntual entre las puntuaciones de los su-
jetos en el tem y las obtenidas en un criterio externo al test.
3. El ndice de validez de un tem se define como la correlacin entre las
puntuaciones obtenidas en el tem y las puntuaciones en el test.
4. A medida que los tems seleccionados para conformar un test sean ms
fiables ms alta ser su validez.
5. Un distractor de un tem discrimina adecuadamente cuando los sujetos
con bajo nivel en el test tienden a acertar el tem.
6. Al aumentar el nmero de alternativas de respuesta de los tems se re-
duce la probabilid::1d de acertar por azar.
7. El mtodo de Mantei-Haenszel slo informa sobre cul es el grupo per-
judicado por el tem con sesgo, pero no sobre posibles motivos.
8. Seleccionar tems con mxima fiabilidad y validez garantiza que las
propiedades mtricas del test sean ptimas .
455
1 PSICOMETRA
456
9. El coeficiente phi se utiliza para estudiar la relacin de un tem con un
criterio que slo adopta dos posibles valores.
1 O. La dimensionalidad del test es independiente de la discriminacin de
los tems.
10
)n de un tem con un
la discriminacin de
1 O. SOLUCIONES A LOS EJERCICIOS
DE AUTOEVALUACIN
1.
1 .1 o
La dificultad en el grupo total es:
A 6
10 = - =-=0 60
N 10 '
ID= _ _!]__=O 60 -
0
'
40
=0 40
e p k - 1 ' 3-1 '
En los 5 sujetos menos competentes es:
ID='l:_=O 40
5 '
ID =0 40-
0
'
60
=0 10
e ' 3 - 1 '
Mientras que en los 5 sujetos ms competentes es:
1 0 = ~ = 0 80
5 '
ID =0 80-
0
'
20
=0 70
e ' 3-1 '
Las conclusiones que debemos obtener son:
a) en primer lugar que la dificultad de los tems depende claramente del
nivel de competencia de la muestra de sujetos. De esta forma, para los
sujetos menos hbiles el tem ha tenido una dificultad media-alta; mien-
tras que para los ms hbiles ha sido extremadamente fcil: b) cuando
utilizamos el /Oc la dificultad siempre aumenta porque contrarresta el
efecto de acertar por azar; y esta correccin es mayor en la muestra de
sujetos menos hbiles porque se supone que es ms verosmil que res-
pondan sin conocer el contenido del tem y por tanto acierten por azar.
1.2. Para calcular el ndice de discriminacin, una primera aproximacin es
restar la proporcin de aciertos entre el grupo ms competente y el menos:
457
1 PSICOMETRA
2.
458
O = Ps - p = 0,80-0,40 = 0,40
De acuerdo con la tabla 8.5 podemos concluir que el tem discrimina
adecuadamente. Si consideramos conjuntamente la dificultad obte-
nida en toda la muestra y la discriminacin encontrada, tendramos
que considerar que se trata de un buen tem.
2.1. La discriminacin obtenida mediante el ndice O es:
O= Ps - p = 0,70- O, 32 =O, 38
2.2. La correlacin biserial -puntual viene dada por:
Para estimarla, primero preparamos adecuadamente la tabla de res-
puestas, destacando que la alternativa b es la correcta:
tems Total
Sujetos 1 (a) 2 (b*) 3 (e) X (X-i
2
)
A 1 1 1 3 2
8 1 o 1 2 2
e o 1 1 2 1
D o o o o o
E 1 1 1 3 2
Los sujetos que ha acertado el tem 2 son el A, C y E. Su media en el
test es:
XA=
2
+
1
+
2
=167
3 1
1,40
que el tem discrimina
nte la dificultad obte-
'lcontrada, tendramos
O es:
1,38
mente la tabla de res-
:orrecta:
Total
X
(X-i
2
)
3
2
2
2
2
1
o
o
3
2
. C y E. Su media en el
Xr-i = Xx-i =
2
+
2
+
1
+O+
2
= 1,40
5
52 . = 22 + 22 + 12 + 02 + 22 - (1 4)2 =o 64
X-1 .
5
1 1
s x-i = ..j0,64 = 0,8
La proporcin de sujetos que ha acertado el tem 2 es 3/5 = 0,60;
mientras la de sujetos que lo hctn fallado es 2/5 = 0,4.
rbp = XA -Xr-i {E= 1,67-1,4 {0,6 =0,
41
s x-i ~ q 0,8 ~ 0 , 4
La correlacin biserial viene dada por:
Si buscamos en las tablas el valor de y encontramos que vale 0,3863:
_XA-Xr-i p_1,67-1,4 0,6 -O
2 r
6
- -- - ,5
s x-i y 0,8 0,3863
La relacin entre la rbp y la rb:
y 0,3863
r
6
P = r
6
r:::;: = O, 52 ..J = O, 4 1
'1/Pq 0,6 0,4
Se observa que la correlacin biserial siempre es mayor que la biserial-
puntual. En cualquier caso, el tem presenta un buen ndice de discri-
minacin.
459
1 PSICOMETRA
460
2.3. Para calcular la discriminacin del distractor e del tem 1 procedemos
de la misma manera.
tems Total
Sujetos 1 (a) 2 (b) 3 (e) X (X-i
2
)
A 1 1 1 3 2
B 1 o 1 2 2
e O (e) 1 1 2 1
o o o o o o
E 1 1 1 3 2
El sujeto que ha elegido la opcin e en el tem 1 es el C, luego su me-
dia es:
- 1
XA = - = 1
1
X T-i = 2 + 2 + 1 + o + 2 = 1, 40
5
52 . = 22 + 22 + 12 + 02 + 22 - (1 4) 2 =o 64
X-1
5
1 1
sx-i = .j0,64 = 0,80
La proporcin de sujetos que ha acertado el tem 1 es 3/5 = 0,60;
mientras la de sujetos que lo ha fallado es 2/5 = 0,40.
rbp = XA -Xr-i {E= 1-1,4 {0,6 =-0,
61
sx-i Vq o,8 vo:4
Por tanto, se trata de un distractor muy bueno porque, precisamente
el sujeto que lo ha seleccionado ha obtenido una puntuacin muy
baja en el test.
3.
T=
4.
:: del tem 1 procedemos
Total
X
(X- i
2
)
3
2
2 2
2 1
o
o
3
2
n 1 es el C, luego su me-
,40
test:
4)
2
= 0,64
~ 1 tem 1 es 3/5 = 0,60;
5 = 0,40.
6
=-0,61
10 porque, precisamente
Ho una puntuacin muy
ANliSIS DE LOS TEMS 1
3.
Xs - Xij
T = -----;================ =
8, 67- 3, 67 = 4 9
(3 - 1l1,56+(3-1l1,56(I +I) '
4.
3+3-2 3 3
El valor emprico obtenido es de 4,9. Para un NC del 95% el valor terico
que encontramos en las tablas para 4 grados de libertad (3 + 3- 2) es de
2, 13. Dado que el valor emprico obtenido en los datos de nuestra mues-
tra es mayor que el terico, deberamos rechazar la hiptesis nula que es-
tablece que las medias para ambos grupos son estadsticamente iguales, es
decir, el tem discrimina adecuadamente.
4.1 .
4.2.
E
A - -
ID= K - 1
N
88 - 112
---==
2
- = o 1 6
200 '
rbp = XA- Xr-i E_ = 14-11, 67 J0,44 = 0,
64
sx-i ~ q 3 0,66
4.3. En funcin de la proporcin de respuestas a los distractores, parece
que el tem funciona adecuadamente. Es decir, no hay ninguno que
sea manif iestamente falso. Los sujetos menos competentes responden
a los distractores aproximadamente en la misma proporcin; mientras
que los ms hbiles identifican claramente la opcin correcta y no hay
ningn distractor que atraiga sus respuestas en una proporcin ele-
vada.
461
1 PSICOMETRA
5.
e
GR 3
GF 1
e
GR 59
GF 15
Niveles de aptitud
Nivel!
Nivelll
Nivellll
Nivel IV
Nivel V
Total
462
6
10
28
66
GR
GF
GR
GF
20
GR
GF
168
e
80 9
46 29
(Ax D;)/N;
(3 X 10)/20 = 1,5
(11 X 45)/98 = 5,05
(59 X 66)/168 = 23,18
(78 X 32)/163 = 15,31
(80 X 29)/164 = 14,35
59,19
164
e
11 36
6 45
98
e
78 10
43 32
163
(Bx e)/N
(6 X 1)/ 20 = 0,3
(36 X 6)/ 98 = 0,37
(28 X 15)/168 = 2,5
(10 X 43)/163 = 2,64
(9 X 46)/164 = 2 ,52
8 ,33
'f Ap;
L., --
a = i=l N; = 59, 1 9 =
7 1 0
MI-l
11
8 e 8 3 3
1
: - ~ - ~ ,
i=l N;
e
11 36
6 45
98
78 10
43 32
10
163
(Bx C)/N
(6 X 1)/ 20 = 0,3
(36 X 6)/98 = 0,37
(28 X 15)/168 = 2,5
(10 X 43)/163 = 2,64
(9 X 46)/164 = 2,52
8,33
Dado que aMH > 1, el tem favorece claramente al grupo de referencia, en
este caso al grupo de los extrovertidos, tal como se haba sospechado.
6. Ejercicios conceptuales
1 . Verdadero.
2. Falso.
Para calcular el poder discriminativo, hemos de considerar nicamente
las puntuaciones del test del que el tem forma parte. Cuando el crite-
rio es externo, dicha correlacin se podra interpretar mejor como un
indicador de validez del tem.
3. Verdadero.
4. Falso.
Se debe a una paradoja que ocurre en la Teora Clsica de los Tests dado
que la validez se puede representar a partir de la discriminacin de los
tems, de su fiabilidad y de la dificultad, se da el caso de que el suma-
torio de los IF (ndices de fiabilidad de los tems) es el denominador de
la ecuacin que relaciona dichos conceptos, y por tanto cuanto ms
elevado es el denominador ms pequea se hace la validez.
5. Falso.
Es justo lo contrario, un distractor funciona adecuadamente cuando los
sujetos que tienden a seleccionarlo son los que han puntuado bajo en
el test. La funcin de una opcin incorrecta es precisamente atraer la
atencin de los sujetos menos competentes.
6. Verdadero.
Se reduce la probabilidad de acertar porque un sujeto poco hbil ten-
dr ms opciones incorrectas entre las que elegir.
7. Verdadero.
Una vez detectado funcionamiento diferencial mediante Mantei-Haenszel,
el estudio de las causas del FDI se circunscribe al sesgo.
8. Falso.
Vimos anteriormente que seleccionar tems con mxima fiabilidad re-
dunda en una reduccin de la validez. Por tanto habr que buscar un
equilibrio entre ambas, y aun cuando obtengamos un test con estadsti-
cos ptimos puede darse el caso de que no sea adecuado para nuestros
objetivos, que carezca de validez de contenido, o aparente, por ejemplo.
463
1 PSICOMETRA
464
9. Verdadero.
1 O. Falso.
La discriminacin est muy influida por el nmero de conceptos im-
plicados en la obtencin de las puntuaciones del test. Slo tiene sentido
estimar la discriminacin de los tems dentro de la escala a la que per-
tenecen, por ello cuando tras un Anlisis Factorial obtengamos varias di -
mensiones en un test, la discriminacin de cada tem hemos de hallarla
dentro de su dimensin y no considerando nicamente la puntuacin
global del test porque entonces estaramos subestimndola.
11
BA
MI
Ca
ML
Ml
mero de conceptos im-
~ 1 test. Slo tiene sentido
e la escala a la que per-
al obtengamos varias di-
1 tem hemos de hallarla
icamente la puntuacin
estimndola.
11. BIBLIOGRAFA BSICA
BARBERO, l. (2007). Psicometra 11: Mtodos de elaboracin de escalas. Madrid:
UNED.
Captulo VIl: La tcnica de Likert para la medida de las actitudes.
MARTNEZ-ARIAS, M.T., HERNNDEZ, M.j. y HERNNDEZ, M.V. (2006). Psi-
cometra. Madrid: Alianza Editorial.
Captulo 3: La Teora Clsica de los Tests 11: puntuaciones, anlisis de elementos,
consideraciones finales.
MUIZ, J. (2003). Teora Clsica de los Tests. Madrid, Pirmide.
Captulo 4: Anlisis de tems.
MUIZ, J., MARTINEZ, R. , MORENO, R. , FIDALGO, A. y CUETO, E. (2005).
Anlisis de los tems. Madrid: La Muralla.
465

Tema 8 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Tema 8 PDF

Transféré par

Droits d'auteur :

Formats disponibles

HERNNDEZ LLOREDA,

Vous aimerez peut-être aussi