Introduccion Tri

TRI
INTRODUCCIN A LA TEORA DE RESPUESTAS AL TEM
Santo Domingo, Repblica Dominicana

2014
Ministerio de Educacin (MINERD)

Instituto Dominicano de Evaluacin e Investigacin de la Calidad Educativa (IDEICE)
Investigador Principal:
Dr. Hctor Valds Veloz
Diagramacin y diseo:
Yeimy Olivier
Natasha Mercedes
Centro de Documentacin:
Ing. Dilcia Armesto
ISBN: 978-9945-8859-8-9
Santo Domingo, Repblica Dominicana.
2014
El contenido de este material es de exclusiva responsabilidad de los autores
AUTORIDADES
Lic. Danilo Medina Snchez
Presidente de la Repblica
Dra. Margarita Cedeo
Vicepresidenta de la Repblica
Lic. Carlos Amarante Baret
Ministro de Educacin
Lic. Luis Enrique Matos de la Rosa
Viceministros de Educacin
Encargado de Asuntos Tcnicos Pedaggicos
Dr. Jorge Adarberto Martnez Reyes
Encargado de Supervisin, Evaluacin y Control de la Calidad Educativa
Ing. Vctor Ricardo Snchez Jquez
Encargado de la Oficina de Planificacin Educativa, OPE
Licda. Vivian Elizabeth Bez Bez
Direccin General de Recursos Humanos
DIRECTORES EJECUTIVOS Y DIRECTORES GENERALES
Denia Burgos, M.Ed
Instituto Nacional de Formacin y Capacitacin del Magisterio, INAFOCAM
Dr. Julio Leonardo Valeirn Urea
Instituto Dominicano de Evaluacin e Investigacin de la Calidad Educativa, IDEICE
Lic. Rosa Mara Kasse Soto
Oficina de Cooperacin Internacional del Ministerio de Educacin
Dra. Ancell Scheker Mendoza
Direccin General de Evaluacin de la Calidad Educativa
Mara Esperanza Ayala de la Cruz M.Ed
Direccin General de Supervisin Educativa
Dra. Carmen Margarita Snchez Ramos
Direccin de Currculo
INTRODUCCION A LA TEORA DE RESPUESTA AL TEM

Introduccin
La teora clsica del test (TCT) fue desarrollada durante los aos veinte del siglo pasado.
En esta teora el resultado de la medicin de una variable dependa del test utilizado, lo que
determinaba la existencia de serios problemas para tratar de establecer la equivalencia entre las puntuaciones de dos tests distintos que medan una misma variable, con lo cual era
poco probable poder comparar los resultados de dos poblaciones examinadas con dos tests
diferentes que trataban de medir sus rendimientos en aritmtica, por ejemplo.
De manera que en la TCT la medida de una variable es inseparable del instrumento utilizado
para medirla Esto constituye una seria limitacin de la referida teora, pues de manera operativa se define la variable por el instrumento que se utiliza para medirla.
Ya en el ao 1928 Thurstone sentenci con toda claridad: un instrumento de medida no
debe venir afectado por los objetos medidos sus mediciones deben ser independientes
de los objetos medidos. 1
La limitacin antes referida puede comprenderse con mayor claridad en el ejemplo siguiente:
Supongamos que el profesor de Matemtica de Julio le aplica una prueba elaborada bajo
los supuestos de la Teora Clsica del Test para conocer su rendimiento acadmico en esa
asignatura.
Semanas despus, al profesor de Julio se le extrava el examen aplicado y entonces lo somete a una nueva prueba elaborada siguiendo la misma teora. Horas ms tarde aparece el primer examen aplicado. Al calificar ambas pruebas los resultados son bastante diferentes. El
profesor se pregunta entonces: cul es el rendimiento acadmico de Julio en Matemtica?
Por otra parte, en la T.C.T las propiedades del instrumento de medida, o sea de los tems y
del test, estn en funcin de los sujetos a los que se les aplica.
Esto significa que, por ejemplo, el ndice de dificultad de un tem depender del nivel de
competencia o de habilidad que tenga el grupo de sujetos que lo responde.
Las dos limitaciones de la TCT antes descritas sintticamente demuestran que la misma estaba encerrada en una importante incongruencia terica: la medicin depende del instrumento utilizado y las propiedades de esta estn determinadas por las caractersticas o nivel
de habilidad de los sujetos que lo responden.
Para dar solucin a estas limitaciones se desarroll la Teora de Respuesta al Item (TRI). Su
nombre proviene del hecho de que su enfoque se basa en las propiedades de los tems ms
que en las del test en sentido global.
1 Thurstone, L.L. Attitudes con su measured. American Journal of Sociology 1928, pg. 547.
IDEICE 2014
Como Lord (1980) asegur, la TRI no contradice ni las asunciones ni las conclusiones fundamentales de la Teora Clsica de los Tests, sino que hace asunciones adicionales que permiten responder cuestiones esenciales que la TCT no poda.
Mientras que los conceptos bsicos de la TRI eran, y son, sencillos, la matemtica que la fundamenta era de cierta forma avanzada en comparacin a la utilizada por la Teora Clsica
del Test. Era difcil examinar algunos de estos conceptos sin hacer una gran cantidad de
clculos para obtener informacin til.
Por la razn antes expuesta no fue hasta los aos sesenta del siglo pasado, con la aparicin
del libro de Rasch (1960) y, sobre todo, con los aportes de Bienbaun, Lord y Novick (1968)
que se produce una rpida expansin en la utilizacin de la TRI, todo ello complementado
con el acceso generalizado a los computadores, imprescindible para realizar con relativa
facilidad los clculos necesarios para el tratamiento de esta teora.
La promesa central de la TRI fue solucionar las limitaciones de la TCT descritas en esta introduccin, es decir:

Obtener mediciones que no varen en funcin del instrumento utilizado, que sean
invariantes respecto de los tests empleados.
Disponer de los instrumentos de medida cuyas propiedades no dependan de los

objetos medidos, que sean invariantes respecto de los sujetos evaluados.
Adicionalmente la TRI proporciona todo un conjunto de avances tcnicos que resultan de

gran inters para la evaluacin psicolgica y la edumetra, tales como las funciones de informacin de los tems y del test, los errores tpicos de medida y una aplicacin de la teora de
importancia capital para los sistemas de medicin de la calidad de la educacin: el establecimiento de bancos de tems con parmetros estrictamente definidos.
Como se podr apreciar a continuacin, para lograr tales objetivos los supuestos de partida
de la TRI son muy fuertes y restrictivos.
Supuestos de la TRI
Generalmente cuando se van a desarrollar acciones de medicin psicolgica y educacional,
existe una variable fundamental de inters. Esa variable es conocida en la psicometra como
rasgo latente.
Un objetivo primario de la medicin educacional y psicolgica es la determinacin de cunto rasgo latente posee el individuo objeto de la medicin.
Pero esos rasgos latentes en general no se pueden medir directamente como las dimensiones fsicas, por ejemplo la altura y el peso.
Como en Educacin la mayora de las investigaciones han tratado a tales variables como
habilidades (de lectura, aritmtica, etc.), el trmino genrico de habilidad se usa dentro de
la teora de respuesta al tem para referirse a estos rasgos latentes.
Introduccin a la Teora de Respuesta al tem (TRI)
Normalmente para medir una habilidad se desarrolla un examen consistente en una cantidad determinada de tems (preguntas). Cada uno de estos tems mide alguna faceta de la
habilidad de inters y la suma de los aciertos obtenidos por el examinando, llevada a cierta
escala es el puntaje obtenido por l.
PRIMER SUPUESTO DE LA TRI:

Curva caracterstica del item (CCI)
La TRI asume que existe una relacin funcional entre los valores de la variable que miden los
tems y la probabilidad de acertar estos, denominando a dicha funcin curva caracterstica
de los tems (CCI). Ello significa que sujetos con distinta puntuacin en dicha variable (en la
prueba toda) tendrn posibilidades distintas de acertar determinado tem.
Luego, una suposicin razonable es que cada examinando que responda a un tem de un
examen, posee alguna cantidad de la habilidad medida por dicho examen. Por consiguiente, cada examinando tiene un valor numrico, una calificacin, que lo coloca en la escala de
habilidad. Esta habilidad es denotada por la letra griega q.
Para cada nivel de habilidad, habr cierta probabilidad de que un examinando con esa habilidad dar la respuesta correcta al tem. Esta probabilidad es denotada por P(q).
Para examinados de poca habilidad P(q) ser pequea, mientras que para examinados con
mucha habilidad P(q) ser grande.
En la figura 1 aparece la curva caracterstica de un tem. En el eje de abscisas se representan
los valores de la variable que mide el tem y en el de ordenadas aparece la probabilidad de
acertar el tem para los distintos valores de q.
P(0)
1
0.8
0.6
0.4
0.2
-3
-2
-1
FIGURA 1: Curva Caracterstica de un tem
IDEICE 2014
Como se aprecia en el grfico anterior esta curva en forma de S describe la relacin entre la
probabilidad de respuesta correcta a un tem y la escala de habilidad. Esta ltima, si bien
en la prctica muestra valores que van desde -3 a +3 , su margen terico es desde el
negativo infinito al positivo infinito.
La CCI, como su nombre lo indica, es eso, caracterstica, tpica, especfica de cada tem, caracteriza al tem; por tanto, las CCI de los tems que miden una determinada variable q no
son iguales, si bien compartirn determinada forma general.
El margen restringido empleado en las figuras (-3 a +3) es necesario solamente para ajustar
las curvas a la pantalla de la computadora de forma razonable.
Parmetros de la CCI
La curva caracterstica del tem es la piedra angular de la teora de respuesta al tem; todas
las otras estructuras de la teora dependen de esta curva. Hay tres propiedades tcnicas de
la curva caracterstica del tem que la describen. Estas propiedades reciben el nombre de
parmetros.
P(0)
1
0.8
0.6
a
0.4
c
-3
-2
-1
FIGURA 2. Parmetros de la CCI Parmetro a (ndice de discriminacin)
Parmetro a (ndice de discriminacin)

El valor de este parmetro es proporcional a la pendiente de la recta tangente a la CCI en el
punto de mxima pendiente de esta.
Cuando mayor sea la pendiente, mayor ser el ndice de discriminacin.
Esta propiedad tcnica de la CCI describe cmo un tem puede diferenciar entre los examinados que tienen habilidades inferiores a la localizacin del tem y los que tienen habilidades superiores a la localizacin del tem.
Mientras ms pendiente tenga la curva, mejor se puede diferenciar el tem mientras ms llana sea la curva, menos puede diferenciar el tem pues la probabilidad de repuesta correcta
a niveles de habilidad bajos es casi la misma que en los niveles de habilidad altos.
A mayor discriminacin la S es ms pronunciada.
una forma casi lineal, llana.
A menor discriminacin la S adopta
Parmetro b (ndice de dificultad)

En la teora de respuesta al tem, la dificultad del tem describe dnde el tem funciona en la
escala de habilidad.
Por ejemplo, un tem fcil funciona entre examinados de poca habilidad y un tem difcil funciona entre los examinados de mucha habilidad. O sea este es un indicador de localizacin.
Ntese que en esta teora la dificultad del tem se mide en la misma escala que q, de hecho
es un valor de q, aquel que corresponde a la mxima pendiente de la CCI, y en la prctica se
puede obtener localizando el punto en el eje q que corresponde a P(q) = 0,5, como puede
verse en la figura 3.
P(0)
1
0.8
0.6
0.5
0.4
0.2
-3
-2
-1
FIGURA 3. Ubicacin del parmetro b
A continuacin examinamos la idea de la dificultad del tem como ndice de localizacin.

En la figura 4, se presentan en el mismo grfico tres curvas caractersticas del tem. Todas
tienen el mismo nivel de discriminacin pero difieren con respecto a la dificultad. La curva
de la izquierda representa un tem fcil porque la probabilidad de respuesta correcta es
alta para examinandos de poca habilidad y se acerca al 1 para examinandos de mucha habilidad. La curva del centro representa un tem de dificultad media porque la probabilidad
de respuesta correcta es baja en los niveles ms bajo de habilidad, alrededor de 0,5 en el
medio de la escala de habilidad y cerca de 1 en los niveles ms alto de habilidad. La curva
de la derecha representa un tem difcil. La probabilidad de respuesta correcta es baja en la
IDEICE 2014
mayor parte de la escala de habilidad y aumenta solamente cuando se alcanzan los niveles
ms altos de habilidad. Incluso en el nivel ms alto de habilidad que se muestra en (+3), la
probabilidad de respuesta correcta es solamente 0,8 para el tem ms difcil.
P (0)
-3
-2
-1
FIGURA 4. Tres CCI con la misma discriminacin pero con diferentes niveles de dificultad.
El concepto de discriminacin, se ilustra en la figura 5. Esta figura contiene tres curvas caractersticas de tem que tienen el mismo nivel de dificultad pero defieren con respecto a la
discriminacin.
P(0)
1
0.8
0.6
0.4
0.2
-3
-2
-1
FIGURA 5. Tres CCI con la misma dificultad pero con diferentes niveles de discriminacin.
La curva superior tiene un alto nivel de discriminacin pues la curva tiene una gran pendiente en el medio en donde la probabilidad de respuesta correcta cambia muy rpidamente segn aumenta la habilidad. Solamente a una pequea distancia hacia la izquierda del
medio de la curva, la probabilidad de respuesta correcta es mucho menor que 0,5. La curva
del medio representa un tem con un nivel de discriminacin moderado. El desnivel de esta
curva es mucho menor que la anterior y la probabilidad de respuesta correcta cambia menos dramticamente que la anterior segn aumenta el nivel de habilidad.
Sin embargo, la probabilidad de respuesta correcta cambia menos dramticamente que
la anterior segn aumenta el nivel de habilidad. No obstante, la probabilidad de respuesta
correcta est cerca de cero para los examinandos de menor habilidad y cerca de 1 para los
examinandos de mayor habilidad. La tercera curva representa a un tem con poca discriminacin. La curva tiene un desnivel pequeo y la probabilidad de respuesta correcta cambia
lentamente por todo el margen de habilidades mostrado. Incluso en los niveles bajos de
habilidad, la probabilidad de respuesta correcta es razonablemente grande y aumenta solo
ligeramente cuando se alcanzan altos niveles de habilidad.
Parmetro c (pseudo adivinacin)
El parmetro c representa la probabilidad de acertar el tem al azar cuando no se sabe nada,
es decir, es el valor de P(q) cuando q= -a
En la prctica es el valor equivalente en el eje P(q) interceptado por la CCI (Ver FIGURA 2).
La CCI queda definida cuando se especifican estos tres parmetros y se adopta una determinada funcin matemtica para la curva. Segn el tipo de funcin matemtica adoptada
y el valor de los parmetros tendremos diferentes modelos de CCI.
Tipos de modelos de CCI

En el apartado anterior se definieron las propiedades tcnicas de la CCI en trminos de descriptores verbales. Ciertamente los mismos son tiles para obtener una comprensin intuitiva de las curvas caractersticas del tem, pero tambin debemos reconocer que carecen de
la precisin y el rigor necesarios para una teora.
Por tanto, en este epgrafe presentaremos tres modelos matemticos para la curva caracterstica del tem.
Estos modelos proporcionan una ecuacin matemtica mediante la cual se relaciona la habilidad (q) con la probabilidad de respuesta correcta P(q). De esta manera dichos modelos
y sus parmetros ofrecen un vehculo para comunicar informacin sobre las propiedades
tcnicas del tem.
Hasta el momento la mayora de las investigaciones que han abordado este tema, se han
centrado en dos tipos de funciones matemticas para la CCI: la funcin logstica y la curva
normal acumulada.
IDEICE 2014
Dada la mayor tratabilidad matemtica de la funcin logstica, en la actualidad los tres

modelos por antonomasia de la TRI son el logstico de un parmetro, de dos y de tres parmetros.
En los tres casos se asume que la respuesta a los tems es dicotmica, es decir, o se acierta
o se falla el tem, independientemente del nmero de alternativas que tenga, o que sea de
carcter abierto en el que los sujetos deben generar su propia respuesta, en cuyo caso sta
slo se considerar correcta e incorrecta, sin grados intermedios. No obstante, en la literatura existen otros tipos de modelos para respuestas multicategoriales, pero no sern objeto
de este curso.
La funcin logstica
El objetivo de esta apartado es hacerles desarrollar a los cursistas un sentido sobre cmo se
relacionan los valores numricos de los parmetros del tem para un modelo determinado
con la forma de la curva caracterstica del tem.
Bajo la teora de respuestas al tem, el modelo matemtico estndar para la curva caracterstica del tem es la forma acumulativa de la funcin logstica. La misma define a una familia
de curvas que tienen la forma general de las curvas caractersticas del tem mostradas en el
apartado anterior.
La funcin logstica se deriv por primera vez en 1874 y ha sido ampliamente utilizada en las
ciencias biolgicas para hacer modelos del crecimiento de las plantas y animales desde el
nacimiento hasta su madurez. Se utiliz por primera vez como modelo para la CCI a finales
de los aos cincuenta del siglo pasado y, por su simplicidad, se ha convertido en el modelo
preferido.
Modelo logstico de un parmetro (modelo de Rasch)

El modelo logstico de un parmetro fue formulado originalmente por Rasch (1960), recibiendo notable atencin desde entonces especialmente en la Universidad de Chicago por
Wright y Stone.
Es, sin dudas, el modelo ms popular de la TRI debido esencialmente a la sencillez emanada
de su lgica: la respuesta a un tem slo depende de la competencia del sujeto (q) y de la
dificultad del tem (b). En este modelo la CCI viene dada por la funcin
Y=
ex
(1+e x)
logstica, y el nico parmetro de los tems a tener en cuenta es b (ndice de dificultad). La

funcin logstica es una curva cuya frmula general viene dada por:
donde: e: base de los logaritmos neperianos, o sea, e=2,7182... =2,72
Ejemplo:
X
0,0
P(0)
1
-3 0,047
-2 0,119
0.8
-1 0,269
0 0,500
0.6
1 0,731
2 0,881
0.4
3 0,953
0.2
1,0
-2
-3
-1
FIGURA 6. Grfica del modelo logstico de un parmetro
Mediante el uso de una constante adicional (D = 1,7) en la funcin logstica sus valores se
aproximan notablemente a los de la curva normal acumulada, por lo que es frecuente encontrarla como sigue:
Pi(q)=
e Dx
(1+e Dx)
que, adaptada a la terminologa de la TRI para el caso particular de un parmetro, en el modelo de Rasch la CCI adquiere la expresin siguiente:
Pi(q)=
e D(q-bi)
1+e D(q-bi)
donde: P() : Probabilidad de acertar el tem i para un nivel de habilidad .

: Valores de habilidad en la variable medida.
bi: ndice de dificultad del tem i.
e: Base de los logaritmos naturales (2.72)
D: Constante (1,7)
Este modelo significa que:

Conocido el ndice de dificultad del tem (b).
Y la competencia de los sujetos
El modelo predice la probabilidad P(q) de que acierten el tem.
Nota: En adelante prescindiremos del subndice i.
IDEICE 2014
Ejemplo: 1 Cul es la probabilidad de que los sujetos con q=2 acierten un tem cuyo ndice
de dificultad es b = 1,5?
Pi(q)=
2,721,7(2-1,5)
1+2,721,7(2-1,5)
Pi(q)=
2,720,85
1+2,720,85
Pi(q)=
2,34090381
1+2,34090381
Pi(q)= 0,7
La frmula dada para el modelo de Rasch suele expresarse de una manera equivalente, resultado de dividir al numerador y al denominador de esta por eD(q-b); en cuyo caso quedara
expresado como:
Pi(q)=
1
1+e -D(q-bi)
Modelo logstico de dos parmetros

El modelo logstico de dos parmetros fue originariamente desarrollado por Bienboum
(1957, 1958, 1968). Asume que la CCI viene dada por la funcin logstica y contempla dos
parmetros de los tems, el ndice de discriminacin (a) y el ndice de dificultad (b). Su frmula viene dada por la expresin:
Pi(q)=
eDai(q-bi)
1+eDai(q-bi)
Donde: P(q) : : Probabilidad de acertar el tem i para un valor .

: Valor de la variable medida.
bi: ndice de dificultad del tem i
ai: ndice de discriminacin del tem i.
e: Base de los logaritmos referamos (2,72)
D: Constante (1,7)
Ejemplo:
El ndice de discriminacin de un tem es 2, y su ndice de dificultad 1,5: Qu probabilidad
tienen de acertar ese tem los sujetos cuyo nivel de habilidad en la variable medida sea 2,5?
10
Datos: a=2; b=1,5; =2,5; D=1,7

P(q)=
(2,72)(1,7)(2)(2,5-1,5)
=0,967
1+ (2,72)(1,7)(2)(2,5-1,5)
La probabilidad de superar el tem es muy elevada (0,967), como era de esperar, pues a medida que sea mayor que b, para un determinado valor de a, P() aumenta segn el modelo
logstico, lo cual es razonable, pues a mayor habilidad de los sujetos, mayor probabilidad de
superar un tem dado.
Modelo logstico de tres parmetros

Este modelo asume que la CCI viene dada por la funcin logstica y aade a los dos parmetros a y b ya citados un tercero c relativo a la probabilidad de acertar el tem al azar,
cuando no se conoce la respuesta. Mas tcnicamente, c, es el valor de Pi () para un valor de
q = -a
En la prctica c, es el intercepto de la curva con el eje P().
El modelo puede expresar como sigue:
Pi(q)=ci + (1-ci)
eDai(q-bi)
1+ eDai(q-bi)
Ejemplo:
La probabilidad de acertar cierto tem al azar es 0,25, su ndice de dificultad es 0,5 y su
ndice de discriminacin es 1,25. Cul es la probabilidad de acertar ese tem para sujetos
con q =1?
Datos: =1; ci=0,25; D=1,7; ai=1,25; bi=1,5 ;;
Pi(1)=0,25+(1-0,25)
(2,72)(1,7)(1,25)(1-0,5)
0,805
1+ (2,72)(1,7)(1,25)(1-0,5)
Pi(1)=0,805
Nota: Como seguramente ya el lector ha comprendido, el modelo logstico de tres parmetros es el ms general: si se hace C=0, se obtiene el de dos parmetros y si adems a se
asume constante para todos los tems se obtiene el de un parmetro.
IDEICE 2014
11
SEGUNDO SUPUESTO: Unidimensionalidad.

Como ya hemos explicado anteriormente la CCI establece una relacin funcional entre la
probabilidad de acertar un tem y los valores de . Por tanto, si el modelo es correcto, la probabilidad de acertar un tem nicamente depender de un factor, de .
En otras palabras, la TRI asume en su formulacin que los tems destinados a medir la variable constituyen una sola dimensin, son unidimensionales.
Sobre cmo comprobar que un conjunto de tems constituye una sola dimensin existen
diversas opiniones entre los investigadores, habindose propuesto hasta la fecha nmeros
ndices al respecto. No obstante, el anlisis factorial sigue siendo el mtodo ms utilizado.
Dado que empricamente raras veces se encuentra una unidimensionalidad perfecta, o sea,
que un solo factor d cuenta del 100% de la varianza, la unidimensionalidad en la prctica
se verifica a partir de cunta ms varianza explique el primer factor.
Un problema clsico de difcil solucin que surge al someter a un anlisis factorial tems
dicotmicos, como son la mayora de los utilizados en los tests que aplican todos los consorcios internacionales de evaluacin, es lo que se ha dado en llamar factores de dificultad,
refirindose a que los factores obtenidos dependen en cierta medida de la dificultad de los
tems.
TERCER SUPUESTO: Independencia local

Del cumplimiento de la unidimensionalidad se deriva matemticamente la existencia de independencia local. Esto significa que para un sujeto con un determinado valor en la variable
unidimensional su respuesta a un tem no est influida por su respuesta en los otros tems.
La independencia local puede expresarse de otra manera, diciendo que la probabilidad de
que un sujeto acierte n tems es igual al producto de las probabilidades de acertar cada uno
de ellos.
Ejemplo:
Si un test consta de tres tems y la probabilidad de acierto de un sujeto en el primer tem es
P(A1)=0,40, de que acierte el segundo P(A2)=0,50 y el tercero P(A3)=0,80, lo que establece el principio de independencia local es que la probabilidad de que este sujeto acierte
los tres tems es:
P(A1, A2, A3) = (0,40)(0,50)(0,80)=0,016
Analgicamente puede hablarse de independencia local de los sujetos en el sentido de que
el rendimiento de un sujeto es independiente del rendimiento de los otros.
12
Comprobacin del ajuste a los datos de los modelos.

Cmo proceder en la prctica para elegir uno de los modelos, estimar los parmetros de los
tems, la habilidad de cada sujeto y comprobar que el modelo se ajusta a los datos?
A continuacin se describe el algoritmo que debe seguirse para dar respuesta a la pregunta
anterior, explicando brevemente en qu consiste cada uno de los pasos o etapas por las que
se debe transitar.
1. Definicin rigurosa de la variable que se pretende evaluar.

Este primer paso no es especfico de la TRI, atae a cualquier medicin psicolgica o educacional rigurosa.
Si no se define con rigor aquello que se desea evaluar, mal se podr medir.
Definir con rigor no se refiere nicamente a dejar claros los deseos, lo que se pretende medir, hay que delimitar el marco terico, las posibles conexiones con otras variables y teoras,
antecedentes, etc.
En tal sentido la medicin podr hacerse:

Con arreglo al estado del arte a nivel mundial de la dimensin disciplinar que se
pretende evaluar.
Para evaluar el estado de la dimensin disciplinar en su aplicacin estrictamente

curricular o un subconjunto de esta (precisando la oportunidad real de aprendizaje que han tenido los alumnos).
Una mezcla de las variantes anteriores (Ejemplo: dimensin disciplinar curricular

con nfasis en las habilidades para la vida).
En cualquier caso, resulta necesario operacionalizar el marco terico precisamente definido

a travs de una tabla de especificaciones. L a prueba a elaborar deber entonces satisfacer
la referida tabla.
2. Elaboracin de los tems destinados a medir la variable.

Elaborar buenos tems es como escribir poesas, si existieran reglas de aplicacin automtica todos seramos excelentes poetas, pero desafortunadamente no es as. No obstante, a
continuacin mostramos algunas reglas para la elaboracin de tems de seleccin mltiple
con nica respuesta correcta, cuya observancia puede ayudar sin dudas a elaborar tems
con una adecuada calidad:
IDEICE 2014
13
Algunas consideraciones sobre la elaboracin de preguntas para las pruebas pedaggicas de lpiz y papel.
Actualmente la mayora de los consorcios internacionales que hacen evaluacin educativa
comparada tales como TIMSS, PISA, LLECE, SALMEQ, etc., utilizan mayoritariamente en sus
pruebas preguntas o tems con formato de seleccin mltiple con una nica respuesta correcta, especialmente por la facilidad de su aplicacin y calificacin. Sin embargo, es errado
creer que resulta fcil tambin su elaboracin, todo lo contrario.
Elaborar buenos tems es una labor que exige mucha prctica, adems de un conocimiento
profundo del objeto de evaluacin y de la poblacin que se va a evaluar.
Para que cada tem aporte su mximo potencial al propsito de la evaluacin resulta necesario que sus elaboradores dominen el marco conceptual del instrumento, as como las
especificaciones tcnicas del mismo.
El proceso de diseo y aplicacin de pruebas integra diferentes, a saber:

Elaboracin de su fundamentacin conceptual.
Construccin de la tabla de especificaciones de la prueba.
Desarrollo de los tems y de la prueba en su conjunto.
Pilotaje.
Aplicacin.
Anlisis de tems y de la prueba en su conjunto.
Escala de calificacin.
Produccin y divulgacin de resultados.
Obviamente, luego de construir el marco terico de la prueba, debe procederse a la elaboracin de tems, en cuyo proceso deben tenerse en cuenta las siguientes reglas. 2 1
Reglas generales

Verificar que el tem corresponda con los propsitos de la evaluacin, la estructura de la prueba y con las dimensiones disciplinares. Todas las preguntas de una
prueba deben ser independientes entre s. La informacin de un tem no debe
servir de pauta para contestar otro, ni la respuesta a un tem debe depender de
haber encontrado primero la de otra anterior.
Evitar los tems que pueden contestarse por sentido comn y aquellos cuya respuesta dependa nicamente de recordar un trmino, un smbolo, un dato o la
fecha en que ocurri un evento.
Evitar expresiones rebuscadas que puedan confundir. Se recomienda emplear un

lenguaje directo, sencillo y comprensible.
Los tems no deben tener juicios de valor explcito o implcito.
2 Rocha, Martha y otros. Seminario regional Evaluacin de la Educacin. Taller de elaboracin de tems, ICFES,
agosto de 2006, p. 10.
14
Reglas sobre los enunciados

Los enunciados deben ser afirmativos, en caso de ser necesaria la negacin, se

debe resaltar para llamar la atencin hacia la formulacin negativa. La doble negacin afecta la comprensin (No es cierto que no procedan los recursos).
Evitar enunciados demasiado extensos y poco atractivos ya que desmotivan la

lectura, disminuyen el tiempo de respuesta y fatigan.
Garantizar la coherencia interna del enunciado y de este con las opciones de respuesta.
Reglas sobre las opciones

Las opciones de respuesta deben pertenecer al mismo campo semntico.
Las opciones de un tem no deben dar indicaciones sobre la clave por ofrecer un
cierto contraste evidente de:
longitud precisin / imprecisin
uso comn / tcnico
generalizacin / particularizacin
No se deben repetir expresiones en las opciones de respuesta, si stas se pueden

incluir en el enunciado del tem. Repetir la misma palabra del enunciado en cualquiera de las opciones lleva a que sea elegida como respuesta, sin serlo necesariamente.
Debe evitarse en las opciones las expresiones todas o ninguna de las anteriores,
en su lugar es necesario construir alternativas de respuestas plausibles para las
personas que no tengan el dominio conceptual que exige el tem.
Realizar una revisin gramatical y ortogrfica de cada uno de los tems.
Fases del diseo de la prueba

Fundamentacin conceptual
Esta es la fase en la que se aborda conceptualmente el objeto de la evaluacin. En ella bsicamente se da respuesta a las interrogantes siguientes:

Para qu la evaluacin? (Su propsito)
Qu se evala? (Su objeto)
A quin se evala? (Caractersticas de la poblacin objetivo)
A quin le ser til la evaluacin y de qu manera?(Usuarios de la evaluacin y

precisin de los beneficios de la misma)
IDEICE 2014
15
Especificaciones de la prueba
Constituyen una descripcin lo ms detallada posible de las caractersticas del instrumento.
Suele utilizarse para hacer tal descripcin una tabla de doble entrada: en la primera columna es comn colocar una desagregacin del objeto de evaluacin en dimensiones (tpicos
disciplinares) y en el resto de las columnas se suele escribir la delimitacin de las especificidades tcnicas del instrumento, tales como longitud (estructura de la prueba) y formato
(especificidades psicomtricas).
Al hacer el anlisis de una prueba que satisfaga la tabla de especificaciones antes referida
es posible describir, diagnosticar, el rendimiento de los alumnos que la realicen desde el
punto de vista conceptual, procedimental y actitudinal. Puede incluso construirse un ndice
con cada una de sus dimensiones ( conceptual, procedimental y actitudinal) y precisar en
cul de ellas los alumnos tienen mayores deficiencias.
Particular importancia tiene el poder constatar el grado de asimilacin que han alcanzado
los alumnos en la dimensin actitudinal, la cual sin dudas es un componente esencial de sus
orientaciones valorativas.
La descripcin de las tareas de evaluacin a partir de las cuales ser posible materializar (en
tems) el propsito de la evaluacin constituye la operacionalizacin del objeto de evaluacin.
Como para de las especificaciones psicomtricas se debe clarificar el nmero de tems que
tendr el instrumento en su totalidad.
Desarrollo de la prueba
Es esencial destacar que el propsito de esta fase es producir un instrumento de evaluacin
y no un agregado de tems.
Despus de elaborar los tems, se ensambla el instrumento de acuerdo con las especificaciones psicomtricas y se somete a una revisin final, generalmente por parte de expertos en
evaluacin y en el objeto de evaluacin.
De manera que una prueba es un conjunto intencionalmente articulado de tems a travs
de cuya aplicacin se infiere el desempeo de quienes son evaluados en relacin con el
objeto de la evaluacin.
Aplicacin piloto
En esta fase el instrumento es aplicado a una muestra de la poblacin objetivo para estimar
indicadores estadsticos que permitan corroborar la calidad tcnica del instrumento y el
grado de pertinencia de los tems para la poblacin.
Las condiciones de la aplicacin piloto deben guardar la mayor similitud posible con las
condiciones que tendr la aplicacin definitiva.
16
Cuando no existen las condiciones logsticas necesarias para garantizar una adecuada aplicacin piloto de la prueba, se puede utilizar como alternativa un juicio de
expertos, o sea un procedimiento a travs del cual un equipo de personas expertas
en el objeto de evaluacin y en procesos de evaluacin, los que califican los tems
de un instrumento a la luz de las consideraciones planteadas en la fundamentacin
conceptual de la prueba y su coherencia con los objetivos de la evaluacin, sus especificaciones psicomtricas y las caractersticas de la poblacin objetivo.
Contenido de los tems
Para hacer tems de buena calidad es necesario conocer las caractersticas de los distintos
formatos de tems que han de utilizarse en la evaluacin, aplicar las reglas para su correcta
elaboracin y evitar los factores que pueden afectar su validez.
Posibles formatos de los tems
A continuacin mostramos una clasificacin de formatos de tems tomando como criterio o
base de la misma lo que el evaluado hace cuando se enfrenta a un tem, o sea seleccionar o
producir una respuesta.
Seleccin de respuestas
Seleccin mltiple
Apareamiento
Seleccin alterna
Verdadero - Falso
Dependientes de contextos
Formato
de items
Produccin de respuestas
Completar respuestas
Ensayo corto
Ensayo largo
Ensayo oral
Ejecucin
Productos no escritos
En la elaboracin de un instrumento es posible incluir variedad de formatos. Ahora bien,

cada tipo de formato tiene un conjunto de requisitos particulares de elaboracin y tiene
distinto potencial evaluativo.
Generalmente se procura incorporar un nmero significativo de tems de un mismo formato
a los efectos de que la lectura de las instrucciones no relegue a un segundo plano el propsito evaluativo fundamental.
IDEICE 2014
17
En este libro solo mostraremos la tcnica de elaboracin de tems del formato seleccin
mltiple con una nica respuesta correcta y en la ejemplificacin pondremos el nfasis en
aquellos tems cuyo propsito es evaluar los contenidos actitudinales.
El tem de seleccin mltiple con nica respuesta correcta
Las partes que componen un tem de este tipo son:

El contexto
El enunciado
Las opciones de respuestas
El contexto
Es la informacin que sita conceptualmente al evaluado pues provee los elementos necesarios y suficientes para focalizar la tarea de evaluacin. Este puede ser un texto, una grfica,
un dibujo, una tabla o cualquier otra forma de presentacin de la informacin a partir de
cual se deriva el enunciado.
El enunciado
Es el planteamiento propiamente dicho, de la problemtica que se espera sea resuelta por
el evaluado. 3 1
Comnmente los enunciados de tems de seleccin mltiple como nica respuesta correcta
se plantean en forma de pregunta o como una proposicin. En el primer caso las opciones
se redactan como respuestas a la pregunta; en el segundo caso, en enunciado constituye la
primera parte de una proposicin y cada una de las opciones debe completar coherentemente el enunciado.
Es conveniente tener en cuenta que para los nios la redaccin en forma de preguntas resulta mas clara.
Las opciones de respuesta
Las opciones son posibles inverosmiles respuestas a la problemtica planteada en el enunciado.
Reglas para la elaboracin de tems de seleccin mltiple con nica respuesta correcta.
Las reglas de elaboracin de tems que a continuacin les presentamos, tienen la pretensin
de orientar al evaluador para que los tems que elabore evalen realmente el objeto de evaluacin que se pretende; en tal sentido, la aplicacin de tales reglas contribuye a consolidad
la validez de la interpretacin de los resultados4.2
3 AERA, APA, NCME (1999) standard for educational and psychological testing. Washintong: AERA
4 Rocha, Martha y otros. Seminario regional Evaluacin de la Educacin. Taller de elaboracin de tems, ICFES,
agosto de 2006, pg. 30-31.
18
Reglas sobre el contenido de los tems

Evite elaborar tems que confunden al evaluado. Diferentes estudios han establecidos cules son algunas de las situaciones que llevan a percibir los tems como
confusos entre stas estn:
a) Contenido trivial.
b) Presencia de informacin irrelevante.
c) Presentacin ambigua de las opciones de respuesta.
d) Discriminacin muy fina difcil de percibir entre las opciones de respuesta.
e) Presentacin de informacin en modo distinto a como ha sido aprendida por la
poblacin evaluada, dentro de su proceso educativo.

Cada tem debe corresponder a una tarea de evaluacin definida en al estructura

de prueba.
Evite evaluar el mismo aspecto especfico con varios tems. Aproveche cada tem
para hacer cada vez ms completa la evaluacin.
Plantee una sola problemtica en cada tem.
Evite tems que incluyan posiciones ideolgicas o prejuicios; que tenga en cuenta
que las proposiciones prejuiciosas pueden resultar en una ofensa para cualquiera
de los evaluados. Se excepta esta recomendacin si justamente dichas posiciones son el objeto de evaluacin; entonces ser obligatorio incluirlas.
El vocabulario utilizado debe ser adecuado para la poblacin objetivo.
Cada tem debe ser independiente y no proveer informacin para responder a

otros.
No utilice tems que aparezcan en libros, revistas u otros documentos, como base
para sus tems. Elabore tems originales.
Evite tems en los cuales se indague la opinin (parecer no argumentado) del evaluado (a menos que el instrumento justamente pretenda servir para un sondeo
de opinin).
Evite plantear tems cuya respuesta vlida se determine segn la opinin de quien
la elabora.
Balancee la complejidad de los tems para que el instrumento cubra los niveles
de habilidad de la poblacin objetivo, es decir, la prueba debe incluir tems de
dificultad alta, media y baja.
Reglas sobre construccin del enunciado

Si plantea el enunciado en forma de proposicin incompleta asegrese de usar

conjugaciones verbales, gnero y nmero adecuados para las opciones de respuesta que plantear. Si lo escribe en forma de pregunta asegrese de usar adecuadamente signos de interrogacin y la estructura gramatical de una pregunta.
Presente en el enunciado la tarea de evaluacin.
Escriba con claridad.
IDEICE 2014
19
Evite texto excesivo.
Redacte el enunciado en forma positiva; es decir, evite negaciones.
Reglas sobre construccin de opciones de respuesta
20
Asegure la concordancia gramatical entre la proposicin del enunciado y cada

opcin.
Organice las opciones en un orden lgico (alfabtico, longitud, etc.) o numrico.
Mantenga la independencia entre las opciones. stas no deben solaparse o intersectarse y no deben ser sinnimas.
Refirase en todas las opciones al problema planteado en el enunciado. Evite opciones fcilmente descartables.
Elabore opciones de respuesta de longitud similar.
Evite colocar como opcin:

--
Todos los anteriores
--
Ninguno de los anteriores
--
A y B son correctas (o cualquier combinacin de opciones)
--
No s
Redacte las opciones en forma positiva, es decir evite negaciones. Si debe colocar
una negacin, resltela (use negrilla o maysculas sostenidas).
No repita en las opciones frases contenidas en el enunciado.
Elabore tems con 4 opciones de respuesta. Elaborar opciones plausibles es dispendioso; seguramente ganar calidad en las que redacte si no son demasiadas.
Hay referencia de distintos estudios que analizaron la cantidad de opciones tiles para los propsitos de evaluacin; si bien no existe consenso alrededor de un
nico nmero de opciones, se encuentra a menudo conveniente, en cuanto a facilidad de redaccin y capacidad de discriminacin, trabajar con 4 opciones, para
poblaciones de infantes puede ser conveniente usar 3 opciones.
Evite en las opciones el uso de adverbios como:

--
Siempre
--
Nunca
--
Totalmente
--
Absolutamente
--
Completamente
La posicin de la opcin vlida debe balancearse entre todos los tems del instrumento. Es recomendable que aparezca proporcionalmente en cada posicin
posible.
Evite que la opcin vlida pueda ser identificada fcilmente por contraste con las
dems opciones, por alguna de las siguientes situaciones:
--
Tener mayor longitud
--
Ser la proposicin de mayor precisin o imprecisin
--
Estar redactada en un tipo de lenguaje diferente (tcnico o comn)
--
Tener el mayor nivel de generalizacin o de particularidad
--
Tener las mismas palabras que el enunciado
--
Referirse a una problemtica o tema diferente
Justifique adecuadamente cada una de las opciones para garantizar que slo hay
una vlida que las dems son plausibles para quienes no dominan completamente la tarea de evaluacin.
Sobre la validez
Factores que afectan la validez
Cuando hablamos actualmente de validez no nos referimos al instrumento, sino a las inferencias e interpretaciones realizadas a partir de los resultados obtenidos en un proceso de
evaluacin donde se ha utilizado el instrumento en cuestin.
Entendemos entonces por validez el juicio evaluativo del grado en el cual la evidencia
emprica sustentan la pertinencia y conveniencia de las inferencias acerca de los resultados
en un instrumento de medicin as como de las acciones que se realizan a partir de dichos
resultados.15
La elaboracin de los tems puede verse afectada en cuando a la validez por los siguientes
factores:

La tarea planteada por el tem no es relevante para la evaluacin del objeto planteado en el marco de fundamentacin.
En el tem se incluye informacin que facilita o dificulta la tarea de evaluacin

planteada, ms all de su propsito.
No se garantiza la confidencialidad del instrumento antes de su aplicacin.
No existe una frmula nica y universal para mejorar la calidad de un tem, pero sin lugar a
dudas el estricto cumplimiento de las reglas para su elaboracin y el tomar distancia de los
factores que pueden afectar su validez, ayudan de manera decisiva a conseguir que tengan
una adecuada calidad.
3. Aplicacin de los tems a una muestra amplia de sujetos perteneciente a la poblacin en

lo que se utilizar el futuro test y clculo de los ndices clsicos de los tems.
Los tems elaborados se aplican a una muestra lo ms amplia posible de sujetos pertenecientes a la poblacin en la que se va a utilizar (pilotaje), y se calculan para cada tem los
ndices de la Teora Clsica del Test, lo cual permitir hacer una primera decantacin de algunos que resultan claramente inadecuados. Programas con el ITEMAN para computadores
personales facilitan esa labor.
5 Messick, S (1989). Validity. In R. L. Linn (Ed.). Educational measurement (3rd ed. Pgs 13 103. New York: Mac
millan)
IDEICE 2014
21
4. Comprobacin de la unidimensionalidad de los tems.

El anlisis factorial sigue siendo la tcnica ms apropiada, pero no hay un criterio claro a partir del cual se puede afirmar la unidimensionalidad. No obstante, el porcentaje de varianza
explicada por el primer factor es un ndice sencillo y claro de la relevancia del factor y, por
ende, del grado de unidimensionalidad.
El proceso de unidimensionalidad de los tems suele realizarse en varios pasos:

Un primer anlisis factorial que descarta aquellos tems que conforman factores
perifricos.
Se hace lo mismo en posteriores anlisis hasta lograr un anlisis en el que un factor explica la mayor parte, idealmente toda, de la varianza de los tems.
5. Elegir uno de los modelos de TRI

Una vez probado que los tems conforman un test unidimensional, el siguiente problema es
qu modelos de TRI es ms razonable utilizar.
Cualquier eleccin a priori es lcita para el investigador, pero ser el ajuste del modelo a los
datos lo que decida lo correcto o incorrecto de la eleccin.
Ahora bien, ciertas caractersticas de los tems pueden proporcionar algunas claves que mejoren la mera eleccin al azar o capricho, entre estas:

es poco razonable intentar ajustar un modelo de un parmetro (Rasch) si se sospechan ndices de discriminacin no iguales, lo cual puede evaluarse tentativamente escrutando dichos ndices en la Teora Clsica del Test (TCT), o si es alta la
probabilidad de acertarlos al azar (el modelo de un parmetro asume un ndice de
discriminacin constante (a=K ) y (c=0).
Si c=0 el modelo de dos parmetros es poco plausible a priori.
Tcnicamente, el modelo de tres parmetros debera ser preferible a los de uno

y dos, pues estos constituyen casos particulares de aquel.
Sin embargo, el de
un parmetro es de clculo e interpretacin sencillos, por lo que en la prctica
es el preferido de la mayora de los usuarios. Incluso es atractivo desde el punto
de vista terico por su parsimonia, al postular que la respuesta de un sujeto a un
tem solo depende de su habilidad en la variable medidas por el tem (q) y de la
dificultad del tem (b).
Por otra parte, la estimacin del parmetro c en el modelo de tres parmetros no es un

asunto totalmente resuelto an.
En todo caso, preferencia aparte, no debemos olvidar que los jueces han de ser los datos y
que se debe elegir aquel modelo que mejor de cuenta de ellos.
En caso de ajustes similares debe escogerse el ms sencillo, como indican los cnones de la
parsimonia cientfica y el sentido comn (lo bueno, si es sencillo, es dos veces bueno).
22
6. Estimacin de los parmetros de los tems y de la habilidad de cada sujeto en la variable

medida ().
Seleccionado uno de los modelos, el paso siguiente ser estimar los parmetros de cada
tem y el valor de la variable medida () para cada sujeto a partir de los datos obtenidos al
aplicar los tems a una muestra amplia de sujetos (pilotaje),
La estimacin se va haciendo por aproximaciones sucesivas (iteraciones) y su clculo es muy
laborioso, por lo que son necesarios los computadores. El proceso de iteraciones se detiene
cuando los valores estimados de los parmetros convergen, o sea, cuando tras una iteracin
no se producen cambios significativos en los valores estimados.
Actualmente se dispone de varios programas de ordenador para estos fines, entre ellos.

BICAL (Wright, 1979) para modelos logsticos de un parmetro.
BILOG (Michuy y Bock, 1984) para modelos logsticos de uno, dos y tres parmetros)
Estos programas ofrecen como salida fundamental los valores estimados de los parmetros
de cada tem y el valor de de cada sujeto.
7. Comprobar que el modelo se ajusta a los datos.

Una vez estimados los parmetros del modelo debemos comprobar hasta qu punto los
resultados pronosticados con esos valores coinciden con los obtenidos de hecho, o sea, hay
que comprobar el ajuste del modelo a los datos.
Tal ajuste se produce cuando los valores de P() pronosticados por el modelo no defieren
estadsticamente de los obtenidos empricamente, es decir, de la proporcin de sujetos que
realmente acierten el tem.
Existen varios procedimientos estadsticos para la comprobacin del ajuste, si bien ninguno
de ellos es totalmente satisfactorio, siendo esto precisamente un punto dbil en el estado
actual de desarrollo de la TRI.
Tres mtodos antes referidos son:

El uso de X2 (chi-cuadrado).
El anlisis de los residuos.
La comparacin de las distribuciones de las puntuaciones.
Curva Caracterstica del Test (CTC)

De la misma manera que existe en la TRI el concepto de CCI, el que constituye una pieza
central de dicha teora, puede hablarse en la misma de curva caracterstica del test (CCT),
concepto que tiene tambin gran importancia, sobre todo porque constituye un puente entre algunos aspectos de la Teora Clsica del TEST (TCT) y la TRI, como ayuda para interpretar
los resultados, o en la equiparacin de las puntuaciones de los sujetos (equating).
IDEICE 2014
23
La curva caracterstica del test es la suma de las curvas caractersticas de los tems
que componen el test, o sea, si a cada nivel de q se suman los valores de P(q) de
cada tem para ese nivel, se obtiene la CCT, lo que puede expresarse matemticamente como sigue:
CCT =
Pi (q)
i=1
siendo n el nmero de tems de la prueba o test.

Resulta necesario hacer notar que las sumas han de realizarse para cada nivel de y dado
que es una variable continua, habra que utilizar el clculo infinitesimal, si bien en la
prctica es habitual dividir en cortos intervalos sumando la P() de los tems para cada
intervalo.
Ejemplo:
Dado un test formado por 4 tems cuyos parmetros en un modelo logstico de dos parmetros estimados con determinado programa de computacin resultaron: a1=1; a2=1,5 ; a3=2
; a4=2,5 ; b1=0,75 ; b2=1 ; b3=2 y b4=3. Hallar la curva caracterstica del test (CCT). Hacer la
suma de las P(q) para los valores de : -3, -2, -1, 0, 1, 2, 3.
Para dar respuesta al ejercicio anterior, slo habra que sustituir los valores dados de a, b y
en el modelo logstico de dos parmetros, obtener los valores de P() para los 4 tems, y
sumar sus resultados para obtener la CCT.
Hagamos como ejemplo los clculos para =1; a1=1 y b1=0,75:
eDai(-bi)
1+ eDai(-bi)
Pi()=
e(1,7)(1)(1-0,75)
1+ e(1,7)(1)(1-0,75)
Pi(1)=
e0,425
1+e0,425
1,53
1+1,53
=0,6049
Pi(1)= 0,6049
A continuacin se muestra una tabla donde aparecen todos los resultados de este ejercicio:
n
24
P(q)
Item 3
CCT
Item 1
Item 2
Item 4
-3
0,0017
0,0000
0,0000
0,0000
0,0017
-2
0,0091
0,0004
0,0000
0,0000
0,0095
-1
0,0481
0,0059
0,0000
0,0000
0,0540
0,2177
0,0719
0,0010
0,0000
0,2906
0,6049
0,5000
0,0319
0,0001
1,1369
0,8938
0,9280
0,5000
0,0138
2,3356
0,9788
0,9940
0,9680
0,5000
3,4408
El anlisis de tems es un proceso cuantitativo y cualitativo mediante el cual se establece la

calidad de los tems de un instrumento, en relacin con los propsitos para los cuales fueron elaborados. Su realizacin implica un saber profundo sobre el objeto de evaluacin, la
poblacin evaluada, los propsitos de la evaluacin y se requiere, adems, conocer debidamente las tcnicas de procesamiento de datos para hacer una adecuada interpretacin de
los indicadores estadsticos disponibles. El proceso de anlisis de tems debe conducir a la
toma de decisiones en relacin con la inclusin, exclusin, o modificacin de tems, a partir
de la identificacin clara de las posibles problemticas de los mismos.
A continuacin se describe cada uno de los indicadores que comnmente se utilizan en el procesamiento de
datos de los tems, cuando se pretende proveer informacin cuantitativa necesaria para realizar el anlisis de
los mismos y decidir si se incluyen o no en una prueba:
Antes de explicar cada uno de los parmetros o indicadores que suelen utilizarse en el proceso de anlisis de los tems y de una prueba, definamos qu entendemos por parmetro
en este caso.
Para nosotros un parmetro es un valor estadstico que refleja una cualidad del tem y de la
prueba. A continuacin explicamos entonces a qu parmetros o indicadores nos estamos
refiriendo.

IDEICE 2014
DIFICULTAD
--
Definicin: indica la posicin de la curva del tem a lo largo de la escala de habilidad; entre ms difcil es un tem su curva estar localizada ms a la derecha
en la escala de habilidad.
--
Justificacin de uso: es uno de los parmetros fundamentales en los Modelos de de la TRI. Es indicador base para la conformacin de pruebas y de bancos de tems, as como para establecer comparabilidad de escalas. Se requiere
para obtener otros indicadores de tems (curvas caractersticas, funcin de
informacin).
--
Interpretacin: los valores de dificultad oscilan entre menos infinito y ms

infinito en la escala logit, aunque en trminos prcticos los tems asumen valores entre 3.5 y +3.5, cuando el promedio de dificultades del grupo de tems
se centra en cero. Valores positivos y altos indican alta dificultad y los valores
negativos indican baja dificultad.
--
Criterio de aceptacin: regularmente se analiza la distribucin de valores de

dificultad del instrumento en relacin con los valores de habilidad de la poblacin evaluada para conceptuar sobre lo apropiado de la medicin de dicho
instrumento, de acuerdo con los propsitos que lo inspiraron. Un aspecto importante de anlisis est dado por la densidad de tems en un punto de la escala de habilidad en particular; as, se espera que no haya ms de dos tems de
un mismo componente o contenido que midan con la misma dificultad. No se
establecen de antemano valores de rechazo para este indicador; no obstante,
tems que sean respondidos correctamente por la totalidad de la muestra o
que no sean respondidos correctamente por ninguno de los evaluados sern
objeto de un reporte especial.
25
DISCRIMINACIN
--
Definicin: corresponde al poder de un tem para diferenciar a los evaluados

en distintos niveles de habilidad frente a un constructo medido61. Grado en
el cual las respuestas a un tem varan en relacin con el nivel de habilidad.
Se conoce tambin como la pendiente de la curva en el punto de mxima
inflexin.
--
Justificacin de uso: es, junto con la dificultad, parmetro fundamental de

los tems dentro del Modelo de Dos Parmetros. Indica en qu grado el tem
es respondido correctamente por las personas de alta habilidad e incorrectamente por las personas de baja habilidad.
--
Interpretacin: los valores de discriminacin oscilan, tericamente, entre

menos infinito y ms infinito, aunque, en la prctica, los tems presentan valores de discriminacin entre 0 y +2. Valores que se aproximan a ms infinito se
corresponden con un patrn de Guttman (discriminacin perfecta).
--
Criterio de aceptacin: son aceptables los tems con valores de discriminacin superiores o iguales a 0.7. No obstante, en caso de tener un mayor nmero de tems que los necesarios, la aceptabilidad se hara en orden del valor de
la discriminacin.
CORRELACIN PRODUCTO MOMENTO PUNTO MEDIDA

--
Definicin: relacin entre la respuesta correcta a un tem de una prueba y el

valor de habilidad obtenido en dicha prueba. Este indicador supera las dificultades de la correlacin punto biserial tradicional en tanto no es afectada por
valores missing. Se calcular para la clave as como para las dems opciones
de cada tem.
--
Justificacin de uso: permite inferir validez de los tems en cuanto stos se

comporten como partes del instrumento.
--
Interpretacin: puede tomar valores entre 1 y 1. Los valores positivos indican que la respuesta correcta al tem est asociada a altos puntajes en la prueba; valores negativos indican que dicha asociacin se da de manera inversa,
es decir, altos puntajes en la prueba se asocian a una respuesta incorrecta al
tem.
--
Criterio de aceptacin: son aceptables tems con valores superiores a 0.25.

Es deseable que la distribucin de valores de correlaciones biseriales de los
tems de la prueba incluya valores superiores al criterio de aceptacin. Igualmente, se debe seguir el orden del valor de la correlacin punto biserial para
la aceptacin de los tems.
6 ETS. (2000). ETS Standards for quality and fairness. Educational Testing Service. Princeton: New Jersey.
26
FUNCIONAMIENTO DIFERENCIAL DE TEMS - DIF 7 1

--
Definicin: grado en el cual un tem presenta propiedades estadsticas diferentes en distintos grupos poblacionales, cuando se controla la habilidad
de los grupos.
--
Justificacin de uso: es un indicador de equidad en cuanto permite reconocer tems que presenten comportamiento estadstico diferente en los distintos pases participantes en el estudio, bien sea para proceder a ajustar dichos
tems si se encuentra que el DIF se debe a fallas de construccin- o para reconocer necesidades particulares de ajuste o cualificacin de procesos educativos si se descartan problemas de construccin del tem-. En cualquier
caso, debe garantizarse que la calificacin final en el estudio se realice a partir
de tems que no presenten DIF.
--
Interpretacin: se interpreta el test t de significancia estadstica para aceptacin o rechazo de la hiptesis de funcionamiento diferencial que es equivalente al test de significancia Mantel Haenszel.
--
Criterio de aceptacin: se rechaza el funcionamiento diferencial cuando se

encuentran valores inferiores a 1.96 de la prueba t con (n1+n2-2) grados de
libertad.
--
Clculo: el anlisis de DIF se realiza con todos los tems (o todos los grupos
poblacionales), excepto con el que est siendo analizado, anclando sus dificultades (habilidades) a los valores de las dificultades (habilidades) para la
totalidad de los tems (o grupos poblacionales) incluyendo el que est siendo analizado. Se calcula un DIF de contraste que corresponde a la diferencia
entre los tamaos de DIF de los tems (o grupos poblacionales) en estudio,
que es equivalente a la medida de DIF con procedimiento Mantel-Haenszel.
CURVA CARACTERSTICA DEL ITEM ICC 82

--
Definicin: funcin matemtica que relaciona la probabilidad de xito en

un tem con la habilidad medida por el tem. Se debe calcular, para cada
tem, la ICC y la Curva Emprica del tem39, tanto para la clave como para las
dems opciones de respuesta. Se presentarn cuatro grficas por prueba,
por grado, en el Informe Internacional, solamente.
--
Justificacin de uso: permite verificar el grado en el cual el modelo da cuenta de los resultados de la evaluacin10.4
--
Interpretacin: la curva caracterstica del tem para el Modelo de Dos Parmetros toma la forma de una ojiva logstica. La interpretacin consiste en
verificar la correspondencia entre la curva emprica del tem y la curva caracterstica.
--
Criterio de aceptacin: curvas empricas (ECC) que se comportan de acuerdo con la curva caracterstica del modelo.
7 DIF, en ingls: Differential Item Functioning.

8 Item Caracteristic Curve
9 La curva basada en los puntajes observados se puede llamar Funcin Emprica de Respuesta al tem o Curva Emprica del Item (en ingls: Empirical Caracteristic Curve, ECC).
10 Se sugiere obtener las ICC para el modelo de dos parmetros y para el modelo de Rasch con el propsito
de establecer el mejor ajuste de los datos.
IDEICE 2014
27
28
AJUSTE PRXIMO Y LEJANO (INFIT Y OUTFIT)

--
Definicin: indica la correspondencia entre un grupo de datos y el modelo

estadstico utilizado para representarlos. El ajuste prximo (infit) se refiere a
la relacin entre los datos que se encuentran cerca del valor de dificultad del
tem y el valor de dificultad; el ajuste lejano se refiere a la relacin de los datos
que se encuentran lejos de dicho valor de dificultad y esa dificultad. Ambos
indicadores deben ser calculados para la clave. Para las dems opciones de
respuesta debe calcularse el ajuste lejano (outfit).
--
Justificacin de uso: la utilizacin de un modelo para representar datos debe

fundamentarse en la verificacin de que dicho modelo en verdad representa
el comportamiento de los datos y, por ende, puede inferirse el cumplimiento
de los supuestos de dicho modelo para los datos analizados.
--
Interpretacin: los valores posibles se encuentran entre cero (0) e infinito positivo. El valor que determina el ajuste perfecto entre los datos y el modelo es
1. Los valores muy inferiores a 1 indican dependencia de los datos (paradoja
de atenuacin); valores superiores a 1 indican ruido en la informacin; valores
superiores a 2 indican que el ruido es mayor que la informacin til.
--
Criterio de aceptacin: valores de ajuste entre 0.8 y 1.2.
--
Clculo: se basa en la suma de los cuadrados de los residuos estandarizados.

Esta suma se aproxima a una distribucin chi cuadrado. Dividiendo esta suma
por sus grados de libertad se obtiene un valor esperado de 1 y rango entre
cero e infinito.
PROMEDIO DE HABILIDAD POR OPCIN

--
Definicin: promedio de las habilidades de quienes eligen cada opcin de

respuesta de un tem. Se debe incluir, adicionalmente, la proporcin de respuestas para cada opcin. Esta informacin se presenta para el informe internacional de la aplicacin piloto solamente e incluye los datos de todos los
evaluados.
--
Justificacin de uso: permite reconocer la proporcin de personas que seleccionan una opcin como respuesta correcta y su habilidad promedio. La combinacin de estos dos datos proporciona informacin til para determinar la
validez de cada tem en relacin con los marcos conceptuales de las pruebas
y valorar la calidad de cada opcin.
--
Interpretacin: los valores posibles de habilidad promedio se encuentran

entre infinito negativo hasta infinito positivo. Se espera que el promedio de
habilidad para la opcin considerada clave sea el mayor de todos. El mapa
de distribuciones de los promedios de habilidad de las opciones de todos
los tems indica el funcionamiento relativo de todas las opciones y puede ser
interpretado con base en los marcos conceptuales de las pruebas. El orden
de los promedios de habilidades permite comprender las complejidades de
las opciones para la poblacin evaluada. Las proporciones de respuesta para
cada opcin dan una idea de su atraccin en una poblacin particular.
--
Criterio de aceptacin: el mayor promedio de habilidad debe ser el de la

clave.
MAPA DE DISTRIBUCIN DE HABILIDADES Y DIFICULTADES

--
Definicin: Relacin grfica, en una misma escala, entre la distribucin de las

dificultades de los tems y la distribucin de las habilidades de los evaluados.
Esta grfica se presenta slo en el informe internacional. Aunque no es un
indicador estadstico en s mismo, utiliza indicadores de personas y de tems
que ofrecen informacin pertinente para el anlisis de los bloques y de los
tems que los conforman.
Un ejemplo de dicho mapa (salida grfica del software winsteps)
INPUT: 1000 ESTUDIANTES, 10 ITEMS MEASURED: 1000 ESTUDIANTES, 10
ITEMS: 20 CATS
ESTUDIANTES MAP OF ITEMS
<more> <rare>
-
-#
T
1
-###
IT03
IT09
S
-######
-########
IT14
IT11
M IT01
IT12
IT05
IT06
-############
M
S
IT04
-########## ##
-1
IT06
T
-###########
-2
-####
T
-3
-#
<less> <frequ>
EACH # IS 16-
IDEICE 2014
29
30
--
Justificacin de uso: permite contrastar la dificultad de los tems en una poblacin particular y determinar si stos se ajustan a la poblacin; igualmente,
es posible observar el cubrimiento de las habilidades por parte de los tems.
Permite identificar grupos de tems o de personas que por su nivel de dificultad o habilidad, respectivamente, merezcan una atencin especial en el anlisis. Pueden ser contrastadas las expectativas de los constructores de tems,
en relacin con el nivel de dificultad de los tems, as como si la muestra seleccionada se comporta de acuerdo con los propsitos del diseo muestral.
--
Interpretacin: las habilidades y las dificultades se presentan en una escala

que oscila entre menos infinito y ms infinito. Si la distribucin de habilidades tiene valores inferiores a la distribucin de dificultades, quiere decir que
para ese grupo poblacional los tems resultaron difciles. Por el contrario, si la
distribucin de habilidades tiene valores superiores a la distribucin de dificultades, significa que para ese grupo poblacional los tems resultaron fciles.
--
Criterio de aceptacin: se espera que las distribuciones de habilidades y dificultades tengan posicin y dispersin semejantes entre s. De esta manera
se entiende que el grupo de preguntas analizado cubre la totalidad de las
habilidades de la poblacin. Si las distribuciones no son semejantes, las diferencias deben ser interpretadas a la luz de los marcos tericos de las pruebas
y del propsito del estudio SERCE.
CORRELACIONES INTER TEM

--
Definicin: correlaciones entre los tems de un mismo bloque. Este indicador

se presenta slo en el Informe Internacional.
--
Justificacin de uso: indica el grado de relacin entre dos tems de un mismo

bloque indicando si miden lo mismo (dimensionalidad del constructo). Se utiliza en anlisis de la confiabilidad de un grupo de tems.
--
Interpretacin: Si el valor de las correlaciones es positivo y alto indica que los

tems miden el mismo objeto; si, por el contrario, los valores son negativos,
indica que los tems miden objetos diferentes.
--
Criterio de aceptacin: las correlaciones deben ser positivas y altas.
ERROR ESTNDAR DE MEDICIN

--
Definicin: corresponde a la desviacin estndar de una distribucin imaginaria de errores que representan la posible distribucin de valores observados alrededor del valor terico verdadero. Es un indicador de la confiabilidad.
--
Justificacin de uso: si se calcula el error de medicin de cada habilidad estimada o dificultad estimada (o conjunto de habilidades o dificultades), se
conoce la precisin de la medida o la estimacin, orientando la toma de decisiones para la depuracin de bases de datos y para el anlisis de tems.
--
Interpretacin: como en cualquier proceso de medicin, se espera que el

error sea cercano a cero. Errores demasiado grandes restan confianza en las
estimaciones del parmetro. La escala de valores en la cual se reportan los
errores est asociada a la escala de medicin utilizada, por lo cual no es posible establecer, de manera universal y de antemano, un valor mnimo aceptable de error.
--
Criterio de aceptacin: por lo general, diferentes autores coinciden en que la

decisin de cul sera un valor de error aceptable y cul no, debe derivarse de un
juicio profesional experto de quienes conocen procedimientos psicomtricos, el
instrumento de medida y su marco de fundamentacin11.5
INDICADORES ESTADSTICOS PARA EL ANLISIS DE GRUPOS DE TEMS

En consideracin a que el diseo del estudio contempla que los instrumentos (pruebas) estn conformados de acuerdo con agrupaciones de tems en bloques, aplicados de manera
sistemtica en cuadernillos editados con arreglos distintos de dichos bloques, el anlisis de
tems debe incluir una fase de anlisis de indicadores estadsticos que den cuenta del comportamiento de tales agrupaciones.
En tal sentido, a continuacin se describen los indicadores propuestos para el anlisis de bloques; es de anotar que dado que la aceptacin o rechazo de tems se hace con base en sus
indicadores individuales, para los indicadores de grupos de tems no se define un criterio de
aceptacin.

PROMEDIO
Se requiere obtener: Promedio de Habilidades, Promedio de Dificultades y Porcentaje

de Respuestas Correctas.
--
Definicin: promedio de las dificultades de los tems del bloque y de las habilidades de las personas que abordan el bloque.
--
Justificacin de uso: permite conocer el comportamiento del bloque en diferentes grupos poblacionales, en relacin con la posicin de dicho bloque en
distintos cuadernillos. Tambin permite observar el comportamiento relativo
de los distintos grupos poblacionales, de acuerdo con el diseo muestral.
--
Interpretacin: si el bloque se encuentra ajustado a la poblacin, el promedio de habilidades debe ser aproximadamente igual al promedio de dificultades. Si el promedio de habilidades es superior, significa que el bloque fue
relativamente fcil para ese grupo poblacional; si por el contrario el promedio
de habilidades es inferior al promedio de dificultades, significa que el bloque
fue relativamente difcil para ese grupo poblacional. El porcentaje de respuestas correctas aporta al anlisis intrabloque en cuanto constituye un indicador
general de la manera en que los evaluados abordaron cada bloque.
DESVIACIN ESTNDAR
Se requiere obtener la desviacin estndar de habilidades y de dificultades.

--
Definicin: medida de la dispersin de la distribucin de las dificultades de

los tems de un bloque y de la distribucin de las habilidades de las personas
que abordan dicho bloque.
11 AERA, APA, NCME. (1999). Standards for educational and psychological testing. Washington: AERA.
IDEICE 2014
31
32
--
Justificacin de uso: permite valorar la homogeneidad/heterogeneidad de

los valores de dificultad del grupo de tems de un bloque, as como de los valores de habilidad del grupo poblacional que aborda dicho bloque.
--
Interpretacin: desviaciones estndar altas (superiores a 1 en valores logit)

indican heterogeneidad del grupo de datos; desviaciones estndar bajas (inferiores a 1 en valores logit) indican homogeneidad del grupo de datos. Esta
informacin se contrasta con el respectivo valor del promedio para comprender el desempeo de una poblacin particular.
PUNTUACIN MXIMA Y PUNTUACIN MNIMA

--
Definicin: puntuaciones logit ms alta y ms baja alcanzadas por una poblacin particular.
--
Justificacin de uso: permite reconocer los extremos de la distribucin de

habilidades en una poblacin particular y contrastarlos con las expectativas
de los evaluadores.
--
Interpretacin: si el valor mximo en logits alcanzado por una poblacin es

inferior al valor de habilidad equivalente a n-1 tems correctos, indica que el
grupo de tems result complejo para las personas de ms alta habilidad. Si
el valor mnimo, en logits, alcanzado por una poblacin es superior al valor
de habilidad equivalente a 1 tem correcto, indica que el grupo de tems result fcil para las personas de ms baja habilidad. Se espera que los valores
mnimos y mximos correspondan a 1 respuesta correcta y a n-1 respuestas
correctas, respectivamente.
CONFIABILIDAD
--
Definicin: indica el grado de precisin en la medicin. En la TRI se utiliza la

Funcin de Informacin como indicador de la confiabilidad.
--
Justificacin de uso: es importante conocer la precisin de la medicin en

cada punto de la escala de habilidad, para cada uno de los bloques, en las
distintas poblaciones.
--
Interpretacin: a mayor valor de la funcin de informacin es mayor la precisin en la medida.
SOFTWARE PARA EL PROCESAMIENTO DE LOS DATOS

El procesamiento de los datos de una prueba debe ofrecer informacin suficiente para efectuar el anlisis de tems con los indicadores sugeridos anteriormente.
En el mercado se cuenta con oferta considerable de software que opera con los supuestos
de la Teora de Respuesta al tem y que implementa las funciones matemticas de sus diferentes modelos, enunciados en el epgrafe anterior de este texto. La diferencia entre un
software y otro, ya sea que estn o no inspirados en un mismo modelo, radica principalmente en aspectos como el tamao poblacional y la longitud de los instrumentos que les
es posible procesar, en la formulacin matemtica particular que implementan y, quizs lo
ms importante, desde el punto de vista de un proceso de evaluacin, en la confiabilidad
(precisin) de los datos que arroja.
Se revisamos las distintas caractersticas tcnicas (la cantidad de indicadores que reporta
el software y la precisin en la estimaciones de los mismos; la cantidad de datos que tiene
capacidad de analizar; los requerimientos de conformacin de bases de datos; la convergencia en las estimaciones y la interfase grfica) de programas de software disponibles en
el mercado, tales como Bilog MG, Multilog, Parscale, Rascal y Winsteps se puede llegar a la
conclusin que este ltimo ofrece las mayores ventajas para el procesamiento de datos de
una prueba.
Winsteps es un software que opera en plataforma windows y que implementa los principios
de la Teora de Respuesta al tem para construir mediciones objetivas a partir de una base
de datos sencilla en la cual se especifican personas (evaluados) y sus respuestas a un grupo
de tems.
Puede trabajar de manera simultnea con varios formatos de tems (dictomos, de seleccin
mltiple con nica y con mltiple respuesta y de crdito parcial); ofrece gran variedad de
reportes tabulares y con interfases grficas, en los cuales se presenta de manera detallada
y tambin resumida, el comportamiento de las poblaciones y de los tems analizados. Una
caracterstica importante es que el software seala con claridad los datos que presentan
comportamientos por fuera de lo esperado. Los datos missing no son un problema para las
estimaciones que realiza este software.
La generacin de escalas de calificacin usando Winsteps constituye un proceso relativamente simple toda vez que el software permite el procesamiento de datos, agrupados segn variables de inters, sin requerir modificaciones en la estructura de la base de datos
original. Winsteps tambin permite prefijar valores (anclar) de los parmetros para facilitar
procesos de comparabilidad (equating).
Winsteps puede procesar hasta 10.000.000 de personas y 30.000 tems y cada tem puede
contemplar hasta 255 categoras de calificacin (el de mayor capacidad, para tems y categoras, en el mercado). El software tiene un manual detallado para orientar su uso y la
interpretacin de la informacin que arroja; la firma Winsteps ofrece apoyo tcnico en lnea,
oportuno y eficaz, para solventar inquietudes tanto de procesamiento como de interpretacin de datos.
IDEICE 2014
33
Ejemplos de algunas salidas grficas de este software
Para comprobar grficamente la unidimensionalidad, utilizando el winsteps.

4
3
2
1
0
-3
-2
-1
-1
Series1
1
-2
-3
-4
En este caso la interpretacin del grfico consiste en que no se cumple el supuesto de unidimensionalidad pues cada conjunto de tems est midiendo un rasgo latente diferente.
Comprobacin grfica del supuesto de la curva caracterstica del tem
Cada modelo tiene una curva caracterstico, la curva ideal (aparece con color rojo en el grfico que aparece a continuacin). El elemento que se necesita contrastar en una medicin es
la curva real del tem (aparece en color azul) contra el modelo previsto terico. Hay un grado
de diferencia entre el comportamiento real de las personas y la curva ideal del modelo.
Las lneas grises representan los niveles extremos. Se espera que la azul si es perfecta se
superponga sobre la roja y que en ningn caso se salga fuera de las curvas extremas.
34
2.IT03
Expected Score
0.666667
0.333333
-5
-4
-3
-2
-1
Measure
En el caso del tem representado en el grfico anterior, solo se sale de la franja para estudiantes de habilidad entre 2 y -1.
1.IT01
1
Expected Score
0.666667
0.333333
0
-5
-4
-3
-2
-1
Measure
En el caso del tem representado en el grfico anterior, este se ajusta totalmente al modelo
ideal, pues se mantiene dentro de la franja marcada por las curvas grises. Ello significa que
el mismo cumple el supuesto de la curva caracterstica del tem.
IDEICE 2014
35
5.IT06
1
Expected Score
0.666667
0.333333
0
-5
-4
-3
-2
-1
Measure
Resulta evidente que el tem representado en el grfico anterior, no cumple con el supuesto
de la CCI para estudiantes de niveles intermedio de habilidad.
Cada distractor tiene tambin su curva caracterstica. A continuacin vemos un ejemplo:
36
EMPIRICAL CODE FREQUENCIES: 1 : 1. IT01

++- - - - - - - -+- - - - - - - +- - - - - - - + - - - - - - - + - - - - - - -+ - - - - - - - + - - - - - - -+ - - - - - - - ++
100 +
. . . . . . . . +
96 +
92 +
88 +
84 +
80 +
76 +
72 +
68 +
64 +
1.
60 +
. . . .
. . .
. .
. *
. *
56 +
52 +
1 .
48 +
. .
44 +
40 +
1 .
36 +
32 +
28 +
24 +
20 +
16 +
12 +
8 +
. .
.1
. .
. *
. . .
. . *.
4 + . . . . . . . .
0 +.
++ - - - - - - -+- - - - - - - +- - - - - - - -+ - - - - - - -+ - - - - - - - + - - - - - - - + - - - - - - -+ - - - - - - - ++
-4
-3
-2
-1
ESTUDIANTE MEASURE
IDEICE 2014
37

++- - - - - - - +- - - - - - - +- - - - - - - + - - - - - - - + - - - - - - -+ - - - - - - - + - - - - - - -+ - - - - - - - ++
+
100 + .
96 + . . . . . . . .
F
92 +
88 +
84 +
80 +
76 +
72 +
68 +
64 +
60 +
. . . .
. . .
. .
. .
. .
52 +
48 +
56 +
O
40 +
36 +
32 +
28 +
24 +
20 +
16 +
12 +
8 +
44 +
R
. .
.
2
2
. .
2 .
+
+
. .
2. .
. . .
. . . .
4 +
. . . . . . . . +
0 +
.+
++ - - - - - - - +- - - - - - - +- - - - - - - -+ - - - - - - - + - - - - - - -+ - - - - - - - + - - - - - - - + - - - - - - - ++
-4
-3
-2
-1
ESTUDIANTE MEASURE
38

++- - - - - - - +- - - - - - - +- - - - - - - + - - - - - - -+ - - - - - - -+ - - - - - - -+ - - - - - - - + - - - - - - -++
+
100 + .
96 + . . . . . . . .
F
92 +
88 +
84 +
80 +
76 +
72 +
68 +
64 +
60 +
. . . .
. . .
. .
. .
. .
56 +
O
52 +
48 +
+
+
40 +
36 +
32 +
28 +
24 +
20 +
16 +
12 +
8 +
44 +
R
. .
.
3
. .
.
3
. .
. .
. . .
3
. . . .
. . . . . . . . +
4 +
.+
0 +
++ - - - - - - - +- - - - - - - +- - - - - - - -+ - - - - - - -+ - - - - - - -+ - - - - - - - + - - - - - - -+ - - - - - - - ++
-4
-3
-2
-1
ESTUDIANTE MEASURE
IDEICE 2014
39

++- - - - - - - +- - - - - - - +- - - - - - - + - - - - - - -+ - - - - - - -+ - - - - - - -+ - - - - - - - + - - - - - - -++
+
100 + .
96 + . . . . . . . .
F
92 +
88 +
84 +
80 +
76 +
72 +
68 +
64 +
60 +
. . . .
. . .
. .
. .
. .
52 +
48 +
44 +
40 +
36 +
32 +
28 +
24 +
20 +
16 +
12 +
8 +
56 +
O
. .
.
4
. .
. .
+
+
. .
. . .
4
4 +
. . . .
4
. . . . . . . . +
.+
0 +
++ - - - - - - - +- - - - - - - +- - - - - - - -+ - - - - - - -+ - - - - - - -+ - - - - - - - + - - - - - - -+ - - - - - - - ++
-4
-3
-2
-1
ESTUDIANTE MEASURE
40
BIBLIOGRAFA

Badger, E. y Thomas, B. 1992. Open ended questions in reading. Washington, ERIC

Clearinghouse on Tests Measurement and Evaluation.
Cohen, A. y Woollack, J. 2004. Helpful tips for creating reliable and valid classroom
test Handbook on Test Development. U. Wisconsin.
Cheung, D. y Bucat, R. 2002. How can we construct good multiple choice tems? Hong
Kong, Sciens and Technology Education Conference.
Fenton, N. E. y Pfleeger, S. L. 1997. Software metrics. A rigurous and practical approach. Boston, PWS Pub.
Haladyna y Downing. 1989. A taxonomy of multiple choice tem writing rules

Apply Measurement in Education. Vol. 1.
Haladyna, T. 1994. Development and validatin multiple choice test tems. New Jersey, Lawrence Earlbaum Associates.
Hambleton, R. y Zaal, J. 1994. Advances in educational psychological testing. Boston, Kluwer Academic Publishers.
ICFES. 2004. Estndares para la construccin de pruebas. Grupo de Evaluacin de la

Educacin Superior. Bogot, ICFES.
Martnez rias, Mara Rosario y otras. Psicometra. Alianza Editorial S.A, 2006, Madrid, Espaa.
Messick, S. 1989. Validity. R.L. Linn (Ed.). Educational measurement New York, Macmillan, 3a ed., pp. 13-103.
Roberts, D. 1993. An empirical studying on the nature of trick questions. Journal of

educational measurement. Vol. 30.
B. Baker, Frank. Fundamentos de la Teora de Respuesta al tem. Universidad

de Wisconsin.
B. Baker, Frank. A criticism of Scheunemans items bias techniques. Journal

of Educational Measurement, 1981.
Lord, F.M. Ateory of test scores. Psychometric Monograph, num. 7, 1952.
Muniz Fernndez, Jos. Teora de Respuesta a los tems: Un nuevo enfoque

en la evolucin psicolgica y educativa. Ediciones Pirmide, S.A, Madrid,
1990.
Seminrio Regional de evaluacin de la educacin, zona occidente. Taller

sobre elaboracin de tems, ICFES, CAli, Colmbia, 2006.
IDEICE 2014
41

Introduccion Tri

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Introduccion Tri

Transféré par

Droits d'auteur :

Formats disponibles

TRI

INTRODUCCIN A LA TEORA DE RESPUESTAS AL TEM

Santo Domingo, Repblica Dominicana

Ministerio de Educacin (MINERD)

INTRODUCCION A LA TEORA DE RESPUESTA AL TEM

Disponer de los instrumentos de medida cuyas propiedades no dependan de los

Adicionalmente la TRI proporciona todo un conjunto de avances tcnicos que resultan de

Introduccin a la Teora de Respuesta al tem (TRI)

PRIMER SUPUESTO DE LA TRI:

FIGURA 1: Curva Caracterstica de un tem

FIGURA 2. Parmetros de la CCI Parmetro a (ndice de discriminacin)

Parmetro a (ndice de discriminacin)

Introduccin a la Teora de Respuesta al tem (TRI)

A menor discriminacin la S adopta

Parmetro b (ndice de dificultad)

FIGURA 3. Ubicacin del parmetro b

A continuacin examinamos la idea de la dificultad del tem como ndice de localizacin.

Introduccin a la Teora de Respuesta al tem (TRI)

Tipos de modelos de CCI

Dada la mayor tratabilidad matemtica de la funcin logstica, en la actualidad los tres

Modelo logstico de un parmetro (modelo de Rasch)

logstica, y el nico parmetro de los tems a tener en cuenta es b (ndice de dificultad). La

Introduccin a la Teora de Respuesta al tem (TRI)

FIGURA 6. Grfica del modelo logstico de un parmetro

donde: P() : Probabilidad de acertar el tem i para un nivel de habilidad .

Conocido el ndice de dificultad del tem (b).

Y la competencia de los sujetos

El modelo predice la probabilidad P(q) de que acierten el tem.

Nota: En adelante prescindiremos del subndice i.

Modelo logstico de dos parmetros

Donde: P(q) : : Probabilidad de acertar el tem i para un valor .

Introduccin a la Teora de Respuesta al tem (TRI)

Datos: a=2; b=1,5; =2,5; D=1,7

Modelo logstico de tres parmetros

SEGUNDO SUPUESTO: Unidimensionalidad.

TERCER SUPUESTO: Independencia local

Introduccin a la Teora de Respuesta al tem (TRI)

Comprobacin del ajuste a los datos de los modelos.

1. Definicin rigurosa de la variable que se pretende evaluar.

Para evaluar el estado de la dimensin disciplinar en su aplicacin estrictamente

Una mezcla de las variantes anteriores (Ejemplo: dimensin disciplinar curricular

En cualquier caso, resulta necesario operacionalizar el marco terico precisamente definido

2. Elaboracin de los tems destinados a medir la variable.

Elaboracin de su fundamentacin conceptual.

Construccin de la tabla de especificaciones de la prueba.

Desarrollo de los tems y de la prueba en su conjunto.

Anlisis de tems y de la prueba en su conjunto.

Produccin y divulgacin de resultados.

Evitar expresiones rebuscadas que puedan confundir. Se recomienda emplear un

Los tems no deben tener juicios de valor explcito o implcito.

Introduccin a la Teora de Respuesta al tem (TRI)

Reglas sobre los enunciados

Los enunciados deben ser afirmativos, en caso de ser necesaria la negacin, se

Evitar enunciados demasiado extensos y poco atractivos ya que desmotivan la

Reglas sobre las opciones

Las opciones de respuesta deben pertenecer al mismo campo semntico.

longitud precisin / imprecisin

uso comn / tcnico

No se deben repetir expresiones en las opciones de respuesta, si stas se pueden

Realizar una revisin gramatical y ortogrfica de cada uno de los tems.

Fases del diseo de la prueba

Para qu la evaluacin? (Su propsito)

Qu se evala? (Su objeto)

A quin se evala? (Caractersticas de la poblacin objetivo)