Académique Documents
Professionnel Documents
Culture Documents
AUTORIDADES
Lic. Danilo Medina Snchez
Presidente de la Repblica
Dra. Margarita Cedeo
Vicepresidenta de la Repblica
Lic. Carlos Amarante Baret
Ministro de Educacin
Lic. Luis Enrique Matos de la Rosa
Viceministros de Educacin
Encargado de Asuntos Tcnicos Pedaggicos
Dr. Jorge Adarberto Martnez Reyes
Viceministros de Educacin
Encargado de Supervisin, Evaluacin y Control de la Calidad Educativa
Ing. Vctor Ricardo Snchez Jquez
Viceministros de Educacin
Encargado de la Oficina de Planificacin Educativa, OPE
Licda. Vivian Elizabeth Bez Bez
Direccin General de Recursos Humanos
DIRECTORES EJECUTIVOS Y DIRECTORES GENERALES
Denia Burgos, M.Ed
Instituto Nacional de Formacin y Capacitacin del Magisterio, INAFOCAM
Dr. Julio Leonardo Valeirn Urea
Instituto Dominicano de Evaluacin e Investigacin de la Calidad Educativa, IDEICE
Lic. Rosa Mara Kasse Soto
Oficina de Cooperacin Internacional del Ministerio de Educacin
Dra. Ancell Scheker Mendoza
Direccin General de Evaluacin de la Calidad Educativa
Mara Esperanza Ayala de la Cruz M.Ed
Direccin General de Supervisin Educativa
Dra. Carmen Margarita Snchez Ramos
Direccin de Currculo
1 Thurstone, L.L. Attitudes con su measured. American Journal of Sociology 1928, pg. 547.
IDEICE 2014
Como Lord (1980) asegur, la TRI no contradice ni las asunciones ni las conclusiones fundamentales de la Teora Clsica de los Tests, sino que hace asunciones adicionales que permiten responder cuestiones esenciales que la TCT no poda.
Mientras que los conceptos bsicos de la TRI eran, y son, sencillos, la matemtica que la fundamenta era de cierta forma avanzada en comparacin a la utilizada por la Teora Clsica
del Test. Era difcil examinar algunos de estos conceptos sin hacer una gran cantidad de
clculos para obtener informacin til.
Por la razn antes expuesta no fue hasta los aos sesenta del siglo pasado, con la aparicin
del libro de Rasch (1960) y, sobre todo, con los aportes de Bienbaun, Lord y Novick (1968)
que se produce una rpida expansin en la utilizacin de la TRI, todo ello complementado
con el acceso generalizado a los computadores, imprescindible para realizar con relativa
facilidad los clculos necesarios para el tratamiento de esta teora.
La promesa central de la TRI fue solucionar las limitaciones de la TCT descritas en esta introduccin, es decir:
Obtener mediciones que no varen en funcin del instrumento utilizado, que sean
invariantes respecto de los tests empleados.
Supuestos de la TRI
Generalmente cuando se van a desarrollar acciones de medicin psicolgica y educacional,
existe una variable fundamental de inters. Esa variable es conocida en la psicometra como
rasgo latente.
Un objetivo primario de la medicin educacional y psicolgica es la determinacin de cunto rasgo latente posee el individuo objeto de la medicin.
Pero esos rasgos latentes en general no se pueden medir directamente como las dimensiones fsicas, por ejemplo la altura y el peso.
Como en Educacin la mayora de las investigaciones han tratado a tales variables como
habilidades (de lectura, aritmtica, etc.), el trmino genrico de habilidad se usa dentro de
la teora de respuesta al tem para referirse a estos rasgos latentes.
Normalmente para medir una habilidad se desarrolla un examen consistente en una cantidad determinada de tems (preguntas). Cada uno de estos tems mide alguna faceta de la
habilidad de inters y la suma de los aciertos obtenidos por el examinando, llevada a cierta
escala es el puntaje obtenido por l.
P(0)
1
0.8
0.6
0.4
0.2
-3
-2
-1
IDEICE 2014
Como se aprecia en el grfico anterior esta curva en forma de S describe la relacin entre la
probabilidad de respuesta correcta a un tem y la escala de habilidad. Esta ltima, si bien
en la prctica muestra valores que van desde -3 a +3 , su margen terico es desde el
negativo infinito al positivo infinito.
La CCI, como su nombre lo indica, es eso, caracterstica, tpica, especfica de cada tem, caracteriza al tem; por tanto, las CCI de los tems que miden una determinada variable q no
son iguales, si bien compartirn determinada forma general.
El margen restringido empleado en las figuras (-3 a +3) es necesario solamente para ajustar
las curvas a la pantalla de la computadora de forma razonable.
Parmetros de la CCI
La curva caracterstica del tem es la piedra angular de la teora de respuesta al tem; todas
las otras estructuras de la teora dependen de esta curva. Hay tres propiedades tcnicas de
la curva caracterstica del tem que la describen. Estas propiedades reciben el nombre de
parmetros.
P(0)
1
0.8
0.6
a
0.4
c
-3
-2
-1
Mientras ms pendiente tenga la curva, mejor se puede diferenciar el tem mientras ms llana sea la curva, menos puede diferenciar el tem pues la probabilidad de repuesta correcta
a niveles de habilidad bajos es casi la misma que en los niveles de habilidad altos.
A mayor discriminacin la S es ms pronunciada.
una forma casi lineal, llana.
P(0)
1
0.8
0.6
0.5
0.4
0.2
-3
-2
-1
IDEICE 2014
mayor parte de la escala de habilidad y aumenta solamente cuando se alcanzan los niveles
ms altos de habilidad. Incluso en el nivel ms alto de habilidad que se muestra en (+3), la
probabilidad de respuesta correcta es solamente 0,8 para el tem ms difcil.
P (0)
-3
-2
-1
FIGURA 4. Tres CCI con la misma discriminacin pero con diferentes niveles de dificultad.
El concepto de discriminacin, se ilustra en la figura 5. Esta figura contiene tres curvas caractersticas de tem que tienen el mismo nivel de dificultad pero defieren con respecto a la
discriminacin.
P(0)
1
0.8
0.6
0.4
0.2
-3
-2
-1
FIGURA 5. Tres CCI con la misma dificultad pero con diferentes niveles de discriminacin.
La curva superior tiene un alto nivel de discriminacin pues la curva tiene una gran pendiente en el medio en donde la probabilidad de respuesta correcta cambia muy rpidamente segn aumenta la habilidad. Solamente a una pequea distancia hacia la izquierda del
medio de la curva, la probabilidad de respuesta correcta es mucho menor que 0,5. La curva
del medio representa un tem con un nivel de discriminacin moderado. El desnivel de esta
curva es mucho menor que la anterior y la probabilidad de respuesta correcta cambia menos dramticamente que la anterior segn aumenta el nivel de habilidad.
Sin embargo, la probabilidad de respuesta correcta cambia menos dramticamente que
la anterior segn aumenta el nivel de habilidad. No obstante, la probabilidad de respuesta
correcta est cerca de cero para los examinandos de menor habilidad y cerca de 1 para los
examinandos de mayor habilidad. La tercera curva representa a un tem con poca discriminacin. La curva tiene un desnivel pequeo y la probabilidad de respuesta correcta cambia
lentamente por todo el margen de habilidades mostrado. Incluso en los niveles bajos de
habilidad, la probabilidad de respuesta correcta es razonablemente grande y aumenta solo
ligeramente cuando se alcanzan altos niveles de habilidad.
Parmetro c (pseudo adivinacin)
El parmetro c representa la probabilidad de acertar el tem al azar cuando no se sabe nada,
es decir, es el valor de P(q) cuando q= -a
En la prctica es el valor equivalente en el eje P(q) interceptado por la CCI (Ver FIGURA 2).
La CCI queda definida cuando se especifican estos tres parmetros y se adopta una determinada funcin matemtica para la curva. Segn el tipo de funcin matemtica adoptada
y el valor de los parmetros tendremos diferentes modelos de CCI.
IDEICE 2014
La funcin logstica
El objetivo de esta apartado es hacerles desarrollar a los cursistas un sentido sobre cmo se
relacionan los valores numricos de los parmetros del tem para un modelo determinado
con la forma de la curva caracterstica del tem.
Bajo la teora de respuestas al tem, el modelo matemtico estndar para la curva caracterstica del tem es la forma acumulativa de la funcin logstica. La misma define a una familia
de curvas que tienen la forma general de las curvas caractersticas del tem mostradas en el
apartado anterior.
La funcin logstica se deriv por primera vez en 1874 y ha sido ampliamente utilizada en las
ciencias biolgicas para hacer modelos del crecimiento de las plantas y animales desde el
nacimiento hasta su madurez. Se utiliz por primera vez como modelo para la CCI a finales
de los aos cincuenta del siglo pasado y, por su simplicidad, se ha convertido en el modelo
preferido.
ex
(1+e x)
Ejemplo:
X
0,0
P(0)
1
-3 0,047
-2 0,119
0.8
-1 0,269
0 0,500
0.6
1 0,731
2 0,881
0.4
3 0,953
0.2
1,0
-2
-3
-1
Mediante el uso de una constante adicional (D = 1,7) en la funcin logstica sus valores se
aproximan notablemente a los de la curva normal acumulada, por lo que es frecuente encontrarla como sigue:
Pi(q)=
e Dx
(1+e Dx)
que, adaptada a la terminologa de la TRI para el caso particular de un parmetro, en el modelo de Rasch la CCI adquiere la expresin siguiente:
Pi(q)=
e D(q-bi)
1+e D(q-bi)
IDEICE 2014
Ejemplo: 1 Cul es la probabilidad de que los sujetos con q=2 acierten un tem cuyo ndice
de dificultad es b = 1,5?
Pi(q)=
2,721,7(2-1,5)
1+2,721,7(2-1,5)
Pi(q)=
2,720,85
1+2,720,85
Pi(q)=
2,34090381
1+2,34090381
Pi(q)= 0,7
La frmula dada para el modelo de Rasch suele expresarse de una manera equivalente, resultado de dividir al numerador y al denominador de esta por eD(q-b); en cuyo caso quedara
expresado como:
Pi(q)=
1
1+e -D(q-bi)
eDai(q-bi)
1+eDai(q-bi)
10
(2,72)(1,7)(2)(2,5-1,5)
=0,967
1+ (2,72)(1,7)(2)(2,5-1,5)
La probabilidad de superar el tem es muy elevada (0,967), como era de esperar, pues a medida que sea mayor que b, para un determinado valor de a, P() aumenta segn el modelo
logstico, lo cual es razonable, pues a mayor habilidad de los sujetos, mayor probabilidad de
superar un tem dado.
eDai(q-bi)
1+ eDai(q-bi)
Ejemplo:
La probabilidad de acertar cierto tem al azar es 0,25, su ndice de dificultad es 0,5 y su
ndice de discriminacin es 1,25. Cul es la probabilidad de acertar ese tem para sujetos
con q =1?
Datos: =1; ci=0,25; D=1,7; ai=1,25; bi=1,5 ;;
Pi(1)=0,25+(1-0,25)
(2,72)(1,7)(1,25)(1-0,5)
0,805
1+ (2,72)(1,7)(1,25)(1-0,5)
Pi(1)=0,805
Nota: Como seguramente ya el lector ha comprendido, el modelo logstico de tres parmetros es el ms general: si se hace C=0, se obtiene el de dos parmetros y si adems a se
asume constante para todos los tems se obtiene el de un parmetro.
IDEICE 2014
11
12
Con arreglo al estado del arte a nivel mundial de la dimensin disciplinar que se
pretende evaluar.
IDEICE 2014
13
Algunas consideraciones sobre la elaboracin de preguntas para las pruebas pedaggicas de lpiz y papel.
Actualmente la mayora de los consorcios internacionales que hacen evaluacin educativa
comparada tales como TIMSS, PISA, LLECE, SALMEQ, etc., utilizan mayoritariamente en sus
pruebas preguntas o tems con formato de seleccin mltiple con una nica respuesta correcta, especialmente por la facilidad de su aplicacin y calificacin. Sin embargo, es errado
creer que resulta fcil tambin su elaboracin, todo lo contrario.
Elaborar buenos tems es una labor que exige mucha prctica, adems de un conocimiento
profundo del objeto de evaluacin y de la poblacin que se va a evaluar.
Para que cada tem aporte su mximo potencial al propsito de la evaluacin resulta necesario que sus elaboradores dominen el marco conceptual del instrumento, as como las
especificaciones tcnicas del mismo.
El proceso de diseo y aplicacin de pruebas integra diferentes, a saber:
Pilotaje.
Aplicacin.
Escala de calificacin.
Obviamente, luego de construir el marco terico de la prueba, debe procederse a la elaboracin de tems, en cuyo proceso deben tenerse en cuenta las siguientes reglas. 2 1
Reglas generales
Verificar que el tem corresponda con los propsitos de la evaluacin, la estructura de la prueba y con las dimensiones disciplinares. Todas las preguntas de una
prueba deben ser independientes entre s. La informacin de un tem no debe
servir de pauta para contestar otro, ni la respuesta a un tem debe depender de
haber encontrado primero la de otra anterior.
Evitar los tems que pueden contestarse por sentido comn y aquellos cuya respuesta dependa nicamente de recordar un trmino, un smbolo, un dato o la
fecha en que ocurri un evento.
2 Rocha, Martha y otros. Seminario regional Evaluacin de la Educacin. Taller de elaboracin de tems, ICFES,
agosto de 2006, p. 10.
14
Garantizar la coherencia interna del enunciado y de este con las opciones de respuesta.
Las opciones de un tem no deben dar indicaciones sobre la clave por ofrecer un
cierto contraste evidente de:
generalizacin / particularizacin
Debe evitarse en las opciones las expresiones todas o ninguna de las anteriores,
en su lugar es necesario construir alternativas de respuestas plausibles para las
personas que no tengan el dominio conceptual que exige el tem.
IDEICE 2014
15
Especificaciones de la prueba
Constituyen una descripcin lo ms detallada posible de las caractersticas del instrumento.
Suele utilizarse para hacer tal descripcin una tabla de doble entrada: en la primera columna es comn colocar una desagregacin del objeto de evaluacin en dimensiones (tpicos
disciplinares) y en el resto de las columnas se suele escribir la delimitacin de las especificidades tcnicas del instrumento, tales como longitud (estructura de la prueba) y formato
(especificidades psicomtricas).
Al hacer el anlisis de una prueba que satisfaga la tabla de especificaciones antes referida
es posible describir, diagnosticar, el rendimiento de los alumnos que la realicen desde el
punto de vista conceptual, procedimental y actitudinal. Puede incluso construirse un ndice
con cada una de sus dimensiones ( conceptual, procedimental y actitudinal) y precisar en
cul de ellas los alumnos tienen mayores deficiencias.
Particular importancia tiene el poder constatar el grado de asimilacin que han alcanzado
los alumnos en la dimensin actitudinal, la cual sin dudas es un componente esencial de sus
orientaciones valorativas.
La descripcin de las tareas de evaluacin a partir de las cuales ser posible materializar (en
tems) el propsito de la evaluacin constituye la operacionalizacin del objeto de evaluacin.
Como para de las especificaciones psicomtricas se debe clarificar el nmero de tems que
tendr el instrumento en su totalidad.
Desarrollo de la prueba
Es esencial destacar que el propsito de esta fase es producir un instrumento de evaluacin
y no un agregado de tems.
Despus de elaborar los tems, se ensambla el instrumento de acuerdo con las especificaciones psicomtricas y se somete a una revisin final, generalmente por parte de expertos en
evaluacin y en el objeto de evaluacin.
De manera que una prueba es un conjunto intencionalmente articulado de tems a travs
de cuya aplicacin se infiere el desempeo de quienes son evaluados en relacin con el
objeto de la evaluacin.
Aplicacin piloto
En esta fase el instrumento es aplicado a una muestra de la poblacin objetivo para estimar
indicadores estadsticos que permitan corroborar la calidad tcnica del instrumento y el
grado de pertinencia de los tems para la poblacin.
Las condiciones de la aplicacin piloto deben guardar la mayor similitud posible con las
condiciones que tendr la aplicacin definitiva.
16
Cuando no existen las condiciones logsticas necesarias para garantizar una adecuada aplicacin piloto de la prueba, se puede utilizar como alternativa un juicio de
expertos, o sea un procedimiento a travs del cual un equipo de personas expertas
en el objeto de evaluacin y en procesos de evaluacin, los que califican los tems
de un instrumento a la luz de las consideraciones planteadas en la fundamentacin
conceptual de la prueba y su coherencia con los objetivos de la evaluacin, sus especificaciones psicomtricas y las caractersticas de la poblacin objetivo.
Contenido de los tems
Para hacer tems de buena calidad es necesario conocer las caractersticas de los distintos
formatos de tems que han de utilizarse en la evaluacin, aplicar las reglas para su correcta
elaboracin y evitar los factores que pueden afectar su validez.
Posibles formatos de los tems
A continuacin mostramos una clasificacin de formatos de tems tomando como criterio o
base de la misma lo que el evaluado hace cuando se enfrenta a un tem, o sea seleccionar o
producir una respuesta.
Seleccin de respuestas
Seleccin mltiple
Apareamiento
Seleccin alterna
Verdadero - Falso
Dependientes de contextos
Formato
de items
Produccin de respuestas
Completar respuestas
Ensayo corto
Ensayo largo
Ensayo oral
Ejecucin
Productos no escritos
IDEICE 2014
17
En este libro solo mostraremos la tcnica de elaboracin de tems del formato seleccin
mltiple con una nica respuesta correcta y en la ejemplificacin pondremos el nfasis en
aquellos tems cuyo propsito es evaluar los contenidos actitudinales.
El tem de seleccin mltiple con nica respuesta correcta
Las partes que componen un tem de este tipo son:
El contexto
El enunciado
El contexto
Es la informacin que sita conceptualmente al evaluado pues provee los elementos necesarios y suficientes para focalizar la tarea de evaluacin. Este puede ser un texto, una grfica,
un dibujo, una tabla o cualquier otra forma de presentacin de la informacin a partir de
cual se deriva el enunciado.
El enunciado
Es el planteamiento propiamente dicho, de la problemtica que se espera sea resuelta por
el evaluado. 3 1
Comnmente los enunciados de tems de seleccin mltiple como nica respuesta correcta
se plantean en forma de pregunta o como una proposicin. En el primer caso las opciones
se redactan como respuestas a la pregunta; en el segundo caso, en enunciado constituye la
primera parte de una proposicin y cada una de las opciones debe completar coherentemente el enunciado.
Es conveniente tener en cuenta que para los nios la redaccin en forma de preguntas resulta mas clara.
Las opciones de respuesta
Las opciones son posibles inverosmiles respuestas a la problemtica planteada en el enunciado.
Reglas para la elaboracin de tems de seleccin mltiple con nica respuesta correcta.
Las reglas de elaboracin de tems que a continuacin les presentamos, tienen la pretensin
de orientar al evaluador para que los tems que elabore evalen realmente el objeto de evaluacin que se pretende; en tal sentido, la aplicacin de tales reglas contribuye a consolidad
la validez de la interpretacin de los resultados4.2
3 AERA, APA, NCME (1999) standard for educational and psychological testing. Washintong: AERA
4 Rocha, Martha y otros. Seminario regional Evaluacin de la Educacin. Taller de elaboracin de tems, ICFES,
agosto de 2006, pg. 30-31.
18
Evite elaborar tems que confunden al evaluado. Diferentes estudios han establecidos cules son algunas de las situaciones que llevan a percibir los tems como
confusos entre stas estn:
a) Contenido trivial.
b) Presencia de informacin irrelevante.
c) Presentacin ambigua de las opciones de respuesta.
d) Discriminacin muy fina difcil de percibir entre las opciones de respuesta.
e) Presentacin de informacin en modo distinto a como ha sido aprendida por la
poblacin evaluada, dentro de su proceso educativo.
Evite evaluar el mismo aspecto especfico con varios tems. Aproveche cada tem
para hacer cada vez ms completa la evaluacin.
Evite tems que incluyan posiciones ideolgicas o prejuicios; que tenga en cuenta
que las proposiciones prejuiciosas pueden resultar en una ofensa para cualquiera
de los evaluados. Se excepta esta recomendacin si justamente dichas posiciones son el objeto de evaluacin; entonces ser obligatorio incluirlas.
No utilice tems que aparezcan en libros, revistas u otros documentos, como base
para sus tems. Elabore tems originales.
Evite tems en los cuales se indague la opinin (parecer no argumentado) del evaluado (a menos que el instrumento justamente pretenda servir para un sondeo
de opinin).
Evite plantear tems cuya respuesta vlida se determine segn la opinin de quien
la elabora.
Balancee la complejidad de los tems para que el instrumento cubra los niveles
de habilidad de la poblacin objetivo, es decir, la prueba debe incluir tems de
dificultad alta, media y baja.
IDEICE 2014
19
20
Mantenga la independencia entre las opciones. stas no deben solaparse o intersectarse y no deben ser sinnimas.
Refirase en todas las opciones al problema planteado en el enunciado. Evite opciones fcilmente descartables.
--
--
--
No s
Redacte las opciones en forma positiva, es decir evite negaciones. Si debe colocar
una negacin, resltela (use negrilla o maysculas sostenidas).
Elabore tems con 4 opciones de respuesta. Elaborar opciones plausibles es dispendioso; seguramente ganar calidad en las que redacte si no son demasiadas.
Hay referencia de distintos estudios que analizaron la cantidad de opciones tiles para los propsitos de evaluacin; si bien no existe consenso alrededor de un
nico nmero de opciones, se encuentra a menudo conveniente, en cuanto a facilidad de redaccin y capacidad de discriminacin, trabajar con 4 opciones, para
poblaciones de infantes puede ser conveniente usar 3 opciones.
Siempre
--
Nunca
--
Totalmente
--
Absolutamente
--
Completamente
La posicin de la opcin vlida debe balancearse entre todos los tems del instrumento. Es recomendable que aparezca proporcionalmente en cada posicin
posible.
Evite que la opcin vlida pueda ser identificada fcilmente por contraste con las
dems opciones, por alguna de las siguientes situaciones:
--
--
--
--
--
--
Justifique adecuadamente cada una de las opciones para garantizar que slo hay
una vlida que las dems son plausibles para quienes no dominan completamente la tarea de evaluacin.
Sobre la validez
Factores que afectan la validez
Cuando hablamos actualmente de validez no nos referimos al instrumento, sino a las inferencias e interpretaciones realizadas a partir de los resultados obtenidos en un proceso de
evaluacin donde se ha utilizado el instrumento en cuestin.
Entendemos entonces por validez el juicio evaluativo del grado en el cual la evidencia
emprica sustentan la pertinencia y conveniencia de las inferencias acerca de los resultados
en un instrumento de medicin as como de las acciones que se realizan a partir de dichos
resultados.15
La elaboracin de los tems puede verse afectada en cuando a la validez por los siguientes
factores:
La tarea planteada por el tem no es relevante para la evaluacin del objeto planteado en el marco de fundamentacin.
No existe una frmula nica y universal para mejorar la calidad de un tem, pero sin lugar a
dudas el estricto cumplimiento de las reglas para su elaboracin y el tomar distancia de los
factores que pueden afectar su validez, ayudan de manera decisiva a conseguir que tengan
una adecuada calidad.
5 Messick, S (1989). Validity. In R. L. Linn (Ed.). Educational measurement (3rd ed. Pgs 13 103. New York: Mac
millan)
IDEICE 2014
21
Un primer anlisis factorial que descarta aquellos tems que conforman factores
perifricos.
Se hace lo mismo en posteriores anlisis hasta lograr un anlisis en el que un factor explica la mayor parte, idealmente toda, de la varianza de los tems.
es poco razonable intentar ajustar un modelo de un parmetro (Rasch) si se sospechan ndices de discriminacin no iguales, lo cual puede evaluarse tentativamente escrutando dichos ndices en la Teora Clsica del Test (TCT), o si es alta la
probabilidad de acertarlos al azar (el modelo de un parmetro asume un ndice de
discriminacin constante (a=K ) y (c=0).
22
BILOG (Michuy y Bock, 1984) para modelos logsticos de uno, dos y tres parmetros)
Estos programas ofrecen como salida fundamental los valores estimados de los parmetros
de cada tem y el valor de de cada sujeto.
El uso de X2 (chi-cuadrado).
23
La curva caracterstica del test es la suma de las curvas caractersticas de los tems
que componen el test, o sea, si a cada nivel de q se suman los valores de P(q) de
cada tem para ese nivel, se obtiene la CCT, lo que puede expresarse matemticamente como sigue:
CCT =
Pi (q)
i=1
Pi()=
e(1,7)(1)(1-0,75)
1+ e(1,7)(1)(1-0,75)
Pi(1)=
e0,425
1+e0,425
1,53
1+1,53
=0,6049
Pi(1)= 0,6049
A continuacin se muestra una tabla donde aparecen todos los resultados de este ejercicio:
n
24
P(q)
Item 3
CCT
Item 1
Item 2
Item 4
-3
0,0017
0,0000
0,0000
0,0000
0,0017
-2
0,0091
0,0004
0,0000
0,0000
0,0095
-1
0,0481
0,0059
0,0000
0,0000
0,0540
0,2177
0,0719
0,0010
0,0000
0,2906
0,6049
0,5000
0,0319
0,0001
1,1369
0,8938
0,9280
0,5000
0,0138
2,3356
0,9788
0,9940
0,9680
0,5000
3,4408
IDEICE 2014
DIFICULTAD
--
Definicin: indica la posicin de la curva del tem a lo largo de la escala de habilidad; entre ms difcil es un tem su curva estar localizada ms a la derecha
en la escala de habilidad.
--
Justificacin de uso: es uno de los parmetros fundamentales en los Modelos de de la TRI. Es indicador base para la conformacin de pruebas y de bancos de tems, as como para establecer comparabilidad de escalas. Se requiere
para obtener otros indicadores de tems (curvas caractersticas, funcin de
informacin).
--
--
25
DISCRIMINACIN
--
--
--
--
Criterio de aceptacin: son aceptables los tems con valores de discriminacin superiores o iguales a 0.7. No obstante, en caso de tener un mayor nmero de tems que los necesarios, la aceptabilidad se hara en orden del valor de
la discriminacin.
--
--
Interpretacin: puede tomar valores entre 1 y 1. Los valores positivos indican que la respuesta correcta al tem est asociada a altos puntajes en la prueba; valores negativos indican que dicha asociacin se da de manera inversa,
es decir, altos puntajes en la prueba se asocian a una respuesta incorrecta al
tem.
--
6 ETS. (2000). ETS Standards for quality and fairness. Educational Testing Service. Princeton: New Jersey.
26
Definicin: grado en el cual un tem presenta propiedades estadsticas diferentes en distintos grupos poblacionales, cuando se controla la habilidad
de los grupos.
--
Justificacin de uso: es un indicador de equidad en cuanto permite reconocer tems que presenten comportamiento estadstico diferente en los distintos pases participantes en el estudio, bien sea para proceder a ajustar dichos
tems si se encuentra que el DIF se debe a fallas de construccin- o para reconocer necesidades particulares de ajuste o cualificacin de procesos educativos si se descartan problemas de construccin del tem-. En cualquier
caso, debe garantizarse que la calificacin final en el estudio se realice a partir
de tems que no presenten DIF.
--
Interpretacin: se interpreta el test t de significancia estadstica para aceptacin o rechazo de la hiptesis de funcionamiento diferencial que es equivalente al test de significancia Mantel Haenszel.
--
--
Clculo: el anlisis de DIF se realiza con todos los tems (o todos los grupos
poblacionales), excepto con el que est siendo analizado, anclando sus dificultades (habilidades) a los valores de las dificultades (habilidades) para la
totalidad de los tems (o grupos poblacionales) incluyendo el que est siendo analizado. Se calcula un DIF de contraste que corresponde a la diferencia
entre los tamaos de DIF de los tems (o grupos poblacionales) en estudio,
que es equivalente a la medida de DIF con procedimiento Mantel-Haenszel.
--
Justificacin de uso: permite verificar el grado en el cual el modelo da cuenta de los resultados de la evaluacin10.4
--
Interpretacin: la curva caracterstica del tem para el Modelo de Dos Parmetros toma la forma de una ojiva logstica. La interpretacin consiste en
verificar la correspondencia entre la curva emprica del tem y la curva caracterstica.
--
Criterio de aceptacin: curvas empricas (ECC) que se comportan de acuerdo con la curva caracterstica del modelo.
27
28
--
--
Interpretacin: los valores posibles se encuentran entre cero (0) e infinito positivo. El valor que determina el ajuste perfecto entre los datos y el modelo es
1. Los valores muy inferiores a 1 indican dependencia de los datos (paradoja
de atenuacin); valores superiores a 1 indican ruido en la informacin; valores
superiores a 2 indican que el ruido es mayor que la informacin til.
--
--
--
Justificacin de uso: permite reconocer la proporcin de personas que seleccionan una opcin como respuesta correcta y su habilidad promedio. La combinacin de estos dos datos proporciona informacin til para determinar la
validez de cada tem en relacin con los marcos conceptuales de las pruebas
y valorar la calidad de cada opcin.
--
--
-#
T
1
-###
IT03
IT09
S
-######
-########
IT14
IT11
M IT01
IT12
IT05
IT06
-############
M
S
IT04
-########## ##
-1
IT06
T
-###########
-2
-####
T
-3
-#
<less> <frequ>
EACH # IS 16-
IDEICE 2014
29
30
--
Justificacin de uso: permite contrastar la dificultad de los tems en una poblacin particular y determinar si stos se ajustan a la poblacin; igualmente,
es posible observar el cubrimiento de las habilidades por parte de los tems.
Permite identificar grupos de tems o de personas que por su nivel de dificultad o habilidad, respectivamente, merezcan una atencin especial en el anlisis. Pueden ser contrastadas las expectativas de los constructores de tems,
en relacin con el nivel de dificultad de los tems, as como si la muestra seleccionada se comporta de acuerdo con los propsitos del diseo muestral.
--
--
Criterio de aceptacin: se espera que las distribuciones de habilidades y dificultades tengan posicin y dispersin semejantes entre s. De esta manera
se entiende que el grupo de preguntas analizado cubre la totalidad de las
habilidades de la poblacin. Si las distribuciones no son semejantes, las diferencias deben ser interpretadas a la luz de los marcos tericos de las pruebas
y del propsito del estudio SERCE.
--
--
--
Definicin: corresponde a la desviacin estndar de una distribucin imaginaria de errores que representan la posible distribucin de valores observados alrededor del valor terico verdadero. Es un indicador de la confiabilidad.
--
Justificacin de uso: si se calcula el error de medicin de cada habilidad estimada o dificultad estimada (o conjunto de habilidades o dificultades), se
conoce la precisin de la medida o la estimacin, orientando la toma de decisiones para la depuracin de bases de datos y para el anlisis de tems.
--
errores est asociada a la escala de medicin utilizada, por lo cual no es posible establecer, de manera universal y de antemano, un valor mnimo aceptable de error.
--
PROMEDIO
--
Definicin: promedio de las dificultades de los tems del bloque y de las habilidades de las personas que abordan el bloque.
--
Justificacin de uso: permite conocer el comportamiento del bloque en diferentes grupos poblacionales, en relacin con la posicin de dicho bloque en
distintos cuadernillos. Tambin permite observar el comportamiento relativo
de los distintos grupos poblacionales, de acuerdo con el diseo muestral.
--
Interpretacin: si el bloque se encuentra ajustado a la poblacin, el promedio de habilidades debe ser aproximadamente igual al promedio de dificultades. Si el promedio de habilidades es superior, significa que el bloque fue
relativamente fcil para ese grupo poblacional; si por el contrario el promedio
de habilidades es inferior al promedio de dificultades, significa que el bloque
fue relativamente difcil para ese grupo poblacional. El porcentaje de respuestas correctas aporta al anlisis intrabloque en cuanto constituye un indicador
general de la manera en que los evaluados abordaron cada bloque.
DESVIACIN ESTNDAR
11 AERA, APA, NCME. (1999). Standards for educational and psychological testing. Washington: AERA.
IDEICE 2014
31
32
--
--
Definicin: puntuaciones logit ms alta y ms baja alcanzadas por una poblacin particular.
--
--
CONFIABILIDAD
--
--
--
IDEICE 2014
33
-2
-1
-1
Series1
1
-2
-3
-4
En este caso la interpretacin del grfico consiste en que no se cumple el supuesto de unidimensionalidad pues cada conjunto de tems est midiendo un rasgo latente diferente.
Comprobacin grfica del supuesto de la curva caracterstica del tem
Cada modelo tiene una curva caracterstico, la curva ideal (aparece con color rojo en el grfico que aparece a continuacin). El elemento que se necesita contrastar en una medicin es
la curva real del tem (aparece en color azul) contra el modelo previsto terico. Hay un grado
de diferencia entre el comportamiento real de las personas y la curva ideal del modelo.
Las lneas grises representan los niveles extremos. Se espera que la azul si es perfecta se
superponga sobre la roja y que en ningn caso se salga fuera de las curvas extremas.
34
2.IT03
Expected Score
0.666667
0.333333
-5
-4
-3
-2
-1
Measure
En el caso del tem representado en el grfico anterior, solo se sale de la franja para estudiantes de habilidad entre 2 y -1.
1.IT01
1
Expected Score
0.666667
0.333333
0
-5
-4
-3
-2
-1
Measure
En el caso del tem representado en el grfico anterior, este se ajusta totalmente al modelo
ideal, pues se mantiene dentro de la franja marcada por las curvas grises. Ello significa que
el mismo cumple el supuesto de la curva caracterstica del tem.
IDEICE 2014
35
5.IT06
1
Expected Score
0.666667
0.333333
0
-5
-4
-3
-2
-1
Measure
Resulta evidente que el tem representado en el grfico anterior, no cumple con el supuesto
de la CCI para estudiantes de niveles intermedio de habilidad.
Cada distractor tiene tambin su curva caracterstica. A continuacin vemos un ejemplo:
36
. . . . . . . . +
96 +
92 +
88 +
84 +
80 +
76 +
72 +
68 +
64 +
1.
60 +
. . . .
. . .
. .
. *
. *
56 +
52 +
1 .
48 +
. .
44 +
40 +
1 .
36 +
32 +
28 +
24 +
20 +
16 +
12 +
8 +
. .
.1
. .
. *
. . .
. . *.
4 + . . . . . . . .
0 +.
++ - - - - - - -+- - - - - - - +- - - - - - - -+ - - - - - - -+ - - - - - - - + - - - - - - - + - - - - - - -+ - - - - - - - ++
-4
-3
-2
-1
ESTUDIANTE MEASURE
IDEICE 2014
37
100 + .
96 + . . . . . . . .
F
92 +
88 +
84 +
80 +
76 +
72 +
68 +
64 +
60 +
. . . .
. . .
. .
. .
. .
52 +
48 +
56 +
O
40 +
36 +
32 +
28 +
24 +
20 +
16 +
12 +
8 +
44 +
R
. .
.
2
2
. .
2 .
+
+
. .
2. .
. . .
. . . .
4 +
. . . . . . . . +
0 +
.+
++ - - - - - - - +- - - - - - - +- - - - - - - -+ - - - - - - - + - - - - - - -+ - - - - - - - + - - - - - - - + - - - - - - - ++
-4
-3
-2
-1
ESTUDIANTE MEASURE
38
100 + .
96 + . . . . . . . .
F
92 +
88 +
84 +
80 +
76 +
72 +
68 +
64 +
60 +
. . . .
. . .
. .
. .
. .
56 +
O
52 +
48 +
+
+
40 +
36 +
32 +
28 +
24 +
20 +
16 +
12 +
8 +
44 +
R
. .
.
3
. .
.
3
. .
. .
. . .
3
. . . .
. . . . . . . . +
4 +
.+
0 +
++ - - - - - - - +- - - - - - - +- - - - - - - -+ - - - - - - -+ - - - - - - -+ - - - - - - - + - - - - - - -+ - - - - - - - ++
-4
-3
-2
-1
ESTUDIANTE MEASURE
IDEICE 2014
39
100 + .
96 + . . . . . . . .
F
92 +
88 +
84 +
80 +
76 +
72 +
68 +
64 +
60 +
. . . .
. . .
. .
. .
. .
52 +
48 +
44 +
40 +
36 +
32 +
28 +
24 +
20 +
16 +
12 +
8 +
56 +
O
. .
.
4
. .
. .
+
+
. .
. . .
4
4 +
. . . .
4
. . . . . . . . +
.+
0 +
++ - - - - - - - +- - - - - - - +- - - - - - - -+ - - - - - - -+ - - - - - - -+ - - - - - - - + - - - - - - -+ - - - - - - - ++
-4
-3
-2
-1
ESTUDIANTE MEASURE
40
BIBLIOGRAFA
Cohen, A. y Woollack, J. 2004. Helpful tips for creating reliable and valid classroom
test Handbook on Test Development. U. Wisconsin.
Cheung, D. y Bucat, R. 2002. How can we construct good multiple choice tems? Hong
Kong, Sciens and Technology Education Conference.
Fenton, N. E. y Pfleeger, S. L. 1997. Software metrics. A rigurous and practical approach. Boston, PWS Pub.
Haladyna, T. 1994. Development and validatin multiple choice test tems. New Jersey, Lawrence Earlbaum Associates.
Hambleton, R. y Zaal, J. 1994. Advances in educational psychological testing. Boston, Kluwer Academic Publishers.
Martnez rias, Mara Rosario y otras. Psicometra. Alianza Editorial S.A, 2006, Madrid, Espaa.
Messick, S. 1989. Validity. R.L. Linn (Ed.). Educational measurement New York, Macmillan, 3a ed., pp. 13-103.
IDEICE 2014
41